Vulgarisation de l’intelligence artificielle pour en comprendre son fonctionnement
L’informatique, en constante évolution, se place au centre de notre société moderne. Ses sphères sont la programmation, les bases de données, les réseaux, l’intelligence artificielle, la cybersécurité, la cyberdéfense et bien d’autres. L’axe de travail de l’informatique est de transformer des données en une information numérique exploitable. Son utilisation se retrouve dans les métiers de la santé, la finance, la sécurité, les technologies de l’information, l’éducation, les ressources humaines, le tourisme, l’hôtellerie, le transport, la logistique, le divertissement, les arts, la culture et bien d’autres.
Par Dr. Cyril-Alexandre Pachon, Directeur du cursus IA et directeur des études à l’école Hexagone
Cyril-Alexandre Pachon est docteur en Informatique, Systèmes et Communication. Pendant ses premiers travaux de recherche, il contribue à la normalisation des tests automatiques de conformité et de robustesse. Il effectue les premières recherches et résultats au sein d’actions spécifiques du CNRS sur la sécurité des systèmes logiciels. Ses présentations exposent des solutions sur les politiques de sécurité et la détection d’erreurs en présence d’aléas. En 2020, il devient directeur des études et directeur du cursus IA à l’école Hexagone. Ce cursus se compose des métiers en Data analyste, Data scientiste, Architecte Machine Learning et Architecte Deep Learning.
Cadre général
Pour offrir un premier cadre général, l’environnement de développement en informatique est une discipline constituée, de données (numériques ou analogiques), dont les informations calculées ou produites sont stockées en masse (Big Data), et d’instructions de traitements (programmes, applications, systèmes, apprentissage automatique, Internet des objets, …). Pour le décrire, il représente un ensemble de techniques et de méthodes pour traiter et simuler notre monde réel. Pour déployer les modèles automatiques, la principale clef est de disposer de données fiables contrôlées et protégées pour en exploiter les informations :
- Les données : Il s’agit de valeurs brutes, de chiffres, de textes, d’images, de sons, … pas encore été traités. Les données sont structurées (bases de données, tableaux, …) ou non structurées (textes, images, sons, …).
- Les informations : Il s’agit de résultats produits après le traitement sur les données. Elles ont du sens et deviennent utiles pour une prise de décision. Par exemple, une simple série de mesures numériques (données) s’analyse par traitement pour déterminer une tendance climatique (information).
Principes généraux de l’IA
L’Intelligence Artificielle (IA) est une des branches de cette informatique. Ses développeurs en Data science s’efforcent de reproduire, d’extraire et de construire avec des modélisations (équation, mécanique, physique, comportement, concept, etc.) des actions “réelles” et/ou “usuelles” à partir de données. Les modèles d’IA deviennent les architectures et les données deviennent ses caractéristiques.
Aujourd’hui l’IA se retrouve au quotidien dans nos vies (visible ou cachée). Par conséquent, existe-t-il plusieurs IA ? Comment la définir ? Est-elle sécurisée ? Influence-t-elle nos modes de vie, nos pensées ? Qu’attendre du futur en termes d’IA ?
Un premier modèle d’apprentissage automatique est une architecture d’IA supervisée (Machine Learning) formée à partir d’un ensemble de données (caractéristiques) et de cibles étiquetées connues. Ce modèle mathématique s’attarde à construire les liens fonctionnels entre les entrées et les cibles, pour en prédire les sorties connues (par exemple reconnaître des animaux, des objets, …). Les principaux composant et étapes sont :
- Collecte des données et cibles étiquetées, nettoyage des données.
- Entraînement : Algorithmes et modèles (analyses statistiques, calculs de distances, simulations, …) pour transformer les données en informations utiles pour définir l’IA.
- Évaluation : Ensemble de tests pour vérifier la capacité de l’IA à prédire correctement les résultats.
- Visualisation des informations : Sous forme de graphiques, de tableaux pour faciliter la compréhension et l’utilisation des résultats.
Un deuxième modèle d’apprentissage automatique est une architecture d’IA non supervisée (Deep Learning) utilisant des modèles et des techniques pour apprendre seule à partir de données sans cibles et étiquettes définies. L’architecture cherche seulement à identifier des structures ou des motifs cachés dans les données pour les classer. Les principaux composants et étapes sont :
- Collecte des données d’entrée : Venant du Web scraping (données du web), des sondages et questionnaires, des demandes auprès d’utilisateurs, des vidéos, des jeux vidéo, des capteurs et en quelque sorte toutes les données existantes dans l’environnement pour l’IA.
- Nettoyage des données : Avec expertise pour éliminer les doublons, gérer les valeurs manquantes et corriger les erreurs.
- Normalisation/Standardisation : Avec expertise pour ajuster les échelles des variables pour éviter que certaines caractéristiques dominent.
- Entraînement : Avec expertise pour sélectionner et implémenter un algorithme approprié avec identification et extraction des caractéristiques pertinentes pour construire l’architecture.
- Évaluation de la performance des résultats : Pour interpréter les résultats pour comprendre leur signification dans le contexte du problème.
Pour aller plus loin, un réseau de neurones est utilisé pour avoir plus de précisions dans les systèmes automatiques. Il s’agit d’une architecture inspirée du cerveau humain capable d’apprendre des représentations complexes, classification d’images, traduction automatique, etc.
Modèles d’IA
Chaque modèle d’IA a ses propres caractéristiques, avantages et inconvénients, et le bon choix dépend de la nature des données et de la tâche à accomplir. Il n’existe pas un seul “meilleur” modèle d’IA pour détecter et contrer les intrusions dans un réseau. Il dépend de plusieurs facteurs, notamment la nature du réseau, le type d’attaques visées, et les ressources disponibles :
- Détection des intrusions : Les IDS (Systèmes de Détection d’Intrusions) utilisent des modèles d’apprentissage automatique pour identifier les comportements anormaux ou malveillants sur un réseau. Ils analysent des volumes de données en temps réel pour détecter des menaces potentielles.
- Analyse des malwares : L’IA est utilisée pour analyser et classifier des fichiers suspects. Des modèles de machine Learning sont formés pour reconnaître des signatures de malwares connus et des comportements anormaux indiquant une nouvelle variante de malware.
- Phishing et fraude : L’IA analyse les e-mails et les sites web pour détecter des tentatives de phishing. Ces systèmes évaluent les caractéristiques textuelles, les liens et d’autres facteurs pour identifier les menaces.
- Automatisation des réponses aux incidents : L’IA automatise certaines réponses aux incidents de sécurité, comme pour identifier rapidement des menaces et déclencher des actions correctives.
- Analyse prédictive : L’IA analyse les données historiques pour prédire des attaques futures ou des vulnérabilités potentielles. Les entreprises peuvent ainsi prendre des mesures proactives pour renforcer leur sécurité.
- Gestion des identités et des accès : L’IA est utilisée pour surveiller les comportements des utilisateurs et détecter des anomalies qui pourraient indiquer un accès non autorisé ou un compte compromis.
- Sécurité des IoT (Internet des objets) : Avec l’augmentation des dispositifs connectés, l’IA est utilisée pour surveiller et sécuriser les réseaux IoT, en détectant des comportements suspects ou des vulnérabilités.
Problèmes et enjeux posés par l’IA
Enfin, l’IA soulève certains problèmes et enjeux qui peuvent être classés en plusieurs catégories :
Éthique et biais :
- Biais algorithmique : L’IA reproduit ou amplifie des erreurs présentes dans les données d’entraînement, facilitant des discriminations envers certaines populations.
- Transparence : La décision prise reste opaque, rendant difficile la compréhension et l’évaluation des processus décisionnels.
- Responsabilité : Qui est responsable des erreurs ou des préjudices causés par des systèmes d’IA ? La question de la responsabilité légale reste complexe.
Cyberattaques :
- L’IA peut être utilisée pour mener des cyberattaques, rendant la sécurité informatique encore plus complexe.
Manipulation et désinformation :
- Deepfakes : La capacité de créer des contenus vidéo et audio falsifiés pour manipuler l’opinion publique et diffuser de fausses informations.
- Propagation de la désinformation : Les algorithmes peuvent favoriser la diffusion de contenus trompeurs ou biaisés sur les réseaux sociaux.
Développement soutenable :
- Consommation énergétique : Les modèles d’IA basés sur les modèles d’apprentissage, peuvent nécessiter une grande quantité d’énergie, soulevant des préoccupations environnementales.
- Exploitation des ressources : Le développement de l’IA entraîne une exploitation accrue des ressources naturelles.
Inégalités technologiques :
- Accès inégal à la technologie : Les pays et les communautés sans accès aux technologies d’IA peuvent être en difficultés, accroissant les inégalités existantes.
Ces problèmes nécessitent une attention continue, des discussions éthiques et des réglementations adaptées pour maximiser les avantages de l’IA tout en minimisant ses risques et ses impacts négatifs.
Vivre avec l’IA
Pour conclure, l’impact de l’IA se fait sentir dans presque tous les aspects de la vie moderne. À mesure que la technologie continue d’évoluer. L’importance de l’informatique et des informations qu’elles produisent ne feront qu’accroître, posant à la fois des opportunités et des défis à relever.
En reprenant les questions posées, oui, il existe plusieurs IA. Elles se définissent en fonction des demandes. Elles sont sécurisées dans la mesure du possible, mais il faut renforcer les protections. Elles influencent nos modes de vie, nos pensées, nos emplois. Il faut attendre que dans le futur les IA prennent encore plus d’importance et qu’il faudra vivre avec.