Origine de l'intelligence artificielle

Les précurseurs philosophiques et mathématiques

L'idée de créer des êtres pensants artificiels est ancienne. Les philosophes grecs s'interrogeaient déjà sur la nature de la pensée et du raisonnement. Mais c'est au XVIIe siècle que des mathématiciens comme Gottfried Wilhelm Leibniz et René Descartes commencent à envisager la possibilité de mécaniser le raisonnement. Leibniz rêve d'un "calcul universel" capable de résoudre tous les problèmes par le calcul.

Au XIXe siècle, Charles Babbage conçoit sa "machine analytique", ancêtre théorique de l'ordinateur, capable d'exécuter des opérations arithmétiques complexes. Ada Lovelace, qui collabore avec Babbage, rédige ce qui est considéré comme le premier algorithme destiné à être traité par une machine. Elle anticipe même les limites de ces machines : elles ne peuvent que faire ce qu'on leur ordonne de faire.

La naissance de la logique formelle

Au début du XXe siècle, les logiciens Gottlob Frege, Bertrand Russell et Alfred North Whitehead cherchent à formaliser les mathématiques à partir de règles logiques. Ce projet, appelé logicisme, pose les bases d'une pensée formalisable et donc potentiellement mécanisable. En 1931, Kurt Gödel démontre avec ses théorèmes d'incomplétude que toute système formel suffisamment puissant contient des vérités indémontrables, ce qui marque une limite fondamentale à cette ambition.

Alan Turing, en 1936, publie son article fondateur dans lequel il décrit une machine abstraite — la "machine de Turing" — capable d'exécuter n'importe quel algorithme. Ce modèle théorique deviendra la base conceptuelle de tous les ordinateurs modernes.

Alan Turing et la question de la pensée machine

En 1950, Alan Turing publie un article intitulé "Computing Machinery and Intelligence" dans lequel il pose la question : "Les machines peuvent-elles penser ?" Il propose le célèbre "test de Turing", un jeu d'imitation dans lequel une machine doit convaincre un humain qu'elle est elle-même humaine. Cet article est souvent considéré comme le point de départ de l'intelligence artificielle en tant que discipline.

Le test de Turing n'est pas resté une simple idée théorique. Dès 1991, le scientifique Hugh Loebner organise le premier concours annuel officiel basé sur ce principe, le Loebner Prize : des juges humains dialoguent par écrit simultanément avec un humain et un programme, et doivent deviner lequel est lequel. Pendant des années, les programmes échouent à tromper la majorité des juges, mais certains y parviennent ponctuellement en usant de ruses — réponses volontairement vagues, fautes d'orthographe simulées, digressions — plutôt que par une véritable intelligence.

Des expériences moins formelles ont également eu lieu sur des plateformes de rencontres et de chat en ligne. Des chercheurs ont introduit des bots dans des conversations censément humaines, et observé que beaucoup d'utilisateurs ne détectaient pas l'imposture, parfois pendant plusieurs semaines. Ces expériences ont mis en lumière un phénomène psychologique important : les humains ont une forte tendance à prêter des intentions et des émotions à leur interlocuteur, dès lors que celui-ci produit des réponses cohérentes et contextuellement adaptées. Ce biais, que l'on appelle parfois l'effet ELIZA en référence au programme de Weizenbaum, rend le test de Turing moins objectif qu'il n'y paraît : ce qu'il mesure autant que l'intelligence de la machine, c'est la crédulité naturelle de l'humain.

La conférence de Dartmouth (1956)

L'année 1956 marque la naissance officielle de l'intelligence artificielle comme champ de recherche. Lors d'une conférence à l'université de Dartmouth, organisée par John McCarthy, Marvin Minsky, Nathaniel Rochester et Claude Shannon, le terme "intelligence artificielle" est utilisé pour la première fois. Les participants sont convaincus qu'il est possible de simuler tous les aspects de l'intelligence humaine grâce à des machines.

John McCarthy joue un rôle central : il inventera plus tard le langage de programmation LISP, qui deviendra le langage de référence de la recherche en IA pendant des décennies.

Les premières années d'optimisme (1956–1974)

Les années qui suivent la conférence de Dartmouth sont marquées par un enthousiasme débordant. Des programmes comme le Logic Theorist (1956) de Newell et Simon, capable de démontrer des théorèmes mathématiques, ou ELIZA (1966) de Joseph Weizenbaum, un programme simulant un psychothérapeute, font sensation. Les chercheurs pensent que l'IA générale est à portée de main en quelques décennies.

Le premier hiver de l'IA (1974–1980)

Les promesses ne se concrétisent pas. Les ordinateurs manquent de puissance de calcul, les problèmes réels se révèlent bien plus complexes que prévu, et les méthodes employées ne passent pas à l'échelle. Les financements se tarissent, notamment aux États-Unis et au Royaume-Uni, après des rapports sévères comme celui de James Lighthill en 1973. C'est le début de ce qu'on appelle le premier "hiver de l'IA".

Le renouveau des systèmes experts (1980–1987)

L'IA connaît un regain d'intérêt avec l'apparition des systèmes experts : des programmes fondés sur des règles codifiées par des experts humains dans un domaine précis. MYCIN, développé à Stanford pour le diagnostic médical, ou XCON, utilisé par Digital Equipment Corporation pour configurer des ordinateurs, montrent que l'IA peut être utile dans des contextes industriels. Le Japon lance son ambitieux projet de "cinquième génération" d'ordinateurs, ce qui relance les investissements mondiaux.

Le second hiver de l'IA (1987–1993)

Les systèmes experts montrent vite leurs limites : ils sont coûteux à maintenir, fragiles dès qu'on sort de leur domaine, et incapables d'apprendre. Le marché du matériel spécialisé pour l'IA s'effondre. Un second hiver s'installe, plus discret mais tout aussi paralysant pour la recherche.

L'apprentissage automatique et le renouveau (1990–2000)

Une nouvelle approche émerge : plutôt que de programmer des règles à la main, pourquoi ne pas laisser les machines apprendre à partir de données ? Les réseaux de neurones artificiels, inspirés du fonctionnement du cerveau, sont développés dès les années 1980 par des chercheurs comme Geoffrey Hinton, Yann LeCun et Yoshua Bengio. L'algorithme de rétropropagation du gradient permet d'entraîner ces réseaux de manière efficace.

On montre les résultats à atteindre et le système trouve seul la manière d'y arriver. Avec les réseaux neuronaux, on peut partir d'algorithmes médiocres et les laisser améliorer leurs capacités grâce à l'expérience. Plutôt que d'indiquer pas à pas comment parvenir au résultat recherché, on fournit simplement des données à ces réseaux qui, suivant un processus d'apprentissage, comparent leur résultat à celui recherché pour tenter ensuite de s'en rapprocher au mieux.

En 1997, Deep Blue d'IBM bat le champion du monde d'échecs Garry Kasparov, marquant un tournant symbolique dans la perception publique de l'IA.

L'explosion du deep learning (2000–aujourd'hui)

L'augmentation exponentielle de la puissance de calcul, la disponibilité de grandes quantités de données et les progrès algorithmiques donnent naissance au "deep learning", une forme avancée d'apprentissage automatique utilisant des réseaux de neurones à de nombreuses couches. En 2012, le réseau AlexNet remporte le concours ImageNet avec une marge écrasante, relançant massivement l'intérêt pour les réseaux de neurones profonds.

Les années suivantes voient l'émergence de systèmes capables de reconnaître des images, traduire des langues, jouer au Go mieux que n'importe quel humain (AlphaGo, 2016), ou encore générer du texte de manière cohérente. En 2017, l'architecture Transformer, introduite par des chercheurs de Google, révolutionne le traitement du langage naturel et ouvre la voie aux grands modèles de langage comme GPT, BERT, et finalement aux assistants conversationnels modernes.

Comment fonctionne l'IA concrètement ?

Trois exemples.

Au fond, une intelligence artificielle moderne ne "comprend" pas le monde comme un humain. Elle détecte des régularités statistiques dans d'immenses quantités de données. Prenons un exemple simple : si on lui montre des millions de phrases contenant "il y a des nuages, il va...", elle observe que le mot "pleuvoir" apparaît très souvent dans ce contexte. Elle apprend ainsi que cette suite de mots est hautement probable. Lorsqu'on lui soumet ensuite la même phrase incomplète, elle ne raisonne pas, elle ne regarde pas le ciel — elle calcule quel mot a la plus forte probabilité de suivre, en fonction de tout ce qu'elle a ingéré. C'est ce qu'on appelle un modèle de langage : une machine à prédire le mot suivant, à une échelle et avec une précision telles que le résultat ressemble à de la compréhension, sans en être une au sens strict.

Le même principe s'applique aux images, mais au lieu de mots, la matière première est constituée de pixels. Lors de l'entraînement, on soumet à l'IA des millions d'images accompagnées de leur étiquette : ce chat s'appelle "chat", cette pomme s'appelle "pomme". Le réseau de neurones apprend alors à repérer des motifs visuels récurrents — des formes, des contrastes, des textures — qui apparaissent systématiquement dans les images d'une même catégorie. Il procède par couches successives : les premières couches détectent des éléments très simples comme des bords ou des aplats de couleur, les couches suivantes combinent ces éléments en formes plus complexes, jusqu'à ce qu'une couche finale associe l'ensemble à un concept — "chien", "voiture", "visage". Reconnaître une image revient donc à retrouver un patron statistique appris, non à "voir" au sens humain du terme.

Pour le code informatique, le mécanisme est là encore le même dans son principe. L'IA a été entraînée sur des quantités massives de code source provenant de millions de projets publics, dans des dizaines de langages de programmation. Elle a ainsi appris que certaines structures syntaxiques se suivent presque toujours de la même façon : qu'une fonction ouverte doit être fermée, qu'une boucle suit certains schémas, qu'un message d'erreur particulier est généralement associé à un type précis de bug. Lorsqu'elle génère du code, elle prédit les tokens les plus probables dans le contexte donné, exactement comme elle le fait avec du texte. Et lorsqu'elle corrige une erreur, elle reconnaît un motif défectueux qu'elle a vu des milliers de fois dans ses données d'entraînement, associé à sa correction habituelle. Ce n'est pas du raisonnement logique au sens strict — c'est une reconnaissance de forme à très grande échelle, suffisamment puissante pour produire du code fonctionnel dans la grande majorité des cas.

Conclusion

L'intelligence artificielle est le fruit d'une longue histoire mêlant philosophie, mathématiques, logique, informatique et neurosciences. De Turing à Hinton, de la conférence de Dartmouth aux transformers, chaque étape a été marquée par des espoirs immenses, des déceptions profondes et des rebonds inattendus. Aujourd'hui, l'IA est au cœur de notre quotidien, soulevant autant d'enthousiasme que de questions éthiques et sociales fondamentales.

Suite : bienfaits et dangers de l'IA.