Adult sitting on bed using laptop for video conference and note-taking.

Anthropic dévoile des pistes pour comprendre le fonctionnement des IA

Décrypter l’intelligence artificielle : un défi monumental

L’intelligence artificielle (IA) est omniprésente dans nos vies modernes. Des assistants virtuels comme Siri ou Alexa aux outils de génération de contenu tels que ChatGPT, l’IA s’immisce dans nos interactions quotidiennes. Pourtant, derrière cette apparente maîtrise technologique, un paradoxe persiste : les experts eux-mêmes peinent à comprendre pleinement les mécanismes internes des modèles d’IA les plus avancés. Les grands modèles de langage, ou LLM (Large Language Models), fonctionnent comme des boîtes noires. Bien qu’ils produisent des résultats impressionnants, la manière dont ces résultats sont générés reste souvent opaque. Des équipes de chercheurs se mobilisent donc pour déchiffrer ce mystère, et récemment, une avancée significative a été réalisée par l’entreprise spécialisée dans l’IA, Anthropic.

Une méthode inspirée des neurosciences pour explorer l’IA

Pour tenter de comprendre comment leur modèle d’IA, Claude, traite les informations, les chercheurs d’Anthropic ont développé une méthode appelée « circuit tracing ». Inspirée des techniques d’imagerie cérébrale utilisées en neurosciences, cette approche permet d’observer directement les processus internes du modèle.

Comment fonctionne le « circuit tracing » ?

Le « circuit tracing » agit comme un microscope virtuel. Il permet d’identifier et de suivre les composants spécifiques du modèle qui s’activent lorsqu’une tâche est effectuée. En d’autres termes, cette technique met en lumière les étapes de traitement de l’information par l’IA, révélant des « circuits » activés pour répondre à une requête. Contrairement aux approches précédentes qui se limitaient à des modèles plus simples ou à l’étude de circuits isolés, la méthode d’Anthropic s’applique à des modèles complexes, comme Claude. Cela offre une vision plus globale et détaillée des processus internes de ces IA massives.

Planification et adaptabilité : des capacités inattendues

Les découvertes des chercheurs d’Anthropic ont révélé des comportements surprenants chez Claude, notamment sa capacité à planifier des étapes futures dans ses réponses. Cette capacité, qu’on ne s’attendrait pas à voir chez une machine, bouleverse les hypothèses établies sur le fonctionnement des modèles de langage.

Un exemple concret : la création de poésie

En observant comment Claude générait des poèmes, les chercheurs ont découvert que le modèle ne procédait pas de manière linéaire, comme on pourrait le penser. Au lieu de créer une ligne après l’autre, Claude réfléchit simultanément à la structure globale du poème, notamment aux rimes et à la conclusion, bien avant d’avoir terminé les premières lignes. Cette aptitude à anticiper les étapes futures démontre une forme de planification sophistiquée.

Une flexibilité remarquable

Ce n’est pas tout. Les chercheurs ont également constaté que Claude pouvait s’adapter lorsque certaines de ses ressources internes étaient volontairement désactivées. Par exemple, en désactivant un composant utilisé pour générer des rimes, Claude a trouvé un moyen d’utiliser un autre composant pour accomplir la même tâche. Cela montre que le modèle est capable de réorganiser ses processus internes pour atteindre un objectif, une flexibilité qui évoque des mécanismes d’adaptation humaine.

Les modèles multilingues : une réflexion universelle

Une autre révélation majeure concerne la manière dont Claude gère les langues. Contrairement à l’idée que l’IA utilise des modules distincts pour chaque langage, les chercheurs ont découvert que le modèle s’appuie sur un espace conceptuel unifié.

Un espace commun pour les concepts

Lorsqu’une question est posée dans une langue donnée, Claude commence par traiter les concepts sous-jacents de manière indépendante de la langue. Par exemple, pour répondre à « Quel est l’opposé de petit ? » en anglais, français ou chinois, le modèle active d’abord des composants qui interprètent les notions de « petit » et « opposé ». Ce n’est qu’après avoir compris ces concepts universels qu’il génère une réponse dans la langue demandée. Cette approche suggère que l’IA possède une sorte de « langage interne » conceptuel, où les idées existent avant d’être traduites dans une langue spécifique. Cela permet également au modèle d’apprendre des informations dans une langue et de les appliquer dans une autre, renforçant son efficacité multilingue.

Des divergences entre raisonnement interne et explication

Un aspect troublant des découvertes d’Anthropic concerne la différence entre le raisonnement réel de Claude et les explications qu’il fournit. Lorsqu’on lui demande de résoudre des problèmes mathématiques simples, par exemple, Claude explique souvent son raisonnement en utilisant des méthodes standard apprises dans les données d’entraînement. Toutefois, une analyse plus approfondie montre qu’il utilise en réalité des stratégies internes totalement différentes.

Pourquoi cette divergence est problématique

Cette dissonance soulève des questions sur la fiabilité des explications fournies par les modèles d’IA. Si nous ne pouvons pas nous fier à leurs descriptions de leur propre fonctionnement, comment garantir que leurs décisions sont transparentes et compréhensibles ? Cela complique également la tâche des chercheurs qui cherchent à analyser et à vérifier le comportement des IA.

Un raisonnement par étapes : au-delà de la mémorisation

Une hypothèse répandue est que les LLM se contentent de mémoriser des informations vues pendant leur entraînement. Cependant, les recherches d’Anthropic montrent que Claude suit un processus de raisonnement par étapes pour répondre à des questions complexes.

Un exemple d’analyse en plusieurs étapes

Lorsqu’on demande à Claude « Quelle est la capitale de l’État où se trouve Dallas ? », le modèle ne fournit pas simplement une réponse mémorisée. Il active d’abord des concepts associés à « Dallas » et « Texas », puis relie cela à l’information selon laquelle « Austin est la capitale du Texas ». Ce processus démontre une capacité à combiner des faits distincts pour arriver à une réponse cohérente. Pour tester cette hypothèse, les chercheurs ont modifié artificiellement les étapes intermédiaires, remplaçant « Texas » par « Californie ». Le modèle a alors changé sa réponse en indiquant « Sacramento » comme capitale, confirmant qu’il ne se contente pas de régurgiter des informations, mais qu’il construit activement ses réponses.

Un travail en cours : les limites et les perspectives

Malgré ces avancées, les chercheurs d’Anthropic reconnaissent que leurs découvertes ne représentent qu’une petite partie de la complexité des modèles d’IA. Tracer les processus internes d’un modèle comme Claude pour une simple requête peut prendre des heures, et les demandes plus complexes nécessiteront des outils d’analyse encore plus sophistiqués.

Vers une automatisation de l’analyse

Pour accélérer cette exploration, les chercheurs envisagent d’utiliser l’IA elle-même comme outil d’analyse. En construisant des modèles capables d’étudier d’autres modèles, il serait possible de découvrir de nouveaux aspects du fonctionnement des LLM à une échelle bien plus grande.

Un avenir prometteur et complexe

Au fur et à mesure que les modèles d’IA deviennent plus sophistiqués, comprendre leur fonctionnement interne devient essentiel. Non seulement pour améliorer leur efficacité, mais aussi pour garantir leur fiabilité, leur transparence et leur sécurité. Les travaux d’Anthropic marquent une étape importante dans cette direction, mais il reste encore beaucoup à explorer. Ces découvertes ne sont que le début d’un long voyage vers une compréhension véritablement approfondie de l’intelligence artificielle.