Décoder l'opinion (reloaded)

Décoder l'opinion (reloaded)

#coulisses

Juillet 2023

Opsci est né de cette ambition : cartographier l’espace public numérique en France et en Europe. En 2023, cela revient en réalité à cartographier l’espace public tout court : les grandes plateformes se sont massifiées et ont une audience comparable à la télévision. Il n’est plus question de voir le web comme un espace parallèle, mais bien comme l’épicentre de tous les débats de société.

C’est aussi un défi méthodologique. Outre les restrictions d’accès de plus en plus importantes imposées par les plateformes, à des données pourtant d’intérêt public, les formes d’expressions sont extrêmement variées : langage informel, memes. Depuis deux ans, nous avons été amenés à utiliser des modèles d’intelligence artificielle basés sur BERT pour identifier la circulation des discours. Grâce au mécanisme d’attention, ces modèles sont capables non seulement d’identifier des thèmes et des sujets de conversations, mais aussi des arguments et des mots d’ordre politique.

Par un curieux retournement, ces outils sont aujourd’hui en train de changer l’espace public. Le succès massif de ChatGPT n’est que l’avant-poste d’une transformation plus générale de notre rapport au texte, au savoir et à la culture. Les IA génératives créent des normes souterraines, difficiles à évaluer. Le corpus d’entraînement toujours méconnu de GPT-3 et de GPT-4 est principalement anglophone : si ChatGPT parle un français correct, il le parle en traducteur.

Depuis quelques mois, une autre vision de l’IA a émergé avec la multiplication des grands modèles de langue (LLM) en open source. À la différence de ChatGPT, ces modèles peuvent être utilisés localement, sans risque de fuite ou d’exploitation de données confidentielles. Et ils peuvent aussi être adaptés à des usages spécifiques grâce à une procédure de “fine-tuning” : le modèle apprend à reconnaître et à imiter des conversations, des instructions ou des extraits de texte.

Pour adapter ces LLM ouverts à des besoins précis, l’expertise du corpus devient une compétence essentielle. Opsci est attaché à faire émerger ces compétences nouvelles, qui représentent avant tout une extension de notre travail d’analyse de longue date des espaces d’expression en ligne. Depuis juin 2023, nous avons la joie de travailler avec des services de l'Etat, la Direction Interministérielle du numérique (DINUM) et la Direction Interministérielle de la Transformation Publique (DITP), sur la construction d'un assistant numérique pour aider les agents publics à identifier les meilleures informations pour les citoyens. Dans le cadre de ces travaux, nous avons été amenés à développer tout un ensemble de ressources, de jeux de données, de recommandations et de bonnes pratiques pour le ré-entraînement de grands modèles de langue ouverts.

L’adaptation de LLM ouverts sur des sources riches et diversifiées n’est pas seulement une nouvelle perspective de recherche fascinante. C’est un enjeu crucial, matriciel, susceptible d’impacter très rapidement et très profondément l’information, la culture, la société dans son ensemble.

Enthousiastes et néanmoins vigilants, nous avons avec Datactivist lancé LebonLLM.fr, un espace contributif ouvert qui se propose de fédérer les acteurs du LLM francophone, pour la nécessaire défense de notre identité culturelle et le déploiement d’outils d’intelligence artificielle alternatifs à l’hégémonie anglophone.