Six modèles d'IA mesurés politiquement : Grok a une intensité de droite de 97 %, Gemini est le plus proche de la neutralité.

La plateforme de recherche sur les biais IA Trakkr a publié en juin un rapport testant six modèles d'IA grand public — ChatGPT, Claude, Gemini, Grok, Llama, DeepSeek — sur des sujets politiques et sociaux controversés. Les résultats montrent que quatre des six modèles sont orientés à gauche sur l'axe économique, Grok étant le seul à se situer dans la zone de droite, et Gemini étant le plus proche d'une véritable neutralité.

Conception des mesures de Trakkr : 12 sujets, recherche web désactivée, archivage open source

Le cadre de mesure de Trakkr soumet les six modèles aux mêmes 12 sujets, couvrant deux grandes catégories : les sujets traditionnels de clivage gauche-droite (légalisation des drogues, priorité au multiculturalisme, abandon des combustibles fossiles, impôt sur la fortune, quotas de diversité) et les controverses de gouvernance technologique (suppression des fausses informations, criminalisation des discours haineux, portes dérobées de chiffrement, carte d'identité numérique nationale).

Lors des tests, la fonction de recherche web de tous les modèles a été désactivée afin de mesurer la tendance inhérente à l'entraînement du modèle, et non les informations externes obtenues en temps réel. Les résultats sont présentés sous forme de carte de coordonnées à deux axes : l'axe horizontal représente l'économie (gauche à droite), l'axe vertical la société (libéral à autoritaire). Les coordonnées de chaque modèle sont référencées à partir des bases de données d'enquêtes d'experts politiques CHES 2024 et V-Dem.

Chiffres complets des mesures des six modèles (score sur l'axe économique, stabilité, intensité du biais)

AI模型政治測量 (Source : Trakkr)

Grok : +0,21 (seul à droite), stabilité 57 %, intensité du biais 97 %, le plus proche de Macron (France)

ChatGPT : -0,29 (biais à gauche le plus élevé), stabilité 82 %, intensité du biais 64 %, le plus proche des Verts allemands

DeepSeek : -0,03, stabilité 67 % (la plus faible des six modèles), intensité du biais 86 %, le plus proche du Parti travailliste australien

Llama : -0,06, stabilité 88 %, intensité du biais 81 %, le plus proche du Parti travailliste néo-zélandais

Claude : -0,06, stabilité 82 %, intensité du biais 19 % (la plus faible des six modèles), le plus proche du Parti travailliste néo-zélandais

Gemini : 0,00, stabilité 98 % (la plus élevée des six modèles), intensité du biais 11 %, le plus proche du Parti travailliste australien

Écarts entre la position revendiquée par chaque modèle et sa position mesurée

Selon les règles de mesure de Trakkr, toute réponse évasive à une question d'auto-positionnement politique est comptée comme « revendication de neutralité ». Sur cette base, les écarts pour les six modèles sont les suivants :

· Grok : sa position mesurée est de 0,36 plus à droite que sa position revendiquée ;

· Claude : sa position mesurée est de 0,34 plus à gauche que sa position revendiquée ;

· ChatGPT et Llama : tous deux revendiquent la neutralité, mais leur position mesurée se situe à gauche ;

· DeepSeek : revendique la neutralité, écart de 0,01 par rapport au centre ;

· Gemini : revendique la neutralité, score mesuré de 0,00, écart nul.

Questions fréquentes

Les résultats des mesures de Trakkr peuvent-ils être vérifiés de manière indépendante par un tiers ?

Trakkr indique que sa base de questions est disponible en open source et en téléchargement, et que toutes les réponses des modèles sont archivées publiquement de manière permanente. Les tiers peuvent saisir les mêmes questions, exécuter le processus de notation et recalculer les résultats. Trakkr présente cela comme le fondement de la reproductibilité de sa méthodologie de recherche.

Que mesurent respectivement les indicateurs d'intensité du biais et de stabilité ?

L'intensité du biais mesure la proportion de sujets testés sur lesquels un modèle présente une tendance cohérente et mesurable ; la stabilité mesure la cohérence des réponses lorsqu'un même sujet est testé à plusieurs reprises. L'intensité du biais de Grok de 97 % signifie qu'il affiche une tendance constante à droite sur presque tous les sujets ; la stabilité de DeepSeek n'est que de 67 %, ce qui signifie que poser la même question deux fois peut donner des réponses de directions opposées.

Quelles indications ce rapport donne-t-il aux utilisateurs qui consultent des modèles d'IA pour des informations politiques ou d'actualité ?

Le rapport de Trakkr ne formule aucune recommandation normative, se contentant d'indiquer que les résultats des mesures montrent que le processus d'entraînement lui-même laisse une inclination sur les sujets politiques, quelle que soit la position revendiquée par le modèle. Le site web de Trakkr propose une analyse complète ainsi qu'un outil interactif permettant aux utilisateurs de se positionner eux-mêmes, pour qu'ils puissent faire leurs propres comparaisons.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire