Des dizaines de millions d'erreurs par heure, une enquête révèle l'illusion de précision de la recherche AI de Google

robot
Création du résumé en cours

Auteur : Claude, Deep Tide TechFlow

Lecture de Deep Tide : La dernière évaluation menée par le journal « The New York Times » en collaboration avec la startup d’IA Oumi montre que la fonction de résumé IA (AI Overviews) de Google a un taux de précision d’environ 91 %, mais en tenant compte du volume de 50 000 milliards de recherches traitées par Google chaque année, cela signifie des dizaines de millions de réponses erronées générées chaque heure. Plus problématique encore, même lorsque la réponse est correcte, plus de la moitié des liens de référence ne peuvent pas soutenir la conclusion.

Google diffuse des informations erronées à une échelle sans précédent, et la plupart des utilisateurs en ignorent tout.

Selon « The New York Times », la startup d’IA Oumi, sous contrat, a utilisé le test standard de l’industrie SimpleQA développé par OpenAI pour évaluer la précision de la fonction AI Overviews de Google. Le test a couvert 4326 requêtes de recherche, effectuées lors d’une première série en octobre dernier (avec Gemini 2) et une seconde en février cette année (après la mise à niveau vers Gemini 3). Les résultats montrent que la précision de Gemini 2 était d’environ 85 %, tandis que Gemini 3 a augmenté à 91 %.

91 % semble bon, mais à l’échelle de Google, c’est une autre histoire. Google traite environ 50 000 milliards de recherches par an, et avec un taux d’erreur de 9 %, cela signifie que l’AI Overviews génère plus de 57 millions de réponses incorrectes chaque heure, soit près de 1 million par minute.

La réponse est correcte, mais la source est fausse

Ce qui est encore plus inquiétant que le taux de précision, c’est le problème de « déconnexion » des sources citées.

Les données d’Oumi montrent qu’à l’époque de Gemini 2, 37 % des réponses correctes comportaient un problème de « citation sans fondement », c’est-à-dire que les liens fournis dans le résumé IA ne soutenaient pas l’information donnée. Après la mise à niveau vers Gemini 3, cette proportion n’a pas diminué, mais a augmenté pour atteindre 56 %. En d’autres termes, le modèle donne de plus en plus de bonnes réponses tout en étant incapable de « rendre la copie ».

Manos Koukoumidis, PDG d’Oumi, soulève une question cruciale : « Même si la réponse est correcte, comment savez-vous qu’elle l’est ? Comment la vérifier ? »

L’utilisation de sources de faible qualité dans AI Overviews aggrave ce problème. Oumi a découvert que Facebook et Reddit sont respectivement la deuxième et la quatrième source citée par AI Overviews. Parmi les réponses incorrectes, Facebook est cité dans 7 % des cas, contre 5 % dans les réponses correctes.

Un article fictif d’un journaliste de la BBC, « empoisonné » en 24 heures

Un autre défaut grave d’AI Overviews est sa vulnérabilité à la manipulation.

Un journaliste de la BBC a testé le système avec un article fictif inventé, et en moins de 24 heures, l’IA de Google a présenté ces fausses informations comme des faits aux utilisateurs.

Cela signifie que toute personne connaissant le fonctionnement du système pourrait « empoisonner » les résultats de recherche en publiant de faux contenus pour augmenter leur trafic. Ned Adriance, porte-parole de Google, a répondu que la fonction de résumé IA repose sur les mêmes mécanismes de classement et de sécurité que ceux utilisés pour bloquer les contenus indésirables, et a précisé que « la plupart des exemples dans le test sont des requêtes peu réalistes que les gens ne cherchent pas réellement ».

Google contre-attaque : le test lui-même est problématique

Google a formulé plusieurs critiques à l’encontre de l’étude d’Oumi. Un porte-parole de Google a déclaré que cette étude « présente de graves lacunes », notamment parce que : le benchmark SimpleQA contient lui-même des informations inexactes ; Oumi utilise son propre modèle d’IA, HallOumi, pour évaluer la performance d’un autre IA, ce qui pourrait introduire des erreurs supplémentaires ; le contenu du test ne reflète pas le comportement réel des utilisateurs lors de recherches.

Des tests internes de Google montrent également que, lorsque Gemini 3 fonctionne indépendamment du cadre de recherche Google, le taux de sorties fausses atteint 28 %. Cependant, Google insiste sur le fait que AI Overviews s’appuie sur le système de classement par recherche pour améliorer la précision, ce qui donne de meilleurs résultats que le modèle seul.

Mais comme le souligne la critique de PCMag, il y a une paradoxe logique : si votre argument de défense est « même nos rapports sur l’imprécision de l’IA utilisent une IA potentiellement inexacte », cela ne renforcera probablement pas la confiance des utilisateurs dans la précision de votre produit.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler