Claude Opus 4.5 est arrivé ! Taux de précision largement supérieur à GPT-5.1 et Gemini 3, réjouissant : auto-évolution puissante

ChainNewsAbmedia

2025-11-25 08:54:29

Juste une semaine après le lancement de Gemini 3 par Google, Anthropic a également annoncé le 25/11 le lancement de son dernier modèle phare Claude Opus 4.5. Ils ont déclaré que cette version était considérablement améliorée pour la programmation, l'opération d'agents AI et l'utilisation des applications informatiques, et qu'elle pouvait également gérer des dialogues plus longs. Le responsable des relations développeurs d'Anthropic, Alex Albert, a même déclaré lors d'une interview : « C'est le modèle le plus Satoshi au monde. »

Claude Opus 4.5 Les points forts en un coup d'œil

Point clé 1 : Performance qui surpasse GPT-5.1 et Gemini 3, renforcement des applications d'agent.

Le gouvernement positionne Opus 4.5 comme “l'un des modèles les plus puissants au monde” et l'ouvre à partir d'aujourd'hui sur les plateformes App, API et trois grands fournisseurs de cloud (AWS, GCP, Azure). D'après le graphique de comparaison des performances des modèles d'IA fourni par Anthropic, il est possible de constater :

« Opus 4.5 a une précision allant jusqu'à 80,9 %, surpassant Gemini 3 Pro et GPT-5.1. »

Les responsables ont indiqué que cette fois, Opus 4.5 se distingue particulièrement dans la programmation, les agents IA, le raisonnement en plusieurs étapes et l'utilisation d'outils informatiques, avec des performances nettement améliorées dans des tâches courantes telles que les recherches approfondies, PowerPoint, Excel, etc.

Le nouveau tarif est de 5 dollars par million de tokens d'entrée et de 25 dollars par million de tokens de sortie, ce qui est plus abordable que la génération précédente Opus 4.1, permettant à un plus grand nombre d'entreprises et d'équipes d'adopter des fonctionnalités de niveau Opus.

Point fort 2 : Les tests internes ont reçu des avis unanimement positifs, capables de comprendre et de résoudre des problèmes.

Anthropic a révélé qu'après le lancement de la version bêta, les membres de l'équipe ont donné un retour uniforme. En particulier :

« Opus 4.5 peut traiter certains problèmes flous et des compromis de raisonnement, et lorsqu'il rencontre des bugs complexes dans plusieurs systèmes, il explore lui-même des solutions. »

La tâche que Sonnet 4.5 ne pouvait presque pas accomplir, Opus 4.5 peut désormais l'achever. Les testeurs affirment généralement qu'Opus 4.5 comprend bien « l'intention de l'utilisateur », et l'équipe officielle considère également que cela apporte une différence d'expérience significative.

Windsurf, GitHub et autres PDG sont tous soutenus par Opus 4.5. Point fort trois : un record d'innovation dans les tests de programme, avec des performances aux questions d'examen surpassant celles des humains en deux heures.

Anthropic a indiqué que l'entreprise utilise un test pratique de difficulté relativement élevée lors du recrutement d'ingénieurs. Cette fois, dans la limite de temps de deux heures pour répondre, la performance de Claude Opus 4.5 a même surpassé tous les candidats humains des années précédentes, établissant un nouveau record.

Complément officiel, ce test évalue principalement les compétences techniques et le jugement sous pression, sans impliquer des compétences interpersonnelles telles que la coopération et la communication. Cependant, les résultats montrent que l'IA progresse à une vitesse extrêmement rapide dans le domaine de l'ingénierie sur le plan purement technique.

Point fort quatre : sécurité renforcée, plus difficile d'être trompé par des attaques par injection de prompt

Anthropic souligne qu'Opus 4.5 est la version du modèle “la plus alignée et la plus sûre” à ce jour.

La mise à niveau de sécurité cette fois-ci se concentre sur l'amélioration significative de la résistance du modèle face aux attaques par injection d'instructions, rendant difficile l'inclusion de commandes malveillantes dans le modèle et compliquant également la tromperie du système pour qu'il exécute des comportements inappropriés. Comparé à d'autres modèles de pointe, Opus 4.5 a également obtenu les meilleurs résultats dans les tests de sécurité pertinents. Comme le montre l'image ci-dessous :

« Opus 4.5, sous les mêmes conditions de test que d'autres modèles connus, est le moins susceptible d'être trompé et le moins susceptible de réussir une attaque par injection d'indice, avec des performances défensives remarquables. »

Point fort cinq : conversations longues sans interruption, Chrome et App améliorent l'expérience de manière globale.

Anthropic a également mis à jour plusieurs produits. Tout d'abord, le mode Plan de Claude Code a été amélioré, il clarifie d'abord les questions avant de générer automatiquement un plan.md modifiable, puis exécute le programme. La version de bureau a également ajouté plusieurs sessions, permettant à plusieurs agents d'exécuter différentes tâches simultanément.

L'application Claude, couramment utilisée par les utilisateurs ordinaires, a également été améliorée. Les longues conversations ne seront plus bloquées à cause d'un contexte trop long, le système organisera automatiquement le contenu précédent pour que la conversation ne soit pas interrompue. Claude pour Chrome est désormais entièrement accessible aux utilisateurs de Max et permet de gérer des opérations complexes à travers plusieurs onglets.

Claude pour Excel était initialement limité aux utilisateurs Beta, mais il s'étend désormais aux utilisateurs Max, Team et Enterprise, tout en intégrant Opus 4.5 pour renforcer les capacités de traitement des tableaux et des données. Enfin, Anthropic a également augmenté le plafond global d'utilisation, supprimant les restrictions exclusives à Opus, permettant ainsi aux utilisateurs Max et Team Premium d'utiliser Opus 4.5 au niveau de « charge de travail quotidienne » ; si de nouveaux modèles plus puissants sont lancés à l'avenir, l'utilisation correspondante sera également réajustée.

(Note :

plan.md

Ce n'est pas un fichier externe, mais un “document de plan de mission” qui est automatiquement généré par Claude Code avant l'exécution de la tâche, au format Markdown courant. )

Deux points six : Rakuten a souligné qu'Opus 4.5 possède des fonctionnalités d'auto-évolution.

Parmi les points forts, Rakuten ( au Japon a souligné que Claude Opus 4.5 a montré des avancées significatives dans les agents IA auto-évolutifs.

Dans les applications pratiques de l'automatisation de bureau, les agents pertinents peuvent optimiser leurs capacités de manière autonome, atteignant les meilleures performances en seulement quatre itérations, tandis que d'autres modèles, même après dix itérations, ne peuvent égaler la même qualité.

Rakuten souligne que cette différence permet à Opus 4.5 de démontrer une plus grande efficacité dans les applications de niveau entreprise.

Cet article présente Claude Opus 4.5 ! Précision largement supérieure à GPT-5.1 et Gemini 3, Rakuten : auto-évolution puissante. Apparu pour la première fois dans les nouvelles de la chaîne ABMedia.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.