OpenAI et Anthropic ont dévoilé leurs nouveaux modèles d’IA phares dans leurs gammes respectives à moins d’une heure l’un de l’autre jeudi, mettant en évidence l’intensification de la concurrence entre les principaux développeurs pour dominer les logiciels d’entreprise et les outils de codage avancés.
Anthropic a annoncé Claude Opus 4.6, vantant des progrès dans le raisonnement à long contexte et les flux de travail basés sur des agents, tandis qu’OpenAI a peu après lancé GPT-5.3 Codex, un modèle optimisé pour le codage agentique et le développement logiciel.
Les lancements quasi simultanés ont souligné à quelle vitesse les concurrents itèrent alors que les entreprises se disputent pour obtenir des contrats à long terme avec de grands clients corporatifs.
Les résultats de référence suggèrent que les deux modèles sont optimisés pour des forces différentes.
Claude Opus 4.6 a montré de meilleures performances sur des tâches liées au raisonnement juridique et financier, tandis que GPT-5.3 Codex surpassait sur les tests de codage agentique et les métriques d’efficacité, selon les chiffres publiés par les deux entreprises.
Les sorties interviennent alors que les investisseurs réévaluent les perspectives pour les fournisseurs de logiciels traditionnels, avec des actions de plusieurs entreprises d’information et de services professionnels en baisse cette semaine, craignant que les plateformes natives en IA ne réduisent la demande pour les outils d’entreprise établis.
Anthropic a déclaré que Claude Opus 4.6 apportait des gains dans le raisonnement à long contexte et les tâches professionnelles, citant une fenêtre de contexte de 1 million de tokens et un score de 76 % sur MRCR v2, un benchmark pour la récupération d’informations complexes.
L’entreprise a indiqué que le modèle surpassait également les versions antérieures sur les tâches financières et juridiques et a introduit des « équipes d’agents » permettant à plusieurs agents IA de travailler en parallèle sur le codage et la documentation.
OpenAI a publié peu après GPT-5.3 Codex, le présentant comme un modèle optimisé pour le codage agentique et la recherche.
OpenAI a déclaré que Codex avait obtenu un score de 77,3 % sur Terminal-Bench 2.0, un benchmark de codage agentique où Claude Opus 4.6 a obtenu 65,4 %, et qu’il accomplissait les tâches plus rapidement tout en utilisant moins de tokens.
OpenAI a également indiqué que des versions précoces de Codex étaient utilisées en interne pour aider à déboguer la formation et gérer le déploiement, marquant l’une des premières fois qu’un modèle jouait un rôle direct dans l’accélération de son propre développement.
Dans l’ensemble, ces résultats suggèrent qu’aucun modèle ne détient une avance claire, avec des avantages de performance dépendant de si les entreprises privilégient le raisonnement professionnel ou le développement logiciel autonome.
Google devrait également déployer des mises à jour de ses modèles Gemini dans les prochains mois, tandis que d’autres développeurs d’IA, comme DeepSeek, préparent de nouvelles versions, ce qui augmente le rythme de la concurrence dans le secteur.
Cependant, les résultats de référence à eux seuls ne sont pas susceptibles de déterminer la domination du marché, car une adoption plus large et le déploiement en entreprise façonnent de plus en plus le paysage concurrentiel.
Alors que la concurrence continue de faire pression sur les rivaux, seul le temps dira si les flux de travail basés sur des agents deviennent une composante essentielle de l’activité économique. OpenAI et Anthropic comptent certainement sur cela.