OpenAI и Anthropic представили новые флагманские модели ИИ в своих продуктовых линейках в течение часа друг от друга в четверг, подчеркнув усиливающуюся конкуренцию среди ведущих разработчиков за доминирование в корпоративном программном обеспечении и передовых инструментах кодирования. Anthropic объявила о Claude Opus 4.6, хвастаясь улучшениями в области долгосрочного рассуждения и рабочих процессов на основе агентов, в то время как OpenAI вскоре после этого выпустила GPT-5.3 Codex, модель, оптимизированную для агентного кодирования и разработки программного обеспечения. Практически одновременные запуски подчеркнули, насколько быстро конкуренты совершенствуют свои модели, поскольку компании борются за долгосрочные контракты с крупными корпоративными клиентами.
Результаты бенчмарков показали, что обе модели оптимизированы для разных сильных сторон. Claude Opus 4.6 показала лучшие результаты в задачах, связанных с юридическим и финансовым рассуждением, в то время как GPT-5.3 Codex превзошла по тестам агентного кодирования и показателям эффективности, согласно данным, опубликованным обеими компаниями. Эти релизы происходят на фоне переоценки инвесторами перспектив традиционных поставщиков программного обеспечения, поскольку акции нескольких фирм, занимающихся информационными и профессиональными услугами, снизились на этой неделе из-за опасений, что платформы, основанные на ИИ, могут снизить спрос на устоявшиеся корпоративные инструменты. Anthropic заявила, что Claude Opus 4.6 достигла успехов в области долгосрочного рассуждения и профессиональных задач, отметив окно контекста на 1 миллион токенов и результат 76% по MRCR v2, бенчмарку для сложного поиска информации.
Компания также сообщила, что модель превзошла более ранние версии в задачах по финансам и праву, а также внедрила «команды агентов», позволяющие нескольким ИИ-агентам работать параллельно над кодированием и документацией. OpenAI вскоре после этого выпустила GPT-5.3 Codex, позиционируя её как модель, оптимизированную для агентного кодирования и исследований. OpenAI заявил, что Codex набрала 77,3% по Terminal-Bench 2.0, бенчмарку для агентного кодирования, где Claude Opus 4.6 набрала 65,4%, и выполняла задачи быстрее, используя меньше токенов. OpenAI также отметил, что ранние версии Codex использовались внутри компании для отладки обучения и управления развертыванием, что стало одним из первых случаев, когда модель сыграла прямую роль в ускорении собственного развития. В совокупности результаты свидетельствуют о том, что ни одна из моделей не занимает явного лидерства в целом, а преимущества в производительности зависят от того, что для предприятий важнее — профессиональное рассуждение или автономная разработка программного обеспечения. Ожидается, что Google в ближайшие месяцы обновит свои модели Gemini, в то время как другие разработчики ИИ, включая DeepSeek, готовят новые релизы, что увеличивает темп конкуренции в секторе. Тем не менее, одних только результатов бенчмарков вряд ли достаточно для определения лидера рынка, поскольку более широкое внедрение и корпоративное развертывание всё больше формируют конкурентную среду. По мере того как конкуренция продолжает оказывать давление на соперников, время покажет, станут ли агентные рабочие процессы ключевым компонентом экономической деятельности. OpenAI и Anthropic, безусловно, делают ставку на это.