OpenAI та Anthropic представили нові флагманські моделі штучного інтелекту у своїх відповідних лінійках продуктів менш ніж за годину один від одного у четвер, підкреслюючи посилення конкуренції серед провідних розробників у домінуванні корпоративного програмного забезпечення та передових інструментів кодування. Anthropic оголосила про Claude Opus 4.6, хвалячись покращеннями у довгому контекстному мисленні та роботі на основі агентів, тод while OpenAI незабаром після випустила GPT-5.3 Codex, модель, оптимізовану для агентного кодування та розробки програмного забезпечення. Ці майже одночасні запускі підкреслюють, наскільки швидко конкуренти оновлюються, оскільки компанії змагаються за довгострокові контракти з великими корпоративними клієнтами.
Результати бенчмарків свідчать, що обидві моделі оптимізовані для різних сильних сторін. Claude Opus 4.6 показала кращу продуктивність у завданнях, пов’язаних із юридичним та фінансовим мисленням, тод while GPT-5.3 Codex перевершила у тестах агентного кодування та показниках ефективності, згідно з даними, оприлюдненими обома компаніями. Ці релізи відбуваються на тлі переоцінки інвесторами перспектив традиційних постачальників програмного забезпечення, оскільки акції кількох компаній у сфері інформаційних та професійних послуг цього тижня знизилися через побоювання, що платформи, орієнтовані на ШІ, можуть зменшити попит на усталені корпоративні інструменти. Anthropic заявила, що Claude Opus 4.6 досягла покращень у довгому контекстному мисленні та професійних завданнях, посилаючись на вікно контексту на 1 мільйон токенів і 76% балу у MRCR v2, бенчмарку для складного пошуку інформації.
Компанія зазначила, що модель також перевершила попередні версії у фінансових та юридичних завданнях і представила “команди агентів”, які дозволяють кільком ШІ-агентам працювати паралельно над кодуванням і документацією. OpenAI незабаром після випустила GPT-5.3 Codex, позиціонуючи її як модель, оптимізовану для агентного кодування та досліджень. OpenAI повідомила, що Codex набрав 77.3% у Terminal-Bench 2.0, бенчмарку агентного кодування, де Claude Opus 4.6 отримала 65.4%, і виконує завдання швидше та з меншим використанням токенів. OpenAI також зазначила, що ранні версії Codex використовувалися внутрішньо для налагодження тренувань і управління розгортанням, що стало одним із перших випадків, коли модель безпосередньо сприяла прискоренню власного розвитку. Загалом результати свідчать, що жодна з моделей не має явної переваги в цілому, оскільки переваги у продуктивності залежать від того, чи пріоритетом для підприємств є професійне мислення чи автономна розробка програмного забезпечення. Очікується, що Google також випустить оновлення своїх моделей Gemini у найближчі місяці, тод while інші розробники ШІ, зокрема DeepSeek, готуються до нових релізів, що підсилює темп конкуренції у секторі. Проте результати бенчмарків самі по собі навряд чи визначать лідерство на ринку, оскільки ширше впровадження та корпоративне розгортання все більше формують конкурентний ландшафт. У міру посилення конкуренції з боку суперників час покаже, чи стануть агентні робочі процеси основною складовою економічної діяльності. OpenAI та Anthropic безумовно на це розраховують.