Anthropic выпустила Claude Sonnet 5 — новую модель, ориентированную на агентные задачи, программирование и корпоративную автоматизацию . Модель способна эффективнее планировать действия, использовать инструменты вроде браузера и терминала, писать код и проверять результаты работы. Тем временем OpenAI объявила о выходе обновления ChatGPT Images 2.0, которое поддерживает разрешение 2К и позволяет точно следовать сложным инструкциям, включая обработку мультиязычного текста . Исследования показывают, что лучшие ИИ-агенты справляются только с третьими реальной повседневной задачей. Бенчмарк ClawBench выявил, что даже лидеры рынка, такие как Claude Sonnet 4.6, выполняют лишь 33% реальных заданий, тогда как на стандартных бенчмарках показатели достигают 65–75% . Отдельное исследование показало, что крупные языковые модели плохо играют роли злодеев, получая оценку ниже среднего уровня . GLM-5 стала первой открытой моделью, способной конкурировать с коммерческими решениями на агентных задачах. Разработанная Zhipu AI и Tsinghua University, она лидирует на многих бенчмарках, включая Artificial Analysis и LMArena . Наконец, Anthropic значительно увеличила штат сотрудников, привлекая ведущих специалистов индустрии, таких как Андрей Карпаты, основатель OpenAI . Эти новости формируют картину активного развития агентных решений и конкуренции между крупными игроками рынка AI-технологий.
Источники
- Claude Sonnet 5: сильный агентный апгрейд, но не очевидная замена Opus — neurohive.io
- ChatGPT Images 2.0: OpenAI запустила обновление модели генерации изображений с рассуждениям, 2K-разрешением и мультиязычным текстом — neurohive.io
- ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач — neurohive.io
- Какой ИИ способен сыграть злодея: сравнение алгоритмов выравнивания 17 моделей — neurohive.io
- GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах — neurohive.io
- Война за таланты: как Anthropic обгоняет OpenAI и Meta в найме — ai-stat.ru