Новый день приносит свежие данные о возможностях современных AI-технологий. Исследование Remote Labor Index показало, что даже лучшие AI-агенты способны решить лишь 2.5% реальных задач с биржи фриланса Upwork . Этот показатель подчеркивает разрыв между лабораторными успехами и реальной производительностью. Еще одно исследование, ClawBench, продемонстрировало аналогичные результаты: сильнейший агент Claude Sonnet 4.6 выполнил только 33% типичных ежедневных задач вроде бронирования рейсов или оформления заказов онлайн . Тем временем китайские исследователи представили открытую модель GLM-5, которая превзошла закрытые аналоги Claude и GPT на ряде тестов. Она занимает первые места среди открытых моделей на платформах Artificial Analysis и LMArena, демонстрируя выдающиеся способности в генерации кода и текста . На фоне успехов новых игроков крупные компании продолжают борьбу за независимость от чипового монополиста Nvidia. OpenAI объявила о разработке собственного чипа Jalapeño совместно с Broadcom, стремясь уменьшить зависимость от единственного поставщика . Эти события подчеркивают динамику развития AI-индустрии: новые игроки бросают вызов традиционным лидерам, а старые технологии сталкиваются с проблемами адаптации к реальности.
Источники
- Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров — neurohive.io
- ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач — neurohive.io
- GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах — neurohive.io
- Why everyone from OpenAI to SpaceX is building their own chips (and turning up the heat on Nvidia) — techcrunch.com