AI-агенты провалили тесты на биржах труда и в повседневной жизни — 27 июня 2026

Новый день приносит свежие данные о возможностях современных AI-технологий. Исследование Remote Labor Index показало, что даже лучшие AI-агенты способны решить лишь 2.5% реальных задач с биржи фриланса Upwork . Этот показатель подчеркивает разрыв между лабораторными успехами и реальной производительностью. Еще одно исследование, ClawBench, продемонстрировало аналогичные результаты: сильнейший агент Claude Sonnet 4.6 выполнил только 33% типичных ежедневных задач вроде бронирования рейсов или оформления заказов онлайн . Тем временем китайские исследователи представили открытую модель GLM-5, которая превзошла закрытые аналоги Claude и GPT на ряде тестов. Она занимает первые места среди открытых моделей на платформах Artificial Analysis и LMArena, демонстрируя выдающиеся способности в генерации кода и текста . На фоне успехов новых игроков крупные компании продолжают борьбу за независимость от чипового монополиста Nvidia. OpenAI объявила о разработке собственного чипа Jalapeño совместно с Broadcom, стремясь уменьшить зависимость от единственного поставщика . Эти события подчеркивают динамику развития AI-индустрии: новые игроки бросают вызов традиционным лидерам, а старые технологии сталкиваются с проблемами адаптации к реальности.

Источники