ClawBench показал слабые результаты AI-агентов в бытовых задачах — 22 мая 2026

За последние сутки несколько важных событий затронули индустрию AI. Во-первых, исследование ClawBench показало, что лучшие AI-агенты способны решить лишь треть повседневных задач, таких как бронирование рейса или отклик на вакансию . Даже мощнейший Claude Sonnet 4.6 достиг показателя лишь в 33%, тогда как на стандартных бенчмарках такие системы демонстрируют около 65–75% успеха. Этот разрыв подчёркивает необходимость новых подходов к оценке эффективности AI в реальной жизни. Вторая новость касается открытого исследования Remote Labor Index, которое установило, что даже передовые AI-агенты справляются менее чем с 3% реальных заданий с бирж фриланса . Для сравнения, обычные разработчики-фрилансеры регулярно закрывают десятки процентов аналогичных заказов. Авторы считают, что пока рано говорить о полной замене людей искусственным интеллектом в творческих профессиях. Третья заметная тема связана с ростом цен на электронику. Согласно отчету Forbes, спрос на оперативную память для дата-центров повышает стоимость компонентов для бытовой техники, включая смартфоны и игровые консоли . Наконец, любопытное наблюдение от Dario Amodei из Anthropic: он предупредил, что распространение AI может вызвать парадоксальное сочетание экономического роста и высокой безработицы . Его расчеты предполагают возможность увеличения мирового ВВП на 5–10% параллельно с ростом уровня безработицы до 10%. Эти данные подчеркивают сложность интеграции AI в экономику и общество, предлагая пищу для размышлений специалистам отрасли.

Источники