Новый benchmark ClawBench выявил слабые стороны AI-агентов — 1 июня 2026

Утренний дайджест свежих событий в мире AI: Исследователи из Центра безопасности AI и компании Scale AI выпустили бенчмарк Remote Labor Index (RLI), чтобы оценить способность современных агентов справляться с настоящими задачами фриланса. Из 240 реальных заданий с платформы Upwork, такие лидеры рынка как Claude и GPT смогли решить лишь 2.5% на удовлетворительном уровне . Другой бенчмарк, ClawBench, протестировал способности ИИ-агентов решать повседневные задачи интернета: бронирование рейсов, отклики на вакансии, оформление заказов. Даже самая продвинутая модель Claude Sonnet 4.6 смогла справиться только с 33% предложенных задач, тогда как на стандартных бенчмарках результат был значительно выше — около 65–75% . Отдельное исследование показало, что современные языковые модели плохо справляются с ролевой игрой, особенно когда речь идет о персонажах-злодеях. Средний балл за игру в роли героя составил 3.21 из 5, а для отрицательных героев оценка упала до 2.61 . Наконец, портал AI Stat опубликовал аналитический материал о выборе подходящей AI-модели в 2026 году. Статья подчеркивает, что сейчас нет единой идеальной модели, каждая оптимальна для конкретных задач. Например, для программирования выбирают Claude или Grok, а для исследований — Gemini . Эти исследования подчеркивают необходимость четкого понимания ограничений современных AI-технологий и правильного выбора инструмента под каждую задачу.

Источники