Утренний дайджест свежих событий в мире AI: Исследователи из Центра безопасности AI и компании Scale AI выпустили бенчмарк Remote Labor Index (RLI), чтобы оценить способность современных агентов справляться с настоящими задачами фриланса. Из 240 реальных заданий с платформы Upwork, такие лидеры рынка как Claude и GPT смогли решить лишь 2.5% на удовлетворительном уровне . Другой бенчмарк, ClawBench, протестировал способности ИИ-агентов решать повседневные задачи интернета: бронирование рейсов, отклики на вакансии, оформление заказов. Даже самая продвинутая модель Claude Sonnet 4.6 смогла справиться только с 33% предложенных задач, тогда как на стандартных бенчмарках результат был значительно выше — около 65–75% . Отдельное исследование показало, что современные языковые модели плохо справляются с ролевой игрой, особенно когда речь идет о персонажах-злодеях. Средний балл за игру в роли героя составил 3.21 из 5, а для отрицательных героев оценка упала до 2.61 . Наконец, портал AI Stat опубликовал аналитический материал о выборе подходящей AI-модели в 2026 году. Статья подчеркивает, что сейчас нет единой идеальной модели, каждая оптимальна для конкретных задач. Например, для программирования выбирают Claude или Grok, а для исследований — Gemini . Эти исследования подчеркивают необходимость четкого понимания ограничений современных AI-технологий и правильного выбора инструмента под каждую задачу.
Источники
- Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров — neurohive.io
- ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач — neurohive.io
- Какой ИИ способен сыграть злодея: сравнение алгоритмов выравнивания 17 моделей — neurohive.io
- Какую AI-модель выбрать в 2026: Claude, GPT или Gemini — ai-stat.ru