Архитектурные ошибки делают AI-агентов нежизнеспособными в продакшене: демонстрационные версии выглядят убедительными, но в реальных системах возникают пустые ответы, бесконечные циклы и проблемы с бюджетом . На фоне слабых результатов агентов появился новый бенчмарк ClawBench, который оценивает способность ИИ решать реальные ежедневные задачи вроде бронирования рейса или отклика на вакансию. Даже лучшая модель смогла справиться только с 33% заданий . Ещё одно исследование показало, что лучшие AI-агенты способны решить лишь 2.5% реальных задач с бирж фриланса, собранных командой Center for AI Safety и Scale AI . Но не всё плохо: исследователи из Китая представили GLM-5 — первую открытую модель, которая обошла закрытых лидеров Claude и GPT на ряде тестов. Она стала лидером на открытых весах по Artificial Analysis и первым номером в кодинге и тексте на LMArena . Эти результаты подчеркивают важность специализированных решений и необходимость переосмысления подходов к оценке эффективности AI-агентов. , , , ,
Источники
- AI‑агенты в проде: 6 архитектурных ошибок, из‑за которых они не доживают до запуска — habr.com
- ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач — neurohive.io
- Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров — neurohive.io
- GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах — neurohive.io
- Как оценивать LLM на практике, если времени на «идеальный бенчмарк» нет — habr.com