GLM-5 обогнал Claude и GPT на agent-задачах, Agents проваливаются в проде — 30 июня 2026

Архитектурные ошибки делают AI-агентов нежизнеспособными в продакшене: демонстрационные версии выглядят убедительными, но в реальных системах возникают пустые ответы, бесконечные циклы и проблемы с бюджетом . На фоне слабых результатов агентов появился новый бенчмарк ClawBench, который оценивает способность ИИ решать реальные ежедневные задачи вроде бронирования рейса или отклика на вакансию. Даже лучшая модель смогла справиться только с 33% заданий . Ещё одно исследование показало, что лучшие AI-агенты способны решить лишь 2.5% реальных задач с бирж фриланса, собранных командой Center for AI Safety и Scale AI . Но не всё плохо: исследователи из Китая представили GLM-5 — первую открытую модель, которая обошла закрытых лидеров Claude и GPT на ряде тестов. Она стала лидером на открытых весах по Artificial Analysis и первым номером в кодинге и тексте на LMArena . Эти результаты подчеркивают важность специализированных решений и необходимость переосмысления подходов к оценке эффективности AI-агентов. , , , ,

GLM-5 обогнал Claude и GPT на agent-задачах, Agents проваливаются в проде — 30 июня 2026

Источники

GLM-5 обогнал Claude и GPT на agent-задачах, Agents проваливаются в проде — 30 июня 2026

Источники