CLAWBENCH провалили лучшие ИИ-агенты, GLM-5 обошла Claude и GPT — 25 мая 2026

Результаты новых тестов демонстрируют ограниченность современных больших языковых моделей. Бенчмарк ClawBench показал, что даже самый сильный ИИ-агент справляется лишь с 33% настоящих повседневных задач интернета . Другое исследование выявило, что популярные ИИ-агенты способны решить менее 3% реальных заказов с платформы Upwork . Тем временем китайские разработчики представили открытую модель GLM-5, которая превзошла коммерческие аналоги на ряде ключевых метрик. Модель заняла первое место среди открытых решений на платформах Artificial Analysis и LMArena, обойдя такие известные продукты, как Claude и GPT . Исследование Tencent показало, что большинство крупных языковых моделей плохо справляются с ролевой игрой, особенно в роли отрицательных героев. Средний балл для злодеев составил всего 2.61 из 5 . Отдельное внимание уделено вопросам безопасности и конфиденциальности при взаимодействии с ИИ-платформами. Пользователи рискуют утечкой личных данных через запросы к таким сервисам, как Cursor и Gemini . Эти результаты подчеркивают необходимость дальнейшего развития технологий обработки естественного языка и повышения уровня доверия пользователей к ИИ-инструментам.

Источники