ClawBench показал слабые результаты агентов, GLM-5 обогнал Claude и GPT — 16 июня 2026

Лучшие ИИ-агенты смогли решить только треть реальных повседневных задач интернета — бронирование рейсов, отклики на вакансии, оформление заказов. Новый бенчмарк ClawBench продемонстрировал, что даже лидеры вроде Claude Sonnet 4.6 справляются лишь с 33% заданий, тогда как на стандартных бенчах результат достигает 65–75% . GLM-5 вышла на первое место среди открытых моделей по ряду ключевых показателей. Созданная командой Zhipu AI и Tsinghua University, эта модель обошла конкурентов на Artificial Analysis, LMArena, BrowseComp и HLE с инструментами. Она уверенно решает задачи генерации кода и текста, опережая даже закрытые аналоги вроде Claude и GPT . На рынке труда ИИ пока играет скромную роль. Согласно новому индексу Remote Labor Index, лучшие современные агенты способны выполнить лишь 2.5% реальных задач с бирж фриланса. Исследование включило проекты с платформы Upwork — от дизайна до программирования и аналитики . Выбор AI-модели стал вопросом специализации. В 2026 году универсальной модели нет: каждая оптимальна для своего сегмента. Например, Grok лидирует в разработке ПО, Gemini — в исследованиях, Claude — в обработке документов большого объема . Эти новости подчеркивают вызовы и перспективы развития технологий искусственного интеллекта. Пока крупные игроки борются за первенство, практические приложения остаются ограниченными.

Источники