Лучшие ИИ-агенты смогли решить только треть реальных повседневных задач интернета — бронирование рейсов, отклики на вакансии, оформление заказов. Новый бенчмарк ClawBench продемонстрировал, что даже лидеры вроде Claude Sonnet 4.6 справляются лишь с 33% заданий, тогда как на стандартных бенчах результат достигает 65–75% . GLM-5 вышла на первое место среди открытых моделей по ряду ключевых показателей. Созданная командой Zhipu AI и Tsinghua University, эта модель обошла конкурентов на Artificial Analysis, LMArena, BrowseComp и HLE с инструментами. Она уверенно решает задачи генерации кода и текста, опережая даже закрытые аналоги вроде Claude и GPT . На рынке труда ИИ пока играет скромную роль. Согласно новому индексу Remote Labor Index, лучшие современные агенты способны выполнить лишь 2.5% реальных задач с бирж фриланса. Исследование включило проекты с платформы Upwork — от дизайна до программирования и аналитики . Выбор AI-модели стал вопросом специализации. В 2026 году универсальной модели нет: каждая оптимальна для своего сегмента. Например, Grok лидирует в разработке ПО, Gemini — в исследованиях, Claude — в обработке документов большого объема . Эти новости подчеркивают вызовы и перспективы развития технологий искусственного интеллекта. Пока крупные игроки борются за первенство, практические приложения остаются ограниченными.
Источники
- ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач — neurohive.io
- GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах — neurohive.io
- Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров — neurohive.io
- Какую AI-модель выбрать в 2026: Claude, GPT или Gemini — ai-stat.ru