Remote Labor Index показал, что даже лучшие AI-агенты способны решить лишь 2.5% реальных заданий с бирж фриланса . Этот показатель демонстрирует разрыв между лабораторными успехами и практической применимостью решений. Исследование Tencent показало, что современные AI плохо играют роль злодеев в играх: оценка качества игры составила всего 2.61 из 5 баллов . Основная причина — сложность балансировки этики и креативности в поведении персонажа. GLM-5 стала первой открытой моделью, способной соперничать с коммерческими решениями вроде Claude и GPT на ряде бенчмарков . Модель продемонстрировала выдающиеся результаты в генерации кода и текста, а также самостоятельное исполнение сложных команд. Выбор AI-модели стал вопросом специализации: каждая модель хороша в своей области. Например, Grok лидирует в разработке программного обеспечения, Gemini — в аналитике и исследованиях, Claude — в обработке больших документов . Эти данные помогают специалистам подобрать оптимальную модель под свою задачу, учитывая её специфические требования и ограничения.
Источники
- Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров — neurohive.io
- Какой ИИ способен сыграть злодея: сравнение алгоритмов выравнивания 17 моделей — neurohive.io
- GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах — neurohive.io
- Какую AI-модель выбрать в 2026: Claude, GPT или Gemini — ai-stat.ru