Результаты новых тестов демонстрируют ограниченность современных больших языковых моделей. Бенчмарк ClawBench показал, что даже самый сильный ИИ-агент справляется лишь с 33% настоящих повседневных задач интернета . Другое исследование выявило, что популярные ИИ-агенты способны решить менее 3% реальных заказов с платформы Upwork . Тем временем китайские разработчики представили открытую модель GLM-5, которая превзошла коммерческие аналоги на ряде ключевых метрик. Модель заняла первое место среди открытых решений на платформах Artificial Analysis и LMArena, обойдя такие известные продукты, как Claude и GPT . Исследование Tencent показало, что большинство крупных языковых моделей плохо справляются с ролевой игрой, особенно в роли отрицательных героев. Средний балл для злодеев составил всего 2.61 из 5 . Отдельное внимание уделено вопросам безопасности и конфиденциальности при взаимодействии с ИИ-платформами. Пользователи рискуют утечкой личных данных через запросы к таким сервисам, как Cursor и Gemini . Эти результаты подчеркивают необходимость дальнейшего развития технологий обработки естественного языка и повышения уровня доверия пользователей к ИИ-инструментам.
Источники
- ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач — neurohive.io
- Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров — neurohive.io
- GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах — neurohive.io
- Какой ИИ способен сыграть злодея: сравнение алгоритмов выравнивания 17 моделей — neurohive.io
- Ваши секреты внутри LLM. Куда уходят промпты и чего стоит опасаться? — habr.com