VK интегрирует свои IT-продукты в процессы «Роскосмоса»: корпоративные коммуникации, облака и AI-решения помогут повысить эффективность управления космическими проектами . На рынке открытых моделей появилась GLM-5 — самая сильная по бенчмаркам: первое место среди open-weight моделей на Artificial Analysis и LMArena, лидерство в кодировании и обработке текста. Она способна решать агентные задачи наравне с закрытыми моделями вроде Claude и GPT . Новый бенчмарк ClawBench ставит перед ИИ-агентами реальные повседневные задачи интернета: бронирование рейсов, отклики на вакансии, оформление заказов. Даже лучшие модели справляются лишь с третьими такими заданиями — результат сильно отличается от показателей на стандартных синтетических бенчах . Исследование Remote Labor Index показало, что современные ИИ-агенты способны решить лишь 2,5% реальных заданий фрилансеров с платформы Upwork. Среди проверенных задач оказались создание игр, архитектурные проекты и написание статей . Эти данные подчеркивают необходимость дальнейшего совершенствования ИИ-технологий для реального бизнеса и повседневной жизни.
Источники
- VK и «Роскосмос» подписали меморандум о сотрудничестве — iz.ru
- GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах — neurohive.io
- ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач — neurohive.io
- Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров — neurohive.io