Новая версия ChatGPT Images 2.0 позволяет создавать изображения с высоким разрешением 2К, поддерживает мультиязычность и точное следование сложным инструкциям . GLM-5 стала первой открытой моделью, обогнавшей коммерческие аналоги на ряде ключевых метрик. Она занимает первые места на открытых бенчмарках и демонстрирует высокие результаты в кодировании и обработке естественного языка . Появился бенчмарк ClawBench, оценивающий способность агентов решать реальные ежедневные задачи в интернете. Даже лучшие модели справляются лишь с 33% заданий, что значительно ниже результатов на стандартных синтетических бенчах . Исследователи представили Remote Labor Index (RLI), который оценивает эффективность ИИ-агентов на реальной бирже фриланса. Самые сильные модели смогли выполнить лишь 2.5% предложенных задач на удовлетворительном уровне . Эти обновления подчеркивают прогресс в развитии технологий генерации контента и обработки естественного языка, одновременно выявляя ограничения современных моделей в выполнении практических задач реального мира.
Источники
- ChatGPT Images 2.0: OpenAI запустила обновление модели генерации изображений с рассуждениям, 2K-разрешением и мультиязычным текстом — neurohive.io
- GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах — neurohive.io
- ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач — neurohive.io
- Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров — neurohive.io