OpenAI обновила ChatGPT Images 2.0, добавив функцию рассуждений, разрешение 2К и мультиязычный текст. Новая версия занимает первую строчку во всех категориях генерации изображений, опережая конкурентов на 242 балла Elo . GLM-5 стала первой открытой моделью, способной соперничать с коммерческими моделями на агентных задачах. Она лидирует на бенчмарке LMArena и превосходит закрытые аналоги на задачах с инструментами . Remote Labor Index показал, что лучшие AI-агенты способны решить лишь 2.5% реальных задач с бирж фриланса. Исследование проанализировало 240 проектов с платформы Upwork, подтвердив ограниченность современных агентов в выполнении практических задач . Новый бенчмарк 1C Code Bench позволит оценить способность LLM создавать код на платформе 1С:Предприятие. Этот специализированный тест поможет разработчикам выбирать подходящие модели для автоматизации процессов . Эти обновления демонстрируют тенденцию к специализации AI-моделей и подчеркивают необходимость новых подходов к оценке их производительности.
Источники
- ChatGPT Images 2.0: OpenAI запустила обновление модели генерации изображений с рассуждениям, 2K-разрешением и мультиязычным текстом — neurohive.io
- GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах — neurohive.io
- Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров — neurohive.io
- 1C Code Bench — бенчмарк для оценки способности LLM писать код на 1С — habr.com