OpenAI анонсировала новую версию генератора изображений ChatGPT Images 2.0, основанную на модели gpt-image-2. Она занимает первую строчку в рейтингах качества рендера и точности выполнения сложных инструкций . Исследование китайских учёных выявило слабости современных языковых моделей в выполнении ролевых заданий. Даже лучшие модели получают низкие баллы при отыгрывании ролей злодеев — среднее значение составило всего 2.61 из 5 возможных баллов . Новый бенчмарк ClawBench показал, что современные AI-агенты способны решать лишь треть реальных повседневных задач интернета — бронирование билетов, отклики на вакансии и оформление заказов. Для сравнения, на стандартных синтетических бенчах результат достигает 65–75% успеха . Ещё один интересный эксперимент провели исследователи из центра AI Security совместно с Scale AI. Их бенчмарк Remote Labor Index демонстрирует, что даже передовые AI-агенты могут справиться лишь с 2.5% реальных задач фриланса, собранных с площадки Upwork . Эти новости подчеркивают важность реалистичных тестов производительности AI и необходимость дальнейшего развития специализированных моделей для конкретных задач.
Источники
- ChatGPT Images 2.0: OpenAI запустила обновление модели генерации изображений с рассуждениям, 2K-разрешением и мультиязычным текстом — neurohive.io
- Какой ИИ способен сыграть злодея: сравнение алгоритмов выравнивания 17 моделей — neurohive.io
- ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач — neurohive.io
- Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров — neurohive.io