OpenAI улучшила ChatGPT Images, антропологи протестировали роль AI-злодеев — 1 июля 2026

OpenAI анонсировала новую версию генератора изображений ChatGPT Images 2.0, основанную на модели gpt-image-2. Она занимает первую строчку в рейтингах качества рендера и точности выполнения сложных инструкций . Исследование китайских учёных выявило слабости современных языковых моделей в выполнении ролевых заданий. Даже лучшие модели получают низкие баллы при отыгрывании ролей злодеев — среднее значение составило всего 2.61 из 5 возможных баллов . Новый бенчмарк ClawBench показал, что современные AI-агенты способны решать лишь треть реальных повседневных задач интернета — бронирование билетов, отклики на вакансии и оформление заказов. Для сравнения, на стандартных синтетических бенчах результат достигает 65–75% успеха . Ещё один интересный эксперимент провели исследователи из центра AI Security совместно с Scale AI. Их бенчмарк Remote Labor Index демонстрирует, что даже передовые AI-агенты могут справиться лишь с 2.5% реальных задач фриланса, собранных с площадки Upwork . Эти новости подчеркивают важность реалистичных тестов производительности AI и необходимость дальнейшего развития специализированных моделей для конкретных задач.

Источники