OpenAI выпустила ChatGPT Images 2.0 — модель генерации изображений с улучшенным качеством рендеринга текста и точностью выполнения сложных инструкций . Новая версия получила максимальное количество баллов Elo среди всех аналогов, обогнав ближайший аналог на 242 пункта. На другом фронте реальности оказалось сложнее: новый бенчмарк ClawBench показал, что даже самый сильный ИИ-агент решает только 33% настоящих ежедневных задач вроде бронирования рейса или отклика на вакансию . Крупнейший ритейлер электроники «М.видео» объявил о планах инвестировать 9 миллиардов рублей в развитие цифровой инфраструктуры и внедрение искусственного интеллекта . Средства пойдут на модернизацию сайтов, приложений и автоматизацию процессов. Ещё одно важное событие: исследователи из центра безопасности AI представили индекс удалённого труда (Remote Labor Index), согласно которому современные ИИ-агенты способны решить лишь 2,5% реальных задач с бирж фриланса . Эти данные говорят о существенном расхождении между успехами на синтетических бенчмарках и реальной производительностью ИИ в повседневной жизни.
Источники
- ChatGPT Images 2.0: OpenAI запустила обновление модели генерации изображений с рассуждениям, 2K-разрешением и мультиязычным текстом — neurohive.io
- ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач — neurohive.io
- М.Видео инвестирует 9 млрд рублей в развитие ИТ-инфраструктуры, цифровых продуктов и ИИ — finam.ru
- Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров — neurohive.io