OpenAI запустила ChatGPT Images 2.0, новые тесты выявили слабые стороны AI-агентов — 1 июня 2026 – 31 мая 2026

Главные события недели

OpenAI выпустила ChatGPT Images 2.0

Компания OpenAI презентовала обновление своего инструмента генерации изображений — ChatGPT Images 2.0. Новая версия поддерживает высокое разрешение (до 2К пикселей), улучшает качество рендеринга текста на разных языках и повышает точность следования сложным инструкциям. Модель сразу заняла первую позицию в рейтинге LM Arena, опередив конкурентов на 242 балла Elo.

Появился бенчмарк ClawBench

Исследовательская группа представила новый инструмент оценки эффективности AI-агентов — ClawBench. Тестирование показало, что даже самые продвинутые модели справляются всего с одной третью реальных ежедневных задач, таких как бронирование билетов или отклик на вакансию. Лучший результат продемонстрировал Claude Sonnet 4.6, решивший 33% заданий, тогда как на традиционных бенчах вроде MMLU результаты составляют около 65–75%.

Стартапы собирают данные для робототехники

Shift начал экспериментальную программу бесплатной уборки квартир в крупных городах мира. Взамен компания получает ценнейшие видеоданные о бытовой деятельности людей, необходимые для улучшения алгоритмов домашних роботов. Программа позволяет стартапу собрать уникальные наборы данных для дальнейшего развития технологий.

Новые инструменты и обновления

Обновления ChatGPT Images

Вторая версия ChatGPT Images демонстрирует значительные улучшения в качестве генерируемых изображений. Поддерживается высокое разрешение (2К), улучшается точность передачи деталей и соответствие сложным инструкциям. Пользователи получили доступ к новому инструменту для решения творческих задач и иллюстраций.

Benckmark ClawBench

Появился новый бенчмарк для тестирования способностей AI-агентов решать реальные задачи повседневной жизни. Результаты показали существенную разницу между эффективностью на синтетических и практических заданиях, подчеркивая необходимость дальнейших исследований и разработок.

Инвестиции в развитие AI-инфраструктуры

Производитель микросхем Groq планирует привлечь дополнительные инвестиции ($650 млн) для разработки специализированных решений для AI-инференса. Эти средства помогут ускорить создание аппаратных платформ, оптимизированных для работы с большими языковыми моделями и генераторами мультимедиа.

Тренды

Специализация моделей становится приоритетом

Исследование GuruSup подчеркивает тенденцию перехода от универсальных моделей к специализированным решениям. Каждая крупная модель теперь ориентирована на выполнение конкретной задачи: Grok лидирует в разработке ПО (SWE-bench 75%), Gemini специализируется на обработке научных данных (GPQA Diamond 94.3%). Эта специализация помогает повысить производительность и снизить затраты на вычисления.

Ограниченные способности AI-агентов на практике

Тесты показывают, что большинство популярных AI-агентов неспособны эффективно справляться с настоящими повседневными задачами. Согласно ClawBench, лучший результат составляет всего 33%. Это ставит вопрос о готовности существующих инструментов к реальной эксплуатации и требует переосмысления подходов к обучению и оценке производительности.

Усиленное внимание к открытым моделям

Китайские исследователи выпустили открытую модель GLM-5, которая успешно конкурирует с коммерческими аналогами. Ее успех подтверждает важность открытого подхода к развитию AI-технологий, предоставляя разработчикам доступ к мощным инструментам без ограничений лицензирования.

На что обратить внимание

Следующая неделя обещает стать важной для сообщества AI-практиков. Ожидается публикация новых отчетов о развитии рынка специализированных моделей, включая прогнозы роста спроса на узконаправленные решения. Также стоит следить за развитием проекта ClawBench и появлением аналогичных бенчмарков, позволяющих объективно оценивать реальную полезность AI-агентов. Наконец, инвесторы будут внимательно наблюдать за результатами привлечения финансирования Groq и влиянием этих вложений на рынок аппаратных решений для AI.