Главные события недели
OpenAI выпустила ChatGPT Images 2.0
Компания OpenAI презентовала обновление своего инструмента генерации изображений — ChatGPT Images 2.0. Новая версия поддерживает высокое разрешение (до 2К пикселей), улучшает качество рендеринга текста на разных языках и повышает точность следования сложным инструкциям. Модель сразу заняла первую позицию в рейтинге LM Arena, опередив конкурентов на 242 балла Elo.
Появился бенчмарк ClawBench
Исследовательская группа представила новый инструмент оценки эффективности AI-агентов — ClawBench. Тестирование показало, что даже самые продвинутые модели справляются всего с одной третью реальных ежедневных задач, таких как бронирование билетов или отклик на вакансию. Лучший результат продемонстрировал Claude Sonnet 4.6, решивший 33% заданий, тогда как на традиционных бенчах вроде MMLU результаты составляют около 65–75%.
Стартапы собирают данные для робототехники
Shift начал экспериментальную программу бесплатной уборки квартир в крупных городах мира. Взамен компания получает ценнейшие видеоданные о бытовой деятельности людей, необходимые для улучшения алгоритмов домашних роботов. Программа позволяет стартапу собрать уникальные наборы данных для дальнейшего развития технологий.
Новые инструменты и обновления
Обновления ChatGPT Images
Вторая версия ChatGPT Images демонстрирует значительные улучшения в качестве генерируемых изображений. Поддерживается высокое разрешение (2К), улучшается точность передачи деталей и соответствие сложным инструкциям. Пользователи получили доступ к новому инструменту для решения творческих задач и иллюстраций.
Benckmark ClawBench
Появился новый бенчмарк для тестирования способностей AI-агентов решать реальные задачи повседневной жизни. Результаты показали существенную разницу между эффективностью на синтетических и практических заданиях, подчеркивая необходимость дальнейших исследований и разработок.
Инвестиции в развитие AI-инфраструктуры
Производитель микросхем Groq планирует привлечь дополнительные инвестиции ($650 млн) для разработки специализированных решений для AI-инференса. Эти средства помогут ускорить создание аппаратных платформ, оптимизированных для работы с большими языковыми моделями и генераторами мультимедиа.
Тренды
Специализация моделей становится приоритетом
Исследование GuruSup подчеркивает тенденцию перехода от универсальных моделей к специализированным решениям. Каждая крупная модель теперь ориентирована на выполнение конкретной задачи: Grok лидирует в разработке ПО (SWE-bench 75%), Gemini специализируется на обработке научных данных (GPQA Diamond 94.3%). Эта специализация помогает повысить производительность и снизить затраты на вычисления.
Ограниченные способности AI-агентов на практике
Тесты показывают, что большинство популярных AI-агентов неспособны эффективно справляться с настоящими повседневными задачами. Согласно ClawBench, лучший результат составляет всего 33%. Это ставит вопрос о готовности существующих инструментов к реальной эксплуатации и требует переосмысления подходов к обучению и оценке производительности.
Усиленное внимание к открытым моделям
Китайские исследователи выпустили открытую модель GLM-5, которая успешно конкурирует с коммерческими аналогами. Ее успех подтверждает важность открытого подхода к развитию AI-технологий, предоставляя разработчикам доступ к мощным инструментам без ограничений лицензирования.
На что обратить внимание
Следующая неделя обещает стать важной для сообщества AI-практиков. Ожидается публикация новых отчетов о развитии рынка специализированных моделей, включая прогнозы роста спроса на узконаправленные решения. Также стоит следить за развитием проекта ClawBench и появлением аналогичных бенчмарков, позволяющих объективно оценивать реальную полезность AI-агентов. Наконец, инвесторы будут внимательно наблюдать за результатами привлечения финансирования Groq и влиянием этих вложений на рынок аппаратных решений для AI.