Главные события недели
OpenAI выпустила ChatGPT Images 2.0
Модель получила поддержку высокого разрешения (до 2K) и мультиязычного текста, улучшилась точность выполнения сложных инструкций. Это позволило ей занять первое место во всех категориях рейтинга LM Arena. Новинка интересна дизайнерам, маркетологам и разработчикам приложений, использующим графику.
Anthropic запустил Claude 4.7 с миллионом токенов
Поддержка длинного контекста до миллиона токенов доступна на платной подписке Pro. Хотя производительность изменилась несущественно (+5% на SWE-Bench), расширение контекста важно для анализа больших документов и потоков данных.
Новый бенчмарк ClawBench показал низкую эффективность AI-агентов
На нём лучшие модели справились лишь с 33% бытовых задач типа поиска авиабилетов или откликов на вакансии. Этот показатель контрастирует с результатами традиционных тестов, где успех составляет около 65–75%.
Новые инструменты и обновления
Открытая среда симуляции жизни для обучения AI
Создана цифровая вселенная, имитирующая повседневность людей (работа, отдых, социальные взаимодействия). Эта среда позволит улучшить эмоциональный интеллект и поведенческое моделирование ИИ-агентов.
Avataar AI предлагает дешёвое создание видео
Индийская компания анонсировала генератор видео стоимостью $0.005 за секунду. Решение нацелено на массовый контент-маркетинг и производство коротких роликов.
OpenAI рассматривает снижение цен после шагов Anthropic
Из-за конкуренции OpenAI изучает возможность уменьшения стоимости токенов. Причина — опасения, что первый шаг сделает конкурент Anthropic, который уже подал заявку на IPO.
Тренды
Ограниченность текущих AI-агентов в реальных сценариях
Несмотря на успехи в лабораторных условиях, новые исследования показывают слабости ИИ в выполнении простых повседневных задач. Бенчмарки вроде ClawBench подчёркивают необходимость новых подходов к обучению и оценке моделей.
Рост интереса к мультимодальным решениям
Улучшение качества графики и интеграции с текстом открывает перспективы для развития мультимодальных решений. Например, ChatGPT Images 2.0 совмещает мощные графические возможности с глубоким пониманием инструкций.
Увеличение поддержки крупных объёмов данных
Модели начинают поддерживать длинные потоки данных (Claude 4.7 — до миллиона токенов). Это особенно востребовано в корпоративных приложениях, где нужно анализировать большие объёмы документации или вести диалоги с длительным контекстом.
На что обратить внимание
Дальнейшее развитие мультимодальности
Следите за новыми моделями, сочетающими обработку текста, изображений и звука. Эти технологии открывают перспективу создания универсальных инструментов для бизнеса и творчества.
Оценка реального потенциала AI-агентов
Продолжайте наблюдать за развитием бенчмарков, измеряющих успешность выполнения практических задач. Они помогут объективнее оценивать прогресс в разработке интеллектуальных помощников.
Конкуренция между OpenAI и Anthropic
Снижение цен и другие шаги крупнейших игроков рынка повлияют на доступность и популярность сервисов. Следующая неделя покажет реакцию компаний на изменения друг друга.