Claude Sonnet 5: новый агентный апгрейд от Anthropic
Anthropic выпустила Claude Sonnet 5 — улучшенную версию своего агента для программирования, автоматизации и корпоративных задач. Новая модель отличается продвинутым планированием действий, использованием браузера и терминала, написанием и проверкой кода. Несмотря на улучшения, Sonnet 5 не заменяет Opus, поскольку сохраняет ограничения предыдущих версий.
Источник: neurohive.io
OpenAI обновила ChatGPT Images 2.0
OpenAI презентовала ChatGPT Images 2.0 — вторую версию генератора изображений на базе gpt-image-2. Новинка лидирует в бенчмарках по качеству визуализации текста на множестве языков и точности выполнения сложных инструкций. Среди ключевых изменений — поддержка 2К-разрешения и интеграция механизмов рассуждений.
Источник: neurohive.io
ClawBench: лучшие ИИ-агенты выполняют только треть реальных задач
Новый бенчмарк ClawBench протестировал способность ИИ-агентов справляться с повседневными онлайн-задачами вроде бронирования рейсов или откликов на вакансии. Даже самая успешная модель — Claude Sonnet 4.6 — смогла решить лишь 33% заданий. Этот показатель значительно уступает результатам на стандартных синтетических бенчах, где успех достигает 65–75%.
Источник: neurohive.io
GLM-5: лучшая открытая модель по бенчмаркам
Zhipu AI и Tsinghua University представили GLM-5 — открытую языковую модель, лидирующую в ряде тестов. Она стала первой open-weight моделью, занявшей первые места на Artificial Analysis и LMArena, а также показала выдающиеся результаты на BrowseComp и HLE с инструментами. GLM-5 превосходит закрытые аналоги, включая Claude и GPT, в некоторых типах задач.
Источник: neurohive.io
ООН обеспокоена отставанием регулирования от темпов развития ИИ
Организация Объединённых Наций опубликовала отчёт, предупреждая, что развитие технологий ИИ происходит гораздо быстрее, чем адаптируются существующие регуляторные механизмы. Эксперты подчеркнули необходимость международных стандартов управления искусственным интеллектом и призвали к срочным действиям.
Источник: ixbt.com
Alibaba ограничивает использование Claude Code сотрудниками
Alibaba классифицировала инструмент Claude Code как высокорисковый и ограничила его применение внутри компании. Решение связано с соображениями информационной безопасности и защиты конфиденциальных данных сотрудников и клиентов.
Источник: techcrunch.com
Термояд для дата-центров: стартапы Helion и Zap Energy подписали соглашения с Microsoft
Стартапы Helion Energy и Zap Energy работают над проектами термоядерной энергии для обеспечения электроэнергией дата-центров Microsoft. Эти проекты призваны удовлетворить резко возросшие потребности в электричестве, вызванные ростом вычислительных мощностей для обработки данных и поддержки ИИ-сервисов.
Источник: ixbt.com
Anthropic набирает кадры быстрее конкурентов
Компания Anthropic существенно увеличила штат сотрудников, удвоив количество специалистов менее чем за полгода. Особое внимание уделяется привлечению исследователей уровня Андрея Карпатого, известного специалиста в области машинного обучения и основателя OpenAI.
Источник: ai-stat.ru