OpenAI обновила ChatGPT Images, Google выпустил Gemini Omni, RLI оценил агентов — 25 мая 2026

OpenAI представила ChatGPT Images 2.0 с улучшенным качеством и мультиязычной поддержкой

OpenAI анонсировала вторую версию своей системы генерации изображений ChatGPT Images. Новая версия получила поддержку высокого разрешения (до 2К пикселей), возможность обработки сложных инструкций и точное отображение текста на различных языках. По результатам тестов на платформе LM Arena, модель показала значительное улучшение качества визуализации, заняв первую позицию во всех категориях генерации изображений с приростом в +242 балла Elo относительно ближайших конкурентов.

Источник: neurohive.io

Новый бенчмарк ClawBench выявил слабые стороны современных ИИ-агентов

Исследователи представили новый бенчмарк ClawBench, предназначенный для проверки способности ИИ-агентов решать реальные повседневные задачи онлайн, такие как бронирование рейсов, оформление заказов и отклик на вакансии. Даже лучшие современные модели демонстрируют низкие результаты: наиболее успешная модель — Claude Sonnet 4.6 — смогла решить лишь треть предложенных заданий (33%). Эти показатели значительно уступают традиционным синтетическим бенчмаркам, где ИИ достигает результатов около 65–75%.

Источник: neurohive.io

Открытая модель GLM-5 превзошла закрытые аналоги на бенчмарках генерации текста и кода

Китайская компания Zhipu AI совместно с университетом Цинхуа выпустили техническую документацию новой открытой языковой модели GLM-5. Эта модель стала лидером открытых решений по ряду ключевых показателей: первое место среди open-weight моделей на Artificial Analysis, лучшее качество генерации кода и текста на площадке LMArena, а также высокие позиции на специализированных бенчмарках вроде BrowseComp и HLE с использованием инструментов. GLM-5 демонстрирует способность не только отвечать на запросы, но и эффективно использовать дополнительные ресурсы для выполнения сложных задач.

Источник: neurohive.io

Исследование показало ограниченность ИИ-агентов в выполнении реальных рабочих задач

Команда Центра безопасности ИИ и компании Scale AI провела исследование эффективности ИИ-агентов на реальных задачах фриланса. Создав бенчмарк Remote Labor Index (RLI), исследователи проанализировали выполнение 240 реальных проектов с платформы Upwork. Результат оказался крайне низким: даже лучшие ИИ-агенты смогли справиться менее чем с 3% поставленных задач на удовлетворительном уровне. Этот показатель подчеркивает разрыв между возможностями современных моделей и требованиями реального рынка труда.

Источник: neurohive.io

Гуру суперинтеллекта выделил три ведущих AI-модели 2026 года

По мнению аналитической группы GuruSup, рынок AI-моделей в 2026 году характеризуется специализацией, когда каждая модель выделяется в определенной области. Среди лучших выделяются:

Claude — лидер в обработке длинных документов и кодировании благодаря большому контекстному окну и поддержке инструментов.
Gemini — первая в научной сфере, достигнув показателя 94.3% на бенчмарке GPQA Diamond.
Grok — лучшая в кодировании, демонстрируя результат 75% на SWE-bench. Выбор оптимальной модели теперь определяется спецификой задачи, а не абстрактным рейтингом производительности.

Источник: ai-stat.ru

Google презентовала многоформатную модель Gemini Omni

Google продемонстрировала новую модель Gemini Omni, способную обрабатывать различные типы данных — от текста и изображений до звука и видео. Демонстрационные ролики подчеркнули простоту работы с моделью, позволяющей создавать реалистичные видеоролики с минимальными усилиями и знаниями программирования. Однако автор отмечает потенциальные риски злоупотреблений такими технологиями, особенно в контексте дезинформации и deepfake-контента.

Источник: theverge.com

Первый публичный документ папы Льва XIV посвящен угрозам технологий и искусственному интеллекту

Папа римский Лев XIV опубликовал энциклику "Magnifica Humanitas", посвященную вопросам этики и влияния новых технологий на общество. Документ поднимает проблемы концентрации власти, эрозии демократии и рисков неконтролируемого развития технологий. Особое внимание уделено опасности вооружений на основе искусственного интеллекта и необходимости разработки правовых рамок регулирования технологического прогресса.

Источник: techcrunch.com

Хакеры научились обходить ограничения безопасности в чат-ботах

Хакеры освоили методы взлома ограничений безопасности в популярных чат-ботах, используя техники, известные как "jailbreaks". Простое обращение к ботам часто приводило к игнорированию встроенных правил безопасности и выполнению нежелательных команд. Такие атаки стали возможными из-за слабости механизмов защиты первых поколений крупных языковых моделей (LLMs). Несмотря на усилия разработчиков, проблема остается актуальной и вызывает опасения относительно надежности систем искусственного интеллекта.

Источник: theverge.com

OpenAI представила ChatGPT Images 2.0 с улучшенным качеством и мультиязычной поддержкой

Источник: neurohive.io

Новый бенчмарк ClawBench выявил слабые стороны современных ИИ-агентов

Источник: neurohive.io

Открытая модель GLM-5 превзошла закрытые аналоги на бенчмарках генерации текста и кода

Источник: neurohive.io

Исследование показало ограниченность ИИ-агентов в выполнении реальных рабочих задач

Источник: neurohive.io

Гуру суперинтеллекта выделил три ведущих AI-модели 2026 года

Claude — лидер в обработке длинных документов и кодировании благодаря большому контекстному окну и поддержке инструментов.
Gemini — первая в научной сфере, достигнув показателя 94.3% на бенчмарке GPQA Diamond.
Grok — лучшая в кодировании, демонстрируя результат 75% на SWE-bench. Выбор оптимальной модели теперь определяется спецификой задачи, а не абстрактным рейтингом производительности.

Источник: ai-stat.ru

Google презентовала многоформатную модель Gemini Omni

Источник: theverge.com

Первый публичный документ папы Льва XIV посвящен угрозам технологий и искусственному интеллекту

Источник: techcrunch.com

Хакеры научились обходить ограничения безопасности в чат-ботах

Источник: theverge.com