OpenAI представила ChatGPT Images 2.0 с улучшенным качеством и мультиязычной поддержкой
OpenAI анонсировала вторую версию своей системы генерации изображений ChatGPT Images. Новая версия получила поддержку высокого разрешения (до 2К пикселей), возможность обработки сложных инструкций и точное отображение текста на различных языках. По результатам тестов на платформе LM Arena, модель показала значительное улучшение качества визуализации, заняв первую позицию во всех категориях генерации изображений с приростом в +242 балла Elo относительно ближайших конкурентов.
Источник: neurohive.io
Новый бенчмарк ClawBench выявил слабые стороны современных ИИ-агентов
Исследователи представили новый бенчмарк ClawBench, предназначенный для проверки способности ИИ-агентов решать реальные повседневные задачи онлайн, такие как бронирование рейсов, оформление заказов и отклик на вакансии. Даже лучшие современные модели демонстрируют низкие результаты: наиболее успешная модель — Claude Sonnet 4.6 — смогла решить лишь треть предложенных заданий (33%). Эти показатели значительно уступают традиционным синтетическим бенчмаркам, где ИИ достигает результатов около 65–75%.
Источник: neurohive.io
Открытая модель GLM-5 превзошла закрытые аналоги на бенчмарках генерации текста и кода
Китайская компания Zhipu AI совместно с университетом Цинхуа выпустили техническую документацию новой открытой языковой модели GLM-5. Эта модель стала лидером открытых решений по ряду ключевых показателей: первое место среди open-weight моделей на Artificial Analysis, лучшее качество генерации кода и текста на площадке LMArena, а также высокие позиции на специализированных бенчмарках вроде BrowseComp и HLE с использованием инструментов. GLM-5 демонстрирует способность не только отвечать на запросы, но и эффективно использовать дополнительные ресурсы для выполнения сложных задач.
Источник: neurohive.io
Исследование показало ограниченность ИИ-агентов в выполнении реальных рабочих задач
Команда Центра безопасности ИИ и компании Scale AI провела исследование эффективности ИИ-агентов на реальных задачах фриланса. Создав бенчмарк Remote Labor Index (RLI), исследователи проанализировали выполнение 240 реальных проектов с платформы Upwork. Результат оказался крайне низким: даже лучшие ИИ-агенты смогли справиться менее чем с 3% поставленных задач на удовлетворительном уровне. Этот показатель подчеркивает разрыв между возможностями современных моделей и требованиями реального рынка труда.
Источник: neurohive.io
Гуру суперинтеллекта выделил три ведущих AI-модели 2026 года
По мнению аналитической группы GuruSup, рынок AI-моделей в 2026 году характеризуется специализацией, когда каждая модель выделяется в определенной области. Среди лучших выделяются:
- Claude — лидер в обработке длинных документов и кодировании благодаря большому контекстному окну и поддержке инструментов.
- Gemini — первая в научной сфере, достигнув показателя 94.3% на бенчмарке GPQA Diamond.
- Grok — лучшая в кодировании, демонстрируя результат 75% на SWE-bench. Выбор оптимальной модели теперь определяется спецификой задачи, а не абстрактным рейтингом производительности.
Источник: ai-stat.ru
Google презентовала многоформатную модель Gemini Omni
Google продемонстрировала новую модель Gemini Omni, способную обрабатывать различные типы данных — от текста и изображений до звука и видео. Демонстрационные ролики подчеркнули простоту работы с моделью, позволяющей создавать реалистичные видеоролики с минимальными усилиями и знаниями программирования. Однако автор отмечает потенциальные риски злоупотреблений такими технологиями, особенно в контексте дезинформации и deepfake-контента.
Источник: theverge.com
Первый публичный документ папы Льва XIV посвящен угрозам технологий и искусственному интеллекту
Папа римский Лев XIV опубликовал энциклику "Magnifica Humanitas", посвященную вопросам этики и влияния новых технологий на общество. Документ поднимает проблемы концентрации власти, эрозии демократии и рисков неконтролируемого развития технологий. Особое внимание уделено опасности вооружений на основе искусственного интеллекта и необходимости разработки правовых рамок регулирования технологического прогресса.
Источник: techcrunch.com
Хакеры научились обходить ограничения безопасности в чат-ботах
Хакеры освоили методы взлома ограничений безопасности в популярных чат-ботах, используя техники, известные как "jailbreaks". Простое обращение к ботам часто приводило к игнорированию встроенных правил безопасности и выполнению нежелательных команд. Такие атаки стали возможными из-за слабости механизмов защиты первых поколений крупных языковых моделей (LLMs). Несмотря на усилия разработчиков, проблема остается актуальной и вызывает опасения относительно надежности систем искусственного интеллекта.
Источник: theverge.com