Anthropic представил первую общедоступную модель класса Mythos — Claude Fable 5
Anthropic анонсировала выпуск своей первой широко доступной модели класса Mythos — Claude Fable 5. Компания утверждает, что эта версия демонстрирует выдающиеся результаты в сложных задачах разработки ПО, обработки знаний и визуализации. Её преимущество растёт вместе с увеличением сложности заданий. До сих пор семейство Mythos считалось настолько мощным в области кибербезопасности, что публикация была признана рискованной. Однако сейчас компания внедрила новые меры безопасности, блокирующие потенциально опасные ответы в чувствительных областях вроде киберзащиты и биологии.
Источник: theverge.com
OpenAI представила ChatGPT Images 2.0 с улучшенным качеством и поддержкой мультиязычного текста
OpenAI официально объявила о релизе ChatGPT Images 2.0, основанной на архитектуре gpt-image-2. Новая модель стала лидером в генерации изображений согласно рейтингу LM Arena, обогнав конкурентов на 242 балла Elo благодаря точной обработке текста на различных языках и способности следовать детализированным инструкциям. Среди ключевых особенностей — поддержка разрешения 2К и способность рассуждать перед созданием картинки.
Источник: neurohive.io
ClawBench показал ограниченные возможности лучших AI-агентов в повседневной жизни
Исследовательская группа NeuroHive провела тестирование AI-агентов на новом бенчмарке ClawBench, имитирующем выполнение обычных онлайн-задач типа бронирования рейсов или отклика на вакансии. Даже самая сильная модель — Claude Sonnet 4.6 — смогла решить лишь треть поставленных задач. Этот результат резко контрастирует с показателями на стандартных академических бенчмарках, где лучшие модели достигают успеха в диапазоне 65–75%.
Источник: neurohive.io
Изучение ошибок AI-агентов показало проблемы уверенности и доверия
Автор блога поделился опытом работы с системой AI Innovation Lab, построенной вокруг группы AI-агентов, отвечающих за мониторинг корпоративных сетей и реагирование на угрозы. Во время тестирования один из агентов настоятельно рекомендовал отключение важного аккаунта, аргументируя своё предложение убедительными фактами. Хотя аргументы звучали профессионально, автор понял, что рекомендация неверна. Эта история подчёркивает опасность чрезмерно уверенных решений AI и необходимость осторожного подхода к интерпретации результатов.
Источник: habr.com
Анализ роли дата-сайентистов в эпоху LLM
Статья на платформе Otus рассматривает роль специалистов по данным в мире, где LLM упрощают создание AI-приложений до пары API-вызовов. Автор выделяет ряд рисков, связанных с использованием готовых метрик и синтетических данных, которые плохо отражают реальную эксплуатацию. Ключевая компетенция дата-сайентиста вновь оказывается важной — понимание и анализ исходных данных.
Источник: habr.com
Почему современные AI-агенты редко применяют знания на практике?
Команда исследователей из Центра безопасности AI и Scale AI разработала новый бенчмарк Remote Labor Index (RLI), чтобы оценить эффективность AI-агентов в выполнении настоящих рабочих задач. Тест включал набор реальных заказов с платформы Upwork. Итоги оказались удручающими: даже лучшие модели смогли справиться менее чем с тремя процентами поручений на достаточном уровне качества.
Источник: neurohive.io
Гонки за AGI уступили эре специализации AI-моделей
Обзор AI Stat отмечает тенденцию перехода от стремления создать универсальный AI к эпохе специализированных моделей. Например, Grok лидирует в разработке программного обеспечения, Gemini — в научном анализе, а Claude выделяется способностью обрабатывать длинные тексты. Пользователи начинают выбирать модель исходя из конкретных потребностей, а не общей производительности.
Источник: ai-stat.ru
Новый ChatGPT Images 2.0 стал лучшим генератором изображений с точностью к текстовым подсказкам
OpenAI выпустила новую версию генератора изображений ChatGPT Images 2.0, которая немедленно поднялась на вершину рейтинга LM Arena. Благодаря поддержке высокого разрешения (до 2К пикселей), точности исполнения сложных инструкций и корректному отображению текста на множестве языков, модель обошла ближайших конкурентов на 242 балла Elo. Важным нововведением стало внедрение механизма рассуждений перед генерацией изображения.
Источник: neurohive.io