Claude Opus 4.8 стал честнее, GLM-5 обогнала GPT, EU готовит AI-чипы — 28 мая 2026

Anthropic выпустила Claude Opus 4.8: модель стала честнее о своих ошибках

Новая версия модели Claude Opus 4.8 отличается улучшенной работой AI-агентов без подсказок оператора. Теперь модель точнее оценивает собственные ограничения и лучше удерживает контекст при автономной работе. Среди изменений — уменьшение числа случаев, когда агент ошибочно заявляет о выполненной задаче, хотя работа выполнена некорректно или неполностью. Компания утверждает, что модель способна честно признавать ошибки и неопределённости в результатах.

Источник: ixbt.com

Китайская GLM-5 обошла GPT и Claude на открытых бенчмарках

Китайская команда Zhipu AI и Tsinghua University представили GLM-5 — первую открытую модель, которая превзошла коммерческие аналоги на ряде тестов. Модель занимает первое место среди открытых решений на LMArena и Artificial Analysis, лидируя также в генерации кода и текста. GLM-5 демонстрирует способность решать агентные задачи и следовать сложным инструкциям, приближаясь к показателям закрытых коммерческих моделей.

Источник: neurohive.io

European AI задумался о собственных чипах: Mistral инвестировала €4 млрд

Французская компания Mistral AI заявила о планах разработать собственные ИИ-чипы, снижая зависимость от Nvidia. Генеральный директор Артюр Менш отметил, что такие решения позволят сократить расходы на обработку данных и повысить контроль над инфраструктурой. Пока Mistral продолжает использовать оборудование Nvidia, параллельно испытывая альтернативные архитектуры. Инвестиции направлены на создание специализированной аппаратуры, аналогичной решениям крупных игроков вроде Amazon и Google.

Источник: ixbt.com

OpenAI выпустила ChatGPT Images 2.0 с высоким разрешением и мультиязычной поддержкой

OpenAI анонсировала обновление ChatGPT Images 2.0, основанное на новой архитектуре gpt-image-2. Согласно LM Arena, модель поднялась на первое место по качеству визуальных результатов, опережая конкурентов на 242 балла Elo благодаря точности исполнения сложных инструкций и идеальной обработке текста на различных языках. Новое решение поддерживает разрешение до 2К пикселей и способно создавать детализированные изображения высокого качества.

Источник: neurohive.io

Новый бенчмарк ClawBench показал слабые результаты лучших AI-агентов

Исследователи представили новый бенчмарк ClawBench, предназначенный для проверки способности ИИ-агентов выполнять реальные повседневные задачи в интернете. Тестирование показало, что лучшие модели способны решить лишь треть предложенных заданий. Например, даже сильная модель Claude Sonnet 4.6 справлялась лишь с 33% задач, тогда как на стандартных бенчмарках показатели достигают 65–75%.

Источник: neurohive.io

Anthropic добавила динамическую координацию агентов в Opus 4.8

Модель Claude Opus 4.8 от Anthropic теперь оснащена инструментом Dynamic Workflows, позволяющим координировать группы субагентов. Эта функция помогает распределять задачи между несколькими агентами, повышая эффективность выполнения сложных сценариев. Решение предназначено для повышения гибкости и масштабируемости приложений, использующих AI-агентов.

Источник: techcrunch.com

Топ-менеджеры часто недооценивают проблемы доверия и организации при внедрении ИИ

Главная трудность корпоративных внедрений ИИ заключается не в технологиях, а в недостаточном доверии сотрудников результатам, отсутствии чётких процессов и структурированных данных. Модели, API и векторные базы можно приобрести и интегрировать, но успех проекта зависит от готовности бизнеса принимать новые подходы и доверять выводам системы. Важнейшие аспекты включают обучение персонала, настройку инфраструктуры и интеграцию новых инструментов в рабочие процессы.

Источник: habr.com

Учёные сравнили алгоритмы выравнивания 17 моделей: герои сильнее злодеев

Исследование специалистов из Tencent и Университета Сунь Ятсена выявило различия в способностях больших языковых моделей к ролевой игре. Несмотря на успехи в изображении героев, модели оказались менее эффективны в роли антагонистов. Средний рейтинг героя составил 3.21 из 5, а злодей получил лишь 2.61. Причиной называют трудности с моделированием мотиваций и эмоциональных реакций отрицательных персонажей.

Источник: neurohive.io

Anthropic выпустила Claude Opus 4.8: модель стала честнее о своих ошибках

Источник: ixbt.com

Китайская GLM-5 обошла GPT и Claude на открытых бенчмарках

Источник: neurohive.io

European AI задумался о собственных чипах: Mistral инвестировала €4 млрд

Источник: ixbt.com

OpenAI выпустила ChatGPT Images 2.0 с высоким разрешением и мультиязычной поддержкой

Источник: neurohive.io

Новый бенчмарк ClawBench показал слабые результаты лучших AI-агентов

Источник: neurohive.io

Anthropic добавила динамическую координацию агентов в Opus 4.8

Источник: techcrunch.com

Топ-менеджеры часто недооценивают проблемы доверия и организации при внедрении ИИ

Источник: habr.com

Учёные сравнили алгоритмы выравнивания 17 моделей: герои сильнее злодеев

Источник: neurohive.io