Gemini Omni, CLAWBench, GLM-5, CodeGraph — главные AI-новости дня — 23 мая 2026

Google представила Gemini Omni — универсальный ИИ для любых задач

Google анонсировала новую версию своей флагманской модели — Gemini Omni. Эта версия отличается способностью одновременно работать с несколькими типами данных: текстом, изображениями, звуком и видео. Ранее такие задачи решались отдельными моделями. Теперь одна система способна заменить целый набор специализированных инструментов. Например, она может автоматически распознавать объекты на фото, переводить речь в текст и создавать контент на основе анализа видеофайлов. Компания заявляет, что Gemini Omni открывает новый этап развития ИИ-технологий, позволяя автоматизировать сложные многошаговые операции без участия человека.

Источник: habr.com

ClawBench: лучшие ИИ-агенты справляются только с третьими реальных задач

Исследовательский коллектив представил бенчмарк ClawBench, который оценивает способность ИИ-агентов решать реальные повседневные задачи в сети Интернет. Среди заданий были бронирование рейсов, отклики на вакансии и оформление заказов. Лучшая модель — Claude Sonnet 4.6 — смогла решить лишь 33% предложенных задач. Это значительно уступает результатам стандартных тестов вроде SWE-Bench, где показатели достигают 65–75%.

Источник: neurohive.io

GLM-5: первая китайская модель превзошла закрытые аналоги на агентных задачах

Zhipu AI совместно с университетом Цинхуа представили открытую языковую модель GLM-5. Она занимает лидирующие позиции на ключевых бенчмарках: первое место среди открытых моделей на Artificial Analysis, лучшее качество генерации кода и текста на LMArena, а также успешнее конкурентов справляется с инструментальными задачами на BrowseComp и Human Language Evaluation (HLE). Модель демонстрирует способность не только давать точные ответы, но и самостоятельно инициировать выполнение действий.

Источник: neurohive.io

CodeGraph ускоряет навигацию по большому коду в Claude Code

Разработчики представили CodeGraph — систему построения графа исходного кода для агента Claude Code. Вместо традиционного поиска файлов через команду grep, CodeGraph создаёт индекс символического дерева проекта с помощью инструмента Tree-sitter и сохраняет результат в базу данных SQLite. Такой подход позволяет резко сократить количество обращений к файловой системе и снизить потребление токенов. Тестирование показало снижение числа вызовов на 92%, хотя результаты требуют уточнения и проверки на крупных проектах.

Источник: habr.com

Anthropic обновляет Claude до версии 4.7 с поддержкой длинных контекстов

Компания Anthropic объявила о выходе новой версии своего ИИ-ассистента Claude 4.7. Обновлённая модель поддерживает обработку до миллиона токенов на платном тарифе Pro, что полезно для решения агентских задач с длинным контекстом. Стоимость обработки остаётся прежней: $3 за миллион входных токенов и $15 за выходные. Улучшения позволили поднять точность выполнения задач программирования на платформе SWE-Bench с 49% до 54%, тогда как на другом популярном тесте MMLU изменений практически нет.

Источник: habr.com

Открытость vs закрытость: кто выиграет борьбу за рынок ИИ

GLM-5 показывает, что китайские разработчики способны создать конкурентоспособную открытую модель, способную соперничать с ведущими коммерческими аналогами. Открытый доступ к весам модели позволяет исследователям и компаниям свободно использовать её для собственных целей, снижая зависимость от проприетарных решений. Вопрос в том, сможет ли эта тенденция переломить доминирование закрытых коммерческих продуктов на рынке ИИ-сервисов.

Источник: neurohive.io

Анализ роли промпт-инжиниринга в эру reasoning-моделей

Автор делится опытом адаптации старых техник промпт-инжиниринга к новым reasoning-моделям типа GPT-5.5. Оказывается, многие привычные шаблоны и конструкции, ранее эффективные, становятся избыточными или даже ухудшают результат. Особенно страдают техники, основанные на подробных пошаговых размышлениях («CoT») и ролеплее («role play»). Автор предлагает пересмотреть подходы к созданию промптов, чтобы адаптироваться к особенностям новых поколений моделей.

Источник: habr.com

AI-агенты справляются только с 2.5% реальных рабочих задач

Команда исследователей провела эксперимент, проверив, могут ли современные ИИ-агенты справляться с настоящими рабочими заданиями, взятыми с платформы Upwork. Всего было собрано 240 реальных проектов, начиная от разработки игр и заканчивая созданием архитектурных чертежей. Результат оказался удручающим: даже лучшие ИИ смогли выполнить лишь 2.5% задач на удовлетворительном уровне. Исследование ставит под сомнение распространённые утверждения о скором вытеснении специалистов искусственным интеллектом.

Источник: neurohive.io

Google представила Gemini Omni — универсальный ИИ для любых задач

Источник: habr.com

ClawBench: лучшие ИИ-агенты справляются только с третьими реальных задач

Источник: neurohive.io

GLM-5: первая китайская модель превзошла закрытые аналоги на агентных задачах

Источник: neurohive.io

CodeGraph ускоряет навигацию по большому коду в Claude Code

Источник: habr.com

Anthropic обновляет Claude до версии 4.7 с поддержкой длинных контекстов

Источник: habr.com

Открытость vs закрытость: кто выиграет борьбу за рынок ИИ

Источник: neurohive.io

Анализ роли промпт-инжиниринга в эру reasoning-моделей

Источник: habr.com

AI-агенты справляются только с 2.5% реальных рабочих задач

Источник: neurohive.io