Google представила Gemini Omni — универсальный ИИ для любых задач
Google анонсировала новую версию своей флагманской модели — Gemini Omni. Эта версия отличается способностью одновременно работать с несколькими типами данных: текстом, изображениями, звуком и видео. Ранее такие задачи решались отдельными моделями. Теперь одна система способна заменить целый набор специализированных инструментов. Например, она может автоматически распознавать объекты на фото, переводить речь в текст и создавать контент на основе анализа видеофайлов. Компания заявляет, что Gemini Omni открывает новый этап развития ИИ-технологий, позволяя автоматизировать сложные многошаговые операции без участия человека.
Источник: habr.com
ClawBench: лучшие ИИ-агенты справляются только с третьими реальных задач
Исследовательский коллектив представил бенчмарк ClawBench, который оценивает способность ИИ-агентов решать реальные повседневные задачи в сети Интернет. Среди заданий были бронирование рейсов, отклики на вакансии и оформление заказов. Лучшая модель — Claude Sonnet 4.6 — смогла решить лишь 33% предложенных задач. Это значительно уступает результатам стандартных тестов вроде SWE-Bench, где показатели достигают 65–75%.
Источник: neurohive.io
GLM-5: первая китайская модель превзошла закрытые аналоги на агентных задачах
Zhipu AI совместно с университетом Цинхуа представили открытую языковую модель GLM-5. Она занимает лидирующие позиции на ключевых бенчмарках: первое место среди открытых моделей на Artificial Analysis, лучшее качество генерации кода и текста на LMArena, а также успешнее конкурентов справляется с инструментальными задачами на BrowseComp и Human Language Evaluation (HLE). Модель демонстрирует способность не только давать точные ответы, но и самостоятельно инициировать выполнение действий.
Источник: neurohive.io
CodeGraph ускоряет навигацию по большому коду в Claude Code
Разработчики представили CodeGraph — систему построения графа исходного кода для агента Claude Code. Вместо традиционного поиска файлов через команду grep, CodeGraph создаёт индекс символического дерева проекта с помощью инструмента Tree-sitter и сохраняет результат в базу данных SQLite. Такой подход позволяет резко сократить количество обращений к файловой системе и снизить потребление токенов. Тестирование показало снижение числа вызовов на 92%, хотя результаты требуют уточнения и проверки на крупных проектах.
Источник: habr.com
Anthropic обновляет Claude до версии 4.7 с поддержкой длинных контекстов
Компания Anthropic объявила о выходе новой версии своего ИИ-ассистента Claude 4.7. Обновлённая модель поддерживает обработку до миллиона токенов на платном тарифе Pro, что полезно для решения агентских задач с длинным контекстом. Стоимость обработки остаётся прежней: $3 за миллион входных токенов и $15 за выходные. Улучшения позволили поднять точность выполнения задач программирования на платформе SWE-Bench с 49% до 54%, тогда как на другом популярном тесте MMLU изменений практически нет.
Источник: habr.com
Открытость vs закрытость: кто выиграет борьбу за рынок ИИ
GLM-5 показывает, что китайские разработчики способны создать конкурентоспособную открытую модель, способную соперничать с ведущими коммерческими аналогами. Открытый доступ к весам модели позволяет исследователям и компаниям свободно использовать её для собственных целей, снижая зависимость от проприетарных решений. Вопрос в том, сможет ли эта тенденция переломить доминирование закрытых коммерческих продуктов на рынке ИИ-сервисов.
Источник: neurohive.io
Анализ роли промпт-инжиниринга в эру reasoning-моделей
Автор делится опытом адаптации старых техник промпт-инжиниринга к новым reasoning-моделям типа GPT-5.5. Оказывается, многие привычные шаблоны и конструкции, ранее эффективные, становятся избыточными или даже ухудшают результат. Особенно страдают техники, основанные на подробных пошаговых размышлениях («CoT») и ролеплее («role play»). Автор предлагает пересмотреть подходы к созданию промптов, чтобы адаптироваться к особенностям новых поколений моделей.
Источник: habr.com
AI-агенты справляются только с 2.5% реальных рабочих задач
Команда исследователей провела эксперимент, проверив, могут ли современные ИИ-агенты справляться с настоящими рабочими заданиями, взятыми с платформы Upwork. Всего было собрано 240 реальных проектов, начиная от разработки игр и заканчивая созданием архитектурных чертежей. Результат оказался удручающим: даже лучшие ИИ смогли выполнить лишь 2.5% задач на удовлетворительном уровне. Исследование ставит под сомнение распространённые утверждения о скором вытеснении специалистов искусственным интеллектом.
Источник: neurohive.io