ClawBench: лучшие ИИ-агенты завершают только 33% реальных задач
Исследователи протестировали способность ИИ-агентов справляться с настоящими повседневными задачами интернета: бронирование рейсов, отклики на вакансии, оформление заказов. Результат оказался скромным: даже лучшая модель — Claude Sonnet 4.6 — смогла решить лишь 33% заданий. Это контрастирует с показателями на стандартных бенчмарках, где ИИ достигает 65–75%.
Источник: neurohive.io
GLM-5: первая открытая модель-лидер по бенчмаркам
Zhipu AI и Tsinghua University представили GLM-5 — первую открытую языковую модель, ставшую лидером по ряду ключевых метрик. Она занимает первое место среди открытых моделей на Artificial Analysis и LMArena, лидирует на BrowseComp и HLE с инструментами. GLM-5 способна не только отвечать на запросы, но и самостоятельно планировать шаги выполнения сложных задач.
Источник: neurohive.io
Google Home Speaker: возвращение с поддержкой Gemini
Google представила новую версию своей умной колонки Google Home Speaker после шестилетнего перерыва. Устройство оснащено поддержкой новой платформы Gemini, позволяющей вести более естественный диалог с ассистентом. Колонка доступна в четырёх цветах и стоит $99.99.
Источник: techcrunch.com
OpenAI запускает ChatGPT Images 2.0 с улучшенной генерацией
OpenAI анонсировала обновление модели генерации изображений ChatGPT Images 2.0. Новая версия демонстрирует значительное улучшение качества: она набрала рекордное количество баллов Elo (+242) благодаря точности исполнения сложных инструкций и способности идеально рендерить текст на различных языках.
Источник: neurohive.io
Anthropic представляет Claude 4.7 с расширенным мышлением
Компания Anthropic выпустила новую версию своего агента Claude 4.7. Среди нововведений — функция extended thinking, полезная для выполнения агентских задач, увеличенный контекст до 1 млн токенов на платной версии. Стоимость обработки остаётся прежней ($3 за миллион входных токенов, $15 за выходные).
Источник: habr.com
Gemini становится основой для обновления Google Home
Google планирует использовать платформу Gemini для вдохновения новой жизни в свою линейку умных колонок. Компания надеется, что интеграция Gemini позволит улучшить взаимодействие с пользователями через более гибкий и разговорный интерфейс.
Источник: theverge.com
AI-агенты решили только 2.5% реальных задач фриланса
Команда исследователей провела эксперимент, проверив, способны ли ИИ-агенты выполнять реальную работу фрилансеров. Из 240 реальных проектов с биржи Upwork удалось успешно реализовать лишь 2.5% задач. Такие результаты подчёркивают ограниченность текущих возможностей ИИ в выполнении практических рабочих задач.
Источник: neurohive.io
Продажи электромобилей и гибридов в России выросли на 88%
Продажи новых электромобилей и гибридов в России за первые пять месяцев 2026 года выросли на 88% по сравнению с прошлым годом. Российское производство составило 27% от общего объёма продаж, увеличившись втрое за год. Всего было реализовано свыше 44 тыс. машин.
Источник: ixbt.com