Новый подход к рефлексирующему ИИ-агенту
Современные языковые модели умеют рассуждать теоретически, но при взаимодействии с внешним миром проявляют серьёзные недостатки: галлюцинации, каскадные ошибки, слепое следование целям. Новая архитектура решает эти проблемы путём внедрения обязательного этапа размышлений перед каждым действием агента. Этот подход повышает надёжность и снижает риски ошибок, делая модель пригодной для сложных областей вроде медицины, финансов и управления инфраструктурой.
Источник: habr.com
Проблемы сертификации товаров на Ozon и помощь AI
Ozon внезапно заблокировал тысячу позиций ассортимента одного продавца из-за отсутствия сертификатов качества. Чтобы избежать ручной загрузки документов, продавец использовал AI-решение: распознал текст на изображениях сертификатов и привязал товары к сертификатам автоматически через API Ozon Seller. Метод сэкономил месяцы рутинной работы и продемонстрировал потенциал AI в автоматизации бизнес-процессов.
Источник: habr.com
Архитектура GLM-5: конкурент Claude и GPT на агентных задачах
Zhipu AI и Tsinghua University представили GLM-5 — открытую языковую модель, лидирующую на ряде бенчмарков, включая Artificially Analysis, LMArena и BrowseComp. Она превосходит конкурентов в генерации кода и текста, демонстрируя способность решать комплексные задачи без участия человека. Открытый вес и лицензия делают её привлекательной альтернативой коммерческим решениям.
Источник: neurohive.io
Судебная битва между Элон Маском и Сэмом Альтманом за будущее OpenAI
Элон Маск подал иск против OpenAI, обвиняя компанию в отказе от миссии развития безопасного ИИ ради прибыли. В суде Маск утверждает, что руководство OpenAI обмануло его, заставив вложить деньги, а затем отказавшись следовать первоначальной цели. OpenAI отвергает обвинения, называя дело попыткой помешать конкуренту. Результат судебного разбирательства повлияет на развитие отрасли и статус OpenAI.
Источник: theverge.com
Продажа сервисов Meta обещает лёгкий заработок с помощью AI
Meta рекламирует сервисы своей дочерней компании Manus, приобретённой за $2 млрд, предлагая пользователям быстрый способ заработка с помощью AI. Кампания включает рекламу и контент, созданный специально привлечёнными создателями. Однако некоторые ролики были удалены после публикации материала The Verge, раскрывшего связи авторов роликов с самой компанией.
Источник: theverge.com
Обновление ChatGPT Images 2.0 от OpenAI
OpenAI обновила свою модель генерации изображений ChatGPT Images до версии 2.0. Новинка показала значительный рост производительности, заняв первое место во всех категориях Image Arena с результатом +242 балла Elo относительно предыдущего лидера. Улучшения включают поддержку мультиязычного текста и точное выполнение сложных инструкций.
Источник: neurohive.io
Оценка эффективности AI-агентов на реальных задачах
Исследователи создали бенчмарк ClawBench, проверяющий способность ИИ-агентов выполнять ежедневные задачи типа бронирования рейсов или оформления заказов онлайн. Лучшая модель — Claude Sonnet 4.6 — смогла справиться только с третьими такими заданиями. Традиционные тесты демонстрируют результаты значительно выше, подчёркивая разрыв между лабораторией и реальной жизнью.
Источник: neurohive.io
Новый помощник Gemini от Google появится в автомобилях
Google анонсировала внедрение помощника Gemini в автомобили с предустановленной системой Google. Помощник заменит существующий Google Assistant, предоставляя улучшенные функции голосового взаимодействия, настройки автомобиля и получения специфической информации. Обновление будет доступно как новым машинам, так и существующим через программное обновление.
Источник: theverge.com