OpenAI представила ChatGPT Images 2.0 с улучшенной генерацией и разрешением
OpenAI анонсировала вторую версию генератора изображений ChatGPT Images. Новая модель демонстрирует значительное улучшение качества визуализации благодаря способности рассуждать над сложными запросами и поддерживать высокое разрешение до 2К пикселей. Согласно рейтингу LM Arena, модель набрала рекордные баллы, опередив ближайших конкурентов на 242 пункта Elo. Ключевые улучшения включают точное следование детализированным инструкциям и поддержку многоязычного текста.
Источник: neurohive.io
Яндекс откроет платформу для интеграции ИИ-агентов в «Алису AI»
Компания Яндекс объявила о создании новой платформы, позволяющей интегрировать интеллектуальных агентов в своего виртуального ассистента «Алиса AI». Уже сейчас проходят тесты собственных агентов («Яндекс Такси», «Яндекс Лавки»), а до конца года планируется открыть доступ внешним партнерам. Пользователь сможет управлять услугами простым голосом, формулируя запросы естественно. Среди будущих интеграций ожидаются агенты доставки и маркетплейсов.
Источник: ixbt.com
Китайский теневой рынок даёт доступ к закрытой модели Claude
Несмотря на ограничения Anthropic, китайская аудитория нашла способы обойти запрет на использование модели Claude. Появился целый сектор посредников, предлагающих готовые аккаунты и услуги обхода проверок личности. Хотя Anthropic усиливает меры защиты, спрос на Claude остаётся высоким, формируя отдельную подпольную индустрию.
Источник: ixbt.com
GLM-5 стала первой открытой моделью, способной соперничать с ведущими коммерческими моделями
Исследователи из Zhipu AI и Университета Цинхуа представили открытую языковую модель GLM-5, ставшую лидером открытых моделей по ряду ключевых метрик. Модель занимает первое место среди open-weight моделей на Artificial Analysis и лидирует в кодировании и обработке текста на LMArena. Эти результаты приближают её к уровням закрытых коммерческих моделей вроде Claude и GPT.
Источник: neurohive.io
Новый подход к архитектуре конвейера уменьшает зависимость от LLM
Разработчик поделился опытом построения архитектуры предсказуемого конвейера для ботов поддержки на основе LLM. Вместо отправки каждого запроса непосредственно в нейросеть, предложена схема, где вопрос достигает модели только после прохождения ряда детерминированных этапов обработки. Такой подход снижает риск галлюцинаций и сокращает расходы на взаимодействие с LLM.
Источник: habr.com
ClawBench показал низкую эффективность лучших ИИ-агентов в выполнении повседневных задач
Новый бенчмарк ClawBench протестировал способность ИИ-агентов решать реальные ежедневные задачи, такие как бронирование рейсов или отклики на вакансии. Даже лучшая модель — Claude Sonnet 4.6 — смогла справиться лишь с 33% заданий. Этот результат контрастирует с показателями на стандартных бенчмарках, где успех достигал 65–75%.
Источник: neurohive.io
Remote Labor Index оценил реальную продуктивность ведущих ИИ-агентов на бирже фриланса
Исследование показало, что лучшие современные ИИ-агенты способны качественно выполнить лишь 2.5% реальных заказов с площадки Upwork. Несмотря на высокие показатели на синтетических бенчмарках, в реальной рабочей среде большинство задач оказались слишком сложными для текущих технологий.
Источник: neurohive.io
Законопроект США ограничивает продажу личных медицинских данных третьим лицам
Сенатор Элизабет Уоррен и представитель Мэри Гей Скэнлон готовят новый законопроект, запрещающий компаниям продавать личные медицинские данные американцев брокерам данных. Расширенная версия закона охватывает также случаи передачи информации, полученной через общение с ИИ-чатботами типа ChatGPT или Claude.
Источник: theverge.com