OpenAI выпустила ChatGPT Images 2.0 с разрешением 2K и мультиязычным текстом
OpenAI объявила о запуске ChatGPT Images 2.0 на базе новой модели gpt-image-2. Согласно LM Arena, эта версия получила рекордные баллы Elo (+242 от ближайшего конкурента) благодаря улучшенному рендерингу текста на различных языках и точности выполнения сложных инструкций. Теперь модель способна генерировать высококачественные изображения с высоким разрешением и точной передачей деталей.
Источник: neurohive.io
ClawBench: ИИ-агенты завершают только треть реальных задач
Новый бенчмарк ClawBench протестировал способность ИИ-агентов решать реальные ежедневные задачи вроде бронирования рейса или отклика на вакансию. Лучшая модель — Claude Sonnet 4.6 — смогла справиться лишь с 33% заданий. Это значительно отличается от результатов на стандартных бенчмарках, где показатели достигают 65–75%.
Источник: neurohive.io
GLM-5: первая открытая модель, способная конкурировать с GPT и Claude
Zhipu AI и Tsinghua University представили GLM-5 — первую открытую языковую модель, занявшую первые позиции на ключевых бенчмарках. Среди достижений: первое место среди открытых моделей на Artificial Analysis, лидирующие результаты в генерации кода и текста на LMArena, высокие показатели на BrowseComp и HLE с использованием инструментов.
Источник: neurohive.io
Анализ ролевой игры: какие модели способны играть роли злодеев?
Исследование от Tencent Multimodal Department показало, что современные LLM демонстрируют слабые способности в ролевых играх. Средний балл героев составил 3.21 из 5, а злодеи получили ещё меньшие оценки — 2.61. Основная причина — недостаточная гибкость алгоритмов выравнивания, используемых моделями.
Источник: neurohive.io
Remote Labor Index: ИИ-агенты решают менее 3% реальных задач фрилансеров
Команда из Center for AI Safety и Scale AI создала Remote Labor Index (RLI) — бенчмарк, проверяющий способность ИИ-агентов выполнять реальные проекты с бирж фриланса. Из 240 собранных задач ИИ смогли решить лишь 2.5% на удовлетворительном уровне.
Источник: neurohive.io
Аэрофлот и Сбер разрабатывают транспортную аналитику на основе генеративного ИИ
На ПМЭФ-2026 компании объявили о сотрудничестве в создании решений для транспортной отрасли с применением генеративного ИИ. Проект направлен на повышение эффективности логистических процессов и улучшение качества обслуживания пассажиров.
Источник: finam.ru
ВТБ создаст должность руководителя направления искусственного интеллекта
Глава банка Андрей Костин объявил о кадровом изменении: в ВТБ появится ответственная позиция руководителя подразделения, занимающегося вопросами искусственного интеллекта. Решение подчёркивает важность интеграции новых технологий в банковский сектор.
Источник: finam.ru
Южная Корея изобрела транзистор, сокращающий число элементов в микросхеме на 75%
Учёные из Пхоханского университета создали новый тип транзистора, позволяющий уменьшить количество необходимых компонентов в микросхемах на 75%. Технология позволит повысить скорость обработки сигналов и упростить конструкцию чипов для устройств с искусственным интеллектом и носимых гаджетов.
Источник: ixbt.com