AI-индустрия: GPT-Images 2K, ClawBench 33%, GLM-5 top-1, RLI 2.5% — 6 июня 2026

OpenAI выпустила ChatGPT Images 2.0 с разрешением 2K и мультиязычным текстом

OpenAI объявила о запуске ChatGPT Images 2.0 на базе новой модели gpt-image-2. Согласно LM Arena, эта версия получила рекордные баллы Elo (+242 от ближайшего конкурента) благодаря улучшенному рендерингу текста на различных языках и точности выполнения сложных инструкций. Теперь модель способна генерировать высококачественные изображения с высоким разрешением и точной передачей деталей.

Источник: neurohive.io

ClawBench: ИИ-агенты завершают только треть реальных задач

Новый бенчмарк ClawBench протестировал способность ИИ-агентов решать реальные ежедневные задачи вроде бронирования рейса или отклика на вакансию. Лучшая модель — Claude Sonnet 4.6 — смогла справиться лишь с 33% заданий. Это значительно отличается от результатов на стандартных бенчмарках, где показатели достигают 65–75%.

Источник: neurohive.io

GLM-5: первая открытая модель, способная конкурировать с GPT и Claude

Zhipu AI и Tsinghua University представили GLM-5 — первую открытую языковую модель, занявшую первые позиции на ключевых бенчмарках. Среди достижений: первое место среди открытых моделей на Artificial Analysis, лидирующие результаты в генерации кода и текста на LMArena, высокие показатели на BrowseComp и HLE с использованием инструментов.

Источник: neurohive.io

Анализ ролевой игры: какие модели способны играть роли злодеев?

Исследование от Tencent Multimodal Department показало, что современные LLM демонстрируют слабые способности в ролевых играх. Средний балл героев составил 3.21 из 5, а злодеи получили ещё меньшие оценки — 2.61. Основная причина — недостаточная гибкость алгоритмов выравнивания, используемых моделями.

Источник: neurohive.io

Remote Labor Index: ИИ-агенты решают менее 3% реальных задач фрилансеров

Команда из Center for AI Safety и Scale AI создала Remote Labor Index (RLI) — бенчмарк, проверяющий способность ИИ-агентов выполнять реальные проекты с бирж фриланса. Из 240 собранных задач ИИ смогли решить лишь 2.5% на удовлетворительном уровне.

Источник: neurohive.io

Аэрофлот и Сбер разрабатывают транспортную аналитику на основе генеративного ИИ

На ПМЭФ-2026 компании объявили о сотрудничестве в создании решений для транспортной отрасли с применением генеративного ИИ. Проект направлен на повышение эффективности логистических процессов и улучшение качества обслуживания пассажиров.

Источник: finam.ru

ВТБ создаст должность руководителя направления искусственного интеллекта

Глава банка Андрей Костин объявил о кадровом изменении: в ВТБ появится ответственная позиция руководителя подразделения, занимающегося вопросами искусственного интеллекта. Решение подчёркивает важность интеграции новых технологий в банковский сектор.

Источник: finam.ru

Южная Корея изобрела транзистор, сокращающий число элементов в микросхеме на 75%

Учёные из Пхоханского университета создали новый тип транзистора, позволяющий уменьшить количество необходимых компонентов в микросхемах на 75%. Технология позволит повысить скорость обработки сигналов и упростить конструкцию чипов для устройств с искусственным интеллектом и носимых гаджетов.

Источник: ixbt.com

OpenAI выпустила ChatGPT Images 2.0 с разрешением 2K и мультиязычным текстом

Источник: neurohive.io

ClawBench: ИИ-агенты завершают только треть реальных задач

Источник: neurohive.io

GLM-5: первая открытая модель, способная конкурировать с GPT и Claude

Источник: neurohive.io

Анализ ролевой игры: какие модели способны играть роли злодеев?

Источник: neurohive.io

Remote Labor Index: ИИ-агенты решают менее 3% реальных задач фрилансеров

Источник: neurohive.io

Аэрофлот и Сбер разрабатывают транспортную аналитику на основе генеративного ИИ

Источник: finam.ru

ВТБ создаст должность руководителя направления искусственного интеллекта

Источник: finam.ru

Южная Корея изобрела транзистор, сокращающий число элементов в микросхеме на 75%

Источник: ixbt.com