AI-агенты проваливаются на реальных задачах, а OpenAI обновляет генератор картинок — 29 мая 2026

Новый бенчмарк ClawBench выявил серьёзную слабость современных AI-агентов: даже самый сильный из них решает лишь треть настоящих повседневных задач вроде бронирования рейса или отклика на вакансию . OpenAI представила вторую версию генератора изображений ChatGPT Images 2.0, основанную на модели gpt-image-2. Она получила первое место во всех категориях генерации изображений благодаря лучшему рендерингу текста на разных языках и точности выполнения сложных инструкций . Microsoft анонсировала редизайн своего помощника Microsoft 365 Copilot: интерфейс стал чище, скорость загрузки увеличилась вдвое, а ответы стали более структурированными и удобочитаемыми . Исследователи обнаружили, что современные AI-агенты способны справиться менее чем с тремя процентами реальных заданий с бирж фриланса, согласно новому индексу Remote Labor Index . Эти данные подчёркивают необходимость разработки специализированных подходов тестирования и улучшения производительности AI-агентов именно в рабочих сценариях.

Источники