Новый бенчмарк ClawBench выявил серьёзную слабость современных AI-агентов: даже самый сильный из них решает лишь треть настоящих повседневных задач вроде бронирования рейса или отклика на вакансию . OpenAI представила вторую версию генератора изображений ChatGPT Images 2.0, основанную на модели gpt-image-2. Она получила первое место во всех категориях генерации изображений благодаря лучшему рендерингу текста на разных языках и точности выполнения сложных инструкций . Microsoft анонсировала редизайн своего помощника Microsoft 365 Copilot: интерфейс стал чище, скорость загрузки увеличилась вдвое, а ответы стали более структурированными и удобочитаемыми . Исследователи обнаружили, что современные AI-агенты способны справиться менее чем с тремя процентами реальных заданий с бирж фриланса, согласно новому индексу Remote Labor Index . Эти данные подчёркивают необходимость разработки специализированных подходов тестирования и улучшения производительности AI-агентов именно в рабочих сценариях.
Источники
- ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач — neurohive.io
- ChatGPT Images 2.0: OpenAI запустила обновление модели генерации изображений с рассуждениям, 2K-разрешением и мультиязычным текстом — neurohive.io
- Microsoft 365 Copilot gets a speed boost and cleaner design — theverge.com
- Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров — neurohive.io