ClawBench: лучшие AI-агенты завершают только треть реальных задач
Исследователи представили новый бенчмарк ClawBench, который оценивает способность ИИ-агентов решать реальные повседневные задачи вроде бронирования рейса или отклика на вакансию. Даже самая мощная модель Claude Sonnet 4.6 смогла справиться лишь с 33% заданий. Это значительно отличается от результатов на стандартных бенчах, где показатели достигают 65–75%.
Источник: neurohive.io
OpenAI представила ChatGPT Images 2.0 с высоким разрешением и мультиязычной поддержкой
OpenAI анонсировала новую версию генератора изображений ChatGPT Images 2.0. Она основана на модели gpt-image-2 и мгновенно поднялась на вершину рейтингов благодаря высококачественной визуализации текста на различных языках и точной обработке сложных инструкций. Новинка предлагает разрешение 2К и улучшенную обработку деталей.
Источник: neurohive.io
GLM-5 стала первой открытой моделью, способной конкурировать с Claude и GPT
Китайская компания Zhipu AI совместно с университетом Цинхуа выпустили GLM-5 — открытую языковую модель, которая впервые превзошла коммерческие аналоги на ряде тестов. Модель занимает первые места среди открытых решений на бенчмарке LMArena и демонстрирует конкурентоспособность в кодировании и текстовых задачах.
Источник: neurohive.io
Антропик представил Claude 4.7 с увеличенной длиной контекста до 1 млн токенов
Компания Anthropic презентовала новую версию своего ИИ-ассистента Claude 4.7. Среди ключевых нововведений — поддержка контекста до 1 млн токенов на платных тарифах, улучшение работы с агентскими задачами и сохранение цены обработки токенов ($3 за 1 млн входных и $15 за выходные). Обновлённая модель показала прирост производительности на некоторых бенчмарках.
Источник: habr.com
AI-агенты выполнили только 2,5% реальных задач с бирж фриланса
Команда исследователей из Центра безопасности ИИ и Scale AI провела эксперимент, предложив ИИ-агентам решить реальные проекты с платформы Upwork. Из 240 случайных заказов выполнено было лишь около 2,5%. Большинство задач оказались сложными для текущих моделей, особенно творческие и аналитические.
Источник: neurohive.io
Гонки оптимизации нейросетей: кто победил в конкурсе OpenAI
В апреле OpenAI организовала соревнование Parameter Golf, целью которого была оптимизация нейросети с минимальными ресурсами. Победителем стал участник, добившийся показателя 1,0565 бит на символ (bpb) при обучении на восьми GPU H100. Конкурс привлек внимание энтузиастов возможностью использовать доступные ресурсы для экспериментов.
Источник: habr.com
Ограничение поездок специалистов по ИИ в Китае
Bloomberg сообщил, что китайские власти ввели ограничение на зарубежные командировки ведущих специалистов сферы ИИ из крупных компаний, таких как Alibaba и DeepSeek. Эти меры направлены на защиту национальных технологий и усиление конкуренции с американскими разработчиками.
Источник: forbes.ru
OpenAI vs Anthropic: как выбрать лучшую модель в 2026 году
Обзор актуальных AI-решений показывает, что в 2026 году нет единой идеальной модели. Выбор зависит от конкретных задач: для разработки предпочтительны Claude или Grok, для исследований — Gemini, для обработки документов — Claude, а для общих целей — GPT-5.5. Каждая модель имеет сильные и слабые стороны, что подчеркивает важность выбора инструмента под конкретную задачу.
Источник: ai-stat.ru