AI-агенты решили только треть реальных задач на ClawBench
Исследователи представили бенчмарк ClawBench, проверяющий способность ИИ-агентов решать бытовые задачи вроде бронирования рейса или отклика на вакансию. Даже лучшая модель Claude Sonnet 4.6 смогла справиться только с 33% заданий. Показатели резко отличаются от результатов на стандартных бенчмарках, где ИИ достигает 65–75%.
Источник: neurohive.io
GLM-5 обошла Claude и GPT на ключевых бенчмарках
Zhipu AI и Tsinghua University выпустили GLM-5 — открытую модель, занявшую первое место среди открытых решений на Artificial Analysis и LMArena, а также лидирующую позицию на BrowseComp и HLE с инструментами. Новая модель превосходит закрытые аналоги, такие как Claude и GPT, в ряде тестов.
Источник: neurohive.io
SpaceX провела IPO, сделав Маска первым триллионером
SpaceX вышла на публичный рынок, открыв возможность покупки акций объединённой компании ракетостроения, AI и социальных сетей. После IPO капитализация Маска превысила отметку в один триллион долларов, превратив его в первого официального триллионера планеты.
Источник: theverge.com
OpenAI обновила ChatGPT Images 2.0 с поддержкой 2К-разрешения и мультиязычности
OpenAI анонсировала новую версию генератора изображений ChatGPT Images 2.0, основанную на модели gpt-image-2. Новинка получила поддержку высокого разрешения (до 2К), мультиязычный текст и точное следование сложным инструкциям. Модель показала значительное улучшение качества рендеринга и точности выполнения команд.
Источник: neurohive.io
Ведущие AI-агенты выполнили менее 3% реальных задач фрилансеров
Команда из Center for AI Safety и Scale AI разработала Remote Labor Index (RLI) — бенчмарк, проверяющий способности ИИ-агентов выполнять реальную работу фрилансеров. Из 240 реальных проектов с Upwork лучшие модели смогли качественно выполнить лишь 2.5% задач.
Источник: neurohive.io
Крупнейшие игроки IT готовятся к летнему сезону IPO
FAANG уступили дорогу новым акционерам: MANGOS — Meta, Anthropic, Nvidia, Google, OpenAI и SpaceX. Эти компании планируют выйти на публичный рынок летом 2026 года, став испытательным полигоном для инвесторов, аналитиков и регуляторов.
Источник: techcrunch.com
Стоимость топовой видеокарты Nvidia достигла цены автомобиля
Nvidia объявила официальную цену своей мощнейшей рабочей станции RTX PRO 6000 Blackwell — свыше 13 тысяч долларов США. Ускоритель предназначен для рендеринга, инженерных расчетов и работы с большими моделями AI. Рост цен составил более 70% относительно начала года.
Источник: ixbt.com
Джефф Безос запускает стартап Prometheus для разработки "общего инженера"
Основатель Amazon объявил о создании стартапа Prometheus, целью которого станет создание "искусственного общего инженера" — инструмента для проектирования физических продуктов. Стартап привлек инвестиции в размере $12 млрд, достигнув оценки в $41 млрд.
Источник: theverge.com