OpenAI обновила ChatGPT Images 2.0 до 2К разрешения и мультиязычности
OpenAI представила ChatGPT Images 2.0 на базе новой модели gpt-image-2. Она мгновенно поднялась на вершину рейтингов генерации изображений, обогнав конкурентов на +242 балла Elo благодаря идеальной прорисовке текста на многих языках и чёткому выполнению сложных инструкций.
Источник: neurohive.io
GLM-5 стала первой лучшей открытой моделью по ряду бенчмарков
Zhipu AI и Tsinghua University представили GLM-5 — открытую модель, занявшую первое место среди открытых решений на Artificial Analysis и LMArena, а также ставшую лидером на BrowseComp и HLE с инструментами. GLM-5 способна не только отвечать на запросы, но и самостоятельно решать комплексные задачи.
Источник: neurohive.io
ClawBench показал слабые результаты лучших агентов на реальных задачах
Исследователи протестировали лучшие ИИ-агенты на новом бенчмарке ClawBench, имитирующем повседневные задачи вроде бронирования рейса или отклика на вакансию. Даже самый сильный агент — Claude Sonnet 4.6 — решил только треть заданий. Классические тесты демонстрируют гораздо более высокие показатели — 65–75%.
Источник: neurohive.io
Anthropic выпустил новый Mythos-класс модели Claude Fable
Anthropic представил новую модель Claude Fable 5, назвав её самой мощной публично доступной версией серии Mythos. Компания утверждает, что Fable превосходит другие решения в инженерии ПО, аналитике и обработке изображений, особенно на длительных и сложных заданиях. Однако были введены строгие меры безопасности, блокирующие потенциально опасные ответы.
Источник: theverge.com
AI-агенты решили менее 3% реальных задач фрилансеров на бирже Upwork
Команда исследователей создала Remote Labor Index (RLI) — бенчмарк, проверяющий способность ИИ-агентов выполнять реальную работу фрилансеров. Из 240 реальных заказов с платформы Upwork удалось решить только 2.5% задач на удовлетворительном уровне. Остальные проекты оказались слишком сложными для современных моделей.
Источник: neurohive.io
Microsoft критикует Anthropic за спекуляции о сознании своего бота Claude
Microsoft AI-директор Mustafa Suleyman заявил, что утверждения Anthropic о наличии сознания у своей модели Claude являются крайне рискованными и вводят людей в заблуждение. По мнению Suleyman'а, такие заявления провоцируют антропоморфизацию системы и создают ложные ожидания относительно возможностей ИИ.
Источник: theverge.com
Крупнейшие фирмы тратят $7,5 тыс. ежемесячно на каждого сотрудника на AI-решения
Согласно индексу Ramp AI, наиболее увлечённые AI-компании инвестируют порядка $7,5 тыс. в месяц на каждого работника в области искусственного интеллекта. Пока эта сумма сопоставима с зарплатой инженера, но уже вызывает опасения о будущем росте расходов.
Источник: techcrunch.com
Финальный релиз Mythos-класса от Anthropic вышел с новыми правилами безопасности
Anthropic официально объявил о выпуске первого общедоступного представителя семейства Mythos — модели Claude Fable. Несмотря на впечатляющие способности в инженерных и аналитических задачах, компания ввела дополнительные барьеры, запрещающие потенциально опасные ответы, вызвавшие критику специалистов по кибербезопасности.
Источник: habr.com