ChatGPT Images 2.0 превзошёл конкурентов на 242 балла Elo
OpenAI представила новую версию генератора изображений ChatGPT Images 2.0. Новая модель получила поддержку 2К-разрешения, возможность следовать сложным инструкциям и точную обработку мультиязычного текста. Сразу после релиза она возглавила рейтинг LM Arena, опередив ближайших конкурентов на 242 балла Elo благодаря улучшенному рендерингу текста и точности выполнения сложных заданий.
Источник: neurohive.io
CLAWBench показал слабые результаты ИИ-агентов в повседневной жизни
Исследователи представили новый бенчмарк ClawBench, проверяющий способность ИИ-агентов справляться с настоящими бытовыми задачами вроде бронирования рейсов или оформления заказов онлайн. Лучшая модель Claude Sonnet 4.6 смогла решить только треть предложенных задач (33%). Этот результат значительно отличается от показателей на стандартных бенчмарках, где ИИ достигает успеха в 65–75% случаев.
Источник: neurohive.io
GLM-5 стала лидером среди открытых моделей на агентских задачах
Китайская команда Zhipu AI и университет Цинхуа выпустили открытую модель GLM-5, занявшую первые места на бенчмарках Artifical Analysis, LMArena и BrowseComp. Она демонстрирует выдающиеся способности в генерации текста и кода, конкурируя с коммерческими моделями типа Claude и GPT. Модель способна не только отвечать на запросы, но и самостоятельно искать решения сложных проблем.
Источник: neurohive.io
Дата-центр Blackstone незаконно потреблял миллионы литров воды
Дата-центр QTS в США, принадлежащий инвестфонду Blackstone, был уличён в незаконном подключении к городскому водоснабжению. За короткий срок центр потратил свыше 110 млн литров воды, вызвав резкий спад давления в жилых районах. Несмотря на нарушение закона, власти штата Джорджия решили не штрафовать компанию, сославшись на её экономическое значение.
Источник: ixbt.com
Anthropic привлекла религиозных лидеров для формирования этики Claude
Разработчик антропоцентричной модели Claude начал консультироваться с религиозными деятелями различных вероисповеданий, пытаясь выработать набор этических правил для своей платформы. Компания провела ряд встреч с христианами, мусульманами, буддистами и другими группами, стремясь интегрировать духовные ценности в разработку ИИ. Как именно эта работа повлияет на финальную версию Claude, остаётся неясным.
Источник: ixbt.com
Apple прекратила продажу конфигураций Mac Studio с большой памятью
Apple неожиданно прекратила продажи популярных конфигураций Mac Studio с объёмом памяти 256 GB и 512 GB, ранее активно использовавшихся энтузиастами для запуска больших языковых моделей (LLM) локально. Эти версии исчезли с официального сайта без официальных заявлений. Новый процессор M5 Ultra отложен до конца года, усугубляя дефицит мощных решений для работы с большими моделями.
Источник: ai-stat.ru
Anthropic увеличила производительность Claude Code вдвое
Платёжные подписчики сервиса Claude получили значительное увеличение производительности. Anthropic удваивает пятичасовые лимиты обработки данных для тарифных планов Pro, Max, Team и enterprise-версий. Одновременно устраняются ограничения пиковых часов, что позволит пользователям эффективнее распределять нагрузку. Изменения связаны с использованием мощностей суперкомпьютера Colossus 1 от SpaceX/xAI.
Источник: ai-stat.ru
Remote Labor Index выявил низкую эффективность ИИ-фрилансеров
Команда исследователей из Центра безопасности ИИ и компании Scale AI создала индекс Remote Labor Index (RLI), оценивающий реальную продуктивность ИИ-агентов на платформе Upwork. Из 240 реальных задач, поставленных перед ИИ, успешность составила всего 2,5%. Даже лучшие современные модели оказались неспособны заменить человека в большинстве практических ситуаций.
Источник: neurohive.io