GLM-5: первая открытая модель, обогнавшая закрытые аналоги
Zhipu AI и Tsinghua University представили GLM-5 — первую открытую модель, занявшую первые места на ключевых бенчмарках. Она обошла закрытые решения вроде Claude и GPT на задачах агента, генерации кода и текста. Например, на BrowseComp и HLE с инструментами GLM-5 лидирует среди всех мировых моделей, включая закрытые. Открытый доступ позволяет исследователям использовать её для практических задач и исследований.
Источник: neurohive.io
MELT-1: трансформеры умирают быстро, а Metabolic AI живёт дольше
Новый бенчмарк MELT-1 показывает, насколько долго живут трансформеры типа LLama под распределением дрифтов. Трансформеры размером 7B токенов выдерживали всего 11 часов непрерывного инференса, тогда как Metabolic AI продержалась 95 часов. Важнейшие метрики: стоимость успешного решения ($/1M), продолжительность жизни и латентность реакции. Патент на архитектуру закрыт, но бенч доступен публично.
Источник: habr.com
Anthropic выпустил Claude 4.7 с расширенным мышлением
Claude 4.7 получил функцию extended thinking для сложных агентских задач и увеличенный контекст до 1 млн токенов на платной версии. Стоимость осталась прежней: $3 за миллион входных токенов и $15 за выходные. Улучшения видны на SWE-Bench (+5%), но на MMLU разница незначительна. Актуально для тех, кто работает с длинными потоками данных и сложными задачами.
Источник: habr.com
ArXiv введёт бан за использование AI-слопа в статьях
ArXiv объявил о новых правилах публикации научных статей. Авторы, чьи тексты содержат очевидные ошибки, созданные большими языковыми моделями (например, несуществующие цитаты или комментарии самого AI), получат временный бан сроком на один год. Новые требования также включают публикацию статей только после прохождения рецензирования в авторитетных изданиях.
Источник: theverge.com
OpenAI обновила ChatGPT Images 2.0
OpenAI представила вторую версию своей модели генерации изображений ChatGPT Images 2.0. Новая версия занимает первое место по качеству визуализации текста на нескольких языках и точности выполнения сложных инструкций. Разрешение выросло до 2К пикселей, а скорость обработки увеличилась вдвое.
Источник: neurohive.io
ClawBench: лучшие ИИ-агенты справляются только с третьими задачами
Исследователи создали бенчмарк ClawBench, имитирующий реальные ежедневные задачи человека в сети: бронирование рейсов, оформление заказов, отклик на вакансии. Лучший агент — Claude Sonnet 4.6 — решил только 33% задач. Этот показатель сильно контрастирует с традиционными академическими бенчмарками, где ИИ достигают результатов около 65–75%.
Источник: neurohive.io
Каждый второй россиянин жалеет, что не купил биткоины
Согласно исследованию маркетплейса «Сравни», половина россиян (58%) выражают сожаление, что ранее не приобрели криптовалюту Bitcoin. Среди прочих упущений респонденты назвали покупку долларов по курсу 30 рублей (29%). Опрос проводился среди 1,7 тысячи жителей различных регионов РФ.
Источник: ixbt.com
Учёные предложили фотонный подход к энергоэффективности дата-центров
Группа учёных из Университета Пенсильвании разработала новую фотонную технологию, основанную на экситон-поляритонах. Эти квазичастицы позволяют передавать сигналы светом, минуя преобразование в электрический импульс. Потенциальная выгода — значительное снижение энергопотребления дата-центров, которое является актуальной проблемой индустрии ИИ.
Источник: ixbt.com