OpenAI выпустила ChatGPT Images 2.0 с улучшенным качеством и разрешением
OpenAI анонсировала новую версию своей модели генерации изображений — ChatGPT Images 2.0. Она основана на архитектуре gpt-image-2 и значительно улучшилась по сравнению с предшественником. Согласно рейтингу LM Arena, новая версия получила +242 балла Elo относительно ближайших конкурентов благодаря высококачественной визуализации текста на различных языках и точности выполнения сложных инструкций. Среди ключевых технических характеристик выделяется поддержка высокого разрешения (до 2К) и способность понимать и обрабатывать инструкции на множестве языков.
Источник: neurohive.io
Новый бенчмарк ClawBench показал низкую эффективность лучших AI-агентов
Исследовательская группа разработала новый бенчмарк ClawBench, предназначенный для проверки способности ИИ-агентов решать практические повседневные задачи в сети Интернет. Тест включает такие сценарии, как бронирование билетов, отклик на вакансии и оформление заказов онлайн. Несмотря на высокие результаты на стандартных бенчмарках вроде MMLU, лучшие современные модели смогли справиться лишь с 33% предложенных задач. Это демонстрирует существенный разрыв между лабораторной эффективностью и реальной применимостью агентов.
Источник: neurohive.io
Открытый проект GLM-5 стал первой моделью, способной соперничать с закрытыми решениями
Zhipu AI совместно с университетом Цинхуа представили открытую языковую модель GLM-5, которая превзошла другие доступные аналоги на популярных бенчмарках. Модель занимает первую позицию среди открытых решений на площадке Artificial Analysis и лидирует в области генерации кода и обработки естественного языка на LMArena. GLM-5 также показала выдающиеся результаты на BrowseComp и Human Language Evaluation (HLE) с использованием инструментов. Уникальной особенностью является возможность самостоятельного анализа и принятия решений, что приближает её к коммерческим моделям.
Источник: neurohive.io
ИИ-платформа от Lenovo заменяет Intel и AMD собственным ARM-процессором
Компания Lenovo представила миниатюрный компьютер AI Host Mini, оснащённый уникальным ARM-процессором собственной разработки. Устройство весом всего 373 грамма оборудовано 12-ядерным чипсетом архитектуры Armv9.2 с интегрированным графическим ускорителем и нейроморфным блоком производительности до 45 TOPS. Компьютер предназначен для локальной обработки данных и поддержки персональных сервисов искусственного интеллекта. Система управления упрощена до активации через QR-код смартфона, а устройство совместимо с Ubuntu Linux.
Источник: ixbt.com
Антропологи выяснили, какие модели способны играть роль злодеев
Группа учёных из университетов Китая провела исследование способностей современных языковых моделей к ролевой игре. Анализ выявил, что большинство моделей демонстрируют низкие показатели при исполнении ролей отрицательных героев. Средний результат составил всего 2.61 балла из пяти возможных. Основная причина заключается в недостаточной гибкости механизмов этического выравнивания, ограничивающих поведение моделей. Исследование подчёркивает необходимость улучшения методов калибровки и настройки моделей для расширения спектра сценариев взаимодействия.
Источник: neurohive.io
Ведущие AI-агенты решили только 2.5% реальных заданий фрилансеров
Команда специалистов из Центра безопасности ИИ и компании Scale AI создала новый бенчмарк Remote Labor Index (RLI), направленный на оценку возможностей ИИ-агентов в выполнении реальных рабочих задач. В ходе тестирования были собраны 240 настоящих проектов с платформы Upwork, охватывающих широкий спектр деятельности — от дизайна до программирования. Даже наиболее совершенные ИИ-агенты продемонстрировали крайне низкий уровень успешности — всего 2.5% выполненных задач соответствовали установленным стандартам качества.
Источник: neurohive.io
Искусственный интеллект начал выдавать фанфикшн SCP Foundation за реальность
Алгоритм Google AI Overviews столкнулся с проблемами интерпретации материалов из художественного сетевого проекта SCP Foundation. Эта вселенная представляет собой коллекцию рассказов о вымышленных аномальных объектах и событиях, написанных пользователями интернета. Однако алгоритм иногда воспринимает эти истории как достоверную научную информацию, формируя вводящие в заблуждение сводки. Проблема проявляется в выдаче подробных описаний фантастических объектов, представленных как реально существующие феномены.
Источник: ixbt.com
Баррет Зоф снова покинул OpenAI спустя всего пять месяцев после возвращения
Баррет Зоф, ранее занимавший должность главы отдела продаж корпоративного ИИ в OpenAI, вновь ушёл из компании. Ранее он был сооснователем стартапа Thinking Machines Lab вместе с бывшим техническим директором OpenAI Мирой Мурати. Вернувшись в январе текущего года, Зоф возглавил стратегию развития корпоративных клиентов, но продержался на должности недолго. Его уход связан с изменениями внутри компании, направленными на фокусировку на основных источниках дохода перед планируемым выходом на биржу.
Источник: theverge.com