OpenAI обновила ChatGPT Images 2.0 с поддержкой 2К-разрешения и мультиязычности
OpenAI анонсировала новую версию своей модели генерации изображений — ChatGPT Images 2.0. Новая версия получила поддержку высокого разрешения (до 2К), возможность обработки сложных инструкций и точное следование требованиям пользователя. По результатам LM Arena, модель набрала рекордные баллы Elo, обогнав ближайших конкурентов на 242 пункта благодаря улучшению качества рендеринга текста на различных языках и точности выполнения сложных заданий.
Источник: neurohive.io
Новый бенчмарк ClawBench показал низкую эффективность лучших ИИ-агентов на реальных задачах
Исследовательская группа представила бенчмарк ClawBench, предназначенный для проверки способности ИИ-агентов решать повседневные задачи в интернете, такие как бронирование рейсов, отклики на вакансии и оформление заказов. Даже самая мощная модель — Claude Sonnet 4.6 — смогла справиться только с 33% предложенных задач. Этот результат резко контрастирует с показателями стандартных бенчмарков, где лучшие модели достигают результатов около 65–75%.
Источник: neurohive.io
Открытая модель GLM-5 стала лидером открытых LLM на агентных задачах
Zhipu AI совместно с университетом Цинхуа представили открытую языковую модель GLM-5, которая обошла все существующие открытые модели по ряду ключевых метрик. Она занимает первую позицию среди open-weight моделей на Artificial Analysis и лидирует в генерации кода и текста на платформе LMArena. Модель показала выдающиеся результаты на бенчмарках BrowseComp и Human Language Evaluation (HLE) с инструментами, став первой открытой моделью, способной конкурировать с коммерческими решениями вроде Claude и GPT.
Источник: neurohive.io
Исследование показало, что ИИ-агенты способны решить менее 3% реальных задач фриланса
Команда исследователей из Центра безопасности ИИ и Scale AI провела эксперимент, создав бенчмарк Remote Labor Index (RLI), чтобы оценить способность ИИ-агентов справляться с настоящими заданиями фрилансеров. Было собрано 240 реальных проектов с платформы Upwork, охватывающих широкий спектр деятельности — от разработки игр до проектирования зданий. Согласно исследованию, даже самые передовые ИИ-агенты смогли качественно выполнить лишь 2.5% предложенных задач.
Источник: neurohive.io
Полиция Канады использовала сгенерированную ИИ фотографию, вызвав общественный резонанс
Полиция Ванкувера попала в центр внимания общественности после публикации в соцсети X изображения, иллюстрирующего операцию по конфискации наркотиков. Позже выяснилось, что снимок был частично обработан искусственным интеллектом, что вызвало критику из-за явных признаков генерации, таких как неверно обозначенные банкноты. Впоследствии полиция удалила изображение и заменила его оригинальной фотографией.
Источник: ixbt.com
Китай представил энергоэффективный 16-ядерный процессор Loongson 3C3000
Компания Loongson Technology презентовала новый серверный процессор Loongson 3C3000, рассчитанный на бюджетные серверные системы общего назначения. Процессор выполнен на собственной китайской архитектуре LoongArch и оснащен 16 физическими ядрами с частотой до 1,8 ГГц. Несмотря на невысокую частоту, производитель утверждает, что производительность новой модели сравнима с предыдущими поколениями, такими как 3C5000, хотя она предназначена скорее для обычных рабочих нагрузок, нежели для ресурсоемких задач типа искусственного интеллекта.
Источник: ixbt.com
Анализ выбора AI-моделей в 2026 году: Claude, GPT, Gemini
Ситуация на рынке AI-моделей в 2026 году характеризуется отсутствием единого лидера. Каждая модель имеет свою область превосходства, и выбор оптимального инструмента определяется спецификой решаемой задачи. Например, для разработки программного обеспечения предпочтительны Claude или Grok, тогда как для исследований и анализа данных оптимален Gemini 3.1 Pro. Пользователям рекомендуется ориентироваться на конкретные потребности, а не искать универсальный вариант.
Источник: ai-stat.ru
Эпоха специализации AI: почему в 2026 году нет единой лучшей модели
Современный рынок AI характеризуется переходом от концепции универсальности к специализированному подходу. Если раньше производители стремились создать одну модель, подходящую для любых задач, сейчас каждая крупная платформа предлагает специализированные решения. Например, Grok лидирует в области программирования, Gemini выделяется в аналитике и исследованиях, а Claude демонстрирует высокие показатели в обработке больших объемов документов. Такой подход позволяет пользователям подобрать наиболее подходящее решение именно под свои нужды.
Источник: ai-stat.ru