AI-агенты завершают только треть реальных задач
Исследователи представили новый бенчмарк ClawBench, который оценивает способность ИИ-агентов решать повседневные задачи онлайн: бронирование рейсов, отклики на вакансии, оформление заказов. Даже лучшая модель — Claude Sonnet 4.6 — смогла справиться только с 33% заданий. Показатели значительно отличаются от результатов на стандартных бенчах вроде MMLU, где ИИ достигает 65–75%.
Источник: neurohive.io
Biocomputer из живых нейронов: эксперимент FinalSpark
FinalSpark представила платформу для экспериментов с живыми человеческими нейронами. Четыре образца размером менее миллиметра содержат примерно по 10 тысяч нейронов каждый. Платформа позволяет исследователям отправлять сигналы и считывать реакции через Python-API. Компания обещает энергоэффективность решения — в миллионы раз меньшее потребление энергии по сравнению с традиционными компьютерами.
Источник: habr.com
Защита дипломов перейдёт в устную форму?
Министр науки и высшего образования РФ Валерий Фальков допускает изменение формата защиты дипломных работ. Проверка знаний студентов может перейти от анализа текста к устному экзамену, чтобы исключить возможность злоупотребления возможностями ИИ. За последние три года доля дипломных работ, созданных с использованием ИИ, выросла с 9,9% до 42,3%.
Источник: forbes.ru
Китай ужесточает правила выезда специалистов по ИИ
Китай ввёл дополнительные требования для зарубежных командировок сотрудников стратегических ИИ-проектов. Теперь специалисты крупных компаний, таких как Alibaba и DeepSeek, обязаны получить специальное разрешение на поездку за границу. Эта мера направлена на сохранение технологического преимущества и усиление контроля в условиях глобальной конкуренции.
Источник: ixbt.com
Российский производитель выпустил уникальную глазную линзу
Минздрав сообщил о запуске производства отечественной интраокулярной линзы «Ясень». Линза предназначена для замены хрусталика глаза при катаракте и обладает улучшенной оптической структурой по сравнению с аналогичными моделями. Производство начнётся с выпуска 12 тысяч штук в год, позже объём увеличится до 25 тысяч. Установка линзы будет бесплатна по полису ОМС.
Источник: ixbt.com
Модели ИИ плохо играют роли злодеев
Исследование показало, что современные ИИ-модели демонстрируют слабые результаты в ролевой игре, особенно когда нужно изобразить отрицательного персонажа. Средний балл для героев составил 3.21 из 5, тогда как для злодеев — лишь 2.61. Причиной называют отсутствие чётких критериев качества выполнения ролей.
Источник: neurohive.io
OpenAI улучшила генератор изображений ChatGPT Images 2.0
OpenAI анонсировала обновление генератора изображений ChatGPT Images 2.0. Новая версия демонстрирует значительное улучшение по ряду показателей: идеальное отображение текста на различных языках, точное следование сложным инструкциям. Модель получила первое место во всех категориях генерации изображений, обогнав ближайших конкурентов на 242 балла Elo.
Источник: neurohive.io
Специализация побеждает: в 2026 году нет единой лучшей AI-модели
Обзор состояния рынка AI-моделей отмечает переход от гонки за универсальностью к эпохе специализации. Каждая модель стала лидером в своей узкой области: Grok лидирует в кодировании, Gemini — в аналитике и исследованиях, Claude — в обработке длинных документов. Пользователю важно выбирать модель исходя из конкретных потребностей, а не искать универсальный вариант.
Источник: ai-stat.ru