OpenAI выпустила ChatGPT Images 2.0 с улучшенным качеством и разрешением
OpenAI анонсировала вторую версию своей системы генерации изображений ChatGPT Images 2.0. Новинка построена на модели gpt-image-2 и лидирует по результатам бенчмарков, обогнав конкурентов на 242 балла Elo благодаря улучшению рендеринга многоязычного текста и точности выполнения сложных инструкций. Среди ключевых особенностей — поддержка разрешения до 2К пикселей и способность следовать детализированным подсказкам.
Источник: neurohive.io
Anthropic повысила производительность и надежность агентов Claude
На конференции Code with Claude компания Anthropic презентовала функцию Dreaming, позволяющую агентам Claude самостоятельно анализировать прошлые сессии и корректировать своё поведение. Дополнительно представлены системы Outcomes и Multi-Agent Orchestration, автоматизирующие проверку результатов и распределение задач между разными агентами соответственно. Эти нововведения призваны повысить эффективность работы с большими наборами данных и сложными сценариями.
Источник: ixbt.com
Apple неожиданно прекратила продажу конфигураций Mac Studio с большим объемом памяти
Apple без официального анонса прекратила продавать версии Mac Studio с объемами памяти 256 и 512 GB, популярные среди специалистов по локальному запуску больших языковых моделей (LLM). Одновременно отложена премьера нового Mac Studio с чипом M5 Ultra до конца 2026 года. Решение затруднит локальное развертывание крупных моделей для многих разработчиков и исследователей.
Источник: ai-stat.ru
Google предотвратил использование уязвимости, созданной с участием AI
Google сообщил о предотвращении атаки нулевого дня, использующей уязвимость, которую злоумышленники создали с применением технологий искусственного интеллекта. Уязвимость позволяла обходить двухфакторную аутентификацию на популярном инструменте администрирования веб-приложений. Специалисты обнаружили следы участия AI в написании вредоносного скрипта, такие как искусственная оценка риска (CVSS) и структурированный стиль программирования, характерный для LLM-обученных моделей.
Источник: theverge.com
Новый тайваньский ИИ-ускоритель обещает локальный запуск моделей на 700 миллиардов параметров
Skymizer представила необычную PCIe-карту HTX301, предназначенную для обработки больших языковых моделей (до 700 млрд параметров). Устройство оснащено устаревшими 28-нанометровыми чипами и стандартной памятью LPDDR4/LPDDR5, обеспечивая высокую энергоэффективность при относительно низкой производительности вычислений. Карта потребляет всего 240 Вт и поддерживает уникальные алгоритмы сжатия весов и кэш-памяти, позволяющие эффективно обрабатывать крупные модели.
Источник: ixbt.com
ClawBench показал низкую эффективность лучших ИИ-агентов в выполнении повседневных задач
Исследовательская группа NeuroHive провела тестирование современных ИИ-агентов на новом бенчмарке ClawBench, имитирующем выполнение повседневных онлайн-задач вроде бронирования рейсов и оформления заказов. Лучшая модель — Claude Sonnet 4.6 — смогла справиться только с 33% предложенных заданий, что существенно отличается от показателей на стандартных бенчмарках, где результаты достигают 65–75%.
Источник: neurohive.io
Anthropic расширила лимиты и добавила новые инструменты для разработчиков на платформе Claude
Платформа Claude от Anthropic получила ряд значительных изменений, направленных на улучшение удобства и эффективности разработки. Ключевые обновления включают увеличение лимитов на обработку запросов (rate limits) для подписанных аккаунтов, снятие ограничений на пиковые часы нагрузки и повышение усилий по обработке данных (effort level) до xhigh по умолчанию. Эти меры помогут разработчикам эффективнее использовать ресурсы платформы и справляться с высокими нагрузками.
Источник: ai-stat.ru
Крупнейшие ИИ-агенты выполнили менее 3% реальных задач с бирж фриланса
Команда Центра безопасности AI совместно с Scale AI создала новый бенчмарк Remote Labor Index (RLI), измеряющий способности ИИ-агентов решать реальные задачи, размещенные на бирже фриланса Upwork. Анализ 240 различных проектов показал, что лучшие ИИ способны решить лишь 2.5% задач на удовлетворительном уровне. Такие результаты подчеркивают ограниченность современных моделей в применении к настоящим профессиональным задачам.
Источник: neurohive.io