Новый бенчмарк ClawBench провалился, проблемы голосового AI в Индии — 10 мая 2026

Новый бенчмарк ClawBench протестировал способность ИИ-агентов решать реальные повседневные задачи интернета. Лучшая модель смогла справиться только с 33% заданий, что значительно ниже результатов на стандартных тестах . Голосовой AI продолжает испытывать сложности в Индии, несмотря на ускоренный рост компании Wispr Flow после запуска поддержки хинглиша. Проблемы остаются серьёзными, особенно в регионах с низким уровнем проникновения технологий . Исследователи предложили метод цифрового аудита ответов нейросетей по стандартам ГОСТ. Цель метода — выявить ситуации, когда ИИ создаёт иллюзию выполненной проверки документа, хотя фактически ничего не делал . Telegram-боты на основе больших языковых моделей оказались подвержены риску взлома через специально созданные промпты. Автор разработал инструмент BarkingDog, доказавший возможность обхода защиты популярных опенсорсных решений . Эти новости демонстрируют вызовы, стоящие перед индустрией AI: необходимость повышения надёжности агентов, преодоление культурных барьеров и обеспечение безопасности пользователей.

Источники