Новый бенчмарк ClawBench протестировал способность ИИ-агентов решать реальные повседневные задачи интернета. Лучшая модель смогла справиться только с 33% заданий, что значительно ниже результатов на стандартных тестах . Голосовой AI продолжает испытывать сложности в Индии, несмотря на ускоренный рост компании Wispr Flow после запуска поддержки хинглиша. Проблемы остаются серьёзными, особенно в регионах с низким уровнем проникновения технологий . Исследователи предложили метод цифрового аудита ответов нейросетей по стандартам ГОСТ. Цель метода — выявить ситуации, когда ИИ создаёт иллюзию выполненной проверки документа, хотя фактически ничего не делал . Telegram-боты на основе больших языковых моделей оказались подвержены риску взлома через специально созданные промпты. Автор разработал инструмент BarkingDog, доказавший возможность обхода защиты популярных опенсорсных решений . Эти новости демонстрируют вызовы, стоящие перед индустрией AI: необходимость повышения надёжности агентов, преодоление культурных барьеров и обеспечение безопасности пользователей.
Источники
- ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач — neurohive.io
- Voice AI in India is hard. Wispr Flow is betting on it anyway. — techcrunch.com
- Цифровой аудит против галлюцинаций по ГОСТу. Как понять, когда ответу ИИ нельзя верить? — habr.com
- Ваш Telegram-бот на базе LLM уязвим. Я написал сканер, чтобы доказать это на популярном Open Source проекте — habr.com