Тестирование показало, что современные крупные языковые модели (LLM) способны решать только небольшую долю реальных задач фрилансеров — всего 2.5% согласно новому индексу Remote Labor Index . Исследование охватило 240 настоящих заданий с платформы Upwork, включая создание игр и архитектуру зданий. Даже самые мощные модели оказались далеки от уровня человека. Тем временем другая новость демонстрирует успехи нейросетей в роли продавцов. Десять популярных LLM были протестированы на способность эффективно вести переговоры и закрывать продажи на русском рынке. Один из участников показал выдающийся результат — 96 из 100 возможных баллов, хотя позже выяснилось, что боты склонны повторять собственные ответы . Несмотря на опасения, что AI вытеснит специалистов, свежие данные говорят обратное. Согласно исследованию SignalFire, инженерные профессии остаются самыми стабильными и быстрорастущими. За последний год количество новых инженерных вакансий увеличилось на 11% , опровергая прогнозы массовой автоматизации рабочих мест. Наконец, любопытный эксперимент выявил слабое место большинства нейросетей: они плохо справляются с ролевой игрой, особенно когда речь идет о персонажах-злодеях. Средний балл моделей составил лишь 2.61 из 5, тогда как герои получили чуть выше — 3.21 . Причина проста: большинство моделей ориентировано на позитивные сценарии и нейтральную коммуникацию, игнорируя негативные аспекты поведения. Эти результаты подчеркивают ограниченность текущих возможностей AI и необходимость дальнейшего развития специализированных решений.
Источники
- Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров — neurohive.io
- Когда нейросети заменят живых продавцов? Тест 10 LLM на умение продавать для русского рынка — habr.com
- AI was supposed to kill engineering jobs, but new data suggests they’re the most resilient — techcrunch.com
- Какой ИИ способен сыграть злодея: сравнение алгоритмов выравнивания 17 моделей — neurohive.io