Как "Писец" диктант писал

Стали известны результаты, полученные открытой системой «Писец» на ежегодной акции «Тотальный диктант», которая состоялась 20 апреля. Напомним, что «Писец» был разработан научным сотрудником Лаборатории прикладных цифровых технологий Международного научно-образовательного математического центра НГУ и сооснователем стартапа «Сибирские нейросети» Иваном Бондаренко. Впервые искусственный интеллект соревновался в грамотности с человеческим в рамках задачи диктанта, и создатель «Писца» предполагал, что положительной оценки тот не получит - скорее всего, система допустит минимум орфографических ошибок, однако с расставлением знаков препинания вряд ли справится. 

Разработчикам «Писца» было важно собрать статистику о разнообразии совершаемых им ошибок и неточностей, чтобы в дальнейшем усовершенствовать систему. Результаты оказались неожиданными, но закономерными – «Писец»  вполне удовлетворительно расставил запятые и разбил текст на абзацы. Для этого его специально научили улавливать в речи «кодовые фразы» вроде «пишем с красной строки» или «переходим на новый абзац». В этих целях использовалась отдельная нейросеть, обученная на базе Longformer выделять такие «внесюжетные» вставки наподобие системы NER (Named Entity Recognition - распознавание именованных сущностей). Для обучения использовался синтетический текстовый корпус. Сам же «Писец» использовал в своей работе связку Wav2Vec2-Large-Ru-Golos + Whisper-Podlodka (о Wav2Vec2-Large-Ru-Golos мы ранее писали https://www.nsu.ru/n/media/news/nauka/razrabotannuyu-professorom-ngu-model-raspoznavaniya-rechi-nauchili-razlichat-emotsii, а Whisper-Podlodka является новой моделью). Однако галлюцинаций избежать не удалось.

Галлюцинация — это ответ авторегрессионной нейросетевой модели языка, который корректен грамматически, но неверен семантически (не соответствует входному запросу по смыслу).

Проверяла диктант, написанный искусственным интеллектом, старший преподаватель кафедры источниковедения литературы и древних языков Гуманитарного Института НГУ Людмила Буднева.

— «Писцу» вполне можно было бы поставить твердую «тройку», если бы не несколько обстоятельств. Из 276 слов диктанта он пропустил 6, пять из которых стояли в конце предложения, причем в этих случаях он не ставил точку, но следующее предложение начинал с заглавной буквы. В одном месте пропустил предлог «в», шедший предпоследним в предложении. Еще 7 слов им было услышано неверно. Например, вместо «наивысшего» искусственный интеллект написал «наявившего». Другой пример словотворчества — «кальиончатых» вместо «клеенчатых». Встретилось и неверно услышанное выражение «Читай — не хочу». Вместо него написано «Считай, не хотите», свидетельствующее и о проблемах с грамматикой. С грамматикой обнаружились еще проблемы в написании окончаний — «синями» (вместо «синими») и «портрет ... гимназисткЕ» (правильно: «портрет … гимназистки»), что уже засчитывается за орфографическую ошибку. Еще одна «ослышка» привела к искажению смысла предложения, но в итоге было все же написано правильно. Это последнее предложение предпоследнего абзаца. «Писец» вместо «так» написал «та». Получилось сложносочиненное предложение, где он поставил запятую, в итоге возникла речевая ошибка. Аналогичная грамматическая ошибка: вместо слова «способны» написано «способный» и вышло «как способный лишь немногие», — разобрала ошибки «Писца» Людмила Буднева.

Был сделал вывод: в тех местах, где «Писец» все слова услышал верно, он написал диктант хорошо — на границе между «тройкой» и «четверкой». Такого результата его разработчики не ожидали.

— Результаты работы «Писца» оказались выше, чем прогнозировалось. Изначально он разрабатывался год назад для автоматического стенографирования звукозаписей интервью или защит диссертаций.  Соответственно, даже 20-30 % ошибок в расшифрованных текстах — это уже тот уровень, который позволяет человеку гораздо быстрее подготовить чистовой текст стенограммы, чем если бы он писал его «с нуля», прослушивая запись полностью самостоятельно. Но для диктанта 20 % ошибок — это неприемлемо, это «двойка». Поэтому в последнюю неделю перед «Тотальным диктантом» мы занимались адаптацией «Писца» к специфике диктанта, а также вносили в него принципиальные улучшения, основанные на результатах наших исследований за последний год. Одно из таких улучшений — применение метода минимизации байесовского инвариантного риска вместо обычного в таких случаях метода минимизации эмпирического риска. Минимизация байесовского инвариантного риска позволяет повысить устойчивость обучаемой нейросети к т.н. «сдвигу распределений», когда распределения признаков речи в ходе эксплуатации начинают отличаться от тех распределений, которые имели место в обучающем речевом корпусе. Предполагается, что признаковое описание распознаваемого объекта содержит в себе как сущностные характеристики этого объекта, так и характеристики акустического и языкового «фона», среды. Благодаря минимизации байесовского инвариантного риска появляется возможность выделить инвариантные корреляции между целевой переменной и сущностными характеристиками объекта, абстрагируясь от среды. Но для этого необходимо сформулировать, что такое среда в задаче распознавания речи, и определить некоторую модель этой среды. Именно это и было главной исследовательской проблемой, которую мы решили при создании новой версии «Писца». Результаты новой версии на «Тотальном диктанте» подтверждают, что «Писец» стал инвариантнее и умнее, — объяснил Иван Бондаренко.

Опираясь на результаты «Писца», полученные на «Тотальном диктанте», разработчики уже наметили ближайшие направления исследований. В их числе повышение устойчивости Whisper-Podlodka к шумам различного рода, которые искусственно добавляются в сигнал с помощью системы аугментатора аудиофайлов (https://github.com/dangrebenkin/audio_augmentator), а также дальнейшее погружение в исследование метода минимизации байесовского инвариантного риска, исследование ограничений и слабых мест этого подхода, создание более эффективной модели среды с точки зрения акустики и лингвистики.

Пресс-служба Новосибирского государственного университета