Общество 2 июн 2024 7054

Студентки из Бурятии разработали алгоритм русско-бурятского машинного перевода на основе нейросетей

Две исследовательницы Сарана Абидуева и Дари Батурова разработали алгоритм русско-бурятского машинного перевода на основе нейросетей в ходе своих выпускных квалификационных работ.

В прошлом году выпускница Санкт-Петербургского государственного университета Сарана Абидуева обучила первые нейросетевые модели для русско-бурятского перевода.

— Сарана Абидуева: «Перед нами стояла проблема, что не существует ни одного переводчика бурятских текстов. В открытом доступе можно найти только онлайн-словари, которые переводят одно слово. Для создания переводчика текстов обычно используют модели машинного обучения, однако они требуют большого объёма параллельных предложений. Для бурятского не существовало такого корпуса, поэтому моей первой задачей было собрать его с нуля».

Сарана Абидуева

Параллельный корпус представляет собой собрание предложений на одном языке вместе с переводом на другой язык. Он состоит из пар предложений на двух языках — оригинал и перевод.

Сарана и Дари познакомились прошлой весной. Оказалось, они занимались схожими проектами по созданию алгоритма машинного перевода, поэтому было решено объединить усилия.

— Дари Батурова: «На тот момент я занималась поисками существующих русско-бурятских параллельных предложений. В результате я начала сотрудничать с некоторыми организациями, находящимися в Республике Бурятия, такими как Государственная служба языкового перевода Бурятии, Бурятский научный центр и другими. Они поделились имеющимися данными, которые позже были добавлены в общий параллельный корпус.

Сарана же занималась поиском необходимых данных в Интернете. Она извлекла параллельные предложения из различных источников, таких как Библия, стихи, статьи из Википедии, русско-бурятский словарь и др.

В итоге в параллельный корпус вошли порядка 40 тысяч пар переводов. По словам Сараны, это довольно мало для создания машинного переводчика, однако, к сожалению, в открытом доступе очень мало оцифрованных бурятских переводов.

— Сарана Абидуева: «Я экспериментировала с моделями машинного обучения, которые уже были обучены для перевода монгольского языка, так как он является родственным к бурятскому. В итоге я разработала первый алгоритм русско-бурятского перевода на основе нейросети, которая была специально создана для перевода малоресурсных языков. Даже несмотря на малое количество переведенных текстов, разработанный переводчик способен переводить большие тексты с неплохой точностью».

Уже этой весной Дари разрабатывала свой переводчик в рамках выполнения выпускной квалификационной работы. Созданию алгоритма машинного перевода с русского языка на бурятский предшествовала серьезная подготовительная работа. Первыми помощниками стали родители студентки. Они поддерживали ее на всех этапах работы. Тему своей дипломной работы Дари Батурова выбрала еще в начале третьего курса и сразу занялась созданием русско-бурятского параллельного корпуса с нуля, так как уже существующие параллельные предложения были собраны. За основу было решено взять тексты новостного информационного жанра. Благодаря гранту Республики Бурятия, который она получила ровно год назад, был заключен договор с тремя специалистами, которые с осени прошлого года занимались переводом новостных текстов. На сегодняшний день было переведено более 4 тысяч текстов, и работа в этом направлении продолжается. Ведется поиск новых переводчиков, сбор и обработка новых данных.

Дари обучила две модели для русско-бурятского перевода и сравнила их с лучшей моделью из ранее существовавших для данной задачи.

Выяснилось, что по результатам оценки, одна из моделей, обученных молодой исследовательницей, превзошла другие существующие ранее аналоги.

— Дари Батурова: «Основная сложность состояла в том, что бурятский язык является малоресурсным. В онлайн-переводчиках он не представлен. В Интернете можно найти разве что электронные словари или разговорники. По этой причине собрать данные для создания параллельного корпуса было затруднительно. Молодежь не выражает сильной заинтересованности в сохранении и продвижении бурятского языка, передача его из поколения в поколение, к сожалению, происходит все реже. Согласно переписи населения России, в 2002 году 79% бурят указали, что владеют бурятским языком, в 2020 же году – 63%. А между тем бурятский язык внесен в «Атлас языков мира, находящихся под угрозой исчезновения» ЮНЕСКО со статусом «есть угроза исчезновения».

Девушка убеждена, что для сохранения и продвижения бурятского языка необходимо внедрить его в цифровое пространство. Машинный перевод представляет собой один из способов цифровизации, но из-за ограниченности данных на бурятском языке возникает такая проблема, как сдвиг данных.

Сдвиг данных происходит, когда модель машинного перевода обучается на наборе данных, который не охватывает все особенности семантики, лексики и синтаксиса данного языка, из-за чего модель может выдавать неточный перевод.

Для решения данной проблемы Дари исследовала методы оценивания неопределенности нейросетевой модели для обнаружения некорректных переводов.

Алгоритмы, разработанные Сараной Абидуевой и Дари Батуровой, представлены в виде кода. Однако они намерены преобразовать его в более доступный и удобный формат для будущих пользователей — сайт с русско-бурятским онлайн-переводчиком. В дальнейшем они планируют усовершенствовать алгоритм для русско-бурятского перевода и разместить сайт с ним. Исследовательницы уверены, что этот ресурс будет полезен для носителей бурятского языка и людей, изучающих его, а также исследователей языка и культуры, лингвистов, переводчиков и всех, кто заинтересован в сохранении и продвижении бурятского языка.

Фото: НГУ