Общество 26 июн 2025 1494

«Технологии – в помощь»: как в России появился первый русско-бурятский онлайн-переводчик на основе нейросетей

Дари Батурова и Сарана Абидуева окончили школу № 49 г. Улан-Удэ, но познакомились, работая над проектом. Дари - выпускница Новосибирского госуниверситета по направлению «Мехатроника и робототехника». В настоящее время работает разработчиком-исследователем в компании «Сибирские нейросети»., пишет газета «Бурятия».

© фото: из социальных сетей

После школы Сарана Абидуева поступила в Санкт-Петербургский госуниверситет по специальности «Прикладная математика и информатика». Сейчас трудится инженером машинного обучения в Азиатско-Тихоокеанском банке.

Дари и Сарана вместе создали русско-бурятский онлайн-переводчик на основе нейросетей, который может переводить тексты с русского на бурятский и наоборот. Уже сейчас каждый желающий его может протестировать на сайте burtranslate.ru.

- Расскажите, что из себя представляет онлайн-переводчик на основе нейросетей? Как он работает?

Сарана Абидуева:

- Многие уже наслышаны о нейросетях и искусственном интеллекте. В нашем проекте мы тоже используем эти технологии. Если объяснять просто, нейросетевой переводчик - это программа, которая старается понять смысл текста и передать его на другом языке. Он работает так: мы даем ему предложение на одном языке, он его делит на небольшие части (например, слова) и превращает в числа - так, чтобы компьютер мог с этим работать. Далее алгоритм берет это числовое представление и преобразует в предложение уже на другом языке. Так и происходит перевод с помощью нейросетей.

Дари Батурова:

- В действительности нейросети - это не какая-то магия или чудо, а особый способ обучения компьютера. Представьте ребенка, который не знает бурятского языка. Наша задача состоит в том, чтобы он выучил его. Мы начинаем показывать ему предложения на русском и их переводы на бурятский. Он читает, сравнивает, запоминает. Сначала делает ошибки - как любой ученик. Но с каждым примером понимает всё больше: какие слова как переводятся, как строится фраза, как звучит мысль на другом языке.

Примерно так же работает и нейросеть: она учится переводить, просматривая параллельный корпус - набор предложений на одном языке и их переводов на другой. Со временем она становится всё точнее, хотя и может ошибаться, особенно с незнакомыми словами или сложными выражениями. Но важно отметить, что нейросеть не «понимает» язык по-человечески, она работает только с числовыми представлениями, где просто находит закономерности и на их основе строит перевод. И чем больше хороших примеров мы ей дадим, тем лучше она будет справляться со своей задачей.

- Какая работа предшествовала вашему проекту?

Дари Батурова:

- Мы пришли к идее создания онлайн-переводчика по отдельности в рамках наших дипломных работ еще в 2023-м. В том же году в процессе работы мы случайно нашли друг друга и решили работать вместе над проектом. На самом деле перед нами стояла серьезная проблема: нам нужен был большой параллельный корпус, содержащий тысячи пар предложений. Существующих данных, которые бы нам подошли, было мало, поэтому мы решили подойти к задаче с разных сторон.

Я занималась созданием собственного корпуса с нуля. Благодаря выигранному гранту от Администрациии Главы и Правительства Республики Бурятия я смогла привлечь переводчиков, чтобы получить качественные и выверенные пары предложений на русском и бурятском языках. Отдельную благодарность выражаю Цындыме Бабуевой - самому активному переводчику проекта. Она внесла значительный вклад в создание корпуса. Помимо этого, я заключила договор о сотрудничестве с учреждениями республики, такими как Государственная служба языкового перевода Бурятии, БНЦ и другие.

Сарана Абидуева:

- Я занималась сбором и обработкой данных из Интернета. Чаще всего при создании переводчиков для малоресурсных языков используют такие источники, как Википедия и Библия. С них я и начала. Однако в них не было готового сопоставления «предложение и его перевод». В Библии стихи пронумерованы, поэтому я написала программу для сопоставления стихов через нумерацию. Для Википедии пришлось обучать отдельную нейросеть, способную находить соответствующие друг другу предложения на разных языках.

Затем я искала литературные произведения в электронных библиотеках, где были доступны параллельные версии на нескольких языках. Собрав такие произведения, я написала код для извлечения этих текстов, а при необходимости использовала нейросеть для сопоставления предложений. Также я извлекала тексты из сайтов, на которых встречались материалы на бурятском языке. Каждый такой сайт тоже нужно было обрабатывать по отдельности.

В результате проделанной работы по сбору данных в наш параллельный корпус вошли свыше 100 тысяч пар переводов. На их основе мы обучили нейросетевую модель, которую также поэтапно улучшали. На текущий момент самая качественная модель размещена на сайте burtranslate.ru и уже доступна для использования. Модель пока неидеальна - для высокого качества ей необходимо свыше миллиона параллельных предложений, но даже текущая версия демонстрирует хорошие результаты.

- Опирались ли вы в своей работе на проекты и примеры других национальных регионов?

Дари Батурова:

- Идея создания такого переводчика пришла ко мне в начале третьего курса, когда я искала тему для своей дипломной работы. На тот момент я ещё не задумывалась о том, как вопрос цифровизации языка решается в других национальных регионах. Как раз в процессе погружения в тему я начала изучать опыт других языковых инициатив и с интересом следить за проектами, направленными на поддержку языков коренных народов России. Многие из них помогли мне в нынешнем проекте - благодаря им я лучше поняла, с какими трудностями предстоит столкнуться и какие подходы могут быть более эффективными.

Сарана Абидуева:

- Да, разработчики переводчиков языков народов России охотно делятся своими наработками, опытом и знаниями, отвечают на возникающие вопросы. Это очень помогло нам в создании нашего переводчика.

- Что вдохновило вас на этот проект? Сами вы говорите на бурятском?

Дари Батурова:

- Я все детство никак не могла дождаться, когда создадут переводчик для нашего языка, поэтому решила создать его сама. Мне очень помогли в этом проекте мои родители и бабушка, я им безмерно благодарна за поддержку!

Если говорить про вдохновение, то его я черпала из примеров проектов по поддержке национальных языков. Например, можете посмотреть мини-фильм от Яндекса «Саха Тыла. Как научить машину понимать якутский» - он произвёл на меня сильное впечатление.

Я плохо разговариваю на бурятском языке. Но предпринимаю все усилия, чтобы его подтянуть. Повзрослев, я осознала, что язык - это не просто инструмент общения, это часть нашей истории, культуры и идентичности. Поддерживая сохранения нашего родного языка, мы сохраняем себя. Мне всегда хотелось внести свой вклад в нашу культуру, и я рада, что смогла сделать это через технологический проект.

Сарана Абидуева:

- Сама идея создания переводчика для бурятского языка казалась мне почти очевидной. Это было первое, что пришло мне в голову, когда я начала изучать нейросети. Осознание, что я делаю что-то полезное для своего народа, придавало мне сил и не давало опустить руки в сложные моменты. Большую роль сыграла и поддержка близких.

По-бурятски я не говорю, но могу понять простую лексику. В процессе работы над переводчиком я увеличила свой словарный запас, а, работая с литературой, иногда невольно зачитывалась, благодаря чему лучше узнала культуру и традиции бурят.

- Что было самым трудным при разработке ваших программ?

Сарана Абидуева:

- Мы кропотливо собирали данные, вложили много времени и усилий, не зная, приведёт ли это к какому-либо результату. У меня практически не было опыта создания нейросетей, только несколько учебных работ. Другой проблемой для меня были вычислительные ресурсы. Для того, чтобы обучить нейросеть, требовались специальные сервера, которые приходилось арендовать онлайн. Один эксперимент стоил около 1000 рублей. Но по мере увеличения объёма данных росло и время обучения - цена одного обучения достигла почти 3000 рублей, что ограничивало меня в экспериментах. Позже, благодаря серверам, предоставленными Новосибирским госуниверситетом, платить за обучение нейросетей больше не приходилось.

Дари Батурова:

- Самой сложной частью стал сбор данных для обучения нейросети. Для бурятского языка практически нет готовых цифровых ресурсов, поэтому всё приходилось делать с нуля: искать тексты, организовывать переводческую деятельность, вручную обрабатывать и выравнивать предложения. Это был трудоёмкий и длительный процесс.

Хочется, чтобы подобные инициативы по сохранению и цифровизации бурятского языка получали больше поддержки. Бывали моменты, когда не хватало ни технических, ни человеческих ресурсов, и без помощи единомышленников мы бы не справились. Поддержка, даже минимальная, может сыграть решающую роль в таких проектах.

- Спасибо за беседу. Успехов вам и вашему проекту!

Автор: Беседу вела Светлана НАМСАРАЕВА

Фото: из социальных сетей