Общество 18 окт 2019 2643

​​«Бурятский корпус»

Любовь Бадмаева

Интервью с кандидатом филологических наук, доцентом, ведущим научным сотрудни­ком отдела языкознания ИМБТ СО РАН, вдохновителем ресурса, руководителем проекта «Электронный корпус бурятского языка» Любовью Бадмаевой в газете «Бурятия».

– Наше время – это время стремительного развития информационных компью­терных технологий. Всем из­вестно, что уже существует и функционирует в сети Ин­тернет Электронный корпус бурятского языка. Любовь Дашинимаевна, расскажите, пожалуйста, об этом проек­те.

– Электронный корпус бу­рятского языка на сайте web. corpora.net запущен в Интер­нете в 2012 году под названи­ем «Бурятский корпус». Работы по составлению Электронного корпуса бурятского языка ве­дутся в Институте монголове­дения, буддологии и тибетоло­гии Сибирского отделения РАН (ИМБТ СО РАН) на базе отдела языкознания. В группу разра­ботчиков проекта входят мои коллеги – Ю.Д. Абаева, Г.Н. Чи­митдоржиева и О.С. Ринчинов. Его запуску предшествовали подготовительные работы в разных направлениях, посколь­ку проект такого рода был аб­солютно новым для бурятского языкознания, в силу чего опыт по составлению «Бурятского корпуса» набирался состави­телями по мере его продвиже­ния. Подготовительные работы заняли 3–4 года, за это время постепенно складывался кол­лектив разработчиков, кото­рый проходил ознакомление с основными принципами и подходами для создания элек­тронного языкового ресурса, уяснял свои задачи, искал и определял пути их решения. В 2011 году была открыта наша первая опытная версия с на­званием «Корпус бурятского языка», где были размещены материалы конкордансов к бурятским художественным текстам, выполненных в про­грамме, разработанной О.С. Ринчиновым. Впоследствии наша опытная версия была за­крыта, тем не менее, её нара­ботки и послужили базой для запуска «Бурятского корпуса».

Как мы все знаем, любая наука не стоит никогда на од­ном месте, так и в лингвистике в конце ХХ–начале ХХI веков стало интенсивно развивать­ся новое направление – кор­пусная лингвистика, главными задачами которой являются формирование языковых кор­пусов и их развитие, изучение и исследование различных лингвистических проблем на базе корпусных данных. Кор­пусные данные – это языковые единицы (фонема, морфема, слово, предложение и текст), из которых состоит соответ­ственно корпус. В разработке языкового корпуса принимают участие не одни лингвисты, они работают в тесном союзе с ком­пьютерными лингвистами и ма­тематиками-программистами.

Бурятоязычные текстовые базы данных объёмом около 2,5 млн словоупотреблений охватывают основные стили современного бурятского язы­ка, такие как художественный, учебно-научный и обществен­но-публицистический. Данный корпус включает в себя в ос­новном полнотекстовые элек­тронные версии оригинальных бурятских текстов, опублико­ванных в период с начала ХХ века по настоящее время. Сами же тексты закрыты для соблю­дения авторских прав. Такому правилу следуют практически на всех сайтах лингвистических корпусов. Любой языковой корпус не является электрон­ной библиотекой.

Итоговой целью организа­ции бурятского электронного корпуса является возможность получения надёжных лингви­стических фактов из реальной языковой среды, которая отве­чает разнообразным потребно­стям в исследовательской и образовательной деятельности.

– Какие трудности встре­чаются при пополнении кор­пуса новыми текстами?

– Трудности, встречающи­еся при пополнении корпуса новыми текстами, в первую очередь заключаются в не­хватке рабочих рук для их подготовки, обработки, анно­тирования и, соответственно, финансирования для проведения таких работ, а также для операций по интегрированию. Пополнение корпуса текстовы­ми материалами не является единственной важной задачей в подобном проекте. Это линг­вистический ресурс, поэтому требуются расширения его на­правлений по аннотированию языковых единиц: кроме углу­бления морфологической раз­метки, необходимо внедрять синтаксическую, семантиче­скую.

– Какую пользу прино­сит корпус при проведении исследований по бурятской филологии? И в каких ещё направлениях науки он мо­жет быть использован?

– «Бурятский корпус» — это чрезвычайно полезный ресурс для тех, кто занимается иссле­дованиями на основе фактов живого бурятского языка, будь то проблемы грамматики, на­пример, синтаксиса, морфо­логии или проблемы лексико­графии, составления словарей, проблемы лексики, семантики, словообразования, словосо­четаний. «Бурятский корпус» активно востребован колле­гами при подготовке научных статей, докладов, диссертаций и монографий по бурятскому языку. Статьи с использовани­ем данных «Бурятского корпу­са» публикуются в рейтинговых журналах, таких как Scopus, Web of Science. В октябре 2019 года успешно защищена док­торская диссертация по син­таксису бурятского языка с использованием данных наше­го корпусного ресурса. В по­лезности и востребованности «Бурятского корпуса» мы не со­мневаемся. Число пользовате­лей корпуса неуклонно растёт в научной и образовательной сферах. Корпус в углубленно разработанном виде может быть использован в таких на­уках, как литературоведение, поэтика (корпус поэтических текстов), социолингвистика (корпус газетных текстов), эт­нография, лингвистическая ан­тропология, археология.

– В любом проекте очень важен вопрос практическо­го применения его резуль­татов. Как корпус может использоваться или исполь­зуется в преподавании бу­рятского языка и литерату­ры, разработке учебников, пособий?

– «Бурятский корпус» поле­зен для преподавателей бурят­ского языка и литературы вви­ду своей доступности. Сегодня в сложном деле преподавательского процесса получило своё развитие такое направле­ние, как корпусная методика преподавания. Корпус – это современный инструмент для решения разнообразных ме­тодических задач, которые ставят в своей ежедневной ра­боте языковед, литературовед или фольклорист. Думается, что сегодня назрела необхо­димость создания условий для форсированного внедре­ния корпусных технологий в процесс обучения бурятско­му языку, поскольку вместе с лингвистическими корпусами пришла новая «дидактическая парадигма». Корпусные техно­логии дают значительно боль­ше возможностей учащимся для самостоятельных анали­тических работ над языковой информацией, извлекаемой из «Бурятского корпуса», что способствует обучению через микроисследование, ведущее к лучшему закреплению изу­чаемого материала. Работы по самостоятельному анализу и интерпретации данных элек­тронного корпуса будут не только ускорять процессы об­работки языковых материалов, улучшать усвояемость учебно­го материала (например, лек­сико-грамматические навыки), но и повышать, что особенно важно в сложившейся общей языковой ситуации, интерес к изучению родного языка с использованием доступных онлайн исходных языковых ма­териалов. Корпусные ресурсы предоставляют преподавателю широкую возможность само­стоятельной разработки мето­дических приёмов при обуче­нии языку. На их базе учитель может сам разрабатывать раз­личные упражнения на закре­пление учебного материала, контрольные и проверочные задания, тесты в соответствии с уровнем обучающихся, автор­ской программой и так далее. Для большего приближения корпуса к практике, учителям нами подготовлена книга, опи­сывающая возможные способы и методы использования его в учебном процессе, при состав­лении тех или иных заданий.

– Сейчас идут меропри­ятия, посвящённые Дню бурятского языка. Ваши по­желания нашим читателям и тем, кто пользуется корпу­сом или собирается начать это делать в ближайшем бу­дущем.

– Уважаемые читатели, мы приглашаем вас на сайт Элек­тронного корпуса бурятского языка. Во вступительной статье на сайте есть краткая инструк­ция о том, как можно пользо­ваться корпусом. Например, немного потренировавшись, можно уточнять значение слов по контексту, определять ча­стотность тех или иных слов. Можно выборочно по текстам определённого автора осу­ществлять поиск языковых единиц, будь то слово или синтаксическая конструкция. Кто не знает бурятского языка или занимается его изучением, может по русскому переводу находить его бурятскую лексическую параллель. По корпусу можно проверить, уточнить правильную грамматическую парадигму бурятского слова как склонение существительных или спряжение глаголов. Если у читателей будет жела­ние участвовать в пополнении базы данных текстов, мы будем рады. При подготовке текстов для нас важно качество, а не количество. Все ошибки изда­тельства или сканирования, неправильного распознавания символов должны быть сведе­ны к нулю. Мы должны соблю­дать нормы родного языка. Это особенно актуально в связи с бурным обсуждением места и роли литературного языка. За литературным языком должны сохраняться нормализующая и объединяющая нацию роли. Бурятский литературный язык обогащается из ресурсов диа­лектов и говоров, это неиссяка­емый источник его образности, словарного богатства.

Если у читателей будут во­просы и замечания к корпусу, пожалуйста, обращайтесь к нам. Мы будем рады вашим за­мечаниям для усовершенствования корпуса, чтобы учиты­вать их в дальнейшей работе.

Фото из архива ИМБТ СО РАН

Автор: Владимир МАТВЕЕВ