Любовь Бадмаева
Интервью с кандидатом филологических наук, доцентом, ведущим научным сотрудником отдела языкознания ИМБТ СО РАН, вдохновителем ресурса, руководителем проекта «Электронный корпус бурятского языка» Любовью Бадмаевой в газете «Бурятия».
– Наше время – это время стремительного развития информационных компьютерных технологий. Всем известно, что уже существует и функционирует в сети Интернет Электронный корпус бурятского языка. Любовь Дашинимаевна, расскажите, пожалуйста, об этом проекте.
– Электронный корпус бурятского языка на сайте web. corpora.net запущен в Интернете в 2012 году под названием «Бурятский корпус». Работы по составлению Электронного корпуса бурятского языка ведутся в Институте монголоведения, буддологии и тибетологии Сибирского отделения РАН (ИМБТ СО РАН) на базе отдела языкознания. В группу разработчиков проекта входят мои коллеги – Ю.Д. Абаева, Г.Н. Чимитдоржиева и О.С. Ринчинов. Его запуску предшествовали подготовительные работы в разных направлениях, поскольку проект такого рода был абсолютно новым для бурятского языкознания, в силу чего опыт по составлению «Бурятского корпуса» набирался составителями по мере его продвижения. Подготовительные работы заняли 3–4 года, за это время постепенно складывался коллектив разработчиков, который проходил ознакомление с основными принципами и подходами для создания электронного языкового ресурса, уяснял свои задачи, искал и определял пути их решения. В 2011 году была открыта наша первая опытная версия с названием «Корпус бурятского языка», где были размещены материалы конкордансов к бурятским художественным текстам, выполненных в программе, разработанной О.С. Ринчиновым. Впоследствии наша опытная версия была закрыта, тем не менее, её наработки и послужили базой для запуска «Бурятского корпуса».
Как мы все знаем, любая наука не стоит никогда на одном месте, так и в лингвистике в конце ХХ–начале ХХI веков стало интенсивно развиваться новое направление – корпусная лингвистика, главными задачами которой являются формирование языковых корпусов и их развитие, изучение и исследование различных лингвистических проблем на базе корпусных данных. Корпусные данные – это языковые единицы (фонема, морфема, слово, предложение и текст), из которых состоит соответственно корпус. В разработке языкового корпуса принимают участие не одни лингвисты, они работают в тесном союзе с компьютерными лингвистами и математиками-программистами.
Бурятоязычные текстовые базы данных объёмом около 2,5 млн словоупотреблений охватывают основные стили современного бурятского языка, такие как художественный, учебно-научный и общественно-публицистический. Данный корпус включает в себя в основном полнотекстовые электронные версии оригинальных бурятских текстов, опубликованных в период с начала ХХ века по настоящее время. Сами же тексты закрыты для соблюдения авторских прав. Такому правилу следуют практически на всех сайтах лингвистических корпусов. Любой языковой корпус не является электронной библиотекой.
Итоговой целью организации бурятского электронного корпуса является возможность получения надёжных лингвистических фактов из реальной языковой среды, которая отвечает разнообразным потребностям в исследовательской и образовательной деятельности.
– Какие трудности встречаются при пополнении корпуса новыми текстами?
– Трудности, встречающиеся при пополнении корпуса новыми текстами, в первую очередь заключаются в нехватке рабочих рук для их подготовки, обработки, аннотирования и, соответственно, финансирования для проведения таких работ, а также для операций по интегрированию. Пополнение корпуса текстовыми материалами не является единственной важной задачей в подобном проекте. Это лингвистический ресурс, поэтому требуются расширения его направлений по аннотированию языковых единиц: кроме углубления морфологической разметки, необходимо внедрять синтаксическую, семантическую.
– Какую пользу приносит корпус при проведении исследований по бурятской филологии? И в каких ещё направлениях науки он может быть использован?
– «Бурятский корпус» — это чрезвычайно полезный ресурс для тех, кто занимается исследованиями на основе фактов живого бурятского языка, будь то проблемы грамматики, например, синтаксиса, морфологии или проблемы лексикографии, составления словарей, проблемы лексики, семантики, словообразования, словосочетаний. «Бурятский корпус» активно востребован коллегами при подготовке научных статей, докладов, диссертаций и монографий по бурятскому языку. Статьи с использованием данных «Бурятского корпуса» публикуются в рейтинговых журналах, таких как Scopus, Web of Science. В октябре 2019 года успешно защищена докторская диссертация по синтаксису бурятского языка с использованием данных нашего корпусного ресурса. В полезности и востребованности «Бурятского корпуса» мы не сомневаемся. Число пользователей корпуса неуклонно растёт в научной и образовательной сферах. Корпус в углубленно разработанном виде может быть использован в таких науках, как литературоведение, поэтика (корпус поэтических текстов), социолингвистика (корпус газетных текстов), этнография, лингвистическая антропология, археология.
– В любом проекте очень важен вопрос практического применения его результатов. Как корпус может использоваться или используется в преподавании бурятского языка и литературы, разработке учебников, пособий?
– «Бурятский корпус» полезен для преподавателей бурятского языка и литературы ввиду своей доступности. Сегодня в сложном деле преподавательского процесса получило своё развитие такое направление, как корпусная методика преподавания. Корпус – это современный инструмент для решения разнообразных методических задач, которые ставят в своей ежедневной работе языковед, литературовед или фольклорист. Думается, что сегодня назрела необходимость создания условий для форсированного внедрения корпусных технологий в процесс обучения бурятскому языку, поскольку вместе с лингвистическими корпусами пришла новая «дидактическая парадигма». Корпусные технологии дают значительно больше возможностей учащимся для самостоятельных аналитических работ над языковой информацией, извлекаемой из «Бурятского корпуса», что способствует обучению через микроисследование, ведущее к лучшему закреплению изучаемого материала. Работы по самостоятельному анализу и интерпретации данных электронного корпуса будут не только ускорять процессы обработки языковых материалов, улучшать усвояемость учебного материала (например, лексико-грамматические навыки), но и повышать, что особенно важно в сложившейся общей языковой ситуации, интерес к изучению родного языка с использованием доступных онлайн исходных языковых материалов. Корпусные ресурсы предоставляют преподавателю широкую возможность самостоятельной разработки методических приёмов при обучении языку. На их базе учитель может сам разрабатывать различные упражнения на закрепление учебного материала, контрольные и проверочные задания, тесты в соответствии с уровнем обучающихся, авторской программой и так далее. Для большего приближения корпуса к практике, учителям нами подготовлена книга, описывающая возможные способы и методы использования его в учебном процессе, при составлении тех или иных заданий.
– Сейчас идут мероприятия, посвящённые Дню бурятского языка. Ваши пожелания нашим читателям и тем, кто пользуется корпусом или собирается начать это делать в ближайшем будущем.
– Уважаемые читатели, мы приглашаем вас на сайт Электронного корпуса бурятского языка. Во вступительной статье на сайте есть краткая инструкция о том, как можно пользоваться корпусом. Например, немного потренировавшись, можно уточнять значение слов по контексту, определять частотность тех или иных слов. Можно выборочно по текстам определённого автора осуществлять поиск языковых единиц, будь то слово или синтаксическая конструкция. Кто не знает бурятского языка или занимается его изучением, может по русскому переводу находить его бурятскую лексическую параллель. По корпусу можно проверить, уточнить правильную грамматическую парадигму бурятского слова как склонение существительных или спряжение глаголов. Если у читателей будет желание участвовать в пополнении базы данных текстов, мы будем рады. При подготовке текстов для нас важно качество, а не количество. Все ошибки издательства или сканирования, неправильного распознавания символов должны быть сведены к нулю. Мы должны соблюдать нормы родного языка. Это особенно актуально в связи с бурным обсуждением места и роли литературного языка. За литературным языком должны сохраняться нормализующая и объединяющая нацию роли. Бурятский литературный язык обогащается из ресурсов диалектов и говоров, это неиссякаемый источник его образности, словарного богатства.
Если у читателей будут вопросы и замечания к корпусу, пожалуйста, обращайтесь к нам. Мы будем рады вашим замечаниям для усовершенствования корпуса, чтобы учитывать их в дальнейшей работе.
Фото из архива ИМБТ СО РАН