Мордовские учёные ведут работу по цифровому описанию мокшанского и эрзянского языков

Главная » Новости » Наука и образование » Мордовские учёные ведут работу по цифровому описанию мокшанского и эрзянского языков

Мордовские учёные ведут работу по цифровому описанию мокшанского и эрзянского языков

В МГУ им. Н.П. Огарёва учёные провели глоссирование более 10 тысяч словоформ мордовских языков в рамках работы по созданию электронного научно-информационно образовательного ресурса «Национальный корпус мордовских языков». Данный ресурс позволит представить язык на определенном этапе его существования и во всём многообразии стилей, жанров и выявить пути развития языка.

По данным переписи 2010 года в России проживает около 745 тысяч мордвы. В последнее время отмечается сокращение носителей родственных для этой национальности языков – мокшанского и эрзянского. Поэтому учёные МГУ им. Н.П. Огарёва приступили к работе, направленной на цифровое описание языков.

Фиксация и сохранение многообразия исчезающих языков и проведение объективного описания языковой системы на основе собранных данных – одни из важнейших направлений языкознания.

«До настоящего времени в мордовском языкознании нет единого цифрового решения, позволяющего накапливать и публиковать языковые данные – аудиословари и глоссированные корпуса текстов, а также проводить их анализ с помощью специальных компьютерных программ с точки зрения особенностей лексики, фонетики и морфологии. Подписанное в 2021 году соглашение о консорциуме с Институтом системного программирования РАН о совместной работе на платформе «ЛингвоДок» позволило объединить усилия учёных-лингвистов в сборе и оцифровке диалектного материала и художественных текстов мордовских языков. Использование единой цифровой платформы создало условия для размещения данных разных пользователей с сохранением всех прав создателей словарей и корпусов», – отметил и.о. декана филологического факультета МГУ им. Н.П. Огарёва Иван Рябов.

Мордовские исследователи проводят оцифровку и лингвистическую разметку мокшанского и эрзянского языкового материала. На подготовительном этапе определен перечень источников для оцифровки. Ими стали тексты художественных произведений, написанные на мокшанском и эрзянском языках в разные периоды. В ходе второго этапа происходит перевод подготовленных текстов в структуру морфологического анализатора на цифровой платформе «ЛингвоДок».

Перед размещением на ней учёные вносят информацию о слове. К примеру, указывают его начальную форму, перевод и грамматические характеристики – часть речи, число, падеж, время и т.п.

Таким образом, морфологическая разметка закрепляется автоматически, при помощи специальной программы морфологического анализатора. После чего учёные вносят корректировки в сложных моментах, связанных с омонимией и уточняют список используемых грамматических тэгов – специальных пометок.

«Цифровое описание мокшанского и эрзянского языка выводит работы учёных МГУ им. Н.П. Огарёва на новый уровень. Поскольку анализ размещенного на платформе материала позволит получить исследователям важнейшие сведения для ретроспективного изучения мордовских языков, поможет установить их генетические связи, выявить хронологию в развитии некоторых явлений и восстановить пути развития языков», – прокомментировал ректор МГУ им. Н.П. Огарёва Дмитрий Глушко.

Всего учёные проведут анализ и оцифровку не менее 200 тысяч словоформ. В дальнейшем глоссированные тексты станут основой для разработки программы автоматического перевода, системы распознавания орфографии, синтезаторов речи.

Работа над созданием «Национального корпуса мордовских языков» ведётся в рамках реализации стратегического проекта «Университет – центр социокультурного развития региона» программы Минобрнауки России «Приоритет 2030».

Источник: vestnikrm2
28.10.2022 15:00

Нас выбирают за качество связи: Т2 запустила новую рекламную кампанию

Т2 продлевает акцию в роуминге: клиенты Т2 могут бесплатно пользоваться безлимитным интернетом в Китае весь апрель

T2 дарит скидку на MiXX S в честь дня рождения мультиподписки

Советуем почитать

Здравоохранение

18 март 2025 12:13

18
март
12:13 layer up

В Мордовии за неделю вновь зарегистрировано 5 случаев коронавируса

В Мордовии с с 10 по 16 марта зарегистрировано 5 случаев коронавируса, как и неделей раньше. 8 человек выздоровели за этот период, на минувшей неделе выписали четверых пациентов. Статистику публикует портал Объясняем.рф.

Подробнее...

11 март 2025 11:39

11
март
11:39 layer up

В Мордовии за неделю зарегистрировано 5 случаев коронавируса

В Мордовии с 3 по 9 марта зарегистрировано 5 случаев коронавируса, на 3 меньше, чем неделей раньше. 4 человека выздоровели за этот период, на минувшей неделе выписали 8 пациентов. Статистику публикует портал Объясняем.рф.

Подробнее...

11 март 2025 11:16

11
март
11:16 layer up

"Партийный десант": Василий Пискарев посетил отремонтированное здание поликлиники №2 в Лямбирском районе

Капитальный ремонт медицинского учреждения, в котором обслуживается свыше 11 тысяч жителей района, проведен в рамках нацпроекта «Здравоохранение» и народной программы партии «Единая Россия».

Подробнее...

19 февраль 2025 11:07

19
февраль
11:07 layer up

В Мордовии за неделю зарегистрировано 14 случаев коронавируса

В Мордовии с 10 по 16 февраля зарегистрировано 14 случаев коронавируса, на 1 больше, чем неделей раньше. 25 человек выздоровели за этот период, на минувшей неделе выписали 15 пациентов. Статистику публикует портал Объясняем.рф.

Подробнее...

04 февраль 2025 16:07

04
февраль
16:07 layer up

В Мордовии за неделю зарегистрировано 17 случаев коронавируса

В Мордовии с 27 января по 2 февраля зарегистрировано 17 случаев коронавируса, на 1 меньше, чем неделей раньше. 25 человек выздоровели за этот период, на минувшей неделе выписали 18 пациентов. Статистику публикует портал Объясняем.рф.

Подробнее...

«Ростелеком» подготовил учеников саранской школы к Диктанту Победы

До самых вражеских ворот: завершились съемки сериала «Рослый» о боевом генерале Великой Отечественной для Wink.ru

По-настоящему вместе о Победе: «Ростелеком» начал съемки новых кинооткровений

График плановых отключений электроэнергии