- Хантыйский
- Русский
Хӑнты ясӊев йиӆуп щирн ӆэщӑтты вєр оӆӊитӆы
Щи оӆӑӊӑн депутатӑт шуши мирӑт ассамблея мирхот пурайн путӑртсӑт, щит тәнӆуп тыӆӑщ 14-мит хӑтӆӑн Ёмвошн вәс. Щӑта округ дума депутатӑт Еремей Айпин, Татьяна Гоголева, Руслан Проводников, округ кәща ӆӑӊкӑр нє Елена Шумакова па арсыр рәпитты тӑхет кәщайт ӑктӑщийӆсӑт.
Хутыса тӑм йис щирн хӑнты па вухаӆь ясӑӊӊӑн национальной корпус вєрты, щи оӆӑӊӑн мирхотн округ дума депутат Татьяна Гоголева лупӑс. Щит вєрӆы мўвтєӆ мир ясӊӑт така тӑйты яӊ оӆ пурайн.
Хән щи пура оӆӊитсы, кәща ёх нумӑсн хәӆум йиӆуп вєр вєрты щир вәс: шуши мир ясӊӑт нух аӆумты; иса муй вєрты, ӆәӆн аршӑк хӑннєхә рәт ясӑӊӑн ат путӑртӑс; тӑм йис щирн шуши мир ясӊӑт еӆӆы тәты.
Интӑм мосӆ щиты вєрты, ӆәӆн аршӑк айӆат хуят рәт ясӑӊа вәнӆтӑты, ӆәӆн ӆыв колледжăтн па университетăтн рәт ясăӊа ат вәнӆтăсыйт, щăӆта шуши мир ясӊӑт еӆӆы тәты щира йиӆуп государственной программайт ӆэщӑтты.
Информационной технологияйт югорской научно-исследовательской институт кәща хә Андрей Мельников мирхотн арсыр ясӊӑт эвӑӆт тулмащтӑты вєр оӆӑӊӑн путӑртӑс:
- Кашӑӊ ясӑӊӑн и ясӑӊ пӑта модель вєрӆы. 2020-мит оӆн мўӊ щиты вєрсўв, ӆәӆн иса ясӊӑт электронной щирн ат тулмащтӑсыйт. Щи унтасн кашӑӊ ясӑӊӑн словарь вєрты щир, морфологической моделят вєрты щир тӑйӆўв. Корпус – щит щимӑщ вєр, мӑта утн кашӑӊ вєр рәт ясӑӊ эвӑӆт рўщ ясӑӊа тулмащтӑты мосӆ па юхӆы – рўщ ясӑӊ эвӑӆт рәт ясӑӊа. Институтэвн этнобанк нємпи ут ӆэщӑтсўв. Щӑта вухаӆь ясӑӊӑн єтум киникайт, арсыр нєпекӑт, кинайт цифровой щирн вєрсўв.
Щи унтасн мўӊ вухаӆь ясӑӊӑн национальной корпус ӆэщӑтсўв. Щӑта 212 словоформа вәӆ, щи кўтн 82 щурӑс ясӑӊ, 186 щурӑс предложения вєрсы.
Щи вєр пӑта ар ясӑӊ «Луима сэрипос» вухаӆь газета эвӑӆт вўсы. Математической модель хәӆум щирн вєрсы: и ут мадьяр ясӑӊ хўват, кимит – рўщ ясӑӊ хўват, хәӆмит – мультивинда щирн.
Андрей Витальевич ясӑӊӆаӆ щирн, щимӑщ корпус рәт ясӑӊӑн ма путӑртты ёх такӆы нємхәнты ӑн вєрты. Кашӑӊ хуят и вєр арсыр щирн тулмащтӑӆ. м корпус хўват вєрум модель веккєши мосты ута питӆ. Вантэ, ясӑӊ иса пўш па хурасупа йиӆ, хәсмит нәпӑт ясӑӊ па тӑм йис ясӑӊ – иса арсыр утӑт.
Ас-угорской институт кәща нє Виктория Сподина корпус вєрты щир оӆӑӊӑн щиты лупӑс:
- Мўӊ щи вєр ищи мосман тӑйӆэв. Щи унтасн шуши мир ясӊӑт тӑм йис щирн нух аӆумӆыйт па ӆавӑӆӆыйт. Щи вєр әхтыйн ар хуят рәпитты питӆ, щит ӑнтә тәп рәт ясӑӊӑн ма путӑртты ёх, щит лингвистӑт, программистӑт, математикӑт па па ёх.
Виктория Ивановна ясӑӊӆаӆ щирн, Ас-угорской институтн кӑт хуят тӑм йиӆуп вєр әхтыйн рәпитты питӆӑӊӑн, вухаӆь ясӑӊ хўват – Татьяна Бахтиярова, хӑнты ясӑӊ хўват – Ирина Молданова. Ӆын корпусной лингвистика хўват вәнӆтӑсыйӊӑн. Ин мўвтєӆ мир ясӊӑт така тӑйты яӊ оӆ пурайн рәт ясӊӑтн аршӑк киника єсӑӆты мосӆ, ӆәӆн ӆыв иса рўщ ясӑӊа тулмащтуман ат вәсӑт. Щит корпус вєрты пурайн мєт мосты утӑт питӆӑт.
Округ кәща ӆӑӊкӑр нє Елена Шумакова лупӑс:
- Мўӊ ӆӑӊхаӆўв, ӆәӆн ӑшколайн па институтӑтн вәнӆтыйӆты няврємӑт рәт ясӑӊ ат вәнӆтӑсӑт, щирн мўӊева тӑм йисн Россия мўвевн мєт мосты платформаятн йиӆуп вєрӑт ӆэщӑтты мосӆ – щит Яндекс па ВКонтакте. Щиты аршӑк няврєм рәт ясӑӊа вәнӆтӑты щир тӑйты питӆўв. Корпус вєрты пӑта рәт ясӑӊ пиӆа рәпитты иса хуятӑт вохты мосӆ, ӆәӆн ӆыв щи вєр пӑта тыӆӑщ вухн ат сухуптӑсыйт.
Мирхотн депутатӑт постӑсӑт, еӆӆы шуши мир ясӊӑт ӆавӑӆты щира мосты программа, хӑнты ясӑӊ национальной корпус вєрты пӑта иса мосты нєпекӑт ӆэщӑтты мосӆ. Щит хәӆум путрупсы хўват вєрӆы – касум, сәрханӆ па ваховской.
Ай кєр тыӆăщн кәща ёх па щи вәйтантыйӆӆăт па щи вєр оӆăӊăн еӆӆы путăртты питӆăт.
Путӑр хӑншӑс:
Надежда Рагимова
Начинается работа по созданию национального корпуса хантыйского языка
Об этом говорили 14 февраля в Ханты-Мансийске на заседании Ассамблеи представителей коренных малочисленных народов Севера Думы Югры. В нём приняли участие депутаты Еремей Айпин, Татьяна Гоголева, Василий Жуков, Руслан Проводников, заместитель главы региона Елена Шумакова, директор Департамента образования и науки автономного округа Алексей Дренин, директор окружного Департамента внутренней политики Александр Скурихин, директор Обско-угорского института прикладных исследований и разработок Виктория Сподина, а также представители Югорского научно-исследовательского института информационных технологий.
С докладом на тему «О цифровых проектах по созданию национального корпуса хантыйского языка, национального корпуса мансийского языка в рамках проведения Международного десятилетия языков коренных народов в Ханты-Мансийском автономном округе – Югре» выступила депутат Татьяна Гоголева. Она отметила, что были поставлены три цели Международного десятилетия языков коренных малочисленных народов Севера: укрепление слабых позиций родных языков коренных народов, увеличение числа говорящих на родных языках, продвижение родных языков посредством цифровых технологий. Наиболее актуальными задачами депутат считает подготовку кадров по родным языкам, финансовое обеспечение новых подходов, принятие специальной государственной программы «Родные языки коренных народов Югры»
и другие.
Директор Югорского научно-исследовательского института информационных технологий Андрей Мельников рассказал о важности создания системы автоматического перевода:
– Каждому слову языка строится вектор. К 2020 году мы имели методы машинного перевода, которые позволяют сформировать работающие словари языка, строить определенные морфологические модели языка. Корпус языка – это построение модели, в которой каждое предложение на языке ставится в соответствии с предложением на русском языке, которое максимально точно передает смысл этого предложения. Институт языкознания академии наук сделал анализ всех языков на территории России, у мансийского и хантыйского языков есть проблема в формировании корпуса языка. В Югорском НИИ информационных технологий был создан «Этнобанк». Это основные источники, переведенные в цифровую форму, текстовые, видео, звуковые информации. В «Этнобанке» реализованы инструменты для построения корпуса языка. На основе этого инструмента нами в автоматическом режиме был построен корпус мансийского языка. В корпусе 212 словоформ, из них 82 тысячи уникальных слов, 186 тысяч предложений. Основным источником является газета «Луима сэрипос». Была построена специальная математическая модель. Всего построили три модели, первая на базе венгерского языка, вторая – на базе русского, третья – на базе мультивинды. Нужно улучшить качество корпуса, чтобы получить реальную модель языка.
Андрей Витальевич отметил, что построить корпус языка без участия носителей просто невозможно. Каждую фразу можно перевести по-разному. Модель, построенная на базе хорошего корпуса, – это вещь на века. Она создает математическую модель языка. Язык постоянно меняется. Язык начала 20 века серьезно отличается от сегодняшнего.
Директор Обско-угорского института прикладных исследований и разработок Виктория Сподина высказала своё мнение по созданию корпусов:
– Мы всецело поддерживаем проект, он актуален, своевременен. Корпус наших мало ресурсных языков действительно будет реализовывать одну из задач десятилетия по сохранению языков и по включению их в современную и цифровую среду. Это междисциплинарная работа, необходимы усилия лингвистов, программистов, математиков, т.е. группы специалистов, а не только тех, кто знает родной язык.
По словам Виктории Ивановны, в Обско-угорском институте на данных проектах работают два сотрудника, Татьяна Бахтиярова – по корпусу мансийского языка, Ирина Молданова – по корпусу хантыйского языка. Они прошли обучение по корпусной лингвистике. Также она отметила малое количество опубликованных текстов с хорошим грамотным переводом на русский язык. В период десятилетия необходимо создать как можно больше текстов, опубликовать и аудировать.
Заместитель губернатора Югры Елена Шумакова отметила:
– Мы хотим привлечь к изучению языка детей дошкольного и школьного возрастов, студентов, поэтому нужно это делать на тех платформах, которые пользуются популярностью в Российской Федерации, это Яндекс, ВКонтакте, где есть контингент, который способен потенциально быть привлечённым к изучению языков. По созданию корпуса важно задействовать всю ту сетку учреждений, организаций, наработок, которые у нас уже есть.
На заседании было принято решение рассмотреть вопрос о разработке межведомственной программы по сохранению и развитию языков КМНС, утвердить пилотный цифровой проект «Национальный корпус мансийского языка», разработать и утвердить дорожную карту по реализации цифровых проектов по созданию национального корпуса хантыйского языка на трёх диалектах (казымский, сургутский и ваховский).
Надежда Рагимова