- Мансийский
- Русский
Ань щнь лтӈанув ат сймгыт
Тынакт щнь лтӈанув, ханищтапыт ос пс наканув урыл Москва ӯст ос Ханты-Мансийскат св мныл акван-атхатыглам мхум потыртасыт. Ань ты йильпи порат хумус тн лгыт ос тнаныл мӯсхалыг лаль тотнэ мгыс врмалит тра-паттувсыт.
Югра мныл Москван мхманув ялсыт. Раиса Решетникова ос «Трансформация общественного пространства. Роль языков народов Российской Федерации в развитии творческих индустрий» нампа спранит лтыӈ лвыс. Тав «Торум Маа» музейт рӯпитан мхманэ ёт хумус щнь лтӈыт ос пс накыт лаль тотыяныл, ты урыл потыртас.
Ханты-Мансийск ӯст аквты порат «Лтыӈ, история ос пс накыт» нампа спрани ос ханищтап врыглавес. Тот щнь лтӈыт ищхӣпыӈ утын хаснэ урыл с св потыртасыт. Нн вглын, мньщи лтыӈ национальный корпусн атнэ цифровой проект 2023 тлныл вылтавес. Тав хосытт мньщи лтӈув ищхӣпыӈ утн тӯлвес ос ань щнь лтӈувтыл хансым мйтыт, потрыт св мхумн рущ лтӈыл толмащлаӈкве врмавет.
Ты спрани выл хталт ЮНИИИТ кол кӯщай хум Андрей Мельников ты проект щирыл рӯпитан ос ищхӣпыӈ утытн тӯлнэ порат трвит ман пӯмыщ накыт вылтыт мӯй мхумн потыртас. Тав лвыс, ань тыг мус корпусн рущ лтӈыл 300 стыра предложеният мньщи лтӈыг толмащлым тӯлвсыт. Ос ищхӣпыӈ утытн мкыг хаснэ ос торгамтан мгыс тн ИИ (искуственный интеллект) хосыт с уральтавет. Та щирыл кисхатым, тн 1 307 118 хнтыглам сыре-сыр псыт ос хурит палт уральтасаныл.
Ань тамле тлат урыл Андрей Витальевич Мельников таи лвыс:
– Мн мньщи корпус врнв сыс ИИ палт сыре-сыр трвит врмальн тагаплсӯв. вылт «галлюцинацияг» лвнэ щирыл накын, матыр тавн хащтл тла китыгламув порат, тав мт щирыл матыр-ти суссылты. Кос выгув, лумхлас ктаге пнтсыл тав лглыг такталы манос арыг тулвлыт, сви пслым хурит.
Китыт нак – тыи ищхӣпыӈ ут св номт ат ньщи, манах номт тув тӯлвес, тав та свитыл лаль та рӯпиты. Свнув номт тув тӯлуӈкве ке, йильпи программат щпитан мгыс матах пора ос св рӯпитаӈкве тах ри. Ань ты корпусув мньщи лтыӈ толмащлан хтпат ос тнаныл уральтан хтпат ёт, вруӈкве вылтаслӯв. Тыт таи вӈкве ри, ты хтпат номтыӈ рӯпатаныл нмхуньт ищхӣпыӈ утыл мт щирыл врнэ хольт ат пнтхаты.
Хӯрмит нак – тыи экономика. Тув нйпос накыт хӯлтавет. Ищхӣпыӈ утыт пуссын тав хосытт рӯпитгыт.
Мн ань тахольт корпусув мгыс маткем та рӯпитасӯв, рнэ хащтл накыт ёмас тлаг врсанӯв. Ты институтув плыл Игорь Веретенников свсыр программат ханищтым ань ловиньтан нпак потранэ пслым корпусн хансуӈкве врмыс. Тнт мнавн нпак ловиньтан округ колт рӯпитан хтпат нтсыт, тн мньщи лтӈыл хансым потрыт пслысаныл ос мнавн мисаныл.
Рӯпатав моляхыл врмув мгыс, мньщи лтыӈ мт св мирыт лтӈаныл ёт рталаӈкве патыслӯв. рыӈ таве аквта программат хольт врилӯв тах. Тнт тра-патыс, мньщи лтыӈ палт щар ляпаг – венгерский лтыӈ лы, ос ань ты порат мньщи лтыӈ внэ ос потыртан хтпатн – рущ лтыӈ. Тн номтаныл аквта щиртыл предложеният лвияныл.
Ты коныпал мньщи лтӈыт хӯнтамлаӈкве рвгыт. Тва лтӈыт лумхлас турсуил хасвсыт. Ты кастыл Галина Кондина 15 стыра предложеният ловиньтас. Ётыл тн нейросеть щирыл лаль щпитавсыт.
Тамара МЕРОВА
Языки не должны исчезать
Декабрь уходящего года выдался наиболее активным по решению вопросов языковой политики в целом, поскольку две масштабные конференции прошли в Москве и Ханты-Мансийске. Предметом обсуждения участниками мероприятий стали изучение и популяризация родных языков на общеобразовательных и культурных площадках, влияние глобализации на традиционные ценности, а также поиск новых подходов в реализации традиционной культуры и сохранение родных языков.
В рамках IX форума «Языковая политика в Российской Федерации», организованный Федеральным агентством по делам национальностей в Москве, приняла участие также делегация из ХМАО–Югры. Так на панельной сессии «Трансформация общественного пространства. Роль языков народов Российской Федерации в развитии творческих (креативных) индустрий» выступила руководитель сектора научно-исследовательской и методической деятельности музея «Торум Маа» Раиса Решетникова. Она, представив доклад «Популяризация и продвижение родных языков в музеях Югры» на примере Этнографического музея под открытым небом «Торум Маа», обобщила опыт работы музеев Югры.
В Ханты-Мансийске в эти же дни проходила научно-практическая конференция «Язык, история и культура: от традиции к инновациям». В рамках конференции демонстрировали новейшие цифровые технологии для поддержки исчезающих языков. Как известно, в нашем округе с 2023 года приступили к реализации проекта «Национальный корпус мансийского языка». Благодаря этому мансийский язык внесли в «Яндекс.Переводчик». И сейчас мансийские тексты можно переводить на русский язык и обратно.
Одним из ключевых направлений конференции являются аспекты функционирования языков коренных народов Югры в эпоху цифровых трансформаций. На пленарном заседании директор ЮНИИИТ Андрей Мельников рассказал о команде сотрудников, которые занимались разработкой проекта, представил цифровую модель мансийского языка: от машинного перевода до генеративных вопросно-ответных систем. На данный момент сформировано 300 тысяч пар параллельных предложений на мансийском и русском языках. Полученные данные также пропустили через искусственный интеллект. В общем, сгенерировано 1 307 118 размеченных изображений с баудингбоксами. Андрей Витальевич ознакомил и с трудностями, тормозившими в дальнейшем процесс реализации проекта.
– При проверке разработанных нами программ методом ИИ (искусственного интеллекта) находим некоторые общие шероховатости. Первое, c чем мы сталкиваемся и на мансийском языке – это так называемые «галлюцинации». Это ситуация, когда инструмент с искусственным интеллектом выдаёт неточный, вводящий в заблуждение или несогласованный вывод. Это происходит из-за того, что алгоритмы находят шаблоны в данных, которых не существует, или неправильно интерпретируют эти шаблоны. То есть, как только не уследишь за моделью, особенно если задашь вопрос, который она не знает, и поскольку не умеет говорить «нет», то пытается сочинить что-нибудь. Как видим на картинке, вместо рук у человека отображены стопы, или не правильное количество пальцев, или искаженные черты лица и так далее.
Кроме этого, есть фундаментальные задачи, которые сейчас решают математики для того, чтобы всё усовершенствовать. Второе – это память. Пока память моделей достаточно ограничена. Вот мы видели GPT, у неё требуется определённое время для того, чтобы сгенерировать ответы. Модели должны работать со скоростью человека. Относительно наших моделей, которые мы разработали. Первое, это корпус мансийского корпуса. Я говорил о тех проблемах, с которыми мы столкнулись, и это серьёзная фундаментальная вещь, которая выглядит примерно таким образом: дайте нам хорошие данные, мы обучим любую модель в любом качестве. А вот хорошие данные можно получить только от человека. Здесь превалирует роль эксперта, роль человека, который создаёт, структурирует данные, знания, и он никогда не будет заменён.
Третья задача – это экономика. В этой части сталкиваемся с проблемой энергопотребления, связанной с развитием искусственного интеллекта те модели, которые сейчас запускаются и обучаются, они требуют огромный поток электроэнергии для того, чтобы питать мощности. И одной из ключевых задач человечества остаётся производство электроэнергии.
Следующая задача, которую мы решали, это распознавание печатных книг. Спасибо окружной библиотеке, которые отсканировали и нашли нам книги на мансийском языке. Но мы столкнулись с тем, что эти книги не в электронном виде, а ведь компьютеру нужен электронный вид. И такая задача перевода книг с изображения с картинки в предложение в текст, была решена нашим сотрудником Игорем Веретенниковым. Он продолжительное время сидел и изучал модель, в конце концов, у него всё получилось.
Модель переводчика – тема тоже непростая, особенно с таким небольшим объёмом корпуса. До этого разрабатывались модели языков с миллионными записями. Принципиально важно, что мы проверили близость этих языков. И мы обнаружили, что на сегодняшний день у нас к мансийскому языку ближе всего два языка. Оказалось, ближе всех из языков – это венгерский язык. Причём знаете, как это не просто проверять, это математика, которая показывает близость языков, специальные меры близости мы оценили по этой части. И ещё один результат тоже для нас неожиданный: оказалось, что для современного мансийского языка очень близок русский язык. То есть влияние русского языка, построение фраз, предложений и так далее. Я хочу сказать, что мы использовали целую группу метрик, начиная от специально взвешенных, что мы на высоком уровне качества переводов.
Также разработана нейронная сеть, которая озвучивает текст на мансийском языке. Мы научили модель говорить голосом реального человека, чтобы она повторяла такие вещи. Для этого эксперт Галина Кондина озвучила 15 тысяч предложений, это 30 часов голосовых записей.
В завершении скажу, что проделана огромная работа, выполненная программистами, математиками, лингвистами. Переводчики сделали очень много для того, чтобы сохранить навеки свой язык, без них бы не получилось собрать цифровой корпус. Кроме этого, поддержка со стороны правительства. И если бы все так слаженно не работали, такой уникальный проект, просто никогда не был бы реализован.
Самый лучший, на мой взгляд, ответ, который я услышал, прозвучал следующим образом: «Язык надо сохранять, потому что есть люди, которые хотят сохранить свой язык».
Тамара МЕРОВА






