文章基本信息

标题：Towards a Low-Resource Neural Machine Translation for Indigenous Languagesin Canada
本地全文：下载
作者：Ngoc Tan Le ; Fatiha Sadat
期刊名称：Traitement Automatique des Langues
印刷版ISSN：1248-9433
电子版ISSN：1965-0906
出版年度：2021
卷号：62
期号：3
页码：1-25
语种：French
出版社：ATALA - Assoc Traitement Automatique Langues
摘要：La communauté de recherche sur le traitement des langues naturelles porte un intérêt croissant aux langues peu dotées et à la diversité linguistique grâce à la technologie. La traduction vers et depuis les langues polysynthétiques s’est régulièrement heurtée à de nombreux défis comme la complexité morphologique, les variants dialectiques, les données bruitées, les différentes orthographes, et les scénarios d’entraînement avec peu de données. Par ailleurs, la segmentation morphologique des langues polysynthétiques autochtones est rendue particulièrement difficile en raison de multiple morphèmes par mot et de plusieurs sens par morphème. La présente recherche se concentre sur l’inuktitut et l’inuinnaqtun, langues polysynthétiques autochtones parlées dans le nord du Canada. Nous construisons un segmenteur et un système de traduction automatique neuronale pour langues autochtones du Canada. Notre modèle de traduction automatique a surpassé l’état de l’art dans le contexte de la traduction automatique neuronale inuktitut-anglais.
其他摘要：The Natural Language Processing research community is increasingly interested in less-resourced languages and linguistic diversity through technology. Translation to and from low-resource polysynthetic languages has, in particular, always faced numerous challenges, such as morphological complexity, dialectal variations, noisy data due to different spellings and low-resource scenarios. Moreover, the morphological segmentation for indigenous polysynthetic languages is particularly challenging with multiple individual morphemes by word and several meanings per morpheme. The present research focuses on Inuktitut and Inuinnaqtun, indigenous polysynthetic languages spoken in Northern Canada. We then build a morphological segmenter and a NMT system for these indigenous languages. Our proposed NMT model out-performed the state-of-the-art in the context of low-resource Inuktitut-English Neural Machine Translation.