首页    期刊浏览 2024年12月02日 星期一
登录注册

文章基本信息

  • 标题:Towards a Low-Resource Neural Machine Translation for Indigenous Languagesin Canada
  • 本地全文:下载
  • 作者:Ngoc Tan Le ; Fatiha Sadat
  • 期刊名称:Traitement Automatique des Langues
  • 印刷版ISSN:1248-9433
  • 电子版ISSN:1965-0906
  • 出版年度:2021
  • 卷号:62
  • 期号:3
  • 页码:1-25
  • 语种:French
  • 出版社:ATALA - Assoc Traitement Automatique Langues
  • 摘要:La communauté de recherche sur le traitement des langues naturelles porte un intérêt croissant aux langues peu dotées et à la diversité linguistique grâce à la technologie. La traduction vers et depuis les langues polysynthétiques s’est régulièrement heurtée à de nombreux défis comme la complexité morphologique, les variants dialectiques, les données bruitées, les différentes orthographes, et les scénarios d’entraînement avec peu de données. Par ailleurs, la segmentation morphologique des langues polysynthétiques autochtones est rendue particulièrement difficile en raison de multiple morphèmes par mot et de plusieurs sens par morphème. La présente recherche se concentre sur l’inuktitut et l’inuinnaqtun, langues polysynthétiques autochtones parlées dans le nord du Canada. Nous construisons un segmenteur et un système de traduction automatique neuronale pour langues autochtones du Canada. Notre modèle de traduction automatique a surpassé l’état de l’art dans le contexte de la traduction automatique neuronale inuktitut-anglais.
  • 其他摘要:The Natural Language Processing research community is increasingly interested in less-resourced languages and linguistic diversity through technology. Translation to and from low-resource polysynthetic languages has, in particular, always faced numerous challenges, such as morphological complexity, dialectal variations, noisy data due to different spellings and low-resource scenarios. Moreover, the morphological segmentation for indigenous polysynthetic languages is particularly challenging with multiple individual morphemes by word and several meanings per morpheme. The present research focuses on Inuktitut and Inuinnaqtun, indigenous polysynthetic languages spoken in Northern Canada. We then build a morphological segmenter and a NMT system for these indigenous languages. Our proposed NMT model out-performed the state-of-the-art in the context of low-resource Inuktitut-English Neural Machine Translation.
国家哲学社会科学文献中心版权所有