首页    期刊浏览 2024年12月15日 星期日
登录注册

文章基本信息

  • 标题:Construction d’un corpus parallèle à partir de corpus comparables pour la simplification de textes médicaux en français
  • 本地全文:下载
  • 作者:Rémi Cardon ; Natalia Grabar
  • 期刊名称:Traitement Automatique des Langues
  • 印刷版ISSN:1248-9433
  • 电子版ISSN:1965-0906
  • 出版年度:2020
  • 卷号:61
  • 期号:2
  • 页码:1-25
  • 语种:French
  • 出版社:ATALA - Assoc Traitement Automatique Langues
  • 摘要:La simplification automatique a pour objectif de produire une version de textes plus facile à comprendre à destination d’un public identifié. Nous nous intéressons à la simplification de textes médicaux. Le plus souvent, le lexique et les règles de simplification sont acquis à partir de corpus parallèles. Comme de tels corpus n’existent pas en français, nous proposons des méthodes pour les construire à partir de corpus comparables. Notre méthode repose sur une étape de filtrage, destinée à ne garder que les meilleures phrases candidates à l’alignement, et une étape d’alignement considérée comme un problème de catégorisation. Il s’agit de décider si une paire de phrases est alignable ou non. Nous exploitons différents types de descripteurs (essentiellement basés sur le lexique et les corpus) et obtenons jusqu’à 0,97 de F-mesure avec les données équilibrées.
  • 其他摘要:The purpose of automatic simplification is to create version of texts which is easier to understand for a given targeted population. We aim at simplifying medical texts. Usually, lexicon and rules required for the simplification are acquired from parallel corpora. Since such corpora are not available for French, we propose methods for their creation from comparable corpora. Our method relies on filtering step, which purpose is to keep the best sentence can- didates for alignment, and alignment step considered as categorization problem. The aim is to decide whether a pair of sentences is alignable or not. We exploit different types of features (mainly issued from lexicon and corpora) and get up to 0.97 F-measure with balanced data.
国家哲学社会科学文献中心版权所有