文章基本信息

标题：Construction d’un corpus parallèle à partir de corpus comparables pour la simplification de textes médicaux en français
本地全文：下载
作者：Rémi Cardon ; Natalia Grabar
期刊名称：Traitement Automatique des Langues
印刷版ISSN：1248-9433
电子版ISSN：1965-0906
出版年度：2020
卷号：61
期号：2
页码：1-25
语种：French
出版社：ATALA - Assoc Traitement Automatique Langues
摘要：La simplification automatique a pour objectif de produire une version de textes plus facile à comprendre à destination d’un public identifié. Nous nous intéressons à la simplification de textes médicaux. Le plus souvent, le lexique et les règles de simplification sont acquis à partir de corpus parallèles. Comme de tels corpus n’existent pas en français, nous proposons des méthodes pour les construire à partir de corpus comparables. Notre méthode repose sur une étape de filtrage, destinée à ne garder que les meilleures phrases candidates à l’alignement, et une étape d’alignement considérée comme un problème de catégorisation. Il s’agit de décider si une paire de phrases est alignable ou non. Nous exploitons différents types de descripteurs (essentiellement basés sur le lexique et les corpus) et obtenons jusqu’à 0,97 de F-mesure avec les données équilibrées.
其他摘要：The purpose of automatic simplification is to create version of texts which is easier to understand for a given targeted population. We aim at simplifying medical texts. Usually, lexicon and rules required for the simplification are acquired from parallel corpora. Since such corpora are not available for French, we propose methods for their creation from comparable corpora. Our method relies on filtering step, which purpose is to keep the best sentence can- didates for alignment, and alignment step considered as categorization problem. The aim is to decide whether a pair of sentences is alignable or not. We exploit different types of features (mainly issued from lexicon and corpora) and get up to 0.97 F-measure with balanced data.