文章基本信息

标题：Analyse distributionnelle appliquée aux textes de spécialité - Réduction de la dispersion des données par abstraction des contextes
本地全文：下载
作者：Amandine Périnet ; Thierry Hamon
期刊名称：Traitement Automatique des Langues
印刷版ISSN：1248-9433
电子版ISSN：1965-0906
出版年度：2015
卷号：56
期号：2
页码：1-26
语种：French
出版社：ATALA - Assoc Traitement Automatique Langues
摘要：Les modèles vectoriels utilisés pour l’analyse distributionnelle souffrent de la dispersion des données dans la matrice des contextes et du nombre important de dimensions de cette matrice. Ces limitations rendent difficile leur application aux corpus de spécialité, et les termes ne sont habituellement pas pris en compte alors qu’ils sont essentiels. Dans cet article, nous proposons une adaptation de l’analyse distributionnelle afin de pouvoir l’utiliser efficacement sur des textes de spécialité. L’approche proposée réalise une abstraction des contextes distributionnels pour réduire la dispersion des données et ainsi améliorer la qualité des regroupements tout en y incluant les termes. Nous avons évalué notre approche sur deux corpus médicaux. L’analyse des résultats montre que tout en permettant la prise en compte des termes dans l’analyse distributionnelle, l’abstraction des contextes, notamment grâce à l’inclusion lexicale, permet d’obtenir des regroupements sémantiques de meilleure qualité et plus homogènes.