摘要:Dans « Distributional structure », Harris (1954) formule l’hypothèse distributionnelle, selon laquelle la proximité sémantique de deux mots se traduit par une similarité au niveau de leurs contextes d’apparition respectifs (leurs distributions). Ce principe de base a été automatisé dès le début des années 1990, en particulier par Hindle (1990), Hearst (1992), Ruge (1992) ou Grefenstette (1994). Il a été dans un premier temps implémenté dans des systèmes orientés vers la création de thesaurus à partir de textes spécialisés, puisque c’est précisément pour traiter des données de ce type qu’a été formulée l’hypothèse distributionnelle : les restrictions sélectionnelles particulièrement fortes qui régissent la distribution des mots dans ces textes en font un matériau propice à la délimitation de classes distributionnelles. On peut ainsi citer les travaux de Grefenstette (1992) portant sur des textes issus du domaine médical, ou, parmi les études réalisées à partir de textes en français sur le même domaine, les travaux de Nazarenko et al. (1997) et Bouaud et al. (2000).