出版社:Eesti Rakenduslingvistika Ühing (Estonian Association for Applied Linguistics)
摘要:Multiword expressions are known to pose problems for natural languge analysis.By multiword expressions we mean combinations of two or more word(form)s that are habitually used together to express a certain meaning;the term covers both idiomatic and collocational word combinations.This article concentrates on three main tasks in multiword expression processing: extraction,lexicon compilation and annotation.The standard methods for solving these tasks are analysed from the viewpoint of automatic analysis of Estonian,a language with a rich and complicated morphological structure and a free word (or constituent) order.
其他摘要:Artikkel räägib püsiühendite automaattöötlusest arvutilingvistikas.Püsiühendi all mõeldakse siin kahe või enama sõna(vormi) ühendit,mida mingi tähenduse väljendamiseks on tavaks koos kasutada;selle de nitsiooni alla mahuvad nii idiomaatilised kui ka kollokatiivsed ühendid.Arvutilingvistikas on püsiühendid probleemiks,sest nad komplitseerivad teksti alt-üles analüüsimudelit,mille järgi lause struktuuri ja tähenduse ehituskiviks on üksiksõna.Artikkel annab ülevaate püsiühendite automaattöötluse kolmest etapist – püsiühendite tuvastamisest,nende leksikoni koostamisest ja püsiühendite märgendamisest tekstis.Nende ülesannete lahendamiseks on arvutilingvistikas välja töötatud tüüpilised meetodid,kuid need meetodid on eesti keele kui vaba sõnajärjega morfoloogiliselt keeruka keele analüüsil rakendatavad ainult teatud reservatsioonide ja modi katsioonidega.Artiklis analüüsitaksegi eesti keele “erivajadusi” selles vallas.
关键词:computational linguistics;multiword expressions;multiword expression extraction;lexicon of multi-word expressions;multi-word expression annotation;Estonian
其他关键词:arvutilingvistika;püsiühendid;püsiühendite tuvastamine;püsiühendite leksikon;püsiühendite märgendamine;eesti keel