出版社:Indonesia Association of Computational Linguistics (INACL)
摘要:Named entity recognition adalah salah satu tool yang berfungsi untuk mengenali entitas bernama suatu kata dan banyak digunakan dalam aplikasi di bidang pemrosesan bahasa alami. Hidden markov model (HMM) adalah salah satu metode yang dapat digunakan untuk mengenali entitas bernama suatu kata. Metode ini terdiri dari tahap pelatihan dan tahap pengujian. Pada tahap pelatihan metode ini membutuhkan sekumpulan data berlabel untuk mendapatkan model pengetahuan berupa nilai probabilitas setiap kata yang ada di dalam data latih. Nilai probabilitas ini berfungsi untuk mengenali kata-kata yang belum diketahui labelnya. Apabila kata yang akan dikenali tidak ada di dalam data latih, maka kata tersebut akan memiliki nilai probabilitas nol (zero probability). Nilai probabilitas nol pada suatu kata menyebabkan kata tersebut tidak bisa diketahui label entitas bernamanya. Karena itu, penelitian ini menggunakan part-of-speech tagging agar tidak ada kata yang memiliki nilai probabilitas nol. Pengujian dilakukan pada teks berbahasa Indonesia dengan jumlah kalimat sebanyak 511 kalimat. Hasil pengujian menunjukkan nilai rata-rata recall sebesar 83.82%, nilai rata-rata precision sebesar 89.31%, dan nilai rata-rata f-measure sebesar 86.14%.