出版社:Indonesia Association of Computational Linguistics (INACL)
摘要:Abstrak— Natural Language Processing (NLP) adalah bidang dalam ilmu computer yang mencoba menjembatani mesin dan manusia melalui analisa bahasa manusia, misalnya dalam bentuk teks. Data berupa teks sebelum digunakan dalam pelatihan mesin perlu dirubah terlebih dahulu menjadi vektor (trasnformasi) bermakna sehingga dapat dihitung secara matematis. Pemilihan teknik transformasi atau dikenal juga dengan Vector Space Model (VSM) menjadi penting karena dapat berpengaruh terhadap proses pelatihan mesin. Telah dilakukan uji transformasi teks ke vektor menggunakan model Word2Vec pada dataset RPP dan didapatkan bahwa variasi Bag of Centroids Based Word2Vec adalah pilihan Teknik terbaik untuk melakukan transformasi teks dataset RPP berdasarkan analisa matriks hasil perhitungan cosine similarity.