摘要:Setiap proses pembelajaran memerlukan suatu evaluasi berupa tes.Dalam perkembangannya tes dapat dilakukan secara online.Jenis tes antara lain tes benar salah,test pilihan ganda,tes mencocokan,dan tes esai.Sudah banyak penelitian di luar negeri maupun di dalam negeri yang mengembangkan metode-metode sebagai penilai jawaban esai otomatis.Sebagai contoh Eksperimen LSA untuk esai GMAT (Graduation Management Achievement Test) menghasilkan persetujuan dengan manusia sebesar 85%-91% (Valenti,Neri,& Cucchiarelli,2003),Electronic Essay Rater (E-Rater) menghasilkan 87%-94% (Valenti,Neri,& Cucchiarelli,2003),untuk penelitian di dalam negeri hasil uji coba SIMPLE (Ratna,Budiharjo,& Hartanto,2007) menghasilkan 69.80%-94.64% untuk lima mahasiswa dan 77.18%-98.42% untuk sepuluh mahasiswa.Hasil yang didapatkan masih jauh dari yang diharapkan.Hal ini yang mendasari dilakukannya penelitian mengenai pembobotan yang baik dalam penilaian jawaban esai otomatis.Penelitian ini membandingkan Algoritma pembobotan TF/IDF dan BLEU dengan alat bantu Automatic Essay Scoring yang berbasis web untuk membobotkan jawaban siswa terhadap kunci jawaban esai serta meneliti pengaruh perluasan kunci jawaban serta penyisipan huruf pada kata kurang huruf (toleransi) untuk memaksimalkan hasil penilaian.Algoritma TF-IDF merupakan salah satu skema pembobotan istilah/term dalam pencarian dokumen yang terdiri pembobotan lokal Frequency Term (TF),pembobotan global Inverse Document Frequency (IDF),dan normalisasi.Sedangkan Algoritma BLEU merupakan salah satu sistem evaluasi otomatis yang dikenalkan oleh grup riset IBM.Dalam penelitian ini penulis menghitung nilai BLEU sampai 4-gram (4 kata) saja,sedangkan esai yang dinilai dibatasi pada esai yang merupakan jawaban dari pertanyaan pada tes esai (maksimal 250 kata per jawaban),bukan esai karangan yang panjang (lebih dari 250 kata) dan jawaban yang dinikai berupa kalimat bukan berupa jawaban hasil perhitungan (matematika,fisika dan kimia).Uji coba dilakukan dengan 10 soal esai dengan 22 peserta ujian.Secara keseluruhan,rata-rata korelasi TF/IDF-penilaian guru mencapai 0.70 dengan nilai korelasi tertinggi mencapai 0.98,sedangkan rata-rata korelasi BLEU-penilaian gurur mencapai 0.63 dengan nilai korelasi tertinggi mencapai 0.97.secara keseluruhan nilai yang dihasilkan algoritma TF/IDF lebih tinggi dari BLEU.
其他摘要:Every learning process requires an evaluation of a test.In the development of the test can be done online.Types of tests include tests completely false,multiple choice tests,matching tests,and essay tests.There have been many studies abroad and within the country are developing methods as assessor automated essay answers.For example Experimental LSA for GMAT essay (Graduation Management Achievement Test) results in agreement with the human by 85% -91% (Valenti,Neri,& Cucchiarelli,2003),the Electronic Essay Rater (E-Rater) resulted in 87% -94% (Valenti,Neri,& Cucchiarelli,2003),for research on domestic trial results SIMPLE (Ratna,Budiharjo,& Hartanto,2007) resulted in 69.80% -94.64% for the five students and 77.18% -98.42% for ten students.The results obtained are still far from the expected.It is for conducting research on a good weighting in the assessment of automated essay answers.This study compared the weighting algorithm TF / IDF and BLEU with Automatic Essay Scoring tools are web-based to membobotkan answers to the answer key student essay and examines the impact of the expansion of the answer key and the insertion of letters in the word less letters (tolerance) to maximize the results of the assessment.Algorithm TF-IDF weighting scheme is one term / terms in the search for documents consisting of local weighting Term Frequency (TF),Inverse Document Frequency weighting globally (IDF),and normalization.While the algorithm is one of the BLEU automatic evaluation system introduced by IBM research group.In this study the authors calculate the value to 4-gram BLEU (4 words) only,while the assessed essay essay is limited to the answers of the questions on the test essay (maximum of 250 words per answer),not an essay written by a long (more than 250 words ) and answer dinikai not be the answer in the form of sentence calculation results (mathematics,physics and chemistry).The test is done with 10 essays by 22 examinees.Overall,the average correlation of TF / IDF-teacher ratings reached 0.70 with the highest correlation value reaches 0.98,while the average correlation of BLEU-assessment gurur reached 0.63 with the highest correlation value reaches 0.97.overall value of the resulting algorithm TF / IDF higher than BLEU.