Abstrak | Bahasa Bali memiliki tingkatan penggunaanya yaitu Bali Alus, Bali Madya dan Bali Kasar yang lebih kenal dengan sor-singgih Bahasa Bali. Text mining menggunakan dokumen Bahasa Bali merupakan suatu tantangan karena menggingat Bahasa Bali memiliki tingkatan Bahasa / sor-singgih bahasa. Satu dokumen bahasa Bali bisa mengandung satu atau lebih tingkatan bahasa / sor-singgih. Sor-singih Bahasa Bali menyebabkan masalah pada hasil stemming, karena setiap level Bahasa memiliki kata dasar sendiri – sendiri tetapi memiliki sematik yang sama, sehingga dimensi kata akan menjadi sangat banyak. Selain itu, proses pengelompokan (classtering) dokumen sangaat dipengaruhi oleh tingkatan Bahasa yang digunakan pada setiap dokumen tersebut. Pada penelitian ini, akan dikembang algoritma stemming khusus untuk Bahasa bali untuk menanggani sor-singgih pada dukumen Bahasa bali dan akan melakukan proses pengelompokkan document sor-singgih bahasa Bali dengan teknik text mining. Pada proses stemming algoritma yang akan digunakan yaitu algoritma Porter Stemmer for Bahasa Indonesia yang dikembangkan oleh Fadillah Z. Tala pada tahun 2003 yang disesuaikan kembali untuk stemming bahasa Bali dan juga akan disediakan list of word untuk mencari padanan kata dari satu tingkatan Bahasa dengan tingkatan Bahasa yang lainnya. Hasil dari stemming berupa bag-of-word yang kemudian akan dilakukan pengelompokkan (clustering) menggunakan algoritma k-mean clustering dan Vector space model. |