Abstrak | Ekstraksi informasi pada email box perusahaan sangat berguna untuk pendukung keputusan perusahaan dalam mengetahui informasi dari client, parter dan steacholder. Tapi, proses ini membutuhkan proses pre-prosesing karena jenis data email berbentuk semi structured dengan konten berbentuk unstructured. Email termasuk semi structured karena data pengirim, subjek dan konten di pisahkan, layaknya tabel pada relasional. Umumnya Subjek pada email menjelaskan topik dari konten. Jadi, untuk melakukan ekstrasi informasi pada email dapat dilakukan hanya pada subjek, tapi, subjek tidak banyak mengandung informasi jika dibandingkan dengan konten email. Berdasarkan permasalahan tersebut Maka, dalam penelitian ini akan melakukan perbandingan akurasi dan performance dari proses preprocessing pada teks subjek email dengan teks konten email pada dokumen email Bahasa Indonesia. Proses stemming akan menggunakan stemmer untuk Bahasa Indonesia dengan algoritma Nazief & Andriani. Kamus kata dasar Bahasa Indonesia dan stopword list yang digunakan bersumber dari hasil penelitian oleh Nazief & Andriani. Hasil dari penelitian akan berguna untuk menentukan model yang dapat digunakan untuk proses preprocessing dokumen email box dalam Bahasa Indonesia. |