Proses stemming

4 12 2009

Stemming itu proses pemotongan (pemangkasan) kata untuk mendapatkan bentuk dasar (kata dasar) dari kata tersebut. Buat yang udah pernah dapet di STKI (Sistem Temu Kembali Informasi Information Retreival), tentunya udah ndak asing lagi (tapi sayangnya dulu aku ndak ikut kuliah ini).

Kalo bang wiki si bilangnya gini:

Stemming is the process for reducing inflected (or sometimes derived) words to their stem, base or root form — generally a written word form. The stem need not be identical to the morphological root of the word; it is usually sufficient that related words map to the same stem, even if this stem is not in itself a valid root.

Tu kan, intinya gimana ndapetin stem/root (inti/dasar) dari suatu kata tertulis (berimbuhan?). Jadi misal terdapat kata mempermainkan, maka dari kata tersebut bisa dipilah-pilah menjadi mem + per + main + kan. Secara ilmu bahasa, hal ini mudah dilakukan oleh manusia, karena manusia sudah punya database memori linguistik yang komplit untuk melakukan parsing komponen-komponen penyusun (ejaan : imbuhan dan kata dasar) dari suatu kata. Seperti misalnya, dari kata mengantuk, kita bisa langsung memilah-milah menjadi me(ng) + kantuk (bukan meng + antuk atau me + ngantuk). Namun bagaimana jika kita ingin melakukan automasi proses stemming ini dengan sebuah program? Mampukah program mengenali perubahan morfologi kata ini dengan tepat?

Hal ini bukanlah tidak mungkin. Proses stemming sendiri sudah cukup terkenal, bahkan seringkali kita gunakan tanpa kita sadari. Siapa si yang ndak kenal mbah Google? Proses pencariannya sekarang sudah pake Stemming loh! (pencarian kata fishing juga menghasilkan kata-kata fish, fishy, fisherman dll). Meskipun masih hanya berlaku buat pencarian dengan bahasa inggris. Trus kalo stemming Bahasa Indonesia gimana donk??

Ah, pak Agus Zainal Arifin udah pernah mbahas hal ini sejak taon 2002 lalu. Pada publikasi yang berjudul Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering tersebut, beliau menggunakan stemming untuk mendapatkan kata dasar yang akan digunakan sebagai acuan klasifikasi.

Proses stemming yang diulas adalah sebagai berikut :

  • Pemeriksaan semua kemungkinan bentuk kata. Setiap kata diasumsikan memiliki 2 awalan (prefiks) dan 3 akhiran (sufiks). Sehingga bentuknya menjadi :
    Prefiks 1 + Prefiks 2 + Kata dasar + Sufiks 3 + Sufiks 2 + Sufiks 1
  • Pemotongan dilakukan berurutan : Awalan 1, Awalan 2, Akhiran 1, Akhiran 2, Akhiran 3 (kalau ada), dan Kata Dasar.
  • Setiap tahap pemotongan diikuti dengan pemeriksaan di kamus (berisi daftar kata dasar) apakah hasil pemotongan itu sudah berada dalam bentuk dasar. Jika pemeriksaan berhasil maka proses dinyatakan selesai dan tidak perlu melanjutkan proses pemotongan imbuhan selanjutnya. Read the rest of this entry »




Pengertian Stemming

4 12 2009

Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah kata. Dengan
menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran
(suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan. Stemming digunakan
untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan
struktur morfologi Bahasa Indonesia yang baik dan benar.
Imbuhan (affixes) pada Bahasa Indonesia lebih kompleks bila dibandingkan dengan imbuhan (affixes)
pada Bahasa Inggris. Karena seperti yang telah disebutkan di atas bahwa imbuhan (affixes) pada Bahasa
Indonesia terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes), bentuk perulangan (repeated
forms) dan confixes (kombinasi dari awalan dan akhiran). Imbuhan-imbuhan yang melekat pada suatu
kata harus dihilangkan untuk mengubah bentuk kata tersebut menjadi bentuk kata dasarnya.
Stemming teks berbahasa Indonesia memiliki beberapa masalah yang sangat khusus terhadap bahasa.
Salah satu masalah tersebut adalah perbedaan tipe dari imbuhan-imbuhan (affixes), yang lain adalah
bahwa awalan (prefixes) dapat berubah tergantung dari huruf pertama pada kata dasar. Sebagai contoh
”me-” dapat berubah menjadi ”mem-” ketika huruf pertama dari kata dasar tersebut adalah ”b”, misalnya
”membuat” (to make), tetapi ”me-” juga dapat berubah menjadi ”meny-” ketika huruf pertama dari kata
dasar melekat adalah ”s”, misalnya ”menyapu” (to sweep). Selanjutnya ketika ada lebih dari satu Read the rest of this entry »








Follow

Get every new post delivered to your Inbox.