Stemming itu proses pemotongan (pemangkasan) kata untuk mendapatkan bentuk dasar (kata dasar) dari kata tersebut. Buat yang udah pernah dapet di STKI (Sistem Temu Kembali Informasi Information Retreival), tentunya udah ndak asing lagi (tapi sayangnya dulu aku ndak ikut kuliah ini).
Kalo bang wiki si bilangnya gini:
Stemming is the process for reducing inflected (or sometimes derived) words to their stem, base or root form — generally a written word form. The stem need not be identical to the morphological root of the word; it is usually sufficient that related words map to the same stem, even if this stem is not in itself a valid root.
Tu kan, intinya gimana ndapetin stem/root (inti/dasar) dari suatu kata tertulis (berimbuhan?). Jadi misal terdapat kata mempermainkan, maka dari kata tersebut bisa dipilah-pilah menjadi mem + per + main + kan. Secara ilmu bahasa, hal ini mudah dilakukan oleh manusia, karena manusia sudah punya database memori linguistik yang komplit untuk melakukan parsing komponen-komponen penyusun (ejaan : imbuhan dan kata dasar) dari suatu kata. Seperti misalnya, dari kata mengantuk, kita bisa langsung memilah-milah menjadi me(ng) + kantuk (bukan meng + antuk atau me + ngantuk). Namun bagaimana jika kita ingin melakukan automasi proses stemming ini dengan sebuah program? Mampukah program mengenali perubahan morfologi kata ini dengan tepat?
Hal ini bukanlah tidak mungkin. Proses stemming sendiri sudah cukup terkenal, bahkan seringkali kita gunakan tanpa kita sadari. Siapa si yang ndak kenal mbah Google? Proses pencariannya sekarang sudah pake Stemming loh! (pencarian kata fishing juga menghasilkan kata-kata fish, fishy, fisherman dll). Meskipun masih hanya berlaku buat pencarian dengan bahasa inggris. Trus kalo stemming Bahasa Indonesia gimana donk??
Ah, pak Agus Zainal Arifin udah pernah mbahas hal ini sejak taon 2002 lalu. Pada publikasi yang berjudul Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering tersebut, beliau menggunakan stemming untuk mendapatkan kata dasar yang akan digunakan sebagai acuan klasifikasi.
Proses stemming yang diulas adalah sebagai berikut :
- Pemeriksaan semua kemungkinan bentuk kata. Setiap kata diasumsikan memiliki 2 awalan (prefiks) dan 3 akhiran (sufiks). Sehingga bentuknya menjadi :
Prefiks 1 + Prefiks 2 + Kata dasar + Sufiks 3 + Sufiks 2 + Sufiks 1 - Pemotongan dilakukan berurutan : Awalan 1, Awalan 2, Akhiran 1, Akhiran 2, Akhiran 3 (kalau ada), dan Kata Dasar.
- Setiap tahap pemotongan diikuti dengan pemeriksaan di kamus (berisi daftar kata dasar) apakah hasil pemotongan itu sudah berada dalam bentuk dasar. Jika pemeriksaan berhasil maka proses dinyatakan selesai dan tidak perlu melanjutkan proses pemotongan imbuhan selanjutnya. Read the rest of this entry »



Mengapa saya memilih plugin ini diantara banyak plugin sejenis? Alasannya adalah kesederhanaannya dalam menangkal spam 


_Aegis_large_screen_displays.jpg)
Recent Comments