Implementasi Algoritma Suffix Tree Clustering dan Nearesrt Neighbor untuk Mengelompokkan Berita pada Timeline Twitter



Jumadi Jumadi(1*), Edi Winarko(2)

(1) 
(2) 
(*) Corresponding Author

Abstract


Kedinamisan konten tweet berita yang disebarkan oleh organisasi penyedia berita pada Twitter, menimbulkan banyaknya jumlah tweet yang dipublikasikan setiap harinya. Hal ini dapat menambah panjang halaman web mikroblog, sehingga menimbulkan permasalahan klasik yaitu memerlukan proses page scrolling yang lebih lama pada saat proses pembacaan semua teks tweet berita yang ada. Salah satu pemecahan permasalahan yang dapat dilakukan untuk mengurangi panjang halaman web tersebut adalah dengan cara melakukan pengelompokkan teks berita yang ada secara tematik. Sistem pengelompokan yang tepat untuk permasalahan ini adalah sistem pengklasteran. Berdasarkan beberapa penelitian yang ada, salah satu metode yang baik dalam proses pengklasteran dokumen teks adalah Suffix tree Tree Clustering (STC). Metode ini mempunyai tingkat ketepatan yang sangat tinggi karena dalam pembentukan klaster berdasarkan pada phrase-shared di antara dokumen-dokumen teks yang ada.
Tetapi salah satu penelitian yang ada, dalam melakukan proses pengklasteran dengan menggunakan algoritma Suffix Tree Clustering (STC) masih menghasilkan dokumen teks anggota klaster Other Topics dalam jumlah yang banyak dan jika diperhatikan dokumen teks anggota klaster ini juga diketahui masih ada relevansinya dengan dokumen teks anggota pada klaster yang ada. Oleh karena itu, dokumen teks yang berada pada klaster Other Topics ini, perlu dibandingkan dengan semua dokumen teks di klaster yang ada untuk mengetahui tingkat kemiripannya. Dengan demikian, dokumen teks anggota klaster Other Topics ini dapat diklasifikasikan ke dalam salah satu klaster tertentu dengan menggunakan fungsi cosine similarity berdasarkan dari hasil perhitungan dengan menggunakan metode Vector Space Model (VSM) yang mengacu pada frekuensi term dan frekuensi dokumen yang ada. Hasil perhitungan ini, akan digunakan oleh metode Nearest Neighbor dalam proses klasifikasi untuk menentukan klaster tujuan perpindahan bagi dokumen teks anggota klaster Other Topics. Kriteria klaster sebagai tujuan perpindahan adalah klaster dengan jumlah anggota terbanyak yang memiliki kemiripan tertinggi. Proses perpindahan dokumen teks anggota klaster Other Topics ini akan mengakibatkan berkurangnya jumlah angota klaster tersebut. Pada akhirnya, jika klaster Other Topics tidak memiliki anggota maka klaster ini pun dapat dihilangkan.
Kata kunci: Classification, Clustering, Cosine Similarity, Nearest Neighbor, Suffix Tree Clustering.


Full Text:

PDF




Article Metrics

Abstract views : 1658 | views : 3812

Refbacks

  • There are currently no refbacks.




ISSN 0215-9309 (Print)

Jumlah kunjungan : Web
Analytics View my Stat.