Clustering Dokumen

Pada dasamya clustering terhadap data adalah suatu proses untuk mengelompokkan sekumpulan data tanpa suatu atribut kelas yang telah didefinisikan sebelumnya, berdasarkan pada prinsip konseptual clustering yaitu memaksimalkan dan juga meminimalkan kemiripan intra kelas. Misalnya, sekumpulan obyek-obyek komoditi pertama-tama dapat di clustering menjadi sebuah himpunan kelas-kelas dan lalu menjadi sebuah himpunan aturan-aturan yang dapat diturunkan berdasarkan suatu klasifikasi tertentu.

Proses untuk mengelompokkan secara fisik atau abstrak obyek-obyek ke dalam bentuk kelas-kelas atau obyek-obyek yang serupa, disebut dengan clustering atau unsupervised classification. Melakukan analisa dengan clustering, akan sangat membantu untuk membentuk partisi-partisi yang berguna terhadap sejumlah besar himpunan obyek dengan didasarkan pada prinsip divide and conquer yang mendekomposisikan suatu sistem skala besar, menjadi komponen-komponen yang lebih kecil, untuk menyederhanakan proses desain dan implementasi.

Pada dasarnya terdapat dua tipe klastering:

  • Partitional Clustering: Tipe cluster yang benar-benar terpisah antara sekelompok obyek dengan sekelompok obyek lainnya.
  • Hierarchical clustering : Sekelompok clustr yang terorganisasi sebagai suatu pohon hirarki (hierarchical tree).

Dalam perkembangannya, terdapat berbagai tipe klaster, yaitu:

  • Well-Separated Clusters

Cluster adalah sekelompok point dimana tiap point dalam cluster memiliki kesamaan yang lebih (more similar) dengan setiap point yang tidak berada dalam cluster tersebut. Dapat dikatakan bahwa setiap point yang berada dalam satu cluster akan memiliki jarak yang lebih dekat dibandingkan point-point pada cluster lain.

  • Center-based

Cluster adalah sekumpulan obyek dimana tiap obyek pada cluster memiliki kemiripan yang lebih dengan pusat (centre) dari cluster tersebut daripada dengan pusat (centre) cluster lainnya. Pusat (centre) dari cluster disebut dengan centroid, rata-rata dari tiap point pada cluster.

  • Contiguous Cluster (Nearest Neighbor or Transitive)

Cluster adalah sekumpulan poin dimana tiap point dalam cluster memiliki kesamaan yang lebih (more similar) dengan satu point atau lebih lainnya didalam cluster daripada tiap point yang tidak berada dalam cluster tersebut.

  • Density-based

Cluster adalah suatu area populasi point yang memisahkan antara tingkat populasi point rendah dengan tingkat populasi point yang tinggi.

About these ads

~ oleh Thomas pada Maret 25, 2010.

Satu Tanggapan to “Clustering Dokumen”

  1. manthap jaya…semoga makin lengkap dan detail nantinya :)

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Logout / Ubah )

Twitter picture

You are commenting using your Twitter account. Logout / Ubah )

Facebook photo

You are commenting using your Facebook account. Logout / Ubah )

Google+ photo

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

 
Ikuti

Get every new post delivered to your Inbox.

Bergabunglah dengan 46 pengikut lainnya.

%d bloggers like this: