Data clustering adalah proses membagi elemen data ke dalam kelas atau kelompok, sehingga item dalam kelas yang sama adalah sebagai mirip mungkin, dan item dalam kelas yang berbeda adalah sebagai berbeda mungkin. . Tergantung pada sifat data dan tujuan yang clustering yang digunakan, ukuran yang berbeda kesamaan dapat digunakan untuk menempatkan barang-barang ke dalam kelas, dimana ukuran kesamaan mengontrol bagaimana cluster terbentuk.
Beberapa contoh tindakan yang dapat digunakan sebagai dalam clustering termasuk jarak, konektivitas, dan intensitas. Dalam clustering keras , data dibagi ke dalam kelompok yang berbeda, di mana setiap elemen data milik tepat satu cluster. Dalam clustering fuzzy (juga disebut sebagai pengelompokan lunak), elemen data dapat menjadi milik lebih dari satu cluster, dan terkait dengan setiap elemen adalah satu set tingkat keanggotaan. Ini menunjukkan kekuatan hubungan antara elemen data dan cluster tertentu.
Fuzzy clustering adalah proses untuk menempatkan tingkat keanggotaan, dan kemudian menggunakan mereka untuk menetapkan elemen data ke satu atau lebih cluster.
Salah satu algoritma yang paling banyak digunakan fuzzy clustering adalah Fuzzy C-Means (FCM) Algoritma (Bezdek 1981). Algoritma FCM mencoba untuk partisi sebuah koleksi terbatas n unsur X = {x 1 ,..., x n} menjadi koleksi cluster fuzzy c sehubungan dengan beberapa kriteria yang diberikan. Diketahui sebuah himpunan berhingga data, algoritma mengembalikan daftar dari c pusat cluster C = {c 1 ,..., c c} dan matriks partisi
,
Di mana setiap elemen ij u memberitahu sejauh mana elemen x i milik cluster c j. Seperti algoritma k-berarti, FCM ini bertujuan untuk meminimalkan fungsi tujuan. Fungsi standar:
Yang berbeda dari k-berarti fungsi objektif dengan penambahan keanggotaan nilai u ij dan m. fuzzifier. M fuzzifier menentukan tingkat ketidakjelasan cluster. Sebuah hasil m besar di kecil keanggotaan u ij dan karenanya, cluster fuzzier. Dalam batas m = 1, keanggotaan u ij konvergen ke 0 atau 1, yang menyiratkan partisi renyah.
Dengan tidak adanya eksperimen atau pengetahuan domain, m adalah umumnya diatur ke 2. Algoritma FCM dasar, diberikan n titik data (x1,..., Xn) untuk dikelompokkan, sejumlah cluster c dengan (c1,..., Cc) pusat cluster, dan m tingkat ketidakjelasan dengan cluster
Tidak ada komentar:
Posting Komentar