2016年3月26日 星期六

[心得] 群集分析

小說哈利波特中有頂魔法帽,戴上它後可以決定新生要編入哪個學院



群集分析也是相同的概念

在群集分析中有三種分類的標準,分別是

1. 階層式 (聚集 or 分裂): 想像成是大樹扎根

單一連結法:兩群集最小點的距離



完全連結法:最大點的距離



平均連結法:平均點的距離

中心點連結法:中心點的距離

華德法 (Ward):組內變異數

*平衡是反覆化簡層級分群法 (BIRCH):??...有點複雜

*多代表點分群法 (CURE):選取代表性的點

以上是分類標準,每次分群時以最小值判斷

2. 分割式 (給定群集中心,抓住最靠近的資料點)

K-means法:

step:選取K個初始群集中心 → 分配最近的點到群集裡頭 → 重新計算群集中心 → 不斷試驗直到不再變動

K中心點法:

step:選取K個初始群集中心 → 分配最近的點到集群裡頭 → 選取集群當中其他點當做中心值,計算變異數,若新的變異數比起原本的變異數有下降,該點變成中心點 → 不斷試驗直到不再變動

3. 密度 (適用於群集為不規則形狀)

圓(獵人),你感應的到別人你就是同一群組,每個點的圓都一樣大



4. 模式 (以model為基礎)

BJ4




R 練習示意

單一連結法分群(最近距離)

計算每個節點變異數在整體的比例 (單一連結)

(完全連結)

平均、中心和ward法的就不放了,分群結果跟complete一模一樣

由上兩圖可以看出,若使用single法,需要分6群變異數才會平緩

而complete法只要分3群 (如下圖)



以下是K-means方法分群的平方和陡坡圖
可以看到,分成3群就差不多足夠了




沒有留言: