群集分析也是相同的概念
在群集分析中有三種分類的標準,分別是
1. 階層式 (聚集 or 分裂): 想像成是大樹扎根
單一連結法:兩群集最小點的距離
完全連結法:最大點的距離
平均連結法:平均點的距離
中心點連結法:中心點的距離
華德法 (Ward):組內變異數
*平衡是反覆化簡層級分群法 (BIRCH):??...有點複雜
*多代表點分群法 (CURE):選取代表性的點
以上是分類標準,每次分群時以最小值判斷
2. 分割式 (給定群集中心,抓住最靠近的資料點)
K-means法:
step:選取K個初始群集中心 → 分配最近的點到群集裡頭 → 重新計算群集中心 → 不斷試驗直到不再變動
K中心點法:
step:選取K個初始群集中心 → 分配最近的點到集群裡頭 → 選取集群當中其他點當做中心值,計算變異數,若新的變異數比起原本的變異數有下降,該點變成中心點 → 不斷試驗直到不再變動
3. 密度 (適用於群集為不規則形狀)
圓(獵人),你感應的到別人你就是同一群組,每個點的圓都一樣大
4. 模式 (以model為基礎)
BJ4
R 練習示意
單一連結法分群(最近距離) |
計算每個節點變異數在整體的比例 (單一連結) |
(完全連結) |
平均、中心和ward法的就不放了,分群結果跟complete一模一樣
由上兩圖可以看出,若使用single法,需要分6群變異數才會平緩
而complete法只要分3群 (如下圖)
沒有留言:
張貼留言