數據科學與機器學習

如何定義 Clustering 的數目與類別(二):用數據方法找出合理分群數目

2026-05-22

如何定義 Clustering 的數目與類別(二):用數據方法找出合理分群數目
Clustering 是一種 Unsupervised Learning 方法,用於在沒有預先標籤的資料中,自動找出相似資料之間的自然分群。它會根據資料點之間的相似度或距離,把相近的資料歸為同一組,例如客戶分群、用戶行為分析或內容分類。教材中也提到,clustering 是根據 similarity 自動發現 data 的 natural groupings。

在定義 clustering 的數目時,不能只靠直覺決定。通常需要結合業務目標與數據方法,例如先明確分析目的,再使用 Elbow Method、Silhouette Score 等方法找出較合理的 K 值。

對 K-means 來說,K 代表希望分成多少個 cluster,而演算法會根據距離把資料點分配到最近的 centroid。

先明確分析目的可參考 如何定義 Clustering 的數目與類別(一):用 Business Logic 建立分群假設

方法一:Elbow Method

Elbow Method(手肘法) 是用來幫助我們決定 K-means 應該分成幾多群,即 K 值 的判斷方法。

因為 K-means 要先指定 K,但K-means 的缺點之一是 不容易識別正確的 K 值;所以 Elbow Method 就是一個常用的輔助方法。Elbow Method 主要用來觀察不同 K 值下的 群內誤差 是否明顯下降。當 K 增加時,cluster 內的資料會變得更集中,誤差通常會下降。但當下降幅度開始變慢時,那個轉折點就像手肘一樣,稱為 elbow point

例如:剛才我了解業務後得出4–5 個候選群組測試 ,所以可以是K = 2 至 K = 6:

Elbow Method 看什麼?

K 值分群解讀
K = 2分得太粗,只能看出高活躍與低活躍
K = 3開始看出主要行為差異
K = 4分群變得較清晰
K = 5可對應到較完整的業務類型
K = 6 可能開始過度細分,業務解釋成本增加

如果 K=5 之後誤差下降幅度不大,就可以把 K=5 視為候選分群數目。

Elbow Method的分數怎樣解讀?

Elbow Method 的想法是:

當 K 增加時,分群誤差會下降;但下降到某一點後,再增加 K,改善幅度會變得很小。這個轉折點就像手肘,所以叫 Elbow。

簡單講:

找出「再增加 cluster 也沒有太大幫助」的位置。

例如:

KInertia / Error
11000
2650
3420
4280
5250
6240

你會發現由 K=1 到 K=4,error 下降很多;但 K=5、K=6 之後改善很少。

elbow_method_k_inertia.png

這代表:

K=4 可能是合理候選,因為再增加 cluster,幫助不大。


方法二:Silhouette Score

Silhouette Score 是另一個用來判斷 K-means 應該選幾多個 clusters 的方法。

如果說 Elbow Method 是看「再增加 K,error 是否仍然明顯下降」,  
那麼 Silhouette Score 就是看:

分出來的群組是否夠清楚、夠分開。

Silhouette Score 會檢查:

  1. 同一 cluster 內的用戶是否相似
  2. 不同 cluster 之間是否分得夠開

Silhouette Score 看什麼?

它主要看兩件事:

檢查項目意思
同一群內是否相似Cluster 內的用戶是否行為接近
不同群之間是否分開不同 cluster 是否有明顯差異

簡單講:

好的 clustering 應該是:同一群內很相似,不同群之間很不同。

Silhouette Score 的分數怎樣解讀?

Silhouette Score 通常介乎 -1 到 1

Score解讀
接近 1分群很好,群內相似、群與群分得開
接近 0群組邊界模糊,有些用戶不知應屬哪一群
小於 0可能分錯群,用戶可能更接近另一個 cluster

例如:

KSilhouette Score
20.42
30.51
40.58
50.55
60.48
output.png

這個例子中,K = 4 的分數最高,所以 K=4 是一個合理候選。

在實務上,K 值不應只靠單一方法決定。Elbow Method 可以先用來收窄合理的 K 值範圍,找出增加 cluster 後改善幅度開始變小的位置;然後再透過 Silhouette Score 比較不同 K 值的分群清晰度,確認哪一個 clustering result 最能做到「群內相似、群間分明」。


合理數與業務群的最後考慮

最後,配合 UX / Business 判斷,確保每一個 cluster 都能被命名、理解,並轉化成具體產品策略。

如果數據方法顯示 K=4 較合理,但 business logic 初步分出 5 類,代表原本 5 個業務假設中,可能有兩類在真實數據上行為太相似,需要合併;或者 K=5 雖然數學分數稍低,但仍然有業務價值,可以保留作策略分群。

情況一:K=4 是數據上最合理

假設 Elbow Method 在 K=4 出現明顯轉折,而 Silhouette Score 也是 K=4 最高,代表資料自然分成 4 群比較清晰。

原本 business logic 分出 5 類:

Business Logic 5 類可能的數據結果
高活躍忠實用戶獨立成一群
中活躍潛力用戶可能與內容瀏覽用戶重疊
優惠導向用戶獨立成一群
內容瀏覽用戶可能與中活躍潛力用戶重疊
低活躍 / 流失風險用戶獨立成一群

這時可合併成 4 類:

最終 K=4 類別解釋
高活躍忠實用戶高 session、高 PV、高互動
中活躍內容潛力用戶有定期使用,主要看內容,但互動仍可提升
優惠導向用戶Jetso / Reward click 明顯較高
低活躍 / 流失風險用戶session 低、last visit days 高

即是把原本的:

中活躍潛力用戶 + 內容瀏覽用戶

合併成:

中活躍內容潛力用戶

因為在數據上,他們可能同樣都是「有使用,但未形成深度互動」的群組。


情況二:Business 仍想保留 5 類

如果 K=5 的 Silhouette Score 只比 K=4 稍低,例如:

KSilhouette ScoreBusiness 解釋
40.56數據最清晰
50.53分群仍可接受,而且更能對應營運策略
60.45開始過度細分

這時可以選擇 K=5,但要有理由:

雖然 K=4 在數學指標上略佳,但 K=5 能更清楚區分「中活躍潛力用戶」與「內容瀏覽用戶」,而這兩類用戶對應的產品策略不同,因此 K=5 在業務行動上更有價值。

例如:

K=5 類別策略差異
中活躍潛力用戶用任務、簽到、個人化推薦提升使用頻率
內容瀏覽用戶用 related content、AI Search、收藏、topic follow 提升內容探索

如果兩類對應的 action 不同,保留 K=5 是合理的。


決定原則

可以用三個問題決定:

判斷問題如果答案是 Yes
K=5 的分群清晰度是否仍可接受?可以考慮 K=5
第 5 類是否有足夠用戶量?可以保留
第 5 類是否有不同產品 / marketing 策略?可以保留

如果第 5 類只是數據上很細、用戶量很少、策略又和其他群相似,就應該回到 K=4。

結論

如果 Elbow Method 和 Silhouette Score 顯示 K=4 是較合理的分群數目,但 business logic 初步定義了 5 類用戶,這代表原本的業務分類需要再被數據驗證。實際做法不是強行保留 5 類,而是比較 K=4 和 K=5 的分群結果。如果 K=4 的分群更清晰,且其中兩類用戶在行為上高度相似,便應將它們合併;例如將「中活躍潛力用戶」與「內容瀏覽用戶」合併為「中活躍內容潛力用戶」。相反,如果 K=5 雖然數學分數略低,但每一群都有足夠用戶量、能被清楚命名,並能對應不同產品或營運策略,則 K=5 仍然可以被視為合理選擇。最終的 K 值應在數據清晰度與業務可行動性之間取得平衡。


相關文章

Clustering 如何幫助 UX / Product 設計:從用戶分群到產品策略

如何定義 Clustering 的數目與類別(一):用數據方法找出合理分群數目