數據科學與機器學習

如何定義 Clustering 的數目與類別（二）：用數據方法找出合理分群數目

2026-05-22

Clustering 是一種 Unsupervised Learning 方法，用於在沒有預先標籤的資料中，自動找出相似資料之間的自然分群。它會根據資料點之間的相似度或距離，把相近的資料歸為同一組，例如客戶分群、用戶行為分析或內容分類。教材中也提到，clustering 是根據 similarity 自動發現 data 的 natural groupings。

在定義 clustering 的數目時，不能只靠直覺決定。通常需要結合業務目標與數據方法，例如先明確分析目的，再使用 Elbow Method、Silhouette Score 等方法找出較合理的 K 值。

對 K-means 來說，K 代表希望分成多少個 cluster，而演算法會根據距離把資料點分配到最近的 centroid。

先明確分析目的可參考如何定義 Clustering 的數目與類別（一）：用 Business Logic 建立分群假設

方法一：Elbow Method

Elbow Method（手肘法） 是用來幫助我們決定 K-means 應該分成幾多群，即 K 值 的判斷方法。

因為 K-means 要先指定 K，但K-means 的缺點之一是 不容易識別正確的 K 值；所以 Elbow Method 就是一個常用的輔助方法。Elbow Method 主要用來觀察不同 K 值下的 群內誤差 是否明顯下降。當 K 增加時，cluster 內的資料會變得更集中，誤差通常會下降。但當下降幅度開始變慢時，那個轉折點就像手肘一樣，稱為 elbow point。

例如：剛才我了解業務後得出4–5 個候選群組測試，所以可以是K = 2 至 K = 6：

Elbow Method 看什麼？

K 值	分群解讀
K = 2	分得太粗，只能看出高活躍與低活躍
K = 3	開始看出主要行為差異
K = 4	分群變得較清晰
K = 5	可對應到較完整的業務類型
K = 6	可能開始過度細分，業務解釋成本增加

如果 K=5 之後誤差下降幅度不大，就可以把 K=5 視為候選分群數目。

Elbow Method的分數怎樣解讀？

Elbow Method 的想法是：

當 K 增加時，分群誤差會下降；但下降到某一點後，再增加 K，改善幅度會變得很小。這個轉折點就像手肘，所以叫 Elbow。

簡單講：

找出「再增加 cluster 也沒有太大幫助」的位置。

例如：

K	Inertia / Error
1	1000
2	650
3	420
4	280
5	250
6	240

你會發現由 K=1 到 K=4，error 下降很多；但 K=5、K=6 之後改善很少。

這代表：

K=4 可能是合理候選，因為再增加 cluster，幫助不大。

方法二：Silhouette Score

Silhouette Score 是另一個用來判斷 K-means 應該選幾多個 clusters 的方法。

如果說 Elbow Method 是看「再增加 K，error 是否仍然明顯下降」，
那麼 Silhouette Score 就是看：

分出來的群組是否夠清楚、夠分開。

Silhouette Score 會檢查：

同一 cluster 內的用戶是否相似
不同 cluster 之間是否分得夠開

Silhouette Score 看什麼？

它主要看兩件事：

檢查項目	意思
同一群內是否相似	Cluster 內的用戶是否行為接近
不同群之間是否分開	不同 cluster 是否有明顯差異

簡單講：

好的 clustering 應該是：同一群內很相似，不同群之間很不同。

Silhouette Score 的分數怎樣解讀？

Silhouette Score 通常介乎 -1 到 1。

Score	解讀
接近 1	分群很好，群內相似、群與群分得開
接近 0	群組邊界模糊，有些用戶不知應屬哪一群
小於 0	可能分錯群，用戶可能更接近另一個 cluster

例如：

K	Silhouette Score
2	0.42
3	0.51
4	0.58
5	0.55
6	0.48

這個例子中，K = 4 的分數最高，所以 K=4 是一個合理候選。

在實務上，K 值不應只靠單一方法決定。Elbow Method 可以先用來收窄合理的 K 值範圍，找出增加 cluster 後改善幅度開始變小的位置；然後再透過 Silhouette Score 比較不同 K 值的分群清晰度，確認哪一個 clustering result 最能做到「群內相似、群間分明」。

合理數與業務群的最後考慮

最後，配合 UX / Business 判斷，確保每一個 cluster 都能被命名、理解，並轉化成具體產品策略。

如果數據方法顯示 K=4 較合理，但 business logic 初步分出 5 類，代表原本 5 個業務假設中，可能有兩類在真實數據上行為太相似，需要合併；或者 K=5 雖然數學分數稍低，但仍然有業務價值，可以保留作策略分群。

情況一：K=4 是數據上最合理

假設 Elbow Method 在 K=4 出現明顯轉折，而 Silhouette Score 也是 K=4 最高，代表資料自然分成 4 群比較清晰。

原本 business logic 分出 5 類：

Business Logic 5 類	可能的數據結果
高活躍忠實用戶	獨立成一群
中活躍潛力用戶	可能與內容瀏覽用戶重疊
優惠導向用戶	獨立成一群
內容瀏覽用戶	可能與中活躍潛力用戶重疊
低活躍 / 流失風險用戶	獨立成一群

這時可合併成 4 類：

最終 K=4 類別	解釋
高活躍忠實用戶	高 session、高 PV、高互動
中活躍內容潛力用戶	有定期使用，主要看內容，但互動仍可提升
優惠導向用戶	Jetso / Reward click 明顯較高
低活躍 / 流失風險用戶	session 低、last visit days 高

即是把原本的：

中活躍潛力用戶 + 內容瀏覽用戶

合併成：

中活躍內容潛力用戶

因為在數據上，他們可能同樣都是「有使用，但未形成深度互動」的群組。

情況二：Business 仍想保留 5 類

如果 K=5 的 Silhouette Score 只比 K=4 稍低，例如：

K	Silhouette Score	Business 解釋
4	0.56	數據最清晰
5	0.53	分群仍可接受，而且更能對應營運策略
6	0.45	開始過度細分

這時可以選擇 K=5，但要有理由：

雖然 K=4 在數學指標上略佳，但 K=5 能更清楚區分「中活躍潛力用戶」與「內容瀏覽用戶」，而這兩類用戶對應的產品策略不同，因此 K=5 在業務行動上更有價值。

例如：

K=5 類別	策略差異
中活躍潛力用戶	用任務、簽到、個人化推薦提升使用頻率
內容瀏覽用戶	用 related content、AI Search、收藏、topic follow 提升內容探索

如果兩類對應的 action 不同，保留 K=5 是合理的。

決定原則

可以用三個問題決定：

判斷問題	如果答案是 Yes
K=5 的分群清晰度是否仍可接受？	可以考慮 K=5
第 5 類是否有足夠用戶量？	可以保留
第 5 類是否有不同產品 / marketing 策略？	可以保留

如果第 5 類只是數據上很細、用戶量很少、策略又和其他群相似，就應該回到 K=4。

結論

如果 Elbow Method 和 Silhouette Score 顯示 K=4 是較合理的分群數目，但 business logic 初步定義了 5 類用戶，這代表原本的業務分類需要再被數據驗證。實際做法不是強行保留 5 類，而是比較 K=4 和 K=5 的分群結果。如果 K=4 的分群更清晰，且其中兩類用戶在行為上高度相似，便應將它們合併；例如將「中活躍潛力用戶」與「內容瀏覽用戶」合併為「中活躍內容潛力用戶」。相反，如果 K=5 雖然數學分數略低，但每一群都有足夠用戶量、能被清楚命名，並能對應不同產品或營運策略，則 K=5 仍然可以被視為合理選擇。最終的 K 值應在數據清晰度與業務可行動性之間取得平衡。

Clustering 如何幫助 UX / Product 設計：從用戶分群到產品策略

如何定義 Clustering 的數目與類別（一）：用數據方法找出合理分群數目。