如何定義 Clustering 的數目與類別(一):用 Business Logic 建立分群假設
2026-05-21
business logic 定義只適合作為 clustering 的第一步。因為這些分類只是根據經驗和業務理解提出的假設,未必代表資料本身真的會自然形成相同群組。Clustering 本身屬於 unsupervised learning,目的是在未標籤資料中根據相似度自動找出自然分群;教材亦指出 clustering 是根據 similarity 自動發現 data 的 natural groupings。
簡單來說:
Business logic 定義是一個直觀的起點,用來幫助我們建立分群假設;但最終的 cluster 數目與類別,仍需要透過數據驗證,確保分群既合理、可解釋,也能轉化為具體的產品或營運行動。
如何決定 Clustering 的數目
Clustering 的數目不應該只是簡單地說:「我想分成 6 群。」
相反,我們應該先問:
分出來的群組能不能幫助我做決策?
所以:
- 如果 K=6,但只有 3 群能被清楚解釋,那麼 K=6 不是一個好選擇。
- 如果 K=4,而且每一群都清晰、有策略價值,並且可以用 KPI 量度,那麼 K=4 可能更好。
- 如果 K=5 能清楚找出一個具增長潛力的用戶群,那麼 K=5 就具有產品價值。
簡單來說:
產品問題決定 clustering 的方向;features 決定模型能看到什麼;K 值決定分群的細緻程度;而 UX / Business interpretation 則決定 clustering 是否真正有用。
如何定義 Clustering 的數目,即 K 值
「先了解業務定義的大概範圍,再用數據找出合理候選值,最後用業務判斷決定最終數目、命名及產品策略。」
K 值不能只靠直覺決定,也不能只靠數學分數決定。較合理的做法是,先用業務理解定義大概範圍,再用數據找出合理候選值,最後從 UX / Business 角度判斷哪一個 K 最有用,例如是否具備 business interpretability(業務可解釋性)。
K-means 需要我們預先定義 K = cluster 的數目。它會把未標籤資料分成 K 個 clusters,並根據距離將資料點分配到最近的 centroid。K-means 的其中一個限制是:不一定容易找出正確的 K 值。
1. 用業務問題定義大概範圍
不要一開始就問:
應該分成多少個 clusters?
而應該先問:
我想用 clustering 解決什麼問題?
例如:
哪些用戶最有機會透過產品設計、內容推薦或優惠誘因,增加使用率?
這個問題不是單純找出「低使用率用戶」,而是找出:
目前使用率未達高峰,但仍然有明顯增長潛力的用戶群。
如何定立方向
如果目標是「增加使用率」,分群方向應該圍繞:
活躍度、回訪、互動深度,以及跨功能使用。
2. Who:定義目標用戶
確認你想分析的是哪一批用戶。
例如:
| 目標用戶 | 說明 |
|---|---|
| 所有 App 用戶 | 適合做整體 segmentation |
| 最近 30 日活躍用戶 | 適合分析使用率增長 |
| 低活躍用戶 | 適合做 re-engagement 分析 |
| Jetso / Reward 用戶 | 適合分析優惠導向行為 |
| 社群互動用戶 | 適合分析 UGC / community growth |
3. What:定義行為指標
把業務理解轉化成可觀察的 data signals。
例如:
| Business Concept | 可量度指標 |
|---|---|
| 活躍度 | App opens、session count、active days |
| 內容興趣 | Page views、article views、category views |
| 優惠興趣 | Jetso clicks、Reward clicks、redemption |
| 互動深度 | Likes、comments、shares、follows、saves |
| 搜尋需求 | Search count、AI search usage |
| 流失風險 | Days since last visit、inactive days |
| 轉換行為 | Registration、coupon claim、mission completion |
4. How Often:定義高 / 中 / 低門檻
用簡單規則先建立初步分類。
例如:
| 層級 | 初步定義 |
|---|---|
| 高活躍 | 每週使用 App 5 日以上 / session count 高 |
| 中活躍 | 每週使用 App 2–4 日 |
| 低活躍 | 每週使用 App 0–1 日 |
| 流失風險 | 14 或 30 日沒有回訪 |
| 高優惠興趣 | Jetso / Reward clicks 高於平均 |
| 高內容興趣 | Article views 高於平均 |
這些門檻一開始不需要非常精準,可以先根據經驗或 percentile 定義,例如 top 25%、middle 50%、bottom 25%。
5. So What:定義業務價值
每一個 segment 都應該能回答:
識別出這個 segment 之後,我可以做什麼?
例如:
| 初步用戶類型 | 行動價值 |
|---|---|
| 高活躍忠實用戶 | 維持 loyalty、推動會員任務、提升 retention |
| 中活躍潛力用戶 | 最適合用來提升使用率 |
| 優惠導向用戶 | 用 offer 帶動內容與社群使用 |
| 內容瀏覽用戶 | 用推薦、AI Search、收藏功能提升回訪 |
| 低活躍 / 流失風險用戶 | 用 re-engagement campaign 召回 |
如果某個 segment 沒有清楚的 action,通常不值得保留為獨立的 business segment。
最值得優先分析的目標群
如果業務問題是「增加使用率」,最值得聚焦的用戶群是:
1. 中活躍潛力用戶
他們已經有一定使用習慣,但仍未形成高頻行為。
例如,他們可能每星期使用 App 一至兩次,但未達到每日使用。
策略方向:
推送個人化內容、任務系統、每日簽到、收藏提醒,以及相關文章推薦。
2. 優惠導向用戶
他們對 Jetso、rewards 和 coupons 有明確動機,但可能只會在有優惠時才進入 App。
策略方向:
由優惠頁導向文章、生活內容、社群分享和會員任務,提升跨功能使用。
3. 內容瀏覽用戶
他們願意消費內容,但互動深度仍然不足。
策略方向:
加強 related content、AI Search、topic following、作者 / 主題追蹤,以及個人化首頁。
不建議作為第一優先的用戶群
高活躍忠實用戶
他們本身已經有高使用率。這一群的主要目標應該是 retention,而不是 usage growth。
極低活躍用戶
他們可能已經沒有明確需求,重新喚醒的成本亦較高。雖然仍然可以進行 reactivation,但未必是第一階段最有效的目標群。
結論
Business logic definition 是一種簡單而直觀的方法,非常適合作為 clustering 的起點。它可以先根據業務目標、產品經驗和用戶行為理解,初步劃分出幾個可能的用戶類型,幫助團隊快速建立分析方向。
不過,這類分類本質上只是 business hypothesis(業務假設),不代表資料一定會自然形成相同群組。Clustering 的核心,是根據資料點之間的 similarity,自動找出隱藏的 natural groupings。換句話說,clustering 是一種 unsupervised learning,用於在未標籤資料中發現自然分群。
因此,較合理的流程是:
先用 business logic 定義大概方向,再用 clustering 方法進行驗證。
例如,我們可以先從業務角度假設 5 類用戶,再用 K-means、Elbow Method 和 Silhouette Score 檢查資料是否支持這些分類。如果數據顯示 K=4 更合理,就應考慮合併相似群組。如果 K=5 雖然分數略低,但每一群都有清楚特徵、足夠用戶量和不同策略價值,那麼 K=5 仍然可以保留。
最終的 cluster 數目與類型,不應只由數學分數決定,也不應只靠業務直覺決定,而應在以下三者之間取得平衡:
數據合理性、業務可解釋性、產品行動價值。