數據科學與機器學習

如何定義 Clustering 的數目與類別（一）：用 Business Logic 建立分群假設

2026-05-21

在進行 clustering 前，可以先使用 Business Logic Define Method 建立初步分類方向。這個方法會先從業務目標出發，明確定義這次分析想解決的問題，例如「找出可增加使用率的用戶」。之後再界定分析對象、選擇可觀察的行為指標，並根據產品經驗和營運理解，初步劃分出幾個可能的用戶類型。這些分類不是最終答案，而是 clustering 前的業務假設。它的價值在於幫助團隊用簡單、直觀的方法建立分析方向，讓後續的數據驗證更有焦點。例如，若目標是提升 App 使用率，可以先假設用戶分為高活躍、中活躍、優惠導向、內容瀏覽及流失風險幾類。之後再用 K-means、Elbow Method 和 Silhouette Score 檢查這些分類是否真的在數據中成立。最終保留的 segment，應同時具備數據合理性、業務可解釋性和產品行動價值。

business logic 定義只適合作為 clustering 的第一步。因為這些分類只是根據經驗和業務理解提出的假設，未必代表資料本身真的會自然形成相同群組。Clustering 本身屬於 unsupervised learning，目的是在未標籤資料中根據相似度自動找出自然分群；教材亦指出 clustering 是根據 similarity 自動發現 data 的 natural groupings。

簡單來說：

Business logic 定義是一個直觀的起點，用來幫助我們建立分群假設；但最終的 cluster 數目與類別，仍需要透過數據驗證，確保分群既合理、可解釋，也能轉化為具體的產品或營運行動。

如何決定 Clustering 的數目

Clustering 的數目不應該只是簡單地說：「我想分成 6 群。」
相反，我們應該先問：

分出來的群組能不能幫助我做決策？

所以：

如果 K=6，但只有 3 群能被清楚解釋，那麼 K=6 不是一個好選擇。
如果 K=4，而且每一群都清晰、有策略價值，並且可以用 KPI 量度，那麼 K=4 可能更好。
如果 K=5 能清楚找出一個具增長潛力的用戶群，那麼 K=5 就具有產品價值。

簡單來說：

產品問題決定 clustering 的方向；features 決定模型能看到什麼；K 值決定分群的細緻程度；而 UX / Business interpretation 則決定 clustering 是否真正有用。

如何定義 Clustering 的數目，即 K 值

「先了解業務定義的大概範圍，再用數據找出合理候選值，最後用業務判斷決定最終數目、命名及產品策略。」

K 值不能只靠直覺決定，也不能只靠數學分數決定。較合理的做法是，先用業務理解定義大概範圍，再用數據找出合理候選值，最後從 UX / Business 角度判斷哪一個 K 最有用，例如是否具備 business interpretability（業務可解釋性）。

K-means 需要我們預先定義 K = cluster 的數目。它會把未標籤資料分成 K 個 clusters，並根據距離將資料點分配到最近的 centroid。K-means 的其中一個限制是：不一定容易找出正確的 K 值。

1. 用業務問題定義大概範圍

不要一開始就問：

應該分成多少個 clusters？

而應該先問：

我想用 clustering 解決什麼問題？

例如：

哪些用戶最有機會透過產品設計、內容推薦或優惠誘因，增加使用率？

這個問題不是單純找出「低使用率用戶」，而是找出：

目前使用率未達高峰，但仍然有明顯增長潛力的用戶群。

如何定立方向

如果目標是「增加使用率」，分群方向應該圍繞：

活躍度、回訪、互動深度，以及跨功能使用。

2. Who：定義目標用戶

確認你想分析的是哪一批用戶。

例如：

目標用戶	說明
所有 App 用戶	適合做整體 segmentation
最近 30 日活躍用戶	適合分析使用率增長
低活躍用戶	適合做 re-engagement 分析
Jetso / Reward 用戶	適合分析優惠導向行為
社群互動用戶	適合分析 UGC / community growth

3. What：定義行為指標

把業務理解轉化成可觀察的 data signals。

例如：

Business Concept	可量度指標
活躍度	App opens、session count、active days
內容興趣	Page views、article views、category views
優惠興趣	Jetso clicks、Reward clicks、redemption
互動深度	Likes、comments、shares、follows、saves
搜尋需求	Search count、AI search usage
流失風險	Days since last visit、inactive days
轉換行為	Registration、coupon claim、mission completion

4. How Often：定義高 / 中 / 低門檻

用簡單規則先建立初步分類。

例如：

層級	初步定義
高活躍	每週使用 App 5 日以上 / session count 高
中活躍	每週使用 App 2–4 日
低活躍	每週使用 App 0–1 日
流失風險	14 或 30 日沒有回訪
高優惠興趣	Jetso / Reward clicks 高於平均
高內容興趣	Article views 高於平均

這些門檻一開始不需要非常精準，可以先根據經驗或 percentile 定義，例如 top 25%、middle 50%、bottom 25%。

5. So What：定義業務價值

每一個 segment 都應該能回答：

識別出這個 segment 之後，我可以做什麼？

例如：

初步用戶類型	行動價值
高活躍忠實用戶	維持 loyalty、推動會員任務、提升 retention
中活躍潛力用戶	最適合用來提升使用率
優惠導向用戶	用 offer 帶動內容與社群使用
內容瀏覽用戶	用推薦、AI Search、收藏功能提升回訪
低活躍 / 流失風險用戶	用 re-engagement campaign 召回

如果某個 segment 沒有清楚的 action，通常不值得保留為獨立的 business segment。

最值得優先分析的目標群

如果業務問題是「增加使用率」，最值得聚焦的用戶群是：

1. 中活躍潛力用戶

他們已經有一定使用習慣，但仍未形成高頻行為。

例如，他們可能每星期使用 App 一至兩次，但未達到每日使用。

策略方向：
推送個人化內容、任務系統、每日簽到、收藏提醒，以及相關文章推薦。

2. 優惠導向用戶

他們對 Jetso、rewards 和 coupons 有明確動機，但可能只會在有優惠時才進入 App。

策略方向：
由優惠頁導向文章、生活內容、社群分享和會員任務，提升跨功能使用。

3. 內容瀏覽用戶

他們願意消費內容，但互動深度仍然不足。

策略方向：
加強 related content、AI Search、topic following、作者 / 主題追蹤，以及個人化首頁。

不建議作為第一優先的用戶群

高活躍忠實用戶

他們本身已經有高使用率。這一群的主要目標應該是 retention，而不是 usage growth。

極低活躍用戶

他們可能已經沒有明確需求，重新喚醒的成本亦較高。雖然仍然可以進行 reactivation，但未必是第一階段最有效的目標群。

結論

Business logic definition 是一種簡單而直觀的方法，非常適合作為 clustering 的起點。它可以先根據業務目標、產品經驗和用戶行為理解，初步劃分出幾個可能的用戶類型，幫助團隊快速建立分析方向。

不過，這類分類本質上只是 business hypothesis（業務假設），不代表資料一定會自然形成相同群組。Clustering 的核心，是根據資料點之間的 similarity，自動找出隱藏的 natural groupings。換句話說，clustering 是一種 unsupervised learning，用於在未標籤資料中發現自然分群。

因此，較合理的流程是：

先用 business logic 定義大概方向，再用 clustering 方法進行驗證。

例如，我們可以先從業務角度假設 5 類用戶，再用 K-means、Elbow Method 和 Silhouette Score 檢查資料是否支持這些分類。如果數據顯示 K=4 更合理，就應考慮合併相似群組。如果 K=5 雖然分數略低，但每一群都有清楚特徵、足夠用戶量和不同策略價值，那麼 K=5 仍然可以保留。

最終的 cluster 數目與類型，不應只由數學分數決定，也不應只靠業務直覺決定，而應在以下三者之間取得平衡：

數據合理性、業務可解釋性、產品行動價值。

Clustering 如何幫助 UX / Product 設計：從用戶分群到產品策略

如何定義 Clustering 的數目與類別（二）：用數據方法找出合理分群數目。