數據科學與機器學習

如何定義 Clustering 的數目與類別(一):用 Business Logic 建立分群假設

2026-05-21

如何定義 Clustering 的數目與類別(一):用 Business Logic 建立分群假設
在進行 clustering 前,可以先使用 Business Logic Define Method 建立初步分類方向。這個方法會先從業務目標出發,明確定義這次分析想解決的問題,例如「找出可增加使用率的用戶」。之後再界定分析對象、選擇可觀察的行為指標,並根據產品經驗和營運理解,初步劃分出幾個可能的用戶類型。 這些分類不是最終答案,而是 clustering 前的業務假設。它的價值在於幫助團隊用簡單、直觀的方法建立分析方向,讓後續的數據驗證更有焦點。 例如,若目標是提升 App 使用率,可以先假設用戶分為高活躍、中活躍、優惠導向、內容瀏覽及流失風險幾類。之後再用 K-means、Elbow Method 和 Silhouette Score 檢查這些分類是否真的在數據中成立。最終保留的 segment,應同時具備 數據合理性、業務可解釋性和產品行動價值。

business logic 定義只適合作為 clustering 的第一步。因為這些分類只是根據經驗和業務理解提出的假設,未必代表資料本身真的會自然形成相同群組。Clustering 本身屬於 unsupervised learning,目的是在未標籤資料中根據相似度自動找出自然分群;教材亦指出 clustering 是根據 similarity 自動發現 data 的 natural groupings。

簡單來說:

Business logic 定義是一個直觀的起點,用來幫助我們建立分群假設;但最終的 cluster 數目與類別,仍需要透過數據驗證,確保分群既合理、可解釋,也能轉化為具體的產品或營運行動。


如何決定 Clustering 的數目

Clustering 的數目不應該只是簡單地說:「我想分成 6 群。」     
相反,我們應該先問:

分出來的群組能不能幫助我做決策?

所以:

  • 如果 K=6,但只有 3 群能被清楚解釋,那麼 K=6 不是一個好選擇。
  • 如果 K=4,而且每一群都清晰、有策略價值,並且可以用 KPI 量度,那麼 K=4 可能更好。
  • 如果 K=5 能清楚找出一個具增長潛力的用戶群,那麼 K=5 就具有產品價值。

簡單來說:

產品問題決定 clustering 的方向;features 決定模型能看到什麼;K 值決定分群的細緻程度;而 UX / Business interpretation 則決定 clustering 是否真正有用。


如何定義 Clustering 的數目,即 K 值

「先了解業務定義的大概範圍,再用數據找出合理候選值,最後用業務判斷決定最終數目、命名及產品策略。」

K 值不能只靠直覺決定,也不能只靠數學分數決定。較合理的做法是,先用業務理解定義大概範圍,再用數據找出合理候選值,最後從 UX / Business 角度判斷哪一個 K 最有用,例如是否具備 business interpretability(業務可解釋性)

K-means 需要我們預先定義 K = cluster 的數目。它會把未標籤資料分成 K 個 clusters,並根據距離將資料點分配到最近的 centroid。K-means 的其中一個限制是:不一定容易找出正確的 K 值。


1. 用業務問題定義大概範圍

不要一開始就問:

應該分成多少個 clusters?

而應該先問:

我想用 clustering 解決什麼問題?

例如:

哪些用戶最有機會透過產品設計、內容推薦或優惠誘因,增加使用率?

這個問題不是單純找出「低使用率用戶」,而是找出:

目前使用率未達高峰,但仍然有明顯增長潛力的用戶群。


如何定立方向

如果目標是「增加使用率」,分群方向應該圍繞:

活躍度、回訪、互動深度,以及跨功能使用。


2. Who:定義目標用戶

確認你想分析的是哪一批用戶。

例如:

目標用戶說明
所有 App 用戶適合做整體 segmentation
最近 30 日活躍用戶適合分析使用率增長
低活躍用戶適合做 re-engagement 分析
Jetso / Reward 用戶適合分析優惠導向行為
社群互動用戶適合分析 UGC / community growth

3. What:定義行為指標

把業務理解轉化成可觀察的 data signals。

例如:

Business Concept可量度指標
活躍度App opens、session count、active days
內容興趣Page views、article views、category views
優惠興趣Jetso clicks、Reward clicks、redemption
互動深度Likes、comments、shares、follows、saves
搜尋需求Search count、AI search usage
流失風險Days since last visit、inactive days
轉換行為Registration、coupon claim、mission completion

4. How Often:定義高 / 中 / 低門檻

用簡單規則先建立初步分類。

例如:

層級初步定義
高活躍每週使用 App 5 日以上 / session count 高
中活躍每週使用 App 2–4 日
低活躍每週使用 App 0–1 日
流失風險14 或 30 日沒有回訪
高優惠興趣Jetso / Reward clicks 高於平均
高內容興趣Article views 高於平均

這些門檻一開始不需要非常精準,可以先根據經驗或 percentile 定義,例如 top 25%、middle 50%、bottom 25%。


5. So What:定義業務價值

每一個 segment 都應該能回答:

識別出這個 segment 之後,我可以做什麼?

例如:

初步用戶類型行動價值
高活躍忠實用戶維持 loyalty、推動會員任務、提升 retention
中活躍潛力用戶最適合用來提升使用率
優惠導向用戶用 offer 帶動內容與社群使用
內容瀏覽用戶用推薦、AI Search、收藏功能提升回訪
低活躍 / 流失風險用戶用 re-engagement campaign 召回

如果某個 segment 沒有清楚的 action,通常不值得保留為獨立的 business segment。


最值得優先分析的目標群

如果業務問題是「增加使用率」,最值得聚焦的用戶群是:

1. 中活躍潛力用戶

他們已經有一定使用習慣,但仍未形成高頻行為。

例如,他們可能每星期使用 App 一至兩次,但未達到每日使用。

策略方向:   
推送個人化內容、任務系統、每日簽到、收藏提醒,以及相關文章推薦。


2. 優惠導向用戶

他們對 Jetso、rewards 和 coupons 有明確動機,但可能只會在有優惠時才進入 App。

策略方向:   
由優惠頁導向文章、生活內容、社群分享和會員任務,提升跨功能使用。


3. 內容瀏覽用戶

他們願意消費內容,但互動深度仍然不足。

策略方向:   
加強 related content、AI Search、topic following、作者 / 主題追蹤,以及個人化首頁。


不建議作為第一優先的用戶群

高活躍忠實用戶

他們本身已經有高使用率。這一群的主要目標應該是 retention,而不是 usage growth。

極低活躍用戶

他們可能已經沒有明確需求,重新喚醒的成本亦較高。雖然仍然可以進行 reactivation,但未必是第一階段最有效的目標群。


結論

Business logic definition 是一種簡單而直觀的方法,非常適合作為 clustering 的起點。它可以先根據業務目標、產品經驗和用戶行為理解,初步劃分出幾個可能的用戶類型,幫助團隊快速建立分析方向。

不過,這類分類本質上只是 business hypothesis(業務假設),不代表資料一定會自然形成相同群組。Clustering 的核心,是根據資料點之間的 similarity,自動找出隱藏的 natural groupings。換句話說,clustering 是一種 unsupervised learning,用於在未標籤資料中發現自然分群。

因此,較合理的流程是:

先用 business logic 定義大概方向,再用 clustering 方法進行驗證。

例如,我們可以先從業務角度假設 5 類用戶,再用 K-means、Elbow Method 和 Silhouette Score 檢查資料是否支持這些分類。如果數據顯示 K=4 更合理,就應考慮合併相似群組。如果 K=5 雖然分數略低,但每一群都有清楚特徵、足夠用戶量和不同策略價值,那麼 K=5 仍然可以保留。

最終的 cluster 數目與類型,不應只由數學分數決定,也不應只靠業務直覺決定,而應在以下三者之間取得平衡:

數據合理性、業務可解釋性、產品行動價值。


相關文章

Clustering 如何幫助 UX / Product 設計:從用戶分群到產品策略

如何定義 Clustering 的數目與類別(二):用數據方法找出合理分群數目