資料探勘(Data Mining)是一種從大量資料中自動找出有價值資訊的過程。主要透過使用各種統計、機器學習和AI技術,來幫助企業或研究者發現隱藏在資料中的模式、趨勢和關聯,進而制定出更好的決策。
資料探勘的過程通常包括以下步驟:
資料探勘的應用廣泛,例如金融領域的信用評分、醫療領域的疾病預測、市場行銷的客戶行為分析等。也因此資料探勘通常涉及大數據和機器學習等技術,以處理和分析龐大和複雜的數據集來解決真實世界的問題。
Data Mining 包含多種技術和方法,尤其是各種機器學習算法。以下是一些常用的資料探勘技術:
這是一種監督式學習方法,透過研究數據庫中的特徵,將已知資料做出分類,並根據已知的特徵預測未經分類的新進數據。常用的分類算法包括決策樹(Decision Trees)、支持向量機(Support Vector Machines)等。
迴歸分析是一種監督式學習方法,用於預測連續型數值,找到自變數和因變數之間的關係。常用的迴歸算法包括線性迴歸(Linear Regression)、多項式迴歸(Polynomial Regression)、決策樹迴歸(Decision Tree Regression)、Lasso迴歸(Lasso Regression)等。
迴歸分析可幫助我們從一系列現有數據去預測未知數據的可能值。例如:透過分析某一地區多筆房地產交易的數據庫(包含:坪數、地點、房型、交易金額等),對另一個未售出的物件做出成交金額預測。
也稱做聚類,這是一種非監督式學習方法,和分類分析的概念相似,模型會試圖將資料點分為具有相似特徵的組(簇 Cluster)。與分類不同,集群沒有預先定義的標籤或類別。模型僅依據數據的相似性將其分組。例如,將一群人根據其購買行為分為不同的消費者群。
常用的聚類算法包括K-means、階層聚類(Hierarchical Clustering)、DBSCAN(Density-Based Spatial Clustering of Applications with Noise)等。
這是一種無監督式學習方法,分析數據庫中各資料彼此相依的機率,以發現資料集中的變數之間的關聯性。例如:某顧客在已經購買該品牌洗髮精的情況下,同時購買該品牌潤髮乳的機率。
常用的關聯規則算法包括Apriori、Eclat和FP-growth(Frequent Pattern growth)等。
用於分析和挖掘時間或事件發生先後的關係與規律。例如:某顧客在已經購買該品牌洗髮乳後,一周後再度購買潤髮乳所發生的機率。常用的序列模式挖掘算法包括GSP(Generalized Sequential Patterns)、PrefixSpan和SPADE(Sequential Pattern Discovery using Equivalence classes)等。
和迴歸分析的概念相似,也是藉由已知的數據來預測未來數據的可能值。其不同點在於:時間序列分析模型中的數據中必須有時間關聯性。透過時間序列分析,可得知事件沿著時間軸(如季節性、節日、過去與未來的相關性)所產生的變化情形,進一步使用歷史資料來預測未來趨勢。
異常檢測主要用於檢測資料集中的異常值或不尋常的模式。異常檢測可以用監督式和或非監督式兩大類方法做到,前者是使用已標記的正常和異常樣本進行模型訓練、後者僅使用正常樣本進行模型訓練,讓模型學習後,在測試時檢測不符合模式的異常。
常用的異常檢測算法包括統計方法、基於密度的方法(例如LOF,Local Outlier Factor)和基於距離的方法(例如KNN,K-Nearest Neighbors)等。
異常檢測在多個領域中都有應用,包括但不限於:
資料探勘的應用已經深入各大企業中,利用資料探勘篩選適當的行銷TA,早已是行銷活動的基礎。因此,許多行銷單位在規劃活動時,皆已不得不將資料探勘作為必要工具。除此之外,還有許多應用場景:
在人人都有行動裝置的時代,電信數據含有豐富且精準的資料。我們可以透電信數據,分析用戶的位置和使用行為,進而去做貼標與分群,除了可幫助企業更了解消費者輪廓外,也能實現精準行銷。
例如,針對曾造訪過月子中心、生殖中心的受眾推播母嬰產品;或是找出曾瀏覽過母嬰平台的消費者,再依據地理位置分群推薦不同的月子中心。
許多電信業者近年來開始經營起OTT,更能進一步結合電信數據與用戶觀看數據進行資料探勘,分析觀眾喜好、個人化推薦等。
金融產業擁有大量的用戶與交易數據,可透過資料探勘挖掘出許多價值並應用到不同場景:
值得注意的是,金融數據涉及消費者的機敏資訊,因此往往受到更嚴格的法規限制。在進行資料探勘與後續應用時必須特別確保資料合規。
零售業者往往是第一線接觸到消費者的,也是最直接面對購物需求的渠道,因此其數據具有極高的轉換價值。尤其隨著電商發展,讓零售業者有了更多更廣的數據。
而透過資料探勘分析顧客的交易歷史、搜尋紀錄、商品瀏覽紀錄等,甚至於結合會員資料、社群電商、實體消費等數據,可建立強大的CRM系統,並對顧客進行自動貼標,以提供個人化的推薦,提高展和與忠誠度。甚至也能做在運營、商家提供促銷策略、選品上架、物流倉儲等面向的優化依據。
另一個應用場景則是 RMN 零售媒體聯播網。將平台資料整合廣告系統,能幫助品牌更容易地觸及到有消費意圖的受眾,也能幫助零售業者將消費者留在平台上、刺激消費,並將資料變現。
數據分析與提供洞察:LnData可協助企業進行數據分析,從龐雜的數據中挖掘出可化為行動的重要洞察,以幫助企業制定或優化決策,例如社群輿情分析、廣告監測分析、消費者受眾分析等。
取得數據:資料探勘最重要的是什麼?要先有數據!企業可透過 LnData 收集與整合自有的第一方數據,或是從數據市集取得各種不同來源或類型的第三方數據,包含社群數據、發票數據、電信數據等等。
數據處理:在進行分析與機器學習時,如果使用的數據非常雜亂、充滿雜訊,不僅會降低資料探勘的效率,也可能會導致結果失真。因此 LnData 協助企業進行數據清理等前處理,讓企業可使用更乾淨、高質量的數據。
數據安全和合規性:LnData協助企業客戶建立數據安全和合規性框架,以確保他們在收集、使用和分析數據時遵循相關法規和標準(如 GDPR)。我們也提供輔助的服務來協助達成,例如資料去識別化工具數據無塵室 Data Clean Room 等。