您現在的位置是:首頁 > 運動

基於文字描述的事務聚類

由 人工智慧遇見磐創 發表于 運動2022-06-23
簡介雖然使用主題模型的方法相對新穎,但使用交易對客戶進行分類的方法主要是由信用卡髮卡機構使用的

簇還可以組什麼詞

介紹

我們生活在數字技術的時代。你上次走進一家沒有數字交易的商店是什麼時候?

這些數字交易技術已經迅速成為我們日常生活的一個關鍵部分。

不僅僅是在個人層面,這些數字技術是每個金融機構的核心。透過多種可能的選擇(如網上銀行、ATM、信用卡或借記卡、UPI、POS機等),在後臺執行可靠的系統,支付交易或資金轉賬已經變得非常順利。

我們會為每個事務生成一個適當的描述:

基於文字描述的事務聚類

基於文字描述的事務聚類

在本文中,我們將使用聚類(一種流行的機器學習演算法)討論一個金融機構為其客戶群定製產品的真實用例。

本案例研究背後的動機

作為一家金融機構,根據現有客戶的不同興趣,為他們提供定製化的服務,這一點總是很重要的。對於任何金融機構來說,捕捉客戶的意圖是一個重大挑戰。

Twitter、WhatsApp、Facebook等社交媒體平臺已成為分析客戶興趣和偏好的主要資訊來源。

金融機構從第三方獲取資料往往會產生巨大的成本。即便如此,將一個社交媒體帳戶對映到一個獨特的客戶也變得非常困難。

那麼我們如何解決這個問題呢?

基於文字描述的事務聚類

上述問題的部分解決方案可以透過使用機構提供的內部交易資料來解決。

我們可以根據事務描述訊息將客戶執行的事務分為不同的類別。

此方法可用於標記交易是否針對食品、運動、服裝、賬單付款、家居等進行。如果客戶的大部分交易都出現在特定類別中,則我們可以更好地估計他/她的偏好。

這是我們採取的方法

讓我們瞭解一下我們是如何處理這個問題陳述的,以及我們為找出解決方案而採取的關鍵步驟。

確定主題的數量

我們從所有事務開始處理,並將它們的描述訊息對映到每個客戶。首先,我們有一項重要的任務,即確定簇(或)類別(或)主題的數量。為了達到這個目標,我們使用主題模型。

主題模型是一種對文件進行無監督分類的方法,它可以在我們不確定要查詢的內容時找到自然的專案組。它主要使用潛在Dirichlet分配(LDA)來擬合主題模型。

它將每個文件(即事務)視為主題的混合,而每個主題則是單詞的混合。

舉個例子:預算這個詞可能會出現在電影和政治中。這種LDA的基本假設是,樣本中的每一個觀察結果都來自一個任意未知的分佈,可以用生成統計模型來解釋。

讓我們來看看這個方法來解決我們的問題。

在事務描述中,存在生成統計模型,生成交易描述中來自未知分佈(即未知組或主題)的所有單詞。我們試圖建立一個統計模型,以便它預測一個詞屬於某個特定主題的機率。

基於文字描述的事務聚類

主題連貫性

透過手動檢視各個主題的關鍵詞來確定主題的總數。

但是這導致每個人的觀點不一致,我們需要一個方法來評估正確的主題數量。我們使用主題連貫性的度量來確定正確的主題數量。

主題連貫性應用於主題的前N個單詞。它被定義為主題詞的成對詞相似度得分的平均值/中位數。一個好的模型將產生連貫的主題,即主題連貫性得分高的主題。

好的主題是可以用一個簡短的標籤來描述的主題;因此,這就是主題一致性度量所捕獲的內容。

基於文字描述的事務聚類

聚類

接著我們可以確定主題/簇的總數(在我們的例子中是7個主題)。我們應該開始將每個事務描述訊息分配到主題中。在為主題分配文件時,單靠主題模型可能無法產生準確的結果。

在這裡,我們使用主題模型的輸出以及其他一些特性,使用K-Means叢集對事務描述訊息進行聚類。在這裡,我們將集中精力為K-Means聚類構建一個特徵集。

特徵

基本特徵

字數計數,數字計數,特殊符號計數最長數字序列長度,數字字元比率平均、最大字長等。交易的周、日和月,是否存在日期,是否為週末交易,等等。當月最後5天或前5天執行的交易公共假日和節日交易等。

查詢特徵

,行業頂級品牌和常用名詞用作查詢名稱。統計交易描述中與特定行業相關的字數。

食物

:蔬菜、多米諾、生鮮直達等。

運動專案

:棒球、阿迪達斯、足球、足球鞋等。

健康

:藥房、醫院、健身房等。

賬單和EMI

:政策、權力、宣告、時間表、提款、電話等。

娛樂

:Netflix、Prime shows、Spotify、Soundcloud、酒吧

電子商務

:亞馬遜、沃爾瑪、易趣、Ticketmaster等。

其他

:優步、空客、包裝商等。

主題模型特徵

對使用TF-IDF度量生成的unigram和bigram的DTM矩陣進行主題模型。對於交易描述的unigram和bigram DTM矩陣,我們為每個主題得到2組7種不同的機率

最後的想法

每個事務描述都有大約30個特徵,我們執行K-Means聚類將每個事務描述分配給7個叢集中的一個。

結果表明,靠近簇中心的觀測值大多標註了正確的主題。很少有遠離簇中心的觀測被賦予錯誤的主題標籤。

在手工檢查的350個事務描述中,大約240個(準確率約69%)事務描述被正確地標記為適當的主題。

現在我們至少對內部客戶的偏好和興趣有了一個基本的估計。我們可以傳送定製的報價和選項,以保持他們的參與和改善業務。

雖然使用主題模型的方法相對新穎,但使用交易對客戶進行分類的方法主要是由信用卡髮卡機構使用的。

例如,美國運通一直在使用這種方法為客戶建立興趣圖。這種興趣圖不僅將交易分為食物、旅遊等主要群體,而且還建立了泰國美食愛好者、野生動物愛好者等微觀細分市場,所有這些都僅僅來自於豐富的交易資料!

推薦文章