導讀
商業(yè)銀行的諸多業(yè)務中,零售業(yè)務有著龐大的客戶資源和強大的價值創(chuàng)造力,體量巨大、種類繁多、處理速度快,天然地與大數(shù)據(jù)相契合。今天我們就來看一份零售銀行的大數(shù)據(jù)應用方案。
本文主要涵蓋以下內容:
為現(xiàn)有顧客提供私人訂制產品
欺詐情況的早期偵測以及欺詐風險的轉移
針對產品取消與客戶流失的預測
ATM機和銀行網點中現(xiàn)金分配的最優(yōu)解決方案
昂貴銀行渠道使用的最小化
評估債務產品的客戶
我們可以從備用數(shù)據(jù)庫里收集有關聯(lián)的數(shù)組和數(shù)據(jù),并使用Hadoop進行分析。或者我們可以通過機器學習技術現(xiàn)有數(shù)據(jù)中隱藏的關聯(lián)關系。
普通數(shù)據(jù)組的介紹
針對所有客戶每月收入和支出的分類分析數(shù)組是一直存在的。這類數(shù)組是因為客戶銀行賬戶借記、貸記等各種日常操作而產生的。每一筆交易的產生通常都伴隨著一個電子號碼,比如電費話費單、商戶類別碼等等。此外,我們還可以通過商戶名稱、描述以及留言來對交易進行區(qū)分。
我們可以識別出很多消費類別,比如房產類消費(租金或者按揭)、能源類消費(加油或者電費)、食品及家居類消費、教育類、汽車消費、餐飲、大額項目(購買電視、家具)、稅費、娛樂、信用卡和貸款支付、奢侈品等等。
同樣,收入分類有工資、分紅、退稅交易、社會福利收入、房租收入、銷售等等。通過簡單的回歸分析可以得到針對每個客戶的收入支出情況的整體趨勢,以及每個細分類別的趨勢。
機器學習和預測
我們可以使用各種機器學習算法和模型來做預測。這里我們介紹兩種算法:監(jiān)督學習以及非監(jiān)督學習。
監(jiān)督學習算法通過分析和驗證歷史數(shù)據(jù)來得到模型,這個模型可以通過輸入數(shù)據(jù)之間的聯(lián)系得到確定的結果。樣本數(shù)據(jù)可以隨意選取,但是最好提前進行分組處理以得到更準備的結果。通??梢詫⒖蛻魯?shù)組數(shù)據(jù)按照年齡、收入、地域、教育背影以及儲蓄量進行分類。每一類還會繼續(xù)細分,比如年齡可以分成5個20的層級。我們能直接看到每一層級中客戶的數(shù)量,從而我們可以從每一層級里抽取5%的樣本數(shù)據(jù)來進行分析。這類樣本數(shù)據(jù)能夠讓我們最直接地看出哪個類別對最后結果的影響最大。比如我們可以很明顯地看出教育背影對投資產品的影響最大。
非監(jiān)督機器學習算法則會從現(xiàn)有的數(shù)據(jù)中尋找未知的關聯(lián)模型。我們可以通過那些非正常的客戶行為模式中來找到欺詐信息的蛛絲馬跡。
1產品的私人訂制
銀行可以把錢省下來去做那些昂貴的市場推廣活動來宣傳銀行產品。產品應該最大程度地提供給那些有可能需要并接受它們的人,所以應該針對客戶推薦與其最相關的產品。這些就需要好好研究客戶之前都愛使用哪些產品。
客戶所使用的銀行產品和服務的歷史數(shù)據(jù)都可以拿來做分析,并生成獨立的模型。我們篩選并驗證出最好的學習算法,然后用它們計算哪些類別和變量能產生最大的效果。
2金融欺詐的早期偵測以及減少欺詐損失
這項內容包括識別身份造假、信用卡欺詐、電信欺詐、洗錢以及對網上銀行和移動銀行的攻擊。不斷出現(xiàn)的新型欺詐手段需要靈活、迅速的檢測算法。過去,銀行只使用基于統(tǒng)計學和規(guī)則的算法去識別可疑行為。這些算法有很大的局限性,因為它們只能識別已知的欺詐手段,維護成本高,計算中無法覆蓋每個用戶的全部歷史數(shù)據(jù),并且經常誤報。
我們使用了包含已知欺詐案件的數(shù)據(jù)集。這些欺詐案件被分為幾類儲存,如盜取身份透支欺詐,信用卡盜竊,消費信貸欺詐,偽造支票償還信用卡,盜竊支票,盜錄磁條復制卡片,使用竊取的客戶憑證或安全設備攻擊網上銀行,流氓電商運用信用卡詐騙等等。我們使用了利用反向傳播進行訓練的神經網絡和決策樹兩種算法。這些算法對已有數(shù)據(jù)進行處理,從而識別新型詐騙的出現(xiàn)。
3預測客戶流失和取消服務
銀行對客戶流失和取消服務的預測有很強的時間敏感性,因為在客戶不可挽回地決定取消某項服務或轉投競爭對手之前,留給銀行的時間僅有幾天而已。銀行必須及早識別那些有可能流失的客戶并聯(lián)系他們,為他們提供其它可選擇的服務或是解決他們的問題。留存能帶來高利潤的活躍客戶的成本比起流失他們之后再吸引回來的成本要低得多。
我們預測時使用的原始數(shù)據(jù)包括賬戶流動情況,借記卡和信用卡流動情況,CRM中記錄的客戶數(shù)據(jù),服務訂購數(shù)據(jù),服務中心和分支機構的訪問交易數(shù)據(jù)以及登錄信息等。常用的收入和支出數(shù)據(jù)也被納入其中。
我們還建立關鍵事件的時間序列,諸如注銷借記卡,從其它銀行轉入的工資、分紅、租金等收入,客戶主動聯(lián)系服務中心或是訪問分支機構,注銷信用卡等等。
我們還建立了另外一組客戶集,他們符合年齡、收入、存款和地理位置分布等畫像但仍然是銀行的存留客戶。
基于以上,我們建立了有效的模型以預測客戶在不可挽回地轉投競爭對手之前的一系列行為。我們已經使用了一些監(jiān)督學習算法,例如支撐向量機進行二類分類以及利用用反向傳播的神經網絡。在使用主成分分析對輸入數(shù)據(jù)進行降維后,我們使用非監(jiān)督學習算法中的K聚類算法和KCm算法來降低輸入數(shù)據(jù)的維度。
我們在最近的數(shù)據(jù)中識別出了數(shù)百名符合模式的活躍用戶,在他們轉投競爭對手之前,相關分行應當及早進行聯(lián)絡。
4ATM機和銀行網點中現(xiàn)金分配的最優(yōu)解決方案
對于ATM機和銀行網點而言,一年之中不同時段的現(xiàn)金需求量是在不斷變化的。這種變化可能由天氣、突發(fā)事件、假期及旅游等各種因素引發(fā)。準確預測出ATM機和銀行網點的現(xiàn)金需求量非常重要。無論是頻繁地往ATM機里放現(xiàn)金,還是ATM機因缺少現(xiàn)金而停止使用,成本都很高。另一方面,我們又不希望出現(xiàn)ATM機和網點長期持有冗余現(xiàn)金的情況,因為這既不是最優(yōu)的現(xiàn)金分配方法,同時也會加大引發(fā)犯罪的可能。
我們會使用多個維度的數(shù)據(jù)進行分析,包括:ATM機的服務日志,ATM機和銀行網點的地理位置信息,每臺ATM機的提款數(shù)據(jù),ATM機和銀行網點當?shù)氐奶鞖忸A報,賽事安排,每個地區(qū)的文化活動、重要事件以及節(jié)假日安排。此外,信用卡和借記卡的流動情況也是重要的數(shù)據(jù)源,可以判斷不同地區(qū)在每年不同時間的現(xiàn)金需求量。我們使用普通數(shù)據(jù)組來確定不同地區(qū)客戶的工資、社會福利和其它收入的到賬時間。
我們提取并分析了這樣一些數(shù)據(jù),包括:所有ATM機在一年中每一天取現(xiàn)數(shù)量的中位數(shù),所有ATM機一天中每小時取現(xiàn)數(shù)量的中位數(shù)。這一數(shù)據(jù)集被用來計算天氣、重要事件、星期幾及節(jié)假日對某一具體地區(qū)的現(xiàn)金需求量的影響。我們還將過去4年間的重要文化、體育及其它事件與其發(fā)生的地理坐標數(shù)據(jù)結合加以處理,計算出了每項事件對其輻射范圍100米以內的ATM機的現(xiàn)金需求量的影響。根據(jù)影響程度的不同,我們對這些事件進行了分類。這一數(shù)據(jù)組可以預測以后類似事件的影響。
同時,我們計算了天氣與當?shù)孛颗_ATM機現(xiàn)金需求量的相關性,過程中涉及到的天氣相關的參數(shù)包括降水量、溫度和風力等。
另外,我們還建立數(shù)組分析了不同地區(qū)收入(包括工資、社會福利等)到賬日和現(xiàn)金需求量的相關性。
基于以上數(shù)據(jù)集,我們建立了預測每臺ATM機和網點一年中任意一天現(xiàn)金需求量的模型。這些模型考慮了歷史天氣預報數(shù)據(jù)和重要事件安排,也用到了很多高級算法如波爾茲曼機、感知機和高斯判別分析等。
5昂貴銀行渠道使用的最小化
在昂貴的銀行渠道比如柜臺服務或光顧支行或電話客服的使用率最小化上我們做出了巨大的投入。
使用率的最小化可以由優(yōu)化網上銀行或手機銀行應用、幫助頁、幫助軟件以及優(yōu)化網站界面實現(xiàn)。另一個方法鼓勵正在猶豫的客人轉而使用更便宜的方式是目標更加明確的推廣活動。
可分析數(shù)據(jù)最主要的來源是來源于網上銀行以及手機銀行應用的網頁記錄。我們曾用過帶銀行賬號的使用記錄,客服中心交易記錄數(shù)據(jù)組,用戶信息的CRM數(shù)據(jù)組,或分行交易記錄的數(shù)據(jù)組。
另一個重要的數(shù)據(jù)組是客服中心、支行的投訴以及咨詢的來電、郵件、來信。我們將數(shù)據(jù)以網絡幫助頁的咨詢點的相關興趣點分類。這能幫助找出解釋不清晰、造成誤解的以及不必要咨詢電話的幫助頁面。這還能幫助管理網上銀行那些復雜的造成投訴的操作。它發(fā)現(xiàn)了許多領域比如關于幫助頁面沒有涵蓋的信用卡支付匯率,這反而常常在電話或分行咨詢中常常被提到。網上銀行的產品據(jù)此修改,提供自助咨詢、搜索優(yōu)化、網上銀行管理、以及手機銀行應用等服務,以減少客服中心以及分行的使用率。
我們分析了以轉化客戶到網上銀行、手機銀行以及自助柜員機的市場營銷活動的結果數(shù)據(jù)。根據(jù)相關性分析,許多大范圍的營銷活動并不十分有效。我們也分析了最近將大部分業(yè)務轉移到網上的銀行客戶的規(guī)律。這幫助我們找出更有可能轉移到網上的客戶。對這些客戶我們應該使用更有針對性的個性化的營銷策略,根據(jù)各個分行的特點進行活動。
6評估債務產品的客戶
為了可靠地評估風險,對現(xiàn)有客戶批準借記產品,不僅需要考慮現(xiàn)有的信用狀況、可支配收入狀況,還需要客戶的全部歷史和社交記錄。這樣以減少銀行承擔的風險并增加來自有價值客戶的收入。
我們使用通用收入支出數(shù)據(jù)庫分析,客戶全部的信用卡、借貸、透支或其他金融產品的交易記錄以及CRM信息。
使用Markov Chain隨機分析評估與客戶行為相關的借貸支付可能。此類模型在盈利性借貸、信用卡以及其他金融產品的歷史數(shù)據(jù)中得到驗證。我們注意到信用記錄的可靠性得到增加,并能夠據(jù)此為被拒絕的客戶提供替代產品。