應用

技術

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

機器學習如何應用于反欺詐?

2018-12-10 09:37 億歐

導讀:本文主要介紹機器學習技術的反欺詐應用,討論建立反欺詐機器學習模型的流程以及提升模型效果的思路。

 本文主要介紹機器學習技術的反欺詐應用,討論建立反欺詐機器學習模型的流程以及提升模型效果的思路。


金融反欺詐,金融科技,發(fā)欺詐,人工智能,風控

圖片來自“123rf.com.cn”


欺詐是一項超過十億美元的業(yè)務,而且每年都在增長。普華永道2018年全球經(jīng)濟犯罪調(diào)查發(fā)現(xiàn),在被調(diào)查的7,200家公司中,有約一半(49%)經(jīng)歷過某種形式的欺詐。而相關第三方數(shù)據(jù)調(diào)查顯示,消費金融及互聯(lián)網(wǎng)金融公司的壞賬中接近50%來自于欺詐。其中,身份冒用類占比例最高,其次是團伙欺詐以及惡意違約等。另外,多頭借貸行為也非常猖獗。反欺詐簡單來說,就是為了找出“羊群中的狼”,其必要性和緊迫性不言而喻。

用于欺詐檢測的技術可分為兩大類:統(tǒng)計分析和人工智能。

統(tǒng)計分析技術的例子包括:

數(shù)據(jù)預處理 - 用于檢測、驗證、糾正和填充缺失或不正確數(shù)據(jù);

計算各種統(tǒng)計參數(shù) - 例如平均值、分位數(shù)、性能指標、概率分布等。例如,用戶通話記錄的平均呼叫時長,每月平均呼叫次數(shù)和賬單支付的平均延遲天數(shù);

時間序列分析 - 預測變化趨勢與風險;

聚類分析 - 查找數(shù)據(jù)之間的模式和關聯(lián)性;

匹配算法 - 檢測交易或用戶行為中的異常。

用于欺詐管理的主要人工智能技術包括:

數(shù)據(jù)挖掘 - 對數(shù)據(jù)進行分類、聚類和分段,并自動查找數(shù)據(jù)中潛在的模式和規(guī)則,包括與欺詐相關的模式;

專家系統(tǒng)  - 規(guī)則的形式來檢測欺詐的專業(yè)知識;

機器學習 - 自動識別欺詐特征;

神經(jīng)網(wǎng)絡 - 從樣本中學習可疑模式,并在未來檢測它們。

其他人工智能技術,如鏈接分析、貝葉斯網(wǎng)絡、決策理論和知識圖譜等,也可用于欺詐檢測。

欺詐的新手段和方式層出不窮,僅依靠單一或簡單的方法遠遠不夠。上述方法和技術已經(jīng)在業(yè)界獲得一定程度的應用,業(yè)界對于相關技術的認可度和重視度也在與日俱增。

事實證明,充分利用統(tǒng)計分析、機器學習技術乃至復雜的人工智能模型等,能夠極大地提升公司的反欺詐水平,降低欺詐損失。

在下文中,筆者將主要介紹機器學習技術的反欺詐應用,討論建立反欺詐機器學習模型的流程以及分享一些提升模型效果的思路。

01 機器學習技術的反欺詐應用

實際業(yè)務中,常見的反欺詐手段主要包括:黑名單法、反欺詐規(guī)則系統(tǒng)以及機器學習技術。前兩種方法實施簡單,且可解釋性較強,但往往存在滯后性嚴重和準確度低的問題。而建立反欺詐模型,特別是基于機器學習的反欺詐模型,可以通過多樣的算法來準確地識別欺詐屬性,降低欺詐風險。


1.png


如上圖所示,我們將機器學習和人工智能解決方案分為兩類:“有監(jiān)督”和“無監(jiān)督”學習。

 有監(jiān)督學習 

有監(jiān)督學習,或者說監(jiān)督式學習,是反欺詐檢測中最為廣泛使用的機器學習模式。其模型技術包括但不限于決策樹算法、隨機森林、最近鄰算法、支持向量機和樸素貝葉斯分類等。


2.png


監(jiān)督式學習的機器學習模型通常是從有標簽的數(shù)據(jù)中自動創(chuàng)建出模型,來檢測欺詐行為。簡單地說,就是通過學習經(jīng)過分類的資料,建立一種模式,并依據(jù)這一模式來推測和判斷新的實例。

具體而言,監(jiān)督神經(jīng)網(wǎng)絡、模糊神經(jīng)網(wǎng)絡以及神經(jīng)網(wǎng)絡和規(guī)則的組合已經(jīng)被廣泛應用于電話網(wǎng)絡和財務報表欺詐;貝葉斯神經(jīng)網(wǎng)絡用于信用卡欺詐檢測、電信欺詐、汽車索賠欺詐檢測和醫(yī)療保險欺詐等。

這種類型的模型僅能夠檢測與先前已經(jīng)發(fā)生的欺詐案例相類似的欺詐。想要檢測新型欺詐,還需要使用無監(jiān)督的機器學習算法。

 無監(jiān)督學習 

相反,無監(jiān)督方法不需要預選和標記欺詐類型。無監(jiān)督學習的反欺詐模型使用各維度的數(shù)據(jù)和標簽進行聚類,從而找出與大多數(shù)用戶行為相差較大的,并予以攔截。


3.png


下圖展示了主要反欺詐手段出現(xiàn)的先后以及各自的檢測效果和優(yōu)缺點。


4.png


黑名單和規(guī)則系統(tǒng)不能迅速和有效地應對變化的欺詐手段,顯得有些“后知后覺”。有監(jiān)督的機器學習需要人工標記欺詐標簽來訓練模型,無監(jiān)督學習則可以自動產(chǎn)生標簽,挖掘和聚類未知的欺詐行為。

迄今為止,尚未出現(xiàn)較為成熟和經(jīng)過實踐驗證的無監(jiān)督學習解決方案,一方面,無監(jiān)督學習對于數(shù)據(jù)的廣度、深度都有著極其高的要求,另一方面,我們的對于該方法的探索還有待加強。

無論是使用監(jiān)督方法還是非監(jiān)督方法,輸出僅為我們提供欺詐的可能性,沒有獨立的統(tǒng)計分析可以確保特定對象是百分百欺詐性的,但是模型識別的準確度非常高,尤其是結合黑名單和規(guī)則系統(tǒng)后,綜合準確率會大大提升。

02 反欺詐模型流程

反欺詐模型的流程主要包含數(shù)據(jù)采集、數(shù)據(jù)預處理、風險特征挖掘、模型構建、模型監(jiān)控五個環(huán)節(jié),如下圖所示:


5.png


 數(shù)據(jù)采集 

數(shù)據(jù)的質(zhì)量和維度是成功模型的基礎。在數(shù)據(jù)采集階段,既需要整合內(nèi)部數(shù)據(jù),如用戶申請信息、交易數(shù)據(jù)、網(wǎng)絡及設備終端數(shù)據(jù)等,又需要外部數(shù)據(jù)的補充。許多用于反欺詐的外部數(shù)據(jù)來自法院、公安部、工商局、社保局等,包含了刑事犯罪信息、商業(yè)犯罪信息、違法賬戶等信息。同業(yè)共享的各類欺詐信息也是重要的外部數(shù)據(jù)。

由于數(shù)據(jù)來源廣泛,直接導致數(shù)據(jù)種類和規(guī)模急劇增加。公司在數(shù)據(jù)處理技術方面除了采用成熟的商用數(shù)據(jù)庫外,還應廣泛應用大數(shù)據(jù)分析技術。

 數(shù)據(jù)預處理 

數(shù)據(jù)預處理主要是對數(shù)據(jù)進行結構化的處理,比如數(shù)據(jù)類型轉換、缺失值和極端值的處理等,或是通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉換成適用于數(shù)據(jù)挖掘的形式。

對于客戶數(shù)據(jù),可跨越不同渠道歸集客戶相關屬性,如年齡、賬齡、教育程度、地域等要素,建立客戶畫像檔案,描述客戶特征。對于商戶數(shù)據(jù),應根據(jù)商戶信用評級信息、產(chǎn)品銷售量、商戶類別等要素,建立商戶檔案,劃分商戶風險等級。

 風險特征挖掘 

在風險特征挖掘階段,常用的分析方法有假設分析、關聯(lián)分析、模式歸納分析等。比如,假設分析的目的是對問題提出各種可能的假設,并評估假設的分析過程;關聯(lián)分析旨在從大量數(shù)據(jù)中發(fā)現(xiàn)事物之間有趣的關聯(lián)和相關聯(lián)系。


6.png


對客戶的各類信息進入深入分析,以時間、頻率、距離、比例等統(tǒng)計口徑,建立風險特征庫,比如近3個月交易金額,距離一公里以內(nèi)的申請總人數(shù)等。運用大數(shù)據(jù)技術,計算出每個風險特征對相應變量的貢獻能力,以及各風險特征之間的相關性,選取重要性高和貢獻力強,以及相關性弱的變量,作為后續(xù)建模的備選變量。

 模型構建 

反欺詐模型可使用傳統(tǒng)的邏輯回歸和流行的機器學習模型,比如Boosting算法類別的Adaboost、GBDT、XGBoost等。其中熱門的Xgboost模型,其主要優(yōu)化點在于對損失函數(shù)做了二階的泰勒展開,并在目標函數(shù)之外加入了正則項對整體求最優(yōu)解,用以權衡目標函數(shù)的下降和模型的復雜程度,避免過擬合。

一般來說界定模型的好壞有兩個方面,一個是區(qū)分能力,另外一個是穩(wěn)定性,常用K-S值和PSI等指標來衡量。

模型需要不斷迭代優(yōu)化,才能貼近真實情況。在模型迭代階段,運用交叉驗證等方法,不斷優(yōu)化模型,使模型各項指標(包括準確率、對數(shù)損失函數(shù)、精確率-召回率、混淆矩陣等),達到理想的預測效果。

 模型監(jiān)控 

經(jīng)過模型評估、選擇及審批后,需要技術部門配合進行部署、生產(chǎn)測試,最終投入使用。在模型上線后,定期對模型的穩(wěn)定性、區(qū)分度、精確性等指標進行監(jiān)控。根據(jù)宏觀經(jīng)濟環(huán)境或內(nèi)部業(yè)務的變化,及時進行模型檢測,及早發(fā)現(xiàn)隱患。根據(jù)監(jiān)控結果,在模型性能發(fā)生明顯退化時,根據(jù)退化的嚴重程度對模型進行迭代調(diào)整,或是重新開發(fā)。

03 如何提升反欺詐模型性能

如果發(fā)現(xiàn)反欺詐模型的效果不太理想,可以嘗試從以下四個方面提升:

一是數(shù)據(jù)方面,如果最終模型效果不太好,首先考慮數(shù)據(jù)采集階段的變量維度是否足夠,同時也需要嘗試構建出更多的特征來。數(shù)據(jù)預處理是否到位,是否考慮到各種情況,有沒有犯低級錯誤,導致后續(xù)建模效果不好等。

二是算法選擇,使用一個簡單的算法,比如線性模型,作為基準模型,后續(xù)用復雜的算法來擬合數(shù)據(jù),對比各種模型在所擁有數(shù)據(jù)集上的表現(xiàn)與提升,通常復雜的算法會比線性的算法有著更好的效果,但也意味著更多的調(diào)參時間。

三是算法調(diào)參,一般說來,越復雜的算法所需要的參數(shù)越多。比如神經(jīng)網(wǎng)絡的參數(shù)就非常多,對算法本身需要有一定的了解,再花時間去一步步調(diào)參。

四是模型融合,當我們使用不同的或相似模型不同參數(shù)的模型得到結果后,可將各個模型融合在一起,各模型作為新模型的輸入重新訓練,這樣綜合起來的模型效果可能會出乎意料。

至此,我們還必須認清一個現(xiàn)實:單純依靠機器學習模型來檢測欺詐是片面的。比較折中且可行的方法是把人為欺詐規(guī)則和機器學習模型合二為一,一起來使用。反欺詐模型難度很高,需要和反欺詐領域專家一起協(xié)作才能有最好的結果。

04 結語:技術與風控助力反欺詐

互聯(lián)網(wǎng)金融科技的迅速發(fā)展成為整個新金融不可逆轉的大方向,新技術的逐步應用落地將逐步擠壓“黑灰產(chǎn)業(yè)”的生存空間。隨著市場的相關政策法規(guī)的完善,以及大數(shù)據(jù)、人工智能等技術的應用,互金行業(yè)必將走上發(fā)展的快車道。

有陽光的地方總會有陰影,陰影的存在方能彰顯陽光的難能可貴。技術、監(jiān)管和風控三位一體助力金融反欺詐,金融行業(yè)的太陽每天都會照常升起。