機器學(xué)習(xí)作為人工智能技術(shù)的重要分支,已經(jīng)廣泛應(yīng)用在包含金融風(fēng)控等多個場景中,成為大數(shù)據(jù)與人工智能時代的“基礎(chǔ)能力”。而隨著機器學(xué)習(xí)發(fā)展和應(yīng)用的深入,模型“可解釋性”的問題也越來越被公眾關(guān)注。2021年出臺的《個人信息保護法》,要求自動化決策應(yīng)當(dāng)保證決策的透明度和結(jié)果公平、公正,不得在交易條件上實行不合理的差別待遇;通過自動化決策方式作出對個人權(quán)益有重大影響的決定,個人有權(quán)要求個人信息處理者予以說明。本文基于對常見機器學(xué)習(xí)模型的介紹,以國內(nèi)外真實案例為基礎(chǔ),嘗試探討金融風(fēng)控場景模型可解釋性問題的成因及對策,并給出了一些解釋風(fēng)險認(rèn)定的準(zhǔn)則。
一、機器學(xué)習(xí)模型的信任危機
我們是如何區(qū)分哈士奇和狼的?我們?nèi)祟惪梢酝ㄟ^經(jīng)驗來區(qū)分溫順的家犬和危險的野生動物。但是機器學(xué)習(xí)算法根據(jù)模型分類器的數(shù)據(jù)和權(quán)重,這個結(jié)果的判斷是如何做出的則是個謎。
2016 年,加州大學(xué)歐文分校的研究表明,區(qū)分哈士奇犬和狼的高度準(zhǔn)確的算法并不是通過區(qū)別動物本身的樣貌屬性,而是根據(jù)輔助數(shù)據(jù)做出決策的——特別是雪的存在。這一測試結(jié)果引出了一個重要的問題:如果我們無法解釋機器學(xué)習(xí)算法的黑盒工作原理,我們怎么相信它給出的結(jié)果?
機器學(xué)習(xí)的種類繁多,但是一般我們會根據(jù)訓(xùn)練期間接受的監(jiān)督數(shù)量和監(jiān)督類型進(jìn)行分類,將機器學(xué)習(xí)分為以下兩種類型:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)。
在有監(jiān)督學(xué)習(xí)中,算法需要解決方案的訓(xùn)練數(shù)據(jù)來做標(biāo)簽或標(biāo)記,以此指導(dǎo)算法作出符合訓(xùn)練規(guī)律的決策。簡單的有監(jiān)督線性模型中,我們可以通過檢查分類器的結(jié)構(gòu)獲得線索,從而了解運算邏輯。但隨著模型復(fù)雜性的增加,機器學(xué)習(xí)模型變成了“黑盒”,算法越復(fù)雜,結(jié)果就越難解釋。同時,我們也認(rèn)為數(shù)據(jù)標(biāo)簽越多,結(jié)果也越準(zhǔn)確。準(zhǔn)確性和可解釋性在有監(jiān)督算法的實際落地中產(chǎn)生了矛盾。
二、為什么金融風(fēng)控需要可解釋性?
當(dāng)機器學(xué)習(xí)的預(yù)測結(jié)果對用戶的隱私和安全產(chǎn)生影響,而機器學(xué)習(xí)的建模者或用戶會因此面臨法律或財務(wù)風(fēng)險時,一個具有可解釋性和說服力的風(fēng)控結(jié)論就變得至關(guān)重要。高盛的Apple Card就曾發(fā)生過一起機器學(xué)習(xí)模型訓(xùn)練結(jié)論存在爭議的負(fù)面事件,一位知名企業(yè)家指責(zé)高盛存在歧視,因為他的妻子盡管信用評分比他高,但仍被拒絕增加信用額度,高盛的信用卡業(yè)務(wù)因此受到了審查。這起投訴事件引發(fā)了紐約州金融服務(wù)部(DFS)進(jìn)行了一項關(guān)于算法的調(diào)查,調(diào)查信用額度的算法是否存在性別歧視等違法行為。由此可見,可解釋性是保護消費者權(quán)益的必需品,也是保證金融機構(gòu)健康、安全、合規(guī)運行的重要指標(biāo)。
三、金融風(fēng)控的痛點
雖然我們已經(jīng)了解到可解釋性在金融風(fēng)控中的重要性,但是想要將可解釋性的算法落地在金融風(fēng)控場景并不是一件易事。金融行業(yè)的大數(shù)據(jù)資源豐富,數(shù)據(jù)應(yīng)用由來已久,為滿足豐富的用戶需求和不斷提升的用戶體驗,對金融業(yè)務(wù)創(chuàng)新模式的要求和對大數(shù)據(jù)處理能力的要求也水漲船高。
?數(shù)字化的欺詐風(fēng)險升級
傳統(tǒng)銀行在數(shù)字化過程中,欺詐攻擊也隨著銀行數(shù)字化業(yè)務(wù)的升級一并進(jìn)化,個人欺詐攻擊向有組織的團伙型欺詐攻擊轉(zhuǎn)變,規(guī)模更大,技術(shù)更加專業(yè),所造成的欺詐損失也更多。
?風(fēng)控體系需要智能化與專家決策的有機結(jié)合
隨著數(shù)據(jù)的不斷積累,運營客戶的案例和數(shù)據(jù)的維度都更加豐富,在這種背景下傳統(tǒng)的專家決策模式在效率和精度上都存在問題,所以需要以智能方案為核心、依據(jù)量化結(jié)論形成決策、并結(jié)合專家運營輸出可解釋的風(fēng)控意見。
?風(fēng)控決策時間要求極短
原有的金融風(fēng)控體系響應(yīng)時間長,難以做到實時檢測。當(dāng)前更多的業(yè)務(wù)正在往線上轉(zhuǎn)移,留給技術(shù)后臺的處理時間可能只有一秒鐘,這就對大數(shù)據(jù)處理的技術(shù)架構(gòu)提出了極高的要求。而產(chǎn)生客訴后,留給風(fēng)控業(yè)務(wù)的審核時間也是少之又少。
四、無監(jiān)督模型在風(fēng)控領(lǐng)域的工作原理
一個常見的誤區(qū)是:無監(jiān)督機器學(xué)習(xí)(UML)由于其不需要標(biāo)記數(shù)據(jù)來發(fā)現(xiàn)新模式,更像是一種黑盒模型。
但是,事實相反。
無監(jiān)督學(xué)習(xí)模型可以風(fēng)控領(lǐng)域識別欺詐者時,提供良好的解釋性。無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)的核心區(qū)別是訓(xùn)練數(shù)據(jù)只有自變量沒有因變量(就是沒有Y值)。常見的無監(jiān)督學(xué)習(xí)有聚類算法、可視化和降維、關(guān)聯(lián)規(guī)則學(xué)習(xí)。
聚類或基于關(guān)聯(lián)分析的無監(jiān)督學(xué)習(xí)在風(fēng)控場景可以得到極佳的應(yīng)用,因為它能夠提供出特殊交易或欺詐活動的具體原因代碼,主要是通過聚類出不同維度的特征,如活動、行為、時間和其他因素,結(jié)果常常以可疑的分組形式出現(xiàn)。這些特征可以在模型的圖表中直觀地聚集在一起,這些聚集行為展示了欺詐團伙的可疑活動、聯(lián)系方式和作案規(guī)律。這樣我們既可以獲得高準(zhǔn)確性的欺詐團伙捕捉,又可以解釋機器學(xué)習(xí)的決策理由。
圖中展現(xiàn)了無監(jiān)督機器學(xué)習(xí)的特點,它將可疑用戶和事件聚集,因為從風(fēng)控經(jīng)驗上講:“好人分散,壞人扎堆”。為了集中獲得高的欺詐收益,欺詐者往往會躲避規(guī)則的同時又在規(guī)則的極限邊緣試探,從而形成了一些正常用戶不會出現(xiàn)的行為數(shù)據(jù),這在不同聚類子空間中會被定義為可疑團伙。
五、無監(jiān)督機器學(xué)習(xí)的風(fēng)險事件認(rèn)定
無監(jiān)督學(xué)習(xí)依靠其不依賴標(biāo)簽、捕捉特殊群組、具有可解釋性的這三大特點,它為何能夠在金融風(fēng)控領(lǐng)域成功落地并解決金融風(fēng)控中的核心痛點呢?
?第一,因為欺詐者為逃避風(fēng)控規(guī)則,其手法變化快,僅依賴歷史數(shù)據(jù)和標(biāo)簽往往難以捕捉新型未知欺詐。
?第二,現(xiàn)代欺詐逐漸形成了鏈條化、組織化的專業(yè)形態(tài),巨額欺詐損失的背后是團伙型欺詐者的高效工作。
?第三,金融機構(gòu)追求客戶體驗,而風(fēng)控業(yè)務(wù)人員又不希望規(guī)則造成大量客訴,具有可解釋性的模型至關(guān)重要。
基于這三點,無監(jiān)督學(xué)習(xí)的用武之地可見是風(fēng)控領(lǐng)域。
不過,無監(jiān)督學(xué)習(xí)在實際落地中的可用性和效果一直存疑,人們常問:靠聚類如何區(qū)分是欺詐團伙還是行為良好的團隊?其實,僅靠一些開源的無監(jiān)督算法,比如K-means或DBSCAN,聚類邏輯主要依靠運算距離等方式,這樣的預(yù)測結(jié)果的確是不可用的。想要穩(wěn)穩(wěn)落地,一個可用的算法必須結(jié)合風(fēng)控經(jīng)驗來打通邏輯,也就是在聚類子空間中,“聚”出針對風(fēng)控場景的可疑群組,這既需要經(jīng)驗支持,也有一定技術(shù)門檻。
那么,一個可用的無監(jiān)督學(xué)習(xí)算法是如何判定風(fēng)險事件和欺詐用戶的?維擇科技在服務(wù)全球金融機構(gòu)的案例中,總結(jié)了許多可復(fù)用的聚類子空間和規(guī)則。
案例一:
維擇科技依靠無監(jiān)督學(xué)習(xí)算法,發(fā)現(xiàn)了疑似黑中介代辦的欺詐申請團伙,其中涉及18個申請人分別通過虛假信息包裝提交貸款申請。欺詐者運用了一定的偽裝手法:該群組中申請人的個人信息(名稱、證件號、手機號、家庭地址等)均不相同,大多數(shù)申請人的單位名稱不同。申請時間相對分散在周內(nèi)的不同時間。在一般規(guī)則審查中,很難發(fā)現(xiàn)這些看似不相關(guān)的人是同一個犯罪團伙。
無監(jiān)督算法從不同聚類子空間中摘出了這些申請人的可疑共同點:
?18個申請賬戶中12個賬戶的家庭地址與征信信息中的家庭地址不一致,且11個賬戶的城市信息不一致;
?18個申請均通過手機瀏覽器完成,其中使用的蘋果手機IOS版本較低;
?每單申請過程中均出現(xiàn)登陸的GPS不唯一,且存在跨城市的現(xiàn)象;
?不同申請之間都有登錄同一城市的GPS信息,且登陸的均為蘋果手機。
案例二:
維擇科技在為某股份制銀行卡中心進(jìn)行信用卡反詐場景的檢測服務(wù)時,發(fā)現(xiàn)了疑似養(yǎng)卡提額的團伙,他們緊扣住銀行信用評估系統(tǒng)和風(fēng)控系統(tǒng)的規(guī)則,投入成本并長期保持信用卡活躍,制造出真人刷卡消費的假象。
無監(jiān)督算法則能夠摘出這些持卡人的可疑共同點:
?特定借記卡給多個信用卡賬戶還款,還款金額集中;
?每個信用卡賬戶都在過固定多個商戶交易,且為同一家收單機構(gòu),收單機構(gòu)所在地相同;
?每個卡的消費總額是授信額度的數(shù)倍;
?每天1分鐘同一個商戶消費多筆,且金額類似;
?每天還款1筆,且金額集中。
這兩個案例中的特征合并在一起看,是高度可疑的,但在逐個篩查中極難被發(fā)現(xiàn)。
總而言之,并非所有機器學(xué)習(xí)模型都是黑盒,對于大多數(shù)應(yīng)用場景來說,一定程度的可解釋性足以滿足法律和監(jiān)管的要求。對于金融場景的欺詐檢測,從業(yè)者則更推崇準(zhǔn)確性與可解釋性并存的算法。發(fā)現(xiàn)不同機器學(xué)習(xí)的用武之地,向所有人展示“這是狼,不是哈士奇”的理由。
作者:維擇科技李夢曉
免責(zé)聲明:市場有風(fēng)險,選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: