數(shù)字化觀察(100)| 華夏銀行吳永飛等:數(shù)字金融領(lǐng)域小樣本學(xué)習(xí)技術(shù)創(chuàng)新

2022-05-31 15:39:32 銀行家雜志 微信號 

  2022年1月16日,習(xí)近平總書記發(fā)表署名文章《不斷做強做優(yōu)做大我國數(shù)字經(jīng)濟》,指出數(shù)字經(jīng)濟正在成為重組全球要素資源、重塑全球經(jīng)濟結(jié)構(gòu)、改變?nèi)蚋偁幐窬值年P(guān)鍵力量。一直以來,黨和國家高度重視發(fā)展數(shù)字技術(shù)、數(shù)字經(jīng)濟。作為數(shù)字經(jīng)濟的有機組成部分,數(shù)字金融是數(shù)字經(jīng)濟時代實體企業(yè)蓬勃發(fā)展的助推器。數(shù)字經(jīng)濟與數(shù)字金融的發(fā)展并沒有改變經(jīng)濟與金融之間的關(guān)系本質(zhì),而是通過運用現(xiàn)代信息技術(shù)和新興數(shù)字技術(shù),有效提高了經(jīng)濟與金融活動的效率、降低了成本、防范了風(fēng)險。數(shù)字金融的內(nèi)涵是金融行業(yè)及相關(guān)產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型發(fā)展;其外延隨著數(shù)字經(jīng)濟的發(fā)展,逐漸聚焦形成消費數(shù)字金融、普惠數(shù)字金融和產(chǎn)業(yè)數(shù)字金融三種主要業(yè)態(tài)。通過對消費經(jīng)濟、普惠經(jīng)濟和產(chǎn)業(yè)經(jīng)濟進行數(shù)字化轉(zhuǎn)型升級,并以數(shù)字技術(shù)作為溝通銜接,與數(shù)字金融有機結(jié)合起來,形成經(jīng)濟與金融高質(zhì)量、高效率發(fā)展的良性循環(huán),全面推動數(shù)字經(jīng)濟時代社會經(jīng)濟的蓬勃發(fā)展。

  產(chǎn)業(yè)數(shù)字化是數(shù)字經(jīng)濟發(fā)展的重要方向之一,而產(chǎn)業(yè)數(shù)字金融則是產(chǎn)業(yè)數(shù)字化、數(shù)字經(jīng)濟規(guī);l(fā)展的加速器。金融永遠不變的核心本質(zhì)是風(fēng)控,其實質(zhì)是運用現(xiàn)代數(shù)字技術(shù)將數(shù)據(jù)算料通過算力、算法等新型基礎(chǔ)設(shè)施平臺加工成智能風(fēng)控模型,從而降低由業(yè)務(wù)參與各方信息不對稱造成的業(yè)務(wù)不確定性。然而,產(chǎn)業(yè)數(shù)字金融風(fēng)控所使用的數(shù)據(jù)要素情況不同于以往,特別是對公客戶場景化、生態(tài)化細分后,數(shù)據(jù)樣本量很小,難以滿足風(fēng)控建模的需要;而小樣本學(xué)習(xí)目前在機器學(xué)習(xí)與數(shù)據(jù)挖掘領(lǐng)域仍屬世界性難題。本文從小樣本學(xué)習(xí)技術(shù)創(chuàng)新入手,深入探索數(shù)字經(jīng)濟時代下面向產(chǎn)業(yè)數(shù)字金融的小樣本學(xué)習(xí)應(yīng)用研究與實踐。

  面向金融風(fēng)控領(lǐng)域

  的機器學(xué)習(xí)算法模型

  傳統(tǒng)的商業(yè)銀行風(fēng)控體系以定性風(fēng)險管理為主,主要使用風(fēng)控規(guī)則及客戶評級等方法,輔以線下盡調(diào)的方法;傳統(tǒng)風(fēng)控模型對包含客戶歷史行為和相關(guān)活動的數(shù)據(jù)進行分析,但難以預(yù)測性地揭示未來風(fēng)險的變化情況,且數(shù)據(jù)獲取方式單一、定量分析結(jié)果相對較弱。數(shù)字經(jīng)濟時代下面向數(shù)字金融發(fā)展,商業(yè)銀行越來越強調(diào)運用金融科技力量來降低風(fēng)險管理成本、提升客戶體驗,以數(shù)據(jù)驅(qū)動風(fēng)控能效的提升,以人工智能算法為基礎(chǔ)建立智能風(fēng)控評價體系。

  在商業(yè)銀行風(fēng)控場景中,往往會選用一些效果佳、業(yè)務(wù)可解釋性強的有監(jiān)督學(xué)習(xí)分類算法來構(gòu)建風(fēng)控模型,如邏輯回歸、決策樹以及集成算法等。通過內(nèi)外部數(shù)據(jù)融合、數(shù)據(jù)預(yù)處理、特征工程等方法進行數(shù)據(jù)準備,并根據(jù)場景需求及業(yè)務(wù)數(shù)據(jù)特點,選擇合適的算法開展分析建模,并進行模型的部署和監(jiān)測。

  邏輯回歸(Logistic Regression)常用于二分類問題,其原理源于線性回歸,運用Sigmoid函數(shù)把線性回歸的結(jié)果(-∞,∞)映射到(0,1)之間。邏輯回歸因其業(yè)務(wù)可解釋性較強、計算速度較快、對線性關(guān)系的擬合效果較優(yōu)、上線便捷、方便管理等特點被廣泛應(yīng)用于銀行場景的二分類任務(wù)中,尤其是銀行風(fēng)控領(lǐng)域。

  決策樹(Decision Tree)利用其類似于樹杈的模型結(jié)構(gòu),通過對一系列問題進行“是/否”的推導(dǎo),最終以結(jié)構(gòu)圖的方式來解決決策問題。在多數(shù)情況中,決策樹有一個根節(jié)點、多個內(nèi)部節(jié)點和多個葉節(jié)點,因其從“樹根”到“樹葉”可以形成多條分類規(guī)則,模型可解釋性強,同時分類準確性往往較優(yōu)、模型應(yīng)用便捷,因而決策樹算法被廣泛應(yīng)用于金融風(fēng)控建模中。

  集成算法(Ensemble Algorithm)通過組合多個簡單算法形成累積效果,這種方法得到的模型準確性往往更高,可謂“博采眾長”,但模型訓(xùn)練時間較長、模型可解釋性弱。集成算法的思想主要分為三種:裝袋算法(Bagging,亦稱為Bootstrap Aggregating,引導(dǎo)聚集算法)、提升算法(Boosting)和堆疊算法(Stacking);贐agging思想的代表性算法為隨機森林(Random Forest),以及基于Boosting思想的代表性算法為XGBoost和LightGBM,均在金融風(fēng)控領(lǐng)域應(yīng)用較廣。

  上述有監(jiān)督學(xué)習(xí)分類算法往往需要在較大規(guī)模訓(xùn)練數(shù)據(jù)樣本中,通過算法運算對數(shù)據(jù)樣本情況進行歸納提煉,形成知識模型并實現(xiàn)智能應(yīng)用;若模型訓(xùn)練數(shù)據(jù)樣本積累不足(如創(chuàng)新業(yè)務(wù)領(lǐng)域“冷啟動”狀態(tài)),尤其在二分類任務(wù)中“1”“0”標簽分布極度不平衡(如信用風(fēng)險預(yù)測、欺詐識別場景等)的情形下,算法建模效果將大打折扣甚至完全失效。

  基于關(guān)聯(lián)規(guī)則挖掘

  的智能風(fēng)控小樣本學(xué)習(xí)

  關(guān)聯(lián)規(guī)則挖掘技術(shù)(Association Rule Mining)

  關(guān)聯(lián)規(guī)則挖掘問題由Agrawal等人于1993年提出:設(shè)I={i1, i2, ..., im}為所有項目的集合,D為事務(wù)數(shù)據(jù)庫,事務(wù)T是一個項目子集TI。每一個事務(wù)都具有唯一的事務(wù)標識T_ID。設(shè)A是一個由項目構(gòu)成的集合,稱為“項集”。事務(wù)T包含項集A,當(dāng)且僅當(dāng)AT。關(guān)聯(lián)規(guī)則是形如X→Y的邏輯蘊含式,其中XI,TI,且X⌒Y=。如果事務(wù)數(shù)據(jù)庫D中有S%的事務(wù)包含XY,則稱關(guān)聯(lián)規(guī)則X→Y的支持度為S%。若項集X的支持度為Support(X),規(guī)則的置信度為Support(XY)/Support(X),這是一個概率條件P(Y|X),也就是說:Support(X→Y)=P(XY),Confidence(X→Y)=P(Y|X)。為避免挖掘過程中產(chǎn)生過多不必要的規(guī)則,往往引入最小支持度min_sup和最小置信度min_conf這兩個閾值。

  關(guān)聯(lián)規(guī)則挖掘分析能從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間的相關(guān)和關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則挖掘任務(wù)分為兩個步驟:一是頻繁項集的產(chǎn)生,即找出滿足最小支持度min_sup的所有項集,這些項集稱作“頻繁項集”;二是關(guān)聯(lián)規(guī)則的產(chǎn)生,即從上一步發(fā)現(xiàn)的頻繁項集中,提取所有高置信度的規(guī)則(滿足min_conf條件),這些規(guī)則被稱為關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是形如X→Y的蘊含表達式,其中X和Y是不相交的項集,關(guān)聯(lián)規(guī)則的強度可以用置信度和支持度度量。

  基于關(guān)聯(lián)規(guī)則挖掘的分類技術(shù)(Associative Classification)

  在過往的認知中,關(guān)聯(lián)規(guī)則挖掘是一種從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間相關(guān)和關(guān)聯(lián)關(guān)系的技術(shù)方法,最著名的應(yīng)用場景是“啤酒尿片”購物籃分析。然而實際上,關(guān)聯(lián)規(guī)則挖掘技術(shù)也可以用于解決有監(jiān)督學(xué)習(xí)分類問題。該類思想最早由Ali等人于1997年提出;Wang等人于2007年提出針對此類關(guān)聯(lián)規(guī)則的排序和加權(quán)方法,從而有效提升關(guān)聯(lián)規(guī)則挖掘分類技術(shù)的模型準確性;陉P(guān)聯(lián)規(guī)則挖掘技術(shù)開展有監(jiān)督學(xué)習(xí)分類任務(wù)是挖掘形如{X1∪X2 ∪...∪Xm}→{Y0}的規(guī)則,其中Xi=1為特征標簽值,Y0和Y1為類別標簽。在金融風(fēng)控領(lǐng)域,Y0和Y1類別標簽可定義為“未逾期”和“逾期”。

  基于關(guān)聯(lián)規(guī)則挖掘分類技術(shù)

  的小樣本學(xué)習(xí)創(chuàng)新技術(shù)方法

  面向小樣本學(xué)習(xí)技術(shù)創(chuàng)新,尤其當(dāng)處理極度不平衡數(shù)據(jù)集時,本文將關(guān)聯(lián)規(guī)則挖掘分類技術(shù)進行優(yōu)化,探索形成一種可適用于產(chǎn)業(yè)數(shù)字金融風(fēng)控問題(其訓(xùn)練數(shù)據(jù)樣本量小、“壞”樣本數(shù)據(jù)量極。┑年P(guān)聯(lián)規(guī)則挖掘分類技術(shù)方法,創(chuàng)新算法邏輯描述如下(見圖1)。

  圖1 創(chuàng)新算法邏輯

  連續(xù)特征離散化。常規(guī)的頻繁項集挖掘,往往是針對離散變量的,而數(shù)據(jù)中可能存在大量連續(xù)變量。針對連續(xù)變量,首先要采用等寬、等頻或聚類等方式進行離散化處理,以便后續(xù)頻繁項集挖掘任務(wù)的進行。

  “好”樣本頻繁項集挖掘。完成連續(xù)變量分箱后,可針對“好”樣本進行頻繁項集的挖掘,這里的項集要滿足以下條件:一是項集的支持度需比設(shè)定的min_sup閾值高,閾值依據(jù)模型評估結(jié)果動態(tài)調(diào)整;二是盡可能地挖掘出項次高的頻繁項集,項次越高,頻繁項集所包含的信息量也越大。

  模型評估。篩選訓(xùn)練集部分“好”樣本和全部“壞”樣本進行逾期預(yù)測效果評估,評估策略的設(shè)置可包含以下情況:一是根據(jù)命中的頻繁項集數(shù)目進行給定的數(shù)據(jù)樣本評分,按評分排序后,評分小于K的定義為“壞”樣本,否則為“好”樣本;二是未命中任何頻繁項集的定義為“壞”樣本,否則為“好”樣本。

  模型穩(wěn)定。評估此輪訓(xùn)練效果并調(diào)整min_sup和K值重新尋找頻繁項集,直至模型穩(wěn)定。

  模型應(yīng)用。將測試樣本運用頻繁項集和評估策略進行分類。

  在商業(yè)銀行產(chǎn)業(yè)

  數(shù)字金融業(yè)務(wù)領(lǐng)域的應(yīng)用實踐

  以國內(nèi)某商業(yè)銀行產(chǎn)業(yè)數(shù)字金融業(yè)務(wù)為例,針對“加盟平臺型”和“產(chǎn)業(yè)供應(yīng)鏈型”兩類典型業(yè)務(wù),開展應(yīng)用實踐實證分析。該銀行自2021年3月成立產(chǎn)業(yè)數(shù)字金融試點項目沙箱沙盒攻關(guān)組以來,逐步推進開展產(chǎn)業(yè)數(shù)字金融業(yè)務(wù)。在業(yè)務(wù)發(fā)展初期,項目的“好”“壞”樣本數(shù)量欠缺積累,攻關(guān)組采用遷移學(xué)習(xí)思想并直接推進小樣本學(xué)習(xí)技術(shù)創(chuàng)新,為平穩(wěn)渡過和快速跨越業(yè)務(wù)“冷啟動”期提供技術(shù)支撐。

  從業(yè)務(wù)理解到數(shù)據(jù)準備

  “加盟平臺型”項目在借款人類型、貸款額度、還款期限等方面,與商業(yè)銀行普惠金融業(yè)務(wù)相近,但具有明顯的產(chǎn)業(yè)特征,主要體現(xiàn)為“產(chǎn)業(yè)圈”的商業(yè)模式。針對該類項目,攻關(guān)組從銀行企業(yè)級數(shù)據(jù)倉庫提取相關(guān)數(shù)據(jù)樣本和特征構(gòu)建寬表,開展數(shù)字化授信與智能風(fēng)控算法建模數(shù)據(jù)準備工作:選取數(shù)據(jù)倉庫近年來產(chǎn)品類型為個人經(jīng)營性貸款且貸款額度為50萬元以下、還款期限為3~6個月、貸款利率在8%以下的數(shù)據(jù)樣本;定義逾期10天及以上為“壞”樣本,“壞”樣本在該選定數(shù)據(jù)集的占比為3%;以個人征信信息等典型A卡類特征作為初始變量篩選范圍,排除缺失值和集中度過高及相關(guān)性較高的變量后,最終選取歷史逾期類變量2個、歷史額度類變量4個、時間和查詢類變量4個,共計10個變量作為模型特征。

  “產(chǎn)業(yè)供應(yīng)鏈型”項目在借款人類型、貸款額度、還款期限等方面,與商業(yè)銀行對公中小業(yè)務(wù)相近,但具有明顯的產(chǎn)業(yè)特征,主要體現(xiàn)為“產(chǎn)業(yè)鏈”的商業(yè)模式。針對該類項目的風(fēng)控算法建模數(shù)據(jù)準備包括:選取數(shù)據(jù)倉庫近年來貸款額度在1000萬元以下且還款期限1年以內(nèi)、貸款利率在6%以下的對公貸款數(shù)據(jù)樣本;定義逾期30天及以上為“壞”樣本,“壞”樣本在該選定數(shù)據(jù)集的占比為3%;選取“企業(yè)規(guī)!钡褥o態(tài)信息變量3個、“歷史貸款平均額度”等歷史行為記錄變量6個,共計9個變量作為模型特征。

  關(guān)于貸款利率范圍的明確

  在進行上述數(shù)據(jù)準備時,分別將“8%以下”“6%以下”作為貸款利率條件來選取“加盟平臺型”和“產(chǎn)業(yè)供應(yīng)鏈型”項目的風(fēng)控模型訓(xùn)練與測試樣本是因為在沙箱沙盒攻關(guān)過程中,將不同類型的每個產(chǎn)業(yè)數(shù)字金融項目看作一個進入沙盒的測試項目,并將真實發(fā)生的沙盒項目放入沙箱,由沙箱負責(zé)對全部項目開展統(tǒng)一的風(fēng)險定價。該風(fēng)險定價過程以項目為單位,通過對各項目的運營開展數(shù)字孿生,面向各類宏觀因子變動下的風(fēng)險情景,對銀行資產(chǎn)負債管理體系進行相關(guān)仿真模擬,并推演出不同風(fēng)險定價策略下銀行未來經(jīng)營收益情況;進而創(chuàng)新運用深度強化學(xué)習(xí)技術(shù),以銀行未來經(jīng)營的最佳收益為目標,探尋覆蓋沙箱內(nèi)各沙盒項目的綜合最優(yōu)風(fēng)險定價策略。這里“8%以下”和“6%以下”是根據(jù)沙箱給出的最優(yōu)風(fēng)險定價策略,對在數(shù)據(jù)樣本中原本較為發(fā)散的貸款利率特征值進行適度聚向,使模型訓(xùn)練、測試以及預(yù)測應(yīng)用的數(shù)據(jù)樣本在貸款利率特征值范圍上保持一致。

  實證分析結(jié)果顯示,將貸款利率特征值進行聚向處理,能夠使模型準確性等模型評估指標(AUC、KS、Recall)得到明顯提升。此外,精準的風(fēng)險定價策略也對提升貸款質(zhì)量和業(yè)務(wù)綜合收益起到積極的促進作用。

  建模與模型評估

  經(jīng)過前期的數(shù)據(jù)清洗、篩選等處理后,針對連續(xù)變量作分箱處理,以便后續(xù)開展頻繁項集挖掘任務(wù)。模型訓(xùn)練前對原始樣本數(shù)據(jù)劃分訓(xùn)練集與測試集,訓(xùn)練集和測試集的劃分采用分層隨機抽樣方法,即在“好”“壞”樣本內(nèi)分別隨機抽樣;為保證模型的穩(wěn)定性,采取十次分層隨機抽樣的方式進行模型訓(xùn)練,并對十次隨機分層抽樣的平均結(jié)果進行分析及調(diào)優(yōu),最終在訓(xùn)練集樣本量100、300、500(對應(yīng)測試集樣本量100、200、200)且“壞”樣本占比保持在3%的情形下,得到模型測試集平均AUC、KS、Recall評估指標如表1、表2所示。

  表1 面向“加盟平臺型”項目的數(shù)字化授信與智能風(fēng)控模型評估指標

  表2 面向“產(chǎn)業(yè)供應(yīng)鏈型”項目的數(shù)字化授信與智能風(fēng)控模型評估指標

  實證分析結(jié)果表明,本應(yīng)用實踐案例在科學(xué)有效的風(fēng)險定價策略指導(dǎo)下,運用創(chuàng)新關(guān)聯(lián)規(guī)則挖掘分類技術(shù)進行風(fēng)控建模,無論是面對“加盟平臺型”業(yè)務(wù)還是“產(chǎn)業(yè)供應(yīng)鏈型”業(yè)務(wù),均可在樣本量很。ㄓ(xùn)練集樣本量僅為100)且“壞”樣本量極。ā皦摹睒颖玖空急葍H為3%)的情況下,使模型具有良好的預(yù)測識別效果,在保持模型AUC、KS指標不低于0.7和0.3模型上線標準的前提下,使模型Recall指標平均達到0.8的水平,能夠大幅提高相關(guān)業(yè)務(wù)的風(fēng)控能力與工作效率。截至目前,該銀行在產(chǎn)業(yè)數(shù)字金融一年以來的業(yè)務(wù)發(fā)展中未發(fā)生不良,即風(fēng)險客戶識別中非正常類樣本Type-II錯誤率為零。

  數(shù)字經(jīng)濟時代,面向產(chǎn)業(yè)數(shù)字金融風(fēng)控領(lǐng)域的小樣本學(xué)習(xí)問題成為商業(yè)銀行亟待突破的技術(shù)難點之一。本文立足商業(yè)銀行應(yīng)用實踐,在小樣本學(xué)習(xí)領(lǐng)域運用關(guān)聯(lián)規(guī)則挖掘分類算法進行創(chuàng)新技術(shù)突破,并將其實際應(yīng)用于商業(yè)銀行產(chǎn)業(yè)數(shù)字金融真實業(yè)務(wù)場景中,實證效果達到預(yù)期目標。后續(xù),將進一步推進小樣本學(xué)習(xí)技術(shù)面向訓(xùn)練集樣本量在100以內(nèi)的研究和應(yīng)用,以期為數(shù)字經(jīng)濟時代商業(yè)銀行深化產(chǎn)業(yè)數(shù)字金融業(yè)務(wù)發(fā)展提供技術(shù)支撐和借鑒思路。

  作者單位:華夏銀行(600015)股份有限公司,龍盈智達(北京)北京科技有限公司,參與撰稿的有王彥博、趙勇江、張月、譚思頎、孫芳超、胡明珠、程義淇、徐奇、高新凱、楊璇、張軍和劉曦子

  文章刊發(fā)于《銀行家》雜志2022年第5期「金融科技」欄目

  責(zé)任編輯:孫 爽

  976639255@qq.com

  點擊鏈接↓ 了解更多精選文章

  ◆ 數(shù)字化觀察(99)| 馬上消費林亞臣:大數(shù)據(jù)風(fēng)控助力新市民服務(wù)

  ◆ 數(shù)字化觀察(98)| PMO項目管理六大“誤區(qū)”

  ◆ 數(shù)字化觀察(97)| “雙管齊下”應(yīng)對國際數(shù)字貨幣“雙賽道競爭”格局

  ◆ 數(shù)字化觀察(96)| 量子聚類算法在銀行智慧運營場景中的應(yīng)用

  ◆ 數(shù)字化觀察(95)| 隱私立法時代聯(lián)邦學(xué)習(xí)在商業(yè)銀行的應(yīng)用

  ◆ 數(shù)字化觀察(94)| 金融科技管理人才項目制培養(yǎng)模式探索與實踐

  ◆ 數(shù)字化觀察(93)| 科技創(chuàng)新推動金融數(shù)字化服務(wù)轉(zhuǎn)型發(fā)展

  ◆ 數(shù)字化觀察(92)| 內(nèi)部審計視角下的數(shù)據(jù)治理

  ◆ 數(shù)字化觀察(91)| “貝塔銀行”對銀行經(jīng)營的重構(gòu)

  ◆ 數(shù)字化觀察(90)| 數(shù)字化轉(zhuǎn)型重塑銀行價值鏈——訪平安銀行(000001)首席信息官張斌

本文首發(fā)于微信公眾號:銀行家雜志。文章內(nèi)容屬作者個人觀點,不代表和訊網(wǎng)立場。投資者據(jù)此操作,風(fēng)險請自擔(dān)。

(責(zé)任編輯:李顯杰 )
看全文
寫評論已有條評論跟帖用戶自律公約
提 交還可輸入500

最新評論

查看剩下100條評論

熱門閱讀

    和訊特稿

      推薦閱讀