啊啊啊好爽啊_带着漂亮娇妻去交换h_hdxxxxtubemovieso_欧美日本日韩

大數據+AI打造互聯網金融反欺詐體系

TIME:2018-09-10
分享:

今天分享的主題就是利用大數據和AI結合機器學習的方法在當前的技術環境下面在互聯網金融的一個反欺詐架構,這次分享與線上風控相關。介紹一下中國當前風控環境、反欺詐形態、目前所用的數據和算法如何在反欺詐中應用,將從以下幾個方面介紹。

國家政策對金融監管還是比較嚴格,每個國家應對的也大不相同,我國目前經濟發展迅速,尤其互聯網金融發展迅猛。目前GDP中消費支出占了較大的比例(與美國已經相差不大)消費已經成為巨大驅動力,比重越來越高,尤其淘寶起來很大作用。人們越來越趨向于網上購物,在這個過程中技術也有了飛速的發展,中國在這方面處于領先地位,中國的環境、服務、平臺都非常穩健,這個我們的金融科技打下來非常堅實的基礎。這個趨勢不可逆轉,雖然國家政策表面上收緊,但是還有很多正面意義,互聯網金融近幾年發展也確實存在很多亂象,如暴利、惡意催收。政府收緊其實是一個洗牌過程,如果你沒有技術力量,靠以前這種野蠻手段在新的監管環境你就很難生存。真正依靠數據、科技去驅動,你就可以很好地應對政策。

美國是個人消費實力很強的一個國家,我們以它為標桿。圖中藍線代表中國,紅線代表美國。預測中國短期個人貸款到2020年達10萬億元,可見市場龐大。個人消費不僅僅靠大銀行,還要靠其他小型機構;因為大銀行本身這種特點(客群優質),很難下放到下層服務。在信用風險中欺詐風險在我國占的比例非常高,數額也比較大,經常是有組織的欺詐,如做“網絡黑產”有百萬級人員,市場規模為千億級,很多公司被迫無法經營,據估計,互聯網金融一半以上的壞賬風險來自欺詐風險。對比美國這方面比例就相對小的很多,如一個千億級個人消費,中能達20-30億美元,美國則只有幾千萬美元。原因有一點是美國征信做的比較好,幾乎覆蓋所有成年人。反欺詐就是提高欺詐的成本。

接下來介紹下不同領域的金融欺詐類型,如銀行業釣魚網站,木馬病毒,做一個假的網站;電商行業促銷讓利大部分便宜了黃牛黨或競爭對手—薅羊毛,與此同時退單電信詐騙,刷評,協議支付面臨的銀行卡盜刷等問題也是常有發生;消費信貸中借款人冒用身份、老賴、多平臺借款、黑中介、企業經營異常貸后無法跟蹤等問題。

用技術去做反欺詐都是有針對性的,在進行反欺詐時需要知道欺詐的類型,下面是欺詐分類,有第一方欺詐,第三方欺詐等。第三方欺詐就是欺詐分子通過非法途徑獲取他人身份進行騙貸等欺詐行為;線下欺詐是通過信用卡偷盜,盜取其他用戶賬戶資金的行為或者通過偽造申請材料,線下面對面申請的欺詐行為;申請欺詐是以欺詐為目的,申請個人信貸賬戶以騙取銀行或P2P平臺等機構資金的行為??杉毞譃樘摷偕矸萆暾埡吞摷儋Y料申請(這在反欺詐中很重要,將壞人擋于門外);交易欺詐對數據實時性比較高。欺詐風險是惡意的,自始至終就是不想還貸,信用風險更多的是一種還款意愿或還款能力導致無法還款。信用風險主要是看征信、數據,建模型進行處理,計算欺詐概率,而欺詐是要分清黑白。

接下來我們講一下大數據+AI的反欺詐,風控需要對監管的改變,市場的形態我們都要時常關注。我們雖然不是銀行但是我很多事都是按銀行來做,自己做壓力測試,如果變壞我們能否承受得住,而且我們的反應一定要快。金融危機發生很快根本不會給你思考的時間,如果你去現設計或者反應可能會造成很大的損失。08年危機反應快的銀行會及時剝離壞的資產,后面有機會我們會講如何在經濟危機下處理我們的資產。對于大數據和AI來說,我們并不陌生,任何新技術出來有人會質疑,如數據早就有了只是數據量大了點。最近流行的AI算法其實一點也不新,早就有了只是目前有一定的突破、發展快、效率比較高、得到廣泛的應用,最近消費水平的提升與技術的成熟是分不開的。大數據在美國有種說法叫另類數據。美國征信數據很豐富,它屬于強金融數據,比如我在哪里借了錢、還多少、利率是多少、逾期多少等,這些數據對信貸風險評估是非常有用的,對欺詐風險評估也是很有用的。但在中國這種數據很多人沒有或者缺失不完整,因此補充的數據就非常有效,如有些推廣數據、你有那些銀行賬戶、安裝的APP、消費習慣、年齡段等都與他的資產和收入有關,這是非常有用的。比如手機可以判斷他是一個正常人,不是專門的欺詐。大數據不是結構化的,但是征信數據是結構化的(要求嚴格),因此這類數據分析是很容易的。機器學習提供了很多方法,如統計方法等是非常有效的。美國每個人都有一個信用評分,這個評分準確度非常高,數據結構化,采用邏輯回歸方法 。在中國你有這種高維的、稀疏的、數據準確度可能會有問題,但是利用機器學習的方法也可以達到很好的精度。

大數據是多維的,例如在海外,不同的國家有不同的數據,如在巴西一個項目,他們有稅務的數據,這個是公開的,也能很好地評估你的收入;還有些國家有電信的數據,如東南亞分期付款手機業務,這不屬于金融數據,這方面包含數據有很多(地址、戶籍,手機是什么)。手機型號用的網絡進行比較,位置指標,這些都是很好的指標。提取些規律和緯度,這些在建模時都是很有效的。

我們常用的一些反欺詐的數據和方法有:(1)身份驗證,這個是非常重要的,身份驗證在中國很偉大,如中國解決了第三方欺詐的問題。因為中國手機實名認證,有些時候你很難去做假,這樣我們可以交叉驗證,這樣就提高了欺詐的成本;(2)法院/征信信息,內部黑名單,有公司會專門整理這些信息,可以公開給我們使用。用戶信息整合,通過各公司間信息碰撞,規則匹配,如果發現過去欺詐行為就不給他提供金融服務;(3)模型,評估用戶行為,進行規則評判他這種行為是不是欺詐,如何減少錯殺準確抓住欺詐人員。

下面是欺詐與未知欺詐甄別問題,主要是監督學習和非監督學習。監督學習是知道一個人以前欺詐(父母信息不對,電話號碼有誤等),我們就會打上標簽,歷史數據就會訓練我們的模型,統計模型所用數據大都都是有標簽的;非監督學習也是經常使用的,因為欺詐是經常改變的或不同特征的,我并不知道他是否是欺詐,我們用關聯網絡,每個人間有聯系,這種網絡快速發展;還有一種是兩者結合起來,利用權重評估。

下面是反欺詐常用算法,比如邏輯回歸,并不是就不用了,因為它的解釋性非常好。機器學習很多時候是黑盒子,中間過程無法獲取,而銀行很少用機器學習的方法,因為監管就無法通過(比如它要了解你的資產質量,但是它連你怎么評估都不清楚,它不會認可你的結果),因此很多大銀行都會用邏輯回歸。而機器學習存在過擬合現象,很難匹配一個度。因此在風控行業經驗非常重要,有一句老話講“風控是技術和藝術的結合”,這絕對不是純技術問題,單純靠技術是會存在風險的。

復雜網絡這一塊用的非常多,很多公司都有開發,只是網的大小問題,人都是有關系的,無論是微信或是Facebook等的人都是通過網絡聯系在一起的。而且“物以類聚,人以群分”,欺詐團伙因素,比如不一定你是欺詐,但是和欺詐有關系的人風險會很高。如通話記錄、短息記錄、住址等利用模糊匹配。提一點在欺詐模型評估時主要用到準確率和召回率指標。

接下來講一下我們線上的一個反欺詐系統框架,下圖簡化了實際反欺詐系統。介紹了基本流程,首先是身份的交叉驗證,證明你是你。不光是銀行卡、手機、身份證交叉認證,還有你的照片、活體認證(你在上面動來動去);內部數據和外部數據有一個決策引擎,這里面存儲了各種規則;接下就是一個評分分析系統,這些數據有手機的行為數據也有其他外部數據(不可控,最好有個穩定模型進行備份);除此之外還有個預警系統,對我們的模型進行監管,需要對實時數據進行一些評估,這一點也是非常重要的。

下面是欺詐模型建模過程,底層是基礎數據的數據倉庫將所有外部數據、內部數據、不同來源的數據搜集起來。中間層是如何提取一些特征,將多維的、離散的數據進行整合。模型是金字塔的頂端,一個好的模型往往是非常困難的,社會上也很缺乏這種人才。

閉環系統也就是打標簽,比如我們公司就有專門的反欺詐的專員不僅對已有的客戶,也會追蹤一些論團、微信群或者黑產群、戒賭吧,了解他們的動態,搜集數據,這些會反饋在我們的模型上。及時獲取最新欺詐手段或技術非常重要。

對未來一點展望,欺詐永遠不會停止、不會消失,尤其在中國征信沒有完全建立,人口多,社會缺乏金融知識,對征信了解很少,收入差距比較大的環境下,欺詐現象會長期存在,這在風控里面是考慮的一個重要部分。征信體系的建立和完善,雖然這個過程會很長;目前第三方反欺詐公司推出的服務產品有同質化的特點,預計行業發展到后期會競爭加劇,最終會形成幾家專業化的行業巨頭。(文字來源:今日頭條)