欧洲国产视频_自拍视频在线_www.精品_国产小视频免费_日韩在线_av黄色天堂

螞蟻金服首屆ATEC開發者大賽人工智能大賽圓滿落幕,一文詳解最佳解題方案

作者:葉子 來源:樂購科技 2018-10-18 09:52:26 閱讀 我要評論 直達商品

  

 

  摘要:一個歷時4個多月、吸引了5618位參賽選手、Michael I. Jordan和螞蟻金服CTO親自在證書上簽名的大賽。

  杭州·云棲大會期間,首屆“ATEC 螞蟻開發者大賽人工智能大賽”在ATEC展館落下帷幕。

  此次大賽于今年4月18日預報名啟動,8月26日復賽結束,持續時長131天。“不錯的業務場景”及“真實的數據集”吸引了來自來自全球20多個國家地區1000所院校及企業,近1/3海外高校,共5618位選手參賽,是一場真正的國際化頂級比賽!

  值得一提的是,參賽者中,擁有碩士及以上學歷的占比70%,行業界人士占比40%,這讓此次比賽更為激烈和貼近實戰。

  此次大賽分為“風險大腦-支付風險識別”、“金融大腦-智能客服NLP相似度計算”兩個賽道,兩個賽道各有五支隊伍進入決賽,進行現場演示和答辯。排名前三的團隊(共6支隊伍)共獲得120萬元現金獎勵,并獲得直通螞蟻金服集團技術崗的終面資格。

  頒獎典禮上,螞蟻金服科學智囊團主席、加州大學伯克利分校教授Michael I. Jordan,螞蟻金服副總裁、首席數據科學家漆遠等學術及行業嘉賓為獲獎團隊頒發了獲獎證書并簽名、合影留念。

  

 

  Michael I. Jordan在獲獎證書上簽名

  清華大學朱軍教授、哈爾濱工業大學劉挺教授也出席了頒獎典禮,他們是大賽評委。

  朱軍教授是支付大腦的評委之一,他對比賽做出了這樣的點評:“AI用到金融里,現在不管是學術界或者是應用,都是大家比較關心的。但是AI要用到行業里、想做出好的解決方案,需要對問題和場景有非常深入的理解。我覺得你們都非常了不起,能夠把機器學習算法用到實際里。雖然大家的思路都比較一致,但我覺得里面有很多精細的工作,做得還非常漂亮。特別是看到除了特征工程之外,大家對原理和方法有一些自己的思考,我覺得這個是特別值得鼓勵的。不管是從學術界還是從工業界來看,我希望能夠看到更多更有意思的例子和成果。”

  金融大腦的比賽結束后,劉挺教授現場致辭:“現在這個時代真的是工業界領先的時代,搞NLP的人,我們的優勢是能夠和工業界結合,去拿到他們的真實數據。我們現在有機會和工業界合作,我希望大家更多去傾聽工業界的聲音,他們提煉出真實的問題、提供真實的數據。未來,希望大家能更深入地去分析,從原理上、從本源處去發明創造,去拐大彎兒。”

  “優秀的數據集和場景”吸引了參賽經驗豐富的工程師應縝哲,他是金融大腦賽道亞軍Skyhigh的隊長。Skyhigh是一支參賽經驗豐富的隊伍,共有三名成員,除了已經工作了的應縝哲,還有兩位研究生。自2017年認識以來,三人組團參加了五六次比賽,且都取得了不錯的成績。

  應縝哲說,“這次比賽是國內一個非常好的中文的課題,這種賽題非常少。數據很真實,我們做了很多特征工程,這是這個比賽我認為最有意思、也是我花時間最多的地方。如果下次比賽,賽題還這么有趣,我還會來的。”

  螞蟻金服這次精心呈上的兩個經典賽題究竟是什么?兩支冠軍隊伍又分別給出了怎樣的解題方案?下文將作出詳細解答。

  “風控老兵”來參賽,斬獲冠軍

  移動互聯網的新金融業務在蓬勃發展的同時,黑產攻擊的能力也在不斷升級。信息泄露導致過億的敏感數據被盜用、利用,給用戶和銀行帶來了巨大的經濟損失。保護消費者和風險識別,越來越成為金融行業和學術界關注的焦點。

  在這一背景下,螞蟻金服設置了“支付風險識別”的賽題:用2017年9月到10月的交易數據構建算法,識別2018年2月的交易欺詐行為。

  這一賽題,吸引了多位金融科技領域的資深從業人士來參賽。斬獲冠軍的,也是“風控行業的老兵”,他們的解決方案兼具“創新性”和“實用性”。

  “我們是一支來自上海的隊伍。”“謀殺電冰箱”的隊長熊文文說,團隊共有4人,平均年齡27歲,都來自互聯網金融行業,對風險控制和風險模型的開發有一定的了解。

  “這個比賽提供了一個新場景——支付場景,大家就都想試一試。”熊文文說,他們之前在信貸場景下做風險控制,不同于支付場景中的風險控制,“信貸主要是刻畫一個人(賬戶)的資質情況,支付不是刻畫賬戶的資質、而是刻畫某單交易異常的情況。”

  如何解題?他們的特征工程以交易的賬戶(人)、交易賬戶所處的環境、與這個賬戶交易的商戶三個要素為核心,結合這三要素交叉時間維度,尋找靜/動態異常交易的特征。

  通過數據分析,他們發現,“盜刷交易存在一定的集中性”。比如,1%的用戶覆蓋了80%的盜刷時間;某用戶在3天內被盜刷幾百次;某交易方(也即商戶)交易1175次,其中80%是盜刷。“如果之前的交易就是有風險的,如果能檢測到之前風險的話,那我就可以在判定這單交易時,把風險加進去。”于是,他們創新地提出了“先驗風險信息”的概念,并設計了一個可以提煉先驗風險信息的模型結構來強化識別效果。

  他們將數據按照時間的先后分為第一個月的數據和第二個月的數據。首先,通過第一個月的數據訓練3個子模型(各有側重),這3個子模型的AUC停留在0.986左右,判定分數在0.56-0.57之間;再利用3個子模型對第二個月的數據進行預測,進而得到第二個月每單交易的三個風險分數(即先驗風險);最后通過風險分數及其衍生變量,加上第二個月數據的常規變量,訓練得到模型D。模型D給出的結果即為最后的結果。最終,模型D線下的測試AUC可以達到0.991,線下的判定分數能達到0.7。

  

 

  此外,他們還挖掘了一些白名單的規則:如,用戶每月3000筆以后的交易可以直接定義為正常;設備每月400筆之后,可以定義為正常。“通過白名單的規則,大概可以覆蓋10%的樣本。通過白名單規則,又可以將判定分數提升幾個千分位。”

  分時間段建模、將效果不好的早期數據化作變量、進行融合建模的做法以及策略+模型的解題思路,讓他們取得了第一名的成績(A榜得分0.627,B榜得分0.797),也斬獲了評委們的心。

  逆襲:從第十一到第一,“有一種觸電的感覺”

  “金融大腦”的賽題是問題相似度計算,即給定客服里用戶描述的兩句話,用算法來判斷是否表示了相同的語義。

  “這個任務非常有實用價值。“一支優秀的隊伍”是此賽道的冠軍,隊長段譽說:“想象你在做一個客服系統,事先會有一個問題-答案的表單,客服的工作其實就是在面對用戶的提問時,迅速找到與之最接近的問題,并整理出答案來給用戶。文本匹配系統一旦做的好了,可以直接解決第二個階段的問題,也是最需要人力的部分——找到最接近的問題,這能大大減輕客服的壓力,讓他們去解決真正困難的問題。”

  最先獲知這個比賽的是研一師弟梁嘉輝,他剛開始接觸NLP,“想通過這個比賽提高自己的能力”。因為一個人參賽難度太大,便找到“正處于學術空檔期”的段譽(研三),共同組隊參加比賽。一個關鍵BUG的解決讓他們從第十一逆襲到第一,“有一種觸電感覺”。

  與進入決賽的其他4支隊伍相比,他們在特征工程上花費了很少的時間,主要立足于對模型的充分改進和探索,將單一模型的效果發揮到了極致。

  他們的最佳成績是將三個模型ensemble后得來的,這三個模型結構大概相同,只在細節(例如模型輸入)上有細微差別。他們的最優模型如下:

  首先,他們的模型輸入為五個層面的char-level feature,除exact match、idf外,自動提取了幾個特征:用skip-gram在本地訓練300維char embedding,為了防止過擬合,訓練時是fix住的;為了彌補因fix而損失的模型能力,額外引入了50維可以訓練的char embedding;利用其他文獻的方法分別提取了1維的句子間特征以及1維的句子本身特征。

  通過輸入層后,引入Noise+Dropout,用來提升模型魯棒性,再用bi-GRU當作encoder,并引入fuse gate來加速信息流通,然后用一層mlp+殘差進一步整合信息。之后對兩個句子進行對齊。對齊之后,通過正交分解,分別提取相關性和不相關性的信息。

  用Multi-Head attention + Multi-Head pooling對相關信息、不相關信息進行推斷后,再過一次一層mlp+殘差,然后分別得到相關信息表達、不相關信息表達。用fuse gate對兩方面的信息綜合考慮后,再經過dropout以及兩層MLP,得出最終的結果。

  

 

  段譽在論壇里分享了自己的經驗,他寫道:“從一開始我們就選擇了ESIM模型,相比現在動不動就好多層網絡結構的NLI模型,ESIM思路清晰、能說服我們、網絡結構相對簡單、沒有用很多trick、擴展性也強、效果很棒,所以就一眼相中了。”

  “對于NLP語義相似度識別這個任務來講,模型的潛力是蠻大的,我們沒有做任何的預處理,完整地保留了每個句子的所有信息(當然了padding和截取是必須的)。我們沒有使用詞級別的向量,而是純用的字級別的向量,在做實驗的過程中發現基于詞級別的結果普遍要差一點,這和分詞質量不無關系,而且本人認為GRU、LSTM這樣的網絡因為引入了fuse gate,已經具備一定程度的分詞作用了。但是可以料想的是,如果經過了良好的分詞處理,結合word和char級別的embedding,應該是有一定幫助的。”

  梁嘉輝表示,通過參加這次大賽,他體驗到了深度學習的魅力,也明確了未來的研究方向,“就是NLP(自然語言處理)”。

  通過大賽解決實際問題,是螞蟻金服的初衷。“我們非常歡迎更多人參與進來,能夠去學習新技術、用技術解決實際問題。”螞蟻技術合作與發展部的柴文意是此次大賽的負責人,她表示,此次比賽結束后,螞蟻金服將會把賽題和數據開放出來,也會盡可能地將參賽者的策略、方案應用到螞蟻金服的真實場景中去。

  漆遠表示,“這(此次比賽)只是一個開始,我們會把這個作為一個長期的機制——打榜機制,開放出平臺,讓更多朋友參加這個比賽。”

  

 

  螞蟻金服副總裁、首席數據科學家漆遠

  “ATEC大賽是一個非常好的鏈接生態的平臺,將會持續舉辦。”柴文意表示,接下來,他們會在不同領域推出不同賽題,把行業中一些通用的問題提煉出來,把一些脫敏過的數據開放給選手,“讓他們在這個過程中得到鍛煉和學習”。


  推薦閱讀

  2299元的聯想S5 Pro穩了!“偶像級自拍”效果或追平華為Mate 20

要知道,海外定價不菲的華為Mate 20采用了2000萬像素超廣角徠卡三攝鏡頭,可實現超廣角和超微距拍照。在擁有如此配置華為Mate 20面前談穩,那么,聯想S5 Pro的偶像級自拍的“穩”究竟有多厲害?>>>詳細閱讀


本文標題:螞蟻金服首屆ATEC開發者大賽人工智能大賽圓滿落幕,一文詳解最佳解題方案

地址:http://www.xglongwei.com/a/05/307555.html

樂購科技部分新聞及文章轉載自互聯網,供讀者交流和學習,若有涉及作者版權等問題請及時與我們聯系,以便更正、刪除或按規定辦理。感謝所有提供資訊的網站,歡迎各類媒體與樂購科技進行文章共享合作。

網友點評
我的評論: 人參與評論
驗證碼: 匿名回答
網友評論(點擊查看更多條評論)
友情提示: 登錄后發表評論,可以直接從評論中的用戶名進入您的個人空間,讓更多網友認識您。
自媒體專欄

評論

熱度

主站蜘蛛池模板: 欧美性猛交xxx乱大交 | 九九大香尹人视频免费 | 欧美性bbbbbbsbbbbbb | 日本高清视频一区 | 久操资源 | a亚洲视频| 国产免费人成在线视频视频 | 国产高清视频在线播放www色 | 欧美日韩性视频 | 黄毛片在线观看 | 国产精品亚洲第一区焦香 | 日本三级网络 | 日本一区二区三区在线 视频 | 天天操天天摸天天舔 | 人人插人人澡 | 国产成人精品aaaa视频一区 | 性做久久久久免费看 | 激情五月婷婷丁香 | 久久久久久久免费视频 | 99视频只有精品 | 日韩精品视频网站 | 一本一道波多野结衣一区二区 | 欧美一区二区三区男同 | 欧美日韩亚 | 99久久999久久久综合精品涩 | 久久精品国产精品亚洲人人 | 国内精品在线观看视频 | 国产在线操 | 人人狠人人透人人爱 | 亚洲黄网免费 | 韩国精品一区二区 | 99视频一区 | 欧美视频不卡一区二区三区 | 国产丝袜 | 国产性大片黄在线观看在线放 | 美女福利视频一区 | 国产精品欧美韩国日本久久 | 欧美三级在线观看黄 | 天天摸天天草 | 免费观看性行为的视频网站 | 亚洲欧美日本视频 |