近期,虎博科技技術副總裁譚悅做客雷鋒網AI金融評論公開課,以如何利用NLP釋放搜索框潛能,提升金融業客戶服務品質為題,從NLP在金融領域的
近期,虎博科技技術副總裁譚悅做客雷鋒網AI金融評論公開課,以“如何利用NLP釋放搜索框潛能,提升金融業客戶服務品質”為題,從NLP在金融領域的落地出發,詳細分析了面向行業的搜索框需求所在,以及打造搜索框的技術門檻。
關注微信公眾號 AI金融評論 ,在公眾號聊天框回復“聽課”,進群可收看本節課程視頻回放。
以下是譚悅演講全文與精選問答內容:
NLP+金融的6大應用場景
人工智能這個概念已經火了很長一段時間,但自然語言處理的應用其實才剛剛開始。
從技術和應用具體劃分,一般來講金融科技分成三層。最底層的基礎設施,主要就是現在的云計算平臺,比如阿里云、騰訊云、華為云等,很多大金融機構也開始自建私有云。
大數據的技術越來越成熟,算力、計算平臺的解決方案通用化,使得大家能夠像一個組件一樣快速地應用到大數據。
另外,在芯片層面,包括GPU,和一些專門針對AI進行優化的芯片,可以把原先很多算法層面的東西通過硬件來加速、實現,大大提高了我們的算力水平。
基于這些基礎設施之上,又具體衍生出了很多技術,包括像計算機視覺、生物識別、語音識別、語音合成,還有自然語言處理、知識圖譜,以及機器學習、深度學習,它們都層出不窮地開始爆發出來,還不僅僅是停留在論文層面,而是可以逐漸地真正地落地到實際的業務場景當中,發揮真實的作用。
在應用層的話,有智慧銀行,各種業務都可以直接語音來辦理,甚至有些機器人客服可以幫你完成很多操作;智能保險在保前、保中、保后都會有各種智能化的一些產品或服務。
智能投顧和投研比較偏向于在投資領域,像券商能夠利用一些歷史大數據,同時針對不同用戶對風險、偏好的一些分析,來提供有針對性的投顧和投研產品;智能監管在監管層面越來越多地開始在應用。
AI的技術是有生命周期的,從剛剛研發出來,可能是理論層面或學術界討論很多,當它真正有技術、有推出、可以落地后,會逐漸在某一個階段開始有一個爆發性的增長,再進入一個成熟期,逐漸地這個技術再進行衰退。
人工智能技術從整體上來講,這個技術的生命周期有過三波,我們現在已經是在第三波的生命周期當中了,我們現在所說人工智能是基于最新的大數據、云平臺和深度學習等各種各樣的技術整合出的新一代的人工智能技術。具體的各項技術所處的生命周期階段也不一樣。
最近一段時間大家可能感受到比較多的還是在計算機視覺、語音識別、語音合成方面的應用,基本上你在銀行上辦一個業務,給你人臉識別一下,身份校驗,這都是很常見的。
還有語音的識別可以直接地語音發問題,甚至有的時候有一些業務員打電話你跟他聊兩句發現這原來是個機器人,一開始都沒有聽出來。這都說明現在這兩種技術,其實相對是已經在一個從初級到成熟的過程當中,也就是在高速增長,這部分也催生了非常多的AI的一些獨角獸公司。
虎博科技現在主要聚焦在NLP,即自然語言處理,有一些項目的落地,并還在不斷地摸索和創新,尋找比較成熟的能夠真正推進業務的一些使用場景。
我們現在能夠看到的在金融領域一些最常見的應用場景,總結下來大概是這么幾項:
智能搜索
首先,。這種企業級的垂直類搜索,不再僅僅是網頁、新聞,而可以是很多垂直的深度信息,比如說證券、研究報告、大宗商品、理財產品等等各種行業的垂直的信息搜索。
智能營銷
第二,。現在很多產品在推薦時都進行了深度的用戶畫像分析,知道你是什么樣的風險傾向、偏好、消費能力、家庭情況等等,這樣銷售推薦的商品就非常定制化。
比如說你剛工作,可能就會給你推薦保險類;等到你工作小有基礎,就開始推薦理財產品,看儲蓄是不是可以得到更多的收益;等到它預測你應該要結婚、生小孩了,就開始推薦兒童保險,或是給孩子未來的儲蓄等等——很多時候你接到這樣的信息,就已經是被精準定向到了一個范圍內。
智能輿情
第三,?,F在很多的信息和事件,都是從網絡上先爆發起來的。如何通過全網的信息,不僅是傳統媒體,還有自媒體,快速識別和預測潛在風險,風險可能是跟個人關聯、企業、產品相關聯。
智能風控
有了這些輿情的信息以后,金融機構做,就可以把信息用于一些風控和預警的場景,比如說銀行的貸款客戶,或者是供應鏈上下游關系,比如簽訂合同前需要知道公司前景。
當然現在一些企業征信數據可以查到,但更難的地方在于怎么樣通過一些線索來預測——不僅是感知,而且能夠預測潛在要爆發風險的可能。
前面說到的兩個應用偏向于如何控制風險,接下來說到的應用偏向于如何提升我們的服務質量。
現在像C端用戶用得比較多的頭條、抖音,其實很多信息原先也在那里,但能夠根據用戶偏好做定制。
這種通過機器深度加工之后的服務,給人的感覺會跟原先的不一樣。比如去銀行開卡,可能需要取號排隊,現在機器上身份證輸入,人臉識別掃一下,人工摁個指紋,整個流程就辦完了。不僅在銀行,包括政府,越來越多的流程都在應用這些智能服務,簡化流程,提高效率。
智能運營
公司方面,以前可能是大家開會探討運營和推廣,現在很多運營都是數據來推動的,比如說文檔審閱、機器翻譯、信息抽取、市場熱點的判斷等等。只有通過這種全網的信息不斷地反饋,監控現在的市場熱點,才能更好調整運營的步驟,人力也可以減少。
比如車險出保,以前要有專門的審核員,現在手機拍一下車輛就知道這個情況能不能出保,流程就自動進行下去了,這就大大減輕運營的成本。
智能搜索的價值釋放
大家在移動端產品上獲取信息或者接受服務時,主要有三種路徑。從銀行、券商APP或者是美團、支付寶等APP上都能夠看到,幾種交互方式是并存的,在不同的場景下發揮自己擅長的作用。
卡片式
首先是,或者九宮格的門戶,它有很多功能羅列出來,這種一般都是比較大的板塊,可以在首頁提供各種各樣的服務。
但幾十個圖標在上面,不好找?,F在的改進方式是,可以對菜單進行個性化的定制,這比單獨列出來會好一點,但肯定還不夠。
智能客服
用戶看完菜單,可能需要進去做事情或者找點信息,那么第二種方式就來了——它是一種類似于的方式,比如現在一些移動運營商的APP,可以通過客服對話的方式來獲取一些服務,也許是人工直接對接,也許一些常提的問題可以通過機器的服務解決。
搜索框
最后還有一種方式,當你想要的服務、你的問題開放性更強,也可以通過來提出你感興趣的問題,直接在搜索框里面搜索。
這搜的可能就不僅是一個內容、一條新聞,還可能是某個產品、某個功能,你想做的一件事情等等,這都可以通過搜索框來統一觸達。
總結來說,卡片式門戶只能是最基礎的大類功能,如果把所有小類放上去,最后就變成大迷宮,找不到自己想要的東西是什么。但它能列的基礎功能又很有限,很難承接現在越來越豐富的服務和產品。
這有點像是互聯網爆發時期,一開始可能是通過產品黃頁或者門戶網站就解決問題了。
但隨著網頁內容越來越多,這時候谷歌、百度這樣的搜索引擎就開始出現了,這是信息爆炸必經的一個路徑。
智能客服,已經有一些智能化的人機交互,基本上是多輪的問答方式,一個問題過去以后得到的信息是相對比較明確也有限的,不可能一下子把很多信息都給到用戶。
這里更常見的是相對簡單的操作,可以在一輪或幾輪對話之后就完成的工作。比如你只是想把手機流量套餐改一下,插敘出行路線是否符合國家疫情防控的需要。但如果你是想寫行業研究報告,那這種對話式的搜索結果其實解決不了問題。
最后就是搜索框,它的好處就是只有一個單一的入口,非常簡單,基本上用過搜索引擎的人都知道它是做什么的,是一種下意識的選擇,有什么問題就提。
它能夠呈現的答案也非常豐富,可能是一個搜索列表,也可能是直接給你轉跳到某一個業務辦理的地方,或把各種內容通過多類卡片的融合來展現,這個取決于應用提供的內容本身。
把很多隱藏比較深的功能觸達到用戶
整體來講,搜索框的優勢還是比較明顯:它可以提高用戶的使用體驗,。
大家如果經常用電商產品,就會發現它不僅僅是個搜索框,它會不斷地推薦出熱門內容和你可能會感興趣的內容,已經變成了人機或人和產品之間交互的一個小窗口。這也是一種可以用于營銷、觸達用戶、推薦產品和優質內容的入口。
不過搜索框其實也有一定的技術門檻。用戶提問五花八門,同一個事情有十幾種講法,甚至可能用不同的語言來問,怎么真正理解用戶的意圖、關聯到最相關的內容上?
智能搜索背后需要哪些技術支持?
具體有哪些技術,是在面向行業的搜索產品需要用到的?
在談技術門檻之前,先說說行業垂直搜索,和像百度、谷歌這樣的網頁搜索,或通用搜索引擎,它的差別在哪里?
大家經常用的話,可以感覺到,像百度、谷歌基本上能搜到的內容,像網頁、知道、貼吧、地圖、圖片等等,基本上是相對比較通用的圖片、文字及地理信息檢索的一個入口。
但要在金融,或是其他一些行業垂直領域,它要搜的東西其實是非常專業的。
舉個例子,比如說最近疫情,有些上市公司現在開始調整經營策略,開始來生產防疫設備,比如口罩、呼吸機。你想知道,最近一段時間在生產口罩的公司,或者開始轉型做醫療設備的公司有哪些。
當你提問,比如問的是“醫療設備”,那么要搜的內容就不能僅僅是醫療設備這四個字,而是要能夠理解醫療設備這個概念背后所代表的產業鏈。這是一個實體,它對應的關系和關聯到的其他實體有哪些。
口罩也好,呼吸機也好,這些內容如果只是單純地通過關聯次層面,你是無法感知到的。
所以底層需要一個針對特定領域的、比較專業的語義模型和知識圖譜來支撐,才能在用戶有類似提問時,一瞬間理解到醫療防疫設備代表哪些內容,同時又有哪些公司和這些內容相關聯。
但這些信息,其實是出現在很多相對專業的內容里面,比如公司公告、行業研究報告,或者是一些招投標的信息。
這些數據本身是深埋在很多深度的文檔里的,它可能是一個PDF文件,也可能是一個Excel表格,也可能是一個網頁的公告,這些東西如果沒有全盤整合、做數據或者知識的深度挖掘和提取,是很難直接匹配到的。
這個過程需要有一些技術。
首先,數據方面,從傳統的金融數據到一些非結構化的文檔,甚至還有另類數據全盤的覆蓋,深度理解這些信息,把不同格式、不同類型的內容里涉及到的關鍵實體、主題、知識提取出來。
提取出來之后能夠通過一些大數據、NLP的方法形成信息數據中臺,還要保證時效性。
同時,各種類型的內容要通過綜合化的排序整合,這個也是虎博搜索一直在做的、在深度優化的工作。
第一步,就是底層的文檔的加工,從文檔的格式轉化、知識圖譜的挖掘、語義模型的訓練到知識條目的整理,因為數據量很大,從工程角度來講也會優化索引數據的一個構建,這些步驟基本上是缺一不可的。
用戶口語化搜索意圖理解
整理清楚數據之后,第二步就是怎么更好理解用戶的提問意圖。
有時候用戶想要的是一個具體的實體,有些時候是想要你幫他做一件事情,有些時候是一些條件的篩選。
為了讓搜索引擎更加智能,更像是獨家顧問的角色,就需要去理解很多用戶的問題當中所涉及到的實體、含義,或者是一些指標或條件的篩選,并且把它轉化成底層搜索引擎能理解的條件,最終從知識庫里面把海量的信息能夠召回,再整合,并進行重現。
文檔信息深度提取
這當中涉及到的核心技術,剛才也陸續提到了一些,比如說PDF文檔的深度提取,比較完美的還原,表格、文字、圖片,甚至是目錄結構、核心觀點,都從這種非結構化的報告、文檔中提取出來,其實這就是把非結構化文檔變成類似于半結構化的知識,這樣才能在后續里更好分析和檢索。
金融NLP語義模型
我們針對金融領域,也做了比較多的預訓練模型。如果所有的模型都等到用的時候,再去訓練或迭代,它本身更新的時效性肯定沒有辦法達到要求。
所以我們針對金融領域這些海量語料,包含數百億字的內容,進行深入的訓練,得到了專門針對中文的金融領域的語義模型,包括詞向量及現在比較主流的BERT等等,這樣再應用到算法層就會非???。
實體關系識別/抽取
從非結構文檔中提取知識,比如從新聞中通過模型自動預測或識別實體、人名、關系、數字、指標等等信息,這些信息后續是可以通過半自動的方式,自動構建出一些知識圖譜。
以前這種知識圖譜的構建還是偏向于專家的系統,然后通過專家意見來構建,這種方式對預先知道的知識依賴非常大,人力投入也相當巨大,可以借助自動化的方式大大縮短這個過程。
智能語義標簽
我們也在研發一些標簽的體系。標簽最大的好處就是,可以把語義相關的概念抽象出來。
比如剛才提到的醫療設備,就是一個非常典型的概念標簽、行業標簽,還有最近比較熱門的原油,這是一個相對短期的事件,但也可以成為一個熱門的標簽。
情感/風險分析
很多內容大家表述的時候,都是帶著自己的情感的。比如說瑞幸咖啡的財務造假,大部分可能是負面的;但換成其他事情,可能是中性的,或正面的。
如何來評價大家對信息的情感?
首先,你的情感正負面是如何來去衡量?當這類事情發生,一般資本市場的反應,一個人看到這種信息以后的第一反應是什么,這需要通過大量的歷史數據來訓練。
這樣,當同類的事情再發生,就會首先有一個基本的判斷。
當然這個基本的判斷,不一定跟市場的資產的股價、走勢完全一致,但會提供非常好的信號,幫助投資者或者信息檢索的用戶做初步的判斷。
用戶畫像與個性化推薦
最后一個核心的技術:很多情況下用戶不一定知道自己想要搜什么。這個時候,搜索技術和個性化推薦的是要相互結合的。
一方面是,用戶可能之前已經搜過、看過一些內容;另一方面,當有同類型的信息出現,我們又可以第一時間地去把這信息推薦出來。
這里運用到很多基于內容的、協同過濾的算法,還有現在深度學習也有一些推薦的模型,可以用到這里面來。
最關鍵兩個信息,其實還是要把內容、產品的特征庫,和用戶畫像的畫像庫先構建起來,然后通過各種方式去做匹配。
為用戶推薦到比較好的內容以后,就會源源不斷地有更多的瀏覽,甚至是產生更多的搜索行為,這就形成一個正向的循環,不斷地增加用戶的黏性。
總體來說,虎博科技現在整體的產品和解決方案是分為五大類的,包括剛才提到的垂直搜索引擎、NLP算法中臺、個性化的推薦引擎、智能問答機器人、面向企業的輿情監控的系統。
自研的技術和系統,使得我們有非常靈活的、可以優化和定制的空間。比如說券商或者股債基領域,當大宗商品行業有需求,就可以快速迭代,適配新場景。也會針對某個特定行業,一些具體應用場景怎么落地算法,做非常多的優化。
真正推動我們社會不斷進步、不斷進展的不僅僅是互聯網公司,還有很多傳統行業的公司,他們也需要智能化的升級和改造,這些技術其實能夠用在各行各業里面讓它才發揮更大的價值。
另外,我們致力于深入深度挖掘各領域應用場景,滿足客戶及用戶的多元實際需求,讓技術實地賦能商業。最后,基于我們的技術壁壘和對大數據的洞察,可以融合多項核心優勢進行場景應用融合式創新,帶來顛覆傳統的信息獲取方式和方法。
互動環節精選
問題1:對于企業級用戶來說,智能搜索能夠解決什么痛點?
譚悅
總結一句話。數據密集型企業和政務機構都需要智能搜索。
首先要知道是什么企業,所處在什么行業,不同的公司痛點肯定是不一樣的。對自然語言處理來說,什么樣的公司會有比較大的痛點呢?
首先它應該有比較多的文字類的信息(這些信息最好是線上化的,如果非線上化的話,我們也可以逐漸地把它變成線上化,但這就需要一個預處理過程),并且需要有大量的一些人工來處理這些信息。
原先處理這些信息或者獲取這些信息的效率是比較低的,當效率提升以后能創造出極大的收益。比如金融機構中投資、投研就是非常典型的。
問題2:智能搜索里如何運用知識圖譜?
譚悅:
智能搜索里我們其實主要用了兩類不同的技術,一個語義模型,一個知識圖譜,兩者相互配合。
知識圖譜其實出現得非常早,很早的時候包括從谷歌大腦、百度知心,希望把世界上主要的知識都通過一個圖譜歸納,這個理想實現也是有很多困難。
這個世界上面的知識其實是非常龐雜的,熱門的大家都知道的有很多,但是有很多其實都隱藏的很深或者需要一些特別精通熟悉某個領域的人士才會知道了解。所以要把開放域全部知識放在圖譜里面是很難的。
但是一些特定領域的知識圖譜是可以去構建的,比如說基于公司行業概念,基于供應鏈上下游,基于一些人物和實體關系的這些圖譜,現在我們無時無刻都在用到。
我們通過一些語義模型,從海量數據的統計意義上來構建對這個世界的認知。當知識圖譜能夠明確關聯的時候最好,如果沒有,那么通過語義模型來進入一個概率上面的關聯,甚至可以用這些概率上的關聯來幫助逐漸地構建和拓展知識圖譜,所以這二者之間就可以相互配合。
具體來講,一般會在什么領域用到呢?比如,底層的信息挖掘、用戶的理解、召回、排序,甚至做一些推演和比較的時候,都可以用到這樣的技術。
問題3:虎博搜索的智能搜索方案目前已經輸出了嗎,在哪些機構用了,效果怎么樣?
譚悅:
我們第一個切入的場景是金融,已經向很多知名機構輸出了我們的智能搜索方案并達成合作。例如,我們已經與50%的國內頭部券商達成合作,目前也開始覆蓋到了大宗商品、交易商、保險、基金、代銷、銀行等客戶。除此之外,我們正在向更多的領域擴展,比如政務、大數據中心、媒體、醫藥等。
整體來看,項目在實施的時候并不是一次性地全部做完的,會根據不同的場景需求,分階段進行。公司從去年初開始商業化,目前我們很多客戶都已經進入到二期、三期的階段了。
問題4:智能搜索的思路和做智能營銷的思路是不是差不多?
譚悅:
用戶產品和商業產品是兩條非常不一樣的思路,對于用戶產品也就是我們說的智能搜索來講,最關鍵的優化目標,能不能夠比較準確、快速、全面的找到用戶感興趣的信息。
所以它的評價指標是準確率、召回率、用戶點擊率、停留時間等等,當然如果有一些顯式反饋的機制,如打叉關閉的這種機制的話當然也可以。
對于智能營銷來講,它其實跟廣告就很像了,它最終考慮的是一個商業收益,也就是轉化率,你點得再多,最后沒人買單那是不行的?;蛘哒f買了單,但是你的投入產出比不行,那么營銷策略就是有問題的。
所以在這個過程當中,底層算法是有一些類似,但最終要優化的目標不一樣,就決定了在這個產品當中運用算法的方式和優化算法的目標有所不同。
問題5:訓練算法要怎么解決和客戶合作的數據安全問題,尤其是金融行業?
譚悅:
第一,我們提供私有化部署和定制化開發的空間。
第二,為了能讓上述過程更高效,我們把很多功能變成工具化的,把很多算法變成有預訓練的,這樣可以用于金融機構的內部,對接到機構自己的數據中,在機構自己的系統里進行更新,快速地適配到那個環境里面去。
問題6:自然語言處理項目落地是公有云還是私有化多,如果是私有化的話應該怎么去迭代模型?
譚悅:
如果是從全行業來講,其實公有云和私有化都有,具體到金融行業,私有化比較多。公有云現在處在一個被逐漸理解和接受的過程當中。一方面因為數據安全性,另外一方面某些核心業務從法律法規的要求上來講也需要私有化。
但如果是私有化,怎么去迭代模型?我們模型的迭代,已經不一定非要通過公有云的方式才能夠提供,我們有自動化的迭代模型工具,可以理解為只要有源源不斷地把數據,我們經過工具化的調參、優化就可以有一個模型更新出來。
如果原來已經有的一些技術,我們可以先做完全的重構以后,再到金融機構內部來進行測試和重新部署。
問題7:自然語言處理在風控領域的落地場景有哪些?
譚悅:
傳統的銀行業務里有自己的風控模型的定義,主要是基于資金、交易、用戶或者企業賬戶的信息。自然語言處理是新涌現出的,用于輔助風控的技術。
現在很多風險的來源并不是來自于欠款沒還,或者消費陡增,亦或是有訴訟官司,更多的是來自于全網的另類數據,比如說企業的涉訴信息、自媒體評論等,甚至很多數據可能出現在微博、知乎、公眾號、貼吧甚至是天貓商品評論里面。
利用自然語言處理技術可以對這些數據進行全面、系統的分析,以提前預判潛在風險,升級風控等級,這就是一個典型的應用場景。
關鍵詞: 譚悅