基于依存句法分析的資金賬戶交易畫像
- 時間:2019-01-15
- 來源:遠(yuǎn)光軟件

本文作者:丁德智,李玫,李國棟(遠(yuǎn)光軟件股份有限公司)
摘要:為了提升電網(wǎng)企業(yè)資金安全管控能力,有效防范資金安全風(fēng)險,保障資金高效運(yùn)轉(zhuǎn),文章利用企業(yè)海量的銀行交易流水?dāng)?shù)據(jù),應(yīng)用自然語言處理技術(shù),基于依存句法分析的結(jié)果設(shè)計摘要標(biāo)簽化的提取規(guī)則,得到與交易記錄有關(guān)的交易標(biāo)簽與業(yè)務(wù)標(biāo)簽。進(jìn)一步構(gòu)建出動態(tài)完整、實時反映的資金賬戶交易畫像,幫助企業(yè)管理人員全面了解賬戶的歷史交易行為,及時發(fā)現(xiàn)異常交易風(fēng)險,輔助管理決策。使用某電網(wǎng)公司6個月的資金交易數(shù)據(jù)對模型的效果進(jìn)行測試和評估,獲得了平均96%以上的F1值,結(jié)果證實了模型具有很好的實用性,能夠在電網(wǎng)企業(yè)進(jìn)行推廣應(yīng)用。
關(guān)鍵詞:賬戶畫像;資金管理;依存句法分析;交易摘要
0 引言
電網(wǎng)企業(yè)資金流動大,交易頻繁,屬于典型的資金密集型企業(yè)。目前電網(wǎng)企業(yè)在資金安全管理方面普遍存在資金監(jiān)控信息化程度低和監(jiān)督監(jiān)控不完善等問題。改變現(xiàn)有監(jiān)控系統(tǒng)低效、信息孤島的現(xiàn)狀,需要構(gòu)建基于大數(shù)據(jù)的集安全監(jiān)控、信息共享、數(shù)據(jù)分析、決策支撐為一體的資金智能安全防控平臺,實現(xiàn)信息化的資金安全管理模式。這一管理模式的實現(xiàn)需要使用自然語言處理(Natural Language Processing, NLP)及機(jī)器學(xué)習(xí)等技術(shù)。目前NLP技術(shù)的研究主要集中于情感分析方面,多應(yīng)用于互聯(lián)網(wǎng)行業(yè)。在電力行業(yè),尤其是資金安全管理領(lǐng)域應(yīng)用存在較多空白。
傳統(tǒng)的資金賬戶畫像主要是基于賬戶的靜態(tài)屬性進(jìn)行標(biāo)簽分類,存在更新不及時、信息滯后的缺點。本文通過對企業(yè)海量的銀行資金交易流水摘要進(jìn)行句法關(guān)系解析,智能提取交易標(biāo)簽和業(yè)務(wù)標(biāo)簽,構(gòu)建動態(tài)、完整、全面的資金賬戶交易畫像,幫助管理人員實時了解賬戶的歷史交易行為,及時洞察賬戶異常動作,精準(zhǔn)定位交易風(fēng)險,為資金賬戶的全面監(jiān)控和安全使用提供高精準(zhǔn)度的風(fēng)險防控手段。
1 資金賬戶交易畫像提取框架
1.1 整體提取框架
標(biāo)簽提取流程如圖1所示,提取流程包括數(shù)據(jù)預(yù)處理、自然語言處理、詞庫構(gòu)建及標(biāo)簽提取4個步驟。實現(xiàn)思路是先對交易摘要進(jìn)行預(yù)處理,過濾掉噪聲數(shù)據(jù),然后進(jìn)行自然語言處理,解析得到句法關(guān)系樹,根據(jù)標(biāo)簽提取規(guī)則,從句法關(guān)系樹中提取交易標(biāo)簽和業(yè)務(wù)標(biāo)簽。對于提取不成功的摘要,先用交易標(biāo)簽和業(yè)務(wù)標(biāo)簽相互填補(bǔ),如果仍然存在摘要提取失敗,則將其歸為“未知交易”。

1.2 核心步驟說明
1.2.1 數(shù)據(jù)預(yù)處理
本步驟主要是去重和剔除摘要中的噪聲數(shù)據(jù),例如日期、數(shù)字、英文及收款單位名稱等,清洗后的摘要只保留了關(guān)鍵信息。
示例:“aHYX_付5月購電費(3001)”→“付購電費”。
1.2.2自然語言處理
本步驟利用哈爾濱工業(yè)大學(xué)的LTP(Language Technology Platform)開源中文NLP系統(tǒng)對預(yù)處理后的交易摘要進(jìn)行分詞、詞性標(biāo)注、命名實體識別、及依存句法分析,最終生成句法關(guān)系樹。
根據(jù)摘要的特點,本模型主要用到的句法關(guān)系有核心詞(HED)、主謂關(guān)系(SBV)、動賓關(guān)系(VOB)、并列關(guān)系(COO)及狀中關(guān)系(ATT)。詳細(xì)的語義關(guān)系說明請參考語言云簡介。
1.2.3 詞庫構(gòu)建
本模型應(yīng)用到的詞庫有業(yè)務(wù)同義詞庫、業(yè)務(wù)動詞庫及業(yè)務(wù)關(guān)鍵詞庫。其中業(yè)務(wù)同義詞庫用于合并語義相同的交易業(yè)務(wù),例如
上述詞庫需要資深業(yè)務(wù)專家參與構(gòu)建,本模型詞庫的部分樣例見表1所列。

1.2.4 標(biāo)簽提取
標(biāo)簽提取是本模型的核心步驟,包括交易標(biāo)簽提取、業(yè)務(wù)標(biāo)簽提取及未提取標(biāo)簽填充3部分。
1)交易標(biāo)簽
根據(jù)句法依賴關(guān)系樹,按規(guī)則提取交易標(biāo)簽,例如差旅費、購電費等,主要用到了業(yè)務(wù)同義詞庫,詳細(xì)的提取規(guī)則見2.1節(jié)。
2)業(yè)務(wù)標(biāo)簽
根據(jù)句法依賴關(guān)系樹,按規(guī)則提取業(yè)務(wù)標(biāo)簽,例如報銷差旅費、預(yù)付購電費等,主要用到了業(yè)務(wù)動詞庫和業(yè)務(wù)關(guān)鍵詞庫,詳細(xì)的提取規(guī)則見2.2節(jié)。
3)未提取標(biāo)簽填充
對于未能提取交易標(biāo)簽但提取了業(yè)務(wù)標(biāo)簽的摘要,將業(yè)務(wù)標(biāo)簽去除與業(yè)務(wù)動詞庫相匹配的詞,即可獲得交易標(biāo)簽,例如:
2 基于句法模式的標(biāo)簽提取規(guī)則
2.1 交易標(biāo)簽提取規(guī)則
清洗后的交易摘要基本是短文本,句法關(guān)系相對簡單,HED的詞性主要為動詞和名詞,因此交易規(guī)則將圍繞HED的詞性進(jìn)行設(shè)計,具體如下。
2.1.1規(guī)則1
若HED詞性是名詞(n表示),將HED與業(yè)務(wù)同義詞庫進(jìn)行模糊匹配:
1)若匹配出零個標(biāo)簽,則不能提取交易標(biāo)簽;
2)若匹配出1個標(biāo)簽,則此標(biāo)簽的核心詞為交易標(biāo)簽;
3)若匹配出多個標(biāo)簽:若多個標(biāo)簽對應(yīng)的核心詞是1個,則此核心詞為交易標(biāo)簽;若多個標(biāo)簽對應(yīng)的核心詞是多個,則利用HED的ATT詞進(jìn)行過濾:若無ATT,將HED切換為精準(zhǔn)匹配,如果能精準(zhǔn)匹配出1個,則此標(biāo)簽的核心詞為交易標(biāo)簽,否則不能提取標(biāo)簽;若有多個ATT,根據(jù)ATT的順序,依次進(jìn)行模糊匹配過濾,如果最終核心詞是1個,則此核心詞為交易標(biāo)簽,否則不能提取標(biāo)簽。
提取規(guī)則1示例如圖2所示,示例為提取交易標(biāo)簽

2.1.2規(guī)則2
若HED詞性是動詞(v表示),HED存在VOB詞且詞性是名詞,將VOB詞與業(yè)務(wù)同義詞庫進(jìn)行匹配,匹配邏輯與“規(guī)則1”一致(如果有多個VOB,則依次按本規(guī)則匹配)。
提取規(guī)則2示例如圖3所示,示例為提取交易標(biāo)簽

2.1.3規(guī)則3
若HED詞性是動詞,且不存在VOB詞或VOB詞的詞性不是名詞:
1)若HED有COO關(guān)系的詞。若該詞的詞性是動詞,則將該詞當(dāng)作HED,按“規(guī)則2”邏輯進(jìn)行匹配;若該詞的詞性不是動詞,則按“HED無COO關(guān)系的詞”的規(guī)則處理(如果有多個COO關(guān)系,則依次按本規(guī)則執(zhí)行,由于是短文本,基本不存在這種情況)。
2)若HED無COO關(guān)系的詞。若HED有ATT關(guān)系的詞,將該詞與業(yè)務(wù)同義詞庫進(jìn)行匹配,匹配邏輯與“規(guī)則1”一致(如果有多個ATT關(guān)系的詞,則按句法順序,依次按本規(guī)則執(zhí)行);若HED無ATT關(guān)系的詞,但有SBV關(guān)系的詞,則將該詞與業(yè)務(wù)同義詞庫進(jìn)行匹配,匹配邏輯與“規(guī)則1”一致,否則不能提取標(biāo)簽。
提取規(guī)則3示例如圖4所示,示例為提取交易標(biāo)簽

2.1.4規(guī)則4
若HED詞性既不是名詞也不是動詞:
1)若句中只有HED一個詞,將HED與業(yè)務(wù)同義詞庫進(jìn)行匹配,匹配邏輯與“規(guī)則1”一致;
2)若句中還有其他詞,則不能提取出標(biāo)簽。
提取規(guī)則4示例如圖5所示,示例為提取交易標(biāo)簽

2.2 業(yè)務(wù)標(biāo)簽提取規(guī)則
由于交易業(yè)務(wù)往往會帶有明顯的關(guān)鍵詞,比如費、款、金等,因此業(yè)務(wù)標(biāo)簽提取規(guī)則將圍繞這些關(guān)鍵字展開設(shè)計,思路是先定位業(yè)務(wù)詞,再識別業(yè)務(wù)動詞,具體如下。
2.2.1規(guī)則1
如果分詞結(jié)果中的詞能與關(guān)鍵詞庫中的詞完全匹配,則將該詞標(biāo)記為H,根據(jù)句法分析結(jié)果找到與H有ATT關(guān)系的詞,記為ATTH。如果沒有ATT,則不能提取標(biāo)簽。
然后從分詞結(jié)果中查找是否有詞包含業(yè)務(wù)動詞庫中的詞。
1)若沒有,則業(yè)務(wù)動詞默認(rèn)為‘付’,記為V;
2)若只有1個,則該詞為業(yè)務(wù)動詞,將該詞記為V;
3)若有多個,則優(yōu)先級最高的詞為業(yè)務(wù)動詞,若優(yōu)先級相同,則按句法關(guān)系順序合并為1個業(yè)務(wù)動詞,記為V;如果V是ATTH+H的子字符串,業(yè)務(wù)標(biāo)簽為+H;否則業(yè)務(wù)標(biāo)簽為V++H。
規(guī)則1部分示例如表2所列。

2.2.2規(guī)則2
如果分詞結(jié)果中的詞包含關(guān)鍵詞庫中的詞(非完全匹配),則將該詞標(biāo)記為H。
1)若H只有1個,業(yè)務(wù)動詞的查找規(guī)則與“規(guī)則1”一致。如果V是H的子字符串,則業(yè)務(wù)標(biāo)簽為H,否則業(yè)務(wù)標(biāo)簽為V+H;
2)若H有多個,則依次檢查與H詞語法關(guān)系為VOB的動詞:若能找到,且該動詞在業(yè)務(wù)動詞庫中,則該詞為業(yè)務(wù)動詞,否則默認(rèn)業(yè)務(wù)動詞為“付”,記為V,業(yè)務(wù)標(biāo)簽結(jié)果為V+H;若找不到,查找H中是否包含業(yè)務(wù)動詞庫中的詞,如果包含,則業(yè)務(wù)動詞為空,業(yè)務(wù)標(biāo)簽為H,否則業(yè)務(wù)動詞默認(rèn)為‘付’,記為V,業(yè)務(wù)標(biāo)簽結(jié)果為V+H。
規(guī)則2部分示例見表3所列。

2.2.3規(guī)則3
如果分詞結(jié)果中的詞不包含關(guān)鍵詞庫中的詞,則不能提取業(yè)務(wù)標(biāo)簽。
3 實證分析
3.1 數(shù)據(jù)來源
實證分析所用數(shù)據(jù)來自某電網(wǎng)公司2018年1月至6月的銀行交易流水?dāng)?shù)據(jù)(見表4)。

3.2 評價指標(biāo)
本文使用精確率和召回率以及F-Measure對實證分析結(jié)果進(jìn)行評估,同時將人工提取的標(biāo)簽作為準(zhǔn)確標(biāo)簽結(jié)果。精確率是指算法提取結(jié)果中的正確標(biāo)簽數(shù)占提取出的總標(biāo)簽數(shù)的比例,召回率是指算法提取結(jié)果中正確標(biāo)簽數(shù)與交易摘要中實際可提取標(biāo)簽總數(shù)的比例。F-Measure則是綜合了精確率和召回率的評價指標(biāo)。計算公式分別如下。

式中,P表示精確率,A表示可提取并且提取正確的標(biāo)簽個數(shù),B表示原本不可以提取標(biāo)簽但提取的標(biāo)簽個數(shù)以及提取錯誤的標(biāo)簽個數(shù)之和。

式中,R表示召回率,C表示未能正確提取標(biāo)簽的個數(shù)。

式中,α是用來衡量精確率和召回率的相對重要性的參數(shù),本文將精確率和召回率視為同等重要,即α取值為1,故F-Measure故為F1:

3.3 結(jié)果分析
表5展示的是2018年6月銀行交易摘要提取標(biāo)簽的部分結(jié)果。

3.3.1 模型精確率與召回率分析
考慮到每月提取標(biāo)簽的數(shù)量級大約在10萬條,數(shù)量較多,人工識別成本高,因此,本文將采取隨機(jī)抽樣方式,每次隨機(jī)抽取1000條交易摘要,將提取的標(biāo)簽與基于人工提取標(biāo)簽相比,計算模型的精確率、召回率和F1值。同時為了保證評價指標(biāo)的可靠性,重復(fù)3次有放回抽樣,并用3次結(jié)果的均值作為模型最后的評價指標(biāo),標(biāo)簽提取結(jié)果分析見表6所列。

從結(jié)果分析表中可知,6個月的交易摘要的交易標(biāo)簽和業(yè)務(wù)標(biāo)簽提取精確率均在90%以上,部分月份達(dá)到98%,召回率均在95%以上,整體F1值超過94%。
精確率方面,交易標(biāo)簽的精確率均較高,主要是因為本文的交易標(biāo)簽的提取規(guī)則考慮全面并且業(yè)務(wù)同義詞庫相對完整。相比交易標(biāo)簽,業(yè)務(wù)標(biāo)簽的精確率相對更高,主要是因為提取規(guī)則更加開放,更能體現(xiàn)一般性。
召回率方面,交易標(biāo)簽和業(yè)務(wù)標(biāo)簽的召回率均很高,主要是因為摘要語句較短,句子的核心詞基本都具有業(yè)務(wù)含義詞語,因此召回率較高。6個月的召回率都比較高且比較穩(wěn)定,說明提取規(guī)則可以識別出大部分的交易摘要,同時表明構(gòu)建的業(yè)務(wù)同義詞庫和業(yè)務(wù)動詞庫比較全面。
綜上分析,模型整體效果很好,而且表現(xiàn)穩(wěn)定。
3.3.2 影響模型效果因素分析
對實證結(jié)果中未能提取標(biāo)簽或標(biāo)簽提取錯誤的摘要進(jìn)行歸納總結(jié),主要原因如下。
(1)交易摘要過于簡單、語義不明。存在省略主語、錯別字、口語化及漏填等情況,例如
(2)分詞及詞性標(biāo)注結(jié)果的準(zhǔn)確性。由于電網(wǎng)企業(yè)涉及很多專業(yè)詞匯,在專業(yè)字典不完整的情況下,會發(fā)生切詞及詞性標(biāo)注出錯的情況,導(dǎo)致無法準(zhǔn)確提取標(biāo)簽。
(3)詞庫的完整性。少部分摘要未能提取交易標(biāo)簽是由于業(yè)務(wù)同義詞庫不完整導(dǎo)致的,另外,業(yè)務(wù)動詞庫和業(yè)務(wù)關(guān)鍵詞庫的完整性也在一定程度上影響了業(yè)務(wù)標(biāo)簽的提取。
3.4 畫像展示
圖6、圖7分別展示了某一資金賬戶的交易標(biāo)簽和業(yè)務(wù)標(biāo)簽的提取效果。


4 結(jié)語
本文采用自然語言處理技術(shù)對電網(wǎng)企業(yè)銀行交易流水摘要進(jìn)行挖掘分析,構(gòu)建了資金賬戶交易畫像模型,突破了傳統(tǒng)的數(shù)據(jù)查詢分析對非結(jié)構(gòu)化數(shù)據(jù)處理與應(yīng)用的限制,能夠從更全面的角度了解賬戶的歷史交易特征,對未來新的交易行為是否存在異常具有重要的參考價值。
在對某電網(wǎng)公司近6個月的實證分析中,本模型獲得了平均96%以上的F1值,證實了模型的有效性和實用性,能夠在電網(wǎng)企業(yè)進(jìn)行推廣應(yīng)用。
針對影響模型效果的因素,本文考慮從以下幾方面做出改進(jìn):
①建立詞庫的完善機(jī)制。通過機(jī)制不斷沉淀業(yè)務(wù)專家的知識經(jīng)驗,保持模型的有效性;
②進(jìn)一步優(yōu)化專業(yè)詞典。一方面建立類似于詞庫的完善機(jī)制,不斷加入專業(yè)詞匯;另一方面需要充分應(yīng)用自然語言處理技術(shù)發(fā)現(xiàn)新詞的能力,從專業(yè)網(wǎng)站中提取新詞;
③規(guī)范交易摘要填寫。制定摘要規(guī)范性填寫指導(dǎo)說明書,將摘要的規(guī)范性納入績效考核中,通過管理手段,保證摘要的完整性和規(guī)范性。


AI中臺
智能硬件
RPA云平臺
數(shù)智員工

新一代企業(yè)數(shù)字核心系統(tǒng)(YG-DAP)
粵公網(wǎng)安備 44049102496133號
