• 卡神網APP下載
    app
    • 卡神網APP
    • 同步支持
    • weiaicon
  • wx
      weixinlogo
    • 卡神網微信
    • kswangdai

查看內容

金融數據質量是金融公司提供服務的重要基礎

2019-6-28 17:11| 發布者: 卡神網小靜| 查看: 790| 評論: 0

  金融數據質量是金融公司提供服務的重要基礎,也是公司正常運行的前提保障。隨著移動互聯網、大數據等金融科技的飛速發展,金融公司的數據量及多樣性與日俱增。傳統的數據質量監控方法與體系已無法滿足現代證券公司數據質量監控的需求。

金融數據質量是金融公司提供服務的重要基礎_卡神網

  本文根據廣發證券在智能化數據質量監控系統X-monitor的建設與運行經驗,闡述一種智能化、自適應的多模金融數據質量監控實現路徑。該系統利用自適應機器學習方法,將人工設定的數據質量監控規則與機器自學習生成的監控規則相結合,以提高金融數據質量監控的效率和準確度。系統同時支持監控模型的動態更新,以提高其動態適應性與靈活性。

  一、引言
  1、現狀
  高質量的數據是金融證券公司提供服務、正常運行的前提基礎。數據不穩定、缺失、異常等數據質量問題如果無法及時發現,將會導致證券公司在投資、理財、清算、風險管理、顧問等業務操作中出現問題,進而造成巨大的經濟損失。
  同時,隨著大數據技術、人工智能技術在證券公司各項業務應用的不斷深入,大量的系統、業務決策的正確性均需要依賴于高性能的數據質量監督與控制系統。

  異常數據的產生原因是多樣的,如供應商表結構變化導致后臺應用讀入不正確的數據、數據讀取時意外中止導致的數據缺失等。異常數據的表現形式也有所不同,如數據缺失、數據準確度低、數據的一致性出現異常等。

  一個完善的金融數據的質量監控系統需要針對各個數據類型、各種數據異常原因提出相應的解決方案。傳統的數據監控模式需要開發人員和測試人員對不同數據制定不同的數據質量監控規則并編碼實現,而面對海量的金融行情數據以及客戶數據,這種人工監控方式不僅難以覆蓋所有數據類型,還會消耗大量的人力和開發時間。同時人為制定的監控規則也會存在規則制定不合理,漏報、誤報率高的缺點。

  基于此,本文構建了一種智能化多模金融數據質量監控方法與系統實現方案。該方法提出一種適合于多類型金融數據的智能數據質量監控規則自生成以及自適應更新方法,以此最大限度的減少人工干預水平,提高數據監控效率與成功率。

  另外,系統也支持人機結合模式,允許將人工設定的數據質量監控規則與機器自學習的監控規則相結合,以提高系統的靈活性和可控性。

  本文分六章全面闡述了智能化多模金融數據質量監控的意義與系統實現方案。其中,第二章介紹了數據質量檢測的意義及業內常用方法,第三章介紹了廣發證券智能金融數據質量監控平臺X-monitor的系統架構,第四章介紹了系統的具體實現方法,第五章中通過實驗來驗證本文提出的算法可行性以及系統實際應用效果。第六章進行總結和對未來工作的設想。

  二、背景
  1、金融數據質量監控的重要意義
  對金融公司來說,高質量數據是公司業務正常運轉的前提保障。例如,當數據的正確性與完整性缺失時,將會導致智能投資策略與客戶投資建議等重要模塊發生錯誤,進而導致客戶投資發生損失。

  當文本型數據如投資標的資訊、投資標的公告、產品說明等文本內容出現錯誤、缺失等異常時,將會影響到客戶的投資決策,導致客戶對公司的忠誠度下降。加強金融數據質量監控具有重大的意義,具體表現如下:

  1)金融數據質量監控有助于提升證券公司數據治理水平的效率和質量
  傳統的數據監控模式需要耗費較多人力,且對開發人員與測試人員的業務經驗有較強的依賴。這種監控模型會消耗大量的人力和開發時間,同時人為制定的監控規則也存在著規則制定不合理,漏報、誤報率高等問題。

  2)金融數據質量監控有助于提升證券公司各項業務水平及服務質量
  目前證券公司的各條業務線數字化程度越來越高,傳統經紀業務在向客戶提供交易通道的同時,也向客戶提供各種可交易證券的報價、新聞資訊等數據服務。
  當前蓬勃發展的財富管理業務,包括基于大數據技術及人工智能技術的智能投顧業務均依賴于可靠穩定的行情數據及客戶數據。證券自營業務、資管業務的量化交易系統也高度依賴數據產生投資決策。因此,一個高效、可靠的數據質量監控系統,可以提升證券公司各項業務線的業務水平及質量。

  3)金融數據質量監控有助于提升證券公司對內的經營分析質量和風險控制質量
  目前證券公司的經營分析與經營決策正快速向數據驅動型轉變,分析與決策越來越依賴于大量的數據統計和分析結果,因此高度自動化、可靠的數據質量監控系統,將有助于提升證券公司的經營分析與決策水平。
  風險控制是證券公司穩健經驗的核心基礎,而當前國際、國內成熟的風險控制模型無不依賴于大量的數據建模,因此高度自動化、可靠的數據質量監控系統,將有助于提升證券公司風險控制水平

  2、業界常用方法簡介
  隨著各類大數據前沿技術的不斷發展與在各應用的不斷深入,各領域對數據質量的要求不斷提高,數據質量監控的研究也成為業內的熱門研究方向。

  IBM提出一種數據質量監控的方法:
  通過將加載數據的質量與預定的數據質量對比來實現數據監控;格泰科技有限公司提出一種數據質量網絡監控管理產品。
  該產品提供日常數據質量監控的信息采集、規則監控、問題告警、問題申告處理、質量報告、知識沉淀及任務調度等功能;集奧聚合科技公司提出的數據質量監控方法。

  主要從四個方面實現:配置監控規則、傳遞監控規則、識別監控規則與輸出監控數據;國家電網公司公開了一種電力大數據質量實時監控方法。

  它將企業應用數據流實時輸入并對數據流分批,采用DStreams與Spark分別完成流式計算與批處理執行轉換、并使用Spark框架實現任務調度、內存管理和結果輸出;江蘇智通科技有限公司提出了一個包含監測模塊、風險預警模塊、數據核查模塊、決策支持模塊和參數配置模塊的監測系統。

  實現了對交通數據的質量監控。從業界近期公布的方法中,我們可以看到大數據分布式處理技術已經開始引入到數據監控系統中,然而數據監控規則的配置普遍仍然采用純人工配置的方式,這種方式將無法滿足證券公司日益增長的數據監控需求。

  三、廣發證券智能金融數據質量監控平臺X-monitor概述
  針對傳統數據監控方法的不足,我們提出一種“平臺化+智能化”的解決方案。該方案具有通用化、智能化、個性化的特點,可以及時、準確、高效的發現數據問題。其創新之處在于:
  1)系統支持多項目管理、多類型數據源接入
  具有靈活的監控調度,支持多種時間級別(分鐘、小時、日、周等)監控調度和多層級報警,能夠及時發現數據的隱患。
  2)系統提供自學習監控策略自主生產監督規則
  這不僅能夠降低數據監控成本,還可以提高對數據異常問題監控的及時性與數據準確性。

  3.系統支持智能數據一致性檢測
  金融數據的一致性檢測是發現隱藏數據質量問題的重要手段之一。傳統數據質量檢測方法的實現需要人工對數據的取值范圍、數據空缺等參數進行手工設置和編碼,但人工設置數據檢測規則很容易忽視數據之間的一致性,導致一些數據問題只看單一數據字段沒法發現。
  即便考慮了不同數據字段數據一致性的問題,傳統方法需要人工指定待一致性檢查的數據字段,然后再定義相應的規則并編碼實現。當面對海量的金融行情數據、客戶數據,人工指定數據字段進行一致性監控規則將消耗大量的人力。同時,人為設定待一致性檢測數據字段需要設置人員具備豐富的業務經驗,否則容易產生遺漏。
  為了解決這些問題,我們的數據質量監控系統支持自動發現需要進行一致性檢測的數據字段,并且具備自動學習數據一致性檢測規則的能力。

  4)系統支持數值、文本、圖像等多模態數據。
  平臺運用文本處理、圖像識別等技術對不同類型的待監控數據進行特征提取,將文本類數值、圖像類等非結構化數據進行向量化,轉化成結構化數據,再利用數值型數據自動監控規則生成與更新方法對向量化后的非結構化數據進行自動監控與規則更新。
  圖1展示了X-monitor界面。首界面除了展示當前的總任務數與成功率外,還給出了各監控項目的狀態、任務名、任務類型、運行時間等信息,并允許監控人員對調用接口、監控方向進行調整與配置。
  X-monitor中的“策略”板塊下展示了平臺目前支持的智能策略。
  系統同時支持開發人員根據具體應用情景、反饋結果等信息對監控策略進行調整。如圖3,在“策略”板塊中,系統允許開發人員對不同智能策略的超參數進行設置。
  四、智能金融數據質量監控系統實現
  1、系統架構。
  基礎層主要由容器云、基于Apache Spark/Flink的大數據計算平臺及各類數據庫組成。
  其中,容器云具有可彈性擴展、容易維護、容易測試等特點,任務調度、消息推送、數據接口與數據API的監控計算任務、部分數據庫數據的監控計算任務等后臺應用通常運用容器云完成。
  基于Apache Spark/Flink的分布式計算引擎通常負責分布式數據庫數據的監控計算任務。而Mysql、Postgresql、Mongodb等各類數據庫通常用于配置參數、系統參數、部分監控規則的存取。
  基礎模塊層主要由機器學習算法、自然語言處理算法、圖像處理算法、任務調度API、消息推送API、數據讀取接口及API等通用模塊組成。
  機器學習算法模塊為監控規則自學習功能提供基礎機器學習算法支撐;
  自然語言處理算法模塊主要提供Word2vec、Fasttext、分詞等常用自然語言處理算法,為文本數據的特征提取提供算法支撐;
  圖像處理算法模塊主要為圖像數據的向量化提供算法及模型基礎;
  任務調度API模塊負責提供任務調動的常用接口;
  消息推送API主要提供短信推送、微信推送、郵件推送等消息推送接口。
  應用層由實現系統核心功能的主體模塊組成。具體包括數據預處理、監控規則自生成與更新、監控計算、監控結果反饋、數據讀取、消息推送等功能模塊。
  用戶交互層主要實現Web端、移動App端的交互功能。

  2、應用層主體模塊
  金融數據質量監控系統的主體功能主要由以下模塊組成:數據讀取配置模塊、數據讀取模塊、數據預處理模塊、監控規則生成與配置模塊、監控計算模塊、消息推送模塊、反饋模塊。
  數據讀取配置模塊對待監控數據的讀取調用進行配置。該模塊允許用戶通過用戶界面(如Web或移動App)對待監控數據的數據源或者待監控數據的前端讀取接口進行配置,同時也可以支持用戶輸入符合系統設計標準的數據讀取源代碼進行數據讀取。
  當用戶在用戶界面設置完成并確認后,設置的內容將通過應用服務器將設置內容寫入應用數據庫,其中應用數據庫可選取MySQL、PostgreSQL、MongoDB等。
  數據讀取模塊實現對數據的讀取。該模塊根據已配置的讀取方式對待監控數據、待監控數據的歷史正常數據進行讀取。數據讀取模塊根據用戶輸入的數據庫類型、IP地址、用戶、密碼、待監控數據所在的數據表、表中字段名等參數對數據進行讀取。
  為了支持更豐富的數據讀取方式,該模塊也支持用戶輸入符合規范的數據讀取代碼模塊以供計算服務單元調用獲取數據。
  數據預處理模塊利用數據智能預處理層的策略對待監控數據進行處理。該模塊將文本類、圖像類、音頻類等非結構化數據轉化成結構化數值后,再標準化成生成監控規則所需要的數據格式。
  同時該模塊也需要自動篩選出強相關的數據字段對,為一致性檢測提供待檢測數據。
  監控規則生成與配置模塊將智能策略自動生成的監控規則與人工規則結合,以實現對監控規則庫的不斷更新與完善。
  該模塊在對智能監控規則模型的超參數進行配置后,利用標準化的待檢測數據與選定的機器學習方法對監控規則進行自學習,或者根據更新的待檢測數據對監控規則進行自動更新,最后將學習或更新后的監控規則存入規則數據庫。
  同時,該模塊還支持人工對自生成的監控規則進行修改、調整或添加新的規則。由于機器學習產生的數據監控規則在歷史正常數據較少的情況下,容易出現監控規則不夠完善的情況,故此設計提高了系統的靈活性及適應性。
  監控計算模塊利用最終配置完成的監控規則對新增待監控數據進行計算,根據輸出的結果判斷該新增數據是否觸發數據異常報警。
  消息推送模塊將輸出的數據質量監控報警信息利用消息推送系統推送給客戶,消息推送系統可包括微信、短信、應用App等渠道。
  例如:App推送可通過MQTT、XMPP等協議實現,也可以調用阿里云移動推送、騰訊信鴿推送等第三方平臺實現。
  反饋模塊負責接收運維人員對數據監控報警的反饋信息,并將該反饋信息反饋給監控規則生成與配置模塊。數據開發、測試人員根據反饋結果對監控數據進行人工調整和優化。
  如果反饋發出報警的信號為假信號,則需要反饋給監控規則生成與配置模塊,根據具體原因及時進行監控規則調整。

  3、智能監控規則生成方法
  1)數值型金融數據監控規則
  金融產品行情收益率的分布通常可近似認為服從高斯模型或高斯混合模型。因此該類數據的監控規則可利用高斯模型、高斯混合模型來建立。一維數據的高斯模型數學表達式為:
  $p(x)=\frac{1}{\sqrt{2\pi\delta ^{2}}}e^{-\frac{(x-\mu )^{2}}{z\delta ^{2}}}$
  其中參數μ,δ 分別為訓練數據的均值和標準差。多維數據的高斯混合模型的數學表達式為:
  $p(x)=\sum _{i=1}^{K}\frac{\omega _{i}}{\sqrt{2\pi \sigma _{i}^2}}e^{(-\frac{(x-\mu _{i})^2}{z\sigma _i^2})}$
  其中,$\sum _{i=1}^{K}\omega _i=1$,K為高斯模型的數目,$ω_i$,$μ_i$,$σ_i$分別為第i個高斯模型的權重、均值和標準差。這些參數可以利用歷史正常數據,采用EM(Expectation Maximization)算法進行估計。
  當待監控數據的分布模型未知時,可以采用One-Class SVM或Isolation Forest對待監控數據進行建模。One-Class SVM模型在異常數據檢測中被廣泛使用,它通過歷史正常數據構造支撐超平面,以此判斷待監控數據是否為正常數據。
  Isolation Forest模型也是一種無需事先知道數據分布模型的方法,由于異常數據具有在生成樹中經過的路徑(即樹的節點個數)較短的特點,Isolation Forest利用該特性實現異常數據的檢測。
  2)文本型金融數據監控規則
  文本數據是金融數據的重要組成部分,這些數據包括投資標的相關新聞、投資標旳公告、金融產品說明以及金融公司內部文檔交互等。這些文本數據是金融公司提供客戶服務的重要基礎,也是公司正常運行的重要基礎。
  要完成文本數據監控規則的自動生成,首先需要把文本數據映射成數值向量,然后利用上述數值型監控規則自動生成方法完成規則的生成。我們采用以下方法將文本向量化:
  ① 首先建立分詞模型和詞向量模型。
  由于金融類文本包含了大量金融專業術語和獨特的金融產品名稱,采用通用分詞模型容易導致文本分詞結果錯誤。因此,在進行分詞模型訓練前,需要人工(或結合新詞發現的方法)進行詞庫擴充。
  完成詞庫擴充后,再利用更新后的詞庫進行分詞模型的訓練。常用的分詞模型有隱馬科夫(HMM),條件隨機場(CRF)等模型。在進行詞向量模型訓練時需要采集wiki、金融資訊、金融公告等文本數據,并利用訓練好的分詞模型對這些文本數據進行分詞。
  得到文本數據的分詞后,利用word2vec算法或Fasttext方法建立詞向量模型。
  其中,Fasttext中的詞向量訓練與word2vec相似,主要有兩種方案:
  一種是通過中心詞w_t來預測周邊詞$w_{(t-2)}$,$w_{(t-1)}$,$w_{(t+1)}$,$w_{(t+2)}$,稱為Skip-gram模型;
  另一種是通過周邊詞$w_{(t-2)}$,$w_{(t-1)}$,$w_{(t+1)}$,$w_{(t+2)}$來預測中心詞$w_t$,稱為CBOW(Continuous Bag-Of-Words),即連續的詞袋模型。
  二者都是通過計算單詞之間的共現關系來實現訓練,即把相關詞匯映射到詞向量空間的模型。
  ② 得到訓練好的分詞模型后,需要用該模型對待監控歷史文本數據進行分詞,接著采用詞向量模型把文本數據的分詞結果映射到詞向量空間。
  ③ 最后,系統將計算歷史文本數據的詞向量分布以形成文本數據的數值向量表達。得到文本數據的數值向量表達后,即可采用數值型監控規則自生成方法中采用的高斯模型、高斯混合模型、One-Class SVM等模型完成監控規則的自動生成。
  3)圖像數據監控規則
  證券公司投資銀行業務在對公司進行實地調研與持續督導過程中,通常會通過拍攝、復印、掃描等方式獲取待調研待督導公司相關資料。公司本身也會通過圖像方式(如證明材料的掃描件)來提交材料。
  圖像數據監控規則的自動生成首先需要把圖像數據映射為數值向量,然后利用上述數值型監控規則自動生成方法完成規則的生成。
  我們在系統實現中采用了以下方法完成圖像數據向量化:
  首先,將大量通用圖像數據與證券行業特有圖像數據相結合進行深度學習模型Autoencoder的訓練。
  然后,通過訓練好的Autoencoder模型將圖像數據映射到數值向量空間。
  最后,采用數值型監控規則自生成方法中的高斯模型、高斯混合模型、One-Class SVM等模型完成監控規則的自生成。
  4)智能數據一致性監控
  數據內容的一致性指的是兩個線性相關的數據字段的數據應該保持其線性相關性。
  例如,當一只基金的評分越高時,其對應的評級也應該越好。由于金融數據體量龐大,人工設定需要進行一致性檢測的字段是不現實的,所以我們提出一種自動發現需要進行一致性檢測的數據字段的方法:
  首先計算相關字段數據的協方差矩陣$Σ=E[(x-u)'(x-u)]$,得到字段數據間的相關性度量。其中,x為多數據字段數據組成的向量,u為這些向量的均值。
  然后設置相關度的閾值,以篩選出強相關數據字段。完成字段對篩選后,利用一個字段對另一個字段的線性回歸,計算出回歸值與待檢測值的差值。
  最后利用數值型檢測規則自生成中的高斯模型、高斯混合模型、One-Class SVM等模型對差值建立監控規則。

  五、系統評估
  1、智能監控規則生成方法實驗驗證
  為驗證智能策略在數據監控中的性能,我們設計實驗檢驗三種智能監控規則生成方法(GMM,Isolation Forest與One-Class SVM)對異常數據的檢出效果。
  實驗選取天相基金數據作為數據集,抽取了100支基金,共20100個凈值數據來訓練各模型。實驗根據各基金的數據分布情況模擬生成異常數據,將其標記后混入正常數據,用訓練好的模型輸出檢測到的異常數據,以此比較各模型的檢測性能。
  測試過程中使用的評估指標包括召回率、準確率與F1值。
  本實驗主要分為兩部分:各模型最優參數的確定與模型的對比。前者顯示,各模型在其最優參數下對異常數據均有優秀的檢測能力。
  其中,One-Class SVM與isolation Forest的召回率與精確率均可達到100%,GMM效果相對遜色,但也達到了99.8%的召回率與100%的精確率。
  為對比各模型對異常數據的檢測能力,我們調整異常數據的生成方式以增大異常數據的甄別難度。
  結果顯示,One-Class SVM的綜合表現最佳,它在數據檢出率與時間效能上都表現突出,其次是GMM模型,它在F1值與isolation Forest相差無幾的情況下具有更低的時間復雜度。
  不過盡管One-Class SVM的表現相對較弱,其對異常數據的檢測率仍然可達到令人滿意的程度。模型對比的統計結果如下:
  具體數據如下表:
  實驗驗證了三種模型在異常數據檢測上的優越性能,進而證實了統計模型及機器學習模型用于監控規則生成的可行性,模型生成與更新的高效性更為海量金融數據的處理帶來了便利。
  2、系統應用
  目前平臺在廣發證券貝塔牛、廣發證券財富管理平臺、交易測試柜臺等系統中進行了監控測試,運行了上千次監控任務。初步驗證了平臺的有效性與實用性。

  六、結論與展望
  對金融數據的分析處理一直是金融證券公司提供服務的重要基礎。隨著大數據技術與人工智能在證券公司的不斷拓展應用,金融數據的質量監控成為維系公司業務正常運行的前提保障。
  本文針對金融數據的質量監控,根據廣發證券智能數據監控平臺X-monitor的實現路徑,介紹了一套“平臺化+智能化”的解決方案。
  最終搭建的監控平臺不僅支持對數據庫進行實時數據監控,也允許配置API支持與大部分周邊系統的對接。與傳統的人工設置監控規則不同,該平臺利用機器學習方法,將智能監控策略與人工規則結合。
  這不僅降低了數據監控成本,更提高了對異常數據的監控及時性與準確性。從測試與運行結果來看,該平臺具有明顯的有效性與實用性。
  盡管本文構建的金融數據質量監控系統在性能上已經取得不錯的成效,但隨著數據規模與復雜度的不斷提升,金融公司中各業務對數據質量要求也在不斷提高。后續工作中,我們將繼續提高平臺的智能化水平。
  本文目前僅在數據質量的監控規則建立時利用人工智能技術,未來將考慮將智能策略融入數據監控的其他方面,如數據的自動平穩化、數據地圖的自動生成、異常數據源的智能定位等方向。
把本文推薦給朋友或其他網站上,有用戶注冊將增加您在本站積分:

相關閱讀

Archiver·手機版·卡神網 ·卡神論壇· 網貸社區· 久壹(上海)金融信息服務有限公司 ·

Powered by X3.4   © 2005-2018 卡神網官網·網貸口子論壇·貸款口子論壇·http://com-mp3.com体彩天下app

返回頂部
体彩天下投注-爱问知识人 体彩天下平台-即可搜索 体彩天下邀请码-新浪爱彩 体彩天下开户-一定牛 彩吧助手-360云盘 彩吧助手官网-百度耨米 彩吧助手注册-欢迎您 彩吧助手app-爱问知识人 彩吧助手投注-互动百科 彩吧助手平台-百科词条