2014年4月29日 星期二

歡迎訪問湖北交投隨岳高速!

你當前的位置:首頁 >> 企業文化 >> 管理之窗 >>

一種針對千萬級以上稽查數據篩查大車小標的通用數據模型設計思路

【發布人】Admin 【發布時間】2021/8/30 10:43:32 【點擊次數】428 【雙擊滾動】

【摘要】:隨著隨岳運營公司稽查數據庫數據存儲量的上升,截止2021年7月31日,數據存儲量已達835.39萬條,原有的大車小標數據模型1.0版本數據對比量只能在500萬條數據以下級別,無法滿足現階段稽查打逃任務的全量匹配篩查工作,本文提出一種利用分庫存儲組合篩查的手段來構建大車小標數據模型2.0版,將原有1.0版本的數據對比數量由百萬級提升至千萬級,同時實現將無金額差的車型數據提前剔除的目的。


【關鍵詞】:隨岳稽查數據庫;分庫存儲;大車小標數據模型2.0;


前言:以目前圖像稽查平臺隨岳公司所轄27個收費站日均產生1.65萬條出口數據為例,全年數據量在600萬條左右,根據阿里巴巴《Java開發手冊》提出單表行數超過500萬行或者單表容量超過2GB,推薦進行分庫分表,從而實現性能最優解。大車小標2.0版本主要目的為彌補原有大車小標1.0版本數據模型在數據對比的樣本數量不足、無法剔除無金額差的車型數據等問題,大車小標2.0數據篩查模型已在隨岳運營公司《隨岳運營公司“大戰五個月 稽核保目標”專項行動》數據篩查階段測試應用,排除因湖北省圖像稽查系統缺陷(例如:出口雖然顯示是3型貨車,實際按照6型貨車扣費)導致的數據誤判,數據篩查準確率在95%以上。

一、大車小標數據篩查模型流程設置

為解決湖北省圖像稽查平臺導出的數據無藍牌和黃牌的區分,通過將原有的一個數據篩查模型拆分為客車大車小標和貨車大車小標兩個篩查模型來進行客貨區分,有效的提升了數據的有效性,減少了后期人工判斷的樣本數據量。


二、實現步驟

步驟一:通過Power Query完成第一輪清洗,清洗目的為減少無效數據,以車輛下站結果為導向進行大車小標數據模型設定的依據之一是一輛車需要通行本路段2次以上,對于只有1次通行記錄的車輛將排除在外,本步驟僅以貨車類大車小標舉例;

IMG_256


步驟二:通過Power Query完成第二輪清洗,將有2次及以上通行記錄的車輛進行車型比較,排查出一輛車有2種及以上車型繳費記錄的數據,對該類型數據進行標注大車小標嫌疑;


IMG_256


步驟三:將標注大車小標嫌疑的車輛的數據進行全量數據比較,提取嫌疑車輛歷史通行記錄,導出數據透視表呈現嫌疑車輛排查清單。

IMG_256


三、結語

隨著隨岳運營公司稽查數據庫數據量的與日俱增,以及稽查打逃工作的深入開展,如何在大量的存量數據中更深入的挖掘出數據有效性,如何與相鄰路段單位在區域聯動協查進行數據共享,一套通用的數據篩查模型是必不可少的,今后隨著數據采集方式的變化對數據模型的升級改造和稽查人員在數據篩查工具的使用的熟練度都提出了更高的要求。


參考文獻:

[1]李蓬實,黎偉.大數據背景下面向經管類專業的PowerQuery數據處理課程探索[J].教育現代化, 2019, v.6(91):168-169.


(監控中心 夏康)


上一篇:淺談高速公路“綠色通道”查驗之我見

下一篇:淺談高速公路智慧收費系統分析和展望


国产在线āv免费