繁體簡(jiǎn)體

數(shù)喆數(shù)據(jù)底冊(cè)清洗技術(shù)助力“五經(jīng)普”單位清查工作高效開(kāi)展

第五次全國(guó)經(jīng)濟(jì)普查是一項(xiàng)重大的國(guó)情國(guó)力調(diào)查,也是一項(xiàng)龐大的社會(huì)系統(tǒng)工程,其中單位清查工作是經(jīng)濟(jì)普查工作的一項(xiàng)重要基礎(chǔ)性工作,是準(zhǔn)確界定普查對(duì)象類(lèi)型、保障普查工作順利實(shí)施的關(guān)鍵。

清查底冊(cè)是進(jìn)行單位清查的重要支撐環(huán)節(jié),直接影響普查登記成效和數(shù)據(jù)質(zhì)量。《全國(guó)經(jīng)濟(jì)普查條例》《國(guó)務(wù)院關(guān)于開(kāi)展第五次全國(guó)經(jīng)濟(jì)普查的通知》中明確提到在清查和正式普查開(kāi)始前,需根據(jù)地方民政、稅務(wù)、市場(chǎng)監(jiān)管等具備單位設(shè)立審批、登記職能的部門(mén)提供的審批或者登記的單位資料,形成經(jīng)濟(jì)普查單位名錄。

清查底冊(cè)特征

1.重要程度高:清查底冊(cè)是單位清查的重要線索,清查之后形成的單位名錄是進(jìn)行正式普查的直接依據(jù),一份準(zhǔn)確詳細(xì)的單位名錄是普查工作取得成功的關(guān)鍵。

2.單位類(lèi)型多樣:?jiǎn)挝灰话惴譃槠髽I(yè)法人單位及產(chǎn)業(yè)單位、非企業(yè)法人單位(民政、編辦、教育等部門(mén)審批的非企業(yè)法人單位)和個(gè)體工商戶(hù)三種。

3.數(shù)據(jù)多源:清查底冊(cè)的來(lái)源局包括地方編制、民政、稅務(wù)、市場(chǎng)監(jiān)管以及其他具有單位設(shè)立審批、登記職能的部門(mén),數(shù)出多源,信息重復(fù)率較高。

4.數(shù)據(jù)量大:各級(jí)政府部門(mén)提供的單位資料中普查對(duì)象數(shù)量、字段眾多,且各部門(mén)提供的資料具有一定重復(fù)率,整體清洗工作量較大。

5.清洗程序復(fù)雜:由于單位類(lèi)型多樣、數(shù)出多源、數(shù)據(jù)量大等特征,清查工作程序需謹(jǐn)慎嚴(yán)密,保證數(shù)據(jù)信息不重不漏、盡可能多地保留有用信息,如地址、電話等。

工作方案

數(shù)喆數(shù)據(jù)作為國(guó)內(nèi)領(lǐng)先為數(shù)據(jù)要素市場(chǎng)提供全產(chǎn)業(yè)鏈技術(shù)服務(wù)的支撐機(jī)構(gòu),積極響應(yīng)和創(chuàng)新底冊(cè)清洗工作的方式方法,采用傳統(tǒng)手段與AI技術(shù)相結(jié)合的方式,為“五經(jīng)普”底冊(cè)清洗工作提供新思路。

一是數(shù)據(jù)整合。將基本單位名錄庫(kù)數(shù)據(jù)與民政、稅務(wù)、市場(chǎng)和編辦等行政單位提供的數(shù)據(jù)資料合并,確保單位清查底冊(cè)的“全面性”。

二是刪減剔重。對(duì)合并后的底冊(cè)進(jìn)行無(wú)效數(shù)據(jù)刪減、重復(fù)數(shù)據(jù)剔除,確保單位清查底冊(cè)的“準(zhǔn)確性”。

三是數(shù)據(jù)補(bǔ)充。利用我司內(nèi)外部數(shù)據(jù)資源,對(duì)底冊(cè)缺失數(shù)據(jù)進(jìn)行補(bǔ)充,確保單位清查底冊(cè)信息的“完整性”。

四是有序分割。將清查底冊(cè)按區(qū)縣進(jìn)行分割,確保單位清查底冊(cè)的“高效性”。

五是人機(jī)合審。利用單位清查比對(duì)程序以及人工審核,進(jìn)一步確保單位清查底冊(cè)的“精準(zhǔn)性”。

技術(shù)路線

制定清洗策略。充分研析數(shù)據(jù)邏輯關(guān)聯(lián)(包括主外鍵關(guān)聯(lián)關(guān)系、層級(jí)關(guān)系和條件關(guān)系),針對(duì)性的制定邏輯嚴(yán)密的清洗算法規(guī)則。

模型訓(xùn)練。利用Python、Java等工具引擎,搭建清洗環(huán)境,靈活嵌入邏輯規(guī)則和優(yōu)化算法,自動(dòng)化地進(jìn)行多庫(kù)數(shù)據(jù)匹配、比對(duì)與集成,利用數(shù)據(jù)比對(duì)算法、NLP、AI等技術(shù)進(jìn)一步規(guī)范、修正以及效果驗(yàn)證,并進(jìn)一步判斷規(guī)則適用性。

數(shù)據(jù)驗(yàn)證與測(cè)試。對(duì)集成清洗后的數(shù)據(jù)進(jìn)行系統(tǒng)驗(yàn)證和測(cè)試,判斷清洗后的數(shù)據(jù)是否符合預(yù)期結(jié)果和業(yè)務(wù)邏輯,確保底冊(cè)數(shù)據(jù)的全面性、準(zhǔn)確性和可用性。

圖:技術(shù)路線

數(shù)喆優(yōu)勢(shì):

成熟的清洗規(guī)則。數(shù)喆數(shù)據(jù)基于“四經(jīng)普”和“五經(jīng)普”試點(diǎn)工作經(jīng)驗(yàn),已形成適應(yīng)各地底冊(cè)清洗可復(fù)用的清洗規(guī)則,可供后續(xù)工作使用,提高工作效率。

自動(dòng)化。利用靈活匹配代碼,自動(dòng)化實(shí)現(xiàn)數(shù)據(jù)快速集成、識(shí)別、規(guī)范與修正。

高效性。數(shù)據(jù)比對(duì)模型、NLP文本處理等技術(shù)可以在短時(shí)間內(nèi)處理大規(guī)模的數(shù)據(jù)集,利用AI技術(shù)優(yōu)化模型算法,提高信息保有率。

準(zhǔn)確性。使用高級(jí)算法和模式識(shí)別能力,可以更準(zhǔn)確地檢測(cè)和修復(fù)數(shù)據(jù)中的問(wèn)題。

方案可擴(kuò)展??焖俑咝峁┑胤蕉ㄖ苹變?cè)清洗解決方案。

來(lái)源:中華網(wǎng)


責(zé)任編輯:侯哲
熱門(mén)評(píng)論
互聯(lián)網(wǎng)新聞信息服務(wù)許可證10120170072
京公網(wǎng)安備 11010502045281號(hào)
違法和不良信息舉報(bào)電話:010-65669841
舉報(bào)郵箱:xxjb@huaxia.com

網(wǎng)站簡(jiǎn)介 / 廣告服務(wù) / 聯(lián)系我們

主辦:華夏經(jīng)緯信息科技有限公司   版權(quán)所有 華夏經(jīng)緯網(wǎng)

Copyright 2001-2024 By m.612g.cn