久久精品国产99国产精2020丨,亚洲成αv人片在线观看,www.黄色av免费,亚洲黄色在线,福利无码视频世界,欧美色综合一区二区三区,2017夜夜爱毛片

數(shù)據(jù)質(zhì)量:大數(shù)據(jù)的新側(cè)面

來源:網(wǎng)絡

點擊:778

A+ A-

所屬頻道:新聞中心

關(guān)鍵詞: 大數(shù)據(jù)

      數(shù)據(jù)質(zhì)量的定義

      根據(jù)維基百科的定義:數(shù)據(jù)質(zhì)量指的是“數(shù)據(jù)對其在操作、決策支持和規(guī)劃中扮演角色的適應程度”。下面是數(shù)據(jù)質(zhì)量常見的五個方面:

     ?。?)一致性:信息集合中每個信息都不包含語義錯誤或相互矛盾的數(shù)據(jù)。例如,信息(公司=“先導”,國碼=“86”,區(qū)號=“10”,城市=“上海”)就不一致,因為10是北京區(qū)號而非上海區(qū)號。又如,若銀行信用卡信息庫顯示某持卡人同時在北京和新疆使用同一信用卡消費,這時就出現(xiàn)了同一時刻兩個地點信息不一致的情況。

     ?。?)精確性:信息集合中每個信息都能準確表述現(xiàn)實世界中的實體。例如,某城市人口數(shù)量為4130465,在信息庫中的記載為400萬。此數(shù)據(jù)看似合理,卻不精確,未能包含剩余的130465人。

     ?。?)完整性:信息集合中包含足夠的信息來實現(xiàn)回答問題、查詢信息或進行知識發(fā)現(xiàn)等功能。這也同樣是數(shù)據(jù)質(zhì)量評定中的一個重要因素!例如,某醫(yī)療信息庫中的信息遺失了某些患者的既往病史,從而存在不完整性。一旦該患者需要治療,這些缺失的信息將會導致醫(yī)生不正確的診斷甚至引發(fā)嚴重醫(yī)療事故。

      (4)時效性:信息集合中每個信息都要與時俱進。例如,把某小區(qū)住戶的地址看作是數(shù)據(jù)的話,其中某位住戶所登記的家庭地址是2010年的,但在2011年他可能搬家了,此時他所登記的家庭地址信息就不正確了,即信息過時,而這些過時信息將會導致嚴重后果。

      (5)實體同一性:信息集合中描述同一實體的不同表示形式共享同一標識。例如,為防止信用卡欺詐,銀行需監(jiān)測信用卡的使用者和持有者是否為同一人。又如,同一企業(yè)中維護著各自不同的信息庫的部門在兼并和重組時,會使新的客戶信息庫中產(chǎn)生大量具有差異的重復客戶信息,而導致客戶信息的混亂。

      大數(shù)據(jù)中的數(shù)據(jù)質(zhì)量問題

      大數(shù)據(jù),顧名思義,其最本質(zhì)的特點在于數(shù)據(jù)量“大”,除此之外,還包括了獲取、管理以及處理時的復雜性。大數(shù)據(jù)具有明顯的時代特征,使用者們習慣上將其總結(jié)為4個“V”:規(guī)模性(volume),高速性(velocity),多樣性(variety)和價值稀疏性(value)。由于這些特征,大數(shù)據(jù)才有更大可能產(chǎn)生數(shù)據(jù)質(zhì)量問題,即更有可能出現(xiàn)不一致、不精確、不完整、過時等問題或者描述同一實體的數(shù)據(jù)出現(xiàn)了沖突(簡稱為實體不同一)等錯誤,具體原因包括:

      (1)大數(shù)據(jù)具有規(guī)模性大的特點:越大規(guī)模的數(shù)據(jù)就越有可能在獲取、存儲、傳輸和計算過程中產(chǎn)生更多錯誤。即使想要進行人工錯誤檢測與修復也會由于成本極其巨大以至難以有效實施。

     ?。?)大數(shù)據(jù)具有高速性的特點:數(shù)據(jù)的大量更新會導致過時數(shù)據(jù)迅速產(chǎn)生,在這個過程中也更易于產(chǎn)生不一致數(shù)據(jù),為人工錯誤檢測與修復帶來困難。例如,某一大型實驗設(shè)備中包含了15億個傳感器,平均每秒收集超過4億條實驗數(shù)據(jù),每一秒鐘就會有這些數(shù)據(jù)迅速過時,傳統(tǒng)方法想要實現(xiàn)新數(shù)據(jù)替換對應的舊數(shù)據(jù),就顯得有些力不從心。

     ?。?)大數(shù)據(jù)具有多樣性的特點:它的多樣性指的是數(shù)據(jù)來源和形式上的多樣,這就使得數(shù)據(jù)有更大的可能產(chǎn)生不一致和沖突。例如,在互聯(lián)網(wǎng)上的不同網(wǎng)購網(wǎng)站中獲取到的同一商品的一些信息就有很大可能存在沖突。

      數(shù)據(jù)質(zhì)量的影響

      如果沒有良好的數(shù)據(jù)質(zhì)量,大數(shù)據(jù)將會對決策產(chǎn)生誤導,甚至產(chǎn)生不可估量的結(jié)果。

      根據(jù)估算,數(shù)據(jù)錯誤每年對美國工業(yè)界造成的經(jīng)濟損失約占GDP的6%。

      在醫(yī)療方面:根據(jù)美國醫(yī)療委員會的統(tǒng)計,由于數(shù)據(jù)錯誤引起的醫(yī)療事故僅在美國每年就導致高達98000名患者喪生。

      在電信產(chǎn)業(yè):數(shù)據(jù)錯誤經(jīng)常導致故障排除的延誤、多余設(shè)備租用和服務費收取錯誤,損害了企業(yè)信譽甚至會因此失去很多用戶。

      在商業(yè)上:美國零售業(yè)每年僅因標價錯誤就損失25億美元。2009年戴爾臺灣網(wǎng)站,在8小時內(nèi),售價本應是4800元新臺幣的19寸顯示器被按照錯誤標價以500元新臺幣訂購140萬臺!

      在金融企業(yè)中:因數(shù)據(jù)質(zhì)量問題導致的信用卡欺詐失察在2008年即造成48億美元的損失。2001年 雷曼兄弟公司將 £300萬錯輸入為£3億,導致金融時報指數(shù)瞬間暴跌120點,百家藍籌股的300億英鎊市值化為烏有, 損失£500萬-£1000萬。2005年瑞穗證券同樣因為輸入錯誤,在16分鐘內(nèi)損失了19億元人民幣。

      大數(shù)據(jù)質(zhì)量管理的研究成果

      在國家973高科技基礎(chǔ)研究計劃的資助下,哈爾濱工業(yè)大學等單位合作圍繞 “數(shù)據(jù)質(zhì)量”這一重要主題進行項目“海量信息可用性基礎(chǔ)理論與關(guān)鍵技術(shù)研究” 已經(jīng)超過3年,在數(shù)據(jù)質(zhì)量方面已經(jīng)取得了以下一系列研究成果:

      數(shù)據(jù)質(zhì)量評估技術(shù):從數(shù)據(jù)質(zhì)量常見的五個方面分別提出了數(shù)據(jù)質(zhì)量不同的自動評估技術(shù),并研究了這五個方面的關(guān)系,從而可以根據(jù)應用的需求判定數(shù)據(jù)的質(zhì)量是否達到要求。

      數(shù)據(jù)自動修復技術(shù):利用網(wǎng)絡提供的海量數(shù)據(jù)及從其中獲得的知識來對數(shù)據(jù)進行修復。通過分析定義錯誤修復的語義蘊含與表現(xiàn)形式、自動修復的充分必要條件和基于WEB的自動修復模型,提出了查詢關(guān)鍵詞生成模型及算法,通過遺傳算法實現(xiàn)查詢關(guān)鍵詞的自適應性調(diào)整,提出了實體抽取模型,該方法采用圖模型來描述實體集之間的關(guān)系,利用圖匹配的相關(guān)技術(shù)進行信息抽取,并基于抽取出的信息進行數(shù)據(jù)的自動修復。

      實體識別技術(shù):實體識別用于找出描述現(xiàn)實世界同一實體的數(shù)據(jù)。如今的數(shù)據(jù)集合大多具有復雜結(jié)構(gòu)并具有更新頻繁特點。課題組通過研究此種數(shù)據(jù)實體識別的理論和算法,提出了一系列針對關(guān)系數(shù)據(jù)、XML數(shù)據(jù)和圖數(shù)據(jù)的實體識別算法,并將提出的技術(shù)應用到了商品信息的實體識別中。借助所得到的結(jié)論將淘寶等購物網(wǎng)站進行改進。

      弱可用信息上的知識發(fā)現(xiàn)技術(shù):網(wǎng)絡上很多,要么不完整,要么帶有可能誤導用戶的信息的數(shù)據(jù)以及很多通過自動化方法從非結(jié)構(gòu)化數(shù)據(jù)中(比如文本和圖片)提取出來的數(shù)據(jù),都是是典型的弱可用數(shù)據(jù)。課題組針對網(wǎng)絡上的弱可用信息提出了多種知識發(fā)現(xiàn)的方法,使得人們可以借助多種數(shù)據(jù)挖掘方法在這些弱可用數(shù)據(jù)上進行知識提取,并且將這些提取出來的知識在不同領(lǐng)域的不同應用場景中進行驗證。

      數(shù)據(jù)質(zhì)量自動檢測技術(shù)在社保中的應用:在社保數(shù)據(jù)中,由于數(shù)據(jù)源多種多樣,信息成因具有階段性和分布性特點,造成了大量的數(shù)據(jù)孤島的存在,即來自不同信息網(wǎng)絡的數(shù)據(jù)信息經(jīng)常會出現(xiàn)無法共享的問題,比如公安系統(tǒng)、民政局系統(tǒng)可能就會有信息重復或信息不匹配的情況發(fā)生。課題組利用數(shù)據(jù)質(zhì)量自動檢測技術(shù)解決了這些問題,確保了社保經(jīng)濟數(shù)據(jù)工程的順利開展。

    (審核編輯: 智匯張瑜)

    聲明:除特別說明之外,新聞內(nèi)容及圖片均來自網(wǎng)絡及各大主流媒體。版權(quán)歸原作者所有。如認為內(nèi)容侵權(quán),請聯(lián)系我們刪除。