大數(shù)據(jù)的預(yù)處理以及帶來(lái)的6個(gè)數(shù)學(xué)問(wèn)題

責(zé)任編輯:editor005

2015-03-19 14:08:33

摘自:商業(yè)智能行業(yè)資訊

從狹義上講,大數(shù)據(jù)確實(shí)就是大量的數(shù)據(jù),而從廣義上說(shuō),大數(shù)據(jù)不僅僅是大量的數(shù)據(jù),更是互聯(lián)網(wǎng)中數(shù)據(jù)價(jià)值的挖掘和分析,包括對(duì)此存儲(chǔ),因?yàn)闀?huì)用到軟件,因此被狹義理解層面更具深度。

從狹義上講,大數(shù)據(jù)確實(shí)就是大量的數(shù)據(jù),而從廣義上說(shuō),大數(shù)據(jù)不僅僅是大量的數(shù)據(jù),更是互聯(lián)網(wǎng)中數(shù)據(jù)價(jià)值的挖掘和分析,包括對(duì)此存儲(chǔ),因?yàn)闀?huì)用到軟件,因此被狹義理解層面更具深度。

大數(shù)據(jù)在運(yùn)行過(guò)程中會(huì)遇到很多問(wèn)題,也有很多的操作,比如預(yù)處理。這個(gè)主要用于完成對(duì)已經(jīng)接收到的數(shù)據(jù)進(jìn)行辨別、抽取和清洗的操作,在抽取過(guò)程中,大數(shù)據(jù)分析軟件會(huì)根據(jù)數(shù)據(jù)的結(jié)構(gòu)和類(lèi)型,對(duì)其進(jìn)行深入的抽取,在此過(guò)程中,數(shù)據(jù)抽取會(huì)幫助企業(yè)更好的轉(zhuǎn)化數(shù)據(jù),從而讓復(fù)雜簡(jiǎn)單化,以便于企業(yè)能夠更好的處理數(shù)據(jù)。

而對(duì)于數(shù)據(jù)的清洗方面,專業(yè)人士則指出,大數(shù)據(jù)中有很多都是企業(yè)不需要的,也沒(méi)有必要浪費(fèi)時(shí)間在上面分析,因此可以將其清洗掉。這樣既能避免數(shù)據(jù)被一些不重要的信息干擾,同時(shí)還能夠通過(guò)這種方式簡(jiǎn)單操作流程,讓數(shù)據(jù)更加有價(jià)值。

至于大數(shù)據(jù)帶來(lái)的數(shù)學(xué)問(wèn)題,專業(yè)人士指出,一共有六點(diǎn),分別如下:

第一、大數(shù)據(jù)的采樣

大數(shù)據(jù)每天都在變大,但是對(duì)于企業(yè)來(lái)說(shuō),這樣的大數(shù)據(jù)并不受歡迎,因?yàn)檫@意味著有更多的工作要做,而將其變小是企業(yè)在處理問(wèn)題時(shí)候最明智的做法。在此過(guò)程中,需要做到兩點(diǎn),一是要找到與算法相匹配的非常小的樣本集,另一方面則是要對(duì)算法的誤差影響進(jìn)行評(píng)估,做到心中有數(shù)。

第二、大數(shù)據(jù)的表示

即將存儲(chǔ)、影響算法效率的數(shù)據(jù)進(jìn)行明示,這樣操作人員就可以通過(guò)大數(shù)據(jù)分析軟件了解這一切,避免被誤導(dǎo)。

第三、當(dāng)大數(shù)據(jù)出現(xiàn)不一樣的時(shí)候

這時(shí)候,最重要的就是如何消除不一樣,而消除不一樣就要找到問(wèn)題的根本,只有這樣才能真正明白為什么會(huì)出現(xiàn)不一樣的情況。

第四、超高維和不確定維

前者會(huì)導(dǎo)致數(shù)據(jù)稀疏,后者會(huì)導(dǎo)致數(shù)據(jù)并存,或者是按照任務(wù)定維做,無(wú)論是哪一種都會(huì)對(duì)企業(yè)的運(yùn)行決策產(chǎn)生不利的影響。

第五、不適定性

這是高維導(dǎo)致的問(wèn)題,會(huì)有很多解決方法,但是究竟哪種更快捷到目前還沒(méi)有確切的說(shuō)法。

大數(shù)據(jù)的存在滿足了企業(yè)發(fā)展對(duì)信息的需求,而大數(shù)據(jù)分析軟件的出現(xiàn)則將這一需求簡(jiǎn)單化,為企業(yè)帶來(lái)更多的發(fā)展契機(jī)。

原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13755.html

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)