數(shù)據(jù)采集才是大數(shù)據(jù)產(chǎn)業(yè)的基石
都在說(shuō)大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)價(jià)值挖掘,卻不想,沒(méi)有數(shù)據(jù)何來(lái)應(yīng)用、價(jià)值一說(shuō)。就好比不開(kāi)采石油,一味想得到汽油。當(dāng)然,石油開(kāi)采并不容易,各行各業(yè)包括政府部門(mén)的信息化建設(shè)都是封閉式進(jìn)行,海量數(shù)據(jù)被封在不同軟件系統(tǒng),數(shù)據(jù)源多種多樣,數(shù)據(jù)量大、更新快。
大數(shù)據(jù)時(shí)代最不缺的就是數(shù)據(jù),但是最缺的卻也是數(shù)據(jù),面對(duì)數(shù)據(jù)資源,如何開(kāi)采、用什么工具開(kāi)采、如何以最低成本的開(kāi)采成為了重中之重的解決問(wèn)題。
數(shù)據(jù)采集可以分兩種
(1)網(wǎng)絡(luò)上用網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行數(shù)據(jù)采集,比如爬取圖片、新聞、公司等等互聯(lián)網(wǎng)上的信息;
應(yīng)用實(shí)例:網(wǎng)上圖片采集、輿情系統(tǒng)的文章采集等;
(2)通過(guò)傳感器或者其他設(shè)備進(jìn)行數(shù)據(jù)的采集;
應(yīng)用實(shí)例:電子地圖地點(diǎn)采集、聲音、人臉采集等。
網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)采集
所謂網(wǎng)絡(luò)爬蟲(chóng),就是一個(gè)在網(wǎng)上到處或定向抓取數(shù)據(jù)的程序,當(dāng)然,這種說(shuō)法不夠?qū)I(yè),更專業(yè)的描述就是,抓取特定網(wǎng)站網(wǎng)頁(yè)的HTML數(shù)據(jù)。抓取網(wǎng)頁(yè)的一般方法是,定義一個(gè)入口頁(yè)面,然后一般一個(gè)頁(yè)面會(huì)有其他頁(yè)面的URL,于是從當(dāng)前頁(yè)面獲取到這些網(wǎng)址加入到爬蟲(chóng)的抓取隊(duì)列中,然后進(jìn)入到新頁(yè)面后再遞歸的進(jìn)行上述的操作,其實(shí)說(shuō)來(lái)就跟深度遍歷或廣度遍歷一樣。
爬蟲(chóng)數(shù)據(jù)采集方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來(lái),將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。 除了網(wǎng)絡(luò)中包含的內(nèi)容之外,對(duì)于網(wǎng)絡(luò)流量的采集可以使用DPI或DFI等帶寬管理技術(shù)進(jìn)行處理。
傳感器數(shù)據(jù)采集
傳感器是一種檢測(cè)裝置,能感受到被測(cè)量的信息,并能將感受到的信息,按一定規(guī)律變換成為電信號(hào)或其他所需形式的信息輸出,以滿足信息的傳輸、處理、存儲(chǔ)、顯示、記錄和控制等要求。在工作現(xiàn)場(chǎng),我們會(huì)安裝很多的各種類型的傳感器,如壓力的、溫度的、流量的、聲音的、電參數(shù)的等等,傳感器對(duì)環(huán)境的適應(yīng)能力很強(qiáng),可以應(yīng)對(duì)各種惡劣的工作環(huán)境。
在日常生活中,如溫度計(jì)、麥克風(fēng)、DV錄像、手機(jī)拍照功能等都屬于傳感器數(shù)據(jù)采集的一部分,支持圖片、音頻、視頻等文件或附件的采集工作。
好用的網(wǎng)頁(yè)數(shù)據(jù)采集工具-火車采集器
火車采集器(LocoySpider)是一款功能強(qiáng)大且易于上手的專業(yè)采集軟件,強(qiáng)大的內(nèi)容采集和數(shù)據(jù)導(dǎo)入功能能將您采集的任何網(wǎng)頁(yè)數(shù)據(jù)發(fā)布到遠(yuǎn)程服務(wù)器,自定義用戶cms系統(tǒng)模塊,不管你的網(wǎng)站是什么系統(tǒng),都有可能使用上火車采集器,系統(tǒng)自帶的模塊文件支持:風(fēng)訊文章,動(dòng)易文章,動(dòng)網(wǎng)論壇,PHPWIND論壇,Discuz論壇,phpcms文章,phparticle文章,LeadBBS論壇,魔力論壇,Dedecms文章,Xydw文章,驚云文章等的模塊文件。更多cms模塊請(qǐng)自己參照制作修改,也可到官方網(wǎng)站與大家交流制作。 同時(shí)您也可以使用系統(tǒng)的數(shù)據(jù)導(dǎo)出功能,利用系統(tǒng)內(nèi)置標(biāo)簽,將采集到的數(shù)據(jù)對(duì)應(yīng)表的字段導(dǎo)出到本地任何一款A(yù)ccess,MySql,MS SqlServer內(nèi)。
LocoySpider采用Visual C#編寫(xiě),可獨(dú)立在Windows2008下運(yùn)行(windows2003 自帶.net1.1框架。最新版的火車采集器是2008版,需要升級(jí)到.net2.0框架才能使用),如您在Windows2000、Xp等環(huán)境下使用,請(qǐng)先到微軟官方下載一個(gè).net framework2.0或更高環(huán)境組件?;疖嚥杉鱒2009 SP2 04月29日
數(shù)據(jù)抓取原理
火車采集器如何去抓取數(shù)據(jù),取決于您的規(guī)則。您要獲取一個(gè)欄目的網(wǎng)頁(yè)里的所有內(nèi)容,需要先將這個(gè)網(wǎng)頁(yè)的網(wǎng)址采下來(lái),這就是采網(wǎng)址。程序按您的規(guī)則抓取列表頁(yè)面,從中分析出網(wǎng)址,然后再去抓取獲得網(wǎng)址的網(wǎng)頁(yè)里的內(nèi)容。
再根據(jù)您的采集規(guī)則,對(duì)下載到的網(wǎng)頁(yè)分析,將標(biāo)題內(nèi)容等信息分離開(kāi)來(lái)并保存下來(lái)。如果您選擇了下載圖片等網(wǎng)絡(luò)資源,程序會(huì)對(duì)采集到的數(shù)據(jù)進(jìn)行分析,找出圖片,資源等的下載地址并下載到本地。
數(shù)據(jù)發(fā)布原理
在我們將數(shù)據(jù)采集下來(lái)后數(shù)據(jù)默認(rèn)是保存在本地的,我們可以使用以下幾種方式對(duì)數(shù)據(jù)進(jìn)行處理。
1、不做任何處理。因?yàn)閿?shù)據(jù)本身是保存在數(shù)據(jù)庫(kù)的(access、db3、mysql、sqlserver),您如果只是查看數(shù)據(jù),直接用相關(guān)軟件打開(kāi)查看即可。
2、Web發(fā)布到網(wǎng)站。程序會(huì)模仿瀏覽器向您的網(wǎng)站發(fā)送數(shù)據(jù),可以實(shí)現(xiàn)您手工發(fā)布的效果。
3、直接入數(shù)據(jù)庫(kù)。您只需寫(xiě)幾個(gè)SQL語(yǔ)句,程序會(huì)將數(shù)據(jù)按您的SQL語(yǔ)句導(dǎo)入到數(shù)據(jù)庫(kù)中。
4、保存為本地文件。程序會(huì)讀取數(shù)據(jù)庫(kù)里的數(shù)據(jù),按一定格式保存為本地sql或是文本文件。
工作流程
火車采集器采集數(shù)據(jù)是分成兩個(gè)步驟的,一是采集數(shù)據(jù),二是發(fā)布數(shù)據(jù)。這兩個(gè)過(guò)程是可以分開(kāi)的。
1、采集數(shù)據(jù),這個(gè)包括采集網(wǎng)址,采集內(nèi)容。這個(gè)過(guò)程是獲得數(shù)據(jù)的過(guò)程。我們做規(guī)則,在采的過(guò)程中也算是對(duì)內(nèi)容做了處理。
2、發(fā)布內(nèi)容就是將數(shù)據(jù)發(fā)布到自己的論壇,CMS的過(guò)程,也是實(shí)現(xiàn)數(shù)據(jù)為已有的過(guò)程??梢杂肳EB在線發(fā)布,數(shù)據(jù)庫(kù)入庫(kù)或存為本地文件。
具體的使用其實(shí)是很靈活的,可以根據(jù)實(shí)際來(lái)決定。比如我可以采集時(shí)先采集不發(fā)布,有時(shí)間了再發(fā)布,或是同時(shí)采集發(fā)布,或是先做發(fā)布配置,也可以在采集完了再添加發(fā)布配置。總之,具體過(guò)程由您而定,火車采集器的強(qiáng)大功能之一也就是體現(xiàn)在靈活中。