為推進(jìn)科學(xué)研究,谷歌呼吁建立標(biāo)準(zhǔn)的數(shù)據(jù)生態(tài)系統(tǒng)

責(zé)任編輯:editor004

作者:機(jī)器之心

2017-01-25 21:01:36

摘自:搜狐IT

數(shù)據(jù)消費(fèi)者(科學(xué)家到數(shù)據(jù)新聞更作者等):更準(zhǔn)確的引用數(shù)據(jù),如同我們引用科學(xué)論文一樣。

谷歌希望在人們的努力之下,我們最終能夠像搜索論文一樣輕松找到自己想要的數(shù)據(jù)集,新的標(biāo)準(zhǔn)是努力的第一步。

目前網(wǎng)絡(luò)上有數(shù)百個(gè)數(shù)據(jù)庫,它們提供了數(shù)以百萬計(jì)的數(shù)據(jù)集。這些數(shù)據(jù)的提供者包括國(guó)家和地方政府、科學(xué)和出版機(jī)構(gòu)、數(shù)據(jù)供應(yīng)商等等,數(shù)據(jù)的涵蓋面從社會(huì)科學(xué)、生命科學(xué)到高能物理、氣候科學(xué),幾乎無所不包。這些數(shù)據(jù)對(duì)于促進(jìn)研究結(jié)果的重現(xiàn)至關(guān)重要,能夠讓科學(xué)家在前人的基礎(chǔ)上繼續(xù)探索,讓數(shù)據(jù)挖掘者可以更輕松地接觸信息,探究它背后的意義。出于這些原因,很多出版者和資金提供者現(xiàn)在要求科學(xué)家們盡量公開他們的數(shù)據(jù)。

然而,由于網(wǎng)絡(luò)上數(shù)據(jù)存儲(chǔ)的數(shù)量龐大,人們會(huì)發(fā)現(xiàn)難以尋找自己需要的數(shù)據(jù)集,同時(shí)無法核實(shí)信息的來源和真實(shí)性。搜索數(shù)據(jù)集本應(yīng)該像搜索食譜、工作甚至電影一樣簡(jiǎn)單——那些類型的搜索通常是開放式的,能夠偶然的發(fā)現(xiàn)搜索空間中的某些結(jié)構(gòu)。

為了讓書籍、電影、活動(dòng)、食譜、評(píng)測(cè)和一系列其他類型的搜索在谷歌引擎上有更佳表現(xiàn),我們依賴于各網(wǎng)站上嵌入 schema.org 詞匯的結(jié)構(gòu)數(shù)據(jù)。為了促進(jìn)數(shù)據(jù)集實(shí)現(xiàn)類似的功能,我們最近發(fā)布了一個(gè)新的指導(dǎo)幫助數(shù)據(jù)提供商以標(biāo)準(zhǔn)的形式形容他們的數(shù)據(jù)集,讓谷歌和其他的搜索引擎可以連接到這些結(jié)構(gòu)化元數(shù)據(jù)描述的地理位置、出版商甚至知識(shí)圖譜,以便被使用者發(fā)現(xiàn)。我們希望這些元數(shù)據(jù)可以幫助網(wǎng)上公開的信息能夠更有效地被人們使用。

Schema.org 上形容數(shù)據(jù)集的方式基于最近在 W3C(Data Catalog Vocabulary)上的標(biāo)準(zhǔn)化成果,我們認(rèn)為它是在未來不斷完善描述和改進(jìn)數(shù)據(jù)集索引的第一步。雖然各領(lǐng)域還在不斷討論,但我們認(rèn)為這一標(biāo)準(zhǔn)已經(jīng)為構(gòu)建數(shù)據(jù)生態(tài)系統(tǒng)打下了堅(jiān)實(shí)基礎(chǔ)。

技術(shù)挑戰(zhàn)

雖然我們已經(jīng)發(fā)布了元數(shù)據(jù)的索引指南,但在輕松搜索數(shù)據(jù)集之前我們還面臨著很多技術(shù)挑戰(zhàn)。這些挑戰(zhàn)包括:

數(shù)據(jù)集定義的一致性:例如,單一表格和大量表格的集合都算是一個(gè)數(shù)據(jù)集嗎?如果都是,蛋白質(zhì)序列呢?圖片集合呢?用于鏈接數(shù)據(jù)的 API 呢?我們希望獲得更多關(guān)于數(shù)據(jù)提供者的定義、解釋以及使用方式。

數(shù)據(jù)集的識(shí)別:在理想狀況下,數(shù)據(jù)集應(yīng)該擁有一些被所有人認(rèn)可的永久標(biāo)識(shí),讓數(shù)據(jù)集具有唯一性,但在一些情況下這還不現(xiàn)實(shí)。原數(shù)據(jù)界面的 URL 或許是作為標(biāo)識(shí)符的不錯(cuò)選擇,我們需要提供多種標(biāo)識(shí)符嗎?如果有多重標(biāo)識(shí)的話,需要選擇一個(gè)主要標(biāo)識(shí)嗎?

彼此間關(guān)聯(lián)數(shù)據(jù)集:什么時(shí)候兩種記錄能夠統(tǒng)一的描述一個(gè)數(shù)據(jù)集?(例如,萬一 repository 從其他人那里復(fù)制來元數(shù)據(jù)呢)如果數(shù)據(jù)整合方(aggregator) 在一個(gè)數(shù)據(jù)集上加入了更多的元數(shù)據(jù),或者以有益的方式清潔了數(shù)據(jù)呢?我們正在研究如何明晰、定義這些關(guān)系。但是,元數(shù)據(jù)的消費(fèi)者不得不假定這些數(shù)據(jù)提供者不準(zhǔn)確描述的數(shù)據(jù),并忍受這種情況。

在相關(guān)數(shù)據(jù)集間傳播元數(shù)據(jù):在相關(guān)數(shù)據(jù)集之間我們能夠傳播多少元數(shù)據(jù)?例如,我們可能從合成數(shù)據(jù)集到它包含的子數(shù)據(jù)集來傳播出處信息。但經(jīng)過這樣的傳播,元數(shù)據(jù)有了多少的退化?我們預(yù)期根據(jù)不同的應(yīng)用退化程度不同:搜索應(yīng)用的元數(shù)據(jù)可能要比數(shù)據(jù)融合的精確度更低。

描述數(shù)據(jù)集的內(nèi)容:數(shù)據(jù)集要包含多少的描述內(nèi)容,從而使得能夠進(jìn)行類似于 Explore for Docs, Sheets and Slides 中使用的查詢,或者進(jìn)行數(shù)據(jù)集的其他探索與重復(fù)使用(當(dāng)然是在許可之下)?我們?nèi)绾胃咝У氖褂霉?yīng)商使用 W3C 標(biāo)準(zhǔn)已經(jīng)描述的內(nèi)容?

除了我們已經(jīng)列出來的技術(shù)和社會(huì)挑戰(zhàn),剩下的許多研究挑戰(zhàn)涉及到長(zhǎng)期的開放式研究:許多數(shù)據(jù)集是用無結(jié)構(gòu)的方式描述的,包括科學(xué)論文形式的說明、圖解、表格,以及其他文檔。我們能建立提取元數(shù)據(jù)的其他有前途的方式。雖然我們有合理的排序網(wǎng)頁搜索內(nèi)容的方式,而排序數(shù)據(jù)集是個(gè)挑戰(zhàn):我們不知道排序網(wǎng)頁的 signals 是否同樣適用于數(shù)據(jù)集。在數(shù)據(jù)集內(nèi)容是公開且可用的情況下,我們可能能夠提取數(shù)據(jù)集中額外的語義,例如,學(xué)習(xí)不同領(lǐng)域的值類型。但是,我們是否能夠足夠了解內(nèi)容,從而能夠進(jìn)行相關(guān)資源的數(shù)據(jù)融合于挖掘?

呼吁行動(dòng)

對(duì)任何生態(tài)系統(tǒng)而言,一個(gè)數(shù)據(jù)系統(tǒng)只有在大量人員共同貢獻(xiàn)的情況下才會(huì)繁榮,因此我們呼吁:

個(gè)人和數(shù)據(jù)倉庫提供者:使用 schema.org、DCAT、CSVW 等社區(qū)標(biāo)準(zhǔn)公布結(jié)構(gòu)元數(shù)據(jù),這能使得其他人發(fā)現(xiàn)、使用這些元數(shù)據(jù)。

數(shù)據(jù)消費(fèi)者(科學(xué)家到數(shù)據(jù)新聞更作者等):更準(zhǔn)確的引用數(shù)據(jù),如同我們引用科學(xué)論文一樣。

開發(fā)者:為 schema.org (http://schema.org/) 元數(shù)據(jù)的數(shù)據(jù)集的拓展做出貢獻(xiàn),提供專業(yè)領(lǐng)域的詞匯,以及研究使用這一豐富元數(shù)據(jù)的工具與應(yīng)用。

我們最終的目標(biāo)是幫助建立一個(gè)公布、使用、挖掘數(shù)據(jù)集的生態(tài)系統(tǒng)。如此以來,該生態(tài)系統(tǒng)將會(huì)包括數(shù)據(jù)發(fā)布者、整合者(大型數(shù)據(jù)倉儲(chǔ)方提供數(shù)據(jù)清洗、調(diào)和元數(shù)據(jù)等價(jià)值)、挖掘數(shù)據(jù)的搜索引擎、以及更重要的數(shù)據(jù)消費(fèi)者。

 

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)