牛津大學(xué)量化金融創(chuàng)始人:如何獲取并應(yīng)用互聯(lián)網(wǎng)大數(shù)據(jù)?

責(zé)任編輯:editor007

作者:伊莉

2017-06-15 21:12:23

摘自:雷鋒網(wǎng)

全自動(dòng)數(shù)據(jù)挖掘  英國(guó)有超過15000個(gè)房地產(chǎn)網(wǎng)站,還有一些沒有被完全覆蓋的聚合,而這高度要求著完全自動(dòng)的挖掘技術(shù)。這幅圖中的黑點(diǎn)是URL的鏈接,這是一個(gè)源數(shù)據(jù)項(xiàng)目,我們通過構(gòu)建黑盒子來改變數(shù)據(jù),從幾千萬的頁(yè)面到一個(gè)大數(shù)據(jù)集。

牛津大學(xué)量化金融創(chuàng)始人:如何獲取并應(yīng)用互聯(lián)網(wǎng)大數(shù)據(jù)?

雷鋒網(wǎng)AI金融評(píng)論報(bào)道,日前,“2017中歐金融科技產(chǎn)業(yè)發(fā)展論壇”在深圳舉行。眾多來自牛津大學(xué)、盧森堡大學(xué)、歐洲科學(xué)院以及法國(guó)美國(guó)等機(jī)構(gòu)和地區(qū)的計(jì)算機(jī)科學(xué)專家也出席了大會(huì),并發(fā)表各自領(lǐng)域的演講。George Gottlob教授是牛津計(jì)算機(jī)系數(shù)據(jù)研究中心主任、量化金融研究中心創(chuàng)始人。他的分享主題是“網(wǎng)頁(yè)大數(shù)據(jù)——如何獲取數(shù)據(jù)并應(yīng)用”。

以下是演講原文,雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))進(jìn)行了不改變?cè)獾木庉嫞?/p>

過去10到15年,數(shù)據(jù)提取是我一大重要研究領(lǐng)域,今天我將介紹如何利用互聯(lián)網(wǎng)收集數(shù)據(jù)。

互聯(lián)網(wǎng)不是數(shù)據(jù)庫(kù)

數(shù)據(jù)就存在于我們的日常生活中,數(shù)據(jù)對(duì)今天的發(fā)展來說至關(guān)重要。很多人說互聯(lián)網(wǎng)是最大的數(shù)據(jù)庫(kù),這是不準(zhǔn)確的?;ヂ?lián)網(wǎng)不是數(shù)據(jù)庫(kù),互聯(lián)網(wǎng)僅僅是數(shù)據(jù)的集合。這些數(shù)據(jù)是非結(jié)構(gòu)化的,非結(jié)構(gòu)化的數(shù)據(jù)以各種形式存在,因此也無法進(jìn)行結(jié)構(gòu)化的檢索。

舉個(gè)例子,比如我要讓互聯(lián)網(wǎng)列出維也納所有滿足特定條件的公寓,而條件是帶陽(yáng)臺(tái)、價(jià)格低于50萬美元,附近有很多意大利餐館,但是去互聯(lián)網(wǎng)上無法搜到結(jié)果。因?yàn)榛ヂ?lián)網(wǎng)并不是數(shù)據(jù)庫(kù),只有有了數(shù)據(jù)庫(kù)才能實(shí)現(xiàn)搜索。

那怎樣將互聯(lián)網(wǎng)變成一個(gè)巨大的數(shù)據(jù)庫(kù)呢?數(shù)據(jù)是結(jié)構(gòu)化的,我們可以創(chuàng)建相應(yīng)的結(jié)構(gòu),為此必須提取數(shù)據(jù)。由于今天的時(shí)間問題,我不會(huì)涉及太多理論,我給大家展示一下使用方法。

牛津大學(xué)量化金融創(chuàng)始人:如何獲取并應(yīng)用互聯(lián)網(wǎng)大數(shù)據(jù)?

一個(gè)網(wǎng)頁(yè)有很多的標(biāo)記,左邊展示了網(wǎng)頁(yè)結(jié)構(gòu),但網(wǎng)頁(yè)到底怎么收集信息呢?我們從標(biāo)記中來獲取相應(yīng)的信息。例如我要收集這個(gè)網(wǎng)頁(yè)上所有電話號(hào)碼,網(wǎng)頁(yè)上會(huì)有電話號(hào)碼的標(biāo)記,樹狀結(jié)構(gòu)上標(biāo)黃的就是電話。

此外,還需要研究基礎(chǔ)語(yǔ)言和邏輯。對(duì)于計(jì)算機(jī)科學(xué)家來說,邏輯學(xué)是非常重要的。然后再確定想從網(wǎng)頁(yè)當(dāng)中挖掘到什么樣的信息,這些數(shù)據(jù)記錄是一些非?;镜臄?shù)據(jù)源。如果有人想做編程,就需要做這個(gè)語(yǔ)言, 語(yǔ)言可以幫助他找到網(wǎng)頁(yè)的很多特異性,它和其它網(wǎng)站相連,屬性、圖片、JAVA語(yǔ)言都非常重要,所以可以從一個(gè)語(yǔ)言跳到另外一個(gè)語(yǔ)言。

牛津大學(xué)量化金融創(chuàng)始人:如何獲取并應(yīng)用互聯(lián)網(wǎng)大數(shù)據(jù)?

同時(shí)它中間有一個(gè)邏輯,必須要進(jìn)行視覺上的處理,同時(shí)需要一個(gè)視覺工具。在設(shè)計(jì)產(chǎn)品和搜索產(chǎn)品的時(shí)候,還有上層和下層,包括大數(shù)據(jù)、數(shù)據(jù)庫(kù)的編程以及設(shè)計(jì)。可視化的發(fā)展是指,自動(dòng)化的工具能讓挖掘信息的過程更加可視化,并且會(huì)是一個(gè)自動(dòng)的過程。

牛津大學(xué)量化金融創(chuàng)始人:如何獲取并應(yīng)用互聯(lián)網(wǎng)大數(shù)據(jù)?

比如說從ebay網(wǎng)頁(yè)上挖掘相關(guān)鏈接。圖上所示就是編程的語(yǔ)言,這些路是單一的數(shù)據(jù),表示這些數(shù)據(jù)屬于哪里,此頁(yè)面數(shù)據(jù)是使用何種語(yǔ)言。但只是做這個(gè)語(yǔ)言是完全不夠的,我們需要從幾萬頁(yè)或者是幾百萬頁(yè)的網(wǎng)頁(yè)上去抓取、挖掘數(shù)據(jù),所以會(huì)用到云。我們擁有云的數(shù)據(jù),用云來做這樣的工具。

在數(shù)據(jù)挖掘方面,我們有本地化的內(nèi)容挖掘和云的內(nèi)容挖掘。2001年我聯(lián)合建立了一家公司,這個(gè)公司為客戶提供了不少的幫助。以下是一些使用情景,體現(xiàn)了數(shù)據(jù)提取的重要性。

我們?cè)?jīng)有一些用戶是電子產(chǎn)品的零售商。對(duì)他們來說,他們不僅要考慮市場(chǎng)的情況,還需要考慮競(jìng)爭(zhēng)對(duì)手的情況,包括每日價(jià)格、成本、消費(fèi)趨勢(shì)、產(chǎn)品結(jié)構(gòu)信息。這些數(shù)據(jù)對(duì)于他們來說非常難獲得。而實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)挖掘卻又十分重要。我們得到了一個(gè)電子產(chǎn)品列表,表格列出了客戶的競(jìng)爭(zhēng)對(duì)手,并能顯示出對(duì)方哪些方面做得更好。所以客戶能從中看到可以改善的區(qū)域,比如是價(jià)格還是競(jìng)爭(zhēng)力。

第二個(gè)代表性場(chǎng)景是對(duì)沖基金。房屋價(jià)格指數(shù)由國(guó)家統(tǒng)計(jì)部門經(jīng)常性發(fā)布的。它影響著不同行業(yè)的股價(jià)。如果能夠在國(guó)家統(tǒng)計(jì)部門宣布之前預(yù)見房?jī)r(jià),可以做很好的投機(jī)。

第三個(gè)場(chǎng)景是建筑公司投標(biāo)。投標(biāo)者來自全世界,要想知道潛在競(jìng)爭(zhēng)對(duì)手的信息非常昂貴并且不完整。但我們做的事情切中了競(jìng)標(biāo)者痛點(diǎn)。

全自動(dòng)數(shù)據(jù)挖掘

英國(guó)有超過15000個(gè)房地產(chǎn)網(wǎng)站,還有一些沒有被完全覆蓋的聚合,而這高度要求著完全自動(dòng)的挖掘技術(shù)。因?yàn)殡m然這些信息很容易獲得,但是手動(dòng)或者半自動(dòng)化加工數(shù)據(jù)成本太昂貴。而目前不存在完全自動(dòng)的挖掘工具或者技術(shù)。因此我和一位牛津教授合作,研究固化或者形式化數(shù)據(jù)挖掘,這樣機(jī)器就能自動(dòng)地挖掘數(shù)據(jù)。

牛津大學(xué)量化金融創(chuàng)始人:如何獲取并應(yīng)用互聯(lián)網(wǎng)大數(shù)據(jù)?

這幅圖中的黑點(diǎn)是URL的鏈接,這是一個(gè)源數(shù)據(jù)項(xiàng)目,我們通過構(gòu)建黑盒子來改變數(shù)據(jù),從幾千萬的頁(yè)面到一個(gè)大數(shù)據(jù)集。

牛津大學(xué)量化金融創(chuàng)始人:如何獲取并應(yīng)用互聯(lián)網(wǎng)大數(shù)據(jù)?

上圖為兩種不同來源的知識(shí)類型。就像一個(gè)小孩學(xué)習(xí)知識(shí),在學(xué)校里會(huì)有許多人告訴他規(guī)則,他學(xué)習(xí)的就是規(guī)則。所以這就是一個(gè)從機(jī)器學(xué)習(xí)遷移到規(guī)則為基礎(chǔ)的推理。這對(duì)于研究者來說非常重要。右邊是通過規(guī)則建立的推理,我們通過規(guī)則實(shí)現(xiàn)自動(dòng)化。規(guī)則總共有兩種,本位規(guī)則和其它規(guī)則。

2015年我們創(chuàng)建了一個(gè)公司,為了使用這種系統(tǒng)和規(guī)則,我們需要識(shí)別和對(duì)齊對(duì)象、填充表單、區(qū)塊分析和對(duì)象豐富化以及云的支持,這樣才能更高效地提取信息。我們使用上面的語(yǔ)言從幾千個(gè)網(wǎng)頁(yè)提取容量信息,規(guī)則也需要語(yǔ)言。在很多領(lǐng)域例如二手車、房地產(chǎn)領(lǐng)域,都可以實(shí)現(xiàn)自動(dòng)化數(shù)據(jù)提取。如果該領(lǐng)域非常簡(jiǎn)單,20天能形成相應(yīng)的規(guī)則。但也存在一些非常復(fù)雜的領(lǐng)域,每個(gè)領(lǐng)域的特點(diǎn)都不同,每個(gè)國(guó)家都有自己的語(yǔ)言,這些都是需要克服的問題。

目前深耕知識(shí)圖譜技術(shù)

最后介紹一下我們目前的研究工作——知識(shí)圖譜。知識(shí)圖譜能以非常清晰的方式來管理大量的知識(shí)。它通過識(shí)別信息來改變?nèi)藗兊纳?,從而形成一個(gè)非常大的知識(shí)世界。很多公司也跟隨著我們的研究腳步,包括Facebook、亞馬遜等。當(dāng)然,小公司也希望利用知識(shí)圖譜收集員工、客戶、競(jìng)爭(zhēng)者、價(jià)格等信息,從而提升業(yè)務(wù)質(zhì)量。

而這個(gè)知識(shí)系統(tǒng)的核心(綠色標(biāo)識(shí))是推理,其中蘊(yùn)含很多規(guī)則,有很多對(duì)外接口。其中一個(gè)接口就是外部數(shù)據(jù)的提取,主要從互聯(lián)網(wǎng)上提取數(shù)據(jù)。此外還有內(nèi)部的知識(shí),數(shù)據(jù)庫(kù)之間也存在著一些關(guān)系,可以非常容易地和物聯(lián)網(wǎng)對(duì)接。事實(shí)上這是一個(gè)推理引擎, 我們這方面的客戶包括央行以及其它銀行?;诖丝梢蚤_發(fā)很多應(yīng)用,例如征信等。使用基于規(guī)則的系統(tǒng)也可以檢測(cè)出交易中的欺詐行為。可以用來檢測(cè)公司貸款的真實(shí)性,是否存在騙貸傾向。

牛津大學(xué)量化金融創(chuàng)始人:如何獲取并應(yīng)用互聯(lián)網(wǎng)大數(shù)據(jù)?

上圖展示的是公司的所有權(quán),現(xiàn)實(shí)中公司間的股權(quán)結(jié)構(gòu)往往非常復(fù)雜,可以使用這個(gè)系統(tǒng)來理清公司之間的關(guān)系,改進(jìn)公司管理。具體表現(xiàn)在,可以根據(jù)股份的多少來確定控股公司。此外,若兩家公司共同持有另外一家公司,而這些信息在SQL中是很難處理和查詢的,但是使用該解決方案可以更方便管理,提高計(jì)算速度。

中歐金融科技論壇落下帷幕,但業(yè)界交流盛會(huì)永不停歇。由雷鋒網(wǎng)承辦的 CCF-GAIR 全球人工智能與機(jī)器人大會(huì)將于7月7日-9日深圳召開,屆時(shí)也會(huì)舉辦Fintech專場(chǎng)。原牛津計(jì)算機(jī)系主任 Bill Roscoe 教授、香港科技大學(xué)教授張曉泉、平安科技首席科學(xué)家肖京、通聯(lián)數(shù)據(jù)CEO王政、北航區(qū)塊鏈實(shí)驗(yàn)室主任蔡維德、眾安科技CTO李雪峰等都將為大家?guī)砭史窒?,敬?qǐng)期待!如果您希望現(xiàn)場(chǎng)與這些大牛們交流,歡迎參加大會(huì),現(xiàn)在購(gòu)票還能享有貴賓級(jí)優(yōu)惠哦!

牛津大學(xué)量化金融創(chuàng)始人:如何獲取并應(yīng)用互聯(lián)網(wǎng)大數(shù)據(jù)?

  雷鋒網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)