Stack Overflow近日宣布,通過谷歌BigQuery提供它的數(shù)據集。開發(fā)人員可以使用平常的SQL語句查詢完整的Stack Overflow數(shù)據集,包括帖子、投票、標簽和徽章。使用BigQuery的REST API,開發(fā)人員可以根據需要使用他們自選的工具導出數(shù)據。BigQuery上的數(shù)據集支持聯(lián)合查詢,開發(fā)人員使用普通的SQL就可以跨領域獲得有用的見解。
除了Stack Overflow的數(shù)據集以外,BigQuery還支持對Hacker News數(shù)據集和GitHub數(shù)據集的訪問,這兩個數(shù)據集連同Stack Overflow數(shù)據集可以提供有用的見解。BigQuery近日還圍繞紐約市的數(shù)據增加了三個數(shù)據集,分別是關于機動車碰撞、城市自行車旅行及311非緊急市政服務電話請求。BigQuery之前已經有一個數(shù)據集,其中包含2009年到2015年紐約市的每一次出租車和豪華轎車旅行,上述三個數(shù)據集對此是一個補充。
當前,BigQuery還有其他可用的數(shù)據集,其中包括氣象信息(部分數(shù)據遠至1763年)、醫(yī)療數(shù)據、350萬數(shù)字化圖書、一個包含元數(shù)據并標注了900萬URL的圖像數(shù)據集、美國國稅局及美國職棒大聯(lián)盟的數(shù)據。還有一個數(shù)據集包含了世界各地的新聞和事件,每15分鐘更新一次。該數(shù)據集是由GDELT項目提供的。此外,BigQuery還包含Personal Genome項目提供的Genomics數(shù)據集、Wikipedia頁面訪問量數(shù)據以及將近20億條Reddit評論。
感興趣的讀者可以通過BigQuery控制臺獲取Stack Overflow數(shù)據集,也可以通過reddit社區(qū)參與進一步的討論。
查看英文原文:Google BigQuery Adds New Public Datasets