幾年很熱門的大數(shù)據(jù)問題在主要研究數(shù)據(jù)、用數(shù)據(jù)說話的人口學(xué)界卻很冷清。除王廣州專門發(fā)文討論過大數(shù)據(jù)時(shí)代人口學(xué)的創(chuàng)新問題(王廣州,2015; 2017)外,其他人很少進(jìn)行正式討論。具體研究方面,僅有少數(shù)幾個(gè)作者用戶籍登記數(shù)據(jù)(王莉,2011)、婚姻登記數(shù)據(jù)(高穎等,2011到2016的系列文章)、手機(jī)信令數(shù)據(jù)(王德等,2016)、燈光遙感數(shù)據(jù)(高倩等,2017)、百度遷徙數(shù)據(jù)(趙梓渝,2017;蔣小榮,2017)做了些研究發(fā)表在人口學(xué)的幾大期刊上。為什么會(huì)出現(xiàn)這種情況?
一、人口學(xué)大數(shù)據(jù)研究討論還較少的原因
大體而言,這和中國大數(shù)據(jù)的開放現(xiàn)狀、人口學(xué)研究取向以及人口學(xué)者的訓(xùn)練都有一定關(guān)系。
一方面,人口學(xué)研究講求量的準(zhǔn)確,而能提供這種準(zhǔn)確度的大數(shù)據(jù)不多。用南佛羅里達(dá)國際大學(xué)的賴慶博士的話說,人口學(xué)是“定于量”的,不像社會(huì)學(xué)“化為量”即可。關(guān)于中國的生育水平,人口學(xué)界爭論了二十多年,就是為了確定中國的總和生育率到底是在大約1~2之間的哪個(gè)具體小數(shù)上。
其次,近十多年來,確實(shí)有越來越多的信息被電子化,甚至量化,但是諸如普查數(shù)據(jù)、戶籍?dāng)?shù)據(jù)、婚姻登記數(shù)據(jù)、出生數(shù)據(jù)、教育學(xué)籍?dāng)?shù)據(jù),以及醫(yī)保、交通、勞保、不動(dòng)產(chǎn)、銀行等公共部門掌握的微觀個(gè)人數(shù)據(jù)開放獲取的可能性仍很低。已開放的數(shù)據(jù)往往只是一些互聯(lián)網(wǎng)企業(yè)有限開放或可公開爬取的異形數(shù)據(jù)或零碎的、不系統(tǒng)的文本、圖片、視頻數(shù)據(jù)。這些數(shù)據(jù)往往缺乏基礎(chǔ)性的社會(huì)人口變量,而且大多沒有解決樣本的代表性和測量準(zhǔn)確性問題,無法對(duì)人口學(xué)所關(guān)心的數(shù)量、結(jié)構(gòu)、過程做出精確估計(jì)。因此,人口學(xué)者通常也不敢用這些數(shù)據(jù)。
再者,人口學(xué)者不太擅長用這些新數(shù)據(jù)。人口學(xué)擅長年齡、隊(duì)列分析,經(jīng)常要求年齡別或者五歲組的統(tǒng)計(jì)指標(biāo),這就要求各年齡組都具有獨(dú)立的代表性,樣本規(guī)模要求很大。一直以來,人口學(xué)者主要依賴權(quán)威部門(統(tǒng)計(jì)局,衛(wèi)計(jì)委)發(fā)布的匯總數(shù)據(jù)或者大規(guī)模的抽樣數(shù)據(jù)(包括統(tǒng)計(jì)局的普查、小普查的樣本數(shù)據(jù),人口變動(dòng)抽樣調(diào)查數(shù)據(jù),衛(wèi)計(jì)委組織的流動(dòng)人口動(dòng)態(tài)監(jiān)測調(diào)查數(shù)據(jù)和計(jì)生服務(wù)與生育狀況調(diào)查數(shù)據(jù)等少數(shù)微觀樣本數(shù)據(jù),以及各種教育、衛(wèi)生、戶籍、人口匯總數(shù)據(jù),或各單位自己組織的小規(guī)模樣本調(diào)查數(shù)據(jù))來做研究。說人口學(xué)者會(huì)玩數(shù)據(jù),是因?yàn)樗麄兩瞄L于開發(fā)利用匯總數(shù)據(jù),較早使用計(jì)算機(jī)處理微觀數(shù)據(jù),而且可能處理過體量比較大的數(shù)據(jù)(如普查數(shù)據(jù))。 這些數(shù)據(jù)結(jié)構(gòu)通常很簡單,變量也不太多。但采集和處理異形數(shù)據(jù)(如訪談文本)的經(jīng)驗(yàn)較少,比社會(huì)學(xué)家更挑數(shù)據(jù),更依賴公共部門;另外,他們中真正接觸到超大規(guī)模原始業(yè)務(wù)數(shù)據(jù)(樣本量千萬以上的如戶籍?dāng)?shù)據(jù)、全員人口監(jiān)測數(shù)據(jù)、學(xué)籍?dāng)?shù)據(jù))的并不多,很多還需要依賴掌控這些數(shù)據(jù)的業(yè)務(wù)人員進(jìn)行查詢和匯總??梢哉f,在面對(duì)新型大數(shù)據(jù)、異形數(shù)據(jù),國內(nèi)人口學(xué)者的實(shí)際處理能力還有待提高。比方說,新型大數(shù)據(jù)中空間信息和社會(huì)網(wǎng)絡(luò)信息越來越多,國內(nèi)人口學(xué)者對(duì)這些新信息的理解和處理能力就還比較有限,相當(dāng)部分研究主要由地理學(xué)專家貢獻(xiàn)。
總而言之,不能用、不敢用和不會(huì)用阻礙了在量化方法基礎(chǔ)相對(duì)較好的人口學(xué)者對(duì)大數(shù)據(jù)的探索和發(fā)言。盡管社會(huì)上大數(shù)據(jù)的口號(hào)喊了很久,但國內(nèi)基礎(chǔ)性公共數(shù)據(jù)不可得的情況未明顯改觀,使得即便討論也容易變成紙上談兵,而夸夸其談也不符合人口學(xué)者的形象。
二、人口學(xué)該如何接觸和開發(fā)大數(shù)據(jù)
在這種情況下,人口學(xué)者是不是光等著掌握數(shù)據(jù)的公共部門開放數(shù)據(jù)就可以了呢?面對(duì)越來越多的基于互聯(lián)網(wǎng)和智能設(shè)備的新數(shù)據(jù)、異形數(shù)據(jù),人口學(xué)者能在推動(dòng)這些大數(shù)據(jù)的應(yīng)用方面有所作為嗎?這些新數(shù)據(jù)對(duì)人口學(xué)者回答傳統(tǒng)研究問題有幫助嗎?這就首先需要弄清楚所謂的大數(shù)據(jù)到底包括哪些數(shù)據(jù),哪些與人口學(xué)關(guān)注的核心變量或問題相關(guān)?然后想辦法接觸和開發(fā)這些數(shù)據(jù)。
今天所謂的大數(shù)據(jù)主要來自兩個(gè)方面,首先是政府及公共部門日漸電子化的基礎(chǔ)業(yè)務(wù)數(shù)據(jù)。王廣州將之分為全員人口數(shù)據(jù)和特定人群數(shù)據(jù),如戶籍、生育、死亡、醫(yī)療和遷移登記數(shù)據(jù)等等。以往很多紙質(zhì)版的、分散的資料,現(xiàn)在大多都電子化,并聯(lián)網(wǎng)統(tǒng)一。這些業(yè)務(wù)、臺(tái)賬、調(diào)查數(shù)據(jù)包含大量的人口變量信息和社會(huì)屬性信息,如果合理開放,能幫助人口研究者更好地研究人口的生、老、病、死、遷移流動(dòng)以及行為活動(dòng)。并且可以把研究做到很小的區(qū)域范圍內(nèi),突破以往研究中研究精細(xì)度和研究規(guī)模之間此消彼長的矛盾。王廣州研究員強(qiáng)調(diào)的就是這類數(shù)據(jù)。
但是這些數(shù)據(jù)(包括人口普查樣本數(shù)據(jù))直到現(xiàn)在仍極少向人口學(xué)者開放,部門之間分割嚴(yán)重,很少互聯(lián)互通。這些數(shù)據(jù)已經(jīng)存在那里了,花了大價(jià)錢,相關(guān)部門也逐漸認(rèn)識(shí)到它們的價(jià)值,如果關(guān)聯(lián)串并整合起來,價(jià)值會(huì)更大。但很可惜,部門利益或過度敏感等原因,使得這些數(shù)據(jù)的開放、整合困難。封鎖在那里,不斷貶值。晚開發(fā)一天,信息就過時(shí)貶值一天。數(shù)據(jù)采集項(xiàng)目不是花完錢收集好就完了的,更重要的是數(shù)據(jù)開發(fā)。而且開發(fā)使用者越多越好,因?yàn)閿?shù)字資源具有很強(qiáng)的外部性,非排他性。一些被擔(dān)憂的問題本可以通過技術(shù)和制度設(shè)計(jì)解決,但常常被相關(guān)部門搞成權(quán)力問題、政治問題。但相信,這些數(shù)據(jù)會(huì)日漸統(tǒng)合、開放,一些地方的動(dòng)作會(huì)比中央動(dòng)作更快,某些地方會(huì)比另一些地方快。你不整合、不公開,整合、公開的地方的治理效率就會(huì)比你更高,權(quán)威性、合法性就會(huì)比你大,迫使你不得不學(xué)習(xí)、模仿。這首先需要有人懂得如何統(tǒng)合利用這些帶有豐富的人口社會(huì)屬性的大數(shù)據(jù),切實(shí)做出提高社會(huì)治理效率,降低交易成本的研究成果。
第二類數(shù)據(jù)來自互聯(lián)網(wǎng)痕跡數(shù)據(jù)、GPS定位、手機(jī)信令、視頻監(jiān)控等便攜或智能設(shè)備產(chǎn)生的新數(shù)據(jù)。這些數(shù)據(jù)包含人們動(dòng)態(tài)的時(shí)空信息和社會(huì)行為信息,通過對(duì)這類數(shù)據(jù)的開發(fā)能把握一定時(shí)空范圍內(nèi)人口的分布和活動(dòng)情況,提高我們對(duì)于人口動(dòng)態(tài)的把握。但往往缺乏基礎(chǔ)性的人口社會(huì)信息,使得能夠研究的主題往往超出傳統(tǒng)人口學(xué)范圍?;谶@些新數(shù)據(jù)做深入交互分析還比較困難,人口學(xué)者要與其他專業(yè)一起面對(duì)相關(guān)挑戰(zhàn),做好創(chuàng)新準(zhǔn)備。
如果不空談,人口學(xué)者就要多接觸這兩類數(shù)據(jù)。除了社會(huì)關(guān)系之外,主要應(yīng)該是憑借人口學(xué)現(xiàn)在的專業(yè)理論和技能優(yōu)勢與相關(guān)公共部門或商業(yè)機(jī)構(gòu)建立合作關(guān)系,獲取數(shù)據(jù)的使用權(quán)。這意味著我們必須掌握大型數(shù)據(jù)庫的使用方法以及新型數(shù)據(jù)的信息提取加工方法。如各種異形數(shù)據(jù)和基礎(chǔ)數(shù)據(jù)的匹配方法,將手機(jī)號(hào)、機(jī)器識(shí)別號(hào)匹配身份證信息,從身份證信息提取年齡、性別、戶籍、出生地信息這樣的基本技能;也包括通過電子痕跡數(shù)據(jù)甄別使用者的性別、年齡、常住地、工作地等標(biāo)簽信息的方法,包括機(jī)器學(xué)習(xí)方法。
隨著企業(yè)數(shù)據(jù)資產(chǎn)意識(shí)的增強(qiáng)和公民隱私保護(hù)意識(shí)的增長,人口學(xué)者以及其他學(xué)者接觸和使用相關(guān)數(shù)據(jù)的難度并不一定越來越容易,只有占據(jù)有利的分工位置,才能有所作為。北京市師范大學(xué)的高穎通過和北京市民政局?jǐn)?shù)據(jù)信息中心的合作,利用北京市近年來的婚姻登記數(shù)據(jù)對(duì)北京市婚配模式及其變遷、人口結(jié)構(gòu)及其變遷做出了系列研究,對(duì)我們認(rèn)識(shí)北京戶籍人口、常住人口的演變規(guī)律提供了非常重要的基礎(chǔ)信息,為進(jìn)一步的人口調(diào)控與政策調(diào)整提供了依據(jù),就是很不錯(cuò)的例子。
大體而言,人口學(xué)有兩種路徑逐步提高接觸數(shù)據(jù)的機(jī)會(huì):第一,以專家身份接受委托,在保密的前提下幫助這些業(yè)務(wù)部門開發(fā)數(shù)據(jù),生產(chǎn)非公開的咨詢產(chǎn)品,讓相關(guān)部門知道人口學(xué)的獨(dú)特價(jià)值;第二,培養(yǎng)好人口學(xué)學(xué)生,給他們武裝上人口學(xué)的理論武器和技術(shù)裝備,并輸送進(jìn)這些業(yè)務(wù)部門,進(jìn)行數(shù)據(jù)管理和開發(fā)。這兩種方式,都可以提高人口學(xué)者的專業(yè)形象,幫助與公共部門和商業(yè)機(jī)構(gòu)建立社會(huì)聯(lián)系,有助于人口學(xué)界逐漸了解這些新數(shù)據(jù)資源,掌握數(shù)據(jù)的開發(fā)使用方法。在此過程中,人口學(xué)者特別應(yīng)該有意識(shí)地爭取獲得一些可以開放使用的樣本數(shù)據(jù),與開發(fā)使用經(jīng)驗(yàn)一起,分享給整個(gè)學(xué)術(shù)界,而不是封閉獨(dú)占。這樣才能為整個(gè)學(xué)術(shù)共同體進(jìn)行研究和教學(xué)積累基礎(chǔ)設(shè)施,推動(dòng)整個(gè)共同體專業(yè)能力的提升。大家要有意識(shí)地提高人口研究的可復(fù)制性和開源性,公開數(shù)據(jù)計(jì)算過程,提高統(tǒng)計(jì)結(jié)果的可比性。越是開放的數(shù)據(jù)(包括采集過程和分析過程),權(quán)威性越高,可大大降低長期的數(shù)字之爭發(fā)生的可能性。各大期刊可嘗試要求投稿者提供數(shù)據(jù)分析的源代碼和樣本數(shù)據(jù)。
實(shí)際操作時(shí),如果國家層面入手難度較大,可以考慮先和那些先行一步的鄉(xiāng)鎮(zhèn)、縣區(qū)、省份或部門合作,將研究重心下沉到一定的區(qū)域。以往因?yàn)楦鱾€(gè)地區(qū)經(jīng)濟(jì)實(shí)力不足,數(shù)據(jù)基礎(chǔ)差,很多人口學(xué)者不得不主要利用國家層面的數(shù)據(jù),關(guān)注全國層面的人口問題。未來各個(gè)地方的經(jīng)濟(jì)實(shí)力不僅支持大規(guī)模數(shù)據(jù)的采集和人口研究,數(shù)據(jù)的質(zhì)量也會(huì)越來越好,隨著人口轉(zhuǎn)變的深化,地方也會(huì)越來越重視人口研究,為人口學(xué)者提供更大的舞臺(tái)。越來越多的地方會(huì)認(rèn)識(shí)到人口資源和人力資本爭奪的重要性,人口問題的異質(zhì)性及其對(duì)解決方案影響,人口學(xué)的發(fā)展空間仍然很大。
三、人口學(xué)要強(qiáng)化優(yōu)勢并努力創(chuàng)新
在這種探索實(shí)踐過程中,人口學(xué)者如何展現(xiàn)自己的學(xué)科優(yōu)勢呢?我想核心是應(yīng)該積極圍繞大數(shù)據(jù)的開發(fā)使用創(chuàng)造條件。一是嘗試提供權(quán)威性的基礎(chǔ)數(shù)據(jù)用于大數(shù)據(jù)校準(zhǔn);二是將成熟的人口學(xué)理論和方法介紹到新數(shù)據(jù)的開發(fā)使用中。充分開發(fā)既有基礎(chǔ)數(shù)據(jù),根據(jù)新數(shù)據(jù)的需要適時(shí)產(chǎn)生一些基礎(chǔ)數(shù)據(jù),如匯總指標(biāo),幫助校準(zhǔn)大數(shù)據(jù)統(tǒng)計(jì)結(jié)果,促進(jìn)新數(shù)據(jù)的使用和開發(fā)。微信公眾號(hào)“城市數(shù)據(jù)派”發(fā)布的利用百度定位數(shù)據(jù)在寧波和杭州灣做的人口估計(jì)就和基礎(chǔ)的戶籍?dāng)?shù)據(jù)和人口數(shù)據(jù)進(jìn)行了比對(duì),從而綜合判斷新來源的數(shù)據(jù)的代表性和精確度,為進(jìn)一步開發(fā)和使用新數(shù)據(jù)提供了依據(jù)。
在理論和技術(shù)方面,人口學(xué)經(jīng)過多年的發(fā)展已經(jīng)積累了一些非常成熟的方法和技術(shù),例如隊(duì)列分析技術(shù)、標(biāo)準(zhǔn)化技術(shù)、生命表技術(shù)、間接估計(jì)方法、隨機(jī)人口模型、事件史技術(shù)、人口預(yù)測技術(shù)等等。這些成熟的模型和技術(shù)有著深厚的學(xué)科積累,懂計(jì)算機(jī)技術(shù)的人不一定都搞得懂。如何選擇測量和匯總指標(biāo)、選擇模型、設(shè)定參數(shù)等都需要一定的人口學(xué)原理作為支撐。在這方面,人口學(xué)者應(yīng)該積極將既有理論工具和方法應(yīng)用于指導(dǎo)新數(shù)據(jù)的開發(fā),讓數(shù)據(jù)掌控者知道人口學(xué)專業(yè)的價(jià)值,促進(jìn)新老技術(shù)的交流,在地區(qū)性的數(shù)據(jù)分析實(shí)踐中逐漸完備學(xué)科的相關(guān)技能。
最后,人口學(xué)研究者在積極接觸和探索大數(shù)據(jù)時(shí),應(yīng)該有創(chuàng)新思維,有意識(shí)地?cái)U(kuò)展人口學(xué)的學(xué)科領(lǐng)地。盡管目前能夠獲得的大數(shù)據(jù)、新數(shù)據(jù)在代表性和微觀準(zhǔn)確性上有所不足,但通常具有很好的時(shí)效性和較大的樣本基數(shù),在區(qū)域或人群匯總指標(biāo)上具有較好的效度和信度。我們應(yīng)該充分利用這些匯總信息,善于利用相對(duì)指標(biāo)分析總體的結(jié)構(gòu)特征及其變遷。例如,在傳統(tǒng)人口數(shù)據(jù)中,空間數(shù)據(jù)較難得,了解人口的空間分布很難,即便有也常常是做區(qū)域內(nèi)均勻分布的假定?,F(xiàn)在,手機(jī)和智能設(shè)備提供了非常準(zhǔn)確人口位置信息,能夠幫助我們更好地估計(jì)部分人口的空間分布、變動(dòng)以及特定空間內(nèi)的人口構(gòu)成等,但由于并非所有的人都使用手機(jī)和智能設(shè)備,它提供的信息可能存在結(jié)構(gòu)性偏差(如對(duì)老年人、小孩反映不足),但仍是重要的參考,通過一定校準(zhǔn),準(zhǔn)確度可進(jìn)一步提高。這就需要部分人口學(xué)者掌握相關(guān)的分析和校準(zhǔn)技術(shù),有些創(chuàng)造性。又比如,以往人口學(xué)者傾向于在個(gè)人層面上進(jìn)行分析(生育、死亡、遷移),因?yàn)橹挥袀€(gè)人才有年齡、性別等人口學(xué)特征,但目前在個(gè)體層面進(jìn)行數(shù)據(jù)的匹配、串并還很難。人口學(xué)者可能需要更多地探索在相對(duì)中觀或宏觀的研究單位上,人口統(tǒng)計(jì)特征與其他匯總屬性之間的關(guān)系,例如社區(qū)人口規(guī)模、人口密度、人口結(jié)構(gòu)與社區(qū)社會(huì)經(jīng)濟(jì)形態(tài)、人口過程如死亡水平、出生水平、遷移狀態(tài)之間的關(guān)系。因?yàn)樾滦痛髷?shù)據(jù)往往更容易在更高層次的研究單位上進(jìn)行指標(biāo)匯總、匹配、串并。這種情況下,如何進(jìn)行因果推論,如何避免層次謬誤之類的方法論問題也就變得更加重要。
總的來說,人口學(xué)者要想在大數(shù)據(jù)時(shí)代有所作為,仍面臨不少挑戰(zhàn),但等靠要是不行的,要積極創(chuàng)造條件趕上去。其他學(xué)科也應(yīng)該加強(qiáng)和人口學(xué)者的合作。如果人口學(xué)者都難以有所作為,其他學(xué)科利用大數(shù)據(jù)做出來的研究,其堅(jiān)實(shí)性和深入性也就值得懷疑。因?yàn)槿绻丝趯W(xué)者可用的基礎(chǔ)性的人口社會(huì)屬性都不全的話,細(xì)致的交叉分析和統(tǒng)計(jì)控制也就成了空話,人群內(nèi)部的異質(zhì)性也必然被忽略。我們要一起不斷推動(dòng)公共部門和數(shù)據(jù)壟斷企業(yè)加強(qiáng)大數(shù)據(jù)的開放、串并和合理合法使用,創(chuàng)新數(shù)據(jù)的開發(fā)使用方式甚至提問題方式。這還有很長的路要走,先從局部地區(qū)、具體項(xiàng)目做起來,并一定要在學(xué)科內(nèi)加強(qiáng)共享、交流、學(xué)習(xí)。大家一起不斷積累,共同進(jìn)步。