近幾年,大數(shù)據風靡全球。大數(shù)據的研發(fā)與應用,已在商業(yè)、公共管理等領域取得好成績。雖然從績效層面來看,大數(shù)據產品堪稱“里程碑式發(fā)展”的案例并不多,但在不少人眼中,大數(shù)據即將帶來的,不是里程碑,而是顛覆。當下,各行各業(yè)熱炒大數(shù)據,我國法律領域亦不例外。
一、我國法律大數(shù)據正處于數(shù)據準備階段
大數(shù)據的研發(fā)與應用,一般需經5個階段:數(shù)據準備、數(shù)據存儲與管理、計算處理、數(shù)據分析和知識展現(xiàn)。數(shù)據準備是大數(shù)據應用的起點,是對數(shù)據進行清洗和整理的過程。主流觀點認為,數(shù)據準備和知識展現(xiàn)只是量上的積累,不需要根本性變革,當前和未來一段時間,大數(shù)據技術創(chuàng)新的焦點在于存儲、計算和分析等3個環(huán)節(jié)。但這并不說明,數(shù)據準備階段就可輕松拿下。以產銷速溶咖啡著稱的某跨國公司,其在中國的某一大數(shù)據研發(fā)計劃就流產于數(shù)據準備階段。
法律大數(shù)據的數(shù)據準備具體是,創(chuàng)建各類法律數(shù)據庫并共享,外接行政管理數(shù)據庫,甚至涵蓋互聯(lián)網、物聯(lián)網等,實現(xiàn)全方位、多角度的數(shù)據抓取。這是一個較為圓滿的數(shù)據準備狀態(tài),短期內不可能全部實現(xiàn),需分階段進行。但依據階段性的數(shù)據準備,同樣可嘗試數(shù)據處理與分析,這可視為一種“邊準備,邊分析”的發(fā)展模式。“邊準備,邊分析”,似乎是法律大數(shù)據發(fā)展的必然模式,一方面可及時研發(fā)、應用階段性成果,另一方面可為后續(xù)的研發(fā)與應用積累經驗。
當下,我國法律大數(shù)據主要處于數(shù)據準備階段。首先,公檢法三機關已依托各自的執(zhí)法司法職能,成功地開發(fā)出信息化業(yè)務應用平臺,并在全國范圍內鋪開使用,這基本完成了系統(tǒng)內的數(shù)據準備工作。但目前,這些信息化平臺主要用于實現(xiàn)傳統(tǒng)事務型數(shù)據庫功能,比如增加、刪除、修改、查詢、統(tǒng)計等,尚未全面開展數(shù)據挖掘工作,而且基本處于閉鎖狀態(tài),屬于一種自給自足的小農經濟模式。其次,依托裁判文書數(shù)據庫進行更為精準的案例檢索,是當下法律服務業(yè)正在攻克的主要課題。比如CaseShare、無訟案例、OpenLaw等。這與商業(yè)大數(shù)據的發(fā)展軌跡十分類似:“谷歌等公司率先建立了覆蓋數(shù)十億網頁的索引庫,開始提供較為精確的搜索服務,大大提升了人們使用互聯(lián)網的效率,這是大數(shù)據應用的起點。”值得一提,我國法律大數(shù)據已呈現(xiàn)出“邊準備,邊分析”的發(fā)展模式。比如,華宇軟件在司法專項大數(shù)據研發(fā)中,“持續(xù)研究文本挖掘技術和多媒體數(shù)據分析技術,逐步建立了司法領域法律文書智能化分析與數(shù)據挖掘方面的優(yōu)勢地位”。比如,Rouse旗下的CIELA(China IP Litigation Analysis),可對我國主要法院的知識產權案件進行初步統(tǒng)計分析。
二、我國法律大數(shù)據的瓶頸在于數(shù)據分析階段
與其他領域數(shù)據結構不同,法律數(shù)據,尤其公檢法系統(tǒng)內數(shù)據,主要是結構化和半結構化數(shù)據。這對數(shù)據的存儲與管理、計算處理等方面提出的要求均不高,近階段,我國法律大數(shù)據的瓶頸在于數(shù)據分析階段。
數(shù)據分析是指,或通過人工構建數(shù)學模型,或建立人工智能系統(tǒng),分析數(shù)據,挖掘隱藏在數(shù)據背后的隱性知識。數(shù)據分析是大數(shù)據研發(fā)應用中的關鍵一環(huán),是大數(shù)據施展預測功能的實現(xiàn)方式。大數(shù)據之父維克托爾認為,大數(shù)據的核心是預測,而實現(xiàn)預測的途徑是通過挖掘不同變量間的相關關系,揭示數(shù)據背后的隱性知識。比如,沃爾瑪超市通過分析顧客的購物清單發(fā)現(xiàn),購買啤酒的人通常還會購買尿不濕,颶風季節(jié)POP-Tarts蛋撻的銷量也隨之增加,所以,沃爾瑪將啤酒和尿不濕、颶風用品和蛋撻放在一起銷售,方便顧客,從而增加銷量。
法律大數(shù)據的數(shù)據分析具體是,通過分析法律相關數(shù)據,挖掘隱藏在數(shù)據背后的司法規(guī)律。比如,史宇航博士認為,通過對裁判文書中的“受理時間”和“落款時間”進行數(shù)據挖掘,“可以計算出來(某一類型)案件審理的時間”,“至少可以幫助評估訴訟的時間成本。”再比如,華宇軟件在“職務犯罪偵查信息化解決方案”中提出:“通過匯集、分析、研究和利用各種信息資料,幫助辦案人員了解和掌握犯罪動向、特點及規(guī)律,通過信息引導偵查,研判偵查方向和偵查重點,實現(xiàn)職務犯罪偵查引導,服務檢察機關的職務犯罪偵查辦案工作,有助于提高偵查效率,拓展偵查思路,提煉偵查方法,促進偵查模式‘由供到證’向‘由證到供’的轉變。實現(xiàn)工作創(chuàng)新、辦案服務與科學技術的深度融合。”
目前,數(shù)據分析主要有兩條技術路線:一是憑借人的先驗知識,人工建模來分析數(shù)據;二是建立人工智能系統(tǒng),使用大量樣本數(shù)據進行訓練,讓機器獲得從數(shù)據中提取知識的能力。筆者認為,法律大數(shù)據遵循前一技術路線即可。雖然,通過機器學習實現(xiàn)人工智能誘惑力十足,而且近年來深度神經網絡卓有成效,但是,機器學習實現(xiàn)難度大,而且網絡層數(shù)較多時會導致輸出結果風險高,這與法律經濟性、穩(wěn)定性、權威性等方面的要求均相沖突。實際上,法律大數(shù)據以結構化、半結構化數(shù)據居多,通過“先驗知識+人工建模”足可實現(xiàn)司法規(guī)律的充分挖掘。
憑借先驗知識人工建模,需要法律團隊和建模團隊的精誠合作,這并不容易。單從法律團隊方面來說:第一,法律團隊需掌握一定的司法規(guī)律,并能通俗表達,若無司法規(guī)律打底,建模團隊“難為無米之炊”;第二,法律團隊需掌握大數(shù)據的基本原理、主要技術路線、常用技術手段,這樣才能有的放矢,挖掘到更多的“弱相關數(shù)據”,為建模提供更多原料;第三,法律團隊要能對大數(shù)據的輸出結果進行科學合理的篩選,大數(shù)據重相關、輕因果,其輸出的司法規(guī)律是否科學、是否可行,均需法律團隊嚴格把關。
三、法律大數(shù)據的禁區(qū)在于個人隱私和因果推理
首先,“不能任由大數(shù)據運用在法外任性‘裸奔’,……涉及個人隱私的法律保護必須提上議程”,這已引起不少主流媒體的關注。大數(shù)據可能侵犯個人隱私,是因為大數(shù)據在處理大量碎片化、弱相關的數(shù)據時,會產生鑲嵌理論效應,即,“信息拼版的價值高于其組成部分各自價值的總和”。同于其他大數(shù)據,法律大數(shù)據不可侵犯個人隱私,這是法律大數(shù)據在價值層面上的禁區(qū)。
其次,止步于因果推理,應是法律大數(shù)據在技術層面上的禁區(qū)。大數(shù)據能呈現(xiàn)變量相關程度、預測事物發(fā)展趨勢,但這種“相關程度”不代表因果關系,只是一種或然的、間接的關聯(lián);預測趨勢不代表必然走向,只是一種蓋然性的判斷。這與統(tǒng)計概率的局限如出一轍,后者同樣只能呈現(xiàn)相關關系、不能揭示因果關系。這一特性極大限制了法律大數(shù)據——乃至人工智能——在司法領域中的應用,比如,司法審判需謹慎使用大數(shù)據與人工智能。
最后,周濤教授在《大數(shù)據時代》的“譯者序”中引用了蘇珊·朗格的一段話,這值得每一個關注大數(shù)據的人深思:“某些觀念有時會以驚人的力量給知識狀況帶來巨大的沖擊。由于這些觀念能一下子解決許多問題,所以,它們似乎將有希望解決所有基本問題,澄清所有不明了的疑點。每個人都想迅速地抓住它們,作為進入某種新實證科學的法寶,作為可以用來建構一個綜合分析體系的概念軸心。這種‘宏達概念’突然流行起來,一時間把幾乎所有的東西都擠到了一邊。”