傳統的經驗范式與理論范式所針對的科學研究對象都相對簡單,因為僅僅憑著個人的經驗、觀察或實驗,所取得的數據是有限的,有限的數據能夠刻畫的對象也是有限的。好在當時的科學,其所研究的都屬于線性、孤立、靜止的現象,因此少量的數據能夠刻畫出研究對象的特性和規律。而對理論范式來說,僅僅憑借人類思想的力量,很難超越當時人們的思想高度,所以理論范式也主要是針對簡單現象及其規律。隨著科學研究的深入,人類所接觸的現象越來越復雜,特別是人們希望將研究對象置于真實世界之中,而不再對研究對象做線性、孤立和靜止的理想化處理,于是傳統的經驗范式和理論范式就難于對付復雜的科研對象。這些研究真實世界的復雜現象的科學被稱為復雜性科學,而過去做了理想化處理的科學如今被統稱為簡單性科學。為了處理真實世界的復雜現象,人們就開始利用計算機的強大功能,通過建立科學模型來模擬真實世界的復雜現象。通過計算機的模擬和計算來模擬復雜研究對象,并通過計算來發現規律的這種知識發現新方法就是格雷所說的第三種科研范式,即計算范式。這種范式是最近數十年隨著計算機的出現而興起的。
二、數據密集型科學發現的興起
近年來,隨著智能感知技術、計算機技術、網絡技術、云計算等技術的發展,數據的采集、傳輸、存儲和處理等環節都發生了重大變化。智能芯片越來越微小、價格越來越低廉而功能則越來越強大,于是智能芯片被廣泛應用于各個領域,而智能芯片可以自動采集和記錄信息,并且可以將信息自動以數字化的方式存儲和傳輸,于是產生了大量數據。特別是智能手機、智能可穿戴設備、物聯網以及社交網,隨時隨地都可以產生無數的數據。如今各種觀測、實驗設備(例如天文望遠鏡、粒子加速器、環境監測系統)都裝備了智能系統,實現了數據的智能采集和管理。人們瀏覽網頁、網上購物、視頻音頻播放等一切網上行為也都被自動記錄下來,成為人類的行為數據。總之,隨著智能技術和網絡技術的發展,數據規模發生了爆炸性的增長,人類迅速進入了大數據時代。大數據時代的來臨帶來了科研方式的巨大變化,帶來了科學發現的新方式,這就是格雷最先提出的數據密集型科研范式,即第四科研范式。[7]4-6
大數據時代的來臨,對科學研究帶來的最大變化是數據規模及其采集方式的不同,并且由此帶來了數據性質的變化。過去所說的數據,是一種狹義的數據,它是由“數”和“據”兩部分構成,“數”就是數字,而“據”就是根據,簡單來說就是表達具體對象的數字,或者說具有度量單位的數字。這種狹義的數據主要由我們通過設計觀察儀器,或者通過理想化的控制實驗,來獲取測量數據。大數據時代的數據是一種廣義的數據,不管它是數字,還是文字、視頻、音頻、圖片等等,任何信息都可以被看作是數據。這樣,我們就大大地拓展了數據的來源和類型。從來源來說,以往的數據都是人們主動觀測的結果,而現在的數據主要是智能終端自動生成的結果。除了初始的智能終端是由人研制、安裝外,隨后的數據基本上都是由智能終端自動記錄、采集而產生的,不再有人的參與。特別是大數據時代的許多數據是事物或人類活動的軌跡記錄,是人或物的物理軌跡背后的一條數據軌跡,有時也被稱為“數據垃圾”或“數據塵埃”。用大數據的眼光來看,萬事萬物都是數據,即萬物皆數據,“萬物皆比特”。[8]由于數據類型多樣,數據來源廣泛,因此數據規模急劇增長,大數據時代因此迅速來臨,并由此也給我們的科學研究帶來了極其豐富的數據資源。