三、數據密集型科學發現的哲學問題
數據密集型科學發現模式的興起帶來了科學發現本質的變化。其中最重要的變化是科學研究的邏輯起點是經驗、問題還是數據?對客觀數據世界的挖掘是否滲透了挖掘者的主觀意識?從數據挖掘中得出的數據規律是否具有客觀性?其客觀性又該如何去檢驗?大數據是否將引發科學邊界的移動?這些問題都是數據密集型科學發現模式帶來的哲學新問題,需要我們用科學哲學的相關理論進行回答。
1.科學始于數據
科學發現的邏輯起點在哪里?這是科學哲學研究的一個核心問題。歷史上也有過“科學始于經驗”和“科學始于問題”的長期爭論,甚至還有“科學始于機會”的說法。[12]大數據時代的來臨以及數據密集型科學發現模式的出現,科學發現的邏輯起點會不會有所變化呢?
數據是科學研究的基礎,即使在小數據時代,科學研究也離不開數據。無論科學的出發點是經驗論的經驗還是唯理論的理論或問題,最終都必須能夠轉化為數據觀測和計量,否則都無法轉換成科學問題、科學表述和科學檢驗。以往由于數據獲取比較困難,因此數據屬于稀缺資源。我們的科學研究一般都是預先有了問題和想法,然后才設計實驗方案取得實驗數據以便證實或證偽自己的猜想。在大數據時代,由于數據采集的智能、自動和便捷,往往都是預先采集、存儲了海量數據,這些數據像垃圾或塵埃一樣預先存在著,等待著人們的發掘和利用。在海量的數據中,人們有可能從數據中突然發現一些意外的現象或規律,例如沃爾瑪超市從已有銷售數據中發現,啤酒與尿布片往往呈正相關關系,于是沃爾瑪利用這個規律將兩者堆放一起,以便顧客更方便購買,為超市創造更大的銷售額。還有人發現,美國颶風發生時,蛋撻的銷量往往飆升,于是商家每次天氣預報說颶風要來臨之前都準備好充足的蛋撻。因此,從現有海量數據的挖掘、分析中,我們有可能發現現象背后存在的某些規律。這就是說,在科學發現中,我們既不是從觀察現象開始,也不是從理論假設或問題開始,而是先從數據開始發現某些異?;蜿P聯,從數據中發現問題進而進一步發現科學規律。這是科學發現的一種新途徑,我們可以稱之為“科學始于數據”的科學發現邏輯新路徑。[6]
大數據時代的來臨以及數據的海量存在,為“科學始于數據”的發現路徑提供了客觀條件,“科學始于數據”為大數據時代的科學發現邏輯提供了一種可行的發現模式。當然,即使在大數據時代,觀察和問題也是特別重要的,也有可能成為發現的觸發器,因此,“科學始于數據”的出現并不完全否定“科學始于觀察”或“科學始于問題”等邏輯路徑,只是大數據帶來了另一種發現的觸發器,我們有可能在數據的觸發下做出科學知識的新發現。