科研是一場修行,遇見的都是命中注定。任何數(shù)據(jù),都有其存在的價(jià)值,就看你有沒有本事參透其中的奧秘。
科研沒有壞數(shù)據(jù),如果以前這么說的時(shí)候,都只是列舉一些個(gè)別的案例,譬如世界十大意外發(fā)現(xiàn)如何改變?nèi)祟愡M(jìn)程之類,你可能以為導(dǎo)師是在苦口婆心的忽悠你多干活,或者并沒有放在心上。現(xiàn)在,隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,在科研領(lǐng)域,尤其是材料科學(xué)領(lǐng)域,這一結(jié)論開始變得更加直觀,不容的你不直視這一問題。
今年4月份,Nature就發(fā)表了一篇機(jī)器學(xué)習(xí)的評論文章,對使用那些所謂的“失敗的”壞數(shù)據(jù)來優(yōu)化MOF材料的制備進(jìn)行了深度分析和點(diǎn)評。近日,Nature再次發(fā)表一篇機(jī)器學(xué)習(xí)的文章,并同期配以社論(Editorial)文章,再次告誡科研人員:不要對數(shù)據(jù)心存偏見!
來自哈弗福德學(xué)院的Xiwen Jia等人報(bào)道,為了驗(yàn)證數(shù)據(jù)的人為偏見對材料科學(xué)的科研所產(chǎn)生的不良影響,他們進(jìn)行了一套對比實(shí)驗(yàn)。實(shí)驗(yàn)以硼酸釩的合成為模型反應(yīng),這種反應(yīng)很簡單,而且也很容易通過晶體是否形成來判定實(shí)驗(yàn)結(jié)果是成功還是失敗。
研究人員首先根據(jù)經(jīng)驗(yàn)編制了一套數(shù)百種的合成條件,然后基于這套合成條件來構(gòu)建機(jī)器學(xué)習(xí)模型,結(jié)果發(fā)現(xiàn),基于人為經(jīng)驗(yàn)的合成條件并不如機(jī)器學(xué)習(xí)隨機(jī)實(shí)驗(yàn)更能準(zhǔn)確地預(yù)測實(shí)驗(yàn)結(jié)果的成功與否。
按照經(jīng)驗(yàn),原料、試劑、pH和各種數(shù)據(jù)的選擇都是有一定要求的,超出該范圍就被認(rèn)為是違背常識,是在瞎胡鬧。然而,結(jié)果卻發(fā)現(xiàn),機(jī)器學(xué)習(xí)所設(shè)置的“超出經(jīng)驗(yàn)范圍的”隨機(jī)條件,并非一無是處。在對比試驗(yàn)中,不常用的所謂的“不好的”試劑比常用的經(jīng)典試劑成功合成目標(biāo)產(chǎn)物的幾率甚至更高。
因此,在采用機(jī)器學(xué)習(xí)時(shí),基于自己經(jīng)驗(yàn)和偏見人為設(shè)置的一些條款可能會限制機(jī)器學(xué)習(xí)的準(zhǔn)確性。當(dāng)然了,對于還沒有進(jìn)入機(jī)器學(xué)習(xí)這么高端領(lǐng)域的科研圈的普羅大眾而言,我們還是靠要雙手實(shí)驗(yàn)。
不過,機(jī)器學(xué)習(xí)至少再一次告訴我們,科研沒有壞數(shù)據(jù)!
參考文獻(xiàn):
1.Xiwen Jia et al. Anthropogenic biases in chemical reaction data hinderexploratory inorganic synthesis. Nature 2019, 573, 251–255.
https://www.nature.com/articles/s41586-019-1540-5
2.Look out for potential bias in chemical data sets. Nature 2019.
https://www.nature.com/articles/d41586-019-02670-w