熬過很多通宵,做過很多實驗,拿到數(shù)不清的數(shù)據(jù),從一堆文件夾中選出幾個自認為最好的數(shù)據(jù),然后終于湊成一篇文章。你是不是經(jīng)常這么做?絕大部分的文章都只報道了好的結(jié)果,而那些失敗的數(shù)據(jù)則永遠留存于電腦上某個文件夾的角落,永世不得見天日。
數(shù)據(jù)有好壞之分嗎?
科研的世界里,有壞數(shù)據(jù)嗎?其實,那些所謂的“失敗的”壞數(shù)據(jù)中,很可能隱藏著大量有用的信息,而它們大部分被浪費。現(xiàn)在,有實驗表明,機器學(xué)習(xí)可以使用這些所謂的“失敗”壞數(shù)據(jù)來優(yōu)化材料的制備,譬如MOF。
常見MOF構(gòu)筑單元丨Science
參考文獻:Omar M. Yaghi et al. TheChemistry and Applications of Metal-Organic Frameworks. Science 2013, 341,1230444.
MOF主要由金屬節(jié)點和有機配體形成的孔道結(jié)構(gòu)組成,這些開放孔隙使它們成為有史以來最多孔的材料,而且孔道表面可修飾,這是MOF在燃料儲存、氣體分離、催化以及從大氣中捕獲水等等領(lǐng)域表現(xiàn)出誘人的應(yīng)用前景的基礎(chǔ)。
通過不同的金屬離子和配體的組合,理論上可創(chuàng)建的MOF種類和數(shù)量數(shù)不勝數(shù)。在過去20年左右的時間里,各國科研人員已經(jīng)合成了上萬種MOF材料。然而,每一個成功的MOF合成背后,幾乎肯定會有數(shù)十種(甚至數(shù)百或數(shù)千種)失敗反應(yīng)的嘗試。如果可以捕獲這些不為人知的失敗反應(yīng)的海量數(shù)據(jù),是否可以更好地預(yù)測和優(yōu)化未來新MOF的合成呢?
歷年報道的MOF結(jié)構(gòu)丨Science
參考文獻:Omar M. Yaghi et al. TheChemistry and Applications of Metal-Organic Frameworks. Science 2013, 341,1230444.
如何利用“失敗”的數(shù)據(jù)?
為了嘗試重現(xiàn)并捕獲這些未發(fā)表的“失敗”數(shù)據(jù),EPFL的Berend Smit領(lǐng)導(dǎo)的研究團隊及其合作者在Nature Commun.報道了他們使用機器學(xué)習(xí)進行的系統(tǒng)研究,并由Nature作為亮點文章進行點評。他們首先 以廣泛使用的銅基MOF(HKUST-1)為研究對象,探索了溶劑,溫度,反應(yīng)物濃度等不同反應(yīng)條件的影響。機器人每天可以進行30次反應(yīng),并將導(dǎo)致反應(yīng)成功和失敗的數(shù)據(jù)統(tǒng)一收集,然后通過模擬遺傳和進化過程的算法處理數(shù)據(jù):算法的每次迭代都對數(shù)據(jù)施加選擇壓力,導(dǎo)致由于“適者生存”而出現(xiàn)進化條件。
MOF合成采用的策略[2]丨nature
研究團隊進行了3輪30次實驗,使用算法和每輪產(chǎn)生的MOF樣品的質(zhì)量來指導(dǎo)后續(xù)輪次實驗的條件,從而獲得了制備HKUST-1的最優(yōu)條件,得到了具有極好結(jié)晶度、相純度和高表面積的高品質(zhì)HKUST-1。
研究團隊采用的策略是,每次實驗結(jié)束后,返回到次優(yōu)反應(yīng),并使用機器學(xué)習(xí)進行分析。通過這種方式,作者認識到哪些參數(shù)對MOF品質(zhì)影響最大。例如,他們發(fā)現(xiàn)反應(yīng)溫度的變化對產(chǎn)物的結(jié)晶度和表面積的影響遠大于反應(yīng)中使用的金屬節(jié)點和有機配體的化學(xué)計量。通過對九個反應(yīng)指標的相對重要性進行排序和分析,作者認為,機器學(xué)習(xí)產(chǎn)生的信息堪比化學(xué)家的直覺。
高品質(zhì)HKUST-1[2]丨nature
機器學(xué)習(xí)為MOF合成開疆擴土
進一步,他們用這種化學(xué)直覺來開發(fā)與HKUST-1具有相同的結(jié)構(gòu)Zn基MOF材料Zn-HKUST-1。結(jié)構(gòu)相似,銅和鋅之間又具有化學(xué)相似性,這聽起來是一個微不足道的挑戰(zhàn)。然而,作者卻發(fā)現(xiàn)合成高品質(zhì)HKUST-1的十個反應(yīng)條件都無法制備出Zn-HKUST-1。
怎么辦呢?如果是做實驗的話,研究人員必須嘗試許多不同的反應(yīng)條件,來從頭研究如何獲得所需的材料,而通過機器學(xué)習(xí)則不必如此費勁。Berend Smit領(lǐng)導(dǎo)的研究團隊通過機器學(xué)習(xí)確定的主要反應(yīng)參數(shù),在僅20次試驗反應(yīng)后得到制備高品質(zhì)Zn-HKUST-1的反應(yīng)條件。如果采用完全盲人摸象的方法,可能需要數(shù)千次反應(yīng)才能達到相同的效果。
未來可期
不過,這種機器學(xué)習(xí)的策略還只是剛剛起步,很多地方有待于進一步完善。譬如,他們一次只能分析一種反應(yīng),從多種不同的反應(yīng)中產(chǎn)生的復(fù)雜數(shù)據(jù)將更難以處理。此外,作者關(guān)注的是MOF材料的品質(zhì),至于反應(yīng)產(chǎn)率等數(shù)據(jù)并未提供。
總之,這項工作有可能大大提高度現(xiàn)有MOF材料的品質(zhì),并加速開發(fā)全新的MOF材料。作者已經(jīng)在線提供了他們的軟件和所有數(shù)據(jù),希望對整個科研事業(yè)有所幫助!
軟件和數(shù)據(jù)鏈接:
https://archive.materialscloud.org/2018.0011/v3
多孔材料學(xué)術(shù)QQ群:529627329
參考文獻:
1. Seth Cohen. Machine learning speeds upsynthesis of porous materials. Nature, 2019, 566, 464-465.
https://www.nature.com/articles/d41586-019-00639-3
2. Seyed Mohamad Moosavi, Berend Smit etal. Capturing chemical intuition in synthesis of metal-organic frameworks. Nature Communications 2019.
https://www.nature.com/articles/s41467-019-08483-9