第一作者:Benjamin J. Shields
通訊作者:Abigail G. Doyle, Ryan P. Adams
通訊作者單位:普林斯頓大學
對于化學反應、藥物發現而言,通過優化反應條件合成目標產物是至關重要的一步。但是在反應優化過程中,不可避免的需要進行迭代反應條件優化,而且經常面臨著從數千種反應條件種篩選最優反應條件。有鑒于此,普林斯頓大學Abigail G. Doyle、Ryan P. Adams等報道,通過開發的一種機器學習軟件,能夠更加快速的通過更少的迭代反應優化反應條件。不列顛哥倫比亞大學Jason E. Hein對該工作的意義進行總結和評述。
目前人們在各種化學合成領域種發展了多種機器學習方法,這種機器學習方法能夠用于解決合成過程中的難題,但是在目前的機器學習方法中,操作化學工作者需要首先學習操作軟件的技能,導致機器學習的使用和普及受到較大限制。
普林斯頓大學Abigail G. Doyle、Ryan P. Adams等通過發展一種開源的機器學習軟件,能夠讓化學工作者能夠更好的操作和使用機器學習方法。在該軟件的開發過程中,關鍵在于Bayesian優化方法。這種Bayesian方法已經被發現在其他一些應用中展示了非常好的效果,本文作者首次將該Bayesian方法用于優化反應條件,搭建的軟件中包含了各種反應操作變量。
圖1. 實驗反應參數的設計原理。
原理和算法
該軟件首先通過對某個反應進行編碼,轉變為機器可讀取格式的描述符。對于溫度、濃度等序列變化型參數能夠直接從輸入數據中獲取;對于溶劑、催化劑等參數而言,需要化學工作者進行指定;對于反應物分子,將其轉變為一系列數值(分子量、電荷、鍵強度等)。通過嘗試和優化,從而保證該過程中能夠兼容多種反應物和多個反應。
接下來的過程是執行Bayesian優化。作者發現Bayesian算法能夠很好的用于該系統。從比較稀疏的數據出發,Bayesian算法構建了模型考察輸入反應變量對反應產率等性能的變化規律。隨著逐漸加入實驗中獲得的反應數據,軟件能夠通過獲取的數據進行分析,并且指導研究人員進行后續反應。
性能
作者將該軟件用于三種反應的優化反應,分別考察了不同溫度、溶劑、催化劑的配體等參數作用中該軟件的兼容性。在實施過程中,能夠從312500中可能的變量組合中,僅僅通過50次測試就能夠得到優化的反應條件。
圖2. 化學磚家和機器的PK。
進一步的,作者對軟件優化反應的效率的實際情況進行考察,通過和化學專家PK反應條件篩選和優化,發現在和50個化學專家組成的團隊進行反應條件優化的比賽中,該軟件更勝一籌。而且能夠從已知催化活性較弱的配體出發,最終達到99 %的產率。
如果對這個軟件感興趣,可以下載來試一下,因為目前這個軟件是免費的:
auto-QChem(對分子的各種性質進行分析的軟件)
https://github.com/b-shields/auto-QChem
edbo(設計反應參數軟件)
https://github.com/b-shields/edbo
參考文獻
1. Shields, B.J., Stevens, J., Li, J. et al. Bayesian reaction optimization as a tool for chemical synthesis. Nature 590, 89–96 (2021).
DOI: 10.1038/s41586-021-03213-y
https://www.nature.com/articles/s41586-021-03213-y
2. Jason E. Hein, Machine learning made easy for optimizing chemical reactions. Nature 590, 40-41 (2021)
DOI: 10.1038/d41586-021-00209-6
https://www.nature.com/articles/d41586-021-00209-6