
特別說明:本文由學研匯技術中心原創撰寫,旨在分享相關科研知識。因學識有限,難免有所疏漏和錯誤,請讀者批判性閱讀,也懇請大方之家批評指正。
原創丨彤心未泯(學研匯 技術中心)
編輯丨風云
鈀催化的胺與芳基鹵化物的偶聯反應是藥物研究和生產中應用最廣泛的反應之一。然而,該反應對胺和芳基鹵化物的結構十分敏感,因此通常需要一個反復試驗的過程來確定最佳反應條件。
有鑒于此,伊利諾伊大學厄巴納-香檳分校Scott E. Denmark和瑞士巴塞爾過程化學和催化制藥部Raphael Bigler, Serena Fantasia等人提出了一種為Pd催化的C-N偶聯提供底物適應性條件的工具。通過生成一個實驗數據集來設計并構建該預測工具,可以實現在一系列反應條件下探索不同的反應物配對網絡。通過系統的實驗設計過程,實現神經網絡模型主動學習大量的C-N耦合。模型在實驗驗證中表現出良好的性能:在模型預測的個性化條件下,以85%以上的收率分離了10個產物。隨著數據集的增長,所開發的工作流將不斷提高工具的預測能力。
工作目標
作者的目標是創建一個機器學習引導的工具,用來為新提出的耦合提供預測和優化,該工具提供的不僅僅是經驗指導,并避免了大量的條件優化實驗操作,從而加速Buchwald-Hartwig (B-H)偶聯的常規應用。
圖 工作目標
自適應模型和機器學習工具對比
將反應優化與基于底物自適應模型的工具對比表明,優化器工具與本工作中提出的工具之間存在重大差異。使用 ML 的目標是使用相對較少的測量收益率來預測其余的收益率,而優化器指導該反應空間切片內的實驗選擇,以提高產量。
圖 定義基材自適應模型并將其與機器學習輔助優化模型進行對比
研究策略
作者認為模型必須了解每種反應物的偏好以及各種組合之間的相互作用,然后正確權衡這些反應物是否有用。因此,首先要構建一個可以擴展的數據集,然后在實驗中不斷迭代新數據。作者展示了50種氮親核試劑中19種的代表性試劑,反應空間包含180個條件和2500個反應物對的450,000個可能的反應,證實了該工具的可行性。
圖 B-H偶聯反應的氮親核試劑的代表性范圍以及與其他經過驗證的B-H偶聯ML研究的比較
工作流程
工作流程:(i) 實驗者選擇新的反應物對,(ii) 該工具計算相應的化學描述符,(iii) 然后該工具使用模型來預測所有180個條件的產率,(iv) 實驗者可以根據預測和專業知識來決定評估哪些條件,(v) 出現新數據,(vi) 使用新數據重新訓練模型,(vii) 在對照實驗中測試這些模型,以及 (viii)讓實驗者評估模型性能。
圖 用于探索反應空間的新的、實驗驅動的、主動學習的工作流程
反應物組分的可視化
為了形象化展示數據集,作者描繪了一個結構化弦圖,顯示了兩側的胺和溴化物節點,以及連接數據集中耦合的反應物的邊緣,實現了反應空間反應物組分的可視化。
圖 B-H 反應空間反應物組分的可視化
實驗驗證
為了評估模型的性能,作者在典型的案例中進行了測試。針對不同的耦合過程,模型的性能存在梯度。對于來自數據集中充分代表的反應子空間的新反應物,預測是準確且穩定的;對于反應物代表數據集中結構排列的情況,模型正確地學習了反應性趨勢并可以預測命中;對于可能具有與數據集中的反應模式不同的新型結構,性能范圍從中等到較差不等。然而,即使這里展示的最低模型性能也提供了良好的產量。
圖 基質自適應模型作為條件推薦器的實驗驗證
參考文獻:
N. IAN RINEHART, et al. A machine-learning tool to predict substrate-adaptive conditions for Pd-catalyzed C–N couplings. Science, 2023, 381(6661):965-972.
DOI: 10.1126/science.adg2114
https://www.science.org/doi/10.1126/science.adg2114