絕大多數(shù)化學(xué)知識都存在于非結(jié)構(gòu)化的自然語言中,但結(jié)構(gòu)化數(shù)據(jù)對于創(chuàng)新和系統(tǒng)的材料設(shè)計至關(guān)重要。傳統(tǒng)上,該領(lǐng)域依賴于手動管理和部分自動化來提取特定的數(shù)據(jù)。大語言模型(LLM)的出現(xiàn)代表了一個重大轉(zhuǎn)變,可能使非專家能夠有效地從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化、可操作的數(shù)據(jù)。雖然將LLM應(yīng)用于化學(xué)和材料科學(xué)數(shù)據(jù)提取帶來了獨特挑戰(zhàn),但領(lǐng)域知識為指導(dǎo)和驗證LLM輸出提供了機會。近日,德國耶拿大學(xué)Kevin Maik Jablonka對用于化學(xué)數(shù)據(jù)提取的大語言模型進行了綜述研究。
本文要點:
1) 該綜述全面概述了化學(xué)中基于LLM的結(jié)構(gòu)化數(shù)據(jù)提取,綜合了當(dāng)前的知識并概述了未來的方向。作者解決了缺乏標(biāo)準(zhǔn)化指導(dǎo)方針和現(xiàn)有框架的問題,以利用LLM和化學(xué)專業(yè)知識之間的協(xié)同作用。
2) 該綜述為旨在利用LLM進行數(shù)據(jù)驅(qū)動化學(xué)研究的研究人員提供基礎(chǔ)資源。這些見解可以顯著增強跨化學(xué)學(xué)科的研究人員獲取和利用科學(xué)信息的方式,從而加速開發(fā)滿足關(guān)鍵應(yīng)用需求的新型化合物和材料。
Mara Schilling-Wilhelmi et.al From text to insight: large language models for chemical data extraction Chem. Soc. Rev. 2024
DOI: 10.1039/D4CS00913D
https://doi.org/10.1039/D4CS00913D