本文與奇物論聯合發布
奇物論
(ID:numan2018)
對自己的科研課題妄自菲薄,可能也是一種無知。很多人一邊苦逼地通宵實驗,一邊自以為是對自己的體系進行批判。“我做的這個材料有什么用?根本沒用,大家都是在為了混口飯吃而已。”這話可能沒毛病,但是更多可能并不是這個材料沒用,而是你沒有能力找到他的用途而已。
不信?這篇Nature告訴你,如果你想說自己或別人做的東西沒用,可能需要先好好看完150萬篇論文。
近日,美國勞倫斯伯克利國家實驗室的Tshitoyan及其同事在1922年至2018年間材料科學,物理和化學領域發表的論文中收集了330萬篇論文摘要。通過對這些摘要進行必要的處理,例如刪除不是英文的文本,排除“勘誤”或“紀念”等不適合的摘要,最終得到了包括500,000個單詞詞匯形成的150萬篇摘要。
研究團隊使用稱為Word2vec的無監督機器學習算法對這些文本記性分析, Word2vec將大量文本傳遞給人工神經網絡(一種機器學習算法),并將詞匯表中的每個單詞映射到數字向量,通常具有幾百個維度。得到的單詞向量稱為嵌入,用于將表示為數據點的每個單詞定位在詞匯表的多維空間中,具有共同意義的詞語在該空間內形成群集。因此,Word2vec可以根據原始文本中單詞的使用方法,對單詞的含義或它們之間的功能關系做出準確的估計。重要的是,這些含義和關系并非由人類明確編碼,而是以無人監督的方式從分析的文本中學習。
研究人員發現,即使該算法沒有使用任何特定的標簽來識別或解釋化學概念,所獲得的材料和科學術語的嵌入詞也會產生反映化學規則的詞匯聯想,嵌入識別出與“化學元素”,“氧化物”,“晶體結構”等概念相對應的單詞關聯。
上面的話都沒看懂?
沒關系
下面的內容才是重點
更重要的是,除了建立單詞之間的關系之外,研究團隊還發現,這種方法可以用于發現已知材料的未知性能。
以熱電材料為例,他們首先對機器學習模型記性訓練,來預測材料名稱與文本中的“熱電”一詞共同出現的可能性。然后,通過搜索文本找到尚未報道具有熱電特性,但其名稱與“熱電”一詞具有很高的語義關系的詞語。作者發現,使用這種方法挑選的前50種材料,在發表5年內作為熱電研究的可能性是隨機選擇材料的8倍。目前,這種方法已經從材料科學拓展到蛋白質鑒定和癌癥生物學等領域。
材料數據庫的不斷增長,催生了材料信息學領域的火熱。20年前,隨著化學數據庫的建立而出現,化學信息學的蓬勃發展與此同出一轍。當然,這種無監督方法通常不如從監督學習獲得的模型準確。然而,這些方法可用于找到現有材料的未知屬性,然后加以重新研究。或許,下一個重大發現,就是來自一個被人遺忘的舊材料。
“天生我才必有用”,不可謂不是千古名句,至理名言!
熱電材料學術QQ群:699166559
參考文獻:
VaheTshitoyan et al. Unsupervised word embeddings capture latent knowledge frommaterials science literature. Nature 2019, 571, 95–98.
https://www.nature.com/articles/s41586-019-1335-8
https://www.nature.com/articles/d41586-019-01978-x