大規模基因表達數據正被用于預訓練模型,以隱含地學習基因和細胞功能。然而,這樣的模型需要大量的數據管理和訓練。鑒于此,斯坦福大學James Zou等研究人員探索了一種更簡單的替代方案:根據文獻利用ChatGPT嵌入基因。
研究人員使用GPT-3.5從單個基因的文本描述中生成基因嵌入,然后通過平均每個基因表達水平加權的基因嵌入來生成單細胞嵌入。
研究人員還為每個細胞創建了一個句子嵌入,只使用按表達水平排序的基因名稱。在許多用于評估預訓練單細胞嵌入模型的下游任務中,特別是基因屬性和細胞類型分類的任務,研究人員命名為GenePT的模型取得了與數百萬細胞基因表達譜預訓練模型相當或更好的性能。GenePT表明,文獻的大語言模型嵌入為編碼單細胞生物學知識提供了一條簡單有效的途徑。
參考文獻:
Chen, Y., Zou, J. Simple and effective embedding model for single-cell biology built from ChatGPT. Nat. Biomed. Eng (2024).
https://doi.org/10.1038/s41551-024-01284-6