【ZiDongHua 之創新自科文收錄關鍵詞:自動化科技 人工智能  化學合成  數據科學  化學 】

化學合成領域的數據科學革命正在加速,自動化、實時分析和 AI 是「催化劑」

將 ScienceAI 設為星標

第一時間掌握

新鮮的 AI for Science 資訊

編輯 | 綠蘿

自動化和實時反應監測使數據豐富的實驗成為可能,這對于駕馭化學合成的復雜性至關重要。將實時分析與機器學習和人工智能工具相結合,可以加速最佳反應條件的識別并促進無差錯的自主合成。

不列顛哥倫比亞大學的研究人員在《Nature Synthesis》發表題為「Automation, analytics and artificial intelligence for chemical synthesis」的評論,強調了數據豐富的實驗和跨學科方法在推動合成化學未來發展方面的重要性越來越大。

自動化在合成「迷宮」中的作用

合成大多數分子需要進行多步轉化、平衡輸入材料(溶劑、試劑、催化劑)、反應參數(溫度、添加順序、時間)以及后處理和純化策略。穿越這個多因素挑戰類似于在資源有限的迷宮中搜索。

從歷史上看,化學家必須借鑒以前的經驗,制定謹慎的策略并根據有限的數據做出決定。實驗室自動化等使能技術(Enabling technology)從根本上改變了現狀,提高了分析反應數據的數量和準確性,從而可以在更短的時間內做出更好的決策??梢圆渴鹬T如高通量實驗 (HTE) 之類的技術來快速調查可能的反應條件,但這些技術通常只能提供固定反應時間的分析產率百分比,而放棄與反應機制或動力學有關的關鍵細節。

圖 1:通過超高效液相色譜分析的 Suzuki–Miyaura 交叉偶聯顯示了起始材料以及產物和常見副產物的不同峰面積與時間的關系。(來源:論文)

推論策略,稱為數據豐富的實驗 (DRE),側重于提取實時反應進程數據,量化所有可測量的物種或參數,并為單個反應提供全面的逐個播放。使用實時監控進行路線偵察和優化可提供反應動力學的詳細圖片,揭示反應中間體、速率常數和副產物反應途徑等關鍵信息。

自動化是使 DRE 方法成為可管理和富有成效的努力的關鍵使能工具。首先,需要硬件和儀器自動化來準確地協調整個反應過程中反應等分試樣的捕獲和分析。這取決于選擇的分析技術(高效液相色譜-質譜、核磁共振光譜、高分辨率質譜)在不同程度上適用,但在所有情況下,反應過程測量所需的頻率,精度和延長的持續時間都不利于人工操作。其次,反應分析數據的龐大數量和復雜性需要軟件自動化技術來幫助注釋、處理原始數據并將其轉換為代表每個反應組分的濃度與時間陣列的趨勢。最后,復雜的反應操作可以自動化執行,例如溫度或催化劑劑量的精確變化,允許從單個反應中提取數據,這通常需要多次實驗。

用「規則」和「目標」代替發條式執行

當前的數據驅動反應研究范式幾乎完全側重于使用人在回路中的步驟將數據轉換為信息。這意味著分析工具創建實時反應趨勢,然后由操作員解釋以計劃或指導實驗活動。固定的多變量統計工具,例如實驗設計或優化策略(例如批處理貝葉斯優化)利用自動化來獲取大型數據集,但最終的解釋和腳本編寫是手動的。

現在存在一個緊急機會,實時監控的遙測技術可用于顯著加速過程優化和反應發現??梢岳脤崟r數據,使自動化系統能夠接收有關流程的關鍵反饋。這既確保了預期實驗的準確執行,又增強了自動合成協議的可轉移性和可重復性??梢允褂孟嗤臄祿瘉碓试S自動反應硬件適應變化的環境。這在嘗試執行多步轉換時具有令人難以置信的影響,因為必須在合成進行之前形成前體。代替在設定時間添加固定數量材料的硬編碼腳本,可以訓練反應器在第一個反應完成時添加足夠的試劑。這些條件參數允許進行更典型的傳統研發工作流程的即時更正,并通過提供遵循實驗「規則」實現的合成「目標」,為無差錯自主合成打開大門。

人工智能和機器學習增強反應設計的潛力

機器學習 (ML) 和人工智能 (AI) 工具是實驗數據驅動工作流程的強大補充,可加速反應條件的識別。預測模型是根據從 HTE 或文獻來源獲得的實驗數據建立的,這些數據可以建議執行未知轉化的反應條件。此外,通過將機器人反應執行、端點采樣和數據提取與 ML 優化算法相融合,創建了自主優化平臺。使用這些方法,可以減少確定理想條件所需的實驗次數,但是,這兩個示例都將實驗結果減少到單個數量分數,例如產率百分比或立體選擇性百分比。這些策略有其優點,但減少到固定時間的單一測量掩蓋了化學反應固有的復雜性。

許多研究表明,從現有文獻中提取反應性能數據(產率)會導致混合結果。數據偏向于最常發布的條件,導致提取流行的反應參數而不是最佳條件。更糟糕的是,定量測量以及應用的條件或技術的異質性使得無法區分報告的產量是實驗失敗還是分離困難的結果。對報告的合成數據進行同質化和系統化的嘗試正在出現,但是,它們仍處于起步階段。

HTE 自動化系統生成的數據集更加一致,但仍可能存在系統性偏差,限制了它們的廣泛適用性。特別是,選擇用于分析所選分析指標的時間點可能會提供假陽性或假陰性數據。例如,記錄的低產品收率可能是由于反應組合啟動延遲,或者所需產品在反應條件下不穩定。因此,選擇錯誤的時間窗口來詢問反應可能會導致被詢問的系統過于簡單化或誤解。雖然來自 HTE 的稀疏數據可以作為路標,但許多真正有趣和意想不到的突破被遺漏了。

實時反應監測具有關鍵優勢,預測模型可以使用完整的動力學數據進行訓練。這些全面的數據解決了與數據完整性、偏差和過度簡化相關的所有問題。首先,通過記錄整個反應曲線,可以捕獲和解釋不同研究人員的反應性能差異。不匹配將有助于集中精力糾正協議傳輸失敗的問題。其次,將捕獲反應物種的全部演變,從而描繪出目標材料以及副產品和中間體的演變。這些趨勢將作為未來反應發現的有用元數據,因為它們捕獲了可能的轉化,即使它們不是研究的重點。最后,使用經過適當訓練的神經網絡,可能需要很少的反應趨勢才能明確地對基礎機制進行分類。一般來說,ML 方法的模式識別能力非常適合訓練整個反應的復雜模式。

總的來說,合成化學領域的數據科學革命正在加速,增強了對強大的、數據豐富的實驗的需求。實時反應分析已被用于顯著減少達到分子目標所需的時間。通過進一步將這些自動化數據收集方法與新的 ML 和 AI 工具聯系起來,預測最佳條件和發現新合成路線的能力將呈指數級增長。