優(yōu)勝從選擇開始,我們是您最好的選擇!—— 中州期刊聯盟(新鄉(xiāng)市博翰文化傳媒有限公司)
0373-5939925
2851259250@qq.com
我要檢測 我要投稿 合法期刊查詢
您的位置:網站首頁 > 優(yōu)秀論文 > 其他論文 > 正文

高分子材料基因組——高分子研發(fā)的新方法

作者:都仕 張宋奇 王立權 林嘉平 杜磊來源:《高分子學報》日期:2022-06-15人氣:3668

新材料是高新科技和高端制造業(yè)發(fā)展的基石,而工業(yè)技術的不斷發(fā)展對材料性能提出了越來越高的要求. 但是,新材料的研發(fā)往往滯后,無法及時滿足應用要求. 為了加快材料研發(fā),結合現有的實踐經驗,2011年,研究者提出了新的材料研發(fā)模式——材料基因組. 我國科技部于2015年啟動了“材料基因工程關鍵技術與支撐平臺”,重點扶持材料基因組的研究[1].

截至目前,材料科學研究先后經歷了經驗驅動、理論驅動、計算驅動和大數據驅動等4種范式,如圖1所示[2]. 第一范式(經驗科學) 是實驗試錯法的核心,它基于研究者在過去實驗中所積累的經驗開展研究工作. 第二范式(理論科學)則通過整理歸納過去經驗來發(fā)現科學定律與理論,以此來解釋新問題,發(fā)現新材料,是提高實驗試錯法效率的理論基礎. 第三范式(計算科學)則利用計算機模擬原子或分子的微觀狀態(tài),結合熱力學和動力學理論獲取宏觀性能. 這種計算方法常用于研究實驗上難以直觀表征的領域,如觀測原子、分子在量子尺度和介觀尺度上的運動. 第四范式(數據驅動科學)則是由算法對大量數據進行智能分析并尋找數據間內在聯系的研究方式. 與第二、第三范式不同,第四范式的任務是從已有實驗數據出發(fā),對未知的數據進行推斷和預測. 這4種范式各具特點又緊密聯系. 在它們共同作用下,各種新材料不斷涌現,有力地支撐著科學技術的發(fā)展. 目前,以經驗或理論為指導的實驗試錯法依舊是開發(fā)新材料的主要方式,它往往需要不斷地嘗試和反復實驗來探索較為廣闊的化學結構空間,從而導致漫長的材料研發(fā)周期. 而以第四范式為核心,輔以前3種范式的材料基因組將理論計算、數據庫技術、人工智能和實驗有機結合,在付諸實驗前通過計算機“虛擬合成材料并表征材料性能”,從而達到提高新材料的研發(fā)速度,降低研發(fā)成本的目的.

  

Fig. 1  The four paradigms of science: empirical, theoretical, computational, and data-driven.


與實驗試錯法不同,材料基因組的研發(fā)模式通過“數據技術-理性設計-實驗驗證”有機結合,顯著提高新材料研發(fā)效率. 其中,材料的理性設計是研發(fā)新材料的關鍵,也是研究者著重關注的領域. 相較于基于研究者經驗和直覺的傳統(tǒng)實驗試錯法,基于材料基因組思想的理性設計通過結合各種性能預測方法和仿真模擬,能更快速地探索更廣闊的材料結構空間并以定量的方式比較不同材料的性能,從而無偏見地篩選出未曾被發(fā)現或被人忽視的結構. 基于材料基因組思想的理性設計和實驗驗證由3部分組成(如圖2):(1)“基因”的定義:以一定的規(guī)則,將可能影響材料性能的因素定義為材料的“基因”,如組成高分子的化學基團和元素等. 通過“基因”編輯(即替換現有高分子的片段)或“基因”組合獲得一系列“虛擬材料”. (2)性能預測與高通量篩選:創(chuàng)建基于實驗或模擬數據的性能預測模型,對“基因”編輯或組合后的“虛擬材料”進行性能預測,并以特定的性能標準進行高通量篩選. (3)實驗驗證:合成所篩選出的“虛擬材料”,并通過性能表征驗證篩選結果的可靠性.

  

Fig. 2  Procedures developed for the design and screening.


“基因”的定義與所研究的材料的特點緊密相連,是整個材料基因組的基礎,“基因”的選擇與后續(xù)合成的便宜性密切相關.性能預測與高通量篩選則是整個理性設計過程中的核心和關鍵. 對“虛擬材料”的高通量性能預測(表征)目前大致分為4種方法:(1)通過數據挖掘尋找能代理性能的特征量,或者通過機器學習構建預測模型. (2)發(fā)展多尺度的模擬方法,從分子結構出發(fā)預測材料性能. (3)基于新興計算機技術,如GPU(圖形處理器)和NPU(嵌入式神經網絡處理器)提升運算能力,獲得高通量模擬計算方法. (4)發(fā)展高通量實驗技術,研發(fā)高通量實驗設備,實現對材料的高通量合成和表征.

雖然目前已有很多成熟方法能夠模擬特定尺度上材料的結構和性能,但由于材料在不同尺度上的關聯并不明確,構建多尺度模擬方法仍然是一個巨大挑戰(zhàn). 高通量實驗涵蓋高通量制備技術和高通量表征技術,是對已有實驗技術和表征手段加以改進和利用,實現一次性批量樣品制備和一次性批量樣品表征. 它不僅可以突破傳統(tǒng)試錯法研究框架,實現材料高效制備,而且可以短時間內獲取大量實驗樣品并表征性能,為數據挖掘和機器學習提供數據支撐. 自1970年Hanak采用多成分拼接共濺射方法制備二元和三元超導材料后,高通量制備技術快速發(fā)展,但主要集中在金屬領域[3]. 高通量制備需要配備高通量制備技術來快速分析大量樣品,但高通量材料表征技術卻發(fā)展相對困難. 本質上,高通量實驗的進步根源在于開發(fā)出更先進實驗技術和表征手段. 與高通量實驗類似,高通量模擬的進步根源在于開發(fā)出更高算力的硬件和更高計算效率的軟件. 4種方法中,基于數據挖掘尋找代理量的方法或基于機器學習創(chuàng)建預測模型的方法是當前實現性能預測和高通量篩選最為可行的方法.

材料基因組已經成功應用在高性能合金材料[4~7]、無機非金屬材料[8~10]、有機小分子材料[11,12]等領域. 相較于金屬、無機非金屬和有機小分子材料,高分子材料具有更大、更復雜的材料參數空間,如高分子鏈構造、構型、構象和聚集、加工方式及加工條件等等. 這些因素都將對高分子材料的性能產生巨大影響,因此建立高分子材料的構效關系,提取決定其性能的“基因”將是更為困難的挑戰(zhàn),這一切制約了材料基因組在高分子材料領域的應用和發(fā)展.

本文將介紹性能預測方法之一——“通過數據挖掘尋找能代理性能的特征量或機器學習構建預測模型”在突破高分子復雜性對材料基因組約束,實現理性設計高分子材料上的進展. 本文分3部分,前兩部分分別介紹利用代理量方法和機器學習模型篩選高分子材料的進展,最后探討高分子材料基因組的主要發(fā)展方向和所面臨的主要挑戰(zhàn).

1 利用代理量方法篩選高分子材料

從理論計算和模擬出發(fā),直接構建材料結構和宏觀性能之間的構效關系仍然是一個巨大的挑戰(zhàn). 基于此困境,提取能代表所需性能/性質的、可計算的微觀或宏觀特征量作為性能代理量,將無法通過理論計算獲得準確值的宏觀性能轉化為可計算的代理量,并通過代理量的比較來篩選獲得高性能高分子材料不失為一種合理的策略.

例如:隨著工業(yè)不斷發(fā)展,對高能量密度電容器的需求越來越旺盛,對電介質材料的性能要求也越來越高. 相較于陶瓷材料,高分子材料成本更低,柔韌性更好,已成為廣泛使用的商用電介質材料. 然而,高分子材料的介電常數較小,仍有改進的空間. Ramprasad等用密度泛函理論(DFT)容易計算的高分子帶隙替代難以計算的擊穿電壓和介電損耗,并以密度泛函微擾理論(DFPT)和等效介質理論計算獲得的理論介電常數替換宏觀介電常數,篩選高分子電介質材料 [13]. 他們提出了5步策略用于篩選介電材料結構:(1)構建組合化學空間:將高分子介電材料中常見的7種化學結構(NH、CO、C6H4、C4H2S、CS、O、CH2)作為“基因”,并以其中4個片段構建線性高分子鏈的重復單元. 通過改變每個片段所代表的“基因”并淘汰不合理的結構,最終獲得包含267種候選結構. (2)篩選具有潛力的重復單元:利用DFT、DFPT和等效介質理論計算所有候選結構的能帶隙和總介電常數. 以能帶隙大于3 eV和總介電常數大于4 eV作為篩選條件,對所有候選結構進行篩選,獲得了符合條件的“基因”組合. (3)結構/形態(tài)預測:通過USPEX (universal structure predictor evolutionary xtallography) 方法和熔融-淬火分子動力學模擬,預測了符合篩選條件的“基因”組合在低能量狀態(tài)下的三維結構. (4)性能計算:再次利用DFT、DFPT和等效介質理論計算所有三維結構的能帶隙、總介電常數、紅外和X射線光譜. (5)合成和表征符合篩選條件的“基因”組合,并從高分子合成的便宜性角度反向指導篩選步驟. 憑借這5步策略,Ramprasad等最終篩選出3種有潛力的組合,分別為―NH―CO―NH―C6H4―、―CO―NH―CO―C6H4―和―NH―CS―NH―C6H4―. 然而,由于這3種組合在溶解性和薄膜加工性能上存在缺陷,直接將它們作為介電材料使用并不現實[14,15],因此,Ramprasad等合成了主鏈含有對應結構的聚硫脲[16]、聚脲、聚氨酯[17]和聚酰亞胺[18]. 通過實驗合成和表征,他們發(fā)現其中2種優(yōu)選結構的能量密度分別為9.3和15.77 J/cm3,是雙軸向聚丙烯的2~3倍. 實驗結果證實,通過計算代理量方法篩選獲得具備應用潛力的新型儲能高分子是可行的.

此外,Ramprasad等利用相同策略[19]:將改性聚乙烯重復單元看作由3個可變單元和1個CH2組成的結構,在7種主鏈摻雜嵌段“基因”(CH2, SiF2, SiCl2, GeF2, GeCl2, SnF2, SnCl2)中任選3種,嵌入到可變單元中,獲得175個改性聚乙烯結構;通過DFT計算這些結構的能帶隙和介電常數,最終篩選出了含SnF2或GeF2的、高介電性能的有機金屬聚乙烯材料. 進一步的研究揭示,含錫高分子在高介電領域中具備應用潛力[20].

Zhu等開展了含硅芳炔樹脂(PSA)方面的設計工作[21,22]. PSA具有優(yōu)異的耐熱性能和固化性能,可作為航空航天用復合材料基體[23~25]. 隨著航空航天工業(yè)的發(fā)展,航空航天工業(yè)一方面要求樹脂具有越來越高的力學、耐熱等使用性能[26],另一方面又希望降低樹脂的固化溫度和后處理溫度,以便于樹脂的加工和復合材料的制備. 然而,材料不同性能之間往往存在復雜的關系. 例如:提高樹脂的耐熱性能往往也會提高加工溫度和黏度,縮小加工窗口. 然而,實驗試錯法往往難以平衡這幾方面相互矛盾的性能,全面提升樹脂性能困難重重,付出的時間和費用成本都很大. Zhu等利用材料基因組的概念調和了高熱穩(wěn)定性和低固化能之間的矛盾,通過設計和篩選,獲得了具有高熱分解溫度和低的固化放熱焓的PSA[27]. 從合成路線出發(fā),選取二氯二甲基硅烷和含芳香環(huán)的二炔為“基因”,通過“基因”組合產生了大量候選PSA結構,作為下一步篩選的化學結構空間(如圖3). 采取兩步法,對化學結構空間中的優(yōu)選PSA結構進行篩選:(1)用樹脂中最弱鍵的解離能(BDE)代理熱分解性能,以Si―CH3中的硅碳鍵的BDE為閾值,通過DFT計算篩選出BDE大于閾值的候選PSA結構. (2)用分子連接指數法計算的零切黏度和以DFT計算得到的能帶隙代理加工性能,以零切黏度小于0.5 Pa·s (樹脂傳遞模塑工藝對黏度的要求)且能帶隙最小為標準,篩選出命名為PSNP的最佳結構. 實驗證實,PSNP固化樹脂的5%熱分解溫度(Td5)為655 ℃,固化放熱焓為241.9 J/g,基本達到設計目標.

  

Fig. 3  Screening approach for the rapid design of heat-resistant silicon-containing arylacetylene resins (Reprinted with permission from Ref.[27]; Copyright (2020) American Chemical Society).


除了固化放熱焓,PSA韌性欠佳的缺點也限制了PSA的進一步應用[28].提高PSA的韌性將是PSA工程應用的關鍵. 共混作為一種常見的增韌手段,能簡單快捷地提升脆性樹脂的韌性,但增韌樹脂的加入也勢必會影響其它性能,通常很難獲得令人滿意的效果. 目前,共混改性的PSA樹脂往往有著韌性提升不夠顯著或者耐熱性能明顯下降的問題[29,30].只有在提升韌性的同時盡可能減少對耐熱性能的負面影響,才能使增韌樹脂兼具高韌性和高耐熱性. 基于此需求,Gao等提出了利用高性能熱固性聚酰亞胺(PI)與PSA反應共混,從而增韌PSA樹脂的設想,并根據材料基因組概念提出了設計篩選兼具高耐熱性和高韌性的PI的新策略[31]. 根據PI結構的特點,Gao等將PI的原材料二酐和二胺作為2類“基因”,將多種二酐和二胺兩兩組合得到一系列候選PI結構. 此外,Gao等根據本體模量和剪切模量的比值(K/G)與韌性呈正相關的規(guī)律(如圖4(a)),提出將K/G作為韌性的代理量. 利用分子連接指數法計算了所有PI結構的Td50K/G (如圖4(b)和圖4(c)),并將耐熱性和韌性歸一化處理后以1:1權重進行綜合評價(如圖4(d)),從中篩選出了評分最高的結構. 如圖4(e),以評分最高的結構為主鏈,Gao等合成出了乙炔基封端的聚酰亞胺(ATPI),并PSA反應共混制備澆鑄體. 相較于純PSA樹脂,引入30 wt%含量的ATPI可使PSA樹脂的彎曲強度提升約164%,而Td5僅下降了約8%,基本達到設計目標,驗證了Gao等篩選策略的可行性.

  

Fig. 4  (a) Plots of elongation at break (red circles) and flexural strength (blue squares) against K/G. Heat maps of (b) Td50 values, (c) K/G values, and (d) weighted-average values for various gene combinations. The colors from purple to red correspond to the values from low to high. In (d), the shadow rectangle circled by a black dotted line represents the screened ATPI. (e) Molecular structure of the screened ATPI. (Reprinted with permission from Ref.?[31]; Copyright (2020) American Chemical Society).


除了設計用于增韌的PI樹脂,張宋奇等還利用材料基因組概念提出了用于篩選耐熱且易加工的熱固性PI樹脂材料的策略[32]:(1)從PoLyInfo數據庫中收集化學結構,提取出柔性基元、剛性基元和反應基元. (2)利用DFT計算獲得的化學鍵解離能和Mayer鍵級作為交聯樹脂耐熱性能的代理量,利用MD模擬和分子連接指數法計算獲得的松弛時間τrot和主鏈結構(即不包含封端劑)的零切黏度η(T)作為交聯樹脂加工性能的代理量. 以BDE和τrot作為柔性基元的篩選指標,以Mayer鍵級和η(T)作為剛性基元的篩選指標,分別對柔性基元和剛性基元進行篩選,獲得優(yōu)選的柔性基元和剛性基元. (3)將優(yōu)選的柔性基元嵌入到二酐結構中獲得新二酐,將反應基元和優(yōu)選的剛性基元嵌入到胺與酸酐結構中獲得新二胺和新封端劑. (4)將新二酐、新二胺組合得到新聚酰亞胺主鏈結構. (5)利用分子連接指數法計算獲得的主鏈結構Td50作為交聯樹脂耐熱性能的代理量,利用分子連接指數法計算的主鏈結構的η(T)和封端劑的η(T)分別作為篩選主鏈結構和封端劑時交聯樹脂加工性能的代理量,利用DFT計算獲得的能帶隙作為交聯樹脂反應活性的代理量. 以主鏈結構的Td50和主鏈結構的η(T)作為篩選指標對新主鏈結構進行篩選,獲得優(yōu)選PI主鏈結構. 以能帶隙和封端劑的η(T)作為篩選指標對新封端劑進行篩選,獲得優(yōu)選封端劑. 通過代理量法的篩選,張宋奇[32]等獲得了由萘環(huán)封端、主鏈含二甲基硅和炔基的優(yōu)選PI結構. 此外,優(yōu)選PI結構的MD模擬結果表明,優(yōu)選PI中包含的剛性和柔性基元組合對樹脂整體的耐熱性能和加工性能都起到了增強作用.

表1所示為上述工作簡單總結. 由表可見,代理量法的關鍵是挖掘出能替代宏觀性能的且易于計算的合適代理量. 在使用代理量方法篩選高分子材料結構的過程中,所選代理量和目標性能之間關系的相關程度決定所計算的代理量在篩選過程中的參考價值. 相關性越高,代理量的計算越精確,代理量的參考價值越大,整個高分子材料基因組就越準確和完備. 因此,用代理量設計和篩選高分子材料的核心是尋找目標性能與各種微觀物理量或某些宏觀量之間的關系,從中選出最能代表目標性能且便于計算的代理量. 隨著更多的宏觀性能-代理量配對組合被發(fā)現,代理量篩選將在高分子材料領域得到更廣泛的應用.

Table 1  Summary of calculating the key features method enhanced material genome approach.
ExampleKey pointsRef.
1Use band gap and dielectric constant that are calculated by DFT to represent dielectric properties.[13]
2Find the potential of organo-Ge and organo-Sn based polymers which are neglected.[19]
3Use bond dissociation energy and energy bandgap which are calculated by DFT to represent thermal properties and curing properties.[27]
4Use Td50 and K/G which are calculated by the molecular connectivity index to represent thermal properties and toughness.[31]
5Use Td50, energy bandgap, and viscosity that are calculated by the molecular connectivity index and DFT to represent thermal properties, reaction activity, and processability.[32]

2 利用機器學習模型篩選高分子材料

作為多門學科相互交叉結合的產物,高分子材料基因組不僅需要材料領域的科研人員,也需要信息學領域的研究人員參與. 作為信息學中的一個重要分支,機器學習試圖從歷史數據中挖掘潛在規(guī)律,并對未知數據進行預測、推斷或分類,是滿足材料基因組對預測性能和高通量篩選需求的另一途徑[33]. 利用機器學習中多樣的算法(如人工神經網絡、決策樹、最近鄰算法等)對已知材料數據進行訓練,即可構建出輸入量(如簡化分子線性輸入規(guī)范(SMILES)、分子量和各種分子描述符等)與材料性能之間的定量構效關系(QSPR),即性能預測模型. 這些性能預測模型能夠有效提高材料基因組中材料設計和篩選步驟的效率. 近10年來,關于機器學習在材料領域中應用的報道已超過2000篇[34]. 在材料領域中重要的分支——高分子材料領域中,已有不少研究者成功將機器學習應用于預測高分子材料的宏觀性能[35~40]和微觀性質[41,42].

雖然研究者已利用代理量法發(fā)掘不少具有潛力的新型高分子材料,但為了更快地獲取高分子的帶隙和介電常數,Ramprasad等基于DFT計算的帶隙和介電常數,構建了通過輸入高分子結構預測帶隙和介電常數的機器學習模型[43]. 利用這個模型,避免了高代價的DFT計算,節(jié)省了時間,使更大介電高分子結構空間的探索成為可能:隨著“基因”個數增加(從4增加到8,9)時,介電高分子結構空間將呈指數形式增加(理論上存在的化學結構從2401個增加到78個,79個),此時用DFT計算所有結構的性能是不切實際的,但利用機器學習建立的預測模型仍能在短時間內完成對結構空間中任意結構的性能預測. 為了更快獲得最優(yōu)結構,Ramprasad等還引入了用于搜索最優(yōu)解的遺傳算法. 遺傳算法是模擬生物在自然選擇和遺傳變異下實現不斷進化的算法[44]. Ramprasad等將預測模型作為性能預測工具,將遺傳算法作為篩選工具,從多個隨機的結構開始,先預測性能并篩選出較為優(yōu)異的結構,運用遺傳算法“遺傳變異”出可能更優(yōu)秀的結構,再對這些“遺傳變異”出的結構進行性能預測、篩選和“遺傳變異”的迭代(如圖5(a)). 通過多次的“遺傳變異”和篩選的迭代,Ramprasad等快速篩選出了含“基因”個數為8、9、10、11和12時各自的最佳“基因”組合(如圖5(b)). 雖然這些最佳“基因”組合還有待進一步實驗合成和表征,但根據Ramprasad等在之前工作的成功實例,這些新的“基因”組合仍有被關注和研究的價值.

  

Fig. 5  (a) The steps involved in the genetic algorithm (GA) approach leading to direct design of polymers. (b) The exponential increase in total polymer possibilities for increasing number of repeating blocks, and the simultaneous decrease in the percentage of points to be explored till success. Also shown are one optimal polymer each for each case for a target dielectric constant and bandgap of 5 and 5 eV, respectively. (Reprinted with permission from Ref.?[43]; Copyright (2016) Nature Publishing Group).


在設計固態(tài)高分子電解質方面,Wang等提出了將粗粒化MD與機器學習結合的策略[45]. Wang等先將高分子的化學結構(全原子模型)轉化為粗?;P?如圖6中①→②),再通過粗粒化MD模擬計算當前模擬體系中Li離子傳導率;接著,通過貝葉斯優(yōu)化找出Li離子傳導率更優(yōu)的粗粒化模型. 利用這種“計算傳導率-尋找更優(yōu)模型”的循環(huán)迭代,最終獲得性能最佳的粗粒化模擬體系及其對應的粗?;瘏?如圖6中②→③). 相較于全原子MD模擬計算Li離子傳導率,此策略所用的粗?;疢D模擬,不僅縮短了計算的時間,降低了計算代價,還巧妙地用多個可連續(xù)變化的粗?;瘏到M代表高分子的化學結構,將離散的自變量(化學結構)轉化為連續(xù)的自變量(如陰離子半徑、離子間相互作用強度、離子與高分子間相互作用強度等),為引入貝葉斯優(yōu)化尋找最佳結構提供了基礎.以粗?;疢D模擬作為計算工具,以貝葉斯優(yōu)化作為篩選工具,Wang等高效地探索了最佳Li離子電導率對應的各項參數. 雖然能將全原子模型轉化為粗?;P?,但是目前技術仍難以利用已知的粗粒化參數反向推導出對應的全原子模型(高分子的化學結構). 因此,受限于當前技術,Wang等的方法無法直接獲得高Li離子電導率的固態(tài)高分子電介質材料結構,但這種策略下獲得的最佳粗?;瘏等匀荒荛g接為固態(tài)高分子電介質材料的結構設計和合成提供參考和借鑒.

  

Fig. 6  Illustration of the coarse-grained molecular dynamics―Bayesian optimization (CGMD-BO) framework. Materials design starts with the coarse-graining process to transform the conventional chemical species space to a continuous space composed of CG parameters (①→②). This space is then explored by BO-guided CGMD simulations in iterations to predict the relationships between the transport properties and the associated CG parameters (②→③). (Reprinted with permission from Ref.?[45]; Copyright (2020) American Chemical Society).


Oyaizu等則在設計固態(tài)高分子電解質方面采取了更傳統(tǒng)的機器學習策略[46]. 他們先從250篇文獻中提取出導電鋰離子固體高分子電解質數據,再利用高斯過程回歸尋找已知數據中關鍵因素(如化學結構、組分比例和測試溫度)與離子電導率之間的潛在關系,從而獲得機器學習預測電導率的模型. 然而,由于高斯過程回歸的計算代價較大,如何將包含高分子各項信息的2000個分子描述符轉化為能正確反映高分子的特征信息且維度又盡可能小的輸入向量成為訓練機器學習模型的關鍵. Oyaizu等先利用門控圖神經網絡訓練了一個從化學結構出發(fā)預測2000種分子描述符的分子識別模型,通過分子識別模型提取出能代表2000種分子描述符的32維向量,完成了將輸入向量從2000維度降維至32維度的降維操作. 將此32維向量作為接下來高斯過程回歸的輸入值,通過大量數據的訓練,最終建立了預測電導率的機器學習模型(圖7). 以此模型為計算工具,對擬研究的所有高分子電介質進行電導率計算和篩選,Oyaizu等發(fā)現并證實:(1)由聚苯硫醚(PPS)衍生物和芳香族氧化劑組成的混合物能運輸Li離子(>10-4 S/cm). (2)二甲基取代的PPS(PMPS)是一種同時具備高電導率、易加工性能和高玻璃化轉變溫度(Tg>150 ℃)等優(yōu)異性能的高分子.傳統(tǒng)認知表明,PPS是絕緣工程塑料,只有電荷轉移復合物電介質的Tg應該盡可能低,才能使材料在應用條件下保持橡膠態(tài). 然而,Oyaizu等提出了反傳統(tǒng)認知的結論卻得以證實,這表明在材料基因組中運用機器學習技術能夠擺脫人類從經驗上獲得的偏見,更客觀理性地探索材料結構空間,找出在研發(fā)過程中被忽視的新結構、新材料.

  

Fig. 7  Scheme for predicting properties of the solid polymer electrolytes by AI. Oyaizu pretrained graph neural net to predict 2000 molecular descriptors with only 32-dimensional vectors. And then the relationship between the composite information (32-dimensional vectors) and its conductivity was trained by a Gaussian process model. (Reprinted with permission from Ref.?[46]; Copyright (2020) American Chemical Society).


環(huán)氧樹脂因其巨大的商業(yè)價值而備受關注[47,48],但由于其多組分的特性和廣泛的應用場景,往往需要反復嘗試才有可能找到滿足應用場景的最佳配方. 由此可見,材料基因組在環(huán)氧樹脂領域極具發(fā)揮空間和商業(yè)價值. Tao等利用MD模擬了30個組分相同但配比不同的環(huán)氧樹脂體系,以模擬計算獲得的性能數據作為原始數據,訓練反向傳播神經網絡,最終獲得了通過輸入組分比例預測環(huán)氧樹脂Tg、楊氏模量E、極限抗拉強度UTS和伸長率δ的預測模型[49]. 運用此模型,Tao等獲得了雙酚A縮水甘油醚(DGEBA)/二氨基二苯甲烷四縮水甘油胺(TGDDM)/雙氰胺(DICY)/4,4-二氨基二苯砜(DDS)/聚醚砜(PES)/聚醚酰亞胺(PEI)六組分的最佳比例,并發(fā)現了各組分對性能的影響規(guī)律:DDS比DICY更能提高E、Tgδ;TGDDM能保證高E、Tg和UTS,但仍需要DGEBA提供韌性;PES能顯著增強韌性. 近期,Tao等用該策略,篩選出了同時具備優(yōu)異力學性能和高自愈合效率的環(huán)氧配方[50],表明了這種策略的可拓展性和應用潛力.

高分子膜是膜分離領域被廣泛研究和使用的材料[51]. 滲透性和選擇性是分離膜最重要的兩項性質,但經驗表明兩者相互矛盾,呈現負相關. 為了平衡滲透性和選擇性,獲得高滲透性和高選擇性的氣體分離高分子膜,Kumar等用分子指紋表示高分子化學組成和拓撲結構,利用搜集到的500~1000個不同氣體(N2,O2,H2,He,CH4,CO2) 對不同高分子的滲透率數據,訓練了高斯過程回歸模型,架構起了高分子與其對不同氣體的滲透率之間的關系[52]. 通過機器學習模型對高分子結構空間的探索(如圖8(a)),Kumar等成功發(fā)現并合成了2種分離性能優(yōu)異的新型PI材料(P4320902,P432095,如圖8(b)). 氣體分離實驗表明,P4320902和P432095的CO2/CH4氣體分離性能突破了現有材料的上限.

  

Fig. 8  (a) Polymer candidates for advanced CO2/CH4 gas transport performance identified through ML and their experimental performance. The predicted locations for two potential high-performance polymers are marked with colored crosses?―?the measured experimental values are denoted with colored dots. (b) Molecular structures of two potential high-performance polymers. (Reprinted with permission from Ref.[52]; Copyright (2020) American Association for the Advancement of Science).


Li等為了獲得性能更優(yōu)異的高分子燃料電池用高分子質子交換膜材料,從約2800篇關于磺化質子交換膜的報道中挖掘數據,記錄或計算了描述磺化質子交換膜的各項特征(如親水單體的比例、相對濕度、離子交換能力、測試溫度、各類分子描述符等) [53]. 為了提高機器學習模型的泛化能力,用盡可能少的特征作為機器學習的輸入,Li等刪除特征中的冗余和噪聲,并利用遺傳算法改進的隨機森林算法進行特征優(yōu)化. 通過對模型的訓練,他們建立了用于預測質子電導率、Td5、甲醇透過率和拉伸模量的性能預測模型和分類模型. 利用性能預測模型,他們探索了由166個親水單體和175個疏水單體組合形成的化學結構空間,發(fā)現了2838個在80 ℃下整體性能超過Nafion 117的新型共聚物.

之后,Li等將研究焦點擴展到高分子過濾膜性能的預測和分類[54]. 從約2700篇關于高分子膜的文獻中挖掘出了1895條用于機器學習的實驗數據. 利用類似的策略,他們建立了用于預測高分子膜透水性、選擇性和交換率的性能預測模型以及識別高分子膜分離能力的分類模型. 此外,他們發(fā)現將實驗上的結構信息(例如孔隙率、厚度、接觸角等等)作為特征輸入能進一步提高性能預測模型的準確性. Li等的工作為開發(fā)新型高性能高分子膜提供了便利的工具.

Zubarev等提出了一種反向設計聚酯和聚碳酸酯的方法,即將高分子性能反向映射到高分子結構上形成一對多的映射方式,直接通過所需性能要求找到所有符合要求的高分子及其合成條件[55]. 他們以單體和引發(fā)劑作為一種節(jié)點,以催化劑和助催化劑作為另一種節(jié)點(如圖9(a)),再以設計需求(單體轉化率或分散性)為鏈接兩種節(jié)點的“邊”(如圖9(b)),將實驗合成條件和性能數據轉化為“實驗知識譜圖”. 其中,單體和引發(fā)劑節(jié)點還包含初始單體濃度和初始單體/引發(fā)劑摩爾比數據(如圖9(c)). 根據歷史數據和經驗,Zubarev等獲得了35000種實驗條件組合空間. 根據已知數據,將不滿足單體轉化率要求的實驗條件組合的“邊”設定為0(即淘汰),滿足單體轉化率要求的“邊”設定為1(即保留),未知其單體轉化率的“邊”設定為0.5(即待定),利用node2vec和隨機森林分類方法判斷未知其單體轉化率的實驗條件組合是否應該保留,最終獲得滿足設計需求的實驗條件組合. 相較于正向設計,這種逆向設計雖然不能預測高分子性能,但能直接給出滿足設計需求且合成上可行的高分子,既減少了時間和計算成本,又規(guī)避了Ramprasad等遇到的最佳高分子合成困難的問題.

  

Fig. 9  Transformation of the "experiment knowledge graph" (eKG) into a network that links prediction via representation learning. (a) Simplified resource description framework (RDF) graph where the nodes of the experimental parameters (objects) are collapsed forming bundles and the categorical value of the measured property is treated as a subject. The same procedure applies to MC (shown) and ? (not shown). (b) RDF triples are transformed into a bipartite graph, where nodes representing bundled experimental parameters (RDF objects) are directly connected to each other via a link; the value of the measured property (RDF subject) is assigned to the link as an attribute. (c) A RDF graph constructed from the relational database of the experimental parameters and outcomes (not shown). Continuous experimental parameters and measured properties are converted into categorical values via binning. Dashed outlines show the patterns of node collapse. (Reprinted with permission from Ref.[55]; Copyright (2020) American Chemical Society).


Zubarev等還探究了建立小數據預測模型的方法[56]:(1)將有限的原始數據反復分成訓練集和測試集,獲得10組訓練集/測試集組合. (2)對每個組訓練集進行50次有放回抽樣,每個放回抽樣集包含30個有效數據. (3)每個放回抽樣集被用來訓練10個包含聚類和回歸模型的監(jiān)督自組織映射模型(SUSI),每個SUSI都由隨機的訓練集數據初始化. (4)利用測試集對所有SUSI模型進行評價. (5)保留每一組訓練集/測試集組合中最好的10個SUSI模型,將總共100個的SUSI模型作為一個大集合. (6)利用大集合預測新型高分子的Tg,并以所有模型預測值的平均值作為最終Tg的預測值. 通過這一策略Zubarev等只使用了23個PI實驗數據就建立了能預測Tg的模型,并利用這一模型探索了由13個二胺和8個二酐(二酐和二胺皆出自23個PI結構)組成的PI結構空間,發(fā)現并合成了3種新型PI. 3種PI的Tg預測值(分別是273、311和335 °C)與Tg實際值(分別是282、281和331 °C)吻合較好.

表2為上述機器學習工作的簡單總結. 由表可知,利用機器學習模型篩選高分子材料的方式主要分為2種:(1)與理論計算和模擬技術結合,對計算數據進行學習,用已訓練完成的機器學習模型代替理論計算和模擬,將預測新材料性能所耗費的時間從幾小時甚至數天(計算模擬所需時間)縮短至幾秒甚至毫秒(運行模型代碼所需時間)級別. (2)用可靠的實驗數據訓練機器學習模型,從而獲得能直接預測材料宏觀性能的機器學習模型.

Table 2  Summary of machine learning enhanced material genome approach.
ExampleKey pointsRef.
1The train set is calculated by DFT. However, bandgap and dielectric constant are predicted by the machine learning predictive model instead of DFT.[43]
2Integrate coarse-grained molecular dynamics with machine learning.[45]
3The chemical design screened by AI is contrary to the common sense of rubbery polymer electrolytes.[46]
4The train set is calculated by fully atomistic molecular dynamics simulation. However, the performance of epoxy resin is predicted by machine learning models instead of simulation.[49]
5Two of the most promising polymer membranes predicted by this machine learning model exceeded the upper bound for CO2/CH4 separation performance.[52]
6Find 2838 novel copolymers that have better overall performance than Nafion 117 for fully hydrated membranes at 80 ℃ by machine learning models.[53]
7Provide regression models to facilitate the development of advanced filtration membranes for public use.[54]
8Use machine learning models to predict polymerization experiments that are likely to produce materials with targeted properties rather than predict the properties of polymers.[55]
9Train machine learning models by small data.[56]

運用機器學習模型篩選高分子材料具有預測準確度高,預測過程方便快捷,方法泛用性強,無偏見等優(yōu)點. 這些優(yōu)勢完美契合材料基因組對材料設計篩選過程中的需求. 想要獲得可靠且準確的機器學習模型,必須依賴可靠、完備且龐大的數據,然而高分子的實驗數據來源分散、測試參數各異、性能種類不完備,這導致研究者在所研究的高分子領域中有較大可能遇到可靠數據規(guī)模較小的不利情況. 由此可見,高分子數據質量參差不齊已成為機器學習方法在高分子材料基因組中應用的最大障礙. 目前,相關的研究往往需要研究者手動收集文獻和公開數據庫中的實驗數據,當面對實驗數據較為稀少的材料性能和材料類別時需要研究者運用DFT、MD模擬等方法計算大量該材料的理論數據,將其作為進一步機器學習的訓練數據.

機器學習在高分子材料基因組中雖然已有個別應用,但整體上仍然停留在構建適用于高分子領域的機器學習階段. 例如:Olsen等在已有的SMILES基礎上開發(fā)了專為描述高分子結構的表達系統(tǒng)(BigSMILES) [35],Ponzoni等為探索高分子領域如何選擇合適的特征作為模型的輸入,分別使用特征選擇法和特征學習法進行特征的選擇并對預測斷裂拉伸強度模型進行訓練,最終發(fā)現兩種方法相結合的預測模型效果最佳[38]. 此外,還有探索小數據機器學習的可行方案[56~58],追求更高準確性的機器學習預測模型[59~61]之類的基礎性工作. 但是,大部分的研究并未繼續(xù)深入,沒有將通過機器學習預測模型篩選出的高分子結構付諸實驗合成和驗證. 相信在解決了阻礙應用的各種問題后(如數據質量、數據特征選擇、機器學習算法選擇、合成可行性等),機器學習必然會在高分子材料基因組中發(fā)揮重要的作用.

3 總結與展望

3.1 高分子材料基因組現狀和挑戰(zhàn)

在高分子領域,運用材料基因組設計篩選新型高分子材料仍然是前沿領域,有待科研人員進一步探索和完善. 隨著理論和技術的進步,通過計算機提前預測高分子的各項性能已成為可能. 材料基因組合與高分子理論、計算模擬技術和基于數據驅動的人工智能等相結合,高通量設計篩選新型高分子材料的材料研發(fā)方式已取得初步成效. 特別是在面對2種或2種以上相互制約彼此矛盾的性能時,相較于傳統(tǒng)實驗試錯法,基于材料基因組的高分子材料設計篩選在成本和時間上凸顯優(yōu)勢.

高分子材料基因組仍然處于起步階段,有很多問題亟待解決. 目前,在面對難以計算或預測的宏觀性能時,往往用易于計算的特征量替代高代價的宏觀性能計算,但這種策略在一定程度上降低了結果的準確性. 此外,雖然無論是第一性原理密度泛函理論還是分子動力學模擬,其計算代理量所消耗的時間都遠小于實驗合成、表征所需時間,但是當面對海量高分子代理量計算需求時,時間成本仍是限制研究者進一步探索更大化學結構空間的主要原因.

一旦機器學習預測模型訓練完成,利用預測模型進行材料特征量或性能的預測是一條耗時短、結果準確的途徑. 但這條途徑中最大問題是如何為機器學習預測模型的訓練提供來源可靠且數據量足夠大的高質量數據集. 由于高分子材料的分子結構、聚集態(tài)結構、加工方式和測試條件的不同都將影響材料性能,而文獻中的數據質量參差不齊,個別數據甚至存在空缺,因此用于機器學習的高分子材料性能數據庫往往難以得到格式統(tǒng)一且量大、可靠的性能數據. 這種可靠數據的匱乏阻礙了機器學習模型準確性和泛化能力的提升.

此外,由于高分子材料基因組所能探索的結構空間遠大于已有的實驗合成經驗空間,容易篩選出難以合成的高分子結構. 因此,在理性設計過程中,需要進一步考慮合成的便宜性,優(yōu)化篩選條件并與已有的實驗合成經驗有機結合,或者創(chuàng)建基于機器學習的高分子合成路徑預測方法,在篩選出高分子結構的同時預測合理的合成路徑.

3.2 高分子材料基因組對高分子領域的反哺

高分子材料基因組不僅提出了高效的高分子材料研發(fā)新模式,而且對傳統(tǒng)高分子科學的認知和材料基因組的擴展具備重要的意義.

在利用高分子材料基因組挖掘優(yōu)秀新型材料的過程中,對篩選結果進行“基因分析”即可獲得“基因”(通常為基團或原子)與宏觀性能之間的關系. 這些或正相關、或負相關的關系既能充實高分子領域第一范式,提高實驗試錯法的效率,又能加深對高分子化學結構和宏觀性能關系的認識.

除了對篩選結構“基因”分析外,機器學習本身也可能為我們帶來新的認知. 在高分子材料基因組中,利用機器學習模型預測高分子性能本質上是一個以數學角度而非化學角度出發(fā),以唯象的方式預測高分子性能的“黑匣子”. 這種“黑匣子”過程由于不受已有的高分子理論的束縛,最終可能篩選獲得違背已有認知的“反常”高分子結構. 這些被篩選出的高性能“反?!苯Y構有可能成為高分子理論新的突破口. 另一方面,利用物理學等專業(yè)知識對機器學習(特別是深度學習)的“黑匣子”過程進行解釋性研究,理清“黑匣子”內部運作的因果關系,有助于理解性能變化的規(guī)律[62].

高分子材料基因組的發(fā)展不僅對高分子領域有重要意義,對于材料基因組這一新的材料研發(fā)模式也具備重要意義. 高分子領域具有眾多金屬、無機非金屬和有機小分子領域沒有的特征,如高分子鏈結構、鏈構象、多分散性、高分子結晶特征、高分子微相結構和亞穩(wěn)態(tài)結構等,目前對高分子材料基因組的研究仍未達到能全面包含這些特性的階段,因此進一步發(fā)展高分子材料基因組將有效拓展材料基因組的應用范圍,是對現有材料基因組的有益補充和拓展.

3.3 高分子材料基因組的發(fā)展方向

根據當前材料基因組在高分子材料方面的發(fā)展情況,我們展望了未來的發(fā)展重點.

(1) 實現高通量實驗:通過高通量實驗一次性獲得批量樣品將是一條行之有效且極具潛力的篩選途徑. 不同于利用計算機“虛擬合成與表征材料”的特征代理量篩選法和機器學習法,利用高通量實驗設備在短時間內合成大批量的高分子,并利用高通量表征技術快速便捷地獲得所有高分子性能數據的高通量實驗法不僅能從數量龐大的高分子結構中篩選出符合性能要求的新型材料,而且能為機器學習提供大量可靠的實驗數據. 高通量制備技術已在金屬領域取得了系統(tǒng)性的發(fā)展,但在高分子領域還比較零散、不成體系. 目前,已報道的高通量高分子合成方法如自動并行合成器、微波合成器和噴墨打印機等. Ehm等成功利用商業(yè)化的自動并行合成器——平行壓力反應器48(PPR48)實現烯烴聚合催化劑的高通量篩選[63]. Zhang等則成功利用自己設計的設備對甲基丙烯酸甲酯原子轉移自由基聚合法催化體系的參數進行高通量篩選和優(yōu)化[64]. 此外,Ducker等則利用微波多肽合成器高通量改性硅表面性質[65]. 相較于高通量制備技術,高通量的表征技術發(fā)展緩慢,如高通量成分與結構表征技術、高通量熱力學表征技術、高通量力學表征技術、高通量光學表征技術等,但其作為高通量制備技術的配套技術,對于提高材料研發(fā)的整體效率意義重大.不同于高通量制備技術,高通量表征技術可以模糊材料的界限,應用于金屬和無機非金屬材料的高通量表征技術可以較為容易的拓展到高分子領域,因此高分子研究者可大力借鑒金屬和無機非金屬材料的高通量表征技術.

(2) 進一步發(fā)展特征量代替宏觀性能的策略:一方面尋找更多能代理宏觀性能的特征量,從而將更多宏觀性能納入高分子材料基因組的適用范圍內,如耐溶劑性、耐磨性、抗沖擊性、相容性等等;另一方面引入更快速、便捷的方法計算特征量,例如基團貢獻法、分子連接指數法和機器學習等等.

(3) 進一步發(fā)展包含性能更廣且預測更準確的高分子材料宏觀性能機器學習預測模型:目前,機器學習預測模型往往只針對特定類型高分子的特定性能,而限制機器學習在高分子材料基因組中更廣泛應用的是可靠數據的匱乏. 因此,通過建立完善規(guī)范的高分子材料性能數據庫擴大有效數據量或發(fā)展利用小數據進行機器學習的策略,從而建立能預測更多性能且更準確的性能預測模型將是機器學習在高分子材料基因組中未來發(fā)展的方向.

(4) 發(fā)展基于機器學習高分子逆向設計策略:與正向設計將材料結構參數映射到性能上獲得性能預測模型不同,逆向設計是將材料的性能映射到材料結構參數上獲得逆向模型. 在實際的材料設計和工程應用環(huán)節(jié),最重要的是滿足工程對材料性能的要求. 因此,相較于正向設計,逆向設計作為從性能出發(fā)獲得材料結構的面向性能的設計更適合于工程領域.


關鍵字:優(yōu)秀論文

網絡客服QQ: 沈編輯

投訴建議:0373-5939925????投訴建議QQ:

招聘合作:2851259250@qq.com (如您是期刊主編、文章高手,可通過郵件合作)

地址:河南省新鄉(xiāng)市金穗大道東段266號中州期刊聯盟 ICP備案號:豫ICP備2020036848

【免責聲明】:中州期刊聯盟所提供的信息資源如有侵權、違規(guī),請及時告知。

版權所有:中州期刊聯盟(新鄉(xiāng)市博翰文化傳媒有限公司)

關注”中州期刊聯盟”公眾號
了解論文寫作全系列課程

核心期刊為何難發(fā)?

論文發(fā)表總嫌貴?

職院單位發(fā)核心?

掃描關注公眾號

論文發(fā)表不再有疑惑

論文寫作全系列課程

掃碼了解更多

輕松寫核心期刊論文

在線留言