高分子材料基因組——高分子研發(fā)的新方法
新材料是高新科技和高端制造業(yè)發(fā)展的基石,而工業(yè)技術的不斷發(fā)展對材料性能提出了越來越高的要求. 但是,新材料的研發(fā)往往滯后,無法及時滿足應用要求. 為了加快材料研發(fā),結合現有的實踐經驗,2011年,研究者提出了新的材料研發(fā)模式——材料基因組. 我國科技部于2015年啟動了“材料基因工程關鍵技術與支撐平臺”,重點扶持材料基因組的研究[
截至目前,材料科學研究先后經歷了經驗驅動、理論驅動、計算驅動和大數據驅動等4種范式,如
Fig. 1 The four paradigms of science: empirical, theoretical, computational, and data-driven.
與實驗試錯法不同,材料基因組的研發(fā)模式通過“數據技術-理性設計-實驗驗證”有機結合,顯著提高新材料研發(fā)效率. 其中,材料的理性設計是研發(fā)新材料的關鍵,也是研究者著重關注的領域. 相較于基于研究者經驗和直覺的傳統(tǒng)實驗試錯法,基于材料基因組思想的理性設計通過結合各種性能預測方法和仿真模擬,能更快速地探索更廣闊的材料結構空間并以定量的方式比較不同材料的性能,從而無偏見地篩選出未曾被發(fā)現或被人忽視的結構. 基于材料基因組思想的理性設計和實驗驗證由3部分組成(如
Fig. 2 Procedures developed for the design and screening.
“基因”的定義與所研究的材料的特點緊密相連,是整個材料基因組的基礎,“基因”的選擇與后續(xù)合成的便宜性密切相關.性能預測與高通量篩選則是整個理性設計過程中的核心和關鍵. 對“虛擬材料”的高通量性能預測(表征)目前大致分為4種方法:(1)通過數據挖掘尋找能代理性能的特征量,或者通過機器學習構建預測模型. (2)發(fā)展多尺度的模擬方法,從分子結構出發(fā)預測材料性能. (3)基于新興計算機技術,如GPU(圖形處理器)和NPU(嵌入式神經網絡處理器)提升運算能力,獲得高通量模擬計算方法. (4)發(fā)展高通量實驗技術,研發(fā)高通量實驗設備,實現對材料的高通量合成和表征.
雖然目前已有很多成熟方法能夠模擬特定尺度上材料的結構和性能,但由于材料在不同尺度上的關聯并不明確,構建多尺度模擬方法仍然是一個巨大挑戰(zhàn). 高通量實驗涵蓋高通量制備技術和高通量表征技術,是對已有實驗技術和表征手段加以改進和利用,實現一次性批量樣品制備和一次性批量樣品表征. 它不僅可以突破傳統(tǒng)試錯法研究框架,實現材料高效制備,而且可以短時間內獲取大量實驗樣品并表征性能,為數據挖掘和機器學習提供數據支撐. 自1970年Hanak采用多成分拼接共濺射方法制備二元和三元超導材料后,高通量制備技術快速發(fā)展,但主要集中在金屬領域[
材料基因組已經成功應用在高性能合金材料[
本文將介紹性能預測方法之一——“通過數據挖掘尋找能代理性能的特征量或機器學習構建預測模型”在突破高分子復雜性對材料基因組約束,實現理性設計高分子材料上的進展. 本文分3部分,前兩部分分別介紹利用代理量方法和機器學習模型篩選高分子材料的進展,最后探討高分子材料基因組的主要發(fā)展方向和所面臨的主要挑戰(zhàn).
1 利用代理量方法篩選高分子材料
從理論計算和模擬出發(fā),直接構建材料結構和宏觀性能之間的構效關系仍然是一個巨大的挑戰(zhàn). 基于此困境,提取能代表所需性能/性質的、可計算的微觀或宏觀特征量作為性能代理量,將無法通過理論計算獲得準確值的宏觀性能轉化為可計算的代理量,并通過代理量的比較來篩選獲得高性能高分子材料不失為一種合理的策略.
例如:隨著工業(yè)不斷發(fā)展,對高能量密度電容器的需求越來越旺盛,對電介質材料的性能要求也越來越高. 相較于陶瓷材料,高分子材料成本更低,柔韌性更好,已成為廣泛使用的商用電介質材料. 然而,高分子材料的介電常數較小,仍有改進的空間. Ramprasad等用密度泛函理論(DFT)容易計算的高分子帶隙替代難以計算的擊穿電壓和介電損耗,并以密度泛函微擾理論(DFPT)和等效介質理論計算獲得的理論介電常數替換宏觀介電常數,篩選高分子電介質材料 [
此外,Ramprasad等利用相同策略[
Zhu等開展了含硅芳炔樹脂(PSA)方面的設計工作[
Fig. 3 Screening approach for the rapid design of heat-resistant silicon-containing arylacetylene resins (Reprinted with permission from Ref.[
除了固化放熱焓,PSA韌性欠佳的缺點也限制了PSA的進一步應用[
Fig. 4 (a) Plots of elongation at break (red circles) and flexural strength (blue squares) against K/G. Heat maps of (b) Td50 values, (c) K/G values, and (d) weighted-average values for various gene combinations. The colors from purple to red correspond to the values from low to high. In (d), the shadow rectangle circled by a black dotted line represents the screened ATPI. (e) Molecular structure of the screened ATPI. (Reprinted with permission from Ref.?[31]; Copyright (2020) American Chemical Society).
除了設計用于增韌的PI樹脂,張宋奇等還利用材料基因組概念提出了用于篩選耐熱且易加工的熱固性PI樹脂材料的策略[
Example | Key points | Ref. |
---|---|---|
1 | Use band gap and dielectric constant that are calculated by DFT to represent dielectric properties. | [ |
2 | Find the potential of organo-Ge and organo-Sn based polymers which are neglected. | [ |
3 | Use bond dissociation energy and energy bandgap which are calculated by DFT to represent thermal properties and curing properties. | [ |
4 | Use Td50 and K/G which are calculated by the molecular connectivity index to represent thermal properties and toughness. | [ |
5 | Use Td50, energy bandgap, and viscosity that are calculated by the molecular connectivity index and DFT to represent thermal properties, reaction activity, and processability. | [ |
2 利用機器學習模型篩選高分子材料
作為多門學科相互交叉結合的產物,高分子材料基因組不僅需要材料領域的科研人員,也需要信息學領域的研究人員參與. 作為信息學中的一個重要分支,機器學習試圖從歷史數據中挖掘潛在規(guī)律,并對未知數據進行預測、推斷或分類,是滿足材料基因組對預測性能和高通量篩選需求的另一途徑[
雖然研究者已利用代理量法發(fā)掘不少具有潛力的新型高分子材料,但為了更快地獲取高分子的帶隙和介電常數,Ramprasad等基于DFT計算的帶隙和介電常數,構建了通過輸入高分子結構預測帶隙和介電常數的機器學習模型[
Fig. 5 (a) The steps involved in the genetic algorithm (GA) approach leading to direct design of polymers. (b) The exponential increase in total polymer possibilities for increasing number of repeating blocks, and the simultaneous decrease in the percentage of points to be explored till success. Also shown are one optimal polymer each for each case for a target dielectric constant and bandgap of 5 and 5 eV, respectively. (Reprinted with permission from Ref.?[43]; Copyright (2016) Nature Publishing Group).
在設計固態(tài)高分子電解質方面,Wang等提出了將粗粒化MD與機器學習結合的策略[
Fig. 6 Illustration of the coarse-grained molecular dynamics―Bayesian optimization (CGMD-BO) framework. Materials design starts with the coarse-graining process to transform the conventional chemical species space to a continuous space composed of CG parameters (①→②). This space is then explored by BO-guided CGMD simulations in iterations to predict the relationships between the transport properties and the associated CG parameters (②→③). (Reprinted with permission from Ref.?[45]; Copyright (2020) American Chemical Society).
Oyaizu等則在設計固態(tài)高分子電解質方面采取了更傳統(tǒng)的機器學習策略[
Fig. 7 Scheme for predicting properties of the solid polymer electrolytes by AI. Oyaizu pretrained graph neural net to predict 2000 molecular descriptors with only 32-dimensional vectors. And then the relationship between the composite information (32-dimensional vectors) and its conductivity was trained by a Gaussian process model. (Reprinted with permission from Ref.?[46]; Copyright (2020) American Chemical Society).
環(huán)氧樹脂因其巨大的商業(yè)價值而備受關注[
高分子膜是膜分離領域被廣泛研究和使用的材料[
Fig. 8 (a) Polymer candidates for advanced CO2/CH4 gas transport performance identified through ML and their experimental performance. The predicted locations for two potential high-performance polymers are marked with colored crosses?―?the measured experimental values are denoted with colored dots. (b) Molecular structures of two potential high-performance polymers. (Reprinted with permission from Ref.[
Li等為了獲得性能更優(yōu)異的高分子燃料電池用高分子質子交換膜材料,從約2800篇關于磺化質子交換膜的報道中挖掘數據,記錄或計算了描述磺化質子交換膜的各項特征(如親水單體的比例、相對濕度、離子交換能力、測試溫度、各類分子描述符等) [
之后,Li等將研究焦點擴展到高分子過濾膜性能的預測和分類[
Zubarev等提出了一種反向設計聚酯和聚碳酸酯的方法,即將高分子性能反向映射到高分子結構上形成一對多的映射方式,直接通過所需性能要求找到所有符合要求的高分子及其合成條件[
Fig. 9 Transformation of the "experiment knowledge graph" (eKG) into a network that links prediction via representation learning. (a) Simplified resource description framework (RDF) graph where the nodes of the experimental parameters (objects) are collapsed forming bundles and the categorical value of the measured property is treated as a subject. The same procedure applies to MC (shown) and ? (not shown). (b) RDF triples are transformed into a bipartite graph, where nodes representing bundled experimental parameters (RDF objects) are directly connected to each other via a link; the value of the measured property (RDF subject) is assigned to the link as an attribute. (c) A RDF graph constructed from the relational database of the experimental parameters and outcomes (not shown). Continuous experimental parameters and measured properties are converted into categorical values via binning. Dashed outlines show the patterns of node collapse. (Reprinted with permission from Ref.[
Zubarev等還探究了建立小數據預測模型的方法[
Example | Key points | Ref. |
---|---|---|
1 | The train set is calculated by DFT. However, bandgap and dielectric constant are predicted by the machine learning predictive model instead of DFT. | [ |
2 | Integrate coarse-grained molecular dynamics with machine learning. | [ |
3 | The chemical design screened by AI is contrary to the common sense of rubbery polymer electrolytes. | [ |
4 | The train set is calculated by fully atomistic molecular dynamics simulation. However, the performance of epoxy resin is predicted by machine learning models instead of simulation. | [ |
5 | Two of the most promising polymer membranes predicted by this machine learning model exceeded the upper bound for CO2/CH4 separation performance. | [ |
6 | Find 2838 novel copolymers that have better overall performance than Nafion 117 for fully hydrated membranes at 80 ℃ by machine learning models. | [ |
7 | Provide regression models to facilitate the development of advanced filtration membranes for public use. | [ |
8 | Use machine learning models to predict polymerization experiments that are likely to produce materials with targeted properties rather than predict the properties of polymers. | [ |
9 | Train machine learning models by small data. | [ |
運用機器學習模型篩選高分子材料具有預測準確度高,預測過程方便快捷,方法泛用性強,無偏見等優(yōu)點. 這些優(yōu)勢完美契合材料基因組對材料設計篩選過程中的需求. 想要獲得可靠且準確的機器學習模型,必須依賴可靠、完備且龐大的數據,然而高分子的實驗數據來源分散、測試參數各異、性能種類不完備,這導致研究者在所研究的高分子領域中有較大可能遇到可靠數據規(guī)模較小的不利情況. 由此可見,高分子數據質量參差不齊已成為機器學習方法在高分子材料基因組中應用的最大障礙. 目前,相關的研究往往需要研究者手動收集文獻和公開數據庫中的實驗數據,當面對實驗數據較為稀少的材料性能和材料類別時需要研究者運用DFT、MD模擬等方法計算大量該材料的理論數據,將其作為進一步機器學習的訓練數據.
機器學習在高分子材料基因組中雖然已有個別應用,但整體上仍然停留在構建適用于高分子領域的機器學習階段. 例如:Olsen等在已有的SMILES基礎上開發(fā)了專為描述高分子結構的表達系統(tǒng)(BigSMILES) [
3 總結與展望
3.1 高分子材料基因組現狀和挑戰(zhàn)
在高分子領域,運用材料基因組設計篩選新型高分子材料仍然是前沿領域,有待科研人員進一步探索和完善. 隨著理論和技術的進步,通過計算機提前預測高分子的各項性能已成為可能. 材料基因組合與高分子理論、計算模擬技術和基于數據驅動的人工智能等相結合,高通量設計篩選新型高分子材料的材料研發(fā)方式已取得初步成效. 特別是在面對2種或2種以上相互制約彼此矛盾的性能時,相較于傳統(tǒng)實驗試錯法,基于材料基因組的高分子材料設計篩選在成本和時間上凸顯優(yōu)勢.
高分子材料基因組仍然處于起步階段,有很多問題亟待解決. 目前,在面對難以計算或預測的宏觀性能時,往往用易于計算的特征量替代高代價的宏觀性能計算,但這種策略在一定程度上降低了結果的準確性. 此外,雖然無論是第一性原理密度泛函理論還是分子動力學模擬,其計算代理量所消耗的時間都遠小于實驗合成、表征所需時間,但是當面對海量高分子代理量計算需求時,時間成本仍是限制研究者進一步探索更大化學結構空間的主要原因.
一旦機器學習預測模型訓練完成,利用預測模型進行材料特征量或性能的預測是一條耗時短、結果準確的途徑. 但這條途徑中最大問題是如何為機器學習預測模型的訓練提供來源可靠且數據量足夠大的高質量數據集. 由于高分子材料的分子結構、聚集態(tài)結構、加工方式和測試條件的不同都將影響材料性能,而文獻中的數據質量參差不齊,個別數據甚至存在空缺,因此用于機器學習的高分子材料性能數據庫往往難以得到格式統(tǒng)一且量大、可靠的性能數據. 這種可靠數據的匱乏阻礙了機器學習模型準確性和泛化能力的提升.
此外,由于高分子材料基因組所能探索的結構空間遠大于已有的實驗合成經驗空間,容易篩選出難以合成的高分子結構. 因此,在理性設計過程中,需要進一步考慮合成的便宜性,優(yōu)化篩選條件并與已有的實驗合成經驗有機結合,或者創(chuàng)建基于機器學習的高分子合成路徑預測方法,在篩選出高分子結構的同時預測合理的合成路徑.
3.2 高分子材料基因組對高分子領域的反哺
高分子材料基因組不僅提出了高效的高分子材料研發(fā)新模式,而且對傳統(tǒng)高分子科學的認知和材料基因組的擴展具備重要的意義.
在利用高分子材料基因組挖掘優(yōu)秀新型材料的過程中,對篩選結果進行“基因分析”即可獲得“基因”(通常為基團或原子)與宏觀性能之間的關系. 這些或正相關、或負相關的關系既能充實高分子領域第一范式,提高實驗試錯法的效率,又能加深對高分子化學結構和宏觀性能關系的認識.
除了對篩選結構“基因”分析外,機器學習本身也可能為我們帶來新的認知. 在高分子材料基因組中,利用機器學習模型預測高分子性能本質上是一個以數學角度而非化學角度出發(fā),以唯象的方式預測高分子性能的“黑匣子”. 這種“黑匣子”過程由于不受已有的高分子理論的束縛,最終可能篩選獲得違背已有認知的“反常”高分子結構. 這些被篩選出的高性能“反?!苯Y構有可能成為高分子理論新的突破口. 另一方面,利用物理學等專業(yè)知識對機器學習(特別是深度學習)的“黑匣子”過程進行解釋性研究,理清“黑匣子”內部運作的因果關系,有助于理解性能變化的規(guī)律[
高分子材料基因組的發(fā)展不僅對高分子領域有重要意義,對于材料基因組這一新的材料研發(fā)模式也具備重要意義. 高分子領域具有眾多金屬、無機非金屬和有機小分子領域沒有的特征,如高分子鏈結構、鏈構象、多分散性、高分子結晶特征、高分子微相結構和亞穩(wěn)態(tài)結構等,目前對高分子材料基因組的研究仍未達到能全面包含這些特性的階段,因此進一步發(fā)展高分子材料基因組將有效拓展材料基因組的應用范圍,是對現有材料基因組的有益補充和拓展.
3.3 高分子材料基因組的發(fā)展方向
根據當前材料基因組在高分子材料方面的發(fā)展情況,我們展望了未來的發(fā)展重點.
(1) 實現高通量實驗:通過高通量實驗一次性獲得批量樣品將是一條行之有效且極具潛力的篩選途徑. 不同于利用計算機“虛擬合成與表征材料”的特征代理量篩選法和機器學習法,利用高通量實驗設備在短時間內合成大批量的高分子,并利用高通量表征技術快速便捷地獲得所有高分子性能數據的高通量實驗法不僅能從數量龐大的高分子結構中篩選出符合性能要求的新型材料,而且能為機器學習提供大量可靠的實驗數據. 高通量制備技術已在金屬領域取得了系統(tǒng)性的發(fā)展,但在高分子領域還比較零散、不成體系. 目前,已報道的高通量高分子合成方法如自動并行合成器、微波合成器和噴墨打印機等. Ehm等成功利用商業(yè)化的自動并行合成器——平行壓力反應器48(PPR48)實現烯烴聚合催化劑的高通量篩選[
(2) 進一步發(fā)展特征量代替宏觀性能的策略:一方面尋找更多能代理宏觀性能的特征量,從而將更多宏觀性能納入高分子材料基因組的適用范圍內,如耐溶劑性、耐磨性、抗沖擊性、相容性等等;另一方面引入更快速、便捷的方法計算特征量,例如基團貢獻法、分子連接指數法和機器學習等等.
(3) 進一步發(fā)展包含性能更廣且預測更準確的高分子材料宏觀性能機器學習預測模型:目前,機器學習預測模型往往只針對特定類型高分子的特定性能,而限制機器學習在高分子材料基因組中更廣泛應用的是可靠數據的匱乏. 因此,通過建立完善規(guī)范的高分子材料性能數據庫擴大有效數據量或發(fā)展利用小數據進行機器學習的策略,從而建立能預測更多性能且更準確的性能預測模型將是機器學習在高分子材料基因組中未來發(fā)展的方向.
(4) 發(fā)展基于機器學習高分子逆向設計策略:與正向設計將材料結構參數映射到性能上獲得性能預測模型不同,逆向設計是將材料的性能映射到材料結構參數上獲得逆向模型. 在實際的材料設計和工程應用環(huán)節(jié),最重要的是滿足工程對材料性能的要求. 因此,相較于正向設計,逆向設計作為從性能出發(fā)獲得材料結構的面向性能的設計更適合于工程領域.
- 2025年中科院分區(qū)表已公布!Scientific Reports降至三區(qū)
- 2023JCR影響因子正式公布!
- 國內核心期刊分級情況概覽及說明!本篇適用人群:需要發(fā)南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的學者
- 我用了一個很復雜的圖,幫你們解釋下“23版最新北大核心目錄有效期問題”。
- CSSCI官方早就公布了最新南核目錄,有心的人已經拿到并且投入使用!附南核目錄新增期刊!
- 北大核心期刊目錄換屆,我們應該熟知的10個知識點。
- 注意,最新期刊論文格式標準已發(fā)布,論文寫作規(guī)則發(fā)生重大變化!文字版GB/T 7713.2—2022 學術論文編寫規(guī)則
- 盤點那些評職稱超管用的資源,1,3和5已經“絕種”了
- 職稱話題| 為什么黨校更認可省市級黨報?是否有什么說據?還有哪些機構認可黨報?
- 《農業(yè)經濟》論文投稿解析,難度指數四顆星,附好發(fā)選題!