SERVICE PHONE
363050.com发布时间:2025-10-21 18:49:27 点击量:
爱游戏,爱游戏体育,爱游戏平台,爱游戏娱乐,爱游戏官网,爱游戏官方网站,ayx爱游戏平台,爱游戏app,爱游戏体育app,爱游戏app下载,爱游戏体育官网,爱游戏体育app下载,爱游戏体育网页版近年来,计算机算力的飞速提升推动了科学计算和人工智能领域的突破性进展。这两个领域深度融合,共同催生了数据驱动的变革性科学研究范式。作为人工智能技术的代表,机器学习为材料的计算设计带来了前所未有的发展机遇,当前的应用方向主要包括性质预测、合成预测、知识发现、生成式逆向设计等。文章将简要介绍该领域的研究进展,并展望未来发展方向与挑战。
长久以来,新材料的研发主要依赖试错法,这种传统的研究范式不仅耗时费力,而且成本高昂。20世纪中叶起,随着蒙特卡罗方法、分子动力学和密度泛函理论(DFT)等计算物理方法的发展及其在不同材料体系中的应用,计算材料学逐渐成型,并广泛应用于信息技术、能源、化工、生物医药、航空航天等领域,成为探索物质世界、研发新材料的重要工具。近年来,随着计算材料学和人工智能(AI)快速发展,基于机器学习的材料设计逐渐成为可能[1]。机器学习算法能够处理复杂的非线性关系,发现高维数据中的模式和规律,自动从数据中提取隐藏的关键特征,并且具备较强的泛化能力和迭代优化能力。这些优势与材料研究天然匹配,有望解决材料科学中设计空间巨大、构效关系复杂等关键共性难题。
目前,机器学习技术已经渗透到材料设计的各个层面,可以大致分为以下四个方向。
(1)性质预测:利用机器学习挖掘材料的结构—性质关系(即构效关系),再结合材料数据库筛选和设计具有特定性能的新材料。
(2)合成预测:利用机器学习预测材料的合成方案、合成路径、具体的实验合成参数等。
(3)知识发现:利用自然语言模型,对文献库进行数据提取和知识挖掘以辅助材料设计。
(4)生成式逆向设计:基于生成式模型,根据对材料性能的需求,逆向设计材料的成分和结构。
本文旨在简要介绍上述四个研究方向的最新进展,并展望该领域的未来发展趋势。受篇幅所限,本文未能全面探讨机器学习在计算材料学中的广泛应用。与之密切相关的方向还包括机器学习精确拟合原子间相互作用势函数,以及利用机器学习加速求解电子结构问题。感兴趣的读者可以参考同期张林峰、王涵的《 》 [2]和徐勇的《 》 [3]。
自机器学习被应用于物质科学研究以来,该技术就被广泛用于预测晶体材料的各种性质,如形成能[4—12]、力学性质[5,9,12—15]、热学性质[12—14,16]、能隙[5,6,9,10,12,17]、超导电性[6,18,19]、磁学性质[10,20—23]等。
在材料设计中,人们首要关心的是稳定性,衡量热力学稳定性的主要参数是形成能。2017年,Ward等人发展了一种基于Voronoi镶嵌的晶体结构描述符的机器学习模型,用于预测晶体的形成能 [4]。对于包含435792个无机化合物晶体的DFT计算形成能的OQMD数据集 [24],该模型的平均绝对误差(MAE)达到80 meV/atom。2018年,麻省理工学院的Xie和Grossman发展了一种晶体图卷积神经网络来学习材料的基础物性(包括形成能、能隙、费米能级、体模量、剪切模量和泊松比等) [5]。如图1所示,晶体图由代表原子的节点和代表原子间连接的边组成。他们从Materials Project(MP)数据库 [25]选取了28046种晶体的形成能数据进行训练,得到的MAE为39 meV/atom。
图1 晶体图卷积神经网络的示意图 (a)构建晶体图。将晶体转换为图形,其中节点表示晶胞中的原子,边表示原子之间的连接。节点和边分别对应晶体中原子和键的向量表征;(b)晶体图上卷积神经网络的结构。在每个节点上构建R个卷积层和L1个隐藏层,从而得到一个新图,其中每个节点表示每个原子的局部环境。经过池化后,连接到L2个隐藏层来表示整个晶体的向量,随后连接到输出层以提供预测
2021年,Schmidt等人引入一种晶体图注意力网络,用图距离的嵌入替代了精确的键长信息,因此无需精确的几何结构信息即可预测材料稳定性 [8]。为了训练该模型,他们从AFLOW数据库 [26]和MP数据库出发,统一计算参数开展DFT高通量计算,构建了一个超过两百万个化合物的晶体数据集,再从中选出不同材料的子数据集。针对包含约18万个随机选取的混合钙钛矿晶体数据集训练出的模型,其形成能MAE为30 meV/atom。将该模型应用于高通量搜索 AB X 2 Y化学式的1500万个四元钙钛矿材料,从中预测了超过2万种有合成潜力的四方晶体结构的钙钛矿材料。近期的研究将深度学习和计算机视觉技术相结合,发展出晶体结构的稀疏体素图像表示以及相应的深度卷积神经网络 [11]。该模型的特点是采用skip连接机制绕过浅层局部原子特征,从而能够学习更全局的结构特征。作为该模型的应用,对MP数据库中约12万个晶体形成能的DFT计算值进行训练,测试集的MAE为46 meV/atom。
晶体的本征力学性质如体模量、剪切模量、泊松比等反映了固体的键合特征,与之相关的还有德拜温度、比热容、热膨胀系数等热学性质参数,这些物理量往往成为各类机器学习模型的研究对象。2017年,Isayev等人提出用机器学习和材料数据库相结合的方式来揭示材料结构—性质的定量关系 [13],训练采用的AFLOW数据库包含了超过3000种材料的力、热性质参数。为了构建具有普适性的预测模型,他们提出了基于局部结构特征的“属性标记材料片段描述符”,实现了较好的预测准确性。例如,体模量的决定系数( r 2)为0.97,德拜温度的 r 2为0.95。机器学习还被用于设计新型超硬材料 [15]。基于MP数据库中2572个晶体的弹性模量数据,Brgoch研究团队发展了一个基于支持向量机(SVM)的回归模型,用于预测118287种化合物的弹性模量,最终筛选出了2种潜在的超硬材料:ReWC 2和Mo 0.9W 1.1BC。在理论指导下,他们通过电弧熔炼法合成了ReWC 0.8和Mo 0.9W 1.1BC,测量得到的体模量分别高达380 GPa和373 GPa,与机器学习模型的理论预测值接近。
固体的熔点和热导率也是机器学习研究较多的热学性质参数。在早期的工作中,京都大学Seko等人根据248种单质和二元化合物固体熔点的实验数据,采用SVM回归法建立了熔点的机器学习模型,成功预测了第四主族单质固体和十余种氮化物的熔点 [16]。为了解决小规模材料数据集难以机器学习的问题,北美丰田研究所的科学家提出了在特征空间中纳入“粗略估计属性”策略,即采用较低准确度的方法(如计算成本较低的DFT计算、经验模型或非昂贵实验测量)来预测目标属性 [14]。该策略可以在不增加模型复杂度的情况下提高预测精度。作为应用,他们讨论了93种化合物的晶格热导率,标度化误差为4.1%。
能隙作为非金属材料电子结构的重要特征参量,引起了机器学习研究者的关注。基于Xie和Grossman发展的晶体图卷积神经网络,对MP数据库中16458种晶体进行训练,能隙值的MAE为0.388 eV [5]。2021年,Morgan研究团队针对超过80万种化合物晶体的能隙训练了机器学习模型 [17]。训练用的能隙数据既包括大量理论计算数据(来自不同数据库、采用不同计算精度),也包括少量实验测量值。为此,他们发展了可以处理不同保真度数据的多保真度图神经网络架构,最终交叉验证得到能隙的MAE值为0.23 eV。最近,微软研究院推出一个全元素深度学习模型,既可作为机器学习力场,又可直接用于结构—性质预测 [12]。应用该模型考察了MP数据库中的106113种晶体材料,能隙的MAE值为0.129 eV。
超导是凝聚态物理学长达一个世纪以来始终关注的课题,其核心问题之一是预测超导体的临界转变温度( T c)。2018年,Stanev等人基于SuperCon数据库 [27]中16400种已知超导体的数据,利用随机森林算法建立了 T c的回归模型 [18]。利用该模型,对无机晶体结构数据库(ICSD) [28]中的110000种化合物进行了全面搜索,从中预测出35种非铜基和非铁基氧化物作为潜在的超导体候选材料( T c20 K)。同年,清华大学倪军团队引入原子表的概念,将每个化合物表示为一个由不同原子类型及其数量组成的表格,再利用卷积神经网络处理图像数据的空间局部相关性原理,对原子表进行卷积操作,从中提取出反映化合物结构和元素成分信息的特征向量 [6]。应用该网络训练了2720种超导体的 T c,其决定系数为97%,显著优于Stanev等人模型的 r2值88% [18]。利用训练好的模型,对MP数据库中的2万余种化合物进行了筛选,发现了20种潜在的高温超导体,最高预测 T c值接近90 K。2022年,Choudhary等人考虑了JARVIS-DFT数据库 [29]中的5万多个晶体材料,首先采用高德拜温度和费米能级处的高电子态密度作为判据,预筛选出1058种材料计算其电子—声子耦合参数和 T c,再从中得到105种动力学稳定且 T c≥5 K的材料,研究流程图如图2所示 [19]。该团队基于这个超导材料数据集,对其前期开发的原子线]进行训练,进一步用该模型筛选了43万种候选晶体结构,发现其中2161种材料的 T c可能大于15 K。
图2 (a)识别高临界温度超导体各步骤的流程图,展示了BCS超导理论启发式筛选、DFT计算和深度学习训练的应用[19];(b)JARVIS-DFT数据库中德拜温度的统计分布;(c)费米能级处的电子态密度的统计分布;(d)含有特定元素的化合物具有德拜温度θD300 K的概率
在材料磁性方面,Katsikas等人详细总结了机器学习在磁性材料研究中的应用 [20]。他们利用机器学习算法对MP数据库进行了分析,创建了一个人工神经网络模型来预测材料的磁化强度。基于原子线图神经网络,Choudhary等人预测了MP数据库中55722种材料的磁性,磁矩的MAE为0.26 μ B [10]。Heusler合金是一类三元化合物,因其含有磁性离子而成为高性能磁体的候选材料。为了在Heusler合金中发现新的磁体,Sanvito等人首先构建了一个包含236115种Heusler合金原型的电子结构数据库,再对仅由过渡金属组成的Heusler合金依据形成能进行稳定性分析 [21]。通过机器学习回归,将计算得到的磁性合金微观电子结构与磁转变温度建立了关联。经过高通量筛选,在可能的36540个原型合金中,有248个化合物在热力学上是稳定的,其中20个具有磁性。最后,预测并成功合成出两种新型磁性Heusler合金,其中Co 2MnTi是居里温度高达938 K的铁磁体,而Mn 2PtPd是奈尔温度为320 K的反铁磁体。
机器学习方法也被用于设计新型二维磁性材料。东南大学王金兰团队开发的“晶体图多层描述符”,采用独特的多层结构,其中每层代表材料的一个元素性质,如原子局部环境、未配对电子等 [22]。基于该描述符训练的机器学习模型,能够预测二维材料的热力学稳定性、磁基态和带隙;结合DFT高通量计算,最终筛选出20种铁磁半导体、21种铁磁半金属和51种铁磁金属,其中部分材料展现出大磁矩、大自旋极化和较高的居里温度。除了磁矩和居里温度,磁各向异性能也是描述材料磁性的关键参量,对于高密度磁存储具有重要意义。王鹏举等人设计了基于过渡金属互联神经网络的机器学习模型,用于预测二维金属有机框架(MOF)的垂直磁各向异性能 [23]。他们首先构造了包含1440个二维MOF结构数据库,训练出的模型被用于计算预测数据库中2583个MOF结构的磁各向异性能,最终筛选得到11种未被报道的、具有强磁各向异性的二维铁磁性MOF材料。
如前所述,采用机器学习预测材料的性质通常依赖于晶体结构描述符,必须事先知道材料的结构,这无疑限制了对未知结构新材料的探索。那么,能否在没有预先知道晶体结构的情况下预测材料的性质?为了解决这个难题,剑桥大学研究团队发展了一个深度学习模型 [7],将化学计量比转化为元素间密集加权图,每种材料视作一图,节点为元素,边权重反映元素间相互作用。使用消息传递神经网络,直接从元素间加权图学习材料描述符,通过迭代信息融合捕获结构特性。该模型在形成能与非金属材料能隙数据集上均表现良好,证明了方法的有效性。
与预测材料性质相比,预测材料的可合成性、合成路径、合成条件更具挑战性[30—32]。多年来,计算材料学家预测了大量的新材料,然而最终能够被实验成功合成的比例并不高。
中国科学院物理所姚唐适等人采用机器学习预测和指导三元化合物晶体的高质量生长 [30]。他们首先从实验室笔记中收集整理了两组单晶生长实验数据集(共764个),包括生长温度曲线、组成元素、比例和助熔剂等信息,通过对比研究四种机器学习方法,发现SVM在预测实验结果方面具有较高的准确率(81%),远高于实验室人工判断的36%;而决策树模型可以揭示单晶生长过程中起关键作用的因素,如电负性差异、温度曲线、密度等。
北美丰田研究所的Aykol等人建立了一套理性规划无机材料固相合成路线),该方法从经典成核理论出发,将固相反应的成核势垒近似为反应能和界面能的贡献,分别由高通量热化学数据和晶体的结构特征估算 [31]。该方法不仅能够识别出已知的合成路线,还能够预测出新的或替代的合成路径。将之应用于三种代表性的金属氧化物功能材料——铁电BaTiO 3、锂离子电池正极材料LiCoO 2和高温超导体YBa 2Cu 3O 7,以及其余10多种化合物的合成规划,通过与大量文献数据的对比,验证了方法的有效性。
图3 理性规划固态合成方法的计算步骤图示。给定目标相(β),首先建立一个反应库,列举通往目标相的所有可能反应,然后基于它们的相对成核势垒(催化成核)和反应路径上竞争相的数量(相竞争)分析每个反应。通过Pareto分析,可以确定在这两个指标之间具有最佳或接近最佳权衡的反应[31]
最近,Antoniuk等人发展了一个深度学习模型,能够从已知材料的化学组成数据中预测无机化学式的可合成性,而无需材料的结构信息 [32]。训练数据来自于从ICSD数据库中提取的53594种二元、三元和四元化合物晶体,这些无机材料已经被合成并进行了结构表征。该模型在没有任何先验化学知识的情况下,通过学习已知材料的数据,掌握了电荷平衡、化学家族关系和离子性等化学原理,并利用这些原则进行了可合成性预测。与DFT计算形成能对比,该模型的准确度提高了7倍。令人印象深刻的是,在与20位材料科学家进行的预测材料可合成性的比赛中,该模型的表现优于所有人类专家,准确度比最佳人类专家高1.5倍,而速度比人类专家快五个数量级。
材料研究涉及大量的文献、专利和技术报告,其中包含着丰富的知识和数据。然而,这些信息往往以自然语言形式分散在各种来源中,这使得传统的信息检索和数据分析方法难以高效地整合和挖掘这些信息。作为机器学习的一个重要分支,自然语言处理(NLP)模型能够理解和处理复杂的语言结构,帮助材料科学家自动提取文献中的关键信息,包括材料的性质、合成方法、实验条件等,从而加速材料研发的进程[33—38]。
麻省理工学院Kim等人结合文本挖掘和机器学习算法开展了系列研究 [33—35],其目标是从海量的科学文献中自动提取材料合成参数,并预测合成特定材料所需的关键参数。在数据挖掘方面,他们演示了如何利用NLP技术从超过64万篇期刊论文中自动提取氧化物材料的合成数据(图4),从而构建了一个源自76000篇论文、包含30种氧化物材料合成参数的数据集 [33]。在材料合成条件预测方面,他们分析了12000多篇金属氧化物合成的论文,从中挖掘出煅烧温度分布与元素组成及纳米结构之间的关系,以及水热反应和煅烧时间、温度与材料性质之间的关系;还训练了决策树模型准确识别出水热法合成二氧化钛纳米管的关键参数 [34]。在前驱体和可合成性预测方面,他们通过一系列关键词搜索,构建了包含约51000个合成动作序列和116000个前驱体的数据集,由此训练出一个神经网络模型 [35]。该模型预测出训练集中未出现的两种钙钛矿材料(InWO 3和PbMoO 3)的前驱体,验证了其泛化能力;同时还应用该模型对大量理论预测的新型钙钛矿化合物进行了可合成性筛选。
图4 神经网络和基于解析的合成参数提取 (a)一个分层神经网络通过将单词转换为嵌入和启发式向量表示,并输出到分类器,逐个为单词分配标签(例如,“材料”)。对于每次预测,考虑一个由五个单词组成的窗口的嵌入。每一层都是密集连接的,隐藏层连接两个输入层的每一个。最终层是通过每个可能的单词类别计算的分类器;(b)对句子进行语法解析,将单词级别标签(彩色条下面)解析为顺序单词块级别标签(彩色条上面),然后解析为单词块关系(弯曲弧线]
当今备受瞩目的大语言模型GPT-4,无疑是NLP领域的翘楚。微软研究院的近期研究总结了GPT-4在材料设计中的应用及其局限 [38]。在信息记忆与材料设计原则总结方面,GPT-4表现出色,能准确分类并提供示例。在组分创建上,它能生成新颖且化学合理的无机晶体组分,但在有机聚合物和MOF领域仍存在挑战。在结构生成上,GPT-4擅长描述键合和配位特征,但直接生成坐标能力有限。在性能预测方面,尽管具备一定的预测能力,但对无机材料性能的准确预测仍显不足。至于合成规划,GPT-4能检索已知合成路线,但缺乏创新合成策略的能力。总之,GPT-4为材料设计带来了新机遇,但同时也存在着显而易见的技术边界。
以功能为导向的材料逆向设计,始终是材料研究者们孜孜以求的目标。当前,AI算法的发展正在从传统的“决策式模型”逐步演进为更具创新性的“生成式模型”。关于生成式模型的基本概念,可以参考本刊上一期王磊、张潘老师撰写的《》[39]。在近两年里,生成式语言大模型GPT-4和视频大模型Sora的卓越表现,彰显了生成式AI模型的无限潜力,进一步鼓舞了研究者探索材料科学领域的生成式模型[40—48]。
与常规机器学习模型从已知结构出发不同,材料设计的生成式模型是在一定指导原则下逆向生成合理的晶体空间结构,这在算法实现上无疑更具挑战性。相关算法主要包括变分自编码器 [40—41]、生成对抗网络 [42—44]、扩散模型 [45—46]、扩散变分自编码器 [47,48]等。较早的研究往往聚焦于生成某类特定的材料体系,并评估其稳定性。例如,Noh等人系统考察了钒氧化物体系,不仅重新发现了MP数据库中26个已知钒氧化物结构,还生成了40种亚稳态的V xO y晶体新结构 [40];Kim等人生成了9300种Mg-Mn-O三元化合物的晶体结构,从中预测了23种具有合理的热力学稳定性和理想能隙的新结构 [42];Court等人生成了76个二元合金、三元钙钛矿和Heusler化合物的候选结构,这些晶体结构与DFT优化的结构之间具有良好的对应关系 [41]。
2023年以来,研究者开始尝试发展生成式模型,实现以功能为导向的材料逆向设计。岭南大学Xiao等人引入一种基于有限图的“简化线输入晶体编码系统”(简称SLICES),将晶体结构的化学组成、键合连接性和平移向量编码成字符串 [43]。通过SLICES系统,能够从字符串重建出超过40000种具有不同结构和化学性质的晶体结构,准确率达94.95%。进一步,面向光电应用,采用多步高通量筛选的方案(图5),逆向设计出14种新的直接窄禁带半导体,它们同时满足目标能隙、稳定性、成分新颖性和结构独特性等设计标准。微软研究院发展了一种用于无机晶体材料设计的生成模型,该模型通过引入基于扩散的生成过程来产生晶体结构,并通过逐步细化原子类型、坐标和周期性晶格来实现 [46]。此外,该模型还引入了适配器模块,能够根据目标化学组成、对称性和标量属性(如能隙、体模量、磁密度)约束来微调生成的材料结构。作为该模型的应用演示,他们设计了几种无稀土元素的高性能永磁材料,能够同时满足高磁密度和低赫芬达尔—赫希曼指数的设计要求。
图5 面向光电应用的直接窄禁带半导体的逆向设计工作流程。流程始于在MP数据库上训练一个通用的循环神经网络(RNN),以学习SLICES的语法,之后通过使用直接窄禁带半导体数据集对通用RNN进行调整来训练一个专门的RNN。然后,利用专门的RNN生成了约1000万个SLICES字符串,这些字符串被重建成约340万个晶体结构。这些晶体结构经过筛选,以识别新的直接窄禁带半导体[43]
最近,中国科学院物理研究所翁红明团队提出了一种条件晶体生成方法,能够生成具有特定材料性质的晶体结构 [47]。该方法在Xie等人2022年发展的“晶体扩散变分自编码器” [48]的基础上,增加了“先验”和“预测器”两个模块,分别用于根据给定的性质生成潜在变量,再根据潜在变量生成晶体结构。测试结果表明,该方法在不同条件下(包括单个目标性质和组合目标性质)均能有效生成符合要求的晶体结构。
毫无疑问,数据驱动的机器学习技术正在为材料科学领域带来前所未有的创新活力。尽管在材料设计上已经取得了较大的进展,但仍然存在以下几方面的问题有待于深入研究。
首先,机器学习严重依赖于数据库的质量(包括数据的规模、准确性和一致性等)。然而,材料实验物性数据的匮乏,不同测量的不一致性、DFT自身精度的局限性等,都限制了材料数据库的发展。目前多个材料数据库并存,且多以DFT计算值为主,亟待整合和扩充成一个全面的“材料大数据库”,这将是开发“材料大模型”的数据基础。
其次,在材料设计领域,基于数据库与结构描述符的机器学习模型和基于文本学习的自然语言模型两条路线平行发展。针对某一特定任务,两类模型能否互相借鉴、取长补短,更全面地分析和利用现有的全部材料数据资源(包括科学文献、实验数据、高质量计算数据等)?
此外,目前材料的生成模型仍处于起步阶段,其潜力远未被充分挖掘,与GPT-4相比,其在发挥“生成式AI”的强大作用方面还有很大差距。
最后,当前材料科学领域的机器学习模型大多仍局限于“特定任务模型”的范畴,这限制了它们的迁移和泛化能力。随着语言大模型的兴起,构建适用于材料研究领域的“大模型”的愿景日渐明朗。展望未来,我们对“材料大模型”的成功充满信心,并期待其与新兴的自动化实验室 [49] 紧密 协作,最终实现按照功能需求智能设计和高效合成新材料的目标。
致 谢感谢中国科学院物理研究所翁红明研究员、苏州实验室陈忻研究员的讨论。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
高市早苗当选首相,助攻手日本维新会是个啥组织?“汉奸”石平被该组织重点“提携”为参议员
高市早苗当选日本首相,曾叫嚣“台湾有事日本必入”,“走马灯换首相”已成日本常态
NASA急了,登月不用星舰?马斯克:记住我的线名中国用户举报苹果:中外双标,滥用支配地位
北方大面积降温上热搜!华润置地出手,在三亚CBD重塑热带度假人居格局!
