纳米人

机器学习助力纳米晶鉴定, 登上Nature Materials!

米测MeLab
2025-05-12


1.png

研究背景

材料科学面临的一个重大挑战是确定纳米尺度物体的结构。


有鉴于此,哥伦比亚大学Gabe Guo,Simon J. L. Billinge & Hod Lipson等人在“Nature Materials”期刊上发表了题为“Ab initio structure solutions from nanocrystalline powder diffraction data via diffusion models”的最新论文。该团队提出一种新方法,利用基于扩散过程的生成式机器学习模型(PXRDnet),该模型在45,229个已知结构上进行训练。该模型融合了测得的衍射图样信息以及关于原子团簇结构晶胞的统计先验知识。


即便仅基于化学式和信息量有限、存在尺寸展宽效应的粉末衍射图样,PXRDnet依然能够成功求解最小尺寸仅为10 Å的200种不同对称性和复杂度材料的模拟纳米晶体结构,涵盖了全部七种晶体系统。


作者发现,该模型在五次中有四次能成功并可验证地提出结构候选,其候选结构经过Rietveld精修后的平均误差仅为7%。此外,PXRDnet还能处理来自实际实验中存在噪声的衍射图样。作者认为,这种以理论模拟为基础的数据驱动方法,最终将为解决此前未能解析的纳米材料结构问题提供一条可行路径。

研究亮点

(1)实验首次基于扩散生成模型(diffusion model),开发了PXRDnet,能够仅依赖化学式和有限信息的纳米晶粉末衍射(PXRD)图谱,直接推断出纳米晶体的三维结构,涵盖七种晶系,解决了以往纳米尺度材料结构解析困难的问题。


(2)实验通过以下方式取得了重要结果:

  • 利用4.5万余个已知结构训练PXRDnet,将有限信息的粉末衍射图与原子团簇单元格先验知识相结合,使模型具备从严重信息退化的PXRD图中生成合理结构的能力。

  • 在200种不同对称性和复杂度的材料上测试,PXRDnet能够在晶体尺寸小至10 Å时,四次中有三次成功给出正确候选结构,候选结构经过后续Rietveld精修后的平均误差仅为7%。

  • 模型不仅适用于模拟数据,还能处理实际实验中收集到的噪声粉末衍射图,表现出优异的稳定性与泛化能力。

  • 为推动领域发展,作者还构建了MP-20-PXRD基准数据集,基于Materials Project筛选20原子以内稳定材料,提供统一标准,促进后续研究。

    图文解读

    1747038259470087.png

    图1:纳米材料粉末衍射数据powder X-ray diffraction,PXRD图谱。

     

    1747038274853346.png

    图2:PXRDnet结构预测。

     

    1747038291713214.png

    图3:PXRD比较。

     

    1747038305952183.png

    图4:Rietveld精修结果。


    1747038321457524.png

    图5:实验数据。

     

    结论展望

    PXRDnet中实现的扩散模型,为从信息受限的数据(如纳米材料衍射图)中解析结构迈出了令人振奋的一步。作为一种端到端的方法,PXRDnet能够直接从信息受损的衍射数据中解析纳米结构,且使用便捷。


    与任何结构解析方法一样,作者并不期望100%的成功率,而是希望获得可以进一步验证其有效性的结构候选。在这一点上,得益于Langevin动力学所带来的内在随机性,PXRDnet展现了出色的能力,能够生成多个结构候选。


    然而,仍需进一步研究以深入理解结构失败的具体原因,例如是由于几何结构错误还是化学成分置换问题。同时,作者认为可以开发出新的精修方法,这些方法将比传统的Rietveld精修更适用于纠正PXRDnet生成结构中的误差。


    令人关注的是,即便在信息极度贫乏的情况下,例如纳米晶粒尺寸仅10 Å,PXRDnet依然表现出了良好的结构解析能力。早期使用Liga算法结合原子对分布函数(PDF)解析纳米结构的研究,仅在高对称性结构中取得成功,极大限制了方法的应用。而PXRDnet通过利用训练数据中的潜在信息,克服了这一限制,即便在极端复杂的10 Å颗粒尺度结构中也能取得成功。这表明,扩散模型在面对噪声大或分辨率低的数据时,可能成为一种强有力的科学问题解决工具,其应用前景远超本文所展示的范围。这也为未来的计算晶体学和材料科学研究带来了积极的希望——对人类而言困难的问题,并不一定对数据驱动和机器学习方法同样困难。


    此外,尽管本研究主要基于PXRD数据,但理论上,类似模型也可以训练应用于其他类型的衍射数据,如电子衍射或中子衍射


    目前模型的一大局限在于需要先验的化学式信息。尽管在晶体学中,这一假设通常是合理的,但如果模型能够在部分已知甚至完全未知化学成分的情况下完成结构解析,将更具潜力,这是作者未来将探索的方向。


    另外,本研究所用的数据集(MP-20)中,单元格内的原子数最多为20个,虽然覆盖了许多实用材料,但仍有大量重要材料拥有更多原子。未来将致力于将本方法扩展到更复杂的材料体系。


    另一方面,本研究所用的衍射数据质量较低,粉末图样仅覆盖了Q < 8.2 Ź的范围,并且由于纳米粒径效应导致了峰展宽。实际上,实际应用中(如同步辐射X射线源获取的数据)通常能提供更高质量的信息。未来,若训练数据基于更高质量的衍射图样,预计PXRDnet的结构预测能力将进一步提升。


    从机器学习角度来看,本文本次采用了现成的CDVAE架构进行验证,与同期其他工作在设计和结构上类似(尽管其他方法并未开源)。因此,本研究的创新点不在于ML方法本身的突破,而在于成功打通了长期未能解决的纳米尺度材料结构解析这一重大科学挑战。


    目前PXRDnet在结构复杂度方面已超越了早期的纳米粒子结构解析方法,且未来仍有很大优化空间。例如,当前使用的CDVAE骨干可以被近期发展出的图扩散模型所取代,以进一步提升性能。


    另一个重要的未来方向是提升模型对背景信号(如溶剂或容器信号)的鲁棒性。在本研究中,作者曾使用一组含有明显容器信号的实验数据,结果模型表现受到了干扰,但在扣除容器背景信号后性能明显改善。因此,未来也将致力于增强模型在复杂背景条件下的解析能力。


    原文详情:

    Guo, G., Saidi, T.L., Terban, M.W. et al. Ab initio structure solutions from nanocrystalline powder diffraction data via diffusion models. Nat. Mater. (2025). 

    https://doi.org/10.1038/s41563-025-02220-y



    版权声明:

    本平台根据相关科技期刊文献、教材以及网站编译整理的内容,仅用于对相关科学作品的介绍、评论以及课堂教学或科学研究,不得作为商业用途。

    万言堂

    纳米人 见微知著