24  前沿模块:F2 AI 与机器学习(重理论版)

24.1 章节概述

在凝聚态研究中,机器学习不是“替代物理”的工具,而是“把物理约束编码进可学习模型”的方法。本章聚焦三个核心问题:

  1. 为什么在材料与量子体系中,纯数据拟合经常失效?
  2. 如何把守恒律、对称性、方程约束嵌入学习目标?
  3. 如何把模型输出转化为可验证的物理量,并评估 OOD(分布外)风险?

本章默认读者已掌握能带理论、统计物理与基础机器学习术语,目标是建立“物理建模-学习算法-实验验证”闭环。

24.2 学习目标

  • 理解凝聚态数据驱动任务中分布偏移与不可识别性的来源。
  • 掌握物理约束损失、图表示学习和不确定性估计的理论主干。
  • 能把模型输出映射为可观测量并构建验证路径。
  • 能区分“高精度拟合”与“可迁移科学结论”。

24.3 1. 问题图景:为什么“纯数据驱动”在凝聚态里会失效

24.3.1 1.1 失败模式 I:训练分布与目标分布不一致

材料数据库往往来自特定化学空间、温压窗口或计算近似(如固定泛函)。模型在训练分布内表现良好,并不代表在新体系可泛化。

24.3.2 1.2 失败模式 II:标签稀缺且带系统误差

高质量标签(高精度第一性原理或实验)成本高,且误差结构并非独立同分布。若直接最小化经验误差,模型会学习到“数据偏差”而非“物理规律”。

24.3.3 1.3 失败模式 III:预测结果物理不可行

如果模型不受约束,常出现:

  • 违反守恒律;
  • 破坏晶体/旋转/置换对称性;
  • 给出不满足本征边界条件的场解。

结论:凝聚态 AI 的关键不是更深网络,而是把物理结构写进可学习目标。


24.4 2. 理论框架 I:物理约束学习

24.4.1 2.1 约束增强目标函数

将数据误差与物理约束统一写成:

\[ \mathcal{L}(\theta) =\mathcal{L}_{\mathrm{data}} +\lambda_1\mathcal{L}_{\mathrm{sym}} +\lambda_2\mathcal{L}_{\mathrm{cons}} +\lambda_3\mathcal{L}_{\mathrm{PDE}}. \]

其中:

  • \(\mathcal{L}_{\mathrm{data}}\):观测标签拟合误差;
  • \(\mathcal{L}_{\mathrm{sym}}\):对称性约束(如群作用前后输出一致/协变);
  • \(\mathcal{L}_{\mathrm{cons}}\):守恒律约束(粒子数、能量、总电荷等);
  • \(\mathcal{L}_{\mathrm{PDE}}\):方程残差约束(如连续方程、扩散方程或有效场方程)。

24.4.2 2.2 物理意义与适用条件

  • 物理意义:优化目标不再只是“贴合数据”,而是逼近“满足物理公理的数据解释”。
  • 适用条件:需要明确可写成算符或残差形式的先验。
  • 失效场景:先验错误(如不恰当近似)会把模型推向系统性偏差。

24.4.3 2.3 约束权重的能标化解释

\(\lambda_i\) 不应仅靠网格搜索,可按误差量纲与目标能标做无量纲化,使不同损失项可比较。一个可行策略是按训练早期梯度范数动态平衡各项贡献。


24.5 3. 理论框架 II:图表示学习与相互作用传播

24.5.1 3.1 为什么图结构适合材料问题

晶体、缺陷网络、分子构型天然是“节点-边”结构。节点可表示原子/轨道局域自由度,边可表示键、邻接或有效耦合路径。

24.5.2 3.2 消息传递更新方程

典型图神经网络层写作:

\[ \mathbf{h}_i^{(l+1)} =\phi\!\left(\mathbf{h}_i^{(l)},\sum_{j\in\mathcal{N}(i)} \psi\!\left(\mathbf{h}_i^{(l)},\mathbf{h}_j^{(l)},\mathbf{e}_{ij}\right)\right). \]

这可理解为局域自由度在有限耦合邻域中的“离散传播方程”。

24.5.3 3.3 物理意义与失效边界

  • 物理意义:
    • 邻居聚合对应有限程相互作用近似;
    • 边特征 \(\mathbf{e}_{ij}\) 编码距离、键型、方向或对称信息。
  • 适用条件:体系主导相互作用可由局域或准局域图结构表征。
  • 失效场景:长程库仑、强非局域关联主导时,仅靠浅层局域消息传递会低估远程耦合。

24.5.4 3.4 对称性与可解释性

模型至少应满足置换不变性。对晶体任务,还可通过等变网络将空间群操作编码进表示空间,减少“数据增强替代物理结构”的低效做法。


24.6 4. 理论框架 III:泛化、OOD 与不确定性

24.6.1 4.1 风险分解视角

对目标分布 \(\mathcal{D}_t\) 的风险可写成:

\[ \mathcal{R}_{t}(f) \le \hat{\mathcal{R}}_{s}(f) +\mathcal{C}(\mathcal{F},n) +\Delta(\mathcal{D}_s,\mathcal{D}_t) +\epsilon_{\mathrm{approx}}, \]

其中 \(\hat{\mathcal{R}}_{s}\) 是源分布经验风险,\(\mathcal{C}\) 是函数类复杂度项,\(\Delta\) 衡量分布偏移,\(\epsilon_{\mathrm{approx}}\) 是模型可表达误差。

24.6.2 4.2 物理解释

  • 即使训练误差很低,只要 \(\Delta\) 大,目标风险仍可能很高。
  • 在材料任务中,\(\Delta\) 常来自元素空间外推、结构畸变、温压条件变化。

24.6.3 4.3 不确定性与校准

建议同时报告:

  • 预测均值;
  • 置信区间或分位区间;
  • 校准误差(如 ECE);
  • OOD 探测分数。

只有“预测 + 可信度”并行,模型输出才可进入实验决策流程。


24.7 5. 案例 A:带隙/形成能预测中的物理先验注入

24.7.1 5.1 模型设置

任务:输入晶体结构,预测形成能与带隙。使用图网络作为主干,并在损失中加入:

  • 对称性约束(晶胞等价变换不改变标量输出);
  • 简并/边界条件软约束;
  • 物理范围约束(如带隙非负)。

24.7.2 5.2 模型到可观测量闭环

  • 输出量:形成能、带隙;
  • 验证量:高精度 DFT 复算与已有实验数据库对比;
  • 决策规则:以不确定性加权排序候选材料,再进入高成本计算或实验。

24.7.3 5.3 关键风险

若训练数据以某类结构为主,模型会把结构先验误当作物理规律。需要在验证集中显式构造跨家族外推样本。


24.8 6. 案例 B:相图识别与异常态发现

24.8.1 6.1 问题设定

输入来自输运谱、STM 图像或 Monte Carlo 构型,目标是识别相边界与潜在异常区。

24.8.2 6.2 理论-算法结合

  • 用自监督预训练提取低维表示;
  • 在表示空间中做拓扑/聚类诊断;
  • 结合守恒约束和已知对称性排除伪边界。

24.8.3 6.3 验证闭环

  • 模型提出候选异常区;
  • 用独立探针(热容、磁化率、光谱)交叉验证;
  • 若多探针一致,再升级为“新相候选”。

这一流程强调:机器学习输出是“研究假设生成器”,不是终判器。


24.9 7. 方法比较:黑箱模型 vs 物理约束模型

维度 黑箱深度模型 物理约束模型
训练内精度 常较高 可接近或略低
OOD 稳定性 易退化 通常更稳
可解释性 中到强
物理一致性 无保证 可显式约束
计算成本 训练快/调参多 训练稍慢/验证更可靠
科学发现价值 偏筛选 偏机制推断 + 筛选

24.10 8. 开放问题与研究方向

  1. 如何系统构建“可微分、可计算、可泛化”的物理先验库?
  2. 如何把多模态数据(结构、谱、输运、显微)统一到同一不确定性框架?
  3. 如何建立“模型提出假设 -> 自动实验设计 -> 数据回流训练”的闭环平台?

24.11 9. 高级机制 III:逆问题可识别性与信息几何

在材料和量子体系中,许多学习任务本质上是逆问题:由有限噪声观测反推微观参数。关键困难不是拟合误差,而是“参数是否可识别”。

24.11.1 9.1 Fisher 信息近似

设模型输出为 \(f_\theta(x)\),观测噪声方差为 \(\sigma^2\),局部 Fisher 信息矩阵可写作:

\[ \mathcal{I}(\theta)\approx \frac{1}{\sigma^2}\sum_{n} \nabla_\theta f_\theta(x_n)\nabla_\theta f_\theta(x_n)^\top. \]

\(\mathcal{I}\) 近奇异时,某些参数方向不可识别,即使训练误差很低也无法得到稳定物理解释。

24.11.2 9.2 物理意义

  • “拟合成功”不代表“机制可判定”;
  • 强相关参数会形成近零特征值方向,对噪声极端敏感;
  • 设计实验时应优先选择能提高弱方向信息量的观测通道。

24.11.3 9.3 适用条件与边界

适用条件:

  1. 局部线性化近似成立;
  2. 噪声模型可合理近似为同方差或已知协方差结构。

边界条件:

  1. 多峰后验问题中,局部 Fisher 只能描述单峰附近;
  2. 大偏移 OOD 区域中,训练域 Fisher 结构不再可靠。

24.11.4 9.4 常见误用

  1. 把参数方差小误判为模型真实可信,忽略模型错设误差。
  2. 只在训练集上计算可识别性,不做目标分布评估。
  3. 用单一通道数据反演多个强耦合参数。

24.12 10. 推导补充:从约束优化到拉格朗日-对偶训练

物理约束训练可写成带约束优化问题:

\[ \min_\theta \mathcal{L}_{\mathrm{data}}(\theta)\quad \text{s.t.}\quad c_k(\theta)\le 0,\;k=1,\dots,m. \]

24.12.1 10.1 对偶形式

引入拉格朗日乘子 \(\lambda_k\ge 0\)

\[ \mathcal{J}(\theta,\lambda)= \mathcal{L}_{\mathrm{data}}(\theta)+ \sum_{k=1}^m \lambda_k c_k(\theta). \]

训练可采用“参数下降 + 乘子上升”的原始-对偶迭代。

24.12.2 10.2 近似与实现细节

常见工程近似:

  1. 把硬约束替换为软惩罚并分阶段增大权重;
  2. 使用梯度裁剪稳定乘子更新;
  3. 在 mini-batch 上估计约束残差,配合滑动平均降噪。

24.12.3 10.3 适用条件

  • 约束函数可微或可稳定近似;
  • 约束残差在 batch 级别有可接受方差;
  • 训练过程允许双时间尺度更新。

24.12.4 10.4 失效与反例

反例 1:约束写错(例如错误对称群)时,优化会系统偏离真实机制。
反例 2:约束过强导致欠拟合,模型在已知物理窗口外完全失真。
反例 3:只看总损失下降,不检查单项约束残差,可能掩盖物理违规。

24.12.5 10.5 报告规范建议

每个约束项应单独报告:

  1. 残差均值与方差;
  2. 训练末期占总损失比例;
  3. 在验证集/OOD 集上的变化趋势。

24.13 11. 研究级案例扩展:主动学习驱动的材料发现闭环

24.13.1 11.1 场景设定

目标是在庞大候选空间中高效找到满足多目标约束(稳定性、带隙、可制造性)的材料组合。

24.13.2 11.2 闭环流程

  1. 初始模型在小样本高精度数据上训练;
  2. 用采集函数在候选池中选择“信息增益最大”样本;
  3. 对样本执行高成本计算或实验;
  4. 数据回流,更新模型与不确定性估计;
  5. 迭代至性能或预算终止条件。

24.13.3 11.3 采集函数示例

可用上置信界(UCB)形式:

\[ a(x)=\mu(x)+\beta \sigma(x), \]

其中 \(\mu,\sigma\) 是预测均值与不确定性,\(\beta\) 控制探索-利用权衡。

24.13.4 11.4 指标体系

建议至少报告:

  • 单轮命中率(满足阈值样本占比);
  • 单位预算信息增益;
  • 候选池覆盖度;
  • 迭代稳定性(方差随轮次变化)。

24.13.5 11.5 失败模式

  1. 采集函数偏向易学区域,导致探索塌缩;
  2. 不确定性校准失真,选样策略退化为随机;
  3. 高成本标注存在系统偏差,模型持续学习错误方向。

24.13.6 11.6 工程边界

若每轮实验周期远大于模型迭代周期,需将“批量选样 + 延迟反馈”机制写入流程,否则闭环效率被运维瓶颈主导。


24.14 12. 方法比较:三类物理-AI 融合路线

路线 主要思想 优势 局限
先验后验分离 先训练再做物理筛选 上手快 物理一致性弱
端到端约束学习 训练中嵌入方程/守恒/对称 一致性高 训练复杂、调参敏感
闭环主动学习 模型与实验协同迭代 资源效率高 流程工程化要求高

推荐在研究初期用“端到端约束学习”,在中后期转入“闭环主动学习”以提升真实发现效率。

24.14.1 12.1 选型判据

  1. 若数据稀缺且先验明确:优先端到端约束学习;
  2. 若候选空间极大且标注昂贵:优先主动学习闭环;
  3. 若当前目标是快速基线:先验后验分离可作为过渡,但需尽快补物理约束。

24.14.2 12.2 最小部署检查表(面向研究组落地)

在真实课题中,建议使用以下检查表避免“模型漂亮但无法复现”:

  1. 数据版本:训练/验证/测试切分是否固化并可追溯;
  2. 约束版本:每项物理约束是否有明确数学定义与代码映射;
  3. 校准版本:不确定性校准方法是否固定并定期回测;
  4. 选样版本:主动学习采集函数参数是否记录;
  5. 失败样本库:是否维护“反例样本集”用于回归测试。

若以上任一项缺失,应将结果标记为“探索性结论”,不应直接作为主结论或工程决策输入。

24.14.3 12.3 边界反例:高分模型的失效场景

一个常见反例是:模型在数据库内 MAE 极低,但对新化学家族完全失效。
根因可能是表示学习过度依赖训练分布的元素共现统计,而非可迁移物理关系。
此时应优先扩展 OOD 验证集与物理约束,而不是继续增加网络深度。

24.14.4 12.4 术语与报告口径统一

为与 F1/F3 章节保持一致,本章统一采用:

  1. 适用条件:算法/近似成立的前提;
  2. 边界条件:分布、噪声、样本规模等限制;
  3. 误用场景:低风险指标掩盖高风险外推的典型错误;
  4. 验证链路:训练内评估 -> OOD 评估 -> 物理复核 -> 实验回流。

建议在所有模型结果表格中同时给出均值、区间和校准误差,避免“单点最优”叙事。


24.15 本章小结

  • 凝聚态 AI/ML 的核心是“把物理写进学习目标”,而非盲目堆模型容量。
  • 图表示、约束损失和 OOD 评估共同决定模型的科学可用性。
  • 高质量前沿工作必须给出从模型到可观测量的验证路径。
  • 在逆问题场景中,可识别性与不确定性校准是“可解释结论”成立的必要条件。

24.16 思考题

  1. 对同一材料预测任务,为什么低测试误差不等于高科学可信度?
  2. 若约束损失与数据损失冲突,应如何判断是“先验错误”还是“数据偏差”?
  3. 设计一个最小闭环:从模型预测候选材料到实验验证再回流训练,指出每一步最可能失败的位置。
  4. 若主动学习迭代中命中率持续下降,你会如何区分“探索不足”与“标注偏差”两类根因?

24.17 延伸阅读

  1. J. Schmidt et al., Recent advances and applications of machine learning in solid-state materials science, npj Comput. Mater. (2019).
  2. T. Xie and J. C. Grossman, Crystal Graph Convolutional Neural Networks, PRL (2018).
  3. M. Raissi et al., Physics-informed neural networks, JCP (2019).
  4. K. Choudhary et al., Lessons learned from materials data and ML benchmarking(建议结合最新综述阅读)。