QUICK REVIEW

[论文解读] SiMiC: Context-Aware Silicon Microstructure Characterization Using Attention-Based Convolutional Neural Networks for Field-Emission Tip Analysis

Jing Jie Tan, Rupert Schreiner|arXiv (Cornell University)|Jan 21, 2026

Machine Learning in Materials Science被引用 0

一句话总结

SiMiC 提出一个基于CNN的框架，结合注意力机制从SEM图像提取硅材料微结构特征，支持场发射尖端的多参数预测（宽度、高度、半径），并通过注意力、数据增强和骨干网络选择实现改进。

ABSTRACT

Accurate characterization of silicon microstructures is essential for advancing microscale fabrication, quality control, and device performance. Traditional analysis using Scanning Electron Microscopy (SEM) often requires labor-intensive, manual evaluation of feature geometry, limiting throughput and reproducibility. In this study, we propose SiMiC: Context-Aware Silicon Microstructure Characterization Using Attention-Based Convolutional Neural Networks for Field-Emission Tip Analysis. By leveraging deep learning, our approach efficiently extracts morphological features-such as size, shape, and apex curvature-from SEM images, significantly reducing human intervention while improving measurement consistency. A specialized dataset of silicon-based field-emitter tips was developed, and a customized CNN architecture incorporating attention mechanisms was trained for multi-class microstructure classification and dimensional prediction. Comparative analysis with classical image processing techniques demonstrates that SiMiC achieves high accuracy while maintaining interpretability. The proposed framework establishes a foundation for data-driven microstructure analysis directly linked to field-emission performance, opening avenues for correlating emitter geometry with emission behavior and guiding the design of optimized cold-cathode and SEM electron sources. The related dataset and algorithm repository that could serve as a baseline in this area can be found at https://research.jingjietan.com/?q=SIMIC

研究动机与目标

推动高通量、客观的硅微结构表征，以支持场发射尖端设计。
建立利用SEM成像的硅基场发射尖端数据集用于ML分析。
提出SiMiC架构，集成CNN骨干、可选结构模块和注意力以预测几何参数。
评估骨干网络选型（ResNet、EfficientNet、MobileNet）与注意力机制对准确性与可解释性的影响。
证明数据增强与显式宽度/高度输入能提升半径预测及整体性能。

提出的方法

一个CNN骨干网络处理SEM图像以预测尖端几何参数（宽度、高度、半径）。
一个可选的结构模块提供参考尺寸；一个嵌入层将宽度/高度投射到注意力流中。
探索两种注意力机制：Bahdanau风格的加性注意力和多头注意力（MHA）。
基于CoordConv的结构富化以及一个可学习投影将目标几何嵌入以引导注意力。
训练采用Huber损失以在鲁棒性与平滑优化之间取得平衡。
在不同骨干网络（ResNet、EfficientNet、MobileNet）上进行大规模评估，既有也无数据增强以评估性能。

实验结果

研究问题

RQ1CNN+注意力是否能从SEM图像可靠推断硅尖端的几何参数（宽度、高度、半径）？
RQ2哪种骨干架构和注意力机制在微结构参数的预测准确性上表现最佳？
RQ3数据增强和显式几何输入（宽度/高度）如何影响半径预测及整体模型性能？
RQ4将结构模块与CoordConv结合是否能改善特征对齐和预测的可解释性？

主要发现

Approaches	RMSE Width	RMSE Height	RMSE Radius (Full)	RMSE Radius (Half)	R2 Width (Full)	R2 Height (Full)	R2 Radius (Full)	R2 Radius (Half)
ResNet	1.1947	1.2817	0.0443	0.0225	0.2147	0.2131	0.2227	0.2623
EfficientNet	1.2982	1.3182	0.0942	0.0313	0.2033	0.2189	0.2293	0.2895
MobileNet	1.2712	1.3276	0.0574	0.0274	0.2113	0.2221	0.2231	0.2934
Additive Attention + ResNet	1.1892	1.2801	0.0421	0.0221	0.2138	0.2112	0.2234	0.2908
Multihead Attention + ResNet	1.0097	1.2484	0.0395	0.0192	0.2259	0.2228	0.2268	0.2887
Augmentation + Multihead Attention + ResNet	0.9312	1.1158	0.0319	0.0117	0.2295	0.2330	0.2362	0.3098

ResNet骨干在所有预测变量的RMSE上均优于EfficientNet和MobileNet。
多头注意力在性能上优于加性注意力和非注意力基线。
数据增强显著降低RMSE并提升R2，在不同配置中均有提升。
将宽度和高度作为输入特征显著降低半径RMSE（半径仅预测时下降一半），如使用ResNet时从0.0443降至0.0225。
在ResNet基础上使用增强的多头注意力达到最佳半径RMSE（全量预测0.0319，半量预测0.0117）以及半量预测的最高R2（0.3098）。
注意力映射显示模型能够聚焦于对象轮廓和上下文区域，几何线索引导半径估计。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。