苏州医工所宋一之课题组在拉曼光谱跨域智能分析研究中取得进展

作者:张哲 时间:2026-04-24

拉曼光谱因具有无标记、非破坏和分子指纹识别等优势,在生物医学检测、微生物识别和材料分析等领域展现出重要应用潜力。然而,在实际应用中,受仪器硬件差异、实验批次波动及样本生物多样性等因素影响,不同来源拉曼光谱数据之间往往存在峰位、强度分布及背景形态等差异。即便经过常规校准和预处理,这种光谱差异仍会显著削弱分析模型在真实场景中的稳定性和泛化能力,成为制约拉曼光谱智能分析走向临床和工程应用的关键瓶颈。

针对这一共性难问题,中国科学院苏州生物医学工程技术研究所宋一之研究团队提出了一种面向拉曼光谱跨域迁移的拉曼光谱分类差异模型(Raman Spectral Classification Discrepancy Model, RSCDM)。该方法基于无监督领域自适应思想,构建了“特征提取器+双分类器”协同框架,通过主动放大并逐步缩小两个分类器对目标域样本的预测差异,动态识别偏离源域分布的样本,并引导模型完成面向任务决策边界的特征对齐,从而有效缓解跨批次、跨样本和跨仪器引起的光谱差异问题。在基于拉曼光谱的病原菌种鉴定任务中,显著提升了模型在复杂多菌种分类场景下的识别稳定性、准确性和泛化能力。该研究的核心优势主要体现在以下几个方面:

1. 面向真实拉曼光谱应用场景:研究并不是只在随机划分的数据集上验证模型性能,而是系统考察了拉曼光谱智能分析中最常见、也最影响实际应用的三类差异来源:批次差异、菌株差异和仪器差异。因此,这项工作比单纯追求实验室条件下的高准确率,更接近真实使用环境。

2. 提出了任务驱动的无监督域适应策略:RSCDM利用双分类器输出差异来识别源域之外的目标样本,并通过对抗式训练逐步完成域对齐,在不依赖目标域标签的条件下,为小样本、弱标注甚至无标注场景下的拉曼智能分析提供了新的技术路径。

3. 显著提升模型泛化能力和识别准确率:在商用拉曼平台上,针对跨批次、跨菌株的7种细菌分类任务,模型准确率由81.6%提升至95.4%;在自研拉曼平台R310上,针对未纳入训练集的临床分离株,在结合跨仪器参考菌株微调后,临床分离株识别准确率可进一步提升至99.3%,显示出优异的跨仪器适应能力。

4. 兼顾高性能与可扩展性:团队还进一步构建了轻量化模型,在参数量大幅降低的情况下,仍保持了较高的识别性能。说明该方法不仅适合高精度分析,也具备向资源受限场景部署的潜力。

值得注意的是,这项工作的意义并不局限于病原菌识别本身。研究表明,拉曼光谱与深度学习结合时,真正制约模型可迁移性和实用性的,往往不是网络结构本身是否够复杂,而是如何处理不同来源光谱之间的分布不一致问题。RSCDM从方法学层面为这一问题提供了有效解决方案,也说明在面对多平台、多批次、多中心数据时,通过引入面向任务判别边界的域适应机制,可以显著增强模型对复杂真实数据的适应能力。该思路未来还有望拓展到临床检验、肿瘤诊断、细胞表型识别、药物响应评估及多中心数据库融合等更广泛的拉曼智能分析场景。

在应用示范中,研究团队将该方法用于单细胞拉曼光谱病原菌识别。结果显示,在高菌负荷条件下,每条光谱采集时间约为6秒,模型对单条光谱推理时间约为0.001秒。这意味着,相关检测流程有望从传统培养鉴定所需的“天级”时间缩短至“分钟—小时级”,为拉曼光谱快速检测技术的临床转化提供了有力支撑。

相关研究成果以“Novel Deep-Learning Unsupervised Domain Adaptation Method for Mitigating Batch, Strain, and Instrument Variations to Enhance Raman Spectroscopy-Based Bacterial Pathogen Identification”为题,发表在国际知名期刊Analytical Chemistry (中国科学院一区TOP)上。苏州医工所博士后张哲为论文的第一作者,苏州医工所宋一之研究员、胡慧杰副研究员以及解放军总医院第一医学中心检验科杨继勇教授为通讯作者。该研究得到国家重点研发计划、国家自然科学基金等项目的资助。

原文链接:

https://pubs.acs.org/doi/10.1021/acs.analchem.5c07113

https://doi.org/10.1021/acs.analchem.5c07113


图1 RSCDM方法鉴定病原菌拉曼光谱的示意图

图2 RSCDM进行病原菌鉴定的工作流程图

图3 拉曼光谱分类差异模型(RSCDM)在两种仪器采集病原菌拉曼光谱数据上的分类性能。

附件下载: