近期,南方科技大学电子与电气工程系教授沈平团队在拉曼光谱通用分析算法领域取得重要突破,相关文章以“RSPSSL: A Novel High-fidelity Raman Spectral Preprocessing Scheme to Enhance Biomedical Applications and Chemical Resolution Visualization”为题,发表在国际光学领域顶级期刊Light:Science & Applications上。
拉曼光谱学以无损无标记的方式原位探测样品化学组分分子键信息,在生物和临床医学研究中逐渐发展成一种新兴的光谱组学技术,并有望促进精准医疗的变革。然而拉曼散射信号微弱,生物样本通常信噪比较低,加上本身组分的复杂性和较强的荧光信号干扰使得拉曼光谱生物医学应用举步维艰。具备高效光谱噪声去除和高保真基线校正能力的光谱预处理方法是高质量拉曼光谱应用的前提和挑战。
沈平教授团队及其合作者提出一种自监督学习二步法拉曼光谱预处理策略(RSPSSL),实现跨仪器、跨样品和跨光谱类型的高保真光谱去噪和基线校正的光谱预处理,实现临床组织样本拉曼高光谱图像超多通道(拉曼位移)化学分辨率可视化,促进了无标记拉曼光谱成像技术的临床应用和医学基础研究,助力精准医疗的变革。
图1:本研究提出方法的整体框架图
该策略首先根据拉曼峰、噪声和基线之间物理关系的相互独立性建立自监督模型,对无标签训练光谱进行自我分解、重排及重构、并构建生成对抗网络获取大量带标签高仿真拉曼光谱,解决了真实拉曼光谱无标签的问题。为了提高后续光谱预处理模型(RSBPCNN)的泛化能力,无标签训练光谱采用来自多个实验室跨仪器、跨样本和跨光谱类型的多样化数据,以获取噪声和基线的多样性。其次,为适应真实光谱数据的复杂性,预处理模型通过多个子模块端到端连接增强对复杂信号的拟合能力。通过第一步产生的多样化数据优化训练,该预处理模型(RSBPCNN#)可以用于来自任意仪器、样本类型和光谱类型的拉曼光谱预处理,无需人工干预或者再次训练。该预处理模型(RSBPCNN#)具有优异的去除噪声和基线校正能力,并且处理后的光谱保真度高。这种对不同信噪比微弱信号提取能力可减少采样时间,提高下游应用效果。
图2:应用于病理组织拉曼成像的效果
本研究提出的自监督拉曼光谱预处理策略(RSPSSL),通过精巧的算法模型设计,分离和重构多样化光谱特征,获取生成大量带标签高仿真光谱数据集,以此数据集训练优化高拟合能力的主预处理模型,得到通用型高鲁棒性的RSBPCNN#模型。该模型可以实现任意拉曼光谱的高通量高效噪声消除和基线校正。因其具有光谱高保真特性,在实验中能显著提高癌症诊断和溶液浓度预测准确率,实现高光谱图像全谱质量提升,消除生物静默区虚假图像信号,实现光谱指纹区超多通道(拉曼位移)化学图像分辨率可视化,同时体现出跨仪器、跨样本和跨光谱类型的广谱适用性。未来结合光谱空间分布关系可进一步提升高光谱图像分辨率,促进生物医学应用。
图3:通用化的拉曼光谱预处理平台
本方法已集成到实验室共享平台,供科研使用。研究人员可通过批量载入拉曼光谱数据,实现快速光谱预处理(1900光谱/秒)。网址链接: https://github.com/oilab-sustech/RSPSSL.
南方科技大学博士生胡嘉祺为论文第一作者、电子与电气工程系研究副教授陈金娜(共同一作)与沈平为通讯作者, 南方科技大学为论文第一单位和通讯单位,本研究得到了国家自然科学基金、广东省基础与应用基础研究基金、深圳市科技项目等资助。
论文链接:https://doi.org/10.1038/s41377-024-01394-5
供稿:电子与电气工程系
通讯员:陈金娜
编辑:任奕霏