科学研究科学研究
科学研究
Scientific research
科学研究科研进展

广州国家实验室成功研发scDenorm工具破解单细胞数据整合难题 助力跨研究图谱集成

  • 发布者:广州实验室
       近日,广州国家实验室苗智超团队联合哈尔滨工业大学、欧洲生物信息研究所(EMBL-EBI)等国内外多家科研机构,在GigaScience发表题为“scDenorm: a denormalisation tool for integrating single-cell transcriptomics data”的研究论文,成功开发单细胞转录组逆标准化工具scDenorm,为跨研究单细胞图谱集成、人类细胞图谱构建以及疾病机制解析提供关键技术支撑,进一步完善了我国在RNA与单细胞组学领域的核心工具体系。
       单细胞RNA测序是当前解析细胞异质性、揭示生命活动规律与疾病致病机制的核心技术。随着人类细胞图谱、脑细胞图谱等国际大科学计划的推进,全球范围内积累了海量公开发表的单细胞数据。但超过83%的单细胞研究采用Delta标准化流程,不同研究团队使用的缩放系数、对数底数、伪计数等参数存在显著差异,这种标准化的不统一会直接引发严重的技术偏差,导致细胞聚类紊乱、类型注释错误、差异基因分析结果不可靠,甚至造成生物学结论误读,极大限制了跨平台、跨研究数据的整合与复用。获取原始计数是保障数据整合一致性的最佳方式,但多数公共数据库仅提供处理后表达矩阵,重新分析原始测序数据则存在成本高、耗时长、结果难以复现等问题。针对这一长期制约领域发展的痛点,苗智超团队经过潜心攻关,成功研发scDenorm工具,实现了从标准化矩阵到原始计数的精准逆向转换,为大规模、跨研究单细胞图谱集成提供了高效、低成本的标准化解决方案。
图1 scDenorm算法原理示意图

       scDenorm工具依托液滴单细胞测序数据符合负二项分布的固有特征,利用非零表达值频率与其秩之间的一一对应关系,通过逆转换逆缩放两步核心运算,自动识别标准化参数并完成数据还原。在逆转换阶段,工具通过方程求解与优化算法精准推断对数底数与伪计数,消除对数变换带来的数据扭曲;在逆缩放阶段,工具为每个细胞计算专属缩放因子,恢复原始测序深度信息。该工具具备优异的鲁棒性,能够适应数据精度降低、基因过滤等常见实际场景,同时计算效率高,复杂度随细胞与基因数量呈线性增长,可稳定支撑大规模数据集的高效处理,作为开源Python工具包,还能与SCANPY等主流分析流程无缝集成,支持命令行与Jupyter Notebook交互使用,大幅降低科研人员的使用门槛。
       为全面验证工具性能,研究团队基于UCSC Cell Browser、脑细胞图谱等共计100个真实数据集开展了系统基准测试,覆盖多物种、多组织、多种测序技术平台,结果显示scDenorm在Delta标准化数据集上的还原成功率达到88%,四舍五入误差与恢复误差均控制在极低水平,还原后的数据分布完全符合原始计数的负二项分布特征。在COVID-19外周血单核细胞数据集的测试中,经scDenorm处理后,细胞类型注释准确率从66%显著提升至92%,有效修正了免疫细胞亚型的错误归类问题;在差异表达基因与GO功能富集分析中,还原后结果与研究金标准高度吻合,显著减少了因标准化不一致带来的假阳性与生物学偏差,充分证明工具能够有效提升跨研究数据整合质量与下游分析可靠性,促进公共数据的高效利用。
       广州国家实验室面向国家重大健康需求、聚焦呼吸疾病研究,持续在RNA组学、单细胞大数据与生物信息工具开发领域产出原创性成果。此次scDenorm工具的发布,与团队此前构建的RNA适配体数据库、RNA糖基化数据库、升级优化的RNAcentral综合数据库形成高效协同,构建起从数据资源到分析工具再到疾病应用的完整支撑体系,进一步提升了我国在全球单细胞与RNA研究领域的影响力。
       论文链接:
       https://academic.oup.com/gigascience/advance-article/doi/10.1093/gigascience/giag032/8566315?login=true