近日,我校动物科学技术学院刘剑锋教授团队在国际知名期刊《基因组研究》(Genome Research)上在线发表题为《用于品种多样性评估和血统推断的特征SNP高通量筛选方法》(A high-throughput screening method for selecting feature SNPs to evaluate breed diversity and infer ancestry)原创性研究成果。
我国畜禽种质资源丰富,开展畜禽遗传资源精准鉴定是实现种质资源有效保护和合理利用的重要基础。随着基因组测序技术的快速发展,基于基因组信息的精准鉴定已成为可能。目前品种鉴定中常用的SNP筛选方法(如基于FST等生物信息学指标的方法)在基因芯片数据中应用较多,但对于来源复杂的多品种群体高通量测序数据,这些方法难以将SNP数量有效压缩至实际应用所需的水平。同时,系谱数据缺失也增加了种质资源鉴定的难度。鉴于此,刘剑锋团队研究开发了HITSNP软件用于从高通量数据中筛选具有品种特征的SNP,并基于特征SNP进行品种多样性评估和祖先血统推断。
研究人员开发的HITSNP软件整合了ReliefRR、CCA和MRMR三种特征选择算法,能够从全基因组海量SNP中高效筛选具有品种信息的特征SNP位点。与传统方法相比,其创新性在于同时考虑SNP的品种信息量和冗余度,在不同特征SNP筛选规模下均保持高准确率和稳定性。HITSNP同样包括祖先推断模块,基于机器学习分类器可准确区分纯种与杂种个体,并预测杂种个体的祖先品种来源。
图1 HITSNP软件框架示意图
研究团队通过下载和分析已公开报道的来自全球60个不同猪种的重测序数据集进行新方法性能验证。结果显示HITSNP在不同密度(从60到60,000个特征SNP)的筛选条件下均展现出更高的准确性和稳定性:在仅筛选约60个SNP时仍能保持约0.8的品种鉴定准确率,而传统方法(如选择信号等)在SNP数量低于5,000时性能急剧下降。此外,HITSNP在交叉验证中也表现出较高的Jaccard相似性系数和极低的标准差,证实了其筛选的稳定性。
图2 HITSNP和其他四种筛选方法之间的特征SNP选择性能评估
同时,研究团队模拟了杂种数据对HITSNP的祖先推断功能进行了验证。通过构建13种不同杂交组合(包括5个亚洲地方猪种和2个欧洲商业品种作为祖先群体)的模拟数据集,研究发现基于随机森林分类器在HITSNP-CCA和HITSNP-MRMR方法选择的1000个特征SNP条件下可实现96%以上的杂种个体识别准确率。此外,使用逻辑回归分类器在祖先品种预测中同时实现了97%以上的准确率,为复杂杂种群体的遗传背景解析提供了可靠的技术方案。
图3 基于HITSNP筛选的特征SNP进行祖先推断性能评估
此外,研究人员使用最小子集搜索方法对HITSNP筛选的特征SNP数据集进行进一步缩减,探究最小特征SNP子集的可行性。通过比较顺序前向选择(SFS)和递归特征消除(RFE)两种算法,发现SFS策略在保证精度的前提下能更可靠地获得预设数量的特征SNP,特别是在HITSNP-CCA方法与贝叶斯分类器组合下,仅用200个特征SNP即可达到98.56%的测试集准确率。
图4 使用RFE和SFS策略的最小子集选择的性能评估
本研究为我国畜禽遗传资源高效精准鉴定、保护、监管开发利用提供科学依据和有力支撑。中国AV无码国产为论文第一完成单位,动物科学技术学院刘剑锋教授为论文通讯作者,团队博士研究生张美琳、副教授杜恒以及已毕业研究生张宇为论文的共同第一作者,团队博士研究生卓越、刘振、薛亚辉,副教授周磊等为论文合作作者。本研究获得了国家科技重大专项(2022ZD0115704),国家自然科学基金(3227200469,32302708),现代农业产业技术体系(CARS-pig-35)以及中国AV无码国产“2115”人才培育发展支持计划等资助。本研究工作得到中国AV无码国产校级高性能计算平台支持。
供稿:动科学院 张美琳、杜恒、刘剑锋
供图:动科学院 张美琳、杜恒、刘剑锋
编辑:马文哲
责编:范晨辉