2023年10月23日,北京大学公共卫生学院李立明教授团队和深圳华大生命科学研究院金鑫研究员团队合作在《Nucleic Acids Research》杂志在线发表了题为“A high-resolution haplotype-resolved Reference panel constructed from the China Kadoorie Biobank Study”的研究论文(图1)。该研究依托中国慢性病前瞻性研究队列(CKB)的高质量样本与自主可控的DNBSEQ国产测序平台完成,成功绘制了高精度中国人群单倍型参考序列组,并依托国家基因库部署了在线基因型填补平台,为广大科研工作者提供免费服务,为东亚人群复杂表型遗传机制的研究提供了宝贵资源(图2)。
图1. 文章截图
图2. 图形摘要
特定人群的单倍型参考序列组(reference panel)指的是能最大程度代表该群体遗传多样性的祖先染色体序列的集合。高精度单倍型参考序列是精细群体遗传结构解析的基础,也是进行全基因组关联研究(Genome-wide association study, GWAS)的重要数据基础。目前国际上已启动了多项大规模单倍体序列构建项目,包括HapMap、1000 Genomes Project、TOPMed、HRC等,为研究人类复杂表型和疾病的遗传基础提供了重要支撑。我国在单倍体参考序列领域的研究起步较晚但发展较快,近两年相继发布了ChinaMAP、Nyuwa、Westlake等参考序列组。
中国慢性病前瞻性研究队列(China Kadoorie Biobank,CKB),是由北京大学牵头建立,我国最有代表性的人群队列之一。在本课题中,研究团队使用了取自CKB队列的1万例中等深度(15x)全基因组测序数据,结合精细的分析、质控与高效率的算法,构建了高精度单倍型参考序列集(CKB panel),并从变异数目、填补准确性等各个方面全面评估了CKB panel和已发表参考序列集的表现。结果显示CKB panel保留了更多高质量变异位点且具有较高的填补准确性,表现优异(图3)。
图3.基因型填补评估结果
此外,研究团队还基于CKB panel,对十万例已完成测定的CKB基因芯片数据进行了高质量的基因型填补。结果显示,填补后用可于全基因组关联分析的变异位点总数增加了2倍,由约300万增加至920万;同时,鉴定出的与身高显著关联的基因座数目从119个增加到147个。在新发现的28个位点中,有26个先前已在欧洲人群中被报道与身高相关,显示了使用CKB panel填补后,芯片数据的质量和价值显著提升(图4)。
图4. 基因型填补前后身高全基因组关联分析结果
最后,研究团队依托国家基因库(China National GeneBank, CNGB)开发了基因型填补在线服务平台,在隔离关键数据,充分保障数据安全的前提下,为科研人员提供基于CKB panel的免费基因型填补服务(https://db.cngb.org/imputation/)(图5)。
图5. 在线基因型填补平台
综上,CKB panel是基于中国人群构建的高质量单倍型参考序列集,对于提升芯片或低深度测序数据的质量和价值具有重要意义,将为东亚人群复杂表型和疾病的研究提供重要的支撑与数据基础。
参考文献
1. Yu C, Lan X, Tao Y, et al. A high-resolution haplotype-resolved Reference panel constructed from the China Kadoorie Biobank Study. Nucleic Acids Res. 2023 Oct 23:gkad779. doi: 10.1093/nar/gkad779. Epub ahead of print. PMID: 37870428.