您当前的位置:首页 > 基因研究

从同源四倍体紫苜蓿基因组来聊一聊基因组分型

基于Hi-C数据分型的原理

Hi-C数据构建单体型的方法,称作HaploSeq方法,采用 HapCUT软件分析[4],后面这个软件升级到HapCUT2[5],其原理是根据染色体内互作强于染色体间(及同源染色体间)互作,通过Hi-C contact将检测到的变异组合联系起来,从而区分同源染色体。

ALLHIC分型方法[2-3]

在进行同源四倍体甘蔗基因组组装时,直接采用现有工具,如Lachesis,3d-dna甚至SALSA,结果都不如人意,表现在这些辅助组装软件会将allelic contigs放到邻近的位置,这样就会隔开本来在染色体邻近的contigs,导致组装错误。因此,很自然会想到先去除allelic contigs之间的互作,再进行组装。

 prune方法在去除单倍体间互作的应用

备注:去除allelic contigs之间的Hi-C互作(如d中蓝色线条间互作),仅保存与collapsed contigs(红色)互作最强的haplotype contig(蓝色)

 

另外一个问题是,多倍体杂合度较高,直接采用组装软件进行组装,草图的连续性往往不高,如同源四倍体甘蔗文章中用canu组装完后的contig N50仅45kb,同源四倍体紫苜蓿采用canu组装CCS reads,组装出的草图contig N50也只有459 Kb。为了解决这个问题,作者将遗传算法应用到ALLHIC程序中,经过测试发现contig N50从131kb-1.19Mb均能取得较好的结果。

 

同源四倍体紫苜蓿基因组组装策略[1]

(1)基因组评估

文章作者先对基因组的基本信息进行评估,通过k-mer深度的方法评估出k-mer峰为38X时基因组大小1,578,294,649 bp(即两套单倍体基因组大小),而用k-mer峰19X来评估,基因组大小为3,156,589,298bp(即四套单倍体基因组大小)(图5)。另外,采用流式细胞术进一步验证了基因组大小。另外通过评估,其杂合度高达3.7%。后面通过canu实际组装的结果来看,这一评估可以说在高杂合基因组的评估中是相当准确了。

 

(2)基因组组装

从成本上考虑,目前大多数的基因组组装都会直接采用PacBio subreads,但同源四倍体紫苜蓿一开始目标就是获得高质量的参考基因组。因此,采用了高精确度的CCS reads(CCS reads N50为12,604bp,总长度约70G),这是组装中测序技术应用的一大亮点,最后组装出的草图3,154Mb,contig N50为459kb。

 

(3)同源四倍体基因组的分型

同源四倍体紫苜蓿分型的核心也是采用了甘蔗中ALLHIC工具。二倍体近缘种蒺藜苜蓿(M. truncatula,核型2n=2x=16)已有染色体水平的基因组,可作为ALLHIC流程中的参考基因组,用来获取allelic contigs信息。文章中测了383G Hi-C数据,采用HiC-Pro质控获取到约1,277 million read pairs,再采用ALLHIC流程完成分型,分型后采用Juicerbox进行了微调和打磨。最终结果是区分出32条染色单体,总长度2,738Mb,约占总的草图大小86.81%。

 

基因组分型后的的验证工作

完成分型工作后,文章作者精益求精,又做了大量验证工作,这也是整个工作中的另一大亮点,也是值得我们借鉴的地方,具体验证的方法有:
(1) 将全部Hi-C reads比对回分型后的结果,绘制互作热图,可以清晰的分出8组染色体,每组有4个染色单体。

 

(3) 获得了99G Nanopore测序数据(平均长度16Kb),取最长的200条reads,将其比对到分型后的染色体上,89%的reads仅能比对到一条染色单体,且比对长度达到reads长度的80%。


(4) 进行BUSCO评估,而且将转录组数据比对到分型后的染色体上,比对率也可达到90%以上。注释出的164,632蛋白编码基因,其中95.4%的基因可以注释到NR,GO,KEGG,Swiss-Prot和TrEMBL数据库,表明基因组相对完整。


(5) 通过外部数据评估基因组后,自然也会想到四套单倍体基因组之间的比较。结果发现四套单倍体基因组之间相似性非常高。这种相似性不仅体现在序列和功能上,包括单倍体基因组大小,基因数和重复元件数量,也体现在Ka/Ks ratio和表达量上,例如各种染色单体FPKM值比较如下:

菲沙基因自成立之初就开始提供Hi-C实验和分析工作,也不断将Hi-C技术应用到新的技术领域,其中基因组分型是Hi-C辅助组装基因组组装后的又一应用领域,菲沙基因基于HapCUT2软件自主开发了分型效果更佳的流程,目前已应用于高杂合二倍体基因组分型工作中,同时也在基于ALLHIC进行同源多倍体基因组分型工作。

 

参考文献:

[1] Haitao Chen, Yan Zeng, Yongzhi Yang, et al. Allele-aware chromosome-level genome assembly and efficient transgene-free genome editing for the autotetraploid cultivated alfalfa. Nature communications. doi:10.1038/s41467-020-16338-x (2020).

[2] Zhang J, Zhang X, Tang H, et al. Allele-defined genome of the autopolyploid sugarcane Saccharum spontaneum L[J]. Nature genetics, 2018, 50(11): 1565-1573.

[3] Zhang X, Zhang S, Zhao Q, et al. Assembly of allele-aware, chromosomal-scale autopolyploid genomes based on Hi-C data[J]. Nature plants, 2019, 5(8): 833-845.

[4] Selvaraj S, Dixon J R, Bansal V, et al. Whole-genome haplotype reconstruction using proximity-ligation and shotgun sequencing[J]. Nature biotechnology, 2013, 31(12): 1111.

[5] Edge P, Bafna V, Bansal V. HapCUT2: robust and accurate haplotype assembly for diverse sequencing technologies[J]. Genome research, 2017, 27(5): 801-812.


相关推荐