火龙果隶属仙人掌科蛇鞭柱属,约起源于6500万年,其中燕窝果(Selenicereus megalanthus, 2n=4x=44)和火龙果(S. undatus, 2n=22)最具商业和消费价值。火龙果具有艳丽的外观与独特的风味,富含维生素、抗氧化剂、矿物质、膳食纤维和预防癌症等功效。解析基因组结构影响植物性状的机理是作物研究的前提,随着火龙果需求的日益增长,尽管基因组工具取得巨大的进步,但由于缺乏火龙果参考基因组,火龙果的品种创新受到严重阻碍,迫切需要二倍体火龙果与四倍体燕窝果的表型变异图谱,为火龙果的育种研究提供科学依据。
近日,海南大学王华锋教授团队与澳大利亚莫道克大学合作利用PacBio HiFi和Hi-C技术,完成高质量的燕窝果染色体水平基因组组装,证实燕窝果为同源四倍体,基因组大小为1.79 Gb,含有27,246个高置信度基因,祖先可能来自二倍体火龙果。通过对三维染色质结构的比较分析,确定了二倍体(火龙果)和四倍体(燕窝果)中不同数量的compartmentA/B、拓扑相关结构域(TAD)和结构变异,发现两个品种的TAD边界都富含转录因子,并且这两个品种甜菜素生物合成途径中基因的表达有显著变化。
本研究发现蛇鞭柱属植物可能起源于早白垩纪,该属含 28 个物种,燕窝果此前分类并不一致,曾被归类为 Mediocactus或Hylocereus,属异源四倍体或杂交种。本研究首次从基因组证据证明其为同源四倍体(图 1)。

利用PacBio HiFi和Hi-C测序数据,研究者我们成功组装了燕窝果的高质量染色体级别基因组(1.79 Gb,11条染色体),锚定率达到97.73%,共鉴定出27,246个基因,锚定率达到97.73%(图2)。其姊妹物种——火龙果(Selenicereus undatus)为二倍体基因组,大小约1.41 Gb。

比较基因组学分析证实,二倍体与四倍体燕窝果之间存在约190-220万年前(MYA)发生的全基因组复制(WGD)事件,且两者具有紧密的进化关系。其中,萜烯合成酶和糖基转移酶相关基因家族的扩张尤为显著。燕窝果(S. megalanthus)共包含17,885个基因家族和25,268个基因,其中81个为特有家族。

Hi-C互作分析表明,四倍体燕窝果中A-A和B-B区室间的相互作用更为强烈,同时呈现出独特的拓扑关联结构域(TAD)边界特征。研究者在四倍体燕窝果中鉴定出1,454个特异性TADs,在二倍体中则发现1,395个特异性TADs,表明两种倍性火龙果在三维基因组结构上存在显著差异(图4)。值得注意的是,哺乳动物的TADs形成依赖于特定的结构蛋白[1],而植物虽然缺乏这类蛋白,但其携带的TCP家族转录因子(如TEOSINTE BRANCHED 1、CYCLOIDEA和PCF1等)可能发挥着类似的功能[2]。

共线性分析揭示了燕窝果与普通二倍体火龙果基因组中存在广泛的结构变异,包括大片段倒位、易位、重复(图5)。通过将同源四倍体燕窝果与二倍体火龙果进行比较,研究者鉴定出41,409个存在-缺失变异(PAVs)、82,394个PAVs、1,245个倒位、15,725个易位、23,325,494个SNPs、2,294,810个插入缺失变异以及19,928个拷贝数变异(CNVs)。这些结构变异主要分布在基因间区,其中燕窝果包含31,506-66,158个PAVs、710个倒位、13,533个易位以及14,890个CNVs。

通过Hi-C分析流程[3],研究者在二倍体火龙果中鉴定出648个A区室和728个B区室,在多倍体燕窝果中则发现519个A区室和1064个B区室,这些区室显示出明显的基因富集特征,且边界区域存在差异化的转录因子结合位点分布(图6)。为确保分析全面性,研究者分别以二倍体和四倍体基因组为参考独立进行了TAD分析。根据基因在TAD中的位置特征,将其分为TAD内部基因和边界基因两类:二倍体基因组包含24,384个内部基因和4,045个边界基因,而多倍体基因组则分别含有20,453个和2,264个。进一步利用JASPAR和MEME Suite工具分析发现,二倍体火龙果TAD边界显著富集PHYPADRAFT_64121(90.55%)、RAV1(90.28%)、AT3G24120(90.01%)、WRKY60(89.72%)和WRKY18(89.6%)等转录因子结合位点;而在多倍体中,PHYPADRAFT_64121(91.21%)、RAV1(90.41%)、WRKY75(89.67%)、WRKY60(89.61%)和MYB3(89.53%)等位点的富集程度更高,暗示这些转录因子在两种火龙果中具有重要的生物学功能。

ATAC-seq分析显示,二倍体火龙果的染色质可及性更高,数千个差异可及区域与启动子区域重叠,并涉及ATP代谢、胁迫响应和光合作用相关基因(图7)。通过DiffBind工具比较发现,两个物种间存在13,977个差异可及区域(DARs),其中3,355个为获得性DARs,10,622个为缺失性DARs。DAR信号值的聚类分析揭示了物种间的显著差异。进一步对启动子关联的DARs分析表明,火龙果与燕窝果相比,获得性DARs关联159个基因,而缺失性DARs则关联2,362个基因。

通过多组学整合分析发现,染色质三维折叠结构和转录因子结合位点共同调控甜菜红素代谢通路,这解释了二倍体燕窝果呈现红色而多倍体呈现黄色的分子机制——基因表达差异与染色质区室化特征共同作用的结果(图8)。研究显示,多倍体燕窝果中CYP736A12基因的低表达导致其丧失了酪氨酸氧化能力,从而最终形成黄色果实。这一现象表明,拓扑关联结构域(TAD)边界同时具有激活和抑制的双重调控功能,能够机制性地控制TAD内部基因的表达活性。这些发现从分子层面阐明了燕窝果无法合成甜菜黄素的关键原因。

本研究首次完成了同源四倍体燕窝果的染色体级别基因组组装,为解析多倍化进程和三维染色质重构(如TAD边界迁移及A/B区室转换)如何调控基因差异表达——特别是甜菜红素生物合成途径——进而导致二倍体与多倍体燕窝果表型分化提供了重要理论依据。本研究的多组学数据不仅为燕窝果育种研究奠定了理论基础,也为多倍体作物改良和可持续园艺创新提供了新的研究思路。
该研究论文以Feature article发表在Genome Biology(中科院一区TOP期刊,五年影响因子16.3),第一作者为博士后Qamar U Zaman博士,海南大学王华锋教授和澳大利亚Rajeev K. Varshney院士为共同通讯作者,华南农业大学的秦永华教授和武汉菲沙基因公司的郭孟齐也参与了该工作。本文的作者还有Ali Raza, 刘会, Mian Faisal Nazir, Vanika Garg, Muhammad Ikram, 王国庆, 吕威, Darya Khan, Aamir Ali Khokhar, 张游, Annapurna Chitikineni, Babar Usman, 崔健鹏, 杨绪龙, 左世友, 刘培丰, Sunjeet Kumar, 祝志欣, Girish Dwivedi。本研究得到海南省重点研发等项目的联合支持。
原文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03695-3
References:
1. Szabo Q, Bantignies F, Cavalli G. Principles of genome folding into topologically associating domains. Sci Adv. 2019;5:eaaw1668.
2. Tourdot E, Grob S. Three-dimensional chromatin architecture in plants-general features and novelties. Eur J Cell Biol. 2023;102:151344.
3. Servant N, Varoquaux N, Lajoie BR, Viara E, Chen C-J, Vert J-P, Heard E, Dekker J, Barillot E. HiC-Pro: an optimized and flexible pipeline for Hi-C data processing. Genome Biol. 2015;16:1-11
(图文:王华锋,审核:王睿)