资源描述:
分子植物育种 2022年 第20卷 第1期 第24 30页 Molecular Plant Breeding 2022 Vol 20 No 1 24 30 研究报告 Research Report 洋桔梗 Eustoma grandiflorum 干旱胁迫转录组初步分析 安霞 1 朱强 1 楼旭平 2 李鲁峰 2 陈杰 3 柳婷婷 1 李文略 1 骆霞虹 1 朱关林 1 余利隽 1 1浙江省萧山棉麻研究所 浙江省园林植物与花卉研究所 杭州 311251 2杭州市萧山区农业科学技术研究所 杭州 311202 3华中农业大学 植物科学技术学院 武汉 430070 通信作者 anxia 摘 要 洋桔梗 Eustoma grandiflorum 是一种原产于北美的重要观赏植物 到目前为止 关于洋桔梗的基础 分子研究报道相对较少 特别是响应干旱胁迫的分子机制相关研究 本试验利用转录组二代测序技术对干旱 胁迫下的洋桔梗幼苗进行了研究 结果表明 该转录组测序数据具有良好的质量控制结果 为了在此基础上 获得基因信息 利用Trinity和Corset等软件将序列进行了拼接 共得到102 014条非冗余基因 其中包含 2 929条编码基因 经分析发现分属于79个转录因子家族 对所有基因进行注释 发现比对相似度最高的物 种是中果咖啡 最后 对基因序列进行简单序列重复 simple sequence repeat SSR 分析 获得了所有非冗余基 因以及转录因子编码基因所包含的SSR信息 本研究结果可为后续针对洋桔梗响应干旱胁迫的相关研究提 供候选分子资源 关键词 洋桔梗 Eustoma grandiflorum 干旱胁迫 转录组 Transcriptome Profiling of Lisianthus Eustoma grandiflorum under Drought Stress An Xia 1 Zhu Qiang 1 Lou Xuping 2 Li Lufeng 2 Chen Jie 3 Liu Tingting 1 Li Wenlue 1 Luo Xiahong 1 Zhu Guanlin 1 Yu Lijun 1 1 Zhejiang Institute of Landscape Plants and Flowers Zhejiang Xiaoshan Institute of Cotton and Bast Fiber Crops Research Hangzhou 311251 2 Hangzhou Xiaoshan District Agricultural Science and Technology Research Institute Hangzhou 311202 3 College of Plant Science Drought stress Transcriptome 洋桔梗 Eustoma grandiflorum 别名草原龙胆 原 产北美地区 是龙胆科 Gentianaceae 多年生草本植 物 洋桔梗是重要的观赏植物 其花器官形态漂亮并 且瓶插寿命长 已经成为国际上越来越重要的鲜切 花之一 洋桔梗对栽培环境十分敏感 而国内栽培设 施及技术相对不足 对洋桔梗生长发育过程中的相 关分子机理进行研究 有助于为洋桔梗栽培新技术 开发提供理论支持 植物在响应干旱胁迫的过程中涉及一些功能基 因和调节基因的差异表达 形成了一套复杂的信号 调控网络 从而影响植物体内一系列的生理生化反 应 An et al 2015 2016 2018 干旱能够影响洋桔梗 花茎伸长 但是关于洋桔梗如何响应干旱胁迫的相 关研究鲜有报道 本研究通过对干旱胁迫处理下的洋 桔梗植株进行转录组测序 共获得6 43 Gb高质量测 序数据 对该测序结果进行拼接 获得了102 014条 基因 对所获得的基因进行注释 发现和现有其他研 究基础较好的物种之间亲缘关系都较远 因此 本研 究不仅能为后续针对洋桔梗的相关研究提供大量分 子资源 还能为龙胆科其他物种高通量测序研究提 供借鉴 1结果与分析 1 1转录组数据获得 处理与拼接 首先对转录组测序数据进行严格的质量控制 主要去除接头以及低质量序列信息 总共获得高质 量测序数据 Clean reads 6 43 Gb 然后采用Trinity软 件 Grabherr et al 2011 对获得的高质量测序数据进 行拼接 共得到 132 929 条转录本 Transcripts 随 后 使用软件Corset对获得的高质量测序数据进行 分析 将所有Reads与转录本进行比对并进行层次 聚类 得到102 014个非冗余基因 Unigenes 这些 转录本和基因在序列长度方面具有相似的分布规律 图1A 图1B 且转录本与非冗余基因之间的数量 差异主要体现在较短序列 1 000 bp 范围内 转录本与非冗余基因数目没 有显著差别 1 2基因注释和功能分类 为了更科学系统地分析转录组测序获得的序列 所涉及的基因功能信息 对拼接得到的102 014条 基因 分别采用不同的公共数据库对获得的基因进 行注释 表1 其中有79 94 的基因至少在一个数据 库中有注释结果 而来源于NR数据库的注释结果 最多 占所有基因的76 52 选取基因在NR NT PFAM GO和 KOG五个数据库的注释结果进行分 析 结果表明 特异在NR数据库中得到注释信息的 基因数有13 035条 远远多于NT数据库中特异注 释的741条基因和KOG数据库中特异注释的8条 基因 在PFAM和GO数据库中没有特异注释的基 因 图2A 因此 转录组数据在NR数据库中的注释 信息更全面 进一步分析NR数据库注释结果 有接 近一半 47 3 的序列与目标序列具有较高的相似 度 超过 80 图 2B 且大量序列 占比 60 3 的 比对结果e值小于1e 60 图2C 这些序列的物种 注释结果中 比对到最多的物种为中果咖啡 Coffea canephora 占比 39 7 并且有更大比例的序列 44 1 比对到其他 Other 物种 图2D 在KOG数 据库分类中 有25个KOG类别被不同数量基因所 注释 共包含28 696条基因 其中被注释基因最多 的两个类别是O 翻译后修饰 蛋白开关和分子伴侣 3 519 条基因 和 R 总体功能预测 3 421 条基因 图3 该结果与黄麻干旱胁迫转录组结果类似 从 代谢角度来看 这些基因被更多富集在 遗传信息处 理 大类中的 翻译 代谢 大类中的 碳水化合物 代谢 和 遗传信息处理 中的 折叠 排列和降解 等 三个代谢条目中 图4 由于转录因子往往处于基因 表达通路的上游 能够调控下游一系列基因表达从 而在更大程度上影响洋桔梗响应干旱胁迫的程度 与之对应 本研究的转录组测序结果中共有2 929条 基因可能编码转录因子 这些转录因子属于79个不 同的转录因子家族 图5 在这些转录因子家族中 包含预测基因数目最多的三个家族分别是bHLH家 族 256 条基因 MYB related 家族 216 条基因 和 bZIP家族 191条基因 1 3分子标记开发 通过对转录组测序所获得的序列进行简单重复序 列 simplesequencerepeat SSR 分析 共在21329条基 因序列 占所有基因序列的20 91 中发现了25468个 洋桔梗 Eustoma grandiflorum 干旱胁迫转录组初步分析 Transcriptome Profiling of Lisianthus Eustoma grandiflorum under Drought Stress 25 分子植物育种 Molecular Plant Breeding SSR 这些SSR序列主要包括单碱基至六碱基不同 程度的重复 以及复杂重复序列 除了二碱基重复以 外 SSR重复序列平均总长度随着重复单位的复杂 性增加而递增 其中复杂重复单元的重复序列长度 最长 图6A 在编码转录因子的2 929条基因中 有 833条序列 占比28 44 具有不同的SSR 这些SSR 序列总长度也具有前述类似规律 图6B 分析SSR 可能位于基因的不同位置 表明对于所有基因来说 超过一半 51 46 的重复序列可能横跨相邻的两个 基因结构 5 非翻译区 utr5 编码区 cds 3 非翻译区 utr3 而位于编码区的SSR所占比例最少 图6C 对 于转录因子编码基因来说 横跨两个基因结构的 图1转录组序列长度分布 注 A 转录本序列长度分布 B 基因长度分布 C 转录本和基因长度分布统计 Figure 1 Length distribution from transcriptomic data Note A Length distribution of transcripts B Length distribution of Unigenes C Statistical results of transcripts and Unigenes 图2转录组注释信息 注 A 转录组结果比对到不同数据库的基因数目 B NR数据库比对结果序列相似度分布 C NR数据库比对结果e值分布 D NR数据库注释比对到最多的物种 Figure 2 Annotation information of transcriptome Note A Numbers of unigenes annotated by different databases B Distribution of sequence similarities against the NR database C Distribution of e values against the NR database D The most annotated species from NR database 数据库 Databases 基因数目 Number of genes 百分比 Percentage NR 78 070 76 52 NT 50 844 49 84 KO 34 057 33 38 SwissProt 60 288 59 09 PFAM 55 628 54 52 GO 55 628 54 52 KOG 25 389 24 88 表1不同数据库中基因注释成功率统计 Table 1 Statistical numbers on successfully annotated genes against different databases 26 洋桔梗 Eustoma grandiflorum 干旱胁迫转录组初步分析 Transcriptome Profiling of Lisianthus Eustoma grandiflorum under Drought Stress 图3转录组结果的KOG分类 注 A RNA加工与修饰 C 能量产生和转换 B 染色质结构与动力学 E 氨基酸转运和代谢 D 细胞周期控制 细胞分裂 染色 体分割 G 碳水化合物运输和代谢 F 核苷酸转运和代谢 I 脂质转运和代谢 H 辅酶转运和代谢 K 转录 J 翻译 核糖体结 构和生物合成 M 细胞壁 膜 包膜生物发生 L 复制 重组和修复 O 翻译后修饰 蛋白质转换和分子伴侣 N 细胞运动 Q 次 生代谢产物合成 运输和分解代谢 P 无机离子转运和代谢 S 功能未知 R 一般功能预测 U 细胞内运输 分泌和囊泡运输 T 信号转导机制 W 细胞外结构 V 防御机制 Y 核结构 Z 细胞骨架 Figure 3 The KOG classification of transcriptome data Note A RNA processing and modification C Energy production and conversion B Chromatin structure and dynamics E Amino acid transport and metabolism D Cell cycle control cell division chromosome partitioning G Carbohydrate transport and metabolism F Nucleotide transport and metabolism I Lipid transport and metabolism H Coenzyme transport and metabolism K Transcription J Translation ribosomal structure and biogenesis M Cell wall membrane envelope biogenesis L Replication recombination and re pair O Posttranslational modification protein turnover chaperones N Cell motility Q Secondary metabolites biosynthesis transport and catabolism P Inorganic ion transport and metabolism S Function unknown R Generall function prediction only U Intracellular traflicking secretion and vesicular transport T Signal transduction mechanlisms W Extracellular structures V Defense mechanisms Y Nuclear structure Z Cytoskeleton 图4转录组结果的KEGG分类 注 A 有机系统 B 代谢 C 遗传信息处理 D 环境信息处理 E 细胞进程 1 环境适应 2 概观 3 核苷酸代谢 4 萜类和聚酮 类物质的代谢 5 其他氨基酸的代谢 6 辅助因子和维生素的代谢 7 类脂化合物代谢 8 糖聚糖的生物合成和代谢 9 能量代 谢 10 碳水化合物代谢 11 碳水化合物代谢 12 氨基酸代谢 13 翻译 14 转录 15 重组和修复 16 折叠 分类和降解 17 信 号转导 18 膜转运 19 转运和代谢 Figure 4 The KEGG classification of transcriptome data Note A Organismal systems B Metabolism C Genetic information processing D Environmental information processing E Cellu lar processes 1 Environmental adaptation 2 Overview 3 Nucleotide metabolism 4 Metabolism of terpenoids and polyketides 5 Metabolism of other amino acids 6 Metabolism of cofactors and vitamins 7 Lipid metabolism 8 Glycan biosynthesis and metabolism 9 Energy metabolism 10 Carbohydratc metabolism 11 Biosynthesis of other secondary metabolites 12 Amino acid metabolism 13 Translation 14 Transcription 15 Replication and repair 16 Folding sorting and degradation 17 Signal transduc tion 18 Membrane transport 19 Transport and catabolism 27 分子植物育种 Molecular Plant Breeding SSR大幅度减少 27 25 而位于编码区的重复序列 所占比例最少 图6C 后续可以通过开发这些SSR 的特异引物 对特定基因或者转录因子进行针对性 更强的检测和研究 2讨论 洋桔梗是重要的观赏植物 然而 针对该物种的 分子生物学研究基础较欠缺 到目前为止 仅在早期 构建过一个针对盐胁迫的差减文库 王继刚等 2008 鉴定了可能的差异性表达基因 然而 差减文库的通 量一般较低 和现行高通量测序相比 远远不能满足 研究的需求 在分子资源开发方面 也仅有早期针对 花期进行的转录组测序 Kawabata et al 2012 在该 项转录组测序中 所得到的 63 401 条 Contig仅有 65 在NCBI数据库中得到了比对结果 小于本研究 中的76 52 表1 说明随着测序技术的发展和拼 接方法的成熟 本次测序结果的序列注释情况得到 了提高 然而 可能是由于与洋桔梗近源的物种分子 研究基础均较薄弱 本次转录组注释结果 比对到最 高比例的物种 图2D 是茜草科 Rubiaceae 的中果咖 啡 Coffea canephora 茜草科和龙胆科同属龙胆目 因此该中果咖啡可能是和洋桔梗亲缘关系最近的有 一定分子研究资源的物种 除此之外 洋桔梗转录组 序列的比对结果零散地分布在其他物种上 图2D 有研究曾对洋桔梗 MADS家族基因进行鉴定 Ishimori and Kawabata 2014 和功能研究 Li et al 图5不同转录因子家族数目 Figure 5 Numbers of transcription factors from different families 图6简单序列重复 SSR 信息统计 注 A 转录组中SSR序列长度统计 B 转录因子Unigene中SSR序列长度统计 C SSR位于不同基因功能区域统计 p1 p6 单碱基重复序列至六碱基重复序列 c 复杂重复单元 这些SSR可能位于基因的5 非翻译区 utr5 编码区 cds 3 非翻译区 utr3 或者未知位置 undetermined Figure 6 Statistical on simple sequence repeats SSR Note A Sequence lengths distribution of SSRs amongst the whole transcriptome data B Sequence lengths distribution of SSRs from transcription factor coding genes C Location of SSRs on varied districts of Unigenes p1 p6 The mononucleotides to hexanucleotides SSR units c Complex units These SSRs may locate on the 5 untranslated regions utr5 3 untranslated regions utr3 coding se quences cds or currently unknown positions undetermined 28 2015 然而 在没有转录组或者基因组等高通量测 序结果的支持下 进行基因功能研究 或者基因家族 鉴定往往显得更加困难 Nakano et al 2011 本研究 对洋桔梗在干旱胁迫下进行了转录组测序并对测序 数据进行初步分析 相关研究结果为后期研究洋桔 梗响应干旱胁迫处理的分子机理提供相应数据支 撑 与此同时 也有研究者完成了洋桔梗质体组测序 Yan et al 2019 相关分子资源为通过质体遗传信 息调节花形态等农艺性状 Jin and Daniell 2015 提供 了相应基础 该质体组测序结果 Yan et al 2019 与 龙胆科其他物种对应测序结果序列比对显示 洋桔 梗与这些物种亲缘关系都更远 该结果从侧面印证 了本次转录组测序注释结果中 比对到最多的物种 是龙胆目茜草科下的中果咖啡 占39 7 而其余大 部分序列信息均零散地比对到其他物种中 图2D 本次转录组测序结果将为后续研究 如鉴定挖掘干 旱响应相关基因或者干旱胁迫相关的转录因子提供 分子数据 3材料与方法 3 1试验材料 洋桔梗 Eustoma grandiflorum 品种 雪莱 在市 场上购买 植株长至8 cm左右 对其进行干旱胁迫 处理 处理36 h后 使用液氮取全株植物样品 用于 总RNA提取 3 2总RNA提取及文库构建 样品在用于RNA提取之前一直保存于 80 超低温冰箱内 将样品取出并在液氮环境下充分研 磨成粉末 使用天根公司的RNA提取试剂盒完成总 RNA提取并用于构建转录组文库 3 3测序数据处理及转录本拼接 样品上机测序得到的直接数据为原始读数 Raw reads 需要进行质量控制 去除不确定碱基测序结 果和由于包含大于 10 的接头从而导致质量不佳 的测序信息等 余下读数即为高质量测序信息 对高 质量测序信息的处理方式主要为序列拼接 Grabherr et al 2011 和层次聚类 所得到的基因信息即为非 冗余基因 3 4基因功能注释和分类 对得到的非冗余基因与四个序列数据库进行比 对以进行注释 3 5转录因子预测 在对非冗余基因序列进行注释的同时 使用在 线工具 http planttfdb gao lab org prediction php 对这 些基因信息可能编码产物进行预测 若编码转录因 子则对其进行分类 3 6 SSR分析 在基因的碱基序列层面 存在一些规律明确的 序列特征 这些序列往往以简单的序列单元 单个到 多个碱基 甚至复杂碱基单元 为基础 重复出现多 次 成为简单序列重复 SSR 对于这些SSR使用在 线工具 http pgrc ipk gatersleben de misa misa html 进行预测 对于单碱基单元重复十次及以上 以二碱 基为单元重复六次及以上 以及三碱基至六碱基为 重复单位重复五次及以上的SSR均包含在统计范围 内 而复杂重复序列中如果包含以上所列不同的重 复单元 则每个重复单元分别满足上述要求 作者贡献 安霞是本研究的实验设计者和实验研究的执行 人 完成数据分析 论文初稿的写作 朱强 楼旭平 李鲁峰 陈杰 柳婷婷 李文略 骆霞虹 朱关林和余 利隽是实验设计参与者 安霞是项目的构思者及负 责人 指导实验设计 数据分析 论文写作与修改 全 体作者都阅读并同意最终的文本 致谢 本研究由省科技特派员项目 梯田景区农家乐景 观提升示范与休闲产品创意 资助 参考文献 An X Chen J Zhang J Y Liao Y W Dai L J Wang B Liu L J and Peng D X 2015 Transcriptome profiling and iden tification of transcription factors in ramie Boehmeria nivea L Gaud in response to PEG treatment using illumina paired end sequencing technology Int J Mol Sci 16 2 3493 3511 An X Jin G R Zhang J Y Luo X H Chen C L Li W L Ma G Y Jin L Dai L J Shi X H Wei W and Zhu G 2018 Protein responses in kenaf plants exposed to drought condi tions determined using iTRAQ technology FEBS Open Bio 8 10 1572 1583 An X Zhang J Y Dai L J Deng G Liao Y W Liu L J Wang B and Peng D X 2016 Isobaric tags for relative and abso 洋桔梗 Eustoma grandiflorum 干旱胁迫转录组初步分析 Transcriptome Profiling of Lisianthus Eustoma grandiflorum under Drought Stress 29 分子植物育种 Molecular Plant Breeding lute quantitation iTRAQ based comparative proteome anal ysis of the response of ramie under drought stress Int J Mol Sci 17 10 1607 Grabherr M G Haas B J Yassour M Levin J Z Thompson D A Amit I Adiconis X Fan L Raychowdhury R Zeng Q Chen Z Mauceli E Hacohen N Gnirke A Rhind N Pal ma F D Birren B W Chad N Lindblad Toh K Friedman N and Regev A 2011 Trinity reconstructing a full length transcriptome without a genome from RNA Seq data Nat Biotechnol 29 7 644 652 Ishimori M and Kawabata S 2014 Conservation and diversifi cation of floral homeotic MADS box genes in Eustoma grandiflorum J Japan Soc Hort Sci 83 2 172 180 JinS X andDaniellH 2015 Theengineeredchloroplast genome just got smarter Trends Plant Sci 20 10 622 640 Kawabata S Li Y and Miyamoto K 2012 EST sequencing and microarray analysis of the floral transcriptome of Eu stoma grandiflorum Sci Hortic 144 230 235 Li K H Chuang T H Hou C J and Yang C H 2015 Function al analysis of the FT homolog from Eustoma grandiflorum reveals its role in regulating A and C functional MADS box genes to control floral transition and flower formation Plant Mol Biol Rep 33 4 770 782 Nakano Y Kawashima H Kinoshita T Yoshikawa H and Hi samatsu T 2011 Characterization of FLC SOC1 and FT homologs in Eustoma grandiflorum effects of vernalization and post vernalization conditions on flowering and gene ex pression Physiol Plant 141 4 383 393 Wang J G Zhang K Xu Q J and Li Y H 2008 Construction and analysis of Eustoma grandiflorum subtracted cDNA li brary Yuanyi Xuebao Acta Horticulturae Sinica 35 7 1075 1080 王继刚 张坤 徐启江 李玉花 2008 草原龙 胆盐胁迫差减文库的构建及分析 园艺学报 35 7 1075 1080 Yan J Y Cao Q Wu Z S Chen S F Wang J L Zhou D W and Xie J X 2019 Complete plastome sequence of Eu stoma grandiflorum Gentianaceae a popular cut flower Mitochondrial DNA Part B 4 2 3163 3164 30
展开阅读全文