结合Illumina和PacBio SMRT测序技术对复杂植物基因组组装方法的探究

本文主要是介绍结合Illumina和PacBio SMRT测序技术对复杂植物基因组组装方法的探究,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

结合Illumina和PacBio SMRT测序技术对复杂植物基因组组装方法的探究

文献类型:学位论文

 
作者王筱
学位类别硕士
答辩日期2015-04
授予单位中国科学院研究生院
授予地点北京
导师王文
关键词复杂基因组 基因组组装 Illumina Hiseq测序 PacBio测序 实时单分子 铁皮石斛
其他题名The exploration of complex plant genome assembly method combining with Illumina & PacBio SMRT sequen
学位专业生物工程
中文摘要

自1977年第一代sanger测序技术发展至今,已有四十多年时间,测序技术快速发展和变革,极大推动了生物领域及医学领域的快速发展Sanger测序技术读长长,准确性高,但测序成本高,通量低,影响了其大规模应用。以Illumina公司的Hiseq技术为代表的二代技术的出现,大大降低了测序成本,在保证高准确性的同时大幅提高了测序速度,完成了多种动植物的基因组de novo组装。在复杂植物基因组中,往往存在高杂合、高重复等特点,而Hiseq Illumina测序技术并不能完全避免GC含量的影响,使得复杂基因组完整组装分析遇到巨大障碍。随着第三代实时单分子测序技术的开发,长度长的特性以及免去GC偏好型的特征,使其在基因组组装及相关挖掘方面产生巨大推进作用。本文以铁皮石斛和丹参为例,探讨了结合低覆盖度的PacBio SMRT数据对基因组de novo组装完整度的提升。

我们与吉林大学严亮博士合作,从技术角度探索了铁皮石斛复杂基因组的解析方法,得到contigN50=25.1kb,scaffoldN50 = 76.4kb的基因组草图,测序量合计覆盖超过了铁皮石斛基因组94%的序列,大约97.56%的蛋白质编码基因被功能注释。

 

同时,我们与昆明理工大学董扬教授合作,通过结合二代、三代测序方法,得到contigN50=82.8kb,scaffoldN50 = 122.4kb的丹参基因组草图。通过铁皮石斛和丹参复杂基因组组装分析,本文归纳出了一种完整的基于二代、三代基因组测序技术针对高杂合、高重复基因组的组装方法,显示出第三代测序技术在大型复杂基因组de novo组装中的应用前景。

英文摘要Since 1977, the first generation of sanger sequencing technology has been developmented for more than 40 years, the rapid development and revolution sequencing technology has also greatly accelerated biological and biomedical research dramatically. Sanger sequencing technology has the feature of read long and high accuracy, but the high cost and low flux affected its large-scale application. In the last few years, with the wide spread of the second generation sequencing technology which represented by the Illumina Hiseq technology,the cost of sequencing was greatly reduced and the high accuracy were also guaranteed at the same time. The de novo assembly of a variety of animal and plant genomes were proceeded. However, in complex plant genomes, it tend to have high heterozygosity and high repetition, and Hiseq Illumina sequencing technology cannot completely avoid the influence of GC content, making the analysis of complete genome assembly encountered great obstacles. The 3rd generation, SMRT sequencing technology, overcome the GC bias, long in read length, will lead great improvement in complex genome assembly. Here we take the Dendrobium officinale Kimura et for example, in collaboration with Dr. Liang Yan, combining with the second generation of Illumina HiSeq 2000 sequencing technology and the third generation of PacBio sequencing technology, from the point of view of technology to explore the Dendrobium officinale complex genome analysis method. Finally we get the draft genome with contigN50 = 25.1 kb,scaffoldN50 = 76.4 kb, the total amount of sequencing covers more than 94% of dendrobium genome sequence, the function annotates 97.56% of D. officinale protein-coding genes. Meanwhile, we also get the dra ft genome of Salvia miltiorrhiza with contigN50 = 82.8 kb, scaffoldN50 = 122.4 kb. By analyzing D. officinale complex genome assembly, this paper summarized a method for complex genome assembly based on second generation and third generation sequencing technology, which also shows the application prospect of the third generation sequencing technology in large complex genome assembly.
语种中文
源URL[http://159.226.149.26:8080/handle/152453/10197]  
专题昆明动物研究所_基因起源组_学位论文
推荐引用方式
GB/T 7714
王筱. 结合Illumina和PacBio SMRT测序技术对复杂植物基因组组装方法的探究[D]. 北京. 中国科学院研究生院. 2015.

 

目录

  • 摘要

  • 第一章 前言

    • 一、植物基因组

      6-6页
      • 1 基因组的概念

        6-6页
      • 2 植物基因组简介

        6-7页
    • 二、测序技术概览

      7-7页
      • 1 第一代测序技术

        7-8页
      • 2 第二代测序技术

        8-11页
      • 3 第三代PacBio实时单分子测序方法

        11-14页
    • 三、基因组从头组装策略概览

      14-14页
      • 1 基于二代测序技术的主要基因组组装方法

        14-15页
      • 2 结合第三代测序技术的基因组组装方法

        15-17页
  • 第二章 材料与方法

    • 一、材料与主要仪器设备

      17-17页
      • 1 材料

        17-17页
      • 2 主要仪器与设备

        17-17页
    • 二、方法

      17-17页
      • 1 样品的处理

        17-17页
      • 2 DNA制备

        17-18页
      • 3 铁皮石斛基因组Illumina文库构建

        18-19页
      • 4 第二代测序技未测序

        19-20页
      • 5 Hiseq2000测序序列和质量值生成

        20-20页
      • 6 Kmer分析基因组大小

        20-20页
      • 7 PacBio数据的生成

        20-24页
      • 8 结合三代数据的基因组组装

        24-26页
      • 9 基因注释

        26-27页
      • 10 基因组质量评估

        27-27页
      • 11 基因功能注释

        27-27页
      • 12 基因家族鉴定

        27-28页
  • 第三章 结果与讨论

    • 一、铁皮石斛

      28-28页
      • 1 样品的选择与总DNA提取

        28-28页
      • 2 基因测序与质量控制

        28-30页
      • 3 基因组调研结果

        30-32页
      • 4 石斛数据污染检测

        32-37页
      • 5 石斛品种Barcode鉴定

        37-39页
      • 6 GREEN品系二代数据统计

        39-41页
      • 7 基于二代数据的SOAP基因组组装

        41-42页
      • 8 三代数据纠错结果统计

        42-44页
      • 9 基于Pacbio三代数据的PBJelly补洞

        44-46页
      • 10 基因组组装质量评估

        46-48页
      • 11 基因注释

        48-51页
      • 12 基因功能注释

        51-52页
      • 13 铁皮石斛基因家族分析

        52-55页
    • 二、丹参

      55-55页
      • 1 Kmer调研丹参基因组复杂度

        55-55页
      • 2 Miseq PE300结合小片段文库Hiseq测序数据Platanus组装

        55-58页

这篇关于结合Illumina和PacBio SMRT测序技术对复杂植物基因组组装方法的探究的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/204488

相关文章

Java 中的 @SneakyThrows 注解使用方法(简化异常处理的利与弊)

《Java中的@SneakyThrows注解使用方法(简化异常处理的利与弊)》为了简化异常处理,Lombok提供了一个强大的注解@SneakyThrows,本文将详细介绍@SneakyThro... 目录1. @SneakyThrows 简介 1.1 什么是 Lombok?2. @SneakyThrows

判断PyTorch是GPU版还是CPU版的方法小结

《判断PyTorch是GPU版还是CPU版的方法小结》PyTorch作为当前最流行的深度学习框架之一,支持在CPU和GPU(NVIDIACUDA)上运行,所以对于深度学习开发者来说,正确识别PyTor... 目录前言为什么需要区分GPU和CPU版本?性能差异硬件要求如何检查PyTorch版本?方法1:使用命

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Java中的工具类命名方法

《Java中的工具类命名方法》:本文主要介绍Java中的工具类究竟如何命名,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Java中的工具类究竟如何命名?先来几个例子几种命名方式的比较到底如何命名 ?总结Java中的工具类究竟如何命名?先来几个例子JD

Spring Security自定义身份认证的实现方法

《SpringSecurity自定义身份认证的实现方法》:本文主要介绍SpringSecurity自定义身份认证的实现方法,下面对SpringSecurity的这三种自定义身份认证进行详细讲解,... 目录1.内存身份认证(1)创建配置类(2)验证内存身份认证2.JDBC身份认证(1)数据准备 (2)配置依

python获取网页表格的多种方法汇总

《python获取网页表格的多种方法汇总》我们在网页上看到很多的表格,如果要获取里面的数据或者转化成其他格式,就需要将表格获取下来并进行整理,在Python中,获取网页表格的方法有多种,下面就跟随小编... 目录1. 使用Pandas的read_html2. 使用BeautifulSoup和pandas3.

Spring 中的循环引用问题解决方法

《Spring中的循环引用问题解决方法》:本文主要介绍Spring中的循环引用问题解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录什么是循环引用?循环依赖三级缓存解决循环依赖二级缓存三级缓存本章来聊聊Spring 中的循环引用问题该如何解决。这里聊

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处