对snpeff注释的理解性问题3.0版本

2024-01-08 17:50

本文主要是介绍对snpeff注释的理解性问题3.0版本,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

需要做汇报PPT但是PPT不能呈现所有内容,先用文本记录一下。

在了解为什么我们要进行注释之前,我们得了解一下什么叫做snp

1.SNP是什么

不得不说一下我们的snp的来源,生物多样性:生态系统多样性,物种多样性,遗传多态性,其中DNA多态性,Polymorphism at the DNA level includes a wide range of variations from single base pair change, many base pairs, and repeated sequences.

因此,我们知道DNA序列变异的种类(DNA多态性的种类)

1.1        SNP(单个):Single Nucleotide Polymorphism(Commonly used to also include rare variants (SNVs))

1.2        INDEL(小于50bp的小片段的插入缺失称为Indel):Indel is a molecular biology term for an insertion or deletion of bases in the genome of an organism. It is classified among small genetic variations, measuring from 1 to 10 000 base pairs in length...

1.3        VNTR(数目可变串联重复序列),

1.4        SSR(简单重复序列),

1.5        Rearrangement (应该是染色体层面的),

1.6        限制性片段长度多态性(RFLP)

        在我查看资料总结的时候,看了的一些文章

单核苷酸多态性(SNP) - 知乎 (zhihu.com)

生信路漫漫 | 变异检测篇—InDel突变 - 知乎 (zhihu.com)

Science Bulletin | 一个Liddle综合征新SCNN1B基因移码突变的鉴定 (qq.com)

Autosomal Dominant Inheritance - an overview | ScienceDirect Topics

vcf文件中短序列插入缺失(INDEL)标准化 - 简书 (jianshu.com)

        很好我们现在大概能理解SNP是什么意思了,现在我们来知道我们为什么要对SNP进行注释,在此之前我们得认识一下snpeff这个注释软件

2.SnpEff软件

这个是官网Running SnpEff - SnpEff & SnpSift (pcingola.github.io)

至于注释的方法,大家查看我写的另外一篇文章,snpeff注释最全.包括错误分析和理解.2.0版-CSDN博客

 我们知道SnpEff构建基因库,其实需要两个文件,一个是gff文件,一个是fa文件,这个两个文件分别是什么,

gff文件:

基因组注释文件是包含GFF,GTF两种主要格式,用于高通量测序中对已经map到参考基因组的reads做注释。(基因组测序时需要先将基因组打断成DNA片段,然后再建库测序。reads指的是测序仪单次测序所得到的碱基序列)。至于其他了解可以去查看一下这篇文章,目前我没有用到,所以这里不做多的解释。

基因组注释文件(GFF,GTF)下载的四种方法 - 知乎 (zhihu.com)

1.GFF文件(General Feature Format):这是一种常见的基因组注释文件格式,它包含了基因组上的各种生物学特征的位置信息,如基因、外显子、内含子、转录本、蛋白质编码区域等。GFF文件将这些特征以层次结构的形式进行组织,并提供了它们在基因组上的起始位置、终止位置、方向等信息。

fa文件:

我们不得不说

生信分析必须了解的4种文件格式 - 知乎 (zhihu.com)

基因组注释文件(二)| gff 和 gtf文件格式说明 - 简书 (jianshu.com)

2.FA文件(FASTA格式):这是一种常见的DNA或蛋白质序列文件格式,每条序列通常以一个唯一的标识符开始,后面跟着该序列的碱基(DNA)或氨基酸(蛋白质)序列。FA文件提供了基因组的序列信息,用于将变异与基因组序列对应起来。

不管如何说,注释的理由就是(个人理解):从注释的过程中知道SNP具体信息,方便后续操作。

3.其他一些东西

之前我因为报错太多,主要是位点不在染色体范围内报错很多,7%左右,所以我们得验证一下这个是否真的是位点不在染色体范围内,

0.EXCEL表格的方式查找可能会更快,但是我们的数据太大了
1.galaxy的operate on genomic intervals 或者是UCSC的data interagete

本来还有一篇文章的,实在是没找到,下次我遇到了,我在加上去

高通量测序分析——从基因组重测序数据中获取突变信息 - 知乎 (zhihu.com)

Galaxy (usegalaxy.org)

 2.敲代码,寻找这个范围

由于我技术不过关卡了很久,大家可以试试,我改天在尝试一下,下次写出来直接公示

3,最后我是怎么发现的,说实话这是一个玄学,

半夜两三点的时候,我用代码跑linux的时候,无意间看到最后一个是报错信息,也就是说,报错信息会直接体现出来,把注释好的vcf放在在kate里面,不知道说啥,亏我找了那么久,不然我真得通宵了。

4.其他注释的软件和一些相关文献

因为种种原因我还是没有完全使用其他的注释,但是这边我也想记录一下其他注释软件,上面有一篇文章有一些介绍,在这里我汇总一下:

1.SnpEff,

我们就不多说了,snpEFF是一个用于注释单核苷酸多态性(SNP)和小型插入/删除(Indel)的工具具。。它能够根据变异的位置、类型和影响等信息,提供关于这些变异可能的功能效果和相关注释的预测。例如非同义突变、错义突变和无义突变等,根据数据库提供的信息进行变异分类。意思就是,在寻找与疾病相关的遗传变异或解释个体基因组数据中的变异时,通过它可以帮助研究人员更好更快地理解变异对蛋白质结构和功能的影响,从而揭示潜在的影响。

snpEFF的优势在于它具有开放源代码、灵活性高、易于自定义和扩展等特点,

2.ANNOVAR

是由perl编写的程序,学术用途可以免费试用,一个常用的基因变异注释工具,它可以对基因组变异进行功能注释和分类。有机会试一下。

ANNOVAR | 变异注释【上】 - 简书 (jianshu.com)

ANNOVAR 注释|自建数据库 - 简书 (jianshu.com) 

3.vep注释

是由Ensembl开发的一个广泛使用的基因变异注释工具,可以识别和注释各种类型的变异,如单核苷酸变异、插入/删除、结构变异等。VEP还提供了丰富的注释信息,包括变异的功能、频率、疾病相关性等,支持多个数据库源,网上有很多教程。

Tutorial (ensembl.org)

安装VEP及其注释数据库-腾讯云开发者社区-腾讯云 (tencent.com) 

SNP注释神器——VEP(生信)_vep注释_小飞棍来喽~的博客-CSDN博客 

VEP--强大的变异注释工具 | GeneDock 文档 

用 VEP 注释突变数据-腾讯云开发者社区-腾讯云 (tencent.com) 

大底上,conda安装,自建数据库还是需要gff文件,这个我粗略的搜寻一下,好像没有自建数据库的文章,也可能是我查错了,据说是自建不太灵活,过年回去试试。

 4.bedtools

进行gwas基因注释,这可以直接去看邓飞老师的。使用bedtools进行gwas基因注释 - 知乎 (zhihu.com)

下次的学习注释的目标,

1,这几个注释都可以回家没事尝试一下。 

2,Galaxy (usegalaxy.org)

3, UCSC的data interagete

当时看这个的时候就很懵,不太能理解,主要是一下软件的应用以及软件在注释上的一些不同之处。

最后,还说一点,我们得查看一下一些文献,虽然只能是粗略的检索一下

 香菇L808细胞核与线粒体基因组注释分析 - 中国知网 (cnki.net)

基于高效SNP芯片的小麦产量相关性状全基因组关联分析 - 中国知网 (cnki.net) 

对全球鸡种群的精细结构和混合的研究揭示了种群与育种史上重要事件之间的联系 - PMC (nih.gov)

实在是没啥好看的,我看得过于混乱, SnpEff注释和其他注释软件的一些文章

CooVar:共现变异分析仪 |BMC 研究简报 |全文 (biomedcentral.com)

Variant Classification: A comparison of Annovar, SNPeff and VEP (goldenhelix.com)

主要是我并不知道,这个注释的基因在我们整个文章中怎么使用, 缺乏检索能力。

 

 

这篇关于对snpeff注释的理解性问题3.0版本的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/584317

相关文章

MySQL主从同步延迟问题的全面解决方案

《MySQL主从同步延迟问题的全面解决方案》MySQL主从同步延迟是分布式数据库系统中的常见问题,会导致从库读取到过期数据,影响业务一致性,下面我将深入分析延迟原因并提供多层次的解决方案,需要的朋友可... 目录一、同步延迟原因深度分析1.1 主从复制原理回顾1.2 延迟产生的关键环节二、实时监控与诊断方案

SQLyog中DELIMITER执行存储过程时出现前置缩进问题的解决方法

《SQLyog中DELIMITER执行存储过程时出现前置缩进问题的解决方法》在SQLyog中执行存储过程时出现的前置缩进问题,实际上反映了SQLyog对SQL语句解析的一个特殊行为,本文给大家介绍了详... 目录问题根源正确写法示例永久解决方案为什么命令行不受影响?最佳实践建议问题根源SQLyog的语句分

解决IDEA报错:编码GBK的不可映射字符问题

《解决IDEA报错:编码GBK的不可映射字符问题》:本文主要介绍解决IDEA报错:编码GBK的不可映射字符问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录IDEA报错:编码GBK的不可映射字符终端软件问题描述原因分析解决方案方法1:将命令改为方法2:右下jav

MyBatis模糊查询报错:ParserException: not supported.pos 问题解决

《MyBatis模糊查询报错:ParserException:notsupported.pos问题解决》本文主要介绍了MyBatis模糊查询报错:ParserException:notsuppo... 目录问题描述问题根源错误SQL解析逻辑深层原因分析三种解决方案方案一:使用CONCAT函数(推荐)方案二:

Redis 热 key 和大 key 问题小结

《Redis热key和大key问题小结》:本文主要介绍Redis热key和大key问题小结,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、什么是 Redis 热 key?热 key(Hot Key)定义: 热 key 常见表现:热 key 的风险:二、

IntelliJ IDEA 中配置 Spring MVC 环境的详细步骤及问题解决

《IntelliJIDEA中配置SpringMVC环境的详细步骤及问题解决》:本文主要介绍IntelliJIDEA中配置SpringMVC环境的详细步骤及问题解决,本文分步骤结合实例给大... 目录步骤 1:创建 Maven Web 项目步骤 2:添加 Spring MVC 依赖1、保存后执行2、将新的依赖

Spring 中的循环引用问题解决方法

《Spring中的循环引用问题解决方法》:本文主要介绍Spring中的循环引用问题解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录什么是循环引用?循环依赖三级缓存解决循环依赖二级缓存三级缓存本章来聊聊Spring 中的循环引用问题该如何解决。这里聊

Spring Boot中JSON数值溢出问题从报错到优雅解决办法

《SpringBoot中JSON数值溢出问题从报错到优雅解决办法》:本文主要介绍SpringBoot中JSON数值溢出问题从报错到优雅的解决办法,通过修改字段类型为Long、添加全局异常处理和... 目录一、问题背景:为什么我的接口突然报错了?二、为什么会发生这个错误?1. Java 数据类型的“容量”限制

关于MongoDB图片URL存储异常问题以及解决

《关于MongoDB图片URL存储异常问题以及解决》:本文主要介绍关于MongoDB图片URL存储异常问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录MongoDB图片URL存储异常问题项目场景问题描述原因分析解决方案预防措施js总结MongoDB图

SpringBoot项目中报错The field screenShot exceeds its maximum permitted size of 1048576 bytes.的问题及解决

《SpringBoot项目中报错ThefieldscreenShotexceedsitsmaximumpermittedsizeof1048576bytes.的问题及解决》这篇文章... 目录项目场景问题描述原因分析解决方案总结项目场景javascript提示:项目相关背景:项目场景:基于Spring