2019-12-01 13:27:43 热度:

nanopore测序技术专题(三十):组装结果优化原理

选取得到最佳的拼接结果之后,接下来要做的事情就是对其进行结果优化,因为我们前面介绍过,由于三代测序目前测序错误较高,我们采取的策略是先拼接,在优化的方案。而不是采用提前纠错的方案。因为提前纠错需要消耗更多的时间。当然,也可以尝试组装前纠错的方案,然后比较哪种方案更合适,不要那么教条,自己便秘,别怪地球没引力。

为什么需要对组装结果进行矫正(polishing)?

由于三代nanopore测序质量比较低,原始数据中存在大量测序错误,即使拼接前进行了纠错,组装结果中仍会存在错误,用长读长或短读长的数据对组装结果进行矫正可以,提高准确率,减少Miscalls,Indels,改善由错装(mis-assemblies)导致的低比对区域。因此,序列拼接完需要对拼接结果进行优化,根据文献报道,经过polish之后,拼接结果与真实基因组(其他测序数据拼接结果)的一致性可以达到99.99%以上。即使组装工具带有纠错更能,仍建议再次进行一轮或多轮的矫正。

为什么需要对组装结果进行多伦矫正(polishing)?

这是因为nanopore数据主要的错误来自于插入与缺失,每次将测序数据与拼接基因组比对能够发现一些错误。下一轮数据与纠错后的序列重新比对,可以发现新的错误,这样经过多伦之后,就可以逐渐减少错误。目前常用的常用纠错工具主要包括medaka,pilon,racon,nanopolish,nextpolish等,可以利用三代测序进行纠错,也可以加入二代数据进行纠错。由于三代测序的数据在前面拼接过程中已经用过一次了。这个时候如果加入二代测序数据可以对单碱基突变进行很好的修正,达到更好的纠错效果。

组装结果优化原理

组装结果的优化原理其实非常简单。简单来说就是少数服从多数的原则。不管是使用二代数据还是三代数据,首先都是将测序数据与待纠错的拼接结果进行比对,“堆叠”到基因组装上,这样就得到了每个位点的比对细节,然后根据每个位点的一致性信息进行修正。

纠错前后比较

组装结果优化主要可以修正一些拼接错误的单碱基位点和一些小的Indel,我们可以使用Mummer软件包中dnadiff工具将纠错前后的序列进行基因组的比对。dnadiff会直接给出一个统计报告,里面会列出两条序列之间差异的部分,然后我们可以使用mummerplot工具对统计进行进行初略的可视化。

#拼接结果优化前后比较dnadiff  ../before.fasta after.fasta mummerplot --filter --png -p all out.deltagnuplot all.gp

-i输入测序reads-d需要纠错的拼接结果-o输出结果文件-m芯片类型-t并行计算

更多细节,上海滩见

如果如果您想亲自完成上面数据分析的操作步骤,想了解更多文字中没有介绍到的细节信息,欢迎参加我们下个月在上海举办的nanopore测序技术培训班,时间2019年12月20日~22日(分析培训),23-24(实验培训)更多细节,请点击图片链接。

 

nanopore测序技术专题组装结果优化原理

推荐阅读

DNA编码的有限价纳米粒子在可编程自组装过程中发生的可逆聚合样动力学现象
分子聚合反应与纳米粒子自组装之间具有相似性,这种相似性为可靠预测纳米粒子组装体的结构特性提供了一种独特的方法。 然而,由于DNA链的杂化和去杂化的存在,要定量阐明DNA编码纳米粒子的可编程自组装动力学仍然具有挑战性。 本文建立了一个理论-模拟计算相结合的方法来解释带有互补DNA链表面编码的有限价纳米粒子的可编程自组装机制和动力学。 结果表明,DNA编码的纳米粒子可以形成各种各样的自组装超结构,如线性链、溶胶和纳米粒子凝胶。 本文还从理论上证明,有限价的DNA编码纳米粒子的可编程自组装符合聚合物学科中的可逆...[详细]
2019-12-10
nanopore测序技术专题39:利用busco评估拼接结果
前面介绍了quast用来比较不同拼接结果的好坏,这次内容我们再来介绍另外一种方法,利用busco评估拼接结果。busco主要是与已知参考的库比对,比对上的越多,说明拼接结果越好。 BUSCO BUSCO(BenchmarkingUniversalSingle-CopyOrthologs)主要用于转录组和基因组组装质量进行评估的软件。BUSCO对拼接结果的评估与quast不同,它并不追求基因组拼接的长度,而关注的是是否将一些单拷贝直系同源基因拼接出来。在相近的物种之间总有一些保守的序列,而BUSCO就是使用...[详细]
2019-12-10
nanopore测序技术专题(三):选择适合你的测序设备
nanopore是非常适合实验室单独运行的测序设备,无需投入大量资本。而不像二代测序,需要昂贵的购买测序仪成本以及运行成本。也许在不久的将来,测序仪将如PCR仪一样普通飞入寻常百姓家。这次内容我们将给大家介绍一下最新的nanopore测序相关产品。 注:本次内容全部来自nanopore官网产品近期介绍,经常会更新,更多内容大家可以自行去nanopore官方查看,或者联系他们公司人员,本次内容无广告赞助(哈哈哈)。产品介绍:https://nanoporetech.com/cn/products查看价格:h...[详细]
2019-12-09
nanopore测序技术专题38:不同平台数据混合拼接
很多人都最好一次性解决问题,一个试剂,一次测序,一个软件,运行一次就彻底解决问题。然后文章发表,破格提拔,荣升教授,千万经费醒醒吧。如果这么容易,能轮到你吗。谁都可以做,还用你苦心孤诣的去搞科研干嘛。很多内容都需要不同的尝试。目前拼接基因组也是一样,很难一次性得到完美的结果,都需要采用不同的策略,不停尝试,直到得到比较完美的结果。 不同的拼接策略 当前技术条件下,每一种测序平台都有独有的技术优势,因此,要想重复利用每一种结束平台的优势,取其所长,这样才能达到最佳的效果。例如对同一样品,分别进行了二代ill...[详细]
2019-12-09
nanopore测序技术专题37:拼接拟南芥基因组
前面内容我们演示软件拼接一个细菌的基因组,这次内容我们来拼接一个植物的基因组。众所周知,植物的基因组由于多倍体,高度杂合以及高度重复,因此,难度很大,不过拟南芥由于是模式生物,并且基因组比较小,因此,难度并不大。做事情一步步来,不需要上来就调整难度最大的基因组。而且,现在即使使用了nanopore数据,想要拼接出完整基因组难度还是很大的。 拼接拟南芥基因组 这个案例来自于去年NatureCommunication的一片一篇文章,《HighcontiguityArabidopsisthalianagenom...[详细]
2019-12-08
nanopore测序技术专题35:利用BRIG可视化多个拼接结果
前面我们使用mummerplot以及dotPlotly对基因组进行可视化,这种共线性图比较简单,也比较粗糙,这次内容,我们介绍一款使用比较简单的基因组圈图比较工具Brig,其实这个软件已经很多年了,记得我上一次使用它还那遥远的2012年,这么来看,从事生物信息都快10年了,要不也搞一个我的生信XX周年全国巡演。 BRIG软件介绍 BRIG的全称为BLASTRingImageGenerator,是一款跨平台的绘制基因组圈图的工具,由于是使用java写的,所以轻松实现了跨平台。根据名字就可以看到,BRIG使用...[详细]
2019-12-07
nanopore测序技术专题35:利用BRIG可视化多个拼接结果
前面我们使用mummerplot以及dotPlotly对基因组进行可视化,这种共线性图比较简单,也比较粗糙,这次内容,我们介绍一款使用比较简单的基因组圈图比较工具Brig,其实这个软件已经很多年了,记得我上一次使用它还那遥远的2012年,这么来看,从事生物信息都快10年了,要不也搞一个我的生信XX周年全国巡演。 BRIG软件介绍 BRIG的全称为BLASTRingImageGenerator,是一款跨平台的绘制基因组圈图的工具,由于是使用java写的,所以轻松实现了跨平台。根据名字就可以看到,BRIG使用...[详细]
2019-12-06
nanopore测序技术专题34:dotPlotly比较优化前后结果
前面介绍了利用dnadiff+mummerplot比较优化前后结果,mummerplot的图不太好看,这次我们利用dotPlotly软件绘制优化前后基因组之间的差异。 dotPlotly dotPlotly是一个利用R语言绘制交互式的绘图脚本,可以绘制类似mummerlplot的共线性图,比mummerplot的图更加精细,由于调用了shiny,可以生成交互式的网页文件。输入文件可以是mummer中nucmer比对的结果,minimap2比对生成的paf格式结果等软件官网:https://github.c...[详细]
2019-12-05
nanopore测序技术专题33:利用racon对组装结果纠错
这次内容我们介绍一下基因组优化的工具racon,相比于medaka和pilon,racon在易用性和运行速度方面表现的更好,目前一般文献中都是使用pilon,然后在使用racon进行多轮纠错,最终得到比较好的拼接结果。 racon racon是一款用于基因组纠错的软件,既可以用于三代数据也可以用于二代数据的纠错。racon的运行速度比较快。racon既可以用于nanopore拼接结果,也可以用于pacbio数据拼接结果。此外,软件中还可以提供了一个racon_wrapper.py脚本,可以对输入文件进行拆...[详细]
2019-12-04
nanopore测序技术专题32:利用pilon组装结果优化
这次内容我们来介绍另外一款拼接结果polish的工具pilon。其他没什么好说的了,直接看下面内容了。 pilon pilon是由broadinstitute研究所开发的纠错工具,输入原始拼接结果以及原始测序数据比对到拼接结果的bam文件即可。pilon通过比对后的bam文件,可以识别拼接中非一致性的序列,包括单碱基的不同,小的indel,大的indel,后者空位gap,以及错误拼接的区域。输入的bam可以来自于二代测序数据的比对,也可以来自于三代测序数据比对得到的bam,bam文件需要排序并建立索引。 ...[详细]
2019-12-03
nanopore测序技术专题31:利用medaka组装结果纠错
上次内容我们介绍了基因组优化polish的一些原理,这次内容我们以及后面两节内容,我们将演示几款polish工具,包括medaka,pilon以及racon等。虽然,优化可以提高改善拼接的质量,但其实如果一次就能拼接出很好的基因组,就无需优化这个过程了,这个过程只能算作锦上添花的作用,但是目前还做不到,希望随着nanopore测序质量逐渐提高,后面不在需要这个优化过程了。 medaka medaka是nanpore官方出的一款工具(这又是什么鱼,不知味道如何),它是一个基于叠加序列的一致性序列修正工具。M...[详细]
2019-12-02
nanopore测序技术专题(三十):组装结果优化原理
选取得到最佳的拼接结果之后,接下来要做的事情就是对其进行结果优化,因为我们前面介绍过,由于三代测序目前测序错误较高,我们采取的策略是先拼接,在优化的方案。而不是采用提前纠错的方案。因为提前纠错需要消耗更多的时间。当然,也可以尝试组装前纠错的方案,然后比较哪种方案更合适,不要那么教条,自己便秘,别怪地球没引力。 为什么需要对组装结果进行矫正(polishing)? 由于三代nanopore测序质量比较低,原始数据中存在大量测序错误,即使拼接前进行了纠错,组装结果中仍会存在错误,用长读长或短读长的数据对组装结...[详细]
2019-12-01
nanopore测序技术专题(二十九):选择最佳的比对结果
前面我们有用6款工具来进行基因组的拼接,每款软件都可以选择不同的选项参数,使用不同的数据量,这样最后一生二,二生三,三生万物,就会有很多的拼接结果,那么哪一条才是最好的呢,你问我,我怎么知道呢?难道我能隔着几千里给你掐指算一下吗。而且基因组拼接这件事,本来就缺少准确的参考标准。那么我们只能将多个结果放在一起进行评估,假设一段区域,n-1的软件都一致,只有一款不一致,那我就认为这里拼错了。那么有没有可能其他软件都错误,而只有这个软件拼正确呢,有可能,不过概率低。大家都穿正常衣服上街,你非得穿比基尼,你说谁有...[详细]
2019-11-30
nanopore测序技术专题(二十八):fasta文件格式介绍及处理
前面我们通过很多拼接软件,对nanopore数据进行了基因组拼接,最终都可以得到基因组序列,都是fasta格式。接下来就需要对这个fasta格式进行一些统计处理,这里推荐继续使用seqkit或者seqtk工具,与前面处理fastq格式类似,这两个工具大部分情况下可以同时处理两种格式文件。 fasta格式文件 FASTA文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等,是最常见的生物序列格式,一般以扩展名fa,fasta,fna等。 NP_214518.1hypotheticalpro...[详细]
2019-11-29
nanopore测序技术专题(二十七):flye拼接基因组
前面已经介绍了canu,miniasm,smartdenovo,wtdbg2以及NextDenovo,这次我们来介绍最后一款flye工具。怎么到这里就结束了,不是还有ra,necat,tulip,Unicycler,masurca等工具吗,我不会介绍每一款工具,其实也没必要,很多工具都差不多。而且这面有些工具是我一次没安装成功的,如果一次没安装成功我就不会去使用它了,为什么呢?道理很简单,一般来说,这个工具用户安装复杂,就说明这个开发者计算机水平不怎么样,计算机水平不怎么样的人开发的工具你敢相信吗。这是不...[详细]
2019-11-29
nanopore测序技术专题(二十六):NextDenovo拼接基因组
前面我们介绍过的miniasm,smartdenovo,wtdbg2其实都是中国人写的拼接软件。这次我们再来介绍一款同样国人写的NextDenovo拼接工具。笔者绝对不是狭隘的民族主义者,每个民族都有自己优秀的文化和缺点,这是多少的问题。这几款国产软件运行速度都可以,我在想是不是这方面体现出了我们的中国速度,正如知乎上所说的中国人参与全球化,老外的好日子到头了。当然,这只是一句玩笑,我们一直心系天下,要构建人类命运共同体,基因科技,造福人类。 NextDenovo NextDenovo拼接软件是由北京希望...[详细]
2019-11-27
nanopore测序技术专题(二十五):wtdbg2拼接基因组
上次内容我们介绍了阮珏的大作smartdenovo,今天我们再来介绍一下大神另一部大作wtdbg2。有人可能好奇,一个人能写出一个拼接软件已经很厉害了,怎么又写出一个。世界就是这么奇妙,你没看JonathanRothberg大神一个人就发明了454和IonTorrent两款测序仪吗。所以,那些比你优秀的人,一般都比你聪明,而且比你还努力,更气人的是长的还比你漂亮。 wtdbg2 wtdbg2是阮珏写的另外一个拼接软件,可以用于PacBio或OxfordNanoporeTechnologies(ONT)数据...[详细]
2019-11-26
nanopore测序技术专题(二十四):smartdenovo拼接基因组
前面介绍的canu与miniasm,从运行时间上来说,一个特别慢,一个特别快。运行慢的canu结果相对准确一些,运行快的miniiasm容易引入更多错误,所以,需要一个平衡状态。这很正常吗,你又想马儿跑,又想马儿不吃草,你以为你是老板呀。这次我们来介绍一下smartdenovo拼接工具。 smartdenovo smartdenovo由阮珏开发的用于PacBio和nanopore数据的拼接工具。该软件不经纠错过程,可以直接对原始数据进行all-vs-all比对进行拼接,软件提供了一个生成准确一致序列的工具...[详细]
2019-11-25
nanopore测序技术专题(二十三):miniasm拼接基因组
上次推文我们介绍利用canu软件拼接nanopore数据,已经有人在后天留言这个软件使用起来受益率不高,因为canu软件太消耗资源了,我们拼接一个4.5M的基因组,只使用了800多M数据,耗时3天多,这主要是canu需要很大的计算资源用户数据纠错步奏。虽然对数据纠错可以提高数据拼接的准确性,但是假设拼接一个比较大的基因组,如果使用canu,由于太消耗资源,硬件资源不够,就无法完成工作了。而如果只是想快速拼接出序列进行微生物快速鉴定,使用canu也显然不划算。根据经验,目前比较好的方案是先构建基因组框架,然...[详细]
2019-11-24
nanopore测序技术专题(二十二):利用canu拼接nanopore测序数据
在接下来的一段时间内我们将具体演示一些nanopore数据拼接的软件,只要正确安装好软件,输入数据,然后等待结果就行,操作过程是非常容易的。真的这么容易吗?当然不是,劝你提前放弃一次性拼接好基因组的想法,基因组拼接是一项艺术和技术性的工作,需要多次尝试,直到拼出最好的基因组,正所谓操千曲而后晓声,观千剑而后识器。 canu软件介绍 canu是一款流行的三代测序数据拼接软件,适用于Pacbio与nanopore测序数据。canu软件其实具有悠久的历史,虽然只发表与2017年,但其源于著名的CeleraAss...[详细]
2019-11-23
nanopore测序技术专题(二十一):nanopore基因组拼接
终于到了基因组拼接这部分,我想目前很多人做nanopore测序,有很大一部分就是用来做基因组的拼接,要利用nanopore测序的长度长特点,nanopore的长读长测序将会给基因组拼接带来实质性的改变。 很多人已经等不及了,拿到nanopore测序数据之后马上就想利用软件开始拼接,其实不用急,想要改善一个面包的质量,要从面粉,麦子,甚至土壤环境等改善起,所以,前戏很重要。 为什么基因组不好拼接 在正式开始拼接基因组之前,我们先来回答几个非常重要的问题。 为什么基因组不好拼接?一个物种的基因的基因组包含了其...[详细]
2019-11-22
nanopore测序技术专题(二十):tablet可视化比对结果
所谓耳听为虚,眼见为实,很多时候,自己用眼睛亲自看过才比较可靠。而tablet就是一款可视化高通量数据的一款软件,我们可以通过该软件直接看到每个位点的比对细节,例如该位点被测序了多少次,每个碱基具体是什么,记得还在深圳工作的时候,我们经常使用这款软件一点点检测利用二代测序做出的细菌基因组完成图连接的是否正确,一看就是1个多小时,导致晚上做梦满脑子都是花花绿绿的碱基,这算是工伤。 tablet安装 tablet可以用于基因组的可视化,例如可以查看拼接结果每个位点的细节信息,例如有多少位点覆盖以及每个位点具体...[详细]
2019-11-21
nanopore测序技术专题(十九):利用samtools处理sam格式文件
minimap2比对出来的结果为paf或者sam格式,paf用于序列拼接那里,sam是更为常用的格式,这里的sam格式与二代测序得到的sam类似,但又有一些不多,例如第六列比对结果的CIGAR字符串就比较乱,而二代测序比较工整。比对得到的不能直接使用,必须经过转换bam,排序,建立索引三大步骤。这次内容我们就来系统介绍一下如何处理sa格式文件。 sam格式文件 sam文件是一种列表格式,用来记录reads比对到基因组上的信息,包括哪一条reads,比对到哪条基因组上的哪个位置,是一对一比对还是一对多比对,...[详细]
2019-11-20
nanopore测序技术专题(十八):minimap2比对
马克思主义哲学教导我们要抓住事物发展的主要矛盾,那么对于高通量测序来说,以二代测序illumina为例,将测序数据比对到基因组上就是核心分析步奏。而nanopore测序也是同样的步奏。但是由于二代数据和三代数据有显著的差别,例如读长不同,测序错误率不同,因此,这个比对过程也会有很大的差异,需要开发不同的算法,使用不同的软件了但没变的是作者还是同一人呀。 序列比对 二代测序的核心步奏就是将测序得到的数据重新比对到基因组上,这个基因组可以是通过测序数据拼接得到的,也可以是近源参考序列。这个过程叫做短序列比对,...[详细]
2019-11-20
Hg2+检测方法:一种基于3D DNA纳米轨道的汞离子快速可视化检测方法
Hg2+是一种分布广泛的重金属,进入环境后很难降解,可通过生物富集作用在动物或人体内积累,对人体健康具有极大的危害。因此,建立一种快速、灵敏、特异性的Hg2+的检测方法是非常必要的。 传统的Hg2+检测方法主要包括原子吸收光谱法(AAS)、原子荧光光谱法(AFS)等,方法灵敏、检出限低,但一般需要大型仪器和专业的操作人员,检测周期长,费用高。传感器检测法可弥补仪器分析法的不足,具有易于修饰、成本低、结构稳定、特异性强等优点。但是大多数基于分子生物学的方法仍具有一定的局限性,因为会涉及分子修饰或一些需要依赖...[详细]
2019-11-18
nanopore测序技术专题(十七):利用filtlong对数据进行过滤
filtlong是另外一款可以过滤nanopore数据的软件,与NanoFIlt相比更加好用一些,至少不用进虚拟环境中运行了。我们每做一步分析都尽量多尝试几种方法,通过不同方法的比较来评估方法可靠性,所谓的双保险。但是并不是所有人都这样想的,对于部分有选择困难症的患者,会像钟表理论一样看两支手表反而不知道时间了。 软件安装 filtlong也是可以一款用于过滤nanopore测序数据的软件,虽然叫做fillter+long,但其实不仅是根据过滤长片段,(软件作者起名字也好难呀)。它可以用于过滤固定长度序列...[详细]
2019-11-18
nanopore测序技术专题(十六):利用NanoFilt对数据进行过滤
数据质控之后,我们得到nanopore数据长度和平均质量的分布,例如平均质量值低于Q7的占有多少比例。有了这些指标之后,接下来就可以对数据进行过滤了。数据类似于处理食材,需要将不好的食材去掉,这样才能做出精致可口的菜肴,所以,不懂计算机的生物学家不是一个好厨子。 安装NanoPlot NanoFilt顾名思义,是用来过滤nanopore测序数据的,它来自于nanopack包,我们前面已经安装过,当时是在虚拟环境中安装的,现在要使用该软件,则需要进入虚拟环境中来使用。也可以单独安装。 #激活虚拟nanopa...[详细]
2019-11-17
nanopore测序技术专题(十五):利用NanoPlot进行数据质控
对于二代测序,可以使用fastqc软件对数据进行全面的统计绘图。但是由于二代测序(主要指illumina)独特的特性,例如读长长度一致,有可能包含adapter和Duplication等。因此,虽然同样是fastq格式文件,但并不太适合用来处理nanopore数据,里面的一些质控指标并不适用。那么有没有类似于fastqc的软件来处理nanopore数据呢,目前看起来NanoPlot软件比较好用的nanopore数据质控软件。 NanoPlot绘制质控图 NanoPlot可以用来对nanopore数据进行统...[详细]
2019-11-16
nanopore测序技术专题(十四):nanopore测序质量怎么样
前面我们介绍过目前的nanopore测序质量一般,那么测序质量到底如何,则需要进行量化,也就是数据质控分析。数据质控是数据分析中非常重要的步奏,严格来说,数据分析中的每一步都需要进行数据质控,否则可能得到假阳性后者假阴性的结果,最终得到错误的结论。二代测序的数据质控目前已经非常成熟了,三代nanopore数据该如何进行质控呢,这次内容我们就来介绍一下。 当前nanopore测序质量虽然有很大的改善,但准确性依然不及二代测序,例如illumina或者BGIseq等。前面介绍过,目前主流的R9.4芯片准确性在...[详细]
2019-11-15
nanopore测序技术专题(十三):病原微生物快速鉴定
利用nanopore其便携性,建库方便,实时测序等特点,非常适合现场操作。例如当前利用nanopore测序仪已经在野外,高山,冰川,外太空等复杂环境中进行了实时进行鉴定。通过基因组来快速鉴定微生物。主要是通过测序数据与已知数据之间进行快速的序列比对,寻找二者之间基因组上的差异,以及亲缘关系,是否具有共有以及特有基因等。可以利用全基因组测序也可以测全长16S等,根据不同的实验目的选择合适的方法。 微生物快速鉴定原理 一般来说,序列越长则具有越高的唯一性,利用nanopore的长读长特性,可以不用拼接,直接用...[详细]
2019-11-15
nanopore测序技术专题(十三):病原微生物快速鉴定
利用nanopore其便携性,建库方便,实时测序等特点,非常适合现场操作。例如当前利用nanopore测序仪已经在野外,高山,冰川,外太空等复杂环境中进行了实时进行鉴定。通过基因组来快速鉴定微生物。主要是通过测序数据与已知数据之间进行快速的序列比对,寻找二者之间基因组上的差异,以及亲缘关系,是否具有共有以及特有基因等。可以利用全基因组测序也可以测全长16S等,根据不同的实验目的选择合适的方法。 微生物快速鉴定原理 一般来说,序列越长则具有越高的唯一性,利用nanopore的长读长特性,可以不用拼接,直接用...[详细]
2019-11-14
nanopore测序技术专题(十二):fastq文件探索
得到fastq格式的nanopore测序数据就可以开始分析了,但是先别急,我们需要先对fastq格式文件进行一下处理,先不要着急拿过来就开始分析,我见过很多人,拿过来数据之后就开始做拼接,然后就等着错误的结果,然后在使用更多时间来找原因。心有猛虎,也要细嗅蔷薇。 fastq文件格式 fastq格式是一种包含质量值的序列文件,其中的q为quality,一般用来存储原始测序数据,扩展名一般为fastq或者fq。目前illumina测序,BGISEQ,IonTorrent,pacbio,nanopore都以fa...[详细]
2019-11-13
nanopore测序技术专题(十一):下载练习数据
如果想要分析nanopore的数据,又没有测序仪测序,该如何进行练习呢?其实这个不难,目前网上有很多已经公开发布的nanopore测序数据,涵盖多个物种,多种测序平台。nanopore官方社区有数据发布的连接,可以从里面下载到原始的fast5格式,也可以从NCBISRA数据库进行下载。这次内容我们就来介绍一下如何下载练习数据。 SRA数据库 网址:https://www.ncbi.nlm.nih.gov/sra/SRA(SequenceReadArchive)数据库是NCBI用于存储二代测序的原始数据,包...[详细]
2019-11-13
Ahjeong Son:截断适配体纳米适配体法高灵敏度检测双酚A
双酚A(BPA)(2,2-双(4-羟基苯基)丙烷)在化学工业中广泛用于聚碳酸酯塑料和环氧树脂的合成。BPA的广泛使用也引起了人们对其对食品安全和环境健康影响的严重关注。BPA被发现存在人体血液、组织、血清和尿液中。作为一种具有雌激素活性的内分泌干扰化合物,双酚a通过干扰雌激素受体结合过程来干扰内分泌系统,所以设计灵敏的生物传感器去检测双酚A在实际应用中具有很强的意义。 先前基于适配体的检测方法的性能改进主要局限于材料、传感器平台和分析程序的变化,然而,适配体本身的设计缺乏改进。基于适配体的检测方法的性能在...[详细]
2019-11-12
nanopore测序技术专题(十):安装所需软件
纸上得来终觉浅,绝知此事要躬行,做生物信息,必须亲自上手才行,否则就会陷入一看啥都会,一做都不对的怪圈。而且,很多科学研究中的重要内容,都隐藏在细节当中,只有在不断的实践中才能发现科学的奥秘,科学研究就是一个不断探索的过程。从这次内容开始,我们将进入nanopore数据分析实战阶段。Areyouready? 软件列表 目前适合nanopore数据分析的软件已经有不少了,虽然没有二代测序多,但是也足够用,而且很多软件并部分测序平台,只要是固定的文件格式即可。下面给出了一些常用的nanopore数据分析的软件...[详细]
2019-11-11
nanopore测序技术专题(九):利用minion_qc绘制质控图
前面我们提到过利用guppy进行碱基识别后生成一个sequencing_summary.txt文件,这个文件是列表格式的统计结果,R语言最喜欢列表格式了,直接使用R可以对这个列表进行统计绘图。其实如果使用官方的MinKNOW软件自带这些绘图功能,如果是自己进行的碱基识别,可以使用minion_qc来进行统计绘图,非常的容易,其实后面我们介绍的NanoPlot也可以使用这个文件绘图。 软件安装 软件官网:https://github.com/roblanf/minion_qc这个工具其实就是一个R脚本,在R...[详细]
2019-11-11
nanopore测序技术专题(九):利用minion_qc绘制质控图
前面我们提到过利用guppy进行碱基识别后生成一个sequencing_summary.txt文件,这个文件是列表格式的统计结果,R语言最喜欢列表格式了,直接使用R可以对这个列表进行统计绘图。其实如果使用官方的MinKNOW软件自带这些绘图功能,如果是自己进行的碱基识别,可以使用minion_qc来进行统计绘图,非常的容易,其实后面我们介绍的NanoPlot也可以使用这个文件绘图。 软件安装 软件官网:https://github.com/roblanf/minion_qc这个工具其实就是一个R脚本,在R...[详细]
2019-11-10
nanopore测序技术专题(八):利用guppy进行碱基识别
目前,绝大部分的生物信息分析是从原始测序的fastq格式文件开始的。而nanopore可以保存为fast5格式,对于这种格式,上一次推文我们已经介绍过了。MinKNOW软件是可以直接进行basecalling输出fastq格式文件的。但是这个过程比较耗时,如果使用MiniION,是很难在笔记本电脑上进行实时的basecalling的。可以将测序完成的fast5文件传输到更大的计算设备上进行处理。如果你只是要做基因组拼接,直接得到fastq文件就行。但有些人缺乏安全感,管他有用没用,觉得信息越多越好,还是想...[详细]
2019-11-09
双11,选择一款适合做生物信息的笔记本
所谓工欲善其事,必先利其器,选择一款好的笔记本电脑来做生物信息是非常有必要的,何况通哥有句名言用一台比较快的电脑,等于延长了生命。作为混迹数码行业10多年的人来说,对各种科技产品当然是了如指掌,如数家珍。前段时间还有人咨询我如何选择一台好的笔记本,正好最近又看到圈内有人求助,这次就让被生物信息耽误的数码编辑带大家选择称心如意的笔电产品吧。 尽量不要用笔记本来跑数据 题目说是推荐适合做生物信息的笔记本电脑,又说尽量不要用笔记本来跑数据,这不是矛盾吗?是的。虽然不能用来跑数据,但是用来练习总是可以的。跑数据尽...[详细]
2019-11-09
nanopore测序技术专题(七):测序结果文件介绍
前面我们已经介绍了很多关于nanopore测序的一些内容,希望你能够对于nanopore测序有所了解。从这次内容开始对数据分析部分进行介绍,至于如何提取你样品的DNA,这部分涉及内容很多,不同的样品有不同的处理方法,我不了解你研究的项目,也不感兴趣,我要是感兴趣就没你什么事了。所以,这部分自己摸索,科学就是不断探索的过程。至于拿到DNA如何建库测序,可以参加nanopore官方提供的实验培训,好像9000多一天,听起来挺贵,但其实可以自带样品测序。如果有需要,自己去关注吧。 获取nanopore测序数据 ...[详细]
2019-11-08
Xshell6的正确打开方式
远程连接服务器的工具有很多,一般都是支持ssh协议,例如putty,mobaxterm,SSHSecureShellClient,secureCRT,这其中我认为最好用的就是Xshell了,不过xshell是收费的,人民币大概899,加上xftp一起购买应该是1299。收费的东西一般都比较好用。不过xshell对于学生可以免费申请使用。 安装 软件只有windows版本,安装比较容易,直接下一步下一步就可以了。 登录设置 登录服务器需要IP地址,账户,密码 1、选择新建会话,在名称中设置一个别名,便于区分...[详细]
2019-11-08
nanopore测序技术专题(六):测序错误率太高无法使用?
十二年前,你嫌illumina测序错误率高,不愿第一个吃螃蟹;七年前,你嫌pacbio的错误率高,觉得应该在等等;四年前,你担心国产的BGIseq错误率高,不愿尝试;现在你还是害怕nanopore测序错误率高,怕投入失败,决定还是坚守二代,等后面测序质量提高的吧。对不起,君生我未生,我生君已老。而且不仅为你写诗,还为你点歌:爱一个测序仪好难 测序错误太高怎么办 按我对测序仪的评价标准,准确性第一位,测序读长第二位,然后是通量,价格,建库测序简易型。为什么准确性第一位,因为如果碱基准确,会给数据分析带来极大...[详细]
2019-11-07
nanopore测序技术专题(五):建库测序
所谓建库测序就是对测序的DNA进行一些处理,是一个格式化的过程,需要将DNA处理成固定的模式才可以。例如需要给原始的DNA加上A碱基,接头,测序引物,index或者barcode标签等。建库测序是DNA测序过程中非常重要的一个环节,可以说直接影响到测序质量,建库效果不好,测序质量不可能好。 DNA提取 纳米孔可以测序DNA本身长度的读长,这就需要原始DNA具有的长度。因此,在测序之前能够提取到相对完整的DNA比较重要。由于不同物种DNA提取方法不同,这就需要依据一些不同样本提取的经验方法。例如植物基因组具...[详细]
2019-11-07
用于食源性致病菌检测的DNA适体传感器研究进展
食源性致病菌,例如沙门氏菌,链球菌,大肠杆菌和弧菌属,是通过食物污染和扩散而引起传染病的有害物种。常见的感染并发症,包括急性胃肠炎腹泻,头痛,呕吐甚至死亡。世界卫生组织宣布,全球每年有数十亿人与食物中毒爆发有关。 近年来,基于核酸的检测分析方法在食源性致病菌的准确检测中得到了广泛的应用。与基于培养的方法相比,聚合酶链式反应(PCR)具有快速性,敏感性和特异性,它是检测各种病原体的广泛使用的标准方法。基于PCR的方法的潜在缺陷是无法区分存活的病原体和死的病原体,因为DNA可以从活的病原体细胞和死的病原体细胞...[详细]
2019-11-06
nanopore测序技术专题(四):纳米孔测序原理
对DNA测序本质上就是识别ATCG四种碱基,但是一方面四种碱基实在太小了,属于纳米级别,另一方面嘌呤和嘌呤,嘧啶和嘧啶之间化学结构非常相似,不容易区分。 从53年提出DNA双螺旋结构之后,生物学家一直努力通过各种办法识别四种碱基。 目前主流的方法包括将四种碱基转换为光信号,溶液PH值,以及转换为电信号,通过放大后的信号来区分四种碱基。 这也是目前主流测序仪的几种方案。 sanger,illumina,BGIseq,Pacbio等选择光信号,Iontorrent选择溶液PH值,而nanopore选择电信号。...[详细]
2019-11-05
制造一台dna测序仪到底有多难?
造一台测序仪到底有多难,具体我也说不上来,但肯定很难很难,和造原子弹相比呢?和造航母比呢?和登上太空相比呢?这样一比就容易了,首先,从时间上来说,原子弹和航母在二战期间就造出来了,61年加加林就登上太空了;再从空间上来讲,能够造原子弹的国家有很多,包括我们的邻居,都能制造个二踢脚;而一般发达国家也都掌握了航天技术。 制造一台测序仪有多难 目前国际上200多个国家,真正能够制造DNA测序仪的只有三个国家,老牌资本主义国家,曾经的日不落帝国英国;目前国际上最强大的国家美利坚合众国,还有一个就是千年文明古国,并...[详细]
2019-11-05
nanopore测序技术专题(二):一些典型应用
前面一篇推文我们介绍了nanopore测序技术的一些显著优势,简单来说就是长读长、高产出、便携、实时、易用、直接。基于这些特点,在基因组或者转录组分析中可以有很多的应用,这次我们列举一些nanopore测序技术的一些典型应用。 大基因组拼接 nanopore最显著特点就是读长长。长读长对于大基因组的拼接将会产生立竿见影的效果。在以往基于短片段的基因组拼接中,由于一些动植物基因组本身具有多倍体,高度重复,高度杂合的特性,导致基因组拼接是一项异常艰难的工作,有些植物甚至复杂到利用短片段根本无法完成拼接工作,例...[详细]
2019-11-03
nanopore测序技术专题(一):为什么要选择nanopore测序?
为什么要选择nanopore测序技术,这是因为nanopore测序技术具有一些无与伦比的优势,可以解决很多技术难题。主要包括,超长读长,DNA/RNA直接测序,真正的实时性,无需对测序设备的资金投入,可扩展性:便携式或台式测序仪,10分钟文库制备,高保真度,对大基因组的高数据量测序。下面我们具体来介绍一下。 1超长读长 在纳米孔测序中,读长长度可以等于输入片段长度。读长长度不受限于测序设备,用户可以通过所使用的文库制备实验方案来控制片段长度。目前报到处DNA片段长度最高记录为2Mb,直接RNA测序读长最长...[详细]
2019-11-03
microbiomeViz:绘制lefse结果中Cladogram
为啥写这个 平日经常会分析shotgun宏基因组的数据,我们的pipeline使用MetaPhlAn,Kraken等profiler。这种数据经常会产生一个表格,如下 download.file(https://bitbucket.org/biobakery/biobakery/raw/tip/demos/biobakery_demos/data/metaphlan2/output/SRS014459-Stool_profile.txt,SRS014459-Stool_profile.txt)knitr:...[详细]
2019-11-03
如何简化美化LEfSe分析结果中的Cladogram图
写在前面 关于LEfSe分析,相信大家早已耳熟能详。网上也有很多指导如何做LEfSe分析流程的文章。可是在实际应用中,仍然会遇到一些问题。LEfSe以出图美观的优势吸引大家用它绘图,然而为什么同样的流程,我们做出来的图总是不如别人发在文章里的漂亮?比如,别人发表的图是这样的: 图1Leastdiscriminantanalysis(LDA)effectsizetaxonomiccladogramcomparingallsamplescategorizedbyfourbacterialprovinces.引...[详细]
2019-11-03
nanopore测序技术专题开篇词
熟悉我们公众号的朋友应该知道我们喜欢写专题,没错,我们喜欢出系统性大作,包括制作的视频也都是四五十集的大作。虽然这样在营销上不合适,但是看起来整齐呀。前面我们推出过《生物数据分析平台搭建-CentOS版》,《生物数据分析平台搭建-Ubuntu版》,《生物信息神奇网站》以及《生物信息百佳软件》(未完待续)。从这开始我们将开启全新的专题《nanopore测序技术专题》,准备好上车吧,跟着通哥不迷路,通哥带你上高速。 基因学苑文章列表(201909) 纳米孔测序技术一项革命性的技术,三年前,我说这是一项来自未来...[详细]
2019-11-01
鸟枪法宏基因组测序之外我们还能做什么?
摘要 环境微生物组的探索揭示了在自然生态系统中起作用的生态和进化原理,重建群体基因组带来的以基因组为中心的研究进一步加速了其发展。 然而, 计算繁重的短读长组装 、 群落内的菌株异质性 以及 低丰度微生物所需的覆盖深度 仍然是传统鸟枪法宏基因组学要应对的技术挑战。 从这个角度出发,我们提出了未来有希望发展的三个主要方向,包括耦合 稳定性同位素示踪技术 与宏基因组、应用 荧光激活细胞分选技术 在较大的群落中靶向寻找微型宏基因组,以及利用 单分子长读长 和 合成长读长技术 将可移动元件与宿主微生物细胞相链接。...[详细]
2019-10-30
宏基因组测序(mNGS)鉴定脑脊液病原体的实验开发及验证
宏基因组测序(mNGS)检测总病原体(pan-pathogen)已经成功地应用在了对病因不明的急性疾病患者的检测中,提供了在一次试验中准确地鉴定几乎囊括了所有潜在的病原体(病毒、细菌、真菌和寄生虫)的方法。随着测序技术和生物信息学技术的发展,利用mNGS进行病原体检测展现出广泛的应用前景,但是仍面临着很多挑战: (1) 缺乏mNGS临床验证的标准; (2) 如何鉴别定植和感染微生物; (3) 缺少用于临床诊断的定制生物信息学软件; (4) 完善现有数据库的质量和全面性; (5) 临床实验室环境的改善。本文...[详细]
2019-10-29
首个亚洲家猪“超清”基因组图谱发布
近日,中国农业科学院农业基因组研究所猪基因组设计育种创新团队唐中林课题组在BioRxiv上预发表了论文Chromosome-scaledenovoassemblyandphasingofaChineseindigenouspiggenome。 该研究使用基因组denovo技术得到了首个超高质量的雄性陆川猪基因组。 由于中国本土猪与西方商品猪在表型和基因组特征上存在显著差异,构建一个有代表性的高质量中国本土猪参考基因组对探索基因功能、基因组进化和促进猪的遗传改良具有重要意义。 贝瑞基因为该研究提供基因组测序...[详细]
2019-10-25
高通量测序与分析软件、数据格式转换三代测序技术的硬核讨论
关于高通量测序与分析软件 Q:各位大神,我们用Nanopore 测序的数据,和参考基因组比较找片段差异,有什么好的软件推荐 A:片段差异是指SV吗? 做这个的话Sniffles还可以,mapping用他们推荐的NGMLR或者minimap2 A:sniffles是nanopore自己的发文章用的;好像还有个nanosv A:我们用pacbio的数据做sniffles,出来的结果很难解释,各种噪声 Q:感谢各位大神,我就是想用nanopore的长reads map一下基因组,看看特定区段上的序列插入缺失,确...[详细]
2019-10-25
全基因组测序探究与脑膜炎相关的侵入性肺炎球菌突变
革兰氏阳性菌肺炎链球菌(Streptococcuspneumoniae)经常定植在人的咽部,通常会侵入无菌的身体部位引起侵入性肺炎球菌病(IPD),包括菌血症、菌血症性肺炎、脑膜炎。IPD是世界范围内发病和死亡的主要原因,而肺炎球菌性脑膜炎是IPD中更为严重的一种,具有高的死亡和永久性神经后遗症风险。肺炎链球菌的突变有时会引起脑膜炎,增加对脑膜炎相关的肺炎链球菌突变的了解,可以提高人们对发病机制的理解,并为预防策略提供信息。本文报告了IPD病人测试队列(n=2054)、独立的验证队列(n=2518)中,肺...[详细]
2019-10-14
  • nanopore测序技术专题(二十一):nanopore基因组拼接
    终于到了基因组拼接这部分,我想目前很多人做nanopore测序,有很大一部分就是用来做基因组的拼接,要利用nanopore测序的长度长特点,nanopore的长读长测序将会给基因组拼接带来实质性的改变。 很多人已经等不及了,拿到nanopore测序数据之后马上就想利用软件开始拼接,其实不用急,想要改善一个面包的质量,要从面粉,麦子,甚至土壤环境等改善起,所以,前戏很重要。 为什么基因组不好拼接 在正式开始拼接基因组之前,我们先来回答几个非常重要的问题。 为什么基因组不好拼接?一个物种的基因的基因组包含了其...
  • nanopore测序技术专题(十八):minimap2比对
    马克思主义哲学教导我们要抓住事物发展的主要矛盾,那么对于高通量测序来说,以二代测序illumina为例,将测序数据比对到基因组上就是核心分析步奏。而nanopore测序也是同样的步奏。但是由于二代数据和三代数据有显著的差别,例如读长不同,测序错误率不同,因此,这个比对过程也会有很大的差异,需要开发不同的算法,使用不同的软件了但没变的是作者还是同一人呀。 序列比对 二代测序的核心步奏就是将测序得到的数据重新比对到基因组上,这个基因组可以是通过测序数据拼接得到的,也可以是近源参考序列。这个过程叫做短序列比对,...
  • nanopore测序技术专题(十五):利用NanoPlot进行数据质控
    对于二代测序,可以使用fastqc软件对数据进行全面的统计绘图。但是由于二代测序(主要指illumina)独特的特性,例如读长长度一致,有可能包含adapter和Duplication等。因此,虽然同样是fastq格式文件,但并不太适合用来处理nanopore数据,里面的一些质控指标并不适用。那么有没有类似于fastqc的软件来处理nanopore数据呢,目前看起来NanoPlot软件比较好用的nanopore数据质控软件。 NanoPlot绘制质控图 NanoPlot可以用来对nanopore数据进行统...
  • 制造一台dna测序仪到底有多难?
    造一台测序仪到底有多难,具体我也说不上来,但肯定很难很难,和造原子弹相比呢?和造航母比呢?和登上太空相比呢?这样一比就容易了,首先,从时间上来说,原子弹和航母在二战期间就造出来了,61年加加林就登上太空了;再从空间上来讲,能够造原子弹的国家有很多,包括我们的邻居,都能制造个二踢脚;而一般发达国家也都掌握了航天技术。 制造一台测序仪有多难 目前国际上200多个国家,真正能够制造DNA测序仪的只有三个国家,老牌资本主义国家,曾经的日不落帝国英国;目前国际上最强大的国家美利坚合众国,还有一个就是千年文明古国,并...
  • 全基因组测序探究与脑膜炎相关的侵入性肺炎球菌突变
    革兰氏阳性菌肺炎链球菌(Streptococcuspneumoniae)经常定植在人的咽部,通常会侵入无菌的身体部位引起侵入性肺炎球菌病(IPD),包括菌血症、菌血症性肺炎、脑膜炎。IPD是世界范围内发病和死亡的主要原因,而肺炎球菌性脑膜炎是IPD中更为严重的一种,具有高的死亡和永久性神经后遗症风险。肺炎链球菌的突变有时会引起脑膜炎,增加对脑膜炎相关的肺炎链球菌突变的了解,可以提高人们对发病机制的理解,并为预防策略提供信息。本文报告了IPD病人测试队列(n=2054)、独立的验证队列(n=2518)中,肺...
  • nanopore测序技术专题34:dotPlotly比较优化前后结果
    前面介绍了利用dnadiff+mummerplot比较优化前后结果,mummerplot的图不太好看,这次我们利用dotPlotly软件绘制优化前后基因组之间的差异。 dotPlotly dotPlotly是一个利用R语言绘制交互式的绘图脚本,可以绘制类似mummerlplot的共线性图,比mummerplot的图更加精细,由于调用了shiny,可以生成交互式的网页文件。输入文件可以是mummer中nucmer比对的结果,minimap2比对生成的paf格式结果等软件官网:https://github.c...
  • nanopore测序技术专题(二十四):smartdenovo拼接基因组
    前面介绍的canu与miniasm,从运行时间上来说,一个特别慢,一个特别快。运行慢的canu结果相对准确一些,运行快的miniiasm容易引入更多错误,所以,需要一个平衡状态。这很正常吗,你又想马儿跑,又想马儿不吃草,你以为你是老板呀。这次我们来介绍一下smartdenovo拼接工具。 smartdenovo smartdenovo由阮珏开发的用于PacBio和nanopore数据的拼接工具。该软件不经纠错过程,可以直接对原始数据进行all-vs-all比对进行拼接,软件提供了一个生成准确一致序列的工具...
  • nanopore测序技术专题33:利用racon对组装结果纠错
    这次内容我们介绍一下基因组优化的工具racon,相比于medaka和pilon,racon在易用性和运行速度方面表现的更好,目前一般文献中都是使用pilon,然后在使用racon进行多轮纠错,最终得到比较好的拼接结果。 racon racon是一款用于基因组纠错的软件,既可以用于三代数据也可以用于二代数据的纠错。racon的运行速度比较快。racon既可以用于nanopore拼接结果,也可以用于pacbio数据拼接结果。此外,软件中还可以提供了一个racon_wrapper.py脚本,可以对输入文件进行拆...
  • nanopore测序技术专题31:利用medaka组装结果纠错
    上次内容我们介绍了基因组优化polish的一些原理,这次内容我们以及后面两节内容,我们将演示几款polish工具,包括medaka,pilon以及racon等。虽然,优化可以提高改善拼接的质量,但其实如果一次就能拼接出很好的基因组,就无需优化这个过程了,这个过程只能算作锦上添花的作用,但是目前还做不到,希望随着nanopore测序质量逐渐提高,后面不在需要这个优化过程了。 medaka medaka是nanpore官方出的一款工具(这又是什么鱼,不知味道如何),它是一个基于叠加序列的一致性序列修正工具。M...
  • nanopore测序技术专题(十七):利用filtlong对数据进行过滤
    filtlong是另外一款可以过滤nanopore数据的软件,与NanoFIlt相比更加好用一些,至少不用进虚拟环境中运行了。我们每做一步分析都尽量多尝试几种方法,通过不同方法的比较来评估方法可靠性,所谓的双保险。但是并不是所有人都这样想的,对于部分有选择困难症的患者,会像钟表理论一样看两支手表反而不知道时间了。 软件安装 filtlong也是可以一款用于过滤nanopore测序数据的软件,虽然叫做fillter+long,但其实不仅是根据过滤长片段,(软件作者起名字也好难呀)。它可以用于过滤固定长度序列...