2019-10-25 13:22:17 热度:

高通量测序与分析软件、数据格式转换三代测序技术的硬核讨论

关于高通量测序与分析软件


Q:各位大神,我们用Nanopore 测序的数据,和参考基因组比较找片段差异,有什么好的软件推荐
A:片段差异是指SV吗? 做这个的话Sniffles还可以,mapping用他们推荐的NGMLR或者minimap2
A:sniffles是nanopore自己的发文章用的;好像还有个nanosv
A:我们用pacbio的数据做sniffles,出来的结果很难解释,各种噪声
Q:感谢各位大神,我就是想用nanopore的长reads map一下基因组,看看特定区段上的序列插入缺失,确定我们关注区段上的基因位置。覆盖度比较低,是不是不太可靠?
A:插入缺失的片段有多长?如果比较长应该可以看到。只要看到一条 read 里包含了断点,就可以断定了。但是得看运气。
Q:几个基因的区段,20k大小的长度
Q:pacbio与nanopore测试数据,哪个错误率低啊。最近实验室准备用长前段测序,call snp,但是错误率是个麻烦问题,对于low depth数据
A:错误率类似,但是 pacbio 错误随机,可以随着覆盖度提高完全消除。Nanopore 则有偏向性, homopolymer 会偏向较短。不要用低覆盖度的 long read call snps。
A:感觉long reads 做SV 还好,做SNP可能错误率很高,或许还不如用NGS。话说long reads call SV的软件, 关于pbsv, sniffles, nanosv大家有没有比较过?哪个比较推荐?貌似这几个的结果会不一致,不知道有没有分析比较三者的差异?
A:其实我们用sniffles也是很多噪音, 大概是我们测的基因组太复杂了。
Q: 你们怎么过滤sniffles结果的?
Q:有特定的参数设置么?我们恐怕就不过滤了,层数太低
A:min_support、min_length,然后还是要有a priori information去专注于一个区域(de novo我们还是不敢做)
A:如果你的reference genome不大,比较划算的做法应该是NGS,当然,不差钱的话,用新技术也是好的,文章在技术层面有亮点 。
A:Pacbio在读取homopolymer 也会出错(酶的读取速度太快了,就一个单分子模板,难免出错),同样的道理,可以通过CCS去除这种短的插入或缺失。另外,大家可能需要更正下观念,pacbio用于calling snps其实the upper bound of error rate 也就1%,其余的error是Indel。所以,对于snp反而不太敏感(相较于Indel)而言。当然,群里绝大部分都是做whole genome的,对于target sequencing,有一个策略可以将error rate降到0.1%以下,就是通过第一轮PCR扩增的时候加入UMIs,实操表明,一个UMI只要被测到3次以上,基本上多有的error都可以去除。对于一个分子本身,ccs passes >=10的话,基本上没有Indel的error.
Q:请问 “一个UMI只要被测到3次以上,基本上多有的error都可以去除” 怎么识别正确的umi;对应的无error 的reads
A:好问题,没有很好的办法识别什么叫正确。可以通过人为加入特定的序列,然后评估。实际操作只能通过mean quality 以及low quality还有特殊的设计的UMI sequence structure. UMI如果有一些结构特征,识别起来要容易些。然后mean quality可以去除很多的error,这一点你可以把同样长度的UMI跟UMI附近的target sequences比较,进而评估cutoff。low quality for bases是很严的cutoff,“宁缺毋滥”的意思。
Q:你指的是pcr和sequencing error吗?有个package叫fgbio,就干这个的,根据umi来correct error。
A:fgbio不识别pacbio的long reads? pacbio的long reads出来的UMIs长度不等。
Q:那个package根据umi family找consensus call。
A:都会有可能,错误可能在 pcr 之前就是错的,也有可能pcr多次后才开始。
A:你可能没明白UMIs的作用,pcr之前的属于引物合成错误,只能靠谱的公司以及贵的纯化方式,反正也就一条。again,一些结构设计可以避免完全NNNNNNN(n)的这种高错误模式。另外,pcr之后引入的error,UMI轻松可以破解,UMIs就是干这个的。
A:如图:编者注:SchmittMWet al.2012.Detectionofultra-raremutationsbynext-generationsequencing.Proc.Natl.Acad.Sci.109:14508–14513. A:pacbio虽然有homopolymererror,但错误是随机分布的,只要测序深度够深,理论上可以知道正确的长度。但Nanopore据说是先天有bias,错误不随机。这就是为什么大家做Denovo还是喜欢pacbio.不过Nanopore也是在进步,最新的算法可能会比较准确些,最近没有关心了,不知道准确些了没有。如果是做DeNovo目前还得需要二代测序来纠正小错误Q:哈哈,我不做基因组组装。目前只做过targetsequencing。如果我想通过RNA-seq来看一个转基因的表达转录本情况,我是直接将插入的片段或质粒作为ref.fa还是在genome.fa的后面加一条chromosome呢?A:加一条chromosomeQ:能具体说说第一个做法的坏处么?我感觉是不是更快些?A:就是怕mismapping A:第一个会强迫所有跟这个序列有点相似的reads都比对上去A:如果你肯定质粒上的序列没有和任何基因组序列有相似的话也可以,但是原则上不好A:如果要量化那就会导致overestimateA:随机错误,真实变异是有差别的,测序的技术可以区别的Q:后续的.gff文件也要加入一条新注释,关于这个质粒或转基因的?比如,我想看它有多少的剪接方式,或者转录本到哪里就断了A:這个用STARmapping后就可以看到了吧Q:nanopore的数据只需要用那个fasta_pass文件的数据就好了吧?A:对,但建议备份fast5;以后软件升级了还可以重新basecall

关于三代测序数据格式转换

Q:我下载了一个pacbio的数据,发现是fastq格式。我想转成pacbio的bam格式,大家有没有软件推荐。我用bwa转sam,然后samtools转bam。后面软件报错说不是validpacbiobamA:pacbio我下的是这个格式:*hdf5.tgzA:pbbam;或者大合集smrtlink,不过这个很难装Q:pacbiobam文件包含的不仅仅是fastq文件的信息吧;这个我装上了,我不知道用哪个A:pbbam应该是进行各种格式转换的。Q:可以bam转pacbio的bam吗?A:你是fastq想转bam吗?Q:我用baw和samtools把fastq转成了bam,发现这个bam格式pacbio不认。所以我想再重新做一下:1fastq转pacbio的bam,或者2把转出来的bam转成pacbio的bam;这两条路都行A:这是反过来的操作,pacbio现在给的就是自己定义的bam。如果是fastq想转bam,bamtools就可以。pacbio在github推荐用bamtoolsA:一般是hdf5转bam,然后bam转fastq;bioconda或者smrtlink下面有个bam2fastqA:pacbio的inputfile一般是BAMfile;他是想fastqtobamQ:是的,我在NCBI上只见到了fastq格式,就下下来了Q:我下载的这个数据,不知道为什么里面是fastq关于三代高通量测序读长问题讨论集锦

 

Q:请教一下,一个pacbiocell能拿到多少reads,每条reads有多长?

A:http://m.biotech.org.cn/thread?id=136694;我去搜了一下,不知道过没过时,这里面有说:每个SMRTcell平均生成5.7Gb的数据和496,040条聚合酶序列。读长分布是PacBio测序特有的,平均聚合酶读长为11.5kb。其中一项研究是这样的产出

A:这个还是一年前的数据,今年6月全面升级,基本都是加倍。近期测了一个cell,数据产出有25Gb了。我的是3kb靶向测序的文库,总体质量上会差很多,打个6折应该都不过分。如果是测基因组,数据量和质量,应该会更加漂亮。所以,测基因组还是蛮靠谱的,当然,可能价格上还是偏贵。

Q:好厉害,不过不知道国内测序公司有没有买这种新机器。现在的测序平均长度达到35kb以上了?

A:国内大的测序公司都有新机子。平均读长跟文库大小有关,通常文库长一些,读长也会长。

Q:应该Hi-firead和普通read产量不同吧?Hifi相当于一个分子读了几次,普通的低质量read产量有多少呢

A:没有普通和hifi区别,总体升级了,换了个叫法而已。机子和试剂都进行了升级,从第一台到最新,我们实验室都测过。。。总体价格不变,数据量和质量一直在提升

Q:怎么我看好像普通reads的话数据量多许多呢?

A:你看Gb还是reads数目?

Q:Gb

A:这个更看文库大小和文库类型。

Q:他网站上说的这个CLR,说最高有160Gb不靠谱吧?

A:这个就是直接读出来的数据,50kb是把11kb测了好多遍,他写了是30个小时的movie。

Q:也就是说如果library长度是50kb那就是读一次吗?

A:你看它文库大小,很大

Q:就是说文库越长越好呗?假如不要求精确的话。

A:这个大概规律,因为是单分子PCR酶会一直扩增,直到信噪比很差

A:那这样的话,还是需要二代校正

A:二代校正不行的,只能覆盖基因区。重复区短序列比对不上,也就没办法校正

Q:那些区域也就暂时忽略了

A:看你想要啥了,只要基因区的话还是可以的

A:因为基因组装里面,读长是关键指标

 

A:pacbio你就看最后实际的subreads

 

Q:那现在pacbio实际上还是13kb左右?

A:pacbio直接读出来的reads可以很长,但是你建库的长度是多少决定了你最终的数据;你说的13kb是subreads

A:不重复读的话,N5050k以上无压力

A:单分子重复读是一种线性扩增,很好的策略嘛

A:这个就是pacbio的原理;不然它怎么矫正碱基质量;pacbio直接读出来的reads的碱基质量就85%的准确度

A:如果是循环测,对组装意义不大

A:是的嘛,但我觉得对于靶向测序,这个非常棒,读得次数越多,意味着每一条read都是有效的。

A:你说的没错,测得越多,对于碱基质量的纠正是有好处的。10x就是以前BAC的升级版而已。

高通量测序分析软件数据格式转换三代测序技术硬核讨论

推荐阅读

nanopore测序技术专题(十六):利用NanoFilt对数据进行过滤
数据质控之后,我们得到nanopore数据长度和平均质量的分布,例如平均质量值低于Q7的占有多少比例。有了这些指标之后,接下来就可以对数据进行过滤了。数据类似于处理食材,需要将不好的食材去掉,这样才能做出精致可口的菜肴,所以,不懂计算机的生物学家不是一个好厨子。 安装NanoPlot NanoFilt顾名思义,是用来过滤nanopore测序数据的,它来自于nanopack包,我们前面已经安装过,当时是在虚拟环境中安装的,现在要使用该软件,则需要进入虚拟环境中来使用。也可以单独安装。 #激活虚拟nanopa...[详细]
2019-11-17
nanopore测序技术专题(十五):利用NanoPlot进行数据质控
对于二代测序,可以使用fastqc软件对数据进行全面的统计绘图。但是由于二代测序(主要指illumina)独特的特性,例如读长长度一致,有可能包含adapter和Duplication等。因此,虽然同样是fastq格式文件,但并不太适合用来处理nanopore数据,里面的一些质控指标并不适用。那么有没有类似于fastqc的软件来处理nanopore数据呢,目前看起来NanoPlot软件比较好用的nanopore数据质控软件。 NanoPlot绘制质控图 NanoPlot可以用来对nanopore数据进行统...[详细]
2019-11-16
nanopore测序技术专题(十四):nanopore测序质量怎么样
前面我们介绍过目前的nanopore测序质量一般,那么测序质量到底如何,则需要进行量化,也就是数据质控分析。数据质控是数据分析中非常重要的步奏,严格来说,数据分析中的每一步都需要进行数据质控,否则可能得到假阳性后者假阴性的结果,最终得到错误的结论。二代测序的数据质控目前已经非常成熟了,三代nanopore数据该如何进行质控呢,这次内容我们就来介绍一下。 当前nanopore测序质量虽然有很大的改善,但准确性依然不及二代测序,例如illumina或者BGIseq等。前面介绍过,目前主流的R9.4芯片准确性在...[详细]
2019-11-15
nanopore测序技术专题(十三):病原微生物快速鉴定
利用nanopore其便携性,建库方便,实时测序等特点,非常适合现场操作。例如当前利用nanopore测序仪已经在野外,高山,冰川,外太空等复杂环境中进行了实时进行鉴定。通过基因组来快速鉴定微生物。主要是通过测序数据与已知数据之间进行快速的序列比对,寻找二者之间基因组上的差异,以及亲缘关系,是否具有共有以及特有基因等。可以利用全基因组测序也可以测全长16S等,根据不同的实验目的选择合适的方法。 微生物快速鉴定原理 一般来说,序列越长则具有越高的唯一性,利用nanopore的长读长特性,可以不用拼接,直接用...[详细]
2019-11-15
nanopore测序技术专题(十三):病原微生物快速鉴定
利用nanopore其便携性,建库方便,实时测序等特点,非常适合现场操作。例如当前利用nanopore测序仪已经在野外,高山,冰川,外太空等复杂环境中进行了实时进行鉴定。通过基因组来快速鉴定微生物。主要是通过测序数据与已知数据之间进行快速的序列比对,寻找二者之间基因组上的差异,以及亲缘关系,是否具有共有以及特有基因等。可以利用全基因组测序也可以测全长16S等,根据不同的实验目的选择合适的方法。 微生物快速鉴定原理 一般来说,序列越长则具有越高的唯一性,利用nanopore的长读长特性,可以不用拼接,直接用...[详细]
2019-11-14
nanopore测序技术专题(十二):fastq文件探索
得到fastq格式的nanopore测序数据就可以开始分析了,但是先别急,我们需要先对fastq格式文件进行一下处理,先不要着急拿过来就开始分析,我见过很多人,拿过来数据之后就开始做拼接,然后就等着错误的结果,然后在使用更多时间来找原因。心有猛虎,也要细嗅蔷薇。 fastq文件格式 fastq格式是一种包含质量值的序列文件,其中的q为quality,一般用来存储原始测序数据,扩展名一般为fastq或者fq。目前illumina测序,BGISEQ,IonTorrent,pacbio,nanopore都以fa...[详细]
2019-11-13
nanopore测序技术专题(十一):下载练习数据
如果想要分析nanopore的数据,又没有测序仪测序,该如何进行练习呢?其实这个不难,目前网上有很多已经公开发布的nanopore测序数据,涵盖多个物种,多种测序平台。nanopore官方社区有数据发布的连接,可以从里面下载到原始的fast5格式,也可以从NCBISRA数据库进行下载。这次内容我们就来介绍一下如何下载练习数据。 SRA数据库 网址:https://www.ncbi.nlm.nih.gov/sra/SRA(SequenceReadArchive)数据库是NCBI用于存储二代测序的原始数据,包...[详细]
2019-11-13
Ahjeong Son:截断适配体纳米适配体法高灵敏度检测双酚A
双酚A(BPA)(2,2-双(4-羟基苯基)丙烷)在化学工业中广泛用于聚碳酸酯塑料和环氧树脂的合成。BPA的广泛使用也引起了人们对其对食品安全和环境健康影响的严重关注。BPA被发现存在人体血液、组织、血清和尿液中。作为一种具有雌激素活性的内分泌干扰化合物,双酚a通过干扰雌激素受体结合过程来干扰内分泌系统,所以设计灵敏的生物传感器去检测双酚A在实际应用中具有很强的意义。 先前基于适配体的检测方法的性能改进主要局限于材料、传感器平台和分析程序的变化,然而,适配体本身的设计缺乏改进。基于适配体的检测方法的性能在...[详细]
2019-11-12
nanopore测序技术专题(十):安装所需软件
纸上得来终觉浅,绝知此事要躬行,做生物信息,必须亲自上手才行,否则就会陷入一看啥都会,一做都不对的怪圈。而且,很多科学研究中的重要内容,都隐藏在细节当中,只有在不断的实践中才能发现科学的奥秘,科学研究就是一个不断探索的过程。从这次内容开始,我们将进入nanopore数据分析实战阶段。Areyouready? 软件列表 目前适合nanopore数据分析的软件已经有不少了,虽然没有二代测序多,但是也足够用,而且很多软件并部分测序平台,只要是固定的文件格式即可。下面给出了一些常用的nanopore数据分析的软件...[详细]
2019-11-11
nanopore测序技术专题(九):利用minion_qc绘制质控图
前面我们提到过利用guppy进行碱基识别后生成一个sequencing_summary.txt文件,这个文件是列表格式的统计结果,R语言最喜欢列表格式了,直接使用R可以对这个列表进行统计绘图。其实如果使用官方的MinKNOW软件自带这些绘图功能,如果是自己进行的碱基识别,可以使用minion_qc来进行统计绘图,非常的容易,其实后面我们介绍的NanoPlot也可以使用这个文件绘图。 软件安装 软件官网:https://github.com/roblanf/minion_qc这个工具其实就是一个R脚本,在R...[详细]
2019-11-11
nanopore测序技术专题(九):利用minion_qc绘制质控图
前面我们提到过利用guppy进行碱基识别后生成一个sequencing_summary.txt文件,这个文件是列表格式的统计结果,R语言最喜欢列表格式了,直接使用R可以对这个列表进行统计绘图。其实如果使用官方的MinKNOW软件自带这些绘图功能,如果是自己进行的碱基识别,可以使用minion_qc来进行统计绘图,非常的容易,其实后面我们介绍的NanoPlot也可以使用这个文件绘图。 软件安装 软件官网:https://github.com/roblanf/minion_qc这个工具其实就是一个R脚本,在R...[详细]
2019-11-10
nanopore测序技术专题(八):利用guppy进行碱基识别
目前,绝大部分的生物信息分析是从原始测序的fastq格式文件开始的。而nanopore可以保存为fast5格式,对于这种格式,上一次推文我们已经介绍过了。MinKNOW软件是可以直接进行basecalling输出fastq格式文件的。但是这个过程比较耗时,如果使用MiniION,是很难在笔记本电脑上进行实时的basecalling的。可以将测序完成的fast5文件传输到更大的计算设备上进行处理。如果你只是要做基因组拼接,直接得到fastq文件就行。但有些人缺乏安全感,管他有用没用,觉得信息越多越好,还是想...[详细]
2019-11-09
双11,选择一款适合做生物信息的笔记本
所谓工欲善其事,必先利其器,选择一款好的笔记本电脑来做生物信息是非常有必要的,何况通哥有句名言用一台比较快的电脑,等于延长了生命。作为混迹数码行业10多年的人来说,对各种科技产品当然是了如指掌,如数家珍。前段时间还有人咨询我如何选择一台好的笔记本,正好最近又看到圈内有人求助,这次就让被生物信息耽误的数码编辑带大家选择称心如意的笔电产品吧。 尽量不要用笔记本来跑数据 题目说是推荐适合做生物信息的笔记本电脑,又说尽量不要用笔记本来跑数据,这不是矛盾吗?是的。虽然不能用来跑数据,但是用来练习总是可以的。跑数据尽...[详细]
2019-11-09
nanopore测序技术专题(七):测序结果文件介绍
前面我们已经介绍了很多关于nanopore测序的一些内容,希望你能够对于nanopore测序有所了解。从这次内容开始对数据分析部分进行介绍,至于如何提取你样品的DNA,这部分涉及内容很多,不同的样品有不同的处理方法,我不了解你研究的项目,也不感兴趣,我要是感兴趣就没你什么事了。所以,这部分自己摸索,科学就是不断探索的过程。至于拿到DNA如何建库测序,可以参加nanopore官方提供的实验培训,好像9000多一天,听起来挺贵,但其实可以自带样品测序。如果有需要,自己去关注吧。 获取nanopore测序数据 ...[详细]
2019-11-08
Xshell6的正确打开方式
远程连接服务器的工具有很多,一般都是支持ssh协议,例如putty,mobaxterm,SSHSecureShellClient,secureCRT,这其中我认为最好用的就是Xshell了,不过xshell是收费的,人民币大概899,加上xftp一起购买应该是1299。收费的东西一般都比较好用。不过xshell对于学生可以免费申请使用。 安装 软件只有windows版本,安装比较容易,直接下一步下一步就可以了。 登录设置 登录服务器需要IP地址,账户,密码 1、选择新建会话,在名称中设置一个别名,便于区分...[详细]
2019-11-08
nanopore测序技术专题(六):测序错误率太高无法使用?
十二年前,你嫌illumina测序错误率高,不愿第一个吃螃蟹;七年前,你嫌pacbio的错误率高,觉得应该在等等;四年前,你担心国产的BGIseq错误率高,不愿尝试;现在你还是害怕nanopore测序错误率高,怕投入失败,决定还是坚守二代,等后面测序质量提高的吧。对不起,君生我未生,我生君已老。而且不仅为你写诗,还为你点歌:爱一个测序仪好难 测序错误太高怎么办 按我对测序仪的评价标准,准确性第一位,测序读长第二位,然后是通量,价格,建库测序简易型。为什么准确性第一位,因为如果碱基准确,会给数据分析带来极大...[详细]
2019-11-07
nanopore测序技术专题(五):建库测序
所谓建库测序就是对测序的DNA进行一些处理,是一个格式化的过程,需要将DNA处理成固定的模式才可以。例如需要给原始的DNA加上A碱基,接头,测序引物,index或者barcode标签等。建库测序是DNA测序过程中非常重要的一个环节,可以说直接影响到测序质量,建库效果不好,测序质量不可能好。 DNA提取 纳米孔可以测序DNA本身长度的读长,这就需要原始DNA具有的长度。因此,在测序之前能够提取到相对完整的DNA比较重要。由于不同物种DNA提取方法不同,这就需要依据一些不同样本提取的经验方法。例如植物基因组具...[详细]
2019-11-07
用于食源性致病菌检测的DNA适体传感器研究进展
食源性致病菌,例如沙门氏菌,链球菌,大肠杆菌和弧菌属,是通过食物污染和扩散而引起传染病的有害物种。常见的感染并发症,包括急性胃肠炎腹泻,头痛,呕吐甚至死亡。世界卫生组织宣布,全球每年有数十亿人与食物中毒爆发有关。 近年来,基于核酸的检测分析方法在食源性致病菌的准确检测中得到了广泛的应用。与基于培养的方法相比,聚合酶链式反应(PCR)具有快速性,敏感性和特异性,它是检测各种病原体的广泛使用的标准方法。基于PCR的方法的潜在缺陷是无法区分存活的病原体和死的病原体,因为DNA可以从活的病原体细胞和死的病原体细胞...[详细]
2019-11-06
nanopore测序技术专题(四):纳米孔测序原理
对DNA测序本质上就是识别ATCG四种碱基,但是一方面四种碱基实在太小了,属于纳米级别,另一方面嘌呤和嘌呤,嘧啶和嘧啶之间化学结构非常相似,不容易区分。 从53年提出DNA双螺旋结构之后,生物学家一直努力通过各种办法识别四种碱基。 目前主流的方法包括将四种碱基转换为光信号,溶液PH值,以及转换为电信号,通过放大后的信号来区分四种碱基。 这也是目前主流测序仪的几种方案。 sanger,illumina,BGIseq,Pacbio等选择光信号,Iontorrent选择溶液PH值,而nanopore选择电信号。...[详细]
2019-11-05
制造一台dna测序仪到底有多难?
造一台测序仪到底有多难,具体我也说不上来,但肯定很难很难,和造原子弹相比呢?和造航母比呢?和登上太空相比呢?这样一比就容易了,首先,从时间上来说,原子弹和航母在二战期间就造出来了,61年加加林就登上太空了;再从空间上来讲,能够造原子弹的国家有很多,包括我们的邻居,都能制造个二踢脚;而一般发达国家也都掌握了航天技术。 制造一台测序仪有多难 目前国际上200多个国家,真正能够制造DNA测序仪的只有三个国家,老牌资本主义国家,曾经的日不落帝国英国;目前国际上最强大的国家美利坚合众国,还有一个就是千年文明古国,并...[详细]
2019-11-05
nanopore测序技术专题(三):选择适合你的测序设备
nanopore是非常适合实验室单独运行的测序设备,无需投入大量资本。而不像二代测序,需要昂贵的购买测序仪成本以及运行成本。也许在不久的将来,测序仪将如PCR仪一样普通飞入寻常百姓家。这次内容我们将给大家介绍一下最新的nanopore测序相关产品。 注:本次内容全部来自nanopore官网产品近期介绍,经常会更新,更多内容大家可以自行去nanopore官方查看,或者联系他们公司人员,本次内容无广告赞助(哈哈哈)。产品介绍:https://nanoporetech.com/cn/products查看价格:h...[详细]
2019-11-04
nanopore测序技术专题(二):一些典型应用
前面一篇推文我们介绍了nanopore测序技术的一些显著优势,简单来说就是长读长、高产出、便携、实时、易用、直接。基于这些特点,在基因组或者转录组分析中可以有很多的应用,这次我们列举一些nanopore测序技术的一些典型应用。 大基因组拼接 nanopore最显著特点就是读长长。长读长对于大基因组的拼接将会产生立竿见影的效果。在以往基于短片段的基因组拼接中,由于一些动植物基因组本身具有多倍体,高度重复,高度杂合的特性,导致基因组拼接是一项异常艰难的工作,有些植物甚至复杂到利用短片段根本无法完成拼接工作,例...[详细]
2019-11-03
nanopore测序技术专题(一):为什么要选择nanopore测序?
为什么要选择nanopore测序技术,这是因为nanopore测序技术具有一些无与伦比的优势,可以解决很多技术难题。主要包括,超长读长,DNA/RNA直接测序,真正的实时性,无需对测序设备的资金投入,可扩展性:便携式或台式测序仪,10分钟文库制备,高保真度,对大基因组的高数据量测序。下面我们具体来介绍一下。 1超长读长 在纳米孔测序中,读长长度可以等于输入片段长度。读长长度不受限于测序设备,用户可以通过所使用的文库制备实验方案来控制片段长度。目前报到处DNA片段长度最高记录为2Mb,直接RNA测序读长最长...[详细]
2019-11-03
microbiomeViz:绘制lefse结果中Cladogram
为啥写这个 平日经常会分析shotgun宏基因组的数据,我们的pipeline使用MetaPhlAn,Kraken等profiler。这种数据经常会产生一个表格,如下 download.file(https://bitbucket.org/biobakery/biobakery/raw/tip/demos/biobakery_demos/data/metaphlan2/output/SRS014459-Stool_profile.txt,SRS014459-Stool_profile.txt)knitr:...[详细]
2019-11-03
如何简化美化LEfSe分析结果中的Cladogram图
写在前面 关于LEfSe分析,相信大家早已耳熟能详。网上也有很多指导如何做LEfSe分析流程的文章。可是在实际应用中,仍然会遇到一些问题。LEfSe以出图美观的优势吸引大家用它绘图,然而为什么同样的流程,我们做出来的图总是不如别人发在文章里的漂亮?比如,别人发表的图是这样的: 图1Leastdiscriminantanalysis(LDA)effectsizetaxonomiccladogramcomparingallsamplescategorizedbyfourbacterialprovinces.引...[详细]
2019-11-03
nanopore测序技术专题开篇词
熟悉我们公众号的朋友应该知道我们喜欢写专题,没错,我们喜欢出系统性大作,包括制作的视频也都是四五十集的大作。虽然这样在营销上不合适,但是看起来整齐呀。前面我们推出过《生物数据分析平台搭建-CentOS版》,《生物数据分析平台搭建-Ubuntu版》,《生物信息神奇网站》以及《生物信息百佳软件》(未完待续)。从这开始我们将开启全新的专题《nanopore测序技术专题》,准备好上车吧,跟着通哥不迷路,通哥带你上高速。 基因学苑文章列表(201909) 纳米孔测序技术一项革命性的技术,三年前,我说这是一项来自未来...[详细]
2019-11-01
鸟枪法宏基因组测序之外我们还能做什么?
摘要 环境微生物组的探索揭示了在自然生态系统中起作用的生态和进化原理,重建群体基因组带来的以基因组为中心的研究进一步加速了其发展。 然而, 计算繁重的短读长组装 、 群落内的菌株异质性 以及 低丰度微生物所需的覆盖深度 仍然是传统鸟枪法宏基因组学要应对的技术挑战。 从这个角度出发,我们提出了未来有希望发展的三个主要方向,包括耦合 稳定性同位素示踪技术 与宏基因组、应用 荧光激活细胞分选技术 在较大的群落中靶向寻找微型宏基因组,以及利用 单分子长读长 和 合成长读长技术 将可移动元件与宿主微生物细胞相链接。...[详细]
2019-10-30
宏基因组测序(mNGS)鉴定脑脊液病原体的实验开发及验证
宏基因组测序(mNGS)检测总病原体(pan-pathogen)已经成功地应用在了对病因不明的急性疾病患者的检测中,提供了在一次试验中准确地鉴定几乎囊括了所有潜在的病原体(病毒、细菌、真菌和寄生虫)的方法。随着测序技术和生物信息学技术的发展,利用mNGS进行病原体检测展现出广泛的应用前景,但是仍面临着很多挑战: (1) 缺乏mNGS临床验证的标准; (2) 如何鉴别定植和感染微生物; (3) 缺少用于临床诊断的定制生物信息学软件; (4) 完善现有数据库的质量和全面性; (5) 临床实验室环境的改善。本文...[详细]
2019-10-29
首个亚洲家猪“超清”基因组图谱发布
近日,中国农业科学院农业基因组研究所猪基因组设计育种创新团队唐中林课题组在BioRxiv上预发表了论文Chromosome-scaledenovoassemblyandphasingofaChineseindigenouspiggenome。 该研究使用基因组denovo技术得到了首个超高质量的雄性陆川猪基因组。 由于中国本土猪与西方商品猪在表型和基因组特征上存在显著差异,构建一个有代表性的高质量中国本土猪参考基因组对探索基因功能、基因组进化和促进猪的遗传改良具有重要意义。 贝瑞基因为该研究提供基因组测序...[详细]
2019-10-25
高通量测序与分析软件、数据格式转换三代测序技术的硬核讨论
关于高通量测序与分析软件 Q:各位大神,我们用Nanopore 测序的数据,和参考基因组比较找片段差异,有什么好的软件推荐 A:片段差异是指SV吗? 做这个的话Sniffles还可以,mapping用他们推荐的NGMLR或者minimap2 A:sniffles是nanopore自己的发文章用的;好像还有个nanosv A:我们用pacbio的数据做sniffles,出来的结果很难解释,各种噪声 Q:感谢各位大神,我就是想用nanopore的长reads map一下基因组,看看特定区段上的序列插入缺失,确...[详细]
2019-10-25
全基因组测序探究与脑膜炎相关的侵入性肺炎球菌突变
革兰氏阳性菌肺炎链球菌(Streptococcuspneumoniae)经常定植在人的咽部,通常会侵入无菌的身体部位引起侵入性肺炎球菌病(IPD),包括菌血症、菌血症性肺炎、脑膜炎。IPD是世界范围内发病和死亡的主要原因,而肺炎球菌性脑膜炎是IPD中更为严重的一种,具有高的死亡和永久性神经后遗症风险。肺炎链球菌的突变有时会引起脑膜炎,增加对脑膜炎相关的肺炎链球菌突变的了解,可以提高人们对发病机制的理解,并为预防策略提供信息。本文报告了IPD病人测试队列(n=2054)、独立的验证队列(n=2518)中,肺...[详细]
2019-10-14
  • nanopore测序技术专题(三):选择适合你的测序设备
    nanopore是非常适合实验室单独运行的测序设备,无需投入大量资本。而不像二代测序,需要昂贵的购买测序仪成本以及运行成本。也许在不久的将来,测序仪将如PCR仪一样普通飞入寻常百姓家。这次内容我们将给大家介绍一下最新的nanopore测序相关产品。 注:本次内容全部来自nanopore官网产品近期介绍,经常会更新,更多内容大家可以自行去nanopore官方查看,或者联系他们公司人员,本次内容无广告赞助(哈哈哈)。产品介绍:https://nanoporetech.com/cn/products查看价格:h...
  • 高通量测序与分析软件、数据格式转换三代测序技术的硬核讨论
    关于高通量测序与分析软件 Q:各位大神,我们用Nanopore 测序的数据,和参考基因组比较找片段差异,有什么好的软件推荐 A:片段差异是指SV吗? 做这个的话Sniffles还可以,mapping用他们推荐的NGMLR或者minimap2 A:sniffles是nanopore自己的发文章用的;好像还有个nanosv A:我们用pacbio的数据做sniffles,出来的结果很难解释,各种噪声 Q:感谢各位大神,我就是想用nanopore的长reads map一下基因组,看看特定区段上的序列插入缺失,确...
  • 全基因组测序探究与脑膜炎相关的侵入性肺炎球菌突变
    革兰氏阳性菌肺炎链球菌(Streptococcuspneumoniae)经常定植在人的咽部,通常会侵入无菌的身体部位引起侵入性肺炎球菌病(IPD),包括菌血症、菌血症性肺炎、脑膜炎。IPD是世界范围内发病和死亡的主要原因,而肺炎球菌性脑膜炎是IPD中更为严重的一种,具有高的死亡和永久性神经后遗症风险。肺炎链球菌的突变有时会引起脑膜炎,增加对脑膜炎相关的肺炎链球菌突变的了解,可以提高人们对发病机制的理解,并为预防策略提供信息。本文报告了IPD病人测试队列(n=2054)、独立的验证队列(n=2518)中,肺...
  • nanopore测序技术专题(十六):利用NanoFilt对数据进行过滤
    数据质控之后,我们得到nanopore数据长度和平均质量的分布,例如平均质量值低于Q7的占有多少比例。有了这些指标之后,接下来就可以对数据进行过滤了。数据类似于处理食材,需要将不好的食材去掉,这样才能做出精致可口的菜肴,所以,不懂计算机的生物学家不是一个好厨子。 安装NanoPlot NanoFilt顾名思义,是用来过滤nanopore测序数据的,它来自于nanopack包,我们前面已经安装过,当时是在虚拟环境中安装的,现在要使用该软件,则需要进入虚拟环境中来使用。也可以单独安装。 #激活虚拟nanopa...
  • nanopore测序技术专题开篇词
    熟悉我们公众号的朋友应该知道我们喜欢写专题,没错,我们喜欢出系统性大作,包括制作的视频也都是四五十集的大作。虽然这样在营销上不合适,但是看起来整齐呀。前面我们推出过《生物数据分析平台搭建-CentOS版》,《生物数据分析平台搭建-Ubuntu版》,《生物信息神奇网站》以及《生物信息百佳软件》(未完待续)。从这开始我们将开启全新的专题《nanopore测序技术专题》,准备好上车吧,跟着通哥不迷路,通哥带你上高速。 基因学苑文章列表(201909) 纳米孔测序技术一项革命性的技术,三年前,我说这是一项来自未来...
  • 制造一台dna测序仪到底有多难?
    造一台测序仪到底有多难,具体我也说不上来,但肯定很难很难,和造原子弹相比呢?和造航母比呢?和登上太空相比呢?这样一比就容易了,首先,从时间上来说,原子弹和航母在二战期间就造出来了,61年加加林就登上太空了;再从空间上来讲,能够造原子弹的国家有很多,包括我们的邻居,都能制造个二踢脚;而一般发达国家也都掌握了航天技术。 制造一台测序仪有多难 目前国际上200多个国家,真正能够制造DNA测序仪的只有三个国家,老牌资本主义国家,曾经的日不落帝国英国;目前国际上最强大的国家美利坚合众国,还有一个就是千年文明古国,并...
  • nanopore测序技术专题(九):利用minion_qc绘制质控图
    前面我们提到过利用guppy进行碱基识别后生成一个sequencing_summary.txt文件,这个文件是列表格式的统计结果,R语言最喜欢列表格式了,直接使用R可以对这个列表进行统计绘图。其实如果使用官方的MinKNOW软件自带这些绘图功能,如果是自己进行的碱基识别,可以使用minion_qc来进行统计绘图,非常的容易,其实后面我们介绍的NanoPlot也可以使用这个文件绘图。 软件安装 软件官网:https://github.com/roblanf/minion_qc这个工具其实就是一个R脚本,在R...
  • nanopore测序技术专题(十三):病原微生物快速鉴定
    利用nanopore其便携性,建库方便,实时测序等特点,非常适合现场操作。例如当前利用nanopore测序仪已经在野外,高山,冰川,外太空等复杂环境中进行了实时进行鉴定。通过基因组来快速鉴定微生物。主要是通过测序数据与已知数据之间进行快速的序列比对,寻找二者之间基因组上的差异,以及亲缘关系,是否具有共有以及特有基因等。可以利用全基因组测序也可以测全长16S等,根据不同的实验目的选择合适的方法。 微生物快速鉴定原理 一般来说,序列越长则具有越高的唯一性,利用nanopore的长读长特性,可以不用拼接,直接用...
  • microbiomeViz:绘制lefse结果中Cladogram
    为啥写这个 平日经常会分析shotgun宏基因组的数据,我们的pipeline使用MetaPhlAn,Kraken等profiler。这种数据经常会产生一个表格,如下 download.file(https://bitbucket.org/biobakery/biobakery/raw/tip/demos/biobakery_demos/data/metaphlan2/output/SRS014459-Stool_profile.txt,SRS014459-Stool_profile.txt)knitr:...
  • nanopore测序技术专题(十):安装所需软件
    纸上得来终觉浅,绝知此事要躬行,做生物信息,必须亲自上手才行,否则就会陷入一看啥都会,一做都不对的怪圈。而且,很多科学研究中的重要内容,都隐藏在细节当中,只有在不断的实践中才能发现科学的奥秘,科学研究就是一个不断探索的过程。从这次内容开始,我们将进入nanopore数据分析实战阶段。Areyouready? 软件列表 目前适合nanopore数据分析的软件已经有不少了,虽然没有二代测序多,但是也足够用,而且很多软件并部分测序平台,只要是固定的文件格式即可。下面给出了一些常用的nanopore数据分析的软件...