博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
De novo RNA-Seq Assembly Using De Bruijn Graphs
阅读量:5237 次
发布时间:2019-06-14

本文共 1153 字,大约阅读时间需要 3 分钟。

De novo RNA-Seq Assembly Using De Bruijn Graphs
 2017-06-12 09:42:47     59     0     0

在说基因组的拼接之前,可以考虑如下的一个问题:

假设有一摞报纸被炸成了碎片,如何利用这些碎片拼接成一份完整的信息了解那天发生的大事?

这个问题的难点在于:必定有一部分的信息因为爆炸而消失不见,也不能简单的把报纸粘起来,因为报纸不止一份,所以我们必须从大量包含了重复内容的碎片来重构一份完整的报纸。

 

 

传统的基因租测序流程大致如下:

取目标样本的一些组织(其中包含了数百万的细胞,具有相同的基因组) -> 将这些dna打断成一定长度的碎片(获得的片段成为read) -> 使用测序仪测得read的碱基序列

所以,在我们要进行后续的分析前,我们需要先要将这些 reads 拼接以还原我们需要的基因组信息。

 

 

与刚才的报纸问题相似,但是基因组拼接的增加了以下难点:

  • DNA是双链,所以对于一个给定的read 我们无法知道他是来于DNA的其中一链,还是来自于它的互补链
  • 测序仪测序错误
  • 获得的reads中可能没有覆盖到基因组的所有片段,所以无法重构该片段

 

这个问题看起来很复杂,显得无从入手,我们可以将其分解为一个个的小问题,并且将其抽象成一个可以明确表达的问题,逐个解决。

 

从k-mers重构字符串

我们假设测序获得的read长度相等,而且没有测序错误,也不用考虑重复问题,就简单的考虑如何将 k-mers (k为read长度,)拼接成一个原始的字符串

 

模拟k-mer的生成

输入:整数k,字符串                           

 

 

输出:k-mers(经过排序)                  

 

 

在了解了k-mer是什么后,我们反过来利用k-mers来还原一个字符串

很明显这个字符串应该以TAA开头,因为没有3-mers以TA结尾

以AA开头的3-mers只有AAT

而以AT开头的 3-mers只有ATG

重复以上过程,我们还原了原始的字符串

 

下面考虑一个更复杂的例子

 

 

我们还是从TAA开始

到此为止一切顺利,但是以ATG后面以TG开头的 3-mers 共有3个 TGC, TGG, TGT

 

 

换成TGC后似乎已经还原了原始字符串,但是到此为止只使用了14个 3-mers,忽略了GGG,使得这个字符串比原始字符串少了一个字符G

 

上面的例子中ATG重复了3次,导致了我们有三个选择TGC,TGG,TGT来延续ATG。当有数百万个reads时,因为重复带来的计算困难将更为严重。

 

可以将基因组的拼接类比为Triazzle(Triazzle是一种拼图游戏,虽然只有16块拼图,但是并没有看起来那么容易)

 

回到刚才的问题

 

转载于:https://www.cnblogs.com/wangprince2017/p/9937512.html

你可能感兴趣的文章
C++ FFLIB 之FFDB: 使用 Mysql&Sqlite 实现CRUD
查看>>
Spring-hibernate整合
查看>>
c++ map
查看>>
exit和return的区别
查看>>
discuz 常用脚本格式化数据
查看>>
洛谷P2777
查看>>
PHPStorm2017设置字体与设置浏览器访问
查看>>
SQL查询总结 - wanglei
查看>>
安装cocoa pods时出现Operation not permitted - /usr/bin/xcodeproj的问题
查看>>
GIT笔记:将项目发布到码云
查看>>
JavaScript:学习笔记(7)——VAR、LET、CONST三种变量声明的区别
查看>>
JavaScript 鸭子模型
查看>>
SQL Server 如何查询表定义的列和索引信息
查看>>
GCD 之线程死锁
查看>>
NoSQL数据库常见分类
查看>>
一题多解 之 Bat
查看>>
Java 内部类
查看>>
{面试题7: 使用两个队列实现一个栈}
查看>>
【练习】使用事务和锁定语句
查看>>
centos7升级firefox的flash插件
查看>>