请教reads与基因组比对分析软件率说明什么问题。

基因组学中的reads指什么
基因组学中的reads指什么
10-01-20 &匿名提问
 基因组,Genome,一般的定义是单倍体细胞中的全套染色体为一个基因组,或是单倍体细胞中的全部基因为一个基因组。可是基因组测序的结果发现基因编码序列只占整个基因组序列的很小一部分。因此,基因组应该指单倍体细胞中包括编码序列和非编码序列在内的全部DNA分子。说的更确切些,核基因组是单倍体细胞核内的全部 DNA分子;线粒体基因组则是一个线粒体所包含的全部DNA分子;叶绿体基因组则是一个叶绿体所包含的全部DNA分子。   《遗传学名词》第二版对“基因组”的释义:  单倍体细胞核、细胞器或病毒粒子所含的全部DNA分子或RNA分子。  现代遗传学家认为,基因是DNA(脱氧核糖核酸)分子上具有遗传效应的特定核苷酸序列的总称,是具有遗传效应的DNA分子片段。基因位于染色体上,并在染色体上呈线性排列。基因不仅可以通过复制把遗传信息传递给下一代,还可以使遗传信息得到表达。不同人种之间头发、肤色、眼睛、鼻子等不同,是基因差异所致。  基因是生命遗传的基本单位,由30亿个碱基对组成的人类基因组,蕴藏着生命的奥秘。始于1990年的国际人类基因组计划,被誉为生命科学的“登月”计划,原计划于2005年完成。各国所承担工作比例约为美国54%,英国33%,日本7%,法国2.8%,德国2.2%,中国1%。此前,人类基因组“工作框架图”已于2000年6月完成,科学家发现人类基因数目约为2.5万个,远少于原先10万个基因的估计。  人类基因组是全人类的共同财富。国内外专家普遍认为,基因组序列图首次在分子层面上为人类提供了一份生命“说明书”,不仅奠定了人类认识自我的基石,推动了生命与医学科学的革命性进展,而且为全人类的健康带来了福音。  ? 人类只有一个基因组,大约有2.5万个基因。人类基因组计划是美国科学家于1985年率先提出的,旨在阐明人类基因组30亿个碱基对的序列,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息,使人类第一次在分子水平上全面地认识自我。计划于1990年正式启动,这一价值30亿美元的计划的目标是,为30亿个碱基对构成的人类基因组精确测序,从而最终弄清楚每种基因制造的蛋白质及其作用。打个比方,这一过程就好像以步行的方式画出从北京到上海的路线图,并标明沿途的每一座山峰与山谷。虽然很慢,但非常精确。  ? 随着人类基因组逐渐被破译,一张生命之图将被绘就,人们的生活也将发生巨大变化。基因药物已经走进人们的生活,利用基因治疗更多的疾病不再是一个奢望。因为随着我们对人类 本身的了解迈上新的台阶,很多疾病的病因将被揭开,药物就会设计得更好些,治疗方案就能“对因下药”,生活起居、饮食习惯有可能根据基因情况进行调整,人类的整体健康状 况将会提高,二十一世纪的医学基础将由此奠定。  ? 利用基因,人们可以改良果蔬品种,提高农作物的品质,更多的转基因植物和动物、食品将问世,人类可能在新世纪里培育出超级物作。通过控制人体的生化特性,人类将能够恢复或修复人体细胞和器官的功能,甚至改变人类的进化过程。
请登录后再发表评论!
《功能基因组学》
请登录后再发表评论!全部微信分类
当前位置:
Mapping&reads到基因组
本网站文章均来自网络
搜索结果,只以信息传播为目的,不代表本站认同其观点和立场,版权为原作者所有,请与公众号原作者联系,亦切勿轻易相信文章内容。如有侵犯权益,或者不良信息。请立即联络我们做技术屏蔽! 邮箱:
首先,我们需要明确一条,那就是是否有reference genome(参考基因组)。如果没有,那么你应该使用的工具是de novo assembly tools,比如说基因组拼接Genomics assembly: Velvet, SOAPdenovo转录组拼接Transcript assembly:Trinity另一种情况就是已经有参考基因组。这种情况最为常见。对于基因组,我们需要有一个基本的常识,那就是随着时间的发展,对于同一物种,其基因组会时常更新,比如人类基因组现在就有:2003年六月的NCBI34/hg16, 2004年五月的NCBI35/hg17,2006年三月的NCBI36/hg18,以及现在的2009年二月的NCBI37/hg19等多个版本。现在最为常见的是hg18及hg19两个版本。所以,当我们拿到一个mapping好的文件时,必须知道它是map到哪个版本的基因组上的。下面列举一些常用的基因组版本名称:hg19 Human genome
hg18 Human genome
hg17 Human genome
mm10 Mouse genome
mm9 Mouse genome
mm8 Mouse genome
rn5 Rat genome
rn4 Rat genome
dm3 Fly genome
ce10 Worm genome
ce6 Worm genome
danRer7 Zebrafish genome
tair10 Arabidopsis genome
sacCer3 Yeast genome
sacCer2 Yeast genome
galGal4 Chicken genome
xenTro3 Frog genome
xenTro2 Frog genome有一种测序是用于检查基因组修饰的,比如说MethylC-Seq, BS-Seq, or RBBS-Seq,它们使用bisulfite处理了测序样品,所以它未被修饰的A会变成T,G会变成C,所以它的方法会与常规的方法有所不同,可以在ABI wiki中去了解和掌握其分析方法。这里所需要强调的是最为常规的map方式。常用的工具有bowtie/bowtie2, BWA,SOAP1/SOAP2等。这个问题又会被分成两个问题,是基因组测序(DNA-seq)还是转录组测序(mRNA-seq)。其中的区别是对于真核生物而言,mRNA序列与DNA序列并不完全相同,在经历了后剪切之后,成熟的mRNA可能是原基因的一部分,甚至顺序及个别碱基会产生变化。如果是mRNA测序,那map工作就会在DNA测序map的基础上再多一步,map到转录组上去。所以最为流行的做法是,使用bowtie来map DNA测序,使用tophat来map RNA测序。实际上,tophat是通过调用bowtie来完成工作的。bowtie有1和2的差别。bowtie1出现的早,所以对于测序长度在50bp以下的序列效果不错,而bowtie2主要针对的是长度在50bp以上的测序的。而tophat1和tophat2的差别最主要的就是调用了bowtie1还是bowtie2。当然如果你只安装了bowtie1的话,tophat2也可以调用它。使用bowtie的基本步骤是:生成index文件。常用的index文件可以去bowtie网站上下载。把它拷贝到需要的目录下就可以了。比对序列。比对最常用的命令行为:/path-to-bowtie-programs/bowtie2 -p &# cpu& -x &genome index prefix& &fastq file&
& &output filename&
/programs/bowtie2 -p 8 -x hg19 Experiment1.fastq & Experiment1.sam其中,-p参数用于指定cpu数,也就是分成几个线程并行运算。-x参数用于指定index文件的前缀(第一步下载或者生成的文件)。输出格式默认为SAM。可以指定为多种其它格式,比如说BAM(SAM的二进制文件)等等。使用tophat的基本步骤是:理解bowtie使用tophat来mapping reads。其命令常见的形式为:/path-to-bowtie-programs/tophat -o &output directory& -p &# cpu& &/path-to-genome-index/prefix& &fastq file&
For example:
/programs/tophat -o TophatOutput/ -p 8 /programs/indexes/hg19 Experiment1.fastq
Paired-end Example:
/programs/tophat -o TophatOutputPE/ -p 8 /programs/indexes/hg19 Experiment1.r1.fastq Experiment1.r2.fastq可以发现,其很多参数是同bowtie是一样的。但是它有几个重要参数需要了解:--library-type &fr-unstranded | fr-firststrand | fr-secondstrand&
用于生成RNA-seq的library。最常见的是使用fr-unstranded,两条链都考虑。
-G &GTF file&
用于加注transcriptome信息。GFF文件可以去UCSC Table Browser下载。
本网站文章均来自网络
搜索结果,只以信息传播为目的,不代表本站认同其观点和立场,版权为原作者所有,请与公众号原作者联系,亦切勿轻易相信文章内容。如有侵犯权益,或者不良信息。请立即联络我们做技术屏蔽! 邮箱:
上一篇:第一篇
下一篇:最后一篇
关注排行榜
友情链接:高通量测序4万条reads 算什么水平
kkDV43XZ46
这你要看测序的对象,如果说RNA-seq,这个真是低,如果是测宏基因组的特定序列(16s.18s.ITS)这个不少了.要看研究的对象的,总体来说高通量测序4W条reads真的不多.
我做的是关于粪便DNA的宏基因组的测序,然后去分析肠道菌群多样性 这个4万条reads可以吗
做人的肠道的宏基因组的够了,一般是2W-4W条reads,如果有什么问题可以私信我。
为您推荐:
其他类似问题
扫描下载二维码RNA-seq数据基因水平表达差异分析 & 糗世界
RNA-seq数据基因水平表达差异分析
这篇博文来自于的学习笔记。
使用Bioconductor分析RNA-seq数据,获取基因水平表达差异结果主要分三步:记数(counts) -& 质量控制(diagnostics) -& 统计分析(statistics)
在Bioconductor中,用于RNA-seq数据分析的包很多,这里介绍三种edgeR, DESeq2以及voom。
为了避免意外,我们开始一个全新的r session。
rm(list=ls())
载入edgeR。
library(edgeR)
## Loading required package: limma
load(url(&:8080/bioconductor/RNA-seq/ds1.Rdata&))
## [1] &counts&
class(counts)
## [1] &matrix&
dim(counts)
## [1] 30727
head(counts[, 1:7], 3)
ES.07985 DE.07981 GT.66339 FG.08004 PE.07980 FE.66350
为载入的数据分组。这里使用列名提供的信息分组。
grp &- as.factor(substr(colnames(counts), 1, 2)) ##substr截取列名的前两个字母
table(grp)
## DE ES FE FG GT IS PE PH
o &- order(grp)
pairs(log2(1+counts[,o[1:7]]), pch=&.&,lower.panel=NULL) ##这个图给我们样品间关系的一揽印象
建立一个DGEList对象,并对数据进行标准化(normalize)
d &- DGEList(counts=counts, group=grp)
d &- calcNormFactors(d)
group lib.size norm.factors
## ES.07985
## DE.07981
## GT.66339
## FG.08004
## PE.07980
## FE.66350
## ES.66342
## DE.66333
## GT.66341
## FG.66346
## PE.66344
## FE.66331
## PH.66332
## PH.66336
## PE.66345
## PE.66330
## FE.66348
## FE.66334
## ES.66335
## DE.66349
## GT.66337
## FG.66351
## PE.66338
## PH.66340
## PE.66329
## IS.66347
## IS.66343
这里的norm.factors计算方法有3种,分别是TMM, RLE和upperquartile。默认使用TMM方法。
接下来要去除低表达值的数据,这一步可以减少很多计算量,不做也不影响最终的结果。
## [1] 30727
cps &- cpm(d) ## count per million
k &- rowSums(cps&=1) & 2
d &- d[k,]
## [1] 21707
我们看到数据几乎减少了1/3。
然后进行聚类分析。这一步是质量控制的关键一步。如果同一组的biological replicates不 能相聚在一起,必要时需要考虑重新实验。如果条件允许,这一步就要抛弃一些意外的数据。
cols &- as.numeric(d$samples$group)
plotMDS(d,col=cols)
绘制multidimensional scaling plot有很多种手段。LFC就是log2 fold change, BCV就是 biological coefficient of variation. 为了快速绘图,默认情况下只是抽取了top 500个值。
par(mfrow=c(2,2))
plotMDS(d, col=cols, main=&500 / lLFC&)
plotMDS(d, col=cols, method=&bcv&, main=&500 / BCV&)
plotMDS(d, col=cols, top=2000, main=&2000 / lLFC&)
plotMDS(d, col=cols, top=2000, method=&bcv&, main=&2000 / BCV&)
而后构建模型。
mm &- model.matrix(~-1+grp)
grpDE grpES grpFE grpFG grpGT grpIS grpPE grpPH
## attr(,&assign&)
## [1] 1 1 1 1 1 1 1 1
## attr(,&contrasts&)
## attr(,&contrasts&)$grp
## [1] &contr.treatment&
依据模型估算离散度(dispersion)。你一定会问什么是离散度啊?在一文中定义离散度为生物变异系数(biological coefficient of variation)的平方。这里需要解释一下什么是技术重复(technical replicates),什么是生物重复(biological replicates)。技术重复就是同样的一个生物样品,使用相同的操作技术,两次或者两次以上实验。而生物重复是指不同的生物样品,使用相同的操作技术,两次或者两次以上的实验。而 biological variation在上文中专指排除technical variation以外的因为不同生物样品导致的差异。 \(Total CV^2 = Technical CV^2 + Biological CV^2\)
d &- estimateGLMCommonDisp(d,mm)
d &- estimateGLMTrendedDisp(d,mm)
## Loading required package: splines
d &- estimateGLMTagwiseDisp(d,mm)
其实离散度也可以是质量控制的一部分。我们使用plotBCV来察看同一组内不同样品的不同表达水平值的方差分析。
plotBCV(d)
从上图中,可以看到红线所在的Common dispersion有0.34左右。但是当我们调用d$common.dispersion时,它却只有0.12。这是怎么回事呢?这是因为求方根之后才是真正的值。
d$common.dispersion
## [1] 0.1182
sqrt(d$common.dispersion)
## [1] 0.3438
##请无视此段。对于BCV的估计,正常情况下,必须要有很多样品才能比较准确,而生物实验是不可能提供成百上千的重复的,所以通常的手段是将表达值相近的基因等同看待。但是这样还是会对BCV过度估计。对于过度估计,在GLM中可以penalized maximum likelihood estimation来进行修正。
对于plotBCV给出的红线,它在0.2~0.4之间都是容易接受的。但如果超过0.5,则需要考虑实验样品之间的差异是否过大了。
plotMeanVar(d, show.raw=TRUE, show.tagwise=TRUE, show.binned=TRUE)
在上图中,很明显地显示出基因水平的差异(variance)随着表达值的升高而升高。这一点会让有些人觉得很困惑,因为很多人会认为当表达值升高时,变异系数应该下降才对。但其实随着表达值升高,变异系数下降只符合技术重复带来的差异变化,而生物重复带来的差异变化却并不是这样。从dispersion的图中我们可以看到,它是一个两头翘的分布。因为生物重复差异在整体的变异系数中占主导地位,所以我们会观察到其基因水平的变异系数反而会随着表达值的升高而升高。
对于基因芯片,我们熟悉了MAplot,对于RNAseq同样可以绘制MAplot。MAplot的y轴的中值应该在0线上。
par(mfrow=c(1,2))
plotSmear(d, pair=c(&ES&,&DE&), ylim=c(-5,5))
plotSmear(d, pair=c(&DE&,&GT&), ylim=c(-5,5))
接下来的步骤就是统计分析的步骤了。先做广义线性拟合(Generalized linear models),而后构建比较结构(construct contrast),最后依据比较结构进行比较,给出差异表达的基因。
f &- glmFit(d,mm)
con &- makeContrasts(&DE-ES&=grpDE-grpES,levels=colnames(mm))
lrt &- glmLRT(f,contrast=con)
topTags(lrt,20)
## Coefficient:
1*grpDE -1*grpES
logFC logCPM
6.658 295.5 3.189e-66 6.923e-62
7.297 280.2 6.962e-63 7.556e-59
## ENSG 10.583
6.440 262.0 6.295e-59 4.555e-55
5.685 241.4 1.936e-54 1.051e-50
8.044 227.5 2.074e-51 9.003e-48
## ENSG 11.314
6.398 223.1 1.880e-50 6.801e-47
## ENSG -4.501
6.464 218.4 2.059e-49 6.384e-46
6.784 217.4 3.278e-49 8.895e-46
## ENSG 14.932
7.295 202.7 5.407e-46 1.304e-42
6.655 198.9 3.606e-45 7.828e-42
7.548 185.1 3.694e-42 7.289e-39
## ENSG 11.071
8.362 181.4 2.338e-41 4.230e-38
5.529 178.2 1.193e-40 1.991e-37
4.880 177.5 1.693e-40 2.624e-37
5.850 174.7 6.890e-40 9.971e-37
4.827 171.7 3.206e-39 4.349e-36
## ENSG 12.848
5.288 171.5 3.560e-39 4.546e-36
7.487 170.6 5.400e-39 6.512e-36
## ENSG 13.186
6.579 166.0 5.478e-38 6.259e-35
6.114 162.3 3.517e-37 3.817e-34
最后,得到差异表达基因列表后,我们找出几个来做一个检查,看看结果对不对。
cps &- cpm(d)
o &- order(colnames(counts))
barplot( cps[&ENSG&,o], col=cols[o], las=2)
输出结果至文件。
tt &- topTags(lrt, n=Inf)$table
write.table(tt, file=&LRT1.xls&, row.names=FALSE, sep=&\t&, quote=FALSE)
DESeq2 载入DESeq2
library(DESeq2)
我们载入与上一例相同的数据。
load(url(&/bioconductor/RNA-seq/ds1.Rdata&))
[1] &cols&
&counts& &cps&
head(counts[, 1:7], 3)
ES.07985 DE.07981 GT.66339 FG.08004 PE.07980 FE.66350
grp &- as.factor(substr(colnames(counts), 1, 2)) ##substr截取列名的前两个字母
dds &- DESeqDataSetFromMatrix(counts, colData=data.frame(grp), design=formula(~-1+grp)) ##这里的colData必须是一个DataFrame或者data.frame。每一行都对应着counts中的一列。design中的公式和limma中的方法一致。
design(dds)
## ~-1 + grp
dds &- DESeq(dds) ##一步到位,不需要太多步骤
## estimating size factors
## estimating dispersions
## gene-wise dispersion estimates
## mean-dispersion relationship
## final dispersion estimates
## fitting model and testing
res &- results(dds) ##得到结果
## log2 fold change (MAP): grp PH vs DE
## Wald test p-value: grp PH vs DE
## DataFrame with 30727 rows and 6 columns
baseMean log2FoldChange
&numeric& &numeric&
&numeric& &numeric&
-0..522888
-0..993031
-2..021265
-2..002946
0.e+00 0.0001281
0.e-05 0.9999761
## ENSG 127.55955
-3.819e-01
0.e+00 0.1736234
-4.989e-01
1.e-01 0.6335268
0.e-06 0.9999987
## ENSG 0.0007656
## ENSG 0.3038560
## ENSG 0.7615653
mcols(res, use.names=TRUE) ##结果中各例的意义
## DataFrame with 6 rows and 2 columns
description
&character&
&character&
## baseMean
intermediate
the base mean over all rows
## log2FoldChange
results log2 fold change (MAP): grp PH vs DE
standard error: grp PH vs DE
Wald statistic: grp PH vs DE
Wald test p-value: grp PH vs DE
BH adjusted p-values
plotMA(res)
plotDispEsts(dds)
write.csv(as.data.frame(res), file=&results.csv&) ##输出结果
library(limma)
v &- voom(d, mm, plot=TRUE) ##这里的d就是edgeR中的d,下面就是标准的limma流程了。
vf &- lmFit(v,mm)
# 'mm' 前文定义了
cf &- contrasts.fit(vf,con)
# 'con' 前文定义了
cf &- eBayes(cf)
topTable(cf)
logFC AveExpr
P.Value adj.P.Val
5. 4.643e-17 1.008e-12 28.60
2. 1.802e-16 1.781e-12 27.44
## ENSG -4.485
5. 4.669e-16 1.781e-12 26.29
1. 5.733e-16 1.781e-12 26.23
5. 5.745e-16 1.781e-12 25.22
## ENSG 11.806
1. 4.016e-16 1.781e-12 24.92
5. 4.418e-16 1.781e-12 24.89
0. 9.219e-16 2.501e-12 24.24
## ENSG -3.454
8. 7.795e-15 1.538e-11 23.84
7. 5.645e-15 1.361e-11 22.79
我们比较不同方法给出的头几行,差别还真是大啊。 问题来了,我们应该相信哪种方法呢?我只能说,都算一下,然后每种方法给出的结果里都挑几个跑一下qRT-PCR。有人问是不是取多种办法相同的的部分会验证率高些?我的经验,真不一定。如果data好,用哪种方法验证率都高,如果data不行,那只能看看哪种方法更合适了。
分享至赞过:赞 正在加载……
糗世界已经开始启用新域名,敬请收藏。
因为本人非常忙碌,所有可能无法及时回答问题。请在留言后等待上一个星期。如果一周内没有答复,或者你看到其它人的留言都得到了答复,而你的没有,请在此时再次留言。谢谢。
为什么我推荐留言的方式与我联系?当然我也会回各类其它消息,但是这样的话,针对一个人的回答就无法使其它人获益。所以,本站留言更受欢迎。
请不要使用虚假邮件地址,通常这类地址都会被标注为垃圾邮件。我回复了,你也收不到提醒。如果你的留言没有显示出来,极有可能被标记为垃圾邮件。请耐心等待一周。如果急切,请来发送告知。
如果您觉得有所帮助的话,请点赞支持本博主的虚荣心。留言称赞的话,很有可能应该是百分之百会被当成垃圾评论哟。
2016年十月
101112131516
17181920212223
24252627282930
热门主题 & 页面
发送到您的邮件地址
您的邮件地址
文章未发送,请检查您的电子邮件地址!
电子邮件检查失败,请重试
抱歉,您的博客无法通过电子邮件共享文章。
%d 博主赞过:悬赏:5 离问题还有
(共有<span
style="color:#FF位秀友关注过此问题)
基因组中reads是什么意思?
共有4位秀友回答 
提问者: [] [] []
欢迎您用专业知识为他人答疑解惑,花三五分钟,帮别人解决一个问题,快乐自己一天!
我为人人,人人为我,让我们一起努力共同打造一个专业的学术交流互助平台.
秀友回答 (4)
该回答共有0位秀友支持
回答者: 一级 一星助者
就是阅读框吧!
该回答共有0位秀友支持
回答者: 一级 一星助者
该回答共有0位秀友支持
回答者: 一级 一星助者
就是 开放阅读框啊&
该回答共有0位秀友支持
回答者: 一级 一星助者
回答字数在10000字以内
亲,您需要登陆后才能回答该问题
如果您在、、或任一系统注册过的话,
请用您注册的用户名和密码在下面的登陆框中登陆后再发布您的答案,
如果您在以上系统都未曾注册过,请点击"注册"按钮一分钟注册,谢谢!
找到"基因组中reads是什么意思?"相关问题约13篇,用时0.078127秒
生物秀旗下专业的学术问答社区,为生命科学和医药领域的专业人员提供互帮互助的交流平台。秉承“人人为我,我为人人”的互助理念,让给予成为一种生活方式!
联系我们[Contact Us]:E-mail:
电话:021-
关于我们 [About Us]
生物秀是目前国内最具影响力的生物医药门户网站之一,致力于IT技术和BT(Biology Technology)的跨界融合以及生物医药领域前沿技术和成功商业模式的传播。为生物医药领域研究人员和相关企业提供最具价值的行业资讯、专业技术、学术交流平台、会议会展、电子商务和求职招聘等一站式服务。
生物秀旗下 [Website]}

我要回帖

更多关于 基因组比对软件 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信