为什么每个个体的DNA像乔丹一样打球

为什么不同基因测序公司提供的分析结果大相径庭?
今年 28 岁的 Kira Peikoff 因为家族成员的疾病关系,对自己未来的健康表示担忧,她希望能从基因测序里面找到一些提示和建议。但她发现,三家不同的基因测序公司,对她的基因测序结果分析却大型径庭。所以我想在这里请教各位,这是为什么呢?既然不同公司的结果不同,甚至分析结果矛盾。这样的测序又有什么意义呢?& 23andMe said my most elevated risks — about double the average for women of European ethnicity — were for psoriasis and rheumatoid arthritis, with my lifetime odds of getting the diseases at 20.2 percent and 8.2 percent. But according to Genetic Testing Laboratories, my lowest risks were for — you guessed it — psoriasis (2 percent) and rheumatoid arthritis (2.6 percent)...via
按投票排序
谢邀,第一次被邀请回答问题还是诚惶诚恐的,所以专门连上VPN把题干里面那份不存在的报纸(NY Times)中的报道完整读了一遍。首先,澄清一下题干,因为下面所引的这篇文章中的姑娘用她的DNA找了三家不同的公司做基因检测,其中Google创始人布林投资的23&Me采用的技术肯定不是基因测序(Gene Sequencing),而是基因芯片筛查(Gene Chip Screening),两者之间的区别可以简单理解为:测序是把基因组这本书从头到尾读完,芯片筛查是从这本书里选一些重要的标志性字符(单个碱基的变异,SNP),通过核查每个人的基因组在这些标志性字符处的变异状态,来分析这个人与疾病或其他性状的相关性。另外两家公司在业内名气可能没有23&Me那么大,从他们的官网上很难判断出他们使用了哪种技术,但是单纯从成本来看,应该也不是测序,而更可能是芯片。但是这并不影响题目本身的意义,就是为什么不同公司的基因检测给出的疾病风险预测差别这么大。人体和几乎所有生命体(某些RNA病毒和朊病毒除外)每一个细胞里面都有一套完整的基因组DNA,好比是一本完整的蓝图+施工手册。从受精卵开始,生命体就从这套手册选择不同的章节搭建不同功能的细胞,并让它们执行相应的功能。每个人的这套手册都略有不同(大多数就是前述的SNP),这些不同之处定义了人种、皮肤头发眼睛颜色等所有性状,也定义了对疾病的敏感性。上述三个公司代表的基因健康咨询产业,说白了就是试图找到一些与疾病相关的SNP位点,检测它们的状态,然后计算出一个概率,最后交到被检测者的手里。但是问题就出在这个原理上面:首先什么样的SNP位点是真的与疾病相关的?其次它的相关性到底有多少?前一个问题基本是靠大规模的关联性分析,其实是个统计学的概念。打个最极端的比方,找一千个身高2米的小明,再找一千个1米4的小明,假定他们的人种、营养这些背景都一致,然后找一个SNP位点(假定这个位点有A、B两种状态),在这两千人里面看一看有多少人在这个位点上是A,多少人是B,如果1000个高个子在这个位点上都是A,而1000个矮个子都是B,那么我们就可以比较肯定地说这个位点与身高的相关性非常强,一个婴儿刚生出来,就检查到他这个位点是A状态,那他长大后就有很大的几率长成高个子。但这是非常理想非常极端的假设,实际上只有很少量单基因疾病(比如某种先天性耳聋)有这样斩钉截铁的结论,身高、体重、高血压、糖尿病、癌症,都是几百种基因相互纠结、再加上环境因素累加影响,再加上时间因素,才会表现出最后的差异。所以现在的人类遗传学里面,其实大家都是在尽可能地加大统计的人群,尽可能地寻找人种和背景条件一致的人群,尽可能地提高自己研究的统计力和概率的有效性。即使如此,不同的研究小组之间出来的结论也往往千差万别,而且由于他们选取的统计人群样本是不太会互相共享的,这种结论也就很少有条件由其他小组独立地重复核实。到了这个时候,你就可以明白为什么这些基因遗传咨询公司给出的报告差异这么大。首先,他们选择的SNP位点可能来自于不同研究报告的结论,这些结论有的经过反复的检验,形成了金标准,但是还有一些并没有那么的靠谱;其次他们采用的检测技术和分析方案各有不同,同一个SNP位点的同一种状态,根据不同的分析方法也许就会出现不同的概率;最后他们在给出报告的时候,对人种、生活方式、环境因素的考量方式不同,也就会出现不同的概率。而这些概率对这个参与检测的人而言,到底有多大的实际意义,我其实也就呵呵了。那么现在基因检测里面有没有特别有临床意义,值得一做的呢?有!试列几个:1. 乳腺癌易感基因BRCA1/2突变,其重要性已经被很多研究反复证实过,算是不多的可靠位点了。但是Angelina Julie是不是应该马上动刀切掉,个人意见是不以为然,实际上不如加强早期筛查,改善生活方式。2. 癌症化疗药物的耐药基因,其中大多数都是经过大量临床实验验证的,针对特定癌症、特定药物,其关联性是比较高的。在确定化疗方案之前先选择相关药物耐药基因进行筛查,可以有效提高化疗方案的成功概率。3. 通过采集母体血液进行胎儿染色体异常疾病(如唐氏综合症)无创筛查,准确率已经达到羊水穿刺等传统方法相同的水平。最后,NY Times的科学文章水平比国内已经高了不知多少倍,但是仍然有不少事实性错误,好在他们采访面非常广,而且找了很多业内真正的专家。从这个角度来看国内的大众媒体科普文章水平,就能知道为什么一个转基因问题能够吵到这般地步。。。
楼上的很多人已经给出了比较准确的解读,而且很多回答能把一些晦涩的生物学概念用很浅显的语言和例子做以说明,深入浅出地介绍给非生物专业的读者,非常不错,值得学习。不过这里本人就做一个小小的补充:1)文章提到的基因检测,其实确切的说是direct to consumer genetics testing (直接面向用户的基因检测)。通常使用的方法是通过检测某些基因位点(这里不是对基因(组)进行测序)然后对一些常见病风险进行评估,给出一个患病的百分比,然后用户根据检测结果,在日后的生活中对饮食,生活方式以及相关的方面进行预防和干预。这种检测,个人认为更具“娱乐”性质,不太具有临床指导意义。为什么呢?首先给出一个百分比就是一个很难解读的结果。比如,患二型糖尿病的风险26%,相比于平均人群的风险24% 高出2个百分点,这个2个百分点之于一个个体而言意义几乎为零。其次,评估风险的疾病大部分是一些常见病。不同于罕见病(大多数是单基因或少数基因造成,且基因型和疾病表型的关系比较简单明了)的是常见病大多数是多基因,以及基因和环境的相互作用造成,致病机理也相对复杂。目前,通过GWAS研究找到的和常见病相关的基因位点(具体方法原理参见火焰之河的回答里面关于2米小明的例子),很多只是证明的相关性,但是对造成疾病的作用(effect)有多大,有的还没有很好的功能性实验的证据。所以说,对常见病的患病的风险评估本身是一个非常具有挑战性的工作,目前的基因检测也只能做到靠大量的数据统计计算一个百分比的程度,生物学意义和临床意义都不大。2)这种直接面向用户的基因检测其实是基因检测发展到近期,努力市场化的一个产物。但是这并不代表基因检测的全部应用。 很多消费者其实不了解基因检测的应用,错误的认为基因检测就是用来预测疾病风险的,这样误解加上new york times上这样的报道,很容易让人们产生基因检测“不靠谱”的错误印象。事实上,基因检测还大量运用在临床检测方面(不同于直接面向用户的基因检测,这样的服务可以称作面向医生/病人的基因检测),这也是我一直强调的具有临床意义的基因检测。个人认为,目前的技术水平将基因检测使用在确切的具有临床指导意义的医学检测更实际,也更加“靠谱”。那么临床上如何应用基因检测的呢?这里举几个例子本人工作的地方是美国一家大学附属医院下面的独立实验室,主要提供罕见病的基因检测。这里检测的大部分样本不是来自于“健康人群”,而是来自于病人的。这些病人因为出现某些罕见病的症状,去看医生,然后医生根据身体检查,做一些基本的检测,怀疑某种罕见病。于是,为了帮助确诊,医生将病人refer到实验室做基因检测。向我上面提到的,罕见病一般是单基因或者少数基因的突变造成的疾病,并且基因和疾病的关系比较明确,所以这类针对罕见病的检测,一般不会检测整个基因组,而只是针对可能的一个或几个致病基因进行深度的测序和分析。一旦找到明确的致病基因,那么该疾病的诊断便可以确立。再加上大部分罕见病也是遗传病,所以基因检测的同时,还为病人及家属提供遗传咨询服务,比如显性隐性的遗传概率多大;父母能否生育正常的孩子;病人将来生育遗传疾病给下一代的概率多大,等等之类。关于罕见病,目前还有个应用就是:有少数的病人患了病后,根据临床症状连医生都没办法确切地知道是什么疾病,通常这个叫做undiagnosed disease(未确诊的疾病)。这样的病人现在有一个选择,就是做全基因组或者全外显子组测序,试图通过这样的基因检测,找到致病基因,然后把基因以及已知基因的功能和临床症状联系起来,看看能不能试图找到治疗方案。目前美国有实验室和公司都有提供这样的服务,也的确有病人通过这样的基因检测最后确诊了疾病,并且得到有效的治疗。不过这个技术目前更多使用在比较棘手的病人身上,因为测序尤其是数据的分析和解读非常困难且耗时,需要有经验的专业人员来做。基因检测目前还用于癌症的诊断和治疗,主要在指导靶向药物的使用。比如病人患了癌症,可以对其癌变的组织进行检测,察看是哪个突变基因造成的癌症。肺癌白血病等都有针对某一个突变基因的靶向抗癌药物。如果病人刚好携带那个突变的基因,便可以使用对应的靶向药。这样的治疗不同于化疗,对病人的伤害比较小。但临床上有时候是和传统方法结合起来使用。但是,目前的靶向药物不多,如果病人即便得了癌症,但是不携带靶向药物针对的突变基因,那么靶向药物就起不到作用。同样还是癌症,最近有研究发现对于癌症的划分可以不再遵循发病的器官,比如乳腺的癌变就是乳腺癌,结肠的癌变就是结肠癌。而根据基因检测的结果,可以把癌症按照致病的突变基因来划分。比如两个不同的病人,一个乳腺癌,一个宫颈癌,看似不同的疾病,但是可能是同样的基因突变造成的,且癌变组织里的其他分子特征都非常类似。那么这种情况下,可以把用于该突变基因的靶向药物同时使用在不同的癌症病人身上。这种做法已经在一些临床案例中证明有效的。去年大概CNN还是某个知名媒体就报道了一个神奇的案例,那个病人患白血病,不断地化疗但是复发,后来通过基因检测和基因表达谱的检测,找到异常基因是一个经常造成肾癌的突变基因。于是医生大胆地把治疗肾癌的药物用在这个病人身上,结果白血病治好了。药物基因检测。这个在临床上也有应用。因为每个人对药物的代谢和反应是不同的,这个主要是由体内药物代谢的酶决定的。为了防止不良药物反应,主要针对病人代谢药物的基因进行检测,根据不同的基因型,来给病人特定剂量的药物。比如用于针对抗血栓药物的warfarin(华法令)的药物基因检测,目前比较广泛应用在临床。以上举的一些例子,就是基因检测在临床上的应用。个人认为这才是现阶段基因检测的主要战场,并且是对病人具有实质帮助的基因检测。比起那些所谓的面向用户的疾病风险预测的检测,个人觉得如果好奇的话去玩玩可以,但是别太当真。反正我自己是不会做这样的检测,因为意义不大。不过23andme里检测有上面提到的药物基因组的检测,这个可能还有点意义吧。还有一个就是关于癌症的screening (筛查),个人觉得这个检测对于有癌症家族史的人还是有意义的。但是对于普通人群,如果体检的时候想做个癌症基因筛查,我觉得这个意义还有待商榷。因为如果没有家族史的话,非遗传性癌症,那大部分是自发性的癌症,这样的话通过血液测癌症基因不一定能检测到。但是鉴于本人还没有详细的了解过这些筛查都包括哪些癌症哪些基因,目前不好评论,以后如果有详细资料的话可以拿出来讨论一下。矮马,第一次在之乎回答问题码了这么多字,不过都是想到什么写什么,希望大家可以指正,提问和讨论!
产生变异,引发检测差异的情况很多。各家有各家的算法,文献,也会有所不同。虽然好答案已经很多了,但我觉得还有要抛砖的必要。我不是搞流行病的,但搞过一点 SNP genotyping,就凑合一下,试读一点报告。别家看不到了,23&Me,可以上图。这是 coursera 上 Useful Genetics 课()的老师,UBC 的教授,Rosie Rosefield 自己的检测结果中(module 5E),健康部分的(现在已不提供),我截了下来:给出的信息包括健康风险,继承的状况,遗传特征(喝酒上不上脸,有什么样的耳屎,头发是卷是直),药物反应。大家比较关心的健康风险部分,这是风险较普通人增高的疾病:注意分类首先按可信度分:有充分科学研究支持的在最上面,支持较弱的在下面(甚至没有给出具体的风险数值)。在这几个认为科学证据较充足的疾病中,又是按绝对风险排列,而不是相对风险。注意分类首先按可信度分:有充分科学研究支持的在最上面,支持较弱的在下面(甚至没有给出具体的风险数值)。在这几个认为科学证据较充足的疾病中,又是按绝对风险排列,而不是相对风险。风险降低的病也是如此:点入具体疾病,比如 Rheumatoid Arthritis(类风湿性关节炎)可以看到与此病有关的相关信息,并说明,23andMe 的预测结果是基于 9 个 SNP marker。点入可以得到具体的位点信息。比如:可以看到与此病有关的相关信息,并说明,23andMe 的预测结果是基于 9 个 SNP marker。点入可以得到具体的位点信息。比如:这里 SNP 的名字是 rs6457617,基因型是 CT,风险是 0.89(根据前面的表估计是 relative risk),并说明这是针对欧洲人种的结果,亚洲人种还没有结论。这里 SNP 的名字是 rs6457617,基因型是 CT,风险是 0.89(根据前面的表估计是 relative risk),并说明这是针对欧洲人种的结果,亚洲人种还没有结论。23andMe 还给出了帮助得出此结论的具体文献,看上去的确都是重量级研究结果。老实说,23andMe 的报告详细到这个程度,已经大大超出我的预料了。仔细的人应该注意到,在结论部分,说类风湿性关节炎的风险由 9 个 Marker 得出,是根据 2010 年 12 月 2 日更新的结果。也就是说,这个报告不是一个死的报告,而是会根据学界研究的发展,而不断更新的。想对自己负责的话,就算看不懂,也完全可以拿这个结果,去找专业的遗传学家根据最新的研究来帮你解读。那大相径庭的结果又是为什么呢?直接拿上面的 SNP rs6457617 出来去搜一搜。23andMe 给出了两篇文献。早一篇是 WTCCC 的研究:在正文里没有提到这个 SNP,在补充材料里,但是,只是显示了有最强的关联,没有给出相对风险。Rheumatoid arthritis genetic variants database 的总结里也肯定了这一点:第二篇文献, ,也是在补充材料的 table 1B 里找到了这个 SNP,提到在患者和普通人中的,两个基因型的比型差别很大,分别是 0.230 和 0.496 ,并得出 odds ratio 是 0.29,也就是相对风险降低。但是,这个表里没说这个 C 和 T 里,谁是野生型,谁是疾病型。因为这个风险显然是一个比例,谁做普通人很重要。最后,在
找到了,T 基因型更常见一些,是野生型。于是,上文中的 0.230 和 0.496 估计是说,在类风湿性关节炎中,C 基因型的数占了 23%,而在没有得病的人中,占了 49.6%,所以有 C 基因型和低得病风险相关,而且看 odds ratio 还很低,0.29,比 23andMe 的 0.89 低不少(虽然这个可能是 relative risk,但在发病率较低的情况下,可比性还是有的)。但是,这个文章中,没有指出 CC,CT 的相对风险或 odds ratio 到底是多少。所以也不清楚,如何出文章的结论中推出 CT 基因型的风险,是和 CC 一样,还是介于 CC 和 TT 中间。在 SNPedia 上,关于此
的结果里说 CT 型是 CC 型风险的 2.3 倍,TT 型是 5.2 倍(反过来就是 0.43 和 0.19),也和 23andMe 的结果差很大。但是,引用的文献是也是前面提到的 WTCCC,就是我没找到具体风险数的研究,所以不知道这个数从何而来,要专业人士指出了。(还有为什么它要用 CC 做野生型进行比较呢?)。最后找到去年国内人做的一篇,是基于中国人的:,根据他们的计算,也肯定了 rs6457617 作为 Marker 对类风湿性关节炎的关联,CT 型的 odds ratio 是 0.59,CC 型是 0.39。当然这是对于中国人的比例。转了一圈,我只能说,仅就 rs6457617 这个 snp 的 CT 基因型,23andMe 给出风险降低和现在的科学证据是一致的,给出的文献也很有帮助,但看不出 23andMe 给出的 0.89 这个风险是如何得出的。只能说,水很深。
还是要补充一下,这些疾病大多都是多基因控制的遗传效应加上环境的共同作用,很多疾病本身研究都没有搞明白,你去杂志上有时就会看到有些矛盾的试验结果,再加上不同的统计学不同的方法和参数设置都会带来最后结果的差别,这时可以用混沌理论去解释了,有时候初始条件的细微差别可能也会导致结果的巨大差异。当今生命科学数据和信息几乎全部公开,但是还是会存在一些公司有一些自己的研究结果加入其中,也存在数据库和芯片更新快慢的问题,如何划定高危基因和SNP位点,设定阈值,统计分析的方法,差异有很多。而且通常测定也会影响结果,
人类孟德尔遗传数据库另外,大多数人都还是忽视了,其实是还是有一些疾病这几家公司一致性不错的,这篇文章只是重点去找出来差异比较大的。她的家族里的疾病才是重点关注的。但是描述一个故事,需要的恰恰是找出大家所关注的和差异比较大的。实际上对于有些遗传疾病的检测已经非常成熟和准确了,尤其是对于单个基因遗传病,一个基因的突变因此的疾病,只需要检测这个突变。有的疾病存在主效基因,可是大多数疾病都不是那么简单,大部分是通过特定位点连C锁的来分析潜在得病危险。可是这些疾病可能是SNP(单核苷酸变异)、(CNV)拷贝数变异和表观遗传等等影响。比如文章里面提到的牛皮癣(Psoriasis)就带有表观遗传的影响,。()目前的DNA Test对于大多数疾病达到的目的只能是测定疾病的潜在威胁,对于潜在的危险,如何调整饮食、以及生活习惯是关键,像Angelina Julie这种极端的做法,就是完全抛弃了环境影响,因为这些疾病是基因和环境相互的结果,环境其实在其中起到了很关键的作用。家族疾病的另外一个原因是他们生活在相同和相似的环境中,有相似的生活习惯。顺便搜了一下测DNA的这位美女,她现在读研究生物伦理学的,本身就是一个自由记者,经常发表文章,这篇文章是她自己写的,很厉害而且影响力不小的文章,相信这个选择三家公司进行的测试也不仅仅是为了检测自己的遗传疾病,她曾经写了一本有名的反乌托邦惊悚小说叫做 LIVING PROOF。
我觉得这篇文章就是讨论为什么结果大相径庭的。而且测序误差---例如本来是A的地方测成了G,所产生的不同并不是导致结果不同的主要原因。不同公司花费不同,测量的疾病也不尽相同23andMe’s saliva test kit, which for $99 promised a report on more than 240 health conditions and traits Genetic Testing Laboratories and Pathway Genomics. G.T.L. charged $285 for a report on 25 disease risksPathway charged $399 for a report on 24 disease risks. 没有统一的工业标准。不同公司所用方法不同a lack of industry standards for weighing risk factors and defining terminology. 测量的SNP数量有限使用不同的模型解释相同的疾病成因Scientists have identified about 10 million SNPs within our three billion nucleotides. But an entire genome sequencing — looking at all three billion nucleotides — would cost around $3,000; the tests I took examined fewer than a million SNPs. my tests sometimes relied on different SNPs to assess the same condition缺少可做比较的综合数据集“Your results are not the least bit surprising,” he told me. “Anything short of sequencing is going to be short on accuracy — and even then, there’s almost no comprehensive data sets to compare to.”基因在疾病中扮演的作用是有限的,环境起了很重要的作用。 the causes of most common diseases remain unknown. Genes account for just 5 to 20 percent of the whole picture.已发现能归因于某些基因的疾病很少There are only 23 diseases that start in adulthood, can be treated, and for which highly predictive tests exist. All are rare, with hereditary breast cancer the most common.最后的建议The tests “may be interesting as a kind of entertainment,” Dr. Caplan said, “but do not take them seriously yet in driving your health care or your lifestyle.”He added: “If you want to spend money wisely to protect your health and you have a few hundred dollars, buy a scale, stand on it, and act accordingly.”结论就是:老老实实锻炼,别乱熬夜无规律进食。别信这些结果。最后推荐一篇文章:
谢邀,没时间仔细看那篇报道,大概看了一下简单说几句吧。首先讲下目前测序可以确诊的范围,目前绝大多数基因是怎样影响人的表型都是未知的,只有极少数单基因疾病算研究的比较透彻的,可以通过测序来检测是否有致病突变,这在临床上已经有应用了;有些复杂些的多基因疾病,如果存在比较明确的某个基因对某个通路是至关重要的,那由这个基因导致的疾病也可以通过测序检测到。除了以上两种可以确诊,其余基本都是所谓的热点研究,方法也不限于测序,其实用的多的往往是芯片,因为只需要做若干个点,成本更低。但热点研究其实不是很靠谱,真正的热点需要大量的统计数据来证实,像乳腺癌的BRAC和HER2等基因算比较靠谱的热点了,但即使是这种很靠谱的热点,也不是100%是致病的(正是因为多基因疾病牵涉的东西太多太复杂,根本就没有研究透彻,只是发现了一点规律就算做是热点了,然后就有人来拿这些算算发病概率等等),说到这,你可以想象那些不靠谱的热点是有多不靠谱了,算出来的发病概率自然是五花八门。最后总结一下,如果测序公司都算还有良心的话,测序结果应该基本是相同的,即使不同平台也不会有太大差别;能得出不同的分析结果,基本就是因为不同公司推算发病概率的算法不一样。(个人认为对某些不靠谱又非常复杂的多基因疾病热点去算发病概率就是吃饱了撑的,没有多少实际意义,有这功夫还不如多研究一些更本质的东西)
基本的报告,本身是不断的迭代和更新的,当前的报告基于当前的研究,如果每家的报告不同,很简单,给出相关的依据(文献)来。国内的基因检测大部分不给数据,这是很大的问题。提供23andme和中华8芯片的数据报告,有兴趣的可以看看。
楼上几位都说得很好,我从我这边接触到的角度给予一些看法,自己工作方向并非技术口,所以有些表述可能不严谨。首先,基因的测序和解读,在我看来一共有四个主要阶段。1)样本采集后的基因测序:即采集样本,通过测序仪转变为原始数据。2)信息分析:将原始数据筛选、拼接,变为可以做遗传分析的具体数据。3)突变分析:针对检测出来结果中发现的基因突变情况,与数据库进行比对,结合模拟功能验证等等,分析目标突变是否存在实际意义。4)结果解读:结合受检者临床实际情况,进行个性化分析,给予建议。那么,不同的单位进行基因测序,实际上上述的四个层面,都会有不同的差异,这种差异也是巨大的,自然会导致结果的不同。一、样本采集和基因测序:这里可以结合楼上两位讲的内容,样本采集的环境和保存不同,会直接影响样本的质量。即采即用与采了之后冰箱放个一年再用能可能测序出来的结果就不一致了。另外测序仪也是不一样的,目前分为一代二代三代。一代测序以sanger为主,是一种目标性比较明确的测序手段,在测序前必须明确要检测哪些片段,设计相应的引物,才能够进行检测。二代测序即高通量测序技术,可以不需要特定的目标片段,整体测序之后再根据自己需要进行分析,这里以Hiseq、Solexa等等为主。第三代则是边合成边测序和测序仪小型化,貌似比较成熟的就proton(这里不太确定proton是不是属于第三代),目前应用还比较少。所以,根据测序仪器的不同,结果已经会不一样了。如果有个仅用sanger测序来进行健康体检服务的公司,那么必坑爹无疑。仅通过sanger测序来确定受检者的健康质量,等同于只根据受检者白头发的数量来断定受检者的年龄一样,非常的不严谨。(插一句,sanger测序在临床检测上面还是有很大的应用空间,例如地贫基因的检测,血友病基因的检测等等,只要检测片段不大,sanger绝对是最优选择,并且还有相应医疗试剂资质)。目前大部分的健康基因检测,至少都用二代测序仪,目前最成熟最快的是Hiseq2500。至于三代测序,proton我听说没太稳定。就不评论了。二、信息分析。这个地方有一个很重要的概念,测序深度。测序深度的大致意思是对目标片段进行测序的过程中,平均会检测到的有意义的次数。一个人的遗传数据大概是3.2G,那么进行测序深度为十的测序,就需要产生32G的有意义的数据,再进行信息分析。测序深度的不同会导致结果的不一致,例如某人携带一个罕见致病突变,这个突变在他身体内发生率就10%左右,即通过10倍测序,只会有一次测出这个突变,那么问题就来了:这个发现的突变到底是测序误差还是受检者真实携带的。所以目前在基因组学研究中,通常用的是50倍测序,而临床检测,建议到80倍,甚至200倍测序深度才能够进行有效解读。再回到信息分析的概念中,一个人有3.2G的数据,测序拿到320G(一百层深度测序),这320G的数据都是碎片状的,需要通过计算机软件结合相应的算法进行筛选和分析。现在一般拼接的软件都比较成熟,Hiseq和Proton也有自带的软件,应该问题不大。所以在第二个环节,主要看测序公司的靠谱程度,比较有良心的一般都会选择50倍以上的测序深度来进行检测,如果那个30倍的来进行检测,只能呵呵了。并且,测序深度这个重要数值一般外行是不了解的,普通受检者也不会问的,比较容易被坑。三、突变分析,这里也是一个大坑。通过上面说的,采集了合格的样本,用合适的测序仪进行测序,靠谱的测序深度,用靠谱的软件和人员进行信息拼接,拿到了受检者的精确基因信息了,下一步是解读。怎么解读呢?这里还是先说概念:突变大致分为无义突变、非致病突变和致病突变。每个人身上都有非常多的突变,绝大多数的突变都是无意义的突变,即有没有这些突变身体都不受影响。其他的有意义的突变之中又分为致病突变和非致病突变,非致病突变决定人的一些常见性状,例如单双眼皮,眼睛颜色,头发卷直等等,而致病突变则有导致携带者患病的可能性。这里存在一个问题,我们知道了受检者的突变情况,那么怎么判定某个突变就是上述三种突变的类型?目前来说最佳的策略还是数据库比对。国际上有三大数据库,分别在美国、欧洲和日本(我国的即国家基因库,在建)。这三大数据库中收录了全球科研及临床工作者发现的突变。那么就可以将受检者的突变放入数据库中检索,如果发现了吻合的情况,就可以基本确定受检者携带了某个致病突变(这里为了简化,不讨论致病突变和疑似致病突变的区别)。但是相比于未发现或者未确认的致病突变,已知并通过验证上传数据库的致病突变还是太少,那怎么办呢?可以进行反向筛选。即将受检者的突变放入正常人的突变数据中进行比对,从而剔除掉高频突变。例如受检者有一个突变,这个突变在人群中,超过一半的人都携带了这个同样的突变,并且这些人都没有明显的疾病,这样一来就可以认为这个突变很大可能是不致病的,可能是一个无义突变或者非致病突变,展示不需要分析。这样挨个比对(其实也是软件比对),再剔除掉一大部分,剩下的就是受检者自己携带了,这些突变背景库(正常人群组成的数据库)和致病库里面都没有相关信息,再进行后续分析。剩下的突变进行分析就相当蛋疼,一般来说是软件模拟,即模拟这个突变的基因进行表达,看结果会不会导致蛋白组合失败等等,来分析突变是否会对人体有害。往往用不同的软件,结果已经不一致。更不用说前面那么冗长的比对过程中会不会出现什么差错。在第三步中,如果提供服务的公司将数据拿进国际库进行比对,已经是不错的了。要是还拿去进行背景库比对,简直是业界良心了。至于最后的那种功能模拟……即使公司做了也不会告知受检者,里面的不确定因素太多。并且大多数接受健康体检的受检者本身都是大致健康的(没有患严重疾病),如果通过软件分析出一个突变会致病的结果,一不知道软件靠谱程度,二不知道会不会发病,三也不知道啥时候发病,四更可能是传给后代才发病。这么多不确定,怎么告知受检者,告知了也是找打。这里的话,一般服务公司的做法是,自己构建一个数据库,把科研和临床上一些已经确认的突变位点放入其中。受检者测序完的结果就和这个数据库进行比对,对上的就是检出阳性了,对不上就是非发现可疑突变。靠谱么?多少还有点靠谱,不算太不靠谱。四、结果解读。这个也比较难,一般,至少需要持遗传咨询拍照的医生可以做,国外情况不清除,国内的企业同时拥有这种专业医生并且测序技术、分析技术过关的没有几个。这里就不具体分析了。综上,基因测序体检服务,目前看来,我认为还未到非常成熟的阶段,可以排除一些病因非常明确的疾病,但是拿来做健康预测还是有些问题,所以必须结合现有的常见技术手段。打个比方,基因测序体检,等同于我要分析一个湖中所有鱼的分布和种类情况,我一网捞了一堆鱼上来(测序技术落后的就只能钓鱼,测序够凶狠的直接把整个湖排干),但是我只认识鲫鱼和鲤鱼(数据库越牛认识的鱼越多,但是大家都肯定认不全),所以我只分析鲫鱼鲤鱼的数量,来判断整个湖的情况(靠谱公司的会说:“湖里面什么什么鱼的情况是怎样怎样的……”,不靠谱的公司直接说整个湖是怎样怎样的)。如果问,怎样才能让这个服务靠谱,简单来说,就是先搞懂所有的鱼,再用靠谱的技术捕鱼、分析鱼,进而分析湖的情况。最后加一句,如果有哪个公司号称可以用基因测序的手段分析一个人的二型糖尿病、肥胖、性格、天赋。十有八九都是坑爹。处女答,谢谢。以上。
谢谢邀请。非常重要而且首先应该提到的一点是这个妹子很正,接下来说几句闲话。正如前面几位同僚所说的,实际上目前通过基因组测序来预测疾病的办法还是很不可靠的。不可靠的原因,结合几位同僚的文字和自己的理解,我大概总结四点:i. 大多数疾病的遗传/基因组贡献很有限ii. 使用的测序技术还需要更准确iii. 个体基因组疾病预测的计算办法还需要统一的行业规范iv. 风险预测仅仅是一个概率,如何解读需要有一个客观的认识。i. 遗传对大多数疾病性状的贡献只是有限的部分。(1). 在探讨基因测序之前,我想先解释,通过基因组,i.e., genome/DNA, 来预测疾病的大前提是,这个疾病具有相当的可以遗传性。否则的话这类疾病性状将涉及到中心法则中更高层的转录,转录调控和蛋白质翻译这些与时空相结合的“基因表达”过程。这些复杂的过程, i.e., 表观遗传学,epigeneitcs与DNA本身的序列并没有关系,而于生物个体当时的时空环境密切相关。因此,通过DNA来预测疾病的重要前提是,该疾病性状可以遗传,即遗传率达到一定值(通常&30%认为是中等),那么检测在DNA水平上的变化,即所谓的SNP相关检测,才对该疾病性状有意义。(2). 大多数疾病,其遗传对其造成的影响本身就是有限的。假如一个疾病遗传的贡献能够达到50%以上已经能够认为是很大了,而一个遗传位点SNP对于一个疾病的贡献如果能达到“遗传基础内的20%"就算是非常惊人了。也就是说这个非常惊人的位点对一个非常有遗传率的疾病的总贡献率有50%*20%=10%。剩下还有50%-10%的复杂遗传作用,还有另外50%的环境以及环境与遗传的互作。这样看来,即便是能够发现一些疾病的准确的遗传位点,这些位点对于疾病的控制力实际上也非常有限。当然我们对遗传能够绝对控制的疾病我们已经了解不少了,不过就像其他同仁提到的,这是很少数情况。非常著名的例子,前面的同仁也提到了,有乳腺癌的BRAC。 大美女安吉丽娜朱莉因为检测到这个基因的突变(导致高风险乳腺癌)切除了双乳,也使得个体基因组检测名声大噪。虽然我个人认为这不是非常明智的举动(我又不是她丈夫who cares),不过一个基因能在某个疾病里有这么大的贡献,也算是非常罕见了。而且考虑到人类经过了不断的进化过程,这些遗传率很大的疾病在之前非常强的自然选择里下存活率非常低,缺陷基因或多或少被淘汰了。ii.文章中,几个大公司使用的个体遗传检测技术, i.e., SNP chip, 来筛选疾病位点并不够准确。
正如文章本身和其他几位同僚所提到的,这些公司使用的办法,只涵盖了1千万个位点,而这一千万个位点存在于整个人类基因组约30亿个核苷酸序列中,所以这些公司所测的位点大概占了0.033%的绝对个体基因组信息。虽然这些基因组位点是整合了之前所发表数据,有很大指引度的高度疾病关联“基因组标记”,但是没考虑进来的&99%的绝对基因组信息难道就一点没用了吗?个体基因组信息非常的特殊化,每个人的基因图谱本身就非常不一样,常规学术界的疾病关联位点是通过【有限的基因位点】+【大量的个体】来得出的结论,而且通常这些大量的个体的【系谱信息 (pedigree data)】而个体基因组预测只有一个人的基因组信息的时候,就应该扩大基因测序的涵盖率,而不仅仅局限于常规的位点,我认为这样才能提高个体基因组预测疾病的准确性。当然整个人类基因组的信息非常大,虽然整个基因组测序已经非常方便,但如何分析这些数据还是正在研究的问题。iii.个体基因组测序来预测疾病还没有形成行业规范,各个公司使用不同的测序办法,基因标记,人类基因组数据库和计算办法来预测疾病,所以同样的基因组信息得出不一样的结论。
各公司使用不同的测序技术,产生的个体基因组数据本身就有差异。在此之上,正如文章中提到的,不同的公司使用不同的基因标记来预测疾病,例如coronary heart disease,所提及的三家公司使用了4-15个标记,每家公司都使用的完全不同的标记,还没有重合,结果自然非常不一样。每家公司对于这些遗传疾病的平均发生率也有不同的计算评价,例如23andME评价肥胖的平均发生率是59%,而GTL计算的是30%。还没有开始测序就已经有了大约30%的不同结果,那么最后给出的报告有很大差异也并不会让人惊奇。iv.即便是预测是准确的,预测也仅仅是预测,抛硬币正反面几率是50%,你抛了一个正面下次就一定是反面吗?
个体基因组疾病预测,仅仅是预测,如何解读这个数字也必须非常小心。即便考虑遗传占绝对治病因素,测序方法完全准确,计算风险方式也都统一(I hardly think so),给出风险预测的数字就可以相信吗?到目前为止其他领域非常精确的数学模型能预测的变量还是非常有限的,在遗传一块的意义就更有待商榷了。“如果你携带此基因,你得糖尿病风险的几率比没有携带的高出20%”,这句话到底有多大意义,需要仔细思考才能得出结论。还有,给出的风险数字仅仅是一个概率,可能对这个数字更感兴趣的人是你的保险公司而不是你个人(这个以后很难说也是热门行业)。实际上每个人应该对自己的基因组信息持非常谨慎的态度,可能它对别人的用处远大于对你自己的用处 (如果你真有遗传疾病,你目前自己很难治愈,而政策制定者可能会喜欢淘汰那些有遗传缺陷的人)。
综上所述,就文章中的情况来看,个体基因组预测疾病的办法可靠性还非常低。其原因大致有:i.大多数疾病的遗传/基因组贡献很有限. ii. 使用的测序技术还需要更准确. iii. 个体基因组疾病预测的计算办法还没有统一的行业规范. iv.风险预测仅仅是一个概率,如何解读需要有一个客观的认识。但是我个人任然认为这是一个有前景的行业,当然也会引起很多的争议。随着生物技术的发展各种测序和统计技术会更先进,产生的数据会更全面,到时候预测成本会更低廉,准确率也会提高,届时可能要考虑的就是如果防止自己的基因组信息泄露了(只需要非常简单的取样就能给你测序)。
确实不靠谱,现在卖这种服务的公司都是不靠谱的。就好象拿宋朝的工程技术去发明登月火箭。
已有帐号?
无法登录?
社交帐号登录}

我要回帖

更多关于 像乔丹一样打球 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信