鸟氨酸的质谱条件怎么做不出来,用高效液相色谱质谱联用-质谱联用测定鸟氨酸的质谱条件母离子 F、CE值都做不出来

君,已阅读到文档的结尾了呢~~
基于柱前衍生 超高效液相色谱 质谱联用技术的植物提取液中氨基化合物代谢谱分析
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
基于柱前衍生 超高效液相色谱 质谱联用技术的植物提取液中氨基化合物代谢谱分析
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口高效液相色谱_质谱_质谱联用法测定饮料中的人工合成色素_李帮锐_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
高效液相色谱_质谱_质谱联用法测定饮料中的人工合成色素_李帮锐
|0|0|暂无简介
食品安全专家|
总评分4.7|
浏览量8243
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
定制HR最喜欢的简历
你可能喜欢液质联用(LCMS)
主题:【求助】液相色谱质谱联用测定2,4-d钠盐,怎么选择母离子?急!
浏览 |回复3
woaihuasheng
<p class="orgred oe jinghua_
<p class="orgred oe tiezi_
<p class="orgred oe huitie_
ID:woaihuasheng
行业:石油行业―校长油行业―校长油行..
积分:<span class="gray0 userintegral_升级还需100积分
声望:<span class="gray0 userrenown_升级还需100声望
注册时间:
最后登录时间:<span class="gray0 userlastl_00-00-00
结帖率:100%
关注: |粉丝:
新手级:&新兵
发表于: 13:35:31
2,4-d钠盐也就是2,4-二氯苯氧乙酸钠,母离子选择多少?
该帖子作者被版主
八杯水 加 2 积分,
2经验,加分理由:鼓励发帖
<p class="orgred oe jinghua_
<p class="orgred oe tiezi_
<p class="orgred oe huitie_
ID:v2790693
行业:石油行业―校长油行业―校长油行..
积分:<span class="gray0 userintegral_升级还需100积分
声望:<span class="gray0 userrenown_升级还需100声望
注册时间:
最后登录时间:<span class="gray0 userlastl_00-00-00
结帖率:<div class="loading jietielv_2790693 jietielvname_v0%
关注: |粉丝:
新手级:&新兵
负离子模式 219,
hujiangtao
<p class="orgred oe jinghua_
<p class="orgred oe tiezi_
<p class="orgred oe huitie_
ID:hujiangtao
行业:石油行业―校长油行业―校长油行..
积分:<span class="gray0 userintegral_升级还需100积分
声望:<span class="gray0 userrenown_升级还需100声望
注册时间:
最后登录时间:<span class="gray0 userlastl_00-00-00
结帖率:100%
关注: |粉丝:
新手级:&新兵
负离子响应高吗?
geduoliming
<p class="orgred oe jinghua_
<p class="orgred oe tiezi_
<p class="orgred oe huitie_
ID:geduoliming
行业:石油行业―校长油行业―校长油行..
积分:<span class="gray0 userintegral_升级还需100积分
声望:<span class="gray0 userrenown_升级还需100声望
注册时间:
最后登录时间:<span class="gray0 userlastl_00-00-00
结帖率:100%
关注: |粉丝:
新手级:&新兵
看结构,应该只有负离子219,同意楼上观点质谱母离子选择的制作方法
专利名称质谱母离子选择的制作方法
专利说明质谱母离子选择
本发明涉及质谱中选择用于片段化的样品多肽的母离子的方法,以及确定样品多肽的至少一个推定的氨基酸序列的方法、设备和计算机程序。
质谱是一种鉴定蛋白质样品的日益重要的工具。目前,使用质谱证实样品蛋白质/多肽(这两个术语在这里是可互换的,除非有其他的陈述)的同一性,在本领域中是众所周知的。诸如MASCOT(基于MOWSE算法)的蛋白质质量指纹程序采用蛋白质的酶消化(例如,采用胰蛋白酶)所产生的质谱数据从而试图从一级序列数据库鉴定该蛋白质(Matrix Science有限公司,英国;Perkins等,Electrophoresis,1999年12月;20(18)3351-67;PMID)。从质谱数据鉴定蛋白质的方法包括使用来自酶消化蛋白质的肽分子量(采用质荷比的形式)。其他方法采用来自一个或多个肽的串联质谱数据(也称作MS/MS和MS2),选择和片段化目的离子种类以给出分级的子离子谱。还有一些将质量数据和氨基酸序列数据组合。模糊逻辑系统已经被用于控制MALDI质谱系统中的激光影响-Jensen ON等(Anal Chem.日;69(9)1706-14;PMID9145026)。
WO 03/102572提供一种确定样品肽的至少一种从头推定(即候选的)氨基酸序列。这里公开的本发明在采用n>=2的MSn的质谱数据时是特别有用的。本文中,它被称作“测序仪”。
然而,产生较高水平的MSn质谱数据需要选择离子峰(即m/z峰)以用作进一步片段化的母离子,并且这目前要求专家输入以便作出最佳的选择。因此,为了从WO 03/102572(以及其他的质谱技术)获得最可能的结果,有必要由专家选择用于片段化的m/z峰(即母离子)。
当试图确定样品多肽的推定的氨基酸序列时,具体情况可能出现,其中在质谱的至少一个m/z峰上进行进一步的片段化是必要的。例如,当使用以及
(ii)采用人工智能技术分析所述至少两个候选m/z峰集合的m/z峰,以选择至少一个m/z峰用于片段化。
具体而言,如下详述,模糊逻辑技术可以用作所述人工智能技术。然而,其他人工智能技术可以用作模糊逻辑技术的替代或者补充,并且这些包括但是不局限于数据挖掘技术、人工神经网络、决策树、基因算法和诸如C4.5的规则推理系统以及机器学习技术。
如下详述,在模糊逻辑技术中所使用的规则是基于在那些对应于所述质谱的所选变量中的知识和专门技术。从这些规则,确定作为母离子的候选m/z峰的合适性。作为对模糊逻辑的替代或者补充,数据挖掘方法,例如神经网络、决策树和基因算法可用于发现用于特定仪器数据组的这些规则。这些方法通常通过训练从一组试验数据中导出结论。该组训练数据可以是取自具有相对强度值的特定谱的所有质量峰。
一旦应用这些方法创建了模型,这个模型就可以用于预测新的数据。它可以独立应用于一组新数据从所述模型选择母离子。如果它和模糊逻辑系统组合以具有在线控制系统(例如去控制可能的母离子的选择),那么可以在规则库中形成源于这些方法的模型,以通过模糊逻辑技术帮助作出人工智能决策。可以采用不同数目的变量从不同方法定义模型。
典型地,三种数据挖掘技术用于创建预测模型-神经网络、决策树和规则推理系统。如果可以找到预测规则(例如,选择哪个峰作为母离子/不选择哪个峰作为母离子),神经网络提供数字格式的答案。当用于预测时,规则推理系统通过比较不同的导出规则,可以给出更多的决策的解释,并且揭示哪一个并另一个更好。神经网络可以是更适合的在该系统中执行的数据挖掘算法。
这些方法所导出的规则或者预测模型的精确性和覆盖率对于确定在这个系统中的实际使用是重要的。识别和显示规则中的不确定性将直接影响模糊逻辑的选择结果。覆盖率表示包括涉及或应用于这些规则中的数据量。高覆盖率可以给出更加可靠的结果。
MALDI-QIT质谱仪时,仪器中的离子阱的限制造成具有前体(precursor)的三分之一或更小质量的离子是不可检测的。类似地,在低于三分之一质量范围内一般也不能观察到片段离子。为了得到关于不可检测区域的进一步的质谱数据,必须选择来自质谱的m/z峰作为进一步片段化的母离子以提供信息。理论上,该方法可以进一步获得母肽的串联谱,MSn。
目前的母离子选择的方法主要依赖于m/z峰的强度。可以选择谱中的最强峰作为下一个谱的母离子(即用于进一步的片段化)。如上所述,通常通过专家目测质谱的方式进行这种选择。这显然是一种昂贵的方法,并且也依赖于是否存在适当的专家。进一步地,这样的方法不保证会选择正确的m/z峰。
具体而言,期望确保不要选择不适当的m/z峰作为进一步片段化的母离子。例如,期望来确保例如化学噪音峰或本底离子(internalion)不被用作母离子。
质谱技术为多肽的高速度、高通量从头测序提供了机会,并且需要和期望这是一种自动化技术,要求尽可能少的人的介入。尤其是,需要除去对专家的需求,以便于仅仅提供样品多肽给质谱仪进行分析并且接着能通过从头测序或者数据库检索法确定该样品多肽的氨基酸序列,该氨基酸序列可以是样品多肽氨基酸序列中尽可能大的部分并且极可能是正确的。
本发明试图克服现有技术的不足并且解决上述问题。具体而言,本发明可以结合WO 03/102572以及从质谱确定至少一个推定的(即候选的)氨基酸序列的其他方法和技术进行施用,并且其中需要选择至少一个m/z峰用作进一步片段化的母离子。
按照本发明,提供一种选择用于片段化的部分降解的样品多肽的软电离质谱的母离子方法,所述的软电离质谱包括一组从所述部分降解的样品多肽中所获得的离子种类的m/z峰,所述方法包括步骤
(i)从所述部分降解样品多肽的所述软电离质谱中确定至少两个候选m/z峰集合,每个候选m/z峰集合中的每个m/z峰与其至少一个邻元相差一个氨基酸的质量,并且从每个候选m/z峰集合中确定一个推定的氨基酸序列,每个氨基酸序列是对应于每个m/z峰与其至少一个邻元之间的质量差的那些氨基酸的序列;
尤其是,选择m/z峰用作质谱中的进一步片段化的母离子的方法可用于WO03/102572的技术,尽管当然不局限于采用这样的技术。其他技术可以用于生成用于样品多肽的推定氨基酸序列,并且有必要决定用于进一步降解的m/z峰时,本发明的方法可以同样地运用于这些技术。
当在所导出的推定的氨基酸序列的系列中检测出特定的氨基酸(例如具有C末端精氨酸胰蛋白酶肽的天冬氨酸等)时,因为这些氨基酸将根据它们的特定化学结构或者特性提供有利的切割位点,所以可提供指导以预测在进一步片段化谱中具有高强度的可能的峰。
根据m/z峰的“至少一个邻元”意为高于和/或低于m/z峰值的最近的m/z值。因此,例如,在具有值为375、300、347、372和331的m/z峰的指定集合中,峰值331具有两个邻元,即为300和347。
样品多肽质量可以是至少3000Da,例如,至少、、、10000或者15000Da。样品多肽的部分降解可以产生具有质量高达3000或者4000Da的片段。
软电离质谱可以给出至少3个m/z峰,例如至少4、5、6、7、8、9、10、15、20、25、30、40、50、75或者100个m/z峰。
每个候选m/z峰组可以包含至少3个m/z峰,例如至少4、5、6、7、8、9、10、15、20、25、30、40或者50个m/z峰。
使用输入变量采用人工智能技术(模糊逻辑原理)进行分析,所述输入变量表示以下变量中的至少2个、3个或者所有4个变量
a)对应于候选m/z峰值和至少一个其它候选m/z峰集合的最近末端m/z峰值的差的氨基酸数目;(这也称作GAP)
b)候选m/z峰的强度;(这也被称作INTENSITY)
c)由候选m/z峰值所表示的质量;(这也称作LOW_VALUE_CRITERION~)和
d)在对应于含有候选m/z峰的任何候选m/z峰集合的最长的任何推定的氨基酸序列中的氨基酸数目(这也称作MASS_SERIES)。
对(d)的MASS_SERIES变量进一步解释是当任何候选m/z峰被包括到一个P-系列(即候选m/z峰集合)时,该系列中的氨基酸数目被定义为变量。如果候选m/z峰被包括到几个P系列,获取这些系列中最长的系列的氨基酸数目。
例如,[...ma,...mi,...](1)5个氨基酸 [...ma,mi,...](2)4个氨基酸 [...ma,...mi,...,mj,...](3)9个氨基酸
ma是候选质量峰,它被包含到三个不同的系列(1)、(2)和(3)中。取9作为该候选的长度(因为它是最大的长度),然后将其转换为对于预测的正确的氨基酸序列长度的百分值。如果样品的预测长度是14个氨基酸,那么该候选的变量是9/14=0.64。采用所有标准氨基酸质量的平均值可以基于母离子质量计算出预测长度。容错值(例如2-4)也可以用于确定所述长度。
正如采用候选m/z峰集合的确定那样,用于估计样品多肽长度的氨基酸质量的集合可以仅仅由标准的氨基酸质量所组成。或者,如果知道样品多肽不包括特定氨基酸,那么可以将该特定氨基酸排除。类似地,也可以采用例如化学修饰和/或翻译后修饰的氨基酸的氨基酸质量。也可以使用自然生成和合成的其它氨基酸质量,,并且所述氨基酸可以包括修饰的和非天然氨基酸,例如2-氨基脂肪酸、2-氨基丁酸、异锁链(赖氨)素、6-n-甲基赖氨酸和正缬氨酸。其它的被列入例如世界知识产权组织标准St.23的表4中。类似地,允许使用同位素标记的氨基酸。因此,这可以用于形成用于确定样品多肽的估计(即预测)长度的预测。
本发明可以利用模糊专家系统,其通常的推理过程包括四个步骤模糊化、推理、组合和逆模糊化。因此采用模糊逻辑原理的分析可以包括步骤
(i)模糊化在至少一个从属度函数上的所述输入变量;
(ii)推理规则库的多个规则,每个规则具有至少一个输出变量,以为每个规则定义每个输出变量的模糊子集;
(iii)组合所述推理步骤(ii)的所述模糊子集,以定义包括所述至少一个输出变量的单个输出子集的模糊输出集合;和
(iv)逆模糊化所述模糊输出集合到明确数目。
步骤(a)的输入变量可以用于模糊化步骤,其中在输入变量上所定义的从属度函数可以运用于实际值以及每个被确定的规则假定(例如,GAP是SMALL,GAP是MEDIUM,以及GAP是LARGE)的真实度。
当然,可替换的从属度函数可以在GAP的输入变量上进行定义,例如,GAP是SMALL,GAP是SMALL TO MEDIUM,GAP是MEDIUM,GAP是MEDIUMTO LARGE,GAP是LARGE,GAP是VERYLARGE。因此,可以确定在每个模糊子集(SMALL,MEDIUM,LARGE)上的GAP输入变量(即GAP集合的元素)的从属度。
根据等于候选m/z峰值和至少一个其它候选m/z峰集的最近端m/z峰值的差的氨基酸数目定义GAP。
因此,如果候选峰大于至少一个其它候选m/z峰集的高端上的m/z峰,那么所述差存在于候选峰和高端上峰之间。如果候选峰小于至少一个其它候选m/z峰集的低端上的峰,那么所述差存在于候选峰和该系列的低端的峰之间。
例如,[m1,m2......mn]系列1; [M1,M2,......Mn]系列2;
GAP可以取为GAP=M1Bmn;
因为氨基酸的质量在质量为57.02Da的最轻标准氨基酸甘氨酸和质量为186.08Da的最重标准氨基酸色氨酸中变化,如果认为SMALL GAP小于一个氨基酸,那么GAP是SMALL的从属度函数给出的值的范围从对于差值<=57.02Da的值1到对于差值>186.08Da的值0。类似地,如果认为MEDIUM GAP是两个氨基酸,那么GAP是MEDIUM的从属度函数给出的值的范围介于对于差值<=114.04Da或者>372.16Da的值0和大于0的值之间。类似地,如果认为LARGEGAP是>=4个氨基酸,那么GAP是LARGE的从属度函数给出的值的范围从对于差值<228.08Da的值0到对于差值>558.24Da的值1。
具体而言,采用模糊逻辑原理的分析可以要求GAP是大的,其中LARGE被认为是>=3个氨基酸。当使用MALDI-QIT数据时,GAP可以根据氨基酸数目而定义,该数目等于候选m/z峰值和至少一个其它候选m/z峰值集的低端峰值之间的差。可替换的利于低质量候选m/z峰的模糊化步骤和规则库在下面的具体实施方式
中进行描述,并且等效地运用到本发明的其它实施方式中。
候选m/z峰的集合和从属度函数的生成可以受到氨基酸质量影响,质量差以所述氨基酸质量比较。例如,氨基酸质量的集合可以仅由标准氨基酸的质量组成。或者,如果知道样品多肽不包括特定氨基酸,那么可以排除该特定氨基酸的质量。类似地,也可以使用例如化学修饰和/或翻译后修饰的氨基酸的氨基酸质量。也可以使用自然生成的和合成的其它氨基酸的质量,并且所述其它氨基酸能够包括被修饰的和非天然氨基酸,诸如2-氨基脂肪酸、2-氨基丁酸、异锁链(赖氨)素、6-n-甲基赖氨酸和正缬氨酸。其它的氨基酸被列入例如世界知识产权组织标准St.23的表4中。类似地,允许使用同位素标记的氨基酸。
因此,根据在样品多肽中的给定氨基酸被同位素标记的知识,可以修改GAP从属度函数,并且这可以帮助确保GAP值的模糊化的精确性。
所用的从属度函数可以是任何合适的从属度函数,例如Z型、π型或者S型。标准从属度函数的例子在例如Constatin von(“Fuzzy Logic and NeuroFuzzyApplication in Business and Finance”;327-328页;Prentice Hall PTR,New Jersey,1997)中被进一步描述。
步骤(b)的输入变量可以用于模糊化步骤中,其中在输入变量上所定义的从属度函数可以应用于实际值以及每个所确定规则假定的真实度(例如,INTENSITY是LOW,INTENSITY是MEDIUM,INTENSITY是HIGH)。
最丰富的m/z峰(即在质谱上具有最大强度的峰)实际上被认为是INTENSITY集合中HIGH INTENSITY的模糊子集并且可以被给予值100.0。然后相对于最丰富m/z峰,可以计算出较不丰富的m/z峰的值,从而提供一个输入变量。然后在输入变量上所定义的从属度函数(例如,INTENSITY是LOW,INTENSITY是MEDIUM,INTENSITY是HIGH)可应用于实际值以及每个被确定的规则推定的真实度。
例如,当强度<=10时,INTENSITY是LOW的从属度函数可给出值为1。当强度>20时,INTENSITY是LOW的从属度函数可给出值为0。当强度<=18或者强度>55时,INTENSITY是MEDIUM的从属度函数可给出值为0,当强度介于18和55之间的时候,值大于0。当强度的范围介于>18和<=32时,所述值线性增长,在强度处于>32和<=55之间时,MEDIUM保持值为1。INTENSITY是HIGH的从属度函数,当强度<=50时,值为0,并且当强度增长的时候,值也线性增长,当强度>=56时,值为1。
特别地,高强度的峰可以特别令人感兴趣并且用于进一步片段化的强大的候选,即使它位于候选m/z峰集的内部而不是在终点-这是因为高强度峰可以提供高质量的片段化,这允许例如确定额外的低端离子,尤其是在离子阱谱中。组合如此进一步片段化的序列和母离子序列/先驱离子序列,可以帮助导出样品多肽的完整序列。因此该INTENSITY值可以被适当地加权(weighted)。
步骤(c)的输入变量可以用于模糊化步骤中,其中在输入变量上定义的从属度函数应用于实际值以及每个被确定的规则假定(例如,LOW_VALUE_CRITERION是LOW,LOW_VALUE_CRITERION是HIGH)的真实度。输入变量是候选m/z峰值。例如,LOW_VALUE_CRITERION是LOW的从属度函数,当m/z值<=50时,可给出值为1,当m/z值>525时,可给出值为0。LOW_VALUE_CRITERION是HIGH的从属度函数,当m/z值<475时,可给出值为0,当m/z值>=550时,可给出值为1。
特别是,对于候选m/z峰端点上或其中的低质量值,执行进一步的片段化几乎没有意义。然而,需要注意的是确保值得用作母离子的峰不被由LOW_VALUE_CRITERION得到的推理所排除。
步骤(d)的输入变量可用于模糊化步骤中,其中在输入变量上所定义的从属度函数运用于实际值以及用于每个被确定的规则推定(例如,MASS_SERIES是LOW,MASS_SERIES是MEDIUM,MASS_SERIES是HIGH)的真实度。输入值是最长任何推定的氨基酸序列中的氨基酸数目和给定肽样品的预测长度之间的比值,所述氨基酸序列对应于含有候选m/z峰的任何候选m/z峰集合。例如,MASS_SERIES是LOW的从属度函数,在<=0.2时,可给出值为1,当>0.35时,可给出值为0。MASS_SERIES是MEDIUM的从属度函数,在<=0.30和>0.75时,可给出值为0,当介于0.30和0.75之间时,可给出值大于0,当比值为0.5时值为1,在该点前面,值从0线性增长。MASS-SERIES是HIGH的从属度函数,在<=0.60时,值为0,当>0.8时,值为1,当>0时,当在0.60和0.8之间时,值>0。
GAP、INTENSITY、LOW_VALUE_CRITERION和MASS_SERIES集的上述从属度函数仅仅作为例子被给出-可以在这些集合中定义可替换的或者另外的模糊子集,并且所述从属度函数也可变化。
当为每个推定(例如,INTENSITY是HIGH)计算了真实度以后,这可以用于模糊专家系统的规则库中(也称为“知识库”)。
一旦完成了模糊化步骤,就可以运用推理步骤去计算每个规则推定的真实值,并应用于每个规则的结论部分,给出每个规则的有效度(并且给出语言输出)。输出(规则的有效度)可以是表示通过规则评级m/z峰进一步选为母离子的变量POSSIBLE_SELECTION。变量POSSIBLE_SELECTION的语言输出可以通过从属度函数的进一步集合(例如POSSIBLE_SELECTION是LOW,POSSIBLE_SELECTION是MEDIUM和POSSIBLE_SELECTION是HIGH)而确定。
在一个例子中,GAP输入变量具有SMALL、MEDIUM和LARGE的模糊子集;INTENSITY输入变量具有SMALL、MEDIUM和LARGE的模糊子集;LOW_VALUE_CRITERION输入变量具有LOW和HIGH的模糊子集;MASS_SERIES输入变量具有LOW、MEDIUM和HIGH的模糊子集。这给出了输入变量的模糊子集的54种不同的可能组合,并且每个组合决定(resolve)了值为LOW、MEDIUM或者HIGH的POSSIBLE_SELECTION的模糊子集。
在下表1中给出了三个这些组合的例子。例如,规则1表示以下评价如果GAP是SMALL,INTENSITY是LOW,LOW_VALUE_CRITERION是LOW,并且MASS_SERIESS是LOW,那么POSSIBLE_SELECTION是LOW。
注意DoS=支持度(Degree of Support)
在前面规则库的处理中,一般采用MAX-MIN方法。最小值操作符是由布尔运算的“AND”生成的;最大值操作符是由布尔运算的“OR”生成的。对输入变量采用标准的MAX-MIN/MAX-PROD方法,规则单个的重要性可以仅仅表示为0或者1,而这可能导致在关于每项变量的更多不确定性值存在时做出错误的选择。解决这个问题的可选方法是,每个规则被分配表示规则个体重要性的支持度(DoS)。规则自身可以是“模糊”的,有效度在0到1之间。使用测试数据和分配给每个规则的DoS值去检查和测试所有54个模糊规则,并且相应地,可以修改输出项(POSSIBLE_SELECTION是LOW、MEDIUM和HIGH)。例如,规则24和25(下面)推定medium为输出变量。由一个在选择中具有最重要的影响的高确定性相关变量“Intensity”,规则24定义为low,而规则25定义为medium。分配给规则24的DoS值为0.3,而另一高确定性变量,“Low_Value_Crit”,在规则25中被定义为low,并且给出DoS值为0.9。如果,例如条件的有效度全部是匹配这两个规则的0.6,采用用于合成的乘积运算符。
如果“Gap”=medium AND“Intensity”=low AND“Low_Value_Crit”=high AND“Mass_Series”=high THEN“PossibleSel”=medium;
如果“Gap”=medium AND“Intensity”=medim AND“Low_Value_Crit”=lowAND“Mass_Series”=low THEN“PossibleSel”=medium;
这些规则的结果将是
Θ{在IF部分中的有效度,支持度}:=规则结果(在THEN部分中的有效度)
对规则24而言Θ{0.6,0.3}=0.18。
对规则25而言Θ{0.6,0.9}=0.54。
这意味着“PossibleSel”medium的结果,对规则24而言,有效度是0.18,对于规则25而言,有效度是0.54。因此,规则24的重要性降低。
如上所述,表1中的每个组合导致输出变量中的三种可能性中的一种。所有四个输入变量与该输出变量均有确定的关系。输入变量LOW_VALUE_CRITERION和INTENSITY被给予的权比其他输入变量多。模糊MAX-MIN逻辑可以用于汇总来自同一项上所调用的不止一个模糊规则的结果。正如从输入变量的定义所期望的那样,如果考虑使用候选m/z峰作为母离子,那么候选m/z峰的GAP值不应该小。然而,即使GAP小,那么结合其他值(INTENSITY,LOW_VALUE_CRITERION和MASS_SERIES),可能导致POSSIBLE_SELECTION是MEDIUM。为了加权各种规则和项组合的全面的重要性,可以修改DoS值。
在推理阶段可以包括额外的规则,特别是包括大量的将被考虑用于进一步片段化的候选m/z峰的候选m/z峰集合。例如,如果峰的INTENSITY是HIGH,那么基于INTENSITY变量的规则可以强有力地支持分配给候选m/z峰的POSSIBLE_SELECTION值。然而,在包括它的候选m/z峰集合(例如,最长的候选m/z峰集合或者具有最低端值的候选m/z峰集合)中的候选m/z峰的位置是重要的,并且需要被规则库纳入考虑中。因此,例如,可以介绍以下额外规则
IF(Pm-Pn)is an amino acid mass AND intensity of Pm>Ii THEN highpossibility,其中
Ii定义为高强度值
Pm定义为具有强的强度的可能被选择的离子的质量
Pn定义为给定序列中临近质量值
来自规则库的输出不必是语言输出,并且相反地,可以返回为能够更精确地表示规则的有效度的数字输出。可以采用例如模糊MAX-MIN或者MAX-PRODUCT逻辑来计算每个规则的输出值,给出作为每个规则推理的真实值的函数计算的数值。
例如,采用具有三个变量(V1、V2和V3)的所定义的输入部分(IF),V1、V2和V3中的每一个具有三项(high(h),medium(m)和low(l)),输出变量包括四项(low、medium-low、medium-high和high)。模糊规则给出,当三个变量具有相同的语言项(例如,V1=medium,V2=low,V3=low)时,他们可能通过不同的DoS值在输出部分(THEN)导出不同的项。在表1A(下面)中给出详细资料。对于在输入部分中具有相同项的四个变量来说,它们给出输出为very-low(v-l)、low(l)、high(h)和very-high(v-h),并附有有效度的值。
如果MIN操作符被用于这组规则
MIN{有效度(V1=med.)、有效度(V2=low)、有效度(V3=low)}:=条件的有效性,即MIN{0.33,1.00,0.67}=0.33。
这意味着这个前提的有效度聚合为0.33。
如果需要,也可以加权输出值,例如,支持度(DoS)可以被分配到每个规则,并且每个规则由此按照其重要性而被加权。
支持度为本发明的方法提供了一个不改变规则库优化该方法的机会。因此,例如,诸如人工神经网络系统的机器学习系统可以被教导从而为进一步的降解优化m/z峰的选择。例如,可以向一个专家级的人类操作员提供一个质谱,从其中选择用于进一步降解的至少一个m/z峰。可以提供相同的输入数据给机器学习系统,从其中可以导出一个输出从而作为用于进一步降解的至少一个m/z峰的选择,并且这个输出可以和人类专家提供的输出(目的结果)相比较,并且使用目的结果去影响机器学习系统的学习。可以使用多轮学习去影响系统的优化,并且这该学习能够通过操纵规则的支持度而被影响。
如同上面详细描述,假想和测试数据的该使用可以用于通过修改支持度的方式去优化系统。可选地或者额外地,可以在假想/测试数据的基础上修改从属度函数。可选地或者额外地,可以在假想/测试数据的基础上修改规则库的规则。
细合(composition)
由规则库的规则计算出(并且适当地加权)输出值后后,使用组合步骤将由规则库获得的结果(即,模糊子集)组合在一起。
通过组合运算符进行组合以检查来自规则库的规则结论的有效度。运算符计算于该有效度和支持度上,它表示整个条件的有效性。通常使用的组合运算符是乘积运算符,它是有效度的乘积。对前面所给的例子而言,对于IF部分,规则库的规则是
IF V1=low AND V2=low并且V3=medium。从MIIN操作符中导出条件(condition)的有效度是0.33。对应于THEN部分,它是medium-high,支持度为0.16,那么采用乘积运算符的组合的结果是
Θ{0.33,0.16}=0.05。
这给出规则结果的有效性,输出medium-high的结果是有效度0.05。
最后,采用逆模糊化步骤将模糊输出集合从组合步骤中转化为明确数目,在这种情况下,它表示用于片段化的候选m/z峰(即用作进一步片段化的母离子)的评级值。广泛的逆模糊化方法在本领域中是公知的,并且包括质心(centroid)和最大值方法。
例如,可以采用最大值中心(CoM)方法。因为多于一个输出项可以被评价为有效的,因此逆模糊化方法必须在不同结果间折衷。CoM计算作为被推理结果所加权的项从属度最大值的加权平均值的明确输出,被推理结果所加权。公式是方程式1。
其中Yi是low、medium、high三个从属度值的比重中心。对于这个系统,它们可以被定义为,例如Ylow=0.175,Ymedium=0.500,Yhigh=0.850。Pi是来自推理结果的权。使用这种方法的特殊情况是仅仅评价一个输出项,并且类似地,条件的有效性也从这个单一项被推理出来。特别是,当该项的有效度(Pi)很低(例如<0.28)时,结果可能不是很适合实际请况。在这种情况下的有效度完全被忽略掉,因为它被从公式中相互抵偿。因此,不管输出中的哪个项被推理出来,它总是作为该项的最大值。因此排除了任何DoS值的重要性。
为了包括DoS值中所指定的影响,方程式1可以被修改为方程式2
在这种情况下考虑Pi的有效度,并且根据Pi的值加入加权因子以调整最后的输出值。有些质量值通过采用修改后的公式而在选择中被校正。例如,一个值被推理为有效度中的三项0.0、0.04、0.0。例如,仅仅项medium可以具有小的权值0.04。如果采用方程式1,这将导致在medium的最大值上的输出值为0.5,这表明该选择在medium项上有100%的可能性。但是这可能对应于一个噪音峰。该计算如下
源自方程式(1)
方程式2也依赖于Pi的值,并且结果减少了该项的重要性。这将最终由输出变量从属度函数所确定。如果有小Pi值,结果将给出low的最后输出值。
采用上述从属度函数,可以评估输入值,并且可以将至少一个规则应用于从属度函数输出,从而定义模糊专家系统。
采用语言规则的系统示例包括,例如Virant-Klun I等编著的(Comput BiomedRes.1999年8月;32(4)305-21;PMID),其公开了一种直接基于语言规则的控制系统。
按照本发明,也提供了一种用于确定部分降解的样品多肽的至少一种推定的氨基酸序列的方法,所述方法包括步骤
(i)获得所述部分降解的样品多肽的软电离质谱,给出从所述部分降解的样品多肽所获得的离子种类的一组m/z峰;
(ii)从所述软电离质谱中确定至少两个候选m/z峰集合,所述软电离质谱包括一组从所述部分降解的样品多肽中所获得的离子种类的m/z峰,在每个候选m/z峰集合中的每个m/z峰与其至少一个邻元相差一个氨基酸的质量;从每个候选m/z峰集合中确定一个推定的氨基酸序列,每个氨基酸序列为对应于每个m/z峰和其至少一个邻元之间的质量差的那些氨基酸的序列;
(iii)采用人工智能技术(例如模糊逻辑原理)分析所述至少两个候选m/z峰集合的所述m/z峰,从而选择至少一个m/z峰用于片段化;
(iv)获得所述所选的在至少一个m/z峰的进一步软电离质谱,给出一组离子种类的m/z峰;
(v)任选地采用至少两个前述获得的软电离质谱作为所述软电离质谱重复步骤(ii)-(iv);以及
(vi)从所述软电离质谱中确定至少一个候选m/z峰集合,所述软电离质谱包括一组从所述部分降解的样品多肽中所获得的离子种类的m/z峰,每个候选m/z峰集合中的每个m/z峰与其至少一个邻元相差一个氨基酸的质量;从每个候选m/z峰集合中确定一个推定的氨基酸序列,每个氨基酸序列是对应于每个m/z峰与其至少一个邻元之间的质量差的那些氨基酸的序列。
按照本发明,也提供一种设备,用于选择用于进一步片段化的部分降解的样品多肽的软电离质谱的母离子,该设备包括
(i)数据输入装置;
(ii)具有存储有模糊逻辑规则库的数据存储装置;
(iii)包括用于执行本发明的方法的程序代码的数据处理装置;和
(iv)用于输出数据处理装置输出的数据输出装置。
所述装置可以包括质谱仪。
按照本发明,也提供一种计算机程序产品,用于选择用于进一步片段化的部分降解的样品多肽的软电离质谱的至少一个m/z峰,所述计算机程序包含采用人工智能技术分析至少两个候选m/z峰集合的m/z峰从而选择至少一个m/z峰用于片段化的程序代码,所述至少两个候选m/z峰集合从所述部分降解的样品多肽的软电离质谱中被确定,所述软电离质谱包含一组从所述部分降解的样品多肽中所获得的离子种类的m/z峰,在每个候选m/z峰集合中的每个m/z峰与其至少一个邻元相差一个氨基酸的质量,并且从每个候选m/z峰集合中确定一个推定的氨基酸序列,每个推定的氨基酸序列为对应于每个m/z峰与其至少一个邻元之间的质量差的那些氨基酸序列。此外,所述人工智能技术可以包含模糊逻辑原理。
参照附图中的几幅图,由以下描述本发明将变得更加清楚,附图仅仅通过例子显示了用于进一步片段化的来自m/z峰集合的至少一个m/z峰的一种形式的选择。
图1是显示用于串联质谱的母离子选择过程的流程图;
图2是显示基于谱和模糊逻辑原理所导出的候选m/z峰集合,用于串联质谱的母离子选择过程的流程图;
图3是GAP为SMALL、GAP为MEDIUM和GAP为LARGE的从属度函数的曲线;
图4是用于INTENSITY为LOW,INTENSITY为MEDIUM并且INTENSITY为HIGH的从属度函数的曲线图;
图5是LOW_VALUE_CRITERION为LOW和LOW_VALUE_CRITERION为HIGH的从属度函数的曲线图;
图6是MASS_SERIES为LOW、MASS_SERIES为MEDIUM和MASS_SERIES为HIGH的从属度函数的曲线图;
图7是POSSIBLE_SELECTION为LOW、POSSIBLE_SELECTION为MEDIUM和POSSIBLE_SELECTION为HIGH的从属度函数的曲线图;
图8显示从序列的端值或者序列中的强峰中选择离子峰的例子;以及
图9显示(前)质量为1615Da的测试肽的MS2谱和(后)来自MS2谱的1074Da片段的MS3谱。箭头显示在MS3谱中而不是在MS2谱中观察到的离子峰。
在本发明的示范系统中,MALDI-TOF质谱仪(没有显示)生成胰蛋白酶消化的样品多肽的MS谱110。在步骤201,从谱110提取包括m/z和强度值的质量列表,并且在步骤202,为了进一步电离以给出MS2谱102,从肽离子质量选择母离子峰。从MS2谱102中提取出包括m/z和强度值的质量列表301,然后将质量列表301输入到如WO 03/102572所述的序列生成器302中,并且确定样品多肽的至少两个候选氨基酸序列。
决策步骤203采用模糊逻辑原理分析至少两个候选氨基酸序列从而确定是否生成了一个好结果(即好的候选氨基酸序列),并且如果没有,那么将前面所确定的MS谱传递到步骤202,可以选择不同的肽质量作为用于生成另一个MS2谱的母离子。然后,从该决策步骤选择用于电离的进一步的母离子,以给出MS3谱(103)。
在选择母离子中所使用的模糊逻辑原理包括步骤
(i)模糊化至少一个从属度函数上的输入变量,给出语言变量。典型地,3至7个不同项(例如,“很低”、“低”、“低—中”、“中”、“中—高”、“高”和“很高”)用于语言变量;
(ii)推理规则库的多个规则(每个规则具有至少一个输出变量),以定义每个规则的每个输出变量的模糊子集;以及
(iii)组合推理步骤(ii)的模糊子集,以定义包含用于至少一个输出变量的每一个的单个输出子集的模糊输出集合。
在特定实施方式中,模糊逻辑处理可以步骤(iii)结束,尽管基于可以便利地作出的判断和决定,在本实施方式中可以采用进一步的步骤将“模糊”输出转换为更加有限的/离散的和可理解的值。因此,模糊逻辑原理也包括步骤
(iv)将模糊输出集合逆模糊化为具体数目。
正如在图2中所示的,执行上述方法步骤的程序代码被嵌入到PC DCOM(Distributed Component Object Model,分布式组件对象模型)组件2122中。该COM组件2122提供用于母离子选择的必要的函数。组件2122涵盖了所有的所述函数,因此,客户程序2031没有被提供模糊逻辑算法如何工作的细节,而是通过所定义的接口2034访问了由COM组件2122所提供的函数。
值得注意的是,和总是运行在相同进程空间中的C++对象不同,COM对象也可以跨进程或者跨计算机运行,并且COM方法能够跨网络调用。这提供了一种与其他所需系统进行连接的简易方式。类似地,测序仪(WO 03/102572)也位于COM组件2121中。客户2031通过给定的接口调用这些组件。客户程序2031驱动开始于MS2谱2101所获得的质量列表的一切。
COM服务器仅仅接收客户2031所提供的参数并且响应来自客户程序2031的请求。客户方与COM服务器交互的通常步骤包括函数2102(“通过接口IdenoSeq调用测序仪组件)以及客户2031的函数2104(“通过接口IfzLogic调用FzLogic组件”)(a)启动服务器;(b)请求COM对象和接口;(c)发起所有的方法调用到服务器;(d)取下服务器接口,使服务器关闭。
在作出调用COM组件和启动模糊逻辑方法之前,通过程序代码执行候选m/z峰的预选择。具体地,为了减少通过接口2034输入到COM组件2122的候选离子值2103的数目,使用序列仪COM组件2121来运用预选择方案。具体而言,如果选择了在候选m/z峰集合低端的候选m/z峰,但是它实际上存在于不止一个候选m/z峰集合中,那么从序列仪2121所返回的那些候选m/z峰集合中找到包含该值的最长候选m/z峰集合,然后将其特性用于模糊逻辑步骤。具体而言,给定候选m/z峰的候选m/z峰集合的分析是由彼此独立的候选m/z峰集合(即,一个候选m/z峰集合不是任何其他候选m/z峰集合的子集)所作出。
采用候选m/z峰是已经确定的元素的最长候选m/z峰集合,在候选m/z峰集合中的氨基酸的数目用于计算MASS_SERIES变量。
此外,作为预选择处理的部分,记录每个被选出用于传送到模糊逻辑COM组件2122的候选m/z峰,然后,阻止相同的候选m/z峰被被再次考虑,因此避免了浪费资源。
所使用的模糊逻辑步骤如下所述
用于候选m/z峰集合中的每个候选m/z峰的模糊化步骤(i)采用下面四个输入变量进行,四个变量表示
(a)对应于候选m/z峰值和至少一个其他候选m/z峰集合的最近终端m/z峰值之差的氨基酸的数目(GAP);
(b)候选m/z峰的强度(INTENSITY);
(c)由候选m/z峰值(LOW_VALUE_CRITERION)所表示的质量;以及
(d)对应于含有候选m/z峰的任何候选m/z峰集合的任何推定的氨基酸序列中最长序列的氨基酸的数目(MASS_SERIES)。
基于图3-6所示的从属度函数对输入变量进行模糊化。
基于表1A(上面)中所定义的规则库执行推理步骤(ii)。
当施用MALDI-QIT谱时,那么重要的是使用低质量的离子作为进一步片段化的母离子,这是因为检测低于母离子质量的三分之一的任何峰通常是困难的。因此,高质量的母离子的选择将不会给出低质量的m/z峰,尽管这些峰对于从b/y系列中确定更加完全的候选m/z峰集合来说经常是必要的。
因此,当使用MALDI-QIT谱时,可以优先从导出序列的较低端进行选择。在其他实施方式中,通过将表示候选m/z峰和样品多肽质量之间的质量差的变量引入到模糊化步骤中,考虑同样的因素。在这种情况下,期望大的差异,因为这表示相对低质量的候选m/z峰,它在片段化时应产生另外的小质量离子数据。相反地,由于三分之一截断(cut off),选择与样品多肽相比质量差小的候选m/z峰将可能不会产生很多(如果有的话)低质量离子的另外的数据。
采用如上所述的乘积组合操作符执行组合步骤(iii)。
最后,执行逆模糊化步骤(iv)以给出表示候选m/z峰的质量或值的候选m/z峰的明确数值,作为进一步片段化的母离子。具体地,采用最大值中心(CoM)方法。方程式2(上面)用于该方法,Ylow=0.175,Ymedium=0.500,Yhigh=0.850。Pi是来自推理结果的权。
在这个阶段,候选m/z峰将被分配值“high”或者“medium”,具有大于0.5的权值(这个权值来自逆模糊化之后的从属度函数)。作出用于进一步片段化的候选m/z峰的最终选择,并将信息2105传送到质谱仪设备2035,并且在步骤103执行所选母离子的进一步片段化,从而生成MS3谱。
频数据测试
采用如下所述的频数据进行上述系统的测试。
第一个测试是采用理论肽离子数据来进行。样品数据包含所有的用于给定
肽的理论上的b、y和a离子系列。包括肽的全部b系列和y系列如下
b_系列([203.09,260.11,423.17,579.27,678.34,791.42,848.45,961.53,33.58,19.64,04.76])
y_系列([147.11,204.13,333.18,390.2,447.22,562.25,675.33,732.35,845.44,944.51,63.67,51.73,1522.77])
肽序列为AMGYRVLGID GGECK(SEQ ID NO11)[肽质量(Mr+H)+(1522.77Da)]
从测试文件中删除在两个系列中划线的离子值。预计该程序可以选择b系列的离子值1319.64和于y系列的离子值1100.61。该程序导出所预计的结果。两个离子被设置为具有100%high选择可能性。因为数据都是理论上的,使用了MS/MS(0.02)和肽(0.1)的小容错值,这里所使用的容错值对于所期望的氨基酸质量和系列推导过程中所允许的前体质量来说是绝对值误差。
表2来自程序的结果
在表2中给出了样品数据的测试结果。在那些用于理论系列和这些系列中具有较大间隙的序列的测试文件中可以发现所有期望的离子值。
在MALDI-QIT数据集合上做进一步的测试。如上详述,用于进一步片段化的母离子的选择比这种仪器更重要,因为正确的母离子选择可以提供更多质量离子质以提供更完整的离子系列并且也向该系列加入了在MS2谱中较低质量离子取舍点。
存在27个MALDI-QIT MS2胰蛋白酶肽谱可以用于测试。它们中的一些具有MS3谱,这有助于和模糊逻辑选择程序中所导出的结果进行比较。
用于该数据的质量列表提取自MALDI-QITMS2谱,其包含m/z值和强度。强度在列表中的最大值上被标准化。首先将数据输入到MASCOT检索中(MatrixScience Ltd,GB)以观察在列表中出现多少离子峰。表3给出了来自这组数据的MASCOT检索的例子[肽质量(Mr+H)+1615.87Da]。谱离子峰(MS2)与肽AITIFQERDPANIK(SEQ ID NO2)的理论离子值[a、b、y、b-17(b*)、b-18(b0)、y-17(y*)以及y-18(y0)]匹配。所匹配的值黑体表示。搜索中的容错使用了高达0.6的较大的值去覆盖更多的值。期待来自程序模糊逻辑的选择落入这些值中。
就这个例子而言,程序在容错值为MS/MS-0.1、Petide-0.1时从列表发现22个候选质量值,但是仅仅选择1074.63Da.一个质量值作为高(权为1.0)可能性的选择。从表3中,我们可以看到这是b9离子值(.07)。在这个样品中,最低的离子值是在b系列中的803.45(b7,-0.02)。预计在1074.63上的进一步片段化将给出较低质量范围中的额外离子峰。获得MS3谱并显示为图9后面的谱。可以看到,如图中箭头所指示,在MS3谱中发现了三个额外的b离子峰b3-285.97(-0.21)、b4-400.94(-0.32)和b5-546.03(0.3)。这证实模糊逻辑自动化母离子选择给出了MS3谱的正确选择。对所有27个样品来说,从这个程序选择了至少一个正确的离子质量,通常可以导出几个离子。
对IC-QIT数据而言,选择可以运用于多电荷离子。例如,样品获得来自629.00上的三电荷肽离子(YLEFISDAIIHVLHSK--SEQ ID NO3,Mr1884.01Da)的MS2谱。用于MS3的前体的进一步选择给出804.93,它是双电荷离子,y14++。用于完成所述选择的时间少于0.2秒并且试验确认了从这个所选离子获得了正确的(sensible)MS3谱。
从样品多肽的MS2谱确定母离子
采用上面详细描述的方法,执行从MS2谱中的母离子选择。表4(下面)是来自1615.90Da的母离子的MS2谱的质量列表(如图9中所示),表4给出了质量和强度。
根据表4中的数据,采用WO 03/102572的系统确定与氨基酸系列相对应的从头推定离子系列,并且这些系列在表5中被给出。
然后,如上详述过滤表5中所示的结果,从而给出一组MSn离子,母离子从其中被选择出来。这个被过滤过的集合示于表6中。栏(左到右)离子质量、强度、间隙和质量系列(mass series)。
接着,将过滤后的集合输入到如前所详述的模糊逻辑系统的模糊化步骤中,以选择作为用于进一步片段化的母离子的离子,并且在表7中显示用于每个离子的模糊逻辑分析结果。如上详述,所述系统包括模糊化步骤、推理步骤、组合步骤和逆模糊化步骤。在模糊化步骤中,GAP、INTENSITY、LOW_VALUE_CRITERION和MASS_SERIES的输入值在从属度函数(GAP为SMALL等)中被模糊化。在推理步骤中,计算用于规则库的每个规则的推定(表1)从而给出每个规则的有效度。在组合步骤中,规则库的每个规则的输出用于创建模糊输出集合(最后的输出值)。在逆模糊化步骤中,POSSIBLE_SELECTION的从属度函数应用于最后输出值,从而确定候选离子的总体评级。
“Selected Mass”是被考虑的候选离子质量。“Max.Dos”值表示推理步骤(ii)和组合步骤(iii)之后所计算出的三项(POSSIBLE_SELECTION为HIGH,POSSIBLE_SELECTION为MEDIUM,POSSIBLE_SELECTION为LOW)中每个的有效度。“Final Output Value”在逆模糊化步骤(iv)采用如上所详述的方程式1和2进行计算。“Possible Selection”显示用于每个规则推定的最大真实度,POSSIBLE_SELECTION为HIGH,POSSIBLE_SELECTION为MEDIUM,POSSIBLE_SELECTION为LOW这些规则推定是从最后输出值中被计算出来(图7)。
正如从用作例子的表7中所示的结果中所见,除了1074.63以外所有的候选离子的结果是Low,每个的真实度为1.000。对于候选离子1074.63,它的POSSIBLE_SELECTION值是HIGH,具有真实度1.000。
正如从图7中所见,用于进一步片段化的1074.63Da片段的选择导致大量离子峰的生成,这些峰在MS3谱中而不是在MS2谱中被检测到。因此,来自较大集合的系统=s的选择1074.63Da候选离子是非常好的选择,阐明了关于样品多肽的额外有用的信息而不需要用户或者专家的输入/辅助。
该例子显示选择了单个离子。有时,可以选择不只一个离子峰,每个所述离子峰可能成为用于进一步片段化的离子。
b*表示b-17置换系列元素
b0表示b-18置换系列元素
y*表示y-17置换系列元素
y0表示y-18置换系列元素
粗体文字表示匹配的值
378.951.06
381.001.26
383.920.99
387.930.96
395.971.86
400.921.36
404.941.07
414.961.65
420.970.70
432.950.86
450.941.36
454.980.72
473.990.95
483.981.21
490.970.84
491.981.34
494.911.60
509.971.17
511.931.73
518.971.07
524.011.90
528.021.29
532.970.81
542.037.46
549.960.98
560.980.84
567.990.85
579.020.85
601.960.99
612.030.63
622.040.81
633.020.82
639.071.48
641.990.92
648.060.86
655.060.76
657.101.60
659.032.42
672.111.11
675.130.96
685.146.12
785.451.17
789.420.55
795.482.22
803.451.23
813.5011.31
838.450.86
856.430.80
873.481.28
891.500.67
898.490.72
908.510.74
916.57 0.95
924.51 1.12
931.58 1.17
936.50 0.74
942.55 3.10
959.59 8.53
977.60 7.27
986.53 0.74
996.58 0.74
[69.87,1597.98]
[74.81,1487.88]
[74.81,1487.88]
[57.76,1486.84]
[996.58,1182.62]
[977.6,1074.63]
[873.48,1010.63]
[873.48,1002.63]
[873.48,986.53]
[795.48,942.55,17.69]
[795.48,924.51]
[795.48,908.51]
[795.48,898.49]
[672.11,803.45,959.59,1074.63]
[672.11,803.45,959.59,17.69]
[672.11,803.45,959.59,1030.6]
[672.11,803.45,931.58,1030.6]
[672.11,803.45,931.58,1002.63]
[672.11,803.45,916.57,1030.6]
[672.11,785.45,916.57,1030.6]
[672.11,785.45,898.49]
[672.11,785.45,856.43,959.59,1074.63]
[672.11,785.45,856.43,959.59,17.69]
[672.11,785.45,856.43,959.59,1030.6]
[473.99,601.96,659.03]
[473.99,560.98,675.13,838.45]
[473.99,560.98,675.13,803.45,959.59,1074.63]
[473.99,560.98,675.13,803.45,959.59,17.69]
[473.99,560.98,675.13,803.45,959.59,1030.6]
[473.99,560.98,675.13,803.45,931.58,1030.6]
[473.99,560.98,675.13,803.45,931.58,1002.63]
[473.99,560.98,675.13,803.45,916.57,1030.6]
[473.99,560.98,675.13,789.42,936.5]
[473.99,560.98,648.06]
[450.94,612.03]
[450.94,579.02]
[450.94,549.96]
[432.95,560.98,675.13,838.45]
[432.95,560.98,675.13,803.45,959.59,1074.63]
[432.95,560.98,675.13,803.45,959.59,17.69]
[432.95,560.98,675.13,803.45,959.59,1030.6]
[432.95,560.98,675.13,803.45,931.58,1030.6]
[432.95,560.98,675.13,803.45,931.58,1002.63]
[432.95,560.98,675.13,803.45,916.57,1030.6]
[432.95,560.98,675.13,789.42,936.5]
[432.95,560.98,648.06]
[420.97,567.99,655.06]
[420.97,567.99,639.07]
[420.97,549.96]
[420.97,524.01,685.14,813.5,942.55,17.69]
[420.97,524.01,685.14,813.5,916.57,1030.6]
[420.97,524.01,655.06]
[420.97,524.01,639.07]
[420.97,491.98,655.06]
[420.97,491.98,648.06]
[420.97,491.98,639.07]
[420.97,491.98,579.02]
[414.96,528.02,675.13,838.45]
[414.96,528.02,675.13,803.45,959.59,1074.63]
[414.96,528.02,675.13,803.45,959.59,17.69]
[414.96,528.02,675.13,803.45,959.59,1030.6]
[414.96,528.02,675.13,803.45,931.58,1030.6]
[414.96,528.02,675.13,803.45,931.58,1002.63]
[414.96,528.02,675.13,803.45,916.57,1030.6]
[414.96,528.02,675.13,789.42,936.5]
[414.96,528.02,659.03]
[414.96,528.02,657.1,813.5,942.55,17.69]
[414.96,528.02,657.1,813.5,916.57,1030.6]
[414.96,528.02,657.1,785.45,916.57,1030.6]
[414.96,528.02,657.1,785.45,898.49]
[414.96,528.02,657.1,785.45,856.43,959.59,1074.63]
[414.96,528.02,657.1,785.45,856.43,959.59,17.69]
[414.96,528.02,657.1,785.45,856.43,959.59,1030.6]
[414.96,528.02,641.99]
[414.96,511.93,675.13,838.45]
[414.96,511.93,675.13,803.45,959.59,1074.63]
[414.96,511.93,675.13,803.45,959.59,17.69]
[414.96,511.93,675.13,803.45,959.59,1030.6]
[414.96,511.93,675.13,803.45,931.58,1030.6]
[414.96,511.93,675.13,803.45,931.58,1002.63]
[414.96,511.93,675.13,803.45,916.57,1030.6]
[414.96,511.93,675.13,789.42,936.5]
[414.96,511.93,659.03]
[404.94,567.99,655.06]
[404.94,567.99,639.07]
[404.94,560.98,675.13,838.45]
[404.94,560.98,675.13,803.45,959.59,1074.63]
[404.94,560.98,675.13,803.45,959.59,17.69]
[404.94,560.98,675.13,803.45,959.59,1030.6]
[404.94,560.98,675.13,803.45,931.58,1030.6]
[404.94,560.98,675.13,803.45,931.58,1002.63]
[404.94,560.98,675.13,803.45,916.57,1030.6]
[404.94,560.98,675.13,789.42,936.5]
[404.94,560.98,648.06]
[404.94,542.03,657.1,813.5,942.55,17.69]
[404.94,542.03,657.1,813.5,916.57,1030.6]
[404.94,542.03,657.1,785.45,916.57,1030.6]
[404.94,542.03,657.1,785.45,898.49]
[404.94,542.03,657.1,785.45,856.43,959.59,1074.63]
[404.94,542.03,657.1,785.45,856.43,959.59,17.69]
[404.94,542.03,657.1,785.45,856.43,959.59,1030.6]
[404.94,542.03,655.06]
[404.94,542.03,639.07]
[404.94,532.97,648.06]
[404.94,518.97,675.13,838.45]
[404.94,518.97,675.13,803.45,959.59,1074.63]
[404.94,518.97,675.13,803.45,959.59,17.69]
[404.94,518.97,675.13,803.45,959.59,1030.6]
[404.94,518.97,675.13,803.45,931.58,1030.6]
[404.94,518.97,675.13,803.45,931.58,1002.63]
[404.94,518.97,675.13,803.45,916.57,1030.6]
[404.94,518.97,675.13,789.42,936.5]
[404.94,518.97,648.06]
[404.94,518.97,633.02,789.42,936.5]
[404.94,518.97,622.04]
[404.94,491.98,655.06]
[404.94,491.98,648.06]
[404.94,491.98,639.07]
[404.94,491.98,579.02]
[395.97,532.97,648.06]
[395.97,524.01,685.14,813.5,942.55,17.69]
[395.97,524.01,685.14,813.5,916.57,1030.6]
[395.97,524.01,655.06]
[395.97,524.01,639.07]
[395.97,509.97,657.1,813.5,942.55,17.69]
[395.97,509.97,657.1,813.5,916.57,1030.6]
[395.97,509.97,657.1,785.45,916.57,1030.6]
[395.97,509.97,657.1,785.45,898.49]
[395.97,509.97,657.1,785.45,856.43,959.59,1074.63]
[395.97,509.97,657.1,785.45,856.43,959.59,17.69]
[395.97,509.97,657.1,785.45,856.43,959.59,1030.6]
[395.97,509.97,639.07]
[395.97,494.91,641.99]
[387.93,518.97,675.13,838.45]
[387.93,518.97,675.13,803.45,959.59,1074.63]
[387.93,518.97,675.13,803.45,959.59,17.69]
[387.93,518.97,675.13,803.45,959.59,1030.6]
[387.93,518.97,675.13,803.45,931.58,1030.6]
[387.93,518.97,675.13,803.45,931.58,1002.63]
[387.93,518.97,675.13,803.45,916.57,1030.6]
[387.93,518.97,675.13,789.42,936.5]
[387.93,518.97,648.06]
[387.93,518.97,633.02,789.42,936.5]
[387.93,518.97,622.04]
[387.93,490.97,622.04]
[383.92,511.93,675.13,838.45]
[383.92,511.93,675.13,803.45,959.59,1074.63]
[383.92,511.93,675.13,803.45,959.59,17.69]
[383.92,511.93,675.13,803.45,959.59,1030.6]
[383.92,511.93,675.13,803.45,931.58,1030.6]
[383.92,511.93,675.13,803.45,931.58,1002.63]
[383.92,511.93,675.13,803.45,916.57,1030.6]
[383.92,511.93,675.13,789.42,936.5]
[383.92,511.93,659.03]
[383.92,454.98,601.96,659.03]
[383.92,454.98,567.99,655.06]
[383.92,454.98,567.99,639.07]
[383.92,454.98,542.03,657.1,813.5,942.55,17.69]
[383.92,454.98,542.03,657.1,813.5,916.57,1030.6]
[383.92,454.98,542.03,657.1,785.45,916.57,1030.6]
[383.92,454.98,542.03,657.1,785.45,898.49]
[383.92,454.98,542.03,657.1,785.45,856.43,959.59,1074.63]
[383.92,454.98,542.03,657.1,785.45,856.43,959.59,17.69]
[383.92,454.98,542.03,657.1,785.45,856.43,959.59,1030.6]
[383.92,454.98,542.03,655.06]
[383.92,454.98,542.03,639.07]
[383.92,454.98,511.93,675.13,838.45]
[383.92,454.98,511.93,675.13,803.45,959.59,1074.63]
[383.92,454.98,511.93,675.13,803.45,959.59,17.69]
[383.92,454.98,511.93,675.13,803.45,959.59,1030.6]
[383.92,454.98,511.93,675.13,803.45,931.58,1030.6]
[383.92,454.98,511.93,675.13,803.45,931.58,1002.63]
[383.92,454.98,511.93,675.13,803.45,916.57,1030.6]
[383.92,454.98,511.93,675.13,789.42,936.5]
[383.92,454.98,511.93,659.03]
[381,542.03,657.1,813.5,942.55,17.69]
[381,542.03,657.1,813.5,916.57,1030.6]
[381,542.03,657.1,785.45,916.57,1030.6]
[381,542.03,657.1,785.45,898.49]
[381,542.03,657.1,785.45,856.43,959.59,1074.63]
[381,542.03,657.1,785.45,856.43,959.59,17.69]
[381,542.03,657.1,785.45,856.43,959.59,1030.6]
[381,542.03,655.06]
[381,542.03,639.07]
[381,528.02,675.13,838.45]
[381,528.02,675.13,803.45,959.59,1074.63]
[381,528.02,675.13,803.45,959.59,17.69]
[381,528.02,675.13,803.45,959.59,1030.6]
[381,528.02,675.13,803.45,931.58,1030.6]
[381,528.02,675.13,803.45,931.58,1002.63]
[381,528.02,675.13,803.45,916.57,1030.6]
[381,528.02,675.13,789.42,936.5]
[381,528.02,659.03]
[381,528.02,657.1,813.5,942.55,17.69]
[381,528.02,657.1,813.5,916.57,1030.6]
[381,528.02,657.1,785.45,916.57,1030.6]
[381,528.02,657.1,785.45,898.49]
[381,528.02,657.1,785.45,856.43,959.59,1074.63]
[381,528.02,657.1,785.45,856.43,959.59,17.69]
[381,528.02,657.1,785.45,856.43,959.59,1030.6]
[381,528.02,641.99]
[381,511.93,675.13,838.45]
[381,511.93,675.13,803.45,959.59,1074.63]
[381,511.93,675.13,803.45,959.59,17.69]
[381,511.93,675.13,803.45,959.59,1030.6]
[381,511.93,675.13,803.45,931.58,1030.6]
[381,511.93,675.13,803.45,931.58,1002.63]
[381,511.93,675.13,803.45,916.57,1030.6]
[381,511.93,675.13,789.42,936.5]
[381,511.93,659.03]
[381,509.97,657.1,813.5,942.55,17.69]
[381,509.97,657.1,813.5,916.57,1030.6]
[381,509.97,657.1,785.45,916.57,1030.6]
[381,509.97,657.1,785.45,898.49]
[381,509.97,657.1,785.45,856.43,959.59,1074.63]
[381,509.97,657.1,785.45,856.43,959.59,17.69]
[381,509.97,657.1,785.45,856.43,959.59,1030.6]
[381,509.97,639.07]
[381,494.91,641.99]
[381,483.98,612.03]
[378.95,542.03,657.1,813.5,942.55,17.69]
[378.95,542.03,657.1,813.5,916.57,1030.6]
[378.95,542.03,657.1,785.45,916.57,1030.6]
[378.95,542.03,657.1,785.45,898.49]
[378.95,542.03,657.1,785.45,856.43,959.59,1074.63]
[378.95,542.03,657.1,785.45,856.43,959.59,17.69]
[378.95,542.03,657.1,785.45,856.43,959.59,1030.6]
[378.95,542.03,655.06]
[378.95,542.03,639.07]
[378.95,509.97,657.1,813.5,942.55,17.69]
[378.95,509.97,657.1,813.5,916.57,1030.6]
[378.95,509.97,657.1,785.45,916.57,1030.6]
[378.95,509.97,657.1,785.45,898.49]
[378.95,509.97,657.1,785.45,856.43,959.59,1074.63]
[378.95,509.97,657.1,785.45,856.43,959.59,17.69]
[378.95,509.97,657.1,785.45,856.43,959.59,1030.6]
[378.95,509.97,639.07]
[378.95,491.98,655.06]
[378.95,491.98,648.06]
[378.95,491.98,639.07]
[378.95,491.98,579.02]
404.94 1.074
383.92 0.99 2400.75
381.00 1.26 2400.67
378.95 1.06 2400.67
所选质量1339.78
最大Dos 0.0
最终输出值
可能选择Low--1.000
所选质量1259.76
最大Dos 0.0
最终输出值
可能选择Low--1.000
所选质量1243.70
最大Dos 0.0
最终输出值
可能选择Low--1.000
所选质量996.58
最大Dos 1.0
最终输出值
可能选择Low--1.000
所选质量977.60
最大Dos 1.0
最终输出值
可能选择Low--1.000
所选质量873.48
最大Dos 1.0
最终输出值
可能选择Low--1.000
所选质量795.48
最大Dos 0.0
最终输出值
可能选择Low--1.000
所选质量789.42
最大Dos 0.0
最终输出值
可能选择Low--1.000
所选质量785.45
最大Dos 0.0
最终输出值
可能选择Low--1.000
所选质量601.96
最大Dos 1.0
最终输出值
可能选择Low--1.000
所选质量494.91
最终输出值0.021
Low--1.000
最终输出值0.175
Low--1.000
最终输出值0.175
Low--1.000
最终输出值0.175
Low--1.000
最终输出值0.175
Low--1.000
最终输出值0.175
Low--1.000
最终输出值0.175
Low--1.000
最终输出值0.175
Low--1.000
最终输出值0.175
Low--1.000
最终输出值0.073
Low--1.000
最终输出值0.175
Low--1.000
最终输出值0.175
可能选择Low--1.000
所选质量1074.63
最大Dos 0.6
最终输出值
可能选择High--1.000
&110&岛津研究所(欧洲)有限公司
&120&质谱母离子选择
&130&MP101190-GB
&170&PatentIn version 3.2
&213&Artificial Sequence
&223&Test synthetic peptide
Ala Met Gly Tyr Arg Val Leu Gly Ile Asp Gly Gly Glu Gly Lys
&213&Artificial Sequence
&223&Test synthetic peptide
Ala Ile Thr Ile Phe Gln Glu Arg Asp Pro Ala Asn Ile Lys
&213&Artificial sequence
&223&Test synthetic peptide
Tyr Leu Glu Phe Ile Ser Asp Ala Ile Ile His Val Leu His Ser Lys
1.一种用于选择用于片段化的部分降解样品多肽的软电离质谱的母离子的方法,所述软电离质谱包含一组从所述部分降解样品多肽中所获得的离子种类的m/z峰,所述方法包括步骤
(i)采用至少两个从所述软电离质谱所确定的候选m/z峰集合,每个候选m/z峰集合中的每个m/z峰与其至少一个邻元的相差一个氨基酸的质量,并采用从每个候选m/z峰集合所确定的推定的氨基酸序列,每个氨基酸序列是对应于每个m/z峰与其至少一个邻元之间的质量差的那些氨基酸的序列;和
(ii)采用人工智能技术分析所述至少两个候选m/z峰集合的所述m/z峰,以选择至少一个m/z峰用于片段化。
2.权利要求1所述的方法,所述人工智能技术包含模糊逻辑原理。
3.权利要求1或者权利要求2的方法,所述分析基于表示以下一组中的至少两项的输入变量选择至少一个m/z峰用于片段化,该组的组成为
(a)对应于候选m/z峰值和至少一个其他候选m/z峰集合的最近末端m/z峰值之间的差的氨基酸数目;
(b)候选m/z峰的强度;
(c)由候选m/z峰值所表示的质量;和
(d)对应于含有候选m/z峰的任何候选m/z峰集合的任何推定氨基酸序列中最长序列的氨基酸数目。
4.权利要求3的方法,所述分析采用模糊逻辑原理,包括步骤
(i)在至少一个从属度函数上模糊化所述输入变量;
(ii)推理规则库中多个规则,每个规则具有至少一个输出变量,以定义用于每个规则的每个输出变量的模糊子集;
(iii)组合所述推理步骤(ii)的所述模糊子集,以定义包含用于所述至少一个输出变量中的每一个的单个输出子集的模糊输出集合;和
(iv)逆模糊化所述模糊输出集合为明确数目。
5.权利要求4所述的方法,所述采用模糊逻辑原理的分析整合了所述规则库的所述规则的支持度加权。
6.权利要求5所述的方法,所述规则库的所述规则的支持度为通过机器学习可调整的。
7.权利要求4-6任一项所述的方法,所述逆模糊化步骤包括质心方法。
8.权利要求4-7任一项所述的方法,其中所述规则库可以进一步包含通过数据挖掘方法训练从实验数据收集知识。
9.权利要求8的方法,其中所述数据挖掘方法包括下面中的至少一种
神经网络;
决策树;和
规则演绎算法。
10.一种用于确定部分降解样品多肽的至少一个推定的氨基酸序列的方法,所述方法包括步骤
(i)获得所述部分降解样品多肽的软电离质谱,给出一组从所述部分降解样品多肽中所获得的离子种类的m/z峰;
(ii)从所述软电离质谱中确定至少两个候选m/z峰集合,所述软电离质谱包含一组从所述部分降解样品多肽中所获得的离子种类的m/z峰,每个候选m/z峰离子集合中的m/z峰与其至少一个邻元相差一个氨基酸的质量,以及从每个候选m/z峰集合确定推定的氨基酸序列,每个氨基酸序列是对应于每个m/z峰与其至少一个邻元之间的质量差的那些氨基酸的序列;
(iii)采用人工智能技术分析所述至少两个候选m/z峰集合的所述m/z峰,以选择至少一个m/z峰用于片段化;
(iv)获得所选至少一个候选m/z峰的进一步软电离质谱,给出一组离子种类的m/z峰;
(v)任选地采用至少两个前面所获得的软电离质谱作为所述软电离质谱重复步骤(ii)-(iv);以及
(vi)从所述软电离质谱确定至少两个候选m/z峰集合,所述软电离质谱包含一组从所述部分降解样品多肽中所获得的离子种类的m/z峰,每个候选m/z峰集合中的每个m/z峰与其至少一个邻元相差一个氨基酸的质量,并且从每个候选m/z峰集合确定推定的氨基酸序列,每个氨基酸序列是对应于每个m/z峰与其至少一个邻元之间的质量差的那些氨基酸的序列。
11.权利要求10所述的方法,所述人工智能技术包含模糊逻辑原理。
12.用于选择用于片段化的部分降解样品多肽的软电离质谱的至少一个m/z峰的系统,其包括
(a)用于存储机器指令的存储器,该指令采用人工智能技术分析至少两个候选m/z峰集合的m/z峰从而选择至少一个m/z峰用于片段化,所述至少两个候选m/z峰集合从所述部分降解样品多肽的软电离质谱中被确定,所述软电离质谱包含一组从所述部分降解样品多肽中所获得的离子种类的m/z峰,每个候选m/z峰集合中的每个m/z峰与其至少一个邻元相差一个氨基酸的质量,并且推定的氨基酸序列从每个候选m/z峰集合被确定,每个氨基酸序列是对应于每个m/z峰与其至少一个邻元之间的质量差的那些氨基酸的序列;
(b)处理器,用于采用人工智能技术分析所述至少两个候选m/z峰集合的所述m/z峰,从而选择至少一个m/z峰用于片段化。
13.权利要求12所述的系统,其中所述人工智能技术包含模糊逻辑原理。
14.权利要求13所述的系统,其进一步包括
存储器,用于存储和所述机器指令的所述模糊逻辑原理一起使用的模糊逻辑规则库;
其中处理器和所述存储器耦接,所述处理器执行关于所述模糊逻辑规则库的所述机器指令,使处理器确定所述部分降解的样品多肽的所述软电离质谱的至少一个m/z峰用于片段化。
15.权利要求12-14任一项所述的系统,其另外包括
(i)用于输入表示所述软电离质谱数据的数据输入装置;和
(ii)用于输出所述处理器的输出的输出装置。
16.权利要求12-15任一项所述的系统,其另外包括质谱仪。
17.权利要求14所述的系统,其中所述规则库可进一步包括通过数据挖掘方法训练从实验数据收集知识。
18.权利要求17所述的系统,其中所述数据挖掘方法包括下面中的至少一种
神经网络;
决策树;和
规则演绎算法。
19.用于选择用于片段化的部分降解样品多肽的软电离质谱的至少一个m/z峰的计算机程序产品,所述计算机程序包括程序代码,其用于采用人工智能技术分析至少两个候选m/z峰集合的m/z峰从而选择至少一个m/z峰用于片段化,所述至少两个候选m/z峰集合从所述部分降解样品多肽的软电离质谱中被确定,所述软电离质谱包含一组从所述部分降解样品多肽中所获得的离子种类的m/z峰,每个候选m/z峰集合中的每个m/z峰与其至少一个邻元相差一个氨基酸的质量,并且推定的氨基酸序列从每个候选m/z峰集合被确定,每个氨基酸序列是对应于每个m/z峰与其至少一个邻元之间的质量差的那些氨基酸的序列。
20.权利要求19所述的计算机程序,其中所述人工智能技术包含模糊逻辑原理。
21.用于选择用于片段化的部分降解样品多肽的软电离质谱的母离子的设备,其包含
(i)数据输入装置;
(ii)其上存储有模糊逻辑规则库的数据存储装置;
(iii)包含权利要求20所述的程序代码的数据处理装置;和
(iv)用于输出数据处理装置的输出的数据输出装置。
22.权利要求21所述的装置,其中所述设备包含质谱仪。
本发明涉及用于选择质谱中用于片段化的样品多肽的母离子的方法,以及确定样品多肽的至少一个推定的氨基酸序列的方法,以及用于同样目的的设备和计算机程序。
文档编号G06F19/22GKSQ
公开日日 申请日期日 优先权日日
发明者M·梅, 姚精文 申请人:岛津研究所(欧洲)有限公司}

我要回帖

更多关于 高效液相质谱 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信