如何训练来提高灰色预测模型精度检验精度

如何才能提高销售预测准确度_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
如何才能提高销售预测准确度
 我们是一家负责在大中华区从事精益生产体...|
总评分0.0|
&&如何才能提高销售预测准确度
阅读已结束,下载文档到电脑
想免费下载更多文档?
定制HR最喜欢的简历
下载文档到电脑,方便使用
还剩1页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢斑马鱼piRNA预测方法的研究_参考网
斑马鱼piRNA预测方法的研究
刘立婷++臧鸿雁++刘秀芹摘 要:本文主要讨论斑马鱼piRNA的预测方法。本文通过选取恰当的斑马鱼piRNA特征,使用SVM方法训练正训练集和负训练集,然后利用5-fold交叉验证去预测正负测试集。完成上述工作后,使用Python语言进行编程,模拟理论研究成果,使用测试集进行预测,得到敏感性为83.2%,特异性为74.6%,预测精度为78.9%。关键词:斑马鱼piRNA;支持向量机;预测中图分类号:Q74 文献标识码:A 文章编号:(1-012006年7月,杂志Science和Nature均报道了一种最新发现的非编码类小RNA[1],这些非编码类小RNA主要分布于哺乳动物的生殖细胞中,经科学家们研究发现,这种小RNA可以与PIWI蛋白质之间相互结合而产生重大作用,被称为piRNA。经过多年的研究,研究人员发现piRNA可以调控哺乳动物体内生殖细胞的生长和发育进程,从而对各种生物体产生重要作用[2]。因此,piRNA的预测能够促进人们对piRNA生成过程和结构特点的认识,进一步研究piRNA的结构特点和功能特点,对肿瘤的诊断和治疗,对新药的研发提供了重要的科学理论依据。1 数据来源由于斑马鱼基因与人类基因的相似度程度高,而且容易获取大数量的实验数据,这样可以有效的减少时间消耗和实验成本,提高预测精度。根据本文的研究目的选择斑马鱼piRNA序列作为正集,斑马鱼非编码序列作负集,因为使用同一物种的基因序列可以避免由于不同物种之间的同源性差所造成的结果偏差,提高预测精度。从http://www.regulatoryrna.org/database/piRNA/download.html下载斑马鱼piRNA序列,共1330692条。从http://www.noncode.org/download.php上下载了12836条斑马鱼非编码序列。2 训练集与测试集本文正集和负集序列均为1500条,这个数字是作者任意选取的,当然,可以通过多次试验选取最合适的样本条数。从斑马鱼piRNA序列中随机选择1500条序列作为正集,其中2/3的序列(即1000条序列)作为训练集,剩余的1/3序列(即500条序列)作为测试集。从斑马鱼非编码序列中随机选择1500条序列作为负集,其中2/3的序列作为训练集,剩余的1/3序列作为测试集。使用python编程统计了正集序列的长度为17-36,因此为了提高预测精度,负集序列的长度应该也在此范围内。所以,编程实现了从负集的非编码序列中随机截取相似程度的序列作为试验中用到的负集。3 特征的提取使用软件Teiresias提取训练集的特征。选项选择为“Exact Discovery”,“Seq Version”和“Only nucleic acid characters”。经多次试验,参数选择为L=2,W=5,K=600,它表示1000条序列中有共同特征的至少有600条序列,长度最大为5的motifs中至少有两个核苷酸[3]。从训练集的正集中共提取出了59条特征,从训练集负集中共提取出了62条特征。去除提取出的motifs特征中的冗余特征后剩余62条特征,如特征“T..A”,“T”和“A”分别表示胸腺嘧啶和腺嘌呤,“T”和“A”之间的“.”表示任意核苷酸。计算每个motif在每条序列中出现的频数,构成了一个特征矩阵,如(3,0,1,2,1,3,1,4,2,1,2,0,2,2,0,0,2,2,1,2,1,2,1,0,0,0,3,0,1,3,2,2,4,2,1,2,0,1,0,1,2,3,0,2,1,1,0,3,1,1,1,2,0,0,1,1,0,0,1,1,0,0)为其中某一条序列的特征向量,其中第一个元素“3”表示在该序列中第一个特征“TG”的个数,第二个元素为第二个特征“TA”在该序列中的个数,之后的数字依次类推。4 训练和预测在网址http://www.csie.ntu.edu.tw/~cjlin/libsvm/oldfiles/上下载libsvm。首先,统计训练集中每条序列的motifs频数,使用python编程将统计的motifs频数转换成libsvm所接受的特征矩阵的形式,然后使用libsvm軟件包中的svm-scale.exe对训练集特征矩阵train.txt进行标准化处理,对测试集进行同样的标准化处理。本文使用的训练函数为RBF核函数。因为这个核函数可以非线性的映射到高维空间中,能够处理类标签和属性是非线性时的关系,并且线性核函数是RBF的一个特殊情况。使用libsvm tools目录下的grid.py来选择参数,选择结果为=512。0,=0。,它的交叉验证率为77.35%。使用得到的最佳参数对训练集进行训练,然后使用该训练模型对标准化后的测试集进行预测。经预测,得到了测试集的预测结果为78.9%。5 特异性和灵敏性使用SVM训练训练集得到了预测模型来预测测试集中的序列,由于测试集中的序列分类是已知的,因此,本文使用已知分类和预测得到的分类结果求得特异性为74.6%,灵敏性为78.9%。特异性表明500条斑马鱼非编码序列被预测正确的概率是74.6%,灵敏性表明500条斑马鱼piRNA序列中被预测正确的概率是78.9%。预测精度为特异性和灵敏性的平均值,表示整个测试集中序列被预测正确的概率。6 结语本文使用高斯核函数(RBF)建立了一个斑马鱼piRNA的分类模型,由于斑马鱼piRNA序列和斑马鱼非编码序列之间具有不同的特征,因此使用motifs特征可以识别斑马鱼piRNA序列和非编码序列。然后统计训练集中每条序列中motifs的频数,构成特征矩阵。使用支持向量机对训练集和测试集进行分类和预测,得到的预测精度为78。9%,其中特异性为74.6%,敏感性为83.2%。特异性和灵敏性结果表明,在提取特征过程中,负集的特征提取不完善,如果想要得到更高的预测精度,就需要提取尽可能多的特征。参考文献[1]Aravin A,Gaidatzis D,Pfeffer S,et al. A novel class of small RNAs bind to MILI protein in mouse testes[J]. Nature,(7099):203-207.[2]郭艳合,刘立,蔡荣,等.小 RNA 家族的新成员—piRNA[J].遗传,):28-34.[3]Liu X,He S,Skogerb G,et al. Integrated sequence-structure motifs suffice to identify microRNA precursors[J]. PloS one,):e32797.
中国科技纵横
2017年12期
中国科技纵横的其它文章您的访问出错了(404错误)
很抱歉,您要访问的页面不存在。
1、请检查您输入的地址是否正确。
进行查找。
3、感谢您使用本站,3秒后自动跳转至网站首页以下试题来自:
填空题提高市场预测精度的可能性从根本上说是由()决定的。
市场现象存在连续性、市场现象客观上存的发展变化规律、市场现象与其他事物是相互联系的
为您推荐的考试题库
您可能感兴趣的试卷
你可能感兴趣的试题
1.判断题 对2.填空题 预测方法的适用性是否得到了发挥、方法本身是否具有科学的依据3.判断题 对4.判断题 对5.判断题 对}

我要回帖

更多关于 预测精度怎么计算 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信