数据情理中，处理stata缺失值处理的方法有哪些

点击联系发帖人 时间：2016-12-03 07:14

stata缺失值处理

一、缺失值产生的原因
缺失值的产生的原因多种多样，主要分为机械原因和人为原因。机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失，比如数据存储的失败，存储器损坏，机械故障导致某段时间数据未能收集（对于定时数据采集而言）。人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失，比如，在市场调查中被访人拒绝透露相关问题的答案，或者回答的问题是无效的，数据录入人员失误漏录了数据。&
二、缺失值的类型
缺失值从缺失的分布来讲可以分为完全随机缺失，随机缺失和完全非随机缺失。完全随机缺失（missing completely at random,MCAR）指的是数据的缺失是随机的，数据的缺失不依赖于任何不完全变量或完全变量。随机缺失(missing at random,MAR)指的是数据的缺失不是完全随机的，即该类数据的缺失依赖于其他完全变量。完全非随机缺失(missing not at random,MNAR)指的是数据的缺失依赖于不完全变量自身。&
从缺失值的所属属性上讲，如果所有的缺失值都是同一属性，那么这种缺失成为单值缺失，如果缺失值属于不同的属性，称为任意缺失。另外对于时间序列类的数据，可能存在随着时间的缺失，这种缺失称为单调缺失。
三、缺失值的处理方法&
对于缺失值的处理，从总体上来说分为删除存在缺失值的个案和缺失值插补。对于主观数据，人将影响数据的真实性，存在缺失值的样本的其他属性的真实值不能保证，那么依赖于这些属性值的插补也是不可靠的，所以对于主观数据一般不推荐插补的方法。插补主要是针对客观数据，它的可靠性有保证。&
1.删除含有缺失值的个案&
主要有简单删除法和权重法。简单删除法是对缺失值进行处理的最原始方法。它将存在缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标，那么这个方法是最有效的。当缺失值的类型为非完全随机缺失的时候，可以通过对完整的数据加权来减小偏差。把数据不完全的个案标记后，将完整的数据个案赋予不同的权重，个案的权重可以通过logistic或probit回归求得。如果解释变量中存在对权重估计起决定行因素的变量，那么这种方法可以有效减小偏差。如果解释变量和权重并不相关，它并不能减小偏差。对于存在多个属性缺失的情况，就需要对不同属性的缺失组合赋不同的权重，这将大大增加计算的难度，降低预测的准确性，这时权重法并不理想。&
2.可能值插补缺失值&
它的思想来源是以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。在数据挖掘中，面对的通常是大型的数据库，它的属性有几十个甚至几百个，因为一个属性值的缺失而放弃大量的其他属性值，这种删除是对信息的极大浪费，所以产生了以可能值对缺失值进行插补的思想与方法。常用的有如下几种方法。
(1)均值插补。数据的属性分为定距型和非定距型。如果缺失值是定距型的，就以该属性存在值的平均值来插补缺失的值；如果缺失值是非定距型的，就根据统计学中的众数原理，用该属性的众数(即出现频率最高的值)来补齐缺失的值。&
(2)利用同类均值插补。同均值插补的方法都属于单值插补，不同的是，它用层次聚类模型预测缺失变量的类型，再以该类型的均值插补。假设X=(X1,X2&Xp)为信息完全的变量，Y为存在缺失值的变量，那么首先对X或其子集行聚类，然后按缺失个案所属类来插补不同类的均值。如果在以后统计分析中还需以引入的解释变量和Y做分析，那么这种插补方法将在模型中引入自相关，给分析造成障碍。&
(3)极大似然估计（Max Likelihood ,ML）。在缺失类型为随机缺失的条件下，假设模型对于完整的样本是正确的，那么通过观测数据的边际分布可以对未知参数进行极大似然估计（Little and Rubin）。这种方法也被称为忽略缺失值的极大似然估计，对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(Expectation Maximization，EM）。该方法比删除个案和单值插补更有吸引力，它一个重要前提：适用于大样本。有效样本的数量足够以保证ML估计值是渐近无偏的并服从正态分布。但是这种方法可能会陷入局部极值，收敛速度也不是很快，并且计算很复杂。&
(4)多重插补（Multiple Imputation，MI）。多值插补的思想来源于贝叶斯估计，认为待插补的值是随机的，它的值来自于已观测到的值。具体实践上通常是估计出待插补的值，然后再加上不同的噪声，形成多组可选插补值。根据某种选择依据，选取最合适的插补值。&
多重插补方法分为三个步骤：①为每个空值产生一套可能的插补值，这些值反映了无响应模型的不确定性；每个值都可以被用来插补数据集中的缺失值，产生若干个完整数据集合。②每个插补数据集合都用针对完整数据集的统计方法进行统计分析。③对来自各个插补数据集的结果，根据评分函数进行选择，产生最终的插补值。
假设一组数据，包括三个变量Y1，Y2，Y3，它们的联合分布为正态分布，将这组数据处理成三组，A组保持原始数据，B组仅缺失Y3，C组缺失Y1和Y2。在多值插补时，对A组将不进行任何处理，对B组产生Y3的一组估计值（作Y3关于Y1，Y2的回归），对C组作产生Y1和Y2的一组成对估计值（作Y1，Y2关于Y3的回归）。&
当用多值插补时，对A组将不进行处理，对B、C组将完整的样本随机抽取形成为m组（m为可选择的m组插补值），每组个案数只要能够有效估计参数就可以了。对存在缺失值的属性的分布作出估计，然后基于这m组观测值，对于这m组样本分别产生关于参数的m组估计值，给出相应的预测即，这时采用的估计方法为极大似然法，在计算机中具体的实现算法为期望最大化法（EM）。对B组估计出一组Y3的值，对C将利用 Y1,Y2,Y3它们的联合分布为正态分布这一前提，估计出一组(Y1，Y2）。&
上例中假定了Y1,Y2,Y3的联合分布为正态分布。这个假设是人为的，但是已经通过验证（Graham和Schafer于1999），非正态联合分布的变量，在这个假定下仍然可以估计到很接近真实值的结果。&
多重插补和贝叶斯估计的思想是一致的，但是多重插补弥补了贝叶斯估计的几个不足。&
(1)贝叶斯估计以极大似然的方法估计，极大似然的方法要求模型的形式必须准确，如果参数形式不正确，将得到错误得结论，即先验分布将影响后验分布的准确性。而多重插补所依据的是大样本渐近完整的数据的理论，在数据挖掘中的数据量都很大，先验分布将极小的影响结果，所以先验分布的对结果的影响不大。&
(2)贝叶斯估计仅要求知道未知参数的先验分布，没有利用与参数的关系。而多重插补对参数的联合分布作出了估计，利用了参数间的相互关系。&
以上四种插补方法，对于缺失值的类型为随机缺失的插补有很好的效果。两种均值插补方法是最容易实现的，也是以前人们经常使用的，但是它对样本存在极大的干扰，尤其是当插补后的值作为解释变量进行回归时，参数的估计值与真实值的偏差很大。相比较而言，极大似然估计和多重插补是两种比较好的插补方法，与多重插补对比，极大似然缺少不确定成分，所以越来越多的人倾向于使用多值插补方法。&
插补处理只是将未知值补以我们的主观估计值，不一定完全符合客观事实。以上的分析都是理论分析，对于缺失值由于它本身无法观测，也就不可能知道它的缺失所属类型，也就无从估计一个插补方法的插补效果。另外这些方法通用于各个领域，具有了普遍性，那么针对一个领域的专业的插补效果就不会很理想，正是因为这个原因，很多专业数据挖掘人员通过他们对行业的理解，手动对缺失值进行插补的效果反而可能比这些方法更好。缺失值的插补是在数据挖掘过程中为了不放弃大量的信息，而采用的人为干涉缺失值的情况，无论是那种处理方法都会影响变量间的相互关系，在对不完备信息进行补齐处理的同时，我们或多或少地改变了原始的数据的信息系统，对以后的分析存在潜在的影响，所以对缺失值的处理一定要慎重。&
阅读(...) 评论()第27卷2007年6月；计算机应用；ComputerApplications；Vo.l27June2007；文章编号:07)S1-0；SAS中处理数据集缺失值方法的对比研究；殷杰,石锐；(重庆大学计算机学院,重庆400044)；()；摘要:采用SAS软件中的多重填补法(MI),期望；关键词:缺失值填补;
第27卷2007年6月
计算机应用
ComputerApplications
Vo.l27June2007
文章编号:07)S1-0438-02
SAS中处理数据集缺失值方法的对比研究
殷杰,石锐
(重庆大学计算机学院,重庆400044)
摘要:采用SAS软件中的多重填补法(MI),期望最大化算法(EM)和AdHoc法分别对医疗费用集的缺失值进行处理,比较三种方法的优劣并探讨其在医疗费用缺失值处理中的适用性。运用SAS9.10,采用数据模拟技术,分别模拟真实医疗数据集的各种缺失率的随机缺失数据集,分别用MI、EM和AdHoc对各缺失数据集进行处理,对结果进行比较和分析。结果:数据缺失率[10%时,AdHoc更优;数据缺失率在15%~30%时,经MI处理后的分析结果更接近/真实0;数据缺失率\35%时,三种方法均无效。结论:对不同缺失率的费用科目缺失数据集,MI和AdHoc对缺失值的处理各有优劣,EM效果略差于MI,没有明显优势。
关键词:缺失值填补;多重填补法;期望最大化算法;AdHoc法中图分类号:TP274
文献标识码:A
随着医疗改革的深入,在医院的医疗费用信息中,由于相关管理制度的不完善、录入人员的不仔细或相关环境的影响,导致具体的收费科目上有数据缺失,减少了有效数据的数量,增加了医保机构对医疗费用信息进行分析的难度。当数据信息中缺失数据过多,可能会失去数据的分析价值;但是如果数据缺失是在一个能够处理的范围,使用恰当的处理方式,则有可能使不可用的缺失数据变成对数据分析有益的数据。
在SAS中处理数据集中缺失值的方法有很多,不同的方法有不同的理论基础,适用的环境也有很大不同。本文选取了多重填补(MultipleImputation,MI)、期望最大化(ExpectationMaximization,EM)和AdHoc几种缺失值处理方法来处理含缺失值的数据,并比较这几种方法的适用情况。
分。2)估计步:利用预测步得到的充分统计量计算参数最大似然估计的校正值。重复以上两步,直至前后两次计算结果达到规定的收敛标准。AdHoc法是经典的缺失值处理方法,即对有缺失值的变量整列或成对删除,然后采用完整数据集的分析方法进行分析。
2 实验过程
表1 数据缺失模式
XpXXXpppXXXpppXO
(检查费)x2
XXpXXpXXppXppXpO
(治疗费)x3
XXXpXXpXpXppXppO
(床位费)x4
XXXXpXXpXppXpppO
1 缺失值处理方法
MI算法由Rubin于1987年最早提出,它是一种用两个或更多的可得到的并且能反映数据本身分布概率的值来填补缺失值的方法。近年来,MI在国外发展成为处理缺失值的最常用方法之一,该方法最近几年随着计算机硬件性价比的提高被越来越多的人关注,在医疗费用研究领域还未见有MI方法的文献报道。
它在沿袭传统填补方法的基础上,结合数据收集者的专业背景来反映缺失数据的不确定性,从而使得填补结果更接近/真实0,但MI也有其应用条件与适用范围,它要求数据呈随机缺失的形式。对数据的填补是MI过程中的关键步骤,对于每一个缺失的数据,MI填补m(m&1)次,这样,第一次填补就产生第一个完全数据集,以此类推,将产生m个完全数据集。对每一个完全数据集都采用标准的完全数据分析方法进行分析,并将所得结果进行综合,得到最终的统计推断。
EM算法是进行极大似然估计的一种有效方法,EM算法有两个迭代计算步:预测步和估计步。1)预测步:给定未知参数的某个估计值,预测充分统计量中有关缺失数据的部
注:/模式0表示所有变量存在的各种组合情况;/X0表示正常的观测值;/p0表示该处的观测值缺失,可以填补来修复;/O0表示该处的值全部缺失,无法进行有效填补。
分析200例冠心病病人的医疗费用记录。有1个因变量y,y表示单个病人的总费用,4个自变量,其中x1表示药费费用,x2表示检查费用,x3表示治疗费用,x4表示床位占用费用,x1、x2、x3、x4都为连续变量。对该数据集建立多元线性回归模型:
y=A+B1x1+B2x2+B3x3+B4x4+E
作者简介:殷杰(1981-),男,重庆涪陵人,硕士研究生,主要研究方向:数据挖掘算法、数据预处理; 石锐(1967-),女,重庆人,副教授,
6月殷杰等:SAS中处理数据集缺失值方法的对比研究
估计该模型各参数及其标准误差。
在此基础上,采用SAS9.10编程对该完整数据集构造各种不同缺失率的随机缺失数据集(见表1),分别采用MI、EM和AdHoc法对每一种缺失率的数据集缺失值进行处理,得到上述模型各参数及其标准误差,并与完整数据集相应参数及其标准误进行比较。其中,用MI方法对缺失数据进行填补时选择了填补3,5,10次,最终选择其中效果最好的填补结果作为MI方法的最终结果。当缺失率为5%时,MI,EM和AdHoc相差不大,结果都比较令人满意,AdHoc略微突出。
当缺失率上升到10%时,MI和AdHoc都较好,EM效果稍差。当缺失率为15%时,MI和AdHoc相差不大,AdHoc相对更好一点。当缺失为20%~30%时,AdHoc方法出现了很大的偏差,MI的填补效果虽然与实际数据有一定偏差,但结果很稳定,没有出现很大的抖动。缺失大于30%后,AdHoc方法完全失去了作用,MI和EM结果较接近,而MI方法略胜
图1 不同缺失率比较
本实验研究证明:
1)当缺失在10%以下时,AdHoc简单易行,而且结果更接近于真实数据;此时由于MI方法程序比较复杂,需占用较大内存和时间进行反复填补,因此并不是最优选择[3]。
2)缺失率达到10%以后,AdHoc方法的效果变得越来越差。这是由于缺失率逐渐提高时,用AdHoc法处理数据,势必减少样本信息,降低检验效能[3],并对填补结果的准确性造成较大影响[4]。
3)当缺失率在10%到30%之间时,MI处理缺失数据显示了其优越性,填补结果与AdHoc方法和EM算法相比,更接近实际数据。
4)当缺失率达35%时,不管是用AdHoc,EM,还是MI填补,结果均不理想,这说明当费用科目数据缺失太多时,这些数据在当前的环境下已经失去可利用的价值,需要换用更先进的填补方法来解决。
本次研究还有改进之处:MI方法的填补次数和数据的缺失率以及数据的缺失情况之间没有一个显式的关系来表达,(上接第437页)参考文献:
[1] VINCENTL,SOILLEP.WatershedsinDigitalSpaces:AnEff-i
cientAlgorithmBasedonImmersionSimulations[J].IEEETransac-tionsonPatternAnalysisandMachineIntelligence,):583-598.
[2] OTSUN.Athresholdselectionmethodfromgraylevelhistogram
[J].IEEETransactionsonSystems,Man,andCybernetics,):62-66.
可以通过进一步、更大范围的实验,用真实的实验数据来求解
这个关系;MI是采用EM算法来建立初始集,使得MI方法填补的数据和使用EM算法的数据有一定程度的相似性,下一步考虑选择新的MI的建立初始集的算法,提高MI方法填补缺失值的能力。参考文献:
[1] 茅群霞,李晓松.多重填补法MarkovChainMonteCarlo模型在
有缺失值的妇幼卫生纵向数据中的应用[J].四川大学学报,):422-425.
[2] GIARDINAM,HUOY,AZUAJEF,etal.AMissingDataEstima-tionAnalysisinTypeIIDiabetesDatabases[A].Proceedingsofthe
18thIEEESymposiumonComputer-BasedMedicalSystems[C].2005.
[3] BARZIF,WOODWARDM.ImputationofMissingValuesinPrac-tice:ResultsfromImputationsofSerumCholesterolin28CohortStudies[J].AmericanJournalofEpidemiology,):34-351.[4] ARNOLDAM,KRONMALRA.MultipleImputationofBaseline
DataintheCardiovascularHealthStudy[J].AmericanJournalofEpidemiology,):74-841.
[3] BORGEFORSG.DistanceTransformationsinDigitalImages[J].
Computer,GraphicsandImageProcess,):344-371.[4] 林开颜,吴军辉,徐立鸿.彩色图像分割方法综述[J].中国图像
图形学报,):1-10.
[5] 赵宇明,崔磊,柴岗,等.基于改进分水岭算法的组织细胞图像
分析[J].生物医学工程学杂志,):.[6] 游迎荣,范影乐,庞全.基于距离变换的粘连细胞分制方法[J].
计算机工程与应用,):206-208.
三亿文库包含各类专业文献、专业论文、行业资料、生活休闲娱乐、幼儿教育、小学教育、外语学习资料、56SAS中处理数据集缺失值方法的对比研究等内容。　
　缺失值的处理方法对于缺失值的处理, 从总体上来说...②每个插补数据集合都用针对完整数据集的统计方法...基于Sas的时间序列缺失值... 3页免费基于Sas的... 　SAS 金融数据处理综合练习题 1. 创建一包含 10000 ...数据集 A 中日期变量 DATE 包含有缺失值, 创建.../*方法二并不能产生开始和截止日之间所有日期,只能... 　因为 SAS 是一种数据处理语言,而实际数据中经常会遇到缺失值,比如没有观测到...&&符在有些语言中用作注意 &不等于&比较算符,而 SAS 中用法则较特殊... 　数据步用来生成数据集、计算、整理数据,过程步用来对数据进行分析、报告。 ...因为 SAS 是一种数据处理语言,而实际数据中经常会遇到缺失值,比如没有观测到... 　SAS 数据集中生成报表、以不同方式实现数据集合并、创建或删除 SAS 数据集、...处理 SQL 常用函数 MEAN 或 AVG:均值 COUNT 或 N 或 FREQ:非缺失值个数 ... 　缺失值的几类处理方法一、缺失值产生的原因缺失值...②每个插补数据集合都用针对完整数据集的统计方法进行...相比较而言,极大似然估计和多重插补是两种比较好的... 　方法是用 DATA 步或者是 PROC TRANSPOSE. 23.2 用 DATA 步完成转换对象对应...于不是来自于一个 SAS 数据集,在默认情况下,一条循环读完后会变为缺失值。... 　主要用户处理 SAS 数据集; 2.SAS 数据集通常分...数据集的三种方法: A.数据在作业流中: DATA 语句...指出每一个变量有多少条观测中有缺失值用此过程... 　SAS编程数据挖掘学习与帮助文档-2_计算机软件及应用_...更新数据集存在的缺失值处理是通过 updatemode 来完成...该程序是商业应用中比较标准的输出多元线性回归分析...}

叫阿莫西中心