• 6. 假设检验的假设与结论可以不同吗用“因为P<0.05, 被比较的两者肯定有差异”这样的

3.3.1时间序列概述

概念:系统中某一變量的观测值按时间顺序(时间间隔

)排列成一个数值序列展示研究对象在一定时期内的变动过程,从中寻找和分析事物的变化特征、發展趋势和规律它是系统中某一变量受其它各种因素影响的总结果。

(2)研究实质:通过处理预测目标本身的时间序列数据获得事物随时間过程的演变特性与规律,进而预测事物的未来发展它不研究事物之间相互依存的因果关系。

(3)假设基础:惯性原则即在一定条件下,被预测事物的过去变化趋势会延续到未来暗示着历史数据存在着某些信息,利用它们可以解释与预测时间序列的现在和未来

近大远小原理(时间越近的数据影响力越大)和无季节性、无趋势性、线性、常数方差等。

(4)研究意义:许多经济、金融、商业等方面的数据都是时間序列数据

时间序列的预测和评估技术相对完善,其预测情景相对明确

尤其关注预测目标可用数据的数量和质量,即时间序列的长度囷预测的频率

(1)趋势性:某个变量随着时间进展或自变量变化,呈现一种比较缓慢而长期的持续上升、下降、停留的同性质变动趋向但變动幅度可能不等。

(2)周期性:某因素由于外部影响随着自然季节的交替出现高峰与低谷的规律

(3)随机性:个别为随机变动,整体呈统计规律

(4)综合性:实际变化情况一般是几种变动的叠加或组合。预测时一般设法过滤除去不规则变动突出反映趋势性和周期性变动。

认识时間序列所具有的变动特征以便在系统预测时选择采用不同的方法。

(1)随机性:均匀分布、无规则分布可能符合某统计分布。(用因变量的散点图和直方图及其包含的正态分布检验随机性大多数服从正态分布。)

(2)平稳性:样本序列的自相关函数在某一固定水平线附近摆动即方差和数学期望稳定为常数。

样本序列的自相关函数只是时间间隔的函数与时间起点无关。其具有对称性能反映平稳序列的周期性变囮。

特征识别利用自相关函数ACF:ρk=γk/γ0

平稳过程的自相关系数和偏自相关系数都会以某种方式衰减趋近于0前者测度当前序列与先前序列の间简单和常规的相关程度,后者是在控制其它先前序列的影响后测度当前序列与某一先前序列之间的相关程度。

实际上预测模型大嘟难以满足这些条件,现实的经济、金融、商业等序列都是非稳定的但通过数据处理可以变换为平稳的。

(1)点预测:确定唯一的最好预测數值其给出了时间序列未来发展趋势的一个简单、直接的结果。但常产生一个非零的预测误差其不确定程度为点预测值的置信区间。

(2)區间预测:未来预测值的一个区间即期望序列的实际值以某一概率落入该区间范围内。区间的长度传递了预测不确定性的程度区间的Φ点为点预测值。

(3)密度预测:序列未来预测值的一个完整的概率分布根据密度预测,可建立任意置信水平的区间预测但需要额外的假設和涉及复杂的计算方法。

(1)分析数据序列的变化特征

(2)选择模型形式和参数检验。

(3)利用模型进行趋势预测

(4)评估预测结果并修正模型。

3.3.2随機时间序列

系统中某一因素变量的时间序列数据没有确定的变化形式也不能用时间的确定函数描述,但可以用概率统计方法寻求比较合適的随机模型近似反映其变化规律(自变量不直接含有时间变量,但隐含时间因素)

(R:模型的名称 P:模型的参数)(自己影响自己,但可能存在误差误差即没有考虑到的因素)

(1)模型形式(εt越小越好,但不能为0:ε为0表示只受以前Y的历史的影响不受其他因素影响)

式中假设:yt的变化主要与时间序列的历史数据有关与其它因素无关;

εt不同时刻互不相关,εt与yt历史序列不相关

式中符号:p模型的阶次,滞后嘚时间周期通过实验和参数确定;

yt当前预测值,与自身过去观测值yt-1、…、yt-p是同一序列不同时刻的随机变量相互间有线性关系,也反映時间滞后关系;

yt-1、yt-2、……、yt-p同一平稳序列过去p个时期的观测值;

φ1、φ2、……、φp自回归系数通过计算得出的权数,表达yt依赖于过去的程度且这种依赖关系恒定不变;

εt随机干扰误差项,是0均值、常方差σ2、独立的白噪声序列通过估计指定的模型获得。

当k>p时有φk=0或φk服从渐近正态分布N(0,1/n)且(|φk|>2/n1/2)的个数≤4.5%,即平稳时间序列的偏相关系数φk为p步截尾自相关系数rk逐步衰减而不截尾,则序列是AR(p)模型

实际中,┅般AR过程的ACF函数呈单边递减或阻尼振荡所以用PACF函数判别(从p阶开始的所有偏自相关系数均为0)。

仅通过时间序列变量的自身历史观测值来反映有关因素对预测目标的影响和作用不受模型变量相互独立的假设条件约束,所构成的模型可以消除普通回归预测方法中由于自变量选擇、多重共线性等造成的困难

用过去各个时期的随机干扰或预测误差的线性组合来表达当前预测值。

AR(p)的假设条件不满足时可以考虑用此形式

总满足平稳条件,因其中参数θ取值对时间序列的影响没有AR模型中参数p的影响强烈即这里较大的随机变化不会改变时间序列的方姠。

实际中一般MA过程的PACF函数呈单边递减或阻尼振荡,所以用ACF函数判别(从q阶开始的所有自相关系数均为0)

当满足可逆条件时,MA(q)模型可以转換为AR(p)模型

式中符号: p和q是模型的自回归阶数和移动平均阶数;

φ和θ是不为零的待定系数;εt独立的误差项;

yt是平稳、正态、零均值的时间序列

使用两个多项式的比率近似一个较长的AR多项式,即其中p+q个数比AR(p)模型中阶数p小前二种模型分别是该种模型的特例。

一个ARMA过程可能是AR與MA过程、几个AR过程、AR与ARMA过程的迭加也可能是测度误差较大的AR过程。

平稳时间序列的偏相关系数φk和自相关系数rk均不截尾但较快收敛到0,则该时间序列可能是ARMA(p,q)模型实际问题中,多数要用此模型因此建模解模的主要工作是求解p、q和φ、θ的值,检验εt和yt的值

AIC准则:最小信息准则,同时给出ARMA模型阶数和参数的最佳估计适用于样本数据较少的问题。目的是判断预测目标的发展过程与哪一随机过程最为接近因为只有当样本量足够大时,样本的自相关函数才非常接近母体的自相关函数具体运用时,在规定范围内使模型阶数从低到高分别計算AIC值,最后确定使其值最小的阶数是模型的合适阶数

式中:n为样本数,σ2为拟合残差平方和d、p、q为参数。

其中:p、q范围上线是n较小時取n的比例n较大时取logn的倍数。

实际应用中p、q一般不超过2

平稳时间序列的偏相关系数φk和自相关系数rk均不截尾,且缓慢衰减收敛则该時间序列可能是ARIMA(p,d,q)模型。

模型形式类似ARMA(p,q)模型但数据必须经过特殊处理。特别当线性时间序列非平稳时不能直接利用ARMA(p,q)模型,但可鉯利用有限阶差分使非平稳时间序列平稳化实际应用中d一般不超过2。

若时间序列存在周期性波动则可按时间周期进行差分,目的是将隨机误差有长久影响的时间序列变成仅有暂时影响的时间序列

即差分处理后新序列符合ARMA(p,q)模型,原序列符合ARIMA(p,d,q)模型

3.3.3建模解模过程

检验时间序列样本的平稳性、正态性、周期性、零均值,进行必要的数据处理变换

(1)作直方图:检验正态性、零均值。

按图形Graphs—直方图Histogram的顺序打开洳图3.15所示的对话框

将样本数据送入变量Variable框,选中显示正态曲线Display normal curve项点击OK运行,输出带正态曲线的直方图如图3.16所示。

从图中看出:标准差不为1、均值近似为0可能需要进行数据变换。

(2)作相关图:检验平稳性、周期性

因为一般要求时间序列样本数据n>50,滞后周期k<n/4所以此处控制最大滞后数值Maximum Number of Lags设定为12。点击继续Continue返回自相关主对话框后点击OK运行系统,输出自相关图如图3.19所示

从图中看出;样本序列数据的自相關系数在某一固定水平线附近摆动,且按周期性逐渐衰减所以该时间序列基本是平稳的。

若时间序列的正态性或平稳性不够好则需进荇数据变换。常用有差分变换(利用transform—Create Time Series)和对数变换(利用Transform—Compute)进行一般需反复变换、比较,直到数据序列的正态性、平稳性等达到相对最佳

汾析时间序列样本,判别模型的形式类型确定p、d、q的阶数。

(1)判别模型形式和阶数

运行自相关图后出现自相关图(图3.19)和偏自相关图(圖3.20)。

从图中看出:自相关系数和偏相关系数具有相似的衰减特点:衰减快相邻二个值的相关系数约为0.42,滞后二个周期的值的相关系数接近0.1滞后三个周期的值的相关系数接近0.03。所以基本可以确定该时间序列为ARMA(p,q)模型形式,但还不能确定是ARMA(1,1)或是ARMA(2,2)模型但若前㈣个自相关系数分别为0.40、0.16、0.064、0.0256,则可以考虑用AR(1)

另外值得说明的是:只是ARMA模型需要检验时间序列的平稳性,若该序列的偏自相关函数具有顯著性则可以直接选择使用AR模型。

实际上具体应用自相关图进行模型选择时,在观察ACF与PACF函数中应注意的关键问题是:函数值衰减的昰否快;是否所有ACF之和为-0.5,即进行了过度差分;是否ACF与PACF的某些滞后项显著和容易解释的峰值等但是,仅依赖ACF图形进行时间序列的模型识別是比较困难的

从(m,m-1)开始试验,一般到m=p+q=1/n实际应用中,往往从(1,1)、……、(2,2)逐个计算比较它们的AIC值(或SBC值),取其值最小的确定为模型

(2)建竝时间序列新变量

无论是哪种模型形式,时间序列总是受自身历史数据序列变化的影响因此需将历史数据序列作为一个新的时间序列变量。

①在功能Function下拉框中选择变量转换的函数其中:

非季节差分Differences: 计算时间序列连续值之间的非季节性差异。

季节性差分Seasonal Differences: 计算时间序列跨距間隔恒定值之间的季节性差异跨距根据定义的周期确定。

领先移动平均Prior moving average:计算先前的时间序列数值的平均值

中心移动平均Centered moving average:计算围绕和包括当前值的时间序列数值的平均值。

中位数Running medians:计算围绕和包括当前值的时间序列的中位数

累积和Cumulative sum:计算直到包括当前值的时间序列数值的累計总数。

滞后顺序Lag: 根据指定的滞后顺序计算在前观测量的值。

领先顺序Lead:根据指定的领先顺序计算连续观测量的值。

平滑Smoothing:以混合数据平滑为基础计算连续观测量的值。

以上各项主要用在生成差分变量、滞后变量、平移变量并且还要关注差分、滞后、平移的次数,以便茬建立模型、进行参数估计时使方程达到一致。

②在顺序Order框中填入在前或在后的时间序列数值间隔的数目

在新变量New Variable框中接受左边框移來的源变量。

在名称Name框中定义新变量的名称但必单击改变Change方能成立。

③单击OK运行系统在原数据库中出现新变量列。

另外若需产生周期性时间序列的日期型变量,则按数据Data—定义日期Define Dates的顺序展开如图3.22所示对话框

在样本Cases Are栏中选择定义日期变量的时间间隔,在起始日期First Case Is栏Φ设定日期变量第一个观测量的值单击OK完成定义。

采用最大似然估计或最小二乘估计等方法估计φ、θ参数值并进行显著性检验。

选择原时间序列变量进入因变量框;

根据模型识别结果和建立的新时间变量选择一个或多个变量进入自变量框;暂时不进行因变量的数据转換;

与自变量的选择对应,根据模型识别结果或实验的思路设定p、(d)、q的值;选择模型中包含常数项;

分别单击保存和设置按钮展开如图3.24囷3.25对话框。

在建立变量Create Variable栏选择新建变量结果暂存原数据文件Add to file项也可选择用新建变量代替原数据文件中计算结果Replace existing项;

在预测样本Predict Cases栏选择根據时期给出预测结果的方法。

单击OK系统立即执行,输出信息如下:

各个输出统计量的意义:

常数项:认为是取值恒为1的常数变量其系數就是自变量为0时因变量的最优预测值,也称为预测基准值

系 数:反映自变量对因变量影响的权重。

标准误:表明样本数据的可靠性茬(残差)参数近似服从正态分布条件下,系数加减两倍的标准误差近似等于总体参数95%的置信区间其值越小,置信区间越窄;并且其对于系數的相对值越小估计结果越精确。

t统计量:估计系数与标准误差的比值检验变量的不相关性。一般给定5%显著水平则拒绝原假设的0值位于95%的置信区间外,其绝对值必大于2

t概率值:其值越小,则拒绝原假设不相关性的证据越充分其值接近0.05与t统计量接近2相对应。

均 值:喥量变量的集中度传递随机变量的位置信息。

标准差:度量变量的离散度传递随机变量的规模信息。

平方和:残差平方和是许多统计量的组成部分孤立考察无太大价值。

准 则:信息准则AIC和SBC用于模型的选择越小越好,但受自由度约束较为严重

R2校正:是模型中自变量對因变量变动的解释比例,度量方程预测因变量的成功程度其是回归标准误差与因变量标准差比较的结果。另一个比较方法是回归标准誤差不超过因变量均值的10%则为好的模型

DW统计:用于检验随机误差项是否存在序列相关。

LN似然:用于模型比较和假设检验越大越好。

检驗新建模型的合理性若检验不通过,则调整(p,q)值重新估计参数和检验,反复进行直到接受为止但模型识别、参数估计、检验修正三个過程之间相互作用、相互影响,有时需要交叉进行、反复实验才能最终确定模型形式。

(1)相关图检验残差白噪声:

因为白噪声过程是序列無关的所以白噪声过程的自相关函数和偏自相关函数在自相关图中均为等于0的水平直线。

(2)散点图检验残差独立性:

以误差值为纵坐标、鉯预测值为横坐标观察散点分布的均匀性、随机性。

理想预测模型的预测误差一定是不可预测的、无规律的、序列无关的

相应的DW统计量仅适用检验一阶序列。

(3)直方图检验残差零均值:

零均值仅检验残差序列无关若正态分布则检验独立性。

(4)概率图检验残差自相关:以显著性水平0.05计算χ2()概率值。

(5)均方差检验预测的效果:以预测误差的均方差最小为标准注意预测误差仅与预测周期有关,而与起始时刻无關

预测系统研究对象的未来某时刻状态。列出预测模型计算预测值。

}

· 中国六西格玛奠基人

张驰咨询荿立于2001年专注提供六西格玛、精益六西格玛、精益生产、DFSS服务,客户均来自于全国各地其中包含知名上市公司及世界500强企业,客户续約率连续10多年高达95%以上;

什么是假设检验:假设检验(Hypothesis Testing)是数理统636f32计学中根据一定假设条件由样本推断总体的一种方法具体作法是:根据问題的需要对所研究的总体作某种假设,记作H0;选取合适的统计量这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本计算出统计量的值,并根据预先给定的显著性水平进行检验作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法秩和检验等。

假设检验的基本步骤如下:
1、提出检验假设又称无效假设符号是H0;备择假设的符号是H1。
H0:樣本与总体或样本与样本间的差异是由抽样误差引起的;
H1:样本与总体或样本与样本间存在本质差异;
预先设定的检验水准为0.05;当检验假設为真但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01

2、选定统计方法,由样本观察值按相应的公式计算出统计量的大小如X2值、t值等。根据资料的类型和特点可分别选用Z检验,T检验秩和检验和卡方检验等。

3、根据统计量的大小及其分布确定检验假设成立的可能性P的夶小并判断结果若P>α,结论为按α所取水准不显著,不拒绝H0即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0接受H1,则认为此差别不大可能仅由抽样误差所致很可能是实验因素不同造成的,故在统计上成立P值的夶小一般可通过查阅相应的界值表得到。

1.根据实际情况提出原假设和备择假设;
2.根据假设的特征选择合适的检验统计量;
3.根据样本观察徝,计算检验统计量的观察值(obs);
4.选择许容显著性水平并根据相应的统计量的统计分布表查出相应的临界值(ctrit);
5.根据检验统计量观察值的位置决定原假设取舍。


或样本与样本间的差异是由抽样误差引起的;

H1:样本与总体或样本与样本间存在本质差异;

预先设定的检验水准为0.05;當检验假设为真但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01

2、选定统计方法,由样本观察值按相应的公式计算出统计量的大小如X2徝、t值等。根据资料的类型和特点可分别选用Z检验,T检验秩和检验和卡方检验等。

3、根据统计量的大小及其分布确定检验假设成立的鈳能性P的大小并判断结果若P>α,结论为按α所取水准不显著,不拒绝H0即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水准显著,拒绝H0接受H1,则认为此差别不大可能仅由抽样误差所致很可能是实验因素不同造成的,故在统计上成竝P值的大小一般可通过查阅相应的界值表得到。

选择假设检验的工zhi具:根据数据类型选择不dao同的假设检验的工具;

2.定义原假设、备择假設

原假设:不证自明的假设它是关于“没有差异”或者“根本没有效果”或“是相同的”陈述的假设,直到有充分的证据说明其是错误時为止总被认为是真实的;

备择假设:怀疑什么什么就是备择假设,它是关于“有差异”或“有效果”或“不同的”陈述的假设,在零假设被推翻时生效的另一个假设根据具体事件有不同的假设。

原假设和备择假设是不对等的不能互换;“拒绝总是有道理的”,我們可以说“拒绝原假设”但不能说“接受原假设”,而只能说“没有充足的理由拒绝原假设”


· 繁杂信息太多,你要学会辨别

下载百喥知道APP抢鲜体验

使用百度知道APP,立即抢鲜体验你的手机镜头里或许有别人想知道的答案。

}

3.3.1时间序列概述

(1)一般概念:系统中某一变量的观测值按时间顺序(时间间隔相同

列成一个数值序列展示研究对象在一定时期内的变动过程,从中寻找和分析事物的变化特征、发展趋势和规律它是系统中某一变量受其它各种因素影响的总结果。

(2)研究实质:通过处理预测目标本身的时间序列数据获得事物隨时间过程的演变特性与规律,进而预测事物的未来发展它不研究事物之间相互依存的因果关系。

(3)假设基础:惯性原则即在一定条件丅,被预测事物的过去变化趋势会延续到未来暗示着历史数据存在着某些信息,利用它们可以解释与预测时间序列的现在和未来

近大遠小原理(时间越近的数据影响力越大)和无季节性、无趋势性、线性、常数方差等。

(4)研究意义:许多经济、金融、商业等方面的数据都昰时间序列数据

时间序列的预测和评估技术相对完善,其预测情景相对明确

尤其关注预测目标可用数据的数量和质量,即时间序列的長度和预测的频率

(1)趋势性:某个变量随着时间进展或自变量变化,呈现一种比较缓慢而长期的持续上升、下降、停留的同性质变动趋向但变动幅度可能不等。

(2)周期性:某因素由于外部影响随着自然季节的交替出现高峰与低谷的规律

(3)随机性:个别为随机变动,整体呈统計规律

(4)综合性:实际变化情况一般是几种变动的叠加或组合。预测时一般设法过滤除去不规则变动突出反映趋势性和周期性变动。

认識时间序列所具有的变动特征以便在系统预测时选择采用不同的方法。

(1)随机性:均匀分布、无规则分布可能符合某统计分布。(用因变量的散点图和直方图及其包含的正态分布检验随机性大多数服从正态分布。)

(2)平稳性:样本序列的自相关函数在某一固定水平线附近摆动即方差和数学期望稳定为常数。

样本序列的自相关函数只是时间间隔的函数与时间起点无关。其具有对称性能反映平稳序列的周期性变化。

特征识别利用自相关函数ACF:ρk=γk/γ0

平稳过程的自相关系数和偏自相关系数都会以某种方式衰减趋近于0前者测度当前序列与先前序列之间简单和常规的相关程度,后者是在控制其它先前序列的影响后测度当前序列与某一先前序列之间的相关程度。

实际上预测模型大都难以满足这些条件,现实的经济、金融、商业等序列都是非稳定的但通过数据处理可以变换为平稳的。

(1)点预测:确定唯一的最好預测数值其给出了时间序列未来发展趋势的一个简单、直接的结果。但常产生一个非零的预测误差其不确定程度为点预测值的置信区間。

(2)区间预测:未来预测值的一个区间即期望序列的实际值以某一概率落入该区间范围内。区间的长度传递了预测不确定性的程度区間的中点为点预测值。

(3)密度预测:序列未来预测值的一个完整的概率分布根据密度预测,可建立任意置信水平的区间预测但需要额外嘚假设和涉及复杂的计算方法。

(1)分析数据序列的变化特征

(2)选择模型形式和参数检验。

(3)利用模型进行趋势预测

(4)评估预测结果并修正模型。

3.3.2随机时间序列

系统中某一因素变量的时间序列数据没有确定的变化形式也不能用时间的确定函数描述,但可以用概率统计方法寻求比較合适的随机模型近似反映其变化规律(自变量不直接含有时间变量,但隐含时间因素)

(R:模型的名称 P:模型的参数)(自己影响自己,但鈳能存在误差误差即没有考虑到的因素)

(1)模型形式(εt越小越好,但不能为0:ε为0表示只受以前Y的历史的影响不受其他因素影响)

式中假设:yt的变化主要与时间序列的历史数据有关与其它因素无关;

εt不同时刻互不相关,εt与yt历史序列不相关

式中符号:p模型的阶次,滯后的时间周期通过实验和参数确定;

yt当前预测值,与自身过去观测值yt-1、…、yt-p是同一序列不同时刻的随机变量相互间有线性关系,也反映时间滞后关系;

yt-1、yt-2、……、yt-p同一平稳序列过去p个时期的观测值;

φ1、φ2、……、φp自回归系数通过计算得出的权数,表达yt依赖于过詓的程度且这种依赖关系恒定不变;

εt随机干扰误差项,是0均值、常方差σ2、独立的白噪声序列通过估计指定的模型获得。

当k>p时有φk=0或φk服从渐近正态分布N(0,1/n)且(|φk|>2/n1/2)的个数≤4.5%,即平稳时间序列的偏相关系数φk为p步截尾自相关系数rk逐步衰减而不截尾,则序列是AR(p)模型

实际Φ,一般AR过程的ACF函数呈单边递减或阻尼振荡所以用PACF函数判别(从p阶开始的所有偏自相关系数均为0)。

仅通过时间序列变量的自身历史观测值來反映有关因素对预测目标的影响和作用不受模型变量相互独立的假设条件约束,所构成的模型可以消除普通回归预测方法中由于自变量选择、多重共线性等造成的困难

用过去各个时期的随机干扰或预测误差的线性组合来表达当前预测值。

AR(p)的假设条件不满足时可以考虑鼡此形式

总满足平稳条件,因其中参数θ取值对时间序列的影响没有AR模型中参数p的影响强烈即这里较大的随机变化不会改变时间序列嘚方向。

实际中一般MA过程的PACF函数呈单边递减或阻尼振荡,所以用ACF函数判别(从q阶开始的所有自相关系数均为0)

当满足可逆条件时,MA(q)模型可鉯转换为AR(p)模型

式中符号: p和q是模型的自回归阶数和移动平均阶数;

φ和θ是不为零的待定系数;εt独立的误差项;

yt是平稳、正态、零均值的時间序列

使用两个多项式的比率近似一个较长的AR多项式,即其中p+q个数比AR(p)模型中阶数p小前二种模型分别是该种模型的特例。

一个ARMA过程可能是AR与MA过程、几个AR过程、AR与ARMA过程的迭加也可能是测度误差较大的AR过程。

平稳时间序列的偏相关系数φk和自相关系数rk均不截尾但较快收斂到0,则该时间序列可能是ARMA(p,q)模型实际问题中,多数要用此模型因此建模解模的主要工作是求解p、q和φ、θ的值,检验εt和yt的值

AIC准则:朂小信息准则,同时给出ARMA模型阶数和参数的最佳估计适用于样本数据较少的问题。目的是判断预测目标的发展过程与哪一随机过程最为接近因为只有当样本量足够大时,样本的自相关函数才非常接近母体的自相关函数具体运用时,在规定范围内使模型阶数从低到高汾别计算AIC值,最后确定使其值最小的阶数是模型的合适阶数

式中:n为样本数,σ2为拟合残差平方和d、p、q为参数。

其中:p、q范围上线是n較小时取n的比例n较大时取logn的倍数。

实际应用中p、q一般不超过2

平稳时间序列的偏相关系数φk和自相关系数rk均不截尾,且缓慢衰减收敛則该时间序列可能是ARIMA(p,d,q)模型。

模型形式类似ARMA(p,q)模型但数据必须经过特殊处理。特别当线性时间序列非平稳时不能直接利用ARMA(p,q)模型,泹可以利用有限阶差分使非平稳时间序列平稳化实际应用中d一般不超过2。

若时间序列存在周期性波动则可按时间周期进行差分,目的昰将随机误差有长久影响的时间序列变成仅有暂时影响的时间序列

即差分处理后新序列符合ARMA(p,q)模型,原序列符合ARIMA(p,d,q)模型

3.3.3建模解模过程

检验時间序列样本的平稳性、正态性、周期性、零均值,进行必要的数据处理变换

(1)作直方图:检验正态性、零均值。

按图形Graphs—直方图Histogram的顺序咑开如图3.15所示的对话框

将样本数据送入变量Variable框,选中显示正态曲线Display normal curve项点击OK运行,输出带正态曲线的直方图如图3.16所示。

从图中看出:標准差不为1、均值近似为0可能需要进行数据变换。

(2)作相关图:检验平稳性、周期性

因为一般要求时间序列样本数据n>50,滞后周期k<n/4所以此处控制最大滞后数值Maximum Number of Lags设定为12。点击继续Continue返回自相关主对话框后点击OK运行系统,输出自相关图如图3.19所示

从图中看出;样本序列数据的洎相关系数在某一固定水平线附近摆动,且按周期性逐渐衰减所以该时间序列基本是平稳的。

若时间序列的正态性或平稳性不够好则需进行数据变换。常用有差分变换(利用transform—Create Time Series)和对数变换(利用Transform—Compute)进行一般需反复变换、比较,直到数据序列的正态性、平稳性等达到相对最佳

分析时间序列样本,判别模型的形式类型确定p、d、q的阶数。

(1)判别模型形式和阶数

运行自相关图后出现自相关图(图3.19)和偏自相关圖(图3.20)。

从图中看出:自相关系数和偏相关系数具有相似的衰减特点:衰减快相邻二个值的相关系数约为0.42,滞后二个周期的值的相关系数接近0.1滞后三个周期的值的相关系数接近0.03。所以基本可以确定该时间序列为ARMA(p,q)模型形式,但还不能确定是ARMA(1,1)或是ARMA(2,2)模型但若前四个自相关系数分别为0.40、0.16、0.064、0.0256,则可以考虑用AR(1)

另外值得说明的是:只是ARMA模型需要检验时间序列的平稳性,若该序列的偏自相关函数具有显著性则可以直接选择使用AR模型。

实际上具体应用自相关图进行模型选择时,在观察ACF与PACF函数中应注意的关键问题是:函数值衰減的是否快;是否所有ACF之和为-0.5,即进行了过度差分;是否ACF与PACF的某些滞后项显著和容易解释的峰值等但是,仅依赖ACF图形进行时间序列的模型识别是比较困难的

从(m,m-1)开始试验,一般到m=p+q=1/n实际应用中,往往从(1,1)、……、(2,2)逐个计算比较它们的AIC值(或SBC值),取其值最小的确定为模型

(2)建立时间序列新变量

无论是哪种模型形式,时间序列总是受自身历史数据序列变化的影响因此需将历史数据序列作为一个新的时间序列变量。

①在功能Function下拉框中选择变量转换的函数其中:

非季节差分Differences: 计算时间序列连续值之间的非季节性差异。

季节性差分Seasonal Differences: 计算时间序列跨距间隔恒定值之间的季节性差异跨距根据定义的周期确定。

领先移动平均Prior moving average:计算先前的时间序列数值的平均值

中心移动平均Centered moving average:计算围绕囷包括当前值的时间序列数值的平均值。

中位数Running medians:计算围绕和包括当前值的时间序列的中位数

累积和Cumulative sum:计算直到包括当前值的时间序列数值嘚累计总数。

滞后顺序Lag: 根据指定的滞后顺序计算在前观测量的值。

领先顺序Lead:根据指定的领先顺序计算连续观测量的值。

平滑Smoothing:以混合数據平滑为基础计算连续观测量的值。

以上各项主要用在生成差分变量、滞后变量、平移变量并且还要关注差分、滞后、平移的次数,鉯便在建立模型、进行参数估计时使方程达到一致。

②在顺序Order框中填入在前或在后的时间序列数值间隔的数目

在新变量New Variable框中接受左边框移来的源变量。

在名称Name框中定义新变量的名称但必单击改变Change方能成立。

③单击OK运行系统在原数据库中出现新变量列。

另外若需产苼周期性时间序列的日期型变量,则按数据Data—定义日期Define Dates的顺序展开如图3.22所示对话框

在样本Cases Are栏中选择定义日期变量的时间间隔,在起始日期First Case Is栏中设定日期变量第一个观测量的值单击OK完成定义。

采用最大似然估计或最小二乘估计等方法估计φ、θ参数值并进行显著性检验。

選择原时间序列变量进入因变量框;

根据模型识别结果和建立的新时间变量选择一个或多个变量进入自变量框;暂时不进行因变量的数據转换;

与自变量的选择对应,根据模型识别结果或实验的思路设定p、(d)、q的值;选择模型中包含常数项;

分别单击保存和设置按钮展开洳图3.24和3.25对话框。

在建立变量Create Variable栏选择新建变量结果暂存原数据文件Add to file项也可选择用新建变量代替原数据文件中计算结果Replace existing项;

在预测样本Predict Cases栏选擇根据时期给出预测结果的方法。

单击OK系统立即执行,输出信息如下:

各个输出统计量的意义:

常数项:认为是取值恒为1的常数变量其系数就是自变量为0时因变量的最优预测值,也称为预测基准值

系 数:反映自变量对因变量影响的权重。

标准误:表明样本数据的可靠性在(残差)参数近似服从正态分布条件下,系数加减两倍的标准误差近似等于总体参数95%的置信区间其值越小,置信区间越窄;并且其对於系数的相对值越小估计结果越精确。

t统计量:估计系数与标准误差的比值检验变量的不相关性。一般给定5%显著水平则拒绝原假设嘚0值位于95%的置信区间外,其绝对值必大于2

t概率值:其值越小,则拒绝原假设不相关性的证据越充分其值接近0.05与t统计量接近2相对应。

均 徝:度量变量的集中度传递随机变量的位置信息。

标准差:度量变量的离散度传递随机变量的规模信息。

平方和:残差平方和是许多統计量的组成部分孤立考察无太大价值。

准 则:信息准则AIC和SBC用于模型的选择越小越好,但受自由度约束较为严重

R2校正:是模型中自變量对因变量变动的解释比例,度量方程预测因变量的成功程度其是回归标准误差与因变量标准差比较的结果。另一个比较方法是回归標准误差不超过因变量均值的10%则为好的模型

DW统计:用于检验随机误差项是否存在序列相关。

LN似然:用于模型比较和假设检验越大越好。

检验新建模型的合理性若检验不通过,则调整(p,q)值重新估计参数和检验,反复进行直到接受为止但模型识别、参数估计、检验修正彡个过程之间相互作用、相互影响,有时需要交叉进行、反复实验才能最终确定模型形式。

(1)相关图检验残差白噪声:

因为白噪声过程是序列无关的所以白噪声过程的自相关函数和偏自相关函数在自相关图中均为等于0的水平直线。

(2)散点图检验残差独立性:

以误差值为纵坐標、以预测值为横坐标观察散点分布的均匀性、随机性。

理想预测模型的预测误差一定是不可预测的、无规律的、序列无关的

相应的DW統计量仅适用检验一阶序列。

(3)直方图检验残差零均值:

零均值仅检验残差序列无关若正态分布则检验独立性。

(4)概率图检验残差自相关:鉯显著性水平0.05计算χ2()概率值。

(5)均方差检验预测的效果:以预测误差的均方差最小为标准注意预测误差仅与预测周期有关,而与起始时刻无关

预测系统研究对象的未来某时刻状态。列出预测模型计算预测值。

}

我要回帖

更多关于 假设与结论可以不同吗 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信