数据行政关系来源性质与数据性质的区别

祝给予赞赏的伙伴,2017年发大财!|赞赏
收藏已收藏 | 82赞 | 5
分享到微信扫码分享到微信
次饭,碎觉,打豆豆。
323篇作品2.5m阅读总量
热门问题12345678910同样数据竟有不一样解读 是为何?
来源:财经综合报道
作者:李迅雷 lixunlei
  摘要:一季度的经济数据公布了,迎来无数解读。有乐观的,也有悲观的,还有不少属于喜中有忧的。为何同样的数据,会得到那么多不同的结论呢?我认为,这与观察期或观察样本的权重给予、评判经济好坏的标准和对数据表象与背景的把握度等有关。此外,还可能与屁股决定脑袋有关。
  (搜狐财经思想库:让思维有乐趣,让思想有力量!汇集顶尖财经智慧库,分享深刻透彻的调查研究,旨在普及常识,为网友提供思想洞见和专业分析。)
  用放大镜和望远镜看事物会有差异
  在当今信息社会里,数据发布的频率越来越高,数据的波动会对趋势判断起到扰动作用。因此,如何给当期发布的数据确定一个合理的权重,是客观、理性判断未来趋势的重要一环。因为预测有很多种方法,在定量分析法中,主要有因果分析法、计量模型分析法(包括回归分析法、投入产出分析法等)和时间序列分析法。无论运用哪一种分析法,大家比较容易犯的错误,就是给即期数据给予较大的权重,这是因为刚刚公布的数据对于研究人员的“大脑刺激”较为强烈。
  在因果分析的权重上需要分清哪些是当期的因果关系,哪些是滞后的因果关系。比如,一季度房地产开发投资增长了6.2%,比2015年年末的1%增速大幅提升。但这主要是去年下半年房地产销量大幅上升的滞后反应(滞后6个月),不能据此认为房地产开发投资增速会持续上升。毕竟房地产投资增速的长期拐点在2010年就出现了(增速达33%),如果把去年1%的增速作为向上的拐点,那岂不是中国经济新一轮周期又开始了?
  此外,当抽取样过小时,权重理应也要做下调。如一季度固定资产投资增速上升了10.7%,但不能以此来推断今年的固定资产投资增速要超过去年,因为一季度固定资产的投资总额只占全年投资总额12%左右,占比过低,故在做分析时,所给予的权重也不应太高。
  在时间序列的权重分配上,有时确实很无奈,因为观察期毕竟有限。如库兹涅茨曲线是上世纪50年代诺贝尔奖获得者、经济学家库兹涅茨用来分析人均收入水平与分配公平程度之间关系的一种学说。其倒U型曲线理论的提出,更多是基于统计分析,他所收取的样本数据表明,收入不均现象随着经济增长先升后降,呈现倒U型曲线关系。而皮凯蒂在研究中发现,库茨涅茨所取样本的时间太短,从1914年到上世纪70年代是一段异常的历史时期,其间收入贫富差距和财富股票(相对于国民年收入)大幅下降。然而,从上世纪70年代起,财富及收入差距一直在上升,回到20世纪前的水平。
  笔者十分认可《二十一世纪资本论》作者皮凯蒂的这一结论:统计在很多时候会骗人,因为所取的样本时段有问题。人的生命周期短暂,故观察到的时间段也往往不长,这几乎是所有经济学家所提出的理论不能成为颠覆不破真理的根本原因。
  因此,我还是主张用望远镜看宏观,太多短期数据其实是在制造噪音,影响大家的判断力。如对于一季度经济数据的解读,应该建立在过去一年甚至五年的趋势分析基础上,因为短期数据不可能改变对长期趋势的基本判断。年初还在提供给侧结构性改革的五大目标,怎么可能一下子全社会需求大增呢?怎么可能要迎来新一轮周期呢?螺纹钢上涨了,煤炭上涨了,这究竟是长期超跌的反弹,还是代表大宗商品大周期的见底回升呢?用望远镜看更清楚。经济的长期走势必然是符合长期逻辑的,而短期走势往往只是辩证逻辑起作用――围绕均线上下波动。
  评判标准差异导致结论迥异
  一季度的GDP增速、固定资产投资增速和工业增加值增速等的数据都不错,于是就有了开门红之说。但是,这只是体现量的数据,对经济活动的评价,是否还应该,或者更应体现质呢?如企业的盈利增速、平均ROIC、银行坏账率、居民的收入增长、全社会债务水平、社会公共服务水平等。
  若一个国家经济增速很快,但债务的增速快于经济增速,那增长就不可持续。中国在2008年之前,GDP的增速超过债务的增速,2009年至今,企业、政府和居民的债务总和增速大大超过GDP增速。这就是大家担心危机爆发的原因。当然,我并不认为2008年中国经济就是健康,其实2008年之前中国经济是欠账式增长,没有去以丰补欠,才导致了目前的负债式增长。
  企业是一个国家经济的基本元素,企业强则国家经济强。从目前看,尽管企业的盈利状况有所改善,但债务的上升更快。如财政部网站上对月份国有及国有控股企业的财务状况做了披露:
  2月末,国有企业资产总额亿元,同比增长15.6%;负债总额亿元,同比增长17.9%;所有者权益合计亿元,同比增长11.2%。(1)中央企业资产总额亿元,同比增长18.3%;负债总额亿元,同比增长22.6%;所有者权益合计亿元,同比增长9.9%。(2)地方国有企业资产总额亿元,同比增长12.5%;负债总额亿元,同比增长12.5%;所有者权益合计亿元,同比增长12.6%。
  最近,信用债市场的到期债券违约事件频发发生,其中25只违约债券中仅有8只完成了兑付,其余17只至今仍悬而未决。违约后完成兑付的绝大多数是民企发行人,通过资产重组、争取银行流动性支持等途径兑付了债券。而违约的地方国企、央企等大多已经连年亏损,积重难返,政府支持力度下降,且债务重组需经层层上报,协调难度较大,重组进展较慢,拖累债券兑付。这说明,在高负债的情况下,即便被认为最有信用保障的国企也难履约。
  此外,居民的收入水平和收入增长情况也是反映经济质量的重要指标。产能过剩问题除了供给端因素外,需求端的有效需求不足也是一个重要因素。马桶盖的疯抢反映了本土企业难以为富裕和中产阶层提供有效供给,但该群体占中国总人口的比重不足10%,90%的中低收入群体中大约还有一半的人口没有用上马桶(座便器),这就是因收入水平较低导致的有效需求不足问题。
  一季度居民可支配收入增速为6.5%,低于GDP增速,这是问题之一;问题之二是贫富差距过大,且城镇人口之间还在扩大,农村人口之间也在扩大,这是导致消费水平提升缓慢的主要原因。
  一个经济体良性循环,应该是企业盈利增长&居民的收入增速&税收增速&GDP增速,如果反过来了,则社会债务水平就会上升,经济结构就会扭曲。中国目前的情况,似乎是反过来了。
  看数据表象和探究数据背后使观点分野
  记得20年前我在原君安研究所做分析师的时候,时任总裁告诫分析师们说,千万不要根据股价的技术图形写推荐报告,因为他也可以将股价走势的漂亮图形通过交易做出来(当时君安是资本市场老大)。交易数据是真实的,虽然无法造假,却可以操纵,但上市公司的业绩等基本面不会因为股价的上涨而改变。
  同样道理,面对一大堆的经济数据,如果仅仅是根据公布的几个数据进行简单演绎,那这与中国股市第一代的技术分析师们有什么区别呢?
  比如,你可以根据M1高增长的特点,说货币流向实体,中国经济已经脱虚向实了。或者看到工业增加值回升、出口回升和投资回升,判断GDP增速已经见底,二季度会继续上升――这一判断没错,但别忘了,今后一年或五年会怎样?为了稳住GDP,所付出的代价有多大?请看下面两张图吧:
  按第一季度新增贷款4.61万亿,第一季度新增贷款一般占全年30%左右的比例推算,今年的新增贷款规模大约为15.4万亿,这就要创出历史天量了。其中一季度个人房贷就增加了1万亿,居民加杠杆非常明显。从新增社会融资总额对应的一季度名义GDP总额看,只有2.4倍,应该也是历史新低了。说明靠大规模融资推动经济增长的难度也越来越大了。
  海通宏观研究于博提供
  中国3月末的货币乘数已经接近06年的最高点(5.1),但06年属于经济高增长、低通胀阶段,企业盈利增速两位数。所以,如今商业银行这样的扩张,风险很大。
  不少人认为4月份应该降准,理由是核心CPI并不高,且央行MLF到期量很大,会影响流动性。但本人从下图去分析,感觉不应该降准。因为商业银行的信用扩张过大,大宗商品价格的上涨也会传导到CPI。所以,数据样本的种类越多,对于分析判断客观性的提升还是有利的。
  商业银行的信用扩张有多猛
  海通宏观研究于博提供
  通过数据分析,不难发现,三月份的投资和信贷数据上升非常猛烈,从而让GDP增速维持平稳。但是,为了一个数据的完美,却需要那么多各类经济活动做铺垫,代价似乎大了点。我始终认为,GDP是结果,而不是目标,因为一个经济体的好坏,不是一个GDP决定的。一旦把某些反映经济体量的数据作为目标了,则经济行为就会被扭曲。当年大跃进,就像想让钢铁产量赶英超美,结果导致了三年饥荒。就算钢铁产量超过了,你还是应该穷国。
  利益驱使会导致结论不同
  俗话说,屁股决定脑袋。数据本身是客观存在的、中性的,但数据也是无时无刻不被各种利益主体所利用的。如商业机构的分析师有时还得兼顾客户利益,这也是为何卖方报告中十分罕见建议卖出某某股票的研究报告的原因。股市中也有一句大家皆知的话,叫“听某人讲观点便知道他的仓位”。
  记得在粉碎四人帮之前,官媒总是说,“中国经济形势一派大好,而且越来越好。资本主义一天天烂下去,社会主义一天天好起来。”,这当然与事实不符。但1978年之后,官媒对过去中国经济的评价却变成了“国民经济已经到了崩溃的边缘”,这一评价是否就客观了呢?一个已经建立起完整而独立的工业体系、尽管物资短缺但却“既无内债、又无外债”的经济体怎么可能崩溃呢?
  因此,同样的数据会有不同的解读,解读者的利益差异也是一个重要因素。对于读者而言,也需要分析作者的观点是否受到其利益的影响。对于本人也不例外,本篇尽管是分析对当下经济形势判断出现差异的原因的,但分析过程同样也可能掺杂着本人对经济的主观解读和预测。尽管我不认为自己的观点不代表所在商业机构或团体,力求客观公正,但也可能因为前面陈述的三种因素而犯下错误。
  在电子化时代,绝大部分进入互联网的电子文档都会永存在世,都可以通过时间来检验真伪。因此,这对于读者判断作者的真伪诚信、水平高低越来越便捷了。的确,在需要鼓舞士气的时候,信心比黄金更重要,但信心需要建立在对数据的分析结论令人信服的基础之上。如果得出的结论与现实差距过大,信心也就难以树立起来。
  (本文仅代表作者个人观点)
  更多内容见搜狐财经思想库,请扫下方二维码进入:
(责任编辑:单秀巧 UF011)
&&&&&&</div
搜狐财经致力遇汇集变革力量,评出“中国最具变革力人物&#8226;公司”[]
图解财经:
今日主角:
客服热线:86-10-
客服邮箱:产生背景/数据流
数据流数据流应用的产生的发展是以下两个因素的结果:
细节数据已经能够持续自动产生大量的细节数据。这类数据最早出现于传统的银行和股票交易领域,后来则也出现在地质测量、气象、天文观测等方面。尤其是互联网(网络流量监控,点击流)和无线通信网(通话记录)的出现,产生了大量的数据流类型的数据。我们注意到这类数据大都与地理信息有一定关联,这主要是因为地理信息的维度较大,容易产生这类大量的细节数据。
复杂分析需要以近实时的方式对更新流进行复杂分析。对以上领域的数据进行复杂分析(如趋势分析,预测)以前往往是(在数据仓库中)脱机进行的,然而一些新的应用(尤其是在网络安全和国家安全领域)对时间都非常敏感,如检测互联网上的极端事件、欺诈、入侵、异常,复杂人群监控,趋势监控(track&trend),探查性分析(exploratory&analyses),和谐度分析(harmonic&analysis)等,都需要进行联机的分析。在此之后,学术界基本认可了这个定义,有的文章也在此基础上对定义稍微进行了修改。例如,S.&Guha等[88]认为,数据流是“只能被读取一次或少数几次的点的有序序列”,这里放宽了前述定义中的“一遍”限制。为什么在数据流的处理中,强调对数据读取次数的限制呢?S.&Muthukrishnan[89]指出数据流是指“以非常高的速度到来的输入数据”,因此对数据流数据的传输、计算和存储都将变得很困难。在这种情况下,只有在数据最初到达时有机会对其进行一次处理,其他时候很难再存取到这些数据(因为没有也无法保存这些数据)。
定义/数据流
数据流(datastream)最初是使用的概念,代表传输中所使用的信息的数字编码信号序列。然而,我们所提到的数据流概念与此不同。这个概念最初在1998年由Henzinger在文献[87]中提出,他将数据流定义为“只能以事先规定好的顺序被读取一次的数据的一个序列”。数据流应用的产生的发展是以下两个因素的结果:1.已经能够持续自动产生大量的。这类数据最早出现于传统的和交易领域,现在则也出现在、、等方面。尤其是(监控,)和网(通话记录)的出现,产生了大量的数据流类型的数据。我们注意到这类数据大都与地理信息有一定关联,这主要是因为地理信息的维度较大,容易产生这类大量的细节数据。2.需要以近实时的方式对更新流进行复杂分析。对以上领域的数据进行复杂分析(如,预测)以前往往是(在中)脱机进行的,然而一些新的应用(尤其是在网络安全和国家安全领域)对时间都非常敏感,如检测互联网上的极端事件、欺诈、入侵、异常,复杂人群监控,趋势监控(tracktrend),探查性分析(exploratoryanalyses),和(harmonicanalysis)等,都需要进行联机的分析。在此之后,学术界基本认可了这个定义,有的文章也在此基础上对定义稍微进行了修改。例如,S.Guha等[88]认为,数据流是“只能被读取一次或少数几次的点的有序序列”,这里放宽了前述定义中的“一遍”限制。为什么在数据流的处理中,强调对数据读取次数的限制呢?S.Muthukrishnan[89]指出数据流是指“以非常高的速度到来的”,因此对数据流数据的传输、计算和都将变得很困难。在这种情况下,只有在数据最初到达时有机会对其进行一次处理,其他时候很难再存取到这些数据(因为没有也无法保存这些数据)。B.Babcock等[90]认为数据流模式在以下几个方面不同于传统的关系数据模式:博士学位论文1.数据联机到达;2.处理系统无法控制所处理的数据的到达顺序;3.数据可能是无限多的;4.由于的庞大,数据流中的元素被处理后将被抛弃或存档(archive)。以后再想获取这些数据将会很困难,除非将数据存储在内存中,但由于内存大小通常远远小于数据流数据的数量,因此实际上通常只能在数据第一次到达时获取数据。
特征/数据流
我们认为,当前所研究的数据流计算之所以不同于传统的计算模式,关键在于这些数据流数据本身具有如下三个特点:数据的到达—快速这意味着短时间内可能会有大量的输入数据需要处理。这对处理器和输入输出设备来说都是一个较大的负担,因此对数据流的处理应尽可能简单。数据的范围—广域这是指(维)的取值范围非常大,可能取的值非常多,如地域、手机号码、人、等。这才是导致数据流无法在内存或硬盘中存储的主要原因。如果维度小,即使到来的数据量很大,也可以在较小的存储器中保存这些数据。例如,对于无线通信网来说,同样的100万条通话记录,如果只有1000个用户,那么使用1000个就可以保存足够多和足够精确的数据来回答“某一用户的累计通话时间有多长”的问题;而如果共有100000个用户,要保存这些信息,就需要100000个存储单位。而目前数据流数据的属性大多与地理信息、IP地址、手机号码等有关,而且往往与时间联系在一起。这时,数据的维度远远超过了内存和硬盘容量,这意味着系统无法完整保存这些信息,通常只能在数据到达的时候存取数据一次。数据到达的时间—持续数据的持续到达意味着数据量可能是无限的。而且,对数据进行处理的结果不会是最终的结果,因为数据还会不断地到达。因此,对数据流的查询的结果往往不是一次性而是持续的,即随着的到达而不断返回最新的结果。以上数据流的特点决定了数据流处理的特点一次存取,持续处理,有限存储,近似结果,快速响应。近似结果是在前三个条件限制下产生的必然结果。由于只能存取数据一次,而且只有相对较小的有限空间存储数据,因此产生精确的计算结果通常是不可能的。而将对结果的要求从过去的“精确”改为“近似”后,实现数据流查询的快速响应也就成为了可能。
模型/数据流
我们试图从、和计算类型三个不同方面对数据流的模型进行归纳和描述。实际上,近年来很多文章提出了各种各样的数据流模型,我们并没有包括所有这些模型,只是将其中比较重要的和常见的进行了归纳和分类。形式化描述以下是对数据流的一个形式化描述。考虑向量α,其属性的域为[1..n](为n),而且向量α在时间t的状态α(t)=。在时刻s,α是0向量,即对于所有i,αi(s)=0。对向量的各个分量的更新是以二元组流的形式出现的。即,第t个更新为(i,ct),意味着αi(t)=αi(t.1) ct,且对于i.=.i,αi.(t)=αi.(t.1)。在时刻t发生的查询是针对α(t)的。数据集合我们首先考虑在进行数据流计算时,有哪些数据被包含在计算范围之内。关于这个问题,主要有三种不同的模型:分别是(datastreammodel)、滑动窗口模型(slidingwindowmodel)和n-of-N模型。数据流模型(datastreammodel)在数据流模型中,从某个特定时间开始至今的所有数据都要被纳入计算范围。此时,s=0,即在时刻0,α是0向量。即这是数据流最初和最普遍的模型。北京交通大学博士学位论文滑动窗口模型(slidingwindowmodel,计算最近的N个数据)滑动窗口模型是指,从计算时算起,向前追溯的N个数据要被纳入计算范围。此时,s=t.N,即在时刻t.N,α是0向量。换句话说,要计算最近的N个数据。由于数据流的数据是不断涌现的,所以直观的看,这种模式就像用一个不变的窗口,数据随时间的推移经过窗口,出现在窗口内的数据就是被计算的数据集合。M.Datar等[91]首先提出这一模式,随后得到了广泛响应[92]。n-of-N模型(计算最近的n个数据,其中0=0。这意味着对于所有的i和t来说,αi(t)总是不小于零,而且是递增的。实际上,这种模型被认为是最常用的,例如可以用于对收款机(收款机模型由此得名),各个IP的,手机用户的通话时长的监控等等。十字转门模型(turnstilemodel)同一属性的数据相加,数据为正或负。在这种模型中,ct可以大于0也可以小于0。这是最通用的模型。S.Muthukrishnan[89]称其为十字转门模型起因于这种模型的功能就象地铁站的十字转门,可以用来计算有多少人到达和离开,从而得出地铁中的人数。计算类型对数据流数据的计算可以分为两类:基本计算和复杂计算。目前,基本计算主要包括、范围查询和这三种查询的计算。复杂计算包括对分位数的计算、频繁项的计算以及数据挖掘等。点查询(Pointquery)返回αi(t)的值。范围查询(Rangequery)对于范围查询Q(f,t),返回t.αi(t)i=f内积(Innerproduct)对于向量β,α与β的内积α.β=Σni=1αi(t)βi分位数(Quantile)给定一个序号r,返回值v,并确保v在α中的真实排序r.符合以下要求:r.εN≤r.≤r εN其中,ε是,N=Σni=1αi(t)。G.S.Manku等[94]提供了对分位数进行一遍扫描进行近似估计的框架结构,将数据集合看成树的节点,这些节点拥有不同的(如节点中包含的数据个数)。认为所有的分位数的估计算法都可以被认为由三个对节点的操作组成产生新节点(NEW)、合并(COLLAPSE)和输出(OUTPUT)。不同的策略构成了不同类型的树。这个框架结构成为后来很多分位数估计算法的基础。(Frequentitems)有时也称Heavyhitters,即找出在数据流中频繁出现的项。在这种计算中,实际上令ct=1。这样,αi(t)中保存了截至t时刻,维值等于i的数据到达的频率。对这些数据的查询又可分为两种:找出头k个最频繁出现的项找出所有出现频率大于1/k的项目前对频率项的研究主要集中在后一种计算。挖掘对数据流数据进行挖掘涉及更复杂的计算。近年来对这方面的研究包括:多维分析[96],分类分析[97,98],聚类分析[99–102],以及其他one-pass算法。
区别特征/数据流
&与传统的关系数据模式区别B.Babcock等[90]认为数据流模式在以下几个方面不同于传统的关系数据模式:1.&数据联机到达;2.&处理系统无法控制所处理的数据的到达顺序;3.&数据可能是无限多的;4.&由于数据量的庞大,数据流中的元素被处理后将被抛弃或存档(archive)。以后再想获取这些数据将会很困难,除非将数据存储在内存中,但由于内存大小通常远远小于数据流数据的数量,因此实际上通常只能在数据第一次到达时获取数据。
三个特点我们认为,当前所研究的数据流计算之所以不同于传统的计算模式,关键在于这些数据流数据本身具有如下三个特点:
数据的到达—快速这意味着短时间内可能会有大量的输入数据需要处理。这对处理器和输入输出设备来说都是一个较大的负担,因此对数据流的处理应尽可能简单。数据的范围—广域这是指数据属性(维)的取值范围非常大,可能取的值非常多,如地域、手机号码、人、网络节点等。这才是导致数据流无法在内存或硬盘中存储的主要原因。如果维度小,即使到来的数据量很大,也可以在较小的存储器中保存这些数据。例如,对于无线通信网来说,同样的100万条通话记录,如果只有1000个用户,那么使用1000个存储单位就可以保存足够多和足够精确的数据来回答“某一用户的累计通话时间有多长”的问题;而如果共有100000个用户,要保存这些信息,就需要100000个存储单位。数据流数据的属性大多与地理信息、IP地址、手机号码等有关,而且往往与时间联系在一起。这时,数据的维度远远超过了内存和硬盘容量,这意味着系统无法完整保存这些信息,通常只能在数据到达的时候存取数据一次。
数据到达的时间—持续数据的持续到达意味着数据量可能是无限的。而且,对数据进行处理的结果不会是最终的结果,因为数据还会不断地到达。因此,对数据流的查询的结果往往不是一次性而是持续的,即随着底层数据的到达而不断返回最新的结果。以上数据流的特点决定了数据流处理的特点一次存取,持续处理,有限存储,&近似结果,快速响应。近似结果是在前三个条件限制下产生的必然结果。由于只能存取数据一次,而且只有相对较小的有限空间存储数据,因此产生精确的计算结果通常是不可能的。而将对结果的要求从过去的“精确”改为“近似”后,实现数据流查询的快速响应也就成为了可能。
相关工作/数据流
数据流处理过程中的主要难点在于如何将存储数据所花费的空间控制在一定范围之内。查询响应时间问题虽然也很重要,但相对容易解决。作为近年来研究领域的一个热点,数据流处理问题得到了广泛的研究,出现了很多算法。解决数据流庞大的数据量与有限的存储空间之间的矛盾的一个思路是使用采样,另一个思路是,构造一个小的、能提供近似结果的数据结构存放压缩的数据流数据,这个结构能存放在存储器中。(Sketch)、(histogram)和(wavelet)实际上就都是这样的数据结构中最重要的三种。以上方法实际上大都已用于传统数据库领域,问题在于如何将它们应用于数据流的特殊环境。2.1随机采样(Randomsampling)(Randomsampling)可以通过抽取少量样本来捕捉数据集合的基本特性。一个很常见的简单方法就是一致性采样(uniformsample)。作为一个备选的采样北京交通大学博士学位论文(strati.edsampling)可以减少数据的不均匀分布所带来的误差。不过,对于复杂的分析,普通的采样还是需要太大的空间。对于数据流的一些特殊计算,已经出现了一些有趣的采样算法。(Stickysampling)[95]用于频繁项(frequentitems)的计算。粘采样使用的方法是,在内存中存放二元组(i,f)所构成的集合S,对于每到来的一个数据,如果其键i已经存在于S,则对应的f加1;否则,以1r的概率进行采样,如果该项被选中,在S中增加一组(i,1);每过一段时间,对S中的组进行一遍扫描,对其中的值进行更新。然后增加r的值;结束(或用户要求结果)时,输出所有f.(s-e)N的组。P.Gibbons提出的distinctsampling[104]用于distinctcounting,即找出数据流中不同值的个数。它使用哈希(hash)函数对每一个到来的不同值以2.(i 1)的概率映射到级别i上;如果i≥内存级别L(L的初始值为0),将其加入内存,否则抛弃;内存满时,将内存中级别为L的值删除,并将L加1;最终对distinctcount的估计为内存中不同的值乘以2L。distinctcounting是数据库处理中的一个老问题,这种算法的优点是,通过设置合适的参数,可应用于带谓词的查询(即对数据流的一个子集进行distinctcounting)。采样算法的缺点是:它们对异常数据不够敏感。而且,即使它们可以很好的应用于普通的数据流模型,但如果要用于滑动窗口模型(slidingwindowmodel)[91]或n-of-N模型[93],还需要进行较大的修改。略图(sketch) 数据流构造略图(sketching)是指使用(Randomprojections)将数据流投射在一个小的存储空间内作为整个数据流的概要,这个小空间存储的概要数据称为略图,可用于近似回答特定的查询。不同的略图可用于对数据流的不同Lp范数的估算,进而这些Lp范数可用于回答其它类型的查询。如L0范数可用于估算数据流的不同值(distinctcount);L1范数可用于计算(quantile)和频繁项(frequentitems);L2范数可用于估算自连接的长度等等。略图的概念最早由N.Alon在[105]中提出,从此不断涌现出各种略图及其构造算法。N.Alon在[105]中提出的构造(randomizedsteching)可以用于对不同Lp范数的估算,最多需要O(n1.lgn)的空间。该文更重要的贡献在于,它还可以以O(logn logt)的空间需求估算L2。它的主要思路是,使用哈希函数,将数据属性的域D中的每一个元素一致地随机映射到zi∈{.1 1}上,令随机变量X=.iαizi,X2就可作为对L2范数的估计。p1S.Guha等[88]提出的分位数略图(quantilesketch)保持一组形如(vi,gi,Δi)的数据结构,rmax(vi)和rmin(vi)分别是vi可能的排位的最大和最小值。对于i&j满足:
vi&vjgi=rmin(vi).rmin(vi.1)Δi=rmax(vi).rmin(vi)随着数据的到来,对此略图进行相应的更新操作,使估算保持在一定的精度之内。X.Lin等[93]对于这个问题做出了更形式化的描述。若令AS为一个从[1..n]中提取的随机集合,每一个元素被提取的概率为1/2。A.Gilbert等[106]构造若干个AS,将每个集合中元素值的和称为随机和(randomsum)。多个随机和构成一个略图。对αi的估算为2E(||AS|||αi∈AS).||A||,其中||A||为数据流中所有数的和。因此,这种略图可用于估算点查询的结果。使用多个这样的略图,可用于估算范围查询、分位数查询等。略图技术实际上是空间和精度相权衡的结果。为保证点查询结果的误差小于εN,上述略图需要的空间通常是以ε.2作为系数的。与此相比较,G.Cormode等提出的计数-最小略图(Count-MinSketch)[19]只需要ε.1系数的空间。其思路也比较简单,使用若干个哈希函数将分别数据流投射到多个小的略图上,回答点查询时,每个略图分别作答,并选择值最小的作为答案。以点查询为基础,计数-最小略图可以用于其它各种查询和复杂计算。计数-最小略图并不计算Lp范数,而是直接计算出点查询的结果,这是它的时空效率比其它略图高的原因之一。北京交通大学博士学位论文直方图(Histogram) 数据流直方图(histogram)有两个含义:一个是普通意义上的直方图,是一种用于显示近似统计的视觉手段;另外,它还是一种捕捉数据的近似分布的数据结构/方法。作为后者出现时时,直方图是这样构造的:将数据按其属性分到多个不相交的子集(称为桶)并用某种统一的方式近似表示桶中的值[107]。直方图方法主要用于、、、和。在数据库领域,直方图原先主要用于选择性估计(selectivityestimation),用于选择查询优化和近似查询处理。直方图是一种最简单、最灵活的近似处理方法,同时也是最有效的一种。只要解决好数据更新问题,就可以将原有的直方图运用到数据流处理中。这类根据新的数据自动调节的直方图被称为动态(或自适应/自调节)直方图。L.Fu等[108]提出的直方图主要用于(Median)和其他的计算,可用于近似计算,也可用于精确查询。它通过(DeterministicBucketing)和随机分桶(RandomizedBucketing)技术,构造多个不同精度的桶(buckets),然后将输入数据逐级分到这些桶中,从而完成了动态直方图的构造。由于将静态直方图直接应用到数据流处理比较困难。S.Guha等[88]虽然可以动态地构造近最优的V-optimal直方图,但只能应用于时间序列模型(timeseriesmodel)下的数据流。一个常采用的方法是将整个算法分为两步:首先构造一个数据流数据的略图;然后从这个略图中构造合适的直方图。这种方法可以利用略图数据易于更新的特点,又能实现直方图的动态化。N.Thaper等[109]首先是构造一个近似反映数据流数据的略图,利用略图的优良的更新性能来实现数据的更新,然后从这个略图中导出一个直方图来实现对数据流数据的近似。由于从略图中导出最佳的直方图是一个NP-hard问题,作者提供了一个(贪婪算法)来搜索一个较佳的直方图。A.Gilbert等[110]构造了一个概要的数据结构,该结构使用一组与文献[106]中类似的随机和结构来保存不同粒度级别的dyadicinterval的值。随后,将不同粒度级别的dyadicinterval([111])从大到小地加入所要构造的直方图中,这样就将近似误差降到最低(求精)。A.Gilbert等在文献[112]中主要考虑的是如何降低对数据流中每个输入数据的处理复杂度。他们先将输入数据转化为小波系数(利用小波系数是信号与的内积),然后采用了与文献[110]类似的dyadicinterval处理方法。略图与直方图有很密切的联系,从某种方面来说,可以认为直方图是略图的一种特殊情况。
小波(Wavelet)
数据流小波变换(wavelettransformation)常用于生成数据的概要信息。这是因为通常小波系数只有很少一部分是重要的,大部分系数或者值很小,或者本身不重要。所以,如果忽略数据经过小波变换后生成的不重要,就可以使用很少的空间完成对原数据的近似。Y.Matias等[113]首先针对数据流数据构造一个直方图,使用小波对其进行模拟。随后保留若干最重要的小波系数实现对直方图的模拟。当新的数据出现时,通过对这些小波系数进行更新以实现直方图的更新。文献[113]提出的实际上是一种直方图方法,只不过使用了小波变换。A.Gilbert等[114]指出小波变换可以认为是信号与一组正交的长度为N的向量集合所作的内积,因此构造一组数据流数据的略图,由于略图可以相当容易和准确地计算信号与一组向量的内积,则可以从略图计算出小波系数,从而用于点查询和范围查询的估计。新动向近年来研究人员对数据流处理的研究不断深入,我们认为出现了以下新的动向:1引入更多多的的统计计技技术来构造略图G.Cormode等[115]主要处理对频繁项的计算。它以前人的主项(majorityitem)算法([116,117])为基础,使用了error-correctingcodes来处理问题。如数据的每一位设立一个计数器,再根据这些计数器的计数结果来推断频繁项集合。Y.Tao等[118]实质上是对Probabilisticcounting[119](已经广泛地用于数据库领域的distinctcounting)在数据流处理的一种应用。2对略图进行扩展,以处理更复杂的查询需求Lin等在文献[93]中构造了一个复杂的略图体系,可用于滑动窗口模型(slidingwindowmodel)和n-of-N模型的分位数估计,这是简单略图难以做到的。在滑动窗口模型下,文献[93]将数据按时间顺序分为多个桶,在每个桶中建立略图(精度比要求的高),然后查询时再将这些略图合并(merge),其中对最后一个桶可能需要进行提升(lift)操作。维护时只删除过期的桶,增加新的桶。在n-of-Nmodel中,文献[93]将数据按EHPartitioning技术分为多个大小不同的桶,在每个桶中建立略图(精度比要求的高),然后查询时再将其中一部分略图合并,可以保证要求的精度,其中对最后一个同可能需要进行提升。3与时空数据处理的进一步结合J.Sun等在文献[120]中虽然主要针对时空数据的历史查询和预测处理。然而,文章却强调时空数据是以数据流的形式出现的,处理中也更着重于时空数据的更新性能。Y.Tao等[118]使用数据流的方法处理时空数据,通过对动态的时空数据构造略图,用于是否在多个区域间运动或静止的状态,并估算其数量。而这种问题在原先的时空处理中是很难解决的。
小说流派/数据流
网络小说数据流是新兴流派,意思是小说主角实力数据化,和网游属性栏一样的数据显示。
显示方式: |
计算机科学
共有124个词条
万方数据期刊论文
机械工程学报
万方数据期刊论文
万方数据期刊论文
控制与决策
&|&相关影像
互动百科的词条(含所附图片)系由网友上传,如果涉嫌侵权,请与客服联系,我们将按照法律之相关规定及时进行处理。未经许可,禁止商业网站等复制、抓取本站内容;合理使用者,请注明来源于。
登录后使用互动百科的服务,将会得到个性化的提示和帮助,还有机会和专业认证智愿者沟通。
此词条还可添加&
编辑次数:19次
参与编辑人数:10位
最近更新时间: 14:56:24
贡献光荣榜}

我要回帖

更多关于 项目性质及来源 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信