数据仓库hive开发流程开发的难点有哪些

数据仓库遐想
想想自己也接触过5个以上的数据仓库项目了,现在想起来没有一个数据仓库项目得到了客户的肯定,大部分的仓库项目也就是达到了给客户提取提取报表数据的要求,可是做为一直从事数据仓库后台项目的人员,不免还是对怎么实施一个数据仓库项目感到还是没有一个不错的方案.
& 现在想想之前做过的数据仓库项目,想想后台最让人头疼的问题不是调度问题,而是没有一个人能说清楚到底牧歌指标的具体口径是什么,之前为了应对数据指标罗技错误的问题,还有个项目专门出了一个技术口径和业务口径这两个概念专门用来应对这种牵涉到数据质量核查的情况.
其二就是数据仓库项目的数据加工错综复杂,很少有人能把左右字段处理过程记的一清二楚,相反的每次经常会碰到项目组的人员采用的都是道听途说的沟通方式.那些经常被人使唤的xx你去查一下这个指标的是怎么加工的苦逼处境.
&总之,清晰的数据血缘关系,精确的KPI口径.让每个数据仓库项目人员都知道数据是怎么来的经过了怎么样的流转变成了什么样.那这个数据仓库项目应该算是个成功的项目.
所以有必要将数据血缘关系,KPI口径这两个因素作为衡量一个数据仓库项目成功与否的评价标准,或许解决了这两个问题后,数据仓库接口变更就不会变的像是一场所谓的灾难发生了.
& &当然了解决这两个问题就需要一些BI工具的帮忙了,甚至数据库选型都会对整个数据仓库项目的建设周期和质量产生至关重要的影响.让仓库更透明,让人人成为数据分析专家.解决掉BI项目绑人的弊端.让仓库项目更快捷更高效.更简单.
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:29459次
排名:千里之外
原创:19篇
转载:25篇
(2)(1)(7)(14)(19)(1)数据仓库综述;一、数据的仓库的产生和发展;数据仓库的出现和发展是计算机应用到一定阶段的必然;70年代出现并被广泛应用的关系型数据库技术为解决;80年代中后期,出现了数据仓库思想的萌芽,为数据;90年代初期,W.H.Inmon在其里程碑式的著;二、国内外数据仓库的发展现状和趋势;随着各种计算机技术,如数据模型、数据库技术和应用;1、并行化和可扩展性;为提高数据
数据仓库综述
一、数据的仓库的产生和发展
数据仓库的出现和发展是计算机应用到一定阶段的必然产物。经过多年的计算机应用和市场积累,许多商业企业已保存了大量原始数据和各种业务数据,这些数据真实地反映了商业企业主体和各种业务环境的经济动态。然而由于缺乏集中存储和管理,这些数据不能为本企业进行有效的统计、分析和评估提供帮助。也就是说,无法将这些数据转化成企业有用的信息。
70年代出现并被广泛应用的关系型数据库技术为解决这一问题提供了强有力的工具。 从80年代中期开始,随着市场竞争的加剧,商业信息系统用户已经不满足于用计算机仅仅去管理日复一日的事务数据,他们更需要的是支持决策制定过程的信息。
80年代中后期,出现了数据仓库思想的萌芽,为数据仓库概念的最终提出和发展打下了基础。
90年代初期,W.H.Inmon在其里程碑式的著作《建立数据仓库》中提出了“数据仓库”的概念,数据仓库的研究和应用得到了广泛的关注。这对处于激烈竞争中的商业企业,有着非同小可的现实意义。
二、国内外数据仓库的发展现状和趋势
随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断进步,数据仓库技术也不断发展,并在实际应用中发挥了巨大的作用。IDC在1996年的一次对90年代前期进行的62个数据仓库项目的调查结果表明:进行数据仓库项目开发的公司在平均2.73年的时间内获得了平均为321%的投资回报率。使用数据仓库所产生的巨大效益同时又刺激了对数据仓库技术的需求,数据仓库市场正以迅猛势头向前发展:一方面,数据仓库市场需求量越来越大,每年约以400%的速度扩张;另一方面,数据仓库产品越来越成熟,生产数据仓库工具的厂家也越来越多。数据仓库技术及市场将向以下方向发展:
1、并行化和可扩展性
为提高数据仓库的性能和可扩展能力,数据仓库已趋向并行化。在硬件层次上,已越来越明显地采用多处理器并行结构;在数据库层次上,许多数据库厂商已推出并行产品,以适应数据仓库市场的需要。
数据仓库项目将越来越大,GartnerGroup预测:到2000年,约有70%的集中化信息管理将依赖于数据仓库市场。
3、数据仓库与Internet/Intranet的集成
随着Internet/Intranet技术的广泛应用和发展,数据仓库将Internet/Intranet进行很好的集成,即前台是Web服务器,后台是数据仓库系统。
4、数据挖掘工具的成熟和广泛使用
数据挖掘工具和人工智能代理将是以后5年推动决策支持演变过程的主要力量。
5、通用数据库
数据仓库将支持多媒体、支持结构化和非结构化数据,即向通用数据库发展,具有面向对象的能力。
6、数据仓库打包应用
数据仓库将集成一些工具和应用,打包推向用户。
二、数据仓库的定义
数据仓库不是数据的简单堆积,而是从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中。公认的数据仓库之父W.H.Inmon将其定义为:“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。”
三、数据仓库的特征
1、数据仓库的数据是面向主题的
与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。什么是主题呢?首先,主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻划各个分析对象所涉及的企业的各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有
更高的数据抽象级别。
2、数据仓库的数据是集成的
数据仓库的数据是从原有的分散的数据库数据抽取来的。在前面的表1中我们已经看到,操作型数据与DSS分析型数据之间差别甚大。第一,数据仓库的每一个主题所对应的源数据在原有的各分散数据库中有许多重复和不一致的地方,且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起;第二,数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过统一与综合,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有:
(1)要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。
(2)进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。
3、数据仓库的数据是不可更新的
数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。数据库中进行联机处理的数据经过集成输入到数据仓库中,一旦数据仓库存放的数据已经超过数据仓库的数据存储期限,这些数据将从当前的数据仓库中删去。因为数据仓库只进行数据查询操作,所以数据仓库管理系统相比数据库管理系统而言要简单得多。数据库管理
系统中许多技术难点,如完整性保护、并发控制等等,在数据仓库的管理中几乎可以省去。但是由于数据仓库的查询数据量往往很大,所以就对数据查询提出了更高的要求,它要求采用各种复杂的索引技术;同时由于数据仓库面向的是商业企业的高层管理者,他们会对数据查询的界面友好性和数据表示提出更高的要求。
4、数据仓库的数据是随时间不断变化的
数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行数据更新操作的。但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。
数据仓库的数据是随时间的变化而不断变化的,这是数据仓库数据的第四个特征。这一
特征表现在以下3方面:
(1)数据仓库随时间变化不断增加新的数据内容。数据仓库系统必须不断捕捉OLTP数据库中变化的数据,追加到数据仓库中去,也就是要不断地生成OLTP数据库的快照,经统一集成后增加到数据仓库中去;但对于确实不再变化的数据库快照,如果捕捉到新的变化数据,则只生成一个新的数据库快照增加进去,而不会对
原有的数据库快照进行修改。
(2)数据仓库随时间变化不断删去旧的数据内容。数据仓库的数据也有存储期限,一旦超过了这一期限,过期数据就要被删除。只是数据仓库内的数据时限要远远长于操作型环境中的数据时限。在操作型环境中一般只保存有60~90天的数据,而在数据仓库中则需要保存较长时限的数据(如5~10年),以适应DSS进行趋势分析的要求。
(3)数据仓库中包含有大量的综合数据,这些综合数据中很多跟时间有关,如数据经常按照时间段进行综合,或隔一定的时间片进行抽样等等。这些数据要随着时间的变化不断地进行重新综合。
因此,数据仓库的数据特征都包含时间项,以标明数据的历史时期。
包含各类专业文献、中学教育、各类资格考试、文学作品欣赏、应用写作文书、生活休闲娱乐、行业资料、高等教育、专业论文、14数据仓库的定义、特征、产生和发展、现状和趋势等内容。
 数据仓库的特征在 于面向主题、集成性、稳定性和时...国内外研究现状:数据仓库的发展现状和趋势: 随着各种...使用数据仓库所产生的巨大效益同时又刺激了对数据仓库...  2015年大数据现状研究及发展趋势_调查/报告_表格/...一个典型的商业智能需要基于传统数据仓库实现,需 要...大数据的特点 1.1.3 大数据的数据来源 1.1.4 ...  在未来发展 中的相关发展趋势,以及数据仓库的现状。...商机,同时,也用来控制库存、检查生产方法和 定义客户...数据仓库的定义、特征、... 3页 免费 我对中国房...  年中国仓储市场现状调研与发展趋势预测分析报告 显示,近年来,客户需求不断发生...仓储行业定义及分类 一、仓储业的定义 二、仓储业的分类 三、仓储业的特征 四...  2016年大数据现状研究及发展趋势_生产/经营管理_经管营销_专业资料。 年中国大数据行业研究分析及发 展趋势预测报告 报告编号:1605963 中国产业调研网 www...  聚类分析、 趋势分析、 孤立点分析以及偏差分析等。...6. 何谓数据仓库?为什么要建立数据仓库? 数据仓库是...这是数据挖掘的任务。 可以通过对历史记录特点的分析...  应用和发展, 航空服务质量的改善提高的同时, 产生了...确定其不转向竞争对手,首先必须清楚老客户有哪些特征...数据仓库逻辑模型 1、货运商品情况的逻辑模型 在设计...  2016年大数据现状及发展趋势分析_经济/市场_经管营销...大数据的定义 二、大数据的特征 三、大数据的类型...下一代数据仓库 三、大数据分析平台和应用 1、大...  2015年大数据行业现状及发展趋势分析_调查/报告_表格...一个典型的商业智能需要基于传统数据仓库实现,需 要...创新社会管理模式 第二节 大数据行业特征分析 一、...后使用快捷导航没有帐号?
按发布时间阅读主题
&&&&&&&&&&&
1 / 112 页
1 / 112 页}

我要回帖

更多关于 数据仓库开发 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信