试分析分布度量,代数度量,以及整体度量对于kettle数据库增量同步的增量计算有何区别

漫谈机器学习中的距离和相似性度量方法 - 文章 - 伯乐在线
& 漫谈机器学习中的距离和相似性度量方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚 类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:
1) d(x,x) = 0
// 到自己的距离为0
2) d(x,y) &= 0
// 距离非负
3) d(x,y) = d(y,x)
// 对称性: 如果 A 到 B 距离是 a,那么 B 到 A 的距离也应该是 a
4) d(x,k)+ d(k,y) &= d(x,y)
// 三角形法则: (两边之和大于第三边)
这篇博客主要介绍机器学习和数据挖掘中一些常见的距离公式,包括:
闵可夫斯基距离
欧几里得距离
曼哈顿距离
切比雪夫距离
余弦相似度
皮尔逊相关系数
杰卡德相似系数
1. 闵可夫斯基距离
闵可夫斯基距离(Minkowski distance)是衡量数值点之间距离的一种非常常见的方法,假设数值点 P 和 Q 坐标如下:
那么,闵可夫斯基距离定义为:
该距离最常用的 p 是 2 和 1, 前者是欧几里得距离(Euclidean distance),后者是曼哈顿距离(Manhattan distance)。假设在曼哈顿街区乘坐出租车从 P 点到 Q 点,白色表示高楼大厦,灰色表示街道:
绿色的斜线表示欧几里得距离,在现实中是不可能的。其他三条折线表示了曼哈顿距离,这三条折线的长度是相等的。
当 p 趋近于无穷大时,闵可夫斯基距离转化成切比雪夫距离(Chebyshev distance):
我们知道平面上到原点欧几里得距离(p = 2)为 1 的点所组成的形状是一个圆,当 p 取其他数值的时候呢?
注意,当 p & 1 时,闵可夫斯基距离不再符合三角形法则,举个例子:当 p & 1, (0,0) 到 (1,1) 的距离等于 (1+1)^{1/p} & 2, 而 (0,1) 到这两个点的距离都是 1。
闵可夫斯基距离比较直观,但是它与数据的分布无关,具有一定的局限性,如果 x 方向的幅值远远大于 y 方向的值,这个距离公式就会过度放大 x 维度的作用。所以,在计算距离之前,我们可能还需要对数据进行 z-transform 处理,即减去均值,除以标准差:
: 该维度上的均值
: 该维度上的标准差
可以看到,上述处理开始体现数据的统计特性了。这种方法在假设数据各个维度不相关的情况下利用数据分布的特性计算出不同的距离。如果维度相互之间数据相关(例如:身高较高的信息很有可能会带来体重较重的信息,因为两者是有关联的),这时候就要用到马氏距离(Mahalanobis distance)了。
2. 马氏距离
考虑下面这张图,椭圆表示等高线,从欧几里得的距离来算,绿黑距离大于红黑距离,但是从马氏距离,结果恰好相反:
马氏距离实际上是利用 Cholesky transformation 来消除不同维度之间的相关性和尺度不同的性质。假设样本点(列向量)之间的协方差对称矩阵是
, 通过 Cholesky Decomposition(实际上是对称矩阵 LU 分解的一种特殊形式,可参考之前的)可以转化为下三角矩阵和上三角矩阵的乘积:
。消除不同维度之间的相关性和尺度不同,只需要对样本点 x 做如下处理: 。处理之后的欧几里得距离就是原样本的马氏距离:为了书写方便,这里求马氏距离的平方):
下图蓝色表示原样本点的分布,两颗红星坐标分别是(3, 3),(2, -2):
由于 x, y 方向的尺度不同,不能单纯用欧几里得的方法测量它们到原点的距离。并且,由于 x 和 y 是相关的(大致可以看出斜向右上),也不能简单地在 x 和 y 方向上分别减去均值,除以标准差。最恰当的方法是对原始数据进行 Cholesky 变换,即求马氏距离(可以看到,右边的红星离原点较近):
将上面两个图的绘制代码和求马氏距离的代码贴在这里,以备以后查阅:
# -*- coding=utf-8 -*-
# code related at: /daniel-D/
import numpy as np
import pylab as pl
import scipy.spatial.distance as dist
def plotSamples(x, y, z=None):
stars = np.matrix([[3., -2., 0.], [3., 2., 0.]])
if z is not None:
x, y = z * np.matrix([x, y])
stars = z * stars
pl.scatter(x, y, s=10)
# 画 gaussian 随机点
pl.scatter(np.array(stars[0]), np.array(stars[1]), s=200, marker='*', color='r')
# 画三个指定点
pl.axhline(linewidth=2, color='g') # 画 x 轴
pl.axvline(linewidth=2, color='g')
pl.axis('equal')
pl.axis([-5, 5, -5, 5])
# 产生高斯分布的随机点
mean = [0, 0]
cov = [[2, 1], [1, 2]]
x, y = np.random.multivariate_normal(mean, cov, 1000).T
plotSamples(x, y)
covMat = np.matrix(np.cov(x, y))
# 求 x 与 y 的协方差矩阵
Z = np.linalg.cholesky(covMat).I
# 仿射矩阵
plotSamples(x, y, Z)
# 求马氏距离
print '\n到原点的马氏距离分别是:'
print dist.mahalanobis([0,0], [3,3], covMat.I), dist.mahalanobis([0,0], [-2,2], covMat.I)
# 求变换后的欧几里得距离
dots = (Z * np.matrix([[3, -2, 0], [3, 2, 0]])).T
print '\n变换后到原点的欧几里得距离分别是:'
print dist.minkowski([0, 0], np.array(dots[0]), 2), dist.minkowski([0, 0], np.array(dots[1]), 2)
123456789101112131415161718192021222324252627282930313233343536373839404142
# -*- coding=utf-8 -*-&# code related at: /daniel-D/&import numpy as npimport pylab as plimport scipy.spatial.distance as dist&def plotSamples(x, y, z=None):&&&&&stars = np.matrix([[3., -2., 0.], [3., 2., 0.]])&&&&if z is not None:&&&&&&&&x, y = z * np.matrix([x, y])&&&&&&&&stars = z * stars&&&&&pl.scatter(x, y, s=10)&&&&# 画 gaussian 随机点&&&&pl.scatter(np.array(stars[0]), np.array(stars[1]), s=200, marker='*', color='r')&&# 画三个指定点&&&&pl.axhline(linewidth=2, color='g') # 画 x 轴&&&&pl.axvline(linewidth=2, color='g')&&# 画 y 轴&&&&&pl.axis('equal')&&&&pl.axis([-5, 5, -5, 5])&&&&pl.show()&# 产生高斯分布的随机点mean = [0, 0]&&&&&&# 平均值cov = [[2, 1], [1, 2]]&& # 协方差x, y = np.random.multivariate_normal(mean, cov, 1000).TplotSamples(x, y)&covMat = np.matrix(np.cov(x, y))&&&&# 求 x 与 y 的协方差矩阵Z = np.linalg.cholesky(covMat).I&&# 仿射矩阵plotSamples(x, y, Z)&# 求马氏距离 print '\n到原点的马氏距离分别是:'print dist.mahalanobis([0,0], [3,3], covMat.I), dist.mahalanobis([0,0], [-2,2], covMat.I)&# 求变换后的欧几里得距离dots = (Z * np.matrix([[3, -2, 0], [3, 2, 0]])).Tprint '\n变换后到原点的欧几里得距离分别是:'print dist.minkowski([0, 0], np.array(dots[0]), 2), dist.minkowski([0, 0], np.array(dots[1]), 2)
马氏距离的变换和 PCA 分解的颇 有异曲同工之妙,不同之处在于:就二维来看,PCA 是将数据主成分旋转到 x 轴(正交矩阵的酉变换),再在尺度上缩放(对角矩阵),实现尺度相同。而马氏距离的 L逆矩阵是一个下三角,先在 x 和 y 方向进行缩放,再在 y 方向进行错切(想象矩形变平行四边形),总体来说是一个没有旋转的仿射变换。
3. 向量内积
向量内积是线性代数里最为常见的计算,实际上它还是一种有效并且直观的相似性测量手段。向量内积的定义如下:
直观的解释是:如果 x 高的地方 y 也比较高, x 低的地方 y 也比较低,那么整体的内积是偏大的,也就是说 x 和 y 是相似的。举个例子,在一段长的序列信号 A 中寻找哪一段与短序列信号 a 最匹配,只需要将 a 从 A 信号开头逐个向后平移,每次平移做一次内积,内积最大的相似度最大。信号处理中 DFT 和 DCT 也是基于这种内积运算计算出不同频域内的信号组分(DFT 和 DCT 是正交标准基,也可以看做投影)。向量和信号都是离散值,如果是连续的函数值,比如求区间[-1, 1] 两个函数之间的相似度,同样也可以得到(系数)组分,这种方法可以应用于多项式逼近连续函数,也可以用到连续函数逼近离散样本点(最小二乘问题,)中,扯得有点远了- -!。
向量内积的结果是没有界限的,一种解决办法是除以长度之后再求内积,这就是应用十分广泛的余弦相似度(Cosine similarity):
余弦相似度与向量的幅值无关,只与向量的方向相关,在文档相似度()和图片相似性()计算上都有它的身影。需要注意一点的是,余弦相似度受到向量的平移影响,上式如果将 x 平移到 x+1, 余弦值就会改变。怎样才能实现平移不变性?这就是下面要说的皮尔逊相关系数(Pearson correlation),有时候也直接叫相关系数:
皮尔逊相关系数具有平移不变性和尺度不变性,计算出了两个向量(维度)的相关性。不过,一般我们在谈论相关系数的时候,将 x 与 y 对应位置的两个数值看作一个样本点,皮尔逊系数用来表示这些样本点分布的相关性。
由于皮尔逊系数具有的良好性质,在各个领域都应用广泛,例如,在推荐系统根据为某一用户查找喜好相似的用户,进而,优点是可以不受每个用户评分标准不同和观看影片数量不一样的影响。
4. 分类数据点间的距离
汉明距离(Hamming distance)是指,两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。举个维基百科上的例子:
还可以用简单的匹配系数来表示两点之间的相似度——匹配字符数/总字符数。
在一些情况下,某些特定的值相等并不能代表什么。举个例子,用 1 表示用户看过该电影,用 0 表示用户没有看过,那么用户看电影的的信息就可用 0,1 表示成一个序列。考虑到电影基数非常庞大,用户看过的电影只占其中非常小的一部分,如果两个用户都没有看过某一部电影(两个都是 0),并不能说明两者相似。反而言之,如果两个用户都看过某一部电影(序列中都是 1),则说明用户有很大的相似度。在这个例子中,序列中等于 1 所占的权重应该远远大于 0 的权重,这就引出下面要说的杰卡德相似系数(Jaccard similarity)。
在上面的例子中,用 M11 表示两个用户都看过的电影数目,M10 表示用户 A 看过,用户 B 没看过的电影数目,M01 表示用户 A 没看过,用户 B 看过的电影数目,M00 表示两个用户都没有看过的电影数目。Jaccard 相似性系数可以表示为:
Jaccard similarity 还可以用集合的公式来表达,这里就不多说了。
如果分类数值点是用树形结构来表示的,它们的相似性可以用相同路径的长度来表示,比如,“/product/spot/ballgame /basketball” 离“product/spot/ballgame/soccer/shoes” 的距离小于到 “/product/luxury/handbags” 的距离,以为前者相同父节点路径更长。
5. 序列之间的距离
上一小节我们知道,汉明距离可以度量两个长度相同的字符串之间的相似度,如果要比较两个不同长度的字符串,不仅要进行替换,而且要进行插入与删除的运算,在这种场合下,通常使用更加复杂的编辑距离(Edit distance, Levenshtein distance)等算法。编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一 个字符,删除一个字符。编辑距离求的是最少编辑次数,这是一个动态规划的问题,有兴趣的同学可以自己研究研究。
时间序列是序列之间距离的另外一个例子。DTW 距离(Dynamic Time Warp)是序列信号在时间或者速度上不匹配的时候一种衡量相似度的方法。神马意思?举个例子,两份原本一样声音样本A、B都说了“你好”,A在时间上发生了扭曲,“你”这个音延长了几秒。最后A:“你~~~好”,B:“你好”。DTW正是这样一种可以用来匹配A、B之间的最短距离的算法。
DTW 距离在保持信号先后顺序的限制下对时间信号进行“膨胀”或者“收缩”,找到最优的匹配,与编辑距离相似,这其实也是一个动态规划的问题:
实现代码(转自
#!/usr/bin/python2
# -*- coding:UTF-8 -*-
# code related at: http://blog.mckelv.in/articles/1453.html
import sys
distance = lambda a,b : 0 if a==b else 1
def dtw(sa,sb):
&&&dtw(u"干啦今今今今今天天气气气气气好好好好啊啊啊", u"今天天气好好啊")
MAX_COST = 1&&32
#初始化一个len(sb) 行(i),len(sa)列(j)的二维矩阵
len_sa = len(sa)
len_sb = len(sb)
# BUG:这样是错误的(浅拷贝): dtw_array = [[MAX_COST]*len(sa)]*len(sb)
dtw_array = [[MAX_COST for i in range(len_sa)] for j in range(len_sb)]
dtw_array[0][0] = distance(sa[0],sb[0])
for i in xrange(0, len_sb):
for j in xrange(0, len_sa):
if i+j==0:
if i & 0: nb.append(dtw_array[i-1][j])
if j & 0: nb.append(dtw_array[i][j-1])
if i & 0 and j & 0: nb.append(dtw_array[i-1][j-1])
min_route = min(nb)
cost = distance(sa[j],sb[i])
dtw_array[i][j] = cost + min_route
return dtw_array[len_sb-1][len_sa-1]
def main(argv):
s1 = u'干啦今今今今今天天气气气气气好好好好啊啊啊'
s2 = u'今天天气好好啊'
d = dtw(s1, s2)
if __name__ == '__main__':
sys.exit(main(sys.argv))
123456789101112131415161718192021222324252627282930313233343536373839404142
#!/usr/bin/python2# -*- coding:UTF-8 -*-# code related at: http://blog.mckelv.in/articles/1453.html&import sys&distance = lambda a,b : 0 if a==b else 1&def dtw(sa,sb):&&&&'''&&&&&&&dtw(u"干啦今今今今今天天气气气气气好好好好啊啊啊", u"今天天气好好啊")&&&&2&&&&'''&&&&MAX_COST = 1&&32&&&&#初始化一个len(sb) 行(i),len(sa)列(j)的二维矩阵&&&&len_sa = len(sa)&&&&len_sb = len(sb)&&&&# BUG:这样是错误的(浅拷贝): dtw_array = [[MAX_COST]*len(sa)]*len(sb)&&&&dtw_array = [[MAX_COST for i in range(len_sa)] for j in range(len_sb)]&&&&dtw_array[0][0] = distance(sa[0],sb[0])&&&&for i in xrange(0, len_sb):&&&&&&&&for j in xrange(0, len_sa):&&&&&&&&&&&&if i+j==0:&&&&&&&&&&&&&&&&continue&&&&&&&&&&&&nb = []&&&&&&&&&&&&if i & 0: nb.append(dtw_array[i-1][j])&&&&&&&&&&&&if j & 0: nb.append(dtw_array[i][j-1])&&&&&&&&&&&&if i & 0 and j & 0: nb.append(dtw_array[i-1][j-1])&&&&&&&&&&&&min_route = min(nb)&&&&&&&&&&&&cost = distance(sa[j],sb[i])&&&&&&&&&&&&dtw_array[i][j] = cost + min_route&&&&return dtw_array[len_sb-1][len_sa-1]&def main(argv):&&&&s1 = u'干啦今今今今今天天气气气气气好好好好啊啊啊'&&&&s2 = u'今天天气好好啊'&&&&d = dtw(s1, s2)&&&&print d&&&&return 0&if __name__ == '__main__':&&&&sys.exit(main(sys.argv))
6. 概率分布之间的距离
前面我们谈论的都是两个数值点之间的距离,实际上两个概率分布之间的距离是可以测量的。在统计学里面经常需要测量两组样本分布之间的距离,进而判断出它们是否出自同一个 population,常见的方法有卡方检验(Chi-Square)和 KL 散度( KL-Divergence),下面说一说 KL 散度吧。
先从信息熵说起,假设一篇文章的标题叫做“黑洞到底吃什么”,包含词语分别是 {黑洞, 到底, 吃什么}, 我们现在要根据一个词语推测这篇文章的类别。哪个词语给予我们的信息最多?很容易就知道是“黑洞”,因为“黑洞”这个词语在所有的文档中出现的概率太低 啦,一旦出现,就表明这篇文章很可能是在讲科普知识。而其他两个词语“到底”和“吃什么”出现的概率很高,给予我们的信息反而越少。如何用一个函数 h(x) 表示词语给予的信息量呢?第一,肯定是与 p(x) 相关,并且是负相关。第二,假设 x 和 y 是独立的(黑洞和宇宙不相互独立,谈到黑洞必然会说宇宙),即 p(x,y) = p(x)p(y), 那么获得的信息也是叠加的,即 h(x, y) = h(x) + h(y)。满足这两个条件的函数肯定是负对数形式:
对假设一个发送者要将随机变量 X 产生的一长串随机值传送给接收者, 接受者获得的平均信息量就是求它的数学期望:
这就是熵的概念。另外一个重要特点是,熵的大小与字符平均最短编码长度是一样的(shannon)。设有一个未知的分布 p(x), 而 q(x) 是我们所获得的一个对 p(x) 的近似,按照 q(x) 对该随机变量的各个值进行编码,平均长度比按照真实分布的 p(x) 进行编码要额外长一些,多出来的长度这就是 KL 散度(之所以不说距离,是因为不满足对称性和三角形法则),即:
KL 散度又叫相对熵(relative entropy)。了解机器学习的童鞋应该都知道,在 Softmax 回归(或者 Logistic 回归),最后的输出节点上的值表示这个样本分到该类的概率,这就是一个概率分布。对于一个带有标签的样本,我们期望的概率分布是:分到标签类的概率是 1, 其他类概率是 0。但是理想很丰满,现实很骨感,我们不可能得到完美的概率输出,能做的就是尽量减小总样本的 KL 散度之和(目标函数)。这就是 Softmax 回归或者 Logistic 回归中 Cost function 的优化过程啦。(PS:因为概率和为 1,一般的 logistic 二分类的图只画了一个输出节点,隐藏了另外一个)
待补充的方法:
卡方检验 Chi-Square
衡量 categorical attributes 相关性的 mutual information
Spearman’s rank coefficient
Earth Mover’s Distance
SimRank 迭代算法等。
参考资料:
可能感兴趣的话题
关于伯乐在线博客
在这个信息爆炸的时代,人们已然被大量、快速并且简短的信息所包围。然而,我们相信:过多“快餐”式的阅读只会令人“虚胖”,缺乏实质的内涵。伯乐在线内容团队正试图以我们微薄的力量,把优秀的原创文章和译文分享给读者,为“快餐”添加一些“营养”元素。
新浪微博:
推荐微信号
(加好友请注明来意)
– 好的话题、有启发的回复、值得信赖的圈子
– 分享和发现有价值的内容与观点
– 为IT单身男女服务的征婚传播平台
– 优秀的工具资源导航
– 翻译传播优秀的外文文章
– 国内外的精选文章
– UI,网页,交互和用户体验
– 专注iOS技术分享
– 专注Android技术分享
– JavaScript, HTML5, CSS
– 专注Java技术分享
– 专注Python技术分享
& 2017 伯乐在线您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
计算机四级数据库工程师题库【参考】.docx 84页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
需要金币:80 &&
你可能关注的文档:
··········
··········
计算机四级数据库工程师题库第一套一、单选题1.下列关于信息的叙述中,哪一条是错误的?BA)信息是数据的语义解释B)信息是数据的外延C)信息可以用物理符号表示D)信息是具有社会属性的资源2.下列关于数据库管理系统的叙述中,哪一条是错误的?AA)数据库管理系统是用户与操作系统之间的一个接口B)数据库管理系统便于用户对数据库进行管理和维护C)数据库管理系统能保证数据库中数据的安全性、完整性D)数据库管理系统支持多用户对数据的并发使用3.下列关于早期数据库和数据模型的叙述中,哪一条是错误的?DA)早期数据库系统主要基于层次模型、网状模型等范型B)早期模型的一个主要问题是数据记录的概念表示与其在磁盘上的物理位置混淆不清C)仅提供编程语言,使得新的查询和处理代价高、费事D)基于早期模型的数据库系统都提供图形化的用户界面4.下列关于数据模型的叙述中,哪一条是错误的?CA)模型是现实世界特征的抽象和模拟B)数据模型用来描述、组织和处理现实世界中的数据C)数据模型描述了数据库的静态结构特征,但无法描述其动态行为特征D)数据模型是数据库的核心和基础5.下列关于概念层模型的叙述中,哪一条是错误的?AA)概念层模型是现实世界到信息世界的语法抽象B)概念层模型主要用于数据库设计中的概念设计C)概念模型是从用户观点对数据和信息建模D)概念模型独立于具体的逻辑模型6.下列关于E-R图的叙述中,哪一条是错误的?DA)E-R图是一个图示化的概念模型B)矩形表示实体型,矩形框内写明实体名C)椭圆表示属性,用无向边将其与相应实体连接起来D)菱形表示联系,联系不是实体型,所以没有属性7.下列关于关系操作的叙述中,哪一条是错误的?CA)关系操作的对象和结果都是集合B)关系操作的对象和结果都是集合C)关系操作通过关系语言实现,关系语言的特点是高度过程化D)关系操作的能力可以通过代数方式和逻辑方式来表示8.下列关于参照完整性约束的参照关系和被参照关系的叙述中,哪一条是错误的?BA)参照关系是从关系,被参照关系是主关系B)参照关系与被参照关系之间的联系是1:n联系C)参照关系与被参照关系通过外码相联系D)其主码在另一个关系中作为外码的关系称为被参照关系9.下列关于用户定义完整性约束的叙述中,哪一条是错误的?DA)用户定义完整性约束主要是对属性的取值进行限制B)域完整性约束是用户定义完整性约束的重要组成部分C)取值范围可分为静态定义和动态定义两种D)域完整性约束中含有属性间的多值依赖关系,但没有函数依赖关系10.设有供应商关系S和零件关系P。它们的主码分别是&供应商号&和&零件号&,而且,零件关系P的属性&颜色&只能取值为(红,白,兰)。供应商关系S:供应商号供应商名所在城市B01S10T20Z01红星宇宙黎明立新北京上海天津重庆零件关系P:零件号颜色供应商号红兰白B01T20S10向关系P插入新行如下,哪一个操作能正确执行?DA)('201','白','S10')B)('301','红','T11')C)('301','红','T11')D)('301','白','Z01')11.设关系R,S和T分别如下图所示,T是R和S的下列哪一种操作的结果?BRSABCa1a2a3a4b1b2b3b356812BEb1b2b3b4b5371022TAR.BCS.BEa1a2a3a4b1b2b3bb2b3b3371010A)T=RSB)T=RSR.B=S.BC)T=RSC&ED)T=R×S12.关系数据库标准语言SQL是下列哪一项的缩写?CA)SpecifyingQueryLanguageB)ScalableQueryLanguageC)StructuredQueryLanguageD)StandardQueryLanguage13.下列关于SQL语言中的CREATETABLE语句的叙述中,哪一条是错误的?AA)SQL语言使用CREATETABLE语句创建基本表和视图B)在CREATETABLE语句中必须给出所创建的表中的每一个列的列名C)在CREATETABLE语句中必须给出所创建的表中的每一个列的列名D)在CREATETABLE语句中必须给出所创建的表中的每一个列的列名14.要删除Student表的Birthyear列,同时删除所有引用该列的视图和约束。下列哪一个SQL语句正确表达了这一删除要求?BA)ALTERTABLEStudentDROPBirthyearRESTRICT;B)ALTERTABLEStudentDROPBirthyearRESTRICT;C)ALTERTABLEStudentDROPBirthyearRESTRICT;D)ALTERTABLEStudentDELE
正在加载中,请稍后...问题:生成一个数据立方体,该立方体的每一个结点都是一个整体度量的聚合函数(如 COUNT( DISTINCT ) ),如何使用 MapReduce 生成该数据立方体?
(1)生成该立方体的所有结点 Ri&,表示为数据立方体集合 C = {R1, R2, R3, ...}。
(2)度量(聚集函数)分为代数度量和整体度量,代数度量是可任意分布化的度量,整体度量是无法分布化的度量。本文认为,很多整体度量具有部分代数度量的性质。
即对于 a 列, M(D) = M'[A(D)],D是一个数据集合,M是整体度量,M'是一个代数度量,A是另一个整体度量。满足这样性质的就称为对 a 具有部分代数性质。
如 COUNT_DISTINCT(a)。其中 M=COUNT_DISTINCT(a),M'=COUNT(),A=GROUP_BY(a)
因此,对于整体度量来说,就是按值进行分区,即按“分区因子”进行分发。
(3)在处理每个立方体结点时(SELECT agg() FROM data GROUP BY a WHERE ...),按值分区采取一道取样估算的MapReduce作业,估算按 a 分发到 reduce 端的数据量,r 为一个 reduce 所处理的数据占总数据的百分比,取样的数量 N & 100 / r,通常取 2000 / r。如果当前结点的数据量大于 0.75rN(一个 reducer 所能容纳数据的 75%),我们就把这个结点Ri标记为 “reduce不友好”。同时“reduce不友好”的结点会有一个分区因子,值为
至此,立方体结点的集合 C 被改写为带标注的立方体结点的集合 Ca = {R1a, R2a, R3a, ...},Ria 是带有分区因子的结点。
(4)已经获得了具有标注的立方体,我们把 Ca&中的结点划分为若干个“批处理区域”&Bia, 每一个批处理区域包含若干个结点&Ca&= {B1a, B2a, B3a, ...}。
“批处理区域”的约束条件为:
1、一个父结点“reduce友好”的结点,必须属于一个包含它的至少一个父结点的“批处理区域”;
2、没有两个父结点“reduce不友好”的结点能够属于同一个“批处理区域”;
3、任意两个“批处理区域”的差不能多于2。
有两种“批处理区域”划分算法:
1、贪心算法:即将晶格最底下的(粒度最大的)结点作为初始“批处理区域”,找出符合约束条件的结点数最少的情况,作为一个“批处理区域”。
2、枚举算法:通过定义 cost(产生终间数据量)彻底枚举 cost 最小的情况作为一个“批处理区域”,注意这种情况只适用于结点较少的情况。
(5)执行真正的 MapReduce 立方体生成算法。
Map:输入为每个元组,输出的 Key 为 每个“批处理区域”的最底层结点和“分区因子”,Value为元组本身。每条元组输出 |&{B1a, B2a, B3a, ...}| 次。
Shuffle:“批处理区域”相同且“分区因子”相同的元组被分发到同一个 reduce,每个 reduce 获得可构成一个小立方体的元组集,若干个 reduce 构成一个“批处理区域”。
Reduce:在 reduce 端对这个小立方体进行自底向上的立方体生成(BUC),这里所采用的度量是 A 。所以,每一个 reduce 会在 HDFS 物化一个小立方体。
Post:将 reduce 输出的数据,按相同的批处理区域进行聚合,这里所采用的度量是 M',合并成一系列的中号立方体。
(6)将中号立方体进行聚合,生成整体大立方体,写入到数据库,用作报表分析。
该解法有如下问题:
1、C = {R1, R2, R3, ...} 如何生成?
2、Ca&= {B1a, B2a, B3a, ...} 在数据量较大的情况下如何生成?
3、Map 端产生的数据依然是元始数据的数倍。|{B1a, B2a, B3a, ...}| 倍。
4、Post 处理的数据量大时如何处理?
5、结果写入数据库如何查询?
&&相关文章推荐
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:75678次
积分:1155
积分:1155
排名:千里之外
原创:32篇
评论:12条
(1)(1)(1)(3)(1)(1)(1)(1)(2)(1)(1)(1)(1)(2)(1)(1)(2)(2)(4)(1)(1)(3)(6)(1)(1)}

我要回帖

更多关于 mysql数据库增量备份 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信