请问有人有用PCA有降维可能吗kdd99数据集的代码吗?能直接用pycharm运行的,有偿!!

1、主成分分析(PCA)
在PCA中数据从原来的坐标系转换到新的坐标系,新坐标系的选择是由数据本身决定的第一个新坐标轴选择的是原始数据中方差最大嘚方向,第二个新坐标轴选择和第一个坐标轴正交且具有最大方差的方向该过程一直重复,重复次数为原始数据中特征的数目我们会發现,大部分方差都包含在最前面的几个新坐标轴中因此,我们可以忽略余下的坐标轴即对数据进行有降维可能吗处理。

2、因子分析(Factor Analysis)在因子分析中,我们假设在观察数据的生成中有一些观察不到的隐变量(latent variable)假设观察数据是这些隐变量和某些噪声数据的线性组匼。那么隐变量的数据可能比观察数据的数目少也就是说通过找到隐变量就可以实现数据有降维可能吗。

3、独立成分分析(ICA)
ICA假设数据從N个数据源生成的和因子分析有些类似。假设数据为多个数据源的混合观察结果这些数据源之间在统计上是相互独立的,而在PCA中只假設数据是不相关的同因子分析一样,如果数据源的数目少于观察数据的数目则可实现有降维可能吗。

注:PCA应用最广泛所以只介绍PCA。
線性判别分析(LDA)是一种经典的监督有降维可能吗算法主成分分析(PCA)是一种经典的无监督有降维可能吗算法。

PCA有降维可能吗的两个准則:
最近重构性:样本集中所有点重构后的点距离原来的点的误差之和最小。
最大可分性:样本在低维空间的投影尽可能分开

可以将數据分批加载进内存。

:return: 一个元组依次为训练样本集和样本集的标记 :param data: 可变参数。它是一个元组这里要求其元素依次为:训练样本集、训練样本的标记 绘制经过 KernelPCA 有降维可能吗到二维之后的样本点 :param data: 可变参数。它是一个元组这里要求其元素依次为:训练样本集、训练样本的标記 绘制经过 使用 poly 核的KernelPCA 有降维可能吗到二维之后的样本点 :param data: 可变参数。它是一个元组这里要求其元素依次为:训练样本集、训练样本的标记 繪制经过 使用 rbf 核的KernelPCA 有降维可能吗到二维之后的样本点 :param data: 可变参数。它是一个元组这里要求其元素依次为:训练样本集、训练样本的标记 :param data: 可變参数。它是一个元组这里要求其元素依次为:训练样本集、训练样本的标记

总结一下:实例就是把鸢尾花这个4维数据有降维可能吗降箌2维的。从plot_KPCA_poly函数可以看到采用同样的多项式函数,如果参数不同其有降维可能吗后的数据分布是不同的。其他函数亦是如此

将数据轉换成前N个主成分的伪代码大致如下:

  • 计算协方差矩阵的特征值和特征向量
  • 保留最上面的N个特征向量
  • 将数据转换到上述N个特征向量构建的噺空间中

    PCA可以从数据中识别其主要特征,它是通过沿着数据最大方差方向旋转坐标轴来实现的选择方差最大的方向作为第一条坐标轴,後续坐标轴与前面的坐标轴正交协方差矩阵上的特征值分析可以用一系列的正交坐标轴来获取。

}

       客户关系管理 (CRM) 是现代营销策略的關键要素"知识杯 2009" 提供了在法国电信公司橙色的大型营销数据库中工作的机会,以预测客户切换提供商 (流失) 的倾向, 购买新产品或服务 (欲望), 或購买建议的升级或附加组件, 以他们使销售更有利可图 (出售)。         

         在 CRM 系统中, 最实际的方法是在客户中建立知识, 从而产生分数分数 (模型的输出) 是對目标变量的所有实例的评估 (例如, 改动、亲和力或销售)。产生分数的工具允许项目, 在给定的人口, 可量化的信息分数是使用描述实例的输叺变量计算的。例如, 信息系统使用分数来个性化客户关系橙色实验室开发了一个工业客户分析平台, 能够建立具有大量输入变量的预测模型。该平台基于有效模型, 结合变量选择正则化和模型平均法, 实现了实例和变量选择、预测和指数的几种处理方法这个平台的主要特点是咜能够在非常大的数据集上进行扩展, 成千上万的实例和数以千计的变量。快速、稳健地检测最有助于输出预测的变量可以成为市场营销应鼡中的一个关键因素  包括异构的噪音数据 (数字和分类变量), 和不平衡的类分布。时间效率往往是一个关键点因此, 竞争的一部分将受到时間限制, 以测试参与者快速提供解决方案的能力。

讲习班对登记的任何人开放比赛的记录将由机器学习研究研讨会和会议程序杂志 (JMLR WC 和 P) 出版。 

       匿名: 所有参赛者必须通过注册 KDDcup 2009 网站来识别自己但是, 他们可能会选择匿名的名字, 并检查框  "使我的个人资料匿名 "。如果选中此框, 则只会在結果表中显示昵称, 而不是实际名称参与者的电子邮件不会出现在网站上的任何地方, 只会被组织者用来与参与者交流。为了获得奖品, 参与鍺必须公开显示他们的身份并取消选中 "使我的个人资料匿名 "

       数据: 可以从数据页下载到已注册的参与者。这些数据可在几个存档中提供, 以方便下载, 并提供两个版本 ( "小 " 与230个变量,  "大 " 和1.5万个变量)参与者可以在两个版本中输入结果, 这对应于相同的数据项, 小版本的230个变量只是大版本嘚1.5万个变量的子集。没有真正的目标标签, 培训和测试数据都是可用的为实践目的,  "玩具 " 培训标签可与培训数据一起从挑战的开始在快速轨噵。在玩具目标 (T) 的结果将不计算最终评估真正的培训标签的任务  "改动 " (C),  "欲望 " (A), 和  "销售 " (U), 将提供单独下载一半的方式,

       快速 (大) 挑战: 在大型数据集上提交的结果在五天内发布的真正的培训标签将会对快速的挑战。
缓慢的挑战: 结果在小数据集和结果上的大数据集没有资格的快速挑战, 提交の前的 KDDcup 2009 截止日期 2009年5月11日, 将计数的缓慢挑战如果在两个轨道中都有一个以上的提交, 并且有一个数据集, 则在跟踪截止日期之前的最后一个提茭将被考虑到, 以确定参与者的排名并对奖品进行属性。你可以在两条赛道上竞争这两条赛道都有奖品。

       在线反馈: 在挑战中, 培训集的性能將在结果页上提供, 以及有关测试集性能的部分信息: 测试集在玩具任务 (T) 上的性能和测试的固定10% 子集的性能实际任务的示例 (C、A、U)在挑战结束後, 将在结果表中计算并替换整个测试集的性能。

        提交方法: 提交的方法是通过提交页面上的表格要排名, 提交必须遵守指示。提交应包括对臸少一项任务 (T、C、A、U) 的培训和测试设置的结果, 但可能包括几个任务的结果提交将被视为  "完整 ", 并有资格获得奖品, 如果它包含6个文件对应的培训和测试数据预测的任务 C, A, 和 U, 无论是小的或大的数据集 (或两者)。结果在实践任务 T 将不计数作为竞争的一部分如果您在提交过程中遇到问題, 请与 "挑战站长" 联系。允许多个提交, 但请限制自己每天最多5份提交对于您在慢速跟踪中的最终条目, 您可以在同一存档中的任何一个或两個小数据集上提交结果 (因此您可以获得2的获胜机会)。

         评估和排名: 对于每一个参赛者来说, 只有最后一个有效的参赛者才会指望在每个曲目中確定赢家 (快速而缓慢)我们将每个参与者限制在每个曲目中的一个最终条目中 (请参阅 "常见问题解答" 页面, 了解您可以在团队中工作的条件)。囿效条目必须包括所有三个实际任务的结果评分方法张贴在 "任务" 页上。奖品将只归因于执行比基线方法更好的项目 (朴素贝叶斯)基线方法的结果在结果页中提供。这些不是橙色组织团队获得的最佳结果, 他们很容易表现出色, 但难度很大

}

我要回帖

更多关于 降维 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信