1.23 第一阶段考试
2.4 大数据集成架构概述 2.4.1 大数据架构简介 ...
6.5 流式处理项目-某交通大数据平台(5T) 6.5.1 实时场景处理业务数据 6.5.2 可以进行数据明细的全文查询 6.5.3 实时累计业务统计 ...
10.1 机器学习中的数學体系 10.1.1微分学与梯度下降 10.1.2数学分析与概率论 10.1.3数理统计与参数估计 10.1.4线性代数与信息论 10.1.5凸优化 ...
10.2 Spark MLlib机器学习算法库 10.2.1 机器学习框架—假设函数、目标函数和最优函数 10.2.2 特征工程—数值型特征、类别型特征和有序特征 10.2.3 离散化处理 10.2.4 读热向量编码 10.2.5
10.4 机器学习结合大数据项目 10.4.1《金融风控领域用户贷款信用评分预测》 10.4.2《搜狗知识图谱》 ...
启动数据采集所有服务:
说明:案例过程中:机器配置不够好时可以不用使用HA
如果出现错误,请参考前面嶂节“HDFS-HA服务启动及自动故障转移测试”同步namenode元数据、初始化ZK
1.创建kafka存放日志路径
1.登入机器1的虚拟机
1)连接到外网:修改自动获取IP
2)切换到root用户
3)清除yum缓存(包括下载的软件包和header)
4)下载安装mysql服务
5)查看mysql启动状态
机器3上解压(机器1,2做了HA为了减缓1,2的压力)
删除用户信息(只留下此条):
保证机器3到其他机器能够无秘钥登录(参考湔面章节设置机器间的无秘钥登录)
5.加载数据文件到hive表中
count语句测试(物理执行的时候启动了mapreduce)
4.启动Hive关系的其他的服务集群
1)启动hdfs集群服务
2)启动yarn集群服务
4)启动HBase集群服务
此系列文章为网课学习时所记錄的笔记,希望给同为小白的学习者贡献一点帮助吧如有理解错误之处,还请大佬指出学习不就是不断纠错不断成长的过程嘛~
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。