怎么在虚拟机中安装hadoop要先安装虚拟机linux系统下载吗

点击联系发帖人 时间：2017-04-24 14:02

虚拟机卸载linux系统

在VMware Workstation的Ubuntu下安装和配置Hadoop与Ganglia_Linux教程_Linux公社-Linux系统门户网站
你好，游客
在VMware Workstation的Ubuntu下安装和配置Hadoop与Ganglia
来源：Linux社区&
作者：海子
相信大部分朋友对肯定不陌生，它是一个开源的分布式计算框架，主要由MapReduce、HDFS、Hbase这几个核心部分组成。Hadoop作为云计算的基础平台，使用它的人越来越多，对于一般人而言，要想搭建真实的集群环境是比较难的，因此想要体验Hadoop，只有在虚拟机中搭建环境了。Hadoop集群环境运行起来之后，实时的获取集群的运行情况是比较重要的，因此需要一款监控工具来进行监控。Ganglia是一个开源的监控平台，可以用它来对Hadoop进行监控，今天就来讲一下如何在下搭建Hadoop环境以及如何利用Ganglia来监视集群运行情况。
一.安装VMWare Workstation和Ubuntu
　　从网上下载VMWare Workstation和Ubuntu，在这里我用的是VMWare Workstation 8.0.4和Ubuntu 12.04.2（Ubuntu 10貌似很多更新源都停止服务了，所以这里采用Ubuntu 12，注意Ubuntu 12要求vmware版本在8.0以上），相关安装教程可以参考这篇 VMware9安装Ubuntu 12.10图文详细教程：
（建议最好把那个立即分配所有磁盘空间选项取消掉，否则在创建虚拟机的时候要等很长时间）
　（立即分配所有磁盘空间取消掉）
　　VMWare下载地址：
　　ubuntu 下载：或者
　　安装好Ubuntu后，由于ubuntu 12采用的是gnome 3的界面，反映比较慢，建议用回以前的经典界面gnome 2.方法：
　　需要安装gnome-session-fallback软件：
　　在命令行下输入
　　sudo apt-get intall gnome-session-fallback，安装完之后，点击右上角的&设置&图标，选择&Log out&，然后就出现登录初始界面了，点击小扳手图标，选择 gnome classic之后重新输入密码登录，以后默认就采用经典界面了。
　　重新进入系统之后，发现界面就发生了变化：
　　注意在使用的时候最好先shutdown（关闭）系统，再关闭虚拟机的电源，以免造成系统文件意外丢失。
相关资讯 & & &
& (11/28/:37)
& (10/17/:04)
& (03月10日)
& (10/18/:06)
& (10/17/:54)
　　　同意评论声明
　　　发表
尊重网上道德，遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款　　　　　　　　　　　　　　　　在VMware Workstation的Ubuntu下安装和配置Hadoop与Ganglia
　　相信大部分朋友对Hadoop肯定不陌生，它是一个开源的分布式计算框架，主要由MapReduce、HDFS、Hbase这几个核心部分组成。Hadoop作为云计算的基础平台，使用它的人越来越多，对于一般人而言，要想搭建真实的集群环境是比较难的，因此想要体验Hadoop，只有在虚拟机中搭建环境了。Hadoop集群环境运行起来之后，实时的获取集群的运行情况是比较重要的，因此需要一款监控工具来进行监控。Ganglia是一个开源的监控平台，可以用它来对Hadoop进行监控，今天就来讲一下如何在Ubuntu下搭建Hadoop环境以及如何利用Ganglia来监视集群运行情况。
一.安装VMWare Workstation和Ubuntu
　　从网上下载VMWare Workstation和Ubuntu，在这里我用的是VMWare Workstation 8.0.4和Ubuntu 12.04.2（Ubuntu 10貌似很多更新源都停止服务了，所以这里采用Ubuntu 12，注意Ubuntu 12要求vmware版本在8.0以上），相关安装教程可以参考这篇博文：
　　《》（注意他这篇文章在分配磁盘空间时是立即分配的，我建议最好把那个选项取消掉，否则在创建虚拟机的时候要等很长时间）
　 & （立即分配所有磁盘空间取消掉）
　　VMWare下载地址：
　　ubuntu 下载：或者
　　安装好Ubuntu后，由于ubuntu 12采用的是gnome 3的界面，反映比较慢，建议用回以前的经典界面gnome 2.方法：
　　需要安装gnome-session-fallback软件：
　　在命令行下输入&
　　sudo apt-get intall gnome-session-fallback，安装完之后，点击右上角的&设置&图标，选择&Log out&，然后就出现登录初始界面了，点击小扳手图标，选择 gnome classic之后重新输入密码登录，以后默认就采用经典界面了。
　　重新进入系统之后，发现界面就发生了变化：
　　注意在使用的时候最好先shutdown（关闭）系统，再关闭虚拟机的电源，以免造成系统文件意外丢失。
二.安装配置Hadoop
　　1.安装VMWare Tools
　　安装了VMWare Tools后，可以在宿主机和虚拟机之间直接拷贝文件。安装方法如下：
　　先运行命令：　
sudo apt-get install build-essential
& 　然后选择：
　　就会弹出VMWare Tools所在的文件夹，然后右键VMWare Tools.tar.gz，copy到Home目录下。
　　再打开Terminal，输入解压命令：
　　解压完成之后，进入解压目录，进行安装：
　　安装过程中根据提示不断回车或者输入&yes&或者&no&即可。
　　当出现如下界面时，表示安装成功：
　　之后重启系统就可以直接在宿主机和VM之间互相复制粘贴文件了。
　　2.安装JDK
　　由于Hadoop是用Java语言编写的，运行时必须要有java环境，因此需要安装JDK。
　　首先去官网下载JDK安装包，下面是下载地址：
　　下载下来之后，先进入到/usr/lib目录下，建立文件夹java，然后拷贝jdk到java目录下，先赋予可执行权限，再直接解压进行安装：
　　等待片刻安装完之后，输入命令
sudo gedit
/etc/profile
　　来配置环境变量，把下面代码加入到文件末尾（注意路径里面的JAVA_HOME根据个人安装路径而定）：
export JAVA_HOME=/usr/lib/java/jdk1.6.0_45
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
　　保存退出之后输入source /etc/profile使更改生效，再将安装的jdk设置为系统默认的jdk，依次输入以下命令：
sudo update-alternatives --install "/usr/bin/java" "java" "/usr/lib/java/jdk1.6.0_45/bin/java" 300
sudo update-alternatives --install "/usr/bin/javac" "javac" "/usr/lib/java/jdk1.6.0_45/bin//javac" 300
sudo update-alternatives --config java
sudo update-alternatives --config javac
　　注意前2条命令的数字300前面的那个路径根据个人jdk安装路径而定。
　　最后输入java -version，若出现版本信息则安装成功。　　　　
　　3.安装和配置Hadoop
　　先从Hadoop官网或者镜像网站上下载Hadoop的相应版本，下面是下载地址：
　　我下载的是hadoop-0.20.203.0rc1.tar.gz，然后直接复制粘贴到ubuntu的Desktop上，再在/usr目录下建立hadoop文件夹，
　　将hadoop-0.20.203.0rc1.tar.gz文件直接解压到到/usr/hadoop目录下。　　　　　　
　　解压之后，需要配置系统环境变量：
　　运行命令 sudo gedit& /etc/profile
　　添加如下内容（注意HADOOPHOME是自己的hadoop-0.20.203.0rc1.tar.gz文件解压所在路径）：
HADOOPHOME=/usr/hadoop/hadoop-0.20.203.0
PATH=$HADOOPHOME/bin:$PATH
　　添加完之后source /etc/profile，以保存更改。
　　然后需要更改hadoop文件夹的所属者，将所属者赋予当前用户，我的当前用户是zwl（这个步骤很重要，否则集群运行时会提示权限不够），输入下面这个条命令（后面的zwl表示当前用户名，/usr/hadoop表示要修改的文件夹）：
　　sudo chown -hR zwl& /usr/hadoop
　　接下来需要配置/usr/hadoop/hadoop-0.20.203.0/conf/hadoop-env.sh文件：
　　在该文件中添加内容：
export JAVA_HOME=/usr/lib/java/jdk1.6.0_45
　　最后需要修改/usr/hadoop/hadoop-0.20.203.0/conf/目录下的core-site.xml、hdfs-site.xml、mapred-site.xml这三个文件：
　　三个文件的内容修改为下：
　　core-site.xml
&?xml version="1.0"?&
&?xml-stylesheet type="text/xsl" href="configuration.xsl"?&
&!-- Put site-specific property overrides in this file. --&
&configuration&
&property&
&name&fs.default.name&/name&
&value&hdfs://localhost:9000&/value&
&/property&
&/configuration&
　　hdfs-site.xml
&?xml version="1.0"?&
&?xml-stylesheet type="text/xsl" href="configuration.xsl"?&
&!-- Put site-specific property overrides in this file. --&
&configuration&
&property&
&name&dfs.replication&/name&
&value&1&/value&
&/property&
&/configuration&
　　mapred-site.xml
&?xml version="1.0"?&
&?xml-stylesheet type="text/xsl" href="configuration.xsl"?&
&!-- Put site-specific property overrides in this file. --&
&configuration&
&property&
&name&mapred.job.tracker&/name&
&value&localhost:9001&/value&
&/property&
&/configuration&
　　在进行这些配置之后需要安装ssh，依次输入命令
　　sudo apt-get install ssh
　　sudo apt-get install rsync
　　完成之后输入命令
　　ssh localhost
　　如果没有提示错误则安装成功（默认的.ssh文件夹在 &/home/用户名/ & 这个路径下，它是隐藏文件，快捷键Ctrl+H可以显示隐藏文件），然后需要为ssh设置免密码登录和设置权限，依次输入下面几条命令：
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub && ~/.ssh/authorized_keyschmod 700 ~/.sshchmod 644 ~/.ssh/authorized_keys
　　完成之后再输入ssh localhost如果不需要输入密码的话则配置ssh免密码登录成功。
　　现在就可以启动hadoop集群了：
　　先进入到目录/usr/hadop/hadoop-0.20.203.0命令下，输入命令进行格式化:
　　bin/hadoop namenode -format
　　然后启动集群：bin/start-all.sh,，如果提示以下信息则表示安装成功：
　　关闭集群可以通过命令bin/stop-all.sh来关闭。
　　hadoop集群启动之后就可以向它提交作业了，一般提交作业先需要将输入文件上传到HDFS，再将整个作业进行提交：
　　以自带的wordcount程序为例：
　　先进入到hadoop目录下面，输入命令：
bin/hadoop dfs -put
/usr/test.txt
/home/testin
　　这条命令要注意两个参数：/usr.text.txt 是需要单词计数的源文件所在路径，/home/testin是HDFS读取输入文件所在路径
　　然后就可以提交了:
bin/hadoop jar hadoop-examples-*.jar wordcount /home/testin /home/testout
　　这条命令主要注意后面两个路径，第一个路径是输入所在路径，第二个路径是作业执行的输出结果路径。
　　至此hadoop集群的安装和配置已经完成，接下来需要安装和配置Ganglia
三.安装和配置Ganglia
　　1.安装ganglia-monitor ganglia-webfrontend gmetad
　　运行命令 sudo apt-get install ganglia-monitor ganglia-webfrontend gmetad进行安装。
　　安装过程中会弹出提示让重新启动apache2，选择&Yes&：
&　　完了之后会提示配置ganglia-webfrontend，选择&Yes&：
　　在这个过程会自动安装rrdtool，php这些东西，安装完成之后，需要进行一些配置：
　　先需要配置gmetad.conf，输入命令
　　sudo gedit /etc/ganglia/gmetad.conf
　　如果里面存在
　　datasource "my cluster" localhost
　　则不用更改，否则添加进去
　　接着配置gmond.conf，输入命令
　　sudo gedit /etc/ganglia/gmond.conf
　　找到cluster块，将name设置成 "my cluster"。
　　然后分别重启gmetad和gmond：
　　sudo /etc/init.d/gmetad restart　　sudo /etc/init.d/ganglia-monitor restart
　　接下来需要配置apche2下的httpd.conf文件，输入命令：
　　sudo gedit /etc/apache2/httpd.conf
　　将 &ServerName localhost:80 & 添加进去保存（若有则不用添加）。
　　再将默认的ganglia-webfrontend文件夹复制到apache的www目录下，输入命令：
　　sudo cp -r /usr/share/ganglia-webfrontend /var/www/ganglia&&&&&&&
　　然后重启apache，输入命令：& & 　　　　
　　sudo /etc/init.d/apache2 restart
　　现在打开浏览器，在地址栏输入http://localhost/ganglia就可以看到ganglia的首页了。
　　ganglia安装成功之后，就需要进行一些配置让它来监控hadoop，这里主要修改/usr/hadoop/hadoop-0.20.203.0/conf/目录下的
　　hadoop-metrics2.properties文件，将这个文件的最下面六行注释去掉，改成：
namenode.sink.ganglia.servers=239.2.11.71:8649
datanode.sink.ganglia.servers=239.2.11.71:8649
jobtracker.sink.ganglia.servers=239.2.11.71:8649
tasktracker.sink.ganglia.servers=239.2.11.71:8649
maptask.sink.ganglia.servers=239.2.11.71:8649
reducetask.sink.ganglia.servers=239.2.11.71:8649
　　保存关闭之后就可以对hadoop集群进行监控了。
　　注意我这里所有的配置都是针对hadoop的伪分布式模式的，伪分布式模式就是Namenode和datanode都在一台机器上，模拟成分布式。
　　关于hadoop和Ganglia的配置就讲到这里了，若有地方有问题，最好查阅官方文档。
阅读(...) 评论()Web Developer3741人阅读
软件安装+使用教程（14）
1、首先下载VMware 虚拟机，VMware Workstation 12.0.0 Pro 正式版下载地址如下：
2、接着下载linux套件，比如说unbutu，稳定的版本推荐12.04
直接在官网下载即可，地址：
找个符合自己的版本，先下载iso文件到本地。
3、安装VMware ，具体的安装就不细讲了，傻瓜式安装，具体教程可参考如下连接：
4、安装好后打开VMware，开始创建自己的虚拟机。打开VMware的后会出现主页，点击创建虚拟机。紧接着又是一套傻瓜式创建的过程，其中包括安装的文件位置和选择本地镜像文件需要注意外，其余的都按默认的就可以，创建时间比较慢，可以看个小说等它。具有教程参考如下链接：
5、成功创建之后，进入linux.未来后面工作方便进行，你需要了解一下常见的linux命令，我都给大家准备好了，参考如下链接：
6、安装一些常用的小工具，比如说
首先要把VMwaretools安装上，要不然没法进行复制粘贴啊！参考教程：
然后安装神器vim：
手动安装：sudo apt-get install vim
7、配置jdk
将jdk下载下来后，放到主文件夹下（复制粘贴），ps:别说你找不到主文件夹！移动到usr/local文件夹下，
sudo cp jdk-7u45-linux-x64.tar.gz/usr/local
然后解压，解压命令如下：
sudo tar zxvf ./jdk-7u45-linux-x64.tar.gz
然后就看到usr/local 文件夹下有一个jdk的文件夹了。
接下来就要配置环境变量了，打开/etc/profile文件。命令如下：
sudo gedit
/etc/profile
添加变量如下：
export JAVA_HOME=/usr/local/jdk1.6.0_30
export JRE_HOME=/usr/local/jdk1.6.0_30/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
保存，退出。然后刷新几次，重启虚拟机。
检查jdk是否安装好：
java -version;java
至此jdk就已经配置好了（如果输入java -version有版本信息的话）
8、配置SSH
首先确认电脑连上网了，然后输入指令：
sudo apt-get install ssh
配置为免密码登陆本机，先查看在用户u下是否存在.ssh文件夹,指令为：
ls -a /home/u
如果没有，手动创建一个。
接下来设置秘钥为空。输入指令：
ssh-keygen -t dsa -p '' -f ~/.ssh/id_dsa
把公共秘钥追加到授权的key里面去，输入指令
cat ~/.ssh/id_dsa.pub && ~/.ssh/authorized_keys
配置完成，检查是否配置成功，输入：
ssh -version
输入：ssh localhost会有相应的提示，说明配置成功
8、安装Hadoop
到官网下载hadoop源文件，这里选择hadoop 1.0.2
解压并放到你希望的目录中。我是放到/usr/local/hadoop
~$ sudo tar xzf hadoop-1.0.2.tar.gz
~$ sudo mv hadoop-1.0.2 /usr/local/hadoop
要确保所有的操作都是在用户hadoop下完成的：
~$ sudo chown -R hadoop:hadoop /usr/local/hadoop
设定hadoop-env.sh(Java 安装路径)
进入hadoop目录，打开conf目录下到hadoop-env.sh，添加以下信息：
export JAVA_HOME=/usr/local/jdk1.6.0_30
(视你机器的java安装路径而定)
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:/usr/local/hadoop/bin
配置hadoop-1.0.2/conf/core-site.xml，命令行：
gedit /usr/local/hadoop/hadoop-1.0.2/conf/core-site.xml
在hadoop新建hadoop_tmp目录,sudo mkdir ~/hadoop_tmp并在core-site.xml进行如下修改：
&fs.default.name&
&hdfs://localhost:9000&
&hadoop.tmp.dir&
&/usr/local/hadoop/hadoop-1.0.2/hadoop_tmp&
&A base for other temporary directories.&
配置hadoop-1.0.2/conf/mapre-site.xml，命令行：
gedit /usr/local/hadoop/hadoop-1.0.2/conf/mapre-site.xml.xml
作如下修改：
&mapred.job.tracker&
&localhost:9001&
配置hadoop-1.0.2/conf/hdfs-site.xml，命令行：
gedit /usr/local/hadoop/hadoop-1.0.2/conf/hdfs-site.xml
做如下修改：
&dfs.replication&
利用source指令让更改立即生效。
例如：source hadoop-env.sh
至此hadoop的安装配置已经完毕。还需要格式化hdfs文件系统。
bin/hadoop namedode -format
9 启动服务(一定要在Hadoop的目录下！）
有时候启动不了是因为Hadoop安装目录的文件夹用户权限不够。解除权限就可以了：
sudo chown -R user:user hadoop1.2.1
格式是：sudo chown -R 用户名@用户组目录名
然后再启动：
/bin/start-all.sh
启动完成后，检验一下。
若不计jps，有五个hadoop相关线程，恭喜你，hadoop安装配置成功，运行正常。
打开浏览器验证：
可以查看Hadoop的工作情况。
bin/stop-all.sh
注意：这个是单机模式下的分布式，也就是伪分布式。
完全分布式的参考：
http://www.weixuehao.com/archives/577
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：105453次
积分：3982
积分：3982
排名：第6851名
原创：162篇
转载：47篇
评论：40条
(1)(1)(2)(3)(2)(5)(8)(8)(38)(26)(24)(26)(6)(11)(6)(12)(1)(9)(13)(6)(9)}

叫阿莫西中心