怎么在虚拟机中安装hadoop要先安装虚拟机linux系统下载吗

在VMware Workstation的Ubuntu下安装和配置Hadoop与Ganglia_Linux教程_Linux公社-Linux系统门户网站
你好,游客
在VMware Workstation的Ubuntu下安装和配置Hadoop与Ganglia
来源:Linux社区&
作者:海子
相信大部分朋友对肯定不陌生,它是一个开源的分布式计算框架,主要由MapReduce、HDFS、Hbase这几个核心部分组成。Hadoop作为云计算的基础平台,使用它的人越来越多,对于一般人而言,要想搭建真实的集群环境是比较难的,因此想要体验Hadoop,只有在虚拟机中搭建环境了。Hadoop集群环境运行起来之后,实时的获取集群的运行情况是比较重要的,因此需要一款监控工具来进行监控。Ganglia是一个开源的监控平台,可以用它来对Hadoop进行监控,今天就来讲一下如何在下搭建Hadoop环境以及如何利用Ganglia来监视集群运行情况。
一.安装VMWare Workstation和Ubuntu
  从网上下载VMWare Workstation和Ubuntu,在这里我用的是VMWare Workstation 8.0.4和Ubuntu 12.04.2(Ubuntu 10貌似很多更新源都停止服务了,所以这里采用Ubuntu 12,注意Ubuntu 12要求vmware版本在8.0以上),相关安装教程可以参考这篇 VMware9安装Ubuntu 12.10图文详细教程:
(建议最好 把那个立即分配所有磁盘空间 选项取消掉,否则在创建虚拟机的时候要等很长时间)
  (立即分配所有磁盘空间取消掉)
  VMWare下载地址:
  ubuntu 下载:或者
  安装好Ubuntu后,由于ubuntu 12采用的是gnome 3的界面,反映比较慢,建议用回以前的经典界面gnome 2.方法:
  需要安装gnome-session-fallback软件:
  在命令行下输入
  sudo apt-get intall gnome-session-fallback,安装完之后,点击右上角的&设置&图标,选择&Log out&,然后就出现登录初始界面了,点击 小扳手 图标,选择 gnome classic之后重新输入密码登录,以后默认就采用经典界面了。
  重新进入系统之后,发现界面就发生了变化:
  注意在使用的时候最好先shutdown(关闭)系统,再关闭虚拟机的电源,以免造成系统文件意外丢失。
相关资讯 & & &
& (11/28/:37)
& (10/17/:04)
& (03月10日)
& (10/18/:06)
& (10/17/:54)
   同意评论声明
   发表
尊重网上道德,遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款                在VMware Workstation的Ubuntu下安装和配置Hadoop与Ganglia
  相信大部分朋友对Hadoop肯定不陌生,它是一个开源的分布式计算框架,主要由MapReduce、HDFS、Hbase这几个核心部分组成。Hadoop作为云计算的基础平台,使用它的人越来越多,对于一般人而言,要想搭建真实的集群环境是比较难的,因此想要体验Hadoop,只有在虚拟机中搭建环境了。Hadoop集群环境运行起来之后,实时的获取集群的运行情况是比较重要的,因此需要一款监控工具来进行监控。Ganglia是一个开源的监控平台,可以用它来对Hadoop进行监控,今天就来讲一下如何在Ubuntu下搭建Hadoop环境以及如何利用Ganglia来监视集群运行情况。
一.安装VMWare Workstation和Ubuntu
  从网上下载VMWare Workstation和Ubuntu,在这里我用的是VMWare Workstation 8.0.4和Ubuntu 12.04.2(Ubuntu 10貌似很多更新源都停止服务了,所以这里采用Ubuntu 12,注意Ubuntu 12要求vmware版本在8.0以上),相关安装教程可以参考这篇博文:
  《》(注意他这篇文章在分配磁盘空间时是立即分配的,我建议最好 把那个选项取消掉,否则在创建虚拟机的时候要等很长时间)
  & (立即分配所有磁盘空间取消掉)
  VMWare下载地址:
  ubuntu 下载:或者
  安装好Ubuntu后,由于ubuntu 12采用的是gnome 3的界面,反映比较慢,建议用回以前的经典界面gnome 2.方法:
  需要安装gnome-session-fallback软件:
  在命令行下输入&
  sudo apt-get intall gnome-session-fallback,安装完之后,点击右上角的&设置&图标,选择&Log out&,然后就出现登录初始界面了,点击 小扳手 图标,选择 gnome classic之后重新输入密码登录,以后默认就采用经典界面了。
  重新进入系统之后,发现界面就发生了变化:
  注意在使用的时候最好先shutdown(关闭)系统,再关闭虚拟机的电源,以免造成系统文件意外丢失。
二.安装配置Hadoop
  1.安装VMWare Tools
  安装了VMWare Tools后,可以在宿主机和虚拟机之间直接拷贝文件。安装方法如下:
  先运行命令: 
sudo apt-get install build-essential
&  然后选择:
  就会弹出VMWare Tools所在的文件夹,然后右键VMWare Tools.tar.gz,copy到Home目录下。
  再打开Terminal,输入解压命令:
  解压完成之后,进入解压目录,进行安装:
  安装过程中根据提示不断回车或者输入&yes&或者&no&即可。
  当出现如下界面时,表示安装成功:
  之后重启系统就可以直接在宿主机和VM之间互相复制粘贴文件了。
  2.安装JDK
  由于Hadoop是用Java语言编写的,运行时必须要有java环境,因此需要安装JDK。
  首先去官网下载JDK安装包,下面是下载地址:
  下载下来之后,先进入到/usr/lib目录下,建立文件夹java,然后拷贝jdk到java目录下,先赋予可执行权限,再直接解压进行安装:
  等待片刻安装完之后,输入命令
sudo gedit
/etc/profile
  来配置环境变量,把下面代码加入到文件末尾(注意路径里面的JAVA_HOME根据个人安装路径而定):
export JAVA_HOME=/usr/lib/java/jdk1.6.0_45
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
  保存退出之后输入source /etc/profile使更改生效,再将安装的jdk设置为系统默认的jdk,依次输入以下命令:
sudo update-alternatives --install "/usr/bin/java" "java" "/usr/lib/java/jdk1.6.0_45/bin/java" 300
sudo update-alternatives --install "/usr/bin/javac" "javac" "/usr/lib/java/jdk1.6.0_45/bin//javac" 300
sudo update-alternatives --config java
sudo update-alternatives --config javac
  注意前2条命令的数字300前面的那个路径根据个人jdk安装路径而定。
  最后输入java -version,若出现版本信息则安装成功。    
  3.安装和配置Hadoop
  先从Hadoop官网或者镜像网站上下载Hadoop的相应版本,下面是下载地址:
  我下载的是hadoop-0.20.203.0rc1.tar.gz,然后直接复制粘贴到ubuntu的Desktop上,再在/usr目录下建立hadoop文件夹,
  将hadoop-0.20.203.0rc1.tar.gz文件直接解压到到/usr/hadoop目录下。      
  解压之后,需要配置系统环境变量:
  运行命令 sudo gedit& /etc/profile
  添加如下内容(注意HADOOPHOME是自己的hadoop-0.20.203.0rc1.tar.gz文件解压所在路径):
HADOOPHOME=/usr/hadoop/hadoop-0.20.203.0
PATH=$HADOOPHOME/bin:$PATH
  添加完之后source /etc/profile,以保存更改。
  然后需要更改hadoop文件夹的所属者,将所属者赋予当前用户,我的当前用户是zwl(这个步骤很重要,否则集群运行时会提示权限不够),输入下面这个条命令(后面的zwl表示当前用户名,/usr/hadoop表示要修改的文件夹):
  sudo chown -hR zwl& /usr/hadoop
  接下来需要配置/usr/hadoop/hadoop-0.20.203.0/conf/hadoop-env.sh文件:
  在该文件中添加内容:
export JAVA_HOME=/usr/lib/java/jdk1.6.0_45
  最后需要修改/usr/hadoop/hadoop-0.20.203.0/conf/目录下的core-site.xml、hdfs-site.xml、mapred-site.xml这三个文件:
  三个文件的内容修改为下:
  core-site.xml
&?xml version="1.0"?&
&?xml-stylesheet type="text/xsl" href="configuration.xsl"?&
&!-- Put site-specific property overrides in this file. --&
&configuration&
&property&
&name&fs.default.name&/name&
&value&hdfs://localhost:9000&/value&
&/property&
&/configuration&
  hdfs-site.xml
&?xml version="1.0"?&
&?xml-stylesheet type="text/xsl" href="configuration.xsl"?&
&!-- Put site-specific property overrides in this file. --&
&configuration&
&property&
&name&dfs.replication&/name&
&value&1&/value&
&/property&
&/configuration&
  mapred-site.xml
&?xml version="1.0"?&
&?xml-stylesheet type="text/xsl" href="configuration.xsl"?&
&!-- Put site-specific property overrides in this file. --&
&configuration&
&property&
&name&mapred.job.tracker&/name&
&value&localhost:9001&/value&
&/property&
&/configuration&
  在进行这些配置之后需要安装ssh,依次输入命令
  sudo apt-get install ssh
  sudo apt-get install rsync
  完成之后输入命令
  ssh localhost
  如果没有提示错误则安装成功(默认的.ssh文件夹在 &/home/用户名/ & 这个路径下,它是隐藏文件,快捷键Ctrl+H可以显示隐藏文件),然后需要为ssh设置免密码登录和设置权限,依次输入下面几条命令:
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub && ~/.ssh/authorized_keyschmod 700 ~/.sshchmod 644 ~/.ssh/authorized_keys
  完成之后再输入ssh localhost如果不需要输入密码的话则配置ssh免密码登录成功。
  现在就可以启动hadoop集群了:
  先进入到目录/usr/hadop/hadoop-0.20.203.0命令下,输入命令进行格式化:
  bin/hadoop namenode -format
  然后启动集群:bin/start-all.sh,,如果提示以下信息则表示安装成功:
  关闭集群可以通过命令bin/stop-all.sh来关闭。
  hadoop集群启动之后就可以向它提交作业了,一般提交作业先需要将输入文件上传到HDFS,再将整个作业进行提交:
  以自带的wordcount程序为例:
  先进入到hadoop目录下面,输入命令:
bin/hadoop dfs -put
/usr/test.txt
/home/testin
  这条命令要注意两个参数:/usr.text.txt 是需要单词计数的源文件所在路径,/home/testin是HDFS读取输入文件所在路径
  然后就可以提交了:
bin/hadoop jar hadoop-examples-*.jar wordcount /home/testin /home/testout
  这条命令主要注意后面两个路径,第一个路径是输入所在路径,第二个路径是作业执行的输出结果路径。
  至此hadoop集群的安装和配置已经完成,接下来需要安装和配置Ganglia
三.安装和配置Ganglia
  1.安装ganglia-monitor ganglia-webfrontend gmetad
  运行命令 sudo apt-get install ganglia-monitor ganglia-webfrontend gmetad进行安装。
  安装过程中会弹出提示让重新启动apache2,选择&Yes&:
&  完了之后会提示配置ganglia-webfrontend,选择&Yes&:
  在这个过程会自动安装rrdtool,php这些东西,安装完成之后,需要进行一些配置:
  先需要配置gmetad.conf,输入命令
  sudo gedit /etc/ganglia/gmetad.conf
  如果里面存在
  datasource "my cluster" localhost
  则不用更改,否则添加进去
  接着配置gmond.conf,输入命令
  sudo gedit /etc/ganglia/gmond.conf
  找到cluster块,将name设置成 "my cluster"。
  然后分别重启gmetad和gmond:
  sudo /etc/init.d/gmetad restart  sudo /etc/init.d/ganglia-monitor restart
  接下来需要配置apche2下的httpd.conf文件,输入命令:
  sudo gedit /etc/apache2/httpd.conf
  将 &ServerName localhost:80 & 添加进去保存(若有则不用添加)。
  再将默认的ganglia-webfrontend文件夹复制到apache的www目录下,输入命令:
  sudo cp -r /usr/share/ganglia-webfrontend /var/www/ganglia&&&&&&&
  然后重启apache,输入命令:& &     
  sudo /etc/init.d/apache2 restart
  现在打开浏览器,在地址栏输入http://localhost/ganglia就可以看到ganglia的首页了。
  ganglia安装成功之后,就需要进行一些配置让它来监控hadoop,这里主要修改/usr/hadoop/hadoop-0.20.203.0/conf/目录下的
  hadoop-metrics2.properties文件,将这个文件的最下面六行注释去掉,改成:
namenode.sink.ganglia.servers=239.2.11.71:8649
datanode.sink.ganglia.servers=239.2.11.71:8649
jobtracker.sink.ganglia.servers=239.2.11.71:8649
tasktracker.sink.ganglia.servers=239.2.11.71:8649
maptask.sink.ganglia.servers=239.2.11.71:8649
reducetask.sink.ganglia.servers=239.2.11.71:8649
  保存关闭之后就可以对hadoop集群进行监控了。
  注意我这里所有的配置都是针对hadoop的伪分布式模式的,伪分布式模式就是Namenode和datanode都在一台机器上,模拟成分布式。
  关于hadoop和Ganglia的配置就讲到这里了,若有地方有问题,最好查阅官方文档。
阅读(...) 评论()Web Developer3741人阅读
软件安装+使用教程(14)
1、首先下载VMware 虚拟机,VMware Workstation 12.0.0 Pro 正式版下载地址如下:
2、接着下载linux套件,比如说unbutu,稳定的版本推荐12.04
直接在官网下载即可,地址:
找个符合自己的版本,先下载iso文件到本地。
3、安装VMware ,具体的安装就不细讲了,傻瓜式安装,具体教程可参考如下连接:
4、安装好后打开VMware,开始创建自己的虚拟机。打开VMware的后会出现主页,点击创建虚拟机。紧接着又是一套傻瓜式创建的过程,其中包括安装的文件位置和选择本地镜像文件需要注意外,其余的都按默认的就可以,创建时间比较慢,可以看个小说等它。具有教程参考如下链接:
5、成功创建之后,进入linux.未来后面工作方便进行,你需要了解一下常见的linux命令,我都给大家准备好了,参考如下链接:
6、安装一些常用的小工具,比如说
首先要把VMwaretools安装上,要不然没法进行复制粘贴啊!参考教程:
然后安装神器vim:
手动安装:sudo apt-get install vim
7、配置jdk
将jdk下载下来后,放到主文件夹下(复制粘贴),ps:别说你找不到主文件夹!移动到usr/local文件夹下,
sudo cp jdk-7u45-linux-x64.tar.gz/usr/local
然后解压,解压命令如下:
sudo tar zxvf ./jdk-7u45-linux-x64.tar.gz
然后就看到usr/local 文件夹下有一个jdk的文件夹了。
接下来就要配置环境变量了,打开/etc/profile文件。命令如下:
sudo gedit
/etc/profile
添加变量如下:
export JAVA_HOME=/usr/local/jdk1.6.0_30
export JRE_HOME=/usr/local/jdk1.6.0_30/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
保存,退出。然后刷新几次,重启虚拟机。
检查jdk是否安装好:
java -version;java
至此jdk就已经配置好了(如果输入java -version有版本信息的话)
8、配置SSH
首先确认电脑连上网了,然后输入指令:
sudo apt-get install ssh
配置为免密码登陆本机,先查看在用户u下是否存在.ssh文件夹,指令为:
ls -a /home/u
如果没有,手动创建一个。
接下来设置秘钥为空。输入指令:
ssh-keygen -t dsa -p '' -f ~/.ssh/id_dsa
把公共秘钥追加到授权的key里面去,输入指令
cat ~/.ssh/id_dsa.pub && ~/.ssh/authorized_keys
配置完成,检查是否配置成功,输入:
ssh -version
输入:ssh localhost会有相应的提示,说明配置成功
8、安装Hadoop
到官网下载hadoop源文件,这里选择hadoop 1.0.2
解压并放到你希望的目录中。我是放到/usr/local/hadoop
~$ sudo tar xzf hadoop-1.0.2.tar.gz
~$ sudo mv hadoop-1.0.2 /usr/local/hadoop
要确保所有的操作都是在用户hadoop下完成的:
~$ sudo chown -R hadoop:hadoop /usr/local/hadoop
设定hadoop-env.sh(Java 安装路径)
进入hadoop目录,打开conf目录下到hadoop-env.sh,添加以下信息:
export JAVA_HOME=/usr/local/jdk1.6.0_30
(视你机器的java安装路径而定)
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:/usr/local/hadoop/bin
配置hadoop-1.0.2/conf/core-site.xml,命令行:
gedit /usr/local/hadoop/hadoop-1.0.2/conf/core-site.xml
在hadoop新建hadoop_tmp目录,sudo mkdir ~/hadoop_tmp并在core-site.xml进行如下修改:
&fs.default.name&
&hdfs://localhost:9000&
&hadoop.tmp.dir&
&/usr/local/hadoop/hadoop-1.0.2/hadoop_tmp&
&A base for other temporary directories.&
配置hadoop-1.0.2/conf/mapre-site.xml,命令行:
gedit /usr/local/hadoop/hadoop-1.0.2/conf/mapre-site.xml.xml
作如下修改:
&mapred.job.tracker&
&localhost:9001&
配置hadoop-1.0.2/conf/hdfs-site.xml,命令行:
gedit /usr/local/hadoop/hadoop-1.0.2/conf/hdfs-site.xml
做如下修改:
&dfs.replication&
利用source指令让更改立即生效。
例如:source hadoop-env.sh
至此hadoop的安装配置已经完毕。还需要格式化hdfs文件系统。
bin/hadoop namedode -format
9 启动服务(一定要在Hadoop的目录下!)
有时候启动不了是因为Hadoop安装目录的文件夹用户权限不够。解除权限就可以了:
sudo chown -R user:user hadoop1.2.1
格式是:sudo chown -R 用户名@用户组 目录名
然后再启动:
/bin/start-all.sh
启动完成后,检验一下。
若不计jps,有五个hadoop相关线程,恭喜你,hadoop安装配置成功,运行正常。
打开浏览器验证:
可以查看Hadoop的工作情况。
bin/stop-all.sh
注意:这个是单机模式下的分布式,也就是伪分布式。
完全分布式的参考:
http://www.weixuehao.com/archives/577
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:105453次
积分:3982
积分:3982
排名:第6851名
原创:162篇
转载:47篇
评论:40条
(1)(1)(2)(3)(2)(5)(8)(8)(38)(26)(24)(26)(6)(11)(6)(12)(1)(9)(13)(6)(9)}

我要回帖

更多关于 虚拟机卸载linux系统 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信