Hadoop笔记一:伪分布式安装

Posted by Fioncat on March 29, 2018

Hadoop安装分为单机、伪分布式和完全分布式。

  • 单机模式是Hadoop的默认模式。在初次安装Hadoop后,将使用这个模式。此时Hadoop的三个配置文件为空。单机模式不使用HDFS,也不加载任何Hadoop守护进程,仅用来调试MapReduce程序。
  • 伪分布式,Hadoop的守护进程在一台机器上运行,模拟一个小规模的集群。HDFS和MapReduce可以正常使用。可用于开发和生产前的调试。
  • 完全分布式,Hadoop生产模式,完全运行在一个服务器集群上,需要搭建多台机器或虚拟机。用于真实部署。

安装前准备

下面演示如何在一台Linux主机(CentOS 6)上安装Hadoop。

注意要想使用Hadoop,系统必须配置了Java运行环境(最好直接上jdk)下面的命令展示了如何安装jdk。

1
2
3
4
[root@hadoop1 ~]# mkdir /usr/develop
[root@hadoop1 ~]# tar -xzf jdk-8u65-linux-x64.tar.gz -C /usr/develop
[root@hadoop1 ~]# ls /usr/develop/
jdk1.8.0_65

随后将jdk的bin加到path中并且增加JAVA_HOME环境变量:

1
2
3
4
5
[root@hadoop1 ~]# cd /usr/develop/jdk1.8.0_65/
[root@hadoop1 jdk1.8.0_65]# echo "export JAVA_HOME=\"$(pwd)\"" >> /etc/profile
[root@hadoop1 jdk1.8.0_65]# echo "export JRE_HOME=\"$(pwd)/jre\"" >> /etc/profile
[root@hadoop1 jdk1.8.0_65]# echo "export PATH=\"\$PATH:$(pwd)/bin\"" >> /etc/profile
[root@hadoop1 jdk1.8.0_65]# source /etc/profile

接着我们需要配置网络环境。

1
[root@hadoop1 ~]# vim /etc/sysconfig/network-scripts/ifcfg-eth0

将脚本文件改成如下样子:

1
2
3
4
5
6
7
8
9
DEVICE=eth0
BOOTPROTO=static
IPADDR=IP地址
NETMASK=255.255.255.0
GATEWAY=192.168.117.2
ONBOOT=yes
TYPE=Ethernet
IPV6INIT=no
DNS1=192.168.117.2

随后修改/etc/network和/etc/hosts文件,加上你的host配置:

1
2
3
4
5
6
7
[root@hadoop1 ~]# vim /etc/sysconfig/network
  NETWORKING=yes
  HOSTNAME=hadoop1
[root@hadoop1 ~]# vim /etc/hosts
  127.0.0.1   localhost
  ::1         localhost
  192.168.117.51 hadoop1

在使用伪分布式时,我们可以生成公钥从而方便进行ssh免密登录(注意是自己免密登录自己)。

1
2
[root@hadoop1 ~]# ssh-keygen
[root@hadoop1 ~]# ssh-copy-id -i ~/.ssh/id_rsa.pub root@hadoop1

随后可以验证以下可不可以实现免密登录:

1
2
3
4
[root@hadoop1 ~]# ssh root@lazycat.hadoop1
Last login: Wed Mar 21 00:07:47 2018 from 192.168.117.1
[root@hadoop1 ~]# logout
Connection to lazycat.hadoop1 closed.

安装Hadoop

解压Hadoop的包:

1
[root@hadoop1 ~]# tar zxf hadoop-2.7.1_64bit.tar.gz -C /usr/develop/

我们来看看Hadoop的目录结构:

1
2
[root@hadoop1 hadoop-2.7.1]# ls
bin  etc  include  lib  libexec  LICENSE.txt  NOTICE.txt  README.txt  sbin  share

对目录进行一个简单的说明:

  • bin: 存放脚本
  • etc/hadoop: 存放hadoop配置文件
  • lib: 存放运行时的依赖jar包
  • sbin: 启动和关闭hadoop的命令
  • libexec: 存放hadoop命令,一般不常用

配置伪分布式环境

下面配置Hadoop的环境变量,先修改hadoop-env.sh文件:

1
[root@hadoop1 hadoop-2.7.1]# vim etc/hadoop/hadoop-env.sh

默认的JAVA_HOME和HADOOP_CONF_DIR是不好用的,需要我们自己配置成本机的绝对路径:

1
2
export JAVA_HOME="/usr/develop/jdk1.8.0_65"
export HADOOP_CONF_DIR="/usr/develop/hadoop-2.7.1/etc/hadoop"

如果不这样配置,后面在启动hadoop的时候可能会报错。

接下来,修改core-site.xml文件:

1
[root@hadoop1 hadoop-2.7.1]# vim etc/hadoop/core-site.xml

需要指定NameNode(后面会详细介绍),以及Hadoop运行时产生的临时文件(不配置默认存放到/tmp,可能会有安全隐患)。

1
2
3
4
5
6
7
8
9
10
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop1:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/develop/hadoop-2.7.1/tmp</value>
    </property>
</configuration>

接着,需要修改hdfs-site.xml:

1
[root@hadoop1 hadoop-2.7.1]# vim etc/hadoop/hdfs-site.xml

我们需要指定hdfs保存副本的数量(默认为3),在为分布情况下,这个值必须为1,另外,设置HDFS的操作权限,让任何用户可以操作HDFS:

1
2
3
4
5
6
7
8
9
10
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
     </property>
     <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

下面修改mapred-site.xml。这个配置文件在初始的时候是没有的,但是可以直接赋值模版文件:

1
2
3
[root@hadoop1 hadoop-2.7.1]# cd etc/hadoop/
[root@hadoop1 hadoop]# cp mapred-site.xml.template mapred-site.xml
[root@hadoop1 hadoop]# vim mapred-site.xml

对于MapReduce的配置,我们需要让MapReduce运行在yarn上,这样可以提高MapReduce作业的效率:

1
2
3
4
5
6
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

既然MapReduce运行在yarn上,就需要配置yarn-site.xml,需要指定yarn的resourceManager和NodeManager的获取方式:

1
[root@hadoop1 hadoop]# vim yarn-site.xml

具体配置如下:

1
2
3
4
5
6
7
8
9
10
<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop1</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

接着,配置DataNode:

1
[root@hadoop1 hadoop]# vim slaves

因为目前我们只有一台主机,所以在里面加上我们的主机名即可。

最后,需要配置Hadoop的环境变量,在/etc/profile加上:

1
2
3
export CLASSPATH=".:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tool.jar"
export HADOOP_HOME="/usr/develop/hadoop-2.7.1"
export PATH="$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin"

随后,就可以查看Hadoop的版本了:

1
2
3
4
5
6
7
[root@hadoop1 hadoop]# hadoop version
Hadoop 2.7.1
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 15ecc87ccf4a0228f35af08fc56de536e6ce657a
Compiled by jenkins on 2015-06-29T06:04Z
Compiled with protoc 2.5.0
From source with checksum fc0a1a23fc1868e4d5ee7fa2b28a58a
This command was run using /usr/develop/hadoop-2.7.1/share/hadoop/common/hadoop-common-2.7.1.jar

执行format命令,可以格式化NameNode:

1
[root@hadoop1 hadoop-2.7.1]# hadoop namenode -format

随后,启动Hadoop的监听程序:

1
2
[root@hadoop1 hadoop-2.7.1]# cd sbin/
[root@hadoop1 sbin]# ./start-all.sh

start-all会启动所有服务(hdfs和yarn),sbin里面有很多脚本,可以只启动特定的服务。

使用JPS命令,可以看到Hadoop守护进程的id:

1
2
3
4
5
6
7
[root@hadoop1 sbin]# jps
2128 NameNode
2562 ResourceManager
2659 NodeManager
2251 DataNode
2412 SecondaryNameNode
3022 Jps

这些服务的具体功能后面会详细介绍。使用stop-all.sh会关闭所有Hadoop守护进程。

可以利用netstat观察到监听程序的信息,例如,看NameNode的信息:

1
2
3
[root@hadoop1 hadoop-2.7.1]# netstat -tpln | grep 2128
tcp        0      0 0.0.0.0:50070               0.0.0.0:*                   LISTEN      2128/java
tcp        0      0 192.168.117.51:9000         0.0.0.0:*                   LISTEN      2128/java

可见它监听了一个50070端口,我们在浏览器可以利用这个端口访问Hadoop的图形工具:http://ip:50070/

利用这个工具可以简单查看NameNode信息。

注意如果Hadoop报警告:

18/03/21 04:28:42 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 1 items

这个警告事实上没有什么影响,我们可以粗暴地关闭它。

1
[root@hadoop1 hadoop-2.7.1]# vim etc/hadoop/log4j.properties

在文件中添加:

1
log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR

那么,警告就消失了。(具体解决方法请自行查询资料,这里不再叙述)