大数据-2-Hadoop环境搭建

搭建Hadoop环境

1、新建一个hadoop用户
1-1:切换到管理员目录

su

1-2:新建一个hadoop用户

useradd -m hadoop -G root -s /bin/bash

1-3:设置密码，若提示太简单了就继续

passwd hadoop

2、可为 hadoop 用户增加管理员权限，执行：
2-1：执行如下命令visudo
2-2：找到 root ALL=(ALL) ALL 这行，添加hadoop ALL=(ALL) ALL

3、安装SSH和Java
3-1:查看是否已经安装了ssh

rpm -qa | grep ssh

若没有安装，则执行如下命令安装

sudo yum install openssh-clients
sudo yum install openssh-server

3-2：测试ssh是否可用

ssh localhost

3-3：需要配置成SSH无密码登陆，执行如下命令

exit                           # 退出刚才的 ssh localhost
cd ~/.ssh/                     # 若没有该目录，请先执行一次ssh localhost
ssh-keygen -t rsa              # 会有提示，都按回车就可以
cat id_rsa.pub >> authorized_keys  # 加入授权
chmod 600 ./authorized_keys    # 修改文件权限

3-4:~的含义在 Linux 系统中，~ 代表的是用户的主文件夹，即 “/home/用户名” 这个目录， 如你的用户名为 hadoop，则 ~ 就代表 “/home/hadoop/”。此外，命令中的 # 后面的文字是注释。 3-5:安装java环境
sudo yum install java-1.7.0-openjdk java-1.7.0-openjdk-devel
vim ~/.bashrc
在文件最后面添加如下单独一行（指向 JDK 的安装位置），并保存： export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk
3-6使变量设置生效 source ~/.bashrc # 使变量设置生效 
4、安装Hadoop
4-1:在自身用户目录下新建一个download文件夹
4-2：下载hadoop-2.6.5.tar.gz，加入download文件夹下面，执行如下命令安装
sudo tar -zxf ~/download/hadoop-2.6.5.tar.gz -C /usr/local # 解压到/usr/local中 cd /usr/local/
sudo mv ./hadoop-2.6.5/ ./hadoop # 将文件夹名改为hadoop
sudo chown -R hadoop:hadoop ./hadoop # 修改文件权限
4-3：检查hadoop是否安装成功
cd /usr/local/hadoop
./bin/hadoop version

5、Hadoop单机配置(非分布式)
5-1：执行以下命令查看hadoop自带的例子，包括 wordcount、terasort、join、grep 等。 ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar
5-2：测试将 input 文件夹中的所有文件作为输入，
筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数，最后输出结果到 output 文件夹中
cd /usr/local/hadoop
mkdir ./input
cp ./etc/hadoop/.xml ./input # 将配置文件作为输入文件 ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-.jar grep ./input ./output ‘dfs[a-z.]+’
cat ./output/* # 查看运行结果

5-3：注意，Hadoop 默认不会覆盖结果文件，因此再次运行上面实例会提示出错，需要先将 ./output 删除

6、Hadoop伪分布式配置
6-1：在设置 Hadoop 伪分布式配置前，我们还需要设置 HADOOP 环境变量，执行如下命令在 ~/.bashrc 中设置：
vim ~/.bashrc #在文件后增加如下配置文件

# Hadoop Environment Variables
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

6-2：使配置文件生效
source ~/.bashrc
6-3：Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中，
伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。 Hadoop的配置文件是 xml 格式，每个配置以声明 property 的 name 和 value 的方式来实现。 6-4：修改配置文件 core-site.xml
vi ./etc/hadoop/core-site.xml

<configuration></configuration>修改为：
<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

6-5：同样的，修改配置文件 hdfs-site.xml： vi ./etc/hadoop/hdfs-site.xml

<configuration></configuration>修改为：
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

6-6:配置完成后，执行 NameNode 的格式化:

./bin/hdfs namenode -format

成功的话，会看到 “successfully formatted” 和 “Exitting with status 0” 的提示，若为 “Exitting with status 1” 则是出错。
6-7:接着开启 NaneNode 和 DataNode 守护进程：

./sbin/start-dfs.sh

若出现如下 SSH 的提示 “Are you sure you want to continue connecting”，输入 yes 即可。可以通过命令 jps 来判断是否成功启动，若成功启动则会列出如下进程: “NameNode”、”DataNode”和SecondaryNameNode
成功启动后，可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。
7、运行Hadoop伪分布式实例
7-1：上面的单机模式，grep 例子读取的是本地数据，伪分布式读取的则是 HDFS 上的数据。要使用 HDFS，首先需要在 HDFS 中创建用户目录：

./bin/hdfs dfs -mkdir -p /user/hadoop

7-2：接着将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中，即将 /usr/local/hadoop/etc/hadoop 复制到分布式文件系统中的 /user/hadoop/input 中。我们使用的是 hadoop 用户， 并且已创建相应的用户目录 /user/hadoop ，因此在命令中就可以使用相对路径如 input，其对应的绝对路径就是 /user/hadoop/input:

./bin/hdfs dfs -mkdir input
./bin/hdfs dfs -put ./etc/hadoop/*.xml input

7-3：复制完成后，可以通过如下命令查看 HDFS 中的文件列表：

./bin/hdfs dfs -ls input

7-4：伪分布式运行 MapReduce 作业的方式跟单机模式相同，区别在于伪分布式读取的是HDFS中的文件（可以将单机步骤中创建的本地 input 文件夹，输出结果 output 文件夹都删掉来验证这一点）。 7-5：测试

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

7-6：查看运行结果的命令（查看的是位于 HDFS 中的输出结果）：

./bin/hdfs dfs -cat output/*

7-7：关闭 Hadoop

./sbin/stop-dfs.sh

7-8：下次启动 hadoop 时，无需进行 NameNode 的初始化，只需要运行

./sbin/start-dfs.sh 就可以！

8、启动YARN
上述通过 ./sbin/start-dfs.sh 启动 Hadoop，仅仅是启动了 MapReduce 环境，我们可以启动 YARN ，让 YARN 来负责资源管理与任务调度。 8-1：首先修改配置文件 mapred-site.xml，这边需要先进行重命名：

mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml

8-2：修改配置文件mapred-site.xml

vi ./etc/hadoop/mapred-site.xml

将<configuration></configuration>修改为：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

8-3：修改配置文件yarn-site.xml
vi ./etc/hadoop/yarn-site.xml

将<configuration></configuration>修改为：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

8-4：然后就可以启动 YARN 了（需要先执行过 ./sbin/start-dfs.sh）：
./sbin/start-yarn.sh $ 启动YARN
./sbin/mr-jobhistory-daemon.sh start historyserver # 开启历史服务器，才能在Web中查看任务运行情况 
开启后通过 jps 查看，可以看到多了 NodeManager 和 ResourceManager 两个后台进程

8-5：启动 YARN 之后，运行实例的方法还是一样的，仅仅是资源管理方式、任务调度不同。观察日志信息可以发现，不启用 YARN 时，是 “mapred.LocalJobRunner” 在跑任务，启用 YARN 之后，是 “mapred.YARNRunner” 在跑任务。 启动 YARN 有个好处是可以通过 Web 界面查看任务的运行情况：http://localhost:8088/cluster。
8-6：不启动 YARN 需重命名 mapred-site.xml
如果不想启动 YARN，务必把配置文件 mapred-site.xml 重命名，改成 mapred-site.xml.template，需要用时改回来就行。否则在该配置文件存在，而未开启 YARN 的情况下，运行程序会提示 “Retrying connect to server: 0.0.0.0/0.0.0.0:8032” 的错误，这也是为何该配置文件初始文件名为 mapred-site.xml.template。
8-7：关闭 YARN 的脚本如下：

./sbin/stop-yarn.sh
./sbin/mr-jobhistory-daemon.sh stop historyserver

总结：到此就配置完成啦，常用命令

启动hadoop:./sbin/start-dfs.sh
关闭hadoop:./sbin/stop-dfs.sh

启动yarn:

./sbin/start-yarn.sh      $ 启动YARN
./sbin/mr-jobhistory-daemon.sh start historyserver  # 开启历史服务器才能在Web中查看任务运行情况

关闭yarn:

./sbin/stop-yarn.sh
./sbin/mr-jobhistory-daemon.sh stop historyserver