个人随笔
目录
大数据-1-Spark和Scala环境搭建
2019-02-18 22:48:15

一、Spark环境搭建

1、需要如下环境该环境搭建是在hadoop环境搭建好的基础上进行的

CentOS 6.4
Spark 1.6
Hadoop 2.6.5
Java JDK 1.7
Scala 2.10.5

2、安装Hadoop,请自行查看

3、安装Spark

  1. sudo tar -zxf ~/download/spark-1.6.0-bin-hadoop2.6.tgz -C /usr/local/
  2. cd /usr/local
  3. sudo mv ./spark-1.6.0-bin-hadoop2.6/ ./spark
  4. sudo chown -R hadoop:hadoop ./spark # 此处的 hadoop 为你的用户名

4、安装后,需要在 ./conf/spark-env.sh 中修改 Spark 的 Classpath,执行如下命令拷贝一个配置文件:

  1. cd /usr/local/spark
  2. cp ./conf/spark-env.sh.template ./conf/spark-env.sh
  3. vim ./conf/spark-env.sh

在最后面加上如下一行:

  1. export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

保存后,Spark 就可以启动、运行了。
5、运行 Spark 示例

  1. cd /usr/local/spark
  2. ./bin/run-example SparkPi

执行如下命令启动 Spark Shell:

  1. ./bin/spark-shell

Spark 的主要抽象是分布式的元素集合(distributed collection of items),称为RDD(Resilient Distributed Dataset,弹性分布式数据集),它可被分发到集群各个节点上,进行并行操作。<br /> RDDs 可以通过 Hadoop InputFormats 创建(如 HDFS),或者从其他 RDDs 转化而来。<br />
val textFile = sc.textFile(“file:///usr/local/spark/README.md”)
下面我们就来演示 count() 和 first() 操作:<br /> textFile.count()
textFile.first()

接着演示 transformation,通过 filter transformation 来返回一个新的 RDD,代码如下:

  1. val linesWithSpark = textFile.filter(line => line.contains("Spark"))
  2. linesWithSpark.count()
  3. textFile.filter(line => line.contains("Spark")).count()

二、Scala环境搭建

1、安装Scala

  1. sudo tar -zxf ~/download/scala-2.10.4.tgz -C /usr/local/
  2. cd /usr/local
  3. sudo mv ./scala-2.10.4/ ./scala
  4. sudo chown -R hadoop:hadoop ./scala # 此处的 hadoop 为你的用户名

2、加入环境变量

  1. vi ~/.bashrc
  2. export SCALA_HOME=/usr/local/scala
  3. export PATH=$PATH:$SCALA_HOME/bin

3、使环境变量生效

  1. source ~/.bashrc

4、执行scala

  1. scala
 159

啊!这个可能是世界上最丑的留言输入框功能~


当然,也是最丑的留言列表

有疑问发邮件到 : suibibk@qq.com 侵权立删
Copyright : 个人随笔   备案号 : 粤ICP备18099399号-2