在10分钟内实用Apache Spark。第1部分-Ubuntu安装
Apache Spark是一个功能强大的开源处理引擎,它围绕速度,易用性和复杂的分析而构建。它最初是2009年在加州大学伯克利分校开发的,而Databricks后来由Spark的创建者于2013年成立。
Spark引擎可在多种环境中运行,从云服务到Hadoop或Mesos群集。它用于执行ETL,交互式查询(SQL),高级分析(例如,机器学习)以及在各种数据存储区(例如,HDFS,Cassandra,HBase,S3)中的大型数据集上进行流传输。Spark支持多种流行的开发语言,包括Java,Python和Scala。
在本文中,我们将引导您完成以后将需要的Spark和Hadoop的安装过程。因此,请按照说明开始使用Spark。
安装Oracle VM Virtualbox
您可以在 本文中阅读有关如何安装VM Virtualbox的详细说明。
但首先,请检查您的操作系统上是否安装了Java。请使用以下简短命令来说明您的计算机上安装了Java的哪个版本,并避免版本不匹配:
Java版本
如果您的Java版本是8,则可以继续前进。如果尚未安装Java,则将下一个命令粘贴到cmd:
sudo apt-get更新udo apt-get install openjdk-8-jdk
现在,您可以重新检查Java版本:
Java版本
Hadoop安装
安装Virtualbox之后,我们的下一步是安装Hadoop,以备将来使用。在本文中,我们仅向您展示安装过程,因此请按照我们的文章更深入地了解Hadoop及其与Spark的集成。
Hadoop是一个开放源代码软件框架,用于在商品硬件集群上存储和大规模处理数据集。请按照以下说明和命令进行安装:
在此处下载Spark_Hadoop_new.zip文件。
将档案解压缩到适当的文件夹。
打开Ubuntu终端并移至新创建的文件夹:
cd / path / to / Spark_Hadoop
要更改访问权限,请在下一步中键入以下命令:
须藤chmod 755 setup.sh
下一步,我们将安装 curl
须藤apt-get install curl
接下来运行安装:
须藤./setup.sh
Hadoop将安装在您的HOME目录中。之后,您将在 此处 找到cloudera文件夹。
检查是否设置了HADOOP_HOME变量:
回声$ HADOOP_HOME
如果不是,则响应为空白,在这种情况下,输入下一个命令:
来源?/ .profile
并再次检查:
回声$ HADOOP_HOME
要启动HDFS和YARN服务,请输入
须藤./start.sh
要检查所有服务是否已启动并正在运行,请检查以下URL:
HDFS服务:
NameNode: 链接
数据节点: 链接
纱服务:
资源管理器: 链接
节点管理器: 链接
MapReduce作业历史记录服务器: 链接
注意:
链接是本地链接,因此只有在您按照说明安装了所有组件并且一切正常后,它们才可用。
安装Hadoop之后,我们的下一步是安装Spark。让我们通过几个简单的步骤进行操作。
火花安装
从 Spark下载spark软件包:
当您点击蓝色链接后,它将重定向您:
并下载一个包围的包。
使用下一个命令提取文件:
焦油zxvf spark_archive_filename.tgz
移至新创建的目录:
cd spark_dir_name
下一步是针对某些编程语言启动Spark类型。在这里,您可以看到如何启动Python Skala类型:
./bin/pyspark
启动Spark Scala
./bin/spark-shell
使用Spark
在此示例中,我们将使用Python Spark。您可以通过以下方式启动pyspark:
./bin/pyspark
让我们阅读文件README.md。
textfile = sc.textFile(“ README.md”)
这将创建一个RDD,在文件中每行包含一个条目。
要查看RDD类型的前10个条目:
textfile.take(10)
现在,让我们计算该文本文件中的所有单词。
counts = textfile.flatMap(lambda line:line.split(“”))。map(lambda word:(word,1))。reduceByKey(lambda a,b:a + b)
看一下结果:
counts.take(5)
此命令将显示结果中的前五个条目。
结论
在本教程中,我们逐步介绍了Hadoop和Spark的安装和配置过程,并向您展示了一些与PySpark一起使用的简单命令。有关Spark中的其他步骤,请查看 快速入门 指南。
题库