楼主: 时光永痕
501 0

[数据挖掘新闻] 在10分钟内实用Apache Spark。第1部分-Ubuntu安装 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

72%

威望
0
论坛币
26 个
通用积分
49.7576
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
316 小时
注册时间
2020-7-21
最后登录
2024-4-28

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
在10分钟内实用Apache Spark。第1部分-Ubuntu安装
Apache Spark是一个功能强大的开源处理引擎,它围绕速度,易用性和复杂的分析而构建。它最初是2009年在加州大学伯克利分校开发的,而Databricks后来由Spark的创建者于2013年成立。
Spark引擎可在多种环境中运行,从云服务到Hadoop或Mesos群集。它用于执行ETL,交互式查询(SQL),高级分析(例如,机器学习)以及在各种数据存储区(例如,HDFS,Cassandra,HBase,S3)中的大型数据集上进行流传输。Spark支持多种流行的开发语言,包括Java,Python和Scala。
在本文中,我们将引导您完成以后将需要的Spark和Hadoop的安装过程。因此,请按照说明开始使用Spark。
安装Oracle VM Virtualbox
您可以在 本文中阅读有关如何安装VM Virtualbox的详细说明。
但首先,请检查您的操作系统上是否安装了Java。请使用以下简短命令来说明您的计算机上安装了Java的哪个版本,并避免版本不匹配:
Java版本
如果您的Java版本是8,则可以继续前进。如果尚未安装Java,则将下一个命令粘贴到cmd:
sudo apt-get更新udo apt-get install openjdk-8-jdk
现在,您可以重新检查Java版本:
Java版本
Hadoop安装
安装Virtualbox之后,我们的下一步是安装Hadoop,以备将来使用。在本文中,我们仅向您展示安装过程,因此请按照我们的文章更深入地了解Hadoop及其与Spark的集成。
Hadoop是一个开放源代码软件框架,用于在商品硬件集群上存储和大规模处理数据集。请按照以下说明和命令进行安装:
在此处下载Spark_Hadoop_new.zip文件。
将档案解压缩到适当的文件夹。
打开Ubuntu终端并移至新创建的文件夹:
cd / path / to / Spark_Hadoop
要更改访问权限,请在下一步中键入以下命令:
须藤chmod 755 setup.sh
下一步,我们将安装 curl
须藤apt-get install curl
接下来运行安装:
须藤./setup.sh
Hadoop将安装在您的HOME目录中。之后,您将在 此处 找到cloudera文件夹。
检查是否设置了HADOOP_HOME变量:
回声$ HADOOP_HOME
如果不是,则响应为空白,在这种情况下,输入下一个命令:
来源?/ .profile
并再次检查:
回声$ HADOOP_HOME
要启动HDFS和YARN服务,请输入
须藤./start.sh
要检查所有服务是否已启动并正在运行,请检查以下URL:
HDFS服务:
NameNode: 链接
数据节点: 链接
纱服务:
资源管理器: 链接
节点管理器: 链接
MapReduce作业历史记录服务器: 链接
注意:
链接是本地链接,因此只有在您按照说明安装了所有组件并且一切正常后,它们才可用。
安装Hadoop之后,我们的下一步是安装Spark。让我们通过几个简单的步骤进行操作。
火花安装
从 Spark下载spark软件包:
          当您点击蓝色链接后,它将重定向您:
          并下载一个包围的包。
使用下一个命令提取文件:
焦油zxvf spark_archive_filename.tgz
移至新创建的目录:
cd spark_dir_name
下一步是针对某些编程语言启动Spark类型。在这里,您可以看到如何启动Python Skala类型:
./bin/pyspark
启动Spark Scala
./bin/spark-shell
使用Spark
在此示例中,我们将使用Python Spark。您可以通过以下方式启动pyspark:
./bin/pyspark
让我们阅读文件README.md。
textfile = sc.textFile(“ README.md”)
这将创建一个RDD,在文件中每行包含一个条目。
要查看RDD类型的前10个条目:
textfile.take(10)
现在,让我们计算该文本文件中的所有单词。
counts = textfile.flatMap(lambda line:line.split(“”))。map(lambda word:(word,1))。reduceByKey(lambda a,b:a + b)
看一下结果:
counts.take(5)
此命令将显示结果中的前五个条目。
结论
在本教程中,我们逐步介绍了Hadoop和Spark的安装和配置过程,并向您展示了一些与PySpark一起使用的简单命令。有关Spark中的其他步骤,请查看 快速入门 指南。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Apache Spark apache Ubuntu Spark Park

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-6 23:11