人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › 在10分钟内实用Apache Spark。第1部分-Ubuntu安装

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

发帖

楼主: 时光永痕

501 0

[数据挖掘新闻] 在10分钟内实用Apache Spark。第1部分-Ubuntu安装 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）三级

72%

威望: 0 级
论坛币: 26 个
通用积分: 49.7576
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34070 点
帖子: 2731
精华: 0
在线时间: 316 小时
注册时间: 2020-7-21
最后登录: 2024-4-28

楼主

时光永痕

发表于 2020-11-10 21:53:35 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

在10分钟内实用Apache Spark。第1部分-Ubuntu安装
Apache Spark是一个功能强大的开源处理引擎，它围绕速度，易用性和复杂的分析而构建。它最初是2009年在加州大学伯克利分校开发的，而Databricks后来由Spark的创建者于2013年成立。
Spark引擎可在多种环境中运行，从云服务到Hadoop或Mesos群集。它用于执行ETL，交互式查询（SQL），高级分析（例如，机器学习）以及在各种数据存储区（例如，HDFS，Cassandra，HBase，S3）中的大型数据集上进行流传输。Spark支持多种流行的开发语言，包括Java，Python和Scala。
在本文中，我们将引导您完成以后将需要的Spark和Hadoop的安装过程。因此，请按照说明开始使用Spark。
安装Oracle VM Virtualbox
您可以在本文中阅读有关如何安装VM Virtualbox的详细说明。
但首先，请检查您的操作系统上是否安装了Java。请使用以下简短命令来说明您的计算机上安装了Java的哪个版本，并避免版本不匹配：
Java版本
如果您的Java版本是8，则可以继续前进。如果尚未安装Java，则将下一个命令粘贴到cmd：
sudo apt-get更新udo apt-get install openjdk-8-jdk
现在，您可以重新检查Java版本：
Java版本
Hadoop安装
安装Virtualbox之后，我们的下一步是安装Hadoop，以备将来使用。在本文中，我们仅向您展示安装过程，因此请按照我们的文章更深入地了解Hadoop及其与Spark的集成。
Hadoop是一个开放源代码软件框架，用于在商品硬件集群上存储和大规模处理数据集。请按照以下说明和命令进行安装：
在此处下载Spark_Hadoop_new.zip文件。
将档案解压缩到适当的文件夹。
打开Ubuntu终端并移至新创建的文件夹：
cd / path / to / Spark_Hadoop
要更改访问权限，请在下一步中键入以下命令：
须藤chmod 755 setup.sh
下一步，我们将安装 curl
须藤apt-get install curl
接下来运行安装：
须藤./setup.sh
Hadoop将安装在您的HOME目录中。之后，您将在此处找到cloudera文件夹。
检查是否设置了HADOOP_HOME变量：
回声$ HADOOP_HOME
如果不是，则响应为空白，在这种情况下，输入下一个命令：
来源?/ .profile
并再次检查：
回声$ HADOOP_HOME
要启动HDFS和YARN服务，请输入
须藤./start.sh
要检查所有服务是否已启动并正在运行，请检查以下URL：
HDFS服务：
NameNode：链接
数据节点：链接
纱服务：
资源管理器：链接
节点管理器：链接
MapReduce作业历史记录服务器：链接
注意：
链接是本地链接，因此只有在您按照说明安装了所有组件并且一切正常后，它们才可用。
安装Hadoop之后，我们的下一步是安装Spark。让我们通过几个简单的步骤进行操作。
火花安装
从 Spark下载spark软件包：
当您点击蓝色链接后，它将重定向您：
并下载一个包围的包。
使用下一个命令提取文件：
焦油zxvf spark_archive_filename.tgz
移至新创建的目录：
cd spark_dir_name
下一步是针对某些编程语言启动Spark类型。在这里，您可以看到如何启动Python Skala类型：
./bin/pyspark
启动Spark Scala
./bin/spark-shell
使用Spark
在此示例中，我们将使用Python Spark。您可以通过以下方式启动pyspark：
./bin/pyspark
让我们阅读文件README.md。
textfile = sc.textFile（“ README.md”）
这将创建一个RDD，在文件中每行包含一个条目。
要查看RDD类型的前10个条目：
textfile.take（10）
现在，让我们计算该文本文件中的所有单词。
counts = textfile.flatMap（lambda line：line.split（“”））。map（lambda word：（word，1））。reduceByKey（lambda a，b：a + b）
看一下结果：
counts.take（5）
此命令将显示结果中的前五个条目。
结论
在本教程中，我们逐步介绍了Hadoop和Spark的安装和配置过程，并向您展示了一些与PySpark一起使用的简单命令。有关Spark中的其他步骤，请查看快速入门指南。
题库

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：Apache Spark apache Ubuntu Spark Park

[数据挖掘新闻] 在10分钟内实用Apache Spark。第1部分-Ubuntu安装 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[数据挖掘新闻] 在10分钟内实用Apache Spark。第1部分-Ubuntu安装 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

扫码加我拉你入群