楼主: 时光永痕
921 0

[数据挖掘新闻] 开始使用在大数据集群中安装Jupyter的PySpark开发 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

7%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-10-27 20:03:14 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
开始使用在大数据集群中安装Jupyter的PySpark开发
众所周知,Jupyter,Apache Zeppelin或最近推出的Cloud Data Lab和Jupyter Lab等数据科学工具是日常工作必不可少的,因此如何结合轻松开发模型的能力和大数据集群的计算?在本文中,我将分享一个非常简单的步骤,以开始在GCP的Data Proc Cluster中将Jupyter笔记本用于PySpark。      
最终目标
Jupyter Spark的图像结果
先决条件
1.拥有一个Google Cloud帐户(只需登录您的Gmail并在一年内自动获得$ 300的信用额)[1]
2.用您喜欢的名称创建一个新项目
脚步
为了简化部署,我将使用一个beta功能,该功能仅在通过Google Cloud Shell创建Data Proc Cluster时才适用。对于我们的集群,我们需要定义许多功能,例如工作人员数量,主机的高可用性,RAM数量和硬盘驱动器等等。为了简化起见,我建议通过UI模拟集群的创建。首先,我们需要启用Dataproc(图1和2)。
图1启用Dataproc API I
图2启用Dataproc API II
2.获得等效的命令行,以您自己的集群大小来模拟创建过程。我将设定基本规格:  
地区:全球
集群模式:标准
主节点:2个vCPU,7.5GB内存和300个磁盘大小
工作节点:2vCPU,7.5GB内存和200磁盘大小
通过UI模拟创建集群
基本规格
重要:您应该单击高级选项,然后将Image更改为1.3 Debian 9,以使beta参数起作用。
要访问,请单击高级选项。
更改为1.3 Debian 9
3.获取等效命令行
在命令行中单击
复制gcloud命令
4.关闭模拟,然后单击以激活Cloud Shell
激活云外壳
5.修改您的命令添加并运行(可能需要几分钟)
—可选组件= ANACONDA,JUPYTER
更改
从gcloud dataproc 集群 到gcloud beta dataproc集群

gcloud beta dataproc群集创建cluster-jupyter —子网默认值— zone-west-west1-d —主计算机类型n1-standard-2 —主引导磁盘大小300 — num-workers 2 —工人计算机类型n1 -standard-2-工人启动磁盘大小200-可选组件= ANACONDA,JUPYTER-图像版本1.3-deb9-项目jupyter-cluster-223203
在外壳中运行
集群创建
6.允许Jupyter端口进入流量,在登录页面中搜索防火墙规则并创建一个规则。
搜索防火墙规则VPC网络
点击创建规则
7.定义防火墙规则打开端口8123并保存。
参数
规则运作
8.输入您的Jupyter笔记本!(您需要您的主IP并添加jupyter默认端口,例如http://30.195.xxx.xx:8123)
获得主人的IP
9.让我们创建我们的第一个Pyspark笔记本
创建第一个Pyspark笔记本
10.验证运行良好
奖励:检查Spark UI
要访问Spark UI,您需要添加另一个防火墙规则,如步骤7。打开端口8088、4040、9870和4041。
创建Spark UI规则
单击我们的第一个笔记本中的Spark UI链接,您将收到ERR_NAME_NOT_RESOLVED错误,只需将URL替换为主IP
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Spark SPAR Park 大数据 SPA

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-17 01:46