人大经济论坛 › 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › 数据分析与数据挖掘 › 开始使用在大数据集群中安装Jupyter的PySpark开发

发帖

楼主: 时光永痕

946 0

[数据挖掘新闻] 开始使用在大数据集群中安装Jupyter的PySpark开发 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）八级

13%

威望: 0 级
论坛币: 26 个
通用积分: 57.2238
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34180 点
帖子: 2732
精华: 0
在线时间: 321 小时
注册时间: 2020-7-21
最后登录: 2024-8-1

楼主

时光永痕

发表于 2020-10-27 20:03:14 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

开始使用在大数据集群中安装Jupyter的PySpark开发
众所周知，Jupyter，Apache Zeppelin或最近推出的Cloud Data Lab和Jupyter Lab等数据科学工具是日常工作必不可少的，因此如何结合轻松开发模型的能力和大数据集群的计算？在本文中，我将分享一个非常简单的步骤，以开始在GCP的Data Proc Cluster中将Jupyter笔记本用于PySpark。
最终目标
Jupyter Spark的图像结果
先决条件
1.拥有一个Google Cloud帐户（只需登录您的Gmail并在一年内自动获得$ 300的信用额）[1]
2.用您喜欢的名称创建一个新项目
脚步
为了简化部署，我将使用一个beta功能，该功能仅在通过Google Cloud Shell创建Data Proc Cluster时才适用。对于我们的集群，我们需要定义许多功能，例如工作人员数量，主机的高可用性，RAM数量和硬盘驱动器等等。为了简化起见，我建议通过UI模拟集群的创建。首先，我们需要启用Dataproc（图1和2）。
图1启用Dataproc API I
图2启用Dataproc API II
2.获得等效的命令行，以您自己的集群大小来模拟创建过程。我将设定基本规格：
地区：全球
集群模式：标准
主节点：2个vCPU，7.5GB内存和300个磁盘大小
工作节点：2vCPU，7.5GB内存和200磁盘大小
通过UI模拟创建集群
基本规格
重要：您应该单击高级选项，然后将Image更改为1.3 Debian 9，以使beta参数起作用。
要访问，请单击高级选项。
更改为1.3 Debian 9
3.获取等效命令行
在命令行中单击
复制gcloud命令
4.关闭模拟，然后单击以激活Cloud Shell
激活云外壳
5.修改您的命令添加并运行（可能需要几分钟）
—可选组件= ANACONDA，JUPYTER
更改
从gcloud dataproc 集群到gcloud beta dataproc集群
跑
gcloud beta dataproc群集创建cluster-jupyter —子网默认值— zone-west-west1-d —主计算机类型n1-standard-2 —主引导磁盘大小300 — num-workers 2 —工人计算机类型n1 -standard-2-工人启动磁盘大小200-可选组件= ANACONDA，JUPYTER-图像版本1.3-deb9-项目jupyter-cluster-223203
在外壳中运行
集群创建
6.允许Jupyter端口进入流量，在登录页面中搜索防火墙规则并创建一个规则。
搜索防火墙规则VPC网络
点击创建规则
7.定义防火墙规则打开端口8123并保存。
参数
规则运作
8.输入您的Jupyter笔记本！（您需要您的主IP并添加jupyter默认端口，例如http：//30.195.xxx.xx：8123）
获得主人的IP
9.让我们创建我们的第一个Pyspark笔记本
创建第一个Pyspark笔记本
10.验证运行良好
奖励：检查Spark UI
要访问Spark UI，您需要添加另一个防火墙规则，如步骤7。打开端口8088、4040、9870和4041。
创建Spark UI规则
单击我们的第一个笔记本中的Spark UI链接，您将收到ERR_NAME_NOT_RESOLVED错误，只需将URL替换为主IP
1

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：Spark SPAR Park 大数据 SPA

[url=https://edu.cda.cn/page/110]https://bbs.pinggu.org/https://bbs.pinggu.org/https://bbs-pic.datacourse.cn/album/202206/01/135703zley18vue50izh55.png[/url]

返回列表

发帖

本版微信群

加好友,备注cda
拉您进交流群

京ICP备16021002号-2 京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明

[数据挖掘新闻] 开始使用在大数据集群中安装Jupyter的PySpark开发 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

浏览过的帖子

浏览过的版块

本版微信群

[数据挖掘新闻] 开始使用在大数据集群中安装Jupyter的PySpark开发 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群