楼主: loveleesky
2180 0

[SparkR]求助:如何用sparkR循环操作dataframe [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

学前班

60%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
20 点
帖子
1
精华
0
在线时间
2 小时
注册时间
2016-9-14
最后登录
2016-9-26

楼主
loveleesky 发表于 2016-9-14 14:03:55 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

如下是个透视后的spark data frame,period_x列中的值代表这个阶段个产品的销售数量

storeid

productid

period_1

period_2

period_3

period_4

period_5

a

1

0

2

5

0

NaN

a

2

NaN

6

7

1

0

b

1

3

3

0

2

3

b

2

NaN

NaN

3

0

1

b

3

NaN

NaN

NaN

4

2

c

1

1

0

NaN

3

0


我想要计算每个产品在五个阶段的销售数量和频率,计算频率的公式是这个产品这一阶段和上两阶段不能有NaN,例如,产品1在第四阶段的频率2,因为第六行的产品1在period_3的销售数量是NaN,所以产品1在第四阶段的频率就是第一行和第三行。

最终通过用sparkR得出以下结果:

productid

periodid

frequent

p_median

1

1

3

(0+3+1)/3

1

2

3

(2+3+0)/3

1

3

2

(5+0)/2

1

4

2

(0+2)/2

1

5

1

3/1

2

4

1

1/1

2

5

2

(0+1)/2


PS:

如果有大牛能贴出如何实现或者大致代码,可以私下联系我,我会发个小红包表示感激。如果觉得问题没有描述清楚也可以私下联系我。感谢!

微信:13795308585


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Dataframe Spark Frame SPAR Park 如何

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-29 22:45