楼主: 时光永痕
1028 0

[数据挖掘新闻] 使用控件破坏R中的数据。 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

10%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2020-9-7 19:23:24 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
使用控件破坏R中的数据。
大约一年前,一位参加MS的年轻邻居是Data Science计划,要求我提供有关R编码练习的帮助。面临的挑战是根据最初加载的数据框中的列来计算几个新的类别属性。他的解决方案是遍历所有df行,并使用基本的if / then逻辑填充新的变量。有点让我想起了我以前如何编码Fortran或PL / I程序。
我当然劝阻他不要采用这种方法,而是出售向量化方法(例如ifelse和data.table链)的优点。我还警告说,几乎不应该在R编程中使用大小写循环隐喻。
几个月后,当我们讨论Python / Pandas的一项新练习以从季度国内生产总值(gdp)数据确定衰退期时,我几乎不得不吃掉这些话。数据按季度顺序组织,其中经济衰退被确定为连续两个季度的负增长gdp。因此,要确定经济衰退,该程序必须使用已排序的文件并具有滞后的gdp更改的“内存”,并且能够从当前记录中向后浏览。一旦我们商定了一种“算法”,他便可以编写一个解决方案,该解决方案在Pandas中的循环与在R中的循环相同。
最近我下载了每日标准普尔500指数收盘价文件时,这种类型的控制中断处理也引起了共鸣。总统宣称我们刚刚设定了新的标普500高水准,这激起了我的兴趣,我对这种情况在一个历史时期内发生的频率感到好奇。Yahoo Finance文件中的每日水平从1928年一直持续到最近的市场收盘日期,因此我不乏需要检查的数据。  
我的方法是从最早的数据开始并定义“前哨”或开始记录,仅将第二行及以后的行作为高水位标记关闭级别的候选对象。一旦确定了这些“记录”水位,便会保存其下落并相应分配新的高水位。
下面详细说明了1198发现的高水位标记的代码。显然,在1928年之前还没有确定过这样的水平,分析的收盘价只是市场价格,没有调整股息。
我一次在R中循环考虑了几个记录变体-第一个遍历行的for循环,第二个使用功能图构造。通过这种分析,我发现了很多好主意。
使用的技术是带有JupyterLab 0.35.4和R 3.6.0的Windows 10,以及R包data.table 1.12.2,tidyverse 1.2.1和tidyquant 0.5.8。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Data Science 标准普尔500指数 Finance Science Fortran

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-30 21:05