楼主: 耕耘使者
23093 13

[问答] 如何随机抽取一个大数据集中的部分纪录? [推广有奖]

贵宾

已卖:5006份资源

学术权威

39%

还不是VIP/贵宾

-

威望
4
论坛币
1811021 个
通用积分
171.7911
学术水平
109 点
热心指数
173 点
信用等级
87 点
经验
93428 点
帖子
4549
精华
0
在线时间
2848 小时
注册时间
2006-4-6
最后登录
2025-7-12

楼主
耕耘使者 发表于 2012-1-21 12:53:35 |AI写论文
20论坛币
    案例文件:ggplot2包中的diamonds数据集,含54000个纪录。我想随机抽取一个小样本(如50),怎样用R软件做?
我是用diamonds[1:50]做的,再将其复制到txt中,再用read.table函数读到R里,一来太曲折了,二来只是取了前50行,并不是真正意义上的随机抽取。
    期待高人高见!

最佳答案

qoiqpwqr 查看完整内容

diamonds[sample(54000, 50), ]
关键词:大数据 数据集 diamonds Diamond ggplot2 如何

沙发
qoiqpwqr 发表于 2012-1-21 12:53:36
diamonds[sample(54000, 50), ]
已有 1 人评分学术水平 收起 理由
耕耘使者 + 2 热心帮助其他会员

总评分: 学术水平 + 2   查看全部评分

藤椅
adgjmptw 发表于 2012-1-21 13:59:06 来自手机
把数据输入excel文档中,从工具菜单加载宏中加载数据库分析,再打开工具菜单就有数据分析,点击数据分析找随机抽样,打开该窗口按提示操作,可以得到结果,不同次操作,出现的结果各异.
已有 1 人评分热心指数 收起 理由
耕耘使者 + 1 鼓励积极发帖讨论

总评分: 热心指数 + 1   查看全部评分

板凳
耕耘使者 发表于 2012-1-21 16:53:36
qoiqpwqr版主太强大了!
多谢

报纸
耕耘使者 发表于 2012-1-21 16:54:32
adgjmptw 发表于 2012-1-21 13:59
把数据输入excel文档中,从工具菜单加载宏中加载数据库分析,再打开工具菜单就有数据分析,点击数据分析找随机 ...
单变量是可以这做的,但我指的是数据集,是多变量数据文件。
也谢谢

地板
kaifengedu 发表于 2012-1-25 17:41:52
电子书P11有命令:
dsmall <- diamonds[sample(nrow(diamonds), 100), ]
已有 1 人评分学术水平 热心指数 收起 理由
耕耘使者 + 1 + 1 热心帮助其他会员

总评分: 学术水平 + 1  热心指数 + 1   查看全部评分

7
耕耘使者 发表于 2012-1-27 21:32:49
多谢kaifengedu !

8
kaifengedu 发表于 2012-1-28 16:31:29
耕耘使者 发表于 2012-1-27 21:32
多谢kaifengedu !
LZ客气,互相学习,共同进步!

9
Avantasiania 发表于 2014-4-13 19:01:34
请问一下为什么sample之后会出现很多个NA?原数据集已经是去过missing value的数据集了啊

10
Avantasiania 发表于 2014-4-13 19:04:48
补充一下。。。使用dsmall <- diamonds[sample(nrow(diamonds), 100), ]这个命令好像就不会出现这个问题。。但是直接用diamonds[sample(54000, 50), ]就会有问题。。求大神解答~
已有 1 人评分热心指数 收起 理由
耕耘使者 + 1 鼓励积极发帖讨论

总评分: 热心指数 + 1   查看全部评分

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-3 21:56