请选择 进入手机版 | 继续访问电脑版
楼主: 统计R浪人
3889 10

[问答] 混合类数据如何聚类 [推广有奖]

  • 0关注
  • 3粉丝

硕士生

98%

还不是VIP/贵宾

-

威望
0
论坛币
33 个
通用积分
4.3144
学术水平
18 点
热心指数
25 点
信用等级
10 点
经验
1987 点
帖子
131
精华
0
在线时间
220 小时
注册时间
2013-5-22
最后登录
2022-9-16

统计R浪人 发表于 2013-11-21 10:29:54 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
如图
timeV1V2V3V4V5V6V7V8V9V10V11

00:37:45

21.5

22.4

61.13

61.75

-214.02

30.75

-168

0.15

OFFOFFOFF

00:37:46

22.4

23.5

62.88

63.63

-214.02

31.5

-167

0.15

OFFOFFOFF

00:37:47

23.6

24.9

64.88

65.75

-214.02

32

-167

0.15

OFFOFFOFF

00:37:48

25.1

26.6

67

68.13

-214.02

32.5

-168

0.15

OFFOFFOFF

00:37:49

27.1

29

69.63

71

-214.02

33

-167

0.15

OFFOFFOFF

00:37:50

30.1

32.3

73.13

74.63

-214.02

33.25

-167

0.15

OFFOFFOFF

00:37:51

34.3

36

77.13

77.88

-214.02

33.75

-167

0.15

OFFOFFOFF

00:37:52

35.8

36.5

77.75

77.63

-214.02

34

-167

0.15

OFFOFFOFF

00:37:53

35.4

36.1

77.38

77.25

-214.02

35

-167

0.15

OFFOFFOFF

00:37:54

35.3

36

77.38

77.38

-214.02

36.25

-168

0.15

OFFOFFOFF

00:37:55

35.3

36

77.38

77.5

-214.02

38.25

-167

0.15

OFFOFFOFF

00:37:56

35.3

36

77.25

77.5

-214.02

41.25

-167

0.15

OFFOFFOFF

00:37:57

35.3

36

77.25

77.38

-214.02

44.75

-167

0.15

OFFOFFOFF

00:37:58

35.3

36

77.13

77.38

-214.02

49

-167

0.15

OFFOFFOFF

00:37:59

35.3

36

77

77.38

-214.02

52.75

-167

0.15

OFFOFFOFF

00:38:00

35.3

36

76.88

77.25

-214.02

56.25

-167

0.15

OFFOFFOFF

00:38:01

35.3

36

76.63

77.13

-214.02

59.25

-167

0.15

OFFOFFOFF
这类数据如何聚类,请大家给点建议,谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:time Off FOF Tim IME 如何

大野猩猩 发表于 2013-11-21 10:40:16 |显示全部楼层 |坛友微信交流群

使用道具

ltx5151 发表于 2013-11-22 11:50:49 |显示全部楼层 |坛友微信交流群
可以是一下用clasification tree。 比如CART。如果楼主不在意模型复杂读,可以用boosting trees。其实最简单的聚类方法也可行,知是楼主需要自己定义一下相关函数。看你的需求了。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
统计R浪人 + 1 + 1 + 1 观点有启发

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

使用道具

nuomin 发表于 2013-11-22 18:31:22 |显示全部楼层 |坛友微信交流群
ltx5151 发表于 2013-11-22 11:50
可以是一下用clasification tree。 比如CART。如果楼主不在意模型复杂读,可以用boosting trees。其实最简单 ...
还是沙迦厉害,在做数据挖掘吗?

使用道具

jgchen1966 发表于 2013-11-23 00:35:06 |显示全部楼层 |坛友微信交流群
Package ‘cluster’中的所有聚类方法都适用混合类数据。不过,象楼主提供的数据作聚类,不知有何意义。另,对时间序列进行聚类的有效性,分歧是很大的。。用GOOGLE 可查到大量的这类讨论。
已有 1 人评分学术水平 热心指数 信用等级 收起 理由
统计R浪人 + 1 + 1 + 1 观点有启发

总评分: 学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

鹑居鷇食,鸟行无彰

使用道具

ltx5151 发表于 2013-11-24 12:22:46 |显示全部楼层 |坛友微信交流群
nuomin 发表于 2013-11-22 18:31
还是沙迦厉害,在做数据挖掘吗?
哈哈,略有涉猎。

使用道具

统计R浪人 发表于 2013-11-25 10:34:50 |显示全部楼层 |坛友微信交流群
ltx5151 发表于 2013-11-22 11:50
可以是一下用clasification tree。 比如CART。如果楼主不在意模型复杂读,可以用boosting trees。其实最简单 ...
请问楼主,如果聚类时,要求样本的时间顺序保持不变的话,有没有直接实现的聚类函数

使用道具

ltx5151 发表于 2013-11-26 03:58:20 |显示全部楼层 |坛友微信交流群
统计R浪人 发表于 2013-11-25 10:34
请问楼主,如果聚类时,要求样本的时间顺序保持不变的话,有没有直接实现的聚类函数
不是十分清楚您的意思。时间变量本身就是可以看做是有序变量的。只要把它作为有序变量处理即可。

使用道具

统计R浪人 发表于 2013-11-26 09:04:11 |显示全部楼层 |坛友微信交流群
ltx5151 发表于 2013-11-26 03:58
不是十分清楚您的意思。时间变量本身就是可以看做是有序变量的。只要把它作为有序变量处理即可。
示例数据time列是被分类对象,v1~v11是对象参数,聚类时要求同一类中时间是连续的,假如分类后第一类含有00:37:45 00:37:46  00:37:47 00:37:48 00:37:49是我想要的。我研究的对象是一台机器,每个工作循环中N个工作状态,这些工作状态机器开启后依次运行,我想把同工作状态的监测数据v1~v11提取出来,所以就产生了我上面提出的聚类要求

使用道具

ltx5151 发表于 2013-11-28 07:38:00 |显示全部楼层 |坛友微信交流群
统计R浪人 发表于 2013-11-26 09:04
示例数据time列是被分类对象,v1~v11是对象参数,聚类时要求同一类中时间是连续的,假如分类后第一类含有 ...
隐约似乎明白点您的意思。那我之前说的方法可能不行。那个是用在classification上的,不是clustering上的。但是你需要自己定义一个相关函数,是的时间不相邻的两个状态的距离足够大,这样聚类时就不会将间断的时间划为一类了。也就是说,比如你的时间点是t1,t2, ... tn,其他数据是x1,x2,....xn。那么你要定义一个距离函数,是的 d((ti,xi),(tj,xj)) > max_{x,y} d((ti,x),(ti,y)) for all i<j-1。 因为做clustering是对整体距离的优化,这样的设计可以保证当 ((t1,x1),(t3,x3))为一类是,(t2,x2)也一定为这一类。否则聚类的结果将不满足最优解。

具体怎么选取函数,就要看你需求了。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-29 09:37