手头上有一个来自于问卷调查的数据。是对针对一系列同类产品的所作出的问卷调查。
问卷所得数据的特点:
1,六个被解释变量response variables(四个代表对产品的喜好程度,两个代表购买意向), 100余个解释变量explanatory variables(产品名称,对产品的描述,产品使用后的反馈意见等等),2000多个observations。
2,所有变量均为字符型数据。进一步可细分为两类,一类是对产品的文字性描述,全部是用字母作为数据值的;另外一类是代表喜好程度,赞同程度,或者代表不同选项的数字,比如喜好该类产品,则有1-7不同的数字表示,数字越大表示越喜欢该类商品。
3,有四个特殊变量,年,月,用户ID和产品名称。四个变量均有重复值,尤其是用户ID,由于一个用户有可能同时使用了调查范围类的多个产品,所以一个ID可能重复出现多次(大部分ID都重复出现了两次或者多次),也可能只出现一次。
4,问卷分两个阶段,第一个阶段是第一次使用时得到的意见,第二个阶段是使用N天以后的意见。
希望得到的结果:
1,对产品(近30个)进行分类,说出各类产品的大致特征。
2,找出能将喜好程度和购买意向最大化的变量。
我的处理方法:
1,由于用户ID有重复,所以我用retain语句新建一个变量,相当于一个新的ID,有多少个obs就有多少个ID的值,不重复,然后对此进行ACM 和 classification。得出的结果是对2000多个观测值进行的分类。然后用proc freq对解释变量和被解释变量进行成对的具体分析,可以得到每个分组的特征值。
2,由于有六个被解释变量,所以也可以考虑使用multivariate model进行分析,但是我还没有着手,完全卡在了上一步。
遇到的问题:
1,由于用户ID有重复,如果我以新建的ID为标准进行分类,那么得到结果就有可能出现这种情况:同样的一个用户,有可能会因为对不同产品的不同喜好而被分到两个组里去,这是不希望被看到的结果。这样会误导最后的市场决策。所以尽量不要考虑对obs进行分类,但是如果不对这个分类,又能对什么分类呢?或者说,应该怎样对用户ID或者产品进行分类呢?
2,做ACM的时候,我做了一个图,但是由于变量过多,图中显示出来的各个点的分布十分紧密,好多数据值根本看不出来是什么;另外,proc corresp导出的表格里只显示了每个变量对应的数据值以及他们对应在各个dimensions(或者是axes)里面的值,无从得知这些值分别属于哪些变量。这种情况下应该怎么处理?
3,做classification的时候我用了几种方法,先是用tree,后来用mobile center 。用前者处理的时候,obs根据我用的宏直接分成了50个clusters,但是我根本不知道这50个clusters代表什么。。。
所以在此求教各位,对这种dataset,我可以使用哪种方法来得到自己想要的结果?怎么解决上述问题?
我把我用过的宏放在下面几楼,对于简单数据,这几个宏还是很好用的,但是数据一大就。。。仅供交流。。。
谢谢啦!