楼主: 柠檬半熟
3819 4

[问答] 关联规则transaction数据集准备工作 [推广有奖]

  • 0关注
  • 0粉丝

初中生

4%

还不是VIP/贵宾

-

威望
0
论坛币
18 个
通用积分
1.0000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
135 点
帖子
7
精华
0
在线时间
12 小时
注册时间
2019-2-24
最后登录
2019-4-23

楼主
柠檬半熟 发表于 2019-2-24 07:56:57 |AI写论文
2论坛币
1.原始数据集为8448*20008,每一列是一个transaction,每一行是一个item。
2.使用R 转置函数,将原始数据集转置。
问题!3.转置后的数据集格式为character,如何变成能进行频繁项集处理的transaction呢?
          4. 使用fread读取数据集的时候,总是报错显示invalid head position. jump=1,我知道是因为表格中(0,0)部分没有数据,如何解决呢?
原始数据集格式(部分):0代表没有买,大于0的数字代表已购买。

1550965817.png


关键词:原始数据集 原始数据 如何解决 频繁项集 数据集 R language 关联规则挖掘

沙发
cutebe 发表于 2019-2-24 11:00:39
as(x, "transactions")
#x为列表或data.frame

好像可以这样,试下看。

藤椅
柠檬半熟 发表于 2019-2-24 11:52:53
cutebe 发表于 2019-2-24 11:00
as(x, "transactions")
#x为列表或data.frame
我试了这个样子不行,假设数据集是这个样子:
   cheese    bread     apple
1      0           1          1
2       1          1         0
我的输出是所有的列名,并没有按照0,1来构造准确的交易记录,是为什么呢?输出结果是:1.{cheese,bread,apple}
抱歉二次修改,之前发现自己理解错了。

板凳
柠檬半熟 发表于 2019-2-24 13:46:26
# Data Processing Of Gene

# Import the dataset
library(data.table)
dataCSV = fread("Data.csv")
dataRow = fread("GSE115469_Data.csv",header = FALSE)
dataP1 = dataRow[,1:1069]

# Transpose
dataTrans = t(dataP1)

# Set the rowNames and colNames
rownames(dataTrans) = dataTrans[,1]
colnames(dataTrans) = dataTrans[1,]
dataTrans = dataTrans[-1,-1]

# character --> Numberic
dataNum=apply(dataTrans,2,as.numeric)

# Normalization
dataNum[dataNum > 1] = 1
dataNum[dataNum < 1] = 0

# Removing all rows which all columns have value
dataValue = dataNum[which(rowSums(dataNum==0)!=0),]

# Removing all rows which all columns are 0
dataZero = dataValue[which(rowSums(dataValue)>0),]
dataZero =na.omit(dataZero)

# Apriori
library(Matrix)
library(arules)

# data --> Transaction
trans = as(dataZero,"transactions")

# Using Apriori to find frequent itemsets
#dataset = read.transactions(dataTrans)
#itemFrequencyPlot(dataset, topN = 100)
rules = apriori(data = trans, parameter = list(support = 0.8, confidence = 0.8))


报纸
yoocy 发表于 2019-12-12 11:32:59
遇到了同样的处理Transactions交易数集的问题,是与这个基因数集格式相同的嘛,求分享

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 00:39