楼主: hanermimi
8242 7

[学术与投稿] IBM Quest Market-Basket Synthetic Data Generator [推广有奖]

  • 0关注
  • 0粉丝

学前班

50%

还不是VIP/贵宾

-

威望
0
论坛币
8 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
162 点
帖子
1
精华
0
在线时间
1 小时
注册时间
2009-2-16
最后登录
2024-10-24

楼主
hanermimi 发表于 2010-9-2 09:07:07 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
大家好,我是研究关联规则的,用到了IBM Quest Market-Basket Synthetic Data Generator(数据生成器)但是已编译就出错,有用过的吗?可以给详细说说怎么用吗?查了好久,网上所有的帖子都一样,如下:
IBM Quest Market-Basket Synthetic Data Generator是做关联规则挖掘多用的一种人工数据合成工具,这方面论文的实验数据大多是用它生成的数据。下面介绍一下它的使用方法,希望能对大家有所帮助,并希望能相互讨论。
下面附件中有该工具的vc源程序,大家可以下载下来,编译以后有个gendata.exe文件,在cmd命令行窗口中使用该命令加参数就可以了(格式是
gen lit|tax|seq [options])。
具体用法如下:
可以通过 gen lit|tax|seq -help来知道具体参数代表的意思。例如:gendata lit -help 就能知道生成频繁模式数据集的参数怎样设置;
help
Command Line Options:
-ntrans number_of_transactions_in_000s (default: 1000)
-tlen avg_items_per_transaction (default: 10)
-nitems number_of_different_items_in_000s) (default: 100)

-npats number_of_patterns (default: 10000)
-patlen avg_length_of_maximal_pattern (default: 4)
-corr correlation_between_patterns (default: 0.25)
-conf avg_confidence_in_a_rule (default: 0.75)

-fname <filename> (write to filename.data and filename.pat)
-ascii (default: False)
-randseed # (reset seed used generate to x-acts; must be negative)
-version (to print out version info)

例如 gendata lit -ntrans 1000 -tlen 10 就是生成事务书1000000事务平均项集数10的数据集,其它参数采用默认的。

两个文件data和pat
生成文件有两种格式Binary和Ascii,默认的是Binary,加参数-ascii就成了ascii文件。
data 文件:binary格式的data文件每行包括<CustID, TransID, NumItems, List-Of-Items.> 每个元素4字节整数;ascii格式的data文件每行

包括<CustID, TransID, Item>每行33字节 。
pat 文件:包括三部分
1.描述 :例如:
Number of transactions in database = 1000000
Average transaction length = 10
Number of items = 100000
Large Itemsets:
Number of patterns = 10000
Average length of pattern = 4
Correlation between consecutive patterns = 0.25
Average confidence in a rule = 0.75
Variation in the confidence = 0.1
2.项和权重(权重是指项在项集中出现的可能性)例:
592 6.76
709 5.32
1557 6.76
1664 6.67
1882 5.11
3.权重,预期置信度和项集。例:
5.08 0.864 83833 7793 6672
1.29 0.612 23817 4768
3.56 0.631 72214 79288 41542 24380
1.33 0.724 79288 47476 53747 37539
2.34 0.721 79288 47476 53747 90910 32501
3.43 0.832 90660 48678
上面的内容可能不完全正确,如果有错的地方,请大家指出,互相讨论,为我们的实验打好基础,为论文做点铺垫。
[attachment=9139]


但是我还是不明白,源程序我编译时说“内存不能为read”,但是看到有人成功了,我用的vc6.0,郁闷
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Synthetic Generator market basket marke Data IBM Quest Synthetic Generator

沙发
philen1982 发表于 2010-11-18 16:32:01
顶顶顶
顶顶顶
Mining is everything

藤椅
.茨ノ 发表于 2012-5-1 16:11:35
谢谢啊  刚好在找这个

板凳
.茨ノ 发表于 2012-5-1 16:16:49
可是没看见有附件啊

报纸
geokaran 发表于 2013-3-14 02:15:31
good

地板
xjwowangran 发表于 2013-11-14 15:37:40
想知道附件在哪里

7
zj619 发表于 2015-11-2 09:03:37
关于IBM Quest Market-Basket Synthetic Data Generator,我还是没弄懂它的一些参数是什么意思,比如说我想生成T10.I6.D1000K的数据集,命令行该怎么设置

8
王婷最棒 发表于 2017-2-21 10:44:55
IBM数据生成器,主要是关于生成数据后怎么查看数据的问题。我已经编译通过,但是对生成的数据不知道怎么处理。
Number of transactions in database = 1000000
但是我生成的数据只有3000多条
请问如何处理?
衷心的感谢您。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-25 01:45