Data Folder.zip
(652.04 KB, 需要: 5 个论坛币)
本附件包括:- adult.data
- adult.names
- adult.test
- Index
- old.adult.names
Data Set Characteristics: | Multivariate | Number of Instances: | 48842 | Area: | Social |
Attribute Characteristics: | Categorical, Integer | Number of Attributes: | 14 | Date Donated | 1996-05-01 |
Associated Tasks: | Classification | Missing Values? | Yes |
来源:
Ronny Kohavi和Barry Becker
数据集信息:
提取是由Barry Becker从1994年人口普查数据库中进行的。使用以下条件提取了一组合理的干净记录:((AAGE> 16)&&(AGI> 100)&&(AFNLWGT> 1)&&(HRSWK> 0))
预测任务是确定一个人的年收入是否超过50K年。
属性信息:
属性列表:
> 50K,<= 50K。
年龄:连续。
工作类别:私人,自营非收入,自营收入,联邦政府,地方政府,州政府,无薪,从未工作过。
序号:连续。
教育程度:学士,部分大学,11年级,高中毕业生,教授学校,Assoc-acdm,Assoc-voc,9、7-8-8、12,硕士,1-4至10,博士学位,5-6至学前班。
教育人数:连续。
婚姻状况:已婚公民配偶,离婚,未婚,分居,丧偶,已婚配偶缺席,已婚AF配偶。
职业:技术支持,工艺修理,其他服务,销售,行政管理,专业教授,搬运清洁工,机器操作检查,行政助理,农家捕鱼,运输移动,私人住宅serv,保护serv,武装部队。
关系:妻子,独生子女,丈夫,亲戚,其他亲戚,未婚。
种族:白色,亚洲人-帕斯岛,亚洲印第安人-爱斯基摩人,其他,黑人。
性别:女,男。
资本收益:连续。
资本损失:连续。
每周小时:连续。
国籍:美国,柬埔寨,英国,波多黎各,加拿大,德国,美国外围地区(关岛-USVI等),印度,日本,希腊,南美,中国,古巴,伊朗,洪都拉斯,菲律宾,意大利,波兰,牙买加,越南,墨西哥,葡萄牙,爱尔兰,法国,多米尼加共和国,老挝,厄瓜多尔,台湾,海地,哥伦比亚,匈牙利,危地马拉,尼加拉瓜,苏格兰,泰国,南斯拉夫,萨尔瓦多,特立尼达和多巴哥,秘鲁,洪,荷兰霍兰。
相关论文:
Ron Kohavi, "Scaling Up the Accuracy of Naive-Bayes Classifiers: a Decision-Tree Hybrid", Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, 1996


雷达卡




京公网安备 11010802022788号







