|
例如,[17]使用了从晨星(Morningstar)获得的数据,包括904只不同的基金,这些基金分为七个不同的投资目标:全球债券、增长型、中小企业、纽约市、加州市政、州市政和国家市政。每只基金有28个财务变量,在分析之前都进行了归一化处理。同时,[9]使用了1000份包含财务报表的文件的综合数据集。在[21]中,作者使用了标准普尔500指数历史股票数据集。每天有500只股票,每只股票是一个长度为l的序列,其中l≤ 在[7]中,他们分析了91只不同股票的股价数据集,这些数据可以在link上找到http://finance.yahoo.com.数据涵盖三年;1999年11月1日至2001年11月1日。此外,我们还使用k-means和基于密度的聚类方法分析了两个金融数据集:德国信用卡和客户流失。这两个数据集均由UCI机器学习库提供【22】。德国信贷数据集包含由7个数字属性和13个名义属性描述的客户,这些属性表示良好或不良的信贷风险。数据包含1000个样本案例。搅动数据集是人工的,但据称与真实世界的测量结果相似。它涉及电信客户流失,包含5个标称属性、15个数字属性和3333个示例。我们分析数据集时不借助于名义属性,原因有几个,例如,数字属性是在商业活动或商业市场内部获取的,而名义属性是由市场专家定义的外部概念表示的,其重要性没有得到保证。
|