|
对于幻方数据集,2-din分隔类。对于市场健康数据,视觉设计会产生非线性特征关系,这有助于分离类(至少对于其中一个标签生成规则)。基于算法的约简方法[,,,],如PCA、SVD,甚至特征选择–在大多数情况下,visualrepresentation是基于人类直觉的多特征数据的二维投影。图2a是这种投影及其价值的一个很好的例子,但实际上,这是一个手动过程,我们想在领域专家设计它时强调视觉设计的重要性。虽然没有那么严格,但在许多方面,我们看不到数据专家所做的特征选择与商业专业人员所做的深思熟虑的二维可视化之间的区别。以下选择网格分辨率的步骤将特征空间放大到像素空间,并创建ISE【1】,但也会创建非线性关系和空间依赖关系。通过空间信息捕获,但由于样本数量与特征数量的比率降低[]。虽然这种影响可能会导致图中所示的下降趋势。3,我们注意到,在所有实验中,这个比率保持在大约相同的数量级。因此,这个比率的变化是次要的。此外,如图3所示,预计该比率的微小变化不会导致如此显著的统计趋势。感谢Nikolaos Panigirtzoglou和他的团队为我们提供了市场健康数据,以及有见解的评论和重要想法,帮助我们完成了这份手稿。免责声明仅供参考,如有更改,恕不另行通知。本文由J.P.Morgan的ZF情报研究部编写。
|