问题背景:
现在我有多个国家的500个左右的宏观经济变量, 希望用他们来预测某个公司在各个国家的某个指标的未来走向。 由于不知道(至少不敢确定)哪些宏观经济变量与该指标有必然关系(因果关系), 所以采用了如下方法:
参数设置:
unstandardized prediction
95% confidence level
95% individual prediction confidence
stepwise
建模过程:
1. 就每个国家,将500多个变量输入SPSS
1.1 如果能产生模型, 则随机除去产生模型中的一个变量, 将剩下的499个变量作为独立变量输入到SPSS
1.2 如何还能产生模型, 则继续上一步骤
1.3 如何不能产生模型, 随机从留下的变量中剔除一个, 继续
1.4 运行到满足一定次数,或产生足够的备选模型后停止。
该过程由程序调用SPSS, 所以不怕麻烦, 但是我不知道这样有否科学依据。
如此往复,就每个国家,我得到了几十个模型,每个模型基本包括1-6个独立变量。『之所以我删除变量是因为:我发现我手工剔除变量,产生的模型会不一样, 所以我不知道SPSS产生模型的原理,只能笨的采用遍历方法-- 虽然遍历的很不彻底』
就这些模型, 我现在利用如下标准进行筛选:
1. Rsuquare - 高的加分, 是1的减分 - 没有完美的世界是吧 呵呵
2. 模型 pvalue (sig) >0.05 舍弃, <0.01 加分, 否则 也不减分
3. 模型中采纳的变量是否与dependent var 有直觉的因果关系(比如行业相关的变量), 如有, 加分; 没有也不减分
4. 查看模型预测值与实际历史值的走向 (即是否一起上升, 一起下降), 走向一致性高的,加分; 低的减分
5. 预测出来的指标值变动剧烈 ( 我预测某个公司的表现, 很多rsquare很高的,居然很快该值就负值了!),减分
6. 模型只包括一个变量的,减分 (直觉让我觉得这只是纯粹数字层面的correlation,而背后无法解释)
通过上面的过程, 从几十个模型中选择一个作为某个国家的预测模型来预测该指标的未来表现。
我知道这样做显得很不够科学, 但是尚没有系统学习统计分析预测, 希望张老师拨冗就整个过程指点,
哪些步骤是完全错误的, 没有必要的, 以及烦请指点如何改进。
非常感谢!