统计分两种类型:描述性统计以及推断性统计。
描述性统计: 就是对所统计的一堆数(样本)进行描述,比如计算样本平均值,样本标准差什么的。这基本的统计是为了得到关于样本的数据(或者参数),从而大致上了解样本的情况以及特点。就像你一个学校男女生比例,全年级考试平均分的情况从而了解同学们学习情况反馈。
推断性统计: 是建立在描述性统计之上的。它利用你所知道的基本描述性数据来推测出更大的数据。举个例子,你想知道全中国人民的身高去跟日本人的平均身高去比较,但是你不可能去一个一个统计所有人身高,那你怎么办呢?你只能尽量选一个大的样本,算出来统计参数之后,再去估计总体的数据。这就是推断统计,也就是筒子们所知道的抽样调查。
CFA考试主要就是考察推断性统计。考察推断性统计就是为了考察3件事:
1.如何抽样?
2.如何计算样本统计量(参数)。
3.如何用样本参数计算总体参数。
1. 抽样
CFA考试只有两种方法:简单随机抽样以及分层抽样。
简单随机抽样:让总体中每个被抽到的概率都相等。(难实践,概率不等。)
分层抽样:总体中的个体先分类。分出的子类在当作为一个样本进行抽样。这个在金融中的应用就是股票指数。举个例子,上证有几千个股票,但上证只有1000个样本。这1000个是分别在大盘股,中盘股以及小盘股中选出来组成上证。这就是典型的分层抽样。
2. 抽样误差
有两句话特别重要,对以后理解中心及限定里很重要:
1.总体参数是常数。 e.g.13亿人的平均身高。这个数值是一个固定的,没一分钟每一秒都会有一个固定确定的数。
2.样本统计量是随机变量。 样本均值看样本。不同样本可能就会有不同的均值。 e.g.随机选出100个中国人,这100个人的样本如果与下一个100个人的样本不一样(换一批),则样本均值很可能不一样,也是随机的。
由于以上两个基本情况,所以会导致2种误差:抽样误差,非抽样误差。
抽样误差:样本统计量是随机变量,不一定等于总体统计量。因此抽样误差无法被避免。想减小抽样误差的最好办法就是增大样本容容量,让样本容量尽量接近总体数量。
非抽样误差:抽样误差不可被避免,非抽样误差(笔误,听错,抄错,询问错误,不愿意回答,无法回答)所导致的误差可尽量减小,认真一点就避免了。
3. 抽样分布
随机变量是变量,所以会有分布。这个分布就是随机分布(正太分布)。
样本均值与样本方差来源于随机选择出来的样本,所以样本均值与方差满足随机分布,也是正太的。
样本均值是随机分布,所以样本均值也会有样本均值的的期望以及样本均值的方差。
样本方差是随机分布,所以样本方差也会有样本方差的的期望以及样本方差的方差。
公式自己找。
数据分2大类:
1.时间序列数据: e.g.历年a股的数据。
2.横截面数据: e.g.今天下午2:00时,a股1000个股票的各个股价。
4.中心及限定里:从总体中选择一个样本,有样本均值以及样本方差。这个样本一定是正太分布(不管总体是人和分布,只要是从总体中选择样本,则样本的分布一定是正态分布)。
注:俄罗斯数学家切比雪夫研究中心及限定里时发现了切比雪夫不等式,这个也是中心及限定里中的很重要的一个性质。历史上是自从有了中心及限定里,也就才有了推断统计学。
中心及限定里有三个重要性质:
1.样本均值是随机变量。所以样本均值的分布抽样接近正态分布,且n越大,越接近正太。 (连续性)
2.样本均值的均值就是样本的期望值也就是总体的均值。 (无偏性)
3.样本均值的方差等于(总体方差/n) (有效性)
5.五种偏差
1.data mining:一只股票有过去n天价格,有m中交易模式。此种必然有一种必然最好,但不代表真正最好的。
2.样本选择偏差:因为无法保证从总体中抽出来的概率相同,所以就会出新选择偏差。 e.g.1936年美国大选,100万个电话打过去问出120万个数据说兰顿当选总统,但是出来确是5万人的小抽样选出来的样本数据所证明的罗斯福当选总统。原因就是因为1936年有电话的人都是极端富裕的,所以样本选择上是有偏差的。
3.生存着偏差:对股票指数来说,现在的股票指数所包含的股票与50年前的是不一样的。原因是有些公司破产有些新公司加入,所以中间的替换会让指数的组成发生变化。 e.g.对冲基金淘汰率非常高,所以生存者偏差很明显。
4.前视偏差:用以后看以前,去年年1月1日买PE最小的股票都能赚钱,今年不知道,明年也不知道是否是这样子。
5.时间序列:时间跨度不容易选对。你选数据是选1年的还是2年的还是5年的更准确,没有人知道。


雷达卡


京公网安备 11010802022788号







