请选择 进入手机版 | 继续访问电脑版
楼主: 胖胖小龟宝
233733 135

告诉你为什么数据要取对数     [推广有奖]

大师

21%

还不是VIP/贵宾

-

TA的文库  其他...

龟宝的档案室

威望
3
论坛币
793110 个
通用积分
21961.1755
学术水平
2211 点
热心指数
2133 点
信用等级
1424 点
经验
978890 点
帖子
10001
精华
25
在线时间
4757 小时
注册时间
2012-7-27
最后登录
2020-12-21

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系,取对数作用主要有:
1. 缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。


2. 取对数后,可以将乘法计算转换称加法计算。

3. 某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。例如,中文分词的mmseg算法,计算语素自由度时候就取了对数,这是因为,如果某两个字的频率分别都是500,频率和为1000,另外两个字的频率分别为200和800,如果单纯比较频率和都是相等的,但是取对数后,log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411,这时前者的和更大,取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见,所以选择前者。

从log函数的图像可以看到,自变量x的值越小,函数值y的变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。

也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了。

4. 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,例如800/200=4, 但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。

5. 所得到的数据易消除异方差问题。

6. 在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a*1/X, b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好是弹性的定义

当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:告诉你 取对数 数据取对数 对数函数 相关关系 取对数 弹性 回归

已有 15 人评分经验 论坛币 学术水平 热心指数 信用等级 收起 理由
小小马克思 + 1 + 1 + 1 + 1 精彩帖子
七小泡 + 5 + 1 + 1 + 1 精彩帖子
救星105033 + 5 + 5 + 5 + 5 精彩帖子
只知智 + 1 + 1 + 1 精彩帖子
xu245462834 + 5 + 3 + 3 + 3 精彩帖子
kychan + 10 + 1 + 1 + 1 精彩帖子
日新少年 + 5 + 5 + 5 精彩帖子
eijuhz + 20 + 2 + 3 + 1 精彩帖子
sfhsky + 1 + 1 精彩帖子
zl89 + 60 精彩帖子

总评分: 经验 + 90  论坛币 + 57  学术水平 + 25  热心指数 + 25  信用等级 + 22   查看全部评分

本帖被以下文库推荐

学习了
双面人

使用道具

wtc#sofa 在职认证  发表于 2014-5-4 10:47:31 |显示全部楼层 |坛友微信交流群
现实中用的比较少吧?
Sofa

使用道具

diligentsai 学生认证  发表于 2014-5-4 10:51:17 |显示全部楼层 |坛友微信交流群
我觉得减少异方差和求弹性用的比较多!嘻嘻……紧代表个人意见!

使用道具

diligentsai 发表于 2014-5-4 10:51
我觉得减少异方差和求弹性用的比较多!嘻嘻……紧代表个人意见!
我也这么觉得

使用道具

hocuser 发表于 2014-5-4 12:37:22 |显示全部楼层 |坛友微信交流群
xiexiele !

使用道具

使用道具

It's good for me. Thanks~

使用道具

学习了

使用道具

Alfred_G 学生认证  发表于 2015-1-5 10:14:29 |显示全部楼层 |坛友微信交流群
科普贴,学习之~

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 10:11