请选择 进入手机版 | 继续访问电脑版
楼主: sensible
3872 2

[Stata高级班] 请教关于离群值的处理问题 [推广有奖]

  • 0关注
  • 0粉丝

VIP

大专生

43%

还不是VIP/贵宾

-

威望
0
论坛币
4192 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
503 点
帖子
20
精华
0
在线时间
82 小时
注册时间
2005-7-28
最后登录
2018-4-17

sensible 发表于 2012-8-21 10:56:24 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
连老师您好。有关回归分析中离群值的问题,我想请教:1)通常怎样判断存在离群值?或是何种情况下到达需要处理的程度?
2)对离群值可采用简单删去的方法吗?或更经常的是做些相应的修正?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:离群值 回归分析 连老师 回归分析

arlionn 在职认证  发表于 2012-8-21 16:24:58 |显示全部楼层 |坛友微信交流群
这些内容在 Stata 初级视频 A2_data 部分有详细讲解,截取一部分如下:

*_____________________
*-2.5.3 离群值的处理

    *-2.5.3.1 删除
        
      sysuse auto, clear
      adjacent price, by(foreign)
      drop if (price>8814&foreign==0) | (price>9735&foreign==1)
         
          *-or            // 需要提前安装-egenmore-相关命令
          sysuse auto, clear
          egen outby = outside(price), by(foreign) factor(2)
          drop if outby != .
         
  
    *-2.5.3.2 对数转换
        
      sysuse nlsw88, clear
      gen ln_wage = ln(wage)
         
      twoway (histogram wage,color(green))      ///
             (histogram ln_wage,color(yellow))
                        
      sum wage ln_wage, d
         
      graph box wage
      graph box ln_wage


    *-2.5.3.3 缩尾处理
        
      sysuse nlsw88.dta, clear
      histogram wage
         
      *-双边缩尾
        winsor wage, gen(wage_w2) p(0.025)
               
                *-图示
        twoway (histogram wage,color(green))      ///
               (histogram wage_w2,color(yellow)), ///
               legend(label(1 "wage") label(2 "wage_winsor2"))
                           
      *-单边缩尾
        winsor wage, gen(wage_h) p(0.025) highonly
                *-图示
        twoway (histogram wage,color(green))      ///
               (histogram wage_h,color(yellow)),  ///
               legend(label(1 "wage") label(2 "wage_winsorH"))
               
               
      *-若无法下载 winsor 命令,可以采用如下处理方法:
            
                _pctile wage, percentile(1 99)
                replace wage = r(r1) if wage<r(r1)
                replace wage = r(r2) if wage>r(r2)
               
                *-亦可采用 clip() 函数 (参见第2.1.2.6小节,第385行)
                 gen wage_w = clip(wage, r(r1), r(r2))
                 sum wage wage_w, detail

        
        
    *-2.5.3.4 截尾处理
        
      sysuse nlsw88, clear
      _pctile wage, percentile(1 99)
      return list
      drop if wage<r(r1)  // 删除小于第1百分位的样本
      drop if wage>r(r2)  // 删除大于第99百分位的样本
      
      *-说明:
      * (1) 可以先绘制直方图,进而根据分布情况选择左截尾、
          *     右截尾还是双边截尾
      * (2) 相比于ln()处理和winsor处理,该处理会损失样本
      *     但对于大样本而言,该方法比较“干净”

使用道具

sensible 发表于 2012-8-29 01:17:09 |显示全部楼层 |坛友微信交流群
谢谢连老师的耐心:)我看了视频,非常清晰。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-19 01:54