楼主: hcy吃猫的鱼
1558 1

[学习笔记] 【学习笔记】1.在y连续的情况下,当x是有两个取值的分类变量时,用t检验;当x ... [推广有奖]

  • 0关注
  • 0粉丝

大专生

78%

还不是VIP/贵宾

-

威望
0
论坛币
484 个
通用积分
6.6935
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
350 点
帖子
48
精华
0
在线时间
9 小时
注册时间
2020-5-5
最后登录
2020-12-3

楼主
hcy吃猫的鱼 发表于 2020-8-18 20:00:17 来自手机 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
1.在y连续的情况下,当x是有两个取值的分类变量时,用t检验;当x是有多个取值的分类变量时,用方差分析;当x是连续型变量时,用方差分析;
2.当数据量低于10万时,不要用机器学习模型,否则会导致结果不准确;
3.小数据:样本量小于1万 ,来源为问卷             大数据:样本量在10万--几亿之间,来源为数据库;
4.方差分析结果显著时,才能进行多重比较;
5.当存在多个x时,用“+”来连接;
6.显著性是小数据的产物,大数据不能用,而应该用业务和效应来解释;
7.单个变量的缺失值用中位数填补,异常值用缩尾处理,特征筛选用回归分析,变换是y的变换,编码是y的编码;
8.多个变量的异常值,特征筛选用回归分析;
9.当缺失值比例小于百分之十几的时候可以用中位数填补,数据量很大时用随机森林填补缺失值;
10.特征筛选:fit.get_support(indices=True)--查看删除后的结果,哪些列被删了,哪些列保留了下来;
11.SelectPercentile(score_func=f_regression,percentile=70):percentile=70表示保留70%的变量,即删除30%的变量;
12.0.1-0.35:低度相关        0.35-0.7:中度相关           0.7-0.9:高度相关          >0.9:高危相关,可能过拟合
13.最小二乘法:数据量控制在10万行以内;
14.列数超过15列时属于高维分析;
15.梯度下降法中参数alpha(学习率)的范围在0到1之间;
16.SGDRegressor()中参数penalty=“l1”时,是lasso回归,penalty=“l2”时,是岭回归;
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:学习笔记 分类变量 t检验 习笔记 percentile

沙发
512661101 发表于 2020-8-18 23:51:11 来自手机

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 00:48