楼主: jessie68us
433 1

[学习笔记] 【学习笔记】 不适当地拆分数据 在建模时,机器学习从业者通常将数据分成训练 ... [推广有奖]

已卖:211份资源

巨擘

0%

还不是VIP/贵宾

-

威望
0
论坛币
249468 个
通用积分
110270.3171
学术水平
777 点
热心指数
852 点
信用等级
771 点
经验
683174 点
帖子
43470
精华
0
在线时间
16374 小时
注册时间
2018-9-1
最后登录
2026-1-8

初级热心勋章 中级热心勋章 高级热心勋章

楼主
jessie68us 发表于 2019-8-14 12:15:16 来自手机 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

不适当地拆分数据

在建模时,机器学习从业者通常将数据分成训练集和测试集,用训练集训练模型,用测试集评估模型的性能。研究员通常会随机拆分数据,但是现实生活里真正随机的数据少之又少。他们可能包含了时间趋势,例如收集数据方法的变化,或是收集信息的各种选择。

例如,这种历史模式隐藏在分子数据集中,而机器学习算法正在对这些数据集进行虚拟筛选,以寻找候选药物。这里的挑战在于预测一个分子如何会被有效地被人体吸收或减少炎症。筛选从有关分子的数据开始,这些分子具有或不具有预期的效果,但是收集数据的背景或许会与机器学习模型的使用方式有所不同。

一个模型可能是用一组公开可用的分子数据集训练的,然后用于测试另一组专有的分子数据集。而当有希望的候选项被检测和丢弃时,化学家的关注点往往从某些分子群转移到另一些分子群。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 学习笔记 从业者 习笔记 机器学习算法

已有 1 人评分论坛币 收起 理由
经管之家编辑部 + 40 精彩帖子

总评分: 论坛币 + 40   查看全部评分

学海无涯

沙发
经管之家编辑部 在职认证  发表于 2019-8-14 12:37:02
学习笔记奖!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-31 19:04