楼主: CDA网校
942 0

机器学习常见的错误——核心数据缺乏控制——CDA人工智能学院 [推广有奖]

管理员

大师

62%

还不是VIP/贵宾

-

威望
3
论坛币
31793 个
通用积分
3041.6696
学术水平
260 点
热心指数
268 点
信用等级
235 点
经验
194804 点
帖子
5108
精华
19
在线时间
3693 小时
注册时间
2019-9-13
最后登录
2024-4-30

初级热心勋章

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
CDA人工智能学院致力于以优质的人工智能在线教育资源助力学员的DT职业梦想!课程内容涵盖数据分析、机器学习、深度学习、人工智能、TensorFlow、PyTorch、知识图谱等众多核心技术及行业案例,让每一个学员都可以在线灵活学习,快速掌握AI时代的前沿技术。PS:私信我即可获取《银牌会员》1个月免费试听机会

我们在前面的文章中给大家介绍了很多关于机器学习中常见的错误,当然,这些错误都是需要我们去避免的。在这篇文章中我们继续为大家介绍机器学习中常见的错误,希望大家能够引以为,从而更好地学习机器学习知识。


一般来说,从数据流的角度来看的话,机器学习系统中的数据要经过样本收集、特征生成、模型训练、数据评测等等这样一个流程,在这样一个比较长的流程中,不一定每个环节都是自己可控的,那么在那些不可控的环节,就有可能出现风险,而更可怕的是,由于数据控制在别人手里,如果数据控制出现了问题,那么我们很难清楚实际情况。如果我们以样本收集为例,在大型公司里,这样的工作很可能是由统一负责日志收集的平台部门来做的,而算法团队只要拿来用就可以了。这种做法有好处,也有坏处。好处很明显,就是减轻了算法团队的负担,但是也会带来隐患,就是我们拿到的数据不一定真的是我们要的数据。


大家都知道,正确的数据往往只有一种,但是错误的数据却有很多种错误方法。在样本收集方面,前台发送过来的曝光数据也存在着多种可能性,例如可能是缓存起来的数据,也有可能是用来做SEO的数据等等。这些数据在发送方来看,都是合理的数据,但对于算法模型来看,都不是用户真正看到的数据,而用户真正看到的数据才是我们真正想要的数据。那么作为这份数据的使用方,算法模型很有可能就会受到这种错误数据的影响。而且,最可怕的是,这种错误并不是那种能让程序崩溃的错误能够让我们能在第一时间发现,而是完全隐藏在正常数据中,只有我们犯了错误以后返回来找问题时或许才能发现。


那么大家是否知道这种错误数据出现的原因是什么呢?其实这种错误并不是一定日志收集团队不负责任,关键在于收集日志的团队不使用日志,或者说出数据的人不用数据,那么就很难要求他们来保证数据的质量。这种分离的状态对于模型算法这种高度依赖数据的应用是有风险的,所以最好能够加强这部分数据的控制能力,如果自己不能完全独立来做,那么就要有对应的监控机制,这就需要我们做到有问题能及时发现、及时处理,而不是“拿来主义”。


在这篇文章中我们给大家介绍了机器学习中常见的错误,具体就是对核心数据缺乏控制,相信大家阅读了这篇文章以后已经知道了这种错误导致的后果,希望这篇文章能够更好地帮助大家理解机器学习

115940p38xxaeu3qe8qwxe.webp (1).jpg

关注“CDA人工智能学院”,回复“录播”获取更多人工智能精选直播视频!



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:机器学习 人工智能 CDA Tensor 深度学习

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-30 21:00