发帖

楼主: 醉客天涯

3448 0

[信息经济学] 人工智能发展一大瓶颈：缺乏高质量数据集 [推广有奖]

9关注
62粉丝

版务助理

院士

42%

还不是VIP/贵宾

-

TA的文库 其他...

管理学经典文章收录

0%

威望: 0 级
论坛币: 28347 个
通用积分: 4143.5988
学术水平: 121 点
热心指数: 147 点
信用等级: 100 点
经验: 32574 点
帖子: 1898
精华: 0
在线时间: 1734 小时
注册时间: 2011-9-20
最后登录: 2024-1-5

醉客天涯

发表于 2018-3-5 22:42:34 |显示全部楼层 |坛友微信交流群

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

人工智能发展一大瓶颈：缺乏高质量数据集

用于机器学习用途的数据，其“不合理的有效性”引发了多年的广泛争论。也有观点认为，制约人工智能（AI）领域很多重大突破的，并非算法不够先进，而是缺乏高质量数据集。想要开发出最先进的机器学习技术，数据至关重要，这是贯穿那些讨论的共同主题。

　对于在业务中将机器学习作为核心技术的初创公司来说，能否获得高质量的训练数据极为关键。虽然很多算法和软件工具都是开源和共享的，但好的数据集通常是专有的，且很难创建。因此，拥有针对特定领域的庞大数据集，能够成为竞争优势的一个重要来源，尤其是在初创公司能够快速引发数据网络效应的情况下（更多的用户→更多的数据→更智能的算法→更好的产品→更多的用户）。

　　所以，如何创建高质量数据集以用于训练学习算法，这是机器学习初创公司必须作出的一个重要的战略决定。不幸的是，在刚开始的时候，初创公司的标记数据常常十分有限，甚至缺失，为他们在数据驱动型产品的打造上取得重大进展增添了阻碍。因此，在聘请数据科学团队或者部署昂贵的核心设施之前，有必要从一开始就研究制定好数据采集的策略。

　　很多方法都可以帮助初创公司克服数据采集的冷启动问题。数据策略/来源的选择通常与商业模式的选择、公司的关注点（消费者或企业，水平或垂直，等等）以及融资的情况息息相关。以下是五种数据采集策略，虽然并不详尽，且多少互有重叠，但能让你对很多可用的方法有一个直观的感受。

　　策略一：人工作业

　　从零开始创建好的专有数据集，几乎永远意味着预先投入大量人力采集数据，执行难以规模化的人工任务。靠蛮力开路的初创公司有很多。例如，很多聊天机器人初创公司聘请人类担任“AI训练师”，让他们手动创建或核实虚拟助手作出的预测（实际效果各异，且员工流动率高）。就连科技巨头都采用这种策略：Facebook虚拟助手M的所有回答，都由一支合同工队伍进行检查和编辑。

　　只要数据网络效应在某个时候生效，所需人力不再跟随客户数量同步增加，那么用蛮力来手动标记数据点的策略就能取得成功。一旦AI系统的进步速度够快，不明确的异常值就会变得更少，进行手动标记的人员数量就可以减少或者保持不变。

　　适用于：几乎所有的机器学习初创公司

　　例子：

　　*很多聊天机器人初创公司（包括Magic、GoButler、x.ai和Clara）

　　*MetaMind（手动采集和标记的食物分类数据集）

　　*BuildingRadar（由员工/实习生手动标记建筑物图片）

　　策略二：缩小范围

　　大多数初创公司都会试图从用户那里直接采集数据，但问题在于，在机器学习的好处尚未全部体现出来之前，会很难说服早期采用者使用产品（因为先要有数据才能训练和改进算法）。避开这种两难处境的一个方法是大幅缩小问题域（如果以后有需要再扩大范围）。克里斯·迪克森（ChrisDixon）说：“你需要的数据量与你试图解决的问题广度有关。”

　　关于缩小范围的好处，聊天机器人再次成为很好的例子。这个领域的初创公司可以在两个市场进入策略之间做出选择：一种是打造水平型虚拟助手，也就是帮助解答很多问题并响应即时请求的机器人，例如Viv、Magic、Awesome、Maluuba和Jam；一种是打造垂直型虚拟助手，也就是力求极为出色地完成某项明确具体工作的机器人，例如x.ai、Clara、DigitalGenius、Kasisto、Meekan和近期的GoButler。虽然两个方法都可行，但解决闭域问题的初创公司在数据的采集上要容易许多。

　　适用于：垂直整合型公司

　　例子：

　　*高度专业化的垂直型聊天机器人（比如x.ai、Clara和GoButler）

　　*DeepGenomics（利用深度学习技术对基因变异进行分类和解读）

　　*QuantifiedSkin（利用客户自拍照进行皮肤分析）

策略三：众包

　　除了让合格的员工（或实习生）手动采集和标记数据外，初创公司也可以采用众包方式。AmazonMechanicalTurk和CrowdFlower等平台就是利用无数的在线劳动力来清除无效和不完整数据的。比如，VocalIQ就是通过AmazonMechanicalTurk平台，向自己的虚拟助手输入成千上万个用户提问。此外也可以将工作人员外包，雇佣其他的独立合同工（Clara和FacebookM就是这么做的）。采用众包策略的必要条件是，任务必须解释清楚，并且不能太过费时和枯燥。

　　另一个方法是激励民众自愿提供数据。比如，位于巴黎的人工智能初创公司Snips就是通过这种方法获得特定类型的数据的（餐馆、酒店和航空公司的确认邮件）。和其他初创公司一样，Snips使用了一种游戏化的系统，会将用户在积分榜上进行排名。

　　适用于：可以轻松实施质量控制的用例

　　例子：

　　*DeepMind、Maluuba、AlchemyAPI和其他很多公司

　　*VocalIQ（利用MechanicalTurk平台教导自己的虚拟助手人类的交谈方式）

　　*Snips（让人们免费提供数据以供研究）

　　策略四：副业

　　计算机视觉初创公司似乎特别喜欢的一种策略，就是提供一款面向消费者、针对特定领域的免费移动应用。Clarifai、HyperVerge和Madbits都采用了这种策略。他们推出照片应用，以便为他们的核心业务收集更多的图像数据。

　　这种策略并非完全没有风险（毕竟，应用的开发和推广也要花费时间和金钱）。初创公司还必须确保他们创造的用例充满吸引力，足以让用户甘愿交出他们的数据，哪怕这项服务在一开始缺乏数据网络效应。

　　适用于：企业创业/水平平台

　　例子：

　　*Clarifai（照片发现应用Forevery）

　　*HyperVerge（照片组织应用Silver）

　　*Madbits（照片拼贴应用Momentsia）

　　策略五：公开可用的数据集

　　很多初创公司都尝试过这种策略，虽然效果各异。具体做法就是从公开可用的来源挖掘数据。诸如CommonCrawl这样的网络档案包含了多年采集网络信息而得到的免费原始数据，容量高达几PB。另外，雅虎和Criteo等公司已经向研究团体发布了庞大的数据集（雅虎发布了13.5TB的未压缩数据）。随着近来公开可用的政府数据集（在奥巴马政府的带头下）大量增加，免费开放的数据源正在变得越来越多。

　　几家机器学习初创公司已经在利用这类公开数据。奥伦·埃齐奥尼（OrenEtzioni）初创Farecast时，使用的样本包含1.2万个价格观察值，这些是他从一家旅游网站的信息中搜刮出来的。同样，SwiftKey在起初的时候从网上收集了数TB的数据并加以分析，从而建立起自己的语言模型。

　　适用于：能够找到相关公开数据集的初创公司

　　例子：

　　*Farecast（第一版的数据来自于一家旅游网站）

　　*SwiftKey（从网上收集数据建立语言模型）

　　*Jetpac（利用公开的Instagram数据开发移动应用）

　　还有很多其他的数据采集策略没有在本文中提及。初创公司也可以利用几个算法技巧避开数据问题（比如MetaMind采用的迁移学习）。不管你使用哪种策略，关键在于获取和拥有针对特定领域的庞大数据集，用以打造高准确度的模型，这是创业者在开始时唯独最难解决的问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

[信息经济学] 人工智能发展一大瓶颈：缺乏高质量数据集 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

本版微信群

[信息 经济学] 人工智能发展一大瓶颈：缺乏高质量数据集 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

本版微信群

[信息经济学] 人工智能发展一大瓶颈：缺乏高质量数据集 [推广有奖]

扫码加我拉你入群