楼主: 时光永痕
530 0

[数据挖掘新闻] 智能AI意味着智能数据准备 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)四级

35%

威望
0
论坛币
26 个
通用积分
49.8622
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
317 小时
注册时间
2020-7-21
最后登录
2024-5-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
智能AI意味着智能数据准备
每个公司都希望将人工智能(AI)发挥作用。它的潜力似乎是无限的。轻松实现大笔生意收益。
但是,现实打击了:人工智能可以提供的价值并不容易。甚至是AI早期的先驱(或者如果要追溯到1940年代和50年代的AI诞生,AI的重生)的IBM,也都在为其AI做出了努力。沃森AI平台,最广为人知的一项技术是围绕医疗保健领域技术的失败来改善癌症护理的努力。在这一点上似乎达成了广泛共识:
大多数组织在AI项目的某些方面都失败了,根据他们的报告,其中四分之一的报告失败率高达50%。 IDC最近的调查。缺乏熟练的员工和不切实际的期望被认为是失败的主要原因。
Forrester研究 他指出,数据质量问题是最大的AI项目挑战之一,并指出,对于机器学习模型需要哪些数据以及如何准备这些数据,人们通常缺乏了解。
Gartner去年年底所做的一项调查显示,人工智能现在是CIO最受关注的技术,但副总裁兼分析师Andy 罗塞尔·琼斯请注意,他们可能会遭受“非理性繁荣”。在其报告中人工智能和机器学习发展策略Gartner表示,阻碍受访者采用AI的最大挑战是缺乏技能(56%),对AI用例的了解(42%)以及对数据范围或质量的担忧(34%)。
在《华尔街日报》的 万物的未来节IBM高级副总裁Arvind Krishna表示,一个AI项目的大约80%的工作是收集和准备数据。他说,有些公司只是不准备承担与此相关的成本和工作。
“在整个IT领域,大约50%的项目要么延迟运行,要么超出预算,要么终止。我猜想AI并没有太大的不同。”
Rahul Singhal,首席产品官 信息数据一家数据提取,机器学习和数据充实供应商知道业务面临的挑战。他说,企业低估了干净的带注释数据的需求。这反映在以下事实上:数据准备正在崛起。它在2017年的估值为17.8亿美元,预计到2023年将达到60.6亿美元。   
数据质量的内容专家
“这是一个很大的市场机会,” Singhal说。Innodata是该领域的供应商之一,该领域还包括Amazon Turk,Appen,Figure 8和Lionbridge。Innodata从事注释各种领域的非结构化内容的业务已有25年了,并且拥有工作人员方面的主题专家(律师,药剂师等)从事医疗,制药,金融服务和B2B发行领域的项目。
他说:“在为客户创建数字产品时,您将经历理解和注释内容的生命周期。” “您需要专业知识才能成功构建AI应用程序。”
他认为,当公司使用使用众包模式的数据准备提供商来完成这项工作时,不一定会获得专业知识。该模型取决于公司具有自己严格的流程和适当的质量控制,以减少来自注释不良数据的风险。“我们不使用人群。”
教机器
一个 健壮的本体准确的预测需要大量的训练数据。“您必须教机器和算法来理解内容和上下文,” Singhal说。
为了能够构建和部署真正的AI应用程序,公司需要托管服务AI应用程序,这些应用程序一直在寻找来自机器的反馈。
“它正在纠正它。它为机器提供了缩回的反馈回路,使您可以改善机器学习模型。”他说。“要使许多这样的过程实现自动化将需要数年的时间,而这一切都始于拥有惊人的,高质量的带注释的真实数据。”
他说,没有一种方法可以适合所有“工作台”注释工具。公司对SCC(特殊合同条件)法律文件进行注释所需要的内容与对图像进行注释所需要的内容完全不同。例如,Innodata的一位客户想要注释大量的车牌,因此Innodata必须使用视频图像。该公司必须建立一个工作台来同时拍摄3000张图像。这就要求其工程师构建一个工作台,以支持高可伸缩性和图像的快速加载。
信息数据正在为注释复杂文件的市场开拓市场,这些任务用于诸如药品共同警戒之类的任务,以监控已获许可使用的医疗药物的效果。在金融服务领域,它为具有元数据提取合同需求的客户提供支持。对于人寿保险,它正在应用机器学习模型来查看医疗保健数据。  
Singhal说:“我们还在先进技术领域做了大量工作。” “我们的法律专家正在研究不同类型的法规,例如FINRA和FCC 30,并对这些内容进行标记。这些需要高级专业知识,并且坦率地说需要更高质量的“真实数据”,然后可以将这些数据应用于生产用例。”
Singhal说,公司一直在为AI应用的概念验证投入资金。他预计,到2024年,整个AI产品和服务市场规模将达到2000亿美元左右。他们越来越意识到,托管数据准备服务对于那些获得实际回报的投资至关重要。
Innodata还与构建AI应用程序的系统集成商Persistent Systems合作,进行前端工作,以汇总和注释可用于这些应用程序的真实数据。
“我认为我们处于风口浪尖,” Singhal说。“我认为您会看到越来越多的组织正在寻找这种协同作用。”

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:意味着 persistent Forrester GARTNER Systems

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-29 03:57