楼主: 时光永痕
491 0

[数据挖掘新闻] 数据从何而来? [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)六级

31%

威望
0
论坛币
26 个
通用积分
57.2086
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34190 点
帖子
2733
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据正以越来越快的速度推动世界向前发展。它用于帮助机器学习、优化人工智能驱动的计算机,并以令人难以置信的准确度预测未来结果。我们的现代时代仍然是由数据推动的持续技术突破所定义的。原始数据是新技术的指导,有助于使新的发展与现实和日常功能保持一致。

数据使我们能够更好地控制我们的生活。无论是告知公共政策、微调自动驾驶汽车、预测我们何时需要重新订购洗手液,还是在社交媒体上为我们提供相关内容建议,数据都可以帮助回答我们关于生活的问题,通常是在我们之前甚至意识到我们已经拥有了它们!

由于其作为一种商业智能形式的强大功能,消费者数据对几乎每家公司来说都是无价之宝。对于将机器学习用于其产品的科技公司来说,数据尤其有价值。原始数据可以帮助增强由机器学习驱动的软件的能力,方法是使用它通过它提供的原始数据“学习”关于现实生活的东西。

与人类不同,机器学习工具不需要休息学习,因此人工智能计算机似乎不可避免地会成为未来许多科学发现的源泉。雄心勃勃的科技初创公司如何才能最好地访问大量数据并保持控制?

在本文中,我们将讨论收集或接收数据的前五种方式,无论是帮助优化人工智能驱动的机器还是简单地预测未来的消费者需求。



原始数据从何而来?


数据存在于我们周围,但为特定项目收集和组织数据有时可能会让人不知所措。以下是原始数据的前五个常见来源。



1. 公开数据


我们将从最明显的数据来源开始——公共数据,这些数据可以在政府记录或其他公共数据库(如 Facebook、LinkedIn 或 Google)中找到。公共数据是公开的任何信息,例如报纸报道、城市人口普查信息或选民登记名单。随着我们的社会继续将更多技术融入日常生活,收集到的关于人们的数据只会继续增长。

例如,最近的一项研究表明,通过美国人口普查局收集的信息可以准确地预测社区的人口变化,从而可能消除劳动密集型的挨家挨户人口普查调查的需要。虽然这是一个无害的例子,但收集公共数据的其他技术改进,如面部识别技术,仍然是有争议的数据收集模式,因此很少使用。

无论您是通过 Twitter 作为情绪分析的一部分,还是使用当地人口统计数据来构建初步数据模型,公共数据都可以成为一个有用的基础。虽然它是您的研究或项目的良好起点,但它也使您的数据模型更容易复制。统计数据显示,81% 的零售商大量收集数据以帮助其营销和发展。

使用公共数据可以使您的模型更加通用,但它可以带来一定程度的透明度,可以增加您的项目。例如,比特币等加密货币在公共区块链上进行交易,无需许可且所有人都可以访问,但交易仍然非常安全。



2. 使用您的软件的数据


现在您已经有了一个基于公开可用数据的模型,是时候使用更具体的数据对其进行微调了。

用于机器学习或开发人工智能程序的最佳数据是特定于您的程序或用户类型的数据。例如,自动驾驶汽车不断从驾驶员那里收集数据,以提高他们的自动驾驶能力。对话式 AI 聊天机器人依靠数据输入和用户行为来增强其回复请求和准确回答问题的能力。

这是一种非常相关的数据收集方式,因为它是高度指定的。例如,如果您正在为一家从事金融工作的公司开发由人工智能驱动的搜索数据库,您可以使用公开可用的财务数据来开始数据库的基础构建。但是,要真正完善数据库,使其针对财务部门中出现的问题和查询类型进行定制,该软件将需要依靠与用户的交互来学习。这就是为什么人工智能驱动的软件一开始可能笨重或无关紧要,随着频繁使用而变得更加准确和高效。



3. 人工进入


另一种收集数据的方法来自人工输入。在这种方法中,训练有素的操作员或工程师在设计或应用程序的同时收集数据。在系统运行时手动监督和控制系统,开发人员可以为他们的新模型开发原型,同时收集真实世界的数据。一个系统一开始可能 70% 由操作员控制,30% 是自主的,但一旦收集到足够的数据,并且人工智能得到支持,系统可能会随着它“学习”如何表现而发展为 95% 的自主。

例如,自动驾驶汽车要经过 5 个阶段才能完全自动驾驶。这些汽车从最低限度的自动驾驶功能开始——例如检测前方汽车并刹车、直行以保持在车道内或保持一定速度的能力。这些功能由摄像头和传感器提供支持,它们在收集有关驾驶行为、社区和常见路障的数据方面也发挥着重要作用。



4. 数据收集


一种较为老式的数据采集形式,“蛮力”数据采集仍然是一种有效的方法。这是有目的地收集数据而不是从公开数据中获取或作为产品测试或开发的一部分。例如,城市人口普查员可能会挨家挨户核实居住在那里的公民的信息。类似地,测量车辆的任务是在社区周围行驶以收集图像,以创建高清地图。

在这两种情况下,主要目标都是数据收集。寻找模式和使用数据是后来才出现的——无需人工或人工智能干预,使数据变得有意义。虽然这种方法既费时又费力,但这种来之不易的数据很难让竞争对手复制。


5.购买数据集


公司获取高质量数据的一种越来越流行的方式是简单地从信誉良好的公司购买数据集。购买用于模型的数据时,您无法控制接收到的数据的类型或质量,并且始终有可能它已过时或与您的项目无关。

但是,这是获取开始训练程序所需的数据的一种快速简便的方法。使用这种方法获取数据的公司应在购买前研究他们购买的公司的声誉、数据的来源以及收集方式,以确认这些数据与他们的目的相关。



结论


数据就在我们身边,并将继续推动我们社会的技术发展。随着人工智能和机器学习推动我们进入一个激动人心的新时代,我们将看到科技公司对高质量和实时数据的需求不断增长。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:CDA LEVEL LinkedIn FACEBOOK twitter excel函数

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-5 21:56