我们产生比以往更多的数据。每天,个人发送超过5亿条推文,创建4 PB的Facebook数据并生成4 TB的位置数据。
同时,公司正在转向物联网设备网络来提供持续的数据流,以用于驱动策略。在某些情况下,此信息可公开获得。政府机构正在收集和发布大量信息,例如有关一年中飓风的每分钟至每分钟的风速数据,或有关地震及其烈度的公共日志。
预计到2020年,整个数字宇宙将达到44 ZB的数据,换句话说,可观测宇宙中的每颗恒星将有40字节的数据。
对于数据记者来说,这是个好消息,也有个坏消息。现在可以分析的信息比以往任何时候都多,而且对于几乎任何主题,都已经有人对其进行了量化。但是,还有太多的事情,甚至单个数据集所包含的信息也可能超过一位记者希望分析的信息。如果他们想利用此信息,则需要高级工具。
结果,数据记者转向了人工智能(AI)技术来分析这些大量发现。借助大数据 分析,人工智能可以帮助记者以前所未有的速度分析这些信息。同时,人工智能技术可以引入错误并复制偏见,同时又可以使不良数据具有合法性。
人工智能和大数据如何与新闻业合作
数据新闻业是新闻业发展最快的领域之一。新闻编辑室希望赶上每天产生和发布的大量信息,希望拥有兼具新闻和数据科学技能的人们。
人工智能通常与大数据一起使用,以筛选和分析对于人类分析人员而言无法涵盖的信息集。新闻编辑室和数据新闻工作者对使用AI检查数据和发现新故事感兴趣。
像在大多数领域一样,人工智能现在不会取代任何从事新闻工作的人。专家估计,目前的AI技术只能完成新闻工作者工作的15%,而编辑工作只能完成 9%。相反,它将用作工具或数字助手。它也用于检查传统分析无法处理的数据集,例如照片。尽管该技术尚未普及,但一些出版物已经在其新闻编辑室中使用了AI和大数据。
然而,人工智能并非没有争议。记者必须考虑许多数据新闻的利弊。
人工智能在数据新闻学中的优势
人工智能最大的好处之一就是它可以比任何人类更快地扫描大量数据。
2017年,路透社开始使用AI驱动的新闻制作算法,即路透社新闻追踪器(Reuters News Tracer),以帮助其新闻记者以比其他任何来源更快的速度报道新闻。该算法扫描Twitter等社交媒体网络,以获取具有新闻价值的事件和讨论。然后,它挑选出关键点并为其找到的信息分配一个置信度分数-让记者一眼就知道该信息对算法的可信度。
取决于记者将文章变成文章,但与其他作家相比,他们将拥有显着优势。该算法可以让他们在8到60分钟之间的任何时间领先。
到目前为止,它已经帮助路透社打破了50多个主要新闻报道,超越了其他新闻媒体。
其他新闻编辑室也纷纷效仿,并开始开发自己的AI技术,旨在帮助记者更快地报道突发新闻。例如,彭博新闻社发布的所有内容中,约有三分之一是在公司内部AI机器人“半机械人”的帮助下制作的。《卫报》和《福布斯》也已开始在其新闻编辑室中使用AI-算法扫描数据以获取新的见解,然后使用该信息生成模板和草稿以供记者充实。
AI的另一个好处可能是使记者更容易将未连接的数据集组合在一起。Google推出的一项新的AI技术可以使用AI 挖掘互联网数据源,并将看似无关的信息拼接在一起,以建立更好的风险预测和管理模型。将来,作家可能会使用类似的工具来寻找在不同数据集之间讲述的故事。
这是避免新闻和商业都面临的问题之一的好方法-数据过多,通常无法分辨出什么是有价值的,什么是不有价值的。
数据新闻学中AI的缺点
随着越来越多的新闻编辑室开始开发自己的AI技术,越来越多的新闻记者和媒体专家开始考虑可能的弊端。
一些记者对此表示怀疑,并担心如果滥用AI算法可能会导致数据优先新闻。他们担心,新闻编辑室现在与数据的关系不正确-一件事人工智能不会改变。
曾与路透社,《华尔街日报》和英国广播公司(BBC)合作的数据记者杰里米·瓦格斯塔夫(Jeremy Wagstaff)就是其中之一。瓦格斯塔夫(Wagstaff)采访了安德鲁·马歇尔(Andrew Marshall),他利用犯罪数据打破了有关菲律宾当前毒品战争中警方掩盖事实的故事。
这个故事是一个由数据驱动的新闻报道,甚至赢得了马歇尔和他的团队的普利策奖-但是数据并不是马歇尔开始的地方。取而代之的是,该过程看上去更具常规性。马歇尔从小费起家,调查了有关掩盖事件的轶事证据,然后将故事讲到了可以追踪数据的地步。
在这种情况下,实地考察使记者获得了有用的信息,这些信息被用来发现故事。过多地依赖数据可能会使记者摆脱繁琐的工作,而这往往是良好报道的必要条件。
即使使用AI,数据记者也需要保持对他们使用的统计数据的不信任感-不能总是信任最全面的信息来源。例如,我们知道Facebook以前曾伪造过有关其平台的信息。它还通过Facebook Data for Good发布大量数据。可以在有关Facebook或在线新闻的文章中信任Facebook的信息吗?
记者可能不得不面对这样一个事实,即即使依靠AI进行备份,依靠最大的数据集也会使他们陷入无法获得所有答案的情况。更糟糕的是,他们可能将出版物的声誉带给虚假的信息。
这些项目旨在为记者提供可靠和公正的数据,例如OpenElections(收集和证明选举数据)和CensusReporter(使人口普查信息更易于记者访问)。但是,对英国数据新闻业的一项研究发现,新闻文章中的大多数统计数据都是从政府机构,政客和公司整理的数据中提取的。人工智能是一种有用的工具,但不能挽救来自不良或误导性消息来源的记者。
这一切都没有提到让AI决定要追寻哪些故事可能不是最好的主意。越来越多的人使用AI算法,最大的担忧之一就是它们倾向于重现现有偏差。经过充分训练的AI算法只能复制现实 -包括从他们学习的数据中已经存在的所有偏差。
如果新闻算法使用以前的故事来确定什么才是具有新闻价值的新闻,则冒着重新创建已经存在的偏见的风险,即寻找已经被告知的故事类型。这已经是数据新闻学中的一个问题,众所周知,人工智能具有放大偏差的作用。如果新闻编辑室让正在扫描社交媒体的AI算法驱动其决策过程,那么它们可能会放大现有的偏见,并引导记者报道同类新闻。
还有一种可能是,人工智能还不够好,新闻工作者们还不能依靠它,而且错误的预测总是要付出代价的。
例如,如果旨在预测地震的AI算法错误次数足够多,那么读者可能会开始不信任这些预测,并在正确时就毫无准备。在美国人可能已经不相信这一消息的时候,过度依赖未经测试的AI预测似乎尤其危险。在突发事件中节省几分钟似乎不值得进行权衡。
健康的怀疑论
随着AI技术变得越来越擅长查找大量数据中的故事,更多的新闻编辑室可能会转向技术。数据记者已经从AI算法中受益,但是并不能保证完全有用。
使用AI来驱动决策过程可能会无意间引入或加强已经存在的关于所追求故事类型的偏见。许多记者也开始依赖不能保证准确的数据,尽管AI可以分析数据,但它并不能发出有关可能不准确的警报。
将来,数据记者可能需要某种类型的高级分析技术。每天都会产生大量信息,可能需要筛选这些信息以完整地报道新闻。但是,目前尚不清楚人工智能是否是??完成这项工作的正确工具,如果是,那么在何种程度上记者应该依靠它。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


雷达卡



京公网安备 11010802022788号







