的首要目标大数据是提供商业智能. 这个目标提出了第一个挑战:找到有用的信息。有用的信息隐藏在网络中的各种资源中。而且从海量数据中获取洞察力并不容易。Maksim Tsvetovat 是《初创企业社交网络分析》一书的作者,他使用广播无线电波通信中的一个类比说,“噪声中必须有可识别的信号”,你可以检测到,但有时根本就没有。一旦我们对数据进行了智能分析,有时我们不得不回过头来说我们只是没有测量正确或测量错误的变量,因为我们在这里无法检测到任何东西。”
然而,当有效使用时,大数据可以提供非常有用的业务洞察力。如果使用得当,还可以作为“快速数据。” EMC 联盟的关键首席执行官 Paul Maritz 在一篇文章中写道CapGemini 报告:
“如果你能获得所有相关数据,快速分析它,得出可操作的见解,并将它们带回操作系统,那么你就可以在事件仍在发生时影响它们。“在行动中”捕捉人或事物并影响结果的能力可能非常重要、有价值和具有破坏性。”
人员配备问题
寻找高手数据科学家和大数据分析师是使用大数据的第二个挑战。该领域是新领域,缺乏熟练劳动力。这些技能需要统计经验和直觉的结合,这使得个性特征的奇怪组合。擅长统计和数学的人倾向于避免需要直觉的情况,反之亦然。
处理这种情况的一种选择(如果有钱的话)是为公司建立一个数据分析师团队,通过再培训现有员工和招聘专门从事大数据的新员工。一个更便宜的选择是聘请自由大数据承包商。对于自由职业者,应为数据输入建立标准协议,并以标准化方式输入信息,以防止长期员工和临时员工之间的混淆。
在做出改进 IT 基础架构的决定后,许多即将出现的问题都是可以预见的。向使用大数据的转变应该组织得井井有条,架构应该得到很好的规划。组织应采用系统的方法来规划其计算机系统的发展。此外,公司应:
为员工安排研讨会,为使用大数据做准备
关注成本,未来规划升级
识别数据并非 100% 准确并管理其质量
认真寻找有用的业务见解
永远不要忽视大数据的安全性
收集和存储数据
收集和积累大数据可能是一项挑战。大数据研究来源通常通过政府机构、内部账户、物联网,以及其他数据源。将这一切整合在一起需要深思熟虑的计划。
此外,需要确保数据的质量和准确性。这需要数据清理(通常是手动过程),以及对数据治理的审查。(数据准确吗?记录是否准确?是否随着时间的推移出现错误?)
数据湖用于将所有已捕获的数据存储为彼此无关的单独单元。存储这些数据是希望以后有用(在某些情况下,这是法律要求的)。在这种状态下,由于没有 NoSQL 系统,存储的数据无法被操作和研究以获取洞察力,因为它没有被集成。为了正确使用,数据孤岛中的数据应该被整合,或者数据应该被转移到一个NoSQL系统.
数据湖使用起来也很笨拙,因为它们经常提供不准确的数据。根据最近发布的一份报告益博睿数据质量,多达 75% 的受访企业认为他们自己的客户联系信息不正确。一个充满不准确客户信息的数据库可能比没有数据更糟糕。数据可以在传入时进行集成,但可能需要额外的软件和硬件。
IT 基础架构
实现大数据分析的承诺需要组织调整他们的业务方式。对于某些组织而言,可能会担心“淘汰和替换”其大部分 IT 基础设施(云服务提供商可能是替代方案)。越来越高的数据量、复杂的数据内容和各种各样的数据类型的综合影响给企业带来了一些严重的问题。
虽然 Hadoop 等 NoSQL 系统非常流行,但也有大数据软件可以很好地处理“较小”数量的大数据和关系数据库管理系统(关系数据库管理系统)。关系数据库是一种旨在使用结构化格式保存数据的数据库,具有行和列。它被称为“关系”,因为存储在每个表中的值相互关联或“相关”。
两个流行的程序是:向导:统计和数据分析软件,专为 Mac 设计;和R 统计计算项目,它是免费的,可在各种 UNIX 平台、MacOS 和 Windows 上运行。
但是,在使用大数据时,缺乏可扩展性或无法扩展可能会带来重大问题。大数据最常见的特征是其令人印象深刻的增长能力。而这种能力是大数据最重大的挑战之一。这就是 NoSQL 系统如此受欢迎的原因。它们可以扩展以适应用于研究的存储数据量。问题不在于安装新存储容量的实际过程SQL系统,而是如果处理不当,系统的性能可能会下降。一个好的架构设计可以防止这成为一个问题。
良好的架构设计还可以最大限度地减少以后可能出现的问题。大数据算法的设计也起到了消除问题的作用。并且设计应该允许在未来轻松升级。这也是规划系统维护和安排系统性能审计以帮助识别弱点并快速解决它们的好时机。
云中的大数据问题
云计算本质上描述了一种通过互联网或服务器网络提供服务的计算类型。公共云计算的主要目的是为付费客户提供大量的计算能力。
云使用带有专门连接的服务器网络,这些连接旨在在服务器之间分配数据处理工作。公共云技术不是在每台计算机中安装专门的软件,而是在“主机”计算机中安装软件程序,用户可以作为基于 Web 的服务登录。云托管了大量对用户有用的大数据程序。这可以显着改变工作量,并减轻在内部计算机系统上托管多个程序和应用程序的负担。
有一种东西叫做“管道问题”在使用云时。这是基于每天创建和保存的数据量不断增加的问题。这会降低处理速度并产生瓶颈。无需费力,解决此问题的最简单方法是找到没有此问题的云,或者在使用率低的时候在云上工作。有更昂贵(和更有效)的方法处理云的管道问题。
技术上的困难可能会暂时关闭云。例如,六月上旬,谷歌的云崩溃了,并带走了各种依赖谷歌软件的服务。(这有点有趣,因为谷歌无法访问他们需要的“关闭”的基于云的工具来修复他们的云。他们不小心把自己锁在没有钥匙的情况下。)在这种情况下,最好有一些“其他”云可供使用。他们可能不是您的首选,但他们会在紧急情况下出现。
安全也是在云中工作的重要问题。云技术伴随着各种安全问题。云包含多种技术,其中可能包括数据库、网络、操作系统、资源分配、集装箱化、虚拟化、资源调度、事务管理、负载平衡等。这些都提供了潜在的安全漏洞。例如,连接云中系统的网络可能有一个后门,允许黑客访问。或者,容器可能已将恶意软件或病毒传送到云端。
相关帖子DA内容精选
|