请选择 进入手机版 | 继续访问电脑版
楼主: 时光永痕
590 0

[数据挖掘新闻] 提供企业分析 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)三级

19%

威望
0
论坛币
26 个
通用积分
49.7565
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
315 小时
注册时间
2020-7-21
最后登录
2024-4-15

时光永痕 学生认证  发表于 2020-9-25 20:03:39 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
提供企业分析
本文广泛地描述了构成企业分析程序或能力的功能。最初的目的是提供一些技巧,以减轻在实施分析实践中遇到的挑战-但这将在以后的文章中讨论。
通常,众所周知,IT项目尤其是分析项目是不成功或“充满挑战的”。
在着手分析项目或企业之前,将注意力集中在以下简短列表上将有助于减轻通过分析项目交付价值时遇到的许多挑战和障碍。
一开始就明确阐明解决方案/项目的战略(业务)目标
在开发任何数据转换管道之前,了解,描述和记录数据的来源和来源
与数据源提供商建立必要的合同,以确保可以增量识别和提取新的/更改的数据
记录与领域/业务流程相关的重要问题和见解
确定计划,构建,发展和操作分析环境所需的技能
项目负责人和业主的指导意图应该是:
为最终用户带来高价值,
最小化延迟并最大化信息可用性
提供易于使用的高性能数据处理能力。
这些结果取决于几个因素,要实现这些结果,需要实施和协调以下列出的部分或全部核心能力。
BI和分析功能
BI组织和流程
数据管道/ ETL平台
运营数据存储/数据湖
整合数据仓库
设备/聚合引擎
可视化工具
统计处理
机器学习/人工智能处理
这些功能中的某些功能可以捆绑到单个平台或产品中,并且最近的趋势是聚合层和可视化功能的融合,尤其是在同一工具或产品中。
组织不太可能将注意力同时集中在所有这些功能上,并且应该计划随着时间的推移逐渐成熟其BI实践和能力,以便在所有这些能力中获得有效的实践。
1)分析组织和流程
对于任何认真构建可持续分析能力的企业来说,这都是最重要的考虑因素。
不能仅仅购买技能-因为大学和创新团队无法出售,需要培养和成熟。许多组织陷入采购技能和专业知识的陷阱,而忽视了对团队建设的投资。他们最终商品化了技能。最终损害可持续成功。
有时会高度关注要使用的工具和技术,而不是将这些产品如何集成到企业的运营结构中,并每天影响分析解决方案的生产者和消费者的生活。
分析价值链中涉及的关键配置文件大致如下:
消费者:使用数据和信息进行决策,提供意见并产生想法和见解的人。这包括业务用户,供应商,客户,甚至更广泛的公众。
分析师:解释需求并构思用户使用的解决方案的人员。该组包括数据科学家,精算师,统计学家,经济学家等。
数据工程师:准备和管理数据和数据库的人员;包括数据管道。
可视化工程师:开发界面和报告以呈现数据和信息的人员。这些人富有创造力和艺术性,具有理解数据和信息的天赋。
典型的BI实践中通常还会涉及许多其他角色和利益相关者,但是以上是需要组织以实现高质量交付的主要角色。
一旦确定了这些角色参与者并将其建立为一个团队(或多个团队),则至关重要的是,各方之间必须进行无缝通信。需求和结果必须由消费者驱动-可能需要经验丰富的分析师进行协助才能制定描述解决方案的简介。
交付/开发团队必须每天提供反馈-绝不会在几天内没有发布新功能。
2)数据管道
任何分析实践中的核心功能是数据管道子系统。传统上称为ETL。理想情况下,ETL系统将覆盖整个组织,并包括所有应用程序之间存在的集成过程和规则的存储库。数据管道过程在存储库中进行描述和管理,该存储库包含所有已发布和正式生产的集成规则,这些规则可实现应用程序之间的通信。ETL子系统的另一个组件是执行和协调集成作业和流程的引擎。记录和收集性能和执行统计信息。
ETL子系统越来越重要的功能是使测试和质量控制可操作和自动化,以识别数据质量问题并持续测量数据质量。此功能包括在违反数据质量阈值时触发警报和警告。
3)运营数据存储/数据湖
实施一个跨维度的模型,该模型跨越了与企业活动有关的所有主题领域,这些过去曾是BI实践的圣杯。但是,实现这一理想却充满了挑战,以至于习惯上大多数BI项目都会失败。
对于大多数组织而言,实施企业维度模型确实是昂贵且复杂的。
通常更简单的方法是实施操作数据存储(ODS)-这不能替代维数据仓库,而是一个附加的更原始的要求。
ODS是一个数据库或平台,可以从业务系统,外部系统,公共数据源和社交媒体平台中获取和存储数据。将数据吸收到ODS中的过程使得在填充数据时很少或不进行任何转换。有时会对数据格式和结构进行一些更改;例如将数据从面向对象的数据源转换为关系数据库。
ODS的目的是提供一个单一的访问点和系统,在其中可以使用分析项目所需的所有数据。ODS将用于临时数据调查,报告和分析以及原型分析流水线,但很可能具有作为结构化数据仓库来源的主要功能。
ODS系统通常是关系数据库,但从理论上讲,它可以是能够存储数据并允许快速搜索和检索数据的任何平台。在单个平台或系统中容纳大量数据可能很昂贵,并且对关系型ODS数据库的要求(在存储和处理能力上)实际上变得不可持续。
关系ODS数据库的一个发展就是数据湖。它具有相同的功能目的,但在大数据/ Hadoop集群上实现。
ODS / Data Lake的主要功能
适应各种数据格式和结构
快速摄取数据
快速检索数据
快速廉价地扩展存储容量
提供灵活的证券化和数据保护
将数据导出到多个目标平台/系统
由于将各种数据源提取到ODS /数据湖中通常很混乱,因此导航这些数据可能既困难又费力。严格而高质量的元数据管理可以缓解这一挑战。为了使ODS环境得到有效利用,必须对信息资产进行简单直观的逻辑组织,以免其演变为“数据沼泽”。
需要对ODS使用模式进行监控,以为将来的BI项目提供指导和规范,并为开发和增强更严格管理的解决方案提供要求。
4)整合数据仓库
一直以来,关于合格的(Kimball)数据仓库是否需要成为企业分析格局的一个特征一直存在争议。严格定义和实施维度和事实的主要理由是,它们简化了分析人员和业务用户的报告和分析活动。现实生活是,实现统一数据仓库的过程通常成本高昂,复杂,并且可能需要多次错误启动。
但是,这些替代方案无可避免地导致难以使用的数据伪像混乱。如今,几乎没有提及信息工厂和Inmon数据仓库方法。今天的争论是围绕是否要投资维数据仓库还是仅将数据收集到数据湖中。对于数据仓库中两种主要的数据组织方法,有许多有用的比较-例如(http://tdan.com/data-warehouse-design-inmon-versus-kimball/20300)。
我认为,可以省去一致的尺寸建模数据仓库的情况很少见。除了缓解信息分析和消费活动的复杂性之外,结构良好的数据仓库还可以帮助组织发展用于信息和分析通信的共享语言,并使他们能够发展为支持分析和数据驱动的业务。
认真设计和实施的维度数据仓库可能始终是成功的分析实践的主要特征。
5)汇聚层
性能瓶颈是每个计算系统的工程师和供应商的祸害,甚至是发誓的敌人。数据处理速度的快速和指数提高从未成功满足开发人员和用户的需求。根据其性质和定义,分析和BI应用程序需要高容量的数据存储和处理能力。通常可以轻松解决存储难题,但处理需求通常需要权宜之计。
在理想情况下,无需按预先聚合的形式来实现粒状数据,因为可以根据需要执行任何计算或汇总。事实证明,实现分析的目标难以捉摸,因此采用了各种缓解方法来克服计算限制。
OLAP(多维)和列式数据库是对CPU和主内存容量不足所施加约束的最常用且成功的补救方法。OLAP数据库在维模型被馈入和支持的环境中尤其成功。OLAP数据库的这种配置用于使用户能够快速访问维数据仓库中的聚合数据,这已成为20世纪后期和21世纪初大部分时间BI交付的标准模型。列压缩或表格数据库在2005年左右受到高度吹捧,但在近十年后成为OLAP数据库的有力竞争者之后,就从炒作中迅速消失了。如今,在两种类型的聚合/分析数据层之间进行选择是非常困难的,因为两种格式都可以提供可比的性能。
在某些情况下,必须选择聚合技术-将某些计算能力烘焙到OLAP平台中,例如按时间片进行比较和聚合-无疑是受到财务部门急切采用早期基于OLAP的报告的启发。
面向列的分析数据库越来越受青睐和实用,并且证明非常适合各种数据集。
6)可视化
BI工具的供应商与平台之间的竞争主要是在可视化功能领域进行的。
BI工具的消费者通常会在一个平台上寻求所有功能,即具有数据处理和可视化功能。但是,数据主题的多样性远远超过了可视化创新的需求。使用平台和语言的开源库在很大程度上弥补了这一空白,这些平台和语言为展示信息提供了创造性甚至艺术表达的灵活性和机会。商业上可用的可视化产品变得越来越难以区分-几乎所有产品都提供内存列压缩以及响应式拖放图表。可能的下一个前沿将是易于使用的功能,以扩展可能的制图范围。
7)统计处理
传统上,统计处理在BI和分析中的应用主要由一些昂贵的专有平台主导。统计处理应用程序的硬件要求也令人望而却步。R平台和语言在数据科学家的武器库中的引入已完全使统计分析的访问民主化。现在,在R中执行回归,聚类甚至文本分析相对比较容易。R中提供的功能不断发展和扩展,并且有可能使商业平台上的功能黯然失色。
8)机器学习/人工智能
人工智能已从最前沿的学科迅速发展到几乎在计算的各个领域都被广泛采用。在分析和BI领域,机器学习和AI技术处于从大量看似混乱的数据中提取隐藏趋势和模式的最前沿。与统计处理类似,人工智能应用的爆炸式增长主要由开源工具(主要是Tensorflow和Keras)推动。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:企业分析 Warehouse OLAP数据库 versus Tensor

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-18 08:30