楼主: 时光永痕
477 1

[数据挖掘新闻] 一种利用智能分析的混合方法 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)四级

13%

威望
0
论坛币
26 个
通用积分
49.8622
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34070 点
帖子
2731
精华
0
在线时间
317 小时
注册时间
2020-7-21
最后登录
2024-5-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
将实时分析处理与现场交易决策相结合的需求是所有行业的共同问题,”Splice Machine 的联合创始人兼首席执行官 Monte Zweben 在最近的一次 DATAVERSITY® 采访中指出。智能预测应用程序经过训练以学习和适应,而不是简单地通过有限的一系列响应进行编程。预测应用程序可以实时处理大量信息。他们还可以使用机器学习和人工智能吸取以往的经验,选择最佳的应对方式。

人工智能用于使软件应用程序具有适应性,并且机器学习用于根据应用程序处理的数据训练应用程序的决策技能。Zweben 说,训练过程通常始于数据科学家选择合适的特征数据表示和合适的模型。模型选择是重要的一步,因为不同的模型有不同的优势。重复训练支持算法选择、参数调整和特征工程等行为。

智能分析和大数据

拼接机开发了一个新的在线预测处理平台™ (OLPP),可以在云端和本地运行。这是一个为分析和记录系统而设计的新颖平台。它将智能应用程序融入到公司的日常运营中——其他公司并非总是如此大数据平台。它的软件使预测分析在实时操作和大数据量中非常有用。它是一个横向扩展的 SQL 关系数据库管理系统、数据仓库和机器学习平台,全部组合成一个系统。

该软件是开源的,通过结合流行的 Apache Hadoop、HBase 和 Spark 分布式平台构建。金融服务、医疗保健、能源、制造和零售领域的公司可以使用该平台来提高运营效率、提供优质服务并消除不必要的成本。这个创新平台允许应用程序通过从过去的经验中学习并实时对这些预测采取行动来做出预测。

Splice Machine 平台专为支持预测性应用程序而设计:“Splice Machine 提供了一个单一的集成平台,可以提供深入了解您的业务所需的分析处理,”Zweben 指出。

人工智能的历史

Monte Zweben 是一名受过培训的计算机科学家,并以人工智能研究员的身份开始了他的职业生涯,并在 NASA Ames 共同经营一个实验室。后来,他帮助成立了一家名为 Blue Martini Software 的公司,这是最早的机器学习公司之一。Monte 对数据平台的局限性感到沮丧,并意识到大数据不必“仅用于”分析,并认为使用单个集成平台进行分析和交易应用程序的想法,拼接机的概念诞生了.

HBase

拼接机是一种SQL 关系数据库它运行在提供事务处理的 HBase 之上,并与 Spark 一起提供深层分析。

HBase 是一个 NoSQL 数据库,传统上在Hadoop. 它将 Hadoop 的可扩展性与实时访问相结合。与标准的关系数据库系统不同,HBase 本身并不支持 SQL,也不是关系数据存储。它的应用程序通常是用 Java 编写的。Zweben 在描述他们对 HBase 的计划时说:

“我们不想陷入 HBase SQL 之争。相反,我们正在转向更高的食物链目标。我们希望数据科学家构建在该数据库上运行的预测应用程序。

Apache Zeppelin 笔记本

集成接口与Apache Zeppelin 笔记本. 该策略为投资于数据科学的组织提供了一种方便、低风险的方法。Zeppelin Notebooks 类似于文本文档,但使用的代码使文档处于活动状态,可以生成有用的功能、表格、报告和图形。

这Apache Zeppelin 笔记本是一个完全开源和基于 Web 的工具,支持交互式数据分析。这款基于浏览器的笔记本可帮助数据科学家、分析师和工程师提高效率和生产力。它通过协助开发、组织和执行来做到这一点。Apache Zeppelin 支持数据探索和可视化工具,并与 Spark 一起使用。它还支持 Python、SparkSQL、Scala、Hive 等。兹韦本评论道:

“Apache Zeppelin 是一项出色的笔记本技术,它允许您使用少量代码片段和多种编程语言来呈现结果,并且您可以将其可视化。”
点播课程:业务分析在行动
学习新的分析和机器学习技能和策略,您可以立即在您的组织中使用。

在这里注册
火花

火花是平台中的系统之一。Spark 为数据科学家提供了大量的机器学习算法。Splice Machine 还包括 Native Spark DataSource,它简化并加速了机器学习和物联网应用程序。作为一个连接器,Spark DataSource 提供了一个原生的、符合 ACID 的数据存储并开放了高级功能(例如 Spark Streaming 和机器学习)。它的设计允许用户直接访问 Spark,而不需要过多的数据传输。

Native Spark DataSource 支持以下功能:

创建表:使用 Spark DataFrame 模式创建 Splice Machine 表。
插入:在 Splice Machine 表中插入 DataFrame 的行。
更新:使用 DataFrame 更新 Splice Machine 表的行。
Upsert:使用给定的 DataFrame 更新或插入表的行。
删除:从表中删除 DataFrame 的行。
查询:发出 SQL 查询并将结果作为 DataFrame 返回。
拼接机和云

拼接机旨在与公共云一起使用,例如 Amazon Web Services (AWS)、Heroku 和 Azure。使用 Splice Machine 的 Cloud Manager,配置新集群变得非常容易。用户可以根据需要扩展 PB 级的数据,并且用户只需为使用的数据付费。

仪表板是云管理器的入口。仪表板可以生成新集群、管理帐户、访问现有集群、查看通知、更新配置文件和注销。

数据库控制台是一个基于浏览器的图形工具,用于实时跟踪集群上的数据库查询。可以使用控制台监控 Spark 查询。如果有问题,可以终止查询。

兹韦本 说:

“现代数据密集型应用程序通常以高速摄取大数据,并且需要在同一个包中具有事务和分析功能。为了应对这一挑战,公司通常会构建由多个计算和存储引擎组成的复杂系统。Splice Machine 已经通过提供混合解决方案简化了这一过程,其中优化器在计算引擎之间进行选择。现在我们正在采取下一个合乎逻辑的步骤,不再需要管理数据库。用户只需要知道 SQL。Splice Machine 完成剩下的工作。”

Splice Machine 的数据库即服务 (DBaaS) 系统设计为可移植的。存储和应用程序是容器化的、受监控的和安全的,并且具有保证的可用性。

云部署容器

云部署容器旨在简化将数据注入云应用程序的过程。这种独特的方法允许设计人员在本地开发人工智能和物联网应用程序,同时在笔记本电脑上使用机器学习和流技术。通过在云中使用相同的容器化代码,组织可以训练、测试和利用机器学习。这允许将 Apache MLlib(库)作为容器发送。(Spark Streaming 应用程序可以将数据流式传输到 Splice Machine。)

Splice Machine 云部署容器可以传输用 Python、Java、Node 和 Scala 等编程语言编写的标准应用程序。这允许组织在云中非常快速、轻松地部署更智能、更具预测性的应用程序。

挑战

将大量活动部件组合在一起的策略是 Splice Machine 已经接受并完成的挑战。它需要激活其合作伙伴生态系统,以帮助公司从大数据数据库转向解决方案平台。与在 SAP 供应链方面经验丰富的企业 Intrigo 建立合作伙伴关系提供了良好的开端。Splice Machine 继续发展强大的合作伙伴网络,包括与埃森哲的合作伙伴关系。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:智能分析 Dataframe streaming CDA LEVEL Notebook

沙发
三重虫 发表于 2022-8-16 20:33:44 |只看作者 |坛友微信交流群

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-21 10:02