签到
苹果/安卓/wp
苹果/安卓/wp
客户端
0.0
0.00
推广加币
数据VIP
升级SVIP
注册
|
登录
项目交易
CDA数据分析师
CDA网校
CDA社区
CDA认证考试
CDA俱乐部
CDA Live
在线教育
JG学术培训
经管云课堂
CDA网校
CDA数据分析研究院
统计软件培训
金融科技
就学培训网
经管题库
培训证书查询
成为签约讲师
经管文库
专家入驻
学术博客
就学平台
美国在职研究生
论坛BBS
服务一览
VIP服务
数据VIP
贵宾服务
数据库
兑换商城
广告服务
案例库
软件销售
校园代理
文献下载
会员课服务
我的
帖子
收藏
好友
我的空间
关注的人
关注的贴
找人
文库
任务
道具
勋章
网站地图
搜索
搜索
用户
人大经济论坛
›
标签
›
Spark
标签: Spark
经管大学堂:名校名师名课
相关帖子
版块
作者
回复/查看
最后发表
[Data Science]Machine Learning with Spark
spark高速集群计算平台
hooli
2015-3-28
60
11370
hexadecimal
2019-11-10 17:24:40
【独家发布】Spark for Python Developers
spark高速集群计算平台
neuroexplorer
2016-1-30
5
2480
xingyuchen
2018-2-12 00:43:10
[大数据之Spark]——Actions算子操作入门实例
大数据分析
点滴记录life
2017-11-23
0
1364
点滴记录life
2017-11-23 16:31:36
大数据为什么要选择Spark
spark高速集群计算平台
Frank233
2015-12-17
2
2683
franky_sas
2016-12-18 22:05:48
第1课:Scala光速入门(1)
spark高速集群计算平台
无量天尊Spark
2016-3-14
4
2905
jackbrown
2016-8-1 15:36:08
Spark大数据挖掘平台专题
spark高速集群计算平台
chj1983wd
2015-5-8
5
2832
happy_886
2016-7-16 09:17:28
第2课:Scala面向对象彻底精通及Spark源码阅读(1)
spark高速集群计算平台
无量天尊Spark
2016-3-16
2
1424
无量天尊Spark
2016-6-20 17:14:55
第2课:Scala面向对象彻底精通及Spark源码阅读(2)
spark高速集群计算平台
无量天尊Spark
2016-3-16
3
2488
无量天尊Spark
2016-6-18 19:36:36
第1课:Scala光速入门(2)
spark高速集群计算平台
无量天尊Spark
2016-3-14
1
2413
无量天尊Spark
2016-6-18 19:35:14
第5课:彻底精通Scala隐式转换和并发编程及Spark源码阅读(1)
spark高速集群计算平台
无量天尊Spark
2016-4-1
0
1483
无量天尊Spark
2016-5-11 19:26:05
第4课:Scala模式匹配、类型系统彻底精通与Spark源码阅读
spark高速集群计算平台
无量天尊Spark
2016-3-29
4
1862
无量天尊Spark
2016-5-11 19:25:57
第3课:Scala函数式编程彻底精通及Spark源码阅读
spark高速集群计算平台
无量天尊Spark
2016-3-23
2
1938
无量天尊Spark
2016-5-11 19:25:27
第2课:Scala面向对象彻底精通及Spark源码阅读(2)
spark高速集群计算平台
无量天尊Spark
2016-3-16
0
1837
无量天尊Spark
2016-5-11 19:25:05
【转】有关大数据的专业分享
管理信息系统
longyang0224
2016-3-15
0
2003
longyang0224
2016-3-15 11:03:23
[Data Science]Learning Spark
spark高速集群计算平台
hooli
2015-3-28
21
4245
pyqpinbo
2015-8-4 02:25:22
〖摘·Spark〗Spark与Scala语言(一)
经管代码库
我的素质低
2015-3-18
2
3159
xddlovejiao1314
2015-7-12 10:22:38
〖摘·spark〗安装 Scala 与Spark(二)
经管代码库
我的素质低
2015-3-18
0
4556
我的素质低
2015-3-18 10:58:36
更多...
相关日志
分享
大数据分析软件
evayummy
2015-6-25 10:09
大数据分析一站式平台 大数据分析软件, ETHINK是业界唯一的端到端的hadoop、spark平台上的大数据分析基础平台。我们的目标是简化大数据分析的过程,让人人都能够快速从数据获得决策智慧。您不再需要采用很多的数据集成、数据清洗、数据预处理、数据分析、数据挖掘、数据可视化、数据报告等众多的工具。ETHINK是一个集成性的平台,能够将您所有的数据,加载到hadoop,spark平台,并能够可视化您的数据,挖掘您的数据的高效平台。 连接与集成 将结构化和非结构化数据,他们存在于原先不同的各类关系数据库,各类不同的大数据存储方式中,您没有能力来处理他们。ETHINK针对各类大数据乃至关系数据,都内嵌了访问连接器,通过很简单的步骤,这些数据就可以加载到大数据平台。数据可以导入到内嵌的HADOOP、SPARK的存储库。 存储与管理 我们预置了hadoop版本,并支持多种HADOOP版本的选择。 Hadoop的版本,以及impala,hive,hbase,spark,cdh等等。 数据挖掘 大数据分析软件ethink--- 业界第一家大数据挖掘产品,通过ETHINK,大数据挖掘非常简单,通过界面流程式的设计平台,就能够快速进行数据挖掘,发挥大数据的价值。 1 大数据挖掘快速发现潜在的规律,人人都能快速上手 2 可拖拽流程可视化设计 3 丰富的数据挖掘算法 4 集成大数据挖掘计算技术,比传统挖掘快10到100倍的速度 5 支持集群线性扩展 大数据可视化 数据展现可视化,可以实现决策支持、财务分析,预警分析,仪表板,绩效分析,经营分析等各类数据分析应用。 1 丰富的大数据可视化展现 2 可视化设计平台,有业界最丰富的数据可视化组件库 3 快速简易的BI实施平台,成本节约2倍到5倍 4 支持平板、智能手机等移动展现 自助交互分析 ETHINK提供针对大数据的即席查询、交互式统计分析、多维分析等系列的分析与统计分析平台。 1 普通用户简单的快速实现日常经营分析的统计 2 提供大量的计算指标和丰富的图形 3 实现普通用户自助分析的需求
13 次阅读
|
0
个评论
分享
让R跑在Spark上
Nicolle
2014-8-6 23:46
SparkR 是AMPLab发布的一个R开发包,为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集(RDD)的API,用户可以在集群上通过R shell交互性的运行job。例如,我们可以在HDFS上读取或写入文件,也可以使用 lapply 来定义对应每一个RDD元素的运算。 sc - sparkR.init("local")lines - textFile(sc, "hdfs://data.txt")wordsPerLine - lapply(lines, function(line) { length(unlist(strsplit(line, " "))) }) 除了常见的RDD函数式算子reduce、reduceByKey、groupByKey和collect之外,SparkR也支持利用 lapplyWithPartition 对每个RDD的分区进行操作。 SparkR也支持常见的闭包(closure)功能:用户定义的函数中所引用到的变量会自动被发送到集群中其他的机器上。参见一下例子中用户闭包中引用的 initialWeights 会被自动发送到集群其他机器上。 lines - textFile(sc, "hdfs://data.txt") initialWeights - runif(n=D, min = -1, max = 1) createMatrix - function(line) { as.numeric(unlist(strsplit(line, " "))) %*% t(initialWeights) } # initialWeights is automatically serialized matrixRDD - lapply(lines, createMatrix) 用户还可以很容易的在已经安装了R开发包的集群上使用SparkR。includePackage 命令用于指示在每个集群上执行操作前读取开发包。以下是个例子: generateSparse - function(x) { # Use sparseMatrix function from the Matrix package sparseMatrix(i=c(1, 2, 3), j=c(1, 2, 3), x=c(1, 2, 3))}includePackage(sc, Matrix)sparseMat - lapplyPartition(rdd, generateSparse) 针对SparkR发布的消息,大数据创业公司DataBricks的创始人之一 @hashjoin (辛湜)在微博上评论到: R是数据分析最常用的工具之一,但是R能处理的数据不能大于一台机器的内存。过去有一些R和Hadoop结合的尝试一般都性能低下,用户体验差。今天AMPLab发布了R的Spark前端,利用R进行大数据交互分析,也可以在节点上利用R的数据分析库,是大数据的一个新利器。 @vinW : 我一直就说R matlab 和Spark其实是一路的,内存流派的。Spark这个分布式的高端搞法必将重振内存计算这个领域。 @刘思喆 : 重磅消息,比预想的要早很多
个人分类:
R
|
5 次阅读
|
0
个评论
更多...
京ICP备16021002-2号
京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明
GMT+8, 2024-4-19 22:12
积分 0, 距离下一级还需 积分