人大经济论坛 › 标签 › Spark

标签: Spark经管大学堂：名校名师名课

相关帖子	版块	作者	回复/查看	最后发表

[Data Science]Machine Learning with Spark	spark高速集群计算平台	hooli 2015-3-28	60 11370	hexadecimal 2019-11-10 17:24:40
【独家发布】Spark for Python Developers	spark高速集群计算平台	neuroexplorer 2016-1-30	5 2480	xingyuchen 2018-2-12 00:43:10
[大数据之Spark]——Actions算子操作入门实例	大数据分析	点滴记录life 2017-11-23	0 1364	点滴记录life 2017-11-23 16:31:36
大数据为什么要选择Spark	spark高速集群计算平台	Frank233 2015-12-17	2 2683	franky_sas 2016-12-18 22:05:48
第1课：Scala光速入门（1）	spark高速集群计算平台	无量天尊Spark 2016-3-14	4 2905	jackbrown 2016-8-1 15:36:08
Spark大数据挖掘平台专题	spark高速集群计算平台	chj1983wd 2015-5-8	5 2832	happy_886 2016-7-16 09:17:28
第2课：Scala面向对象彻底精通及Spark源码阅读（1）	spark高速集群计算平台	无量天尊Spark 2016-3-16	2 1424	无量天尊Spark 2016-6-20 17:14:55
第2课：Scala面向对象彻底精通及Spark源码阅读（2）	spark高速集群计算平台	无量天尊Spark 2016-3-16	3 2488	无量天尊Spark 2016-6-18 19:36:36
第1课：Scala光速入门（2）	spark高速集群计算平台	无量天尊Spark 2016-3-14	1 2413	无量天尊Spark 2016-6-18 19:35:14
第5课：彻底精通Scala隐式转换和并发编程及Spark源码阅读（1）	spark高速集群计算平台	无量天尊Spark 2016-4-1	0 1483	无量天尊Spark 2016-5-11 19:26:05
第4课：Scala模式匹配、类型系统彻底精通与Spark源码阅读	spark高速集群计算平台	无量天尊Spark 2016-3-29	4 1862	无量天尊Spark 2016-5-11 19:25:57
第3课：Scala函数式编程彻底精通及Spark源码阅读	spark高速集群计算平台	无量天尊Spark 2016-3-23	2 1938	无量天尊Spark 2016-5-11 19:25:27
第2课：Scala面向对象彻底精通及Spark源码阅读（2）	spark高速集群计算平台	无量天尊Spark 2016-3-16	0 1837	无量天尊Spark 2016-5-11 19:25:05
【转】有关大数据的专业分享	管理信息系统	longyang0224 2016-3-15	0 2003	longyang0224 2016-3-15 11:03:23
[Data Science]Learning Spark	spark高速集群计算平台	hooli 2015-3-28	21 4245	pyqpinbo 2015-8-4 02:25:22
〖摘·Spark〗Spark与Scala语言(一)	经管代码库	我的素质低 2015-3-18	2 3159	xddlovejiao1314 2015-7-12 10:22:38
〖摘·spark〗安装 Scala 与Spark（二）	经管代码库	我的素质低 2015-3-18	0 4556	我的素质低 2015-3-18 10:58:36

更多...

相关日志

分享大数据分析软件: evayummy 2015-6-25 10:09; 大数据分析一站式平台大数据分析软件， ETHINK是业界唯一的端到端的hadoop、spark平台上的大数据分析基础平台。我们的目标是简化大数据分析的过程，让人人都能够快速从数据获得决策智慧。您不再需要采用很多的数据集成、数据清洗、数据预处理、数据分析、数据挖掘、数据可视化、数据报告等众多的工具。ETHINK是一个集成性的平台，能够将您所有的数据，加载到hadoop,spark平台，并能够可视化您的数据，挖掘您的数据的高效平台。连接与集成将结构化和非结构化数据，他们存在于原先不同的各类关系数据库，各类不同的大数据存储方式中，您没有能力来处理他们。ETHINK针对各类大数据乃至关系数据，都内嵌了访问连接器，通过很简单的步骤，这些数据就可以加载到大数据平台。数据可以导入到内嵌的HADOOP、SPARK的存储库。存储与管理我们预置了hadoop版本，并支持多种HADOOP版本的选择。 Hadoop的版本，以及impala,hive,hbase，spark，cdh等等。数据挖掘大数据分析软件ethink--- 业界第一家大数据挖掘产品，通过ETHINK,大数据挖掘非常简单，通过界面流程式的设计平台，就能够快速进行数据挖掘，发挥大数据的价值。 1 大数据挖掘快速发现潜在的规律，人人都能快速上手 2 可拖拽流程可视化设计 3 丰富的数据挖掘算法 4 集成大数据挖掘计算技术，比传统挖掘快10到100倍的速度 5 支持集群线性扩展大数据可视化数据展现可视化，可以实现决策支持、财务分析，预警分析，仪表板，绩效分析，经营分析等各类数据分析应用。 1 丰富的大数据可视化展现 2 可视化设计平台，有业界最丰富的数据可视化组件库 3 快速简易的BI实施平台，成本节约2倍到5倍 4 支持平板、智能手机等移动展现自助交互分析 ETHINK提供针对大数据的即席查询、交互式统计分析、多维分析等系列的分析与统计分析平台。 1 普通用户简单的快速实现日常经营分析的统计 2 提供大量的计算指标和丰富的图形 3 实现普通用户自助分析的需求; 13 次阅读|0 个评论

分享让R跑在Spark上: Nicolle 2014-8-6 23:46; SparkR 是AMPLab发布的一个R开发包，为Apache Spark提供了轻量的前端。SparkR提供了Spark中弹性分布式数据集（RDD）的API，用户可以在集群上通过R shell交互性的运行job。例如，我们可以在HDFS上读取或写入文件，也可以使用 lapply 来定义对应每一个RDD元素的运算。 sc - sparkR.init("local")lines - textFile(sc, "hdfs://data.txt")wordsPerLine - lapply(lines, function(line) { length(unlist(strsplit(line, " "))) }) 除了常见的RDD函数式算子reduce、reduceByKey、groupByKey和collect之外，SparkR也支持利用 lapplyWithPartition 对每个RDD的分区进行操作。 SparkR也支持常见的闭包（closure）功能：用户定义的函数中所引用到的变量会自动被发送到集群中其他的机器上。参见一下例子中用户闭包中引用的 initialWeights 会被自动发送到集群其他机器上。 lines - textFile(sc, "hdfs://data.txt") initialWeights - runif(n=D, min = -1, max = 1) createMatrix - function(line) { as.numeric(unlist(strsplit(line, " "))) %*% t(initialWeights) } # initialWeights is automatically serialized matrixRDD - lapply(lines, createMatrix) 用户还可以很容易的在已经安装了R开发包的集群上使用SparkR。includePackage 命令用于指示在每个集群上执行操作前读取开发包。以下是个例子： generateSparse - function(x) { # Use sparseMatrix function from the Matrix package sparseMatrix(i=c(1, 2, 3), j=c(1, 2, 3), x=c(1, 2, 3))}includePackage(sc, Matrix)sparseMat - lapplyPartition(rdd, generateSparse) 针对SparkR发布的消息，大数据创业公司DataBricks的创始人之一 @hashjoin （辛湜）在微博上评论到： R是数据分析最常用的工具之一，但是R能处理的数据不能大于一台机器的内存。过去有一些R和Hadoop结合的尝试一般都性能低下，用户体验差。今天AMPLab发布了R的Spark前端，利用R进行大数据交互分析，也可以在节点上利用R的数据分析库，是大数据的一个新利器。 @vinW ：我一直就说R matlab 和Spark其实是一路的，内存流派的。Spark这个分布式的高端搞法必将重振内存计算这个领域。 @刘思喆：重磅消息，比预想的要早很多; 个人分类: R|5 次阅读|0 个评论