- 阅读权限
- 255
- 威望
- 1 级
- 论坛币
- 49635 个
- 通用积分
- 55.6937
- 学术水平
- 370 点
- 热心指数
- 273 点
- 信用等级
- 335 点
- 经验
- 57805 点
- 帖子
- 4005
- 精华
- 21
- 在线时间
- 582 小时
- 注册时间
- 2005-5-8
- 最后登录
- 2023-11-26
已卖:4897份资源
学术权威
还不是VIP/贵宾
TA的文库 其他... R资源总汇
Panel Data Analysis
Experimental Design
- 威望
- 1 级
- 论坛币
 - 49635 个
- 通用积分
- 55.6937
- 学术水平
- 370 点
- 热心指数
- 273 点
- 信用等级
- 335 点
- 经验
- 57805 点
- 帖子
- 4005
- 精华
- 21
- 在线时间
- 582 小时
- 注册时间
- 2005-5-8
- 最后登录
- 2023-11-26
 | 开心 2017-10-21 10:25:33 |
|---|
签到天数: 1 天 连续签到: 1 天 [LV.1]初来乍到
|
经管之家送您一份
应届毕业生专属福利!
求职就业群
感谢您参与论坛问题回答
经管之家送您两个论坛币!
+2 论坛币
- from __future__ import print_function
- import sys
- import re
- import numpy as np
- from pyspark import SparkContext
- from pyspark.ml.clustering import KMeans, KMeansModel
- from pyspark.mllib.linalg import VectorUDT, _convert_to_vector
- from pyspark.sql import SQLContext
- from pyspark.sql.types import Row, StructField, StructType
- """
- A simple example demonstrating a k-means clustering.
- Run with:
- bin/spark-submit examples/src/main/python/ml/kmeans_example.py <input> <k>
- This example requires NumPy (http://www.numpy.org/).
- """
- def parseVector(line):
- array = np.array([float(x) for x in line.split(' ')])
- return _convert_to_vector(array)
- if __name__ == "__main__":
- FEATURES_COL = "features"
- if len(sys.argv) != 3:
- print("Usage: kmeans_example.py <file> <k>", file=sys.stderr)
- exit(-1)
- path = sys.argv[1]
- k = sys.argv[2]
- sc = SparkContext(appName="PythonKMeansExample")
- sqlContext = SQLContext(sc)
- lines = sc.textFile(path)
- data = lines.map(parseVector)
- row_rdd = data.map(lambda x: Row(x))
- schema = StructType([StructField(FEATURES_COL, VectorUDT(), False)])
- df = sqlContext.createDataFrame(row_rdd, schema)
- kmeans = KMeans().setK(2).setSeed(1).setFeaturesCol(FEATURES_COL)
- model = kmeans.fit(df)
- centers = model.clusterCenters()
- print("Cluster Centers: ")
- for center in centers:
- print(center)
- sc.stop()
复制代码
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
|
|
|