楼主: ReneeBK
1375 0

[Case Study]K-Means Clustering using Python [推广有奖]

  • 1关注
  • 62粉丝

VIP

已卖:4897份资源

学术权威

14%

还不是VIP/贵宾

-

TA的文库  其他...

R资源总汇

Panel Data Analysis

Experimental Design

威望
1
论坛币
49635 个
通用积分
55.6937
学术水平
370 点
热心指数
273 点
信用等级
335 点
经验
57805 点
帖子
4005
精华
21
在线时间
582 小时
注册时间
2005-5-8
最后登录
2023-11-26

楼主
ReneeBK 发表于 2015-11-16 07:01:28 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
  1. from __future__ import print_function

  2. import sys
  3. import re

  4. import numpy as np
  5. from pyspark import SparkContext
  6. from pyspark.ml.clustering import KMeans, KMeansModel
  7. from pyspark.mllib.linalg import VectorUDT, _convert_to_vector
  8. from pyspark.sql import SQLContext
  9. from pyspark.sql.types import Row, StructField, StructType

  10. """
  11. A simple example demonstrating a k-means clustering.
  12. Run with:
  13.   bin/spark-submit examples/src/main/python/ml/kmeans_example.py <input> <k>
  14. This example requires NumPy (http://www.numpy.org/).
  15. """


  16. def parseVector(line):
  17.     array = np.array([float(x) for x in line.split(' ')])
  18.     return _convert_to_vector(array)


  19. if __name__ == "__main__":

  20.     FEATURES_COL = "features"

  21.     if len(sys.argv) != 3:
  22.         print("Usage: kmeans_example.py <file> <k>", file=sys.stderr)
  23.         exit(-1)
  24.     path = sys.argv[1]
  25.     k = sys.argv[2]

  26.     sc = SparkContext(appName="PythonKMeansExample")
  27.     sqlContext = SQLContext(sc)

  28.     lines = sc.textFile(path)
  29.     data = lines.map(parseVector)
  30.     row_rdd = data.map(lambda x: Row(x))
  31.     schema = StructType([StructField(FEATURES_COL, VectorUDT(), False)])
  32.     df = sqlContext.createDataFrame(row_rdd, schema)

  33.     kmeans = KMeans().setK(2).setSeed(1).setFeaturesCol(FEATURES_COL)
  34.     model = kmeans.fit(df)
  35.     centers = model.clusterCenters()

  36.     print("Cluster Centers: ")
  37.     for center in centers:
  38.         print(center)

  39.     sc.stop()
复制代码


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Clustering Case study Cluster k-means python examples python simple future import

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群
GMT+8, 2025-12-24 08:59