楼主: ReneeBK
766 0

[Case Study]Term Frequency-Inverse Document Frequency using Python [推广有奖]

  • 1关注
  • 62粉丝

VIP

学术权威

14%

还不是VIP/贵宾

-

TA的文库  其他...

R资源总汇

Panel Data Analysis

Experimental Design

威望
1
论坛币
49407 个
通用积分
51.8704
学术水平
370 点
热心指数
273 点
信用等级
335 点
经验
57815 点
帖子
4006
精华
21
在线时间
582 小时
注册时间
2005-5-8
最后登录
2023-11-26

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
  1. from __future__ import print_function

  2. from pyspark import SparkContext
  3. # $example on$
  4. from pyspark.ml.feature import HashingTF, IDF, Tokenizer
  5. # $example off$
  6. from pyspark.sql import SQLContext

  7. if __name__ == "__main__":
  8.     sc = SparkContext(appName="TfIdfExample")
  9.     sqlContext = SQLContext(sc)

  10.     # $example on$
  11.     sentenceData = sqlContext.createDataFrame([
  12.         (0, "Hi I heard about Spark"),
  13.         (0, "I wish Java could use case classes"),
  14.         (1, "Logistic regression models are neat")
  15.     ], ["label", "sentence"])
  16.     tokenizer = Tokenizer(inputCol="sentence", outputCol="words")
  17.     wordsData = tokenizer.transform(sentenceData)
  18.     hashingTF = HashingTF(inputCol="words", outputCol="rawFeatures", numFeatures=20)
  19.     featurizedData = hashingTF.transform(wordsData)
  20.     idf = IDF(inputCol="rawFeatures", outputCol="features")
  21.     idfModel = idf.fit(featurizedData)
  22.     rescaledData = idfModel.transform(featurizedData)
  23.     for features_label in rescaledData.select("features", "label").take(3):
  24.         print(features_label)
  25.     # $example off$

  26.     sc.stop()
复制代码


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Case study Frequency Document inverse python example future import

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注jltj
拉您入交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 16:22