楼主: ReneeBK
1504 1

[Case Study]Term Frequency–Inverse Document Frequency using Scala [推广有奖]

  • 1关注
  • 62粉丝

VIP

已卖:4897份资源

学术权威

14%

还不是VIP/贵宾

-

TA的文库  其他...

R资源总汇

Panel Data Analysis

Experimental Design

威望
1
论坛币
49635 个
通用积分
55.6937
学术水平
370 点
热心指数
273 点
信用等级
335 点
经验
57805 点
帖子
4005
精华
21
在线时间
582 小时
注册时间
2005-5-8
最后登录
2023-11-26

楼主
ReneeBK 发表于 2015-11-16 00:52:18 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
  1. // scalastyle:off println
  2. package org.apache.spark.examples.ml

  3. // $example on$
  4. import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}
  5. // $example off$
  6. import org.apache.spark.sql.SQLContext
  7. import org.apache.spark.{SparkConf, SparkContext}

  8. object TfIdfExample {

  9.   def main(args: Array[String]) {
  10.     val conf = new SparkConf().setAppName("TfIdfExample")
  11.     val sc = new SparkContext(conf)
  12.     val sqlContext = new SQLContext(sc)

  13.     // $example on$
  14.     val sentenceData = sqlContext.createDataFrame(Seq(
  15.       (0, "Hi I heard about Spark"),
  16.       (0, "I wish Java could use case classes"),
  17.       (1, "Logistic regression models are neat")
  18.     )).toDF("label", "sentence")

  19.     val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
  20.     val wordsData = tokenizer.transform(sentenceData)
  21.     val hashingTF = new HashingTF()
  22.       .setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(20)
  23.     val featurizedData = hashingTF.transform(wordsData)
  24.     val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
  25.     val idfModel = idf.fit(featurizedData)
  26.     val rescaledData = idfModel.transform(featurizedData)
  27.     rescaledData.select("features", "label").take(3).foreach(println)
  28.     // $example off$
  29.   }
  30. }
  31. // scalastyle:on printl
复制代码
  1. https://en.wikipedia.org/wiki/Tf%E2%80%93idf
复制代码

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Case study Frequency Document inverse DOCUME frequency document

本帖被以下文库推荐

沙发
soccy 发表于 2016-1-30 22:04:43
不知道topic model能不能做?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-31 21:35