请选择 进入手机版 | 继续访问电脑版
楼主: ReneeBK
1236 1

[Case Study]Term Frequency–Inverse Document Frequency using Scala [推广有奖]

  • 1关注
  • 62粉丝

VIP

学术权威

14%

还不是VIP/贵宾

-

TA的文库  其他...

R资源总汇

Panel Data Analysis

Experimental Design

威望
1
论坛币
49392 个
通用积分
51.6904
学术水平
370 点
热心指数
273 点
信用等级
335 点
经验
57815 点
帖子
4006
精华
21
在线时间
582 小时
注册时间
2005-5-8
最后登录
2023-11-26

ReneeBK 发表于 2015-11-16 00:52:18 |显示全部楼层 |坛友微信交流群

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
  1. // scalastyle:off println
  2. package org.apache.spark.examples.ml

  3. // $example on$
  4. import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}
  5. // $example off$
  6. import org.apache.spark.sql.SQLContext
  7. import org.apache.spark.{SparkConf, SparkContext}

  8. object TfIdfExample {

  9.   def main(args: Array[String]) {
  10.     val conf = new SparkConf().setAppName("TfIdfExample")
  11.     val sc = new SparkContext(conf)
  12.     val sqlContext = new SQLContext(sc)

  13.     // $example on$
  14.     val sentenceData = sqlContext.createDataFrame(Seq(
  15.       (0, "Hi I heard about Spark"),
  16.       (0, "I wish Java could use case classes"),
  17.       (1, "Logistic regression models are neat")
  18.     )).toDF("label", "sentence")

  19.     val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
  20.     val wordsData = tokenizer.transform(sentenceData)
  21.     val hashingTF = new HashingTF()
  22.       .setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(20)
  23.     val featurizedData = hashingTF.transform(wordsData)
  24.     val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
  25.     val idfModel = idf.fit(featurizedData)
  26.     val rescaledData = idfModel.transform(featurizedData)
  27.     rescaledData.select("features", "label").take(3).foreach(println)
  28.     // $example off$
  29.   }
  30. }
  31. // scalastyle:on printl
复制代码
  1. https://en.wikipedia.org/wiki/Tf%E2%80%93idf
复制代码

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Case study Frequency Document inverse DOCUME frequency document

本帖被以下文库推荐

soccy 发表于 2016-1-30 22:04:43 |显示全部楼层 |坛友微信交流群
不知道topic model能不能做?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-3-28 21:10