- 阅读权限
- 255
- 威望
- 1 级
- 论坛币
- 49392 个
- 通用积分
- 51.6904
- 学术水平
- 370 点
- 热心指数
- 273 点
- 信用等级
- 335 点
- 经验
- 57815 点
- 帖子
- 4006
- 精华
- 21
- 在线时间
- 582 小时
- 注册时间
- 2005-5-8
- 最后登录
- 2023-11-26
学术权威
还不是VIP/贵宾
TA的文库 其他... R资源总汇
Panel Data Analysis
Experimental Design
- 威望
- 1 级
- 论坛币
- 49392 个
- 通用积分
- 51.6904
- 学术水平
- 370 点
- 热心指数
- 273 点
- 信用等级
- 335 点
- 经验
- 57815 点
- 帖子
- 4006
- 精华
- 21
- 在线时间
- 582 小时
- 注册时间
- 2005-5-8
- 最后登录
- 2023-11-26
| 开心 2017-10-21 10:25:33 |
---|
签到天数: 1 天 连续签到: 1 天 [LV.1]初来乍到
|
经管之家送您一份
应届毕业生专属福利!
求职就业群
感谢您参与论坛问题回答
经管之家送您两个论坛币!
+2 论坛币
- // scalastyle:off println
- package org.apache.spark.examples.ml
- // $example on$
- import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}
- // $example off$
- import org.apache.spark.sql.SQLContext
- import org.apache.spark.{SparkConf, SparkContext}
- object TfIdfExample {
- def main(args: Array[String]) {
- val conf = new SparkConf().setAppName("TfIdfExample")
- val sc = new SparkContext(conf)
- val sqlContext = new SQLContext(sc)
- // $example on$
- val sentenceData = sqlContext.createDataFrame(Seq(
- (0, "Hi I heard about Spark"),
- (0, "I wish Java could use case classes"),
- (1, "Logistic regression models are neat")
- )).toDF("label", "sentence")
- val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
- val wordsData = tokenizer.transform(sentenceData)
- val hashingTF = new HashingTF()
- .setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(20)
- val featurizedData = hashingTF.transform(wordsData)
- val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
- val idfModel = idf.fit(featurizedData)
- val rescaledData = idfModel.transform(featurizedData)
- rescaledData.select("features", "label").take(3).foreach(println)
- // $example off$
- }
- }
- // scalastyle:on printl
复制代码- https://en.wikipedia.org/wiki/Tf%E2%80%93idf
复制代码
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
|
|
|