王老师能不能给解答一下一个简单问题。scala才开始学不太会
在官方的mlib里面,fpgw算法是这样写的:
http://spark.apache.org/docs/latest/mllib-frequent-pattern-mining.htmlimport org.apache.spark.rdd.RDDimport org.apache.spark.mllib.fpm.{
FPGrowth,
FPGrowthModel}
val transactions
: RDD[Array[String]]
= ...
val fpg
= new FPGrowth() .setMinSupport(0.2) .setNumPartitions(10)
val model
= fpg.run(transactions)model.freqItemsets.collect().foreach { itemset
=> println(itemset.items.mkString("[", ",", "]") + ", " + itemset.freq)}
最后一行 用了println,我想直接saveastextfile,但是出来格式无法识别,val out = new ObjectOutputStream(new FileOutputStream("/home/result"))
model.freqItemsets.collect().foreach { itemset => out.writeObject(itemset.items.mkString("[", ",", "]") + "," + itemset.freq)}
这种写入本地文件格式一团糟。
想请王老师给解答下,直接这里写入hdfs改怎么修改?
另外麻烦王老师给说下这个问题?
valfpg =
new FPGrowth().setMinSupport(0.8).setNumPartitions(10)
官方给出的setMinSupport(0.8)最小支持度这里用0.2 意思是同时出现20%? 最小支持度前面是INT型,按照出现次数来统计的.setNumPartitions(10) 网上找死没有找到具体解释 王老师能给说下什么意思么?