Spark的抽取、转换和选择操作
[TOCM]
特征抽取
TF-IDF
CountVectorizer
CountVectorizer 的目的是为了将文档集合转换成关于词语数量的向量。当没有预先定义词典的时候,CountVectorizer可以作为一个Estimator来抽取词汇,并产生CountVectorizerModel。该模型将文档表示成稀疏向量的形式,其结果可以作为参数传递给其他算法,例如LDA。
在模型的适配阶段,CountVectorizer将根据词频选择最频繁出现的词语(vocabSize)。可选参数minDF指的就是单词在文档中最小出现次数。另一个可选的二元参数是控制输出向量的,如果为,那么非零的结果会变成1。这个是用于那些只需要0-1向量的模型中。
