使用NLTK和Scikit-Learn做文本分类【翻译】
原文:http://bbengfort.github.io/tutorials/2016/05/19/text-classification-nltk-sckit-learn.html
作者经常被问到在文本处理中,NLTK或者Scikit-Learn哪一个更好用。作者的回答是他经常混合着使用这些工具。在这篇博客中,作者主要讲述如何使用NLTK来做预处理和序列化和词语切分,然后使用Scikit-Learn处理机器学习任务(如建立线性SVM方法,用梯度下降求解)。作者将描述如何使用NLTK处理一个对电影评论做文本分类的任务。这里,电影评论将被分为正向和负向。
首先请确保本机安装了NLTK和Scikit-Learn。
pip install nltk scikit-learn
python -m nltk.downloader all
同时,作者也会使用一些辅助工具,如timeit、identity等。完整的代码请见。注意,代码中去除了import部分。

