使用NLTK和Scikit-Learn做文本分类【翻译】

2017/05/16 15:27:37

1,039 views

原文：http://bbengfort.github.io/tutorials/2016/05/19/text-classification-nltk-sckit-learn.html

作者经常被问到在文本处理中，NLTK或者Scikit-Learn哪一个更好用。作者的回答是他经常混合着使用这些工具。在这篇博客中，作者主要讲述如何使用NLTK来做预处理和序列化和词语切分，然后使用Scikit-Learn处理机器学习任务（如建立线性SVM方法，用梯度下降求解）。作者将描述如何使用NLTK处理一个对电影评论做文本分类的任务。这里，电影评论将被分为正向和负向。

首先请确保本机安装了NLTK和Scikit-Learn。

pip install nltk scikit-learn
python -m nltk.downloader all

同时，作者也会使用一些辅助工具，如timeit、identity等。完整的代码请见。注意，代码中去除了import部分。

DataLearner WeChat

Follow DataLearner WeChat for the latest AI updates

Back to Blog List

import string

from nltk.corpus import stopwords as sw
from nltk.corpus import wordnet as wn
from nltk import wordpunct_tokenize
from nltk import WordNetLemmatizer
from nltk import sent_tokenize
from nltk import pos_tag

from sklearn.base import BaseEstimator, TransformerMixin


class NLTKPreprocessor(BaseEstimator, TransformerMixin):

    def __init__(self, stopwords=None, punct=None,
                 lower=True, strip=True):
        self.lower      = lower
        self.strip      = strip
        self.stopwords  = stopwords or set(sw.words('english'))
        self.punct      = punct or set(string.punctuation)
        self.lemmatizer = WordNetLemmatizer()

    def fit(self, X, y=None):
        return self

    def inverse_transform(self, X):
        return [" ".join(doc) for doc  X]

     ():
         [
            (.tokenize(doc))  doc  X
        ]

     ():
        
         sent  sent_tokenize(document):
            
             token, tag  pos_tag(wordpunct_tokenize(sent)):
                
                token = token.lower()  .lower  token
                token = token.strip()  .strip  token
                token = token.strip()  .strip  token
                token = token.strip()  .strip  token

                
                 token  .stopwords:
                    

                
                 (char  .punct  char  token):
                    

                
                lemma = .lemmatize(token, tag)
                 lemma

     ():
        tag = {
            : wn.NOUN,
            : wn.VERB,
            : wn.ADV,
            : wn.ADJ
        }.get(tag[], wn.NOUN)

         .lemmatizer.lemmatize(token, tag)

使用NLTK和Scikit-Learn做文本分类【翻译】

DataLearner WeChat

Pipelines

预处理

Hot Blogs