加载中...

使用NLTK和Scikit-Learn做文本分类【翻译】

2017/05/16 15:27:37

1,055 阅读

原文：http://bbengfort.github.io/tutorials/2016/05/19/text-classification-nltk-sckit-learn.html

作者经常被问到在文本处理中，NLTK或者Scikit-Learn哪一个更好用。作者的回答是他经常混合着使用这些工具。在这篇博客中，作者主要讲述如何使用NLTK来做预处理和序列化和词语切分，然后使用Scikit-Learn处理机器学习任务（如建立线性SVM方法，用梯度下降求解）。作者将描述如何使用NLTK处理一个对电影评论做文本分类的任务。这里，电影评论将被分为正向和负向。

首先请确保本机安装了NLTK和Scikit-Learn。

pip install nltk scikit-learn
python -m nltk.downloader all

同时，作者也会使用一些辅助工具，如timeit、identity等。完整的代码请见。注意，代码中去除了import部分。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

返回博客列表

import string

from nltk.corpus import stopwords as sw
from nltk.corpus import wordnet as wn
from nltk import wordpunct_tokenize
from nltk import WordNetLemmatizer
from nltk import sent_tokenize
from nltk import pos_tag

from sklearn.base import BaseEstimator, TransformerMixin


class NLTKPreprocessor(BaseEstimator, TransformerMixin):

    def __init__(self, stopwords=None, punct=None,
                 lower=True, strip=True):
        self.lower      = lower
        self.strip      = strip
        self.stopwords  = stopwords or set(sw.words('english'))
        self.punct      = punct or set(string.punctuation)
        self.lemmatizer = WordNetLemmatizer()

    def fit(self, X, y=None):
        return self

    def inverse_transform(self, X):
        return [" ".join(doc) for doc  X]

     ():
         [
            (.tokenize(doc))  doc  X
        ]

     ():
        
         sent  sent_tokenize(document):
            
             token, tag  pos_tag(wordpunct_tokenize(sent)):
                
                token = token.lower()  .lower  token
                token = token.strip()  .strip  token
                token = token.strip()  .strip  token
                token = token.strip()  .strip  token

                
                 token  .stopwords:
                    

                
                 (char  .punct  char  token):
                    

                
                lemma = .lemmatize(token, tag)
                 lemma

     ():
        tag = {
            : wn.NOUN,
            : wn.VERB,
            : wn.ADV,
            : wn.ADJ
        }.get(tag[], wn.NOUN)

         .lemmatizer.lemmatize(token, tag)

使用NLTK和Scikit-Learn做文本分类【翻译】 | DataLearnerAI

使用NLTK和Scikit-Learn做文本分类【翻译】

DataLearner 官方微信

Pipelines

预处理

热门博客