Python生态系统中5个NLP工具库
Python是目前最流行的编程语言,也是开放生态做得最好的编程语言之一。大多数深度学习框架、机器学习的框架都有很优秀的Python版本。这篇博客主要为大家介绍5个python生态系中解决NLP任务的框架。
一、宾夕法尼亚大学的NLTK(Natural Language Toolkit)
NLTK是一个非常优秀且著名的自然语言处理工具,最早是由宾夕法尼亚大学(University of Pennsylvania)计算机和信息科学系的两位老师开发的,主要是针对英语的自然语言处理工具。NLTK早期被用来教学,在深度学习这种“粗暴的”解决方案之前,自然语言处理的很多任务都是认知学、语言学等内容,做词法分析、语句结构分析等工作很主流。而NLTK在这方面的分析非常好。

当前,NLTK支持的能力包括:
- Tokenize和文本标注(Tokenize and tag some text):如分词、词性标注等
- 命名实体识别(Identify named entities):即专有名词识别,包括人名、地名等
- 语言分析树(语法树):反应语言字符的语法关系的有根有序树



