Spark NLP

Spark NLP是一个建立在Apache Spark之上的最先进的自然语言处理库。

Python/Scala/Java
John Snow LABS
自然语言处理
初始发布时间:2017年10月
工具描述

Spark NLP是一个建立在Apache Spark之上的最先进的自然语言处理库。它为机器学习管道提供了简单、高效和准确的NLP注释,在分布式环境中容易扩展。Spark NLP有5000多个预训练的管道和超过200种语言的模型。它还提供了诸如标记化、单词分割、部分语音标记、单词和句子嵌入、命名实体识别、依赖分析、拼写检查、文本分类、情感分析、标记分类、机器翻译(180多种语言)、总结和问题回答、文本生成以及更多的NLP任务。

Spark NLP是唯一在生产中的开源NLP库,它不仅向Python和R提供最先进的transformers,如BERT、CamemBERT、ALBERT、ELECTRA、XLNet、DistilBERT、RoBERTa、DeBERTa、XLM-RoBERTa、Longformer、ELMO、Universal Sentence Encoder、Google T5、MarianMT和GPT2,还通过原生扩展Apache Spark向JVM生态系统(Java、Scala和Kotlin)大规模提供。

该库的设计利用了管道的概念,这是一个有序的文本注释器的集合。 开箱即用的注释器包括:标记器、规范化器、词干、词法、正则表达式、TextMatcher、chunker、DateMatcher、SentenceDetector、DeepSentenceDetector、POS标签器、ViveknSentimentDetector、情感分析、命名实体识别、条件随机场注释器、深度学习注释器、拼写检查和纠正、依赖性分析器、类型化依赖性分析器、文档分类和语言检测。


模型中心是一个分享开源以及授权预训练模型和管道的平台。它包括预训练的管道,包括标记化、词组化、部分语音标签和超过13种语言的命名实体识别;词嵌入包括GloVe、ELMo、BERT、ALBERT、XLNet、Small BERT和ELECTRA;句子嵌入包括通用句子嵌入(USE)和语言无关的BERT句子嵌入(LaBSE)它还包括超过200种语言的资源和预训练模型。Spark NLP基础代码包括对东亚语言的支持,如中文、日文、韩文的标记器;从右到左的语言,如乌尔都语、波斯语、阿拉伯语、希伯来语和预训练的多语言单词和句子嵌入,如LaUSE和一个翻译注释器。

Gradient Flow的一份调查显示,Spark NLP是2020年最受欢迎的NLP库。

是否开源:

许可协议: Apache-2.0 license

官方地址: https://nlp.johnsnowlabs.com/

GitHub地址: https://github.com/JohnSnowLabs/spark-nlp

初始贡献者: John Snow LABS Developers

最佳实践指南

官方使用指南:https://nlp.johnsnowlabs.com/docs/en/quickstart

John Snow LABS-logo
pytorch-logo
推荐工具

TensorFlow - 深度学习

MindSpore - 深度学习