Spark NLP 详情 | 数据学习(DataLearner)

工具描述

Spark NLP是一个建立在Apache Spark之上的最先进的自然语言处理库。它为机器学习管道提供了简单、高效和准确的NLP注释，在分布式环境中容易扩展。Spark NLP有5000多个预训练的管道和超过200种语言的模型。它还提供了诸如标记化、单词分割、部分语音标记、单词和句子嵌入、命名实体识别、依赖分析、拼写检查、文本分类、情感分析、标记分类、机器翻译（180多种语言）、总结和问题回答、文本生成以及更多的NLP任务。

Spark NLP是唯一在生产中的开源NLP库，它不仅向Python和R提供最先进的transformers，如BERT、CamemBERT、ALBERT、ELECTRA、XLNet、DistilBERT、RoBERTa、DeBERTa、XLM-RoBERTa、Longformer、ELMO、Universal Sentence Encoder、Google T5、MarianMT和GPT2，还通过原生扩展Apache Spark向JVM生态系统（Java、Scala和Kotlin）大规模提供。

该库的设计利用了管道的概念，这是一个有序的文本注释器的集合。开箱即用的注释器包括：标记器、规范化器、词干、词法、正则表达式、TextMatcher、chunker、DateMatcher、SentenceDetector、DeepSentenceDetector、POS标签器、ViveknSentimentDetector、情感分析、命名实体识别、条件随机场注释器、深度学习注释器、拼写检查和纠正、依赖性分析器、类型化依赖性分析器、文档分类和语言检测。

模型中心是一个分享开源以及授权预训练模型和管道的平台。它包括预训练的管道，包括标记化、词组化、部分语音标签和超过13种语言的命名实体识别；词嵌入包括GloVe、ELMo、BERT、ALBERT、XLNet、Small BERT和ELECTRA；句子嵌入包括通用句子嵌入（USE）和语言无关的BERT句子嵌入（LaBSE）它还包括超过200种语言的资源和预训练模型。Spark NLP基础代码包括对东亚语言的支持，如中文、日文、韩文的标记器；从右到左的语言，如乌尔都语、波斯语、阿拉伯语、希伯来语和预训练的多语言单词和句子嵌入，如LaUSE和一个翻译注释器。

Gradient Flow的一份调查显示，Spark NLP是2020年最受欢迎的NLP库。

是否开源：是

许可协议： Apache-2.0 license

官方地址： https://nlp.johnsnowlabs.com/

GitHub地址： https://github.com/JohnSnowLabs/spark-nlp

初始贡献者： John Snow LABS Developers

最佳实践指南

官方使用指南：https://nlp.johnsnowlabs.com/docs/en/quickstart

Spark NLP

工具描述

最佳实践指南

推荐工具