数据学习
登录
注册
原创博客
期刊会议
学术世界
期刊出版社
领域期刊
SCI/SCIE/SSCI/EI简介
期刊列表
会议列表
所有期刊分区
学术期刊信息检索
JCR期刊分区查询
CiteScore期刊分区查询
中科院期刊分区查询
领域期刊分区
管理 - UTD24期刊列表
管理 - AJG(ABS)期刊星级查询
管理 - FMS推荐期刊列表
计算机 - CCF推荐期刊会议列表
高校期刊分区
南大核心(CSSCI)
合工大小核心
合工大大核心
AI资源仓库
AI领域与任务
AI研究机构
AI学术期刊
AI论文快讯
AI预训练模型
AI数据集
AI开源工具
数据推荐
网址导航
我的网址导航
程序员必备网站
张华平分词(又名中科院分词/NLPIR分词)的使用(Java版本)
标签:
#分词#
#工具#
#编程#
时间:2017/03/03 20:31:23
作者:小木
其实步骤很简单,主要就是下载,解压,导入,配置即可。由于张华平分词最近开始使用新的授权方式,导致很多以前的分词程序无法使用。这里也会说明如何解决“初始化失败”的问题。 [TOC] #### 1、下载分词 从官方网站下载即可:http://ictclas.nlpir.org/downloads  #### 2、解压 下载后解压到我们指定的工程目录(根据个人需要选择),比如我们这里导入java版本,在sample里面选择导入java文件夹下jnaTest即可。  #### 3、导入Eclipse工程 解压后我们看到sample文件夹,里面有个JAVA文件夹,下面有个JNA文件夹。将该文件夹拷贝到一个非中文目录下。然后打开Eclipse——File——import——Java Project——Existing Projects into Workspace,然后选择刚才jna目录点击Next——Finish即可。   #### 4、配置 其实这个时候分词系统已经导入到Eclipse中,只需要配置一下运行所需的文件位置即可。总共需要配置的地方有两个,一个是NIPIR.dll目录一个是Data文件夹目录。我们展开工程目录打开NlpirTest.java文件。在主函数main下面的arg后面填入Data文件夹目录(分词系统解压后就有一个data文件夹,将该文件夹拷贝到非中文目录下,然后将该目录写在arg后面,注意路径写到Data所在目录即可。位置可以自己选择,注意要在非中文目录下!比如我把Data文件夹放在D:/NLPIR文件夹下面,那么这里的参数就是"D:/NLPIR")。第二个配置是Native.loadLibrary的dll位置。分词系统需要dll文件。我们解压分词文件后有一个lib文件夹,里面有win64 win32 linux64 linux32等文件夹,根据自己的系统选择相应的文件夹,拷贝至非中文目录下(位置可以自己选择,注意要在非中文目录下!请注意该路径配置一直要写到dll文件的名字,但不需要加扩展名。比如我的win64位置是C:/WIN64,那么我的路径应该写成c:/win64/NLPIR)    #### 5、添加用户词库 在初始化函数之后添加如下语句: ```java String system_charset = "GBK"; int charset_type = 1; int init_flag = CLibrary.Instance.NLPIR_Init(argu.getBytes(system_charset), charset_type, "0".getBytes(system_charset)); if (0 == init_flag) { System.err.println("初始化失败!"); } //添加自定义词库,dictPath是用户词库位置 int nCount = CLibrary.Instance.NLPIR_ImportUserDict(dictPath,true); ```  #### 6、运行 运行NlpirTest.java会发现已经出现分词结果。  #### 7、初始化失败的问题 如果出现初始化失败的情况,请注意Data文件夹是否过期。由于最近张华平分词开始使用新的授权方式,之前的分词可能无法使用。而且新的授权方式分为7天和30天两种。授权更新首先需要在 https://github.com/NLPIR-team/NLPIR/tree/master/License 这个链接下载授权文件,有7天和30天两种。点进去发现有很多授权文件,需要什么功能下载什么功能。将下载后的文件解压,比如我需要分词,于是下载了NLPIR-ICTCLAS分词系统授权.zip。然后解压得到NLPIR.user文件,将该文件复制到Data文件夹下覆盖即可使用。 
相关博客
最热博客