HFUTUtils的使用

加载中...

HFUTUtils的使用 | DataLearnerAI

//从输入文件目录中读取文件，并去除输出目录中存在的文件。通常我们需要读取一些某个目录下所有的文件，但是又想去掉一些在目标目录中存在的文件，可以使用如下方法。
String source_directory = "d:/source";
String target_directory = "d:/target";
Collection<File> files = HFUTFileUtils.readFileList(source_directory, target_directory);

//读取某个文件夹下所有文件的名字到List中
String inputDirectory = "D:/test";
Collection<String> fileNames = HFUTFileUtils.readFileNameByDirectory(inputDirectory);

//获取某个文件的总行数
int lineNumber = HFUTFileUtils.getLineNumber(inputDirectory);

//将一个Map键值对写入到一个文件中
HashMap<String,Integer> map = new HashMap<String,Integer>();
map.put("test",1);
HFUTFileUtils.save2DMap(inputDirectory, map);

String input_text1 = "合肥工业大学（Hefei University of Technology）简称“合工大（HFUT）”，创建于1945 年，坐落于全国四大科教城市之一，素有大湖名城、创新高地之称的江淮枢纽名城安徽省合肥市";
String input_text2 = "学校创建于1945年，1960年被中共中央批准为全国重点大学";

HashMap<String,String> input_text_map = Maps.newHashMap();
input_text_map.put("1",input_text1);
input_text_map.put("2",input_text2);

//初始化，写出两个文件夹位置，基本上只要改"d:/nlpir"就可以了
NLPIR nlpir = new NLPIR("d:/nlpir/lib/win64/NLPIR","d:/nlpir/");

//对单个字符进行分词，第二个参数：0-不带标签输出，1-带词性标签输出。
String output_text1 = nlpir.seg(input_text1, 0);
System.out.println("-------------对单个字符进行分词------------");
System.out.println(output_text1);

//对一组字符进行分词，第二个参数：0-不带标签输出，1-带词性标签输出。
NLPIR nlpir2 = new NLPIR("d:/nlpir/lib/win64/NLPIR","d:/nlpir/");
List<String> input_text_list = new ArrayList<>();
input_text_list.add(input_text1);
input_text_list.add(input_text2);
List<String> output_text2 = nlpir2.segList(input_text_list, 1);
System.out.println("-------------对一组字符进行分词------------");
for( String line : output_text2 ){
  System.out.println(line);
}

//对带有key值的HashMap分词，key是id之类的，value是待分词结果
NLPIR nlpir3 = new NLPIR("d:/nlpir/lib/win64/NLPIR",);
HashMap<String,String> output_text_map = nlpir3.segMapValue(input_text_map, );
System.out.println();
( Map.Entry<String, String> entry : output_text_map.entrySet() ){
  System.out.println(entry.getKey()++entry.getValue());
}


    (,);
   ;
 {

  System.out.println();
  List<String> output_text_with_dict = nlpir4.segWithUserDict(input_text_list,dictPath,);
  ( String line : output_text_with_dict ){
    System.out.println(line);
  }
}  (IOException e) {
  e.printStackTrace();
}


    (,);
List<String> list = Lists.newArrayList(,);
System.out.println();
List<String> output_text_with_dict = nlpir5.segWithUserDict(input_text_list,list,);
( String line : output_text_with_dict ){
  System.out.println(line);
}

Jieba jieba = new Jieba();
List<String> outList = jieba.seg(input_text_list);

for (String sentence : outList) {
  System.out.println(sentence);
}

String original_text = "合肥工业大学简称合工大，位于安徽省省会合肥市，创建于1945年秋，1960年10月22日被中共中央批准为全国重点大学，是教育部直属高校，“211工程”和“985工程”优势学科创新平台项目建设高校，是一所以工科为主要特色，工、理、文、经、管、法、教育多学科的综合性高等院校。";

//分词
NLPIR nlpir = new NLPIR("d:/nlpir/lib/win64/NLPIR","d:/nlpir/");
String sentence = nlpir.seg(original_text, 1);    //分词后带标签

System.out.println("original text:\t" + original_text);
System.out.println("seg by NLPIR:\t" + sentence);		//分词结果
System.out.println("filtered by POS:\t" + WordFiltering.filterWordsByPOS(sentence," ", ""));		//按照词性标注结果过滤
System.out.println("remove POSTag:\t" + WordFiltering.removePOSTag(sentence, " "));		//去除词性标注的标签
System.out.println("filtered by stop words:\t" + WordFiltering.removeSentenceStopWords(WordFiltering.filterWordsByPOS(sentence," ", ""), " "，"F:/experiment_data/stop_words_hit")); //按照词性标注结果过滤后，再去除停用词，去除停用词方法的第二个参数是空格，表示单词由空格切分

String original_text = "合肥工业大学简称合工大，位于安徽省省会合肥市，创建于1945年秋，1960年10月22日被中共中央批准为全国重点大学，是教育部直属高校，“211工程”和“985工程”优势学科创新平台项目建设高校，是一所以工科为主要特色，工、理、文、经、管、法、教育多学科的综合性高等院校。";

String sentence = nlpir.seg(original_text, 1);    //分词后带标签

//第三个参数是自定义的规则，如果为空，则使用我们内置的过滤规则，第二个参数是单词的分隔符，一般都是空格。这里提供一个接口大家可以改
String filtered_text = WordFiltering.filterWordsByPOS(sentence," ", "");
System.out.println(filtered_text);

//输出结果为：合肥 工业 大学 简称 合 工大 位于 安徽省 省会 合肥市 创建 1945年 秋 1960年 10月 22日 中共中央 批准 全国 重点 大学 教育部 直属 高校 工程 工程 优势 学科 创新 平台 项目 建设 高校 工科 主要 特色 工 理 文 经 管 法 教育 多 学科 综合性 高等院校

String original_text = "合肥工业大学简称合工大，位于安徽省省会合肥市，创建于1945年秋，1960年10月22日被中共中央批准为全国重点大学，是教育部直属高校，“211工程”和“985工程”优势学科创新平台项目建设高校，是一所以工科为主要特色，工、理、文、经、管、法、教育多学科的综合性高等院校。";

NLPIR nlpir = new NLPIR("d:/nlpir/lib/win64/NLPIR","d:/nlpir/");
String sentence = nlpir.seg(original_text, 1);    //分词后带标签

//removePOSTag是将分词后的词性标签去掉，如果是经过词性过滤的结果，不带标签就可以不用这个方法了。
System.out.println(WordFiltering.removeSentenceStopWords(WordFiltering.removePOSTag(sentence, " "), " ",        "F:/experiment_data/stop_words_hit"));

//输出结果为：合肥 工业 大学 合 工大 位于 安徽省 省会 合肥市 创建 1945年 秋 1960年 10月 22日 中共中央 批准 全国 重点 大学 教育部 直属 高校 211 工程 985 工程 优势 学科 创新 平台 项目 建设 高校 工科 主要 特色 工 理 文 法 教育 学科 综合性 高等院校。
//与上面比较，我们少了“简称”这个单词，这是在停用词表里面的词。这里面没按照词性过滤。因此还有比如“位于”这样的词语存在。

import org.hfutec.nlp.model.Corpus;

/**
 * 读取语料
 * Created by DuFei on 2017/5/26.
 */
public class CorpusTest {

  public static void main(String[] args) {

    String inputFile = "d:/test.txt";

    //读取文件并保存语料
    Corpus corpus = new Corpus(inputFile, false);
    corpus.saveCorpus(inputFile);

    //载入之前保存的语料
    Corpus corpusLoading = new Corpus();
    corpusLoading.loadCorpus(inputFile);

    //输入是文件夹的测试，去掉false参数即可
    String inputDir = "D:/test";
    String outputDir = "d:/test_out";
    Corpus corpusDir = new Corpus(inputDir);
    corpusDir.saveCorpus(outputDir);

  }

}

public int docSize = 0;       //文档数量
public int wordSize = 0;      //单词总数（包含重复）
public int vocabularySize = 0;   //词汇数量（不重复）

public HashSet<Integer> wordSet = Sets.newHashSet();      //单词集合

public HashBiMap<String,Integer> docIndex = HashBiMap.create();     //文档索引
public HashBiMap<String,Integer> wordIndex = HashBiMap.create();    //单词索引
public HashMap<Integer,HashMap<Integer,Integer>> sparseVSMOfDocs = Maps.newHashMap();  //文档的稀疏空间表示
public HashMap<Integer,HashSet<Integer>> wordDocs = Maps.newHashMap(); //单词对应的文档编号
public HashMap<Integer,Integer> wordCount = Maps.newHashMap();      //单词计数，即每个单词对应的数量，单词用索引表示
public HashMap<Integer,HashSet<Integer>> docWords = Maps.newHashMap();  //文档中包含的单词

DataLearner 官方微信

1、HFUTUtils简介

2、文件操作类HFUTFileUtils

3、文本预处理

3.1、分词的使用

张华平分词/中科院分词/ICTCLAS/NLPIR

结巴分词

3.2、过滤分词后的文本

按照词性标注的结果过滤

按照停用词表过滤停用词

4.文档语料处理

热门博客