数据特征处理之特征哈希(Feature Hashing)
一、特征哈希(Feature Hashing/Hashing Trick)简介
大多数机器学习算法的输入要求都是实数矩阵,将原始数据转换成实数矩阵就是所谓的特征工程(Feature Engineering),而特征哈希(feature hashing,也称哈希技巧,hashing trick)就是一种特征工程技术。它的目标就是将一个数据点转换成一个向量。

我们先看一下对分类数据(categorical data)和文本数据(text data)进行特征工程处理的一般方法。
分类变量(category variable)就是一组有有限值(finite number of values)的变量。如身份证号、广告类别等。最常见的对分类变量的处理是使用独热模型(one-hot encoding):创建$N$个二元变量,其中$N$是该分类变量所有可能的取值数量。
