Tensorflow中数据集的使用方法(tf.data.Dataset)
Tensorflow中tf.data.Dataset是最常用的数据集类,我们也使用这个类做转换数据、迭代数据等操作。本篇博客将简要描述这个类的使用方法。
- 1、引入必要的包
- 2、使用numpy构造数据集
- 在这里我们定义两个特征集合和一个标签集合,features1有三列特征,features2有4列特征,labels是0-2之间的一种
- 打印测试
- 3、将numpy数据转换成Dataset
- dataset = tf.data.Dataset.from_tensor_slices((features1, features2, labels)).repeat(10).batch(6)
- 4、获取数据迭代器
- 单次迭代器只能循环使用一次数据,而且单次迭代器不需要手动显示调用sess.run()进行初始化即可使用
- 可初始化的迭代器可以重新初始化进行循环,但是需要手动显示调用sess.run()才能循环
- 创建了迭代器之后,我们获取迭代器结果便于后面的运行,注意,这里不会产生迭代,只是建立tensorflow的计算图,因此不会消耗迭代
- 5、创建了迭代器之后就可以循环数据了
- 6、使用tqdm循环输出

