共计 1631 个字符,预计需要花费 5 分钟才能阅读完成。
导读 | 这篇文章主要为大家介绍了 Python 操作 HDF5 文件示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪 |
在 Matlab 操作 HDF5 文件中已经详细介绍了 HDF5 文件已经利用 Matlab 对其进行操作的方法。这篇文章总结一下如何在 Python 下使用 HDF5 文件。我们仍然按照 Matlab 操作 HDF5 文件的顺序进行,分别是创建 HDF5 文件,写入数据,读取数据。
Python 下的 HDF5 文件依赖 h5py 工具包
使用 `h5py.File()方法创建 hdf5 文件
h5file = h5py.File(filename,'w')
然后在此基础上创建数据集
X = h5file.create_dataset(shape=(0,args.patch_size,args.patch_size), #数据集的维度
maxshape = (None,args.patch_size,args.patch_size), #数据集的允许最大维度
dtype=float,compression='gzip',name='train', #数据类型、是否压缩,以及数据集的名字
chunks=(args.chunk_size,args.patch_size,args.patch_size)) #分块存储,每一分块的大小
最为关系的两个参数为 shape 和 maxshape,很显然我们希望数据集的某一个维度是可以扩展的,所以在 maxshape 中,将希望扩展的维度标记为 None,其他维度和 shape 参数里面的一样。还有一点值得注意的是,使用 compression=’gzip’ 以后,整个数据集能够被极大的压缩,对比较大的数据集非常又用,并且在数据读写的时候,不用用户显式的解码。
在使用上面的 creat_dataset 创建了 dataset 以后,读写数据集就如同读写 numpy 数组一样方便,比如上面的函数定义了数据集 ’train’,也就是变量 X 以后,可以下面的方法来读写:
data = np.zeros((100,args.patch_size,arg))
X[0:100,:,:] = data
在前面创建数据集的时候,我们定义 shape = (args.chunk_size,args.patch_size,args.patch_size),如果有更多的数据,怎么办呢?
可以使用 resize 方法来扩展在 maxshape 中定义为 None 的那个维度:
X.resize(X.shape[0]+args.chunk_size,axis=0)
因为我们在 maxshape=(None,args.patch_size,args.patch_size)中将第零个维度定义为可扩展,所以,首先我们用 X.shape[0]来找到该维度的长度,并将其扩展。该维度扩展以后,就可以继续向里面写入数据了。
读取 h5 文件的方法也非常简单,首先利用 h5py.File 方法打开对应的 h5 文件,然后将里面的某个数据集取出至变量,对这个变量的读取就如同 numpy 一样了。
h = h5py.File(hd5file,'r')
train = h['train']
train[1]
train[2]
...
但是上面的读取方法存在一个问题就是每一次使用的时候 (train[1],train[2]) 都需要从硬盘读取数据,这将会导致读取的速度比较慢。一个比较好的方法是,每次从硬盘读取一个 chunk_size 的数据,然后将这些数据存储到内存中,在需要的时候从内存中读取,比如使用下面的方法:
h = h5py.File(hd5file,'r')
train = h['train']
X = train[0:100] #一次从硬盘中读取比较多的数据,X 将存储在内存中
X[1] #从内存中读取
X[2] #从内存中读取
这样的方法就会快很多。