Python操作HDF5文件示例详解

102次阅读

共计 1631 个字符，预计需要花费 5 分钟才能阅读完成。

导读	这篇文章主要为大家介绍了 Python 操作 HDF5 文件示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪

引言

在 Matlab 操作 HDF5 文件中已经详细介绍了 HDF5 文件已经利用 Matlab 对其进行操作的方法。这篇文章总结一下如何在 Python 下使用 HDF5 文件。我们仍然按照 Matlab 操作 HDF5 文件的顺序进行，分别是创建 HDF5 文件，写入数据，读取数据。

Python 下的 HDF5 文件依赖 h5py 工具包

创建文件和数据集

使用 `h5py.File()方法创建 hdf5 文件

h5file = h5py.File(filename,'w')

然后在此基础上创建数据集

 X = h5file.create_dataset(shape=(0,args.patch_size,args.patch_size),             #数据集的维度
                              maxshape = (None,args.patch_size,args.patch_size),                #数据集的允许最大维度 
                              dtype=float,compression='gzip',name='train',                      #数据类型、是否压缩，以及数据集的名字
                              chunks=(args.chunk_size,args.patch_size,args.patch_size))         #分块存储，每一分块的大小

最为关系的两个参数为 shape 和 maxshape，很显然我们希望数据集的某一个维度是可以扩展的，所以在 maxshape 中，将希望扩展的维度标记为 None，其他维度和 shape 参数里面的一样。还有一点值得注意的是，使用 compression=’gzip’ 以后，整个数据集能够被极大的压缩，对比较大的数据集非常又用，并且在数据读写的时候，不用用户显式的解码。

写数据集

在使用上面的 creat_dataset 创建了 dataset 以后，读写数据集就如同读写 numpy 数组一样方便，比如上面的函数定义了数据集 ’train’，也就是变量 X 以后，可以下面的方法来读写：

 data = np.zeros((100,args.patch_size,arg))
X[0:100,:,:] = data

在前面创建数据集的时候，我们定义 shape = (args.chunk_size,args.patch_size,args.patch_size)，如果有更多的数据，怎么办呢？

可以使用 resize 方法来扩展在 maxshape 中定义为 None 的那个维度:

X.resize(X.shape[0]+args.chunk_size,axis=0)

因为我们在 maxshape=(None,args.patch_size,args.patch_size)中将第零个维度定义为可扩展，所以，首先我们用 X.shape[0]来找到该维度的长度，并将其扩展。该维度扩展以后，就可以继续向里面写入数据了。

读数据集

读取 h5 文件的方法也非常简单，首先利用 h5py.File 方法打开对应的 h5 文件，然后将里面的某个数据集取出至变量，对这个变量的读取就如同 numpy 一样了。

 h = h5py.File(hd5file,'r')
train = h['train']
train[1]
train[2]
...

但是上面的读取方法存在一个问题就是每一次使用的时候 (train[1],train[2]) 都需要从硬盘读取数据，这将会导致读取的速度比较慢。一个比较好的方法是，每次从硬盘读取一个 chunk_size 的数据，然后将这些数据存储到内存中，在需要的时候从内存中读取，比如使用下面的方法：

 h = h5py.File(hd5file,'r')
train = h['train']
X = train[0:100]         #一次从硬盘中读取比较多的数据，X 将存储在内存中
X[1]                     #从内存中读取
X[2]                     #从内存中读取

这样的方法就会快很多。

阿里云 2 核 2G 服务器 3M 带宽 61 元 1 年，有高配

腾讯云新客低至 82 元 / 年，老客户 99 元 / 年

代金券：在阿里云专用满减优惠券

正文完

星哥玩云-微信公众号

发表至： linux教程

2024-07-25

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

简单说说linux关机命令

实例：autoenv自动载入python虚拟环境

配置 SSH 使用基于密钥的身份验证

安装Fedora 24后必要的设置

初识Google Kubernetes Engine（GKE）

Linux 中的负载工具-ttyload

ASP.NET Web Forms – XML 文件简介

Linux 技巧：让进程在后台可靠运行的几种方法

在 Linux 上使用 WineZGUI 运行 Windows 应用和游戏

Python操作HDF5文件示例详解

申请腾讯混元的API Key并且使用LobeChat调用混元AI

Docker部署搭建一个开源强大的图书管理系统

基于Docker快速搭建一个开源的IT人员在线工具箱-it-tools

让每个人都可以轻松使用Git-腾讯自研Git客户端

使用Docker部署开源的WPS-Office

为5G构建网络，MPLS需要改变些什么？

怎样减少数据中心审计的麻烦

实例：autoenv自动载入python虚拟环境

Docker部署开源私有云相册，给你的照片一个家

案例：php利用淘宝IP库获取用户ip地理位置

	X = h5file.create_dataset(shape=(0,args.patch_size,args.patch_size), #数据集的维度
	maxshape = (None,args.patch_size,args.patch_size), #数据集的允许最大维度
	dtype=float,compression='gzip',name='train', #数据类型、是否压缩，以及数据集的名字
	chunks=(args.chunk_size,args.patch_size,args.patch_size)) #分块存储，每一分块的大小

	data = np.zeros((100,args.patch_size,arg))
	X[0:100,:,:] = data

	h = h5py.File(hd5file,'r')
	train = h['train']
	train[1]
	train[2]
	...

	h = h5py.File(hd5file,'r')
	train = h['train']
	X = train[0:100] #一次从硬盘中读取比较多的数据，X 将存储在内存中
	X[1] #从内存中读取
	X[2] #从内存中读取