DataFrame.to_hdf(path_or_buf, key, mode='a', complevel=None, complib=None, append=False, format=None, index=True, min_itemsize=None, nan_rep=None, dropna=None, data_columns=None, errors='strict', encoding='UTF-8') [source]
使用HDFStore
将包含的数据写入HDF5文件。
分层数据格式(HDF)是自描述的,允许应用程序在没有外部信息的情况下解释文件的结构和内容。一个HDF文件可以包含相关对象的混合,这些对象可以作为一个组或作为单个对象进行访问。
为了将另一个DataFrame或Series添加到现有的HDF文件中,请使用附加模式和另一个键。
有关更多信息,请参见用户指南。
参数: | path_or_buf : 文件路径或 key : 存储中组的标识符。 mode : 打开文件的方式: 1) (具有相同名称的现有文件将被删除)。 2) 如果该文件不存在,则会创建该文件。 3) complevel : 指定数据的压缩级别。值为0将禁用压缩。 complib : 默认为 指定要使用的压缩库。从v0.20.2开始, 支持这些Blosc附加压缩器(如果未指定压缩器, 则默认为:
指定不可用的压缩库会发出 append : 对于表格格式,将输入数据附加到现有格式。 pandas-gbq的0.2.0版本中的新功能。 format : 可能的值: 1) 也不可搜索。 2) 该结构的性能可能较差,但允许更灵活的操作, 例如搜索/选择数据子集。 3) 如果为
然后回退到 errors : 指定如何处理编码和解码错误。 有关open()选项的完整列表, 请参见errors参数。 encoding : min_itemsize : 将列名称映射到列的最小字符串大小。 nan_rep : 如何将空值表示为 data_columns :columns列表或 要创建为磁盘查询的索引数据列的列列表, 或者使用 仅索引对象的轴。请参阅通过数据列查询。 仅适用于 |
例子
>>> df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]},
... index=['a', 'b', 'c'])
>>> df.to_hdf('data.h5', key='df', mode='w')
我们可以将另一个对象添加到同一文件中:
>>> s = pd.Series([1, 2, 3, 4])
>>> s.to_hdf('data.h5', key='s')
从HDF文件读取:
>>> pd.read_hdf('data.h5', 'df')
A B
a 1 4
b 2 5
c 3 6
>>> pd.read_hdf('data.h5', 's')
0 1
1 2
2 3
3 4
dtype: int64
删除包含数据的文件:
>>> import os
>>> os.remove('data.h5')