Python Pandas pandas.read_hdf 函数方法的使用

Pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。本文主要介绍一下Pandas中read_hdf方法的使用。

pandas.read_hdf(path_or_buf, key=None, mode='r', errors='strict', where=None, start=None, stop=None, columns=None, iterator=False, chunksize=None, **kwargs)       [源代码]

如打开存储读取数据,之后关闭它。

根据位置条件检索存储在文件中的pandas对象。

注意:Pandas使用PyTables来读写HDF5文件,这允许在使用 "fixed" 格式时用pickle序列化object-dtype对象。加载从不可信源接收的pickle数据可能是不安全的。

更多信息查看:https://docs.python.org/3/library/pickle.html

参数:

path_or_bufferstr, path对象 ,pandas.HDFStore

任何有效的字符串路径都可以接受。仅支持本地文件系统,

不支持远程url和类文件对象。

如想传入一个路径对象,pandas接受任何os.PathLike

或者,pandas接受打开的pandas.HDFStore对象。

keyobject, 可选的

存储中的组标识符。如果HDF文件包含单个pandas对象,

则可以省略。

mode{‘r’, ‘r+’, ‘a’}, 默认为 'r'

打开文件时使用的模式。如果path_or_buf

panda.hdfstore则忽略。默认设置是'r'

errorsstr, 默认为 ‘strict’

指定如何处理编码和解码错误。有关选项的完整列表,

请参阅open()的errors参数。

wherelist, 可选的

Term(或可转换)对象的列表。

startint,可选

开始选择的行号。

stopint,可选

停止选择的行号。

columnslist,可选

要返回的列名列表。

iteratorbool, 可选

返回一个可迭代的对象

chunksizeint, 可选

使用迭代器时在迭代中包含的行数。

**kwargs:传递给HDFStore的其他关键字参数。

返回:

item:object

选择的对象。返回类型取决于存储的对象。

例如,

>>> df = pd.DataFrame([[1, 1.0, 'a']], columns=['x', 'y', 'z'])  
>>> df.to_hdf('./store.h5', 'data')  
>>> reread = pd.read_hdf('./store.h5')  

推荐阅读
cjavapy编程之路首页