Python pandas.DataFrame.to_pickle函数方法的使用

Pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。本文主要介绍一下Pandas中pandas.DataFrame.to_pickle方法的使用。

DataFrame.to_pickle(path, compression='infer', protocol=5)   [source]

Pickle(序列化)对象到文件。

参数:

path :str

存储pickle对象的文件路径。

compression :{‘infer’, ‘gzip’, ‘bz2’, ‘zip’, ‘xz’, None}

默认为 ‘infer’

表示要在输出文件中使用的压缩的字符串。

默认情况下,

从指定路径中的文件扩展名推断。

protocol:int

Int表示哪个协议应该被pickler使用,

默认为HIGHEST_PROTOCOL

(见https://docs.python.org/3/library/pickle.html中第12.1.2段)。

可能的值是0,1,2,3,4。

协议参数的负值相当于将其值设置为HIGHEST_PROTOCOL


例子

>>> original_df = pd.DataFrame({"foo": range(5), "bar": range(5, 10)})
>>> original_df
   foo  bar
0    0    5
1    1    6
2    2    7
3    3    8
4    4    9
>>> original_df.to_pickle("./dummy.pkl")
>>> unpickled_df = pd.read_pickle("./dummy.pkl")
>>> unpickled_df
   foo  bar
0    0    5
1    1    6
2    2    7
3    3    8
4    4    9
>>> import os
>>> os.remove("./dummy.pkl")
推荐阅读
cjavapy编程之路首页