DataFrame.to_parquet(**kwargs) [source]
将DataFrame
写入二进制拼花格式。
该函数将数据帧作为 parquet file写入。您可以选择不同的parquet
后端,并可以选择压缩。有关更多详细信息,请参见 用户指南。
参数: | path : 如果是字符串,则在编写分区数据集时将其用作根目录路径。 通过类文件对象,我们使用 比如文件处理程序(例如通过内置的 引擎 在版本1.0.0中更改。 之前这是 engine : 默认为
如果为 默认 如果 compression : 默认为 要使用的压缩名称。无压缩使用 index: 如果为 如果为 如果没有,类似于 然而, 而是作为一个范围存储在元数据中, 因此它不需要太多空间,而且速度更快。 其他索引将作为列包含在文件输出中。 新版本为0.24.0。 partition_cols: 要根据其对数据集进行分区的列名。 列按照给定的顺序进行分区。 如果路径不是字符串, 则必须为 新版本为0.24.0。 **kwargs 附加参数传递到 有关更多详细信息, 请参见 pandas io。 |
Notes
此功能需要fastparquet或pyarrow库。
例子
>>> df = pd.DataFrame(data={'col1': [1, 2], 'col2': [3, 4]})
>>> df.to_parquet('df.parquet.gzip',
... compression='gzip')
>>> pd.read_parquet('df.parquet.gzip')
col1 col2
0 1 3
1 2 4
如果要为镶木地板内容获取缓冲区,可以使用io.BytesIO对象,只要不使用partition_cols即可创建多个文件
>>> import io
>>> f = io.BytesIO()
>>> df.to_parquet(f)
>>> f.seek(0)
0
>>> content = f.read()