Python pandas.DataFrame.resample函数方法的使用

Pandas是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。本文主要介绍一下Pandas中pandas.DataFrame.resample方法的使用。

DataFrame.resample(rule, axis=0, closed=None, label=None, convention='start', kind=None, loffset=None, base=None, on=None, level=None, origin='start_day', offset=None) [source]

重新采样time-series数据。

频率转换和time series重采样的便捷方法。对象必须具有类似datetime的索引(DatetimeIndex, PeriodIndexTimedeltaIndex),或将类似datetime的值传递给onlevel关键字。

参数:

ruleeDateOffset, Timedeltastr

表示目标转换的偏移字符串或对象。

axis :{0 ‘index’, 1  或 ‘columns’}, 默认为 0

向上采样或向下采样使用哪一个轴。对于级数,默认值为0

即沿着行。必须是DatetimeIndex, TimedeltaIndex

PeriodIndex

closed{‘right’, ‘left’}, 默认为None

bin区间的哪一边是关闭的。

除了‘M’‘A’‘Q’‘BM’‘BA’‘BQ’‘W’之外,

所有频率偏移的默认值都是‘left’,它们的默认值都是‘right’

label {‘right’, ‘left’}, 默认为 None

用哪边标签来标记bucket。

除了‘M’‘A’‘Q’‘BM’‘BA’‘BQ’‘W’之外,

所有频率偏移的默认值都是‘left’,它们的默认值都是‘right’

convention : {'start', 'end', 's', 'e'}, 默认为 'start'

仅对于PeriodIndex,控制是使用规则的开始还是结束。

kind : {‘timestamp’, ‘period’}, 可选, 默认为 None

传递'timestamp'将结果索引转换为DateTimeIndex

'period'将其转换为PeriodIndex。默认情况下,

保留输入表示形式。

loffset : timedelta, 默认为None

调整重新采样的时间标签。

自1.1.0版本以来已弃用 : 您应该将loffset添加到df中。

重新取样后的索引。见下文。

base : int, 默认为0

对于平均细分1天的频率,聚合间隔的“origin”

例如,对于“5min”频率,基数可以从04。默认值为0

自1.1.0版本以来已弃用:

您应该使用的新参数是'offset''origin'

on : str, 可选

自1.1.0版本以来已弃用:您应该使用的新参数是'offset''origin'

level : strint, 可选

用于重采样的多索引、级别(名称或数字)。级别必须与日期时间类似。

origin : {‘epoch’, ‘start’, ‘start_day’}

Timestampstr, 默认为 ‘start_day’

调整分组的时间戳。原始时区必须与索引的时区匹配。

如果不使用时间戳,也支持以下值:

1) “epoch”:起源是1970年01月01日

2) 'start ': origin是timeseries的第一个值

2) “start_day”:起源是timeseries午夜的第一天

新版本1.1.0。

offset : Timedeltastr, 默认为 None

加到原点的偏移时间。

新版本1.1.0。

返回值:

Resampler object

Notes

有关 更多信息,请参见用户指南

要了解有关偏移字符串的更多信息,请参见此链接

例子

首先创建一个带有9个一分钟时间戳的系列

>>> index = pd.date_range('1/1/2000', periods=9, freq='T')
>>> series = pd.Series(range(9), index=index)
>>> series
2000-01-01 00:00:00    0
2000-01-01 00:01:00    1
2000-01-01 00:02:00    2
2000-01-01 00:03:00    3
2000-01-01 00:04:00    4
2000-01-01 00:05:00    5
2000-01-01 00:06:00    6
2000-01-01 00:07:00    7
2000-01-01 00:08:00    8
Freq: T, dtype: int64

将系列下采样到3分钟的bin中,然后将落入bin中的时间戳记值相加

>>> series.resample('3T').sum()
2000-01-01 00:00:00     3
2000-01-01 00:03:00    12
2000-01-01 00:06:00    21
Freq: 3T, dtype: int64

如上将系列降采样到3分钟的容器中,但使用右边缘而不是左侧标记每个容器。请注意,用作标签的存储桶中的值不包含在其标记的存储桶中。例如,在原始系列中,存储桶包含值3,但是带有标签的重新采样存储桶中的总和 不包括3(如果是,则总和将为6,而不是3)。要包含此值,请关闭bin间隔的右侧,如下面的示例所示2000-01-01 00:03:002000-01-01 00:03:00

>>> series.resample('3T', label='right').sum()
2000-01-01 00:03:00     3
2000-01-01 00:06:00    12
2000-01-01 00:09:00    21
Freq: 3T, dtype: int64

如上所述,将系列降采样到3分钟的箱中,但关闭箱间隔的右侧:

>>> series.resample('3T', label='right', closed='right').sum()
2000-01-01 00:00:00     0
2000-01-01 00:03:00     6
2000-01-01 00:06:00    15
2000-01-01 00:09:00    15
Freq: 3T, dtype: int64

series上采样到30秒箱中

>>> series.resample('30S').asfreq()[0:5]   # Select first 5 rows
2000-01-01 00:00:00   0.0
2000-01-01 00:00:30   NaN
2000-01-01 00:01:00   1.0
2000-01-01 00:01:30   NaN
2000-01-01 00:02:00   2.0
Freq: 30S, dtype: float64

series上采样到30秒仓中,然后NaN 使用pad方法填充值

>>> series.resample('30S').pad()[0:5]
2000-01-01 00:00:00    0
2000-01-01 00:00:30    0
2000-01-01 00:01:00    1
2000-01-01 00:01:30    1
2000-01-01 00:02:00    2
Freq: 30S, dtype: int64

series上采样到30秒仓中,然后NaN使用bfill方法填充值

>>> series.resample('30S').bfill()[0:5]
2000-01-01 00:00:00    0
2000-01-01 00:00:30    1
2000-01-01 00:01:00    1
2000-01-01 00:01:30    2
2000-01-01 00:02:00    2
Freq: 30S, dtype: int64

通过传递自定义函数apply

>>> def custom_resampler(array_like):
...     return np.sum(array_like) + 5
...
>>> series.resample('3T').apply(custom_resampler)
2000-01-01 00:00:00     8
2000-01-01 00:03:00    17
2000-01-01 00:06:00    26
Freq: 3T, dtype: int64

对于具有PeriodIndex的系列,关键字约定可用于控制使用rule的开始还是结束。

使用'start' 约定按季度重新采样。将值分配给该期间的第一季度。

>>> s = pd.Series([1, 2], index=pd.period_range('2012-01-01',
...                                             freq='A',
...                                             periods=2))
>>> s
2012    1
2013    2
Freq: A-DEC, dtype: int64
>>> s.resample('Q', convention='start').asfreq()
2012Q1    1.0
2012Q2    NaN
2012Q3    NaN
2012Q4    NaN
2013Q1    2.0
2013Q2    NaN
2013Q3    NaN
2013Q4    NaN
Freq: Q-DEC, dtype: float64

使用'end'约定按月重新采样季度。将值分配给该期间的最后一个月

>>> q = pd.Series([1, 2, 3, 4], index=pd.period_range('2018-01-01',
...                                                   freq='Q',
...                                                   periods=4))
>>> q
2018Q1    1
2018Q2    2
2018Q3    3
2018Q4    4
Freq: Q-DEC, dtype: int64
>>> q.resample('M', convention='end').asfreq()
2018-03    1.0
2018-04    NaN
2018-05    NaN
2018-06    2.0
2018-07    NaN
2018-08    NaN
2018-09    3.0
2018-10    NaN
2018-11    NaN
2018-12    4.0
Freq: M, dtype: float64

对于DataFrame对象,关键字on可以用于指定列而不是用于重新采样的索引

>>> d = dict({'price': [10, 11, 9, 13, 14, 18, 17, 19],
...           'volume': [50, 60, 40, 100, 50, 100, 40, 50]})
>>> df = pd.DataFrame(d)
>>> df['week_starting'] = pd.date_range('01/01/2018',
...                                     periods=8,
...                                     freq='W')
>>> df
   price  volume week_starting
0     10      50    2018-01-07
1     11      60    2018-01-14
2      9      40    2018-01-21
3     13     100    2018-01-28
4     14      50    2018-02-04
5     18     100    2018-02-11
6     17      40    2018-02-18
7     19      50    2018-02-25
>>> df.resample('M', on='week_starting').mean()
               price  volume
week_starting
2018-01-31     10.75    62.5
2018-02-28     17.00    60.0

对于具有MultiIndex的DataFrame,关键字级别可用于指定需要在哪个级别进行重采样

>>> days = pd.date_range('1/1/2000', periods=4, freq='D')
>>> d2 = dict({'price': [10, 11, 9, 13, 14, 18, 17, 19],
...            'volume': [50, 60, 40, 100, 50, 100, 40, 50]})
>>> df2 = pd.DataFrame(d2,
...                    index=pd.MultiIndex.from_product([days,
...                                                     ['morning',
...                                                      'afternoon']]
...                                                     ))
>>> df2
                      price  volume
2000-01-01 morning       10      50
           afternoon     11      60
2000-01-02 morning        9      40
           afternoon     13     100
2000-01-03 morning       14      50
           afternoon     18     100
2000-01-04 morning       17      40
           afternoon     19      50
>>> df2.resample('D', level=0).sum()
            price  volume
2000-01-01     21     110
2000-01-02     22     140
2000-01-03     32     150
2000-01-04     36      90

如果要基于固定的时间戳调整垃圾箱的开始,请执行以下操作:

>>> start, end = '2000-10-01 23:30:00', '2000-10-02 00:30:00'
>>> rng = pd.date_range(start, end, freq='7min')
>>> ts = pd.Series(np.arange(len(rng)) * 3, index=rng)
>>> ts
2000-10-01 23:30:00     0
2000-10-01 23:37:00     3
2000-10-01 23:44:00     6
2000-10-01 23:51:00     9
2000-10-01 23:58:00    12
2000-10-02 00:05:00    15
2000-10-02 00:12:00    18
2000-10-02 00:19:00    21
2000-10-02 00:26:00    24
Freq: 7T, dtype: int64

>>> ts.resample('17min').sum()
2000-10-01 23:14:00     0
2000-10-01 23:31:00     9
2000-10-01 23:48:00    21
2000-10-02 00:05:00    54
2000-10-02 00:22:00    24
Freq: 17T, dtype: int64

>>> ts.resample('17min', origin='epoch').sum()
2000-10-01 23:18:00     0
2000-10-01 23:35:00    18
2000-10-01 23:52:00    27
2000-10-02 00:09:00    39
2000-10-02 00:26:00    24
Freq: 17T, dtype: int64

>>> ts.resample('17min', origin='2000-01-01').sum()
2000-10-01 23:24:00     3
2000-10-01 23:41:00    15
2000-10-01 23:58:00    45
2000-10-02 00:15:00    45
Freq: 17T, dtype: int64

如果要使用偏移量 Timedelta 调整垃圾箱的开始,则以下两行等效:

>>> ts.resample('17min', origin='start').sum()
2000-10-01 23:30:00     9
2000-10-01 23:47:00    21
2000-10-02 00:04:00    54
2000-10-02 00:21:00    24
Freq: 17T, dtype: int64

>>> ts.resample('17min', offset='23h30min').sum()
2000-10-01 23:30:00     9
2000-10-01 23:47:00    21
2000-10-02 00:04:00    54
2000-10-02 00:21:00    24
Freq: 17T, dtype: int64

要替换不推荐使用的base参数,现在可以使用offset,在本示例中,它等效于具有base = 2:

>>> ts.resample('17min', offset='2min').sum()
2000-10-01 23:16:00     0
2000-10-01 23:33:00     9
2000-10-01 23:50:00    36
2000-10-02 00:07:00    39
2000-10-02 00:24:00    24
Freq: 17T, dtype: int64

要替换不推荐使用的loffset参数,请执行以下操作:

>>> from pandas.tseries.frequencies import to_offset
>>> loffset = '19min'
>>> ts_out = ts.resample('17min').sum()
>>> ts_out.index = ts_out.index + to_offset(loffset)
>>> ts_out
2000-10-01 23:33:00     0
2000-10-01 23:50:00     9
2000-10-02 00:07:00    21
2000-10-02 00:24:00    54
2000-10-02 00:41:00    24
Freq: 17T, dtype: int64

推荐阅读
cjavapy编程之路首页