Python Pandas 时间序列分析日期时间的处理和转换-CJavaPy

1、日期和时间的创建

pd.date_range() 是处理时间序列数据时非常重要的函数。它用于生成具有特定频率的固定长度的 DatetimeIndex，适用于创建时间序列数据或作为 DataFrame 或 Series 的时间索引。使用pd.to_datetime()将字符串转换为日期时间对象。

1）pd.date_range()

参数说明：

参数	描述
start	时间范围的开始日期/时间。可以是字符串或日期时间对象。
end	时间范围的结束日期/时间。可以是字符串或日期时间对象。
periods	要生成的时间点数量。如果指定了 start 和 end，这个参数可选。
freq	时间点的频率，如 'D'（每天），'M'（月末），'H'（每小时）等。
tz	时区名称，用于本地化时间索引。
normalize	如果为 True，则时间部分将归一化到午夜。
name	生成的 DatetimeIndex 的名称。
closed	控制间隔的哪一端是闭合的，可选项包括 'left'、'right'。

使用示例：

import pandas as pd

# 生成指定开始和结束日期的每日时间序列
daily_range = pd.date_range(start='2024-01-01', end='2024-01-10', freq='D')
print("Daily Range:\n", daily_range)

# 生成固定数量的月末时间序列
monthly_range = pd.date_range(start='2024-01-01', periods=6, freq='M')
print("\nMonthly Range:\n", monthly_range)

# 生成每小时的时间序列，并指定时区
hourly_range = pd.date_range(start='2024-01-01', periods=24, freq='H', tz='Asia/Tokyo')
print("\nHourly Range (Tokyo TZ):\n", hourly_range)

# 生成归一化到午夜的每周时间序列
weekly_range = pd.date_range(start='2024-01-01', periods=4, freq='W', normalize=True)
print("\nWeekly Range (Normalized):\n", weekly_range)

# 生成具有指定名称的季度末时间序列
quarterly_range = pd.date_range(start='2024-01-01', periods=4, freq='Q', name='Quarter End')
print("\nQuarterly Range:\n", quarterly_range)

2）pd.to_datetime()

pd.to_datetime()是处理和转换日期时间数据的重要工具。它可以将多种格式的数据转换为 Pandas 的 datetime 类型。

参考说明：

参数	描述
arg	要转换的日期时间数据。可以是单个字符串、数字、列表、Series 或 DataFrame。
errors	如何处理错误。'ignore' 忽略错误， 'raise' 抛出错误，'coerce' 将错误设置为 NaT。
format	指定解析日期时间的格式（如 '%Y-%m-%d'）。
unit	指定时间戳单位（如 's' 表示秒）。

使用示例：

import pandas as pd

# 将字符串转换为日期时间
datetime_from_str = pd.to_datetime('2024-01-01')
print("Datetime from string:", datetime_from_str)

# 将 UNIX 时间戳转换为日期时间
datetime_from_timestamp = pd.to_datetime(1609459200, unit='s')
print("Datetime from timestamp:", datetime_from_timestamp)

# 处理 DataFrame 中的日期时间列
df = pd.DataFrame({'date': ['2024-01-01', '2024-02-01', 'not a date']})
df['date'] = pd.to_datetime(df['date'], errors='coerce')
print("\nDataFrame with Datetime:\n", df)

# 使用自定义日期时间格式
datetime_custom_format = pd.to_datetime('01-01-2024', format='%d-%m-%Y')
print("Datetime with custom format:", datetime_custom_format)

2、提取日期和时间的组成部分

可以从日期时间对象中提取年份、月份、日等信息。

import pandas as pd
import numpy as np


dates = pd.date_range('20230101', periods=6)


# 提取日期时间的组成部分
year = dates.year
month = dates.month
day = dates.day

# 提取小时
# dates.hour
# 提取分钟
# dates.minute
# 提取秒
# dates.second
# 提取微秒
# dates.microsecond

print("年:", year)
print("月:", month)
print("日:", day)

3、日期和时间的算术运算

进行时间序列分析时，日期和时间的算术运算是一个重要的特性。

import pandas as pd

# 日期加减
date_plus_10_days = pd.Timestamp('2024-01-01') + pd.Timedelta(days=10)
print("Date plus 10 days:", date_plus_10_days)

# 时间差
time_difference = pd.Timestamp('2024-01-11') - pd.Timestamp('2024-01-01')
print("Time difference:", time_difference)

# 时间偏移
next_month_end = pd.Timestamp('2024-01-01') + pd.offsets.MonthEnd()
print("Next month end:", next_month_end)

# 创建时间序列数据
series = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], 
                   index=pd.date_range('2024-01-01', periods=10))

# 数据向后移动
shifted_series = series.shift(periods=1)
print("\nShifted Series:\n", shifted_series)

# 计算滑动窗口平均值
rolling_avg = series.rolling(window=5).mean()
print("\nRolling Window Average:\n", rolling_avg)

4、时区处理

将时间数据本地化到特定的时区，以及在不同时区之间进行转换。这在处理跨越多个地理位置的数据时特别有用。

import pandas as pd

# 创建时间序列
ts = pd.Series(pd.date_range('2021-01-01', periods=3, freq='H'))

# 本地化到 UTC 时区
ts_localized = ts.dt.tz_localize('UTC')
print("Localized to UTC:\n", ts_localized)

# 转换到中国上海时区
ts_converted = ts_localized.dt.tz_convert("Asia/Shanghai")
print("\nConverted to Asia/Shanghai:\n", ts_converted)

5、时间序列的重采样

时间序列的重采样（Resampling）是一种改变时间序列数据频率的常用技术。它可以是降采样（减少数据点，如从日到月）或升采样（增加数据点，如从月到日）。重采样通常用于聚合数据或使数据符合特定的时间频率。

参数说明：

参数	描述
rule	重采样频率，如 'D'（天）、'M'（月）、'A'（年）等。
axis	应用重采样的轴。
closed	在降采样中，定义区间的闭合端。
label	在降采样中，如何标记聚合结果的时间标签。
convention	当重采样时期索引时，用于确定时期的约定。
kind	聚合到时间戳（'timestamp'）还是时期（'period'）。
loffset	对结果索引的偏移量。
base	对于每个时间窗口，基时间的偏移量。
on	在 DataFrame 上，用于重采样的列。
level	在多级索引的特定级别上重采样。

使用示例：

import pandas as pd

# 创建日数据
daily_data = pd.Series(range(30), index=pd.date_range('2024-01-01', periods=30, freq='D'))

# 降采样：将日数据转换为月数据
monthly_data_downsampled = daily_data.resample('M').mean()  # 以月为单位计算平均值
print("Monthly Data (Downsampled):\n", monthly_data_downsampled)

# 创建月数据
monthly_data = pd.Series(range(3), index=pd.date_range('2024-01-01', periods=3, freq='M'))

# 升采样：将月数据转换为日数据
daily_data_upsampled = monthly_data.resample('D').asfreq()  # 转换为每日频率，空值填充为 NaN
print("\nDaily Data (Upsampled):\n", daily_data_upsampled)

Python Pandas 时间序列分析日期时间的处理和转换

1、日期和时间的创建

2、提取日期和时间的组成部分

3、日期和时间的算术运算

4、时区处理

5、时间序列的重采样

Python 2.7中安装pip的方法及步骤

Python numpy.full函数方法的使用

Java JDK11 在windows上的安装和环境变量配置

Java Stream使用多个过滤器(filter)或复杂条件方法用法及简单写法代码

Java JDK11 在Mac上的安装和配置以及JDK多个版本之间切换

Python PIP升级后执行命令报错： sys.stderr.write(f"ERROR: {exc}")解决方法

Python pandas.to_numeric函数方法的使用

Python numpy.fromfile函数方法的使用

Python Pandas 时间序列分析 日期时间的处理和转换

1、日期和时间的创建

2、 提取日期和时间的组成部分

3、日期和时间的算术运算

4、时区处理

5、时间序列的重采样

Python 2.7中安装pip的方法及步骤

Python numpy.full函数方法的使用

Java JDK11 在windows上的安装和环境变量配置

Java Stream使用多个过滤器(filter)或复杂条件方法用法及简单写法代码

Java JDK11 在Mac上的安装和配置以及JDK多个版本之间切换

Python PIP升级后执行命令报错： sys.stderr.write(f"ERROR: {exc}")解决方法

Python pandas.to_numeric函数方法的使用

Python numpy.fromfile函数方法的使用

Python Pandas 时间序列分析日期时间的处理和转换

2、提取日期和时间的组成部分