Python Pandas DataFrame-CJavaPy

1、DataFrame 简介

DataFrame 是 Pandas 中最核心的数据结构之一，表示一种二维的表格数据，类似于 Excel 表、SQL 表或一张数据库表，由行索引（index）和列标签（columns）组成。

1）通过列表嵌套创建

import pandas as pd
 
data = [['张三', 21, '男'], ['李四', 26, '女'], ['王五', 33, '男']]
df = pd.DataFrame(data)
print(df)

输出：

   0   1  2
0  张三  21  男
1  李四  26  女
2  王五  33  男

2）通过字典创建

import pandas as pd

data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
}
df = pd.DataFrame(data)
print(df)

2、loc定位行

从上面的结果可以看出，DataFrame就像是一个具有行和列的表。

Pandas使用loc属性返回一个或多个指定行

例如：

返回第0行：

print(df.loc[0])

输出：

0    张三
1    21
2     男
Name: 0, dtype: object
None

注意：此示例返回Pandas Series。

例如：

返回第0行和第1行：

print(df.loc[[0, 1]])

输出：

    0   1  2
0  张三  21  男
1  李四  26  女

注意：使用[]时，结果是熊猫DataFrame。

3、命名索引和列名

使用columns和index参数，可以命名自己的列名和索引。

例如：

添加名称列表，为每一行命名：

import pandas as pd
 
data = [['张三', 21, '男'], ['李四', 26, '女'], ['王五', 33, '男']]

df = pd.DataFrame(data, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c'])

print(df)

输出：

   姓名  年龄 性别
a  张三  21  男
b  李四  26  女
c  王五  33  男

4、定位命名索引

在loc属性中使用命名索引返回指定的行。

例如：

输出 "a":

print(df.loc["a"])

输出：

姓名    张三
年龄    21
性别     男
Name: a, dtype: object

5、将文件加载到DataFrame

如果数据集存储在文件中，Pandas可以将它们加载到DataFrame中。

例如：

将逗号分隔的文件（CSV文件）加载到DataFrame中：

import pandas as pd

df = pd.read_csv('data.csv')

print(df)

查看数据结构

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'name': ['a', 'b', 'c', 'd', 'e', 'f'],
    'age': [25, 30, 35, 40, 22, 28],
    'score': [88, 92, 95, 70, 85, 90]
}
df = pd.DataFrame(data)

# 查看前5行数据
print("前5行数据：")
print(df.head())

# 查看最后3行数据
print("\n最后3行数据：")
print(df.tail(3))

# 查看行列数
print("\n数据形状（行数, 列数）：")
print(df.shape)

# 查看DataFrame结构信息
print("\n数据结构信息：")
df.info()

# 查看数据的统计摘要
print("\n数据描述统计：")
print(df.describe())

相关文档：

Python pandas DataFrame 行列使用常用操作

Python pandas DataFrame 行列的常用操作及运算