1、DataFrame 简介
DataFrame 是 Pandas 中最核心的数据结构之一,表示一种二维的表格数据,类似于 Excel 表、SQL 表或一张数据库表,由行索引(index)和列标签(columns)组成。
1)通过列表嵌套创建
import pandas as pd data = [['张三', 21, '男'], ['李四', 26, '女'], ['王五', 33, '男']] df = pd.DataFrame(data) print(df)
输出:
0 1 2 0 张三 21 男 1 李四 26 女 2 王五 33 男
2)通过字典创建
import pandas as pd data = { 'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35] } df = pd.DataFrame(data) print(df)
2、loc定位行
从上面的结果可以看出,DataFrame就像是一个具有行和列的表。
Pandas使用loc
属性返回一个或多个指定行
例如:
返回第0行:
print(df.loc[0])
输出:
0 张三 1 21 2 男 Name: 0, dtype: object None
注意:此示例返回Pandas Series。
例如:
返回第0行和第1行:
print(df.loc[[0, 1]])
输出:
0 1 2 0 张三 21 男 1 李四 26 女
注意:使用[]
时,结果是熊猫DataFrame。
3、命名索引和列名
使用columns
和index
参数,可以命名自己的列名和索引。
例如:
添加名称列表,为每一行命名:
import pandas as pd data = [['张三', 21, '男'], ['李四', 26, '女'], ['王五', 33, '男']] df = pd.DataFrame(data, columns=['姓名', '年龄', '性别'], index=['a', 'b', 'c']) print(df)
输出:
姓名 年龄 性别 a 张三 21 男 b 李四 26 女 c 王五 33 男
4、定位命名索引
在loc
属性中使用命名索引返回指定的行。
例如:
输出 "a":
print(df.loc["a"])
输出:
姓名 张三 年龄 21 性别 男 Name: a, dtype: object
5、将文件加载到DataFrame
如果数据集存储在文件中,Pandas可以将它们加载到DataFrame中。
例如:
将逗号分隔的文件(CSV文件)加载到DataFrame中:
import pandas as pd df = pd.read_csv('data.csv') print(df)
查看数据结构
import pandas as pd # 创建一个示例 DataFrame data = { 'name': ['a', 'b', 'c', 'd', 'e', 'f'], 'age': [25, 30, 35, 40, 22, 28], 'score': [88, 92, 95, 70, 85, 90] } df = pd.DataFrame(data) # 查看前5行数据 print("前5行数据:") print(df.head()) # 查看最后3行数据 print("\n最后3行数据:") print(df.tail(3)) # 查看行列数 print("\n数据形状(行数, 列数):") print(df.shape) # 查看DataFrame结构信息 print("\n数据结构信息:") df.info() # 查看数据的统计摘要 print("\n数据描述统计:") print(df.describe())
相关文档: