1、查看数据
head()
方法是获取DataFrame概述的最常用方法之一。
head()
方法从顶部开始返回标题和指定的行数。
例如:
通过打印DataFrame的前10行获得快速查看:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
在我们的示例中,我们将使用一个名为“data.csv”的CSV文件。
data.csv文件:https://www.cjavapy.com/download/5fe1f74edc72d93b4993067c/
注意:如果未指定行数,则head()
方法将返回前5行。
例如:
打印DataFrame的前5行:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
还有一个tail()
方法,用于查看DataFrame的last行。
tail()
方法从底部开始返回标题和指定的行数。
例如:
打印DataFrame的最后5行:
print(df.tail())
2、DataFrame数据信息
DataFrame对象具有称为info()
的方法,该方法为您提供有关数据集的更多信息。
例如:
打印有关数据的信息:
print(df.info())
Result
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 169 entries, 0 to 168
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Duration 169 non-null int64
1 Pulse 169 non-null int64
2 Maxpulse 169 non-null int64
3 Calories 164 non-null float64
dtypes: float64(1), int64(3)
memory usage: 5.4 KB
None
3、结果解释
结果告诉我们,共有169行和4列:
RangeIndex: 169 entries, 0 to 168
Data columns (total 4 columns):
以及每列的名称,其数据类型为:
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Duration 169 non-null int64
1 Pulse 169 non-null int64
2 Maxpulse 169 non-null int64
3 Calories 164 non-null float64
4、Null 值
info()
方法还告诉我们每个列中有多少非空值。在分析数据时,空值或Null值可能很麻烦,应该考虑删除具有空值的行。这是所谓的清理数据的操作,将在下一个文档中了解更多。
相关文档: