1、Pandas简介
Pandas是用于处理数据集的Python库。
它具有分析,清理,浏览和处理数据的功能。
“Pandas”这个名称同时引用了"Panel Data"和“ Python数据分析”,由Wes McKinney在2008年创建。
2、Pandas优点
Pandas使我们能够分析大数据并根据统计理论做出结论。
Pandas可以清理混乱的数据集,并使它们可读并具有相关性。
相关数据在数据科学中非常重要。
数据科学:是计算机科学的一个分支,我们研究如何存储,使用和分析数据以从中获取信息。
3、Pandas的作用
1)汇总和计算描述统计,处理缺失数据 ,层次化索引
2)数据清理、转换、合并、重塑、groupby
3)日期和时间数据类型及工具
Pandas还能够删除不相关的行或包含错误值(例如,空或NULL值)的行。这称为清除数据。
4、数据结构
1)Series
一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型,字符串、boolean值、数字等都能保存在Series中。
2)Time- Series
以时间为索引的Series。
3)DataFrame
二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。
4)Panel
三维的数组,可以理解为DataFrame的容器。
5)Panel4D
它是像Panel一样的4维数据容器。
6)PanelND
拥有factory集合,可以创建像Panel4D一样N维命名容器的模块。
5、Pandas的代码库
Pandas的源代码位于github repository:https://github.com/pandas-dev/pandas
github:使许多人可以在同一代码库上工作。