Python numpy.percentile函数方法的使用

NumPy(Numerical Python的缩写)是一个开源的Python科学计算库。使用NumPy,就可以很自然地使用数组和矩阵。NumPy包含很多实用的数学函数,涵盖线性代数运算、傅里叶变换和随机数生成等功能。本文主要介绍一下NumPy中percentile方法的使用。

numpy.percentile

numpy.percentile(a, q, axis=None, out=None, overwrite_input=False, interpolation='linear', keepdims=False)    [source]

计算沿指定轴的数据的第q个百分位数。

返回数组元素的第q个百分点。

参数 :

a :array_like

输入数组或可以转换为数组的对象。

q :array_like of float

要计算的百分位数或百分位数序列,

必须在0到100之间(含0和100)。

axis :{int, tuple of int, None}, 可选

沿其计算百分位数的一个或多个轴。

默认值为沿数组的展平版本计算百分位数。 

在1.9.0版中更改:支持轴元组

out :ndarray, 可选

放置结果的备用输出数组。

它的形状和缓冲区长度必须与预期的输出相同,

但是(必要时)将强制转换(输出的)类型。

overwrite_input :bool, 可选

如果为True,

则允许通过中间计算来修改输入数组a,

以节省内存。 在这种情况下,

此功能完成后输入a的内容是不确定的。

interpolation

{‘linear’, ‘lower’, ‘higher’, ‘midpoint’, ‘nearest’}

这个可选参数指定了当需要的百分比位于两个数据点i < j

之间时使用的插值方法:

1)‘linear’: i + (j - i) * fraction

fraction是由i和j包围的索引的分数部分。

2)‘lower’: i.

3)‘higher’: j.

4)‘nearest’: ij,以最接近的为准。

5)‘midpoint’: (i + j) / 2.

 1.9.0版中的新功能。

keepdimsbool, 可选

如果将其设置为True,则缩小的轴将保留为尺寸1的尺寸。

使用此选项,结果将针对原始数组a正确广播。 1.9.0版中的新功能。

返回值 :

percentile :scalar 或 ndarray

如果q是单个百分位数,而axis = None

则结果是标量。 如果给出了多个百分位数,

则结果的第一个轴对应于百分位数。 

其他轴是a减小后剩余的轴。 

如果输入包含小于float64的整数或浮点数,

则输出数据类型为float64。 

否则,输出数据类型与输入的数据类型相同。 

如果指定了out,则返回该数组。

Notes

给定长度为N的向量VV的第q个百分位数是从最小值到整数的方式的值q/100。如果归一化排名与q的位置完全不匹配,则两个最近邻居的值和距离以及内插参数将确定百分位数。如果q = 50,此函数与中位数相同;如果q = 0,则与最小值相同;如果q = 100则与最大值相同。

例子

>>> a = np.array([[10, 7, 4], [3, 2, 1]])
>>> a
array([[10,  7,  4],
       [ 3,  2,  1]])
>>> np.percentile(a, 50)
3.5
>>> np.percentile(a, 50, axis=0)
array([6.5, 4.5, 2.5])
>>> np.percentile(a, 50, axis=1)
array([7.,  2.])
>>> np.percentile(a, 50, axis=1, keepdims=True)
array([[7.],
       [2.]])
>>> m = np.percentile(a, 50, axis=0)
>>> out = np.zeros_like(m)
>>> np.percentile(a, 50, axis=0, out=out)
array([6.5, 4.5, 2.5])
>>> m
array([6.5, 4.5, 2.5])
>>> b = a.copy()
>>> np.percentile(b, 50, axis=1, overwrite_input=True)
array([7.,  2.])
>>> assert not np.all(a == b)

不同类型的插值可以通过图形显示:

import matplotlib.pyplot as plt
\na = np.arange(4)
p = np.linspace(0, 100, 6001)
ax = plt.gca()
lines = [
    ('linear', None),
    ('higher', '--'),
    ('lower', '--'),
    ('nearest', '-.'),
    ('midpoint', '-.'),
]
for interpolation, style in lines:
    ax.plot(
        p, np.percentile(a, p, interpolation=interpolation),
        label=interpolation, linestyle=style)
ax.set(
    title='Interpolation methods for list: ' + str(a),
    xlabel='Percentile',
    ylabel='List item returned',
    yticks=a)
ax.legend()
plt.show()


推荐阅读
cjavapy编程之路首页