Python 机器学习 数据分布(Data Distribution)

机器学习使计算机从研究数据和统计数据中学习机器学习是向人工智能(AI)方向迈进的一步。机器学习是一个分析数据并学习预测结果的程序。本文主要介绍Python 机器学习 数据分发(Data Distribution)。

1、数据分布(Data Distribution)

在本教程的前面,我们仅在示例中使用了少量数据,只是为了了解不同的概念。

在现实世界中,数据集要大得多,但至少在项目的早期阶段,很难收集现实世界的数据。

我们如何获取大数据集?

为了创建用于测试的大数据集,我们使用Python模块NumPy,该模块附带了许多创建任意大小的随机数据集的方法。

例如:

创建一个包含250个介于0和5之间的随机浮点数的数组:

import numpy

x = numpy.random.uniform(0.0, 5.0, 250)

print(x)

2、直方图

为了可视化数据集,我们可以对收集到的数据绘制直方图。

我们将使用Python模块Matplotlib绘制直方图。

在我们的Matplotlib教程中了解Matplotlib模块。

例如: 

绘制直方图:

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 250)

plt.hist(x, 5)
plt.show()

Result:


直方图解释

我们使用上例中的数组绘制5条柱状图。

第一栏代表数组中介于0和1之间的值。

第二栏代表1到2之间的数值。

这给了我们这个结果:

  • 52个值介于0和1之间
  • 48个值介于1和2之间
  • 49个值介于2和3之间
  • 51个值在3和4之间
  • 50个值介于4到5之间

注意:数组值是随机数,在计算机上不会显示完全相同的结果。

3、大数据分布

包含250个值的数组被认为不是很大,但是现在您知道了如何创建一组随机值,并且通过更改参数,可以创建所需大小的数据集。

例如:

创建一个具有100000个随机数的数组,并使用具有100条的直方图显示它们:

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 100000)

plt.hist(x, 100)
plt.show()


推荐阅读
cjavapy编程之路首页