Python 机器学习(Machine Learning) 简介

机器学习使计算机从研究数据和统计数据中学习机器学习是向人工智能(AI)方向迈进的一步。机器学习是一个分析数据并学习预测结果的程序。

1、从哪开始学?

在本教程中,我们将回到数学和研究统计学,以及如何根据数据集计算重要数字。

我们还将学习如何使用各种Python模块来获得所需的答案。

并且,我们将学习如何根据所学知识制作能够预测结果的函数。

2、数据集(Data Set)

在计算机中,数据集是数据的任何集合。它可以是从数组到完整数据库的任何内容。

数组示例:

[99,86,87,88,111,86,103,87,94,78,77,85,86]

数据库示例:

汽车名称颜色年限速度AutoPass
BMWred599Y
Volvoblack786Y
VWgray887N
VWwhite788Y
Fordwhite2111Y
VWwhite1786Y
Teslared2103Y
BMWblack987Y
Volvogray494N
Fordwhite1178N
Toyotagray1277N
VWwhite985N
Toyotablue686Y

通过查看数组,我们可以猜测平均值可能约为80或90,并且我们还可以确定最大值和最小值,但是我们还能做什么?

通过查看数据库,我们可以看到最受欢迎的颜色是白色,最古老的汽车是17年,但是如果仅通过查看其他值就可以预测汽车是否具有AutoPass,该怎么办?

那就是机器学习的目的!分析数据并预测结果!

在机器学习中,通常使用非常大的数据集。 在本教程中,我们将尝试使它尽可能容易地理解机器学习的不同概念,并且我们将使用一些易于理解的小型数据集。

3、数据类型(Data Types)

要分析数据,了解我们正在处理的数据类型非常重要。

我们可以将数据类型分为三个主要类别:

  • Numerical
  • Categorical
  • Ordinal

数值数据是数字,可以分为两个数值类别:

  • 离散数据
    -仅限整数的数字。示例:经过的汽车数量。
  • 连续数据
    -具有无限值的数字。示例:一件商品的价格或一件商品的大小

分类数据是无法相互度量的值。 示例:颜色值或yes/no值。

序数数据类似于分类数据,但可以相互度量。例如:A优于B的学校成绩,依此类推。

通过了解数据源的数据类型,将能够知道在分析数据时使用哪种技术。

在下一章中,将了解有关统计和分析数据的更多信息。

推荐阅读
cjavapy编程之路首页