Python 机器学习 多元回归(Multiple Regression)

机器学习使计算机从研究数据和统计数据中学习机器学习是向人工智能(AI)方向迈进的一步。机器学习是一个分析数据并学习预测结果的程序。本文主要介绍Python 机器学习 多元回归(Multiple Regression)。

1、多元回归(Multiple Regression)

多元回归就像线性回归一样,但是具有多个独立值,这意味着我们试图基于两个或多个变量来预测一个值。

看一下下面的数据集,其中包含有关汽车的一些信息。

CarModelVolumeWeightCO2
ToyotaAygo100079099
MitsubishiSpace Star1200116095
SkodaCitigo100092995
Fiat50090086590
MiniCooper15001140105
VWUp!1000929105
SkodaFabia1400110990
MercedesA-Class1500136592
FordFiesta1500111298
AudiA11600115099
HyundaiI20110098099
SuzukiSwift1300990101
FordFiesta1000111299
HondaCivic1600125294
HundaiI301600132697
OpelAstra1600133097
BMW11600136599
Mazda322001280104
SkodaRapid16001119104
FordFocus20001328105
FordMondeo1600158494
OpelInsignia2000142899
MercedesC-Class2100136599
SkodaOctavia1600141599
VolvoS602000141599
MercedesCLA15001465102
AudiA420001490104
AudiA620001725114
VolvoV7016001523109
BMW520001705114
MercedesE-Class21001605115
VolvoXC7020001746117
FordB-Max16001235104
BMW216001390108
OpelZafira16001405109
MercedesSLK25001395120

我们可以根据发动机的大小预测汽车的二氧化碳排放量,但是通过多元回归,我们可以引入更多变量,例如汽车的重量,以使预测更加准确。

2、多元回归预测

在Python中,我们有可以为我们完成工作的模块。首先导入Pandas模块。

import pandas

Pandas模块允许我们读取csv文件并返回一个DataFrame对象。

该文件仅用于测试目的,可以在此处下载:cars.csv

df = pandas.read_csv("cars.csv")

然后列出独立值并称之为 变量X

将相关值放在名为y的变量中。

X = df[['Weight', 'Volume']]
y = df['CO2']

提示:通常,将独立值列表命名为大写X,将相关值列表命名为小写y。

我们将使用sklearn模块中的一些方法,因此我们也必须导入该模块:

from sklearn import linear_model

在sklearn模块中,我们将使用LinearRegression()方法创建一个线性回归对象。

该对象具有称为fit()的方法,该方法将独立值和从属值作为参数,并用描述该关系的数据填充回归对象:

regr = linear_model.LinearRegression()
regr.fit(X, y)

现在我们有了一个回归对象,可以根据汽车的重量和体积预测CO2值:

#predict the CO2 emission of a car where the weight is 2300kg, and the volume is 1300cm3:
predictedCO2 = regr.predict([[2300, 1300]])

例如: 

请参阅整个示例:

import pandas
from sklearn import linear_model

df = pandas.read_csv("cars.csv")

X = df[['Weight', 'Volume']]
y = df['CO2']

regr = linear_model.LinearRegression()
regr.fit(X, y)

#predict the CO2 emission of a car where the weight is 2300kg, and the volume is 1300cm3:
predictedCO2 = regr.predict([[2300, 1300]])

print(predictedCO2)

Result:

[107.2087328]

我们已经预测,配备1.3升发动机,重2300千克的汽车,每行驶1公里,就会释放约107克的二氧化碳。

3、系数(Coefficient)

系数是描述与未知变量的关系的因子。

示例:如果x是变量,则2xx两次。x是未知变量,数字2是系数。

在这种情况下,我们可以要求重量相对于二氧化碳的系数值,以及体积相对于二氧化碳的系数。我们得到的答案告诉我们,如果增加或减少其中一个独立值,将会发生什么。

例如:

打印回归对象的系数值:运行示例»

import pandas
from sklearn import linear_model

df = pandas.read_csv("cars.csv")

X = df[['Weight', 'Volume']]
y = df['CO2']

regr = linear_model.LinearRegression()
regr.fit(X, y)

print(regr.coef_)

 Result:

[0.00755095 0.00780526]

4、结果解释

结果数组表示重量和体积的系数值。

重量:0.00755095体积:0.00780526

这些值告诉我们,如果重量增加1kg,则CO2排放量增加0.00755095g。

如果发动机尺寸(容积)增加1 cm3,则CO2排放量将增加0.00780526 g。

我认为这是一个合理的猜测,但请进行测试!

我们已经预测,如果一辆配备1300cm3发动机的汽车重2300kg,则二氧化碳排放量将约为107g。

如果我们增加1000kg的重量怎么办?

例如:

复制之前的示例,但将权重从2300更改为3300:

import pandas
from sklearn import linear_model

df = pandas.read_csv("cars.csv")

X = df[['Weight', 'Volume']]
y = df['CO2']

regr = linear_model.LinearRegression()
regr.fit(X, y)

predictedCO2 = regr.predict([[3300, 1300]])

print(predictedCO2)

 Result:

[114.75968007]

我们预测,配备1.3升发动机,重3300千克的汽车,每行驶1公里,就会释放大约115克二氧化碳。

这表明0.00755095的系数是正确的:

107.2087328 + (1000 * 0.00755095) = 114.75968

推荐阅读
cjavapy编程之路首页