第5章 回归模型

回归是指通过统计分析一组随机变量x1,…,xn与另一组随机变量y1,…,yn之间的关系,得到一个可靠的模型,使得对于给定的x={x1,…,xn},可以利用这个模型对y={y1,…,yn}进行预测。其中,随机变量x1,…,xn被称为自变量,随机变量y1,…,yn被称为因变量。例如,在预测房价时,研究员会选取可能对房价有影响的因素,包括房屋面积、房屋楼层、房屋地点等,作为自变量加入预测模型。研究的任务是建立一个有效的模型,能够准确表示出上述因素与房价之间的关系。

本章在讨论回归问题的时候,总是假设因变量只有一个。这是因为假设各因变量之间是相互独立的,因而多个因变量的问题可以分解成多个回归问题加以解决。在实际求解中,我们只需要使用比本章推导公式中的参数张量更高一阶的参数张量即可以很容易推广到多因变量的情况。

在回归中我们有一些数据样本,通过对这些样本进行统计分析,可以获得一个预测模型f(·),使得对于测试数据x={x1,…,xn},可以得到一个较好的预测值:

y=f(x)

在形式上回归问题与分类问题十分相似,但在分类问题中预测值y是一个离散变量,它代表着通过特征x所预测的类别;而在回归问题中,y是一个连续变量。

在本章中,我们先介绍线性回归模型,然后推广到广义线性模型,并以Logistic回归为例分析广义线性回归模型。