本节主要介绍了R方的计算步骤、范数以及正则化。
R方的计算步骤
R方可以用于评估回归模型对现实数据的拟合程度
设$y_i$是测试集第$i$个样本的价格,$\bar y$是真实价格的均值,$f(x_i)$是模型对第$i$个样本的预测价格,$n$是样本数量,则$R$方的计算步骤为:
计算残差平方和$SS_{res}$:
$$
SS_{res}=\sum_{i=1}^n(y_i-f(x_i))^2
$$计算样本总离差平方和$SS_{tss}$:
$$
SS_{tss}=\sum_{i=1}^n(y_i-\bar y)^2
$$最后得到$R$方:
$$
R^2=1-\frac{SS_{res}}{SS_{tss}}
$$
$R$方的取值越大,说明模型的效果越好
范数
1.向量范数
L1-范数:即向量与元素绝对值之和
$$
||x||1=\sum{i=1}^N|x_i|
$$L2-范数:即向量元素绝对值的平方和再开方
$$
||x||2=(\sum{i=1}^N|x_i|^2)^{\frac12}
$$$\infty$-范数:即所有向量元素绝对值中的最大值
$$
||x||_{\infty}=\mathop{max}_i|x_i|
$$$-\infty$-范数:即所有向量元素绝对值中的最小值
$$
||x||_{-\infty}=\mathop{min}_i|x_i|
$$$p$-范数:即向量元素绝对值的$p$次方和的$\frac1p$次幂
$$
||x||p=(\sum{i=1}^N|x_i|^p)^{\frac1p}
$$
2.矩阵范数
假设矩阵A为$m\cdot n$,即m行n列
L1-范数:即矩阵的所有列元素绝对值之和的最大值
$$
||A||1=\mathop{max}_j\sum{i=1}^m|a_{ij}|
$$L2-范数:即$A^TA$矩阵的最大特征值开平方
$$
||A||_2=\sqrt{\lambda_1},\lambda_1为A^TA的最大特征值
$$$\infty$-范数:即矩阵的所有行向量元素绝对值之和的最大值
$$
||A||{\infty}=\mathop{max}_i\sum{j=1}^n|a_{ij}|
$$F-范数:即矩阵元素绝对值的平方和再开平方
$$
||A||F=(\sum{i=1}^m\sum_{j=1}^n|a_{ij}|^2)^{\frac12}
$$
线性回归的正则化
其目的是应用过拟合
在原有损失函数中加入正则化项:
$$
J(\theta)=\frac1{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\alpha\sum_{j=1}^n\theta_j^2]
$$其中$\alpha$是正则化参数
可以通过交叉验证的方式设置调整超参数$\alpha$