回归分析笔记

发布时间:2023年12月22日

回归分析

回归分析: 寻找两个或多个变量之间的函数关系(相关关系)

一元和线性

y = β 0 + β 1 x + ε \begin{aligned} y&=\beta_0+\beta_1x+\varepsilon\\ \end{aligned} y?=β0?+β1?x+ε?

  • 误差项 ε \varepsilon ε是一个期望值为0的随机变量,即 E ( ε ) = 0 E(\varepsilon)=0 E(ε)=0, 对于一个给定的 x x x值, y y y的期望值为 E ( y ) = β 0 + β 1 x E(y)=\beta_0+\beta_1x E(y)=β0?+β1?x
  • 对于所有的 x x x值, ε \varepsilon ε的方差 σ 2 \sigma^2 σ2都相同
  • 误差项 ε \varepsilon ε是一个服从正态分布的随机变量,且相互独立

β 1 = ∑ x i y i ? n x  ̄ y  ̄ ∑ x 2 ? n x  ̄ β 0 = y  ̄ ? β 1 x  ̄ \begin{aligned} \beta_1&=\frac{\sum x_iy_i-n\overline x\overline y}{\sum x^2-n\overline x}\\ \beta_0&=\overline y-\beta_1\overline x\\ \end{aligned} β1?β0??=x2?nxxi?yi??nxy??=y??β1?x?

回归显著性校验:

  • 总离差平方和(SST): ∑ ( y i ? y  ̄ ) 2 \sum(y_i-\overline y)^2 (yi??y?)2
  • 残差平方和(SSE): ∑ ( y i ? y ^ i ) 2 \sum(y_i-\hat y_i)^2 (yi??y^?i?)2
  • 回归平方和(SSR): ∑ ( y ^ i ? y  ̄ ) 2 \sum(\hat y_i-\overline y)^2 (y^?i??y?)2

S S T = ∑ ( y i ? y  ̄ ) 2 = ∑ [ ( y ^ i ? y  ̄ ) + ( y i ? y ^ i ) ] 2 = ∑ ( y ^ i ? y  ̄ ) 2 + ∑ ( y i ? y ^ i ) 2 + 2 ∑ ( y ^ i ? y  ̄ ) ( y i ? y ^ i ) = ∑ ( y ^ i ? y  ̄ ) 2 + ∑ ( y i ? y ^ i ) 2 + 0 = S S R + S S E \begin{aligned} SST&=\sum(y_i-\overline y)^2\\ &=\sum [(\hat y_i-\overline y)+(y_i-\hat y_i) ]^2\\ &=\sum(\hat y_i-\overline y)^2+\sum(y_i-\hat y_i)^2+2\sum(\hat y_i-\overline y)(y_i-\hat y_i)\\ &=\sum(\hat y_i-\overline y)^2+\sum(y_i-\hat y_i)^2+0\\ &=SSR+SSE \end{aligned} SST?=(yi??y?)2=[(y^?i??y?)+(yi??y^?i?)]2=(y^?i??y?)2+(yi??y^?i?)2+2(y^?i??y?)(yi??y^?i?)=(y^?i??y?)2+(yi??y^?i?)2+0=SSR+SSE?

相关系数 r r r

r 2 = S S R S S T = ∑ ( y ^ i ? y  ̄ ) 2 ∑ ( y i ? y  ̄ ) 2 = 1 ? ∑ ( y i ? y ^ ) 2 ∑ ( y i ? y  ̄ ) 2 r^2=\frac{SSR}{SST}=\frac{\sum(\hat y_i-\overline y)^2}{\sum(y_i-\overline y)^2}=1-\frac{\sum(y_i-\hat y)^2}{\sum(y_i-\overline y)^2} r2=SSTSSR?=(yi??y?)2(y^?i??y?)2?=1?(yi??y?)2(yi??y^?)2?

  • r r r越接近于1,相关性越强
  • r ∈ [ 0 , 1 ] r\in[0, 1] r[0,1]
F F F检验
  • 提出假设: 线性关系不显著
  • 计算检验统计量 F F F

F = S S R / 1 S S E / ( n ? 2 ) = ∑ ( y ^ i ? y  ̄ ) 2 ∑ ( y ^ i ? y i ) 2 / ( n ? 2 ) ~ F ( 1 , n ? 2 ) \begin{aligned} F&=\frac{SSR/1}{SSE/(n-2)}=\frac{\sum(\hat y_i-\overline y)^2}{\sum(\hat y_i-y_i)^2/(n-2)}\sim F(1, n-2)\\ \end{aligned} F?=SSE/(n?2)SSR/1?=(y^?i??yi?)2/(n?2)(y^?i??y?)2?F(1,n?2)?

  • 确定显著性水平 α \alpha α,并根据分子自由度1和分母自由度(n-2)找出临界值 F α F_\alpha Fα?作出决策: 若 F ≥ F α F\geq F_\alpha FFα?, 拒绝假设; 否则接受假设。(概率论与数理统计)
  • F F F越大线性关系越显著
F F F r r r的关系

F = ( n ? 2 ) r 2 1 ? r 2 F=\frac{(n-2)r^2}{1-r^2}\\ F=1?r2(n?2)r2?

  • 说明 F F F检验和 r r r相关系数的一致性
例题

在这里插入图片描述

重复测量的分析

对于同一个 x x x重复测量得到 y y y的值

  • 离差平方和: S S S

  • 残差平方和: Q Q Q

  • 回归平方和: U U U

  • 误差平方和: Q E Q_E QE?

  • 失拟平方和: Q L Q_L QL?

在这里插入图片描述

在这里插入图片描述

两个变量都有误差的一元线性回归

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • λ \lambda λ衡量了误差偏向的方向
  • 问题: 如何通过先验信息测出 λ = σ x 2 σ y 2 \lambda=\frac{\sigma_x^2}{\sigma_y^2} λ=σy2?σx2???

一元非线性

  • 化非线性为线性问题的求解

典型的化解方法

y = α e β x y = α x β y = x α x + β y = α + β log ? x y = 1 α + β e ? x \begin{aligned} y&=\alpha e^{\beta x}\\ y&=\alpha x^\beta\\ y&=\frac{x}{\alpha x+\beta}\\ y&=\alpha+\beta\log x\\ y&=\frac{1}{\alpha+\beta e^{-x}}\\ \end{aligned} yyyyy?=αeβx=αxβ=αx+βx?=α+βlogx=α+βe?x1??

在这里插入图片描述

具体步骤

  • 根据散点图确认非线性回归方程模式
  • 把非线性回归方程转换为线性回归方程
  • 依据线性回归方程进行求解
  • 再转换为非线性回归方程

在这里插入图片描述在这里插入图片描述

在这里插入图片描述

  • 观察数据是否符合某个曲线, 若符合则可以套用公式试试效果
  • 以下是常见的曲线

在这里插入图片描述

在这里插入图片描述

  • 在实际情况下,可能有多条曲线符合。这时需要将所有曲线都尝试一遍,然后做显著性校验,选取显著性校验最好的曲线作为结果。

多元线性

y ^ = b 0 + b 1 x 1 + b 2 x 2 + . . . + b M x M 由 最小二乘法 : Q = ∑ t = 1 M ( y t ? y ^ t ) = ∑ t = 1 M ( y t ? b 0 ? b 1 x t 1 ? b 2 x t 2 ? . . . ? b M x t M ) 2 = 最小 { ? Q ? b 0 = ? 2 ∑ t = 1 M ( y t ? b 0 ? b 1 x t 1 ? b 2 x t 2 ? . . . ? b M x t M ) = 0 ? Q ? b i = ? 2 ∑ t = 1 M ( y t ? b 0 ? b 1 x t 1 ? b 2 x t 2 ? . . . ? b M x t M ) = 0 i = 1 , 2...... M \begin{aligned} \hat y &=b_0+b_1x_1+b_2x_2+...+b_Mx_M\\ 由&最小二乘法:\\ Q&=\sum_{t=1}^M(y_t-\hat y_t)=\sum_{t=1}^M(y_t-b_0-b_1x_{t1}-b_2x_{t2}-...-b_Mx_{tM})^2=最小\\ &\begin{cases} \frac{\partial Q}{\partial b_0}=-2\sum_{t=1}^M(y_t-b_0-b_1x_{t1}-b_2x_{t2}-...-b_Mx_{tM})=0\\ \frac{\partial Q}{\partial b_{i}}=-2\sum_{t=1}^M(y_t-b_0-b_1x_{t1}-b_2x_{t2}-...-b_Mx_{tM})=0\\ i=1,2......M \end{cases} \end{aligned} y^?Q?=b0?+b1?x1?+b2?x2?+...+bM?xM?最小二乘法:=t=1M?(yt??y^?t?)=t=1M?(yt??b0??b1?xt1??b2?xt2??...?bM?xtM?)2=最小? ? ???b0??Q?=?2t=1M?(yt??b0??b1?xt1??b2?xt2??...?bM?xtM?)=0?bi??Q?=?2t=1M?(yt??b0??b1?xt1??b2?xt2??...?bM?xtM?)=0i=1,2......M??

矩阵形式:
( X T X ) b = X T Y b = A ? 1 B = ( X T X ) ? 1 X T Y \begin{aligned} (X^TX)b&=X^TY\\ b=A^{-1}&B=(X^TX)^{-1}X^TY\\ \end{aligned} (XTX)bb=A?1?=XTYB=(XTX)?1XTY?
另一种方法
y ^ = μ 0 + b 1 ( x 1 ? x  ̄ 1 ) + b 2 ( x 2 ? x  ̄ 2 ) + . . . + b M ( x M ? x  ̄ M ) A b = B 其 中 : μ = b 1 x  ̄ 1 + b 2 x  ̄ 2 + . . . + b M x  ̄ M = y  ̄ \begin{aligned} \hat y&=\mu_0+b_1(x_1-\overline x_1)+b_2(x_2-\overline x_2)+...+b_M(x_M-\overline x_M)\\ \qquad &\qquad \qquad \qquad \qquad Ab=B\\ 其&中:\mu=b_1\overline x_1+b_2\overline x_2+...+b_M\overline x_M=\overline { y}\\ \end{aligned} y^??=μ0?+b1?(x1??x1?)+b2?(x2??x2?)+...+bM?(xM??xM?)Ab=B:μ=b1?x1?+b2?x2?+...+bM?xM?=y??

  • 要求的系数 b b b比上一种方法少一个,矩阵维数由 M + 1 → M M+1\to M M+1M

  • 计算量减少

F F F检验

在这里插入图片描述

实例

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考资料

【名校公开课-误差理论与数据处理-钱政 | 北京航空航天大学】

文章来源:https://blog.csdn.net/nanxl1/article/details/135150879
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。