1.线性回归

1.1 基础概念

二变量数据：对于每一个观察结果，二变量数据给出两个变量数值

常用表示图形：散点图（散布图），散点图的作用在于能体现数据的实际模式，通过散点图，你可以清晰地看出两个变量的关系

正线性相关：x增长，y也涨

负线性相关：x增长，y下降

不相关：x和y数值呈现一种随机模式

两个变量之间存在相关关系（数学关系），并不一定意味着一个变量会影响另一个变量，也不意味着二者存在实际关系

最佳拟合线：能最好的接近所有数据点的线（最佳预测）

如果确定最佳拟合线：表达式为
且使得y的实际观察值与每个x相对应的y的估计值的差距最小的线

如何确定差距最小：利用误差平方和，和方差的计算方法很相近

1.2 拟合线计算步骤

求出 $\overline{x}$和 $\overline{y}$
计算y = a+bx中的斜率（陡度） b ，即 b 为最佳拟合线的斜率，公式为：
最佳拟合线最好穿过x和y的均值 $\overline{x}$ ，$\overline{y}$，带入计算计算 a = $\overline{y}$ - b$\overline{x}$
得到最佳拟合线

最小二乘法

一种数学方法，可以用一条最佳拟合线将一组二变量数据拟合

通过将公式 y = a + bx 的一条直线与一组数值相拟合，使得误差平方和最小——即使得实际数值与这些数值的估计值之间的差值最小。

其中，直线 y = a + bx 被称为回归线

1.3 判断准确性

利用回归线的相关性强度——相关系数

相关系数介于 -1 和 1 之间，描述了各个数据点与直线的偏离程度，度量回归线与数据的拟合度，用字母 r 表示

r=-1，数据为完全负线性相关；
r=1，完全正线性相关；
r=0，不存在相关性

计算相关系数r

计算公式：

其中 $s_x$ 是样本中的x值的标准差，$s_y$

2. 方差分析（Analysis of Variance，简称ANOVA）

2.1 定义

一个假设检验过程，用于评估两个或者多个处理（总体）的平均数的差异，也可以说，方差分析和t检验只是做相同工作的两种不同的方法。

2.2 方差分析举例分析

某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种，分别为橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同，先从地理位置相似、经营规模相仿的五家超级市场上收集了前一期该种饮料的销售量情况，见表

2.2.1 方差分析术语

因素：因素是一个独立的变量，也就是方差分析研究的对象，也称为因子。如：例1中，我们要分析饮料的颜色对饮料的销售量是否有影响，在这里，“饮料的颜色”是所要检验的对象，它就是一个因素。在有的书中把因素称为“因子”。
水平因素中的内容称为水平，它是因素的具体表现。如：例1中“饮料的颜色”这一因素中的水平有四个，即饮料的四种不同颜色：无色、粉色、桔黄色、绿色；它们是“饮料的颜色”这一因素的四种具体表现。因素的每一个水平可以看作是一个总体，比如：无色、粉色、桔黄色、绿色饮料可以看作是四个总体。
控制变量在方差分析中，能够人为控制的影响因素称为控制因素，或控制变量；如：例1中，“饮料的颜色”对于饮料的销售量而言，是能够人为控制的影响因素，称为控制变量。
随机变量在方差分析中，人为很难控制的影响因素称为随机因素，或随机变量；如：例1中，“人们对不同颜色的偏爱”对于饮料的销售量而言，是人为很难控制的影响因素，称为随机变量。
观察变量与观察值在方差分析中，受控制因素和随机因素影响的事物，称为观察变量。在每个水平下得到的样本数据称为观察值。如：例1中，销售量是观察变量，在每个饮料颜色下得到的样本数据（即表10－1中的数据）就是观察值。

2.2.2 方差分析的原理

从方差分析的目的来看，是要检验各个水平的均值μ1、μ2、…、μm是否相等（m为水平个数），而实现这个目的的手段是通过方差的比较（即考察各观察数据的差异）。在变量的观察值之间存在着差异。差异的产生来自于两个方面。

一个方面是由因素中的不同水平造成的，称之为系统性差异（或系统性误差）。如：饮料的不同颜色带来不同的销售量。

另一个方面是由于抽选样本的随机性而产生的差异，称之为随机性差异（或随机性误差）。如：相同颜色的饮料在不同的商场销售量也不同。两个方面产生的差异可以用两个方差来计量。

一个叫组间方差，即水平之间的方差，是衡量不同总体下各样本之间差异的方差。在组间方差里，既包括系统性误差，也包括随机性误差。如：在例1中，不同颜色的饮料在不同地点（超市）产品销售量之间的差异既有系统性误差（即由于人们对不同颜色的偏爱造成的差异），也有随机性误差（即由于抽样的随机性造成的差异）。不同颜色的饮料在不同地点（超市）产品销售量之间的方差即为组间方差。

另一个叫组内方差，即水平内部的方差，是衡量同一个总体下样本数据的方差。在组内方差里仅包括随机性差异。如：在例1中，可以把同一个颜色的饮料在不同地点（超市）产品销售量之间的差异看成是随机因素的影响，同一个颜色的饮料在不同地点（超市）产品销售量之间的方差即为组内方差。

如果不同的水平对结果没有影响，如: 饮料的不同颜色对销售量无影响，那么在水平之间的方差中，就仅仅有随机因素影响的差异，而没有系统性因素影响的差异。这样一来，组间方差与组内方差就应该非常接近，两个方差的比值就会接近于1；反之，如果饮料的不同颜色对销售量有影响，在组间方差中就不仅包括了随机性误差，也包括了系统性误差，这时，组间方差就会大于组内方差，两个方差的比值就会大于1。当这个比值大到某种程度时，我们就可以作出判断，说不同水平之间存在着显著性差异。一次，方差分析就是通过不同方差的比较，作出接受原假设或拒绝原假设的判断。如：例子中，判断饮料的不同颜色对销售量是否有显著性影响的问题，实际上也就是检验销售量的差异主要是由于什么原因所引起的。如果这种差异主要是系统性误差，我们就说饮料的不同颜色对销售量有显著性影响。

2.2.3 方差分析思路

从表中看到，20个数据各不相同，其原因可能有两个方面：

一是销售地点不同的影响。即使是相同颜色的饮料，在不同超市的销售量也是不同的。但是，由于这五个超市地理位置相似、经营规模相仿，因此，可以把不同地点产品销售量的差异看成是随机因素的影响。
二是饮料颜色不同的影响。即使在同一个超市里，不同颜色的饮料的销售量也是不同的。哪怕它们的营养成分、味道、价格、包装等方面的因素都相同，但销售量也不相同。这种不同，有可能是由于抽样的随机性造成的，也有可能是由于人们对不同颜色的偏爱造成的。

于是，上述问题就归结为检验饮料颜色对销售量是否有影响的问题。我们可以令μ1、μ2、μ3、μ4分别为四种颜色饮料的平均销售量，检验它们是否相等。如果检验结果显示μ1、μ2、μ3、μ4不相等，则意味着不同颜色的饮料来自于不同的总体，表明饮料颜色对销售量有影响；反之，如果检验结果显示μ1、μ2、μ3、μ4之间不存在显著性差异，则意味着不同颜色的饮料来自于相同的总体，可认为饮料颜色对销售量没有影响。