[br]La estructura del modelo de regresión lineal es la siguiente:[br][center][/center][center][math]Y=β_0+β_1X+ε[/math][/center][br]En esta expresión estamos admitiendo que todos los factores o causas que influyen en la variable respuesta [math]Y[/math] pueden dividirse en dos grupos: el primero contiene a una variable explicativa [math]X[/math] y el segundo incluye un conjunto amplio de factores no controlados que englobamos bajo el nombre de perturbación o error aleatorio, ε, que provoca que la dependencia entre las variables dependiente e independiente no sea perfecta, sino que esté sujeta a incertidumbre. [br][br]Por ejemplo, en el consumo de gasolina de un vehículo [math](Y)[/math] influyen la velocidad [math](X)[/math] y una serie de factores como el efecto conductor, el tipo de carretera, las condiciones ambientales, etc., que quedarían englobados en el error.[br][br]Lo que en primer lugar sería deseable en un modelo de regresión es que estos errores aleatorios sean en media cero para cualquier valor [math]x[/math] de [math]X,[/math] es decir, [math]E[ε/X=x]=E[ε]=0[/math], y por lo tanto:[br][br][center][math]E[Y/X=x]=β_0+β_1x+E[ε/X=x]=β_0+β_1x[/math][/center][br]En dicha expresión se observa que:[br][br][list][*] La media de [math]Y[/math], para un valor fijo [math]x[/math], varía linealmente con [math]x[/math].[/*][*] Para un valor x se predice un valor en[math][/math][math]Y[/math]dado por [math]y=E[Y/X=x]=β_0+β_1x,[/math] por lo que el modelo de predicción puede expresarse también como [math]Y=β_0+β_1X[/math].[/*][*] El parámetro [math]β_0[/math] es la ordenada al origen del modelo ([i]punto de corte con el eje Y)[/i] y [math]β_1[/math] la pendiente, que puede interpretarse como el incremento de la variable dependiente por cada incremento en una unidad de la variable independiente. Estos parámetros son desconocidos y habrá que estimarlos de cara a realizar predicciones.[br][/*][/list][br]Además de la hipótesis establecida sobre los errores de que en media han de ser cero, se establecen las siguientes hipótesis:[br][br][list][*] La varianza de ε es constante para cualquier valor de [math]x[/math], es decir,[br][/*][/list][br][math]Var(ε/X=x)=σ^2[/math][center][/center][list][*] La distribución de ε es normal, de media 0 y desviación σ.[br][/*][/list][br][list][*] Los errores asociados a los valores de Y son independientes unos de otros.[br][/*][/list][br]En consecuencia, la distribución de [math]Y[/math] para [math]x[/math] fijo es normal, con varianza constante [math]σ^2[/math], y media que varía linealmente con [math]x[/math], dada por [math]β_0+β_1x[/math]. Además los valores de [math]Y[/math] son independientes entre sí.[br][br][br][br][br]