Formulario de Regresion Lineal


RLM_3D

Navegue por el glosario usando este índice.

Especial | A | B | C | D | E | F | G | H | I | J | K | L | M | N | Ñ | O | P | Q | R | S | T | U | V | W | X | Y | Z | TODAS

C

Coeficiente de determinación

En estadística, el coeficiente de determinación, denominado y pronunciado R cuadrado, es un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es predecir futuros resultados o probar una hipótesis. El coeficiente determina la calidad del modelo para replicar los resultados, y la proporción de variación de los resultados que puede explicarse por el modelo.1

Hay varias definiciones diferentes para R² que son algunas veces equivalentes. Las más comunes se refieren a la regresión lineal. En este caso, el R² es simplemente el cuadrado del coeficiente de correlación de Pearson, lo cual es sólo cierto para la regresión lineal simple. Si existen varios resultados para una única variable, es decir, para una X existe una Y, Z... el coeficiente de determinación resulta del cuadrado del coeficiente de determinación múltiple. En ambos casos el R² adquiere valores entre 0 y 1. Existen casos dentro de la definición computacional de R² donde este valor puede tomar valores negativos.2

Caso general

Un modelo estadístico se construye para explicar una variable aleatoria, que llamaremos dependiente, a través de otras variables aleatorias a las que llamaremos factores. Dado que podemos predecir una variable aleatoria mediante su media y que, en este caso, el error cuadrático medio es su varianza, el máximo error cuadrático medio que podemos aceptar en un modelo para una variable aleatoria que posea los dos primeros momentos es la varianza. Para estimar el modelo haremos varias observaciones de la variable a predecir y de los factores. A la diferencia entre el valor observado de la variable y el valor predicho la llamaremos residuo. La media cuadrática de los residuos es la varianza residual.

Si representamos por la varianza de la variable dependiente \sigma^{2} y la varianza residual por \sigma_{r}^{2}, el coeficiente de determinación viene dado por la siguiente ecuación:

\rho^{2}=1-\frac{\sigma_{r}^{2}}{\sigma^{2}}

Se mide en tantos por ciento. Si la varianza residual es cero, el modelo explica el 100% de valor de la variable; si coincide con la varianza de la variable dependiente, el modelo no explica nada y el coeficiente de determinación es del 0%. En variables económicas y financieras, suele ser difícil conseguir un coeficiente de determinación mayor de un 30%.

Para la regresión lineal

Para la regresión basta con hacer el cuadrado del coeficiente de correlación de Pearson.

 \displaystyle R^{2}={\sigma _{XY}^{2} \over \sigma_{X}^{2}\sigma _{Y}^{2}}

Donde:

  • \displaystyle \sigma _{XY} es la covarianza de \displaystyle (X,Y).
  •   \displaystyle \sigma _{X}^{2} es la Varianza de la variable \displaystyle X.
  • {\displaystyle \sigma _{Y}^{2}} es la Varianza de la variable {\displaystyle Y}.

Modelo lineal

En un modelo lineal, la variable dependiente y y se explica mediante la ecuación y=\sum _{j=1}^{n}\beta _{j}x_{j} {\displaystyle y=\sum _{j=1}^{n}\beta _{j}x_{j}} . Si observamos m m veces tanto la variable aleatoria como los factores, podemos ordenar nuestras observaciones de la variable dependiente en una matriz y{\displaystyle \mathbf {y} }{\displaystyle \mathbf {y} } mientras que colocaremos las de los factores en la matriz de regresión X{\displaystyle \mathbf {X} }{\displaystyle \mathbf {X} } . Cada observación corresponderá a una coordenada de y{\displaystyle \mathbf {y} }{\mathbf  y} y a una fila de X{\displaystyle \mathbf {X} }{\displaystyle \mathbf {X} }. Cada columna de la matriz de regresión corresponde a las observaciones de un factor. En cada observación el modelo cometerá un error:

yi=∑i=1mβjxij+εi{\displaystyle y_{i}=\sum _{i=1}^{m}\beta _{j}x_{ij}+\varepsilon _{i}}{\displaystyle y_{i}=\sum _{i=1}^{m}\beta _{j}x_{ij}+\varepsilon _{i}}

Estos errores se llaman residuos. La varianza residual es la varianza de estos residuos.

σr2=∑i=1nεi2=ε′ε=(y−Xβ)′(y−Xβ){\displaystyle \sigma _{r}^{2}=\sum _{i=1}^{n}\varepsilon _{i}^{2}=\mathbf {\varepsilon } '\mathbf {\varepsilon } =(\mathbf {y} -\mathbf {X} \mathbf {\beta } )'(\mathbf {y} -\mathbf {X} \mathbf {\beta } )}{\displaystyle \sigma _{r}^{2}=\sum _{i=1}^{n}\varepsilon _{i}^{2}=\mathbf {\varepsilon } '\mathbf {\varepsilon } =(\mathbf {y} -\mathbf {X} \mathbf {\beta } )'(\mathbf {y} -\mathbf {X} \mathbf {\beta } )}

∑j=1nβjxij{\displaystyle \sum _{j=1}^{n}\beta _{j}x_{ij}}{\displaystyle \sum _{j=1}^{n}\beta _{j}x_{ij}} es la parte de la variación de yi{\displaystyle y_{i}}y_{i} explicada por el modelo lineal.

εi{\displaystyle \varepsilon _{i}}{\displaystyle \varepsilon _{i}} es la parte de la variación de yi{\displaystyle y_{i}}y_{i} que no explica el modelo lineal.

Sumando estas dos partes, obtenemos yi{\displaystyle y_{i}}y_{i}.

El valor del coeficiente de determinación aumenta cuando se incluyen nuevas variables en el modelo, incluso cuando éstas son poco significativas o tienen poca correlación con la variable dependiente. El coeficiente de determinación corregido mide el porcentaje de variación de la variable dependiente (al igual que el coeficiente de determinación) pero tiene en cuenta además el número de variables incluidas en el modelo.


Coeficiente de determinación corregido

El coeficiente de determinación corregido en un modelo de regresión lineal mide el porcentaje de variación de la variable dependiente (al igual que el coeficiente de determinación) pero teniendo en cuenta el número de variables incluidas en el modelo.

Sabemos que a medida que vamos incluyendo variables en el modelo, el coeficiente de determinación aumenta aunque las variables que incluyamos no sean significativas. Esto supone un problema, ya que no debemos olvidar que la inclusión de nuevas variables supone un aumento en el número de parámetros a estimar para el modelo....

El coeficiente de determinación corregido viene a resolver este problema del coeficiente de determinación.

Se define como:

R¯2=1−N−1N−k−1[1−R2]{\displaystyle {\bar {R}}^{2}=1-{N-1 \over N-k-1}[1-R^{2}]}{\displaystyle {\bar {R}}^{2}=1-{N-1 \over N-k-1}[1-R^{2}]}

Donde: N es el tamaño de la muestra y k refleja el número de variables.

Usos:

- Se emplea habitualmente para comparar modelizaciones alternativas que manteniendo el mismo número de observaciones varían en el número de regresores especificados.

- Resulta de especial interés en situaciones en las que el número de variables explicativas está cercano al número de observaciones de la muestra.


F

Factor de inflación de la varianza (VIF)

n estadística, el factor de inflación de la varianza (FIV, a veces también conocido por su nombre en inglés, variance inflation factor, y de ahí VIF) cuantifica la intensidad de la multicolinealidad en un análisis de regresión normal de mínimos cuadrados. Proporciona un índice que mide hasta qué punto la varianza (el cuadrado de la desviación estándar estimada) de un coeficiente de regresión estimado se incrementa a causa de la colinealidad.

Considerando el siguiente modelo lineal con k variables independientes

Y = β0 + β1X1 + β2X 2 + ... + βkXk + ε.

El error estándar de la estimación de βj es la raíz cuadrada de los j+1, j+1 como elemento de s2(XX)−1, donde s es la raíz del error cuadrático medio (RECM), teniendo en cuenta que RECM2 es un estimador insesgado de la varianza del error σ2{\displaystyle \sigma ^{2}}{\displaystyle \sigma ^{2}}); X es la regresión de la matriz de diseño -una matriz en la que Xi, j+1 es el valor de la j enésima variable independiente para el i enésimo caso u observación, por lo que Xi, 1 es 1 para todo i-. Resulta que el cuadrado de este error estándar, la varianza estimada de βj, puede expresarse de manera equivalente como:

{\displaystyle {\rm {\widehat {var}}}({\hat {\beta }}_{j})={\frac {s^{2}}{(n-1){\widehat {\rm {var}}}(X_{j})}}\cdot {\frac {1}{1-R_{j}^{2}}},}

donde Rj2 es el múltiplo R2 para la regresión de Xj sobre otras covariables (una regresión que no involucra la respuesta de la variable Y). Esta identidad separa las influencias de varios factores diferentes en la varianza de la estimación del coeficiente:

  • s2: una gran dispersión en los datos de la representación de la regresión llevan proporcionalmente a una mayor varianza en las estimaciones de los coeficientes.
  • n: un gran tamaño de la muestra se traduce proporcionalmente en una menor varianza en los estimadores del coeficiente.
  • var^(Xj){\displaystyle {\widehat {\rm {var}}}(X_{j})}{\displaystyle {\widehat {\rm {var}}}(X_{j})}: una gran variabilidad en una covariable particular lleva proporcionalmente a una menor varianza en la correspondiente estimación del coeficiente.

Se pueden calcular los k factores de inflación de la varianza diferentes (uno para cada Xi) en tres pasos:

Primer paso

En primer lugar se realiza una regresión de mínimos cuadrados que tenga a Xi como una función de las demás variables explicativas de la primera ecuación.

Si i = 1, por ejemplo, la ecuación sería:

X1=α2X2+α3X3+⋯+αkXk+c0+e{\displaystyle X_{1}=\alpha _{2}X_{2}+\alpha _{3}X_{3}+\cdots +\alpha _{k}X_{k}+c_{0}+e}{\displaystyle X_{1}=\alpha _{2}X_{2}+\alpha _{3}X_{3}+\cdots +\alpha _{k}X_{k}+c_{0}+e}

donde c0 es una constante y e es el error.

Segundo paso

En segundo lugar, se calcula el factor de inflación de la varianza para β^i{\displaystyle {\hat {\beta }}_{i}}{\displaystyle {\hat {\beta }}_{i}} con la siguiente fórmula:

FIVi=11−Ri2{\displaystyle \mathrm {FIV_{i}} ={\frac {1}{1-R_{i}^{2}}}}{\displaystyle \mathrm {FIV_{i}} ={\frac {1}{1-R_{i}^{2}}}}

donde R2i es el coeficiente de determinación de la ecuación de regresión del primer paso, con Xi{\displaystyle X_{i}}{\displaystyle X_{i}} en el lado izquierdo y el resto de variables predictivas en el derecho.

Tercer paso

Se analiza la magnitud de la multicolinealidad considerando el tamaño de FIV⁡(β^i){\displaystyle \operatorname {FIV} ({\hat {\beta }}_{i})}{\displaystyle \operatorname {FIV} ({\hat {\beta }}_{i})}. Si FIV⁡(β^i)>10{\displaystyle \operatorname {FIV} ({\hat {\beta }}_{i})>10}{\displaystyle \operatorname {FIV} ({\hat {\beta }}_{i})>10}, la multicolinealidad es alta.1


V

Variables dependientes e independientes

En un experimento, una variable, manipulada por un experimentador, se llama variable independiente. La variable dependiente es el evento que se espera que cambie cuando se manipula la variable independiente.5

En las herramientas de minería de datos (para estadística multivariante y aprendizaje automático), a la variable dependiente se le asigna un rol como variable objetivo (o en algunas herramientas como característica objetivo), mientras que a una variable independiente se le puede asignar un rol como variable regular.6​ Se proporcionan valores conocidos para la variable objetivo para el conjunto de datos de formación y el conjunto de datos de prueba, pero deben predecirse para otros datos. La variable objetivo se utiliza en los algoritmos de aprendizaje supervisado, pero no en el aprendizaje no supervisado.