En esta clase vamos a
revisar lo que es el coeficiente de correlación y el de determinación, de hecho
ustedes lo han usado cuando en su gráfica ponen una línea de tendencia y ponen
lo que hasta ahora conocen como R2, ese es el coeficiente de determinación en
tanto que su raíz cuadrada, o sea R (más correctamente r) es el coeficiente de correlación.
Una correlación, es
simplemente la
relación o dependencia que existe entre las dos variables que intervienen en
una distribución
bidimensional.
Es decir, la correlación
nos indica si los cambios en una de las variables (la independiente) influyen
en los cambios de la otra (dependiente). En caso de que suceda, diremos que las
variables están correlacionadas o que hay correlación entre ellas.
Si bien la correlación
puede ser exponencial o potencial o lineal, en este curso solo veremos la
correlación lineal o de Pearson.
TIPOS DE
CORRELACIÓN LINEAL.
1º Correlación directa o positiva
La correlación directa
se da cuando al aumentar una de las variables la otra aumenta.
La recta correspondiente
a la nube de puntos de la distribución es una recta creciente.
2º Correlación inversa o negativa
La correlación inversa
se da cuando al aumentar una de las variables la otra disminuye.
La recta correspondiente
a la nube de puntos de la distribución es una recta decreciente.
3º Correlación nula
La correlación nula se
da cuando no hay dependencia de ningún tipo entre las variables.
En este caso se dice que
las variables son incorreladas y la nube de puntos tiene una forma redondeada.
Grado de
correlación
Sin embargo para que esta herramienta de juicio resulte útil en estadística, tenemos que cuantificarla, es decir, contestar a la pregunta ¿Qué tan grande (o pequeña) es la correlación entre esas 2 variables?, esto se responde con el coeficiente de correlación, que indica que tan próximos están los puntos a la línea de tendencia que define su comportamiento.
La formula para calcular este índice es:
El resultado
de esta ecuación toma valores que van de -1 a + 1, por supuesto pasando por el
cero.
Mientras más
cercano sea el valor al -1 o al +1 nos indica que los puntos están muy cercanos
a la línea de tendencia y que la correlación es fuerte, por el contrario
mientras más se aleja de estos valores y se acerca al 0, indica que la
correlación es cada vez más débil hasta que es prácticamente nula (no hay
correlación entre las 2 variables)
Pero en esta
ocasión no nos vamos a detener en ella sino que nos limitamos a ver las formas
de calcularla e interpretarla a través de Excel.
COEFICIENTE
DE DETERMINACION
El cuadrado del coeficiente de correlación es el coeficiente de
determinación (R2), tiene las siguientes características:
1. -Está acotado entre 0 y
1.
2. -Se interpreta como el porcentaje
de la variabilidad de la variable dependiente explicado por la variabilidad de
la independiente.
3. -Mide, por tanto, el
cambio (porcentual) producido en la variable Y al realizarse un cambio de una
unidad en la variable X.
4. -Acompaña siempre a
modelos de tipo lineal. No tiene potencia para medir relaciones de otro tipo.
Para verlo de manera gráfica vamos a partir de un ejemplo:
Problema ejemplo:
Suponga que sus empleados toman una prueba para
medir la agilidad manual. Usted tiene la impresión de que la edad de los
empleados está relacionada con las calificaciones de las pruebas. Diez
empleados reportaron sus calificaciones de la prueba de agilidad manual.
¿Existe alguna correlación entre la edad de los empleados y las calificaciones
de la prueba.
Empleado
|
Edad
|
Prueba
|
1
|
35
|
93
|
2
|
25
|
96
|
3
|
52
|
87
|
4
|
40
|
90
|
5
|
26
|
94
|
6
|
55
|
86
|
7
|
61
|
84
|
8
|
30
|
93
|
9
|
47
|
91
|
10
|
66
|
84
|
Aqui puedes descargar la tabla en una hoja de Excel
GRAFICANDO
Primero
veamos como contestar a esta pregunta por medio de una gráfica de dispersión
con línea de tendencia lineal y pidiendo que se muestre la ecuación y la R2:
Dado el problema pueden inferir que el cálculo de
la media y la desviación estándar en este contexto NO APLICA, lo que se hace
es:
Seleccionar
las dos columnas completas (edad y prueba) pedir la gráfica de dispersión,
agregar la linea de tendencia de tipo lineal y que se muestre la ecuación y la
R2 como ya saben.
El
valor dado por la R2 es el coeficiente de determinación nos indica el grado en
que la habilidad manual de los empleados responde a la variable edad.
Para calcular
la correlación y dado que sabemos que el coeficiente de determinación es el
cuadrado del de correlación, solo calculamos la raíz cuadrada del coeficiente
de determinación, el signo lo indica la pendiente positiva o negativa de la línea
de tendencia.
CALCULANDO EL INDICE DE PEARSON
DIRECTAMENTE
Observaciones:
La función de PEARSON devuelve el coeficiente de
correlación producto o momento r de Pearson.
Como ya dijimos ‘r’ es un índice que está entre –1.0 y 1.0 que refleja
el grado de dependencia lineal entre dos conjuntos de datos.
La función le pide lo siguiente: PEARSON(Array1,
Array2) [PEARSON(matriz1, matriz2)]:
Como resultado, la función para el problema ejemplo
es la siguiente: PEARSON(B2:B11, C2:C11). El coeficiente de correlación
producto o momento r en este caso es r= 0.971591.
En otras palabras, sí existe una alta correlación
fuerte entre la edad de los empleados y la calificación de la prueba de
agilidad manual.
En tanto que el coeficiente de determinación R2 nos indica el porcentaje en el que
las variaciones de la variable independiente (edad) determinan a la dependiente
(habilidad manual).




No hay comentarios.:
Publicar un comentario