jueves, 17 de septiembre de 2015

Cuándo fiarte de las estadísticas

Cuando abres una web o un periódico te encuentras con números, proporciones, ratios, coeficientes y probabilidades. En general es saludable que te hagas preguntas y desconfíes, aunque los malos usos de la estadística no son fruto de una conspiración para manipularte -no siempre. Lo más probable es que provengan de la dejadez, de un error o de puro desconocimiento. Te presentamos a continuación varias razones para que aumente tu nivel de escepticismo.
1. La media no siempre nos ayuda a entender lo que ocurre
Empecemos por el centro. Cuando hay muchos datos en un estudio nos viene muy bien conocer un dato central, una medida de “por dónde van las cosas” para poder trabajar. El salario medio, la nota media, el precio de la tele de plasma media… Un representante que nos haga saber rápidamente a qué nos enfrentamos.
Estamos habituados a usar la media como valor esperado, razonable, o deseado de un conjunto de datos. Por ejemplo, si en un examen saqué un 6 y en el otro un 8, y los dos eran igual de importantes parece razonable que la nota final sea (6+8)/2, un 7, la media ¿verdad? Pero seguro que si hoy yo me he comido un pollo entero al mediodía y tu no te has comido ninguno, decir que en media cada uno nos hemos comido medio pollo no es lo más razonable.
Tampoco -aprovecho para decirlo- decir que el aprobado deba ser lo que está justo en medio del 0 y el 10 es lo más razonable, sobre todo porque parece querer compensar unos extremos demasiado extremos. Imagina que en el exámen de conducir has girado perfectamente a la izquierda, pero ninguna vez has conseguido hacerlo a la derecha, ¿eso es un 5?
La media se ve muy influida por los valores extremos, como estamos viendo. Una paradoja que viene de la media es que a poco que algún español tenga menos de dos ojos (y alguno habrá), cada lector que está ahora mismo fijando la vista en este texto y tenga sus dos ojos, tiene más ojos que la media de los españoles. Es un hecho matemático. Una verdad estadística.
 
2. Casi nunca se tienen en cuenta las medidas de dispersión
Las medidas que nos hablan del centro de los datos no deberían separarse de las que nos hablan de su desviación, a saber, cuánto de alejados de ese dato central están el resto de los datos.
La razón es fácil de entender, volviendo al ejemplo de las notas de clase y utilizando una vez más la media veamos un ejemplo muy extremo: no es lo mismo que toda la clase haya sacado un 5 en un examen a que la mitad de la clase tenga un cero patatero y la otra mitad tenga un diez. Se suele utilizar la desviación típica, que tiene esta fórmula:
 
No te asustes, las calculadoras y las hojas de cálculo la saben hacer en un pis-pas. En el ejemplo anterior la desviación era de 0 en el primer caso (todas las notas coincidían con la media) y 5 en el segundo, ya que esa es justamente la distancia de cada dato al dato central.
 
3. El exceso de números en un artículo y la elección que se hace de ellos
Tendemos a utilizar números para reforzar lo que estamos afirmando; es como esos titulares que empiezan por “Científicos prueban…” o por “Un matemático afirma…". Mi consejo -y eso me caer en la paradoja de ser “un matemático que afirma”-, es desconfiar de ellos. Y si bajamos un poco más al detalle tengo que confesarte que mis amigos periodistas me han preguntado más de una vez por la manera de decir un dato para que suene “más contundente”.
Veamos un ejemplo: ¿qué es más “la mayoría”, “6 a favor y 5 en contra”, el 54,5% o “por solo por un voto”? Imagina lector, que en el ayuntamiento del Villabajo de Arriba ha salido elegido el candidato X, con el voto a favor de 6 concejales de un total de 11 que tenía el ayuntamiento. Cualquiera de los titulares anteriores son posibles, 6 de 11 es un 54,5% de los concejales, lo que te da la mayoría.
En estas estadísticas electorales se suele utilizar también la comparación de los votos que ha recibido (supongamos un 40% de los emitidos) con el total del censo del pueblo, esto es, si por ejemplo han votado un 60% de los villabajenses de arriba es fácil encontrar afirmaciones del tipo “X tiene el apoyo de solo el 24% de los villabajenses” o de menos de uno de cada cuatro, según sea la línea editorial.
 
4. Correlación no implica causalidad



 
Miremos la clasificación de la liga, los equipos que más goles a favor han conseguido (columna GF) tienen más puntos, esto es porque las medidas de goles a favor y puntos tienen correlación positiva. Gráficamente se vería así:
 
Los dos puntitos más a la derecha son el Madrid y el Barça, el más a la derecha es el Barça porque ganó en puntos, el más alto es el Madrid porque ganó en goles.
Este es un ejemplo de dos variables que están fuertemente correlacionadas de forma positiva. También hay correlaciones negativas, por no salir de ejemplo futbolero, goles en contra y puntos tiene pinta de tener correlación negativa. Pero mucho cuidado cuando nos presenten una de estas gráficas en las que se observe correlación y alguien quiera plantearnos que lo uno lleva a lo otro, tal vez no tengan ninguna relación entre sí, o puede que sí que estén relacionados pero ambos causados por otra razón
 
5. Dar algo por cierto o por falso porque las probabilidades de que se dan son muy altas o muy bajas
Hay varias falacias asociadas a este hecho, y algunos casos famosos como el del DNI de la Infanta, pero para no extendernos demasiado pongamos un ejemplo sencillo:
¿Cuál es la probabilidad de que salgan 10 caras seguidas al lanzar una moneda no trucada al aire? Teniendo en cuenta de que cada vez que lanzo la moneda al aire la probabilidad es de 0,5 (sobre uno, en tanto por ciento sería 50%) y que los sucesos son independientes (la moneda no tiene memoria).
0,5x0,5x...x0,5 diez veces, que como vimos el otro día es 0,5 a la décima potencia, algo menos de 0,001, muy poca ¿verdad? Por tanto, si alguien apuesta contigo que va a conseguir sacar diez caras consecutivas en diez lanzamientos, desconfía de la moneda, o juega, porque es muy probable que ganes.
Pero eso no elimina que se pueda dar, como se puede dar cualquier combinación de caras y cruces, de hecho cualquier serie concreta de caras y cruces en diez lanzamientos ¡es igual de improbable! Que algo sea muy probable, o muy improbable, no demuestra absolutamente nada.


6. Ojo a los totales y los relativos
Siempre debes preguntarte ¿cuál es el referente? ¿Cuál es el total que estamos considerando? Hay que vigilar que no estén considerándose datos absolutos de conjuntos que son muy diferentes.
Vemos un ejemplo en esta noticia sobre robos en España, nos encontramos que “por Comunidades, Andalucía y Cataluña encabezan la lista de regiones donde es más peligroso dejar la casa sin vigilancia, con alrededor de 75.000 allanamientos de morada anuales. Las menos peligrosas, Cantabria, La Rioja y las ciudades autónomas Ceuta y Melilla". Vaya, que causalidad, justamente las comunidades más pobladas son las más peligrosas y las menos pobladas, junto a las ciudades autónomas las más seguras ¿por qué será?
 
(El Pais, 19-6-2015)

No hay comentarios:

Publicar un comentario