Cuando abres una
web o un periódico te encuentras con números, proporciones, ratios,
coeficientes y probabilidades. En general es saludable que te hagas
preguntas y desconfíes, aunque los malos usos de la estadística no
son fruto de una conspiración para manipularte -no siempre. Lo más
probable es que provengan de la dejadez, de un error o de puro
desconocimiento. Te presentamos a continuación varias razones para
que aumente tu nivel de escepticismo.
1. La media
no siempre nos ayuda a entender lo que ocurre
Empecemos por el
centro. Cuando hay muchos datos en un estudio nos viene muy bien
conocer un dato central, una medida de “por dónde van las cosas”
para poder trabajar. El salario medio, la nota media, el precio de la
tele de plasma media… Un representante que nos haga saber
rápidamente a qué nos enfrentamos.
Estamos
habituados a usar la media como valor esperado, razonable, o deseado
de un conjunto de datos. Por ejemplo, si en un examen saqué un 6 y
en el otro un 8, y los dos eran igual de importantes parece razonable
que la nota final sea (6+8)/2, un 7, la media ¿verdad? Pero seguro
que si hoy yo me he comido un pollo entero al mediodía y tu no te
has comido ninguno, decir que en media cada uno nos hemos comido
medio pollo no es lo más razonable.
Tampoco
-aprovecho para decirlo- decir que el aprobado deba ser lo que está
justo en medio del 0 y el 10 es lo más razonable, sobre todo porque
parece querer compensar unos extremos demasiado extremos. Imagina que
en el exámen de conducir has girado perfectamente a la izquierda,
pero ninguna vez has conseguido hacerlo a la derecha, ¿eso es un 5?
La media se ve
muy influida por los valores extremos, como estamos viendo. Una
paradoja que viene de la media es que a poco que algún español
tenga menos de dos ojos (y alguno habrá), cada lector que está
ahora mismo fijando la vista en este texto y tenga sus dos ojos,
tiene más ojos que la media de los españoles. Es un hecho
matemático. Una verdad estadística.
2. Casi nunca
se tienen en cuenta las medidas de dispersión
Las medidas que
nos hablan del centro de los datos no deberían separarse de las que
nos hablan de su desviación, a saber, cuánto de alejados de ese
dato central están el resto de los datos.
La razón es
fácil de entender, volviendo al ejemplo de las notas de clase y
utilizando una vez más la media veamos un ejemplo muy extremo: no es
lo mismo que toda la clase haya sacado un 5 en un examen a que la
mitad de la clase tenga un cero patatero y la otra mitad tenga un
diez. Se suele utilizar la desviación típica, que tiene esta
fórmula:
No te asustes,
las calculadoras y las hojas de cálculo la saben hacer en un
pis-pas. En el ejemplo anterior la desviación era de 0 en el primer
caso (todas las notas coincidían con la media) y 5 en el segundo, ya
que esa es justamente la distancia de cada dato al dato central.
3. El exceso
de números en un artículo y la elección que se hace de ellos
Tendemos a
utilizar números para reforzar lo que estamos afirmando; es como
esos titulares que empiezan por “Científicos prueban…” o por
“Un matemático afirma…". Mi consejo -y eso me caer en la
paradoja de ser “un matemático que afirma”-, es desconfiar de
ellos. Y si bajamos un poco más al detalle tengo que confesarte que
mis amigos periodistas me han preguntado más de una vez por la
manera de decir un dato para que suene “más contundente”.
Veamos un
ejemplo: ¿qué es más “la mayoría”, “6 a favor y 5 en
contra”, el 54,5% o “por solo por un voto”? Imagina lector, que
en el ayuntamiento del Villabajo de Arriba ha salido elegido el
candidato X, con el voto a favor de 6 concejales de un total de 11
que tenía el ayuntamiento. Cualquiera de los titulares anteriores
son posibles, 6 de 11 es un 54,5% de los concejales, lo que te da la
mayoría.
En estas
estadísticas electorales se suele utilizar también la comparación
de los votos que ha recibido (supongamos un 40% de los emitidos) con
el total del censo del pueblo, esto es, si por ejemplo han votado un
60% de los villabajenses de arriba es fácil encontrar afirmaciones
del tipo “X tiene el apoyo de solo el 24% de los villabajenses” o
de menos de uno de cada cuatro, según sea la línea editorial.
4.
Correlación no implica causalidad
Miremos la
clasificación de la liga, los equipos que más goles
a favor han conseguido (columna GF) tienen más puntos, esto es
porque las medidas de goles a favor y puntos tienen correlación
positiva. Gráficamente se vería así:
Los dos puntitos
más a la derecha son el Madrid y el Barça, el más a la derecha es
el Barça porque ganó en puntos, el más alto es el Madrid porque
ganó en goles.
Este es un
ejemplo de dos variables que están fuertemente correlacionadas de
forma positiva. También hay correlaciones negativas, por no salir de
ejemplo futbolero, goles en contra y puntos tiene pinta de tener
correlación negativa. Pero mucho cuidado cuando nos presenten una de
estas gráficas en las que se observe correlación y alguien quiera
plantearnos que lo uno lleva a lo otro, tal vez no tengan ninguna
relación entre sí, o puede que sí que estén relacionados pero
ambos causados por otra razón
5. Dar algo
por cierto o por falso porque las probabilidades de que se dan son
muy altas o muy bajas
Hay varias
falacias asociadas a este hecho, y algunos casos famosos como el del
DNI
de la Infanta, pero para no extendernos demasiado
pongamos un ejemplo sencillo:
¿Cuál es la
probabilidad de que salgan 10 caras seguidas al lanzar una moneda no
trucada al aire? Teniendo en cuenta de que cada vez que lanzo la
moneda al aire la probabilidad es de 0,5 (sobre uno, en tanto por
ciento sería 50%) y que los sucesos son independientes (la moneda no
tiene memoria).
0,5x0,5x...x0,5
diez veces, que como vimos el
otro día es 0,5 a la décima potencia, algo menos de
0,001, muy poca ¿verdad? Por tanto, si alguien apuesta contigo que
va a conseguir sacar diez caras consecutivas en diez lanzamientos,
desconfía de la moneda, o juega, porque es muy probable que ganes.
Pero eso no
elimina que se pueda dar, como se puede dar cualquier combinación de
caras y cruces, de hecho cualquier serie concreta de caras y cruces
en diez lanzamientos ¡es igual de improbable! Que algo sea muy
probable, o muy improbable, no demuestra absolutamente nada.
6. Ojo a los
totales y los relativos
Siempre debes
preguntarte ¿cuál es el referente? ¿Cuál es el total que estamos
considerando? Hay que vigilar que no estén considerándose datos
absolutos de conjuntos que son muy diferentes.
Vemos un ejemplo
en esta
noticia sobre robos en España, nos encontramos que
“por Comunidades, Andalucía y Cataluña encabezan la lista de
regiones donde es más peligroso dejar la casa sin vigilancia, con
alrededor de 75.000 allanamientos de morada anuales. Las menos
peligrosas, Cantabria, La Rioja y las ciudades autónomas Ceuta y
Melilla". Vaya, que causalidad, justamente las comunidades más
pobladas son las más peligrosas y las menos pobladas, junto a las
ciudades autónomas las más seguras ¿por qué será?
(El Pais, 19-6-2015)
No hay comentarios:
Publicar un comentario