En el último post publiqué un cálculo de cuáles fueron los ingresos medios en España en 2007 a partir de las declaraciones del IRPF de aquel año. El resultado, 17.116€, debe ser algo inferior a los ingresos medios reales, debido a los efectos de las deducciones que se aplican a la hora de calcular la declaración de la renta (ver NOTA en dicho post).
En este post, sin embargo quiero usar aquellos datos para poner un ejemplo de media, mediana y moda, como epílogo a un comentario de otro post que publiqué la semana pasada (sobre como unos datos de ingresos en EE.UU. se reflejaban en un periódico) y una conversación con un compañero de trabajo.
Usaré la siguiente gráfica, que resume el post anterior:
En la gráfica se puede ver:
- la cantidad de declarantes por cada tramo de renta (columnas en gris),
- la “media” de ingresos calculada para cada tramo (líneas negras)
- la media de ingresos del total de declarantes (línea roja), 17.116€.
- la “moda” de ingresos, esto es, el dato que más se repite, y que a falta de más datos cogeríamos la media del tramo donde más declarantes hay, i.e., 11.755€ (línea negra gruesa).
- la “mediana” que se encuentra en el percentil 50 y separa la mitad de declarantes que más ingresos declara de la mitad que menos ingresos declara, en este caso y a falta de más datos dentro de cada tramo, de nuevo habría que asimilarla a la media del tramo donde más declarantes hay, i.e., 11.755€. (Por encima de ese tramo, 12-21k€, declaran 6,2 millones de personas y por debajo 7,3 millones).
Luego en España, en 2007, y dado que la media del total de declarantes (17.116€) es bastante superior que la mediana (11.755€), aun estando ambas dentro del mismo tramo (12-21k€ – ver NOTA del post anterior), más de la mitad de los declarantes obtuvieron ingresos por debajo de la media (posiblemente la cifra estuvo en torno al 60%).
Si no tienes los datos, no puedes saber la moda ni la mediana. Ni siquiera si se aproximan a los valores que has marcado, no?
El valor exacto no. El de la mediana sí tiene que estar en el tramo señalado, pues en ese tramo se encuentra el percentil 50. La moda… en puridad podría estar en cualquier tramo, es decir, es decir que aunque la mayor parte de declarantes estén en el tramo 12-21k€ no declaran una misma cifra con todos sus dígitos (ej. 13.237€), y la cifra con todos sus dígitos más repetida puede encontrarse en otro tramo (ej. 23.453€) y esa sería la moda.
Pero en casos donde falta info detallada por moda se coge el intervalo de mayor proporción y mediana: se interpola, o se coge la media dentro de un intervalo central, etc.