Ilustración: Leo Camus

¿Podemos confiar en la desigualdad que nos muestra la Casen?

TEMAS: , , , ,

La columna disecciona la estrategia que usa la encuesta CASEN 2020 para determinar los sueldos y salarios de los chilenos. Dado que no todos contestan, la CASEN usa supuestos para completar la información. Los autores sugieren que los supuestos empleados pueden estar haciendo que los pobres parezcan menos pobres de lo que son y los ricos, menos ricos. “Si no transparentamos los supuestos que los analistas están dispuestos a creer, transmitimos un mensaje erróneo: que existe una manera objetiva de interpretar la evidencia”, afirman.


La Encuesta de Caracterización Socioeconómica Nacional (CASEN) se ha aplicado desde 1987 [1]. Su importancia se deja ver al repasar sus objetivos, entre los que destacan, conocer la situación de pobreza por ingresos de las personas y los hogares, y estimar cobertura, focalización y distribución del gasto fiscal de los principales subsidios monetarios de alcance nacional[2].

En su última versión, la Encuesta CASEN en Pandemia 2020, tuvo dos etapas: un pre-contacto presencial, para la obtención de teléfono de contacto, y luego la aplicación telefónica en cuestionario asistido por computador. En zonas aisladas, el estudio se realizó presencialmente.

En la etapa de pre-contacto, la tasa de respuesta alcanzó el 86,9%, lo que correspondió a 86.189 viviendas, mientras que, en la etapa de aplicación, la tasa de respuesta fue del 72,6%, correspondiente a 65.240 viviendas de las contactadas previamente[3].

La encuesta CASEN en Pandemia distingue dos grupos: los trabajadores ocupados y los perceptores de jubilación y pensiones. El primer grupo se divide, a su vez, en trabajadores asalariados y trabajadores independientes, mientras que el segundo grupo se divide en personas que recibieron ingresos por jubilación o pensión de vejez con Aporte Previsional Solidario y personas que recibieron ingresos por Jubilación o Pensión de Vejez con edad mayor o igual a 37 años.

Centremos nuestra atención en las respuestas que 45.642 encuestados que son considerados dentro de la categoría asalariados, es decir, en aquellos que respondieron “sí” o “no sabe” a la pregunta:

En [mes pasado] [año], ¿cuál fue su sueldo o salario líquido en su trabajo principal?

De acuerdo con la información publicada por la Encuesta CASEN, podemos decir que la media del ingreso de los asalariados asciende a $653.327, con una desviación estándar igual a $685.962. Esto indica que la media no es una buena “medida resumen” del ingreso (ver una explicación didáctica de esto en el Recuadro 1) y que es más conveniente describir la distribución del ingreso de los asalariados por medio de los cuantiles de dicha distribución:


Tabla 1

 Cuantiles de la distribución del ingreso de acuerdo con la información publicada por la CASEN

Porcentaje5%10%25%50%75%90%95%99%
Cuantil160.000242.000320.000420.000750.0001.300.0001.800.0003.500.000

Fuente: Casen 2020


La tabla muestra que el 5% de los asalariados tiene un ingreso a lo más igual a $160.000, mientras que el 10% de los asalariados tiene un ingreso a lo más igual a $242.000.

En el otro extremo, el 5% superior de los asalariados tiene un ingreso a lo menos igual a $1.800.000 y el 1% superior de los asalariados tiene un ingreso al menos igual a $3.500.000.

Estas cifras no dejan de sorprender. Indican una distribución del ingreso profundamente asimétrica que manifiesta enormes brechas. Gráficamente, la distribución del ingreso se representa por medio de la curva de la Figura 1, la que contiene la información de los cuantiles. La pendiente de la curva es muy pronunciada, lo que significa que a medida que aumenta el porcentaje de asalariados, no hay aumentos “abruptos” de los ingresos máximos correspondientes. (Para entender cómo interpretar una función de distribución acumulada, ver Recuadro 2).


“Las personas del primer decil pueden ser más pobres y las del último decil más ricas que lo que se puede deducir a partir de la CASEN”


Sin embargo, la distribución del ingreso que publica la Encuesta CASEN no es solo un reflejo de los datos recolectados, sino de los datos combinados con un supuesto que CASEN ha hecho a fin de imputar los ingresos de las personas que no reportaron su salario[4]. Imputar significa atribuir un salario a una persona que no quiso reportar su salario. En el grupo de los asalariados, un 11,45% no reportó su ingreso. Por lo tanto, la evidencia recolectada por la Encuesta CASEN corresponde a la distribución del ingreso bajo la condición que el encuestado reveló su ingreso. Dicho en simple, los datos recolectados por la Encuesta CASEN sólo nos informan cómo se distribuye el salario de quienes contestaron. Sin embargo, lo que se requiere conocer es la distribución del ingreso de todos los asalariados.


Figura 1

Distribución del Ingreso de los Asalariados

Fuente: elaboración propia a partir de la Encuesta Casen 2020

Es claro que no es posible conocer el ingreso de los que no reportaron su ingreso. Ciertamente se pueden hacer supuestos para estimarlo. CASEN utiliza un procedimiento, denominada imputación por medias. Consiste en asignarle a la persona que no respondió la encuesta un ingreso similar al que tienen personas que viven en su misma área, están en su rango edad, tiene la misma escolaridad, entre otras características[5].

Pero estos detalles técnicos, que incluso pueden ser estadísticamente más sofisticados, no deben distraernos del significado conceptual del supuesto que subyace a este tipo de técnicas de imputación: se supone que el ingreso es homogéneo con respecto a ciertas clases de personas que se caracterizan por las variables anteriormente mencionadas.

Este supuesto es una creencia que CASEN tiene de la realidad del ingreso y por tanto no refleja la realidad. Así, la distribución del ingreso de todos los asalariados que publica CASEN y que muchos usan para describir la realidad de la distribución del ingresocorresponde a una combinación de evidencia (los datos) y una creencia que CASEN tiene de esa realidad. Insistamos que dicha creencia no es posible testearla empíricamente pues es un supuesto que involucra a los que no reportaron su ingreso.

¿Qué impacto tiene la tasa de no respuesta sobre la distribución del ingreso de todos los asalariados? ¿Es realmente un factor crítico?

Dicho de otra manera, si consideramos la distribución del ingreso que CASEN nos proporciona (ver Tabla1), podemos decir que “el primer decil más pobre percibe un salario a lo más igual a $240.000”. Ahora, si consideramos la tasa de no respuesta, ¿los más pobres aparecerán igualmente pobres?

Del mismo modo, si consideramos el decil más rico y usamos la distribución del ingreso tal y como la reporta la CASEN, podemos decir que “el decil más rico perciben un ingreso a lo menos igual a $1.300.000”. Pero, si consideramos la tasa de no respuesta, ¿los más ricos aparecerán igualmente ricos, menos ricos o más ricos? Pues bien, creemos que resulta necesario entender cómo se puede integrar la tasa de no respuesta a la hora de reportar el ingreso de todos los asalariados. Para ello requerimos una operación aritmética que nos permita relacionar la proporción de ingreso de una población con las proporciones de ingreso de subgrupos de dicha población. Este es un resultado clave y, creemos, intuitivo. (Ver cápsula 1)


CAPSULA 1


El ejercicio descrito en la cápsula 1 muestra que no es posible reportar un solo valor para todos los asalariados sino un intervalo de proporciones plausibles. Es decir, solo podemos construir dos límites entre los cuales están todas las distribuciones del ingreso de los asalariados: los llamaremos cota inferior y cota superior.

 La Figura 2 muestra estos límites, los que definen una región de todas las posibles distribuciones del ingreso de los asalariados. Esto significa que no hay una sola distribución de los asalariados que se puede construir, sino una infinidad. Este es el valor de la Figura 2. En particular, la distribución del ingreso que CASEN construye con su supuesto de homogeneidad de salarios está entre estas dos cotas, como lo muestra la Figura 3. Por tanto, la solución a los datos faltantes propuesta por CASEN es una de las mucha posibles soluciones.


Figura 2

Región de todas las posibles distribuciones del ingreso de los asalariados.

Fuente: elaboración propia a partir de la Encuesta Casen 2020

Pero esta solución de CASEN esconde algo. Nuestro interés es, por ejemplo, conocer el primer decil de ingreso y el último decil de ingreso. La tasa de no respuesta implica que es posible solo conocer los deciles que están entre 11,45% (la tasa de no respuesta) y 88.55% (la tasa de respuesta). Cuantiles menores a la tasa de respuesta o mayores a la tasa de respuesta no los podemos conocer, sino solo proporcionar un intervalo de posibles ingresos. Así entonces tenemos las siguientes conclusiones[6]:

  • Todos los cuantiles menores a la tasa de no respuesta son al menos igual a $1.200 y a lo más igual a $265.000. Esto significa que las personas del primer decil pueden ser más pobres que lo que se puede deducir de CASEN al estar dispuesto a creer en su hipótesis de homogeneidad de salario.
  • Todos los cuantiles mayores que la tasa de respuesta son al menos igual a $1.100.000 y a lo más igual a $2.500.000. Esto significa que las personas del último decil pueden ser más ricas que lo que se puede deducir de CASEN al estar dispuestos a creer en su hipótesis de homogeneidad salarial.

Figura 3

Distribución del ingreso de los asalariados de acuerdo con el método de imputación de la CASEN

Fuente: elaboración propia a partir de la Encuesta Casen 2020

CONCLUSIONES

¿Qué aprendemos de esta disección de la CASEN? Que la tasa de no respuesta induce una incerteza inherente que puede soslayarse si se supone (de manera no empírica) algo de la realidad que se estudia. De hecho, hemos ilustrado que la incerteza inducida por la tasa de no respuesta no puede disminuirse con solo los datos; requieren supuestos, y CASEN ha escogido uno de ellos.

De ahí, entonces, que la discusión de política pública nunca debe entenderse como una discusión sobre datos únicamente (y lo que le está aparejado como son la precisión de los estimadores, el diseño muestral, los factores de expansión), sino preferentemente sobre aquello que estamos dispuestos a creer acerca de la población de interés.


“La discusión de política pública nunca debe entenderse sólo como una discusión sobre datos, sino preferentemente sobre aquello que estamos dispuestos a creer acerca de la población de interés”.


Pero para poder constatar el impacto que tienen los supuestos no empíricos sobre las conclusiones y recomendaciones de política pública, resulta conveniente reportar los resultados, junto al impacto que sobre los mismos implica la tasa de no respuesta: esto y solo esto permite constatar la fuerza lógica del supuesto, poniendo en cuestión el que se trate de pura investigación empírica.

Es más, de esta manera podremos evaluar en qué grado las recomendaciones de política pública son más bien un reflejo de los supuestos que los analistas están dispuestos a creer, y no de la así llamada evidencia. Si no transparentamos esos supuestos, transmitimos un mensaje erróneo, a saber, que existe una manera objetiva de interpretar la evidencia. Siguiendo la terminología de Pielke (2007), esto se acerca peligrosamente a la abogacía, esa actitud científica que se esfuerza por construir un argumento teniendo ya elegida la conclusión. Al contrario, la investigación empírica tiene ahora un mayor desafío: analizar los datos bajo distintos escenarios. Es lo que Pielke llama el intermediario honesto de alternativas de política pública y que nosotros, usando las técnicas aquí expuestas, podemos presentar como herramientas para la investigación empírica.


RECUADRO 1

Media y Desviación Estándar

Es bastante probable que si preguntamos qué es el promedio de los ingresos de los asalariados, se responda diciendo que el promedio corresponde a sumar los ingresos y dividirlos por el número de personas que reportaron su ingreso. Sin embargo, desde un punto de vista estadístico, esta respuesta es incorrecta. Para entender el significado estadístico de la media, hay que comenzar diciendo que cuando se tiene un conjunto de datos, se busca un único representante que los resuma. Dicho resumen se define de acuerdo con un criterio determinado llamado error cuadrático medio y que básicamente corresponde a la distancia que hay entre los datos y dicho representante. Pues bien, la media es el representante que hace más pequeño el error cuadrático medio. La desviación estándar esencialmente corresponde a la magnitud del error cuadrático medio. Es por ello que siempre deben reportarse conjuntamente la media y la desviación estándar e interpretarse conjuntamente: más “pequeña” es la deviación estándar, “mejor” representante de los datos es la media; o, más “grande” e la deviación estándar, la media es un “mal” representante de los datos.


RECUADRO 2

 Función de Distribución Acumulada

La figura representa una función de distribución acumulada del salario. Para interpretarla, consideremos el punto azul, que corresponde a un salario de $491.000. La función de distribución acumulada nos permite conocer el porcentaje de asalariados que percibe a lo más $491.000. Para ello, trazamos una recta perpendicular al eje x, desde el punto azul hasta intersectar con la gráfica de la distribución, y luego trazamos una recta paralela al eje x hasta intersectar el eje y. En este ejemplo, dicha intersección se logra en 0.4. Por lo tanto, podemos decir que la “Proporción de trabajadores/as que reporta un salario a lo más igual a $491.000 es igual al 40%”.



También es posible hacer la siguiente pregunta: si fijamos el porcentaje de asalariados, por ejemplo, el 80% (que en la figura corresponde a 0.8), ¿cuál es el salario máximo que perciben? Para ello, se traza una recta paralela a eje x hasta intersectar la gráfica de la distribución y luego se traza una línea perpendicular al eje x hasta intersectarlo: dicha intersección se logra en $528.000. Por lo tanto, podemos decir que “El salario máximo que reporta el 80% de los trabajadores es igual a $528.000”. Nótese que también es posible decir que “El salario mínimo que reporta el 20% de los trabajadores es igual a $528.000”.

NOTAS Y REFERENCIAS

[1] Se ha aplicado en los años 1987, 1990, 1992, 1994, 1996, 1998, 2000, 2003, 2006, 2009, 2011, 2013, 2015, 2017 y 2020.

[2] Los objetivos declarados de la encuesta son: Conocer la situación de pobreza por ingresos de las personas y los hogares, así como la distribución del ingreso de los hogares; Identificar carencias de la población en las áreas de educación, salud, vivienda, trabajo e ingresos; Evaluar brechas de pobreza por ingresos y carencias entre distintos grupos de la población como niños, niñas y adolescentes; jóvenes; personas mayores; mujeres; pueblos indígenas; migrantes; entre otros; Evaluar brechas de pobreza por ingresos y carencias entre zonas urbanas y rurales, y entre territorios; Estimar cobertura, focalización y distribución del gasto fiscal de los principales subsidios monetarios de alcance nacional entre los hogares, según su nivel de ingreso, para evaluar el impacto de este gasto en el ingreso de los hogares y en la distribución del mismo. Para más detalles, ver sección Descripción y Objetivos de la encuesta.

[3] Para detalles, ver Nota técnica N7: Desempeño del Trabajo de Campo, Casen en Pandemia, en sección Notas Técnicas 2020.

[4] Los datos imputados por la Encuesta CASEN son aquellos casos que declararon sí haber recibido sueldo, pero el mismo no fue reportado; además, se imputó el sueldo de aquellas personas que declararon no saber si percibieron suelo.

[5] La imputación por medias consiste en asignar a cada dato faltante el promedio de los ingresos observados que tienen una gran similitud con la persona que no reportó su ingreso. La similitud es operacionalizada usando las siguientes variables: Ubicación geográfica de su domicilio (región, comuna); Tramo de edad: de 15 a 24 años inclusive; de 25 a 44 año; de 45 a 64 años; de 65 y más años; Sexo; Nivel educativo alcanzado, dividido en cinco tramos: hasta 3 años de educación inclusive; de 4 a 7 años; de 8 a 11; 12 años; y 13 o más años de educación; Categoría de la ocupación principal; Clase de actividad del establecimiento en el que trabaja por su ocupación principal (excepto para empleados de las fuerzas armadas); Tipo de ocupación desempeñado en su ocupación principal (excepto para empleados de las fuerzas armadas y patrones). Para detalles, ver el Anexo 1, Metodología de la Corrección por no respuesta (p.43 del documento Medición de los ingresos y la pobreza en Chile, Encuesta CASEN 2020).

[6] Para las demostraciones formales, ver San Martín & González (2021)

 

Referencias

Manski, C. (2007). Identification for Prediction and Decision. Harvard University Press.

Manski, C. (2013). Public Policy in an Uncertain World. Analysis and Decision. Harvard University Press

Pielke, R. (2007). The Honest Broker. Making Sense of Science in Policy Analysis. Cambridge University Press.

3 comentarios de “¿Podemos confiar en la desigualdad que nos muestra la Casen?

  1. Pingback: ¿Quién crece cuando Chile crece? – Tercera Dosis

  2. Pingback: PODCAST: La “caja de Pandora” que esconden las encuestas – Tercera Dosis

  3. Pingback: PODCAST: La “caja de Pandora” que esconden las encuestas. Ernesto San Martín. Fuente: Tercera Dosis. – Millenium Nucleus MOVI

Deja un comentario