Carta respuesta de Ernesto San Martín a Gonzalo Mena sobre las encuestas y la posibilidad de generar «muestras representativas»

TEMAS:

“En efecto: las muestras representativas no existen”, afirma Ernesto San Martín. Usando ejemplos prácticos, explicita conceptos estadísticos que permitirían entender la incerteza que caracteriza a las encuestas CADEM, CEP y Pulso Ciudadano, y por lo tanto el por qué sus resultados “no son confiables”.


Resulta estimulante poder discutir, en el ámbito público, un tema con alto impacto, como el de las llamadas muestras representativas. En una reciente carta publicada en este medio, Gonzalo Mena pone en duda la afirmación que las muestras representativas no existen. Ante ello, me solicita un plan alternativo a esa falta de representatividad que observo en las encuestas como CADEM, CEP o Pulso Ciudadano; y para ello me y nos refresca la memoria con una serie de textos clásicos que usan el término muestra representativa. Pues bien, para poder leer críticamente tanto dichos textos, como los argumentos de Gonzalo, es necesario ilustrar un aspecto clave de la Estadística, a saber, la inferencia inductiva, cosa que Gonzalo recuerda muy bien en la mentada carta, de modo de establecer la no existencia de dichas muestras.

Vamos a argumentar por medio de un ejemplo, que nos permitirá integrar a nuestro acervo los conceptos de probabilidad condicional y ley de probabilidades totales. Sin estas herramientas, es casi imposible expresar con exactitud lo que es la inferencia inductiva (al menos en términos estadísticos), así como entender cuál es el objetivo de las muestras. Para ello usaremos cálculo de proporciones y suma de fracciones. Estoy seguro que toda y todo lector pueden seguir los argumentos, y así poder ser ciudadanos (más) críticos de las encuestas como CADEM, CEP, Pulso Ciudadano y tantas otras. Una invitación similar ya ha sido hecha antaño, cuando Arbuthnot traduce al inglés uno de los primeros tratados de cálculo de probabilidad, el De Ratiocinii in Ludo Aleae de C. Huygens, publicado en latín en 1656:

Nada se requiere para la comprensión de todo [el tratado], sino sentido común y aritmética práctica; salvo algunos toques de álgebra, como en las primeras tres proposiciones, donde el lector, sin que lo sospechemos Papista, puede hacer uso de una fuerte fe implícita, aunque debo confesar que para estos propósitos no me es muy recomendable; preferiría de hecho que el lector indagara, pues creo que encontrará esta especulación no desagradable[1].

Sospechoso de Papista, es decir, sospechoso de aceptar argumentos por autoridad, adhiriendo solo fe. Como antaño, motivo a lectores y lectores a seguir los argumentos y juzgar por sí mismos.

Ejemplo, parte 1: cuando toda la información es observada

Encuestamos a una población de interés compuesta por 70 personas: de ellas, 45 declaran que votarán apruebo el próximo 4 de septiembre, mientras que 25 declaran que votarán rechazo. El espacio muestral (concepto probabilístico) está compuesto por las etiquetas de estas 70 personas; estas etiquetas pueden ser los nombres de cada persona o algún número correlativo que se le otorga; se espera que dicha etiqueta permita salvaguardar la identidad del encuestado a fin de respetar su privacidad[2]. Además, conocemos el sexo biológico de las y los participantes: 40 son hombres y 30 son mujeres. La Figura 1 resume esta información.

Todo aquí es conocido; de ahí que podemos calcular la proporción de personas cuya intención es votar apruebo, así como las que declaran que su intención es votar rechazo:

donde  P(apruebo) se lee “la proporción de personas cuya intención es votar apruebo”. De hecho, puede leerse así: “la probabilidad de intención de voto apruebo”[3].

Figura 1

Elaboración del autor

Este ejemplo nos permitirá recordar algunos conceptos clave que serán útiles para mostrar que no existen las muestras representativas (y de paso, como ya lo hemos dicho, leer esos clásicos críticamente). Podemos calcular las proporciones de apruebo y rechazo bajo ciertas condiciones: entre los 40 hombres, hay 25 que tiene la intención de votar apruebo. Esto lo escribimos de la siguiente manera:

Y lo leemos así: condicionalmente a que los encuestados son hombres (denotados por H), la proporción de la intención de voto apruebo es igual a 25/40. De manera similar, entre las 30 mujeres (denotadas por M), se tiene que:

Esto es, condicionalmente a que los encuestados son mujeres, la proporción de la intención de voto apruebo es igual a 20/30.

También podemos reportar la proporción de hombres encuestados y de mujeres encuestadas:

El punto relevante aquí es que se puede relacionar la proporción de apruebo a nivel poblacional con las proporciones de apruebo condicionales al sexo biológico. Para ello, miremos con atención la siguiente descomposición:

Como las y los lectores pueden constatar, las 45 intenciones de votar apruebo se descompusieron entre las 25 intenciones de apruebo de los hombres, y las 20 de las mujeres. Luego, se incorporaron el total de hombres y el total de mujeres, para luego obtener una suerte de suma ponderada de proporciones condicionales.

Esta es la Ley de Probabilidades Totales: la probabilidad de una variable de interés (en el ejemplo, la intención de voto el próximo 4 de septiembre) se puede descomponer en una suma de probabilidades condicionales (en el ejemplo, condicionalmente al sexo biológico de los encuestados), con tal que la variable que define esa condición induzca una partición sobre el espacio muestral de interés. Es más: no hay una forma única de realizar esta descomposición, pues hay muchas posibles particiones de un espacio muestral. En nuestro ejemplo, el conjunto de las personas encuestadas podría clasificarse con respecto al grupo etario, al nivel educacional, el tipo de transporte que utilicen (bicicleta, transporte público, automóvil); e incluso con respecto a una combinación de estas particiones o clasificaciones, como por ejemplo hombres que usan bicicleta, hombres que usan transporte público, hombres que usan automóvil, mujeres que usan bicicleta, mujeres que usan transporte público, mujeres que usan automóvil.

Resumiendo, este ejemplo nos advierte sobre la necesidad de explicitar el espacio muestral a partir del cual estamos razonando. En el caso de las encuestas de opinión, es importante declararlo: ¿se trata de toda la población de ciudadanos? ¿o solo aquellos que están afiliados a alguna plataforma online? ¿o ciudadanos que previamente han expresado su interés por participar de una encuesta? En relación al término muestra representativa, es importante especificar qué espacio muestral se supone que dicha muestra representa.

En segundo lugar, este ejemplo nos proporciona una herramienta clave de modelamiento estadístico, a saber, la Ley de Probabilidades Totales: toda distribución de probabilidad de una variable de interés siempre se podrá descomponer con respecto a una o varias variables que induzcan particiones o clasificaciones de las unidades estadísticas de un determinado espacio muestral[4]. Esta herramienta nos permitirá mostrar en qué consiste el problema de inducción estadística, y cómo podría definirse una muestra representativa, lo que mostrará que la misma no puede existir[5].

Ejemplo, parte 2: cuando hay información que no se observa

Vamos a suponer ahora que se encuestaron telefónicamente 70 personas, pero solo 11 de ellas accedieron a revelar su intención de voto para el próximo 4 de septiembre, proporcionando además información acerca de su sexo biológico. De ellas, 6 declararon que votarán apruebo, mientras que 5 votarán rechazo. Las restantes personas no quisieron responder la encuesta. La Figura 2 ilustra esta situación, representado a este último grupo -el que no responde- con un círculo que contiene 4 diámetros.

Figura 2

Fuente: elaboración del autor

¿Qué nos releva esta encuesta? Primero es necesario explicitar el espacio muestral, que en este caso está dado por los números de celular de estas personas. ¿Por qué el número celular? Porque se supone que la encuesta es anónima y, por ejemplo, CADEM llama a números celulares sin revelar la identidad de las y los contactados.

Este conjunto de celulares se puede dividir en dos subconjuntos: los que respondieron la encuesta y los que no la respondieron. Definimos una variable C que toma dos valores: C=1 si la persona asociada a un celular responde la encuesta, y C=0 si no la responde. Así, entonces, esta encuesta nos permite calcular la tasa de respuesta y la tasa de no respuesta:

Además, podemos calcular la proporción de apruebo solo entre aquellos que respondieron la encuesta:

Pero no es posible calcular la proporción de apruebo entre aquellos que no respondieron la encuesta, lo que denotamos por P(apruebo |C=0). La razón de esto se debe simplemente al hecho de que dichas personas no proporcionaron su intención de voto. Lector, lectora: observe la Figura 2, y trate de decir cuál es la intención de voto de las personas representadas por el círculo: simplemente no se sabe.

Pero hay más: dado que la variable C induce una partición sobre el conjunto de personas asociadas a los celulares, entonces por la Ley de Probabilidades Totales podemos decir que:

Esta igualdad nos permite concluir que tampoco podemos calcular la proporción de apruebo P(apruebo) entre las 70 personas contactadas.

Es más, la igualdad anterior nos permite enunciar el problema de inferencia inductiva: conocer el todo, a saber, la proporción de apruebo P(apruebo) con respecto a todas las personas contactadas, a partir de la parte, a saber, la proporción de apruebo  P(apruebo |C=1) entre aquellas personas que respondieron la encuesta. Dado que no conocemos la proporción de apruebo P(apruebo |C=0) entre las personas que no respondieron la encuesta, es imposible conocer con certeza la proporción de apruebo entre las 70 personas seleccionadas para responder la encuesta a partir de las respuestas que proporcionaron las 11 personas que accedieron a responder.

Pero es posible cuantificar la incerteza de conocer el todo a partir de la parte. Una manera de cuantificarla es diciendo que los resultados de la encuesta nos permiten decir que al menos 6 personas de las 70 seleccionadas declaran la intención de votar apruebo, y a lo más 65 de las 70 declaran la misma intención. Esta forma de reportar la inferencia inductiva explicita la incerteza de dicha inferencia: en una escala de 0 (incerteza nula) a 1 (incerteza absoluta), en nuestro ejemplo la incerteza es igual a 0.84, cifra que corresponde precisamente a la tasa de no respuesta.

Basta mirar nuevamente la Figura 2: aunque las encuestas como CADEM, CEP o Pulso Ciudadano insistan que sus muestras son representativas, es imposible conocer la intención de voto de aquellos que no contestaron la encuesta a partir de la intención de voto de aquellos que contestaron la encuesta. La lectora o el lector pueden tratar de adivinar lo que cada círculo representa tanto en intención de voto, como en sexo biológico: simplemente no es posible ser objetivo en esto, sino solo manifestar una mera creencia subjetiva.

¿Existen las muestras representativas?

Ahora podemos responder esta pregunta. Primero, es necesario explicitar el espacio muestral, esto es, el conjunto de las unidades estadísticas sobre las que interesa hacer inferencia inductiva. En el caso de las encuestas de opinión política, ¿cuál es el espacio muestral? ¿Es el conjunto de todos los ciudadanos mayores de 18 años? ¿Es el conjunto de los elegibles de acuerdo a ciertas condiciones? ¿Es el conjunto de los seleccionados para responder una encuesta? Es relevante identificar claramente el espacio muestral pues las muestras son subconjuntos de dicho espacio muestral.

Una vez identificado el espacio muestral, definimos una variable de interés que denotamos por Y. Ejemplos de esta variable son los siguientes: la intención de voto el próximo 4 de septiembre, el ingreso de un asalariado; si es portador de VIH; etc. Por otro lado, definimos una variable Z tal que  Z=1 si una unidad estadística que pertenece al espacio muestral fue seleccionada para ser parte de una muestra, y Z=0 si no fue seleccionada. Si suponemos que todas las unidades estadísticas de la muestra acceden a responder una encuesta, entonces conocemos la distribución de probabilidad de la variable de respuesta Y entre aquellas unidades estadísticas que forman parte de la muestra, la que está dada por:

Pero el objetivo es conocer la distribución de probabilidad de la variable Y con respecto a todo el espacio muestral, lo que está representado por:

Una muestra sería representativa si el todo fuese representado por la parte, esto es, si:

En otras palabras, que la información (en términos probabilísticos) que podemos obtener a partir de la muestra representa la información de la población de interés. Pero por la Ley de Probabilidades Totales sabemos que:

luego, si el todo fuese representado por la parte, necesariamente:

esto es, que la distribución de probabilidad que se conoce a partir de las unidades estadísticas muestreadas coincide con la distribución de la variable de interés entre las unidades estadísticas no muestreadas y, por tanto, no observadas. Ciertamente es imposible verificar empíricamente esta afirmación pues simplemente no se conoce la distribución de la variable de interés entre las unidades estadísticas no observadas. Nótese además que si esta igualdad no empírica se acepta, no es necesario especificar el espacio muestral pues no será necesario calcular P(Z=0)[6].

¿Existen las muestras representativas? La respuesta es no.

Saquemos consecuencias de los argumentos anteriores:

  1. La noción de muestra representativa es contradictoria con la tarea estadística de realizar inferencias inductivas: hacemos inferencias inductivas porque queremos conocer con incerteza el todo a partir de una parte (la muestra). Queremos conocer el todo precisamente porque no lo conocemos: solo si lo conociésemos podríamos asegurar que una muestra es representativa. 
  2. Por tanto, usuarios de la estadística, es necesario que sepan que no existe técnica o tecnología estadística que permita asegurar que la distribución de probabilidad de una variable de interés entre unidades estadísticas observadas coincide con la distribución de dicha variable entre todas las unidades estadísticas del espacio muestral y, en particular, entre las no observadas.
  3. Es por ello que un reporte estadístico se caracteriza por explicitar la incerteza de las inferencias inductivas realizadas. De no ser así, no es estadístico.
  4. Lo que estamos haciendo, tanto desde LIES como desde el Núcleo Milenio MOVI, es mostrar la incerteza que subyace a las encuestas CADEM, CEP y Pulso Ciudadano. Y la conclusión es que dichas encuestas no son confiables toda vez que intentan transmitir que los resultados que reportan en relación a la intención de voto de apruebo o rechazo a partir de sus encuestados representa la opinión de todos los ciudadanos y ciudadanas del país.
  5. Los partidos políticos ciertamente deben tener sus legítimas opiniones en torno a la Nueva Constitución; es más, deben manifestar dichas opiniones en el espacio público, en el que existe la libertad para discutirlas. Pero si hay partidos políticos, o políticos individuales, que toman decisiones porque creen que las encuestas CEP, CADEM y Pulso Ciudadano son confiables, si toman decisiones asumiendo que dichas encuestas son científicamente sólidas, entonces cometen un error: esas encuestas no están manifestando la opinión de la ciudadanía pues no existen las muestras representativas. La invitación (alternativa la llama Gonzalo en su carta) es aprender a opinar (vivir) con incertezas: esa es la invitación que hacemos a los usuarios de la estadística.
  6. Algunas conclusiones más técnicas:
    1. 1 Es necesario releer esos 150 años de historia del término muestra representativa con rigor probabilístico: revisitar esos trabajos para, como decía Arbutnot hace mucho tiempo, no ser sospechosos de Papismo. Una lectura así nos permitirá algún progreso científico.
    1. 2 Es necesario revisitar los cálculos de errores muestrales. Si se hacen correctamente, ateniéndose al diseño muestral elegido, entonces los mismos son solo válidos condicionalmente al conjunto de unidades estadísticas seleccionadas.

NOTAS Y REFERENCIAS

[1] En el prefacio de Of The Laws of Chance or, A method of Calculation of the Hazards of Game, Plainly demonstrated, and applied to Games at present most in Use. London, printed by Benj. Motte, 1692.

[2] Más precisamente, el espacio muestral es un conjunto cuyos elementos son las unidades estadísticas que caracterizan una población de interés. Por ejemplo, supongamos que nos interesa conocer el ingreso de los asalariados de la Región Metropolitana. En este caso, el espacio muestral será el conjunto de todos los asalariados: cada asalariado será, por ejemplo, identificado con un número correlativo y, por lo tanto, el espacio muestral será el conjunto de dichos números: {1,2,…,2345123}, suponiendo que hay 2.345.123 asalariados; esos números los llamamos etiquetas. Hay que hacer notar que esto supone que se conoce el total de asalariados, lo que permite especificar correctamente este espacio muestral. Una muestra de asalariados será un subconjunto del espacio muestral. Supongamos que extraemos una muestra de 5 asalariados, cuyas etiquetas son las siguientes: S={4,523,105697,745628,1235602}. La variable de interés es el nivel de salario. Estrictamente hablando, dicha variable es una función definida sobre S y que toma valores en el conjunto de posibles salarios. Así, por ejemplo el salario del asalariado cuya etiqueta es 105697 corresponde a Y(105697), esto es, la función Y evaluada en la etiqueta 105697. Ciertamente, Y(105697) corresponde a un determinado valor, por ejemplo, $450.000. Cuando se consideran estas definiciones se puede apreciar lo delicado que resulta “tomar una muestra” pues es necesario explicitar el tamaño del espacio muestral, de donde se extraerán las muestras.

[3] Con respecto al espacio muestral de este ejemplo, estas proporciones efectivamente definen una función de probabilidad pues satisfacen los Axiomas de Kolmogorov. Estos axiomas enfatizan la sintaxis que deben satisfacer ciertos objetos matemáticos, en particular la función de probabilidad. Es sabido que la semántica del concepto de probabilidad es un debate permanente y que suele clasificarse, al menos, en cuatro escuelas: la frecuentista (Neyman), la Bayesiana (De Finetti), la logicista (Carnap), la propensivista (Popper), pero todas aceptan los axiomas de Kolmogorov (al menos en relación a un espacio de probabilidad finito).

[4] Simbólicamente, si Y corresponde a una variable de interés, y X corresponde a un vector de variables (por ejemplo, sexo biológico, tendencia política, nivel educacional, nivel socioeconómico), ambas definidas sobre el mismo espacio muestral, entonces: P(Y)=P(Y│X=x_1 )+P(Y)=P(Y│X=x_2 )+⋯.+P(Y)=P(Y│X=x_m ), suponiendo que el vector X toma m valores distintos. Esta descomposición fundamental es lo que motiva los llamados modelos estadísticos explicativos, así como los modelos de regresión, sean estos simples o tan sofisticados como los que se usan en los métodos exploratorios llamados ciencia de datos o machine learning.

[5] Los argumentos que serán desarrollados también permiten formalizar otro término no definido, a saber, el de ensayo controlado aleatorizado. Después de una estimulante discusión con revisores internacionales, hemos podido establecer una definición probabilística de este término; para detalles, ver E. San Martín & J. González (2022), A Critical View of the NEAT Design Equating: Statistical Modeling and Identifiability Problems, aceptado para publicación en Journal of Educational and Behavioral Statistics.

[6] A veces se asume que existen características individuales representadas por una variable X tal que, condicionalmente a ellas, se tiene que P(Y |X,Z=1)=P(Y |X,Z=0). En otras palabras, a mismas características individuales X , la distribución de probabilidad de la variable de respuesta entre los que no fueron observados es igual a la distribución de probabilidad entre los que no fueron observados; o, dicho de manera heurística, lo que quisiera observar (el todo, condicionalmente a X), coincide con lo puedo observar (la parte, condicionalmente a X). Por ejemplo, la encuesta de caracterización socioeconómica CASEN usa este tipo de supuestos para imputar los salarios de los asalariados que no revelaron su ingreso. No solo se trata de un supuesto que es imposible de verifica empíricamente, sino que además implica asumir cierta homogeneidad en la población (en este caso, de los asalariados), lo que ciertamente tiene serias consecuencias del uso de estos resultados en políticas públicas. Para una discusión, ver E. San Martín & E. Alarcón Bustamante, Dissecting Chilean surveys: The case of missing outcomes, Chilean Journal of Statistics 13,17-46. Aprovecho aquí de mencionar un buen ejemplo que mis estudiantes del curso de Muestreo (Gianina Palomar, Tomás Arrieta, Sebastián Mora, Claudio Ravanal), en el contexto del Magister en Estadística de la Facultad de Matemáticas de la Pontificia Universidad Católica de Chile, me han proporcionado cuando hacían un análisis crítico de la Encuesta Nacional de Salud: cuando se pregunta por ciertas enfermedades a una persona de un hogar seleccionado, y un hogar no accede a responder, no es del todo evidente asumir la condición anterior pues es posible que la persona que no accedió responder, no lo hay ahecho por estar muy enfermo y por tanto no poder atender terceros. Imputar su condición por otras personas enfermas, pero en estados menos avezados de la enfermedad, ciertamente es muy cuestionable.

Deja un comentario