12.1 El concepto de representatividad

El concepto de representatividad se utiliza a menudo en la investigación de encuestas, pero por lo general no está claro qué significa. En particular Kruskal y Mosteller presentan una amplia descripción de lo que se supone que significa el adjetivo representativo Kruskal y Mosteller (1980). El concepto de muestra representativa no está del todo estandarizado; Bethlehem, Cobben, y Schouten (2009) menciona que algunos de estos conceptos son muy vagos e imprecisos; por ejemplo:

  • Reconocimiento general de los datos.
  • Ausencia de fuerzas selectivas en la muestra.
  • Una muestra que sea una miniatura de la población.
  • Una muestra que contenga casos típicos o ideales.
  • Cobertura suficiente de la población,
  • Que permite una buena estimación,
  • Suficientemente bueno para un propósito particular.

En términos de notación, supongamos que se selecciona una muestra probabilística \(s\) de tamaño \(n\) sin reemplazo de una población finita \(U\) de tamaño \(N\). La muestra puede verse como un vector de \(N\) indicadores \(s=(I_{1},I_{2},\ldots,I_{N})\), donde el indicador \(I_{k}=1\) si se selecciona el elemento \(k\) en la muestra, y \(I_{k}=0\) en caso contrario (\(k=1,2,\ldots,N\)). El fenómeno de la ausencia de respuesta se modela por medio de las probabilidades de respuesta. Para esto, se supone que cada elemento \(k\) en la población tiene una cierta probabilidad desconocida \(\phi_{k}\) de responder cuando se selecciona en la muestra. La respuesta a la encuesta se puede representar mediante el vector de indicadores \(D=(D_{1},D_{2},\ldots,D_{N})\), donde \(D_{k}=1\) si el elemento \(k\) fue seleccionado en la muestra \((I_{k}=1)\) y respondió. De lo contrario, \(D_{k}=0\). Por ende, se deduce que

\[ \phi_{k}=P\left(D_{k}=1\mid I_{k}=1\right) \]

Para poder definir un indicador de representatividad, el concepto de representatividad que mejor se acomoda se define como la ausencia de fuerzas selectivas. Está claro que no existen fuerzas selectivas si todas las probabilidades de respuesta son uniformes. Esta observación forma la base de la primera definición de representatividad.

La respuesta a una encuesta se denomina fuertemente representativa con respecto a la muestra, si las probabilidades de respuesta de todos los elementos de la población son iguales y si la respuesta de un elemento es independiente de la respuesta de todos los demás elementos. En otras palabras:

\[ \phi_{k} = P\left(D_{k}=1\mid I_{k}=1\right) = \phi \ \ \ \ \ \ \ \ \ \ k=1,2,\ldots,N \]

Se debe tener en cuenta que la representatividad fuerte se garantiza cuando el mecanismo de datos faltantes es MCAR para cada variable objetivo en el estudio. En este caso, la falta de respuesta no provoca que los estimadores estén sesgados. Esta es una definición atractiva, pero no es muy útil ya que en la práctica no es posible comparar las probabilidades de respuesta individual.

Por otro lado, suponga que hay una variable auxiliar categórica \(X\) que tiene \(H\) categorías y divide la población en \(H\) estratos (subpoblaciones). El número de elementos en el estrato \(h\) se denota por \(N_{h}\), para \(h=1,2,\ldots,H\). Se asume que esta variable ha sido medida en la encuesta y que su valor está disponible para cada encuestado y no encuestado. La probabilidad de respuesta del elemento \(k\) en el estrato \(h\) está definida por \(\phi_{hk}\).

La respuesta a una encuesta se denomina débilmente representativa con respecto a la muestra para la variable auxiliar \(X\) si la probabilidad de respuesta promedio es la misma en cada estrato, es decir,

\[ \bar{\phi}_{h} = \frac{1}{N_{h}}\sum_{k=1}^{N_{h}}\phi_{hk} = \phi \ \ \ \ \ \ \ \ \ \ h=1,2,\ldots,H \]

La representatividad débil significa que no es posible distinguir a los encuestados de los no encuestados simplemente usando información con respecto a \(X\). Si la respuesta es débilmente representativa con respecto a muchas variables auxiliares \(X\), existirán relaciones fuertes entre las variables objetivo y las variables auxiliares. Nótese que es posible estimar las medias de las probabilidades de respuesta en los estratos y, por lo tanto, se puede comprobar en la práctica el supuesto de representatividad débil.

Referencias

Bethlehem, Jelke, Fannie Cobben, y Barry Schouten. 2009. «Indicators for the Representativeness of Survey Response». En Statistics Canada’s International Symposium, 10.
———. 1980. «Representative Sampling, IV: The History of the Concept in Statistics, 1895-1939». International Statistical Review / Revue Internationale de Statistique 48 (2): 169-95.