5.3 Relación entre varias variables
Las tablas de contingencia y las pruebas de independencia son herramientas esenciales en el análisis de las encuestas de hogares, puesto que permiten analizar relaciones entre variables categóricas. Estas tablas organizan las estimaciones poblacionales en función de dos o más características, revelando patrones y asociaciones. Las pruebas de independencia evalúan si las variables están relacionadas o son independientes. Este análisis es crucial en investigaciones y toma de decisiones, ya que proporciona información sobre la dependencia entre factores, influyendo en la formulación de estrategias basadas en estimaciones precisas y exactas.
5.3.1 Tablas
En la literatura especializada las tablas también se denominan como tablas de contingencia o tablas cruzadas. En general, una tabla se asume como un arreglo bidimensional de \(r=1,\ldots,R\) filas y \(c=1,\ldots,C\) columnas. Estas son herramientas muy utilizadas en el análisis de encuestas de hogares puesto que, al estar conformada por al menos dos filas y dos columnas, representan información de variables categóricas en términos de conteos de frecuencia al mismo tiempo. Estas tablas tienen el objetivo de representar de manera resumida la relación entre diferentes variables categóricas. En la muestra no expandida, estas tablas se definen con frecuencias no ponderadas como se muestra a continuación:
Variable 2 | Variable 1 | ||
---|---|---|---|
0 | 1 | Marginal fila | |
0 | \(n^{00}\) | \(n^{01}\) | \(n^{0+}\) |
1 | \(n^{10}\) | \(n^{11}\) | \(n^{1+}\) |
Marginal columna | \(n^{+0}\) | \(n^{+1}\) | \(n^{++}\) |
Mientras que, en un análisis ponderado sobre la muestra expandida, la tabla de doble entrada se presenta con la estimación poblacional de las frecuencias, justo como sigue:
Variable 2 | Variable 1 | ||
---|---|---|---|
0 | 1 | Marginal fila | |
0 | \(\hat{N}^{00}_{\omega}\) | \(\hat{N}^{01}_{\omega}\) | \(\hat{N}^{0+}_{\omega}\) |
1 | \(\hat{N}^{10}_{\omega}\) | \(\hat{N}^{11}_{\omega}\) | \(\hat{N}^{1+}_{\omega}\) |
Marginal columna | \(\hat{N}^{+0}_{\omega}\) | \(\hat{N}^{+1}_{\omega}\) | \(\hat{N}_{\omega}\) |
De esta manera, teniendo en cuenta que el subíndice \(i\in\left(r,c\right)\) representa a los individuos que están clasificados en la celda (\(r, c\)), entonces el estimador de la frecuencia en esta celda está dado por la siguiente expresión.
\[\begin{eqnarray} \hat{N}^{rc}_{\omega}={ \sum_{h=1}^{H}\sum_{\alpha=1}^{\alpha_{h}}\sum_{i\in\left(r,c\right)}^{n_{h\alpha}}}\omega_{h\alpha i} \end{eqnarray}\]
Los estimadores de las demás frecuencias en la tabla se definen de forma similar, inclusive las marginales por fila y por columna. Las proporciones estimadas a partir de estas frecuencias muestrales ponderadas, se obtienen de la siguiente manera
\[\begin{eqnarray} \hat{p}_{\omega}^{rc}=\frac{\hat{N}^{rc}_{\omega}}{\hat{N}_{\omega}} \end{eqnarray}\]
Utilizando la función group_by
es posible obtener resultados por más de un nivel de agregación. A continuación, se muestra la estimación ocupación desagregada por niveles de pobreza:
diseno %>%
group_by(Employment, Poverty) %>%
cascade(Nd = survey_total(vartype = c("se", "ci")),
.fill = "Total")
## # A tibble: 17 × 6
## # Groups: Employment [5]
## Employment Poverty Nd Nd_se Nd_low Nd_upp
## <fct> <fct> <dbl> <dbl> <dbl> <dbl>
## 1 Unemployed NotPoor 1768. 405. 966. 2571.
## 2 Unemployed Extreme 1169. 348. 480. 1859.
## 3 Unemployed Relative 1697. 458. 791. 2604.
## 4 Unemployed Total 4635. 761. 3129. 6141.
## 5 Inactive NotPoor 24346. 1736. 20908. 27784.
## 6 Inactive Extreme 6422. 1321. 3807. 9037.
## 7 Inactive Relative 10697. 1460. 7806. 13589.
## 8 Inactive Total 41465. 2163. 37183. 45748.
## 9 Employed NotPoor 44600. 2596. 39460. 49741.
## 10 Employed Extreme 5128. 1122. 2907. 7349.
## 11 Employed Relative 12149. 1347. 9483. 14816.
## 12 Employed Total 61877. 2540. 56847. 66907.
## 13 Total Total 150266. 4181. 141986. 158546.
## 14 <NA> NotPoor 20684. 1257. 18195. 23172.
## 15 <NA> Extreme 8800. 2980. 2900. 14701.
## 16 <NA> Relative 12805. 1551. 9734. 15876.
## 17 <NA> Total 42289. 2780. 36784. 47794.
De las anteriores salidas se puede estimar, entre otros, que 44600 personas que trabajan no son pobres con un intervalo de confianza entre 39459 y 49741. Asimismo, se estima que 6421 personas se encuentran inactivas y al mismo tiempo están en situación de pobreza extrema con un intervalo de confianza entre 3806 y 9037. Para obtener un arreglo rectangular con las estimaciones anteriores, es posible utilizar la función svytable
del paquete survey
de la siguiente manera:
## Employment
## Poverty Unemployed Inactive Employed
## NotPoor 1768.375 24346.008 44600.347
## Extreme 1169.201 6421.825 5127.531
## Relative 1697.231 10697.414 12149.142
Por otro lado, también es posible tener tablas que reporten las estimaciones de frecuencias relativas, o porcentajes, en la población. Este análisis se hace, por supuesto, de manera ponderada sobre la muestra expandida. La tabla de doble entrada con la estimación poblacional de las proporciones se presenta a continuación:
Variable 2 | Variable 1 | ||
---|---|---|---|
0 | 1 | Marginal fila | |
0 | \(\hat{p}^{00}_{\omega}\) | \(\hat{p}^{01}_{\omega}\) | \(\hat{p}^{0+}_{\omega}\) |
1 | \(\hat{p}^{10}_{\omega}\) | \(\hat{p}^{11}_{\omega}\) | \(\hat{p}^{1+}_{\omega}\) |
Marginal columna | \(\hat{p}^{+0}_{\omega}\) | \(\hat{p}^{+1}_{\omega}\) | \(\hat{p}_{\omega}\) |
De la misma manera que para las frecuencias absolutas, teniendo en cuenta que el subíndice \(i\in\left(r,c\right)\) representa a los individuos que están clasificados en la celda (\(r, c\)), entonces el estimador de la proporción asociada a esta celda está dado por la siguiente expresión.
\[ \hat{p}^{rc}_{\omega}=\frac{\hat{N}^{rc}_{\omega}}{\hat{N}_{\omega}}= \frac{\sum_{h=1}^{H}\sum_{\alpha=1}^{\alpha_{h}}\sum_{i\in\left(r,c\right)}^{n_{h\alpha}}\omega_{h\alpha i}}{\sum_{h=1}^{H}\sum_{\alpha=1}^{\alpha_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}} \]
Por ejemplo, si se desea estimar la proporción de personas por zona y en estado de pobreza, se realiza de la siguiente manera:
## Zone
## Poverty Rural Urban
## NotPoor 0.26460893 0.34363467
## Extreme 0.08547174 0.05773275
## Relative 0.12974844 0.11880348
5.3.2 Pruebas de independencia
Sobre las tablas estimadas, es posible realizar pruebas de independecia para corroborar si existe o no asociación entre dos variables de tipo categórico. Que dos variables sean independientes significa que el comportamiento estructural de una variable no depende de la otra, ni viceversa. Heeringa, West, y Berglund (2017) afirman que, bajo muestreo aleaotrio simple, dos variables categóricas son independientes si la proporción esperada en la fila \(r\) y la columna \(c\), denotada como \(\pi^{rc}\), guarda la siguiente relación:
\[ \pi^{rc} = \frac{n^{r+}\times n^{+c}}{(n^{++})^2} \]
De esta forma, una manera de corroborar si existe independencia entras las variables de interés es comparar directamente las proporciones estimadas \(\hat{p}^{rc}_{\omega}\) con las proporciones esperadas \(\pi^{rc}\). Si hay una diferencia muy grande entre ellas, entonces la hipótesis de independencia no sería corroborada por los datos recolectados. Por ende, se define la siguiente estadística \(\chi^{2}_{RS}\) (Rao y Scott 1984b), que sigue una distribución Ji cuadrado con \((R-1) \times (C-1)\) grados de libertad.
\[\begin{eqnarray} \chi^{2}_{RS} = \frac{\chi^{2}_{Pearson}}{GDEFF} \end{eqnarray}\]
En donde
\[ \chi^{2}_{Pearson} = n^{++}\ \left(\sum_r\sum_c (\hat{p}^{rc}_{\omega} -\pi^{rc} )^2/\pi^{rc}\right) \]
Además, \(GDEFF\) es una estimación del efecto de diseño generalizado de Rao–Scott, dado por
\[ GDEFF=\frac{\sum_{r}\sum_{c}\left(1-p_{rc}\right)d^{2}\left(p_{rc}\right)-\sum_{r}\left(1-p_{r+}\right)d^{2}\left(p_{r+}\right)-\sum_{c}\left(1-p_{+c}\right)d^{2}\left(p_{+c}\right)}{\left(R-1\right)\left(C-1\right)} \]
Como lo mencionan Heeringa, West, y Berglund (2017), fueron Fay (1979), junto con Fellegi (1980) quienes empezaron a proponer la corrección del estadístico chi-cuadrado de Pearson basada en un efecto de diseño generalizado. Rao y Scott (1984a) y más tarde Thomas y Rao (1987) ampliaron la teoría de las correcciones del efecto de diseño generalizado para estas pruebas estadísticas. El método de Rao-Scott requiere el cálculo de efectos de diseño generalizados que son analíticamente más complicados que el enfoque de Fellegi. Las correcciones de Rao-Scott son ahora el estándar en los procedimientos para el análisis de datos de encuestas categóricas en sistemas de software como Stata y SAS.
Adicional a lo anterior, la prueba de independencia F de Fisher permite analizar si dos variables dicotómicas están asociadas cuando la muestra que se observó es demasiado pequeña y no se cumplen las condiciones para aplicar la prueba \(\chi^{2}_{Pearson}\). Para utilizar esta técnica, tengamos en cuenta las expresiones para la probabilidad estimada y la misma estadística \(\chi{2}\) de Pearson. A partir de estas, la estadística de razón de verosimilitud se define como:
\[ G^{2}=2\times n_{++}\times\sum_{r}\sum_{c}p_{cr}\times\ln\left(\frac{p_{rc}}{\hat{\pi}_{rc}}\right) \]
donde, \(r\) es el número de filas y \(c\) representa el número de columnas, la prueba tiene \((R-1)\times (C-1)\) grados de libertad. Realizando una corrección por el efecto de diseño generalizado, la estadística basada en la razón de verosimilitud se calcula como:
\[ G^2_{(R-S)} = G^2\big/GDEFF \]
Por tanto, la estadística F para independencia basada en la prueba chi-cuadrado de Pearson se calcula como sigue:
\[ F_{R-S,Pearson}=\chi_{R-S}^{2}\big/\left[\left(R-1\right)\left(C-1\right)\right]\sim F_{\left(R-1\right)\left(C-1\right),\left(R-1\right)\left(C-1\right)df} \]
y, la estadística F para independencia basada en la razón de verosimilitudes se calcula como sigue:
\[ F_{R-S,LRT}=G_{R-S}^{2}\big/\left(C-1\right)\sim F_{\left(C-1\right),df} \]
donde \(C\) es el número de columnas de la tabla cruzada.
Para realizar la prueba de independencia \(\chi^{2}_{RS}\) en R
, se utilizará la función svychisq
del paquete survey
. Esta función requiere que se definan las variables de interés (formula
) y el diseño muestral (desing
). Ahora, para ejemplificar el uso de esta función tomaremos la base de datos de ejemplo y se probará si la pobreza es independiente del sexo. A continuación, se presentan los códigos computacionales:
##
## Pearson's X^2: Rao & Scott adjustment
##
## data: NextMethod()
## F = 0.056464, ndf = 1, ddf = 119, p-value = 0.8126
De la anterior salida, se puede concluir con una confianza del 95% y basado en las estimaciones sobre la muestra expandida que la pobreza no depende del sexo de las personas, puesto que que el valor p (0.8126) es mayor que el nivel de significación (0.05). En este mismo sentido, si se desea saber si el desempleo está relacionado con el sexo, se realiza la prueba de hipótesis como sigue:
##
## Pearson's X^2: Rao & Scott adjustment
##
## data: NextMethod()
## F = 62.251, ndf = 1.6865, ddf = 200.6978, p-value < 2.2e-16
De la anterior salida, se puede concluir con una confianza del 95% y basado en las estimaciones sobre la muestra expandida que la desocupación depende del sexo de las personas, puesto que que el valor p (2.2e-16) no es mayor que el nivel de significación (0.05). Es decir, estas dos variables no son independientes. Si en el análisis ahora se quisiera verificar si la pobreza de las personas es independiente de las regiones establecidas en la base de datos, se realiza de la siguiente manera:
##
## Pearson's X^2: Rao & Scott adjustment
##
## data: NextMethod()
## F = 0.48794, ndf = 3.0082, ddf = 357.9731, p-value = 0.6914
Concluyendo que sí hay independencia entre la pobreza y la región. Lo anterior implica que, no existe relación entre las personas en estado de pobreza por región.
5.3.3 Diferencia de proporciones y contrastes
Como lo mencionan Heeringa, West, y Berglund (2017), las estimaciones de las proporciones de las filas en las tablas de doble entrada son estimaciones de subpoblaciones en las que la subpoblación se define por los niveles de la variable categórica. En algunas ocasiones, puede ser de interés estimar diferencias de las proporciones de las categorías entre dos niveles o en dos subpoblaciones. Como ya se vio en el capítulo anterior, esto puede ser logrado utilizando contrastes.
A manera de ejemplo, considere que se requiere estimar el contraste de proporciones de mujeres en estado de pobreza contra los hombres en esta misma condición (\(\hat{\Delta}_{\omega} = \hat{p}^{F1}_{\omega}-\hat{p}^{M1}_{\omega}\)). Para ello, primero estimamos la proporción de hombres y mujeres en estado de pobreza como se ha mostrado en capítulos anteriores:
(
tab_sex_pobreza <- svyby(
formula = ~ pobreza,
by = ~ Sex,
design = diseno ,
svymean,
na.rm = T,
covmat = TRUE,
vartype = c("se", "ci")
)
)
## Sex pobreza se ci_l ci_u
## Female Female 0.3892389 0.03159581 0.3273123 0.4511656
## Male Male 0.3945612 0.03662762 0.3227724 0.4663501
Ahora bien, para calcular la estimación de la diferencia de proporciones junto con sus errores estándares, se realizarán los siguientes pasos:
- Paso 1: Calcular la diferencia de estimaciones
## [1] -0.0054
- Paso 2: Con la función
vcov
obtener la matriz de covarianzas:
## Female Male
## Female 0.0009982953 0.0009182927
## Male 0.0009182927 0.0013415823
- Paso 3: Calcular el error estándar es:
## [1] 0.02243435
Ahora bien, aplicando la función svycontrast
se puede obtener la estimación de la diferencia de proporciones anterior de manera más expedita:
## contrast SE
## diff_Sex -0.0053223 0.0224
De lo que se concluye que, la diferencia entre las proporciones estimadas de mujeres y hombres en condición de pobreza es -0.005 (-0.5%) con una error estándar estimado de 0.022.
Otro ejercicio de interés en un análisis de encuestas de hogares es verificar la si existen brechas en la condición de ocupación (por ejemplo en el desempleo) por sexo. Al igual que el ejemplo anterior, se inicia con la estimación del porcentaje de desempleados por sexo, omitiendo las personas menores de edad:
tab_sex_desempleo <- svyby(
formula = ~ desempleo,
by = ~ Sex,
design = diseno %>% filter(!is.na(desempleo)) ,
FUN = svymean,
na.rm = T,
covmat = TRUE,
vartype = c("se", "ci")
)
tab_sex_desempleo
## Sex desempleo se ci_l ci_u
## Female Female 0.02168620 0.005580042 0.01074952 0.03262288
## Male Male 0.06782601 0.012161141 0.04399062 0.09166141
Para calcular la estimación de la diferencia de proporciones junto con sus errores estándares, se realizarán los siguientes pasos:
- Paso 1: Diferencia de las estimaciones
## [1] -0.04614
- Paso 2: Con la función
vcov
obtener la matriz de covarianzas:
## Female Male
## Female 3.113687e-05 2.081301e-05
## Male 2.081301e-05 1.478933e-04
- Paso 3: Estimación del error estándar.
## [1] 0.0117222
Siguiendo el ejemplo anterior, utilizando la función svycontrast
se tiene que:
## contrast SE
## diff_Sex 0.04614 0.0117
De los resultados anteriores, se concluye que la estimación del contraste es 0.04 (4%) con un error estándar estimado de 0.011.
Adentrándose un poco más en la complejidad de los contrates, otro ejercicio que se puede realizar en una encuesta de hogares es estimar la proporción de desempleados por región. Para la realización de este ejercicio, se seguirán los pasos de los dos ejemplos anteriores:
tab_region_desempleo <- svyby(
formula = ~ desempleo,
by = ~ Region,
design = diseno %>% filter(!is.na(desempleo)) ,
FUN = svymean,
na.rm = T,
covmat = TRUE,
vartype = c("se", "ci")
)
tab_region_desempleo
## Region desempleo se ci_l ci_u
## Norte Norte 0.04877722 0.02002293 0.009532997 0.08802144
## Sur Sur 0.06563877 0.02375124 0.019087202 0.11219034
## Centro Centro 0.03873259 0.01240317 0.014422832 0.06304235
## Occidente Occidente 0.03996523 0.01229650 0.015864529 0.06406592
## Oriente Oriente 0.02950231 0.01256905 0.004867428 0.05413719
Ahora, asuma que el interés es realizar contrastes para la proporción de desempleados entre las regiones Norte y Sur, entre Sur y Centro y, finalmente, entre Occidente y Oriente. A continuación se tendrían las estimaciones puntuales:
- \(\hat{p}_{Norte} - \hat{p}_{Centro} = 0.04877722 - 0.03873259 = -0.01004463\),
- \(\hat{p}_{Sur} - \hat{p}_{Centro} = 0.06563877 - 0.03873259 = 0.02690618\)
- \(\hat{p}_{Occidente} - \hat{p}_{Oriente} = 0.03996523 - 0.02950231 = 0.01046292\)
Asimismo, escrita de forma matricial, la matriz de contraste sería:
\[ A = \left[\begin{array}{ccccc} 1 & 0 & -1 & 0 & 0\\ 0 & 1 & -1 & 0 & 0\\ 0 & 0 & 0 & 1 & -1 \end{array}\right] \]
La matriz de varianzas y covarianzas de las proporciones estimadas es:
Por tanto, la varianza estimada para cada diferencia de proporciones está dada por:
## [1] 0.02355327
## [1] 0.02679477
## [1] 0.01758365
Usando la función svycontrast
, la estimación de los contrastes sería:
svycontrast(tab_region_desempleo,
list(
Norte_sur = c(1, 0, -1, 0, 0),
Sur_centro = c(0, 1, -1, 0, 0),
Occidente_Oriente = c(0, 0, 0, 1, -1)
))
## contrast SE
## Norte_sur 0.010045 0.0236
## Sur_centro 0.026906 0.0268
## Occidente_Oriente 0.010463 0.0176
5.3.4 Razones de odds
Como lo menciona Monroy, Rivera, y Dávila (2018), la traducción más aproximada del término odds es “ventaja” que denota la posibilidad de que un evento ocurra con relación a que no ocurra; es decir, es un número que expresa cuánto más probable es que se produzca un evento frente a que no se produzca. También se puede utilizar para cuantificar la asociación entre los niveles de una variable y un factor categórico. Por ejemplo, considere la siguiente salida que relaciona el sexo con la pobreza:
tab_Sex_Pobr <-
svymean(
x = ~ interaction (Sex, pobreza),
design = diseno,
se = T,
na.rm = T,
ci = T,
keep.vars = T
)
tab_Sex_Pobr
## mean SE
## interaction(Sex, pobreza)Female.0 0.32187 0.0178
## interaction(Sex, pobreza)Male.0 0.28637 0.0177
## interaction(Sex, pobreza)Female.1 0.20513 0.0166
## interaction(Sex, pobreza)Male.1 0.18663 0.0178
Las ODDS de ser mujer dado que es pobre son \(ODDS(Sexo = Mujer|Pobre) = \hat{p}^{1|Female}_{\omega} / (1 - \hat{p}^{1|Female}_{\omega}) = \hat{p}^{1|Female}_{\omega} / \hat{p}^{0|Female}_{\omega} = 0.20/0.32=0.63\). Por otro lado, las ODDS de ser hombre dado que es pobre son \(ODDS(Sexo = Hombre|Pobre) = \hat{p}^{1|Male}_{\omega} / \hat{p}^{0|Male}_{\omega}=0.18/0.28=0.65\). De esta forma, la razón de odds estaría dada por la siguiente expresión.
\[ \widehat{OR}_{\omega}^{Sexo-Pobreza} = \frac{ODDS(Sexo = Mujer|Pobre)}{ODDS(Sex = Hombre|Pobre)} = \frac{\frac{P(Sex = Female \mid pobreza = 1 )}{P(Sex = Female \mid pobreza = 0 )}}{ \frac{P(Sex = Male \mid pobreza = 1 )}{P(Sex = Male \mid pobreza = 0 )} } = \frac{0.63}{0.65}=0.97 \]
El procedimiento para realizarlo en R
, luego de haber estimado las respectivas proporciones de la tabla cruzada entre las variables sexo y pobreza, se centra en realizar el contraste dividiendo cada uno de los elementos de la expresión mostrada anteriormente:
svycontrast(stat = tab_Sex_Pobr,
contrasts =
quote((
`interaction(Sex, pobreza)Female.1` /
`interaction(Sex, pobreza)Female.0`
) /
(
`interaction(Sex, pobreza)Male.1` /
`interaction(Sex, pobreza)Male.0`
)
))
## nlcon SE
## contrast 0.97791 0.0919
Del anterior resultado se estima que el odds de las mujeres que están en condición de pobreza es 0.97 (muy cercano a uno) comparándolo con el odds de los hombres que están en condición de pobreza. En otras palabras, se estima que las probabilidades de que las mujeres no estén en estado de pobreza sin tener en cuenta ninguna otra variable de la encuesta es cerca de 3% mayor que las probabilidades de los hombres.