8.1 Prueba de independencia F
La prueba de independencia F de Fisher permite analizar si dos variables dicotómicas están asociadas cuando la muestra a estudiar es demasiado pequeña y no se cumplen las condiciones para aplicar la prueba \(\chi^{2}\). Para utilizar esta técnica, tengamos en cuenta que la probabilidad estimada se escribe como:
\[ \hat{\pi}_{rc}=\frac{n_{r+}}{n_{++}}\times\frac{n_{+c}}{n_{++}} \] Teniendo en cuenta esta expresión, la estadística \(\chi{2}\) de Pearson se define de la siguiente manera:
\[ \chi_{pearsom}^{2}=n_{++}\times\sum_{r}\sum_{c}\left(\frac{\left(p_{rc}-\hat{\pi}_{rc}\right)^{2}}{\hat{\pi}_{rc}}\right) \]
y la estadística de razón de verosimilitud se define como:
\[ G^{2}=2\times n_{++}\times\sum_{r}\sum_{c}p_{cr}\times\ln\left(\frac{p_{rc}}{\hat{\pi}_{rc}}\right) \]
donde, \(r\) es el número de filas y \(c\) representa el número de columnas, la prueba tiene \((R-1)\times (C-1)\) grados de libertad.
Como lo menciona Heeringa, Fay (1979, 1985) y Fellegi (1980) fueron de los primeros en proponer la corrección del estadístico chi-cuadrado de Pearson basada en un efecto de diseño generalizado (GDEFF, por sus siglas en inglés). Rao y Scott (1984) y más tarde Thomas y Rao (1987) ampliaron la teoría de las correcciones del efecto de diseño generalizado para estas pruebas estadísticas. El método de Rao-Scott requiere el cálculo de efectos de diseño generalizados que son analíticamente más complicados que el enfoque de Fellegi. Las correcciones de Rao-Scott son ahora el estándar en los procedimientos para el análisis de datos de encuestas categóricas en sistemas de software como Stata y SAS. Los estadísticos de prueba Rao-Scott Pearson ajustados por diseño y razón de verosimilitud chi-cuadrado se calculan de la siguiente manera:
\[ \chi^2_{(R-S)} = \chi^2_{(Pearson)}\big/GDEFF \] y, para la estadística basada en la razón de verosimilitud se calcula como:
\[ G^2_{(R-S)} = G^2\big/GDEFF \]
donde el efecto generalizado del diseño (\(GDEFF\)) de Rao–Scott, está dado por
\[ GDEFF=\frac{\sum_{r}\sum_{c}\left(1-p_{rc}\right)d^{2}\left(p_{rc}\right)-\sum_{r}\left(1-p_{r+}\right)d^{2}\left(p_{r+}\right)-\sum_{c}\left(1-p_{+c}\right)d^{2}\left(p_{+c}\right)}{\left(R-1\right)\left(C-1\right)} \]
Por tanto, la estadística F para independencia basada en la chi-cuadrado de Pearson se calcula como sigue:
\[ F_{R-S,Pearson}=\chi_{R-S}^{2}\big/\left[\left(R-1\right)\left(C-1\right)\right]\sim F_{\left(R-1\right)\left(C-1\right),\left(R-1\right)\left(C-1\right)df} \]
y, la estadística F para independencia basada en la razón de verosimilitudes se calcula como sigue:
\[ F_{R-S,LRT}=G_{R-S}^{2}\big/\left(C-1\right)\sim F_{\left(C-1\right),df} \] donde \(C\) es el número de columnas de la tabla cruzada.
En R
, el cálculo de las estadísticas chi-cuadrado y F se camculan usando la función summary
como se muestra a continuación:
summary(tab, statistic = "Chisq")
## Sex
## pobreza Female Male
## 0 48366 43032
## 1 30824 28044
##
## Pearson's X^2: Rao & Scott adjustment
##
## data: NextMethod()
## X-squared = 0.077, df = 1, p-value = 0.8
Basado en la estadística de Pearson, se puede concluir que el estado de pobreza y el sexo no están relacionados con una confianza del 95%.
summary(tab, statistic = "F")
## Sex
## pobreza Female Male
## 0 48366 43032
## 1 30824 28044
##
## Pearson's X^2: Rao & Scott adjustment
##
## data: NextMethod()
## F = 0.056, ndf = 1, ddf = 119, p-value = 0.8
Resultados similares se obtienen con la prueba F de independencia.