4.4 Estimación del coeficiente de Gini en encuestas de hogares

Para iniciar esta sección tengamos en cuenta la siguiente reflexión: Definir lo justo siempre será difícil y es algo a lo que quizá sea poco realista aspirar a conseguir. Sin embargo, si estamos un poco más conscientes de cómo la desigualdad afecta nuestra libertad y cómo se refleja en el bienestar y calidad de vida de las personas, podremos poner en contexto una discusión que tendremos cada vez más presente en el mundo y en el país.

La desigualdad es un problema común en todos los países del mundo. En el ámbito económico, representa uno de los desafíos más relevantes para gobiernos y organismos internacionales. De hecho, Naciones Unidas lo reconoce explícitamente dentro de los Objetivos de Desarrollo Sostenible (ODS).

Entre las métricas más utilizadas para medir la desigualdad económica se encuentra el coeficiente de Gini (CG), el cual compara la distribución de ingresos observada con una distribución perfectamente equitativa. Su valor oscila entre 0 (igualdad perfecta) y 1 (máxima desigualdad). Así, un valor de \(G = 0\) implica que todos los hogares tienen el mismo nivel de ingresos, mientras que valores más altos reflejan concentraciones crecientes de ingresos en una fracción menor de la población. Este indicador es clave para:

Evaluar los cambios en la distribución del ingreso a lo largo del tiempo.
Comparar los niveles de desigualdad entre regiones o países.
Contextualizar políticas públicas y sociales orientadas a la equidad.

En encuestas de hogares, el cálculo del coeficiente de Gini debe incorporar los pesos muestrales ajustados al diseño de la encuesta, que con frecuencia se normalizan para simplificar el procesamiento.

De acuerdo con Binder y Kovacevic (1995), el estimador del coeficiente de Gini puede expresarse como:

\[ \hat{G} = \frac{2\sum_{h=1}^{H}\sum_{\alpha=1}^{a_{h}}\sum_{i=1}^{n_{h\alpha}}\omega_{h\alpha i}^{*}\hat{F}_{h\alpha i}y_{h\alpha i}-1}{\bar{y}_{\omega}} \]

donde:

\(\omega_{h\alpha i}^{*}=\dfrac{\omega_{h\alpha i}}{\sum\_{h=1}^{H}\sum\_{\alpha=1}^{a_{h}}\sum\_{i=1}^{n\_{h\alpha}}\omega_{h\alpha i}}\) es el peso normalizado.
\(\hat{F}\_{h\alpha i}\) representa la función de distribución acumulada (CDF) estimada en el conglomerado \(\alpha\) del estrato \(h\).
\(\bar{y}\_{\omega}\) corresponde a la media ponderada de los ingresos.

Autores como Osier (2009) y Langel y Tillé (2013) profundizan en aspectos técnicos adicionales relacionados con la estimación de la varianza de este estimador en el contexto de encuestas complejas.

Para calcular el índice de Gini y su varianza estimada en una encuesta de hogares, R tiene cargados los procedimientos en la librería convey. A continuación, se muestra la sintaxis de cómo se realiza la estimación del índice de Gini para los hogares en la base de ejemplo de este capítulo.

library(convey)
 diseno_gini <- convey_prep(diseno)
svygini( ~Income, design = diseno_gini) %>%
  data.frame()

##             gini    Income
## Income 0.4132757 0.0186633

En primer lugar, se carga el diseño de muestreo con la función convey_prep. Luego, se estima el índice Gini con la función svygini. En los argumentos de esta última función se introducen la variable ingresos y el diseño muestral complejo.

Por otro lado, si el interés ahora es estimar la curva de Lorenz. La cual, según Kovacevic, M. S. et. al (1997) para una distribución dada de ingresos, traza el porcentaje acumulado de la población (desplegado desde el más pobre hasta el más rico) frente a su participación en el ingreso total. El área entre la curva de Lorenz y la línea de 45 grados se conoce como el área de Lorenz. El índice de Gini es igual al doble del área de Lorenz. Una población con la curva de Lorenz más cerca de la línea de 45 grados tiene una distribución de ingresos más equitativa. Si todos los ingresos son iguales, la curva de Lorenz degenera a la línea de 45 grados.

Para realizar la curva de Lorenz en R se utiliza la función svylorenz. A continuación, se muestran los códigos computacionales para realizar la curva de Lorenz para los ingresos:

library(convey)
svylorenz(formula = ~Income,
          design = diseno_gini,
          quantiles = seq(0,1,.05),
          alpha = .01 )

##            lorenz     SE
## L(0)    0.0000000 0.0000
## L(0.05) 0.0068191 0.0008
## L(0.1)  0.0175964 0.0013
## L(0.15) 0.0316596 0.0033
## L(0.2)  0.0492230 0.0041
## L(0.25) 0.0694365 0.0056
## L(0.3)  0.0925871 0.0064
## L(0.35) 0.1181331 0.0071
## L(0.4)  0.1469261 0.0082
## L(0.45) 0.1791978 0.0095
## L(0.5)  0.2158231 0.0106
## L(0.55) 0.2565784 0.0123
## L(0.6)  0.3027002 0.0137
## L(0.65) 0.3537989 0.0149
## L(0.7)  0.4096304 0.0159
## L(0.75) 0.4706565 0.0167
## L(0.8)  0.5398749 0.0177
## L(0.85) 0.6174169 0.0183
## L(0.9)  0.7042464 0.0176
## L(0.95) 0.8151774 0.0152
## L(1)    1.0000000 0.0000

Los argumentos que requiere la función son, inicialmente, los ingresos de los hogares y el diseño muestral complejo. Adicionalmente, se definen una secuencia de probabilidades que define la suma de los cuantiles a calcular (quantiles) y por último, un número que especifica el nivel de confianza para el gráfico (alpha).