Theil-indeks grupper

Vi vil nu udlede en formel for Theil-indekset for grupper.

Vi betynder med Theil-indekset for ‘individer’:

\( 
T = \frac{1}{n} \sum_{i=1}^{n} \frac{x_i}{\mu} \cdot \log_2(\frac{x_i}{\mu})
\)

Vi har N personer, men nu er de samlet i m grupper.
Alle individer i samme gruppe har samme indkomst \(x_j\).
Antallet af personer i gruppe j kalder vi \(n_j\).
Vi bruger bogstavet j som fodtegn for at tydeliggøre hvilken gruppe vi ser på.

Gruppe 1. j = 1. Indkomst for hvert individ i gruppe 1 er \(x_1\).
Gruppe 2. j = 2. Indkomst for hvert individ i gruppe 2 er \(x_2\).
...
Gruppe m. j = m. Indkomst for hvert individ i gruppe m er \(x_m\).

Den gennemsnitlige indkomst for alle de N personer kalder vi \(\mu\).

Summen i formlen for Theil-indekset er en sum over alle personernes indkomst. Vi kan opdele summen så vi først summerer over alle personer i gruppe 1, så summerer over alle personer i gruppe 2, o.s.v. Dermed får vi:

\( 
T = \frac{1}{N} \sum_{j=1}^m
  \sum_{i=1}^{n_j} \frac{x_j}{\mu} \cdot \log_2(\frac{x_j}{\mu})
\)

I den inderste sum \(\sum_{i=1}^{n_j} \frac{x_j}{\mu} \cdot \log_2(\frac{x_j}{\mu})\) summerer vi over alle individer i samme gruppe, og deres personlige indkomst er ens. Vi får derfor \(n_j\) led der er ens, og den inderste sum giver så

\(
\sum_{i=1}^{n_j} \frac{x_j}{\mu} \cdot \log_2(\frac{x_j}{\mu})
= n_j \cdot \frac{x_j}{\mu} \cdot \log_2(\frac{x_j}{\mu})
= \frac{n_j \cdot x_j}{\mu} \cdot \log_2(\frac{x_j}{\mu})
\) 

Vi ender med at få

\( 
T = \frac{1}{N} \sum_{j=1}^m \frac{n_j \cdot x_j}{\mu} \cdot \log_2(\frac{x_j}{\mu})
  = \sum_{j=1}^m \frac{n_j \cdot x_j}{N \cdot \mu } \cdot \log_2(\frac{x_j}{\mu})
\)

Dermed har vi udledt formlen for Theil-indekset for grupper:

\( 
T = \sum_{j=1}^m \frac{n_j \cdot x_j}{N \cdot \mu } \cdot \log_2(\frac{x_j}{\mu})
\)

Når vi skal sammenligne indkomsterne mellem grupperne, så beregner vi Theil-indekset ved brug af formlen herover. I formlen er \(n_j\) antallet af personer i gruppe j, \(x_j\) er den individuelle indkomst i grupper j, \(\mu\) er den gennemsnitlige indkomst for alle personer, og n er antallet af personer i alt i alle grupper.

Bemærk at \(n_j \cdot x_j\) er den totale indkomst i gruppe j, og \(N \cdot \mu\) er den totale indkomst i befolkningen.

Man kan diskutere det fornuftige i at antage at alle personer i samme gruppe har samme indkomst. Det kan jo være at man har udvalgt sine grupper udfra indkomst-nivaeu, og så er det naturligvis en fornuftig antalelse. Andre gange er det ikke en fornuftig antagelse, og man kan så undersøge/overveje hvilken betydning det så får. Se også ‘dekomposition af Theil-indekset’ hvor man både sammeligner individer og grupper, og finder ud af hvor meget variation i individuelle indkomster betyder for det samlede Theil-indeks, og hvor meget gruppe-variation i indkomster betyder for det samlede Theil-index.

Lad os som eksempel se på data fra nogle amerikanske stater:

Vi vil beregne Alabamas bidrag til Theil-indekset:

\(T_{Alabama} = \frac{3449846}{203798722} \cdot \frac{2978}{4095} \cdot \log_2(\frac{2979}{4095})
  = -0.0057\)

Alabamas bidrag til Theil-indekset bliver negativt da gennemsnitsindkomsten i Alabama ligger under gennemsnitsindkomsten i USA. Alaskas bidrag til Theil-indekset beregnes på samme måde, og man får 0.00068.

For at beregne Theil-indekset for USA skal vi beregne hver af staternes bidrag til Theil-indekset, og så addere dem.