Vi vil nu udlede en formel for Theil-indekset for grupper.
Vi betynder med Theil-indekset for ‘individer’:
\[
T = \frac{1}{n} \sum_{i=1}^{n} \frac{x_i}{\mu} \cdot \log_2(\frac{x_i}{\mu})
\]
Vi har N personer, men nu er de samlet i m grupper.
Alle individer i samme gruppe har samme indkomst \[x_j\].
Antallet af personer i gruppe j kalder vi \[n_j\].
Vi bruger bogstavet j som fodtegn for at tydeliggøre hvilken gruppe vi ser på.
Gruppe 1. j = 1. Indkomst for hvert individ i gruppe 1 er \[x_1\]. Gruppe 2. j = 2. Indkomst for hvert individ i gruppe 2 er \[x_2\]. ... Gruppe m. j = m. Indkomst for hvert individ i gruppe m er \[x_m\].
Den gennemsnitlige indkomst for alle de N personer kalder vi \[\mu\].
Summen i formlen for Theil-indekset er en sum over alle personernes indkomst. Vi kan opdele summen så vi først summerer over alle personer i gruppe 1, så summerer over alle personer i gruppe 2, o.s.v. Dermed får vi:
\[
T = \frac{1}{N} \sum_{j=1}^m
\sum_{i=1}^{n_j} \frac{x_j}{\mu} \cdot \log_2(\frac{x_j}{\mu})
\]
I den inderste sum \[\sum_{i=1}^{n_j} \frac{x_j}{\mu} \cdot \log_2(\frac{x_j}{\mu})\] summerer vi over alle individer i samme gruppe, og deres personlige indkomst er ens. Vi får derfor \[n_j\] led der er ens, og den inderste sum giver så
\[
\sum_{i=1}^{n_j} \frac{x_j}{\mu} \cdot \log_2(\frac{x_j}{\mu})
= n_j \cdot \frac{x_j}{\mu} \cdot \log_2(\frac{x_j}{\mu})
= \frac{n_j \cdot x_j}{\mu} \cdot \log_2(\frac{x_j}{\mu})
\]
Vi ender med at få
\[
T = \frac{1}{N} \sum_{j=1}^m \frac{n_j \cdot x_j}{\mu} \cdot \log_2(\frac{x_j}{\mu})
= \sum_{j=1}^m \frac{n_j \cdot x_j}{N \cdot \mu } \cdot \log_2(\frac{x_j}{\mu})
\]
Dermed har vi udledt formlen for Theil-indekset for grupper:
\[
T = \sum_{j=1}^m \frac{n_j \cdot x_j}{N \cdot \mu } \cdot \log_2(\frac{x_j}{\mu})
\]
Når vi skal sammenligne indkomsterne mellem grupperne, så beregner vi Theil-indekset ved brug af formlen herover. I formlen er \[n_j\] antallet af personer i gruppe j, \[x_j\] er den individuelle indkomst i grupper j, \[\mu\] er den gennemsnitlige indkomst for alle personer, og n er antallet af personer i alt i alle grupper.
Bemærk at \[n_j \cdot x_j\] er den totale indkomst i gruppe j, og \[N \cdot \mu\] er den totale indkomst i befolkningen.
Man kan diskutere det fornuftige i at antage at alle personer i samme gruppe har samme indkomst. Det kan jo være at man har udvalgt sine grupper udfra indkomst-nivaeu, og så er det naturligvis en fornuftig antalelse. Andre gange er det ikke en fornuftig antagelse, og man kan så undersøge/overveje hvilken betydning det så får. Se også ‘dekomposition af Theil-indekset’ hvor man både sammeligner individer og grupper, og finder ud af hvor meget variation i individuelle indkomster betyder for det samlede Theil-indeks, og hvor meget gruppe-variation i indkomster betyder for det samlede Theil-index.
Lad os som eksempel se på data fra nogle amerikanske stater:

Vi vil beregne Alabamas bidrag til Theil-indekset:
\[T_{Alabama} = \frac{3449846}{203798722} \cdot \frac{2978}{4095} \cdot \log_2(\frac{2979}{4095})
= -0.0057\]
Alabamas bidrag til Theil-indekset bliver negativt da gennemsnitsindkomsten i Alabama ligger under gennemsnitsindkomsten i USA. Alaskas bidrag til Theil-indekset beregnes på samme måde, og man får 0.00068.
For at beregne Theil-indekset for USA skal vi beregne hver af staternes bidrag til Theil-indekset, og så addere dem.
