Theil indeks

Theil-indekset kan bruges til at vurdere ulighed.

Antag at vi har n = 10 personer, der tjener følgende antal kr. i timen:

\(x_1 = 100, x_2 =200, x_3=300, x_4=400, x_5=500, .. ,x_{10}= 1000\) 

Lad \(\mu\) være gennemsnittet af indtægterne

\(\mu = \frac{1}{10} \cdot (100+200+300+...+1000) = 550\)

Da bestemmes Theil-indekset ved formlen

\(T = \frac{1}{n} \cdot \sum_{i=1}^{n} \frac{x_i}{\mu} \cdot \log_2(\frac{x_i}{\mu})\)

Ved at indsætte indkomsterne \(x_i\) og gennemsnittet \(\mu\) af indkomsterne, så udregnes Theil-indekset til 0.21829. Her har jeg brugt to-tals-logaritmen \(\log_2(x)\). Det er sådan set lige meget hvilken logaritme man bruger, bare man hele tiden bruger den samme, ellers kan man jo ikke sammenligne resultaterne.

Hvis man skal bestemme Theil-indekset for grupper af personer, f.eks. hvis man skal sammenligne indkomster i forskellige lande, så er det bedst at tilpasse formlen for Theil-indekset. Som den er nu, sammenligner den individer, ikke grupper. Forskellen på individer og grupper er, at grupper varierer i størrelser, det skal der tages hensyn til ved beregning af Theil-indekset.

Formlen for Theil-indekset kommer tydeligvis fra formlen for ideel entropi. Der er dog en omvendt sammenhæng; ens sandsynligheder i formlen for ideel entropi giver stor ideel entropi. Ens indkomster i formlen for Theil-indeks giver et lille Theil-indeks.

Vi skal nu, ud fra formlen for ideel entropi, udlede formlen for Theil-indeks. Formlen for ideel entropi er givet ved

\(H=- \sum_{i=1}^{n} p_i \cdot \log_2(p_i)\)

Jeg vil nu prøve at udlede formlen for Theil-indekset fra formlen for ideel entropi.

Theil-indekset skal være tæt på nul når der er stor lighed. Men stor lighed giver stor ideel entropi. Vi beregner derfor Theil-indekset som forskellen mellem den maksimale ideelle entropi for n data og den ideelle entropi for de n data. Forskellen er dermed tæt på nul ved stor ulighed.

Vi vil nu beregne den maksimale ideelle entropi for n data.

Hvis alle udfald har samme sandsynlighed, så er den ideelle entropi størst. Antag at alle sandsynligheder er ens, dvs. \(p_i=p\) for alle i. Da er

\(
H=- \sum_{i=1}^{n} p_i \cdot \log_2(p_i)
 = - \sum_{i=1}^{n} p \cdot \log_2(p)
\)

Da de n led i summen alle er lige store, og lig \(p \cdot \log_2(p)\), så får vi videre

\(
H =- \sum_{i=1}^{n} p \cdot \log_2(p)
 = -n \cdot p \cdot \log_2(p)
\)

De n sandsynligheder lagt sammen må give 1, dermed er \(p=\frac{1}{n}\).

Da \(n \cdot \frac{1}{n} = 1\) og da \(\log_2(1/n) = -\log_2(n)\), så få vi

\(
H = -n \cdot p \cdot \log_2(p)
 = -n \cdot \frac{1}{n} \cdot \log_2(1/n)
 = -(-\log_2(n))
 = \log_2(n)
\)

Den største ideelle entropi får man altså når alle sandsynligheder er ens, og den maksimale ideelle entropi er i så fald lig \(\log_2(n)\).

Nu er vi klar til beregning af Theil-indekset.

Antag at vi har n personer med indkomsterne \(x_i\). De n personer samler deres indkomster i en kasse, vekslet om til enkroner. Den person som tjener mest, lægger altså flere enkroner i kassen end en person som ikke tjener så meget. Vi tager så en tilfældig enkrone fra kassen. Vi vil finde ud af hvilken af de n personer som var ejer af den enkrone vi har fået fat i. Vi må kun spørge ja/nej spørgsmål, f.eks. ‘Er mønten ejet af person nummer 1?’

Da gennemsnittet \(\mu\) af indkomsterne beregnes ved brug af formlen

\(\mu = \frac{1}{n} \cdot (x_1+x_2+...+x_n)\)

så må \(\mu \cdot n\) være lig summen \(x_1+x_2+…+x_n\) af indkomsternene.

Sandsynligheden for at mønten kommer fra person i er dermed

\(p_i = \frac{x_i}{n \cdot \mu}\) 

Vi tager så formlen for den ideelle entropi, og indsætter sandsynlighgederne \(p_i\) givet ved udtrykket herover. Husk at Theil-indekset beregnes som forskellen mellem den maksimale entropi \(H_{max}\) for n muligheder og den beregnede entropi for de n indkomster.

\( 
T=H_{max}-H 
\)

Vi indsætter udtrykkene for \(T_{max}\) og \(H\):

\( 
T=\log_2(n)-(- \sum_{i=1}^{n} \frac{x_i}{n \cdot \mu} \cdot \log_2(\frac{x_i}{n \cdot \mu}))
= \log_2(n)+ \sum_{i=1}^{n} \frac{x_i}{n \cdot \mu} \cdot \log_2(\frac{x_i}{n \cdot \mu})
\)

Alle led i summen er multipliceret med \(\frac{1}{n}\), så den brøk kan sættes udenfor en parentes:

\( 
T =\log_2(n)+ \frac{1}{n} \sum_{i=1}^{n} \frac{x_i}{\mu} \cdot \log_2(\frac{x_i}{n \cdot \mu})
\)

Brøken i logaritmen kan skrives som et produkt

\(\frac{x_i}{n \cdot \mu}=\frac{x_i}{\mu} \cdot \frac{1}{n}\)

Vi bruger så at logaritmen til et produkt er summen af logaritmerne; \(\log(a \cdot b) = \log(a) + log(b)\).

\( 
T =\log_2(n)+ \frac{1}{n} \sum_{i=1}^{n} \frac{x_i}{\mu} \cdot (\log_2(\frac{x_i}{\mu})+\log_2(\frac{1}{n})) 
\)

Nu bruger vi så at logaritmen til en brøk er lig logaritmen til tælleren minus logaritmen til nævneren

\(\log_2(\frac{1}{n}) = \log_2(1) - \log_2(n) = 0 - \log_2(n) = -\log_2(n) \)

Dermed har vi så:

\( 
T = \log_2(n)+ \frac{1}{n} \sum_{i=1}^{n} \frac{x_i}{\mu} \cdot (\log_2(\frac{x_i}{\mu})-\log_2(n)) 
\)

Nu kan summen deles op i to:

\( 
T = \log_2(n)+ \frac{1}{n} \sum_{i=1}^{n} \frac{x_i}{\mu} \cdot \log_2(\frac{x_i}{\mu})- \frac{1}{n}  \sum_{i=1}^{n} \frac{x_i}{\mu} \cdot \log_2(n)
\)

Lad os se på den sidste sum. Her kan \(\mu\) og \(\log_2(n)\) sættes udenfor summen:

\( 
\frac{1}{n} \sum_{i=1}^{n} \frac{x_i}{\mu} \cdot \log_2(n) 
= \frac{1}{n} \cdot \log_2(n) \cdot \frac{1}{\mu} \cdot \sum_{i=1}^{n} x_i
= \frac{1}{n} \cdot \log_2(n) \cdot \frac{1}{\mu} \cdot \mu \cdot n
= \log_2(n)
\)

Hele sidste del kan altså reduceres til \(\log_2(n)\). Dermed får vi

\( 
T = \log_2(n)+ \frac{1}{n} \sum_{i=1}^{n} \frac{x_i}{\mu} \cdot \log_2(\frac{x_i}{\mu})-\log_2(n)
\)

Nu går \(\log_2(n)\) ud, så vi ender med resultatet

\( 
T = \frac{1}{n} \sum_{i=1}^{n} \frac{x_i}{\mu} \cdot \log_2(\frac{x_i}{\mu})
\)

Hermed har vi ‘udledt’ formlen for Theil-indekset.

Vores fortolkning er, at Theil-indekset er antal ja/nej spørgsmål man skal stille, for at finde ud af hvem der ejer en given krone, målt i forhold til det maksimale antal ja/nej spørgsmål man kan komme ud for at skulle stille i det tilfælde hvor der er total lighed.

Er der total lighed, så skal man stille det maksimale antal ja/nej spørgsmål, den ideelle entropi bliver maksimal, og Theil-indekset bliver lig nul.

Ved stor ulighed, så skal man stille færre spørgsmål end det maksimale antal, og dermed bliver Theil-indekset større.

Graferne herunder viser indkomst for hver person, samt Theil-indekset.

Vi ser, at jo større ulighed, jo større bliver Theil-indekset.

I den sidste figur har person nummer 10 en indkomst på 10000 kr, de andre 9 personer har en indkomst på 100 kr. Nu bliver Theil-indekser 3.22. Den maksimale ideelle entropi bliver tæt på nul, det er jo rimelig klart hvem der ejer den krone man vælger. Da den maksimale ideelle entropi, ved lige indkomst er \(\log_2(10)=3.3219\), så bliver Theil-indekset lige under 3.3219.

Hvis alle indkomster er ens, så bliver den ideelle entropi lig \(\log_2(10)=3.3219\).