In de statistiek is een percentiel van een geordende dataset een van de in principe 99 punten die de dataset in 100 delen van gelijke grootte verdelen. Het -de percentiel is dan een getal dat de % kleinste data van de % grootste scheidt. Het 95e percentiel is bijvoorbeeld een getal zodanig dat 95% van de data kleiner is of eraan gelijk en 5% groter of eraan gelijk. Veelal zal een percentiel een van de data zelf zijn, maar in sommige gevallen is het percentiel het gemiddelde van twee opeenvolgende data. Percentielen zijn op soortgelijke wijze ook gedefinieerd voor kansverdelingen.

Definitie

bewerken

Laat   een reëel getal tussen 0 en 1 zijn.

Het  -de percentiel van de dataset bestaande uit de   getallen  , is het getal   dat voldoet aan:

  • ten minste   van de   getallen zijn niet groter dan  
  • ten minste   van de   getallen zijn niet kleiner dan  .

Het  -de percentiel van de kansverdeling van de stochastische variabele   is het getal   dat voldoet aan:

 

en

 

Gerelateerde termen

bewerken

Percentielen zijn kwantielen die bij een percentage behoren. Percentielen verdelen een dataset in 100 ongeveer gelijke delen. Het 50e percentiel wordt ook de mediaan genoemd. Het 25e, 50e en 75e percentiel worden ook respectievelijk het 1e, 2e en 3e kwartiel genoemd. Decielen zijn de percentielen die bij de percentages 10, 20, ... , 90 behoren.

Berekening

bewerken

De bovenstaande definitie leidt niet in alle gevallen tot een eenduidige bepaling van de percentielen. Er worden verschillende berekeningswijzen gehanteerd. Hieronder worden tien verschillende methoden besproken. Een voorbeeld laat zien hoe divers de uitkomsten van de berekeningen kunnen zijn.

Dichtstbijzijnde rangnummer

bewerken

De geordende steekproef   bestaat uit de van klein naar groot geordende   data. Voor het  -de percentiel neemt men het element in de dataset met het rangnummer dat "het dichtst" bij   ligt, en wel, met  :

 

Verschillende softwarepakketten: verschillende percentielen

bewerken

Hoewel de bovenstaande geijkte crf-definitie van het  -de percentiel een eenduidig bepaalde waarde oplevert, blijken softwarepakketten en rekenmachines, afhankelijk van de specifieke dataset, verschillende waarden voor hetzelfde percentiel te geven. Een percentielcalculator kan op maar liefst acht verschillende methoden de percentielen berekenen.[1]

TI-83 en TI-84

bewerken

Iets van de problematiek van praktische percentielberekeningen ziet men bij de berekening van kwartielen door de rekenmachines TI-83 en TI-84, die veel in het middelbaar onderwijs worden gebruikt. Voor de dataset 1, 2, ... , 9 geven deze rekenmachines   en  , terwijl volgens de crf-definitie   en  . Datzelfde verschijnsel treedt op bij alle datasets met  .

Dat probleem is op te lossen door in voorkomende gevallen de kwartielen te berekenen, waarbij de mediaan inclusief zowel tot de linkerhelft als de rechterhelft van de dataset wordt gerekend.

Het instructieboekje van de TI-83 vermeldt dat   de mediaan is van de punten tussen   en  , en dat   de mediaan is van de punten tussen   en  . Bij oneven   wordt echter de mediaan niet meegerekend, noch in de linker-, noch in de rechterhelft. Wel worden de kleinste en de grootste waarde in de rij meegerekend. De relatie tussen de geijkte percentielen en   en   is zwak. Bij bijvoorbeeld de dataset 1, 2, ... , 11 vallen drie punten uit de dataset: 3, 6 en 9, die immers medianen van een oneven aantal getallen zijn. Daardoor ligt links van   slechts 18,2% van de getallen en niet 25%. We zien dat door bepaalde keuzes percentielpunten, in dit geval kwartielen, anders berekend worden dan volgens de hierboven besproken geijkte crf-methode.

Referentiepunten

bewerken

In softwarepakketten worden diverse methoden gebruikt om percentielen van niet-geklasseerde data te berekenen. Dat er voor verschillende berekeningen wordt gekozen, heeft te maken met een eigenaardigheid van de crf-definitie. Alle  -de percentielen, met   zijn volgens deze definitie  . Voor veel percentages   vallen de percentielen dus samen met hetzelfde datapunt. Dat is een gevolg van het discrete karakter van een eindige dataset. Als de dataset een steekproef is uit een continue stochast en een percentiel van de dataset een schatting is van de percentiel van de populatie, dan is dat samenvallen van percentielen ongewenst. Dat is de reden dat percentielen vaak via lineaire interpolatie worden berekend. Feitelijk vervangt men dan de discontinue crf-grafiek door een continue polygoon. Men kan daarbij echter op verschillende manieren te werk gaan, waarbij verschillende methoden ook verschillende waarden voor hetzelfde percentiel kunnen opleveren.

Om verschillende methoden om percentielen te berekenen te kunnen onderscheiden, gebruiken we een referentiepunt, een getal, zoals  , dat is afgeleid van   en  . We onderscheiden van het betreffende referentiepunt het gehele deel   en de fractie  , zodat  .[1]

Methode A

bewerken

Bij deze methode is  .

Submethode A1:  , bovenstaande geijkte crf-methode

Submethode A2:  , variant op geijkte crf-methode, zonder gemiddelde

Submethode A3:  , gewogen gemiddelde

Methode B

bewerken

Bij deze methode is  .

Submethode B1:  [2]

Submethode B2:  , gewogen gemiddelde

Submethode B3:  

Methode C

bewerken

Bij deze methode is  .

 , dichtstbijzijnde datapunt, geen lineaire interpolatie

Het afronden van deze methode vindt op de gebruikelijke wijze plaats, maar om statistische vertekening te voorkomen, is 'afronden op even' hier aan te raden.

Methode D

bewerken

Bij deze methode is  .

 

Methode E

bewerken

Bij deze methode is  .

 [2]

Voorbeeld

bewerken

Gegeven de volgende dataset van 13 geordende getallen:

Rangnummer 1 2 3 4 5 6 7 8 9 10 11 12 13
Data 1 2 3 5 8 13 21 34 35 45 58 66 77

Met behulp van de negen besproken methoden en de TI-83 berekenen we de drie kwartielen en het 40e percentiel:

Methode: A1 A2 A3 B1 B2 B3 C D E TI-83
  5 5 3,5 4 4 4 3 5 5 4
  13 13 9 11 10 13 8 12 12 -
  21 21 17 21 21 21 21 21 21 21
  45 45 42,5 51,5 51,5 51,5 45 45 45 51,5

We zien dat afhankelijk van de berekeningsmethode, voor bovenstaande dataset, het 40e percentiel kan variëren van 8 tot 13. Opmerkelijk is dat methode A3 een mediaan oplevert die niet het middelste datapunt is.

Microsoft Excel: Inclusieve en exclusieve percentielen

bewerken

De versie 2013 van Excel kent zowel methode B1 als methode E voor het berekenen van percentielpunten. Het verschil tussen de rangnummers van een exclusief berekende percentiel en een inclusief berekende percentiel is:  . Het inclusief berekende percentiel ligt daardoor dichter bij de mediaan dan het exclusief berekende percentiel, maar het verschil neemt toe met de afstand tot de mediaan. Hoe groter deze afstand, des te meer ‘trekt’ de mediaan aan het percentiel.

Nemen we als voorbeeld het percentiel   van de dataset in het voorbeeld. Het rangnummer van het eerste kwartiel volgens de exclusieve methode (B1) is 3,5 en het bijbehorende eerste kwartiel is dus 4. Het rangnummer van het eerste kwartiel volgens de inclusieve methode (E) is 4 en het bijbehorende eerste kwartiel is 5. De inclusieve kwartielen liggen een half rangnummer dichter bij de mediaan dan de exclusieve kwartielen.

Waarschuwing

bewerken

Zoals uit het bovenstaande blijkt berekenen softwarepakketten percentielen van niet over klassen verdeelde data met verschillende methoden. Men mag dus niet zeggen dat de percentielwaarde die een pakket produceert ‘het’ percentiel is. De gebruiker van het pakket dient zich bewust te zijn van de methode waarmee de berekening wordt uitgevoerd. Statistische software kan niet blindelings worden gebruikt.

Percentielen van continue toevalsvariabelen

bewerken

Als   de kansdichtheid is van een continue toevalsvariabele   en   de bijbehorende verdelingsfunctie, dan kunnen we voor   het  e percentiel   berekenen via de inverse van de verdelingsfunctie:  . De oppervlakte onder de kansdichtheidsfunctie wordt verdeeld in een linkerdeel met oppervlakte   en een rechterdeel met oppervlakte  .

Statistische software en de grafische rekenmachines bevatten rekenroutines voor het berekenen van waarden van de inverse van de verdelingsfunctie van diverse continue stochasten en dus van het  e percentiel.

Voorbeeld

bewerken

Het 40e percentiel van de standaardnormale verdeling is  .

Percentielen van discrete toevalsvariabelen

bewerken

Bij het berekenen van percentielen van discrete toevalsvariabelen gaan we op dezelfde wijze te werk als bij het berekenen van percentielen van niet-gegroepeerde data. Als   de verdelingsfunctie is van de discrete toevalsvariabele  , volgt uit de definitie van percentiel voor niet-gegroepeerde data:

 

Als   en   twee opeenvolgende waarden zijn van  , en  , dan is  . Als daarentegen  , kan elk getal in het interval   het percentiel   zijn. Men zou in dat geval het percentiel gelijk kunnen kiezen aan het midden van het interval:  .

Percentielen van gegroepeerde data

bewerken

Zijn de   data verdeeld over   klassen  , is   de frequentie van de  -de klasse, zijn   en   de cumulatieve frequenties op de linker-, respectievelijk rechtergrens van de  -de klasse, en is  , dan kunnen we het  -de percentiel berekenen door toepassing van lineaire interpolatie:  

Voorbeeld

bewerken

Zeven studenten beoordelen hun leraar op een schaal van 1 tot en met 5. Als de scores 3, 3, 3, 3, 4, 4, 4 zijn, dan is de mediaan van de niet-gegroepeerde data 3. Als de scores 3, 3, 3, 4, 4, 4, 4 zijn, dan is de mediaan van de niet-gegroepeerde data 4. Men kan zich afvragen of het verschil tussen deze twee medianen wel realistisch is. Als men daarentegen de scores over twee klassen verdeelt, vindt men de medianen 3,375 en 3,675. Gezien de twee rijen scores lijken dit ‘eerlijker’ medianen.

Men ziet ook hier dat de keuze voor een specifieke methode bepalend is voor het verkregen antwoord.