Statistische analyse

Plaatsing in Heterodoxe Gazet Sam de Wolff: 14 december 2020

E.A. Bakkum is blogger voor het Sociaal Consultatiekantoor. Hij denkt graag na over de arbeiders beweging.

Hoewel de Gazet hecht aan de empirische toetsing van modellen, heeft zij daarover nog weinig gepubliceerd. Deze lacune wordt nu opgevuld met een uitleg van de theorie van de statistische analyse. Aan de orde komen statistische verdelingen, betrouwbaarheids-intervallen, lineaire regressies, tijdreeksen en panel gegevens. De formules worden toegepast op de conjunctuur-theorie van De Wolff, in een vergelijkende analyse van het BBP van zes staten, en in een beknopte analyse van het Nederlandse begrotings-tekort.

Een eerdere blog constateert, dat er vier categorieën van beleidsmodellen zijn: (I) historische beschrijvingen, (II) universele formuleringen, (III) statistische relaties, en (IV) actor-institutie arena's. Deze indeling is afkomstig van de Nederlandse socioloog A. de Swaan1. Eerst is een kant-tekening inzake de empirische gegevens nuttig. Elk model vereist zijn eigen type gegevens. De Nederlandse politicoloog A. Lijphart stelt een indeling in vier typen van empirische gegevens voor, te weten de casus, het statistische bestand, vergelijkingen van casussen (bijvoorbeeld diverse staten), en het experiment2. Een historische beschrijving (I) past uitstekend bij de casus. De studie concentreert zich op één geval, en gebruikt weinig abstractie. Zij is als het ware een geïsoleerde meting. De studie hanteert een groot aantal variabelen.

De statistische analyse (III) gebruikt gegevens van een groot aantal gevallen, en zoekt naar een kleine verzameling van universele verklarende variabelen. Het formele model (II) en de actor-institutie analyse (IV) kunnen ieder een handvol empirische gevallen onderling vergelijken. Maar zij kunnen ook gegevens gebruiken van experimenten, die zijn gedaan in een laboratorium omgeving. In de experimentele situatie van het laboratorium kan de onderzoeker de waarden van de variabelen redelijk goed beheersen.

Een eerdere blog suggereerde de toepassing van triangulatie, waarbij verschillende methoden worden gemengd (mixed methods)3. De menging heeft betrekking op de gebruikte modellen en typen gegevens. Het doel is natuurlijk om de zwakten en beperkingen van elk model en van elk type gegevens aan het licht te brengen. Logischer wijze moet de combinatie leiden tot een wetenschappelijke synergie4. Anderzijds komt triangulatie neer op een kritiek op de afzonderlijke methoden. Zij toont de rijkdom van de maatschappij-wetenschappen, en daarmee helaas tevens haar verdeeldheid en onvermogen. Daarom wekt zij al gauw weerstand op bij methodische puristen, die gehecht zijn aan hun eigen perspectief5. Triangulatie wordt bijzonder kwetsbaar voor zulk verzet, wanneer de synergie van de combinatie uitblijft.

Tot nu toe heeft de Gazet weinig aandacht besteed aan de aanpak III van statistische analyses. Enkele blogs presenteren tijdreeksen, maar die zijn alleen visueel onderzocht. Dat levert weinig inzicht op over de trendmatige ontwikkeling. Recent zijn resultaten van de statistische aanpak in het boek Politische Ökonomie onderzocht6. Dexe resultaten laten allereerst zien, dat de statistische modellen vatbaar zijn voor fouten. Maar tevens wordt duidelijk, dat zij een onmisbaar instrument zijn bij het uitvoeren van studies. Daarom zal de huidige blog dieper ingaan op de theorie en mogelijkheden van de statistische analyse.

Dementi: Regelmatig heeft de Gazet gewaarschuwd, dat blogs fouten kunnen bevatten. Eigenlijk zijn de blogs weinig meer dan persoonlijke notities. Gelukkig is uw blogger dermate belezen, dat flaters meestal onwaarschijnlijk zijn. Dat ligt anders bij de huidige blog. Uw blogger heeft wel veel gelezen over statistische methoden, maar ze weinig toegepast. En de kwaliteit van statistische analyses hangt sterk af van de ervaring van de analist. De ware vakman beschikt over een gereedschapskist vol statistische foefjes. Daarom is de huidige blog niet meer dan een persoonlijk leer-traject, waarin nog van alles kan fout gaan. Hier wreekt zich, dat de Gazet geen product van teamwerk is. Hopelijk is de lezer vergevings-gezind bij eventuele onzorgvuldigheden, en kan hij toch zijn voordeel doen bij deze publicatie7.


Verdelingen

Figuren van kansdichtheden
Figuur 1: Kansdichtheden voor
   (a) standaard normale verdeling,
   (b)Chi-kwadraat verdelingen, en
   (c) Student t verdelingen

Stel dat de waarde van een continue variabele x wordt bepaald door een toevalsproces. De statistische verdeling f(x) definieert de waarschijnlijkheden (probability). Immers, ∫xlxu  f(x') dx' geeft de kans aan, dat de waarde van x ligt tussen de grenzen xl en xu. De verdeling is genormeerd volgens ∫-∞  f(x') dx' = 1. De cumulatieve verdeling F(x) = ∫-∞x  f(x') dx' geeft de kans aan, dat de waarde kleiner dan of gelijk aan x is. Verdelingen, die nuttig zijn voor statistische analyses, zijn gewoonlijk beschikbaar in de vorm van tabellen. De meest bekende continue verdeling is de standaard normale verdeling N(0, 1) met gemiddelde μ=0 en variantie σ²=1. Zij is weergegeven in de figuur 1a. Nuttig is ook de Chi-kwadraat verdeling χ²(v). De parameter v wordt de vrijheids-graad genoemd. De figuur 1b toont de vorm van deze verdeling voor enkele waarden van v 8.

De Student t verdeling wordt afgeleid uit de N(0,1) en χ²(v) verdelingen. Namelijk, zij definieert de toevals-variabele als t = z / √(s/v), waarbij z voldoet aan de standaard normale verdeling, en s aan de χ²(v) verdeling9. Dit betekent dat ook de t verdeling wordt gekenmerkt door de vrijheids-graad v. Bovendien moeten z en s stochastisch onafhankelijk zijn. De figuur 1c toont de Student t verdeling voor enkele vrijheids-graden. Naarmate het aantal vrijheids-graden toeneemt, wordt de verdeling smaller en hoger. Dit is intuïtief logisch. Immers, de kans op een grote waarde van s neemt toe, wat t kleiner maakt. Tenslotte moet nog de F verdeling worden genoemd. Zij definieert de toevals-variabele als f = (s1/v1) / (s2/v2). Hier heeft sk een χ²(vk) verdeling (k=1, 2), en s1 en s2 zijn onderling onafhankelijk10. Men schrijft de kansdichtheid als g(f, s2, v1, v2).

Het is eenvoudig in te zien, dat de Student t verdeling belangrijk is voor statistische analyses. Stel de populatie heeft een gemiddelde μ en een variantie σ². Als x* het gemiddelde is van een steekproef met waarnemingen xn (n=1, ..., N), dan heeft x* de normale verdeling N(μ, σ²/N). Dien ten gevolge heeft z = √(N) × (x* − μ) / σ de standaard normale verdeling. De variantie van de steekproef is S² = Σn=1N  (xn − x*)² / (N−1). Deze wordt gebruikt als de schatting voor σ². Men vindt als resultaat t = √(N) × (x* − μ) / S. Helaas is deze t niet meer standaard normaal verdeeld. Men kan aantonen, dat s = (N−1) × (S/σ)² de χ²(N−1) verdeling heeft11. Merk nu op, dat geldt t = z /√(s / (N−1)). Dien ten gevolge leidt de schatting van S voor σ tot een variabele t, die voldoet aan de Student t verdeling met N−1 vrijheidsgraden. Als N voldoende groot is, dan zijn S en σ vrijwel gelijk. In dat geval kan de analyse gebruik maken van de normale verdeling12.


Betrouwbaarheids-interval

Stel men heeft een steekproef genomen, en daaruit het gemiddelde x* en de standaard fout S berekend. Hier is x* de schatting van het gemiddelde μ van de gehele populatie. In de natuur wetenschappen neemt men gewoonlijk genoegen met S als een maat voor de betrouwbaarheid van de schatting x*. Echter als x* de grondslag vormt voor belangrijke beslissingen, dan wil men preciese informatie hebben over de betrouwbaarheid van x*, als schatting van μ. Het is dan nuttig om een betrouwbaarheids-interval te berekenen. Dat interval wordt gedefinieerd als [x* − z×S, x* + z×S], waarbij z een positief getal is. Nu is er een kans p(z), dat μ inderdaad ligt in dit interval. Men spreekt van een p (%) betrouwbaarheids-interval.

Als de verdeling van x* bekend is, dan kan p worden afgelezen uit tabellen. Voor kleine steekproeven, met N≤30, hanteert men gewoonlijk de t-verdeling met N−1 vrijheids-graden. Voor grotere steekproeven neemt men de normale verdeling. Bijvoorbeeld nemen natuur wetenschappers kennelijk genoegen met z=1. Dan is er voor een grote steekproef een kans p van 68.3%, dat inderdaad μ in het interval ligt. Maar in de maatschappij wetenschappen streeft men vaak naar een hogere betrouwbaarheid, zeg van p=95%. In dat geval moet men de bijbehorende waarden van z (of t) aflezen in de tabellen13.

Voorts kan men hypothesen toetsen met het interval. Een voorbeeld van een hypothese is, dat de gemiddelden van de steekproef en de populatie samenvallen. Dat wil zeggen, H0: x* = ν. Hierbij is ν de hypothetische waarde van het onbekende gemiddelde μ van de populatie. Men kiest een interval met betrouwbaarheid p (zeg, 95%). Als ν in dit interval ligt, dan wordt de nul hypothese H0 geaccepteerd. Het significantie niveau van de toets is de kans, dat H0 wordt verworpen, terwijl zij waar is. Bij een 95% betrouwbaarheids-interval is het significantie niveau 5%. Dat wil zeggen, de verdeling laat waarden toe voorbij de grens z×S, maar hun kans van voorkomen is gering. Algemeen is het significantie niveau gelijk aan 1−p. Als H0 wordt verworpen, dan is de onderzoeks-hypothese waar. Zij luidt voor het huidige voorbeeld H1: x*≠ν.


De methode van de kleinste kwadraten

Beschouw het probleem y = φ(x, ε), waarin x = (x1, ..., xM) een verzameling van M onafhankelijke variabelen is. Hun waarden zijn bekend, bijvoorbeeld omdat zij worden gemeten. Zij worden wel predictoren genoemd. De variabele y is een functie van de xm, en wordt daarom afhankelijk genoemd. De waarde van de variabele ε is niet vooraf bekend, maar wordt bepaald door een continue kans-verdeling met frequentie- of dichtheids-functie f(ε). Andere namen zijn kansdichtheid of frequentie-verdeling. Daarom heeft ε een toevallige waarde. Hier kan ε optreden om allerlei redenen. Bijvoorbeeld bevat het probleem een loterij, of onbekende onafhankelijke variabelen, of y wordt gemeten met een statistische fout. Aangezien de waarde van ε niet-gedetermineerd is, is y een statistische variabele. Wel neemt men aan, dat de verwachting E(ε) gelijk is aan 0. Als φ een lineaire functie is, dan vindt men14

(1)     y = β + ε + Σm=1M  αm × xm

Stel dat men x en y kan meten in N verschillende situaties. Men verzamelt dan reeksen van waarnemingen xn = (x1n, ..., xMn) en yn, met n=1, ..., N. Het blijkt nu mogelijk te zijn om de waarden van αm en β te schatten aan de hand van de verzameling van waarnemingen. Duid de schattingen van αm en β aan met de letters am en b. De meest populaire schatting is de methode van lineaire kleinste kwadraten (LKK) (in het Engels least squares)15. Beschouw gemaks halve eerst de situatie met M=1 (dus α1 = α). Dan bestaat de meetserie uit N paren (xn, yn). Zie de blauwe punten in figuur 2. De groene lijn geeft het veronderstelde lineaire verband tussen x en y aan. De afwijking van de metingen ten opzichte van de lijn wordt gedefinieerd als

(2)     Q = Σn=1N  (yn − (b + a×xn))²

Figuur van regressie
Figuur 2: Regressie met geschatte
   lijn y' en gemiddelde y*

Definieer het gemiddelde van een rij xn als x* = Σn=1N  xn/N, en de variantie als Sx² = Σn=1N  (xn − x*)² / (N−1). Evenzo vindt men y* (rode lijn in figuur 2) en Sy². Hier worden Sx en Sy de standaard-afwijkingen van de rijen xn en yn ten opzichte van hun gemiddelden genoemd. Definieer de covariantie van xn en yn als Sxy = Σn=1N  (xn − x*) × (yn − y*) / (N−1) 16. Maak nu Q minimaal. Dat vereist ∂Q/∂b = 0 en ∂Q/∂a = 0. Na enig uitschrijven vindt men de LKK schattingen

(3a)     b = y* − a × x*
(3b)     a = Sxy / Sx²

Interessant is ook rxy² = a × Sxy / Sy². Dit wordt de coëfficiënt van determinatie genoemd. Er geldt rxy² = 0, wanneer het lineaire verband van formule 1 ontbreekt. Als geldt rxy² = 1, dan worden de metingen exact beschreven door de lijn. Dan is Q=0. Dus rxy² drukt de fractie van y uit, die wordt verklaard door x. Dit kan ook als volgt worden ingezien17. Zij y'n = b + a×xn de voorspelling van yn. Dan wordt en = yn − y'n het residu van yn genoemd (figuur 2). Kennelijk is Q de aggregatie van residuen en. Evenzo meet Σn=1N  (yn − y*)² = Sy² × (N−1) de totale afwijking, wanneer men yn zou voorspellen met a=0. Immers dan zou yn' = y* zijn. Dien ten gevolge meet V = Q / (Sy² × (N−1)) de variatie in yn, die niet wordt verklaard door y'm(xn). De verklaarde fractie is de rest, te weten rxy² = 1 − V 18. Soms hanteert men de correlatie-coëfficiënt rxy. Diens teken geeft aan, hoe x inwerkt op y. Merk op, dat rxy kan worden herschreven als19

(4a)     rxy = Sxy / (Sx × Sy) = a × Sx/Sy
(4b)     Sr² = (1 − r²) / (N−2)

Uiteraard is het wenselijk om de betrouwbaarheid van de schattingen a en b te kennen. Zij blijkt inderdaad berekend te kunnen worden, althans wanneer wordt aangenomen, dat de onzekerheid ε voldoet aan de normale verdeling met gemiddelde (verwachting) E(ε) = ε* = 0 en variantie E(ε²) = var(ε) = σ². Met andere woorden, ε is verdeeld als N(0, σ²). Na een wat lange maar eenvoudige berekening vindt men20

(5a)     var(b) = σ² × (1/N + (x*)² / ((N-1) × Sx²))
(5b)     var(a) = σ² / ((N-1) × Sx²)

Natuurlijk is σ² gewoonlijk onbekend. Zij moet worden geschat als

(6)     s² = (Sy² − Sxy² / Sx²) × (N−1) / (N−2)

Merk op, dat de formule 6 kan worden herschreven als s² = Sy² × (1 − rxy²) × (N−1) / (N−2) 21. Men noemt s de standaard fout van de (regressie-)schatting22. Dankzij de formule 6 kunnen var(a) en var(b) worden geschat. De standaard fouten Sa en Sb van de schattingen a en b zijn simpelweg de wortels van deze varianties.

Multipele regressie

Er is sprake van een multipele regressie, wanneer diverse onafhankelijke variabelen invloed hebben op y. Er geldt M>1. De schatting of voorspelling van een meetpunt yn krijgt de gedaante

(7)     y'n = b + Σm=1M  am × xmn

In de formule 7 is xmn de waarneming n van de variabele xm. De regressie methode maakt ook hier de grootheid Q = Σn=1N  (yn − y'n)² van de steekproef (ter grootte N) minimaal. Beschouw eerst de eis ∂Q/∂b = 0. Deze voorwaarde leidt tot b = y* − Σm=1M  am × x*m. Substitueer deze waarde van b in de formule 7, dan kan die worden geschreven in termen van y'n − y* en xm − x*m. Kennelijk wordt b verwijderd uit de formule 7, wanneer men de variabelen opvat als afwijkingen ten opzichte van hun gemiddelde. Merk vervolgens op, dat geldt Q = Σn=1N  (yn − y* − (y'n − y*)². Met andere woorden, de regressie methode geeft dezelfde resultaten, wanneer men rekent met de afwijkingen in plaats van met de x- en y-waarden zelf. In het huidige betoog wordt verder aangenomen, dat de waarden van de variabelen inderdaad zulke afwijkingen uitdrukken. Dan verdwijnt de constante term b uit de formule 7 23.

Merk voorts op, dat xmn een element is van een M×N matrix X. Zij X de getransponeerde matrix van X. Kennelijk geldt na eliminatie van b de matrix-vergelijking24

(8)     y' = X · a

De matrix notatie maakt de formules van de regressie methode overzichtelijker. Bijvoorbeeld kan men Q schrijven als het inproduct (yy') · (yy'), waarbij (yy') een liggende (horizontale) vector is. Men stelt als eis ∂Q/∂am = 0. Daaruit volgen de waarden van de schatter am en zijn variantie

(9a)     a = (X · X)-1 · X · y
(9b)     var(a) = (X · X)-1 × σ²

In de formules 9a-b betekent de boven-index -1, dat men de inverse matrix van X · X moet nemen. Merk op, dat var(a) hier een matrix is, de zogenaamde covariantie matrix. Deze M×M matrix heeft de varianties van am op de diagonaal.


Kwalitatieve variabelen

Gewoonlijk kunnen de variabelen xn en yn allerlei numerieke waarden aannemen. De regressie in de formule 1 neemt aan, dat de onafhankelijke variabelen xm kwantitatief zijn. Echter in de maatschappij-wetenschappen zijn variabelen vaak kwalitatief. Dat wil zeggen, de meetwaarde constateert de aanwezigheid van een bepaalde kwaliteit, of juist niet. Denk aan het geslacht (vrouw of niet), of de religie (hindoe of niet). Men noemt een kwalitatieve variabele een dummy, omdat zij binair (dichotoom) is (met waarden ja/nee, of toch numeriek 1 of 0). Zulke gegevens kunnen worden opgenomen in de formule 1 als onafhankelijke variabelen. Bijvoorbeeld, beschouw het model

(10)     y = β + ε + α1×x1 + α2×x2

Stel dat x2 een onafhankelijke dummy variabele is. De waarde x2 = 1 laat y extra veranderen met een vast getal α2. Feitelijk bestaat dan de formule 10 uit twee vergelijkingen, met een constante term van β voor x2=0 en een constante term van β + α2 voor x2=1. De helling α1 is gelijk voor beide vergelijkingen. De dummy variabele splitst als het ware de steekproef (x1n, yn) met n=1, ..., N in twee groepen. De schatting van α1 baseert echter nog steeds op de minimalisatie van de totale kwadraten-som Q. De regressie is niet zonder meer mogelijk, wanneer de afhankelijke variabele y kwalitatief is. In die situatie moet het probit model worden toegepast. Dit model is al zeven jaren terug beschreven in de Gazet, in de blogs over de geluks-economie.


Tijdreeksen

De kwantitatieve analyse van maatschappelijke fenomenen maakt vaak gebruik van tijdreeksen. Hierbij heeft de meetserie de vorm van waarnemingen (x1(t), ..., xM(t), y(t)). Men neemt voor t een discreet tijdstip, met waarden t = 1, 2, ..., T. Ook nu kan een regressie worden uitgevoerd met y(t) als de afhankelijke variabele, bijvoorbeeld in de lineaire vorm van de formule 1. In dit geval zijn de T situaties niet automatisch onderling onafhankelijk, want zij volgen elkaar op in de tijd25. Het gebeurt nogal eens, dat de waarde y(t) afhankelijk is van sommige voorgaande waarden y(t−k), met k = 1, ..., t−1. Men noemt dit een auto-correlatie of seriële correlatie. Dit is een probleem, want in zo een situatie zijn de fouten ε(t) van het model soms onderling afhankelijk. Zij zijn niet meer toevallig verdeeld volgens de verdeling f(ε). Dan zijn helaas de regressie-formules 3a-b niet meer geldig.

De fouten ε(t) verliezen bijvoorbeeld hun toevalligheid, wanneer een belangrijke xm wordt weggelaten uit de formule 1. Dan verplaatst de auto-correlatie van de ontbrekende xm zich als het ware in de fout, die daardoor gecorreleerd wordt26. Vaak is vooraf niet duidelijk, welke predictoren xm echt nodig zijn. Dien ten gevolge moet bij elke model-berekening met een tijdreeks achteraf worden gecontroleerd, of er een auto-correlatie is. Zij y* = Σt=1T  y(t) / T het gemiddelde van de tijds-waarnemingen. Dan is de betreffende correlatie-coëfficiënt27

(11)     rk = Σt=k+1T  (y(t) − y*) × (y(t−k) − y*) / Σt=1T  (y(t) − y*)²

Men moet nu toetsen, of de absolute waarde van rk voldoende klein is. Een veel gebruikte methode is de Durbin-Watson toets. Zij y'(t) de voorspelling van het model, en e(t) = y(t) − y'(t) het residu. De Durbin-Watson statistiek is

(12)     D = Σt=2T  (e(t) − e(t−1))² / Σt=1T  e(t)²

Als er auto-correlatie is, dan zullen de residuen e(t) en e(t−1) ongeveer overeenkomen. Daarom vereist de afwezigheid van auto-correlatie een grote waarde van D. Stel dat men met een significantie van p wil toetsen of de residuen vrij zijn van auto-correlatie. Dan kan men, bij een tijdreeks ter grootte van T, in een tabel de grenswaarden voor D opzoeken28.

Men wil natuurlijk de seriële correlatie in de analyse opheffen. Soms helpt de transformatie naar differenties (differencing), waarbij men η(t) = y(t) − y(t−1) gebruikt als afhankelijke variabele. Deze truc werkt met name, wanneer y(t) een autonoom trendmatig gedrag heeft. Men neemt in feite de trend op in het model. Men hoopt, dat de fouten εη(t) = ε(t) − ε(t−1) wel onderling onafhankelijk zijn. Een variant is de correctie van de analyse via quasi-differenties. In deze aanpak moet men de regressie uitvoeren met η(t) = y(t) − ρ×y(t−1) en ξ(t) = x(t) − ρ×x(t−1). Hierbij wordt ρ geschat met de formule29

(13)     ρ' = Σt=2T  e(t) × e(t−1) / Σt=1T  e(t)²


Panel gegevens

Figuur van diverse regressies
Figuur 3: Regressie met dummy
   (twee lijnen) en zonder (één lijn)

Men spreekt van panel gegevens, wanneer een steekproef van N waarnemingen bestaat uit tijdreeksen met een gelijke duur T. Dat wil zeggen, de meetpunten (xn(t), yn(t)) hangen ook af van de tijd t. Er is als het ware een steekproef ter grootte T binnen elke waarneming van de steekproef ter grootte N. Men noemt de verzameling van N meetpunten op een tijdstip t een dwarsdoorsnede (cross section). Elk meetpunt n is eigenlijk een casus30. Bijvoorbeeld, men kan een bepaalde variabele y(t) bestuderen in N verschillende staten, zoals het bruto binnenlands product, de werkloosheid, of het vertrouwen in de politiek. Aangezien elke casus n bestaat uit een tijdreeks, wordt daarmee tevens de ontwikkeling van een staat vergeleken met andere. De resultaten van enkele studies met een panel-aanpak zijn beschreven in twee recente blogs.

Panel gegevens kunnen op diverse manieren worden gebruikt voor een regressie van de afhankelijke variabele y. In de vergelijkende analyse van N staten besluit men meestal om de panel gegevens (xmn(t), yn(t)) met (m=1, ..., M), (n=1, ..., N), en (t=1, ...T) te beschouwen als één groot bestand. Deze aanpak heet samenvoeging van de gegevens of in het Engels pooling. Samenvoegen heeft het voordeel, dat de regressie baseert op veel empirische gegevens, te weten N×T meetpunten, om de β en αm van de formule 1 te schatten. Daarmee wordt het probleem opgelost, dat het aantal casussen N vaak wat te klein is voor een nauwkeurige schatting. Merk op, dat de regressie na samenvoeging leidt tot dezelfde constante term en regressie-coëfficiënten voor alle N casussen. Echter pooling leidt tot eigen problemen. De variabele yn(t) van de casus n kan lijden aan een auto-correlatie. Aldus zitten in het totale bestand allerlei onwenselijke auto-correlaties verborgen.

Een alternatieve werkwijze is om in de regressie een dummy-variabele xM+n op te nemen voor elke casus n. Dan krijgt elke casus zijn eigen constante term βn = β + αM+n. Dit vergroot het aantal regressie-coëfficiënten, en dus tevens hun standaard fouten. Interessant is ook de figuur 3, die illustreert hoe de toevoeging van een dummy variabele de helling a1 zeer kan veranderen. Zonder dummy zijn de groene en rode punten van twee casussen samengevoegd, wat leidt tot de zwarte regressie. Met dummy zal de regressie-analyse de groene waarnemingen toeschrijven aan x2=0 en de rode waarnemingen aan x2=1. Dat leidt tot de groene en rode regressie lijnen. Hun hellingen a1 zijn nog steeds gelijk, maar kleiner dan zonder dummy. De verticale afstand tussen de twee lijnen is a2.


Casussen

Casus: de conjunctuur-theorie van Sam de Wolff

In twee blogs is uitgelegd, dat Sam de Wolff, de naamgever van de Gazet, de economische conjunctuur verklaart uit de activiteit van zonne-vlekken. Er is een dubbele causaliteit. In vlekken-rijke jaren zou de oogst uitbundig zijn31. En een uitbundige oogst zorgt voor een bloeiende economie32. Een blog laat zien, dat De Wolff de Relativ-zahlen van de astronoom R. Wolf gebruikt als maat voor de activiteit van zonne-vlekken. Hij vergelijkt de getallen van Wolf met de omvang van de Franse graan-oogst, voor de periode 1841-1895. Volgens De Wolff vertoont de graan-oogst inderdaad dezelfde golf-beweging als de getallen van Wolf.

Uw blogger heeft nu de invloed van de zonne-vlekken op de oogst nagerekend met een enkelvoudige regressie33. Het model is y = β + ε + α×x (x = activiteit van zonne-vlekken, y = oogst), en de steekproef heeft T=55. De correlatie-coëfficiënt rxy is slechts 0.083. De helling a van de lijn is 0.005 + 0.008. Dat wil zeggen, zij heeft het juiste (positieve) teken, maar dit teken is niet significant op het 5% niveau. De berekening laat ook zien, dat er een kans van p=55% is dat men deze helling vindt, terwijl in werkelijkheid geldt α=0 34. Uiteraard betekent α=0, dat de lijn horizontaal loopt, zodat de oogst niet wordt beïnvloed door de activiteit van zonne-vlekken. De waarde van de t statistiek voor a is slechts 0.60!

De blog laat ook zien, dat De Wolff de getallen van Wolf vergelijkt met het indexcijfer van Sauerbeck, dat het Engelse prijspeil beschrijft, voor de periode 1825-1913. Volgens De Wolff vertoont de index van Sauerbeck inderdaad dezelfde golf-beweging als de getallen van Wolf. Ook dit is nagerekend met een enkelvoudige regressie. Hier is de correlatie-coëfficiënt rxy iets beter, namelijk 0.17. De helling a van de lijn is 0.10 + 0.06. De berekening laat ook zien, dat er een kans van p=11% is dat men deze helling vindt, terwijl in werkelijkheid geldt α=0. Inderdaad is de waarde van de t statistiek voor a nu redelijk groot, namelijk 1.63. Kennelijk is hier het positieve teken nog net significant op het 11% niveau35. Men zou met deze statistische analyse kunnen beweren, dat de conjunctuur-theorie van De Wolff juist is! De zonne-vlekken zijn een verklarende factor voor de conjunctuur, al is het slechts voor een klein deel.

Helaas lijden de indexcijfers van Sauerbeck onder een sterke auto-correlatie. De correlatie-coëfficiënt is maar liefst r1 = 0.90 36. Als men de lijst van residuen e(t) tussen 1826 en 1913 bekijkt, dan zijn de positieve residuen geconcentreerd in bepaalde perioden, en de negatieve residuen juist in de tussenliggende perioden. Dien ten gevolge is de Durbin-Watson statistiek zeer klein, te weten D = -0.0013 37. Als men de Durbin-Watson tabel raadpleegt, dan zou D groter moeten zijn dan 1.68 om auto-correlatie uit te sluiten, op het 5% significantie niveau. Beneden D=1.63 is er tamelijk zeker auto-correlatie, met een 5% significantie niveau38. Kennelijk is het twijfelachtig om de regressie met de formules 3a-b toe te passen. Het is duidelijk, dat het model van de Wolff belangrijke predictoren van de Sauerbeckse index weglaat.

Voor de volledigheid is ook de invloed van de oogst op het indexcijfer van Sauerbeck statistisch berekend uit de tijdreeksen van De Wolff. Men vindt voor de correlatie coëfficiënt rxy = -0.22, en dat is beter dan de twee voorgaande. Maar hier is de helling negatief (-2.2 + 1.3), wat strijdig is met de verwachting van De Wolff. Bovendien is het min-teken merkwaardig, gezien de eerder gevonden twee positieve hellingen. Het illustreert hoe moeilijk de resultaten van statistische analyses zijn te begrijpen. Men zou kunnen proberen om het model te verbeteren, bijvoorbeeld door meer predictoren toe te voegen. Maar dan verliest men eigenlijk de essentie van de causaliteit in de conjunctuur-theorie van de Wolff. Uw blogger voelt zich niet geroepen om dit probleem nauwkeuriger te onderzoeken.

Casus: het bruto binnenlands product van vijf staten

In diverse blogs is grafisch de ontwikkeling van het bruto binnenlands product (afgekort BBP) vergeleken voor een aantal westerse staten. Dat maakt in een oog-opslag zichtbaar hoe de economieën van deze staten worden beïnvloed door regionale incidenten. Het is echter ook interessant om een statistische analyse uit te voeren van de gepresenteerde tijd-reeksen. Dit wordt nu gedaan voor zes staten, te weten Nederland, België, (West-)Duitsland, Frankrijk, het Verenigd Koninkrijk, en de Verenigde Staten van Amerika. De gegevens zijn ontleend aan bestanden bij het Groningen Growth and Development Centre. Uw blogger heeft de Conference board total economy database (CBTED) al gekopieerd in 2010. Sindsdien heeft de universiteit het bestand wat gewijzigd, qua presentatie. In het bestand van 2010 liepen de gegevens van 1950 tot 2009, maar de statistische analyse wordt hier beperkt tot het interval 1956-1990.

Tabel 1: correlatie coëfficiënten van BBP groeivoeten
Periode 1956-1990 (* significant op 5% niveau)
 NLBEDLFRVKVSA
Nederlandxxxxxx
België0.73*xxxxx
West-Duitsland0.65*0.54*xxxx
Frankrijk0.70*0.77*0.67*xxx
Verenigd Koninkrijk0.41*0.38*0.39*0.38*xx
Verenigde Staten0.43*0.270.36*0.250.56*x

De berekening wordt uitgevoerd voor de groeivoeten van het BBP, en niet voor het BBP zelf. De gegevens zijn uiteraard gecorrigeerd voor de inflatie. Merk op, dat de berekening van de groeivoet overeen komt met differeren (differencing) van de oorspronkelijke tijdreeks. Dit vermindert gewoonlijk de auto-correlatie in de tijdreeks39. De tabel 1 geeft de correlatie coëfficiënten rxy aan voor de groeivoeten 40. Wegens de symmetrie is de rechter bovenhoek niet ingevuld. De tabel laat zien, dat de groei en de conjunctuur van Nederland, België, Duitsland en Frankrijk gecorreleerd zijn. De economie van het Verenigd Koninkrijk wijkt enigszins af van de Europese trend. Wellicht komt dat, omdat er minder weder-opbouw was na de Tweede Wereldoorlog. Overigens verklaart zelfs de hoogste waarde rxy = 0.77 slechts 60% van de ene conjunctuur met de andere. Dat is weinig voor een predictor.

De correlatie met de Noord-Amerikaanse economie is duidelijk zwakker, en zelfs niet meer significant voor België en Frankrijk. Dit komt overeen met de figuur van de tijdreeks in een eerdere blog. Bijvoorbeeld beleeft de Europese economie een hausse in 1970, terwijl de VSA dan juist een baisse hebben. En de Europese economie bloeit op tussen 1980 en 1990, terwijl de Amerikaanse economie dan juist inzakt.

Tabel 2: correlatie coëfficiënten van BBP groeivoeten
Periode 1980-1990 (* significant op 5% niveau)
 NLBEDLFRVKVSA
Nederlandxxxxxx
België0.51xxxxx
West-Duitsland0.92*0.51xxxx
Frankrijk0.440.65*0.47xxx
Verenigd Koninkrijk0.320.090.220.41xx
Verenigde Staten0.57-0.030.44-0.010.51x

Uiteraard veranderen de onderlinge economische verhoudingen voortdurend. Een lange tijdreeks zoals 1956-1990 wist deze dynamiek uit. In de tabel 2 is de statistische analyse herhaald, maar nu voor de kortere periode 1980-1990. Inderdaad ziet men nu de invloed van tijdelijke verschijnselen41. Bijvoorbeeld zijn de Franse en Amerikaanse economie niet aantoonbaar gecorreleerd, omdat indertijd de regering-Mauroy onder Mitterrand een autonoom beleid voert. In deze periode profiteert de Engelse economie van het Thatcher beleid, en heeft een indrukwekkende opbloei. Dien ten gevolge ligt de Engelse groei in tussen de Europese en Amerikaanse trend, wat zichtbaar is in de correlaties van tabel 2. Merk tenslotte op, dat de correlaties in de tabel 2 bijna allemaal lager zijn dan die in de tabel 1. Kennelijk zijn op de korte termijn de economieën minder afhankelijk dan op de lange termijn.

Casus: Modellering van het tekort op de Nederlandse begroting

Blijkens een eerdere blog wordt de hoogte van de staatsschuld bepaald door economische en institutionele factoren. De economische groei, een positieve handels-balans, en een lage rentevoet reduceren de schuld. Vergrijzing en veto-spelers vergroten de schuld, en ook de partij-politiek heeft invloed. Hetzelfde moet gelden voor het tekort op de staats-begroting, omdat dit dwingt tot lenen en tot de vorming van de schuld. Dien ten gevolge is het begrotings-tekort een geschikte afhankelijke variabele y(t) om de multipele (multivariate) regressie te beproeven. De statistische analyse zal worden uitgevoerd voor Nederland in de periode 1963-2013. Er worden drie onafhankelijke variabelen gebruikt, te weten de groeivoet van het bruto binnenlands product (x1(t)), en de aanwezigheid van een centrum-linkse (x2(t)) of centrum-rechtse (x3(t)) regering.

Grafiek van groeivoet en begrotings-tekort
Figuur 4: Nederlandse groeivoet en tekort
   op de begroting

De gegevens voor de groeivoet zijn bijna helemaal berekend uit de BBP gegevens van de Conference board total economy database (CBTED) van het Groningen Growth and Development Centre. Alleen de groeivoeten van 2010-2013 zijn berekend uit BBP gegevens van de OESO. De gegevens voor het tekort op de Nederlandse begroting (in % BBP) zijn overgenomen uit diverse bronnen42. De twee tijdreeksen worden weergegeven in de figuur 4. Zij vertonen duidelijk overeenkomsten, behalve tussen 1980 en 1990, toen de groei moest worden gebruikt om de tekorten te stabiliseren! De correlatie coëfficiënt tussen deze twee reeksen is rxy = 0.34. De correlatie is significant op het 5% niveau43. Helaas blijkt er ook auto-correlatie op te treden in de tijdreeks van het tekort44.

Er wordt hier verder niet geprobeerd om de auto-correlatie te verwijderen. De huidige statistische analyse is vooral een vinger-oefening, ten einde enig begrip te krijgen van de beschikbare methoden en instrumenten. Daarom wordt het verband tussen de reeksen toch onderzocht met enkele simpele regressie-vergelijkingen, ondanks de auto-correlatie. Eerst wordt de eenvoudige regressie van de formules 3a-b uitgevoerd met het model y = β + ε + α×x 45. Men vindt voor deze tijdreeks met T = 51 de geschatte waarden b = -4.0 + 0.5 en a = 0.35 + 0.14. Een stijging van de groeivoet met 1% reduceert het tekort met 0.35%.

Vervolgens wordt geprobeerd om de partij-politiek te verwerken in het model. Daartoe moeten de regerings-partijen van de periode 1963-2012 worden ingedeeld in het links-rechts spectrum. Hier wordt gekozen voor de klassificatie van de tabel 3. De indeling naar partij-ideologie is een poging om de algemeen heersende opvattingen in de betreffende periode samen te vatten46. Tussen 1963 en 2012 bevatten de kabinetten in Nederland altijd minstens één centrum-partij. Meestal is het centrum in het kabinet sterker dan de flank-partij(en). Dat was alleen niet het geval bij de Paarse kabinetten. Hier hielden de linkse en rechtse partij elkaar in evenwicht, zodat zij in de tabel 3 worden ingedeeld als een centrum-kabinet. Inderdaad wordt de ideologie van deze kabinetten ook wel aangeduid als het radicale midden. Het verkiezings-jaar wordt toegewezen aan het vertrekkende kabinet.

Tabel 3: spectrum van politieke partijen en kabinetten
ideologiepartijenkabinetten
linksPvdA, DS'70, PPR 
middenKVP, ARP, D66, CDA, CU 
rechtsCHU, VVD, LPF 
centrum-links 1965-1966, 1973-1977, 1981-1982,
1989-1994, 2006-2010
centrum 1966-1967, 1994-2002
centrum-rechts 1963-1965, 1967-1973, 1977-1981,
1982-1989, 2002-2006, 2010-2012

De ideologie is een nominale variabele, en daarom kwalitatief. Toch kan zo een variabele worden opgenomen in een regressie-analyse. Daartoe voegt men zogenaamde dummy variabelen toe aan het model47. Het model wordt y = β + ε + α1×x1 + α2×x2 + α3×x3. Hier blijft x1 de groeivoet. Als het kabinet centrum-links is, dan is x2=1, en anders 0. En evenzo, als het kabinet centrum-rechts is, dan is x3=1, en anders 0. Als x2 = x3 = 0, dan is er kennelijk een centrum-kabinet. Er zijn nu zes correlatie coëfficiënten. De coëfficiënt rx1,y verandert weinig, en is 0.36. De twee nieuwe correlatie coëfficiënten rx2,y en rx3,y zijn klein, te weten respectievelijk -0.08 en -0.11.

Inderdaad is het resultaat van de multipele regressie teleurstellend. De berekening met de formules 9a-b geeft b = -3.1 + 0.9, a1 = 0.38 + 0.15, a2 = -0.9 + 1.0, en a3 = -1.4 + 0.9. De regressie wijst duidelijk niet op een significante invloed van de partij-politiek48. Kennelijk is het hier onderzochte model ondeugdelijk. Uw blogger voelt zich momenteel niet geroepen om een beter model te bedenken. Men zou incidenten moeten opnemen in het model, zoals de olie-crises van 1973 en 1979, de crisis van de new economy in 2000, en de financiële crisis van na 2007. Overigens is het twijfelachtig, of enig model in staat zal zijn om een invloed van de Nederlandse partij-politiek op het begrotings-tekort te ontdekken. Immers, de Nederlandse politiek hecht aan een beleid van consensus. Radicaal beleid komt weinig voor, en is ten minste in de periode 1963-2012 nooit van lange duur.

De afwezigheid van partij-politieke invloed op het begrotings-tekort is strijdig met de conclusie in een eerdere blog. De conclusie baseert op een studie van 21 OESO staten, inclusief Nederland. Hierbij moeten twee opmerkingen worden gemaakt. Weliswaar is de conclusie significant op het 5% niveau, maar er wordt niet vermeld hoeveel de partij-politiek verklaart van het tekort. Het kan een klein effect zijn, dat verdwijnt bij een andere keuze van de onafhankelijke variabelen, en dus instabiel is. En ten tweede geldt de conclusie alleen voor het hele panel bestand. De gegevens van Nederland vormen een deel van de analyse, een casus op zich, maar die is niet afzonderlijk bestudeerd. Daarom is denkbaar, dat de invloed weliswaar significant is in enkele staten, maar afwezig is in Nederland.

Evaluatie

De drie casussen illustreren hoe men statistische methoden kan toepassen om de maatschappelijke ontwikkelingen te analyseren. Helaas hebben de gegevens vaak de vorm van tijdreeksen, en die zijn eigenlijk minder geschikt voor de statistische analyse. Er treden problemen op bij de regressies voor het model van de Wolff en voor modellen van het tekort op de Nederlandse begroting. Deze blog heeft geen pogingen gedaan om de problemen te verhelpen. Des al niettemin kunnen conclusies worden getrokken alleen al op basis van de berekende correlatie coëfficiënten. De numerieke schattingen zijn een nuttige aanvulling op de visuele presentatie in grafieken. Natuurlijk is de statistische analyse slechts een techniek, meer een vaardigheid dan een openbaring. De werkelijke fascinatie komt van de toepassingen op casussen en vergelijkende (panel) studies.

  1. Natuurlijk zijn er altijd modellen, die lastig zijn in te delen. Bijvoorbeeld de modellen van Tinbergen en het Centraal Planbureau zijn gefundeerd op de formele benadering (II). Maar vervolgens worden de formules omgezet in statistische relaties (III), waarbij de diverse coëfficiënten worden geschat. Vaak benadert Tinbergen complexe maatschappelijke relaties door lineaire vergelijkingen. Zie bijvoorbeeld de blog over de arbeidsmarkt en de blog over het effect van onderwijs. Het is dubieus of deze benadering leidt tot accurate voorspellingen. (terug)
  2. Zie Methoden der vergleichenden Politikwissenschaft (2009, VS Verlag für Sozialwissenschagten) van H.-J. Lauth, G. Pickel en S. Pickel, bijvoorbeeld op p.17 en 81. (terug)
  3. Zie hoofdstuk 6 in Methoden der vergleichenden Politikwissenschaft, met name de paragraaf 6.3. Merk op dat een andere blog in een voetnoot verwijst naar het rapport Economische beleidsanalyses – een filosofische blik. De auteurs raden het Centraal Planbureau aan om ook culturele en institutionele modellen te gebruiken. Maar indertijd was uw blogger niet enthousiast over dit advies. Mixed methods en triangulatie zijn niet verplicht. En dit soort modellen behoren meer tot het werkterrein van de Wetenschappelijke Raad voor het Regeringsbeleid. (terug)
  4. Bijvoorbeeld, de eerdere blog constateerde, dat formele modellen (categorie II) vaak uitgaan van een actor met stabiele voorkeuren. Anderzijds benadrukt het actor-institutie kader (categorie IV) de invloed van instituties op de individuele voorkeuren. In dit laatste perspectief zijn voorkeuren dynamisch. Triangulatie erkent, dat een voorkeur inderdaad de beide kenmerken heeft: stabiliteit en dynamiek. Deze erkenning betekent wel, dat de analyse verliest aan theoretische consistentie. Daarom moet de analist deze tweeslachtigheid in een verbindend kader plaatsen. (terug)
  5. Diverse blogs hebben zich verbaasd over de neiging van beleids- en bestuurs-kundigen om hun vakgebied af te schermen van wat zij "economisch imperialisme" noemen. Evenzo constateren blogs, dat de speltheorie nog weinig ingang vindt in de maatschappij-wetenschappen. Het actor-gerichte institutionalisme (AGI) van Scharpf doet een poging, maar is nog niet populair. De Gazet bevat wel enkele toepassingen van het AGI (bijvoorbeeld in de blog over Nederlandse politiek), maar die zijn duidelijk nog niet wetenschappelijk gerijpt. Zij zijn louter vinger-oefeningen. (terug)
  6. Zie Politische Ökonomie (2003, Leske + Dudrich) onder redactie van H. Obinger, U. Wagschal en B. Kittel. (terug)
  7. Het wetenschappelijke niveau van deze blog is lastig in te schatten. Het is verwarrend, dat wiskundigen, econometristen en bedrijfs-consulenten ieder een eigen versie presenteren van de statistische analyse. Wellicht komt het niveau overeen met een inleiding in de econometrie. (terug)
  8. Zie p.107 in Introduction to mathematical statistics (1978, Macmillan Publishing Co., Ltd.) van R.V. Hogg en A.T. Craig voor de wiskundige formule van de χ²(v) verdeling. Zie ook p.241 in Introduction to the theory of statistics (1974, McGraw-Hill, Inc.) van A.M. Mood, F.A. Graybill, en D.C. Boes. De vorm van de verdelingen in de figuur 1 is enkel schematisch, en niet exact. (terug)
  9. De wiskundige formule van de Student t verdeling wordt gegeven op p.144 in Introduction to mathematical statistics, en op p.249 in Introduction to the theory of statistics. (terug)
  10. De wiskundige formule van de F verdeling wordt gegeven op p.145 in Introduction to mathematical statistics, en op p.246 in Introduction to the theory of statistics. (terug)
  11. Zie bijvoorbeeld p.245 in Introduction to the theory of statistics. Op p.124 in Introduction to mathematical statistics wordt S² gedefinieerd met een factor N in plaats van N−1, wat verwarrend is. (terug)
  12. Zie p.268 in Understanding business statistics (1994, Richard D. Irwin, Inc.) van J.E. Hanke en A.G. Reitsch. Daar wordt N=30 gehanteerd als ondergrens voor de toepassing van de normale verdeling. (terug)
  13. Het streven naar een betrouwbaarheid van 95% is wat merkwaardig, omdat in de maatschappij wetenschappen de steekproef vaak niet louter toevallig of representatief is. Dat kan de schatting ondeugdelijk maken. Een betrouwbaarheid van 95% of 99% suggereert, dat men de "staarten" van de verdeling goed kent. De maatschappij wetenschappen beschikken niet over exacte modellen om de realiteit te beschrijven. Dat is een probleem. Immers, een overtuigend exact model geeft op zich al zoveel vertrouwen, dat men enige afwijkingen van de empirie sneller zal accepteren. Zou de eis van 95% betrouwbaarheid simpelweg een middel zijn om enigszins te schiften tussen alle voorgestelde, soms hoogst speculatieve, modellen? (terug)
  14. In de natuurwetenschappen is vaak de relatie y = φ(x) theoretisch bekend. Als de waarden xm bekend zijn, evenals hun onnauwkeurigheid, dan kan y worden berekend, evenals diens nauwkeurigheid. In de maatschappij-wetenschappen kent men de afhankelijkheden van de variabelen nauwelijks of niet. Vaak is men al blij, wanneer men het teken van ∂y/∂xm empirisch kan bepalen. Daarom is de keuze van een lineair verband voor φ logisch. Toch wordt incidenteel ook de niet-lineaire regressie toegepast in de maatschappij-wetenschappen. Met name is men geneigd om kruistermen xj×xk toe te voegen aan het model. Dit modelleert, dat soms de gecombineerde invloed van twee variabelen beslissend inwerkt op y. Het tekenen van strooi-diagrammen (scatter plots) is een manier om niet-lineair gedrag op te sporen. (terug)
  15. Uw blogger leerde de LKK methode kennen als eerste-jaars natuurkunde student uit het boek Fysisch experimenteren (1972, Uitgeverij Het Spectrum N.V.) van G.L. Squires. Zie p.50-53 en 234-240. De kansrekening in dit boek is vooral gericht op natuurkundige toepassingen, en daar is statistiek minder belangrijk dan men zou denken. De LKK methode wordt enkel beschreven voor M=1. Ruwweg een jaar later volgde nog een statistiek-college op basis van Introduction to mathematical statistics. Het merkwaardige van dit boek is, dat het diep ingaat op de wiskundige details, en daardoor niet toekomt aan practische toepassingen en trucs. Aan het einde van de jaren negentig van de vorige eeuw werd een loopbaan in de nutssector denkbaar. Beleidsmedewerkers moeten schattingen kunnen maken van de vraag naar het nutsgoed (drinkwater, afwatering, enzovoort), om steeds te kunnen zorgen voor een voldoende aanbod. Daarom las uw blogger intertijd ook Understanding business statistics, alsmede Practical business statistics (1994, Richard D. Irwin, Inc.) van A.F. Siegel. Deze vaardigheid hielp helaas niet bij sollicitaties, wellicht wegens onvoldoende chemie. En toen uw blogger zeven jaren terug het onderzoek van de Nederlandse econoom B.M.S. van Praag naar de geluks-economie ontdekte, was een diepgaand boek over econometrie nodig. Dat werd Introduction to econometrics (2001, John Wiley & Sons, Ltd) van G.S. Maddala, vooral omdat dit het probit model beschrijft. De LKK methode wordt uitgelegd in hoofdstuk 3. Aldus keert de statistiek steeds terug in het leven. Het heeft iets van een wonder, dat al deze kennis nu werkelijk van pas komt. (terug)
  16. Op p.69 in Introduction to econometrics wordt Sxy iets anders gedefinieerd. Maar het verschil is simpelweg een kwestie van notatie, en verandert het model niet wezenlijk. (terug)
  17. Zie p.579-582 in Understanding business statistics. (terug)
  18. Dit wordt aangetoond met stug uitschrijven: Q = Σn=1N  (yn − (b + a×xn))² = Σn=1N  (yn − y* − a × (xn − x*))² = (N−1) × (Sy² + a²×Sx² − 2×a × Sxy). Dien ten gevolge is 1 − V = 1 − Q / (Sy² × (N−1)) = 2×a × Sxy / Sy² − a²×Sx² / Sy² = 2×rxy² − rxy² = rxy². In deze laatste redenatie zijn formules voor a en rxy uit de hoofdtekst gebruik. (terug)
  19. Zie p.557 in Understanding business statistics of p.440 in Practical business statistics voor de formule 4b van de variantie Sr² van rxy. Overigens ontbreekt daar de afleiding van de formule. Op p.314 in Introduction to the theory of statistics (1950, McGraw-Hill Book Company, Inc) van A. McFarlane Mood worden hints gegeven voor de afleiding. Uw blogger weet niet meer, hoe dit boek in zijn verzameling komt. Merk op, dat rxy niet symmetrisch is verdeeld rond het gemiddelde. Immers, de verdeling ligt tussen -1 en 1. Merkwaardiger wijze kan uw blogger de formule niet vinden in Introduction to econometrics. (terug)
  20. Zie p.112-116 in Introduction to econometrics, p.234-240 in Fysisch experimenteren, of p.436-437 in Practical business statistics. Het staat niet vermeld in Introduction to mathematical statistics, wat uw blogger indertijd als student verdrietig maakte. Op p.436-437 in Practical business statistics wordt de intuïtieve betekenis van de formules 5a-b uitgelegd. Een grote waarde van Sx betekent, dat de x-punten gespreid zijn, en dat legt de lijn beter vast. Een grote waarde van N betekent, dat er veel gegevens beschikbaar zijn. Die informatie vermindert de fouten in b en a. Merk voorts op, dat var(a) en var(b) enkel van betekenis zijn, zolang is voldaan aan de aannamen in het model. In werkelijkheid is dat zelden het geval. Eigenlijk is de formule 1 enkel geldig in de natuur-wetenschappen, waar dankzij de laboratorium omgeving de experimenten helemaal kunnen worden beheerst. (terug)
  21. Deze gedaante vindt men bijvoorbeeld op p.433 in Practical business statistics. Een grote Sy betekent dat de helling a groot is. Dan geven fouten in a een grote fout in y. Als rxy dicht bij 1 ligt, dan zijn x en y goed gecorreleerd, en zal de lijn een vrij nauwkeurige beschrijving geven. (terug)
  22. Er wordt gesproken van een standaard fout, wanneer deze is gekoppeld aan een geschatte variabele, zoals a of b. Men spreekt van een standaard afwijking, wanneer de variatie in de steekproef of de populatie wordt beschreven. De standaard afwijking is niet gekoppeld aan enigerlei schatting. Men moet zich niet laten verwarren. Bijvoorbeeld heeft x* als schatting van μ een standaard fout van Sx/√N, waarbij Sx de standaard afwijking van de steekproef is. (terug)
  23. Zie p.130 in Introduction to mathematical statistics (1954, John Wiley & Sons, Inc.) van P.G. Hoel. Dit boek is ooit ergens tegelijk aangeschaft met het boek van McFarlane Mood. Op p.185 en verder in Introduction to econometrics wordt simpelweg β=0 aangenomen, zonder uitleg. Dit illustreert, dat het boek van Maddala soms pedagogisch tekort schiet. (terug)
  24. Op p.186 in Introduction to econometrics schrijft Maddala y = X · a. Maar dan heeft xmn de index m voor de kolommen en n voor de rijen, wat strijdig is met de wiskundige conventie. (terug)
  25. De steekproef moet baseren op toeval, omdat alleen zo de steekproef representatief is voor de totale populatie. Bijvoorbeeld, stel men meet elk jaar de temperatuur op 1 februari. Dan zal de gevonden waarde niet representatief zijn voor de gemiddelde jaarlijkse temperatuur. (terug)
  26. Een voorbeeld: beschouw de formule Q(t) = a(t) × L(t), waarbij Q de hoeveelheid producten is, a is de arbeids-productiviteit, en L is het aantal werkers. Neem als model y(t) = x(t) + ε, waarin y(t) = gQ en x(t) = ga de corresponderende groei-voeten zijn. Dit model voorspelt y'(t) = x(t), en negeert ten onrechte de groei-voet gL van het aantal werkers. Stel dat gL de constante waarde γ heeft. Merk op, dat hier de weggelaten variabele L(t) = (1+γ) × L(t−1) nu zelf een auto-correlatie heeft, die leidt tot gL(t) = gL(t−1). Dan is het residu e(t) = y(t) − y'(t) structureel γ te groot. De variantie Σt=1T  e(t)² / T wordt dermate groot, dat de voorspelling y'(t) onbruikbaar wordt. (terug)
  27. Zie p.793 in Understanding business statistics. Dit boek is gewoonlijk precies en zorgvuldig, maar vermeldt hier verkeerde grenzen voor de sommatie. (terug)
  28. Zie voor de tabel bijvoorbeeld p.610 in Introduction to econometrics, p.996-997 in Understanding business statistics, of p.610 in Introduction to econometrics. Ook hier maakt Understanding business statistics kennelijk een fout. De opschriften boven de twee tabellen moeten worden verwisseld. (terug)
  29. Zie p.236 in Introduction to econometrics. (terug)
  30. Het woord panel zal wel verwijzen naar de verzameling van casussen. Bijvoorbeeld kan men dezelfde groep mensen op een aantal tijdstippen vragen naar hun bezigheden of opinie. Elke persoon is een casus, en de groep vormt dan een panel. (terug)
  31. Op p.265-270 in Het Economisch Getij (1929, J. Emmering) moet Sam de Wolff polemiseren tegen enkele onderzoekers, die uit empirische waarnemingen concluderen, dat vlekken-rijke jaren juist gepaard gaan met slechte oogsten. Indertijd waren er veel minder statistische gegevens beschikbaar dan tegenwoordig, waardoor de wetenschap speculatiever was. Maar zelfs gemeten aan de toenmalige opvattingen is De Wolff zeer geneigd tot speculatieve stellingen. Die neiging verklaart zijn moeilijke persoonlijke verhouding met de voorzichtige Tinbergen, die bovendien geen marxist was. (terug)
  32. Op p.278 en verder in Het Economisch Getij betoogt De Wolff, dat tot in de 17-de eeuw de vraag-elasticiteit η = (dQ/Q) / (dp/p) in de landbouw kleiner is dan 1. Een goede oogst verlaagt dan de inkomens van de boeren. Maar dat wordt anders na de industriële revolutie. Dan vermindert de lagere prijs van landbouw-producten ook de nominale industrie-lonen. Daardoor neemt de werkgelegenheid voor de arbeiders toe. De Wolff illustreert dit met cijfers van de Leidse laken-productie in de 15-de en 16-de eeuw! Dankzij de expansie van de industrie stijgt de η in de landbouw uit boven 1, wat de boeren redt. Dankzij de lage nominale lonen kan de industrie extra investeren, zodat er een hoog-conjunctuur ontstaat. (terug)
  33. De regressie is uitgevoerd met de statistische functies in het database programma Quattro Pro, dat een onderdeel is van het Corel programma pakket. De oogst-gegevens zijn getabelleerd op p.270-271 in Het Economisch Getij, en de vereffende relatieve (zonnevlek) getallen van Wolf staan op p.251. Het is eigenlijk merkwaardig, dat uw blogger deze berekening niet acht jaren terug uitvoerde. Immers, van oudsher heeft de statistische analyse zijn warme belangstelling. Rond 1998 zocht hij werk in het waterbeheer. Indertijd verdiepte hij zich al vast in de statistische analyse van tijdreeksen, omdat die belangrijk zijn voor het voorspellen van het water-verbruik. Kennelijk lukte het rond 2012 niet om deze kennis te koppelen aan de analyse van De Wolff. De marxistische retoriek van De Wolff leidde dermate af, dat het statistische probleem even naar de achtergrond verdween. (terug)
  34. Zie p.307 in Understanding business statistics voor de p-waarde bij een normale verdeling. Men kan ook zeggen, dat het 95% betrouwbaarheids-interval gelijk is aan [-0.011, 0.021]. Immers, hier is de kritieke t gelijk aan 2. Zie p.576. De fout, die is vermeld bij de helling a, is de standaard fout. Deze fout geeft het kleinere interval [-0.003, 0.013]. (terug)
  35. Zie de tabel van de Student t verdeling op p.990 in Understanding business statistics. Overigens vereist in het statistische spraakgebruik de term "significant" eigenlijk een 5% nivo. De vereffende relatieve (zonnevlek) getallen van Wolf zijn getabelleerd op p.251 in Het Economisch Getij, en het verloop van de Sauerbeckse index staat op p.71. (terug)
  36. Quattro Pro rekent zelf niet de auto-correlatie coëfficiënten rk uit. Maar het programma biedt de gebruiker de mogelijkheid om de formule aan te brengen en uit te rekenen voor de reeks van Sauerbeck indices. (terug)
  37. Quattro Pro rekent zelf niet de Durbin Watson statistiek uit. Maar het programma biedt de gebruiker de mogelijkheid om de formule aan te brengen en uit te rekenen voor de reeks van Sauerbeck indices. (terug)
  38. Op p.797 in Understanding business statistics wordt nog een andere manier genoemd om te toetsen op auto-correlatie. Deze toetst de hypothese Ho: ρ1=0, waarin ρ1 de auto-correlatie coëfficiënt voor de hele populatie is. Volgens dit boek is de auto-correlatie coëfficiënt ongeveer normaal verdeeld, in een kennelijke tegenstelling met de correlatie-coëfficiënt rxy (p.557). De toetsing maakt gebruik van de z statistiek van de standaard normale verdeling N(0,1). De berekende coëfficiënt r1 van de steekproef moet minder zijn dan z/√T. Er zijn tabellen van de cumulatieve verdeling F(z), bijvoorbeeld op p.989. Stel dat men Ho toetst op het 5% significantie niveau. Dan is de grenswaarde z=1.96, en de kritische (absolute) waarde is r1 = 0.208. Boven de kritische waarde is er auto-correlatie (significantie 5%). Blijkens de hoofdtekst is de echte r1 = 0.90, dus veel groter. De nul-hypothese van geen auto-correlatie wordt verworpen. (terug)
  39. Zie p.799-801 in Understanding business statistics, of p.230-236 in Introduction to econometrics. (terug)
  40. De berekening is uitgevoerd met de @CORREL functie in het database programma Quattro Pro. Dit gaat sneller dan het uitvoeren van een regressie. Aangezien hier geldt N=36, is volgens de formule 4b de geschatte standaard afwijking gelijk aan Sr = 0.171 × √(1 − rxy²). Dit is 0.11, 0.16 en 0.17 voor respectievelijk rxy = 0.77, 0.41 en 0.25. Sommige correlatie coëfficiënten zijn dermate klein, dat het zinvol is om de hypothese Ho: ρ=0 te toetsen. De nul-hypothese zegt, dat er geen correlatie is in de populatie. Blijkens p.558 in Understanding business statistics is de t statistiek t = rxy/Sr. Dat is t=1.64 voor rxy=0.27. Bij het significantie niveau van 5% is de kritische t-waarde gelijk aan t=1.96, wegens de 34 vrijheids-graden. Dien ten gevolge moet de nul-hypothese worden geaccepteerd, zodat de waarden 0.27 en 0.25 in de tabel 1 niet meer significant zijn op het 5% niveau. Merk op, dat de kritische z-waarde van de standaard normale verdeling eveneens z=1.96 is. Bij N=36 waarnemingen zijn de z- en t-waarden vrijwel gelijk. Het 95% betrouwbaarheids-interval van de waarde 0.27 is [-0.06, 0.60]. Vergelijk het genoemde interval met dat voor een waarde van 0.77 en 0.41, te weten respectievelijk [0.55, 0.99] en [0.10, 0.72]. Bij een significantie niveau van 5% is de waarde van 0.41 verschillend van 0.77. De hele statistische berekening van correlatie-coëfficiënten is ook gedaan voor de BBP zelf. Dat leidt tot rxy tussen 0.98 en 1, wat niet tot de verbeelding spreekt. Het probleem van de vergelijking van diverse BBP-en zelf is, dat een BBP bijna altijd vanzelf al stijgt. Als men dan twee producten vergelijkt, dan is de berekende correlatie kunstmatig. Zie p.521 in Practical business statistics. (terug)
  41. Aangezien hier geldt N=11, is volgens de formule 4b de geschatte standaard afwijking gelijk aan Sr = 0.333 × √(1 − rxy²). Dit is 0.13, 0.29 en 0.333 voor respectievelijk rxy = 0.92, 0.51 en -0.01. De correlatie coëfficiënten zijn dermate klein, dat het zinvol is om de hypothese Ho: ρ=0 te toetsen. De nul-hypothese zegt, dat er geen correlatie is in de populatie. Blijkens p.558 in Understanding business statistics is de t statistiek t = rxy/Sr. Dat is t=1.35 en 1.78 voor respectievelijk rxy=0.41 en 0.51. Bij het significantie niveau van 5% is de kritische t-waarde gelijk aan t=2.26, wegens de 9 vrijheids-graden. Dien ten gevolge moet de nul-hypothese worden geaccepteerd. De meeste waarden in de tabel 2 zijn niet significant op het 5% niveau. Er kan weinig correlatie worden aangetoond tussen 1980 en 1990. (terug)
  42. De waarden van het tekort op de Nederlandse begroting tussen 1963 en 1975 zijn berekend uit de grafieken op p.109-110 van Het polderwonder (2002, Uitgeverij Contact) van F. de Kam en R.A. ter Hart. Dit is een nuttig boekje, gevuld met allerlei langlopende tijdreeksen. Het vermeldt het jaarlijkse tekort ten opzichte van de staats-uitgaven. Dit moest worden vermenigvuldigd met de waarde van de staats-uitgaven in % BBP, zodat het tekort in % BBP wordt verkregen. Helaas geeft het boekje de waarden van de staats-uitgaven in % BBP enkel elke vijf jaren, zodat moest worden geïnterpoleerd. Het tekort tussen 1975 en 1992 is overgenomen van een grafiek op p.52 in Inspelen op Europa (1993, Academic Service) onder redactie van J.J.M. Kremers. Deze gegevens van het tekort wijken in absolute waarde zelden meer dan 2% af van die in Het polderwonder, behalve voor 1980-1983, waar Het polderwonder zeer hoge tekorten vermeldt. De gegevens tussen 1995 en 2013 zijn overgenomen van de database van Eurostat. (terug)
  43. De correlatie coëfficiënt is dermate klein, dat het zinvol is om de hypothese Ho: ρ=0 te toetsen. De nul-hypothese zegt, dat er geen correlatie is in de populatie. De t statistiek is t = rxy/Sr, bij T−2 = 49 vrijheidsgraden. De twee vrijheids-graden gaan verloren, omdat de gemiddelden van x en y in de populatie worden geschat met x* en y* van de steekproef. Men berekent met de formules 4a-b t=2.53 voor rxy=0.34. Bij het significantie niveau van 5% geeft de tabel een kritische t-waarde van t=2.01, wegens de 49 vrijheids-graden. Dien ten gevolge moet de nul-hypothese worden verworpen. Er is een correlatie. Het 95% betrouwbaarheids-interval is [0.07, 0.61]. (terug)
  44. Uw blogger heeft zelf de auto-correlatie berekend in Quattro Pro, en vindt r1 = 0.63. De hypothese Ho: ρ1 = 0 kan worden getoetst met de z statistiek. Een toetsing op het 5% significantie niveau levert de grenswaarde z=1.96, en de kritische r1-waarde is 1.96 / √T = 0.27. Dus de tijdreeks van het tekort heeft auto-correlatie. Kennelijk volstaat de transformatie naar differenties hier niet om de auto-correlatie te elimineren. (terug)
  45. Ook deze regressie is uitgevoerd met de statistische functies in het database programma Quattro Pro. Blijkens de t statistieken zijn de as-afsnede b en de helling a allebei significant op het 5% niveau. (terug)
  46. Elke één-dimensionale indeling op het politieke spectrum is enigszins controversieel. Hier wordt de dominante politieke maatstaf van halverwege de twintigste eeuw gehanteerd, te weten de positionering inzake economische vrijheden. Deze maatstaf is hier logisch, omdat de casus het begrotings-tekort bestudeert. Maar sinds de jaren tachtig van de vorige eeuw zijn de meeste partijen economisch liberaal geworden. De genoemde maatstaf wordt minder onderscheidend. Sindsdien worden de verschillen meer bepaald door de morele kwesties (nationalisme, bescherming van leven). Op die dimensie zou D66 links worden, en de CU rechts. (terug)
  47. Zie p.653-656 in Understanding business statistics, of hoofdstuk 8 in Introduction to econometrics. (terug)
  48. De toetsing van de hypothese Ho: αj = 0 maakt gebruik van de t statistiek t = aj/saj. Deze is t = -0.94 en -1.55 voor j=2 en 3. De tabel geeft voor 48 vrijheids-graden (T−2 = 50−2) de kritische t-waarde van -2.01 op het 5% significantie niveau. Kennelijk kan de nul-hypothese niet worden verworpen. Merk overigens op, dat in beginsel negatieve tekens van a1 en a2 betekenen, dat een centrum-kabinet de laagste tekorten heeft. (terug)