Hoewel de Gazet hecht aan de empirische toetsing van modellen, heeft zij daarover nog weinig gepubliceerd. Deze lacune wordt nu opgevuld met een uitleg van de theorie van de statistische analyse. Aan de orde komen statistische verdelingen, betrouwbaarheids-intervallen, lineaire regressies, tijdreeksen en panel gegevens. De formules worden toegepast op de conjunctuur-theorie van De Wolff, in een vergelijkende analyse van het BBP van zes staten, en in een beknopte analyse van het Nederlandse begrotings-tekort.
Een eerdere blog constateert, dat er vier categorieën van beleidsmodellen zijn: (I) historische beschrijvingen, (II) universele formuleringen, (III) statistische relaties, en (IV) actor-institutie arena's. Deze indeling is afkomstig van de Nederlandse socioloog A. de Swaan1. Eerst is een kant-tekening inzake de empirische gegevens nuttig. Elk model vereist zijn eigen type gegevens. De Nederlandse politicoloog A. Lijphart stelt een indeling in vier typen van empirische gegevens voor, te weten de casus, het statistische bestand, vergelijkingen van casussen (bijvoorbeeld diverse staten), en het experiment2. Een historische beschrijving (I) past uitstekend bij de casus. De studie concentreert zich op één geval, en gebruikt weinig abstractie. Zij is als het ware een geïsoleerde meting. De studie hanteert een groot aantal variabelen.
De statistische analyse (III) gebruikt gegevens van een groot aantal gevallen, en zoekt naar een kleine verzameling van universele verklarende variabelen. Het formele model (II) en de actor-institutie analyse (IV) kunnen ieder een handvol empirische gevallen onderling vergelijken. Maar zij kunnen ook gegevens gebruiken van experimenten, die zijn gedaan in een laboratorium omgeving. In de experimentele situatie van het laboratorium kan de onderzoeker de waarden van de variabelen redelijk goed beheersen.
Een eerdere blog suggereerde de toepassing van triangulatie, waarbij verschillende methoden worden gemengd (mixed methods)3. De menging heeft betrekking op de gebruikte modellen en typen gegevens. Het doel is natuurlijk om de zwakten en beperkingen van elk model en van elk type gegevens aan het licht te brengen. Logischer wijze moet de combinatie leiden tot een wetenschappelijke synergie4. Anderzijds komt triangulatie neer op een kritiek op de afzonderlijke methoden. Zij toont de rijkdom van de maatschappij-wetenschappen, en daarmee helaas tevens haar verdeeldheid en onvermogen. Daarom wekt zij al gauw weerstand op bij methodische puristen, die gehecht zijn aan hun eigen perspectief5. Triangulatie wordt bijzonder kwetsbaar voor zulk verzet, wanneer de synergie van de combinatie uitblijft.
Tot nu toe heeft de Gazet weinig aandacht besteed aan de aanpak III van statistische analyses. Enkele blogs presenteren tijdreeksen, maar die zijn alleen visueel onderzocht. Dat levert weinig inzicht op over de trendmatige ontwikkeling. Recent zijn resultaten van de statistische aanpak in het boek Politische Ökonomie onderzocht6. Dexe resultaten laten allereerst zien, dat de statistische modellen vatbaar zijn voor fouten. Maar tevens wordt duidelijk, dat zij een onmisbaar instrument zijn bij het uitvoeren van studies. Daarom zal de huidige blog dieper ingaan op de theorie en mogelijkheden van de statistische analyse.
Dementi: Regelmatig heeft de Gazet gewaarschuwd, dat blogs fouten kunnen bevatten. Eigenlijk zijn de blogs weinig meer dan persoonlijke notities. Gelukkig is uw blogger dermate belezen, dat flaters meestal onwaarschijnlijk zijn. Dat ligt anders bij de huidige blog. Uw blogger heeft wel veel gelezen over statistische methoden, maar ze weinig toegepast. En de kwaliteit van statistische analyses hangt sterk af van de ervaring van de analist. De ware vakman beschikt over een gereedschapskist vol statistische foefjes. Daarom is de huidige blog niet meer dan een persoonlijk leer-traject, waarin nog van alles kan fout gaan. Hier wreekt zich, dat de Gazet geen product van teamwerk is. Hopelijk is de lezer vergevings-gezind bij eventuele onzorgvuldigheden, en kan hij toch zijn voordeel doen bij deze publicatie7.
Stel dat de waarde van een continue variabele x wordt bepaald door een toevalsproces. De statistische verdeling f(x) definieert de waarschijnlijkheden (probability). Immers, ∫xlxu f(x') dx' geeft de kans aan, dat de waarde van x ligt tussen de grenzen xl en xu. De verdeling is genormeerd volgens ∫-∞∞ f(x') dx' = 1. De cumulatieve verdeling F(x) = ∫-∞x f(x') dx' geeft de kans aan, dat de waarde kleiner dan of gelijk aan x is. Verdelingen, die nuttig zijn voor statistische analyses, zijn gewoonlijk beschikbaar in de vorm van tabellen. De meest bekende continue verdeling is de standaard normale verdeling N(0, 1) met gemiddelde μ=0 en variantie σ²=1. Zij is weergegeven in de figuur 1a. Nuttig is ook de Chi-kwadraat verdeling χ²(v). De parameter v wordt de vrijheids-graad genoemd. De figuur 1b toont de vorm van deze verdeling voor enkele waarden van v 8.
De Student t verdeling wordt afgeleid uit de N(0,1) en χ²(v) verdelingen. Namelijk, zij definieert de toevals-variabele als t = z / √(s/v), waarbij z voldoet aan de standaard normale verdeling, en s aan de χ²(v) verdeling9. Dit betekent dat ook de t verdeling wordt gekenmerkt door de vrijheids-graad v. Bovendien moeten z en s stochastisch onafhankelijk zijn. De figuur 1c toont de Student t verdeling voor enkele vrijheids-graden. Naarmate het aantal vrijheids-graden toeneemt, wordt de verdeling smaller en hoger. Dit is intuïtief logisch. Immers, de kans op een grote waarde van s neemt toe, wat t kleiner maakt. Tenslotte moet nog de F verdeling worden genoemd. Zij definieert de toevals-variabele als f = (s1/v1) / (s2/v2). Hier heeft sk een χ²(vk) verdeling (k=1, 2), en s1 en s2 zijn onderling onafhankelijk10. Men schrijft de kansdichtheid als g(f, s2, v1, v2).
Het is eenvoudig in te zien, dat de Student t verdeling belangrijk is voor statistische analyses. Stel de populatie heeft een gemiddelde μ en een variantie σ². Als x* het gemiddelde is van een steekproef met waarnemingen xn (n=1, ..., N), dan heeft x* de normale verdeling N(μ, σ²/N). Dien ten gevolge heeft z = √(N) × (x* − μ) / σ de standaard normale verdeling. De variantie van de steekproef is S² = Σn=1N (xn − x*)² / (N−1). Deze wordt gebruikt als de schatting voor σ². Men vindt als resultaat t = √(N) × (x* − μ) / S. Helaas is deze t niet meer standaard normaal verdeeld. Men kan aantonen, dat s = (N−1) × (S/σ)² de χ²(N−1) verdeling heeft11. Merk nu op, dat geldt t = z /√(s / (N−1)). Dien ten gevolge leidt de schatting van S voor σ tot een variabele t, die voldoet aan de Student t verdeling met N−1 vrijheidsgraden. Als N voldoende groot is, dan zijn S en σ vrijwel gelijk. In dat geval kan de analyse gebruik maken van de normale verdeling12.
Stel men heeft een steekproef genomen, en daaruit het gemiddelde x* en de standaard fout S berekend. Hier is x* de schatting van het gemiddelde μ van de gehele populatie. In de natuur wetenschappen neemt men gewoonlijk genoegen met S als een maat voor de betrouwbaarheid van de schatting x*. Echter als x* de grondslag vormt voor belangrijke beslissingen, dan wil men preciese informatie hebben over de betrouwbaarheid van x*, als schatting van μ. Het is dan nuttig om een betrouwbaarheids-interval te berekenen. Dat interval wordt gedefinieerd als [x* − z×S, x* + z×S], waarbij z een positief getal is. Nu is er een kans p(z), dat μ inderdaad ligt in dit interval. Men spreekt van een p (%) betrouwbaarheids-interval.
Als de verdeling van x* bekend is, dan kan p worden afgelezen uit tabellen. Voor kleine steekproeven, met N≤30, hanteert men gewoonlijk de t-verdeling met N−1 vrijheids-graden. Voor grotere steekproeven neemt men de normale verdeling. Bijvoorbeeld nemen natuur wetenschappers kennelijk genoegen met z=1. Dan is er voor een grote steekproef een kans p van 68.3%, dat inderdaad μ in het interval ligt. Maar in de maatschappij wetenschappen streeft men vaak naar een hogere betrouwbaarheid, zeg van p=95%. In dat geval moet men de bijbehorende waarden van z (of t) aflezen in de tabellen13.
Voorts kan men hypothesen toetsen met het interval. Een voorbeeld van een hypothese is, dat de gemiddelden van de steekproef en de populatie samenvallen. Dat wil zeggen, H0: x* = ν. Hierbij is ν de hypothetische waarde van het onbekende gemiddelde μ van de populatie. Men kiest een interval met betrouwbaarheid p (zeg, 95%). Als ν in dit interval ligt, dan wordt de nul hypothese H0 geaccepteerd. Het significantie niveau van de toets is de kans, dat H0 wordt verworpen, terwijl zij waar is. Bij een 95% betrouwbaarheids-interval is het significantie niveau 5%. Dat wil zeggen, de verdeling laat waarden toe voorbij de grens z×S, maar hun kans van voorkomen is gering. Algemeen is het significantie niveau gelijk aan 1−p. Als H0 wordt verworpen, dan is de onderzoeks-hypothese waar. Zij luidt voor het huidige voorbeeld H1: x*≠ν.
Beschouw het probleem y = φ(x, ε), waarin x = (x1, ..., xM) een verzameling van M onafhankelijke variabelen is. Hun waarden zijn bekend, bijvoorbeeld omdat zij worden gemeten. Zij worden wel predictoren genoemd. De variabele y is een functie van de xm, en wordt daarom afhankelijk genoemd. De waarde van de variabele ε is niet vooraf bekend, maar wordt bepaald door een continue kans-verdeling met frequentie- of dichtheids-functie f(ε). Andere namen zijn kansdichtheid of frequentie-verdeling. Daarom heeft ε een toevallige waarde. Hier kan ε optreden om allerlei redenen. Bijvoorbeeld bevat het probleem een loterij, of onbekende onafhankelijke variabelen, of y wordt gemeten met een statistische fout. Aangezien de waarde van ε niet-gedetermineerd is, is y een statistische variabele. Wel neemt men aan, dat de verwachting E(ε) gelijk is aan 0. Als φ een lineaire functie is, dan vindt men14
(1) y = β + ε + Σm=1M αm × xm
Stel dat men x en y kan meten in N verschillende situaties. Men verzamelt dan reeksen van waarnemingen xn = (x1n, ..., xMn) en yn, met n=1, ..., N. Het blijkt nu mogelijk te zijn om de waarden van αm en β te schatten aan de hand van de verzameling van waarnemingen. Duid de schattingen van αm en β aan met de letters am en b. De meest populaire schatting is de methode van lineaire kleinste kwadraten (LKK) (in het Engels least squares)15. Beschouw gemaks halve eerst de situatie met M=1 (dus α1 = α). Dan bestaat de meetserie uit N paren (xn, yn). Zie de blauwe punten in figuur 2. De groene lijn geeft het veronderstelde lineaire verband tussen x en y aan. De afwijking van de metingen ten opzichte van de lijn wordt gedefinieerd als
(2) Q = Σn=1N (yn − (b + a×xn))²
Definieer het gemiddelde van een rij xn als x* = Σn=1N xn/N, en de variantie als Sx² = Σn=1N (xn − x*)² / (N−1). Evenzo vindt men y* (rode lijn in figuur 2) en Sy². Hier worden Sx en Sy de standaard-afwijkingen van de rijen xn en yn ten opzichte van hun gemiddelden genoemd. Definieer de covariantie van xn en yn als Sxy = Σn=1N (xn − x*) × (yn − y*) / (N−1) 16. Maak nu Q minimaal. Dat vereist ∂Q/∂b = 0 en ∂Q/∂a = 0. Na enig uitschrijven vindt men de LKK schattingen
(3a) b = y* − a × x*
(3b) a = Sxy / Sx²
Interessant is ook rxy² = a × Sxy / Sy². Dit wordt de coëfficiënt van determinatie genoemd. Er geldt rxy² = 0, wanneer het lineaire verband van formule 1 ontbreekt. Als geldt rxy² = 1, dan worden de metingen exact beschreven door de lijn. Dan is Q=0. Dus rxy² drukt de fractie van y uit, die wordt verklaard door x. Dit kan ook als volgt worden ingezien17. Zij y'n = b + a×xn de voorspelling van yn. Dan wordt en = yn − y'n het residu van yn genoemd (figuur 2). Kennelijk is Q de aggregatie van residuen en. Evenzo meet Σn=1N (yn − y*)² = Sy² × (N−1) de totale afwijking, wanneer men yn zou voorspellen met a=0. Immers dan zou yn' = y* zijn. Dien ten gevolge meet V = Q / (Sy² × (N−1)) de variatie in yn, die niet wordt verklaard door y'm(xn). De verklaarde fractie is de rest, te weten rxy² = 1 − V 18. Soms hanteert men de correlatie-coëfficiënt rxy. Diens teken geeft aan, hoe x inwerkt op y. Merk op, dat rxy kan worden herschreven als19
(4a) rxy = Sxy / (Sx × Sy) = a × Sx/Sy
(4b) Sr² = (1 − r²) / (N−2)
Uiteraard is het wenselijk om de betrouwbaarheid van de schattingen a en b te kennen. Zij blijkt inderdaad berekend te kunnen worden, althans wanneer wordt aangenomen, dat de onzekerheid ε voldoet aan de normale verdeling met gemiddelde (verwachting) E(ε) = ε* = 0 en variantie E(ε²) = var(ε) = σ². Met andere woorden, ε is verdeeld als N(0, σ²). Na een wat lange maar eenvoudige berekening vindt men20
(5a) var(b) = σ² × (1/N + (x*)² / ((N-1) × Sx²))
(5b) var(a) = σ² / ((N-1) × Sx²)
Natuurlijk is σ² gewoonlijk onbekend. Zij moet worden geschat als
(6) s² = (Sy² − Sxy² / Sx²) × (N−1) / (N−2)
Merk op, dat de formule 6 kan worden herschreven als s² = Sy² × (1 − rxy²) × (N−1) / (N−2) 21. Men noemt s de standaard fout van de (regressie-)schatting22. Dankzij de formule 6 kunnen var(a) en var(b) worden geschat. De standaard fouten Sa en Sb van de schattingen a en b zijn simpelweg de wortels van deze varianties.
Er is sprake van een multipele regressie, wanneer diverse onafhankelijke variabelen invloed hebben op y. Er geldt M>1. De schatting of voorspelling van een meetpunt yn krijgt de gedaante
(7) y'n = b + Σm=1M am × xmn
In de formule 7 is xmn de waarneming n van de variabele xm. De regressie methode maakt ook hier de grootheid Q = Σn=1N (yn − y'n)² van de steekproef (ter grootte N) minimaal. Beschouw eerst de eis ∂Q/∂b = 0. Deze voorwaarde leidt tot b = y* − Σm=1M am × x*m. Substitueer deze waarde van b in de formule 7, dan kan die worden geschreven in termen van y'n − y* en xm − x*m. Kennelijk wordt b verwijderd uit de formule 7, wanneer men de variabelen opvat als afwijkingen ten opzichte van hun gemiddelde. Merk vervolgens op, dat geldt Q = Σn=1N (yn − y* − (y'n − y*)². Met andere woorden, de regressie methode geeft dezelfde resultaten, wanneer men rekent met de afwijkingen in plaats van met de x- en y-waarden zelf. In het huidige betoog wordt verder aangenomen, dat de waarden van de variabelen inderdaad zulke afwijkingen uitdrukken. Dan verdwijnt de constante term b uit de formule 7 23.
Merk voorts op, dat xmn een element is van een M×N matrix X. Zij X† de getransponeerde matrix van X. Kennelijk geldt na eliminatie van b de matrix-vergelijking24
(8) y' = X† · a
De matrix notatie maakt de formules van de regressie methode overzichtelijker. Bijvoorbeeld kan men Q schrijven als het inproduct (y − y')† · (y − y'), waarbij (y − y')† een liggende (horizontale) vector is. Men stelt als eis ∂Q/∂am = 0. Daaruit volgen de waarden van de schatter am en zijn variantie
(9a) a = (X · X†)-1 · X · y
(9b) var(a) = (X · X†)-1 × σ²
In de formules 9a-b betekent de boven-index -1, dat men de inverse matrix van X · X† moet nemen. Merk op, dat var(a) hier een matrix is, de zogenaamde covariantie matrix. Deze M×M matrix heeft de varianties van am op de diagonaal.
Gewoonlijk kunnen de variabelen xn en yn allerlei numerieke waarden aannemen. De regressie in de formule 1 neemt aan, dat de onafhankelijke variabelen xm kwantitatief zijn. Echter in de maatschappij-wetenschappen zijn variabelen vaak kwalitatief. Dat wil zeggen, de meetwaarde constateert de aanwezigheid van een bepaalde kwaliteit, of juist niet. Denk aan het geslacht (vrouw of niet), of de religie (hindoe of niet). Men noemt een kwalitatieve variabele een dummy, omdat zij binair (dichotoom) is (met waarden ja/nee, of toch numeriek 1 of 0). Zulke gegevens kunnen worden opgenomen in de formule 1 als onafhankelijke variabelen. Bijvoorbeeld, beschouw het model
(10) y = β + ε + α1×x1 + α2×x2
Stel dat x2 een onafhankelijke dummy variabele is. De waarde x2 = 1 laat y extra veranderen met een vast getal α2. Feitelijk bestaat dan de formule 10 uit twee vergelijkingen, met een constante term van β voor x2=0 en een constante term van β + α2 voor x2=1. De helling α1 is gelijk voor beide vergelijkingen. De dummy variabele splitst als het ware de steekproef (x1n, yn) met n=1, ..., N in twee groepen. De schatting van α1 baseert echter nog steeds op de minimalisatie van de totale kwadraten-som Q. De regressie is niet zonder meer mogelijk, wanneer de afhankelijke variabele y kwalitatief is. In die situatie moet het probit model worden toegepast. Dit model is al zeven jaren terug beschreven in de Gazet, in de blogs over de geluks-economie.
De kwantitatieve analyse van maatschappelijke fenomenen maakt vaak gebruik van tijdreeksen. Hierbij heeft de meetserie de vorm van waarnemingen (x1(t), ..., xM(t), y(t)). Men neemt voor t een discreet tijdstip, met waarden t = 1, 2, ..., T. Ook nu kan een regressie worden uitgevoerd met y(t) als de afhankelijke variabele, bijvoorbeeld in de lineaire vorm van de formule 1. In dit geval zijn de T situaties niet automatisch onderling onafhankelijk, want zij volgen elkaar op in de tijd25. Het gebeurt nogal eens, dat de waarde y(t) afhankelijk is van sommige voorgaande waarden y(t−k), met k = 1, ..., t−1. Men noemt dit een auto-correlatie of seriële correlatie. Dit is een probleem, want in zo een situatie zijn de fouten ε(t) van het model soms onderling afhankelijk. Zij zijn niet meer toevallig verdeeld volgens de verdeling f(ε). Dan zijn helaas de regressie-formules 3a-b niet meer geldig.
De fouten ε(t) verliezen bijvoorbeeld hun toevalligheid, wanneer een belangrijke xm wordt weggelaten uit de formule 1. Dan verplaatst de auto-correlatie van de ontbrekende xm zich als het ware in de fout, die daardoor gecorreleerd wordt26. Vaak is vooraf niet duidelijk, welke predictoren xm echt nodig zijn. Dien ten gevolge moet bij elke model-berekening met een tijdreeks achteraf worden gecontroleerd, of er een auto-correlatie is. Zij y* = Σt=1T y(t) / T het gemiddelde van de tijds-waarnemingen. Dan is de betreffende correlatie-coëfficiënt27
(11) rk = Σt=k+1T (y(t) − y*) × (y(t−k) − y*) / Σt=1T (y(t) − y*)²
Men moet nu toetsen, of de absolute waarde van rk voldoende klein is. Een veel gebruikte methode is de Durbin-Watson toets. Zij y'(t) de voorspelling van het model, en e(t) = y(t) − y'(t) het residu. De Durbin-Watson statistiek is
(12) D = Σt=2T (e(t) − e(t−1))² / Σt=1T e(t)²
Als er auto-correlatie is, dan zullen de residuen e(t) en e(t−1) ongeveer overeenkomen. Daarom vereist de afwezigheid van auto-correlatie een grote waarde van D. Stel dat men met een significantie van p wil toetsen of de residuen vrij zijn van auto-correlatie. Dan kan men, bij een tijdreeks ter grootte van T, in een tabel de grenswaarden voor D opzoeken28.
Men wil natuurlijk de seriële correlatie in de analyse opheffen. Soms helpt de transformatie naar differenties (differencing), waarbij men η(t) = y(t) − y(t−1) gebruikt als afhankelijke variabele. Deze truc werkt met name, wanneer y(t) een autonoom trendmatig gedrag heeft. Men neemt in feite de trend op in het model. Men hoopt, dat de fouten εη(t) = ε(t) − ε(t−1) wel onderling onafhankelijk zijn. Een variant is de correctie van de analyse via quasi-differenties. In deze aanpak moet men de regressie uitvoeren met η(t) = y(t) − ρ×y(t−1) en ξ(t) = x(t) − ρ×x(t−1). Hierbij wordt ρ geschat met de formule29
(13) ρ' = Σt=2T e(t) × e(t−1) / Σt=1T e(t)²
Men spreekt van panel gegevens, wanneer een steekproef van N waarnemingen bestaat uit tijdreeksen met een gelijke duur T. Dat wil zeggen, de meetpunten (xn(t), yn(t)) hangen ook af van de tijd t. Er is als het ware een steekproef ter grootte T binnen elke waarneming van de steekproef ter grootte N. Men noemt de verzameling van N meetpunten op een tijdstip t een dwarsdoorsnede (cross section). Elk meetpunt n is eigenlijk een casus30. Bijvoorbeeld, men kan een bepaalde variabele y(t) bestuderen in N verschillende staten, zoals het bruto binnenlands product, de werkloosheid, of het vertrouwen in de politiek. Aangezien elke casus n bestaat uit een tijdreeks, wordt daarmee tevens de ontwikkeling van een staat vergeleken met andere. De resultaten van enkele studies met een panel-aanpak zijn beschreven in twee recente blogs.
Panel gegevens kunnen op diverse manieren worden gebruikt voor een regressie van de afhankelijke variabele y. In de vergelijkende analyse van N staten besluit men meestal om de panel gegevens (xmn(t), yn(t)) met (m=1, ..., M), (n=1, ..., N), en (t=1, ...T) te beschouwen als één groot bestand. Deze aanpak heet samenvoeging van de gegevens of in het Engels pooling. Samenvoegen heeft het voordeel, dat de regressie baseert op veel empirische gegevens, te weten N×T meetpunten, om de β en αm van de formule 1 te schatten. Daarmee wordt het probleem opgelost, dat het aantal casussen N vaak wat te klein is voor een nauwkeurige schatting. Merk op, dat de regressie na samenvoeging leidt tot dezelfde constante term en regressie-coëfficiënten voor alle N casussen. Echter pooling leidt tot eigen problemen. De variabele yn(t) van de casus n kan lijden aan een auto-correlatie. Aldus zitten in het totale bestand allerlei onwenselijke auto-correlaties verborgen.
Een alternatieve werkwijze is om in de regressie een dummy-variabele xM+n op te nemen voor elke casus n. Dan krijgt elke casus zijn eigen constante term βn = β + αM+n. Dit vergroot het aantal regressie-coëfficiënten, en dus tevens hun standaard fouten. Interessant is ook de figuur 3, die illustreert hoe de toevoeging van een dummy variabele de helling a1 zeer kan veranderen. Zonder dummy zijn de groene en rode punten van twee casussen samengevoegd, wat leidt tot de zwarte regressie. Met dummy zal de regressie-analyse de groene waarnemingen toeschrijven aan x2=0 en de rode waarnemingen aan x2=1. Dat leidt tot de groene en rode regressie lijnen. Hun hellingen a1 zijn nog steeds gelijk, maar kleiner dan zonder dummy. De verticale afstand tussen de twee lijnen is a2.
In twee blogs is uitgelegd, dat Sam de Wolff, de naamgever van de Gazet, de economische conjunctuur verklaart uit de activiteit van zonne-vlekken. Er is een dubbele causaliteit. In vlekken-rijke jaren zou de oogst uitbundig zijn31. En een uitbundige oogst zorgt voor een bloeiende economie32. Een blog laat zien, dat De Wolff de Relativ-zahlen van de astronoom R. Wolf gebruikt als maat voor de activiteit van zonne-vlekken. Hij vergelijkt de getallen van Wolf met de omvang van de Franse graan-oogst, voor de periode 1841-1895. Volgens De Wolff vertoont de graan-oogst inderdaad dezelfde golf-beweging als de getallen van Wolf.
Uw blogger heeft nu de invloed van de zonne-vlekken op de oogst nagerekend met een enkelvoudige regressie33. Het model is y = β + ε + α×x (x = activiteit van zonne-vlekken, y = oogst), en de steekproef heeft T=55. De correlatie-coëfficiënt rxy is slechts 0.083. De helling a van de lijn is 0.005 + 0.008. Dat wil zeggen, zij heeft het juiste (positieve) teken, maar dit teken is niet significant op het 5% niveau. De berekening laat ook zien, dat er een kans van p=55% is dat men deze helling vindt, terwijl in werkelijkheid geldt α=0 34. Uiteraard betekent α=0, dat de lijn horizontaal loopt, zodat de oogst niet wordt beïnvloed door de activiteit van zonne-vlekken. De waarde van de t statistiek voor a is slechts 0.60!
De blog laat ook zien, dat De Wolff de getallen van Wolf vergelijkt met het indexcijfer van Sauerbeck, dat het Engelse prijspeil beschrijft, voor de periode 1825-1913. Volgens De Wolff vertoont de index van Sauerbeck inderdaad dezelfde golf-beweging als de getallen van Wolf. Ook dit is nagerekend met een enkelvoudige regressie. Hier is de correlatie-coëfficiënt rxy iets beter, namelijk 0.17. De helling a van de lijn is 0.10 + 0.06. De berekening laat ook zien, dat er een kans van p=11% is dat men deze helling vindt, terwijl in werkelijkheid geldt α=0. Inderdaad is de waarde van de t statistiek voor a nu redelijk groot, namelijk 1.63. Kennelijk is hier het positieve teken nog net significant op het 11% niveau35. Men zou met deze statistische analyse kunnen beweren, dat de conjunctuur-theorie van De Wolff juist is! De zonne-vlekken zijn een verklarende factor voor de conjunctuur, al is het slechts voor een klein deel.
Helaas lijden de indexcijfers van Sauerbeck onder een sterke auto-correlatie. De correlatie-coëfficiënt is maar liefst r1 = 0.90 36. Als men de lijst van residuen e(t) tussen 1826 en 1913 bekijkt, dan zijn de positieve residuen geconcentreerd in bepaalde perioden, en de negatieve residuen juist in de tussenliggende perioden. Dien ten gevolge is de Durbin-Watson statistiek zeer klein, te weten D = -0.0013 37. Als men de Durbin-Watson tabel raadpleegt, dan zou D groter moeten zijn dan 1.68 om auto-correlatie uit te sluiten, op het 5% significantie niveau. Beneden D=1.63 is er tamelijk zeker auto-correlatie, met een 5% significantie niveau38. Kennelijk is het twijfelachtig om de regressie met de formules 3a-b toe te passen. Het is duidelijk, dat het model van de Wolff belangrijke predictoren van de Sauerbeckse index weglaat.
Voor de volledigheid is ook de invloed van de oogst op het indexcijfer van Sauerbeck statistisch berekend uit de tijdreeksen van De Wolff. Men vindt voor de correlatie coëfficiënt rxy = -0.22, en dat is beter dan de twee voorgaande. Maar hier is de helling negatief (-2.2 + 1.3), wat strijdig is met de verwachting van De Wolff. Bovendien is het min-teken merkwaardig, gezien de eerder gevonden twee positieve hellingen. Het illustreert hoe moeilijk de resultaten van statistische analyses zijn te begrijpen. Men zou kunnen proberen om het model te verbeteren, bijvoorbeeld door meer predictoren toe te voegen. Maar dan verliest men eigenlijk de essentie van de causaliteit in de conjunctuur-theorie van de Wolff. Uw blogger voelt zich niet geroepen om dit probleem nauwkeuriger te onderzoeken.
In diverse blogs is grafisch de ontwikkeling van het bruto binnenlands product (afgekort BBP) vergeleken voor een aantal westerse staten. Dat maakt in een oog-opslag zichtbaar hoe de economieën van deze staten worden beïnvloed door regionale incidenten. Het is echter ook interessant om een statistische analyse uit te voeren van de gepresenteerde tijd-reeksen. Dit wordt nu gedaan voor zes staten, te weten Nederland, België, (West-)Duitsland, Frankrijk, het Verenigd Koninkrijk, en de Verenigde Staten van Amerika. De gegevens zijn ontleend aan bestanden bij het Groningen Growth and Development Centre. Uw blogger heeft de Conference board total economy database (CBTED) al gekopieerd in 2010. Sindsdien heeft de universiteit het bestand wat gewijzigd, qua presentatie. In het bestand van 2010 liepen de gegevens van 1950 tot 2009, maar de statistische analyse wordt hier beperkt tot het interval 1956-1990.
NL | BE | DL | FR | VK | VSA | |
---|---|---|---|---|---|---|
Nederland | x | x | x | x | x | x |
België | 0.73* | x | x | x | x | x |
West-Duitsland | 0.65* | 0.54* | x | x | x | x |
Frankrijk | 0.70* | 0.77* | 0.67* | x | x | x |
Verenigd Koninkrijk | 0.41* | 0.38* | 0.39* | 0.38* | x | x |
Verenigde Staten | 0.43* | 0.27 | 0.36* | 0.25 | 0.56* | x |
De berekening wordt uitgevoerd voor de groeivoeten van het BBP, en niet voor het BBP zelf. De gegevens zijn uiteraard gecorrigeerd voor de inflatie. Merk op, dat de berekening van de groeivoet overeen komt met differeren (differencing) van de oorspronkelijke tijdreeks. Dit vermindert gewoonlijk de auto-correlatie in de tijdreeks39. De tabel 1 geeft de correlatie coëfficiënten rxy aan voor de groeivoeten 40. Wegens de symmetrie is de rechter bovenhoek niet ingevuld. De tabel laat zien, dat de groei en de conjunctuur van Nederland, België, Duitsland en Frankrijk gecorreleerd zijn. De economie van het Verenigd Koninkrijk wijkt enigszins af van de Europese trend. Wellicht komt dat, omdat er minder weder-opbouw was na de Tweede Wereldoorlog. Overigens verklaart zelfs de hoogste waarde rxy = 0.77 slechts 60% van de ene conjunctuur met de andere. Dat is weinig voor een predictor.
De correlatie met de Noord-Amerikaanse economie is duidelijk zwakker, en zelfs niet meer significant voor België en Frankrijk. Dit komt overeen met de figuur van de tijdreeks in een eerdere blog. Bijvoorbeeld beleeft de Europese economie een hausse in 1970, terwijl de VSA dan juist een baisse hebben. En de Europese economie bloeit op tussen 1980 en 1990, terwijl de Amerikaanse economie dan juist inzakt.
NL | BE | DL | FR | VK | VSA | |
---|---|---|---|---|---|---|
Nederland | x | x | x | x | x | x |
België | 0.51 | x | x | x | x | x |
West-Duitsland | 0.92* | 0.51 | x | x | x | x |
Frankrijk | 0.44 | 0.65* | 0.47 | x | x | x |
Verenigd Koninkrijk | 0.32 | 0.09 | 0.22 | 0.41 | x | x |
Verenigde Staten | 0.57 | -0.03 | 0.44 | -0.01 | 0.51 | x |
Uiteraard veranderen de onderlinge economische verhoudingen voortdurend. Een lange tijdreeks zoals 1956-1990 wist deze dynamiek uit. In de tabel 2 is de statistische analyse herhaald, maar nu voor de kortere periode 1980-1990. Inderdaad ziet men nu de invloed van tijdelijke verschijnselen41. Bijvoorbeeld zijn de Franse en Amerikaanse economie niet aantoonbaar gecorreleerd, omdat indertijd de regering-Mauroy onder Mitterrand een autonoom beleid voert. In deze periode profiteert de Engelse economie van het Thatcher beleid, en heeft een indrukwekkende opbloei. Dien ten gevolge ligt de Engelse groei in tussen de Europese en Amerikaanse trend, wat zichtbaar is in de correlaties van tabel 2. Merk tenslotte op, dat de correlaties in de tabel 2 bijna allemaal lager zijn dan die in de tabel 1. Kennelijk zijn op de korte termijn de economieën minder afhankelijk dan op de lange termijn.
Blijkens een eerdere blog wordt de hoogte van de staatsschuld bepaald door economische en institutionele factoren. De economische groei, een positieve handels-balans, en een lage rentevoet reduceren de schuld. Vergrijzing en veto-spelers vergroten de schuld, en ook de partij-politiek heeft invloed. Hetzelfde moet gelden voor het tekort op de staats-begroting, omdat dit dwingt tot lenen en tot de vorming van de schuld. Dien ten gevolge is het begrotings-tekort een geschikte afhankelijke variabele y(t) om de multipele (multivariate) regressie te beproeven. De statistische analyse zal worden uitgevoerd voor Nederland in de periode 1963-2013. Er worden drie onafhankelijke variabelen gebruikt, te weten de groeivoet van het bruto binnenlands product (x1(t)), en de aanwezigheid van een centrum-linkse (x2(t)) of centrum-rechtse (x3(t)) regering.
De gegevens voor de groeivoet zijn bijna helemaal berekend uit de BBP gegevens van de Conference board total economy database (CBTED) van het Groningen Growth and Development Centre. Alleen de groeivoeten van 2010-2013 zijn berekend uit BBP gegevens van de OESO. De gegevens voor het tekort op de Nederlandse begroting (in % BBP) zijn overgenomen uit diverse bronnen42. De twee tijdreeksen worden weergegeven in de figuur 4. Zij vertonen duidelijk overeenkomsten, behalve tussen 1980 en 1990, toen de groei moest worden gebruikt om de tekorten te stabiliseren! De correlatie coëfficiënt tussen deze twee reeksen is rxy = 0.34. De correlatie is significant op het 5% niveau43. Helaas blijkt er ook auto-correlatie op te treden in de tijdreeks van het tekort44.
Er wordt hier verder niet geprobeerd om de auto-correlatie te verwijderen. De huidige statistische analyse is vooral een vinger-oefening, ten einde enig begrip te krijgen van de beschikbare methoden en instrumenten. Daarom wordt het verband tussen de reeksen toch onderzocht met enkele simpele regressie-vergelijkingen, ondanks de auto-correlatie. Eerst wordt de eenvoudige regressie van de formules 3a-b uitgevoerd met het model y = β + ε + α×x 45. Men vindt voor deze tijdreeks met T = 51 de geschatte waarden b = -4.0 + 0.5 en a = 0.35 + 0.14. Een stijging van de groeivoet met 1% reduceert het tekort met 0.35%.
Vervolgens wordt geprobeerd om de partij-politiek te verwerken in het model. Daartoe moeten de regerings-partijen van de periode 1963-2012 worden ingedeeld in het links-rechts spectrum. Hier wordt gekozen voor de klassificatie van de tabel 3. De indeling naar partij-ideologie is een poging om de algemeen heersende opvattingen in de betreffende periode samen te vatten46. Tussen 1963 en 2012 bevatten de kabinetten in Nederland altijd minstens één centrum-partij. Meestal is het centrum in het kabinet sterker dan de flank-partij(en). Dat was alleen niet het geval bij de Paarse kabinetten. Hier hielden de linkse en rechtse partij elkaar in evenwicht, zodat zij in de tabel 3 worden ingedeeld als een centrum-kabinet. Inderdaad wordt de ideologie van deze kabinetten ook wel aangeduid als het radicale midden. Het verkiezings-jaar wordt toegewezen aan het vertrekkende kabinet.
ideologie | partijen | kabinetten |
---|---|---|
links | PvdA, DS'70, PPR | |
midden | KVP, ARP, D66, CDA, CU | |
rechts | CHU, VVD, LPF | |
centrum-links | 1965-1966, 1973-1977, 1981-1982, 1989-1994, 2006-2010 | |
centrum | 1966-1967, 1994-2002 | |
centrum-rechts | 1963-1965, 1967-1973, 1977-1981, 1982-1989, 2002-2006, 2010-2012 |
De ideologie is een nominale variabele, en daarom kwalitatief. Toch kan zo een variabele worden opgenomen in een regressie-analyse. Daartoe voegt men zogenaamde dummy variabelen toe aan het model47. Het model wordt y = β + ε + α1×x1 + α2×x2 + α3×x3. Hier blijft x1 de groeivoet. Als het kabinet centrum-links is, dan is x2=1, en anders 0. En evenzo, als het kabinet centrum-rechts is, dan is x3=1, en anders 0. Als x2 = x3 = 0, dan is er kennelijk een centrum-kabinet. Er zijn nu zes correlatie coëfficiënten. De coëfficiënt rx1,y verandert weinig, en is 0.36. De twee nieuwe correlatie coëfficiënten rx2,y en rx3,y zijn klein, te weten respectievelijk -0.08 en -0.11.
Inderdaad is het resultaat van de multipele regressie teleurstellend. De berekening met de formules 9a-b geeft b = -3.1 + 0.9, a1 = 0.38 + 0.15, a2 = -0.9 + 1.0, en a3 = -1.4 + 0.9. De regressie wijst duidelijk niet op een significante invloed van de partij-politiek48. Kennelijk is het hier onderzochte model ondeugdelijk. Uw blogger voelt zich momenteel niet geroepen om een beter model te bedenken. Men zou incidenten moeten opnemen in het model, zoals de olie-crises van 1973 en 1979, de crisis van de new economy in 2000, en de financiële crisis van na 2007. Overigens is het twijfelachtig, of enig model in staat zal zijn om een invloed van de Nederlandse partij-politiek op het begrotings-tekort te ontdekken. Immers, de Nederlandse politiek hecht aan een beleid van consensus. Radicaal beleid komt weinig voor, en is ten minste in de periode 1963-2012 nooit van lange duur.
De afwezigheid van partij-politieke invloed op het begrotings-tekort is strijdig met de conclusie in een eerdere blog. De conclusie baseert op een studie van 21 OESO staten, inclusief Nederland. Hierbij moeten twee opmerkingen worden gemaakt. Weliswaar is de conclusie significant op het 5% niveau, maar er wordt niet vermeld hoeveel de partij-politiek verklaart van het tekort. Het kan een klein effect zijn, dat verdwijnt bij een andere keuze van de onafhankelijke variabelen, en dus instabiel is. En ten tweede geldt de conclusie alleen voor het hele panel bestand. De gegevens van Nederland vormen een deel van de analyse, een casus op zich, maar die is niet afzonderlijk bestudeerd. Daarom is denkbaar, dat de invloed weliswaar significant is in enkele staten, maar afwezig is in Nederland.
De drie casussen illustreren hoe men statistische methoden kan toepassen om de maatschappelijke ontwikkelingen te analyseren. Helaas hebben de gegevens vaak de vorm van tijdreeksen, en die zijn eigenlijk minder geschikt voor de statistische analyse. Er treden problemen op bij de regressies voor het model van de Wolff en voor modellen van het tekort op de Nederlandse begroting. Deze blog heeft geen pogingen gedaan om de problemen te verhelpen. Des al niettemin kunnen conclusies worden getrokken alleen al op basis van de berekende correlatie coëfficiënten. De numerieke schattingen zijn een nuttige aanvulling op de visuele presentatie in grafieken. Natuurlijk is de statistische analyse slechts een techniek, meer een vaardigheid dan een openbaring. De werkelijke fascinatie komt van de toepassingen op casussen en vergelijkende (panel) studies.