-ocr page 1-

mSmSk

FREQUENTIECURVEN.

WfMBBffié

A. 0. HOLWERDA.

wmmmamsssmœmsmm

-ocr page 2-
-ocr page 3-
-ocr page 4-

0629 0161

-ocr page 5-

FREQUENTIECURYEN

Proefschrift ter verkrijging van den graad
van Doctor in de Wis- en Natuurkunde aan
de Rijks-Universiteit te Utrecht, op gezag
van den Rector-Magnificus, Dr. C. EIJKMAN,
Hoogleeraar in de faculteit der Geneeskunde,
volgens besluit van den Senaat der Univer-
siteit tegen de bedenkingen van de faculteit
der Wis- en Natuurkunde te verdedigen op
Vrijdag den 16e" Mei 1913, des namiddags te
4 uur door

ALLARD OTHMAR HOLWERDA,

geboren te \'s Gravenhage.

BLOM & OLIVIERSE — CULEMBORG.
1913.

-ocr page 6-
-ocr page 7-

oAan mijn Ouders en mijn

aanstaande vrouw.

-ocr page 8-
-ocr page 9-

Bi) het voltooien van dit proefschrift is het mij een in alle
opzichten aangename taaie, mijn erkentelijkheid uit te spreken
jegens allen, icier kennis en leiding mij tot voorlichting strekte
hij mijn studiën.

Dat is in de eerste plaats aan U, Leeraren aan het Eras-
miaansch Gymnasium te Rotterdam.

En vervolgens jegens U\', lloogleeraren der Leidsche Universiteit,
icier colleges ik het voorrecht had te mogen volgen. Zonderallen
met name te noemen, wil ik toch U, hooggeleerde
l0renz, danken
voor den steun, dien ik van U zoo in alle opzichten gedurende
mijn studiën mocht genieten. Niet minder is mijn erkentelijkheid
jegens U, hooggeleerde
Kluyver. De leerschool, die ik bij U
in de wiskunde mocht doormaken, zal zonder ticijfel van blij-
venden invloed zijn. Daarom heb ik het zeer betreurd, dat Gij
meendet, dat een proefschrift in de wiskunde zich niet aan den
kant der praktische toepassingen mocht bewegen. Waar ik evenwel,
door mijn werkkring, dagelijks met deze toepassingen in aanraking
kom, meende ik toch, dat er voor mij in het bewerken van een
zoodanig onderwerp meer aantrekkelijks icas gelegen.

Mij past dan ook mijn zeer bijzonderen dank uit te spreken
jegens JJ, hooggeleerde
kapteyn, waar Gij mij als promotor
zoo in alle opzichten welwillend en hulpvaardig hebt ter zijde
gestaan.\' liet onder Uw leiding tot stand brengen van dit proef-
schrift is mij daardoor tot een zeer aangename taak geworden.

Dan icU ik hier een woord van dank brengen aan U, zeer
geleerde
Van Dorsten, dat Gij, niettegenstaande Uic reeds

-ocr page 10-

zoo beperkten tijd, nog steeds gelegenheid vondt mij met raad
en daad bij te staan in de studie der Verzekeringswiskunde.
Aan TJw kundige voorlichting dank ik het in de allereerste
plaats, dat deze tak der wiskunde mij, meer dan élke andere,
interesse heeft ingeboezemd.

Ten slotte betuig ik mijn zeer bijzondere erkentelijkheid aan
de Directie der
„Eerste Rotterdamsche Maatschappij van
Verzekering op het Leven",
voor de ruime manier, waarop
mij op haar bureaux de gelegenheid werd gegeven, met de
praktijk der levensverzekering kennis te maken.

-ocr page 11-

INHOUD.

Blz.

Inleiding....................................1

Hoofdstuk I. De methode der momenten .... 15
„ II. De middelbare fout bij de momenten 43
„ III. De normale frequentiecurve .... 59
„ IV. De normale frequentiecurve in de bio-
logische statistiek.......74

„ V. Eenige niet normale frequentiecurven 115
„ VI. De Pearson\'sche frequentiecurven . . 129
„ VII. De Pearson\'sche differentiaalverge-
lijking ............163

„ VIII. Over do fouten bij do Pearson\'sche

frequonticcurvon........175

Stellingen..................201

-ocr page 12-
-ocr page 13-

INLEIDING.

Onder „frequentiecurve" zal in het volgende verstaan
worden elke curve, die in de mathematische statistiek
gebruikt kan worden, ter voorstelling van een statistische
getallenreeks, zoowel van de waargenomen data zelf, als van
de hieruit verkregen statistische verhoudingen. Dit begrip
zal zoo ruim opgevat moeten worden, als* mogelijk.

Voor deze bepaling is dus geen enkele op de theorie der
waarschijnlijkheidsrekening berustende delhiitie noodig:
in de eerste plaats stelt men hier het zuiver analytisch
probleem: men heeft gegeven een reeks getallen en men
vraagt een analytische uitdrukking op te stellen, waarin
de eigenaardigheden dezer reeks
weerspiegeld worden.

In hoofdzaak kan men vier redenen aangeven, waarom
hot van eenig praktisch belang is zulk een uitdrukking
te kennen.

1°. De gegeven reeks kan tamelijk onregelmatig ver-
loopen, terwijl men voor het praktische gebruik een
vloeiend verloop noodig heeft. Dan dient dus de frequen-
tiecurve ter afronding der data. De eenige eisch, die men
hier aan de curve stelt, is een zoo nauw mogelijke aan-
sluiting aan die data.

2°. Het kan gewenscht zijn, eenige analoge statistische
reeksen to vergelijken. Beter dun door de reeksen een-
voudig naast elkaar te zetten, bereikt men dit, door bij
elke reeks een passende curve te berekenen en do in
de analytische uitdrukking dezer curve bevatte constanten
te vergelijken. Hier is do eisch, behalve voldoend nauwe
aansluiting, dat de gezochte curve zoo weinig mogelijk
constanten bevat, hetgeen het vergelijk zeer vereenvoudigt.

3°. De frequentiecurve moet het middel aan de hand
doen, langs mathematischen weg onderzoekingen op touw
to zetten, als het in hoofdstuk IV to bespreken regressie
onderzoek.

-ocr page 14-

4°. Een laatste eisch, die men aan frequentiecurven
kan stellen, is, dat deze eenigszins rekenschap zullen geven
van de gronden, waarop de gegeven frequentie verdeeling
tot stand kwam. Hier geraakt men terstond op waar-
schijnlijkheidsgebied. Men kän namelijk theoretisch aan-
geven, welke frequentieverdeelingen te verwachten zijn.
Deze verwachting, meest uitgedrukt door de termen van
een reeks, zal men in een continue analytische uitdrukking
trachten om te zetten. Praktisch evenwel is zeer vaak den
omgekeerden weg bewandeld en vond men eerst tastender-
wijze de curve, welke men dan, a posteriori, door een
op de waarschijnlijkheidsrekening baseerende redeneering
plausibel tracht te maken.

Deze laatst genoemde basis voor de frequentiecurven
is een der meest aantrekkelijke, zooals wel blijkt uit de
groote belangstelling, die o. a. biologen hierin betoond
hebben, maar men moet niet uit het oog verliezen, dat
dit ook een der meest speculatieve is.

En maar al te licht laat men zich verleiden juist hierop
in te gaan. Ik denk hier o. m. aan volgende plaats van
Ranke en G r e i n e r,1) uit hun overigens degelijke studie
omtrent de F e c h n e r\'sche en Pearso n\'sche curven:

„Im Fehlergesetz hatten wir ein Gesetz kennen gelernt,
das in Wirksamkeit tritt, wenn ein Wille ein bestimmtes
Ziel mit materiellen Mitteln zu erreichen strebt, bei dessen
Verwirklichung ihm i^ber eine grosze Summe störender
Kräfte zufälliger Natur, die Tücke des Objects, in den Weg
tritt. Die Annahme dieses Gesetz sei auch für die Variation
gültig, zog daher eine Reihe sehr eigenartiger Vorstellun-
gen nach sich, die auch heute noch nicht ganz zur Ruhe
gekommen sind. Alte, längst schon entschlummerte Ge-
danken wollten in dieser analogie der Variation mit mensch-
liehen Willenshandlungen zu neuem Leben erwachen.
Unwillkürlich denkt man ja dabei an die platonische
Vorstellung des präexistierenden unveränderlichen Eidos
jeder Erscheinungsform und des Widerstrebens der Materie
gegen den Willen des Schöpfers, der die Erscheinungen
nach diesen Bilde formt."

1  Arch. Anthr., Braunsclnveig, II. 32, 1901.

-ocr page 15-

Waar zoo iets in een biologisch tijdschrift verschijnt,
waar allicht voor een eenigszins mathematische verhande-
ling veel oppervlakkige lezers gevonden worden, valt op
zulk een uiting nog meer nadruk dan anders het geval
zou zijn. Men zij op zijn hoede voor dergelijke niet vol-
doende gemotiveerde, en dus zeker niet mathematisch
gegronde, speculatieve uitingen.

In den loop van deze studie ben ik steeds meer en meer
sceptisch tegenover dergelijke conclusies komen te staan.
Geen enkele afleiding, van welke frequentiecurve ook,
zelfs niet van de normale Gausische, uit de theoretische
premissen, die men ten grondslag kan leggen, is zoo in
alle opzichten bevredigend, dat men met eenig recht uit
de verkregen curve algemeen geldende natuur- of levens-
wetten zou kunnen aflezen. Dat dit toch veelal geschiedt,
is zeer jammer.

Het is nooit verstandig aan iets meer waarde toe te
kennen, dan er met veilige zekerheid aan te hechten is.
Waar frequentiecurven, en als afrondingscurven, en als
vergelijkingsmiddel zoo goede diensten bewezen, is het
niet noodig, het gebruik en de studie van deze curven
van secundair belang te meenen, omdat men hiermee op zijn
meest dringende vraag geen antwoord kreeg. Want, dat
is wel waar, indien frequentiecurven wel rekenschap, en
in voldoende mate, zouden geven van de gronden, waarom
nu juist do gegeven frcquentieverdeelingen tot stand
kwamen en geen andere, dat men dan een niet onbelang-
rijke stap verder was gekomen in de oplossing van wat
men nu tot do levensraadselen kan rekenen. Dan zou men
met meer recht dan ooit G al to n\'s meening \') kunnen
doelen: „(The statistics) are the only tools by which an
opening can be cut through the formidablo thicket of
diiïiculties that bars the path of those wlio persue the
science of man."

Evenwel, men late de interpretatie van statistische ge-
gevens over aan hen, die daartoe voldoende mathematische
training bezitten. Men dient nooit te vergeten, dat elk
statistisch onderzoek, zuiver beschouwd, alleen iets leert

*) Natural Iuheritance, London 1889 (62).

-ocr page 16-

omtrent het bewerkte materiaal. En om daaruit algemeene
conclusies te trekken, moet men wel degelijk zijn mate-
riaal naar alle zijden onderzoeken. Hoeveel moeilijkheden
bevat nog niet de zoo eenvoudige theorie van correlatie
en regressie, zooals Yule \') zoo duidelijk uiteenzette.
Men vindt bijvoorbeeld regressie van levensduur van vader
op zoon, dat wil dus zeggen, vaders die lang leefden heb-
ben gemiddeld ook zoons, die een meer dan gemiddelden
levensduur hebben. Hetzelfde neemt men waar bij groot-
vaders en kleinzoons. Maar daarom is het zeer wel moge-
lijk, dat er toch niet de minste directe erfelijkheid tusschen
die twèe generaties bestaat, maar deze schijnbare erfelijk-
heid te voorschijn komt door de directe van grootvader
op vader, en van vader op zoon.

Uit elk gebied der statistiek, waar men correlatie-
coefficienten berekende, kan men zonder moeite steeds
zulke voorbeelden aanhalen.

Men zij dus voorzichtig in zijn conclusies, en hoede zich
voor te veel generalisatie van zijn uitkomsten. In de eerste
plaats leert zulk, evenals ieder ander, statistisch onderzoek
nog alleen, hoe de dingen zich aan ons voordoen, en niet
in de eerste plaats hoe de dingen in hun dieper innerlijk
wezen ook werkelijk zijn. Men krijgt dus steeds meer
praktische dan theoretische uitkomsten.

Merr kan de studie van frequentiecurven in twee zeer
onderscheiden richtingen splitsen.

Aan den eenen kant wordt gezocht naar een oneindig
voortloopende reeks, waarmee men de gegeven frequentie-
verdeeling zoo goed mogelijk voor wil stellen. Deze
reeksen zijn alleen practisch bruikbaar, indien er zoo
sterke convergentie is, dat men in de toepassing gewoon-
lijk met enkele termen te berekenen, volstaan kan. Zoo
zijn er in de litteratuur reeds vele bekend, bijvoorbeeld
de reeks:2)

-ocr page 17-

rj = A0 <p (x) Aj <p\' {x) A2 <p" (a?) . •..,

wanneer men onder de gebruikte functie verstaat:
»
(x) = Ê-1" fl>\' : 2(72

de gewone normale wet derhalve. Van deze zelfde wet
uitgaande vond ook Bruns zijn zeer bruikbare reeks,
terwijl hier ook het werk van J. P. van der Stok 2)
vermelding verdient.

De tweede richting in deze is een analytische frequentie-
wet te vinden in een eindigen vorm. Hiervan is de typische
representant de zoogenaamde normale curve van Gausz.

Voor het volgende heb ik de eerstgenoemde, die ik liever
frequentiefuncties zou willen noemen, buiten beschouwing
gelaten, en heb mij bepaald tot de tweede, de meer eigen-
lijke frequentiecurven.

Van deze laatste toch verwacht ik meer practisch nut
dan van eerstgenoemde. Ik denk hier voornamelijk aan
de Gausische curve, die aanleiding heeft gegfcven tot een
groot deel der mathematische statistiek. Men bedenke
slechts, hoe hierop het geheele regressie onderzoek baseert.

Zulk een uitbreiding is alleen mogelijk van een mathe-
mathisch gemakkelijk toegankelijk en eenvoudig gebouwde
uitdrukking. En dat zijn de genoemde frequentiefuncties niet.

Nu men weet, dat er veel frequentieverdeelingcn zijn,
die een belangrijke afwijking vertoonen van het verloop,
dat de Gausische curve cischt, moet allereerst, het streven
zijn voor deze curve een equivalent te vinden, dat van
algemeenere toepassing is. En hierin is men toch voor een
deel alreeds geslaagd; het hoogst staat in dit opzicht do
P e a r s o n\'sche curvenfamilie, alhoewel men erkennen
moet, dat deze nog lang niet dat geven, wat men wel
wenschen zou. Toch dunkt dit mij de richting, waarin
vooral verder gezocht moet worden.

1 \') H. Bruns, Wahrschoinlichkcits-Reclinung und Kolloktiv-

maszleliro. Leipzig und Borlin (Teubnor) 190G.

-ocr page 18-

Afgezien van elk theoretisch- belang kan men bovendien
nog de volgende practische redenen aangeven, waarop
het mij gemotiveerd scheen, deze frequentiefuncties buiten
bespreking te laten. Van de vier, in het begin genoemde
practische eischen, voldoet ook de frequentiefunctie zeker
niet aan den laatsten. Een inzicht in het mechanisme, dat
de voorhanden frequentieverdeeling tot stand bracht, geven
deze zeker niet.

Maar ook zijn deze ter afronding minder geschikt. Brengt
men weinig termen in rekening, dan loopt men gevaar,
dat ook de verwaarloosde termen nog van beteekenis waren
gebleken, indien men deze becijferd had. Een enkele term
meer of minder kan derhalve op de afronding zeer veel
invloed hebben. Toch kan men niet te veel termen in
rekening brengen, omdat men dan ook zooveel meer con-
stanten in rekening brengt. Hierdoor krijgt de functie
zulk een aanpassingsvermogen, dat in het resultaat veel
te veel de toevallige eigenaardigheden van de gegeven
statistische reeks gereproduceerd worden. Dit kan nu
misschien zeer nuttig zijn, als men een vergelijk van eenige
analoge reeksen beoogt, maar voor een afrondingsprobleem
is dit een voortdurende moeilijkheid. Dit is van te meer
beteekenis, omdat er andere uitdrukkingen zijn (o.a. de
Pearson\'sche curven), die wel een zeer fraaie afronding
kunnen geven, en omdat aan de analytische afronding in
den laatsten tijd door E1 d e r t o n 1) een nieuwe betee-
kenis is gegeven, vooral voor actuarieele doeleinden.

-ocr page 19-

Trouwens, het is duidelijk genoeg, dat de kennis van een
goede frequentie wet, in beknopten, eindigen vorm, het
geheele afrondingsprobleem tot meer eenheid zou brengen.
Men kan nu toch wel zeggen, dat er zooveel afrondings-
methoden zijn, als er menschen zijn, die ooit een afronding
practisch moesten uitvoeren.

Iloe verschillend uiterlijk do waargenomen frequentie-
verdeelingen ook kunnen vertoonen, bijna alle komen
daarin overeen, dat er één duidelijk uitgesproken maximum
is, terwijl vanaf dit maximum de frequentie meest snel
afneemt. Dit geldt althans voor de direct waargenomen
statistische reeksen, zooals bijvoorbeeld, het aantal dooden
en het aantal waargenomen personen uit een sterftestatis-
tiek. Vormt men hieruit, door eenvoudige deeling, statis-
tische verhoudingen, zooals bijvoorbeeld de sterftekans,
dan is er meest eon heel andere gedaante en deze kan
zoo verschillend zijn, dat het hier hopeloos is, een alge-
meene frequentiewet te zoeken, die voor al deze gevallen
passend is. Voorloopig kan men zijn doel niet verder
stellen, dan een curvensysteem te vinden, dat alleen voor
deze eerstgenoemde frequentieverdeelingen geldig is, maar
ook dan is het veld van toepassing nog enorm. Natuurlijk
kan men wel voor elke bijzondere trequentieverdeelingop
zich zelf een frequentiecurve vinden. Een der meest
bekende is daarvan allicht Makeham\'s storftewet. l)

-ocr page 20-

Van dezen aard kan men natuurlijk een oneindige ver-
scheidenheid van frequentiecurven bedenken, ja, zoo kan
elke curve wel eens als zoodanig optreden. Van hoeveel
belang wellicht ook in elk bijzonder geval, hebben zulke
curven geen algemeene beteekenis, en zijn daarom ook
niet het doel van deze studie.

De in het volgende besproken frequentiecurven zijn dus
in hoofdzaak van de genoemde algemeene gedaante, de zoo-
genaamde quasinormale gedaante. 1) Dit is wel een groote
beperking van de verwachtingen, maar als men nu ziet,
wat men al bereikt heeft met de Gausische curve alleen,
dan kan men van een theorie, die hiervan als de directe
uitbreiding is te beschouwen, toch minstens even algemeene
resultaten verwachten, van dezelfde strekking.

Nu vallen hier buiten zeker alle curven met meer dan
één maximum. Zulke frequentieverdeelingen zijn toch
inderdaad waargenomen, maar nog zoo weinig, dat deze
tot nu toe van veel minder belang zijn, nog daargelaten
de kwestie of multimodaliteit niet nog meestal het gevolg
is van abnormale omstandigheden, als bijvoorbeeld ver-
menging van twee heterogene groepen onder elkaar.

Wanneer men nu aan een of andere reeks data een
frequentiecurve heeft aangepast, doet zich allereerst de

-ocr page 21-

vraag voor, hoe men een oordeel kan krijgen, of deze
curve voldoende nauw hierbij aansluit. Dit is werkelijk
nog een der lastigste dingen, die het gebruik van fre-
quentiecurven aankleven. Men heeft wel getracht hier-
omtrent criteria op te stellen (o. a. Pearson), \') die dan
ten slotte een waarde aangeven voor de waarschijnlijkheid,
dat de berekende curve, zooals die bij de gegevens past,
nu ook inderdaad de „ware" is. Men spreekt hier van de
„ware" curve in dien zin: dat men meent, de gebruikte
curve juist daarom te hebben kunnen aanpassen, omdat
het mechanisme, waardoor de frequentieverdeeling tot stand
kwam, met noodzakelijkheid tot deze curve moest leiden.

Daar ik nu meen, dat in geen enkel geval met eenig ver-
trouwen gezegd kan worden, dat een fr.equentiecurve reken-
schap geeft van de uitwerking der tot grondslag liggende
oorzaken, heeft voor mij zulk een criterium weinig waarde.

Bovendien geven zoodanige criteria een oordeel over de
curve in zijn geheel, terwijl het zeer wel mogelijk kan zijn,
dat bijvoorbeeld de uiteinden van de curve nog al belang-
rijke afwijking van de gegevens vertooncn, terwijl juist
bij het stuk, dat men voor een of andere practische reke-
ning noodig heeft, de aansluiting fraai is. Zulk een cri-
terium is dus niet fijn genoeg bewerktuigd om\' in alle
opzichten te voldoen. \'-\')

Een uitzondering hierop maakt het criterium, door Y u 1 e
aangegeven, omtrent liet onderzoek naar do normaliteit
van een frequentieverdeeling. Dit laat een eenvoudig
rekenwerk toe en voert dus snel tot een resultaat. Boven-
dien is het zeer gewenscht om voor de normaliteit een
criterium te bezitten, ter wille van o. m. het correlatie en
regressie onderzoek. Daar men gewend is, onder anderen

\') Phil. Mag. London 1907.

2) G. Dunckor, Arch. Entw. Mech, Leipzig, 1899 (139),
geeft een criterium, dat aan precies hetzelfde bozwaar onderhevig is.
Daar in dit, zuiver gesproken, alleen de verschillen van waarge-
nomen en berekondo frequenties zitton opgesloten, doet men m. i.
veel beter direct naar deze verschillen zelf te zien, waardoor men
een zuiverder oordeel krijgt.

8) Zie hoofdstuk III.

-ocr page 22-

in de biologische wereld, een menigte correlaties te bere-
kenen, zonder zich er voldoende rekenschap van te geven,
of het materiaal normaal was of niet, en daarop ver
strekkende conclusies te bouwen, is het toch zeer zeker
nuttig, hier een middel te hebben om de normaliteit
stelselmatig te onderzoeken, opdat men goed wete, welke
waarde men aan zijn conclusies kan hechten.

Bij het gebruik van alle andere frequentiecurven zal
het steeds voldoende zijn, indien men de gegeven en de
overeenkomstige door de curve opgeleverde data met
elkaar vergelijkt. Men kan dan van een goede aansluiting
der curve spreken, indien:

1°. het totaal der gegeven en berekende waarden nauw
overeenkomt, niet alleen voor de geheele frequentieverdee-
ling, maar ook voor enkele afzonderlijke gedeelten daarvan ;

2°. de verschillen tusschen de gegeven en berekende
frequenties klein zijn, ten opzichte van de frequenties zelf;

3°. deze zelfde verschillen behoorlijk afwisselend posi-
tief en negatief zijn.

Ter wille van dit onderzoek kan men zeer handig en over-
zichtelijk van een graphische voorstelling gebruik maken.

Wanneer men zulk een onderzoek nauwgezet uitvoert,
krijgt men een zeer precies oordeel omtrent de bruikbaar-
heid der berekende curve, en wanneer men niet al te sterk
gepraejudiceerd is voor één bepaalde curve, levert dit
geen enkel gevaar op, dat iemand een slecht aansluitende
curve, goed zal noemen.

Moeilijker wordt het, indien men twee curven wil gaan
vergelijken, indien de aansluiting van beide aan dezelfde
gegevens, van analogen aard is. Hier kan alleen de praktijk
den doorslag geven en moet men m.i. steeds zoo veel
mogelijk de curve verkiezen, die in het algemeen de
ruimste toepassing kan vinden. \') IIet is duidelijk, dat een

Bijvoorbeeld zijn er gevallen bokend dat een K a p t e y n \'scho
en een Pearaon\'scbe curve beide in een zelfde geval een goed
resultaat opleveren. Dan verkies ik do P o a r s o n\'sche, omdat
deze van meer algemeene toepassing is, terwijl bier nog bovendien
geen geval bekend is, dat een P e a r s o n \'scho curve faalde,
waar een Kaptoyn \'scbe bruikbaar was.

-ocr page 23-

criterium als liet besprokene, dat toch ook practisch moet
berusten op de verschillen tusschen gegeven en berekende
data, in welken vorm dan ook, hier geen hulp van be-
teekenis kan geven.

Bij de theorie van frequentiecurven wordt geheel afge-
zien van de stabiliteit der statistische reeksen, namelijk der
statistische verhoudingen. Hoewel, door de door W. Lexis
aangegeven weg, dit zich, zooals Czuber \') terecht
opmerkt: „gerade zu einem Hauptproblem der theoretischen
Statistik ausgebildet hat", is hier geen reden daar direct
nader op in te gaan. Zooals reeds opgemerkt is, berust de
theorie van frequentiecurven ten slotte niet eens op een basis,
die uit de waarschijnlijkheidsrekening moet afgeleid worden.

Waar men evenwel met de conclusies, die men ten slotte
trekken zal, op het gebied der waarschijnlijkheidsrekening
geraakt, moet men dus 6f aannemen dat een tweede onder-
zoek geleerd hoeft, dat deze stabiliteit, desnoods bij be-
nadering, aanwezig is, of men is in geen geval gerechtigd
zijn conclusies, die op gegevens uit het verleden baseeren,
tot toekomstige verwachtingen uit te breiden. Toch denke
men hier steeds aan wat C z u b er2) opmerkte: „Es hat den
Anscliein, dasz den unwandelbaren Gcsetzen, wclcho die
leblose Natur beherrschen, bei der Menschheit die Alliage zur
fortschreitenden Entwicklung gegenüberstcht"; hetgeen niet
alleen bij do menschheid, maar in liet algemeen bij alle biolo-
gische problemen zoo is. Dit is een reden te meer voorzichtig
in zijn conclusies en vooral in zijn „voorspellingen" te zijn.

Ook moet men nooit vergeten, dat aan alle conclusies,
die op het gebied der waarschijnlijkheidsrekening liggen,
bijna steeds in een of anderen vorm B a y e s\' hypothese
ten grondslag ligt: dat bij volkomen onbekendheid met de
aan een verschijnsel ten grondslag liggende kans, elke
kans tusschen 0 en 1 even waarschijnlijk is. Zulk een
theorema is niet streng te bewijzen en kan men alleen
als een axioma opvatten. De beste verdediging ligt alweer

J) E. Czuber, Wahrscheinlichkeitsreohnung. Leipzig u. Ber
liu (Teubner) II 1910 (3G).
«) l.c. (21)

-ocr page 24-

in de practisch zoo bruikbare en beproefde resultaten.
Maar daarom blijft het toch zeer wel denkbaar, dat zulk
een axioma wel eens met reden bestreden kan worden en
er vroeg of laat aanleiding zal blijken te bestaan dit theorema
door een ander te vervangen.

Zoodra men uit de statistische gegevens conclusies gaat
trekken, kan men met P e a r s o n \') zeggen : „the ultimate
basis of the theory of statistics is tlius not mathematical
but observational". Dit geldt niet alleen voor de statistiek,
maar ook voor zooveel andere toepassingen der waar-
schijnlijkheidsrekening: het zijn per slot van rekening de
practische uitkomsten, die het laatste antwoord geven op
de vraag naar de motiveering der grondslagen.

In het volgende begin ik met een overzicht te geven
van het gebruik van de normale curve in de statistiek.
De uitgebreidste en meest systematische onderzoekingen
zijn hieromtrent geschied onder leiding van den Engelschen
mathematicus Karl Pearson. In de vele bijzonder-
heden, die zich bij zulk een onderzoek voordoen, ben ik
niet nader getreden, omdat dan ten eerste de stof veel te
uitgebreid was, en ten tweede dit overzicht alleen gegeven
werd, om in grove trekken aan te toonen, wat men met een
bruikbare frequentiecurve bereiken kan en hoe gewenscht
dus -een algemeenere curve van deze soort is.

Bovendien is het werk van de P e a r s o n\'sche school niet
in alle opzichten zonder bezwaren te aanvaarden. Waar dit
te pas komt, dunkt het mij niet overbodig, hierop te wijzen.
Daar toch de Pearson \'sche school een der weinige is,
die over de middelen beschikt zulke\' uitgebreide en kost-
bare onderzoekingen op touw te zetten, krijgt deze te licht
een autoriteit, die gevaarlijk kan worden, zelfs gevaarlijk
voor het meest directe dagelijksche leven. Want reeds
openbaart zich, in Engeland vooral, een streven de statis-
tische onderzoekingen vooral op anthropologisch, physisch
zoowel als psychisch, gebied omtrent de erfelijkheid,
terwille van de rasverbetering der menschheid dienst-
baar te maken. Dit gaat uit van het eveneens onder

\') Phil. Mag., London, 1907 (366).

-ocr page 25-

P e a r s o n\'s leiding staande „Laboratory for National Eu-
genics", waar het doel allereerst is, zooals men in de
publicaties hiervan aankondigt: „National Eugenics is the
study of agencies under social control, that may improve
or impair the social qualities of future generations, either
physically or mentally".

Nu is zeer zeker de statistische de eenig aangewezen
wreg, die kan leiden tot eenig juist inzicht in de ontwikke-
ling en evolutie der menschheid. Op botanisch gebied is
het werk van H. de Vries hiervoor het beste bewijs.

Maar als men nu ziet, dat van den kant der eugenisten
reeds nu aangedrongen wordt op wat men zou kunnen
noemen de wettelijke regeling der voortplanting, hetgeen
dus daarheen leidt, dat men ongeschikte individuen het
voortplanten van hun ras gewelddadig belet, dan dunkt
mij dat toch nog wel wat voorbarig. Want ons inzicht
in het wezen der erfelijkheid is toch nog. niet zoo geheel
en al duidelijk, en bovendien heerscht er nog veel oncenig-
heid: aan den eenen kant degenen, die Mendel volgen,
aan den anderen kant de zoogenaamde „law of ancestral
heredity" van Pearso n. 1) Deze laatste is volgens mijn
inzichten niet te aanvaarden, maar wordt toch nog steeds
door Pearso 11 op den voorgrond geschoven, men zie
slechts zijn tijdschrift „Biometrika".

\') In London. Phil. Trans. li. Soc. 1905isdoor Pearson getracht
zijn wot met die van Mendel in overeenstemming te brengen.
Dit is natuurlijk niet onmogelijk, a priori, daar beide wetten
ontstaan zijn door waarneming van dozelfde feiten, omtrent wier
duiding geen verschil van meening kan
zijn. In zooverre kan
zeker dat: „a statistical study of heredity does not involve a
denial of any physiological theory of heredity, but it serves in
itself to confirm or refuto such a theory\'\'. Maar dan moot do
statistischo methode ook geheel zuiver opgevat worden en op onaan-
vechtbare grondslagen berusten.

Do M 0 n d 0 l\'scho theorie is een zuivero samenvatting van do
waarnemingen en heeft als zoodanig redon van bestaan, zoolang
or geen betere gevonden wordt. Maar Pearso n\'s theorio berust
op zoogonaamd mathematische gronden, die den toets van een
eenvoudige kritiek niet kunnen doorstaan.

-ocr page 26-

Men doet daarom zeker goed, een zoo uitgebreid mogelijk
materiaal omtrent erfelijkheidskwesties te verzamelen, maar
men moet niet meenen, dat de tijd reeds gekomen was, de
resultaten van deze studie op diep in de menschelijke
samenleving ingrijpende manier toe te passen.

Op deze beschouwingen omtrent het werk van P e a r-
s o n en zijn school laat ik dan een overzicht volgen van
de verschillende voornaamste frequentiecurven, die er in
den loop der laatste jaren bedacht zijn, maar geen van alle
een uitgebreide toepassing hebben kunnen vinden.

Vervolgens bespreek ik de Pearso n\'sche curvenfamilie
uitgebreid, omdat men hier te doen heeft met het beste
substituut, dat men voor de normale curve ooit heeft kunnen
vinden. In veel opzichten bevatten deze curven zeer veel
fraais en zijn tamelijk algemeen toe te passen. Bovendien
is het typische, dat de methoden van K a p t e y n en
E d g e w o r t h hierbij in hun oorsprong nauw aansluiten
en met een kleine wijziging eveneens tot deze zelfde
familie kunnen voeren.

Echter geven de Pearso n\'sche curven, evenmin als
eenige andere frequentiecurve, niet de minste rekenschap
van de inwendige gronden, waardoor de frequenticvcr-
deeling tot stand kwam.

Aan dit geheer voeg ik toe een overzicht van de zoo-
genaamde methode der momenten, die in het volgende
overal waar dit te pas kwam gebruikt is. Ik heb hier
nergens een volledig overzicht van kunnen vinden, terwijl
het toch wel wenschelijk is, dit te-bezitten, daar vooral
aan de numerieke becijfering der momenten eigenaardige
moeilijkheden, hetzij dan van zuiver practischen aard,
vastzitten.

-ocr page 27-

HOOFDSTUK I.

De methode der momenten.

Het berekenen der constanten van een theoretische curve,
die zich zoo nauw mogelijk aan zal sluiten aan een gege-
ven getallenreeks, is een afrondingsprobleem.

Nu is evenwel een afrondingsprobleem geenszins een
eenwaardig bepaald vraagstuk. Aannemende dat de reeks
ten slotte een regelmatig verloop zal moeten vertoonen,
vraagt men bij afronding de gegeven reeks zoodanig te corri-
geeren, dat do meest „voordeelige" 1) waarden resulteeren.

Om deze voorwaarde in een meer bepaalde en in een
praktisch bruikbare vorm te brengen, zou een mathema-
tisch geschikte maat ter beoordeeling dezer meest voor-
deelige waarden aangegeven moeten worden, maar een
zulke laat zich a priori niet aangeven. Zelfs als men naar
de meest „waarschijnlijke" waarden der reeks vraagt, is
het vraagstuk niet bepaald, omdat men hier niet vraagt
naar de meest waarschijnlijke waarde van ieder getal
afzonderlijk maar naar de meest waarschijnlijke combinatie.
En wat men hieronder verstaan wil is geheel afhankelijk
van do verdere eischen, die men aan de te verkrijgen
uitkomst stellen zal.

Al naar die verdere eischen of verwachtingen, die men
bij het onder handen zijnde probleem hebben kan, zijn dan
ook door dc verschillende autoreu zeer uiteenloopende
afrondingsmethoden ontwikkeld. Men denke bijvoorbeeld
aan de methode der kleinste quadraten van Gansz, en
de in de levensverzekering techniek zoo bekende afron-
dingsmethoden van Woolhouse, Higham, e. a. \'-).

\') E. C z ii b o r, Walirscheinlichkeitsrechnuiig. Leipzig u. Uer-
lin (Teubner) I 1908 (247).

2) C. L. Landró, Mathematisch-Technische Kapitel zur
Lebonaversiclierung. Jcna 1905 (76).

-ocr page 28-

Een veel gebruikte en wellicht de eenvoudigste methode
is de graphische. Maar al moet erkend worden, dat hier-
mee in de praktijk zeer vaak uiterst bruikbare resultaten
bereikt zijn, heeft deze methode toch zijn bezwaren. Ten
eerste is deze alleen bruikbaar voor iemand, die zeer veel,
langs anderen weg verkregen, ervaring in zijn bewerking
kan leggen en bovendien verliest men geheel uit het oog,
welke theoretische voorwaarden men bij de afronding
geïnvolveerd heeft. Ten slotte faalt deze methode geheel,
wanneer, zooals in het hier volgende, het afrondings-
probleem is: de constanten van een theoretische curve
eenwaardig te bepalen.

Voor het\' vervolg wil ik zooveel mogelijk gebruik maken
van de door K. Pearson ontwikkelde theorie der mo-
menten. Op grond van de met deze methode bereikte resul-
taten meen ik, dat de mathematische statistiek, evenzeer
als elk ander gebied, waar kwestie is van afronding of
het aanpassen van curven aan gegeven data, hierin een
zeer bruikbare methode bezit. Niet alleen kan deze
methode bijna overal aangewend worden, waar de theorie
der kleinste quadraten toepassing vindt, maar in vele ge-
vallen is de momenten methode do verkieselijkste, vooral
daar, waar de te bepalen grootheden geen lineaire functies
der veranderlijken zijn.

Om de momenten methode zooveel mogelijk in het
juiste licht te. bezien, wil ik de ontwikkelingen van
E. Blaschke \') volgen.

Welke eischen men ook aan een afronding stelt, deze
ééne voorwaarde hebben alle methoden gemeen: de afge-
ronde reeks moet uit zulke overwegingen ontstaan, dat
het gelijktijdig bestaan van alle waarnemingsresultaten
een zoo groot mogelijke waarschijnlijkheid heeft.

Gesteld er zijn voorhanden waarnemingen omtrent een
grootheid, die de
n waarden 1, 2, 3, — n, kan aannemen
en in
t- gevallen is de waarde i aangetroffen, en dus in

l.— t■ gevallen een andere. Dan is de waarschijnlijkheid
tl 1

\') Vorlesungen über Mathematische Statistik. Leipzig u. Berlin
(Teubner) 1906 (193).

-ocr page 29-

W;, dat aan dit resultaat een waarschijnlijkheid yi tot
grondslag ligt, volgens het theorema van Bayes:

t. l.— t.
Vi C1 Vi>% ldVi

W== -
i i

t. L — t-

*(1 — !/{)* 1 dV{

daar namelijk a priori, elke waarschijnlijkheid y. tusschen

0 en 1 even goed mogelijk is.

Hierbij is nog geen rekening gehouden met welken eisch
of verwachting ook, die men aan het afrondingsprobleem
kan stellen. Alleen de ervaring en de praktijk kan nu
de richting aangeven, waarin verder te zoeken valt.

Onderstel nu, dat de ervaring geleerd heeft, dat er een
analytische uitdrukking bestaat, die in de n waargenomen

punten 1, 2, 3,----n, de gezochte waarden der afhankelijk

veranderlijke (in de statistiek, de frequentie) op kan leveren;
maar in deze uitdrukking zitten nog eenige willekeurige
constanten, die te bepalen zijn. Bijvoorbeeld, de ervaring
doet ons den vorm kennen van de sterftewetvan Mako-
ham, die aangeeft, hoe de individuen uit een aantal ge-
lijkgeborenen zullen afsterven.

Wanneer men zulk een bepaalde functie verwacht,
onderstelt men dus, dat onder
yi geen andere functie
dan deze verwachte functie voorkomt. Nu is het mogelijk,
onmiddellijk van bovenstaande uitdrukking uit te gaan.

De waarschijnlijkheid namelijk, dat in do n waargenomen
punten, aan de waarnemingen de waarschijnlijkheden yl ,
.\'/ > > .V.i, • • • yn tot grondslag liggen is:

n

Slog W.

W,. W2. W8.... Wn = el \\

waar do exponentieelo vorm geschreven is, om in plaats
van een product een som te verkrijgen. Deze uitdrukking
moet een maximum zijn, m.a.w. de exponent:

\\

-ocr page 30-

I log W • = | [t{ log y. (Z - - t.) log (1 - yt).-f-
log
dyi — log I yi 1 (1 — ?/t) * 1 dy{ J

O

moet een maximum zijn, waaraan te voldoen is door de
variatie der rechter zijde gelijk nul te stellen. De voor-
komende bepaalde integraal is een constante, derhalve moet

n / h h ~ h
i
\\Vi i—yO Ul

wat geschreven kan worden:

n h , h \\

h

Stelt men nu hierin w- = -j-, dat is de meest waarschijn-

* i •
i

lijke waarde der waarschijnlijkheid, die er in elk der punten
1, 2, 3,...n, heerscht, en zet men bij benadering:

_li_

y^-Vi) Wiil-Wj-Pi\'

waarin men p het gewicht kan noemen, dan volgt on-
middellijk :

ii

welke vergelijking men met den naam van afrondingsver-
gelijking bestempelt.
Deze is blijkbaar hetzelfde als:

n

f Pi (Vi — a>,)2 = minimum,

en kan dus leiden tot de methode der kleinste quadraten \').

\') Een andere analytisch handelbare ondorstelling is: een
vorige ervaring leerde, dat er een bepaalde betrekking tusschen

-ocr page 31-

Om nu hieruit de methode der momenten te ontwikkelen
moet men afzien van de gewichten
p, door deze bij bena-
dering gelijk 1 te stellen. Neemt men dan in plaats van
de som een integraal, dan luidt de afrondingsvergelijking:

j(y — w)-dx — minimum, 2)

of ook

f(y—w)Syda; = 0,.........(1)

Nu neemt men als grondslag voor de afronding een
functie aan met
m parameters: y = f{x, a,,a2,.. a,;l). Ont-
wikkelt inen deze functie naar opklimmende machten van

opeenvolgende waarden meer waarschijnlijk is dan eenige andere

betrokking; dat dus de speciale waarden fiy A2i"> • • A /"

van y, Ay> A*y > • • • A^y meer waarschijnlijk zijn dan andere.
Hiertoe is eisch dat de waarschijnlijkheid van een of ander systeem
Jc

yt-> Ayt-j... A y^ vaststaat; onderstel dat deze gelijk is aan
h

Ay.....A y-)— ¥>•> dan do waarschijnlijkheid voor y.

z z z z z y

zoowel do voorgaande als do nu voorhanden zijnde ervaring in
aanmerking brengend:

t. l.— t. \' t l.— t.

0

waaruit op dezelfdo manier als in den tekst, de afrondingsverge-
lijking volgt:

£ [^(»--y^ty Jiog?>.] =o

welke eenvoudig uit te breiden is, als meer voorgaande ervaringen
(en dus meerdero functies <p) voorhanden zijn. Al naar do ver-
schillende onderstellingen omtront den vorm dor functie p, boroikt
Blaschke allerlei verschillonde afrondingsmethoden. Vorlesungon
iibor Mathematische Statistiek, Leipzig u. Berlin (ïeubner) 1906
(211 e. Y.).

2) Analoge vergolijkingen goeft ook Poarsou, Biometrika, Cam-
bridge I 1901/2 (268), evenwel zonder Blaschko te vermelden.

-ocr page 32-

x, dan zal elk der coefficienten een functie der m para-
meters zijn, of ook men kan de eerste m coefficienten als
nieuwe parameters invoeren, dus

2 m — 1

y = «o «ï® «2 frj • • • • txm _ i (^znyt R-

waarbij ook de restterm R weder een functie is der m
parameters a. Hieruit volgt nu:

2 m — 1

Sy = fa0 -f afa, fa2 4-.... _ L

1 ÖJtrt 0 1 doe, 1 dx , m — 1.
0 1 »» — 1

Deze waarde van Sy voert men in (1) in, dan moet aan
(1) identiek voldaan zijn en kan men dus de coefficienten
van alle fa stuk voor stuk nul stellen. Dit levert het stel
vergelijkingen:

ƒ ydx = ƒ wdx — ƒ (y — ió) dx.
ƒ yxdx = ƒ wxdx j (y — w) ~ dx.

i

1 f ytc11 dx= f wxm »1 (fa? — (m — 1) 1 f (y — to) ^ da?.

^ ^ 1 m — 1

Links staan nu de zoogenaamde momenten der curve,
en wel der theoretische curve, de eerste integralen rechts
kan men de momenten der waargenomen curve noemen.1)
De tweede reeks integralen rechts moeten echter klein
blijven, wil de momentenmethode toe te passen zijn. Deze
moeten namelijk verwaarloosd worden, dan heeft men de
te gebruiken betrekking tusschen theoretische en waar-
genomen momenten. Nu bevatten deze integralen de kleine
grootheid
(y io), vervolgens zal DR/D«, de gedifferentieerde

\') De eerstgenoemde vergelijking bevat integralen, die het
oppervlak voorstellen, deze kan men do nul\'do momenten noemen,
de tweede vergelijking bevat de eerste momenten, enz.

-ocr page 33-

restterm eener machtreeks, in alle gevallen, dat de reeks
convergeert, klein zijn. In dit geval zijn dus alle termen
der integralen van weinig beteekenis, en daar bovendien
in de statistiek practisch het integratiegebied wel steeds
eindig is, brengt deze verwaarloozing in de meeste gevallen
geen groote fout mee.

Door nu evenveel betrekkingen te nemen, als er con-
stanten te bepalen zijn, heeft men hier een stel vergelij-
kingen, waaruit het steeds theoretisch mogelijk is deze
parameters op te lossen.

Het succes van de methode hangt nu af van: 1°. de
integrabiliteit der theoretische momenten, 2°. het dan ver-
kregen vergelijkingssysteem moet een eenvoudige oplos-
sing der constanten toe laten.

Een eenvoudig voorbeeld kan dit toelichten. \') Stel men
heeft een aantal waarnemingen ,
t2,.. tn en de verhou-
dingen y = Jrr heeft men als ordinaten -) uitgezet in de

2j t

punten xx, x.,,..xn. Men verwacht, dat eensinussoïdede

curve is, waarop de uiteinden dezer ordinaten moeten
liggen. Deze sinussoïde,

y = a sin {bx -f- c) = A sin bx -f- B cos bx,

bevat de 3 constanten A, B en b, die te bepalen zijn, zóó
dat deze curve zoo nauw mogelijk bij de waargenomen
ordinaten aansluit.

Nu geeft de waarneming onmiddellijk X txn, en niet do
integralen hiervan. Een juiste berekening eischt dus een
betrekking op te stellen tusschen integraal en som. Er zijn
er zoo in do litteratuur voldoende bekend. Daar evenwel
de praktijk ons leert, dat een juiste bepaling der momen-
ten van zeer veel belang is, kom ik hier uitvoeriger op
terug. Neemt men nu even aan, dat uit de waarnemingen
de integralen uit de formule (2):

\') K. F o ar s oii. Biomotrika, Cambridgo I 1901/2 (205).

\') In aansluiting met het voorgaande zijn hier dezo verhou-
dingen als ordinaten uitgezet gedacht, maar men kan dit natuurlijk
even goed met de waarnemingen zelf doen.

-ocr page 34-

jwdx ƒtclx,

ƒ wxdx = ^ (txdx,____enz.,

volkomen streng bepaald zijn, en waarin l de som van
alle waarnemingen voorstelt. Noem het geheele interval

van xx tot xn, 2k en stel de integralen ^ J tdx, j J txdx,

enz. voor door m0, mlf enz., waarbij in dit speciale geval
slechts tot en met m2 berekend behoeft te worden. Deze
waarden m, volkomen bekend uit de gegeven waarne-
mingen, moeten nu gelijkgesteld aan de integralen der
sinussoïde, die luiden, als men den oorsprong juist midden
in het interval kiest:

k k

2 B sin bk

— k —k

ƒ ydx = ƒ (A sin bx -f- B cos bx) dx ■

■k —k
k 4- Jc

ƒ yxdx= ƒ (A sin bx 4- B cos bx) xdx =

— 9A ( — fc cos bk , sin bk\\

V b 1

-f Jc

ƒ yx^dx = ƒ (A sin bx -f- B cos bx) x-dx =
— k —k

ot> l sin bk . 2k cos bk 2sinftfc\\

=2B {—T —p---

Wanneer men nu aanneemt, dat ook de integralen m„,
m, en m„ rondom denzelfden oorsprong berekend zijn,
heeft men direct dit stel vergelijkingen:1)

-ocr page 35-

/ — k cos bk . smö/c\\

1 =2A v—ö—- -&5-J-

m ( k* sin && . 2k cos 2 smbk\\
= 2B\\—b 1 b- 63 )\'

m

Wanneer men nu ter bekorting noemt:

en dus /? een bekende grootheid is, en bovendien stelt:
z = bk, krijgt men als oplossing:

- -f Pz cot 2>

z

R_™0 g A __ m1

2fc \' sin z\' 2 fc2 \' /? sin 2 \' ■

waar de eenige moeilijkheid is, de transcendente vergelij-
king voor
z op te lossen. Daar het evenwel om een nu-
merieke waarde te doen is, kan men bij voorbeeld do

hyperbool y = - Pz en de curve y = cot z min of meer

z

ruwweg teekenen en aldus een benaderde waarde voor
z vinden, waarvan uitgaande men langs eiken weg een
nauwkeuriger waarde benaderen kan.

Aan de practische becijfering van de momenten uit een
of andere waargenomen reeks data liggen eenige eigen-
aardige moeilijkheden vast.

Er komen in de statistiek voor, zoogenaamde „ordinaten"
en „oppervlakte" curven. Wanneer men namelijk een
reeks getallen graphiseli wil voorstellen, kan men óf op
gelijke afstanden deze getallen als ordinaten afzetten, óf
men kan een aantal rechthoeken op dezelfde basis naast
elkaar plaatsen, waarvan het oppervlak evenredig is met

2Bsinbk OA / — kcosbkA sinbk
m0 —-^--. m — ---

-ocr page 36-

deze getallen. In het eerste geval zoekt men de curve,
die zoo nauw mogelijk bij de uiteinden dier ordinaten
aansluit, (de ordinaten curve); in het tweede geval zoekt
men de curve, die tusschen twee opeenvolgende ordinaten,
overeenkomende met de opstaande zijden dier rechthoeken,
en de abscissen as, ongeveer dezelfde oppervlakken be-
grenst, (de oppervlakte curve).

Nu worden in de statistiek beide soorten curven naar
willekeur voor analoge gevallen gebruikt. Dit evenwel
ten onrechte. Men kan namelijk evenzeer twee verschil-
lende soorten statistische getallenreeksen onderscheiden:
1°. de gegeven data behooren bij bepaalde waarden der
onafhankelijk veranderlijke en tusschenliggende waarden
kunnen niet voorkomen (aantal meeldraden in een boter-
bloem); 2°. deze data noemen het aantal keeren dat de
waargenomen grootheid in een bepaald interval ligt (li-
chaamslengte van personen). Tusschen twee dergelijke
statistische reeksen bestaat het principieele verschil van
een niet of wel continu veranderlijke. In het eerste ge-
val kan men alleen ordinaten curven krijgen, in het tweede \'
geval alleen oppervlakte curven. Wanneer men in dit
laatste geval nu toch ordinaten uitzet, kan dit uit een
practisch oogpunt misschien gebeuren, maar theoretisch
is dit niet exact, zoodra men van frequentiecurven gaat
spreken.

Een ordinaten curve kan dus alleen een afrondingscurve
zijn, een oppervlakte curve dient ter afronding zoowel
als ter interpolatie. Hoezeer ook verschillend, noem ik
beide soorten, frequentiecurven !).

Nu komen in de statistiek, ordiilaten curven betrekkelijk

-ocr page 37-

weinig voor. Daarom wil ik aanvangen met twee methoden
te noemen voor de rekening der momenten, die voor
oppervlakte curven van toepassing zijn en tot eenvoudige
benaderende resultaten leiden, om daarna het probleem in
een meer strengen vorm te bespreken.

Gesteld er zijn eenige frequenties yxtyny 3, ••• gegeven
omtrent een waargenomen grootheid, in de vakken

xx—\\c tot Xi \\ c, x2 — £ c tot \'®9 £ c, .... enz.

Deze frequenties worden graphisch door de rechthoeken
van fig. 1 voorgesteld.

1

-X

•o »1 *L

c- l x— t - X" C-- V - C- -M C-

Fig. 1.

Om nu van deze oppervlakken de momenten te vinden,
kan men als eerste ruwe benadering de oppervlakken van
alle rechthoeken geconcentreerd denken langs de ordinaten
in de punten
xllx2txa,..., waardoor do uitdrukking der
momenten zeer eenvoudig wordt: £
11 x ".

"TT

In overeenstemming met de notatie van P e a r s 0 n, noem

ik sUr nrn, gedeeld door het totale oppervlak der fre-

quentiefiguur (= A), do momentcoefficienten, of ook kort-
weg de momenten.

Men heeft nu slechts de waargenomen frequenties te
vermenigvuldigen met do respectieve machten der natuur-
lijke getallen en te sommceren. Namelijk, kiest men do

-ocr page 38-

Y-as op een afstand ^ c vanaf den eersten rechthoek, dan
is het ftde moment (y ) ten opzichte van deze Y-as:

(3)... „ = -i- ( yx . 1* y2. 2n ya. 3%. y r" .. ) ,
Ac

waarin A = yx y2 y3... yr ..., terwijl men veelal

c— 1 zal nemen. Dit noemt men de „ruwe" momenten.

Deze methode door P e a r s o n nog aanbevolen in 1894,
heeft zich in de praktijk als niet steeds voldoende bewe-
zen. Het volgende jaar 2) geeft hij dan ook reeds een
betere methode.

Denkt men zich weer de frequenties yuy2, y3,... van de
waargenomen grootheid in de intervallen
xv\\c tot
xt -f- \\ c; x2 \\ c tot £c2 -f- { c; ... enz. Zet men nu deze fre-
quenties als ordinaten uit in de punten
ccjy cc2} iXgj • • • on
verbindt de uiteinden, dan volgt men hier een in de prak-
tijk zoo vaak voorkomende methode om een frequentiecurve
te doen ontstaan (tig. 2). Zooals ik reeds opmerkte, is
dit niet geheel juist. •

Nu is het de vraag, de momenten te vinden der respec-
tieve aldus\'ontstane trapezia.

Beschouwt men een trapezium begrensd door twee opeen-
volgende ordinaten y{ en
y2 op een afstand xt en x2 van
de momentas OY, zoodat weer x2—xx=c, dan is het
moment van dit trapezium:

-ocr page 39-

n t2 .fca^fagL  -

yx (Uxs — x2—x1\' w 2 ^ n 1

De momentas wordt nu gekozen op een afstand c van
de eerst waargenomen frequentie, die niet nul is. Wanneer
men dan over alle trapezia voorgaande uitdrukking som-
meert, krijgt men als moment der geheele frequentiefiguur:

M _ cH-l/fl- | *»(»- 1)N n(n-l)(n-2)(n-3) ,

12 3Ü0 —

H 2ÖÏ6Ö j \' \' \' W

waarin geschreven is Ns = L (i/ /); m. a. w. deze groot-
heden N zijn de „ruwe" momenten.
Voert men nu de gebruikelijke momenten in, namelijk
= M / A en tevens i>. = N / A, dan leest men hieruit

o o SS

achtereenvolgens de vergelijkingen:

ƒ

Pi —cvx

l"ü = C2 (^2 ifo)

pi=ci (j/4 -f i/2 4- -JV J/0)

... (6)

enz. I

Hiervan zegt Pearson: *) „Since the series of trapezia
gives in general a closer approach than the series of

loaded ordinates to the frequency curve ____it will bo

better for the future to calculate the moments of any
frequency curve from te above modified formulae."

Hoewel ik nu moet erkennen, dat do praktijk in deze
kwesties steeds den doorslag geeft en bovendien do for-
mule (6) van eenvoudigen bouw is, daar deze als \'t ware

-ocr page 40-

neerkomt op een correctieve methode voor de ruwe mo-
menten, kan ik mij met deze conclusie niet vereenigen
voor alle gevallen, waarin een oppervlakte curve voorhan-
den is. Bij zulk een curve is het niet waar, dat men be-
paalde ordinaten gemeten heeft.

Niets echter belet, om deze formules (6) voor een ordi-
naten curve te gebruiken. Echter is dan in die gevallen,
waarin de uiterst gegeven, benevens de volgende ordina-
ten, niet nul zijn, een correctie nog wel gewenscht. \') De
ordinaten
y zijn dan gemeten precies in de punten
CC ^ • • • (Z/^ • Buiten deze punten is het niet wenschelijk te

gaan, het waargenomen vak loopt dus van xx tot x/n ; de

momenten volgens (5) en (6) evenwel hebben de beide
sluitende driehoeken meegerekend, de momenten hiervan
moeten dus weer in mindering gebracht worden.

Men heeft dus de uitdrukking (5) te verminderen met:

!n

xm n n—1 „ . n (n — 1) n—2 „ .

- TT\' ïïl®« c ÏT" ** c

\\xxn n n-1 2 , n(n — 1) «—2 a )
~r H\\ I 2 ] c 3 iXl c i ^ j c • •• j >

hetgeen men eventueel in den vorm kan brengen: 2)

, . 2 , i (y. 2

(xm c) -(n 2)xm c-xj
ym (n l)(n-f2) 

, , (-xl c)n 2{-(n 2)(-xx)n 1c-(-xl)n 2

1Jl (n-f l)(ft 2)

Bij gebrek aan een even eenvoudige methode, zou men
desnoods de formules (6) als een benadering voor een

\') K. Poarson. Biometrika, Cambridgo. II 1902/3 (8).
2) Deze uitdrukking neemt een eenvoudigen vorm aan, als mon
den oorsprong juist in het midden van het waargenomen vak had
gekozen en dus
rl = — se was. Tevens neemt men dan weer

0=1,

-ocr page 41-

oppervlakte curve toe kunnen laten, indien niet daarvoor
een geheel analoge methode was aan te wijzen.

Men kan weer even als in fig. 1 de waargenomen
frequenties als rechthoeken uitzetten en deze rechthoeken
overal in de plaats van de trapezia doen treden.

Het moment van een rechthoek, begrensd door twee
ordinaten, elk gelijk aan
y, op een basis

c = (£c 2 c) — — i c)
is analoog met dat van een trapezium:

C , . . M 1 / 1 l

I 11 , (x -f- \\ c) 1 (X — | c) 1 .
Jyx dx — y- --—-»

c

beide binomia ontwikkeld:

_*{„■»,) ^JfS .•-«»«>. ...... j.

Deze uitdrukkingen gesommeerd leveren het moment voor
het geheele systeem rechthoeken, als men bovendien do
Y-as kiest als in fig. 1:

Wn = 2c" 1 ( N\'w ^  ^ N\'n _ 2 (.V)3 -f

1 n(n-l)(n-2)(n-3) r> ]
^ 5! n — ..... ) »

waarin weer N\' voorstelt S y r, dus hetzelfde is als N .

s 1 x

Wanneer men nu weer als gebruikelijk invoert
^ = M\',/A en N\'s/A,

dan leest men hieruit achtereenvolgens:
Pi =cvl

^2=c2tW

P* =c4 (v4  u0) enz.

Deze formules zijn geheel analoog aan (6), maar van een
correcter standpunt afgeleid, en ik meen deze overal in

-ocr page 42-

de plaats te kunnen stellen waar Pearson en anderen
deze formules (6) gebruiken.

Echter blijft deze methode een benadering ter bepaling
der respectieve waargenomen momenten, hoewel in veel
gevallen een voldoende benadering. In de statistiek toch
komt het zeer veel voor, dat de waargenomen frequenties
een uiterst onregelmatig verloop vertoonen. Zoodra men
nu een frequentiecurve gaat aanpassen, om deze data af te
ronden, heeft men een regelmatig verloop verwacht. Men
neemt dus aan, dat de data grove onjuistheden bevatten
en dan is er geen enkele reden aanwezig aan deze data
al te groote waarde toe te kennen. Men kan dan met een
benaderende eenvoudige momenten rekening genoegen
nemen.

Evenwel heeft de methode der momenten een ruimere
toepassing dan in de statistiek alleen. In de physika, o.a.
kan het probleem voorkomen dat van een curve van be-
kende gedaante \'eenige ordinaten gemeten zijn, en men de
constante dezer curve wenscht te kennen.. In alle geval-
len , waarin de oorspronkelijk waargenomen data veel
vertrouwen verdienen of al reeds een regelmatig verloop
vertoonen, is een meer nauwgezette rekening der momenten
gewenscht. Dit is, naar opgemerkt zij, een zuiver prac-
tische eisch.

Bij een juiste methode voor de rekening der momenten
moet men twee gevallen onderscheiden: 1°. er zijn voor-
handen
p metingen (of gemeten ordinaten) in p aequidis-
tante punten der curve; 2°. er zijn, voorhanden ^metingen
omtrent
p oppervlakken, begrensd door de curve, de X-as
en telkens twee aequidistante ordinaten.

Het eerste geval komt het meest in de physika voor, het
tweede het meest in de statistiek.

Laat de vergelijking van de curve zijn: y = f(x), dan
vraagt men in het eerste geval te berekenen:

-ocr page 43-

waarin x — xx het geheele dispersie gebied is, en A het
daarboven liggende oppervlak der frequentiefiguur. Nu
is de uitdrukking
yxn = 2 in p punten bekend. De bere-
kening van deze integraal kan derhalve geschieden door
elke sommatie formule, die in de theorie der bepaalde
integralen bekend is, bijvoorbeeld die van E u 1 e r—M a c
Laurin.

Deze levert onmiddellijk, in symbolisclien vorm geschreven:
x
f p

C(z, 2p)(y, A-y2 A1 y3 A8 •• • .)> (8)

waarin de y\'s numerieke coefficienten zijn, terwijl de sym-
bolen A achteruit genomen worden, namelijk:

^zp = zp_l—zp en A 21 = 2a — 2t,.. • • enz.

Hiermee is theoretisch aan de vraag voldaan voor elk
gezocht moment, hoewel practisch deze Eu Ier—Mac
Laurin\' sche formule niet altijd aangenaam is. De
coefficienten y zijn geen snel afnemende getallen en
meest zijn dat de A ook niet. Een voordeel echter is, dat
aan alle waarnemingen (uitgezonderd do twee uiterste)
gelijk gewicht wordt toegekend.

Toch wordt deze formule praktisch weinig gebruikt, daar
er zooveel andere bestaan, die een veel eenvoudiger
rekenwerk geven. Men kan zeggen, al dergelijke formules
zijn bruikbaar en het hangt geheel af van hot probleem,
dat men onder handen heeft 011 subjectieve voorkeur, welke
men kiezen zal.

Zonder hier nader op in te gaan, wil ik naar de desbe-
treffende bronnen verwijzen. 2)

Van meer belang voor de statistiek is het tweede geval.

1 ) Zie vooral: S h e p p a r d, Londou, 1\'roc. Math. Soc. 32, 1898,

-ocr page 44-

Stel men heeft waargenomen de frequenties yu____y in

de vakken xx ± { c tot x^ ± \\ c, dan zijn de gegeven opper-
vlakken der frequentiefiguur, begrensd door de curve, de
X-as en twee ordinaten in de punten
xr±i>c:

Ar = ƒ f(x) dx = f f{xr 6) d6,

xr~ ic —i

terwijl men algemeen vraagt te berekenen:

x 4-ic
Pc

A®)dx-

De meest algemeene methode, die theoretisch steeds van
toepassing is, krijgt men door op te merken, dat het opper-
vlak I der frequentiefiguur, tot aan een willekeurige
ordinaat
y in het punt x gelijk is aan:

x

I = ƒ f(x)dx

Xt—jc

en dus:

dl

hieruit volgt:

X 3 C X 4 c

*( «/YW PT «dl
I x f(x) dx = I x

, dx ■
dx

X = X  X c

f"r v pf \' t n — 1 ,

= Iaj — n I Lx dx —

CC ■■ •• CC |" I\' C CC | 1 ^ c

= A(x \\cf - n [ lx" 1 dx......(8)

i J

Xt — ic

daar I aan de onderste grens = 0 is. Wat nu de overge-
bleven integraal betreft, van de functie onder het integraal-

-ocr page 45-

teeken zijn in p punten op een afstand van telkens c, p
waarden bekend, namelijk achtereenvolgens:

0; nA, i cf; n (A, A2) (®a £ c)"_1 ; enz.

De numerieke waarde van deze integraal is dus weer,
evenals in het eerste geval, door bijvoorbeeld de Euler-
Mac-Laurin\'sche sommatieformule te berekenen.

Aan Slieppard dankt men evenwel een andere me-
thode, die een veel eenvoudiger rekenwerk toelaat, voor-
namelijk bij curven met zeer innig contact aan de uit-
einden. Deze Slieppard\'sche methode komt neer op
een correctie van de ruwe momenten.

Eenvoudigheidshalve denke men zich het totale opper-
vlak der frequentiefiguur gelijk aan de eenheid. Door dan
de waargenomen frequenties Ajf rondom de centrale ordi-
naat in elk vak opeengehoopt te denken, krijgt men de
ruwe momenten:

= -f- Aa x2n....-}- Ap x\\

Als hulpmiddel denke men zich een nieuwe curve
a = F(®), zóódat de ordinaat van deze curve steeds gege-
ven is door de uitdrukking:

-H*

ƒ f(x-\\-0)d0,

en dus in de punten xlf x2,----® zijn de ordinaten even-
redig met de gevonden frequenties Aj , A2)... A in de
vakken
xl ± \\ c, x2 ± ± c,... xp ± \\ c.

Van deze nieuwe curve is het wie moment gegeven door:
ƒ x F(x)dx= ƒ xn ƒ f(x o) do dx,

indien deze nieuwe curve tusschen dezelfde grenzen be-
schouwd wordt.

-ocr page 46-

Nu kan men deze dubbele integraal ook anders duiden.
Men denke zich de frequentiecurve
y — f (x), loodrecht
zichzelf aan weerszijden over een afstand verschoven.
Dan ontstaat een lichaam begrensd door deze twee grens-
standen der frequentiefiguur en het XO0 vlak, als in fig. 3.

Van dit lichaam vormt men de som dV, als dV een

Fig. 3.

volume element voorstelt en § de afstand is, gemeten
evenwijdig aan de X-as, vanaf een vlak door de Y-as, dat
een hoek van 45° maakt met het vlak van de frequentie
figuur. Verdeelt men dit lichaam door vlakken, die een
hoek van 45° met het vlak der frequentiefiguur maken,
dan wordt bedoelde som voorgesteld door do dubbele
integraal c. Rj;, als men tenminste aan de uiteinden de

som éf1 dV van de op driehoekige basis staande volume
deelen verwaarloost. Hier wordt dus zeer innig contact
van de frequentiecurve met de X-as ondersteld, des te
meer, naarmate men de uitkomsten voor grootere waarden
van
n gebruiken wil.
Nu kan men dit lichaam ook verdeelen door vlakken,

-ocr page 47-

die een hoek van 90° maken met het vlak der frequentie
figuur, dan wordt bedoelde som gegeven door de integraal

c. S , waarin

n\'

sw= ƒ f{x). \\ I {x ofdoM

—Êc —2C

en afgezien, zooals opgemerkt, van de uiterste",volume
deelen: x)

.........O)

Wanneer nu in beide integralen <p(x) gestaan had in
plaats van
xn, was de redeneering dezelfde gebleven, in
de onderstelling, dat nu
<p (x) f(x) aan de uiteinden te ver-
waarloozen was, en kreeg men:

ƒ /(#).£ ƒ <p(x -f 0)d0 dx - ƒ <p (x). c ƒ f (x 6) do dcc, .. .
—{c xt\\c —U

en indien men een functie kon vinden, zóódat

-K*

\\ ƒ 9n(x 0)d0=xn}......(11)

-ic

dan zou voorgaande betrekking overgaan in

x A-\\c

S i P 1 f

I f(x) xn dx= £ - o (x) A dx,

1 O j

Xl f,C Xr

waarin bij de rechtsche uitdrukking het buitenste integratie-
gebied in
p gelijke stukken van do lengto c gesplitst is,
waardoor de binnensto integraal telkens gelijk aan de
waargenomen frequentie A?. mag worden gesteld.

Deze laatste betrekking kan men lezen:

\') Hot teeken ä botcekent: ongeveer gelijk.

-ocr page 48-

36
-Hc

£ Ar . - f pH(a>r *)dt. . . . (12)

J

—I c

Er blijft nu nog over de bepaling van de functie <p uit
(11). Denkt men zicli, dat deze in een machtreeks ontwik-
kelbaar is, dan is

"2

Xn=\\ f [<Pn(x) [<p\'n{x)-\\-  .....]ds.

-ic

Voert men de integratie uit:

f = ic

=<pn (*) ^ri^ ^fHw.....

Dit vergelijkend met de bekende reeksontwikkeling der
hyperbolische sinus:

Sha , . «\' . «4 .

~a~== \' 3~ï 51 .....\'

kan men deze uitkomst symbolisch schrijven, als D = d/dx,

n_ Sh(jcD) . .
Ï C D 9n

waaruit volgt:

Nu is weer bekend de ontwikkeling:

l G, (0y Gf (*)y2 ......,

waarin Gr de veeltermen van B e r n o u i 11 i zijn, als volgt:

p m— x.1 _9SCOS2?r^

— 21 21! 2! i (2T&)2 \'

-ocr page 49-

r m —t — \'>y s*n
3 3 ! \' 1 ~ , (2ickY \'

B, O°ocos2tA-1

4! 2 3! 2! * 2 ! 4! ~ ., (2rfc)* \'

— — — — — — enz.,

en daar p (a?) te schrijven is in de gedaante

n \\

r> icD
. s cue- n

e — 1

9

volgt onmiddellijk:

Vn(p) = [l G1(i)(cD) G2(i)(cD)2 G3a)(cD)3-i-...]x1, (13)

waarin bovendien de oneven veeltermen Gt(£), G;, (A),...
nul zijn. Deze uitdrukking moet nu in (12) gesubstitueerd
worden, welke dan voor elke waarde van n geïntegreerd
kan worden, wat niet moeilijk is, omdat men een eindige
uitdrukking krijgt.
Algemeen is dan de uitkomst:

^ * \\ Ar [ -^y • \\ <«, *)"V1 G2 (*) c. n (i®r4-

n—3

G4 (J) c3. n(n -1)(n-2)(«4-of ... . (14)

J 6=—\\c

Dit geeft uitgewerkt, in aanmerking nemend dat i: Ar x"
de uitdrukking voor de ruwe momenten is, achtereen-
volgens :

A«, .

vt 4- iVc- I (15)

— ic8?,. j
^ — c8 v2
c4.--enz.

Dit zijn de formules, die den naam dragen van de S h e i>-
pard\'sche correcties. J) Bij de afleiding volgde ik in

1 Proc. Math. Soc. 20. 1898, waar hij, opmerkend dat do Eulor-

-ocr page 50-

hoofdzaak een door Sheppard zelf gegeven bewijs *),
evenwel met enkele wijzigingen. De eenige belangrijke
benadering, die in het bewijs ligt opgesloten, is de aan-
name van een innig contact der curve met de X-as, aan
beide uiteinden. Bij eventueele andere afleidingen 1) dezer
Sheppar d\'sche correcties is dit\'niet altijd even duidelijk.

Bij statistische data, waar zoo vaak een quasinormale
curve voorhanden is, zijn de Sheppard \'sche correcties
van groot nut gebleken. In alle andere gevallen evenwel
is het niet moeilijk een theoretische uitdrukking te vinden,
die het Avezen van voorgaande rekening niet aantast. Dit
is hierom aangenaam in de praktijk, omdat aan de gegeven
data alleen niet altijd te zien is, in hoeverre de resultee-
rende curve voldoende innig contact aan de uiteinden
heeft. Men begint dan met de eenvoudige Sheppar d\'sche
formules toe te passen en verifieert achteraf, of dit geoor-
loofd was. Blijkt nu de curve niet aan de voorwaarde te
voldoen, dan is het aangenaam, indien er een rekening
bestaat, om een betere benadering der momenten te ver-
krijgen, die zoo ver mogelijk aansluit bij de rekening, die
al geschied is.

Nu laat deze Sheppar d\'sche afleiding een uitbreiding
toe, namelijk men kan van de uitdrukking (10) een gelijk-
heid maken, door de integratie over precies hetzelfde
volume uit te strekken. Bij de rechtsche integraal komen
dan, zooals gemakkelijk is in te zien, de volgende correctie
termen :

4 \\e\'o

Tn=lf ƒ [<Pn(xp }c <p).nxp \\c <p-0)-

— 9>n(®i — |c p)./,(a?i— ic-fp — 0)]d<pd6

1 ) K. P e a r 8 o n. Biometrika, Cambridge, 1. 1901/2 en 8. 1904/5.
Gr. U. Yule. Theory of Statistica. London 1912 (212).

-ocr page 51-

voor de volume deelen op driehoekige basis aan de beide
uiteinden. Van deze integraal moeten de waarden achter-
eenvolgens berekend worden voor
<pn = <pt, <p.2,____, waar-
van de waarden door (13) worden gegeven, en men krijgt
achtereenvolgens:

j"2 = y2 12 c 4- T2, enz.......(16)

analoog met (15), maar nu zijn deze betrekkingen gelijk-
heden geworden.

Hoe men nu de integralen T becijferen wil, en met welke
nauwkeurigheid, kan in elk geval afzonderlijk worden
overwogen. Stelt men als benadering het uiterste deel der
frequentiecurve door een of andere parabool voor en dus 1)

f(x) = a0 -f- arx -f doX-.....-f- agxs, dan krijgt men, daar ook

<Pn een veelterm in x is, een te integreeren algebraïschen
vorm. Daar deze uitkomst geen moeilijkheden bevat, maar
niet in een korten vorm algemeen is neer te schrijven,
is het niet noodig hier nader op in te gaan. Tc meer, daar
men in de statistiek, en dus in het volgende, bijna steeds
voldoende heeft aan de formules (15), terwijl men zelfs
vaak met formules als (7) zeer voldoende resultaten bereikt,
zooals daar is opgemerkt.

Resumeerende heeft men dus in de praktijk den vol-
genden weg te bewandelen.

Eerst berekening der ruwe momenten.

Is men zeker van voldoende contact aan de uiteinden,
dan de S h e p p a r d \'sclie correcties.

Twijfelt men hieromtrent, dan toch deze correcties en
achteraf toetsen in hoeverre deze gerechtvaardigd waren.

Wanneer men zeker is, dat innig contact aan één, of beide
einden niet aanwezig is, dan kan men, al naar den graad

\') Om dezo parabool aan to passen aan do uitoinden dor sta-
tistische reeks, zal men
meest kunnen volstaan, mot zooveel uitersto
termen in rekening to brengen, als men coollicienten a gokozon
heeft.

-ocr page 52-

van nauwkeurigheid, die geëischt wordt, 1°. de ruwe mo-
menten zonder meer gebruiken; 2°. gebruik maken van
de formules (7). Indien geen van deze beide methoden
de gewenschte resultaten oplevert, kan men (16) berekenen,
of gebruik maken van de Eu 1 er—Mac-Laurin\'sche
of een andere sommatieformule, zooals bij (5) opgemerkt
is, maar ter wille van een zooveel mogelijk uniforme reke-
ning zou ik aan (16) de voorkeur willen geven.

In elk geval is het gewenscht bij elke praktische rekening
de gebruikte methode nauwkeurig aan te geven.

Nog is het niet buitengesloten, dat men in enkele bijzon-
dere gevallen een voor dat geval speciale methode kan
aangeven. \')

Nu is het de gewoonte van de P e a r s o n\'sche school
geworden, de momenten op te geven niet rondom een
willekeurige as, maar rondom de ordinaat door het zwaar-
tepunt der frequentiefiguur (de centroïd).

Kent men de momenten rondom een willekeurige as
en vraagt men om de momenten n te vinden rondom een
andere as op een afstand =
d van de eerste, dan heeft men,
als A het totale oppervlak der frequentiefiguur is:

A = ƒ (x — df ydx,

wat na ontwikkeling van het binomium en splitsing der
integraal oplevert:

Nu verschuift men de momentas aldus, dat deze samen-
valt met de centroïd, m. a. w., de afstand
d is gelijk aan
wat onmiddellijk volgt uit de definitie van zwaartepunt:

lyxdx I yx dx

abscis zwaartepunt = .-- = j^— = p\'i >

Jydx

en men krijgt achtereenvolgens, voor de momenten rondom
de centroïd:

\') Zie bijvoorbeeld: hoofdstuk VI, type I (noot).

-ocr page 53-

3^V) enz. \'

Ter wille van de uniformiteit in de rekeningen, en ook
omdat door het nul worden van deze algemeen iets
eenvoudiger uitvallen, is het aan te raden, bij het opgeven
der momenten, deze rondom de centroïd te berekenen. \')

Deze hier ontwikkelde methode der momenten moet als
tegenhanger dienen tegen de beproefde methode der
kleinste quadraten. Beide methodes rusten op analoge
grondvesten, en beide bevatten veel willekeurigs. Uit het
veelvuldig gebruik, dat Pearso n, e.a. van de momenten
methode maken, blijkt, dat er praktisch goede resultaten
mee bereikt kunnen worden. Een groot voordeel is verder,
dat men niet aan lineaire functies gebonden is, en hier
gaat deze boven de Gausische methode uit. Waar echter
beide methodes toepassing kunnen vinden, zegt de praktijk
ons, die methode te prefereeren, die het eenvoudigste
rekenwerk toelaat, aangenomen, dat overigens de resul-
taten gelijkwaardig zijn. Hier heeft nu de methode dor
kleinste quadraten voor, dat er een welomschreven, uniform
voorschrift bestaat voor de practische behandeling. Dit
mist de momenten methode eenigszins. Bij een gegeven
concreet geval kan men een keuze doen uit de zeer vele
verschillende methoden, de momenten te berekenen, wil
men niet in een zeer ingewikkeldo sommatieformule ver-
vallen. Alleen bij veel oefening leert men spoedig inzien,
in hoovorre do eenvoudigste methode voldoende is. Moet
men al het rekenwerk verrichten om een minutieuso be-
paling der momenten mogelijk te maken, dan kan men,
m. i., eerder de methode der kleinste quadraten gebruiken,
die dan niet langer is en het voordeel van het uniforme
voorschrift heeft. Want vooral daar, waar het reken-

\') Voor het vervolg worden do momenten rondom do centroïd
voorgesteld door zonder accenten, die rondom een nndero as

door ul\' mot accenten.
n n

-ocr page 54-

werk eenvoudiger is, ligt het voordeel der momenten
methode.

Echter blijft er een groot veld over, waar de momenten
methode ruime toepassing kan vinden. Vooral in de ma-
thematische statistiek is deze methode van groot nut
gebleken. Ik stel mij daarom voor, deze in het vervolg
geregeld te gebruiken.

Een bezwaar tegen de momenten methode kan zijn, dat
aan alle data gelijk gewicht wordt toegekend, dat namelijk,
bij het bespreken van de grondvesten van deze methode,
(blz. 19) p — 1 moest gesteld worden.

Nu zou men eigenlijk verwachten, dat dit juist bij de
mathematische statistiek nogal bezwaren op zou leveren.
Bij de meeste statistische reeksen, baseeren toch de centrale
frequentiegroepen op veel meer gevallen dan de uiterste,
en verdienen dus deze centrale groepen veel meer ver-
trouwen.

Wanneer men zich nu, zooals gewoonte is, de momenten
rondom de centroïd denkt, komen in de rekening der
momenten juist deze uiterste data voor, met betrekkelijk
groote waarden van
x1 vermenigvuldigd en hebben dus
meer invloed op de numerieke waarden der momenten,
dan men a priori wenschelijk zou achten.

Om zulk een bezwaar te ontzenuwen, kan men slechts
wijzen op de practische resultaten. Want wat men ook
beweerde omtrent de grondslagen der methode, deze blijft

-ocr page 55-

een empirische en de eenige doeltreffende rechtvaardiging
is ten slotte de praktijk.

Nu heeft de Pearson\'sche school, c.c., deze methode
juist in de mathematische statistiek herhaalde malen zeer
deugdelijk bevonden. Hier staat de bruikbaarheid dus
zeer zeker vast.

Wellicht werkt hiertoe ook mee, dat de constanten, die
men met behulp der momenten methode wenscht te bepalen,
dikwijls uitgedrukt kunnen worden in zulke verhoudingen
der momenten, dat deze verhoudingen ten opzichte van
x
van den nulden graad zijn. Hierdoor wordt toch de ge-
noemde invloed der uiterste frequenties aanmerkelijk
gereduceerd. Een en ander zal men voor den dag zien
komen in hoofdstuk VI, bij de bespreking der Pearson\'sche
curvenfamilie.1)

HOOFDSTUK II.

De middelbare fout bij de momenten.

Het begrip „fout" bij frequcntieconstanten ontstaat op
de volgende manier.

Men wenscht, dat een statistiek iets zal loeren omtrent
een grootheid, of do verdeeling ecnor grootheid, in een
groote menigte; bijvoorbeeld is een onderzoek gevraagd
naar den schedelomvang van een geheel ras, de lichaams-
lengte van de bevolking eener gehoelo streek, of andere.

1 ) Zio do noot bij typo I, of ook bij typo III, waar do con-
stante
p = 4/fx.Hfil — 1, maar y = 2jU2//"3> en dus y nog maar
van den eersten graad in
x is.

-ocr page 56-

In al deze gevallen wenscht men resultaten voor den dag
te brengen, die betrekking hebben op een zeer groot aan-
tal van individuen of voorwerpen.

Ware het nu mogelijk dit geheele aantal waar te nemen,
dan zou men uit deze waarnemingen zekere bepaalde
waarden vinden voor de frequentieconstanten, hierincasu
de momenten.

Men onderstelle hier, dat elke waarneming individueel
niet aan een fout onderhevig is en dat dus, hetzij verkre-
gen uit één enkele, hetzij uit meerdere metingen, elke
waarneming de juiste waarde aangeeft.

Nu neemt men evenwel niet het geheele aantal waar,
maar men kiest naar willekeur, en hoe willekeuriger hoe
beter, een zeker aantal exemplaren er uit; men neemt een
zoogenaamde „random sample", een willekeurig complex.
In hoeverre in een gegeven geval practisch er aan voldaan
is, dat het willekeurige complex inderdaad geheel wille-
keurig gekozen is en er niet een of andere tendens aan-
wezig is geweest om bepaalde groepen eerder te kiezen
dan andere, is niet altijd zoo eenvoudig uit te maken.
Volkomen streng zal er haast nooit geheel aan voldaan
zijn, hoewel toch zeer vaak met een voor de praktijk
voldoende benadering.

Daar men nu omtrent den aard en de eigenschappen
van het geheele aantal in het onzekere verkeert, kan men
slechts de bij een willekeurig complex verkregen uitkom-
sten, als typisch voor het geheel aannemen, d. w. z., men
verwacht de verdeeling der gemeten eigenschap in het
geheele aantal ongeveer dezelfde te zijn, als in het wille-
keurig complex. De statistische waarnemingen loeren,
zuiver beschouwd, alleen iets omtrent de waargenomen,
uit den aard der zaak, beperkte groep. Waar men uit
zulk een waarneming algemeene biologische, economische
of andere wetten wil leeren kennen, is het dus noodig na
te gaan in hoeverre het waargenomen groepje gelijkvor-
mig aan het geheel kan zijn.

Men denke zich nu, uit hetzelfde geheele aantal, zeer
veel verschillende van deze willekeurige complexen ge-
kozen. De bij al deze complexen behoorende frequentie
constanten zullen niet geheel dezelfde zijn, en elke con-

-ocr page 57-

stante zal volgens een zekere frequentie wet verdeeld zijn.
De bij een bepaald willekeurig complex verkregen con-
stanten, zijn dus met een zekere fout aangedaan, als men
die constanten, die bij het geheele aantal behooren, als de
„ware" beschouwt. Het doel is nu, iets omtrent deze fouten
te leeren, omdat men daardoor alleen een juiste maat voor
de algemeene betrouwbaarheid der waargenomen cijfers
kan krijgen. Men zal hierdoor een oordeel krijgen, tusschen
welke grenzen de gezochte, zoo even gedefinieerde, „ware"
waarde naar alle waarschijnlijkheid zal liggen.

In de allereerste plaats is nu het doel, van de genoemde
fundamenteele frequentieconstanten, de momenten, de
fouten te vinden, ontstaan door het kiezen van een wille-
keurig complex in plaats van het geheele aantal.

Onderstel1) een zeer groot aantal individuen, verdeeld
in eenige klassen, naar een zeker kenmerk (het kenmerk
dat men wil waarnemen) en laat de aantallen in de klassen
evenredig zijn met «, /?, y,..., zoodat a-}-/?-f-y-{-... = l.
Kiest men uit dit geheele aantal een willekeurig complex
van
n exemplaren, dan zijn de aantallen in de achtereen-
volgende klassen a\'n,
fi\'n, y\'n,____, waar <*\' /?\' y\' -{-

... = 1 en «\' — oc, /?\'—/?, y\' — y,.... de fouten zijn in «,
/?, y,....

Men vraagt nu eerst naar de eigenschappen der fre-
quentieverdeeling van de lineaire uitdrukking:

a(«>-«)-\\-b(P\'-(3) c(y\'-y) ......(1)

voor allo verschillende willekeurige complexen. Hierin
zijn
a, h, c,.... willekeurige constanten.

Daar men nu do grootheden « , /?, y,.... als kansen
kan opvatten, is do kans, dat bij een willekeurig complex
van
n individuen er p in één bepaalde klasse, zeg de eerste,
liggen en de andere n—p in de andere:

«P (1-«)"-P

en dus is, wanneer men een zeer groot aantal willekeurige

\') Zie: W. F. Sheppard, London, Phil. Trans. R. Soc.
192. 1899.

Ook: K. PearBon, Biomotrika, Cambridge. 2. 1902/3, in zeer
verkorto en daardoor minder exacte gedaante.

-ocr page 58-

complexen kiest, de verhouding van de gevallen, waarin
er
p individuen in de eerste en n— p in de overige
klassen vallen,

p\\(n—p)\\ (1~a) ......(2)

Hieruit volgt, dat de gemiddelde *) waarde van (die
in elk geval op zichzelf
p/n is) gelijk is aan:

v%n nl j> (l x)n— P P_
P]-{n — p)\\ " n \'

welke uitdrukking te herleiden is:

o{p-\\)\\{n-p)\\x U aj

= «[(l-«) af

Hieruit volgt, dat de gemiddelde waarde van («\'—«) nul is.
Evenzoo is het gemiddelde quadraat van <*\':

v w! p r\\ su — pp2

= ffht^pTi "P • |p(p-D p)=

= n w j n (n — 1) «2 -j- m | = «2 -f- ^ «(1 — «),

waaruit evenzoo volgt, dat de gemiddelde waarde van het
quadraat van («\' — a) gelijk is aan l/n.«(l —«), daar de
gemiddelde waarde van het product «\'« gelijk aan a2 is,
omdat de gemiddelde waarde van a\' gelijk aan « is.
Ten slotte is de gemiddelde waarde van het product a\'/3\':

2s , --- «V(1- «-Pf-P-? .P J =

o op! ?! (n —/j —(7)! w n

1(^=1) a/? V 2 ---«P-l (l-«-/3f-P

n* oo (p—1)!(<?—l)!(n—p—?)! v \'

71

\') Waar hier (en in het vervolg) gemiddelde geschreven is,
is bedoeld arithmetisch gemiddelde.

-ocr page 59-

waaruit men leert, dat de gemiddelde waarde van liet
product («\'—«) (/?\'—/?) gelijk is aan — 1
jn . <xfi.

•Van de uitdrukking (1) is dus liet gemiddelde nul, en
de gemiddelde waarde van het quadraat gelijk aan:

aa «(«—!) . 62 /3(/3—1) 2ab <x/3 " 2ac«y

n n n

= |(a2« 62^-j-....)-(a« &yS cr ....)2|:n • • (3)

Evenzoo is het gemiddelde product van twee uitdruk-
kingen zooals (1), met coefficienten
a, b, c,... en a\', b\', c\',...:

j («fl\'cc-f 6&7?-f....) - (a* b/3-f....) (a\'« ft\'/? ..\'..)(:« . . (4)

Nu is het evenwel bekend, dat een verdeeling als door
(2) wordt aangegeven, bij grooter wordende n, steedsmeer
aansluit bij de normale curve.

Laat er nu een grootheid zijn X = /"(a\', P\', 7\', • • •)> en laat
n groot zijn. De waarden <x\' — a, 0\' — /?,... hebben een
normale verdeeling, terwijl hun gemiddelde nul is, volgens
het voorgaande. Door de kenmerkende eigenschap eener
normale verdeeling, dat het overwegende deel der fre-
quentie in een beperkt gebied rondom hot gemiddelde is
opeengehoopt, mag men «\' —«,
/3\' — /3, — in elk geval
op zich zelf als een kleine grootheid beschouwen. Bij
een ontwikkeling van
X derhalve, naar do machten van
«\' —«, /ö\' — /?,...., kan men alle machten hooger dan de
eerste verwaarloozen, en dus:

X=/X«,/?,y,....)-{-(a\'-«)fa (/?\'-/?)/•\'£ ..... (5)

waarin /\' e. v., de achtereenvolgende differentiaal quotiën-
ten naar «, /?, y,... voorstellen van / («, /?, y,...). Deze uit-
drukking is evenwel van den vorm (1), waaruit volgt, dat
het gemiddelde van
X gelijk is aan / (<*, (3, y,...) en de
gemiddelde waarde van
X* gelijk is aan:

i(«4- /?/>■-\' ••••)■.o2i -n... (0)

in de onderstelling namelijk dat ƒ(<*,/?, y,____) = 0 en dus

alle afstanden vanaf het gemiddelde als oorsprong gere-
kend zijn.

-ocr page 60-

Een zekere grootheid hebbe nu als „ware" gemiddelde
de waarde L. en de ware momenten rondom deze:," .

i r-p

Van deze grootheid komen voor de waarden: L, -\\-\'xu
Li , L, -\\- x3 ,.... \') met in deze punten de inderdaad

aanwezige frequenties: zx , z2, z3,____en dus de relatieve

frequenties: <x = zjN, /? = 22/N,... als N het totaal aanwezige
aantal is. Deze frequentieverdeeling is geheel willekeurig.

Hieruit volgt: 2a = l, S«a; = 0, terwijl =

Nu kiest men uit dit totale aantal een willekeurig
complex van n individuen en de frequenties, die men nu
in de punten
Ll-\\-xl, Lj-f- xiy... vindt zijn respectievelijk:
n(« ei), n(/?4-£2), «(r-Hs),-- ••

Wanneer men hieruit de waarde van het gemiddelde (L)
berekende, vond men

L = Li -(- («i et «2 g2 «3 h) = Lj -f w,

daar de term Lx «j -f- Lj e2 ....= L, Ze nul is,aangezien
het gemiddelde van e weer nul is. De grootheid w stelt
dus de fout voor op Li en ook deze heeft weer een nor-
male verdeeling met het gemiddelde nul en het gemiddelde
quadraat:

Z«3?2 — (£« x)2 _ ju2
n n\'

De berekende waarde van p uit het gegevene bij het
willekeurige complex is:

2 (« -f e) (5j — = 2 (« -f- e) {xP —pxP~~l u)

daar men w2 en hoogere machten weer verwaarloozen
mag. Voor de fout in (i vindt men:

£ xP£ —pu 2 a xP ^ = £ ap e —pu> _^ =

= S (xp — x) e.

Ook deze fout is weer normaal verdeeld, met een ge-
middeld quadraat:

\') Men rekent dus x vanaf het gemiddelde Lt als nulpunt.

-ocr page 61-

\'Z«(xp—Pfip_lxy— [sa —ppp_lx) j1:n,

wat men ook kan beschouwen als het quadraat van de
middelbare fout op hetgeen na herleiding luidt: *)

=Ov- ^p ^p

Deze formules voor de middelbare fouten op de momen-
ten zijn, aangenomen een normale verdeeling, volkomen
exact, maar voor de praktijk niet erg gemakkelijk. Want
om de middelbare fout op bijvoorbeeld het vierde moment
te vinden, moet men het achtste uitrekenen, wat bij een
eenigszins omvangrijke gegeven reeks een groot werk is.

In bovenstaande formules vindt men de fouten op de
momenten rondom de centroïd. Iets eenvoudiger worden
deze formules als men de momenten rondom een wille-
keurige as gekozen had, omdat men dan niet tevens te
maken heeft met de fout, die de bepaling van de centroïd
op zich zelf reeds met zich mee brengt en welke in alle
daaromheen berekende momenten optreedt. Deze waarden,
door Pearson2) aangegeven, z\\jn op het voetspoor van
S h e p p u r d aldus te vinden.

De werkelijk aanwezige waarden x, , x.2, x3,..., die de
gemeten grootheid aan kan nemen, zyn nu gerekend vanaf
een willekeurigen oorsprong, en do inderdaad in de ge»

1  Biometrika, Cambridge. 2. 1902/3 (275).

-ocr page 62-

heele massa aanwezige relatieve frequenties zijn weer

x, p, y,____ respectievelijk. Neemt men een willekeurig

complex, dan vindt men de relatieve frequenties a eJ ,
/? £,, y ____ De berekende waarde van de mo-
menten p\'p is nu, daar in
x geen fout schuilt:

en dus de fout in p\' is gelijk aan terwijl het gemid-
delde quadraat hiervan is:

| Zxx"p — ^ 2.XX\'\' ^ " j ; 11,

of ook de middelbare fout in p\' rondom een willekeurige

p

as is:

p\' — p\' 2

v;,= V(^V-).......®

Hetzelfde bezwaar, dat men tot het berekenen van hoogere
momenten moet overgaan, blijft hier bestaan.

Daar het nu eenmaal gebruikelijk is geworden de
momenten rondom de centroïd op te geven, leveren deze
laatste formules nagenoeg geen voordeel op. De kleine
meerdere rekening, die (7) eischt is meer dan evenredig
aan het- voordeel, dat men er mee bereikt, daar nu twee
verschillend gepubliceerde rekeningen eenvoudiger ver-
gelijkbaar worden.

In alle voorgaande formules kan men de intervallen van
x zoo klein maken als men wil en daardoor alle somtee-
kens door integraalteekens vervangen. Men bereikt dan
dezelfde formules (7) en (8), waarin n de juiste momenten
voorstellen.

De „ware" waarden van p in (7) of (8) kent men evenwel
niet, maar wel de eenigszins daarvan afwijkende waarden,
zooals deze berekend zijn uit het gekozen willekeurige
complex. Daar men deze moet gebruiken, wordt ook
weer <r met een fout aangedaan, en kan men weer

deze fout opsporen. Dit kan men, zoo ver men wil,
herhalen. *

-ocr page 63-

Het is niet noodig voor het doel, dat ik mij gesteld heb,
hier nader op in te gaan.

In zeer veel gevallen toch is de exacte waarde eener
middelbare fout van minder belang en is men tevreden
als men de orde van grootheid er van kent. Het zal
daarom zelden voorkomen, dat de conclusies, die men ten
slotte uit het bewerkte materiaal trekt, beïnvloed worden
door het gebruik van de uit het willekeurige complex
berekende momenten in plaats van de „ware".

Om deze zelfde reden behoeft men de in de voorgaande
formules voorkomende momenten niet al te ingewikkeld
en zuiver te berekenen. Het gebruik van de ruwe momenten
is meest alleszins voldoende.

Aan Pearson\'s biometrische school dankt men
een vrij uitgebreid vergelijkend onderzoek, welk verschil
het oplevert, als men (8) gebruikt met de ruwe mo-
menten of andere. In de uitkomsten vindt men een ver-
schil van 0,2 °/0 tot 7,8 °/0 naar gelang der gebruikte
momenten. Een dergelijk verschil heeft praktisch geen
waarde.

Voor zoover deze theorie evenwel van toepassing is in
de mathematische statistiek, bij do berekening der con-
stanten van frequentiecurven, ligt nog een zeer vereen-
voudigende methode voor de hand by do berekening van
(7) of (8). Wanneer men aanneemt, dat de „ware" waar-
den der frequenties volgens een zekere curve van bekende
analytische gedaante verspreid zijn, zal het zeer vaak
mogelijk zijn, tusschen de opeenvolgende „ware" momenten
betrekkingen op te stellen. Bijvoorbeeld by de normale
curve:

vindt men door eenvoudige partieole integratie:

Het meer algemeene geval hiervan is de betrekking
tusschen de momenten, wanneer de frequentiecurve gege-
ven is door de differentiaalvergelijking:

\') lt. Pearl. Biometrika, Cambridge. 6. 1007/8.

-ocr page 64-

1 dy __ a0 -f axx__

y \' dx c0 CyX -f- c2x- -f- c3x3 -f-.....\'

Hieruit verkrijgt men, wanneer het dispersiegebied zich
van —a tot -f & uitstrekt,

fx" (aft-f- axx) ydx — J(c0 -\\-c{x-\\- CoX- . ..) xndy ,
— a — a

en door partieele integratie der tweede integraal, als N
de totale frequentie is:

N = — N  (n -f 1) fin

c2(n 2)ftn l .••••) \\v (c0xn cla? l ..)]

en daar aan de grenzen van het dispersiegebied de waar-
genomen frequentie wel steeds nul zal zijn, en ook onder
aanname dat nergens de uitdrukking [ ] een waarde had
die oneindig was:

coW./"w_t -f jc, (m l) a0J (n 2) a, i
c8 (n -f- 3) c4 (w 4) .... = 0.

Een dergelijke betrekking, die de achtereenvolgende
„ware." momenten verbindt, kan nu ook dienen om bij be-
nadering een hooger moment te berekenen uit de „waar-
genomen" lagere momenten.

Pearson en zijn school geven steeds de waarschijnlijke
fout (= 0.67449 X middelbare fout) op, waartegen als „purely
conventional reduction" geen bezwaar is.

Echter zegt Pearson !) „The adoption of the probable
error of a constant as a measure of its exactness must not
however be taken as equivalent to asserting the validity
of the normal law of errors..." Maar uit het voorgaande
blijkt duidelijk, dat de geheele rekening wel de normale

■) Biometrika , Cambridge 2. 1902/3 (273).

-ocr page 65-

wet tot grondslag heeft, daar anders de ontwikkeling (5)
nooit afgebroken had mogen worden.

Een tweede vraag is evenwel in hoeverre hier aan de
theoretische onderstelling van het klein blijven van («\' — a)
voldaan is in de praktijk. Student \') meent te mogen
aannemen dat de middelbare fout (o-) eener frequentie
verdeeling niet normaal verdeeld is, maar volgens een
Pearson \'sche curve Type III. Is dit algemeen waar, dan
zijn voorgaande formules dus hoogstens benaderingen,
terwijl men omtrent de grootte der benadering geen oordeel
kan vormen Daar nu evenwel in de Pcarso n\'sche school
een zekere tendens is op te merken de normale curve zoo
veel mogelijk te verwerpen, is deze meening zonder nader
grondig onderzoek niet al te spoedig te aanvaarden. Ik
merk hier evenwel bij op, dat indien aan de geldigheid
der normale wet getwijfeld moet worden, dat dan ook
niet steeds met de waarschijnlijke fout gewerkt moet
worden, die niet zooals de middelbare uit het begrip van
„Fehlerrisico" -), maar direct uit de normale wet is afgeleid.

Een laatste opmerking geldt de waarde der middelbare
fouten op do achtereenvolgende momenten. Namelijk bij
een zelfde frequentieverdeeling blijken de hoogero momen-
ten met een steeds grootere fout aangedaan te zijn. Dit is
geheel in overeenstemming met de onderzoekingen van
Helmert en Czuber 3) omtrent de „mittelwerto der
Fehlerpotenzen". Hun onderzoekingen zijn te bekend om
hier nader op in te gaan, maar hebben steeds de normale
curve tot grondslag.

Uit do formules (8) kan men ook hieromtrent iets naders
leeren. Men zal trachten te bewijzen, dat steeds:

P\'ïf — P\'p < &2(p 1)~~ fx\'"p\\1-1.

\') Biomotrika, Catnbridgo. ü. 1907/8 (1).

-) E. C z u b o r, "Wahrscheinlichkeitsrechnung I. Loipzig und
Berlin. 1908 (2Gü).

3) E. C z ubor, Theorie dor Beobaehtungsfehler. Loipzig und
Berlin. 1891. Ho lm er t, Zeitschr. Math. u. Phys. 21. 1876.

-ocr page 66-

Men zou hetzelfde kunnen doen uit de formule (7), die
de fout op de momenten rondom de centroïd geeft, hetgeen
evenwel een wat minder overzichtelijke rekening geeft.
Uit (8) ziet men, dat de fouten op de momenten, wat hun
numerieke waarde betreft, afhankelijk zijn van de keuze
der assen, terwijl ook de fouten uitgedrukt in procenten
der betrekkelijke momenten hiervan eenigszins afhankelijk

zijn. Daar evenwel « en o- van dezelfde orde van groot-

P Pp

heid zijn wat x betreft, zal dit laatste niet al te zeer sto-
rend werken. Hierom verdienen de momenten rondom de
centroïd, wegens de daarmee te bereiken uniformiteit, de
voorkeur.

Waar evenwel een algemeen bewijs gevraagd wordt,
kan men met (8) volstaan, wegens den eenvoudigen
bouw, en desnoods de momentas ergens dicht in de buurt
van de centroïd denken, zonder daar nu direct mee samen
te vallen.

Stelt men zich op het standpunt der „ruwe" momenten
dan moet men bewijzen:

2p-Vyi < x?p 2 - (Siux? l)\\
of als men de quadraten uitwerkt:

% i ® i2p % i ® i2p 22/y t y, ® ƒ® ƒ <

Daar nu de onderstelde frequentieverdeeling geheel wil-
lekeurig is, moet deze ongelijkheid niet alleen gelden voor
deze sommen, maar ook voor alle daarin vervatte termen,
die op één enkele frequentie betrekking hebben.

Vat men nu één bepaalde frequentie y{ in het oog met
daarbij behoorende waarde der abscis, dan vindt men
in deze ongelijkheid de volgende termen, waarvan men
bewijzen wil:

-ocr page 67-

waarin de voorkomende som:

Z\'yxv = 0. xxp y2xv2 yzxvz . • y\'ti—Xxf y\'2(— x2f...

als men met y\'j, de frequenties bedoelt, die bij (—x^
voorkomen.

Nu zoekt men uit dezelfde ongelijkheid tevens alle termen,
waar de frequentie
y\\ in voorkomt; daarbij in het oog
houdend, dat de term
2y1y/lxlp(—£c,)p reeds in de ge-
noemde som begrepen is, vindt men:

- y\'i*x2p-2xfxxp V\'ya? 2y,y\\x2p <

• • (10«)

indien p even is en als de genoemde som voorstelt:
Z,"yxp = ylxlp yix/-\\-... 0(-Xi? y\'2(-x2f ...
Maar indien p oneven is vindt men:

y\\x2p- y\\ *x?P 2y\\xp>Z"yxp- 2yly\\x2p <

V 2yly>lxl2p 2...(m)

Deelt men nu (9) door »/, en (10) door en telt op,\')
dan krijgt men, al naarmate even of oneven is, te bewijzen:

x2p (2 yl-y\\)~ 2xp {Vyxp Z"yxp) <

< x2p~^~2 (2 - 3//,— y\\) - 2xp l (Vyxp l- Z"yxp h

\') Door deze deeling door y, en y\\ komt, strikt gesproken,
een kleine onjuistheid in do rekening. Evenwel wenseht men dit
bowijs alleen te leveren voor de gevallen van statistischo reeksen,
waar sprako kan zijn van aanpassing van oon dor gobruikolijko
typen van frequentiecurvon. In al die gevallen zijn de verschillen
(ys—y\'^ > vooral wanneer men in do buurt der centroïd komt,
te klein, om bovenstaande redeneering te beïnvloeden. In elk
geval beperkt dit toch do algemeenheid van do gegeven redeneering
weer eonigszins.

-ocr page 68-

:2p (2 - Sy, - y\'1) - 2* ƒ (S\'ya* - S"^) <

< x*P 2 (2 -f- yx— y\\ )-2x1P 1  Vyx^1).

Daar nu x, steeds positief is, kan men beide door x2p
(of deelen, en krijgt men na uitwerking van de

som en het verschil der twee sommen:

(2 2/,-Z/\',)--^[(yi y,)®/ 2(^4-^)«/

2(y. »\'.)«.p- .....]< V-Vv-y\\)x\\

of [(^-hA)*/"^

xl

2 (ya y.) */ f 2 (y, y\\) x/^1 ...].
Of wanneer men de term met [ 1 kortheidshalve 213

1

noemt, x) zal men wenschen te bewijzen:

xï(2-yl-y\\))(2-y\\ y;-2Bx) . . (11a)
^(2-y-y\'l)<(2-y\\ yl-2Bx) . . (11 b)

Nu kan xx achtereenvolgens alle geheele waarden van
0 tot oo aannemen. Nu «denkt men zich de Y-as ergens in
de nabijheid van de centroïd, althans in dat deel der fre-
quentiefiguur, waar de grootste frequenties voorkomen.
Dan behoeft men x{ slechts een beperkt aantal waarden
van 1 tot m te laten aannemen, omdat mefi voor nog groo-
tere
x in alle praktische gevallen zulk een kleine waarde
van
y vindt, dat men de door deze frequenties opgeleverde
termen tegenover de andere verwaarloozen kan.
Nu denke men zich eenvoudigheidshalve, dat de grootst

\') Want hoewel in het eene geval en in het tweede
voorkomt, zijn beide geheel dezelfde uitdrukkingen, daar in het
eene geval
p en het andere p -f 1, een even geheel getal voorstolt.

-ocr page 69-

voorkomende frequentie uiterlijk = i- kan zijn, dan kan
men in plaats van (11) nagaan, of voldaan is aan:

>2* — 215 ......(12a)

x1

1<H_2B ......(126)

Wanneer nu x{ =1 is, ziet men reeds uit (11), dat dan
het ongelijkteeken, een gelijkteeken wordt.

Wanneer xx = 2 is, of een ander geheel getal, is aan
(12a) steeds voldaan, daar B^, positief is voor elke waarde

van x. Alleen (12ft) moet dus nog nader bekeken. Wanneer
a?! = Xo = 2, moet blijkbaar < 1 en is B„, van de
gedaante:

2V

En wanneer x, =3 moet 13 ( §4, terwijl nu B van

3 \'

de gedaante is:
~ |2(y1 y/1) 2(y8 y\'2)2p (y8 y\'8)3p .... !.

3P 1

Dit kan men zoo voortzetten voor grootero waarden van x.

Wanneer men nu bedenkt, dat de frequenties ?/ in elk
praktisch geval kleine fracties zijn, kan in het algemeen
aan deze en do verdere ongelijkheden steeds voldaan zijn,
indien althans
de frequenties vanaf het centrum maar snel
genoeg afnemen.
Is dit niet het geval, dan leggen de verder
afgelegen termen, die met de />de macht van een der
natuurlijke getallen vermenigvuldigd zijn, te veel gewicht
in de schaal.

Aan deze voorwaarden is praktisch in alle gevallen
voldaan, waarin men frequentiecurven aan de data aan
kan passen.

In de theorie der frequentiecurven mag men dus ver-
wachten : hoe hoogore momenten, hoe grooter fout men in
de rekening brengt.

Is de gegeven frequenticvcrdeeling zuiver normaal, dan

-ocr page 70-

vindt men de volgende middelbare fouten,1) uitgedrukt in
procenten der momenten zelf, wanneer de momenten rondom
de centroïd genomen zijn.

Totale frequentie
= 500

Totale frequentie
= 1000.

Pi

6,3%

4,5%

Pi

14,6 „ -

10,3 „

Pe

30,1 „

21,3 „

Ps

60,6 „

42,9 „

1 ) K. Pearson, Drapers Comp. llesearch Memoirs, Biometric
Series II, London 1905 (8).

-ocr page 71-

HOOFDSTUK III.

De normale frequentiecurve.

Bij liet bespreken van frequentiecurven, verdient zoowel
uit historisch oogpunt, als wegens het veelzijdige vrucht-
bare gebruik de zoogenaamde „normale" curve van G a u s z:

N — *2:2<r2

?/-<rK(2r) e

in de eerste plaats genoemd te worden. G a u s z heeft
hiervan een afleiding gegeven, uitgaande van de stelling,
dat het arithmetisch gemiddelde van een reeks waarne-
mingen de meest waarschijnlijke waarde geeft voor de waar-
genomen grootheid. Hieraan kan men hoogstens de waarde
hechten van een ondervindingsresultaat, en al laten zich
gronden aanvoeren ter ondersteuning van deze keuze, \')
een axioma is het geenszins.

Ilet is geenszins mijn bedoeling om nader in te gaan op do
door latere autoren gegeven afleidingen van deze wet. Maar
vóór tot een bespreking van asymmetrische frequentie-
curven te geraken, is liet nuttig na te gaan in hoeverre
het zoeken hierna gemotiveerd is, en wat de basis dezer
Gausische wet is.

De onderstellingen, die in do Gausische wet besloten
liggen, zijn in hoofdzaak do volgende: -)

dat er zeer vele oorzaken zijn, die een afwijking van
het gemiddelde ten gevolge hebben, terwijl het effect van
elke oorzaak klein moet zijn.

\') E. Czubor. Theorie der Beobachtungsfohlor, Loipzig u.
Berlin (Teitbner) 1891 (1G).

2) Bessol, Astr. Nachr. Kiel 15. (3G9).

Grofton, London, Phil. Traus. B. Soc. 160 (175).

Czubor, 1. c.

-ocr page 72-

dat de oorzaken onderling onafhankelijk moeten zijn,
hetgeen involveert, dat de bijdragen van elke oorzaak tot de
totale afwijking ook onafhankelijk moeten zijn van de grootte
der afwijking, die op het moment van in werking treden
der oorzaak bestond.*)

Nu is het omgekeerd ook mogelijk uit deze voorwaarden
de normale curve af te leiden.1) Deze wil dus niet alleen
een uiterlijk met de praktijk overeenstemmend resultaat
geven, maar schijnt ook dieper in het wezen der dingen
door te dringen.

In hoeveel gevallen nu ook de normale wet meer dan
voldoende is, er zijn ook zeer veel gevallen aan te wijzen,
waar dit niet geldt. Hierover zijn wel alle statistici het eens.

Dat het van belang is voor de mathematische statistiek
een meer algemeene frequentiecurve te bezitten, is duidelijk
genoeg. Maar een vraag is het, tot hoever de normale
curve gebruikt kan worden, en of het noodig is in gevallen,
zooals bijvoorbeeld in de foutentheorie, ook [een andere
curve te moeten verkiezen. Het zal niet ondienstig zijn
hier een en ander van na te gaan.

Van het standpunt der momenten methode bezien, doen
zich over de al of niet normale gedaante van een frequentie-
verdeeling verschillende criteria voor. Bijvoorbeeld, alle
oneven momenten (rondom de centroïd genomen) moeten
nul zijn, binnen de grenzen, die de middelbare fout op
deze momenten daarvoor geeft. Daar deze middelbare
fout nog al snel toeneemt, is het bij de hoogere momenten
steeds gemakkelijker om hieraan te voldoen. Maar het nul
zijn van alle oneven momenten, geldt voor elke symme-
trische frequentieverdeeling als een criterum. Bij de
normale curve bestaat echter ook tusschen elke twee even
momenten een betrekking. Uit de betrekking

1 ) Bessel, l.c. Toch moet men in het oog houden, dat de
normaio wet vóór alles een empirische is, en dergelijke redenee-
ringen deze alleen maar „a posteriori" plausibel maken.

-ocr page 73-

Jyx2dx ƒyxidx

P2 = —r~- en Pi

fydx ƒydx

volgt, wanneer men de totale frequentie n noemt:

00 -J-00

ƒ— x2 \' 2<r2 f _x2 \' 2<r 2

y0e \' x*dx = -|-3t2 Je \' x-dx,

-QC -00

door partieele integratie. Wanneer men nu bedenkt, dat
0-2=^2, hetgeen volgt uit de definitie van
ii,u.2 =Eyx2 en
uit het feit, dat u- volgens de bekende theorie der normale
curve liet gemiddelde quadraat van do afwijkingen van het
gemiddelde is, dus <r2 =
Eyx\'2/n , dan kan men bovenstaande
uitdrukking schrijven, na deeling door n:

^4—3^2 = 0,

en dit zal het meest bruikbare criterium zijn, daar hierin
de twee laagste even momenten voorkomen.

Nu kan men, als volgt nagaan, wat de physische betee-
kenis van het criterium /ai — 3,«!; = O is; dat is, hoe het al
of niet hieraan voldaan zijn, den vorm der normale kromme
kan aantasten.

Noem m, en m., het aantal afwijkingen van do grootte
Xi en x2 respectieveiyk, en laat n\' n\'^ de momenten der

overblijvende afwijkingen voorstellen. Als het totale aantal
= n is en do totale momenten —plt, dan heeft men

n/x„=n\' ml x\\ -f- w*2 x\\
n Pi = n\' p\'i -j- m1 x\\
-j- m» xi •••(!)
of ook, als men ml -\\-m2 = m noemt:
n/xi = n\'fi\'i m x\\ (n,"a — nVj — m x\\) {x\\ -f x\\) . . (2)

Terwijl men nu de totale frequentie dezelfde houdt, denkt
men zich een deel van de frequentie m2 overgebracht van
Xo naar
xu en zoo doet men aan weerszijden van liet ge-
middelde, om een symmetrische verdeeling te behouden
c2 >#,). Nu kan men bovendien (i% constant houden,
evenals
x2, dan veranderen en xu daar ook m constant
bleef, en uit (1) volgt dan, bedenkend
5m2= — 3ml :

\\

-ocr page 74-

_2 Xj Sx,

772 j tC]

Nu is de linksehe uitdrukking positief, en daar x2 ) x{
is, zal ook Ja?, positief zijn.

Nu is bij deze frequentieverdeeling, nóch het gemiddelde,
nóch fi2 veranderd, en dus als men weer een normale
curve bij deze verdeeling berekende, zal vóór en na de
genoemde verandering, precies dezelfde curve voor den dag
komen, daar toch deze door het gemiddelde en volkomen
bepaald is. Nu is echter door deze verandering, die men
herhalen kan, een deel van de ver af liggende frequentie
meer naar het centrale gedeelte gebracht. In beide ge-
vallen een curve trekkend, die zoo nauw mogelijk bij de
gegeven data aansloot, zou die na de verandering vlakker
zijn bij het maximum, en aan de einden sneller tot de as
naderen.

Beziet men nu (2), dan blijkt daar ixu.2—n\'yi\'2—mx\\
negatief te zijn; neemt dus x{ toe, dan neemt de geheele
rechterzijde af en dus ook ,ur

Uit deze ruwe verificatie, waar men bovendien zich op
het standpunt van de „ruwe" momenten stelde, trekt men
de conclusie: dat een curve symmetrisch kan zijn met het
zelfde gemiddelde en /x2 als de normale curve, maar dat,
wanneer de bedoelde curve vlakker, en wan-

neer ) deze minder vlak aan den top zal zijn.

Nu is het duidelijk,, dat de normale curve deze twee
gevallen niet van elkaar kan onderscheiden. P e a r s o n, *)
in een verdediging zijner eigen asymmetrische curven
tegenover de normale, stelt het voor alsof hier twee abso-
luut verschillende curven voorhanden waren. Dat is nu
wel wat overdreven. Want de welbekende eigenschap der
normale curve leert, dat verreweg het belangrijkste deel
van de totale frequentie rondom het gemiddelde is opeen-
gehoopt, terwijl op eenigen afstand hiervan de frequenties
relatief zeer klein zijn. Daarom is er naar verhouding
niet zoo heel veel frequentie van de uiteinden naar het
centrum te brengen en blijft het effect van een dergelijke

\') London, Phil. Trans. B. Soc. 198. 1902

-ocr page 75-

handeling maar klein. Ook al is dus —3y.% niet nul,
dan wijkt toch de berekende normale curve maar weinig
van de gegeven data af en voor verreweg de meeste
doeleinden kan deze normale curve gebruikt worden.

Nu kan men van de momenten de fouten vinden, zooals
in hoofdstuk II is aangegeven, en dus ook van een functie
van deze, zooals /*4—3,u|. Weet men nu, dat deze uitdruk-
king eenige keeren grooter is dan zijn middelbare fout,
dan is de normale curve zeer waarschijnlijk de „ware"
niet. Maar deze curve berust op enkele simpele onderstel-
stellingen en in elk praktisch geval zal hier toch wel nooit
streng aan voldaan zijn. Ook al had men het geheele aan-
tal gemeten, dan zou, m.i., een zoo eenvoudige frequentie-
verdeeling, als de normale is, nooit streng te verwachten
zyn, en evenmin derhalve als men een „willekeurig com-
plex" heeft gemeten.

Men moet derhalve de normale curve steeds beschou-
wen als een benadering aan de werkelijkheid. En voor
ieder, die met de praktijk hiervan vertrouwd is, blijkt
inderdaad, deze curve een zeer groot aanpassingsvermogen
te bezitten. Zoo zéér zelfs, dat het iemand als Galton\')
tot de meening bracht: „I know of scarcely anything so
apt to impress the imagination as the wonderful form of
cosmic order expressed by this Law of frequency of Error....
It reigns with serenity and in complete self effacement
amidst the wildest confusion. The huger the mob, and the
greater the apparent anarchy, the more perfect is its sway.
It is the supremo Law of Unreason".

Al moge nu ook do normale wet niet zulk een alge-
meene strekking hebben, toch is de bruikbaarheid in vele
gevallen wel boven twijfel verheven. Daarom is het van
zoo groot belang een geschikt criterium omtrent do nor-
maliteit te bezitten.

Nu bleek evenwel, het al of niet voldaan zijn aan do be-
trekking ^-- 3^=0, een nog maar weinig bevredigend
inzicht omtrent de normaliteit te leveren, en is dit alleen,
als criterium dus minder geschikt. Men moet dan, zooals
Pearson8) wel deed, niet alleen dit maar tevens nog een

\') Natural Inheritance. London 1889 (GO).

2) London, Phil. Trans. B. Soc. 198. 1902.

-ocr page 76-

geheele reeks andere kenmerken nagaan, als daar zijn:
het nul worden der oneven momenten, en allerlei andere
betrekkingen, die men tusschen de even momenten beden-
ken kan. Dan wordt deze methode bewerkelijk en weinig
fraai.

Een in alle opzichten voldoend onderzoek naar de nor-
maliteit kan geleverd worden in aansluiting aan de ont-
wikkelingen in hoofdstuk II 1).

Er zij weer gemeten een grootheid met het ware ge-
middelde Lj, die achtereenvolgens de waarde Lj-j-a^,
L1 £c2,-.. enz. kan aannemen. Laat X een waarde der groot-
heid zijn tusschen Lx xr en L^a^^. De ordinaat in X
verdeelt dan de frequentiefiguur in twee deelen C, enC2.
Laat het aantal waarnemingen in deze deelen zich ver-
houden als 1 9 en 1 —
<p, dan noemt men <p de klas-index
behoorende bij X.

Koos men nu uit het geheele aantal een complex van
n waarnemingen, dat volkomen gelijkvormig was aan het
geheel, dan zou het aantal waarnemingen in elk deel ge-
lijk zijn aan
n^ = \\ n (1-fp) en n2 = \\n (1 — <p) respectie-
velijk. Hieruit volgt:

n, — n,
<p — -J—j—

Kiest men een willekeurig complex, dan is de waarge-
nomen waarde van p, zooals hieruit blijkt, gelijk aan
(« «i) (0 e8)-P—G» «r) —als evenalsvroe-
<x/3... p... de relatieve frequenties zijn in het geheele
aantal, en e de fouten daarop, die ontstaan door het wille-
keurige complex te kiezen.

Nu gelden direct de uitkomsten van hoofdstuk II. Denkt
men het geheele frequentie oppervlak in twee groepen C,
en C2 gesplitst, met de daarbij behoorende relatieve fre-
quenties .V (1 -f-
<p) en \\ (1 — <p), die dus in de plaats treden
van de daar genoemde « en /?, dan vindt men dat de fout
in
<p normaal verdeeld is, met een gemiddelde\'gelijk nul,
en een gemiddelde waarde van het quadraat dezer fout gelijk

\') Zie: W. F. S li e p p a r d, London, Phil. Trans. I{. Soc. 192
1899 (125).

-ocr page 77-

(1-P2):n........(4)

Laat nu p.\' en de momenten rondom de centroïd

voorstellen van C, en C2, dus p\'p = E\'x en p," = S"«®^,
waarin deze sommen respectievelijk van — oo tot
xr en
van
xr tot oo loopen.
Nu is de fout in Lx volgens het vroegere gelijk aan

en maakt men gebruik der daar verkregen uitkomst (3),
dat het gemiddelde product van twee uitdrukkingen
Sas en Sa\'e, wanneer e de fout voorstelt op de relatieve
frequentie <*, gelijk is aan:

A |2aa\'«-((2a«))(2(a\'«))) ,

dan kan men nu het gemiddelde product opschrijven van
de fouten in L, en
<p, door te bedenken, dat nu a\' —x
en a = -f-1 en — 1:

A j E\'a x—Z" <xx — S"« ) J

Dit wordt door invoering der momenten, in aanmerking
nemend, dat
px =0, daar deze rondom de centroïd gedacht
zijn:

\\\\n\\-c\\).......(5)

Evenzoo kan men liet gemiddelde product van fouten in
<p en neerschrijven, door gebruik te maken van de vroe-
gere uitkomst, dat do fouten in
p gelijk zijn aan

* (xv -ppp_xx)e,

hetwelk men analoog substitueert, waardoor men hiervoor
vindt:

w^\'p- -p ^ - ""i) - i ■ • • i

daar « — ï" a = i (1 -f- <p) — J (1 —- <p) = ? is. Speciaal voor
p — 2 kan men (6) schrijven:

^\'■-fV-Pf.).-......C?)

-ocr page 78-

Hierbij voegt men nog de eveneens reeds bekende uit-
komsten, dat het gemiddelde quadraat van de fout op Lj
gelijk is aan : n, en hetzelfde op p2 gelijk is aan
2):n, hetgeen hier wegens de onderstelde normale
verdeeling geschreven kan worden, 2p2

Al deze genoemde uitkomsten zijn noodig voor het vol-
gende.

Nu schrijft men X = Lx -f crx, dat wil zeggen de abscissen
x worden gemeten in <r als eenheid. Zoo zal ook in het
volgende
z voorstellen de in dezelfde maat gemeten ordi-
naat. Dit doet men hierom, dat dan
x en z de afstanden
voorstellen in een zoogenaamde standaard normale fre-
quentiefiguur, waar cr = 1. Van deze kan men een eenvoudig
ingerichte tafel bezitten.

De juiste waarde van X — (L^ o-a;) is natuurlijk nul.
De waarde X heeft men direct uit de waarnemingen gege-
ven, de daarbij passende index
<p kan men bij elke X be-
rekenen. Uit een tafel, die men-daartoe gereed gemaakt zal
hebben, vindt men bij elke
<p een waarde van x. Vervolgens
berekent men L,
-\\-<rx door eerst L, en <r te berekenen.
De aldus becijferde, waargenomen waarde van X— (Lj -f-
<rx)
is dus niet nul, maar zal een ot andere waarde vertoonen,
zeg
S. Deze J kan men voor zooveel mogelijk indices bereke-
nen uit de waarnemingen; dit is de waargenomen afwijking
(zie kolom 4 in volgend staatje). Door evenwel de gemiddelde
waarde van 52 theoretisch te berekenen, krijgt men de te
verwachten middelbare (of daaruit de waarschijnlijke) afwij-
king, die met de waargenomen afwijking te vergelijken is.

Noem nu de fout op X: op <p: 0, op L, : w en opcr: p.
Dan bestaat allereerst de betrekking,

ö = -—^ . .\'......(8)

(T

door te bedenken, dat men, door op X een fout § te onder-
stellen, aanneemt, dat de index
<p bij X $ is waargenomen,
en dus bij X de index
<p 0. Nu volgt deze betrekking
direct uit de definitie der index, bedenkende, dat
z weer
de ordinaat der standaard figuur zal zijn.

Het gemiddelde quadraat van de afwijking X — (L,-f <ra;)
is nu:

-ocr page 79-

£ (0 — W — £c/>)2 = ^ £ (S2 «2 P2x* -f 2wpx — — 2&) . .

Men moet dus al deze gemiddelde quadraten en pro-
ducten kennen.

Het gemiddelde quadraat van de fout op X, is wegens
(8) en het volgens (4) gerekende gemiddelde quadraat van
de fout o op p:

0-2(1 —

Het gemiddelde quadraat van w, de fout op L, , is zoo-
als juist gezegd, bedenkend dat /u2 =<r-:

o-2: n.

Evenzoo is liet gemiddelde quadraat van p, de fout op <r :

2tr2: n.

Van de benoodigde gemiddelde producten is alleen dat
van w en
p nul, daar <r en L1 de twee grootheden zijn,
volgens welke de normale curve aan de data aangepast
zal worden gedacht, en deze dus als onafhankelijk van
elkaar beschouwd dienen te worden.

Nu geeft (5) het gemiddelde product wö van de fouten
op L, en p. En zoo geeft (7) hetzelfde van de fouten op
<r2 en <p, dat is (als men <r\' de ware en <r de waargenomen

waarde noemt) van * - — <r2) en dit weer is gelijk aan

\' £ 2<t Op of ook aan - 2<r £ Op, als men de sommen, die
n « \'

producten van drie fouten bevatten, verwaarloost.

Door eenvoudige integratie krijgt men bij een normale

verdecling do uitkomsten:

fLx" = <rz en n\\ = — <rz.

Po" = £ (1 — p) <r2 -f 0-2 XZ en = A (1 -f p) 0-2 — 0-2 xz.

Met deze gegevens vindt men in verband mot (8) do
gemiddelde producten en gelijk aan respectievelijk
o"2: n en
l<r- x: n.

Nu kan men dit alles in (9) substitueeren en vindt als
het gemiddelde quadraat van de afwijking X — (L, -J-
ovb):

-ocr page 80-

j o-2 (1 — p2): 4s2 — O-2 _ | c-2 x2 J: n

De wortel hieruit vermenigvuldigd met Q = 0,67448 . . .
geeft een uitdrukking voor de waarschijnlijke afwijking.

Als voorbeeld ter toepassing kies ik een uitkomst van
een onderzoek van Pearson \')• Deze nam de volgende
reeks proeven. Een zeer smalle lichtlijn glijdt langzaam
over een witten reep, en ergens in zijn loop klinkt een bel.
Op dit moment zal een waarnemer op het gezicht een
zelfden reep, die voor hem ligt, met een potloodschrap in
dezelfde verhouding verdeelen als de lichtlijn den reep
verdeelde. Door de inrichting der proef kan een tweede
waarnemer deze laatste verhouding volkomen juist bepa-
len. Elke schrap zal nu een fout bevatten, die volkomen
meetbaar is, en men wenscht na te gaan in hoeverre deze
fouten volgens de Gausische curve verdeeld zijn.

Aan deze proeven heeft Pearson met zijn assistenten
zeer veel tijd en zorg besteed en een geheele reeks uitkom-
sten gepubliceerd. Er is hier getracht deze proeven zoo-
veel mogelijk het karakter te geven van proeven, zooals
die in een physisch of astronomisch laboratorium geschie-
den. De uitkomsten zullen daarom aan moeten toonen in
hoeverre de normale curve als „fouten" wet voldoende is.

Ik neem er hier een van over, namelijk degene, die het
duidelijkst afwijking vertoont van de normale verdoeling.

fout

aantal

fout

aantal

fout

aantal

fout

aantal

6.255

1

3.255

6

0.255

97

-2.745

4

5.755

0

2.755

4

— 0.245

85

-3.245

1

5.255

0

2.255

12

— 0.745

69

— 3.745

1

4.755

1

1.755

22

— 1.245

56

— 4.245

0

4.255

0

1.255

57

— 1.745

23

— 4.745

1

3.755

1

0.755

71

— 2.245

7

\') Londen, Phil. Trans. It. Soc. 198, 1902.

-ocr page 81-

In figuur gebracht, geeft deze tabel onderstaande kromme,
waar tevens de normale en een Pearson\'sche curve zijn
aangepast. Deze laatste sluit over het algemeen nauwer

......... Ctvi«-

~ ---C«w\\.

1 z Sy.oê o £

\'-O 74

f:<ji rj/ dc

\' i\\

l\\

\' iJ!

I • !tV

\\ \\

n

V

•I
: i
n
ii
; I
: I
: l
< I
i l
I

t.
\\\\

t;

V \\
f.

\\

• I
!>\'

/1
ft

V*

\\ \\

S \\

\\\\

_.»—rj

1—i—r

/ 0

Fig. 4.

r
r

bij de waarnemingen aan, hoewel ook do normale, de
ééne datum aan den top uitgezonderd, dit doet. Met liet oog
alleen op deze figuur is het moeilijk te zeggen, welke curve
te verkiezen is, trouwens dit hangt ook af van het doel,

-ocr page 82-

dat men ermee bereiken wilde. Was er enkel en alleen
gevraagd de verkregen data af te ronden, dan zou de
P e a r s o n\'sche curve beslist de voorkeur verdienen.

Nu heeft Pearson bij deze data gevonden, dat
/u,i:fx,?,— 5.0135, met een waarschijnlijke fout == 0.1450. Deze
uitdrukking verschilt derhalve heel wat keeren de fout van
de theoretische waarde = 3. Daar nu zooals gezegd deze
ééne uitdrukking zoo weinig nog een juist inzicht geeft, was
Pearson genoodzaakt aldus een geheele reeks zulke ken-
merken van normale verdeeling op te zetten en te berekenen.

Ik berekende daarom volgens het voorgaande de waar-
schijnlijke en waargenomen afwijking der uitdrukking
X — (Lj
<rx), hetgeen de uitkomsten gaf der hier volgende
tabel.

Waarden
van X.

Waarden
van
<p.

L, o\\r
(berekend)

Waar-
genomen
afwijking

Waar-
schijnlijke
afwijking

Verhouding
waargen. en waar-
schijnl. afwijking

-f 6.505

1.0000

6.005

0.9961

5.505

0.9961

5.005

0.9961

4.505

0.9923

4.005

0.9923

3.505

0.9884

3.005

0.9654

2.505

0.9499

2.409

— 0.096

0.045

2.11

2.005

0.9037

2.056

0.051

0.033

1.56

1.505

0.8189

1.669

0.164

0.024

6.83

-f-1.005

0.5992

1.077

0.072

0.018

4.00

0.505

0.3256

0.577

0.072

0.017

4.24

0.005

— 0.0482

0.005

0.000

0.016

0.00

— 0.495

— 0.3757

— 0.505

— 0.010

0.017

0.59

— 0.995

— 0.6416

—1.014

— 0.019

0.019

1.00

— 1.495

— 0.8574

—1.665

— 0.170

0.027

6.30

—1.995

— 0.9461

— 2.217

— 0.222

0.044

5.05

- 2.495

— 0.9730

— 2.995

— 0.9884

— 3.495

— 0.9923

— 3.995

- 0.9961

— 4.495

— 0.9961

— 4.995

-1.0000

-ocr page 83-

De uiterste data zijn buiten beschouwing gelaten, daar
hier de fout § niet meer evenredig aan
6 mag genomen
worden. De waarnemingen zijn hier ook zeer weinig talrijk
ten opzichte van het centrale gedeelte, zoodat hier de
uitkomsten toch geen invloed zouden uitoefenen op de
conclusies

Ik vind allereerst het gemiddelde L, = 2.3783 en
o- = 0.07774, waar <r-= en deze berekend is rondom het
gemiddelde met de S h e p p a r d \'sclie correcties. De uit-
komsten in drie decimalen is voor een onderzoek als dit
genoeg en laat een snelle rekening toe.

Terwijl de voorgaande theoretische redeneering tamelijk
lang was, ook door de vele daarin voorkomende groothe-
den, zijn de uitkomsten voor de toepassing zeer eenvoudig
en snel te berekenen, vooral met behulp van een reken-
machine.

Overigens bevat deze rekening geen moeilijkheden. \')

Uit deze uitkomsten moet men nu concludeeren omtrent
de al of niet toepasselijkheid der normale curve bij deze data.

Hiertoe kan men nog een hulpmiddel vinden. Wanneer
namelijk een of andere grootheid
S normaal verdeeld is
rondom een gemiddeldo nul, met middelbare fout o-, en men
noemt het oppervlak der standaard normale curve tusschen
de ordinaten
x = ±p:<r gelijk aan f, dan is de waarschijn-
lijkheid, dat, als men
m waarden van S willekeurig kiest,
• minstens een hiervan numeriek grooter is dan p, gelijk

aan 1 — f\'". Donk nu zóódanig gekozen dat deze waar-
schijnlijkheid = \\ is. Uit dezelfde genoemde tafels \') kan
men dan de daarbij behoorende waarden van
p en van x
vinden. Zoo vind ik voor m = 10, x — 2.716.

\') I)e bcnoodigde getallenwaarden der normale cnrvo ontleende
ik aan
C. B. D a v o n p o r t, Statistical Methode. New York 1904,
die ik controlcerdo mot tabellen van W. F. She.ppard in Bon-
don, Phil. Trans. K. Soc. 192. 1899. Als rokenmachino word do
7. g. Comptometor gebruikt, die vooral voor statistisch werk, ovenals
trouwens voor elk rekenwerk, dat niet uitsluitend tot vermenig-
vuldiging to herleiden is, verre te verkiezen is boven het systeem
Brunsviga, waarvan ook de Pearson\'sehe school zioh nog bij
voorkeur schijnt to bedienen.

-ocr page 84-

Onderstelt men nu, dat de verhouding van waargenomen
tot waarschijnlijke afwijking bij benadering normaal ver-
deeld is, en deze derhalve in de plaats treedt van wat hier
de grootheid S genoemd werd, dan krijgt men voor wat
gevoegelijk de „waarschijnlijke grens" van deze verhouding
genoemd kan worden, de waarde 2.716.

Deze waarde blijkt nu voor verschillende afwijkingen
nog al belangrijk overschreden. Ergo is de normale ver-
deeling hier zeer waarschijnlijk de „ware" niet en zijn
de gronden, waarop deze berust niet ongestoord voorhanden.
Men heeft nu deze proef beschouwd, alsof men geheel
willekeurig uit een oneindig aantal, een willekeurig com-
plex waarnemingen had uitgekozen, en dus ook bij een
oneindig aantal waarnemingen zou de frequentieverdeeling
niet geheel en al normaal zijn.

Maar aan den anderen kant is de afwijking van een
normale curve ook niet zoo heel groot. En als men nu
bedenkt, dat de normale curve als een ideaal grensgeval
te verwachten is, waaraan praktisch wel nooit geheel en
al voldaan zal zijn, dan is hier toch geen reden aan-
wezig om op grond van deze uitkomsten te willen con-
cludeeren, zooals Pearson \') deed : „Errors of judgment,
whether relative or absolute far from universally oxhibit
the normal distribution of frequency. It is necessary to
generalise this law . . ." Bovendien is de hier genoemde
uitkomst op een proef gebaseerd, die wel min of meer,
maar niet geheel het karakter van een waarneming in
een laboratorium lieóft. Nu is dit nog degene, die het
meest, van alle door Pearson genoemde gevallen, af-
wijkt van een normale verdeeling, de andere geven in
het algemeen nog beter aansluiting. Ik zou daarom uit
deze proeven liever concludeeren, dat de foutentheorio in
de normale gedaante zonder gevaar, voor zoover deze
proeven bewijzen, gebruikt kan blijven en er geen reden
is deze theorie in meer algemeene gedaante in te kleeden.
Een wat sterker afwijking van de normale gedaante dan to
verwachten was, zou ik eerder willen zoeken in de on-
volkomenheid der genomen proeven.

\') London, Phil. Trans. R. Soc. 198, 1902.

-ocr page 85-

Nu kan men zich evenwel afvragen bij een materiaal
als het genoemde of een ander, waar een geringe af wijking
van de normaliteit is waargenomen,
Avelke fout men be-
gaat toch een normale verdeeling aan te nemen.

Dit hangt nu af van het doel, dat men met zijn resul-
taten bereiken wil. Is dit alleen afronding der gegeven
data, dan is deze curve in zoo\'n geval te verwerpen. Bij
afronding toch moet men geheel alleen rekening houden
met de voorhanden data en met niets meer. Ook al hadden
voorgaande ervaringen bij analoge problemen geleerd, dat
een of andere speciale curve te verwachten was, dan is
er toch geen reden aanwezig, deze curve als afrondings-
curve te gebruiken, als de nu aanwezige data een duide-
lijke afwijking van de verwachting vertoonen.

Het geheele afrondingsprobleem trouwens heeft een
eenigzins ander karakter. Men vraagt hier niet in hoeverre
de voorhanden data inderdaad een willekeurig complex
zijn uit een oneindig aantal, maar men neemt integendeel
aan, dat de data, binnen zekere grenzen, reeds een gelijk-
vormig complex zijn uit een daarbij passend geheel.

Het zuivere afrondingsprobleem is dus in zooverre be-
perkter, dat het niet boven de gegeven data uitgaat, maar
in dit beperkte gebied, stelt het dan ook zijn eischen zoo
streng mogelijk. Als afrondingscurve is dus de normale
curve niet zoo spoedig te gebruiken.

Echter in bijna alle andere gevallen waar oen frequen-
tiecurve gebruikt kan worden, kan in een geval als in hot
voorgaande genoemd, ook de normale curve gebruikt
worden. Dat is dus in do geheele theorie der waarnemings-
fouten en al wat daarmee samenhangt, en onder meer ook
bij het onderzoek naar correlatie of regressie, zooals in
het volgende hoofdstuk besproken zal worden.

Bovendien geven alle andere frequentiecurven aanlei-
ding tot een moeilijker en uitgebreider rekenwerk. Overal
derhalve waar het meer te doen is om ruwe schattingen
dan om zoo nauwkeurig mogelijk numerieke uitkomsten,
zal men de normale curve blijven verkiezen ook in ge-
vallen, waar zonder twijfel do normale curve de „ware"
niet meer is, zonder evenwel een te groote afwijking van
de waarheid te zijn. Met hoe ruwer uitkomsten men te-

-ocr page 86-

vreden is, hoe wijder het gebied is, waarbinnen men de
normale curve gebruiken zal.

Dit neemt echter niet weg, dat er zeer veel statistisch
materiaal is, dat zóó zeer afwijkt van het normale, dat
hier nooit deze curve toepassing kan vinden. Het meeste
komt men dit tegen bij de biologische en economische
statistiek.

Nu komt het veel voor, dat inhomogeniteit van de waar-
nemingen een reden is, asymmetrie in de uitkomsten der
meetingen op te merken. Maar daaruit volgt nog niet om-
gekeerd, zooals Ranke en Greiner \') willen doen ge-
looven, dat asymmetrie een reden is om inhomogeniteit
aan te nemen. Het komt toch wel voor, dat eenzelfde reeks
individuen, volgens het eene kenmerk gemeten, een asym-
metrische fequentieverdeeling vertoont, maar volgens een
ander kenmerk, een symmetrische en normale. In het
algemeen moet men het kenmerk van homogeniteit niet
te nauw nemen. Men zou bijvoorbeeld theoretisch met
eenig recht alle statistiek, waar een der veranderlijken
leeftijd is, als niet homogeen kunnen betitelen. Echter laat
de statistiek zich niet binnen zulke nauwe grenzen in-
sluiten.

Voor nu echter aan een bespreking van algemeene fre-
quentiecurven te beginnen, zal het niet ondienstig zijn eerst
de ontwikkeling na te gaan van den jongsten statistischen
tak, de biologische statistiek, om te zien wat de resultaten
zijn, zoolang men de normale curve niet verwerpt.

HOOFDSTUK IV.

De normale frequentiecurve in de biologische
statistiek.

Het idee, de mathematisch statistische methoden toe te
passen bij biologische onderzoekingen, is afkomstig van

>) Arch. Anthr. Braunschweig II, 32. 1904 (295).

-ocr page 87-

Quetelet en vooral in Engeland uitgewerkt door
Galton 2) en daarna door Pearson en de door hem
gestichte „Biometric school" in de allerlaatste jaren.

De belangrijkste door hen verkregen resultaten hebben
echter steeds de normale wet tot grondslag, waarbij zij
niet blijven staan bij de tweedimensionale Gausische
wet, maar gebruik maken van de hieraan door B r a v a i s 3)
gegeven uitbreiding. Zooals bekend is 4), heeft deze meer-
dimensionale wet den vorm:

waarin C en a constanten zijn. Deze geeft de frequentie
der gemeten grootheid 2, die een functie is van
n veran-
derlijken
Xi , ODt , .... X .

Neemt men nu eerst het geval, dat z een functie is van
£Cj en
x2 alleen, en dat x, en x2 gemeten zijn vanaf hun
respectievelijke gemiddelden, dan is:

zSxt Zx2=Ce~^aixX^Jr2ax*XyX2~3r"iiX^hxl Sx2 ... (2)

de frequentie van de grootheid z, wanneer .t, en x2 res-
pectievelijk liggen tusschen £c, -fJ«,,
x2 5a72. Integreert
men nu deze uitdrukking naar
x2, dan krijgt men de
frequentiecurve, waarin
x{ de veranderlijke is, en deze is
normaal, terwijl de dan in de exponentieelo uitdrukking
optredende constante is:

-L= a, i (l--.....(3)

1 \\ «11 «22 /

waar dus met o-, bedoeld is do middelbare fout op xu
beschouwd als eenigo onafhankelijk veranderlijke. Noemt
men <r._, de middelbare fout op
x2, dan is eveneens:

\') A. Q u 0 t e 1 e t, zie 0. a. Antropométrie 1870.
2) F. Galton, zie b.v. Natiiral Inheritance, London 1889.
s) A. B r a v a i 8 , Analyse Matli. sur les probab. dea erreurs
de situatinn d\'un point. Mémoires présenté par divers savants ii
1\'academie royale des sciences do l\'Institut do France, Paris 1840.

4) Yergelijk E. C z u b 0 r, Theorio der Beobacbtungsfehler ,
Leipzig und Borlin (Teubner) 1891.

-ocr page 88-

«22 (l--). ... (4)

(T22 V «xi «2 2 /

Integreert men naar xx en naar x2, dan krijgt men de
totale frequentie der grootheid
z (zeg = N):

N = C.2x(a11 «22122)~"2 .... (5)

De uitdrukking «12211«22 stelt men voor door r2, en
r draagt de naam van G a 11 o n\'sche functie of corre-
latie coefficient.

Daar N nooit imaginair kan zijn, en dus de vorm onder
het wortelteeken in (5) nooit negatief, kan ook
r nooit
grooter dan -f- 1, en nooit kleiner dan — 1 zijn.

Bij volkomen onafhankelijkheid van xx en x2 ontbreekt
in de frequentiewet in de exponent de vorm 2
al2xlx2
en is dus «12 gelijk nul. Dan is evenwel ook r — 0.

Men kan nu de frequentiewet schrijven in de gedaante:

2.%\'yXo r . x2" j

N

1

2 1 <r, z(l —r*)

<7,^(1 -r2) 1 0" 2 2 (1—r2) 1

2Ter,<r2 1/(1—r2) 6

Kiest men nu voor x2 de bepaalde waarde 7t2, dan
geeft 2 de frequentie voor de daarmee gelijk bestaanbare
waarden van xx en is de vorm to schrijven, als men alle
constante termen door C, voorstelt:

Dit is weer een normale verdeeling, waarin de middel-
bare fout gelijk is aan

<r, 1/(1 — r2)
en rondom het gemiddelde,

X, = ra-, h2 /<r2.......(4)

Evenzoo door voor xx een waarde hl te kiezen krijgt
men voor de aldus bepaalde waarden van
x2 weer een
normale verdeeling met een middelbare fout en rondom
een gemiddelde, respectievelijk:

o-, 1/(1— r2) en X2 =r<r, 7t, / <r, . . . (7«)

Uit deze beide waarden van X, en X2 kan menieeren,

-ocr page 89-

dat bij volkomen afhankelijkheid van xx en x2 de waarde
van r gelijk aan de eenheid moet zijn. daar anders niet
beide uitdrukkingen tegelijk kunnen bestaan.

Door namelijk x2 = h2 te nemen, neemt men in dit punt
tevens ook
x1=h1 een constante, daar toch xx en x2
volkomen afhankelijk. Dan moet dus X, eveneens = /t,
worden. Kiest men nu a?, =7tt , dan wordt X2 = 7
i2, wat
alleen kan als in bovenstaande uitdrukkingen r = 1.

Tevens blijkt hier nogmaals uit, dat bij volkomen onaf-
hankelijkheid r = 0 moet zijn.

De grootheid r is dus een maat voor de verwantschap
(correlatie) der twee veranderlijken en
x2. Uit de bo-
venstaande waarden van X leest men af, dat het van de
waarde van
r afhangt, indien alles anders hetzelfde bleef,
in hoeverre men, door aan een der veranderlijken een
willekeurige waarde toe te kennen, ook voor de andere
(gemiddeld) een waarde vindt, afwijkend van de gemid-
delde waarde van alle waarnemingen.

Hierop baseerend kan men nu ook de algemeeno
Bravais\'sche wet oplossen, d i., een methode vinden om
de coefficienten
a bij een gegeven frequentieverdeeling te
berekenen.

Men kiest voor xx en x2 de speciale waarden >?, en j?2
en wil 1111 de exponent splitsen in een stuk dat alleen >7,
en
r,2 bevat en in een stuk dat deze in het geheel niet
bevat. Dit kan men bereiken door een transformatie, door
namelijk elke
x over een zekeren afstand te verschuiven,
waarbij do nieuwe veranderlijken
xf onderworpen zijn aan
de voorwaarden:

0 = »Ji «31 >?2 «32 «38 «B\'B rt34 ----

0 = »ï, «4 1 ^«42 «43\'\'C/3-f «44^4 ••••

0 — ») 1 rt51 >)2 «5 2 «53 «54 «M ----

Wanneer men dit stel vergelijkingen aanvult met do
identiteiten :

/" >» 1 «11 >72«12=)7| «11 ^2 «12 «13 ^3 «H ■••
0 37, «21 >72 «22 =>?! «21 ^2 «21 «23 ^3 «24 ^4 • • •

waarin voorstellen do verkortingen:

-ocr page 90-

f= a, 3 ax 4 x\'i a, 5 xf h -f.....

g — a2 3 ^3 ~l- 4 ^4 H~ 5 5 ~f-.....

kan men het geheele stel eenvoudig oplossen. Noem daar-
toe de determinant

«u

a ia

«13

«21

a 2 2

«23

A =

a32

«33

«3 4

en de bij a■■ behoorende onderdeterminanten: A... Hierin
J y

is steeds cc.. = a..en dus A.. = A..

ij ii ij ji

Men vindt dan als oplossingen waarom het hier te doen is:
Au (f rii «u ^2 «22) Ai2 (# >7! «,2 ^2 a22) = J7i A ,

A2i ail-\\-ri2 oI2)-f A22 (£ >?, «12 ^2 ^22)== ^2 A ,

hetgeen te schrijven is:

?_Ag2 ^2 Ai 2

A A _ A 2

1 xi22 2

><2 A i , -Î] [ A 1 o

a—a-â~2~ A — >7, a12 — >72 a22,

f_ \'h -"-22 ^2 A1 2 a v, _ v, _

/ — x——:—r~2~ a — «i,—>72 «12»

Ai 1 A22 AJH

^2 At I —li A1.

A A _ A 2"

■"■1 1 "-22 2

en tevens heeft de exponentieele uitdrukking de gedaante
aangenomen:

2 = const. 2 («11 12 ^2 «22 >55 Ai m2) x

Vermenigvuldigt men dit met S.%J4, — en integreert

naar a/3, x\\,____tusschen de grenzen rfcoo, dan wordt het

geheele tweede deel een constante factor.

Voert men nu tevens in het eerste deel voor f en g de
gevonden waarden in, dan volgt:

1 _A_____(_3J_ , ^L_2„ „ __ Al,

2 1_A 2 / A A A \' A 1 2 ^A A

z = const.12\' 1 1 22 1 1 22 ■a-nA2 2

Deze uitkomst is nu te vergelijken met do uitkomst (ö)
voor twee veranderlijken. Voert men in
pl2, d.i., de corre-
latie coefficient van
xx en x2, en s, en s2 de respectieve

-ocr page 91-

middelbare fouten hierbij behoorend, beide beschouwd als
onafhankelijk van de andere veranderlijken, dan is nu
analoog:

_ Al 1 o __ As

A 1

„2 _ 2_

Pl 2 — A A \'

1 A22

(10)

£ , ei1 =

Nu leert een algemeene eigenschap der determinanten
At, A,2 A13..
A2i A22 A23..

A3 1 A-3 2 A-3 3..

A\' =

en door invoering van bovenstaande waarden ook:

1 Pli P13 —
Pl\\ 1 />23 —
Pz 1 /"3 2 2 • • • •

(10a;

A\'= A s? «|«I

Door invoering der notaties: R voor deze laatste deter-
minant en R • • voor de onderdeterminant behoorendo bij
p .. 1);

tj •\'1 ij \'\'

en B.. voor de onderdeterminanten behoorende bij A.. in

0 v

de determinant der grootheden A, vindt men door weer

een eigenschap der determinanten :\'

_ B,, _A.B„»,»W.... _ R,,

_ B22 _ A • R2 2 \'S12 s\'22 \'s\':i----_ R22

^« — 2 s28 " R..S,2"

« = - = A . R18 Si8 Sg9 *a2 .... = Ri_2_>

12 2

Voor do andere coefticienten a vindt men geheel analoge
uitdrukkingen en men kan de Bravais\'sche frequentie
wet schrijven:8)

tl—1

= A

1 ) Uit dezo formule leidt men de algemeene regressio formule

2 af. Men denke zich aan elk dor veranderlijken .....de

-ocr page 92-

so

2=const.e 1 2 12 ... (11)

De geheele oplossing hangt dus af van de bepaling der
correlatie coefficient voor twee veranderlijken.

Laat er n paren grootheden x/1x\\, ac"1x"2,... zijn en laat
de driedimensionale normale frequentiewet (6) gelden.
Dan is de kans, dat bij deze reeks paren een waarde =
r
der correlatie coefficient behoort, evenredig met het w-vou-
dige product,

_ . |__fV_ _ JfVV . *V I

u ={i_r*)-in e M«r,(l-r«) «p,(ra(L-r") ■ <r22(l_r2)) x

r// 2 O^\' « 2

| fciv 12 I 2

v 2 (7,(1—r2) (T.o-Jl-r2) ^<r22(L—r2) I ^

Xe 1 v \' 1 2V ; 2 v y X.- enz

Nu is<r,2= Ex^/n eno-2\'2 = £ #22/n, als deze sommen over
alle n paren zijn genomen. Voert men in A = 2 /
n <r,<r8,
waarin £(a?!a;2) =
(Xs CC*\'\\ 00^2 ...., dan schrijft men:

i1Ar 1

bepaalde waarden hï} 7i3,.... gegeven. Alleen xx blijft do veran-
derlijke, en men kan dan de Bravaia \'scho wet, in de gedaante
brengen:

»

_ const. ^ A, gil .....J 2

z = Const.« ( *2 ®3 \' ,

waar de gedaante der constanten even eenvoudig is neer te schrij-
ven. Dit is klaarblijkelijk een norinalo verdeeling, maar men moet
nog een translatie der Y-as invoeren om deze in do gewone ge-
daante te brengen, dat do Y-as met de centroïd samenvalt. Deze
normale verdeeling van
xx heerscht dus niet rondom het totaio
gemiddelde van waar af
xx geteld werd, maar rondom eon gemid-
delde, dat daarvan over een afstand

Rl2 », _ Rij «ii _

<~\'~~tT~ 7~ 2 R » 3
jt-jj
sj xv,, sa

verwijderd ligt.

-ocr page 93-

ur=e

Had men nu niet r maar de waarde r-f-p voor de corre-
latie coëfficiënt genomen, dan had men een zelfde uitdrukking
ur e gevonden, die men verkrijgt, door in bovenstaande

t f p

overal r p voor r in de plaats te stellen. In de uitdruk-
king, die men dan krijgt, denkt men de exponent ontwikkeld
in een gewone T a y 1 o r\'sche reeks. Hiervan luiden de
eerste termen:

1, 1, , (l r2)(A—r) ,

- log u . = - log u -f- /?— P

n ° r p n ° r 1 (1—r2)2

, . A (2r3 Gr) —1 — Gr2 r* 9 ,
1—- (i_ri)s--enz.

Neemt men nu A = r, dan wordt de coëfficiënt van/?nul
en die van p2 negatief, dan heeft men derhalve een maximum
voor log« en dus voor « zelf ook.

T I\'

De beste waarde, die men dus voor r kan kiezen, is te
berekenen uit
r = li[xix2) ln<rx<r2.

Bij verwaarloozing van alle machten van p hooger dan
de tweede vindt men:

— n (1 r2) p*

: ... .da)

hetgeen leert, hoe groot de waarschijnlijkheid is van een
waarde r-\\-p voor de correlatie coëfficiënt in plaats van r.
Men kan deze uitdrukking weer als een frequentiewet
beschouwen voor de correlatie coëfficiënt, althans als een
benadering daarvan. Daar dit dan een normale wet is,
leert men hieruit, dat de middelbare fout op r gelijk is aan:

1 — r2

<rr = l/[n(l r«)]......(13)

of ook:

1 —Ar)
1 — r2)

n | 2 r") £

Hiervan zegt Pearson \'): „It will be sufficiënt for
most practical purposes." Het begrip fout is hier op een
eenigzins andere manier te voorschijn gekomen dan in
hoofdstuk II.

G

>) Londou, Phil. Trans. R. Soc. 187. 1896.

-ocr page 94-

Als een voorbeeld ervan hoe deze theorie praktische
resultaten op kan leveren, noem ik in de eerste plaats het
onderzoek omtrent de erfelijkheid van levensduur. Met
veel moeite is het Pearson1) gelukt hieromtrent een
bruikbaar materiaal bijeen te krijgen, grootendeels uit
Engelsche families uit de betere standen, zoodat met de
in het vervolg genoemde uitkomsten geen algemeen gel-
dende regels bedoeld kunnen zijn.

Uit dit materiaal zal ik eerst nagaan de erfelijkheid van
levensduur van vader op zoon. Deze data rangschikt men
in een tafel met dubbelen ingang. Men zoekt eerst alle
vaders bijeen met een bepaalden levensduur, zeg
x{, en
ordent de hierbij behoorende zoons weer naar hun levens-
duur. Zulk een tafel heeft dan het volgende uiterlijk:

levensduur
van zoon

levensduur van vader

xx

X 2

. . .

. . •

Xn

totaal

V\\

«ii

a, 2

. . .

. . .

ü

i n

V2

a21

«22

en heet correlatietafel. Bij het bedoelde P e a r s o n\'sche
onderzoek begint zoowel
x als y met 23, en om de tafel
niet al te uitgebreid te maken, klimmen de verschillen in
levensduur met 5 op.

Alle zoons, behoorende bij vaders met een leyensduur x^,
vormen een groep (al\'ray) Yx^ en evenzoo alle vaders, be-
hoorende bij zoons met een levensduur , een groep X//^.

Door de B r a v a i s\'sche wet als grondslag aan te nemen,
neemt men aan, dat in al deze groepen de verdeeling
een normale is. Echter behoeven al deze normale curven
hun maximum niet op denzelfden leeftijd te hebben.

Maar de Bravai s\'sche wet zegt ook, dat nu alle waar-
genomen vaders, evenals
alle waargenomen zoons een
normale verdeeling hebben, elk rondom een bepaald ge-
middelde.

Denkt men zich nu de vaders gekozen, die een levens-
duur hebben,
li verschillend van den gemiddelden levensduur

Biometrika, Cambridge. 1. 1901/2.

-ocr page 95-

van alle vaders. Dan is volgens de B r a v a i s\'sche wet
de frequentie van de daarbij behoorende zoons, die een
levensduur hebben, die
x verschilt van den gemiddelden
levensduur van alle zoons,

_, ( x1___2xhr , h- j

z = const.e * lo"ï(l—r«) ^^ (l-r^ ^\'l(l-r*) ).

Al deze bedoelde zoons hebben derhalve een normale
verdeeling rondom het gemiddelde : \')

hl = r c-, h / cr2 .......(14)

waarbij men de coëfficiënt van h, namelijk r<r,/(r2, den
naam regressie coëfficiënt geeft.

Dit gemiddelde evenwel, de plaats van maximum fre-
quentie van zoons behoorende bij vaders met een levens-
duur, h verschillend van den gemiddelden levensduur aller
vaders, is tevens de meest waarschijnlijke levensduur voor
een zoon, wiens vader dien levensduur had.

Deze betrekking (14) levert dus een voorspelling omtrent
den meest waarschijnlijken levensduur voor iemand, wiens
vader op zekeren leeftijd stierf.

Daar deze betrekking lineair is, is de curve, die bij eiken
levensduur van den vader den meest waarschijnlijken
levensduur voor den zoon aangeeft, een rechte. Deze draagt
de naam regrossiecurve, en kan, daar <r,, o\\, en
r volgens het
voorgaande te berekenen zijn, eenvoudig bepaald worden.

Nu is do levensduur van een man niet alleen verwant
met dien van zijn vader, maar ook met dien van zijn moeder.
Om dit na te gaan moot men de vierdimensionale B r a-
v a i s\'sche wet nemen, die uit het algemeen behandelde
geval afgoleid er uit ziet: 2)

* 1—r}—rj—rJ 2r1rjra \' (1~r?)

_i

const. e

f* d-D -2 (r.-\'Vn) ^ -2 (rt-r8r,) ^

3 °ï<r3 8 1

—2 (}\'.,—t\'tl\'o) ^

1 ) Met do vereenvoudigdo notatiepl2 = r,, px 3 =r2 on /j28 = ra.

-ocr page 96-

Hieruit volgt evenals te voren, wanneer men voor x3 en
x2 de waarden h3 en h., kiest, dat dan de daarbij be-
lioorende reeks waarden van
xt een normale verdeeling
heeft rondom een gemiddelde, dat van het gemiddelde van
alle waarden van xx een afwijking vertoont gelijk aan:

h — r3~rir2 7, i r2 —rx r3 o-,

~ 1 — r\\ h* "r 1 — r\\ n*

Deze lineaire betrekking geeft in het behandelde geval:
den meest waarschijnlijken levensduur voor een zoon, wiens
ouders op bepaalden leeftijd stierven.

Door de coefficienten van zulk een betrekking naar alle
richtingen te berekenen, niet alleen voor vaders, moeders,
zoons, maar ook voor broeders, zusters, enz., kon Pear-
son niet minder dan 52 regressie formules vinden, waar-
van ik hier noem als voorbeeld:

Waarschijnlijke

levensduur
van een man

I

gemiddelde levensduur van alle
mannen van de geheele klasse } -f-
waartoe hij behoort

verschil van den gemiddelden levens-
I q igOl> l duur van allo mannen van do klasse j ■
\' waartoe de vader behoort, en diens 1 \'
werkelijk bereikte lovensduur

-}- 0.148G | idem voor moeder j

Ter toepassing moet men dus de gemiddelde levens-
duren der verschilleftde waargenomen klassen berekend
hebben. Bijvoorbeeld: A is 44 jaar oud, zijn vader stierf
oud 87.935 jaar en zijn moeder oud 85.338 jaar. Wat is zijn
„expectation of life".

Voor alle vaders met meerderjarige zoons vindt P e a r-
s o n uit zijn gegevens een gemiddelden levensduur: 138.370,
voor alle moeders met meerderjarige zoons eveneens: 67.947.

Maar nu A zelf, tot welke klasse is deze te rekenen ?
Alle waarnemingen bij elkaar genomen, is van de geheele
meerderjarige mannelijke bevolking de gemiddelde levens-
duur: 53.490. Maar van bijvoorbeeld alle vaders zonder
meerderjarige kinderen is deze: 66.324. In beide gevallen
krijgt men een gemiddelden levensduur voor de klasse
van A van 59.904 en 72.748 jaar.

-ocr page 97-

A behoort dus tot een klasse van mannen met een van
deze of desnoods nog een anderen levensduur; neemt men
aan, dat de laatste de beste is. Van deze groep moet men
nu nog kennen de middelbare fout o-, dan is deze volkomen
bekend (immers elke normale verdeeling is door het gemid-
delde en er bekend). Pearson vond hier: o- = 14.581.

Daar nu A reeds 44 jaar oud is en dus xx =28.748 jaar
vóór den gemiddelden leeftijd van overlijden in zijn klasse,
is zijn „expectation of life":

1 f _^2/2o-2 .
Ï72T JX e dx

28.748 H----- = 28.748 -f 0.854 jaar,

J_ T-x«/2(r» .
V/2 rje
— xt

zooals men met behulp van tafels voor deze integralen vindt.

Bovenstaand voorbeeld heb ik genoemd als een typisch
voorbeeld om de manier van werken der Pearson\'sche
school te illustreeren. En tevens omdat het probleem van
erfelijkheid van levensduur in do levensverzekering tech-
niek van belang kan worden.

Nu hieromtrent eenige opmerkingen. Ten eerste zij men
gewaarschuwd dit regressie onderzoek over niet te veel
onafhankelijk veranderlijken tegelijk uit te breiden. Ter-
wijl de bruikbaarheid der normaio wet in zoo vele ge-
vallen boven twijfel verheven is, wanneer er slechts éèn
onafhankelijk veranderlijke is, geldt dit niet voor een on-
bepaald aantal. Ook het onderzoek der velo reeds bere-
kende correlatie coëfficiënten wijst er op, dat men nog
wel voor twee onafhankelijk veranderlijken, althans bij
benadering, normale verdeeling mag aannemen. Voor meer-
dere echter ontbreekt voldoende onderzoek. En waar do
normale wet allereerst een empirische is, is het noodig,
dat ook de meerdimensionale consequenties aan do prak-
tijk getoetst worden, éér men daaruit algemeene resultaten
wil afleiden.

Geldt deze opmerking algemeen voor elk regressie
onderzoek, zoo geeft het hier genoemde voorbeeld nog

-ocr page 98-

aanleiding tot enkele bijzondere opmerkingen. Het materiaal
van P e a r s o n was noch groot, noch volledig. Aan nume-
rieke uitkomsten is dus geen waarde te hechten. Voor
praktische bruikbaarheid zou allereerst een veel groo-
ter materiaal bewerkt moeten worden. Om dit te verza-
melen moet men bedenken, dat in de archieven van vele
levensverzekering maatschappijen een groot materiaal ge-
borgen ligt, daar toch vele maatschappijen leeftijd van
overlijden van familieleden in de aanvraag op laten geven.
Om een eenigszins uitgebreid materiaal te behandelen, zooals
P e a r s o n dit doet, is echter een enorm werk, dat zeer
veel tijd kost. Zelfs het beperkte materiaal van P e a r s o n
bracht zóóveel werk mee, dat al mag het als voorbeeld
heel nuttig zijn, dit toch, met het oog op de niet prak-
tisch bruikbare resultaten, als een verloren moeite te be-
schouwen is.

Een tweede groote vraag is, hoe ver moet men gaan
met de verdeeling in klassen. Theoretisch zal de meest fijne
groepeering de beste zijn, maar hier stelt al dadelijk de
omvang van het materiaal een grens aan de klassen, die men
onderscheiden wil, daar toch elke klasse een groot aantal
waarnemingen moet blijven bevatten, wil de lieele statis-
tiek eenige waarde hebben. Bovendien hoe grooter het
aantal klassen, hoe enormer de bewerking en dan stelt
zich direct de vraag: is dit meerdere werk evenredig met
de te bereiken juistere resultaten.

M. i. is de dan door Pcarson bewandelde weg niet de
juiste. De bewerking "van zijn materiaal zou veel meer
waarde gehad hebben, als er minder in klassen gesplitst
was. Waar op het oogenblik nog niet te zeggen is in hoe-
verre van zulke uitkomsten ooit algemeen gebruik zal
worden gemaakt, daar nog geen voldoend materiaal voor-
handen is, doet men goed zoo eenvoudig mogelijk aan te
vangen, en, om te beginnen, zoo weinig mogelijk klassen
en zoo weinig mogelijk verschillende gemiddelde levens-
duren in te voeren. Niets belet hetzelfde materiaal later
meer gedetailleerd te bewerken.

Maar ook zonder dat er een in alle finesses uitgewerkte
statistiek bestaat, kan er toch reeds voor de levensver-
zekeringmaatschappij nut uit voortvloeien, door de ver-

-ocr page 99-

kregen algemeene uitkomst, i. e.: dat er een erfelijkheid
van levensduur bestaat.

Echter is er aan het probleem ook een biologische kant.
Hier doet zich nog een algemeene moeilijkheid voor. De
erfelijkheid van levensduur heeft dit, wat hem onderscheidt
van erfelijkheid van bijvoorbeeld haarkleur, dat de levens-
duur van een mensch door ongeval, infectieziekte, e. a.,
vaak onnatuurlijk verkort wordt. Het zuiverst zou men
dus doen al deze gevallen buiten beschouwing te laten en
de voorgaande statistiek alleen op te bouwen uit die ge-
vallen, waarin de betrokkene een zuiver natuurlijken dood
stierf. Een kleine stap in die richting deed Pearson
reeds, door alle, door ongeval veroorzaakte dood, uit te
sluiten. Om dit principe geheel door te voeren, is echter
niet wel mogelijk, daar het dikwijls moeilijk uit te maken zal
zijn, in hoeverre iemand een natuurlijken dood sterft of niet.

Het bewerkte materiaal is dus niet geheel homogeen.
Wanneer ön vader èn zoon een volkomen natuurlijken dood
stierven, dan kan men ook vragen naar de erfelijkheid van
hun levensduren. Maar deze erfelijkheid is niet meer zuiver
voorhanden, als een van beide levens gewelddadig verkort
werd. In het eerste geval is er wel, in het tweede geen
correlatie tusschen beider levensduren. \') Dit vertroebelt
de resultaten en op het eerste gezicht is het moeilijk te
zeggen in hoeverre.

Dat er evenwel een erfelijkheid van levensduur is, maakt
het feit, dat er een duidelijke regressielijn is, uiterst
waarschijnlijk. Want hier toch ziet men, dat in\'t algemeen
vroeg stervende vaders ook vroeg stervende zoons hebben,
en oud stervende vaders ook oud stervende zoons. Zonder
eenigo theorie voorop te zetten, is deze regressie te vinden.

i) K. Pearson, London, Phil. Trans. li. Soc. 192 1899(277)
geeft eenigo zeer eenvoudige beschouwingen ovor don invloed van
een menging van gecorreleerd met niet gecorreleerd materiaal, en
bereikt als resultaat, dat do corrolatio cooüicient in een zekoro ver-
houding kleiner is geworden. Evenwel in do onderstelling, dat hot
niet gecorreleerdo materiaal verreweg hot kleinste is, en dezo aannamo
lijkt mij in het onderhavigo goval niet gemotiveerd, in tegenstelling
met wat Pearson zegt in London, I\'roc. li. Soc. 65.1899 (292).

-ocr page 100-

Orden slechts het materiaal in een tafel als aangegeven,
bepaal van alle groepen het gemiddelde, stel deze graphisch
voor, en zie of er een regressie is. Om het probleem van
den kant van de regressie aan te vatten, heeft toch veel
voor, daar de numerieke waarde van een correlatie coëffi-
ciënt ons zoo weinig leert. Neem bijvoorbeeld de uitkom-
sten van May nar d >), die een onderzoek instelde naar
het voorkomen van kanker als doodsoorzaak, vergezeld
van andere ziekten. Hij vond de correlatie coefficienten:
kanker met diabetes 0.6896
id. „ zelfmoord 0.3972
id. „ nephritis 0.3792

De eerste verwantschap is inniger dan de beide anderen,
maar hoeveel inniger ? Wijst het op een groot verschil of een
correlatie coëfficiënt 0.3 of 0.6 is, of niet, en is dit verschil
weer geheel vergelijkbaar met een van 0.6 en 0.9? M.a.w.,
de correlatie coëfficiënt geeft geen maat voor de innigheid
eener verwantschap, die ineens uit de getallen is af te
lezen. Het is eerst de regressie, die de praktisch bruik-
bare resultaten levert.1) Ik kom hierop verder terug.8)

1 ) Om op dit verschil van regressie en correlatie nog eens te
wijzen, kan misschien dienstig zijn. Bij vole navolgers der „Bio-
metrika" is dit niet immer duidelijk onderscheiden. Ik noem oa.
J. F. R e i t s m a , Correlatieve variabiliteit bij planten. Diss.
Amsterdam 1907, waar (p. 13—21) met wat daar steeds correlatie
genoemd wordt, nu eens eigenlijke correlatie en dan regressie
bedoeld wordt. Genoemd werk bevat tevens (p. 1—12) een kort
historisch overzicht van wat er door Nederlanders gepubliceerd is
met betrekking tot correlatie onderzoekingen, sedert den baan-
brekenden arbeid van Galton op dat gebiód Het is evenwel
jammer, dat de in dit werk verrichte correlatio bepalingen niet
volgens do gewone Bravais\'sche formules geschied zijn. Het
bezwaar, dat dan „de overzichtelijke correlatie-tabellen gemist zou-
den worden", is mij niet duidelijk.

-ocr page 101-

In het algemeen echter moeten beide toepassingen, de
biologische en actuarieele, wel uit elkaar gehouden worden,
vooral bij voorgaande erfelijkheidskwestie. De bioloog,
die precies wil weten, hoe de levensduur, zuiver gesproken,
erfelijk is en die dus niet in den werkelijken, door allerlei
buiten het individu liggende oorzaken, verkorten levensduur
belang stelt, maar alleen in den „normalen" theoretischen
levensduur, dat het individu sterft door oorzaken, geheel
in zijn innerlijke constitutie gelegen, deze bioloog heeft
door het voorgaande geen bruikbaar resultaat gekregen.

men twee onafhankelijk veranderlijken x en y meet in hun respec-
tieve middelbare fouten als eonheid en dus stelt als nieuwe ver-
anderlijken :

% = * : trx en y, = // : <r f ,

dan neemt B r a v a i s aan, dat

% = p(ff,,ff2, .... ak\\ l>,,?>2,....)
y, = f ...
ak\\ c,,c2,....)

en dat dus § en y van een aantal gemeenschappelijke en een aantal
verschillende clementou afhankelijk zijn. Bovendien is nu :

= <r = 1.

Door nu het oorspronkelijke probleem van B r a v a i s een weinig
uit te breiden, toont Kaptoyn nan, dat men do correlatie
coellicient beschouwen kan als dat deel van het quadraat van do
middelbare fout van £ en 57, dat te danken is aan do werking
van do gemeenschappelijke elementen a.....a^.

Door do invoering van § en rj in plaats van x en y gaat even-
wel do correlatie coëfficiënt over in do regressie coëfficiënt (zie noot
p. 32) en het is dus eigenlijk voor deze dat Kaptoyn\'s afleiding
geldig is. Ook hier kotnt dus weer do regressie op den voorgrond,
nu laugs theoretischen weg.

Maar men moet nu geenszins beweren, dat algemeen corrolatio
en regressie dezelfde beteekenis hebben, daar nu beide verander-
lijken met verschillende mnat gemeten zijn, on aan het voorbeeld
in den tekst, hot regressie onderzoek van levensduren, ziet men,
hoe zulk een maat zeker niet logisch is in allo gevallen.

-ocr page 102-

De actuaris daarentegen, die minder op de inwendige
oorzaken let, maar die rekening heeft te houden met hoe
de dingen zich in de praktijk aan hem voordoen, vooral
voor deze levert een statistiek als de besprokene een uit-
komst zooals hij dat wenscht.

Een laatste opmerking geldt het volgende. De levensduur
van een mensch is blijkens het voorgaande een functie
van den levensduur zijner ouders, maar ook van verschil-
lende andere factoren kan deze afhankelijk zijn. Nu is,
vooral voor den actuaris, de sterkst uitgesproken afhan-
kelijkheid van het meeste belang. \') Hier blijkt al weer,
dat alleen als zeer veel en volledige statistieken voorhan-
den zijn, zoodat een keus en vergelijk mogelijk gemaakt is,
er beslist kan worden omtrent de praktische bruikbaarheid.

Ik noem daartoe als voorbeeld nog eens een ander merk-
waardig resultaat door Pearson afgeleid: de eerstgebo-
renen leven gemiddeld langer dan de later geborenen.
Deze typische en onverwachte uitkomst verdient nog even
een nadere beschouwing. Pearson vond de volgende
getallen, waar aan elk ± 1000 waarnemingen ten grondslag
liggen, voor den gemiddelden levensduur voor volwassenen:

alle de oudste de jongste
zusters 57.795 59.924 55.667

broeders 56-568 58.560 54.575.

\') Bij de moderne statistische onderzoekingen, die van actuari-
eele zijde op touw worden gezet, om tot een in hot bedrijf bruik-
bare sterftetafol to geraken, wordt veelal rekening gehouden
(behalve natuurlijk met de zuiver verzekerings-technischo factoren,
als daar zijn: tarief, verzekerd kapitaal, è. a.) ook inet enkelo
medische factoren, vooral lichaamslengte, en buik- en borstomvang.
Toch was het tot nu too geen gewoonte hier regressio onderzoe-
kingen te doen, wat toch wel zeer interessant kon zijn. Jliordoor
zou men ook eerst een juist inzicht kunnen krijgen, of het onder-
scheiden van klassen naar factoren zooals lichaamslengte, voldoende
gemotiveerd is. Erfelijkheidsonderzoekingen zijn, voor zoover mij
bekend, hierbij nog nooit gedaan, en zonder twijfel zou dit praktisch
tot veel werk en moeite aanleiding geven.

-ocr page 103-

Om dit nader na te gaan vormde P e a r s o n correlatie
tafels, waarin de variabelen waren: het aantal jaren
verschil in geboortedatum, en het verschil in levensduur
tusschen oudere en jongere broeder (of zuster). Het is niet
noodig deze tafel hier te herhalen, \') ik noem daarom
alle,en het resultaat, namelijk onderstaande regressie curve.

Fig. 5.

Door volgens het voorgaande de vergelijking der regres-
sie lijn te bepalen krijgt men volgende formule waarin

») Zio Biometrika, Cambridge. 1. 1901/2.

-ocr page 104-

e = het aantal jaren, dat een oudere broeder gemiddeld
langer zal leven, en
i = het aantal jaren geboorteverscliil,

e = 0.7282 i — 0.2795.

Dus bijvoorbeeld een broeder 10 jaar vóór zijn jongere
broeder geboren, zal meest waarschijnlijk een ongeveer
7 jaar langeren levensduur hebben dan deze.

Dergelijke resultaten, indien deze algemeen waar zullen
blijken te zijn, kunnen van groot praktisch belang worden,
als er meerdere betrouwbare onderzoekingen aanwezig
zijn. Wat bijvoorbeeld de actuarieele toepassing betreft,
zouden zulke separaat statistieken uit hetzelfde materiaal
voort moeten komen, als waarop men de gebruikte sterf-
tetafel baseerde. Aangenomen natuurlijk, dat men zijn
sterftetafel koos, omdat men verwachtte, dat juist deze
zoo nauw mogelijk bij den werkelijk bestaanden toestand
onder de verzekerden aansloot. Gesteld dat deze statis-
tieken in alle opzichten betrouwbaar waren gebleken, zou
de actuaris misschien alleen kunnen letten op die oorza-
ken, die gebleken waren den grootsten invloed op den waar-
schijnlijken levensduur te hebben. Heel streng theoretisch
moest men dan van alle klassen, die men onderscheiden
wrenschte, een afzonderlijke sterftetafel bezitten, wat dus
daarop neer kwam, dat men den een, een lijfrente bijvoor-
beeld, duurder verkocht als aan een ander. Dit is nu iets,
dat mèn echter uit de praktijk van het levensverzekering
bedrijf zoo ver mogelijk moet verbannen. Het enorme veld
voor misbruiken dat er geopend wordt, indien geen vaste
premies meer golden, zou niet te overzien zijn.

Zullen daarom dergelijke statistieken nut brengen, dan
is het niet in hun in alle finesses uitgewerkte gedaante,
maar voorloopig meer door hun globale uitkomsten. Men
zou dan kunnen beoordeelen, of een voorgesteld lijfrente-
risico niet al te ongunstig is, en het in het uiterste geval
weigeren. Hierdoor zou men een tegenwicht kunnen krijgen,
tegen de vooral bij lijfrentes zoo duidelijk uitgesproken
zelf-selectie. Ook zou men bij een ongunstig schijnend
risico, iets meer kunnen reserveeren dan de sterftetafel
aangeeft, waarop men de premie baseerde. Niets belet

-ocr page 105-

(theoretisch althans!) om voor de reserverekening de lijf-
renteniers in eenige „sterfteklassen" te verdeelen. Reeds
nu toch komt op de balans van enkele maatschappijen een
post „extra reserve voor te verwachten ondersterfte bij
lijfrenteniers" voor. In het voorgaande zou men een middel
kunnen vinden, het bedrag van dezen post te waardeeren.

Van een praktische toepassing is men evenwel nog een
heel eind verwijderd!

Tot zoover zijn er tegen het werk der Pearson\'sclie
school weinig grondige bezwaren aan te voeren. Met be-
langstelling kan men afwachten, wat deze school, met zijn
uitgebreide hulpmiddelen, in dit opzicht tot stand kan
brengen.

Dit geldt evenwel niet geheel en al, waar het betreft
de uitbreiding aan deze theorie door Pearson gegeven,
om te geraken tot G a 11 o n \'s „Law of Ancestral heredity",
die als tegenhanger moet dienen tegen de, den biologen
zoo wel bekende en veel onderzochte wetten van Mondei
omtrent de algemeenc erfelijkheid.

Om hiertoe te geraken was liet noodig in te voeren een
z.g. „Mid-parent", óén „gemiddelde" progenitor, die in de
plaats treedt van respectievelijk beide ouders, de vier
grootouders, enz. Tegen dit denkbeeld op zich zelf zou
nog geen bezwaar zijn, als er een duidelijke weg aange-
geven was, hoe deze progenitor te delinieoron.

Galton \') stelt voor allo vrouwen te vervangen door den
hun aequivalenten man, en redeneert aldus: de lichaams-
lengten (of welke andere eigenschap, die onderzocht wordt)
van vrouwen en mannen hebben gemiddeld een verhouding
van 13 tot 14. Vermenigvuldig nu alle lengten van vrou-
wen mot 14/13, en men krijgt den (in dit opzicht) aequiva-
lenten man. De „Mid-parent" is nu eenvoudig het gemid-
delde van de daarbij voorkomende mannon.

Pearson-) zegt: noem de „Mid-parent", die in do
plaats van de ouders treedt, do 1ste progenitor, die in de

-ocr page 106-

plaats der 4 grootouders, de 2de, enz. Laat nu (hs de afwij-
king voorstellen van het gemiddelde (van een of ander orgaan
of functie in de geheele sde generatie van mannelijke voor-
ouders), die de qde component der sr\'e progenitor vertoont,

en h\' hetzelfde van diens vrouwelijke gezellin. Nu zijn

\'i s

O_1 c_1

er 2 mannelijke en 2 vrouwelijke componenten in
de sde progenitor. Deze zal nu een afwijking Ha, ver-

toonen van het gemiddelde van het betreffende orgaan,
zooals dat voorkomt bij de geheele sde generatie:

H =-,

2*

wraarin m een constante is, die Pearson later kiest \')
„in order to get these result in a simple form", dat gelijk is
aan <rg / <r\'g, waarin de middelbare fout voor de mannelijke
en o-\' voor de vrouwelijke «Je generatie voorstelt. Een nor-
male verdeeling is dus weer op den voorgrond geschoven.

Deze x) „somewhat more general definition than Mr-
Galtons" 1) is, hoewel mathematisch plooibaarder, even
willekeurig als deze, en evenmin gegrondvest.

Nu wil ik evenwel direct opmerken, dat de manier, waarop
Pearson deze kwestie bekijkt, geheel verschillend is van
Gr a 11 o n. Deze laatste houdt zich streng aan de waarnemin-
gen en stelt steeds de verkregen metingen voorop, en toetst
deze dan achteraf, of hot nog consequenties van de nor-
male wet zijn gebleven.2) Ilij blijft dus staan bij zijn uit-
komsten en is veel te bedachtzaam, om te willen beweren,
algemeen geldende resultaten gevonden te hebben. Pear-
son doet net andersom, eerst de theoretische ontwikke-
lingen, dan zien of de praktijk er mee in overeenstemming
is; hierdoor stelt hij zich voor, algemeene waarheden aan
te geven, op de manier van natuurwetten.

De wet, waar het hier om gaat, is de regressiecurve, die
volgt uit de meerdimensionale Bravais\'sche wet (lij.
Kent men aan de veranderlijken
x3,...x een vaste waarde

-ocr page 107-

h2,... hn toe, dan ziet men, hoe de dan gekozen groot-
heden
z, wat de waarde der eenige overblijvende verander-
lijke cc, betreft, normaal verdeeld zijn rondom een gemid-
delde, dat van het totale gemiddelde een afwijking vertoont
volgens de noot op bladz. (80) gelijk aan:

r^-lr\'r1»-.......

n, j s2 ivj i Ö3

geheel analoog aan wat gevonden is op pag. (83) voor twee
onafhankelijk veranderlijken. Evenals daar (14) kan men hier
(15) duiden als een „voorspellings"resultaat; namelijk, 7ix is de
meest waarschijnlijke afwijking van het gemiddelde, die een
grootheid
z zal vertoonen, wat één zijner bepalende groot-
heden
x, betreft, wanneer de andere CC ^ ) • • • • de wil-
lekeurige waarden
h2}.....hn hebben.

Deze uitkomst kan nu ineens op horediteits kwesties
worden toegepast. Bijvoorbeeld, h., is de afwijking die
iemands eerste progenitor vertoont van het gemiddelde
der gehcclo generatie van
lste progenitoren; /t3 is hetzelfde
voor de 2dc progenitor, enz. Dan is 7
j, de afwijking, die
het individu zelf gemiddeld vertoont vanaf het gemiddelde
van zijn eigen generatie. En daar immer normale verdee-
ling vooropstaat, is het gemiddelde ook do plaats van
maximum frequentie en komt overeen met de meest
waarsch ij n 1 ij k e waarde.

Dit alles met betrekking tot één bepaald orgaan of func-
tie zooals lichaamslengte, levensduur, e. a.»

Maar niet alleen bij menschcn zal de herediteit door een
reeks als (15) bepaald worden, maar in liet algemeen
overal in de biologie.

Nu meent Pearson, dat in alle gevallen de coefficion-
ten in deze reeks precies dezelfde zullen zijn en onderstelt
do volgende herediteitswet:

= Y0 ^ »« r/?2 ^ ft. rP* ■.......(16)

wat een algemeen geval is van de onderstelling,die Gal-
ton, hoewel tastender wijze gevonden had, voor lichaams-
lengte :

-ocr page 108-

.......(ie)

Galton stelt evenwel een constante bevolking voorop.\')
Dit vereenvoudigt zeer veel, omdat dan ten eerste alle
grootheden gemeten worden vanaf één en hetzelfde gemid-
delde, en ten tweede zijn dan de middelbare fouten
s allen
aan elkaar gelijk. Niets belet, om deze beperkende bepa-
ling voorloopig niet in te voeren.

Nu moet men bedenken, dat de grootheden s de middel-
bare fouten zijn niet van een generatie van individuen
maar van progenitoren. Het is echter niet moeilijk om deze
s uit te drukken in de inderdaad waargenomen middelbare
fouten, die in de reeksen, met deze progenitoren overeen-
komende, mannelijke en vrouwelijke individuen voorkomen.

Door de definitie van middelbare fout is, als n het totale
aantal voorstelt, de middelbare fout, behoorende bij de
reeks van «de progenitoren, bepaald door:

u

waarin £ voorstelt de som over alle progenitoren. Maar
hiervan kan men maken,

2

waarin de som over alle individuen voorstelt. Hierbij
ia echter aangenomen, dat X\' ((1ig h\'^ = 0 en ook dat

( h Ji ) = ( li\' .h\') = 0. Al zal hier nu waarschijn-

s q s\' Kq s q\' &\' J

lijk geen groote onjuistheid mee begaan zijn, een meer
exacte rekening zou nog wel de laatste twee uitdrukkingen
mogen verwaarloozen, daar dit geheel op het voetspoor is
van alle redeneeringen, die de normale wet tot grondslag
hebben, maar dit geldt niet van de eerstgenoemde uit-
drukking.

-ocr page 109-

Noemt men nu tr.^ en o-\'^^ de gemiddelde middelbare

fouten der individuen in de sde generatie voorkomend en
voert men bovendien nog in ra=a-^1/ o,/g_|.1 dan volgt:

wat uitgewerkt geeft:

1

......(17)

waar dus alleen de gemiddelde middelbare fout der man-
nelijke individuen der «de generatie over blijft. \')

Iets dergelijks geldt voor de correlatie coefiicient van de
«de en nde progenitoren. Door de definitie is:

«Vj. 1 Vt-lr« l* l= "1 z • • • •

2*2n LI <

• • « (l>*\', 2h\'S \' •)] X [ IK A \' \' • mkh\'n 2h\'n • • O] •

Denk nu n > .s. Men zal kunnen volstaan met alleen te
letten op de correlatie, die iemand met afwijking h^ ver-
toont met zijn eigen («—s)de voorvaderen, en hiervan
heeft hij er -J-.2" \'s mannelijke en evenveel vrouwelijke.

Bij de uitwerking van liet product onder het somteeken
komen voor de producten:
li li , li h\' , li\' li,, h\' li\',, en elk

1 X 11 x 11 X 11 \' X II 1

van deze vier reeksen levert een stel correlatie coelïicienten

-ocr page 110-

van een individu uit de .?de generatie met diens voor-
vaderen in de
n\'\'e generatie; namelijk degenen met af-
wijking Jig geven 2n~s~1 correlatie coefficienten met hun
evenzoovele voorvaderen uit de nde generatie, evenzoo
doet 97is, enz. Men heeft dus 2 zulke stellen, die on-
derling alle gelijk zijn. Men krijgt dan iets van de gedaante :

* V|-l sn l Vj-1 . 1 = n I *« 1 % 12?"1 S\'

%-fi2\'"1 (rJ  12?~1

Nu kiest men weer ™==<r,_|_i/(rVt-i = (Vj_i l^n i» het"

geen al weder een onderstelling bevat, namelijk dat in (n—s)
generaties de onderlinge verhouding van man tot vrouw
niet veranderde. Hierdoor worden de coefficienten van alle
vier sommen gelijk en als men nu met in het ver-

volg bedoeld de gemiddelde waarde van alle correlatie
coefficienten van een individu der .s-de generatie met elk van
zijn voorvaderen in de n\'o generatie kan men schrijven:

Vu • • • (»8)

Komt men nu terug tot den-j-l dimensionale Bravais\'sche
wet, dan heeft men voor de oplossing daarvan noodig de
determinant R, die in (10a) voorkomt. Bovenstaande for-
mule (18) leert de daarin voorkomende correlatie coeffi-
cienten r, die op progenitoren betrekking hebben, te ver-
vangen door de inderdaad te berekenen correlatie coeffi-
cienten der daarin vervatte individuen zelf. Om nu echter
de Galton\'sche „Law of heredity" af te leiden uit do
13 r a v a i s\'sche wet is nog een onderstelling noodig, name-
lijk alle correlatie coefficienten van generaties die even
ver uit een liggen zijn gelijk, m. a. w.,

r i2

r2a

= rai =..

..zeg = ru

ris

= r24

= r86 = ..

i\'u

= 5

== ?,3 6 = • •

..zeg = 7*3, enz.

-ocr page 111-

Nu neemt genoemde determinant de gedaante aan,

1

»"l

»"a

rs..

.. r

r i

1

r2 • •

1

r i ..

t*

fl

1

r»

—1

1

Blijft men de onderdeterminanten der eerste rij noemen,
Rn, R
,2, Ris, enz., dan heeft men de identiteiten:

rt R,, B,2 r, R,. .....4-r||_1 R,„ = 0

r2 Rt, rt R,, R,, ..... r„_2 R, R = 0

(19)

rn Rn rn_x R, 2 R1B .... R, , = 0

9—1

Nu moetom de herediteitswet te krijgen R^/Ri i=—
zijn en men kan aantoonen dat deze waarden aan de be-
trekking (19) voldoen, mits ook van de gedaante is.
Substitueer slechts, dan volgt uit (19),

«r, =y(/?-b/?2«>H-/?W-f......)

«^=y(/?a)j4-/?2 /?3«/j -f-......)

«>j» =y(/?«rjM-/3*a>7-f /?» ......)

-----------enz.

Sommeer de reeksen aan de rechterzijde:

) . . . . (20)

enz.

Vermenigvuldig elke vergelijking met P en trek deze
dan van de volgende af:

«? {n — P) — vP*r<.
a}?2 (>j — P) — ar)2\'
-------enz.

R =

-ocr page 112-

Al deze leveren de betrekking r, — /? = y/?. Dit kan
men combineeren met de eerste der betrekkingen (20)
bijvoorbeeld, om y en /? in a en vj uit te kunnen drukken
en omgekeerd. Met behulp hiervan is het mogelijk de
theoretische uitkomsten praktisch te toetsen.

Nu is in \'t geheel nog niet bewezen, dat geen andere
oplossing te vinden is dan deze, om de herediteitswet met
de Bravais\'sche wet in overeenstemming te brengen.
Nu doet P e a r s o n evenwel steeds, alsof hij van deze wet
van Galton een mathematische afleiding had gegeven.\')
Aan het voorgaande is echter te zien hoeveel onderstel-
lingen in dit zoogenaamde „bewijs" opgesloten liggen.
Hoogstens kan men er een poging in zien om aan te too-
nen, dat de G a 11 o n\'sche wet niet regelrecht in strijd is
met de normale frequentiewet. Om op grond van deze
deductie te beweren, dat de herediteitswet een algemeen
biologische
moet zijn,lijkt mij een niet gemotiveerde uitspraak.

Maar dit sluit geenszins uit, dat deze wet, als een vol-
komen empirische opgevat, nog zeer wel voldoen kon.
P e a r s o n geeft in het tijdschrift Biometrika tal van
voorbeelden en onderzoekingen, die elk een enorm statistisch
onderzoek eischen en bereikt resultaten, die min of
meer bij de G a 11 o n\'sche wet aansluiten. Het zij aan de
biologen te beslissen, in hoeverre deze wet werkelijk
algemeen is. Is dit zoo, dan kan men met P e a r s o n
spreken van „one of the most brillant of Mr. Galtons
discoveries". Ik meen echter, dat dit nog twijfelachtig
is, omdat de door P e a r s o n gevonden waarden voor de
coefïicienten der herediteitswet, zich niet zoo heel duidelijk
rond één vaste reeks groepeeren.

Evenwel is het voorgaande een bewijs, hoe plooibaar de
theorie van frequentiecurven en oppervlakken is, in den
normalen vorm. K a p t e y n 2) heeft ook volkomen terecht
opgemerkt, dat een andere vorm van frequentiecurven,
die dergelijke herleidingen niet toelaat, hierin tegenover
de normale een groot nadeel bezit.

Ik heb gemeend tamelijk uitvoerig over deze herediteits-

-.-y-

\') K. Pearson, Biometrika, Cambridge. 8. 1911/12.

2) J. C. Kapteyn, Skew frcquencycurves. Groningen 1903 (1).

-ocr page 113-

wet te moeten spreken, daar zoo vaak deze wet aanvallen
heeft te doorstaan, die niet gemotiveerd zijn. Zoo zegt
o.a. Ziegleri): „Da die groszelterliche Anteile bei den
einzelnen Enkeln nicht gleichmäszig sind, so kan auch das
von G a 11 o n formulierte Vererbungsgesetz nicht richtig
sein. Es lautet so: Die Veranlagung eines Kindes setzt
sich in folgende Weise aus den Vererbungsanlagen seiner
Vorfahren zusammen, von den Eltern 50 procent, von den
Groszeltern 25 procent, u. s. w."

Nu in het midden gelaten de numerieke waarden, moet
de herediteitswet gelezen worden: gegeven de afwijking
van het gemiddelde van de ouders, de grootouders, enz.,
dan is het gemiddelde, waarom de nakomelingen zich
groepeeren, gelijk aan .V maal de afwijking der ouders plus
\\ maal de afwijking der grootouders, enz. In geen geval
is het mogelijk te spreken van één nakomeling, die 50 %
zijner ouders, 25 °/o zijner grootouders, enz., in zich ver-
eenigen zou.

Evenmin is er, zooals Castle-) meent, iets gezegd
omtrent het percentage van nakomelingen, die zijn „like
any given ancestor". Er is alleen gezegd, dat de afwijking
van het gemiddelde (het type, zou men kunnen zeggen)
zijner generatie voor een individu, gemiddeld genomen
voor zeer vele individuen, afhankelijk is van do respectieve
afwijkingen zijner voorvaderen, en een consequentie, dat nu
een bepaald percentage de eigenschap der ouders, en een
ander dat der grootouders vertoont, is hieruit nooit te halen.

Zooals gezegd kan do Galton \'sclio wet alleen een
empirische zijn; oin deze te toetsen aan de werkelijkheid
is het eenvoudigst, de meest directo consequenties na te
gaan. Pearson meent, dat do waarden voor do coclli-
cienten
yß" waarschijnlijk zullen zijn ({ l 2)\'\'.3) Rekent

-ocr page 114-

men hiermee, volgens voorgaande oplossing, de waarde
van Tp uit, die van de gedaante «yj^ ondersteld is, dan
vindt men deze reeks correlatie coefficienten van pro-
genitoren, onderstellend dat
a-Ja- = 1 is,

0.6_ _0.3_

1/2\' \' 1/2 \' \' "

welke men liever volgens formule (18) zal omzetten in de
gemiddelde individueele correlatie coefficienten van de met
deze progenitoren overeenkomende individuen , namelijk ,

0.3 , 0.15 , 0.075,....,

daar men deze reeks gemakkelijk aan een voorbeeld kan
toetsen.

Nu zijn er weinig voorbeelden toegankelijk, die meer
leveren dan een ertelijkheidsonderzoek van ouders op
kinderen. Alleen de coëfficiënt 0.3 is met voldoende zeker-
heid toetsbaar. Nu is er bij erfelijkheidsonderzoekingen wel
eenige tendens waar te nemen, dat de correlatie coefficienten
zich rond 0.3 groepeeren. Bij een onderzoek bijvoorbeeld
van Fawcett en Pearson\') omtrent cephale-index
en lichaamslengte bij indianenstammen, waar echter de
data niet al te veel vertrouwen verdienen, varieert de
onderzochte correlatie van ouders op kinderen tussclien
0.22 en 0.39, behalve éón enkele, die 0.49 is.

Vasthoudend aan de theorie, wordt dan de irregulariteit
van deze ééne uitkomst plausibel gemaakt. Nu daargelaten,
in hoeverre dit in genoemd geval gerechtvaardigd is, ligt
hier juist het groote gevaar in de toepassing van een niet
in alle opzichten gegronde en onaanvechtbare theorie.
Men is dan te zeer geneigd, om overal, waar theorie en
praktijk in overeenstemming zijn, de resultaten zonder
meer te aanvaarden, maar, waar dit niet het geval is, een
afwijking te vermoeden.

Nog tot allerlei andere consequenties voert deze theorie.
Maakt men eens de voor de hand liggende onderstelling,

\') Miss C. D. Fawcett and K. Pearson, London, Proc.
E. Soc. 62. 1897 (415). Andere voorbeelden vindt men in bet
tijdschrift Biometrika.

-ocr page 115-

dat, wanneer alle voorgeneraties een afwijking = H van
het gemiddelde hadden, dat dan ook de nakomelingschap
rondom dit gemiddelde verdeeld was. Wanneer men nu de
Galton\'sche wet sommeert, krijgt men:

H = y /? H / (1 — /?),
in de onderstelling alweer dat de verhoudingen <rl/<r^= 1 zijn.
Maar dit laatste levert als voorwaarde *) y/? = l—■ /?.

Nu maakt men een selectie gedurende n generaties, dat
wil zeggen, men kiest
n generaties lang alleen zulke proge-
nitoren uit, om te laten voortteelen, die een afwijking II van
het gemiddelde hebben. Tevens neemt men de wet in eindi-
gen vorm, onderstellende dat in de n lste en verdere gene-
raties de progenitoren, gemiddeld, een afwijking nul hebben,
hetgeen hun grooter wordend aantal rechtvaardigt, dus:

h0=r j/?II /3--\'H-f..../?"Hj,
of gesommeerd en do voorwaarde ingevoerd:

Uit deze laatste generatie kiest men 2 individuen met
zulk een afwijking, dat deze gemiddeld juist h0 is, dan is
de gemiddelde afwijking van de nakomelingen van deze
progenitor:

V = y|/?H(l- /?n) /?\'H ..../5,, 1H) =

= (l-/?")lI=A0.

Ilad men een progenitor gekozen met oen [afwijking
/<„-{- e, dan waren do nakomelingen normaal verdeeld
rondom hot gemiddelde

K" = h0 fie.

Maar men kon ook ouders met een afwijking /i„ — e
kiezen en vond op dezelfde manier,

________________________ho" = ho—0e.

\') Indion moii 0 = {1/2 houdt, gooft dozo voorwaarde
dus niet precies y = l.

-ocr page 116-

Gemiddeld over een geheele generatie krijgt men dus voor
de nakomelingen een afwijking 7i0 van het gemiddelde,
als men na een selectie gedurende n generaties de dan
verkregen generatie naar willekeur laat paren.

Wanneer men nu geen nieuwe species van buitenaf
invoert, heeft men dus door dit zoogenaamde „in breeding"
een ras verkregen, dat constant blijft in de generatie
volgend op die, waarin de selectie is opgehouden.

Het is alweer aan biologen te beslissen, wat hiervan
juist is. Hier en daar toch levert deze herediteitswet wel
eens met de praktijk overeenstemmende resultaten op en
zoo gaarne worden deze gevallen als steun voor deze wet
door de voorstanders aangevoerd. En dit des te meer,
daar over het algemeen de numerieke waarden, zooals die
voor de coefflcienten der wet zelf gevonden worden, on-
derling nog al wat uiteen loopen Hiervan is dus weinig
steun te verwachten. Maar zoo\'n enkel bijzonder geval
bewijst nog geenszins dat deze wet een zoo universeele
strekking heeft als Pearson wil doen gelooven.

In het algemeen kan men zeggen, dat nóch theorie, nóch
praktijk deze wet hebben kunnen bevestigen. Ik sluit mij
daarom grootendeels aan bij het oordeel van B a t e s o n, 1) die
hoewel niet direct behoorend tot de eigenlijke Pearso n-
sche school, daar toch heel dicht bij staat: „Of the so cal-
led investigations of heredity, persued by extensions of
Galton\'s non analytical jnethod and promoted by Professor
Pearson and the English Biometrical School, it is now
scarcely necessary to speak ... A preliminary acquain-
tance with the natural history of heredity and variation
was sufficient to throw doubt on the foundations of these
elaborate researches. To those who hereafter may study
this episode in the history of biological science, it will
appear inexplicable that work so unsound in construction
should have been respectfully received by the scienti-
fic world".

A1 is dit oordeel nu wellicht wat te streng uitgesproken,
toch meen ik ook, dat Pearson hier de draagkracht van

\') W. Bate son. Mendels principles of Heredity. Carnbridgo
1009 (6).

-ocr page 117-

de normale wet overschreden heeft. De normale wet is
geen natuurwet, en het gebruik ervan berust toch in de
eerste plaats op zuiver praktische gronden. In de allereerste
plaats is de normale wet empirisch, al is het dan waar,
dat men in de beschouwingen, die in elk leerboek de
normale wet voorafgaan, in hun verschillende gedaanten,
een logische verdediging dezer wet kan zien. Maar dit
zijn redeneeringen
a posteriori, en niet a priorl l)

Echter is de gewone normale wet duizendvoudig beproefd
en deugdelijk bevonden. Niet zoo de meerdimensionale
B r a v a i s\'sche wet, althans waar er meer dan twee
onafhankelijk veranderlijken worden aangenomen. Dit
maakt de geheele hier besproken erfelijkheidstheorie
aanvechtbaar, tot in zijn grondvesten.

£ Moet deze herediteitswet als een onvruchtbaar werk
gequalificeerd worden, niet zoo de ontwikkeling der
P e a r s o n\'sche school, waar het onderzoek naar de corre-
latie en regressie van eenige veranderlijken plaats vindt.

Dit onderzoek baseerde geheel op de normale B r a v a i s\'-
sche wet. Maar de biologische, evenals de economische,
statistiek levert een groote menigte asymmetrische frequen-
tieverdeelingcn en hier zijn de gevolgtrekkingen der
normale wet niet meer van toepassing. Nu doet zich
evenwel het verschijnsel voor, dat ook bij merkbaar
asymmetrisch materiaal, toch do regressie nog vaak door een
rechte met zeer groote benadering kan worden voorgesteld.

Beschouwt men bijvoorbeeld een geval als lig. (0), waai-
de kruisjes de gemiddelden voorstellen van de verschil-
lende
x groepen en dus de regressiecurvo een S-vorm
heeft. Neemt men nu de lijn RR als rogressiocurve, dan
begint deze als „voorspellingscurve" een iets minder exact
resultaat op to leveren. Maar nog immer geeft deze ant-
woord o)) de vraag: komt met een groote (of kleine) waarde
van het
x kenmerk, een groote of kleine waarde van liet

\') Verge] ijk hieromtrent: 0. F. Hardy, The theory of the
construction of tables of Mortality. London 1909.
Noot 2) op biz. 60 hoofdstuk III.

-ocr page 118-

y kenmerk overeen. Dit is toch een allereerste enfunda-
menteele vraag in elk statistisch onderzoek.

Men dankt aan G-. U. Y u 1 e 1) een nader onderzoek
hieromtrent. Stel n is het aantal waarnemingen in een
x groep en d de horizontale afstand van het gemiddelde
dezer groep tot aan de lijn RR. Nu kan men ter opsporing
dezer lijn RR den eisch stellen, dat de som van alle
nd2
een minimum is, dat is dus de methode der kleinste qua-

oi %

draten toegepast. Deze gebruikte men nu niet om don
meest waarschijnlijken stand van RR te vinden, hiervan is
toch geen sprake, daar juist een niet lineaire regressie
ondersteld werd. Dit is alleen ter wille van een een-
voudige analyse.

Zij nu X = a iY de vergelijking van RR, en noemt
men nog <r de middelbare fout van een groep rondom zijn
eigen gemiddelde, dan moet voor elke groep, als
x en y do
coördinaten van een waarneming zijn:

S \\x — (a by)\\2 = 2 |x-(a 6Y)j2 = 2 (x - X)2 =
= n<r2 nd2.

Sommeer dit over het geheele frequentieoppervlak:

\') Gr. U. Y u 1 e, London, Proc. R. Soc. ÜO. 1895.

-ocr page 119-

X 0nd2) =. S \\x — {a -f by)\\2 — Zn<r*,

en daar £ncr2 een constante is, komt het minimum maken
van 2 neer op het minimum maken van de uitdrukking,

2 !*-(« W ....... (21)

Voor meer veranderlijken, als de regressielijn vervaugen,
wordt door de lineaire uitdrukking,

X! = &12X2 &13X3 -f &14X4 ...,

krijgt men analoog als voorwaarde:

2J£Cl-(&12®2 &13®3 ...)j2 . . . (21a)

moet een minimum zijn, waarin ook weer 2 de som over
alle waarnemingen beduidt.

Voor twee onafhankelijk veranderlijken moet men de
twee regressielijnen bepalen:

x = al -f

y~ai-\\- >

waarvan de eerste nu volgens (21) de normaalvergelijkin-
gen levert:

2(®) = Na1

waarin N het totale waargenomen aantal is. Maar nu zijn
x en y gerekend vanaf het totale gemiddelde, dus £x en
zijn nul. Deze vergelijkingen leveren dus,

n i ^ (xy)
a,
=0 en b, = ;--:\'/.

Voert men nu in: X(x2) = No-,2, Z(y3) = Nor2- en
i: (xy) — Nr o-,
ar.,, dan neemt de regressie formule de ge-
daante aan,

x = ~ li en ook u — r — x\\

<r2

d. i. precies dezelfde, alsof de onderstelling van de normaio
B r a v a i s\'sclie wet ten grondslag had gelegen.
Ilier blijkt ineens het enorme voordeel van de regressie

-ocr page 120-

boven correlatie. *) Zonder dat men zich veel bekom-
mert om normale of niet zuiver normale verdeeling, is
de weg om de regressie te berekenen steeds dezelfde,
terwijl men bovendien aan de regressie direct een waar-
schijnlijkheid-theoretische beteekenis kan hechten, die
onmiddellijk tot practische bruikbaarheid voert, dat name-
lijk de regressie „voorspellingen" levert, wat men aan de
correlatie niet kan doen. 2)
Nog volgt ook:

ö1y)2 = No-12(l— r2).
£ (x — b2y)- =
No-2 2 (1— r2).
Nu is bij normale correlatie o-1/(1— r°-) een waarde voor
de middelbare fout van een groep X . Hier kan men deze

uitdrukking interpreteeren als de gemiddelde middelbare
fout van de afwijking dezer groepen van de eigenlijke
regressiecurve. M.a. w., o-, 1/(1—r2) kan beschouwd worden
als de middelbare fout, die gemaakt wordt, door
x te
voorspellen uit de betrekking
x = b{y.
Hetzelfde geldt voor o-2 1/(1 — r-).
Het is niet moeilijk dit resultaat, dat Y u 1 e voor 2 en 3
onafhankelijk veranderlijken aantoonde, algemeen voor
n
onafhankelijk veranderlijken te bereiken.
De voorwaarde, dat (21a) een minimum moet zijn, levert

de normaal vergelijkingen:
- »

\') Correlatie en regressie zijn dezelfde, als men x en y meet
in hun respectieve middelbare fouten; dan evenzoo schrijvend,

Gr) of i, y\',

volgt nu a, — o en b{=r, en luidt do regressie x\' = ry\', waarin
de regressie coëfficiënt dus tevens correlatie coëfficiënt is.

2) Wel kan men langs indirecten weg een en ander omtrent do
beteekenis van do correlatio coëfficiënt gewaar worden (zie J. C.
Kapteyn, London, Mon. Not. R. Astr. Soc. 1912 en do noot op
blz. 88.) Ik zou liever de correlatio coëfficiënt enkel en alleen als
rekengrootheid willen opvatten, en deze definieeren als:

r = £ (xy): cr. cr , en hieraan verder geen praktische beteekenis

x y

willen hechten. Een juiste maat omtrent do verwantschap van
twee veranderlijken geeft do regressie.

-ocr page 121-

X (a?1aj2) = ftI 2 S(®i)-h3 -(®a®a) &i4 s0»4»2) • • •
£ (ajj®g) = 6,2 2(#2<b8) -f ft, 3 2(®|) -f 4 2(
oj4£c3) ...

X (a?!^) = & j 2  &i 3 2(rsa?n) <  • • •

Noem nu weer:
r(aJ)a=No-f, 2(a:,)?=N<r2,...enz.
2(a?,a?2) = Nr,so-,<r2, 2(a?2®3) = Nr28o-8o-,. enz.

dan volgt, door deze waarden in de normaalvergelijkingen
te substitueeren,

r12<r, =bl2(r2-\\-biarti<r3 614r24o-4 -f...

rt 3°"l = i>l  3°"3 4^*3 4 • • •

rin*i = 61, .raf|fl-8 4^4

4 n

&n =

Lost men hieruit 6,,^, &j 3o-3,... enz. op dan volgt 011
middellijk ,

r 12

r2a

r,4 ...

1

J*2 8

>\'2 4 •

r 13

1

r3 4 •••

},2 8

1

»\'3 4 •

»•14

**3 4

1 ...

J*2 4

1*3 4

1 .

r

r

r

r

r

r

in

8 n

in

2 n

s n

4 n

X

of, als men deze determinanten vergelijkt met die in (10a)
en do oyercenkomstige benamingen voor de onderdoter-
minanten invoert:

». _ °"t Ria

\'i 2

RTi\'

Men bereikt dus, door allo coefficienten b op to lossen,
de regressieformule:

Ru»,®1 R.,0-8 8 R,>4 4 .....

geheel analoog aan (15), die op do B r a v a i s \'sche wet
baseerde. <

Uit deze ontwikkeling volgt, dat de B r a v a i s \'sche
regressieformules van een tamelijk algemeeno toepassing
zijn.

-ocr page 122-

Maar men moet bij asymmetrisch materiaal toch steeds
het gemiddelde van alle groepen berekenen om te kunnen
beoordeelen, of de werkelijke data niet al te ver van een
lineaire curve afliggen. Daar nu zoo\'n reeks gemiddelden in
de praktijk nog al eens onregelmatig uitvalt, is dit nog
niet eens altijd eenvoudig te zien (zie fig. 5).

Bovendien als men zoo zuiver mogelijke „voorspellingen"
vraagt, kan een lineaire regressie formule op vele punten
belangrijk afwijkende resultaten opleveren.

Toch is het aanvatten van deze problemen bij de regres-
sie m. i., een aan te bevelen methode, daar men zich ge-
heel onafhankelijk kan maken van de frequentie verdeeling,
die er in het materiaal aanwezig is. In plaats van een
rechte aan te passen bij de gemiddelden van alle groepen
zooals Y u 1 e deed, kan men veel algemeener een of andere
parabool aanpassen. Pearson, gaf een heel ingewik-
kelde redeneering om deze regressie parabolen te vinden.
Ik geloof, dat men het zich hier niet te moeilijk moet
maken en kan volstaan het probleem aldus op te vatten:
gegeven een aantal punten, de gemiddelden der groepen,
hierbij een of andere eenvoudige curve zoo nauw mogelijk
aansluitend, te vinden. Daartoe kan men zich op het stand-
punt der kleinste quadraten stellen, maar ook, wat vooral
bij hoogere parabolen veel eenvoudiger uitvalt, op dat der
momenten methode. Men heeft hier dus weer een probleem
van „cürve fitting", een afrondingsprobleem, waar nu de
regressie data als de primaire gegevens beschouwd worden.

Nu is tegen de methode der momenten zooals deze hier
toegepast wordt, één bezwaar te ontwikkelen, namelijk
dat aan alle data evenveel gewicht wordt toegekend,
onverschillig uit hoeveel waarnemingen elk gemiddelde
ontstaan is. Men zou dus geneigd zijn aan een methode de
voorkeur te geven, die hiermee wel rekening houdt, zoo-
als die van Pearson bijvoorbeeld. Nu is dit bezwaar
echter niet al te zwaar op te vatten. Wanneer de grens
groepen weinig waarnemingen bevatten is het daarmee

verkregen resultaat toch zoo weinig vertrouwbaar, dat

--e

\') Drapers Comp. Research Menioirs. Biometric Series II.
London 1905.

-ocr page 123-

men beter doet deze voor de berekening der „voorspel-
lings" curve geheel weg te laten. \') Dit komt hierop neer
dat men de begrenzende groepen een gewicht nul toekent,
en de centrale groepen een gewicht gelijk aan één. Is
ook deze methode nog te ruw, dan kan men ook aan elk
waargenomen gemiddelde een gewicht toekennen, bijvoor-
beeld evenredig met het aantal waarnemingen waaruit
dit ontstaan is. Dan kan evenwel de momenten methode
geen dienst meer doen, maar moest men die der kleinste
quadraten gebruiken.

Waar nu vaak, zooals ook uit onderstaand staatje blijkt,

Aantal
waar-
nemingen

Gemiddelde
waargen.

Gemiddelde
berekend

(Pearson)

Gemiddolde
berekend

(momenten)

Verschil
(l\'earson)

Verschil
(momenten)

20

5.300

4.458

5.384

0.8 2

— 0.084

150

5-833

5.724

6.350

0.109

-0.517

100

7.790

6842

7.212

0.918

0.578

80

8.050

7 813

7.971

0.237

f 0.079

150

9.473

8.638

8.626

0.835

0.847

140

8.43G

9.315

9.281

- 0.879

— 0.845

230

8.596

9.846

9.730

— 1.250

— 1.134

120

10.267

10.229

9.971

0.038

0.296

180

10 761

10.466

10.212

0.295

0.549

150

11.027

10.555

10453

-1- 0.472

0.574

150

10.953

10.498

10.384

0.455

0.569

140

9.100

10.293

10.315

—1.193

— 1.215

120

9.000

9.942

10.142

— 0.942

- 1.142

220

10.036

9.443

9 866

0.593

0.170

GO

10.317

9.798

9.486

0.519

0.831

Totaal

134.939

1.079

-0.444

het aantal waarnemingen, waaruit elke datum ontstaan is,
niet zoo heel veel uiteenloopt, vooral wat do centrale
groepen betreft, kan men veilig volstaan met aan do be-

\') Weglaten van waarnemingen uit een statistische reeks is
in het algemeen nooit aan to bovelen. Maar hier is bedoeld, dat
men het gebied waarbinnen men do „voorspellings" curve gebrui-
ken zal, nauwer maakt, wat geheel gerechtvaardigd is.

-ocr page 124-

rekende data volgens de momenten methode een parabool
aan te passen.

Geheel willekeurig kies ik een duidelijk asymmetri-
sche correlatietafel 1), die het verband aangeeft tusschen
celgrootte en lichaamslengte bij Daphnia magna, beide
grootheden in een willekeurige, daartoe geschikte maat
gemeten. De vijftien groepen van lichaamslengten, die te
onderscheiden waren, gaven de reeks gemiddelden in de
tweede kolom. Aan deze data wenscht men aan te passen
de parabool,

y = e0 -f e.x e2x"- ....

Noem het geheele dispersiegebied 21 en neem den oor-
sprong juist in het midden. De momenten rondom deze
Y-as als momentas zijn
ml , m2, ma,... terwijl m0 het
oppervlak der frequentiefiguur is en dus gelijk is aan de
totale frequentie. Door te schrijven
m0 = 2ly0 is de para-
bool in de gedaante te brengen:

y=y0 [e0 (?)ei (r) «« •••]•

Deze uitdrukking moet vermenigvuldigd worden met

(oc \\

j J en dan geintegreerd tusschen de grenzen £c = ±Z,
hetgeen oplevert:

• Til

_7 i_£o__|__«2__, (

j2r 12r 1 2r -f- 3

of als men met vermenigvuldigt en integreert:

1 (2r-|-3 2r-f-5 1 "T

Schrijft men nu A^ — mj(mt)f), terwijl men daarbij A0=l
neemt, dan krijgt men achtereenvolgens:

1 

\') Voorkomende in een artikel van E. Warron, Biometrika,
Cambridge. 2. 1902/3 (255).

-ocr page 125-

=e0 3 e2 1^4 •■•

^2=J3-e0 ie2-f |e4-f...

=i«i  |e5 -f ...

waaruit de coefficienten e eenvoudig oplosbaar zijn.

Ter toepassing in dit geval neem ik e3 en alle verdere
coefficienten
e gelijk nul. Ik beschouw de momenten als
geconcentreerd\' langs de centrale ordinaten in het vak en
neem dus de zoogenaamde ruwe momenten. Er is zeer
duidelijk geen aanleiding voor de S h e p p a r d\'sche cor-
recties. Dit levert:

m1 = 82.3729, m2 = 2311.8899, m0 = 134.9389.
Hieruit volgt als vergelijking der bedoelde parabool:

xi = 0.0667 ( 149.4868 4-3932 - 43.6436 ).

J v 7 5 56.25 /

Deze methode is, vooral met behulp van een reken-
machine, zeer eenvoudig en snel. Ter vergelijking met de
uitkomsten van de hierboven genoemde Pearson\'sche
theorie, stel ik de beide resultaten naast elkaar. Uit het
verloop, speciaal van de verschillen, ziet men, dat beide
parabolen geheel vergelijkbaar zijn en op precies dezelfde
manier bij de gegevens aansluiten.

Er is hier geen aanleiding een uiterst ingewikkelde
theorie uit te werken, om do parameters van deze parabool
te bepalen.

Is de regressie lineair, dan is ook deze methode niet
alleen bruikbaar, maar zelfs zeer veel eenvoudiger dan de
methode, die uit do normale wet volgt en die een bepaling
van de correlatie coëfficiënt en van twee middelbare fou-
ten eischt. Echter heeft deze laatste methode voor, dat
wanneer een materiaal inderdaad normaal is, men dan
ook de „beste" waarde voor de regressie krijgt, waarvan
men, door dit probleem als zuiver „curve fitting" te bo-
schouwen, niet kan spreken.

Hier komt duidelijk aan het licht, dat het zeerwensche-

8

-ocr page 126-

lijk is, dat de theorie van asymmetrische frequentiecurven,
een analoge uitbreiding toelaat als de normale curve, op-
dat men ook bij asymmetrische frequentieverdeelingen
van een _beste" waarde der regressie zou kunnen spreken.

Zoolang evenwel zulk een theorie nog niet uitgewerkt
is, kan men voor de meeste praktische doeleinden met
beschouwingen als de voorgaande volstaan.

-ocr page 127-

HOOFDSTUK V.

Eenige niet normale frequentiecurven.

De eerste, die door het gebruik behoefte gevoelde aan
een meer algemeene frequentiewet dan de normale was,
was Galton in 1879, in verbinding met Mc. A1 i s t e r.1)

Zij onderstelden, dat niet het rekenkundig gemiddelde,
maar het geometrisch gemiddelde de meest waarschijnlijke
waarde oplevert, wanneer er omtrent een grootheid vele
bepalingen bestaan, die berusten op zintuigelijke waarne-
ming. Galton dacht hier blijkbaar vooral aan proeven
omtrent zoogenaamd „tint guessing". Wanneer twee ana-
loge personen een zekere kleur grijs moeten beoordeelen,
en de een meent 4, de ander 1G deelen wit in deze kleur
te zien, dan is de meest waarschijnlijke waarde 8 deelen,
omdat, wanneer men over een zwarten ondergrond achter-
eenvolgens 1, 2, 4, 1G, 32 deelen wit over hetzelfde opper-
vlak uitspreidt, deze tinten op ons oog den indruk maken
met gelijke intervallen te verschillen, zooals een bekende
physiologische proef leert.

Hun wet is dus weer allereerst een foutenwet, ovenals
de normale was, en op dezelfde manier als deze werd uit-
gebreid voor biologische frequenticvcrdeelingen, meenen
z\\j dit ook met hun wet te kunnen doen.

Men krijgt nu een wet, waar hot voorkomen van waar-
nemingen, die bijvoorbeeld jftg en gedeelte van de
„ware", (de maximum) waarde zijn, even groote waar-
schijnlijkheid heeft.

Door op te merken, dat nu van de logarithmen der fre-
quenties het arithmetisch gemiddelde de meest waarschijn-
lijke waaide is, en deze dus een normale wet volgen, kan
men zonder meer hun frequentiewet afleiden, die men het
eenvoudigst in de gedaante brengt:

\') London, Proc. E. Soc. 1879 (305 e. v.).

-ocr page 128-

-u^y

y = ^ e

j x

Deze curve is inderdaad asymmetrisch.
Om deze curve aan de data aan te passen, is de fraaiste
rekening, die met behulp der momenten methode.

Noemt men namelijk de totale frequentie N, dan ver-
krijgt men allereerst:

00 00 __W )o?-V

s"> dx,

O O

daar het dispersiegebied van O tot oo loopt. Voert men

cc

nu in de substitutie log - = y, dan krijgt men:

ct

-f co

2c2

f 2c-

N=ly0e dy = y0cl/2r,

— oo

hetgeen men lezen kan: yn = N / (c V2r). Vervolgens heeft
men analoog:

O -00

1 TIC

of, als men stelt: t = -p^ V — j/g\' \'

-f oo

Xfi\'.-lto***1**\'* c\\S2 jS-^dt,

— oo

of, wanneer men de waarde van deze integraal, benevens
de zoo juist gevondene voor
ya hierin invult:

/

, n 4 w2c2
fi\' = a e-
n

Nu voert men, zooals gebruikelijk is, de momenten

1 ) Zie: K Pearson, Biometrika, Cambridge.4.1905/0(194).

-ocr page 129-

rondom de centroïd in, volgens de formules (17) van
hoofdstuk I met die rondom een andere willekeurige

c2

as verbonden, en noemt ter afkorting e — A, dan is:
— Pi\' = /»2 = «2 A (A — 1),
ft*3 — 3fi\'2 fi\\ 2fi\\3 = ^3 = «8 ^ (V — 3A2 -f 2A),
waaruit men vervolgens vindt:

£4 = (A-l)(A 2)2,

r"t

een vergelijking, die toelaat A, en dus ook c, numeriek te
bepalen. \') Met behulp hiervan vindt men uit de eerste
momenten vergelijking
a en daarna ook i/0.

De analyse van deze curve bevat dus geen enkele moei-
lijkheid en niets stond do toepassing hiervan in den weg,
indien deze slechts algemeen genoeg was.

Nu kan men ten eerste bezwaar hebben tegen de grond-
stelling van het geometrisch gemiddelde, en met recht.
Maar daarmee is de curve nog geenszins veroordeeld voor
het praktische gebruik, daar deze als een zuiver empirische
nog zeer wel voldoen kon. Evenwel heeft deze curve
in de praktijk lang niet genoeg aanpassingsvermogen ver-
toond en is het gebruik daardoor nooit van eenige beteekenis
kunnen worden. De gedaante is steeds van ongeveer
normalen vorm, met aan den linkerkant een wat steiler
en rechts wat vlakker verloop, met als uiterste grens de
vorm der normale curve.

Nu men zooveel betere curven kent is het belang van
deze alleen historisch.

-ocr page 130-

Een tweede methode om de statistische data analytisch
te beschrijven is van F e c h n e r afkomstig. 1)

F e c h n e r stelde namelijk voor twee halve normale
curven te gebruiken, door aan de beide reeksen frequenties
aan weerszijden van de maximum waarde, twee verschil-
lende normale curven aan te passen en aldus een asym-
metrie in de data in rekening te brengen.
Hij stelde dus:

^ e voora:>0,

n, —i x2 : <r2 2
y
e voor « < 0,

en daar deze curven voor x = 0 zonder uiterlijken sprong
in elkaar over moeten gaan, en dus elk voor
x = 0 dezelfde
maximum ordinaat moet opleveren, moet men hier als
conditie bijvoegen:

?l = ?jL
fti n2\'

en zal bovendien de totale frequentie N gelijk zijn aan
i ?i2)- Nu zijn op het punt waar beide helften aaneen
sluiten zelfs de raaklijnen continu, niet meer echter de
kromtestralen, deze vertoonen hier een sprong, omdat het
tweede differentiaal^ quotiënt dit vertoont.

Om deze curven aan te passen is verreweg de meest
aanbevelenswaardige methode die der momenten, zooals
Pearson, 2) terecht opmerkte. De andere daartoe ont-
wikkelde methoden hebben het nadeel, dat men bij schatting
de plaats van maximum frequentie bepalen moet. Zulk
een keus is bij een gegeven reeks niet zoo heel gemak-
kelijk, vooral als de data wat onregelmatig verloopen.
In elk geval brengt men hier een willekeurig element in
de rekening, hetgeen men beter doet te vermijden, zooals
volgende P e a r s o n\'scho methode doet.

\') G. -Th. Fechner, Kollectivmaszlehre (tlerausg. v. G. F.
L i p p s) Leipzig 1897.

Biometrika, Cambridgo. 4. 1905/G (196).

-ocr page 131-

Wanneer men de momenten rondom de maximum-ordi-
naat (i\' noemt, krijgt men, door de eerste moment-integraal
tusschen de grenzen 0 tot
co, de tweede van — co tot 0
te integreeren:

Ni«\', = ƒ ocyldx ƒ xy2dx = (o-, ^— cr2)

en dus, wanneer men ter bekorting o-, —<r2 = u noemt en
evenzoo
<tx<t2 — v, heeft men

en analoog,

Nu zal men weer de momenten rondom het gemiddelde
berekend hebben, en met behulp van dezelfde formules
als hiervoor vindt men:

2

fi\'s — fi\'\\ =fi, = U" v — — u2 ,

li* 3 - 3ii\\ii\\ =3=M (v - 4 m2) yl •

Deze momenten zijn zonder eenige willekeur bekend,
want men vindt het gemiddelde op precies dezelfde manier
als immer, en terwijl men de momenten eerst rondom
een willekeurig gekozen, maar geschikte as, berekende,
herleidt men die op do gewone manier tot de momenten
rondom do centróïd.

Men moet uit deze laatste vergelijkingen dus nog slechts
u en v zien op to lossen, waaruit dan do andere bo-
noodigde parameters volgen.

Men kan onmiddellijk v elimineeren en vindt:

tt3 (2-4) ^y/l.u-fi 3=0,

van welke derdemachtsvergelijking de discriminant weer
steeds positief is, en dus de eenige reiiele wortel een waarde
voor
u oplevert. Deze kennende, kan men v bepalen uit de

-ocr page 132-

vergelijking voor /x2 bijvoorbeeld en dus trl eno-2 oplossen.

Vervolgens kan men ni en n2 oplossen, daar hun halve
som, als de totale frequentie, bekend is en tevens uit
<r1Jn1 —<r2/n2, hetgeen oplevert:

_ 2N<r, _ 2Nq-2

Jl I --, , IXQ --I •

O-J 0*2 <r,4- 0*2

Bovendien is nu ook bekend de afstand van de maximum-
ordinaat tot de centroïd, want, daar de momenten fi\'n
rondom de maximum-ordinaat gedacht waren, is deze
afstand gegeven door en y.\'x — u \\/2/r.

En hiermee is de oplossing compleet.

Van deze F e c h n e r \'sche methode is een tijdlang een
tamelijk druk gebruik gemaakt. H. de Vries o.a. heeft
deze in de botani\'e ingevoerd, maar onder den naam
halve-Galton-curven. \')

Wat nu de bruikbaarheid dezer methode betreft, in elk
geval kunnen deze twee helften, samen genomen, nooit
eenig inzicht geven in het wezen der verschijnselen. Want
de redeneeringen, waardoor men de normale wet plausibel
maakt, gaan hier geen van alle meer door. Men kan dan
toch moeilijk aannemen, dat in beide helften van het dis-
persiegebied verschillende oorzaken zouden werken, die
de frequentieverdeeling bepaalden.

Toch beschrijft deze methode een geheele reeks van
frequentieverdeelingefl, veel nauwkeuriger, dan de nor-
male wet zelf zou doen. Als empirische methode was deze
dus evenmin direct te verwerpen, indien niet alreeds ge-
bleken was, dat er te veel gevallen overschieten, waarin
ook deze methode faalt. Bovendien is dit aan elkaar zetten
van twee curven, een zeer weinig fraaie methode en komt
men in onoverkomenlijke moeilijkheden, als men op grond
hiervan correlatie en regressie wilde bestudeeren, op de
manier, als men bij de normale wet zelf deed.

\') üf G «i 11 o n, dan wel Fechner do prioriteit in deze
toekomt, heb ik hier niet uitgemaakt, maar noemde deze aan
Fechner\'s naam verbonden, daar in alle geval Fechner
hiervan do meest gedetailleerde bespreking publiceerde; zio
G. Th. F e c h n e r, l.c.

-ocr page 133-

Mag derhalve Fechne r\'s werk een stap verder in de
goede richting zijn, vergeleken met Mc. A 1 i s t e r, nog
geenszins kan men met dit resultaat tevreden zijn.

Een geheel andere weg is ingeslagen door F. Y. E d g e-
worth, \') die zich hierin vóór alles ten taak stelde een
frequentiewet te vinden, die op theoretische redeneeringen
steunde op dezelfde manier als de normale wet. Door
dezelfde grondslagen als waarop deze berust meer alge-
meen te vatten, bereikt hij, na een zeer mooie analyse, langs
verschillende wegen, waarbij aan de analyses van L a-
place en C r o f t o n om tot de normale wet te geraken
een logische uitbreiding wordt gegeven, als frequentiewet,
in symbolischen vorm geschreven:

. e J

waarmee men bedoelt, dat de ontwikkeling van don expo-
nentieelen vorm, en uitvoering van het symbool D =
d/dx
op do rechtsche uitdrukking, die niet anders is als do
normaio wet, de gevraagde frequentiewet oplevert en wel
met dien verstande, dat do achtereenvolgende coefficien-
ten van w de successieve benaderingen hiervan zijn. In.
uitgeschreven vorm luidt derhalve de bedoelde frequentie-
wet, als men bij de termen van de derde orde blijft staan:

In den grond van do zaak heeft men hier dus een onein-
dig voortloopende frequentie functie. Echter schijnt E d g e-
wortli van meening te zijn, dat men met termen tot en
met do derde orde volstaan kan. Hierbij moet men natuur-
lijk aannemen, dat de cocfficienten
k een afdalende reeks
vormen, dio de convergentie van deze oneindige frequentie
functie bepaalt.

Deze onderzoekingen van Edgeworth hebben in de
allereerste plaats theoretische beteckenis.

\') Cambridge, Trans. 1\'hil. Soc. 20. 1905.

-ocr page 134-

De basis van alles vormt weer de normale wet, en aan
zulk een methode ligt het idee ten grondslag, dat de nor-
male wet de „ideale" is, maar dat men hieraan ter wille
van de praktijk eenige „correcties" moet toevoegen, zooals
blijkt uit den vorm, waarin deze frequentiewet, in uitge-
schreven gedaante, gegeven wordt.

Daar nu Edgeworth als basis dezelfde grondslagen
neemt, als waarop men de normale wet steeds baseerde,
blijkt hieruit, dat men aan zulke afleidingen niet het
karakter van een „bewijs\'-\' toe moet kennen. Crofton\'s
vooropgezette doel was de normale wet, E d g e w o r t h\'s
doel een „gecorrigeerde" normale wet, en beiden bereiken
dit door van de elasticiteit der zelfde grondbeginselen
gebruik te maken. Wel beschouwd staat de uitkomst
voorop en maakt men zijn beginselen zoodanig pasklaar,
dat deze bereikt wordt. Maar dan geeft men geen „bewijs"
van zijn uitkomst, in den zin van een mathematisch bewijs,
zoolang de grondslagen niet vast omlijnd blijken.

Men staat dus voor de mogelijkheid, dat uit dezelfde
grondslagen nog eens een andere frequentiewet bereikt
wordt. En bovendien heeft men niet de minste zekerheid,
dat de gegeven weg de eenige is, om de onderhavige wet
te grondvesten en heeft men geen enkelen waarborg, dat
niet geheel andere grondslagen tot eenzelfde wet zouden
kunnen voeren.

Men denke dus ïtooit, dat men door verificatie van zijn
uitkomst met de praktijk, ook een verificatie van zijn
grondbeginselen bereikt. Dit is nooit de weg om het inner-
lijk wezen van het tot stand komen van een frequentie-
verdeeling te doorgronden.

Wat de praktische toepassing van Edgeworth\'s
„Generaïised Late of error" betreft, zijn eenige voorbeelden
doorhem zelf gegeven. Inderdaad kan deze frequentiewet
allerlei gewenschte gedaanten aannemen; evenwel is do
aansluiting aan de data niet beter dan bijvoorbeeld met
de P e a r s o n\'sche curven bereikt kan worden. Bovendien
is het aan een toepassing verbonden rekenwerk omslachtig.
Als praktisch bruikbare frequentiewet heeft deze zich dus
nooit kunnen handhaven.

Ij London, J. II. Stat. Soc. 09. 190Ü.

-ocr page 135-

Echter is er nog een ander punt van belang. Men kan
geheel dezelfde algemeene frequentiewet opstellen voor
meerdimensionale afhankelijkheid 1), analoog als do Bra-
v a i s\'sche wet een uitbreiding is van de normale. Als
Edgeworth hiervan de termen tot en met de tweede
orde opschrijft, blijkt de regressie curve een algebraïsche
vorm van den tweeden graad te zullen zijn. Over den
aard der coëfficiënten hiervan kan niets algemeens gezegd
worden, evenmin als uit de theorie een handige aanpas-
singsmethode volgt. Dit resultaat is dus alleen weer van
theoretisch belang.

Nu is in hoofdstuk IV opgemerkt, dat men bij duidelijk
niet-lineaire regressie veelal met vrucht een parabool van
hoogere orde, zelfs van de tweede orde, kon toepassen.
Wanneer evenwel deze in de toekomst onvoldoende mocht
blijken, zou men hier een aanduiding bezitten, in zulk
een geval een andere curve in te voeren. Voor de aan-
passing aan de data zou men dan weer een methode, als
bijvoorbeeld die der momenten, te hulp moeten roepen.

Voor meer praktische doeleinden heeft Edgeworth
dan ook een andere frequentiewet aanbevolen. Dit is de
door hem genoemde „methode of translation", en bestaat
daarin, dat men als frequentiewet voor de grootheid
(x)
aanneemt:

met andere woorden, men meent, dat niet (x), maar een
zekere functie van (./•) een normale wet volgt.2) Men heeft
nu de keuze van
f(x) als nog volkomen willekeurig, in do
hand. In de eerste plaats valt hieronder de Galton —
Mc. A1 i s te rcurve, die hiervoor Iog.r kozen.

Vervolgens is deze frequentiewet in zijn algemeene ge-
daante dezelfde als J. C. K a p t e y n 8) afleidde. Beide

1 \') L. Y. Edgoworth, Cambridgo, Traus. Phil. Soc. 20,
1905 (110) on London, ,T. lt. Slat.
Sop. G9. 1906 (514).

2 •) Omtrent de afleiding van deze wet zie men hoofdstuk VII,

-ocr page 136-

afleidingen zijn volkomen parallel aan elkaar gegeven,
waarom ik bovenstaande vergelijking de vergelijking van
Edgeworth — Kapte yn zal noemen , in navolging
van P e a r s o n. 1) Evenwel is liet standpunt, waarvan
werd uitgegaan, in beide gevallen verschillend.

Edgeworth vindt bovenstaande curve onmiddellijk 2)
door op te merken, dat, wanneer § een normale wet volgt,
dan volgt
x = <p(g) in het algemeen een asymmetrische,
althans niet normale wet en dus omgekeerd, als
x geen
normale wet volgt, dan is er wellicht een § =
f(x) aan te
wijzen, die wel een normale wet volgt.

Het uitgangspunt van Kapteyn ligt dieper, en zal
in hoofdstuk VII besproken worden.

Nu heeft Kapteyn voorgesteld f(x) = (x -f- kte kie-
zen, welke keus geheel willekeurig is en Kapteyn
heeft zich hier alleen laten leiden door de eischen: een
mathematisch toegankelijke formule te vinden en een vol-
doende aansluiting bij praktisch voorkomende statistische
reeksen.

Wat dit laatste betreft, schijnt dit niet in alle doelen het
geval, niettegenstaande de voorbeelden, die Kapteyn
aan zijn verhandeling heeft toegevoegd. K a p t e y n zelf
zegt:3) „Quite recently some cases have been submitted
to me, which are evidently not contained in my special
form." Anderzins zegt Pearson4): „that Kapteyns
curves have been teSted by a trained computator and fail
to fit at all in certain cases, were mine do fit."

Nadere voorbeelden worden in geen van beide gevallen
gegeven. Al lijkt het mij ook zeer waarschijnlijk, dat de
Pearson\'sche curven wat ruimer toepassing kunnen
vinden, toch wil ik hier niet de meeste nadruk op leggen.

Het bezwaar tegen -de K a p t e y 11 \'sche curven ligt
meer in de methode, die gevolgd moet worden, om deze
curven aan de data aan te passen. Namelijk, de data worden
in vier porties verdeeld, hetgeen de vier benoodigde ver-
gelijkingen ter bepaling der constanten oplevert. Dit is

1 \') Biometrikn, Cambridge. 5. 190G/7.

2 \') Londón J. R. Stat. Soc. 01. 1898.

3  Ree. Trav. bot. Nóerl. 3. 1905.

4 *) Biometrika, Cambridgo. 5. 190(5/7 (171).

-ocr page 137-

nooit een aanbevelenswaardige methode. \') Men is dan
nooit zeker, hoe de curve er uitziet, als men de verdeeling
eens anders genomen had, want deze verdeeling blijft toch
steeds willekeurig. Zulk een methode van „percentiles"
moge in een bepaald geval een snelle oplossing geven,
maar is er een systematische weg, zooals bijvoorbeeld
P e a r s o n\'s momenten methode, dan is deze te verkiezen.
Bij volkomen gelijke bruikbaarheid van twee stelsels cur-
ven, waarbij het eene, zooals bij dat van Kapteyn,
alleen een oplossing met percentiles toelaat, en het andere
ook een meer systematische oplossing, zou dit laatste te
verkiezen zijn.

Daar evenals elke andere systematische methode, ook de
momenten methode bij de K a p t e y n\'sclie curven faalt,
wegens de niet integrabiliteit der daartoe benoodigde
integralen, en er bovendien andere curven bekend zijn,
die de K a p t e y n\'sclie overal praktisch kunnen vervangen
en dit bezwaar niet hebben, meen ik, dat ook de K a p-
t e y n\'sclie curven niet voor algemeen praktisch gebruik
aanbevolen dienen te worden.

Een andere vorm van f{x) in de vergelijking van Edgo-
wo r t h Kap t e y 11 wordt door Edgo worth aanbevolen.

Als meest ecnvoudigo keuze 1) heeft deze allereerst
genoemd
f{x) = \\ ^ac} en tevens de methode ontwikkeld
om de curve

(l/x — m)2
_ 1 ^ 1

y — Wx e 1 2 Ka;

aan de gegeven data aan te passen, daarbij gebruik makende
van de momenten methode.

Daar men nu aanneemt, dat x2 een normale frequentie-
verdeeling volgt, kan men hier eenvoudig correlatie en
regressie bepalingen verrichten, geheel op liet voetspoor
van hoofdstuk IV.

Evenwel is deze curve van zoo beperkte toepassing, dat

1 ) London, ,T. P. Stat. Soc. 01. 1898.

-ocr page 138-

hier alleen gevallen mee te beschrijven zijn, die zeer
weinig van een normale verdeeling afwijken.

Deze curve is dan ook al zeer spoedig door E d g e w o r t h
vervangen door een andere J), door voor
f(x) te kiezen:
f(x) — a(x-\\-Y.x* Aa?3), welke keus nog zeer onlangs
werd verdedigd door hem zelf 1), als zijnde deze:
„ .... proposed as a convenient substitute for, or supple-
ment of, that „generalised law of error"....."

Hier is blijkbaar gedacht aan het begin van een T a y-
lor\'sche reeks ontwikkeling voor
f{x), en men heeft dus
alleen reden deze bij den derden term af te breken, indien
de coefficienten
a, a•/- en a\\ een snel afdalende reeks
vormen, en men dus * en
A als kleine grootheden voor
den dag ziet komen, terwijl
k ) A.

Wat de aanpassing betreft, is eerst door hem een methode
van „percentiles" genoemd,.3) die hier niet in aanmerking
komt, tenzij voor een snelle en ruwe benadering, daar
vervolgens ook de systematische weg der momenten methode
bewandeld kan worden.4)

Ik wil hier alleen volstaan als resultaat van deze analyse
te vermelden, dat men, door tot en met het vierde moment
te becijferen, twee gelijktijdige vergelijkingen voor
k en A
krijgt, die de 6\'le machten van beide bevatten. Zulke ver-
gelijkingen zijn algemeen niet oplosbaar, en voor de op-
lossing van een bepaald geval moet men
k en A klein
onderstellen, zoodat men de hoogste machten hiervan ver-
waarloozen kan oin aldus een benaderende oplossing te
vinden. Dit is zeer zeker niet fraai. Nu blijkt het achteraf, dat
E d g e w o r t h inderdaad voor frequentie verdeelingen, die
niet te veel van een normale afwijken, steeds kleine waarde
van
y. en A vindt, en hier was zulk een analyse derhalve
voldoende. Maar als men nu eens wat meer van het nor-
male afwijkende frequentieverdeelingen tegenkomt, moet

1 ) Vth.,Intern. Congr. of Math., Cambridge 1912,

-ocr page 139-

men ieder oogenblik verwachten, dat deze vergelijkingen
geen bevredigende oplossing meer toelaten.

Dit meen ik wel een groot nadeel. Aan een praktisch
goed bruikbare frequentiecurve mag men toch in de aller-
eerste plaats wel als eisch stellen, een exacte en handige
oplossing van de optredende parameters.

Toch ziet men hier weer de draagkracht van de momenten
methode, al is deze dan hier ten naaste bij overschreden.
Geen enkele andere systematische methode zou ons zóó
ver voeren.

Nog zou zulk een bezwaar tegen deze keuze van f{x),
als Edgeworth hier voorstelde, niet zoo zwaar wegen,
indien men hierin de eenige niet normale frequentiewet
bezat, die inderdaad bij een geheele reeks frequentiever-
deelingen toepassing kan vinden, waar de normale zelf
faalt. Van minstens gelijke bruikbaarheid zijn de in het
volgende genoemde Pcarson \'sclie curven, die evenwel
uitmunten door een zeer schitterende en eenvoudige op-
lossing der parameters. Dat is een reden deze laatste
voor de praktijk te verkiezen, want daar frequentiecurven
voornamelijk voor praktische doeleinden dienen, weegt
zulk een bezwaar, als hier tegen de methode van Edge-
worth genoemd werd, dubbel zwaar.

Nu kan men evenwel, theoretisch althans, den weg aan
geven om tot regressie bepalingen te geraken voor mate-
riaal, waar deze methode van E d g e w o r t h bij toegepast
kan worden.

Wanneer men namelijk twee veranderlijken hoeft x en y
dan volgen niet deze, maar § = rti -f x? .c3) en
>? = a.2 (// k2 y2 -1- X., ya) een normale verdeeling. Volgens
de in hoofdstuk IV besproken normale wet voor meer ver-
anderlijken, volgt nu § ook een normale verdeeling, indien
men aan >?, en dus ook aan y een bepaalde waarde toe-
kent. Laat de bij deze bepaalde waarde van ybehoorendo
frequentiewet van
x zijn:

z = Ae f\' [x\\

Waarin A, c en m constanten zijn, afhangende van de
bepaalde keuze voor
y, en do correlatie coëfficiënt van £ en y.

-ocr page 140-

Vraagt men nu naar de meest waarschijnlijke waarde
van
x behoorende bij deze bepaalde y, dan zal z voor
deze waarde van
x een maximum moeten zijn, en men
moet dus stellen
dz / dx — 0. Dit levert hier :

re«)-!- [>(«) ]\'(/(«)-«] =o.

Kiest men, zooals Edgeworth eerst voorstelde
f (x) = v\' (x), dan wordt deze vergelijking, na weglating

van een factor - ,

x

x*~m] = 0>

waaruit men kan oplossen,

(x) = 1,m± i V(m- — c2),
waarmee principieel de weg tot regressie onderzoek is
aangegeven.

Kiest men echter f(x) = a(x-\\- % x2-\\- A x3) dan krijgt men
op dezelfde manier een algebraïsche vergelijking, die van
den 7\'i<•- graad in
x en dus niet algemeen oplosbaar is.
Ilier faalt deze methode van Edgeworth, dus ook al
weer praktisch.

Zeer terecht zegt dus Edgeworth zelf: 1) „With re-
ference to the purpose of practical statistics the advanta-
ges \'do not seem toJbe all on the side of the received method."

Daarom meen ik niet langer bij Edgeworth\'s trans-
latie methode stil te moeten staan, hoeveel fraai\'s hier aan
den anderen kant ook in ligt speciaal van theoretischen
aard, het zal blijken, hoeveel hooger de in het volgende
besproken P e a r s o n \'sclie curven staan, van een praktisch
standpunt bezien.

--*—.

\') F. Y. Edge worth , Vth. Intern. Congr. of Math., Cam
bridge 1912. On a method of representing statistics (Summary).

-ocr page 141-

HOOFDSTUK VI.

De Pearson\'sche frequentiecurven.

Een der belangrijkste reeks frequentiecurven is gegeven
door K. Pearson,1) welke ik in het volgende uitvoerig
zal bespreken.

Om het standpunt, vanwaar Pearson zijn curve wenscht
afgeleid te zien, in alle duidelijkheid voor oogen te voeren,
dienen eenige inleidende beschouwingen vooraf te gaan.

Als uitgangspunt zal daartoe eerst het binomium gekozen
worden, evenals L a Place en P o i s s o n gedaan had-
den, om tot de normale wet te geraken. Beschouw het

binomium e waarin e een constante is, en zet de ter-
men, die de ontwikkeling hiervan geeft, als ordinaten uit
op onderling gelijke afstanden &x = c. Met liet punt

a- = rc komt dan overeen een ordinaat:
r

= n(n-1)... (»-H-2) )nt
Jr (r —1)1

Vormt men nu de uitdrukking:

Vr l-Vr
Vc(i/r 14-z/r)\'

dan kan man deze herleiden, door de waarden van y
daarin te substitueeren, tot:

c (w 2) — (fl?r *V_i)

ica(n-f 1) \'
waarin men nog xf — c (n -f 2) = cdr kan schrijven, d.w.z.
de oorsprong verschuiven, om te krijgen:

») Londen, Phil. Trans. lt. Soc. 186. 1895.

-ocr page 142-

yr.fi yr _ ^r ^r-i-i

}*c{yr 1 yr)~ icHn iy \' \' \' \'

Wanneer men zich nu de uiteinden der ordinaten ver-
bonden denkt en de dan ontstane veelhoek als een primitieve
vorm van een frequentiecurve aanziet, kan men deze
uitdrukking duiden als:

helling van den veelhoek t/o X-as _
gemiddelde ordinaat

2 X gemiddelde abscis n .

— 2<r1 ......^ \'

waar ter bekorting geschreven is o-2 = | c2 («-f- 1).
Deze uitdrukking noemt Pearson de „law of slope".

_xi . 2(j-2

Neemt men nu de normale curve y=yt)e \' \' dan
kan men door differentiatie hiervan precies dezelfde uit-
drukking vormen als (1) is voor den binoininaal veelhoek.
Ergo, deze normale curve en binominaal veelhoek hebben
een zekere wet waaraan beide voldoen, zonder dat men
daarbij
n oneindig groot behoeft te onderstellen. Hiervan
zegt Pearson: \') „By a proper choice of o- en
y0, wc
can get the normal curve to fit closely the point-binomial,
owing to this slope property, without any assumption as
to the indefinitely great value of
n. It is this geometrical
property which is largely the justification for the manner
in which statisticians apply, and apply with success, the
normal curve, to cases in which
n is undoubtedly small".

Nu is het overbekend in de theorie der waarschijnlijk-
heidsrekening, dat de normale curve, het grensgeval voor
kan stellen van een binominaal veelhoek als de voorgaande,
indien men zich n grooter en grooter denkt. 2) Maar even
zeer is het bekend, dat ook de punten van dit binomium
voor een matige n praktisch reeds zeer dicht bij een nor-
male curve aansluiten.

De conclusies van Pearson zijn dus, wat hun wezen

1 ) E. C z u b e r, Wahrscheinlichkeitsrechnung I. Leipzig u.
Berlin (Teubner) 1908 (110 e. v.).

-ocr page 143-

betreft, wel goed, maar dat de „law of slope" een bewijs
daarvan zou geven is, is mijns inziens niet duidelijk, noch
mathematisch streng. Men zou toch geneigd zijn er uit te
lezen, dat (1) door steeds grooter waarde van
n te nemen,
nadert tot de differentiaal vergelijking der normale curve,
zoo nauw als men wil. Dit is nu evenwel Pearson\'s
bedoeling niet. Deze limietovergang is, zooals ook Koo p-
mans \') opmerkte, niet geheel zonder bezwaar. Men
heeft toch algemeen, dat bij de binominaal veelhoek,

yr -f 1 = n — r 1
Vr r

waaruit men direct ziet, dat zoowel voor r klein, als voor
r dicht bij n, de verhouding van de grootere tot de kleinste
der twee ordinaten oneindig wordt. De aangroeing van
yr, zeg Ais dus niet meer klein ten opzichte van yr

zelf. Schrijft men nu (1) in de gedaante,

c(.yr .VA yr) 2<r« 1

dan kan men in do linksche uitdrukking A yr niet steeds

verwaarloozen\' tegenover yr. Doet men dit wel, dan

krijgt men do differentiaal vergelijking van do normale
curve. Echter geldt dit dan alleen wanneer
r nóch
groot, nóch klein is, dus niet aan do beide uiteinden;
doch in hot midden sluiten dan de normale curve en do
binominaal veelhoek voor grootere n nauw bij elkaar aan.
De eigenaardige welbekende vorm dor normale curve
maakt, dat dit verreweg het belangrijkste deel is.

Al blijft daarom de mathematische draagwijdte van de
„law of slope" in hot duistere, in het geval, dat ons nu
heeft bezig gehouden, is de conclusie opziohzolf, die daaruit
getrokken wordt, niet verkeerd.

Nu neemt Pearson het binonium e(p4-qf, waarby

\') G. C. A. Koop mans, Diss. Leidon 1907 (152).

-ocr page 144-

p -f- q — 1 moet zijn en handelt daarmee evenzoo. Noem
weer
xr = rc en nu ook A = q:p, dan is

yr i~ yr 2 (w—r l)A:r—1 = 2 A (» !) — r (A l)
$c(i/r l yr) c\' [n—H-1)A: r-f-1 • c\' A (n 1) -f~ r (1—A)

Nu is = c en dus is deze uitdrukking

ook te schrijven in de gedaante:

2 A(« 1)-(1 A)l—Li-- -y)

C \' (Xr-l-\\Jl~ Xr ^

A(« l) (1-A)l -i )

Verschuif nu weer den oorsprong door

x?r = xr — c — qc (n -f 1)

te stellen, dan volgt voor dezelfde uitdrukking:

-ocr page 145-

is asymmetrisch en begrensd bij x = — a, en nadert aan
de andere zijde de X-as asymptotisch.

Hier blijkt nu nog duidelijker hoe P e a r s o n zichzelf om
den tuin leidt met zijn „law of slope". Want om de curve
(3) te vinden, kan men niets anders doen dan (2) in den
vorm der differentiaal vergelijking:

1 dj=_yx .......

y dx a-\\-x

brengen en deze integreeren. Maar voor den over-
gang van (2) op (4) moet men
n zeer groot nemen.
Doet men dit dan kan men evenwel reeds eerder
C(P— S\')(£C\'r_Li~HB,r) verwaarloozen tegen pq (n -f-1) c1,

maar dan leidt men, door vervolgens c=^xzeer kleinte
nemen, de „law of slope" van de normale curve af.1) Daarom
spreekt Pearso n ook nergens over deze differentiaal ver-
gelijking, maar blijft bij do „law" staan, en verwacht naar
analogie met de normale curve, dat nu ook (3) nauw zal
aansluiten bij de termen van oen asymmetrisch binomium
ook voor kleinere waarden van den exponent. In hoeverre
aan deze verwachting beantwoord is, toont achterstaande
figuur duidelijk, waar ón een willekeurig binomium èn een
curve (3) geteekend is. \'-\') Alweer blijkt, dat niettegen-
staande het onzekere der mathematische afleiding, de uit-
komsten bevredigend zijn.

In deze figuur is tevens aangebracht do maximum ordi-
naat (als stippellijn) on de ccntroïd (volgetrokkon) welke
bij do normaio kromme samenvallen. De afstand dezer
beide is dus min of meer een maat voor do asymmetrie.
Echter ziet men ook reeds in dozo figuur hoe de asym-
metrie niet groot meer is. Rekent men het binomium voor
nog grootere waarden van n uit, dan verdwijnt deze geheel,

Vergelijk woer GK C. A. Koopman 8, 1. c. (155).

2) Do constanten, dio in deze curven optreden, zijn niet geheel
in overeenstemming met do voorgaande theorie, hoewel daarvan
weinig afwijkond. Do aanpassing van deze curve aan do achter-
eenvolgende termen van het binomium als do gegeven frequentie
data beschouwd, geschiedde op do manier als aangegeven is bij
type III in ditzelfde hoofdstuk.

-ocr page 146-

en is de curve van een normale bijna niet meer te onder-
scheiden, daar, behalve enkele termen nabij het maximum,
de andere een in verhouding steeds geringer invloed krij-
gen op de gedaante der curve.

Cz * b 5roo°-

-iboo /">

x. .IV ,„

V (| r.rjb.r4(, 4-) t-JX-

-1100 1 j

- itoo / :

-loco / ;

-Goo / i

-boo J j

• HOO /

-io o / i

-" -K -1-*-L

----1 _ . -A

Fig. 7.

Een binominale frequentieverdeeling en het verband van
deze met de normale wet is door de in de waarschijnlijk-
heidsrekening zoo vaak behandelde kansspelen overbekend.

Maar wil men nu, met Quetelet en Galton, deze
uit een binomium afgeleide frequentiecurven ook bij biolo-
gische problemen aanwenden, dan moet men zich afvragen,
hoe in de natuur zulk een binominale frequentieverdeeling
mogelijk is. Hiervan gaf J. C. Ivapteyn \') een eenvou-
dig schema.

\') Skew frequency curves. Groningen 1903.

-ocr page 147-

Stel er zijn op een moment n voorwerpen, vruchten
bijvoorbeeld, die alle precies even groot zijn. Een oorzaak,
zeg regen, doet deze een kleine aangroeiing krijgen, dan
zullen niet alle evenveel groeien. Een zeker deel daarvan
zal beneden het gemiddelde blijven, een ander deel meer
dan het gemiddelde zijn. Denkt men zich nu eenvoudig-
heidshalve, dat in de beide groepen alle vruchten hetzelfde
bedrag A van het gemiddelde afwijken, maar dat de aan-
tallen in beide groepen zich verhouden als
p: q waarbij
men
p -f- q — 1 moet denken. De regen heeft dus nu een
frequentieverdeeling gegeven:
np vruchten met afwijking
A,
nq vruchten met een afwijking —A-

Denk dat er nu een tweede oorzaak, zonneschijn, zal
gaan werken, die een aangroeiing ten gevolge heeft, en
* laat de uitwerking hiervan precies analoog zijn met de
voorgaande. Van de
np vruchten met afwijking -f- A, zul-
len er dan
np- een afwijking 2 A van het gemiddelde
vertoonen, en
npq vruchten een afwijking -f- A (— A) = 0.

Evenzoo doen de nq vruchten met afwijking — A. Do
stand wordt dus nu: np2 vruchten met afwijking -f2 A,
2 npq met afwijking nul, en nq2 met afwijking — 2 A.

Maar deze frequentieverdeeling wordt aangegeven door
de termen van het binomium
n (p -f- q)". Men kan deze
redeneering aldus vervolgen, het is duidelijk, dat men
steeds een binominale verdeeling behoudt.

Het gewichtigste principe, dat in deze redeneering ligt
opgesloten is, dat elke oorzaak een afwijking van het
gemiddelde tengevolge heeft, die geheel onafhankelijk is
van do afwijking, die bij het werken der oorzaak reeds
bestond. Zoolang men aan deze conditie vasthoudt, kan
men, volgens het voorgaande, theoretisch feitelijk nooit
iets anders krijgen dan do normale frequentieverdeeling.

Behalve nu een binominale frequentieverdeeling is de
meest voor do hand liggende een verdeeling volgens de
termen van een hypergeometrische reeks. Namelijk, denkt
men zich een urn met
np zwarte en nq witte kogels (dus
p-{-g = l) en trekt men daaruit achtereenvolgens
r kogels.
Wanneer nu
r < np en < nq, zijn de waarschijnlijkheden,

dat er r, r — 1, r — 2,____0 kogels zwart zouden zijn,

achtereenvolgens gegeven door de termen der reeks:

-ocr page 148-

np (np — 1) (nj) — 2).. ■ (np — r -f 1) (1 , f__nq

n(n — l)(n — 2)...(n — r-\\-l) j \' np — r

n(n — l)(n — 2).. .(n — r-\\- 1) I np — r 1

I r(r —1) _nq (nq — 1)___,

^ 1.2 (np — r l)(np — r 2) "r
r(r — l)(r — 2) wg (ny — 1) (ng — 2) , ]

1.2.3 (7ip-r l)(wi^-r 2)(ni)-r 3) ^ " \') \' WJ

hetgeen klaarblijkelijk een hypergeometrische reeks is.

Nu kan men evengoed zulk een reeks op voorgaande
manier doen ontstaan. Uitgaande van n even groote groot-
heden, zal de eerste oorzaak weer geven een aantal
np
met afwijking van het gemiddelde -f- A en nq met een
afwijking — A. De volgende oorzaak zal nu een frequen-
tieverdeeling bewerken volgens de drietermige hyper-
geometrische reeks:

np (np — 1) \\ , 2nq , nq (nq — 1) ) ^
n(n — 1) I (np — 1) \' (np — 1) np J

Dit bereikt men door aan te nemen, dat de np groot-
heden met afwijking -f- A nu gesplitst worden in:

rc^f— l)^ met een llfwÜking 2A, en in:

np (l — ~n-—l ) met een nul.

De groep ng splitst zich evenzoo in:

ng(ng ^ 1) met cen afwjj^jng _2a en in:

ng (1 — ^zff ) met een afwijking nul,

zoodat inderdaad de grootheden met afwijking nul de

frequentie hebben. Men kan dit schema analoog voor

meerdere oorzaken vervolgen. Uit dit schema is duidelijk,
dat de verdeeling, die na het werken der tweede oorzaak
tot stand is gekomen, ontstaan is, doordat de tweede oor-
zaak op beide groepen in verschillende mate inwerkte.
Met andere woorden: het effect van een tweede oorzaak
is afhankelijk van het door de voorgaande oorzaken reeds
verkregen effect.

-ocr page 149-

Zonder twijfel zal dus het in de plaats stellen van de
hypergeometrische reeks voor de binominaalreeks, een
algemeener theorie opleveren, hoewel hier geenszins be-
wezen is en het evenmin het doel was te bewijzen, dat
dit de algemeenste theorie zal opleveren. Een verdeeling
volgens elk ander beginsel blijft toch evengoed denkbaar.

Nu gaat Pearson uit van de reeks (5) en denkt zich
weer in punten op een afstand
l±x = c ordinaten gecon-
strueerd, evenredig met de achtereenvolgende termen
van (5). Voor het quotiënt van twee dergelijke ordinaten
vindt men:

^ -f 1 _ r — 6* —{— 1 ng — s -}-1
y8 ~ -s \'np — r s

en uit dit quotiënt vindt men vervolgens:

jHl ~1J* _ 2 (r l)(?u/ l)-s(n-f2)

•1 c x ys) c (H-1) (n? l) - s [2 (H-l)-fn (p-q)] 2^\'

Daar nu xg = sc en = l)c kan men voor s in
de plaats stollen -f-
xg ^):2c Jj.

Geeft men dan den oorsprong een verschuiving, bepaald
door:

<  xs xs±i f (r l)(wg l) \\

2 ~ 2 n\' 2 /\',

en ordent men do dan verkregen uitkomst naar do machten
van \\
(x\'s  , dan krijgt men ten slotte:

yg i-y* ~ H^ ^u)__

ï^jli y,) Ai "Fi «Vj-|> \'i *«

waarin de grootheden A voorstellen:

> _ c-\' (r 1) (n - r 1) (np 1) (nq -f 1)

, _ cn (n — 2r) (p — q) __1_

2_ 2(n-f2)2 \' n-f-2\'

-ocr page 150-

Deze uitdrukking kan men weer de „law of slope"
noemen der hypergeometrische reeks, en de differentiaal
vergelijking der daarbij passende curve is dus:

Apl= » ~x . . (6)

y dx Ax A2£c-f- A3a;2

Evenmin als in de voorgaande gevallen is nu de over-
gang van de „law" op de differentiaalvergelijking geoor-
loofd. Het is dan ook typisch van Pearson\'s be-
schouwingswijze, dat hij dit in het geheel niet noemt, maar
weer zegt de curve te zullen vinden, die dezelfde „law
of slope" heeft als de hypergeometrische- veelhoek.

Deze curve is niet anders te vinden dan door integratie
der differentiaalvergelijking (6). Naar de discriminant der
rechtsche noemer heeft men te onderscheiden:

I. A§ < 4Aj A2. Dan is de curve, als y0 de integratie
constante is:

»-». (i sr"

waar ter bekorting ingevoerd werd:

V- . m = 1 . rt/2 _ .

2A3 \' 2AS \' \' A£(4A, A8-AD\'
en Jbovendien
x geschreven werd voor x-\\- A„ :(2Aa;.

II. A| >4A, A2. Dan heeft de rechter noemer der differen-
tiaal vergelijking twee reöole wortels, zeg a{ en a2. De
curve is dan bepaald door:

dy_ —xdx .

y A8(®-a1)(®—a,)\'

waarvan de oplossing is:

sro-s)*"\'.

waarbij geschreven werd v= ^A3 (— a2) )

\') Vergelijk weer G. C. A. Koopmans, l.c. (159).

-ocr page 151-

Hierop grondend geeft P e a r s o n 1) zes typen van
frequentiecurven. Ik zal deze zes liier achtereenvolgens
noemen, met de methoden, op de momenten methode
gebaseerd, om deze in elk praktisch geval te berekenen
bij een gegeven reeks data.

Ik meen gerechtigd te zijn de aandacht nog eens op deze
curven te vestigen, omdat deze van werkelijk praktisch
belang zijn gebleken, zoowel bij statistische 2) als actuarieele1)
problemen.

Type, 

is een curve van het zoo-
genaamde quasi normale
type, met maximum ordi-
naat als Y-as, begrensd bij
x = — rt, en o; = -f-fl2.

Noem het dispersiegobied
a,-frt2=&, en ook
val=m11
en w2 = m2.

Voer dan in 2 = (<i, «): («, -f a2) zoodat x = — a, geeft
2 = 0 en x = a2 geeft 2 = 1. Deze curve is dan in de ge-
daante te schrijven,

!/ = »/\'\'(1

m„

■2)

waar ter bekorting geschreven is

= .\'/o (w.1 w2) 1 T - : (rn, 1 w, -).

Noemt men nu « liet oppervlak en p\' de momenten
rondom een moment-as in het punt — a, en u deze
zelfde rondom de centroïd, dan is:

1 ) W. Pal in El der ton, Frequency curvos and correla-
tion, London 1906.

-ocr page 152-

=&" ,J /I,4w(l-zf\'dz

O

= h" 1 i)
77 r(i»1 ma n 2) \'

Door de bekende eigenschappen der r functies geeft dit:

„ _ T (m, 1) r (m2 2)

r(m, mi 2)

w)(w»i »— 1)....(TO| 1) __

n (m, -f- m2 -}- n -(- 1) (ro, m2 -f- /i)... 2)\'

De eenvoudigste uitkomsten krijgt men door de momenten
rondom de centroïd te berekenen, en door gebruik der
formules (17) van hoofdstuk I krijgt men dan, als men
tevens nog
m2 -f-1 = m\'-i; mlJr\\=m\\ en m\\ — r
noemt, na eenige herleidingen de volgende uitkomsten :

_ b°- m\', m\'o 2 ft3 (m\', m\'2)(m\\ -rm\\)

fJ"2 r2 (r -f- 1) \' Pt \' r* (r -f 1) (r 2) \'

_ 3 b* ro\'i ffl\'Jm\', m\'2 (r6) 2r2]
^ r«~(r ï)(r 2)(r 3) \'

Dit zijn de formules, waaruit men de constanten der
curve op zal lossen. Ter wille van een eenvoudigste
analyse stelt men de uitdrukkingen i) op:

Pj « *5(r l)[2rg m\',m\'8 (r — 6)1
2~~ w\',«\',(r 2)(r 8)

= R 1 4(r2-4m\', m\'2)(r 1)
~~ m\', m\'2 (r 2)2

waaruit men r én m\', m\'2 kan oplossen, daar b hier niet
meer in voor komt. Dit doet men door deze in de gedaante
te schrijven:

0t (r 2)(r 3) _ 2r2 &W- -li- _ 4

3(r l) " w\'ii»V 4(r l) m\',m\'2

-ocr page 153-

waaruit men 2 r-\\ m\\ m\'2 kan elimineeren. Men krijgt dan:
m\' 4-m\' -r-

ri

m\\ m\'2 = e

4 J/?1(r 2)2:(r ir

met welke uitkomsten men vervolgens vindt, dat

= ^O l)?-2

e \'

en dat m\\ en m\'2 de wortels zijn van de vergelijking:

m\'2 — rm\' 6 = 0.

Hierdoor zijn de oorspronkelijk in de curve voorkomende
parameters m,, m2, a,, a2 en v te berekenen, waarnamen
met behulp van een tafel der F functies ook r, en dus y0
vinden kan.

Deze geheele analyse geeft een eenwaardige oplossing
der constanten, behalve wat de vierkantsvergelijking voor
m betreft. Deze verdient een nadere beschouwing.

Onderstel eerst : e positief. Dan moet, wil deze verge-
lijking inderdaad twee reüelo wortels hebben r- ) 4e.

Nu kan men volgons het voorgaande r en e in J3 uit-
drukken, doet men dit dan neemt deze voorwaarde de ge-
daante aan:

fix (3 l2)2__x0

—) — 3/?,—6)(4,tf2—3/3,) s U\'

maar nu is steeds 4/32 — 3/3, positief bij elke froquentie-
verdeeling, want steeds is fiAp2 >^3, \') de voorwaarde is
derhalve gelijkwaardig met

\') Noemt men do frequenties, dio waargenomen zijn in do
punten
x (en zt ter onderschoidiDg) f(x) (eii f (z)), dan kan men
do voorwaardo fti ) schrijven:

[£/-(*)*«j (£/■(*)** (> |s/»*»j ....(«)

Van allo termen, dio hier staan, kiest inon dio, waar x do po-
sitieve waarde
xl heeft, terwijl z zoowel gelijk aan -f z{ als aan
— z, is; dit doet men rechts en links en krijgt:

-ocr page 154-

=6—3/9j —2/?2 ) O

of ook met

«,=2^ (3^22-^4)-f-3,a23 >0.

Nu heeft men s = m\'lm\'2 positief ondersteld, dat wil
dus zeggen als men de oplossing van e beziet:

4-K/?, (r-f2)2:(r l)>0
of indien men hier voor r de opgeloste waarde substitueert:

* - /M12 3)1-
2 4 (4/?2—3/?, )(2/? 2—3/?, —6) N

Nu kiest men eveneens de termen waar # = — a-, , en z dezelfde
waarden heeft, welke men bij voorgaande optelt:

Maar daar nu do beide frequentieverdeelingen, hier door zona?
onderscheiden, geheel dezelfde zijn kan ook
x do waarde -4-zx
en z de waarde ±ar, aannemen. Men krijgt dus door die termen
te nemen nog eens een uitdrukking als bovenstaande, maar
waarin-
x en z doorlooppnd verwisseld zijn. Telt men deze samen,
dan krijgt men :

[/■(*,)-W(-*i)j |/■(*.) -/\'(-*.)J*I*? (*? *])£

Nu zijn links en rechts do termen x] z] dezelfde, maar do
andere termen zijn links steeds grooter dan do overeenkomende
rechts, daar
f (x), een frequentio voorstellende, steeds positief is.
De uitdrukking links is dus grooter. s

Daar men nu alle termen dio in (o) voorkomen, samen kan
nemen, volgt daaruit hot ondersteldo:
fzi /x1 ) Een oneindig
groote frequentie kan uit den aard der zaak niet voorkomen,
evenmin als praktisch ooit
x oneindig zal zijn.

-ocr page 155-

Hier komt weer het kriterium k2 voor den dag maar nu
zal *2 < 1 moeten zijn, hetgeen dus niet strijdt met de
reeds genoemde voorwaarde.

In geval x2 tusschen 0 en 1 lag zou men theoretisch
dezelfde oplossing kunnen aangeven, als bij type I, maar
men zou complexe waarden voor m vinden. Deze moet
men buiten sluiten, en men zal vinden, dat in dit geval
type IV de aan te passen curve zal zijn.

Onderstel vervolgens: e negatief en dus *2 > 1 dan geeft
voorgaande vierkantsvergelijking steeds twee reüele waar-
den van ra\'. Maar indien t = m\\ ra\'2 negatief ware, moet
een van beide, zeg ra\', = ra, 1 negatief geweest zijn.

Dan faalt evenwel voorgaande analyse, daar dan de
gebruikte r functies een negatief argument vertoonen, en
de daarmee overeenkomende integralen verliezen derhalve
hun beteekenis. Dus e kon nooit negatief zijn.

Als kriterium dat type I toegepast kan worden blijft
dan alleen gelden
k2 < 0.

Nu komen onder type I nog twee andere vormen van
curven voor als de quasi normale vorm.

De belangrijkste hiervan is, wanneer ra, negatief wordt,
terwijl nog aan de conditie 1 = ra\'= positief, voldaan
blijft. De curve heeft dan de gedaante:

va.

Type »-».(f-O-^\'O-s)

waarin en a2 positief
ondersteld. Deze curve is
begrensd bij
x = a{ en
heeft daar een ordinaat
die oneindig is, en bij
a2
waar de ordinaat nul is.

Ook kunnen ra, en ra2
beide negatief zijn op de-
zelfde manier, en ontstaat een curve, die de gedaante zal
hebben:

—va.

-ocr page 156-

welke èn bij x —— ax èn
bij
x = a2 begrensd is, ter-
wijl de ordinaat daar on-
eindig is. x) Deze curve
komt statistisch niet veel
voor, hoewel het van be-
lang blijft, deze mee inge-
sloten te hebben.
De aanpassing dezer speciale curven aan een reeks ge-
geven data geeft na het voorgaande geen enkele moeilijk-
heid, wat de analyse betreft. -)

\') Blijkens voorgaande analyse zijn ml=val en m2 = va2,
indien negatief, steeds ) — 1.

Nu kan men zich wel een curve denken van het type Ia of Lb
waar ml (of m2) <( — 1. Dan geldt evenwel voorgaande methode
van aanpassen niet meer, daar dan T functies met negatief
argument op zouden treden.

Nu komen in de statistiek wel eens groote, maar nooit oneindig
groote waarden vau frequenties voor, d. w. z. het oppervlak van
een strook der frequentiefiguur, begrensd door do maximum ordi-
naat en op een basis moet eindig blijven. Hieraan voldoen de
in den tekst genoemde types
Ia en Ió. Maar een curve van
dezelfde gedaante, waarin do exponenten < — 1 zijn, voldoet hier-
aan niet en zulk een curve kan uit den aard der zaak nooit een
fréquentiecurve zijn.

Toch is zulk een curve in de P e a r s o n \'sche differentiaal ver-
gelijking mee ingesloten, maar door den vorm, waarin hier do
oplossing gegeven is, vanzelf buitengesloten in de praktijk.

2) Evenwol kan er een praktische moeilijkheid in do momonton
rekening ontstaan. Zoodra een curvo ergens een ordinaat heeft,
die zeer groot is ten opzichte der andere, moet men aldaar do
momenten van dit uitersta vak (zio A in novenstaando figuur)
zeer zorgvuldig berekenen.

Slechts als een zéér ruwo benade-
rende methode, mag men van do ruwo
momenten uitgaan, daar do concen-
tratio * van alle frequentie in het vak
A langs de centrale-ordinaat een veel 0
te belangrijke fout kan bevatten.

-ocr page 157-

is een curve niet begrensd dis-
persiegebied (bij
x = ±a) en
van quasinormale gedaante, bo-
vendien symmetrisch.

De oplossing is geheel dezelfde
als van voorgaande, door aldaar

*.......^-------<iL—--> a, —a2 te nemen, en dus ook

=0.

Ook de She p p a r d\'sche correcties zijn vanzelf buitengesloten,
terwijl do methode van trapezia of rechthoekeu hier ook veelal
nog te ruw zal zijn.

Indien men nu absoluut geen aanduiding bezit, hoo do frequen-
tie in het vak A over dat vak verdeeld is, kan men in dat geval
volgenden weg inslaan.

Men kan hier de curve schrijven in de gedaante:

y =!/0 * $ — x)n,

waar derhalve do Y as langs de maximum ordinaat loopt, terwijl

volgens hot voorgaande p { 1 is. Noemt men nu oc" het oppervlak

van A(=do frequentie van A) en p" het «de moment van hot

s

vak A, rondom genoemde Y-as, dan is:
x

«"<«",=ƒ y» *~p {b-x)nJx =

O

, ,__[ 1 _ n (x\\ , n (n—1) /

y0 ln x 7 {1-f-8—p (2 s-p)\\6) ^ \'21 (S »—p) \\b J

wolko reoks 6nel convergeert, daar x als begrenzing van het vak
A klein zal zijn tegenover bt hot geheolo dispersiegebied. Men
kan dus met één, desnoods tweo termen volstaan.

Men begint nu een benaderende rekening : eerst lost men met
do langs elementairen weg verkregen momenten
p °P> 0,1 ë°\'
bruikt dezo vorkregen waardo in voorgaando reeks, waarmee men
gecorrigeerde waardon der momenten vindt. Met dezo nieuwe
waardo lost men weer
p op en kan zoo noodig dit proces herhalen.
Zie: Pearson, London, Phil. Trans. 11. Soc. 18(5. 1895 (400).

10

-ocr page 158-

In verband hiermee bereikt men als kriterium *,=().
Tevens kan men hier krijgen de overeenkomstige curve
van type I&, welke nu symmetrisch zal zijn. Deze curve,
type II&, zal zeer weinig toepassing kunnen vinden.

Type III, y = y0 (l

kan men uit dezelfde inte-
graal der differentiaalver-
gelijking ontstaan denken
als Type I, door aldaar a2
oneindig te nemen. Deze

t-——.ft ________________TTT!» curve is, wanneer ya, po-

\' 00 sitief is, van dezelfde ge-

yciy —yx

daante als type I, begrensd bij x — — aX) maar verloopt
aan den positieven kant in het oneindige.
Nu is hierin ook besloten:

—7" 1 ,—Yx

t» 1

Type lila, y = — l)

hetgeen geheel dezelfde
curve is als bovenstaan-
de, als men daarin
yax
negatief denkt, dat wil
zeggen a, is negatief,
daar men natuurlijk
y
positief moet denken.

De oplossing van beide typen is geheel dezelfde. Men
neemt daartoe
z = y (a, -f- x) en ya, = p ingeval van type III
en
z = y{x — al) en —yal—p, ingeval van type lila,
dan schrijft men beide types eenvoudig in dezelfde
gedaante:

Vod p - 2
V

waarbij het dispersiegebied van z nu van 0 tot oneindig
loopt, in beide gevallen.

Noemt men weer: « het oppervlak en p\' de momenten
rondom deze zoo gekozen ?/-as als moment-as, dan heeft men

i-

^---*

co —

-------»

-ocr page 159-

00 ^ p 00 __

= ƒ (* «.)*<*«= ƒ \'
— a, P r o

waaruit volgt:

P? 1 " rV(j> l)

Nu voert men weer de momenten p rondom de centroïd
in, die volgens de formules (17) van hoofdstuk I met
p\' zijn verbonden; dan krijgt men voor de eerste 4 momenten
de uitkomsten:

_0. „ _P-hl. „ _2(p l). a _3fo l)(J; 3).

/tj—U, Pi — -^j- , p3 — ■ \'Tj , ft4— ^ ,

welke als oplossing geven: \')

2 ft» 4^0® 1 v//-

y = — - en p — — 1. .

Vervolgens vindt men a{ =p:y en daarna ook >/() weer
met behulp van een tafel voor
V functies.

Hiermee is do oplossing voltooid. Daartoe heeft men de
oplossing van p4 niet noodig gehad, deze kan evenwel
dienen om een kriterium te vinden, als men daarin de
waarde van
p en y substitueert. Dit levert

2Pt (3//22/a4) 3^32 =0,

dat is dus y.{ =0, en in verband daarmee x2 = co.

Deze curve is dezelfde als (3), die bij een asymmetrisch
binomium zou aansluiten. In hot algemeen is deze van
een zeer aangenamen vorm ter toepassing, daar deze bij
veel frequentieverdcelingen goed aansluitend te krijgen is.

Natuurlijk vindt men zelden precies nul, of x2 onein-
dig en zou men dus dezen vorm, theoretisch althans, nooit
bereiken. Praktisch blijkt evenwel, dat ook als slechts

\') Hieruit ziet men tevens, dat, indien p negatief, dezoalleen
kleiner dan dén kan zijn. Een analogo opmerking geldt hier als
bij typo I
a en Ib.

-ocr page 160-

een matige waarde heeft, deze curve nog toepassing kan
vinden. 2)

Type IV, y = y0 ^ 1 { -) ) e

welke curve asymmetrisch
is en aan beide kanten
onbegrensd, van quasi nor-
male gedaante.

Ter oplossing noemt men
x — a tg 6, waarna de curve
de gedaante aanneemt:

___2m. —vö

y = y0 cos 6 e

Voor het oppervlak a en de momenten y.\' vindt men weer:

-j-oo -f t/2

, f ti, n -f 1 f 2/71 — n—2 „ . n „ —vO .„

n I yx ax=y0a cos 6 sin Qe aö,

— 00 — jr/2

waarin men in het vervolg 2m2 in den exponent van
cosiJ, door
r zal voorstellen. Men kan herleiden:

n 1  T\'2

= | (n-1) f cosr-7, \'^sin"-

« r — n 1 I J

— x/2

r/2

cosr

t/2

= -, 1

r n-f 1 ( w2 « — 1)

Men behoeft dus slechts « en /jl\\ te kennen, om met
deze reductieformule de andere momenten op te lossen.
Daartoe heeft men:

4-x/2

<* = y0a ƒ cosr Ge d6 —

________— TT/ 2

2) W. Palin E 1 d e r t o n, Frequency curveaandcorrolation,
London 190G, geeft oen voorbeeld van type III waar x2 = — 8.44.

-26e~v6dS-

v ƒ cosr ~ w 10sinw ~1 oê~v0do\\

/

-ocr page 161-

ir

= y0ae («0,

waarin men deze laatste integraal door G (rv) voorstelde.1)
Men vindt vervolgens:

-fr/2

a.u\', =y0a* ƒ cos7 -1 0 sin <?e—:dö =

3-/2

W2

/i —j/i
cos öe «0 =

_ — yna2v ƒ

— t/2
av

—.

r

Nu vindt men met deze uitkomsten:

_q* (r »\') _ q\'i>(3r-2 »»)

r(r-l) \' r(r— l)(r — 2)\'

, _q4 )3r(r — 2) y2(6r —

r(r- l)(r — 2)(r —3) \'

Ten slotte voert men weer de momenten rondom do
controïd in, tevens ter bekorting
s = r2 -f-v\' schrijvend,
waaruit blijkt, dat tt steeds positief is, en krijgt men:

_ _ a\'-£_____ — 4q3a (« —r2)\'

Pi — o; H-2 — rs (r _ jj; v*(r_ i)(r—2)\'

3q<* [(rH-6)« — 8r2 J

*** = r« (r — 1) (r — 2) (r — 8)\'

Voor een snelle oplossing hieruit van do constanten der
kromme vormt men weer de quotiënten /?, en/?2 on vindt:

\') Omtrent dezo integrnal, wiens numerieke waarde men be-
rekenen moet, bestaat een studie van A. 11. Forsyth, Q. ,T.
Math., London 1895.

-ocr page 162-

2)2 = 8 ï!-8 8r _ {m)

2 (r — 1) s 3 (r — 1) s

Hieruit vindt men door optelling:

6 (/?2 Pi — 1)
2/?2 —3/?! — 6\'

waaruit vervolgens : m — i- (?• 2) en dus :

r2 , 1)U

/?, (r—en/ ~ ena=,\\-V-)"\'

16 r—1

waarna men ook y0 kan vinden en de oplossing volledig is.

Deze geeft aanleiding tot de opmerking, dat (r — 1) po-
sitief moet zijn, daar
a niet imaginair kan en fi2 en s
positief zijn. Drukt men (r — 1) uit in /? dan krijgt men,

P_ l- 4/?2 — 3/?,

2/? 2 — 3/?! — 6

en daar de teller, zooals reeds bij type I opgemerkt is,
positief is, moet hier,

K, =2/?2— 3/?! — 6)0.

Evenzeer moet v reëel zijn en leert de uitkomst, dat
derhalve
s > r- moet zijn ; beziet men nu (12a) dan kan men
deze voorwaarde schrijven:

\\ o

16 (r — 1) ;

Maar uit de gevonden waarde van .<?, die persé positief
moet zijn, volgt:

lifr-2)\' , !
16 (r — 1) ^

Aan deze beide voorwaarden moet tegelijk voldaan zijn.
Substitueert men hierin de waarde van
r, in /? uitge-
drukt, dan krijgt men alweer het kriterium
k2 >

4#3>\' m Oen)ft

<*2 ~ 4 (4/02 - 3P\\) (2/?2 - 3/?, - 6)
Is hieraan voldaan, dan is vanzelf ook aan voldaan.

-ocr page 163-

Type V. y = y0 x P e y \' X

is, blijkens de waarde, die
men voor het kriterium zal
vinden, een overgangsvorm
tusschen de types IV en VI,
evenals type II dit tusschen

c, *-------ca---------.> j en xv was. In de praktijk

zou men zulke curven desnoods kunnen missen. Hun
voordeel ligt evenwel ten eerste in het wat eenvoudiger
rekenwerk. Maar vervolgens kunnen zulke types bij ver-
gelijkende statistieken niet onbelangrijke diensten bewijzen.
Wanneer men namelijk een aantal analoge statistieken
heeft, en het kriterium valt nu eens zoodanig uit, dat men
type IV, maar dan weer, dat men type VI moest aanpassen,
dan zou men in de zoo berekende parameters geen aan-
genaam overzicht hebben. Dit bereikt men wel als men
in zulk een geval aan alle gegeven statistieken type V
aan kon passen.

Dit type nu ontstaat, wanneer do Poarson\'sche diffe-
rentiaal vergelijking in den rechtschen noemer twee gelijke
wortels vertoont, en dus te schrijven is:

1 dy._ x

y dx ~~ c0 (c, rep "

Herleidt men deze:

1 dj_c^ 1 \'__1 _

y dx c0 (c, o-\')2 c0(c, -{-«)\'

dan vindt men door integratie, als y0 een constante beduidt,

y

y = y0el \'l (c i 4-«)~;\\
als men y = cx :c0 en p= 1 :crt noemt. Dit kan men door
verschuiving van den oorsprong schrijven:

py: &

1/=1j0x f .

Deze curve komt in vorm geheel mot type III overeen.
Ter oplossing moet men weer de momenten berekenen:

-ocr page 164-

n-p lf -zzp-n-2^

als men y: x = z stelt. Hieruit volgt:

« = Vo yn~p 1 T (p—n—).

Voert men nu weer de momenten rondom de centroïd in
dan volgt na eenige herleidingen:

-.x .. _ r2

(p-2)* (p-3) \'

y0r 1 r(p-i), =

__4 y3_

~~ (p-2)3(p-3)(p-4) \'
3(p 4)r4

Om hieruit de constanten der curve te berekenen, vormt
men weer de quotienten
Pt = f*4 / f*22 en /3., = f*a2 / f*2a,

16(p-3) _3(p 4)(p-3)

^i— (p_4)2\' (/>_5)(i,_4) »

waar de eerste uitdrukking kan dienen om p op te
lossen; de uitdrukking voor /u2 levert vervolgens het
snelst
y, waarna ook yt) berekend kan worden uit de
uitdrukking voor «.•

Elimineert men p tusschen /31 en /?2, dan krijgt men
een kriterium voor deze soort curven; dit blijkt bij uit-
werking weer *2 te zÜn> namelijk als voorwaarde *2 = 1.

y = y0 — «)?2:

is eerst later door
P e a r s o n gege-
ven, toen hij tevens
x2 als kriterium
aangaf. \') Want
men moet nu nog
een type bezitten,

00
l/<

y0x e y "v dx =

-ocr page 165-

dat men aan de data aan kan passen, wanneer k2 > 1 is.

Nu is bij Type I reeds opgemerkt, dat, wanneer daar e
negatief is, dan > 1 zou moeten zijn. Evenwel faalde dan
de daar gegeven oplossing. Toch moet langs dezen weg
de nog ontbrekende curve gezocht worden.

Wanneer e negatief is, kan men type I in de gedaante
schrijven:

y=y0 0» —a)\'"\' x~ m-

en als men deze uitdrukking nauwkeuriger beziet, merkt
men op, dat, in deze gedaante geschreven, type I zelf
een dispersiegebied zou hebben van
x = 0 tot x = a, maar
dat nu ook deze uitdrukking als frequentiecurve gebruikt
kan worden in het vak
x = a tot x = co. Ilier komt deze
curve in type overeen met type III. Nu zou men in beide
vakken deze curve als frequentiecurve kunnen gebruiken.
Maar zooals bij do oplossing van type I bleek, vindt men
in het vak 0 —
a geen reciele oplossing voor de constanten.
Het zal blijken, dat men wel een oplossing kan krijgen in
het vak
a — cc.

Men schrijft daartoe do curve in de gebruikelijke notatie:

y = y0(x — a)\'h x~\'l\\
en krijgt voor do momenten de uitdrukkingen:

f xn (x _ a)1i
= .Vo

i x •

a

of als men a\\x — z noemt:

n J a9i-9»~*-l

= yo <y2—n—l)r(<y84-l)

a?i—r(?i— n)

Nu blijkt deze oplossing geheel en al parallel te loopon
met die van type I, als men daarin ?», = — ij{ en m2 = q2
denkt. IIet zal daarom onnoodig zijn deze in extenso te
herhalen en alleen een vermelding der uitkomsten zal
voldoende zijn.

-ocr page 166-

Men stelt nu analoog:

r=~ qi ?2 2
£ = 1 — ?2—<Zl ?2
en dan zijn 1 ?2 en 1 — de wortels van:

z- — rz e = 0,

waarin a en e precies dezelfde functies van /?, en /3., zijn
als bij type I, en daar nu e negatief is, volgt analoog x., > 1.
Vervolgens geeft:

„ _qg(i-gt)(i y8)

^ ^"(r 1) \'

de snelste oplossing van a, waarna men nog met behulp
van een tafel voor P functies vindt:

sflYi-g«-1 r (qt)
y0- —g8 —l)T(l g2) •

Omtreilt deze oplossing kan nog een opmerking gemaakt
worden. In de algemeene uitdrukking voor fi\'n komt voor

een Y functie met argument (7,—q., — n—l), en daar
deze de voorstelling is der desbetreffende integraal, moet
dit argument positief zijn. In voorgaande analyse komt
hoogstens voor en dus is voldoende, wanneer
qx )5 72-
Daar 1 —
qv de negatieve wortel der genoemde vierkants-
vergelijking voorstelt, weet men alleen
qx > 1. Daar
gebruikt is ter wille van het kriterium, maar, voor de
eigenlijke oplossing, de momenten slechts tot en met
noodig zijn, kan men op een dergelijke manier dit type
reeds aanpassen aan gegeven data, als <7, ) 4 ; maar
dan kan het kriterium zijn beteekenis verliezen.

Men kan zich theoretisch zeer wel gevallen denken, dat
niet voldaan is aan
qx—q2 >5 of 4; in dit goval geldt
voorgaande oplossing derhalve niet meer. De integraal:

00

ƒ y0xn~^{x-a)^dx,
a

laat dan geen eenvoudige integratie meer toe, en hier faalt
de methode der momenten, daar
qx en y2 niet meer expliciet
opgelost kunnen worden.

-ocr page 167-

Men bereikt in dat geval ook het kriterium x2 ) 1 niet
meer.

Pearson\') laat deze mogelijkheid blijkbaar buiten
beschouwing, althans spreekt er geheel niet over. Bij de
door hem gegeven voorbeelden is aan de betrekking
<7i—?2 ) 5 steeds ruimschoots voldaan. Dit is nu in zeer
veel gevallen ook wel te verwachten. Hoe grooter namelijk
, hoe sneller de curve tot de
X-as nadert bij grooter
wordende x, dat is aan den kant, waar de curve onbe-
grensd is. Een waarde van
qx , die maar weinig grooter
is dan q2, zou een curve geven, die slechts langzaam tot
de
X-as naderde. Zulke Irequentieverdeelingen komen
echter weinig voor.2)

Dit neemt evenwel niet weg, dat dit het eenige zwakke
punt uitmaakt in de overigens zoo schitterende oplossing
van de constanten in het Pearso n \'sche stelsel, ook wat
betreft het kriterium. Men heeft dit kriterium gevonden,
door steeds één moment meer te berekenen dan noodig
was ter oplossing der constanten; nam men nu nog het
vijfde moment erbij, dan zou men op dezelfde manier een
ander kenmerk at kunnen leiden. Echter moet men hier
bedenken, dat do fouten op de achtereenvolgende momenten
snel toenemen, en derhalve een kriterium, dat hoogere
momenten bevat, steeds minder scherpe grenzen zal geven
tusschen de achtereenvolgende curven.

Bovendien verhoogt het becijferen van zulke momenten
het rekenwerk, verbonden aan een praktische toepassing,
vaak niet onbelangrijk. En waar toch reeds het rekenwerk
bij het aanpassen van curven nogal uitgebreid is, kan men

\') LoDdon, Phi). Trans. R. Soc. 197. 1901 (448 ov.).
2) Men moet hier, ovenals bij type Ia en Ih en type lila is
opgemerkt, weer een serio curven voor het gebruik buitensluiten,
dio wel in do Pearso n\'
bcIio differentiaalvergelijking liggen
besloten. ]\\Ianr hier staat het nog geenszins vast, dat deze curven
niet voor zouden kunnen komen in do praktijk, al is dit dan
ook niet waarschijnlijk.

Mij zijn geen gevallen bekend, noch uit ervaring, noch uit do
literatuur, dat hot buitensluiten van deze reeks curven tot
moeilijkheden aanloiding gaf.

-ocr page 168-

praktisch blijven volstaan met het kriterium x2. Dit geeft
dan volgend schema:

*2

— 00 . . .

type III

xa

> 1 en < oo .

type VI

— 1 . . . .

type V

*2

> 0 en <1 .

>3
< d

type IV

J12

= 0, /?,=<),

/?2

type II

1*2

= o> /?,=0,

/?2

= 3

normale]

*2

<0 . . . .

type I

Hier is nog de normale curve na type II ingevoegd, die
als bijzonder geval ook in dit stelsel past. Pearson1)
meende uit type IV de normale te kunnen afleiden, hier-
tegen bestaan echter bezwaren, zooals Koopmans-)
aantoonde.

Wel kan type II in de normale curve overgaan, namelijk

v1 - ai) -

Denk nu v = pa en p al grooter en grooter, dan wordt dit

Ik heb getracht de Pearso n\'sche ontwikkelingen hier
zoo-kort en toch zoo volledig mogelijk weer te geven. Nu
staat de praktische bruikbaarheid dezer curven zonder
twijfel vast. Ik zal mij hier echter van voorbeelden ont-
houden, omdat een enkel voorbeeld niets bewijst, maar
alleen een steeds herhaalde toepassing, waarvoor ik even-
wel naar de desbetreffende literatuur verwijzen wil.

\') Loudon, Phil. Trans. It. Soc. 180. 1895 (303).

2) G. C. A. Koopmans, Diss. Leiden 1907.

s) Voorbeelden vindt men voornamelijk in het tijdschrift
Biometriha. W. P a 1 i n E 1 d e r t o n , Froquency curves and
correlation, Londen 1905, gaf een aantal voorbeelden up actuarieel
gebied. Ook in de genoemde verhandelingen van P o a r s o n
(London-, Phil. Trans. E. Soc. 180. 1895 en 197. 1901) vindt men
tal van voorbeelden op allerlei gebied. Zie ook: K. Pearson,
Chances of death and other studies on evolution, London 1897.

-ocr page 169-

Het meest treffende van deze Pearson\'sche curven,is
de zeer schitterende oplossing der daarbij optredende con-
stanten en het fraaie gebruik van de momenten methode
hiertoe.

Ook het gevonden kriterium is volkomen passend in deze
oplossing, zóózeer zelfs, dat wanneer men een andere curve
aan zou willen passen, dan dit kriterium aangeeft, men
vanzelf op onmogelijkheden in de oplossing stuit. Het
inderdaad zeer kleine bezwaar, dat men bij Type VI aan-
trof, komt praktisch niet in aanmerking.

Wel moet men opletten, dat wanneer men zuiver op het
kriterium afgaat, types zooals II, III en V, praktisch nooit
voor den dag komen. Dit onderscheidt dus meer de types
I, IV en VI, de werkelijke hoofdtypes; II en V bewijzen
hun diensten maar in een\' beperkt aantal gevallen; III
daarentegen neemt een geheel bijzondere stelling in, waar-
over verder meer. Een praktische vertrouwdheid met dit
systeem, leert spoedig, binnen welke grenzen het kriterium
moet liggen, om de aanpassing van deze laatste curven
met vrucht ter hand te nemen.

Toch bestaan er tegen deze Poarson\'sche curven be-
zwaren, die ik achtereenvolgens bespreken wil.

Een bezwaar, waar soms \') nadruk op wordt gelegd, is
het feit, dat de verschillende waarden, die aan do constanten
der curve werden toegekend, in strijd geraken met de tot
grondslag gelegde urnenproef. Van de vele gevallen, die
men bedenken kan, noem ik er hier óón.

Men weet, dat A,t positief zal zijn, want A3 = 1 : (n -f- 2)
en n is het aantal kogels in een urn. Even later heeft

men in moeten voeren: v= ja3 («, —

Nu eischt type I: a, positief, a2 negatief en A3 negatief,
hetgeen, ook als men a, en a2 verwisselt, strijdt met ge-
noemde betrekking. Met andere woorden: een frequentie-
verdeeling, zooals type I aangeeft, kan in het wezen der
dingen niet op een proef, als de onderstelde, baseeren.

Ik wil hier do overgang van de law of slopo, tot de dif-
ferentiaal vergelijking even buiten beschouwing laten en

\') G-. C. A. Koopman», 1.c.

-ocr page 170-

neem eens aan, dat inderdaad de P e a r s o n\'sche curven
nauw zouden aansluiten bij de hypergeometrische reeks. In
dit geval beteekent dus een dergelijk bezwaar, dat niet de
oorspronkelijk genoemde, maar een andere hypergeome-
trische reeks ten grondslag had gelegen. De gegeven theorie
is dan algemeener, dan met de urnenproef vooropgesteld
werd. Dit zou nu eerder een voordeel, dan een nadeel te
achten zijn, mits men een frequentie verdeeling volgens
elke willekeurige hypergeometrische reeks verwachten kon.
De algemeene mogelijkheid daartoe zie ik echter niet, en
dus als vast stond, dat men bij elke frequentie verdeeling
volgens een P e a r s o n\'sche curve, de daarmee analoge
hypergeometrische reeks kon aanwijzen, dan zou toch nog
de mogelijkheid ontbreken, deze reeks uit de inwendige
orde der dingen plausibel te\'maken.

Hiermee ontvalt aan de P e a r s o n\'sche inzichten een
belangrijk steunpunt, daar hij toch steeds zijn standpunt
blijft handhaven, dat zijn curven juist dién vorm, die deze
bezitten, móeten hebben, omdat deze het gevolg zijn van
het mechanisme van oorzaken, die de frequentie verdeeling
tot stand bracht.

Van dit bezwaar is Pcarson zich wel bewust geweest,
en hij verdedigt zijn inzichten op twee manieren.

In de eerste plaats geeft hij een voorbeeld, hoe men een
curve type I ontstaan zou kunnen denken. O]) een lijn
van de lengte l plaats men willekeurig telkens een reeks
van (r-j-1) punten; dan wordt de frequentie, dat het punt
pr van af het eene uiteinde der reeks en qr van af het
andere, op het element
2x van de lijn valt, uitgedrukt door

hetgeen in type met I overeenkomt.

Met deze afleiding wordt evenwel niet het geheelc stelsel
van P e a r s o n plausibel gemaakt, maar alleen deze ééne
curve.

-ocr page 171-

Een andere verdediging berust op het feit, dat de termen
van een asymmetrisch binomium ook nog zeer wel bij een
frequentie verdeeling aan kunnen sluiten, al hebben de
constanten van het binomium een andere numerieke waarde,
dan men volgens de gewone theorie verwachten zou. \')
Daaruit blijkt, dat ook in de praktijk toepassingen, die op
dit binomium baseeren, boven de oorspronkelijk ten grond-
slag gelegde theorie uitgaan. Iets analoogs voor de hyper-
geometrische reeks zou dus geen vreemd verschijnsel te
noemen zijn.

Ilier is evenwel tusschen deze twee gevallen nog een
verschil, dat het binomium met elke willekeurige waarde
voor de daarin optredende constanten theoretisch wel
verwacht kan worden, en zooals gezegd de hypergeome-
trische reeks niet. Een binominale verdeeling, volgens een
binomium
(p -f- q)", waarin -f- </ = 1 en n positief moet
zijn, resulteert zooals bekend is uit een urnenproef, bij
n
trekkingen, als men de ballen teruggelegd denkt. Voor
andere waarden, speciaal voor n negatief, heeft Pear-
s o n 2) een zeer vernuftige manier bedacht, het mechanisme,
volgens hetwelk dan een binominale verdeeliug zou resul-
teeren, te verklaren.

Onderstel, de groei van een of ander orgaan (zeg een
vrucht) hangt van een bepaalde voorwaarde af, ot een
complex van voorwaarden, dat men D kan noemen. De
kans, dat D aanwezig is na elke celdceling, zij
t, en de
kans, dat D dan niet aanwezig is, zij
k.

Wanneer nu D bij do eerste n celdeolingcn n keer aan-
wezig was, heeft men een bepaalde grootte van het orgaan;
wanneer D pas bij de eerste n - -1 celdeelingen n keer
aanwezig was geweest, een andere, even daarvan afwijkende
grootte, en wanneer D eerst bij de eerste n -)- 2 celdeelingen
n keer aanwezig was, weer een afwijkende grootte, enz.

1) K. Poarson, London, Phil. Trans. R. Soc. 186.1895 (351)
geeft het binomium

151.89 (l — 0.161552) °-0:J7685 >
dat bij een daar genoemde frequentie verdeeliug berekend is.

*) Biomotrika, Cambridge. t. 1905/6 (209).

-ocr page 172-

Neemt men nu bovendien aan, dat alleen als D ft keer
aanwezig is geweest, men reden heeft om van het orgaan
als zoodanig te spreken. Observeert men nu op een gegeven
moment een aantal organen als het besprokene, dan zullen
deze, wat hun grootte betreft, volgens een bepaalde fre-
quentieverdeeling verdeeld zijn, al naarmate D bij de eerste

n, n-f- 1, ft 2,____ celdeelingen n keer aanwezig was

geweest. De kansen, dat men een grootte van het orgaan
vindt, overeenkomende met n keer de werking van D na

n, ft-j-1, ft-j-2,____ft-j-r celdeelingen, zijn evenredig met

de termen der reeks:

^ Mi?L I) ... n(n l)...(n r-l)7rV ?
welke men sommeeren kan:

De resulteerende frequentieverdeeling zal dus evenzeer
volgens de termen van dit binomium zijn, en dit is een
binomium met negatieven exponent, en nóch p, nóch
q
behoeven kleiner dan 1 te zijn.

Te veel waarde moet men aan een dergelijke afleiding
niet hechten; niemand zal nu toch durven beweren, dat
dit inderdaad de verklaring van het mechanisme is, volgens
welk een binomiqpi met negatieven exponent in de natuur
optreedt. Men weet van de eigenlijke oorzaken, die de
variatie bepalen, veel te weinig af. Bovendien onderstel
ik ook, dat deze inderdaad veel te ingewikkeld zijn, om
in zulk een eenvoudig schema in alle exactheid onderge-
bracht te kunnen worden. Toch nèemt dit niet weg, dat
men zulk een eenvoudig schema dan wellicht gebruiken
kan, als een ideale benadering aan de werkelijkheid, in-
gevoerd terwille van de vatbaarheid voor mathematische
behandeling. Maar men dient in het oog te houden, dat
het resultaat, dat men met het op te stellen schema bereikt,
aansluit aan de praktijk. Zoo heeft een redenéering als
bovenstaande alleen daarom eenigo bcteekenis, omdat men
van te voren weet, dat er frequentieverdeelingen voorkomen,
waarbij zulk een binominale reeks min of meer aansluit.

-ocr page 173-

Nu meent P e a r s o n van de hypergeometrische reeks
een analoge eigenschap te hebben opgemerkt en moet hij
dus trachten de hiermee overeenkomende frequentiever-
deelingen ook theoretisch te grondvesten. Indien hiervoor
niet eenvoudig en algemeen een mechanisme te bedenken
was, bewijst dat nog geenszins, dat nu deze reeks als
grondslag persé te verwerpen is. Integendeel, hier zou
de praktijk de theorie wat vooruit kunnen zijn en met wat
goeden wil en spitsvondigheid zal het wel mogelijk zijn, ook
voor andere hypergeometrische frequentieverdeelingen
dan de hier in het begin genoemde, een verklaring te
vinden, hoe deze in de natuur voor zouden kunnen komen.

Echter is het stelselmatig zoeken hierna, m.i. een nutte-
looze arbeid. Want al had men zich volkomen rekenschap
kunnen geven, hoe zulk een hypergeometrische frequentio-
verdeeling theoretisch tot stand zou kunnen komen, dan
is men nog niet veel verder doorgedrongen in het wezen
der dingen, omdat zulk een redeneering nog geenszins
bewijst, dat het nu ook zóó zijn
moet, en niet anders kan.

Ik merk hier weer iets analoogs op als bij do normale
curve. Al dergelijke redeneeringen als K a p t o y n \'s
regen en zonneschijn, Pearson\'s urnenproef, e.a.,kun-
nen nooit een bewijs geven van de voorhanden frequeptie-
verdeeling, maar zijn alleen vernuftige en logische rede-
neeringen, om aan te toonen, hoe eenigo theoretische
grondslagen, die men voor do verschijnselen bedacht heeft,
in overeenstemming met do waarneming zouden kunnen
zijn. Zulke problemen zijn meer puzzles en hebben minder
praktisch belang.

In het algemeen meen ik ook, dat de methode, het
innerlijk wezen der frequentieverdeelingen te willen
doorgronden, door hieraan een eenvoudig gebouwde reeks
ten grondslag te denken, nooit tot een bevredigend doel
zal leiden. Het ligt wel eens waar voor de hand zulk
een weg in te slaan, daar men vertrouwd was geraakt
met de normale frequcntieverdeeling en het verband, dat
er tusschcn deze en het binomium bestaat. \') Toch meen

\') Hier past nog eon enkel woord over liet gebruik van binomia
als „frequentiecurvon", die o. a. door Lu d wig, Bot. Centralbl.

11

-ocr page 174-

ik, dat het verband, dat er tusschen de verschijnselen en
de ten grondslag liggende oorzaken bestaat, van veel

Cassel. 73. 1898 en Ed. Verschaffelt, Berlin, Ber. D. bot.
Ges. 13. 1895, op den voorgrond geschoven worden. Ludwig zegt
hier, dat „die Curven welche für die Variation pflanzlicher Merk-
male auf dem statistischen Weg bisher gewonnen werden, sind
alle zurückführbar auf die Binomial oder G a u s\'sche Curve."

Uit zijn verhandeling blijkt evenwel, dat bij, behalve de gewone
normale curve, nog moet invoeren : het asymmetrisch binomium
(hetwelk ontstaan zou, indien ,negative Abänderungsursachen einen
grosseren Einflusz haben als die positive", zooals Verschaffelt
opmerkte) en een curve, die ontstaat door de middelste ordinaten
van een normale frequentieiiguur te vergrooten. Deze laatste zou
ontstaan, als een bepaald percentage der individuen niet aan de
gewone variatie meedoet.

Het aanpassen ran het eene of het andere type aan do data
is min of meer afhankelijk van het oordeel van den bewerker,
daar geen kriterium gegeven kan worden, wanneer de een, en
wanneer do ander voorhanden is.

Ook Verse haffeit toont met een voorbeeld aan, dat „min-
destens in gewiszen Fällen, asymmetrische Curven eben so gut
wie symmetrische, binominal sein können."

Aan verschillende kanten is blijkbaar dit binomium op den
voorgrond gebracht.

Echter meen ik, dat hier de redeneering niet geheel en al zuiver is.

Een zeker probleem in de theorie der waarschijnlijkheidsrekening
geeft een frequentieverdeeling volgens do termon van een binomium.
Aan den anderen kant geeft de theorie der fouten, do op gansch
andere grondslagen rustende, normale wet, als wet, volgens welke
do fouten rondom de ware waarde verdeeld zullen zijn. l)at deze
twee frequentieverdeelingen onder zekere voorwaarden overeen-
stemmen, is zuiver toevallig.

De normale wet, zooals die in do statistiek gebruikt wordt, is
de wet uit de foutentheorie on berust niet in do eersto plaats op
binominalen grondslag. Men doet dus wellicht best, zoo weinig
mogelijk theoretische boteekenis to hechten aan do redeneoringen,
die het binomium als uitgangspunt namen.

Geheel hetzelfde geldt voor het asymmetrische binomium mot

-ocr page 175-

te ingewikkelden aard is, dan dat men met analogiën van
kansspelen, iets meer dan zeer oppervlakkige resultaten
zou bereiken.

In het feit derhalve, dat Pearson de hypergeome-
trische reeks als, grondslag nam, kan ik niet zulk een
baanbrekende beteekenis zien, als Pearson zelf wil
doen gelooven.

Nu komt daar ten overvloede nog bij, dat de overgang
van de Law of slope, zooals de gezegde reeks die geeft,
tot de Pearson\'sche differentiaalvergelijking, een sprong
is, die niet mathematisch te verdedigen is.

Aan deze vergelijking, en dus aan zijn curven, deze reeks
ten grondslag te leggen, is derhalve min of meer speculatief.
Aldus beschouwd zouden de P e a r s o n\'sche curven alleen
empirische kunnen zijn, zonder eenige diepere gronden.

De praktische bruikbaarheid dezer curven in aanmerking
nemend, kan men zich de vraag stellen, of er dan niet
een andere weg is deze differentiaalvergelijking te bereiken,
zóódat men wel eenig inzicht leert krijgen in het mechanisme,
dat een frequentieverdeeling in de natuur tot stand brengt.

Daartoe zal in het volgende deze differentiaalvergelijking
nader besproken worden.

HOOFDSTUK VII.

De Pearson\'sche differentiaalvergelijking.

In een latere verhandeling, waar Pearson nog iets
omtrent zijn curven zegt,1) laat hij do gchcele redeneering

kleinere waarden van den exponent. Dat do termen hiervan min
of meer goed aansluiten bij werkelijk waargenomen frequentie-
verdeelingon, kan toevallig zijn, maar behoeft geenszins hot mecha-
nisme dezer froquentieverdeelingen te verklaren.

Nogmaals, hetzelfde geldt voor Pearson\'s hyporgeomotrischo
reeks.

\') Drapers Comp. Research Memoirs, Biometric series 11, Lon-
don 1905.

-ocr page 176-

der hypergeometrische reeks weg, en zegt slechts, dat de
meest voorkomende quasi-normale vorm der frequentie-
figuren, de differentiaalvergelijking:

dy yjx a)_
dx
F (x) \'

aan de hand doet, daar hier als voornaamste vorm in
opgesloten kan liggen, de curve met één enkel maximum
bij
x = — a, terwijl aan weerszijden hiervan de ordinaten
snel afnemen.

Denkt men zich nu F (x) in een T a y 1 o r \'sche reeks
ontwikkeld, dan krijgt men de differentiaalvergelijking

1 dy_ _x-\\- a_

y dx b{) bxx b2x2 -f----\'

De methode der momenten levert van de hierbij pas-
sende curven een eenvoudige oplossing. Vermenigvuldi-
gend met x11 en de integratie uitstrekkend over het ge-
heele dispersiegebied heeft men:

ƒ xn (&0-f b1x-{- b2x--\\-____)^~dx=jy(x-\\- a) x" dx.

Met de gewone notatie p\' voor de momenten rondom
een willekeurige as, en N voor de totale frequentie, is
zooals bekend,

• Nyw = fyxn dx,

weshalve men bovenstaande uitdrukking partieel integrce-
ren kan:

[;yxn (b0 bla: bix* ....)]-(« K (» D

waarbij men de term [ ] nul kan onderstellen aan do gren-
zen van het integratiegebied. Doet men dit, dan sluit men
types zooals
la, lila, e. d. nog niet uit, daar hier wel eens
waar aan het eene einde van het dispersiegebied
y oneindig
is, maar, zooals opgemerkt,
yx11 weer nul zal zijn, indien
men juist daar den oorsprong kiest.

-ocr page 177-

Neemt men nu in de uitkomst

(n 1) (n 2) ....=

achtereenvolgens n = 1, 2, — s 2, dan krijgt men
(s 2) vergelijkingen voor de parameters a, &0, ____ft ,

namelijk:

ft\'0a 060 fi\'0 -\\-2fi\'i &2 ----

« i"\'o &o 2^\'t 6, &2 . . . . = — 2,
rt
2^\', &„ 3fi\\ -f V3 &o 4- • • • = — A»\'»»
— — — — — — — — — — — — —, enz.

Houdt men nu in de T a y 1 o r\'sche ontwikkeling van
F
(x) alleen &0, dan luidt de oplossing, tevens de momenten
rondom de centroïd invoerende:

1 dy _ jb
y dx

wat de differentiaalvergelijking is der normale wet.

Behoudt men alleen b0 en ft, , dan krijgt men, eveneens
de momenten rondom de centroïd nemende, na eenige
herleiding:

fis

1 dy _ x ^2
y dx . \'

wat do differentiaalvergelijking van type III is.

Ten slotte luidt op dezelfde manier do algemeeno P e a r-
s o n\'scho differentiaalvergelijking:

fia(fii 3^1)_

_ -1" - 18^ga —12At8 8___

_n2(4,uifii — 3lu\'i)__, fia (fi4 Sul) , 2^2/m4—\'óp*—tip» \'

10^2^,-18^3-12,"I ^ 10^2^-18^0- 12j«S 10^4-18^- I2pl x

Nu zegt Pearson \'): „this equation gave Types I—VI",
maar zooals bovenstaande analyse leert, zijn types als
I/; en II/> in dit algemeeno geval toch wel buitengesloten,

) Drapers Cornp. Research Mouioirs, Biometric series II. Lon-
don 1905 (7)

-ocr page 178-

daar men hier niet zonder meer de term [ ] uit (1) aan
beide grenzen nul kan stellen.

Nu lijkt deze analyse buitengemeen eenvoudig, en veel
korter en uniformer dan de aanpassingsmethoden in het
vorige hoofdstuk besproken. Echter is dit schijnbaar, want
het uitrekenen der coefïïcienten der differentiaalvergelijking
in elk bepaald geval, en met de dan verkregen getallenwaar-
den integreerend, is nog een tamelijk groote bewerking. \')

Daarbij heeft men dan het nadeel, dat men types zooals
II of V praktisch nog minder bereikt dan anders, tenzij
men toch weer eerst het kriterium becijfert. Voor het
praktische gebruik zijn de in het vorige hoofdstuk bespro-
ken methoden verreweg de beste en dient het sterk afge-
raden te worden, de aanpassing volgens deze laatste
methode te doen plaats vinden. 2)

Echter heb ik deze analyse genoemd, om te doen zien,
wat het eigenlijke verband is met de normale wet. Zoo
opgevat, zijn de Pearso n\'sche curven een zuiver logische
uitbreiding van de normale.

Ook ziet men, hoe type III een geheel aparte stelling
inneemt. Dit komt volkomen uit met mijn ervaring, dat
type III in vele gevallen nog een zeer bruikbare curve
levert, waar het kriterium duidelijk een andere curve
I aanwijst.

Type III is dus als het ware een geheel in zich zelf
afgesloten frequenflecurve, en men kan dus beginnen in
elk geval, waar de normale curve niet meer deugt, type III

-ocr page 179-

te probeeren. Is men ook hier niet mee tevreden, dan kan
men een der andere curven nemen, die op de volledige
P e a r s o n\'sche differentiaalvergelijking berusten.

Maar nu belet theoretisch ons niets, indien geen enkele
curve bevredigde, nog een term meer in den rechtschen
noemer der differentiaalvergelijking te behouden. Echter
is de aanpassing van alle daarbij passende curven te moei-
lijk, om deze in een overzichtelijken vorm te kunnen brengen,
en in elk geval neemt het rekenwerk dan zeer toe.

Theoretisch is er aan dit proces geen einde, en door
maar steeds meer termen te houden, kan men allicht bij
alle denkbare frequentie verdeelingen een aansluiting ver-
krijgen. Zulk een redeneering wordt dan min of meer
analoog aan de analytische frequentiefuncties van Bruns,
Thiele, e.a. Maar dit wil men met de frequentie„curven"
juist niet bereiken. Een dergelijke uitbreiding te geven
aan de P e a r s o n \'sche curven is dus voorloopig niet
gewenscht, hoewel hier eventueel de richting aangegeven
is, waarin dit stelsel uitbreiding zou kunnen ondergaan,
als men ook eens andere voorkomende vormen, zooals
bijvoorbeeld multimodale curven, wenschte mee in te sluiten.

Bij een bespreking dezer curven blijft men echter thans
bij
x- in de ontwikkeling van F(a?) staan. Volgens het
voorgaande is dit geheel willekeurig, en do eenige reden
die men heeft is do zuiver empirische: in dezen vorm
levert de differentiaalvergelijking een stel zéér bruikbare
curven, namelijk:

1°. bruikbaar als afrondingscurven;

2°. bruikbaar als vergelijkingscurven, om van eenige
analoge frequentieverdeelingen liet individueoio verschil
te doen uitkomen. Want, daar geen momenten hooger dan
het 4de gebruikt zijn, zijn ook de constanten met een niet
te groote fout aangedaan; hierop kom ik trouwens nog
terug in hoofdstuk VIII.

Er rest nu nog na te gaan, of men aan deze theorie een
uitbreiding kan geven, om tot regressieonderzook te ge-
raken ; én men zal nog wenschen iets omtrent de oorzaken
van de variatie -op het spoor te komen, waarvan het tot
nu toe niet gelukt is veel te zeggen, daar men P e a r s o n \'s
hypergeometrische reeks niet aanvaarden kon als grondslag.

-ocr page 180-

Terwijl ik de mogelijkheid tot regressieonderzoek aan
het eind bespreken zal, wil ik eerst op dit laatste nader
ingaan.

De eenige manier om althans iets omtrent de oorzaken
der variatie op het spoor te komen, is aangegeven door
de methode van J. C. K a p t e y n.1)

Deze stelt zich volgende vraag: wat zal de frequentie-
verdeeling zijn van zekere grootheden
x, die in den
beginne alle gelijk zijn, als hierop oorzaken gaan werken,
die een frequentieverdeeling tot stand brengen, als de
door de oorzaken teweeggebrachte afwijkingen afhankelijk
zijn, op een bepaalde manier, van de waarde der grootheid
x, die deze op het moment van in werking treden der
oorzaak heeft.

Leest men hier onafhankelijk in plaats van afhankelijk,
dan heeft men, zooals gezegd, een der meest essentieelo
condities, waarop men theoretisch een normale frequentie-
verdeeling bereiken kan.

Om te beginnen denke men zich nu een tweede groot-
heid
z, die een bepaalde functie van x is, zeg

z = Y (x).

Het symbool A zij een waargenomen frequentie van de
grootheid
z, voor een of andere bepaalde waarde van z,
dan komt met elke A een zekere frequentie Aa? der
grootheid
x overeen, en wel zal

........®

Nu denke men zich omgekeerd, dat op de oorspronkelijk
gelijke grootheden
x, oorzaken werken, die een afwijking
ten gevolge hebben, evenredig met 1: F\'
(x). Deze af wij-
kingen voldoen aan het vooropgezette.

In dit geval ondergaan ook de grootheden z afwijkingen,
daar de veranderingen van
z afhankelijk zijn van die van
x, echter zijn deze afwijkingen (= A) nu volgens (2) onaf
hankelijk van de waarde van
z.

Men kan dus wellicht onderstellen, dat de grootheden
z een normale verdeeling hebben van de gedaante:

1 ) Skew Frequency curvea, Groningen 1903.

-ocr page 181-

1 -(z m)* :2<r2
y= e

Daarentegen zij de gezochte frequentieverdeeling van
de grootheden
x:

y = <p (x).

De frequentie van de grootheid z, tusschen z en z-{-dz,
en van x tusschen x en x dx, zal dus zijn, respectievelijk:

1 — (z-my : 2<r2"

dz en <p(x)dx.

0-1/2*-

Maar als x tusschen x en x-\\-dx ligt, ligt z tusschen
z = F (x) en z -j- dz = F (x) -f- F\' (x) dx en omgekeerd, daarom
moeten beide genoemde frequenties noodzakelijk identiek
gelijk zijn:

en voert men hierin in 2 = F (#) en rfz = F\'(.-r)d.r, dan krijgt
men als gevraagde frequentiecurve, die in hoofdstuk V
reeds de frequentiecurve van Edgewort li-K a p t e y n
genoemd werd:

• » 1 T,., , — [F(ar) - Bi]« : 2c-2

Op de vooropgezette vraag is nu een antwoord gegeven,
waartegen men alleen in zou kunnen brengen, dat niet
streng bewezen is, dat inderdaad de grootheden
z een
normale frequentie vcrdeeling volgen. Evenwel is dit be-
zwaar, gezien do bekendheid met de normale wet, van zeer
ondergeschikt belang.

De geheo.le K a p t e y n \'sche redeneering is niet alleen
zeer eenvoudig, maar geeft den juisten weg aan, hoe men
de vragen naar het verband tusschen het resulteerend
uiterlijk der frequentie verdeelingen en do werkende oor-
zaken, moet inkleodcn.

Men voelt zich aldus op heel wat vaster grond, dan wan-
neer men zijn redeneeringen op de binominale of andere
reeks moet baseeren. Maar men moot in deze redeneering
nu ook niet meer willen lezen, dan er inderdaad door do
analyse is ingelegd.

-ocr page 182-

Doet men dit wel, dan komt men tot bezwaren als
Pearson hiertegen ontwikkeld heeft. Er is, zegt Pear-
s o n 1), in het algemeen bij een statistische reeks geen
grootheid
z aan te wijzen, die een normale verdeeling
volgt. Hierin heeft Pearson in zooverre gelijk dat, a
priori, deze grootheid, bijvoorbeeld bij metingen van sche-
delomvangen, niet is aan te geven.

Bovendien geen enkele biologische of sociologische sta-
tistiek heeft ooit een dergelijke afhankelijkheid doen zien.
In het algemeen zijn twee statistische reeksen niet func-
tionaal van elkaar afhankelijk, maar de verwantschap
wordt uitgedrukt door wat men „correlatie" noemde.

Maar hier ziet Pearson het doel van K a p t e y n
totaal voorbij, en heeft hem de toch zoo juist geformuleerde
opgave, die K a p t e y n zich stelde, niet duidelijk voor
oogen gestaan. In de eerste plaats is Kapteyn\'s
grootheid
z een analytische rekengrootheid, en alleen
indien a priori vermoed kan worden, dat er zulk een
grootheid in een gegeven geval bestaat, dan is het middel
gevonden deze op te sporen.

Wat Kapteyn met zijn grootheid z bedoelde, blijkt
het eenvoudigst uit een voorbeeld: „Valuation of House
property in England and Wales, 1885 and 1886." 2) Bij deze
frequentieverdeeling wérd voor F
(x) = (x a)ff gevonden:
g = 0 en # = — 2.21\'. Deze frequentieverdeeling zou dus
ontstaan zijn door oorzaken, waarvan de werking evenredig
was met
x — 2.2 i\'.

Met andere woorden: de waarde van huisbezit in Enge-
land is bepaald door oorzaken, waarvan althans voor
grootere waarden de uitwerking bijna evenredig is aan
die waarde zelf.

Deze uitkomst komt wel uit, want: zeer aannemelijk
is de waarde van huisbezit ongeveer evenredig met den
rijkdom van hun eigenaars. En ook: de meeste oorzaken
die kapitaalverandering te weeg brengen, zijn in hun
uitwerking ongeveer evenredig met het reeds verkregen

1 \') Biometrika, Cambridgc, 4 1905/6 (169 c. v.)

-ocr page 183-

«

kapitaal. Bovendien, hoe kleiner het kapitaal, hoe minder
de evenredigheid uitkomt en een onderste grens van 2.21\'
voor een huis is niet absurd, terwijl er toch zeker wel
een onderste grens zijn moet.

Maar, zegt Kapteyn zeer duidelijk \'): „It is true that
what we derive in this way about\'the causes, may need
confirmation in most cases, perhaps in every case. For,
the distribution-curves beiing observed curves will certainly
very seldom be exactly representable by such a form...
and this beiing the case, it is possible nay probable, that
we may succeed in different ways in obtaining a more or
less satisfactory analytical representation of them."

Hoewel de K a p t e y n\'sche curven van alle mij bekende
curven diegene zijn, die nog het meeste verband houden
met de mechanismen, die de frequentievcrdeeling tot stand
brengen, ziet men, hoe Kapteyn zelf erkent, hieraan
niet te veel waarde te moeten hechten. Dit zij een waar-
schuwing aan al diegenen, die zoo gaarne door middel
van frequentiecurven de geheimen der samenleving ont-
sluieren zouden: hiervoor dienen frequentiecurven ten
eenenmale niet.

Maar daarom des te meer, ook na wat in hoofdstuk V
besproken werd, is er geen enkele reden, waarom men
de Kapteyn\' scho curven niet prijs zou geven voor
een ander stelsel, dat mathematisch veel toegankelijker
is, dat zijn de P e a r s o 11\'scho curven.

Deze zijn als volgt, onder gebruikmaking van de grond-
slagen, die K a p t o y n gegeven heeft, af te leiden. Schrijft
men
f(x) voor F (x) — m, dan luidt do algemecnc frequen-
tiecurvo van Edgeworth -Kapteyn:

Vormt men hiervan de differentiaalvergelijking:
1
r /•/,, N H/W^o-2 1 f,,, J8,, \\ ,—KOOI2:2<r2\'

-ocr page 184-

hetwelk men door deeling met de oorspronkelijke verge-
lijking kan omvormen in:

y dx

Noemt men nu ter bekorting,

f"{x)-^\\f\'{x)\\2 f(x) 1

xfjx) \' \' \' (3)

dan krijgt men de uiterst eenvoudige differentiaalverge-
lijking :

1 dy_ x

y dx <p(x)\'

die even algemeen is als de vergelijking van Edgewort h-
K a p t e y n , waaruit deze ontstaan is.

Nu kan men evenwel niet meer f (x) eenvoudig oplossen
voor elke gegeven
<p(x), en dus een redeneering als de
genoemde van Kapte y n, wat de oorzaken der variatie
betreft, gaat niet meer door. Daar evenwel zulke rede-
neeringen meer verwarring dan nut brengen, doordat er
steeds menschen geneigd zijn, hieraan veel te veel draag-
kracht toe te kennen, is dit niet zoo\'n groot bezwaar.

Denkt men zich nu in de laatste vergelijking <p (x) ont-
wikkelbaar naar opklimmende machten van
x, en blijft bij
de termen met
x2 staan, dan heeft men de Pearson\'sche
differentiaalvergelijking bereikt, namelijk:

1 dy__x

y dx ~~ b0 -f- b[x -f- b\'»x2\'

Maar tevens heeft men de algemeenheid van <p(x) aan-
merkelijk beperkt, èn door die ontwikkelbaarheid, öndoor
zulk een sterke convergentie aan te nemen.

Men kan dit plausibel trachten te maken door met P e a r-
s o n te zeggen, dat meer termen, zeer veel meer reken-
werk mee brengt, en tevens de hoogere momenten met
hun grootere fout, welke hen minder geschikt maakt voor
vergelijkende statistieken. \')

-ocr page 185-

Nog kan men zeggen dat in de differentiaalvergelijking,
zooals deze op pag. 165 voorkomt, do coefficienten in den
rechtschen noemer snel afnemen, indien de frequentie ver-
deeling veel op een normale gelijkt. Want bij een normale
verdeeling is:

P2s f 1= 0 en (2{? — ^s P\'2s—2==0

en wanneer men nu bij een quasi normale verdeeling deze
uitdrukking gelijk een kleine grootheid 5 denkt, ziet men
direct, dat de eerste coëfficiënt van de orde
S is, de vol-
gende van de orde
S-, en dus de convergentie inderdaad
aanwezig schijnt.

Maar dit neemt niet weg, dat desalniettemin deze be-
paalde keuze van
<p(x) volkomen willekeurig is, en de
meest steekhoudende grond is: dat aldus een stel praktisch
goed bruikbare curven verkregen wordt.

De Pearso n \'sclie curven zijn dus volkomen empirische,
en het is jammer, dat P e a r s o n zelf dit maar niet er-
kennen wil. Wanneer deze niet omgeven waren door de
nimbus der hypergeometrische reeks, of wat ook, zouden,
twijfel ik niet, ook buiten Engeland zijn curven reeds
veel meer genoemd en toegepast zijn.

Nu is bij het bespreken van Edgeworth\'s methode
van translatie reeds gezegd, hoo men hier een toeganke-
lijke basis had voor een verbetering van de methodes voor
correlatie en rogressiebepalingcn.

Wilde men ook do Pearso n \'scho curven tot dergelijke
bepalingen gebruiken, hetgeen toch zonder twijfel zéér
gcwonscht was, dan stuit men op de oplossing van do
differentiaalvergelijking (3), die, als men
f(,v) = z noemt,
geschreven kan wordon:

___=__\\.......(4)

-ocr page 186-

Deze kan men schrijven in de gedaante

z\' 0-2"" bo b^ b^2\'

waarna men als eerste integraal vindt:

log - 2^2 = ƒ  COnSt

of ook:

/x dx

wiioit * e — e 0 1 1 \' 2 .

Hiervan is het eerste lid, op de constante factor na, weer
gelijk aan de algemeene vergelijking van Edgewortli-
K a p t e y n, namelijk:

, — z2 : 2<r2
y = const. z\' e

Nu is bijvoorbeeld van type III de vergelijking ten
opzichte van een willekeurige Y-as:

y — vo (x *)p qx-
Nu heeft dus bovenstaande eerste integraal tot geen ander
resultaat geleid dan tot de gelijkstelling van:

e-*2 :2<r2^= const. (* *fe-V., . . (5)

welke vergelijking voor z men evenzoo onmiddellijk op had
kunnen schrijven door op te merken, dat de vergelijking
van Edgeworth-Kapteyn identiek aan de vergelij-
king van type III had moeten zijn. \')

Hot is nu de vraag, uit (5) 2 als eeri functie van «expli-
ciet op te lossen. Want men weet, dat, wanneer men
twee veranderlijken
xy en x2 had, terwijl zl=fi{xx)
en z2 = f2 (x2) de gewone B r a v a i s\'sche wet volgden,
men door aan
x2 de bepaalde waarde h2 toe te kennen

-ocr page 187-

als frequentiewet voor xx weer zou verkrijgen een wet
van de gedaante:

, , — z,2 : conat.

y = const. z/1 e 1 ,

waarin de beide constanten, o. a, ook van li., afhankelijk zijn.

Nu moet men, zooals ook in hoofdstuk V besproken is,
dij / dx nul stellen, om hieruit de regressievergelijking te
vinden, en dit geeft, zooals bekend:

d2z , (dz\\2 _

-d^-constz\\dx) =0>

als de vergelijking, waaruit men, indien z bekend was als
functie van
x, x moest oplossen, om de regressie vergelij-
king in de gewenschte gedaante afgeleid te zien.

Voor zoover mij bekend, is deze weg om tot een regressie-
onderzoek te komen, baseerende op do Pearson\'sche
curven, nog niet bewandeld. Al is het mij tot nu toe niet
gelukt, hier een eenvoudige praktisch bruikbare uitkomst
te bereiken, zoo meen ik toch, dat het de moeite waard
was deze richting aan te geven, waarin de studie der
P e a r s o n\'sche curven uitgebreid kan worden.

HOOFDSTUK VIII.

Over de fouten bij de Pearson\'sche frequentiecurven.

Do Pearson\'sche curven zouden slechts onvolledig
besproken zijn, indien ook niet iets werd nagegaan omtrent
de middelbare fouten, die bij de gebruikte parameters op-
treden. IIet begrip fout is hier geheel analoog aan dat in
hoofdstuk II. Echter kan de daar gevolgde methode ter
opsporing hiervan nu niet meer gebruikt worden, omdat
men nu geen methode kan aangeven om de functionalo
afhankelijkheid te vinden tusschen deze parameters en de
frequenties in do verschillende klassen, dat is de daarge-
noemde /"(«, 13, y, . . .). \')

-ocr page 188-

Aan Pearson zelf dankt men evenwel hieromtrent
een nadere behandeling.

Onderstel: er geschiedt een waarneming omtrent een
groep van
n grootheden z, die elk afhankelijk zijn van ra
onafhankelijk veranderlijken
y. Laat dan de uitdrukking
2%, Sy, ... Sy^ de frequentie voorstellen van de grootheden
z, als diens onafhankelijk veranderlijken tusschen yx en

? V2 en 1/2 ?____enz. liggen. De veranderlijken

y zijn weer gemeten vanaf hun gemiddelden als oorsprong.
In een willekeurig coordinaten stelsel zij voor deze gemid-
delden gevonden de waarden 7tn h2, . . . enz., zoodat
yi , h2 -\\-yi, • \' • enz. in dit stelsel de werkelijk voor-
komende waarden zijn der onafhankelijk veranderlijken.

De reeks waarden 7t. , h»,----h is dan een reeks con-

i 1 £ 1 m

stanten, die typisch zijn voor de waargenomen frequentie-
verdeeling, deze bepalen den oorsprong van het ra 1
dimensionale frequentie „oppervlak". Laat dit oppervlak
gegeven zijn door

z=f{yu yt, - • , ym \\ c,, c„ . . . cp) . . . (1)

waarin c een aantal constanten zijn, die den vorm van dit
oppervlak nader bepalen.

Het vraagstuk is nu, de middelbare fouten van de para-
meters
li en c te vinden, welke men respectievelijk zal
voorstellen door °"/^en
Had men voor de parameters der kromme de waarden
ht A^i, h2 A/<2 • • • 5 c, ACj, Co A
c2, . . . enz.

gevonden dan zou hot frequentie oppervlak in plaats van
door (1) bepaald zijn door:

f(yi A/ij,. •. ym A hm; Ci ACj,...cp Acp) . . (2)

Noemt men nu P^ de waarschijnlijkheid, dat de waar-
genomen grootheden verdeeld zijn volgens een frequentie
oppervlak (2), en P0 de waarschijnlijkheid, dat deze volgens
(1) verdeeld zijn, dan vindt men voor de verhouding van

-ocr page 189-

P^ en P0, door toepassing van den regel van B a y e s,

aannemende, dat de onafhankelijk veranderlijken elk com-
plex waarden
y\\,y2, ...ym kunnen aannemen:

Po ~ n/(?/,, y2,... ym\\ cnc8,...c)

waarin de producten n te nemen zijn over alle functies f
voor elk complex waarden, die de veranderlijken y kunnen
aannemen. Zijn deze continu veranderlijk, dan zijn beide
producten oneindige producten. Door de log. te nemen,
kan men van deze producten sommen maken, terwijl in
het geval van continu veranderlijken deze sommen inte-
gralen zijn.

Doet men dit, dan kan men in een Taylor\'sche
reeks ontwikkolen, en als men dan
f schrijft voor
fi-Uii • ■ • ym ? c,,... cp vindt men, tot de termen van do2dc
orde gaande:\')

f} /72

log PA = log P„ A \\(log f) J (AA/s (logrt
4 £ (log
f) « S (log f)

ff X 6

d2

-f-i\\h} Ac^ £ dlïlic\' ^ • • • "T termen van hoogor

orde in Ac en AA-f....

In deze sommen heeft r allo waarden van 1 tot m, on s
van 1 tot p, maar in de 4-1« en 6<i« term zijn voor r\' en s\'
de waarden gelijk aan r en s uitgezonderd.

Voor het vervolg zullen deze sommen steeds door inte-
gralen vervangen worden gedacht. Deze uitkomst zal
eenvoudig geschreven worden:

-ocr page 190-

log PA = log P0 Ar A hr -1 arr(A hrY arr, A\\ A V

Nu moet men deze coefficienten nog nader beschouwen,

hiervan noem ik alleen A en A , omdat deze nul zullen

r s7

blijken te zijn en de andere niets bijzonders opleveren.
Namelijk

= ƒ ƒƒ •••• ..dym==

= ƒƒƒ \' \' \' \' M dlJl dy* \'\' dyr-ldyr 1----dy\\

m\'

waar in deze laatste uitkomst de integratie naar yr uitge-
voerd is en [ƒ] aanduidt dat men
f nog nemen moet tus-
schen de twee uiterste grenzen, waarbinnen yr varieeren

kan. Nu zal in de meeste gevallen de frequentie aan deze
uiteinden nul zijn, en dan is Ar = 0. Was dit niet het geval
dan kan men altijd door een verschuiving van den oorsprong
Ar verdrijven, zoodat men Ar ook steeds nul kan stellen.
Men vindt vervolgens:

en daar het totaal waargenomen aantal grootheden n niet
afhankelijk is van cx, is dit differentiaalquotient nul.
Men kan dus schrijven:

-i i a (A)2 2arr\'A\\A V "arsA A

I

c

8

X

• (3)

-ocr page 191-

Dit stelt nu voor de waarschijnlijkheid P^, dat het
trequentieoppervlak
f{yx A h{,... cx -f A Cj,...) voorge-
komen is, in plaats van
f(yt, ... Cj,.. .). Dit laatste kan
men nu opvatten als het „ware" frequentieoppervlak, zooals
dat voorkomt in het totale aantal. Het eerste is dan hetgene,
dat in het waargenomen complex voorkomt. Dan zijn dus
A h en
A c de fouten, die men bij het waargenomen com-
plex maakte, bij de berekening der parameters
h en c.

Door weer Bayes\' theorema te laten gelden, kan men
echter (3) ook lezen, als de wet volgens welke, in een
groot aantal waargenomen willekeurige complexen, de
daarbij gevonden frequentieoppervlakken, waarin op de
parameters de fouten A h en A c gemaakt zijn, verdeeld
zullen zijn.

Wanneer men nu de formule (3) vergelijkt met de nor-
male frequentiewet in zijn meerdimensionalen vorm, zooals
deze genoemd is in hoofdstuk IV,

dan merkt men een overeenkomst in bouw op. Do ver-
anderlijken
x stellen evenzeer afwijking van het gemiddelde
voor als A h en A c. De analogie is echter dan alleen
volkomen als men in (3), en dus ook in allo voorgaande
uitdrukkingen, do termen van hooger orde dan de tweede
in A /t en A c verwaarloozen kan.

Hieromtrent leert de afleiding evenwel niets, en de moest
algemeonc uitkomst krijgt men zonder twijfel door deze
termen niet te verwaarloozen. Echter komt men dan in
onoverkomenlijke moeilijkheden met do verdere analyse.

Nu is ook in hoofdstuk II aangetoond, hoe men veelal
bij benadering voor een foutenverdeeling de normaio ver-
deeling aannemen kan. De fout, die men hierdoor begaat,
is gering, en in het ongunstigste geval kan . men nog
altijd een normale verdceling beschouwen als een eerste
benadering

En daar ook hier weer geldt, dat in zeer veel gevallen
een groote nauwkeurigheid bij de berekening der fouten
niet strikt noodig is, en men kan volstaan als men ten
naaste bij do orde van grootte der fouten kent, wil ik,

-ocr page 192-

voor het verdere, hoogere machten van A& en Ac dan de
tweede, verwaarloozen, in navolging van P e a r s o n.

De uitdrukking (3) leidt dan onmiddellijk tot het doel,
als men de uitkomsten (10) gebruikt van hoofdstuk IV.
Men heeft dan slechts de determinant der coefficienten
a
te berekenen:

a, j

«12

al3 . . . .

«2

a22

<z23 ....

=A

#32

a33

a34 . . . .

waarin nu de voorkomende elementen van de gedaante zijn:
arr=jff \' \' \' f d«n\' j

"«Hl! •••(4)

Noemt men de onderdeterminant van a- ■ weer A•, dan

t J IJ

vindt men nu:

^rr v - k,s

" = ~a"\' *e A~\' Ph c °7,
r ^ s r s r s

In de gevallen, waarmee men zich hier bezig houdt,
is er alleen sprake van frequentickrommcn, en reducecren
zich de veelvoudige integralen, waaruit men de coefficien-
ten
a berekenen moet, tot enkelvoudige.

Deze methode, theoretisch tamelijk eenvoudig, geeft
echter alleen dan een handelbare uitkomst, indien deze
bedoelde integraties uit te voeren zijn. Is dit niet liet
geval, dan kan men nog wel in elk voorkomend geval
deze integralen becijferen, zoodra men de numerieke
waarde van de constanten der curve kent, maar dan wordt
deze methode zeer bewerkelijk.

Het zal niet ondienstig zijn deze methode, aan een voor-

-ocr page 193-

beeld toe te lichten. Daarvoor kies ik de P e a r s o n \'sche
curve type III, die, zooals ik reeds daar opmerkte, van
een tamelijk wijde toepassing is.

Ook voor de andere typen ontwikkelde Pearson een
analoge analyse. Echter is deze hiervoor veel ingewikkel-
der en geeft praktisch heel wat meer werk, clan voor type III.

Nu zijn de Pearsou\'sche curven, óf afrondingscurven,
óf dienen ter vergelijking. In het eerste geval komen de
fouten op de parameters zeker niet op den voorgrond,
daar men er dan geenszins in de eerste plaats aan denkt,
in hoeverre nu de gegeven statistiek ook een getrouwe
afspiegeling is van den toestand in de geheele massa. De
vraag hierna is geheel en al afgescheiden van de vraag
naar een afronding.

Maar ook voor vergelijking komt in de eerste plaats
meer de vraag naar de algemeone orde van grootheid van
de fout op de parameters op don voorgrond, en zal men
zelden van een exacte bepaling hiervan eenig nut ver-
wachten, evenredig aan do moeite, aan deze bepaling
verbonden.

Hoe ik mij dit voorstel, zal ik aan de hand van do ont-
wikkelingen voor type III aangeven. Deze heeft boven-
dien het voordeel, voor een vergelijkende statistiek vaak
nog met vrucht gebruikt te kunnen worden, waar deze
als afrondingscurve reeds verworpen moest worden.

De vergelijking hiervan is, als de controïd tot Y-as ge-
kozen wordt, en men do veranderlijken noemt in overeen-
stemming met het voorgaande:

_ nye~p~1 (p -f 1 f (1 , yy \\p -yy ...

waarin men de waarden der parameters invoerde, zooals
uit de analyse van hoofdstuk V volgt. Er treden hier
slechts twee parameters
y en p op.

Allereerst moot men dus de in de integralen (4) voor-
komende differontiaalquotienten berekenen. Men heeft
daartoe uit (5) dat:

log 2 = log n -f logr — (p 4-1)4;» log (p 41) — log r (p4i)4
4 2\'log (i ^qzi)—
yy

-ocr page 194-

en dus achtereenvolgens, als men, waar dit te pas komt,
(p l):y = a noemt:

d2 logz = p^ / 1 \\2
cfy2 ~~ a2 V 1 y/a / "

c?2 log 2 _ 1 /_1___p___1 \\

ctyrfp "aU y/fl p l (1 y/ay )-

d2 log2 _p__ 1__j

dydy ~p 1 (l ?//a)2

d2logz_ d2 . r , 1U__2 _J____p 1

dp2 ~ rfp210S ji"p-i-l 1 y/a (p l)2 (l y/a)2\'

d°- log z 1 / , - „ 1 , _1_ \\

dy2 - y2 V \'

d2 log 2 _ 1 /i _ 2p l _L_ _J>__1 \' V

fl!pdy ~~ y \\ p-fl 1 y/a p l (1 tf»2 / *

Deze uitdrukkingen moeten vermenigvuldigd met z, en
dan geintegreerd worden naar
y tusschen — a en oo, daar
het dispersiegebied van type III dit eischt.
Hierbij treden in hoofdzaak drie integralen op:
00

= J(1 y/afe^dy,

— a

waarin de uitdrukking -\\-\\)p\\ ! jr(p-f l)j

door zx is voorgesteld, en deze integraal is dus gelijk aan n;

V.ƒö »/\'>p-,\'"w * -**1 y- n-iP/-)-

— a

1  =2i fa i uia)P—2c—Wdu(p 1)2 t _nlp_ l)i

V-2 6 \'\' ~p(p —1) P p(p —1) \'

— a

Met behulp hiervan kan men schrijven:
f
d2 log z , ny2
a

-ocr page 195-

ny

~ p(p — iy

2 n

a22=n(^-logr (p l,--^)."
„ _2n(g l)

a83 — y2

«23 =

_ w(p4-l)
yp(p — 1)\'

Van deze coefficienten moet alleen rt22 nog nader onder-
zocht worden, wegens het differentiaal quotiënt der r
functie. Men kent hiervoor de ontwikkeling:

log IXp 1) = logl/2H-(p i)logp-p-f-r|^ - g^ ...

waarin B do getallen van Bernouilli voorstellen. \')
Door differentiatie volgt hieruit:

(log r (p i) ! = 2p=±4- —1 — h . _

doM ö 11 \' 2ö2 «8 .....

1 

2 Toch kan men do in don tekst gegeven ontwikkeling blijven

-ocr page 196-

waarin men B x/p3— B3 /p5 -{-...= S kan noemen. Men
vindt dan:

n /1 p 1 | Q\\
«22= =5^2  b )•

p£ p

De determinant der coefïicienten a heeft dan de gedaante:

1 0 0
0 (p—1)S o
-2 -p 1
2{p—1)

2 n3 S
V (P- 1)

A

(p—l)3

Hieruit de verhouding der onderdeterminanten tot de
determinant zelf op te schrijven levert geen moeilijkheden,
men vindt dan:

h ny2 \' P wS\' y 2» \\ 2S/ \' \' W
en evenzoo de correlatie coefïicienten:

1 2 S

p2py= (l-f-2S)\' P~hp = 0\' P\'hy^jï l \' f s " \' (7)

Het is niet moeilijk uit deze uitkomsten de overeenkom-
stige af te leiden voor andere parameters, die bij deze
curve op kunnen treden.

Nu zijn de Pearso n\'sche curven in het algemeen bepaald
door \'drie parameters. Wanneer men nu verschillende
dezer curven met elkaar vergelijken wil, zal men liefst
die parameters bepalen, waarbij men
in het algemeen de
kleinste fouten aantreft. Voorgaande bewerking zou dus de
manier aan de hand doen deze „typische" parameters op
te sporen.

Ook zal men als typische parameters, aan diegene de
voorkeur geven, die het meest het uiterlijk der curve
bepalen, als daar zijn, de maximum ordinaat, een maat voor
de asymmetrie, of zooals bij type I het dispersiegebied, c. a.

Nu hecht Pearson aan deze laatste, do zoogenaamde
physische constanten, een groote waarde. Als hij bijvoorbeeld
bij barometer waarnemingen een curve type I vindt, met
bepaald dispersiegebied, hecht hij aan deze grenzen de
physische beteekenis, dat nu ook de barometerstand hier-

-ocr page 197-

buiten nooit komen kan. *) Dit hangt samen met Pear-
son\'s geheele beschouwingswijze, dat zijn curven, zooals
in hoofdstuk VI en VII is opgemerkt, aan de waarnemin-
gen zijn toegevoegd, door de inwendige orde der dingen.
Nu ik dit niet met hem eens kan zijn, kan ik ook aan een
dergelijk gevolg geen verdragende beteekenis meer geven.

Maar als P e a r s o n reden meent te hebben aan deze
constanten zulk een verstrekkende beteekenis te mogen
hechten, is voor hem ook een minutieuse bepaling der
fouten daarop van veel belang. Maar voor wie meent,
dat men aan deze constanten geen zekere beteekenis kan
hechten, die boven het juist voorhanden voorbeeld uitgaat,
is zulk een bepaling onnoodig.

Nu zijn door hun goede aansluiting, deze curven voor
het vergelijken van eenige statistische reeksen, in. i., zeer
bruikbaar.

Hier doet zich echter nog een bezwaar voor, dat gefor-
muleerd is door J. P. van der Stok, ^eenderweinige
continentaio gebruikers van de P earso n\'schc curven :
„les constantes ... ne donnent pas nettement une idée du
rôle qu\'elles remplissent dans l\'allure do la courbe, et il
n\'est pas aisé d\'indiquer d\'une façon simple quel est ce
rôle, soit par description, soit par tracé". •

Met andere woorden, als de constanten p en y, om bij type
III te blijven, in eonigo gevallen achter elkaar verschil-
lend uitvallen, kan men het wol waarschijnlijk achten, dat
de vergeleken reeksen iets essentieels verschillend hebben,

\') Nog sterker voorbeeld, on zeer aantrekkelijk voor eenigzins
oppervlakkige statistici, is een voorbeeld door Pearson (London,
Phil. Trans. R. Soc. 18(5. 1895) gegovon, van een storftocurve in do
kinderjaren, dio aanvangt ± 9 maanden voor do goboorte. P o a r-
son werpt daarbij do mogelijkheid op, dat deze voortzetting iota
zoti kunnen loeren omtrent do embryonale sterfte.

Echter is hot al zéér speculatief, hieruit gevolgtrekkingen to
willen maken. Zoo iets toch is een toevalligheid, door do matho-
matischo aanpassingsmethoden verkregen, en berust, voor zoover
ik kan zien, nooit op een diepere natuurlijke oorzaak.

2) Haarlem, Arch. Néerl. Sci. Soc. Holl. Serio II. 13.1908 (-10G).

-ocr page 198-

maar men weet nog niet, wat het nu is, dat deze curven
van elkaar zoo onderscheidt.

Wil men nu eenige frequentieverdeelingen onderling
vergelijken, dan zou men wel kunnen meenen met een
vergelijking van de enkele momenten te kunnen volstaan.
Namelijk elke frequentieverdeeling is absoluut gekenmerkt
door de waarden der momenten, echter van alle momenten.
Maar men kan hier met P e a r s o n zeggen, dat alleen
de eerste gewicht in de schaal leggen, omdat de hoogere
een te groote middelbare fout vertoonen. Zoo geeft de
waarde van een oordeel over de grootte van het dis-
persiegebied, /x3 min of meer over de mate van asymme-
trie. Evenwel zijn deze momenten alleen een veel te
onnauwkeurige maat ter vergelijking, en geven veel te ruwe
schattingen. Wanneer bijvoorbeeld in een aantal overigens
gelijksoortige frequentieverdeelingen er een is, waar toe-
vallig tamelijk ver van het gemiddelde een wat grootere
frequentie werd waargenomen dan bij de andere, zou dit
op elk der momenten van deze eene frequentieverdeeling
een abnormalen invloed uitoefenen, zoodat de reeks te
vergelijken constanten er allicht veel te onregelmatig uit
zou zien.

Dit doet zich reeds minder voor, wanneer men een
quotiënt kiest van eenige momenten, en men zou kunnen
zoeken naar een functie van eenige momenten, waar dit
bezwaar zooveel mogelijk vermeden was. Zoo zou men
kunnen nagaan de waarden van:

geheel in het midden latend, of dit nu P e a r s o n \'sche
parameters zijn of niet. Maar dan vervalt men direct in
het bezwaar van Van der Stok, dat deze functies
zoo uiterst weinig loeren omtrent de eigenschappen der
frequentieverdeelingen. Stelt men zich evenwel voor, dat
men te doen heeft met de P e a r s o n\'sche curven, dan heeft
men een keur van andere parameters, die men naar
willekeur in kan voeren.

Degene die bij type III aan de meeste eischen voldoet,
is de maat voor de asymmetrie (Sk) waaronder men ver-

-ocr page 199-

staat de verhouding van den afstand der maximum ordinaat
tot de ordinaat door het zwaartepunt, en de traagheids-
straal van het door de kromme begrensde oppervlak ten
opzichte van laatstgenoemde ordinaat.1)

De maximum ordinaat vindt men uit de vergelijking van
type III door
dij / dx gelijk nul te stellen, hetgeen als
maximum ordinaat y0 oplevert, dat wil dus zeggen, dat de
vergelijking

geldt ten opzichte van een Y-as, die samenvalt met de
ordinaat van grootste frequentie.

Zooals bekend, wordt de afstand van centroïd tot Y-as
gegeven door het moment^\', rondom de Y-as als momentas
berekend. In overeenstemming met do notatie van hoofd-
stuk V, bij type III, waar men fi\' de momenten noemde
rondom een as over een afstand verschoven van de
ordinaat van maximum frequentie, heeft men nu voor den
\'bedoelden afstand beider ordinaten: d = p\\—a, , en als
men en a{ uitdrukt in de momenten rondom de centroïd
(volgens de formules (17) van hoofdstuk I, en van type III
in hoofdstuk V) dan vindt men:

De traagheidsstraal ten opzichte van de centroïd is ge-
geven door p2, zoodat men voor do asymmetrie coëffi-
ciënt vindt:

\') Het verdient allicht aanbeveling, woordon zooals traag-
heidsstraal, en ook hot woord moment niet te gebruiken, omdat
dit analogien met mechanische problemen zou doen onderstollon,
die niet bestaan. Maar dezo namen, door P o a r s o n bedacht,
hebben zich zoo zeer ingeburgerd in do literatuur, dat hot mij
terwillo van een boter begrip goed leek, zooveel doenlijk dezelfde
benamingen to behouden.

-ocr page 200-

"waaruit men door vergelijking met de desbetreffende

formules van type III afleidt:

=

Zal dit nu een geschikte maat voor een vergelijkend
onderzoek zijn, dan moet men in staat zijn de fouten aan
te geven. Dit gaat na het voorgaande zeer eenvoudig.

Wanneer men met het symbool A een kleine variatie
bedoelt, is blijkbaar:

Beiderzijds kwadrateerend, en sommeerend voor alle
mogelijke afwijkingen A krijgt men, na deeling door n,
wegens de definitie van middelbare fout, namelijk:

<y = S(A?>)2:n,
de middelbare fout op de grootheid bk:

<T 2

2 _ JL

Sk — t(p 1)8»

of door invoering van de waarde van <r :

■ P
_ i P__

Er is aan de invoering van de grootheid Sic voor een ver-
gelijkend onderzoek nog een voordeel verbonden, zooals
men aan deze laatste uitkomst kan zien.

Want als p groot uitvalt, hetgeen bij type III, vooral
als de verdeeling zeer symmetrisch wordt en dus veel op
een normale gelijkt, nog al eens voorkomt, worden de
middelbare fouten
<r)} en cry ook groot. Indien p groot ge-

_2

noeg is toch, is S ongeveer van de orde p en dus cr
van de orde
p-. Hierdoor wordt <ry van de orde p op zijn
minst, terwijl een groote waarde van
p ook een grootere
waarde van y meebrengt. \')

\') Dat men nu toch met p en y een goede beschrijving der
frequentieverdeeling kan bereiken, is wel daarin te zoeken, dat
ook de correlatiecoefficient van
p en y dicht bij één komt, als p
tamelijk groot is.

-ocr page 201-

Maar behoeft daarentegen niet groot te worden,
daar deze bij groote p, ongeveer van de orde nul in p is.

Met het oog op ditzelfde is het wenschelijk behalve Sk
nog een andere grootheid aan te geven, want een curve
type III eischt ter zijner bepaling twee constanten. Indien
men het op de eischen van een vergelijkend onderzoek,
zou ik daartoe aanraden de grootheid <r = i p.,, die bij de
normale wet een volkomen vertrouwde beteekenis heeft,
en daar als eenige parameter optreedt. Men kan deze
grootheid bij type III ook nog immer beschouwen als een
maat voor de grootte van het dispersiegebied of van de
zoogenaamde strooiing.

Indien men van deze grootheid de fout gaat opzoeken,
dan ziet men allereerst:

en hieruit volgt:

A i ap _ Ay
<r 2 p 1 y

Gaat men deze uitdrukking quadrateeren, dan komt rechts
het product ApAy. Sommeert men nu weer voor alle
mogelijke afwijkingen A, en deelt door n, dan krijgt men
uit dit product, door do in hoofdstuk IV besproken be-
rekeningswijze vun de correlatiecoefficient, waardoor:

S(a A.)

p — -L-o- o-

r<pf n p f\'

in dit geval do correlatiecoefficient van p en y ingevoerd,
waardoor men do uitkomst bereikt:

r<r\\2 o-2 o-2 p <r o- ,

. p I y py p y.

(?)

o-\' ~ T(p 1)- 1 y- y(p i)
Voert men hier de respectieve waarden van en <ry

en-p in, dan volgt:

-ocr page 202-

welke uitkomst voor groote waarden van p niet beslist
groot behoeft uit te vallen. Ook deze grootheid o- voldoet
dus weer aan de eischen, die men bij een vergelijkings-
probleem stellen kan.

Laat ik nu een en ander aan de hand van een voorbeeld
nagaan. Ik kies hiervoor een statistiek van J. P. van
der Stok,1) omdat ik deze toevallig het gemakkelijkst
bij de hand heb. Deze stelde een onderzoek in omtrent
de frequentie van den duur van regenbuien te Batavia
(periode 1866—1905).

Terwijl ik voor nadere bijzonderheden naar het origineel
verwijs, veroorloof ik mij nevenstaande staat daaromtrent
over te nemen.

Baseerende op de rekeningen van Van der Stok,
kan men dan aan elk der waarnemingen een curve type III
aanpassen, die men, als men de Y-as kiest daar, waar
de curve aanvangt, in de gedaante kan schrijven:

Men vindt dan de parameters als in het staatje op p. 192.

Voor deze rekening zijn de ruwe momenten gebruikt,
en zijn bijvoorbeeld regenbuien van 3 uur gemiddeld 2.5
uur gerekend, omdjït dit in overeenstemming was met de
waarnemingen. Ziet men nu naar de oorspronkelijke data
en bovendien naar de daaruit bekende waarden van
y en
p, dan merkt men, dat alle twaalf curven, bij nul beginnend,
zeer snel hun maximum bereiken en dan minder steil de
as weer naderen. Bij zulk een steil verloop als deze curven
links vertoonen, begaat men, door de ruwe momenten te
nemen, daar een niet onbelangrijke fout, als men deze
halverwege het interval geconcentreerd denkt. Het ware
beter geweest, als men een nauwkeuriger weg bewandeld
had. Als het eenvoudigste hulpmiddel zou hier in aan-
merking kunnen komen de frequenties, voornamelijk de
eerste twee, die overwegend de grootste zijn, niet precies
midden in het interval geconcentreerd te denken, maar

\') Haarlem, Arch. Néerl. Sci. Soc. Holl. Serie II, 14.1909 (34).

-ocr page 203-

Duur

in
uren.

Januari.

Februari.

Maart.

April.

II

a

3
I-S

j Juli.

Augustus.

September.

October.

November.

December.

1

417

357

277

220

137

112

115

80

89

152

221

316

2

321

263

254

185

121

115

89

55

96

154

193

273

3

206

203

138

110

71

55

62

36

65

86

126

175

4

130

126

89

59

38

46

26

16

32

30

52

111

5

81

77

59

43

26

33

13

.10

12

27

33

64

0

51

60

45

17

10

14

13

7

11

13

34

33

7

51

43

23

14

12

9

7

4

6

10

12

25

8

33

29

13

12

6

7

10

3

5

—.

13

20

9

17

22

13

3

2

6

2

3

2

9

14

10

16

20

5

1

2

2

1

1

o

éJ

3

8

11

10

14

5

2

2

-—

1

3

&

9

12

9

6

5

1

1

2

4

13

4

9

o

A

2

1

1

1

4

14

5

6

2

1

2

1

1

15

4

2

1

-

3

5

16

6

1

-

3

17

1

3

1

_

-

1

18

_

4

2

-

1

19

1

1

1

1

20

1

1

1

. 21

1

22

23

1

24

1

1

1

25

1

1

1

1

26

27

28

29

30

31

32

1

33.

1

100

1

109

1

147

Totaal

1367

1251

939

661

428

405

341

212

324

479

709

1071

-ocr page 204-

gemiddelde

y

P

O"

Sk

Januari

3.26

0.357

0.163

3.021

0.927

Februari

3.65

0.365

0.273

3.091

0.886

Maart

3.22

0.400

0.227

2.769

0.903

April

2.57

0.854

1.194

1.734

0.675

Mei

2.66

0-731

0.941

1.906

0.718

Juni

3.02

0.486

0.466

2.491

0.826

Juli

2.71

0.600

0.625

2.125

0.784

Augustus

2.43

0.832

1.022

1.709

0.703

September

2.77

0.677

0.876

2.023

0.730

October"

2.54

0.648

0.646 .

1.980

0.779

November

2.88

0.491

0.413

2.421

0.841

December

3.15

0.359

0.131

2.962

0.940

ergens anders daarin. Hiervoor zou men zijn materiaal
nog eens aan een onderzoek dienen te onderwerpen, of
men hieromtrent een aanduiding vinden kon. Door namelijk
de frequenties precies midden in het interval geconcen-
treerd te denken, neemt men aan, dat de regenbuien van
één uur duur, gemiddeld een half uur duurden, die van
twee uur, gemiddeld anderhalf, en zoo verder. Voor dé
langere duren zal» dit nu niet zulk een groote fout bevatten,
maar voor de eerste allicht wel. Men zou dus aan het
oorspronkelijke materiaal na moeten gaan, of men niet
beter deed de buien van één uur duur, bijvoorbeeld ge-
middeld \\ of -J- uur, of nog nauwkeuriger te rekenen. Daar
nu het materiaal van Van der Ö t o k op het moment
voor mij niet toegankelijk is, kan hieromtrent niets naders
gezegd worden.

Nu zou men ook zijn toevlucht kunnen nemen tot de
laatstgenoemde methode uit hoofdstuk I, die echter zeer
bewerkelijk is. Daar het hier
1111 alleen om een vergelij-
king te doen is, is deze moeite niet evenredig aan de
resultaten, die men er mee bereiken zou. Ik zal daarom,
in navolging van Van der Stok, de ruwe momenten
hier blijven gebruiken. Men moet dan curven verwachten
die, vooral bij de eerste frequenties, niet al te fraai aan-
sluiten. Toch valt dit achteraf nog mee, zooals mij bleek

-ocr page 205-

uit het berekenen van de verschillen tusschen waarge-
nomen en berekende frequenties. Om dit duidelijk te maken,
geef ik hier de vierde curve in teekening als voorbeeld.
Daar men zich op het standpunt van oppervlaktecurven
stelt, moet men ook als berekende frequenties nemen de
oppervlakken, door de curve tusschen twee opeenvol-
gende ordinaten begrensd. Wanneer men de curven op
wat groote schaal teekent, kan men daartoe vaak eenvoudig
van een of andere planimeter gebruik maken. Ook kan
men, als men op millimeterpapier teekent, de oppervlakte
bij benadering heel geschikt aflezen door gewoon te tellen.

De hier genoemde curve is nu zeer zeker niet het voor-
beeld van een fraaie aansluiting. Maar toch geeft deze
curve nog wel een beeld van deze frequentieverdeeling,
en de fout, die hier gemaakt is, is aan alle twaalf de te
vergelijken curven gemeen. Voor het hier beoogde doel is
deze dus nog wel bruikbaar.

Evenwel, zooals gezegd, do fout ligt in de becijfering dei-
momenten. Men kan zich hier gemakkelijk van overtuigen
door de ruwe momenten ergens anders in het vak gecon-
centreerd te denken. Men krijgt dan eenigzins afwijkende
waarden van
p en y, en een wat anders verlooponde curve,
al heeft deze ook in hoofdzaak hetzelfde karakter.

Was er nu afronding van deze data gevraagd, dan was

18

-ocr page 206-

bovenstaande curve niet bruikbaar, en moest men zeer
zeker die nauwkeuriger becijfering uitvoeren.

Na de kwestie van aansluiting, treedt het meest op den
voorgrond de vraag, hoe de middelbare fouten uitvallen,
die bij de gebruikte parameters optreden. Een exacte be-
paling hiervan voor elke grootheid
p, y, <r en Sk der twaalf
curven is een vervelend cijferwerk, dat niet veel verder
brengt. Ik heb eenige der meest verschillende gevallen
nagegaan, en bij een globale becijfering bleken mij deze
fouten binnen behoorlijke grenzen te blijven. Daar hier
p
en y steeds kleine waarden hebben, was dit ook niet
anders te verwachten.

Nu kan men aan de hand van de berekende parameters
nagaan, wat de bijzonderheden van de beschouwde statis-
tieken zijn.

Men merkt allereerst een dubbele periodiciteit op, zoowel
o- als
Sk hebben een minimum in April en in Augustus.
Tevens ziet men hoe beide minima ongeveer gelijkwaardig
zijn, en deze maanden dus, wat dit kenmerk betreft, ge-
heel analoog zijn. Daartusschen komen twee maxima voor
in Juni en December, maar hier is het maximum in Decem-
ber veel duidelijker uitgesproken. Bovendien is het
optreden van een minimum, vooral in April, tamelijk
plotseling. Ook is het gemiddelde in deze maanden het
laagst, wat overeenkomt met de kleinere waarde van <
t.
Het dispersiegebied is dus geringer en zeer groote
duren van regenbuien komen minder voor dan in andere
maanden.

Tot zoover heb ik geen enkele conclusie verkregen, die
ook niet Van der Stok verkreeg, die alleen
p en y
berekende. Men ziet toch, hoe in p en y dezelfde karakter
trekken voor den dag komen, als in <r en
Sk, echter heeft
de invoering van deze laatste grootheden eerst wat meer
licht geworpen op de beteekenis van
p en y, en hun in-
vloed op den vorm van do curve.

Het in den beginne geformuleerde bezwaar van Van
der Stok, dat de parameters der P e a r s o n\'sche curven
niet genoeg verband hielden met den vorm der curven,
begint hierdoor reeds aanmerkelijk verzwakt te worden,
nu er wat dieper op deze curven is ingegaan.

-ocr page 207-

Nu zegt van der Stok evenwel ook, *) „en avril, aóut
et septembre la courbe est presque normale", daarbij af-
gaande op de waarde van
p, die tamelijk dicht bij één
komt. 2)

Wanneer men nu evenwel lig. 7 beziet, waar tevens de
centroïd en maximum ordinaat zijn aangegeven, dan is deze
curve toch nog een heel eind van een normale verwijderd.

Bovendien voor p — 1 gaat de curve type III over in:

—yx
y = y0e \' x,

en dit is geen normale curve. Evenals bij Edgeworth \'s
translatie methode moet men nu zeggen, niet
x, maar Vx
volgt een normale wet, en zooals daar besproken is, zal
dan
x in het algemeen geen normale wet volgen.

Men kan dus zeggen, dat de P e a r s o n \'sche curven
hier, hoewel niet eens heel fraai aansluitend verkregen,
zich volkomen bruikbaar hebben betoond. De individueoio
eigenaardigheden der statistische reeksen zijn niet alleen
duidelijk op den voorgrond gebracht, maar aan de waarden
der parameters heeft men bovendien min of meer een
quantitatieve maat voor deze onderlinge verschillen. 3)

-ocr page 208-

Maar de aanpassing van deze curven heeft niets geleerd
omtrent de meteorologische werkingen, die deze frequentie-
verdeelingen tot stand brachten, waarna trouwens in dit
geval in het geheel niet gevraagd werd, m.i. zeer terecht.

In het algemeen moet men de Pearson\'sche curven
niet meer waarde toe willen kennen, dan hun mathematische
deductie er in heeft gelegd, wil men zich niet in al te
speculatieve onderstellingen begeven. Juist hierdoor is,
dunkt mij, veel tegenstand tegen het gebruik dezer curven
ontstaan.

Ik noem hier als voorbeeld, hoe de Biometrische School
deze curven opvat, een conclusie van G. D. Maynard:1)
„I have frequently been struck writh the excellent fit given
by diseases... where the chance of a wrong diagnosis is
unlikely, and greatly disappointed with te bad fit obtained
by a disease that presents difficulty in diagnosis... where
the heterogeneous character of the group is undoubted."

Tot zoover strekken deze woorden alleen om nog eens
te doen uitkomen, hoe goed inderdaad de Pearson \'sche
curven als frequentiecurven bruikbaar zijn.

Maar geenszins is een daarop volgende conclusie ge-
rechtvaardigd: „that a fit as good as that given (nl. in
genoemde studie) indicates the homogeneous nature of this
group", daar de Pearson \'sche curven hiervoor onvol-
doende theoretisch «gegrondvest zijn.

Iets analoogs vindt men bij L. L u d w i g 2), die zegt,
als een curve type IV niet voldoende (zijns inziens) aan-
sluit: „das empirische polygon gehort
„daher" einer Com-
plex Curve an".

1 inneemt, hetgeen met het oog op de data zelf ook zeer wel uit-
komt. Toch geeft dit voor een vergelijk eenige moeilijkheden,
al zijn deze bij lange na niet onoverkomelijk. Maar aan den
anderen kant kan men zeggen, dat dit zeer grooto verschil
tusschen Augustus en do andero maanden, juist door do
P e a r s o n\'scho curven sterk naar voren wordt gebracht. En is
het niet juist ons doel met het aanpassen van deze curven zulk
een verschil op te sporen en op den voorgrond te brengen

\') Biometrika, Cambridge 7, 1909/10.

2) Beiheft Bot.-Centralbl., Cassol 9, 1900.

-ocr page 209-

Nu moet men bij deze conclusie van Ludwig in aan-
merking brengen, dat deze waarschijnlijk zeer geneigd
is complex-curven in te voeren. In de botanie komen
namelijk nog wel eens curven voor, waar duidelijk meerdere
maxima optreden. L u d w i g, die als botanicus deze curven
vaak vond, heeft deze nader onderzocht,\') en meent dat
in de punten, waar deze maxima liggen, een zekere regel-
maat zou zijn vast te stellen.2) Dit is inderdaad een zeer
treffend verschijnsel, en allicht is men geneigd hierin een
kenmerkend verschijnsel voor een natuurlijke frequentie
verdeeling te zoeken. Voor zoover mij bekend is echter
hiervan nog geen waarschijnlijkheid-theoretische verkla-
ring gevonden.

Echter is voor mij de methode, volgens welke Ludwig
deze rij getallen als de abscissen der maxima aanwijst,
lang niet overtuigend genoeg. Hij moet dat zuiver op het
gezicht beoordeelen, en het is mij gebleken hoe bedriegelijk
het is om de juiste plaats van het maximum te schatten,
wanneer men alleen een aantal ordinaten op eenigen af-
stand van elkaar heeft uitgezet. Men heeft hier altijd eenigo
speelruimte voor zijn keuze, en wanneer men nu uitgaat
om deze bepaalde regelmaat te ontdekken, is men te meer
geneigd, do maxima juist daar te zien, waar men deze het
liefst aan zou treffen.

Bovendien dunkt mij vaak nog al wat goeden wil noodig
om zelfs dan de bedoelde rij duidelijk voor den dag te
zien komen. Ik krijg meer den indruk dat de enkoio dui-
delijk sprekende voorbeelden louter toevalligheden zijn,
en dat het nog geenszins vast staat, dat men hier met
een steeds herhaald verschijnsel te doen heeft.

Echter heeft het zijn nut, dat bij het zoo vaak optreden
van curven met een enkel maximum, ook gewezen wordt
op die met meer maxima Tot nu toe heeft toch geen
enkele theorie van frequentiecurven deze laatste mee in
kunnen sluiten.

1) Bot.-Contralbl., Cassol 73, 1898, (377).

2) Namelijk de maxima vertoonen zich bij die ordinaten, waar
de abscissen voorgesteld kunnen worden door de rij dor F i b o-
nacci getallen (of hun veelvouden), wier algeineeno gedaanto is:
(«)o (« — l)l (« - Dj • • • • enz-

-ocr page 210-

Wanneer nu Ludwig1) den raad geeft aan statistici
hun curven nauwkeurig te onderzoeken op deze secundaire
maxima, opent hij de mogelijkheid, dat deze multimodale
curven de meest algemeene kunnen blijken.

Hoewel het nu aan den eenen kant wel vaststaat, dat
er volkomen homogene meertoppige frequentieverdeelingen
zijn, komen er aan den anderen kant ook zeer veel zulke
frequentieverdeelingen tot stand, juist omdat het materiaal
niet homogeen was met betrekking tot de onderzochte
eigenschap. Het ligt daarom mi. meer voor de hand, de
meertoppige frequentieverdeelingen als abnormaliteiten te
beschouwen, en te vragen naar de reden voor deze af-
Avijking, dan om deze vorm als de meest typische, steeds
tot grondslag liggende, frequentie verdeeling te willen aan-
nemen. De resultaten van de frequentiecurven met één
maximum zijn toch zoodanig, dat er geen reden is, de
studie hiervan op te geven, maar integendeel alles er op
wijst, deze verder voort te zetten.

») Bot. Centralbl., 1. c.

-ocr page 211-
-ocr page 212-
-ocr page 213-

STELLINGEN.

De methode der momenten dient naast die dei-
kleinste quadraten genoemd te worden.

II.

Zoowel de methode van „percentiles" door Galton
e. a. veelal gebruikt, als de „metodo delle aree" van
Can tel 1 i \'), om een curve aan eenige data aan te
passen, zijn minder aanbevelenswaardig.

III.

De door Pearson1) op den voorgrond geschoven
„Law of ancestral heredity", is van zeer geringe be-
teekenis tegenover de wetten van Mendel.

■) F. P. Can tol li. Suil\' adattamento delle curve ad una
serie di misuro o di osservazioni. lloma 190f».

2) K. Pearson. London. Proc. It. Soc. 62. 1897, benevens
talrijke studies in het tijdschrift „Biometrika".

-ocr page 214-

IV.

Correlatie bepalingen behooren vervangen te worden
door regressie bepalingen.

V.

Het door Karup1) ingevoerde begrip der onafhan-
kelijke waarschijnlijkheid is volkomen juist te achten.

VI.

Ten onrechte zegt A. J. van Pesch, (Sterftetafels
voor Nederland 1880—1890, \'s Gravenhage 1897, p. 38),
dat de door hem gevolgde methode, om uit de waar-
nemingen een reeks vloeiend verloopende sterftekansen
te krijgen, geen afronding is.

VII.

Het is in hooge mate wenschelijk, dat er tusschen
de ÏTederlandsche maatschappijen van levensverzeke-
ring overeenstemming wordt verkregen omtrent het
bewerken van een gemeenschappelijke ondervindings
sterftestatistiek.

VIII.

De methode gevolgd door G. H. H a 1 p h e n (Théorie
des fonctions elliptiques, PariF, 188G), om de leer der
elliptische functies op te bouwen uit geometrische be-
schouwingen, verdient geen aanbeveling.

\') J. Karup, Finanzlage der Gothaischen Staatsdiener-Witwen
Sozietät 1893.

-ocr page 215-

IX.

Ten onrechte zegt A. R. Forsyth (Theory of
functions, Cambridge 1900, p. 54), dat, wanneer een
functie
f{x) holomorph is over het geheele gebied
buiten een cirkel met middelpunt a, de coefficienten
der naar negatieve machten van
{z—a) voortschrijdende
ontwikkeling dezer functie, gelijk zouden zijn aan de
afgeleiden van
f(x) in het oneindige.

X.

Aan het begrip „ether", zooals dat voorkomt bij de
theoretische electriciteitsleer, behoort geen reëele existen-
tie te worden toegekend.

XI.

Het verdient aanbeveling bij de afleiding van tliermo-
dynamische of andere physische wetten zoo weinig
mogelijk gebruik te maken van waarschijnlijkheid-
theoretische grondslagen.

XII.

De electro-atomistische moleculair hypothesen van
J. Stark1) zijn als een zeer welkome uitbreiding te
beschouwen van de tot nu toe gebruikelijke chemische
structuur formules.

XIII.

De studie der wiskunde vindt haar voornaamste mo-
tiveering in de mogelijkheid van praktische toepassing.

f) J. stark. Physikal. Zeitschr. 8. 1907; 9. 1908; 10. 1909.

-ocr page 216-

XIV.

Het onderwijs aan een Gymnasium is als acade-
mische voorbereiding, niet meer op de hoogte van
den tijd, wat de wis- en natuurkundige leervakken
betreft.

-ocr page 217-

V

. ... , V

-ocr page 218-
-ocr page 219-
-ocr page 220-