Een twee-maandelijks tijdschrift voor onderzoekers van onder-
wijs, gewijd aan theoretische, methodologische en profes-
sionele problemen in de onderwijsresearch.

Tijdschrift voor Onderwijs-
research is een uitgave van
cie Vereniging voor Onder-
wijsresearch. De uitgave
wordt mede mogelijk go-
maakt door een subsidie,
verleend door de Stichting
voor Onderzoek van het
Onderwijs te's-Gravenhage.

Hoogstraten, Joh. & Vorst, H.C.M. Het voorspellen van de eigen studiepresta-
ties 211
Hoogstraten, Joh.,Experiment en quasi-experimeiit. Een quasi-onderscheid 40*
Keiler, John. V. Zie: Kop, Pieter I-.M. 149
Koele, P. Zie: Hoogstraten, Joh. 3
Koele, Pieter. Aardappels en Kunstmest: Een variantie-analyse 44*
Kop, Pieter I-.M., Rookhuijzen, Robert I-. van. Keiler, John V. & Timmer-
mans, Alex L.J. Contracting in personalized instruction. 149
Koppelaar, 11. Zie: Stellingwerff-Beintema, A.M.D. 1 58
Meerum Terwogt-Kouvvenhoven, Kath. De voorspelbaarheid van studiepresta-
ties van eerstejaars studenten aan de subfaculteit psychologie van Amster-
dam 1 26
Mellenbergh, Don J. Modellen te pas ofte onpas? 48*
Naerssen, Bob I-. van. De ruimte voor verbetering van de constante-aftestjne-

Naerssen, Robert I". van. Simpele items tegenover complexe vrageti en de cor-
rectie voor attenuatie 193

Naerssen, Robert F. van. Klassieke itemindices en de vervvacliting van de iteni-

Veldhuizen, Niels H. Difficulties with difficulties: on the beta-binomial mo-
del 145
Vijn, Fieter. ATI: De Johnson-Neyman methode bezien vanuit Bayesiaans

Vorst, Harrie C.M. llet werk van Fred N. Kerlinger bibliometrisch onder-
zocht ' 4*
Wilbrink, Ben. Optimale kriterium gerefereerde grensskores zijn eenvoudig te

Wilbrink, Ben. Enkele radikale oplossingen voor kriterium gerefereerde grens-
skores 11 2
Witte, F.C.I\ de. CMI-11: Een software pakket voor computer managed in-
struction 29

Creemers, Bert & Hoebcn. Wijnand. (\)mmentaar op Stokking: 'Toetsend on-
derzoek' 174
Creemers, Bert, 1 locben. Wijnand Stokking, K.M. Betekenisvolle menings-
verschillen naar aanleiding van 'Toetsend Onder/oek" 224
lloeben. Wijnand. Zie: Creemers, Bert I 74
Iloeben, Wijnand. Zie: Creemers, Bert 224
Ilox, J.J. De betrouwbaarheiil van een objectieve studieloels als functie van

Meerum Terwogt-Kouwenhoven, Kath. Voorojileiding ais voorspeller van stu-
dieresultaat, maar niet van studiesucces 166
Stokking. K.M. lien reaktie op 'Commentaar op Stokking: Toetsend onder-
zoek' van Creemers en lloeben. of: llet misverstand rond een ondertitel I 77
Stokking, K.M. Zie: Creemers, Bert 224
Stokking, K.M. Statistische regressie enkele methodologische notities 271
Veldhuijzen, Niels F. On the badness of a goodness of fit statistic 221
Vroon, F.A. Over operationaliseren, rekenen en redeneren in het kader van

Berge, J.M.F". ten. Bespreking van: Alf^euieiie Psyclioiliai^nostiek II: Tcsitheo-

Dongen, Dré van. Bespreking van: Le savoir-lire de l'enfant en première année

Mettes, Kees. Bespreking van: Leren Probleemoplossen door L. de Leeuw 181
Molenaar, Ivo, W. Bespreking van: The Rasch model and time-limit tests door

Mommers, M.J.C. Bespreking van: Studietoetsen en hun effekten op het on-
derwijs door H. Wesdorp (red.) 234
Mommers, M.J.C. Bespreking van: Cognitieve ontwikkeling, leervermogen en

Wie de inlioud van de vier eerste jaargangen van dit tijdschrift overziet, zal liet opvallen
dat het een wat tweeslachtig karakter heeft. Twee soorten bijdragen vullen het leeuwedeel
van de beschikbare bladzijden: studies over mathematische, statistische en psychometri-
sche methoden en verslagen van empirisch onderwijskundig onderzoek. Andere soorten
bijdragen, d.w.z. theoretische beschouwingen, overzichtsartikelen en bijdragen betref-
fende onderzoeksbeleid en -beheer, komen wel voor, maar in verhouding tot de beide
eerder genoemde soorten vormen zij slechts randverschijnselen.

Met beide soorten bijdragen corresponderen twee groepen auteurs, kort aan te duiden als
de methodologen en de onderzoekers. Onder de lezers kan men waarschijnlijk hetzelfde
onderscheid aanbrengen. Zijn onder de auteurs de methodologen (nog) in de meerderheid,
onder de lezeis zijn zeker de onderzoekers groter in aantal. Dat houdt een waarschuwing
aan het adres van de methodologen in. Zij zouden er verstandig aan doen zich voort-
durend af te vragen of zij wel begrijpelijk en interessant zijn buiten de eigen kring. Wat
meer uitleg tussen de formules door zou dikwijls geen kwaad kunnen. Een speciaal geval
vormen daarbij de afleidingen. De laconieke mededeling: 'Uit de formules x en y kan
eenvoudig worden afgeleid dat ...' verbergt niet zelden enige bladzijden moeizaam reken-
werk. Is dergelijk rekenwerk niet eerder vertoond, dan kan het niet aan de zelfwerkzaam-
heid van de lezer worden overgelaten. Is het in de literatuur te vinden, dan is zorgvuldige
verwijzing daarnaar van belang.

Bovendien dienen methodologen zich te realiseren, dat onderzoekers veelal slechts bereid
zijn zich door formules een weg te kappen als duidelijk is waarvoor zij ze kunnen
gebruiken. Methodologen zouden er daarom goed aan doen de toepassingsmogelijkheden
van hun werk uitdrukkelijk te vermelden of zelfs met een voorbeeld te demonstreren.
Ook de onderzoekers dienen rekening te houden met de gevarieerdheid van het lezers-
publiek. Deze groep auteurs vertoont de neiging te lang van stof te zijn. Zij leggen soms
omstandig uit wat elders in de literatuur te vinden is. Bovendien begeven zij zich nog al
eens op zijpaden. Soms lijken zij niet helemaal te kunnen besluiten waarover zij het nu
precies zullen hebben, waardoor zij ruimte verslindende bijzaken blijven meeslepen.

Uit de onlangs door Buiter & Hoogstraten in De Psycholoog (september 1979) gepubli-
ceerde vergelijkende studie van het redactionele beleid van een aantal Nederlandse sociaal-
wetenschappelijke tijdschriften blijkt, dat de beoordelingsprocedure van de aangeboden
manuscripten bij het T.O.R. niet ongunstig afwijkt van de bij verwante tijdschriften
gevolgde werkwijze.

Slechts 6% van alle aangeboden manuscripten werd in de onderzochte periode zonder
meer afgewezen, het laagste percentage van alle in het onderzoek betrokken tijdschriften.
Maar ook werd slechts 17% van de aangeboden manuscripten zonder meer geaccepteerd.
Alleen Acta Psychologica bleek in dit opzicht strenger. Aan 63% van de aangeboden
manuscripten moest voor publicatie min of meer ingrijpend gesleuteld worden. Daar is in
principe niets tegen: het is de functie van de redactie als kritische instantie te fungeren.
Toch heeft de redactie de indruk dat het verschijnsel van herschrijven van aangeboden

kopij grotere vormen lieeft aangenomen dan nodig en ook functioneel is. Te vaak worden
manuscripten in concept-vorm aangeboden. Soms zeggen de auteurs dat er uitdrukkelijk
bij, in andere gevallen blijkt dat uit de vonn van het manuscript: onverzorgd typewerk,
slecht lopende zinnen, ontbrekende referenties, rommelige indelingen. Op die wijze wor-
den de redactie en haar medewerkers onnodig zwaar belast met werk dat de auteur zelf
had behoren te doen. Naar het oordeel van de redactie dienen auteurs manuscripten pas in
te sturen, nadat zij in eigen kring nauwkeurig zijn bekritiseerd en op grond daarvan
herzien. Dat spaart de redactie en vooral de redactionele medewerkers werk; het is boven-
dien in het belang van de auteurs zelf, omdat het de 'publication lag' bekort. Die 'publica-
tion lag' is thans rond zes maanden. De redactie wijst er nog eens op dat die voor Notities
en Commentaren korter is. Wie een resultaat snel publiek wil maken, doet er verstandig
aan die rubriek te kiezen.

In de vier jaar van zijn bestaan heeft het T.O.R. een eigen plaats in het Nederlandse
sociaal-wetenschappelijke forum verworven. Uit door Voeten in het eerste nummer van de
vierde jaargang gepubliceerde gegevens is gebleken, dat nog nauwelijks iemand het T.O.R.
wil missen. Maar in vier jaar wordt een tijdschrift (blijkbaar) niet volwassen: het T.O.R.
wordt af en toe nog geplaagd door amateurisme, van zijn redactie, waarover de redactie
liefdevol zwijgt; èn van zijn auteurs, waarover in het voorgaande gesproken werd. Maar
het T.O.R. groeit nog, in omvang en kwaliteit. Daarvoor is de redactie zijn auteurs
dankbaar.

Met ingang van 1 januari 1980 werd het tijdschrift door de Stichting Onderwijsresearch
overgedragen aan de Vereniging voor Onderwijsresearch.

Publication habits in the Netherlands
An analysis of the content of three journals

Tlie content of three Dutch journals covering psychological and/or educational scientific activi-
ties was analyzed with respect to four topics: the proportion of articles reporting on empirical
research, the nature of such research, features of subject sampling, and usage of statistical tests.
Apart from some differences between the journals because of their differing field of interest,
it was found, among other things, that in all three journals: a) articles reporting on 'good'
experimental studies numbered relatively few; b) information on subjects' gender was often
lacking; c) the power of statistical tests on differences between groups was invariably low for
small and medium effect sizes.

It is concluded that editorial publishing standards do not meet the requirements imposed by
sound methodological considerations, and that only a strengthening of these standards and a
more appropriate research training may lead to radical changes in the quality of published
experimental studies.

De stelling dat men wetenschappelijke aktiviteiten pas de kwalificatie onderzoek kan
toemeten nadat er schriftelijk over is gerapporteerd laat zich heel wel verdedigen. Het
verrichten van wetenschappelijk onderzoek behoort een publieke zaak te zijn. Wie zich
aan dit uitgangspunt onttrekt en van een openbare verantwoording afziet zondigt aldus
tegen een elementair beginsel van wetenschapsbeoefening.

Hiermee wil niet gezegd zijn dat men uitsluitend onderzoeksverslagen serieus moet nemen
welke zijn doorgedrongen tot de officiële tijdschriften. Vaak wordt terecht volstaan met
interne rapportage of externe verspreiding op beperkte schaal omdat het onderzoek een
locaal belang dient of slechts aanspraak maakt op de interesse van enkele specialisten.
Toch - in aanmerking genomen dat de tijdschriften een verre van volledig beeld bieden
van het verrichte onderzoek - is analyse van de officiële literatuur niet van belang
ontbloot. Zo legden Elstrodt en Mellenbergh (1978) de vinger op enkele pijnlijke tekort-
komingen in de rapportage van de statistische analyse, waardoor het voor de lezer vaak
moeilijk zo niet onmogelijk is zich een goed beeld te vormen van de correctheid en

zinvolheid van de gebruikte bewerkingsteciiniek. Ook de analyse van Buiter en Hoog-
straten (1979) is in dit verband vermeldenswaard. Zij stelden zich de vraag op welke wijze
in Nederland tijdschriftredacties hun poortwachtersfunktie uitoefenen en constateerden
op dit punt een grote diversiteit tussen tijdschriften. Dit roept de vraag op hoe het gesteld
is met de kwantiteit en kwaliteit van de onderzoeksverslagen die tenslotte in vaktijdschrif-
ten gepubliceerd worden. Met de beantwoording van deze vraag wil dit artikel een begin
maken, daarmee op bescheiden wijze een forumfunktie vervullend.

De inhoud van drie tijdschriften waarin Nedeilandse psychologen, onderwijskundigen en
methodologen regelmatig publiceren, te weten het Nederlands Tijdschrift voor de Psycho-
logie (N.T.v.d.P.), Pedagogische Studiën (P.S.) en het Tijdschrift voor Onderwijsresearch
(T.O.R.) werd aan analyse onderworpen. Het betreft hier de afleveringen verschenen in de
periode van januari 1976 tot en met september 1978. We voegen daaraan toe dat alleen
P.S. maandelijks verschijnt. Van het T.O.R. verschijnt tweemaandelijks een nummer, van
het N.T.v.d.P. acht maal per jaar. De analyse richtte zich op de volgende vier aspecten; bij
onze keuze is geprobeerd aspecten te selecteren waarover zowel snel als eenduidig een
uitspraak kan worden gedaan.

a - Het percentage onderzoeksverslagen van het totale aantal artikelen;
b - De aard van het onderzoek (experimenteel, quasi-experimenteel, exploratief);
c - Proefpersoongegevens (geslacht, werving, herkomst);

d - Statistische gegevens (aantal toetsingen en het onderscheidingsvermogen van deze
toetsen).

Tenslotte: een publikatie werd in de analyse opgenomen wanneer aan twee criteria was
voldaan. Ten eerste diende sprake te zijn van het gebruik van proefpersonen om bepaalde
fenomenen te demonstreren en ten tweede moest het onderzoek kwantificerend van aard
zijn.

Gelet op het feit dat hier de oogst van bijna drie volledige jaargangen in het geding is moet
worden vastgesteld dat er relatief weinig over empirisch onderzoek wordt gerapporteerd.
Voor het N.T.v.d.P. resulteerde de telling in 35 onderzoeksverslagen (40%) op een totaal
van 88 artikelen, voor P.S. in 22 (22%) op een totaal van 100 artikelen en voor het T.O.R.
in 12 (22%) op een verzameling van 54 publikaties.-Voorts valt op dat met name voor-
zover dit P.S. betreft het aantal experimentele studies gering is. Quasi-experimentele
ontwerpen en exploratieve analyses vormen een meerderheid; tabel 1 geeft de aantallen.

Met betrekking tot de proefpersoongegevens is opmerkelijk dat twee zaken stelselmatig
onvermeld blijven: het geslacht van de proefpersonen en de wijze van steekproeftrekking.
Op het totaal van 69 onderzoeksverslagen wordt in 48 gevallen (70%) niet vermeld van
welk geslacht de ingeschakelde proefpersonen zijn. Geen enkele maal vermeldt men dat
alleen vrouwelijke proefpersonen werden gebruikt, wel dat in negen gevallen uitsluitend
mannelijke proefpersonen deelnamen. Slechts 12 onderzoeksverslagen bevatten de infor-
matie dat zowel mannelijke als vrouwelijke proefpersonen participeerden. Ook het ver-
strekken van informatie over de wijze van steekproeftrekken laat men veelal na, zoals
blijkt uit tabel 2.

Voorzover men op dit punt opening van zaken geeft valt op dat slechts vijf maal sprake is
van een aselecte steekproef. Vaker nemen de proefpersonen min of meer gedwongen deel
of verleent men zijn medewerking op vrijwillige basis. Op grond van deze beperkte aantal-
len kan aan de verschillen tussen de tijdschriften weinig waarde worden toegekend. Op
een ander aspect is wel een verschil tussen de tijdschriften aanwijsbaar. Geldt voor het
N.I.v.d.P. en het T.O.R. dat de daarin opgenomen onderzoeksverslagen een beperking
vertonen waaraan de psychologie volgens velen al decennia lang laboreert, de eenzijdige
inschakeling van studenten als proefpersoon, voor P.S. ligt dit anders. Tabel 3 illustreert
een en ander.

Voorts werd nagegaan in welke mate men van statistische toetsen gebruik maakt en vooral
van welke typen toetsingsprocedures. Een globaal overzicht staat in tabel 4.
Enkele zaken vallen op. Ten eerste maakt men relatief weinig gebruik van niet-parametri-
sche toetsen, met het N.T.v.d.P. als positieve uitzondering. Ten tweede wordt in P.S.
Vooral melding gemaakt van product-moment correlatie-coëfficiënten en bevat ook het
T.O.R. vaker de vermelding van correlatie-coëfficiënten dan van andere toetsingsprocedu-

res. In het N.T.v.d.P. daarentegen wordt veelvuldiger dan in beide andere tijdschriften op
verschillen getoetst.

Tenslotte het ondersciieidingsvermogen van de gebruikte toetsen. Het onderscheidingsver-
mogen van een statistische toets wordt gegeven door de kans de nulhypothese te kunnen
verwerpen indien zij onjuist is. De grootte van deze kans is afliankelijk van het significan-
tie-niveau van de toets, van het aantal waarnemingen in de steekproeven, en van het
verschil tussen de onder de nulhypothese gestelde waarde van de populatie parameter en
de werkelijke waarde van die parameter, de zg. effect-grootte van de experimentele mani-
pulatie. Tabel 5 geeft het mediane onderscheidingsvermogen van de uitgevoerde toetsin-
gen, uitgaande van respectievelijk kleine, middelmatige en grote effecten van de experi-
mentele manipulatie (zie Cohen, 1969); met mediaan onderscheidingsvermogen wordt de
waarde bedoeld die door 50% van de toetsingen niet, en door de andere 50% wel over-
schreden wordt.

In de tabel wordt een onderscheid gemaakt tussen enerzijds correlatie-toetsen en ander-
zijds de overige toetsen, waaronder t-toets, F- en teken-toets, e.a. De vermelde waarden
werden berekend voor een significantie-niveau van 5%, tweezijdig. Het resultaat laat een
duidelijk verschil zien tussen het gebruik van correlatie-toetsen en andere toetsen. Het
aantal waarnemingen is bij toepassing van correlatie-coëfficiënten ruimschoots voldoende
om middelmatige en grote effecten aan te kunnen tonen. Voor het T.O.R. geldt zelfs dat
het aantal observaties, nog steeds bij correlatie-toetsen, een acceptabele kans toelaat op
het aantonen van kleine effecten, hoewel aan Cohen's vuistregel, een onderscheidingsver-
mogen van .80 niet wordt voldaan. Voor de categorie overige toetsen is het beeld bepaald
minder gunstig. Noch voor het aantonen van kleine effecten noch voor middelmatige
effecten heeft men in het algemeen de beschikking over voldoende aantallen observaties.
Het aantal waarnemingen is wel groot genoeg om grote effecten aan te tonen al moet
hierbij een uitzondering worden gemaakt voor P.S.

Geen sociaal-wetenschappelijk onderzoek dat niet aan enkele beperkingen onderhevig is;
de hier gegeven analyse vormt daarop geen uitzondering. Een eerste beperkende factor
betreft het gegeven dat hier op geen stukken na een compleet beeld'is geboden van de
onderzoeksaktiviteiten in Nederland. Over een periode van bijna drie jaar werden slechts
69 onderzoeksverslagen bekeken en dat kan niet meer zijn dan een fractie van hetgeen in
die periode in Nederland aan psychologisch/onderwijskundig onderzoek werd uitgevoerd.
Men denke aan de talloze S.V.O.-projecten en aan de inspanningen van semi-universitaire

instituten als het R.I.T.P. en het Kohnstamm-instituut. Veel van het in dat kader gedane
onderzoek vindt een weg in dissertaties of boeken maar men kan zich toch afvragen of
aan al deze aktiviteiten wel in voldoende mate ruchtbaarheid wordt gegeven. In dit
verband is vooral de vraag van belang of er een ander beeld zou zijn ontstaan wanneer ook
rekening was gehouden met al die onderzoeksverslagen die buiten de officiële tijdschriften
zijn gebleven. Vermoedelijk leidt publikatie in één der vaktijdschri''ten in de regel tot een
bondiger rapportage dan verslaggeving in boekvorm of intern rapnort en vertoont onze
analyse daar de sporen van.

Een tweede beperking is dat de analyse lang niet alle relevante beoordelingsaspecten
omvatte. De kwaliteit van de statistische analyse bij voorbeeld bleef buiten beschouwing.
Toch waren enkele onvolkomenheden onloochenbaar. Vrijwel altijd ontbreekt een verant-
woording van de beslissing een- dan wel tweezijdig te toetsen. En wat te denken van een
t-toets waarbij de ene groep twee en de andere vijf proefpersonen telt. Met betrekking tot
de vergelijking van de drie tijdschriften zijn hier geen onderbouwde conclusies te trekken.
Voorzover onze analyse enige uitspraken in vergelijkende zin toelaat hebben deze tot
strekking dat de tijdschriften enigszins uiteenlopen wat het type onderzoek betreft. In
P.S. worden wat vaker correlatieve analyses vermeld en onderzoek waarbij van niet-stu-
denten gebruik wordt gemaakt. In het N.T.v.d.P. wordt niet alleen relatief frequenter
verslag van onderzoek gedaan maar toetst men ook vaker dan in beide andere tijdschriften
op verschillen tussen condities met gebruikmaking van parametervrije toetsingstechnie-
ken. Genoemde verschillen tussen de tijdschriften illustreren welHcht slechts het eigen
karakter van deze bladen zoals periodiek verwoord door de onderscheiden redacties.
Onverlet enkele beperkende factoren en gemeten naar redelijke methodologische maat-
staven geldt dat onze analyse een weinig rooskleurige totaalindruk nalaat. De nonchalance
waarmee men in het algemeen verzuimt informatie te verstrekken over elementaire zaken
als het geslacht van de proefpersonen en de manier van steekproeftrekken is laakbaar
omdat niet zonder meer kan worden aangenomen dat dit gegevens zijn die de resultaten
en conclusies onaangetast laten. Aangaande het onderscheidingsvermogen van de gebruik-
te statistische toetsen is het ontstane beeld evenmin opwekkend. Men realisere zich dat
grote populatie-effecten in psychologisch/onderwijskundig onderzoek betrekkelijk uitzon-
derlijk zijn. Men doet er realistischer aan kleine, hooguit middelmatige populatie-effecten
als vertrekpunt te nemen. En zo bezien rechtvaardigt onze analyse slechts sombere con-
clusies en wordt bevestigd wat al in diverse publikaties werd geconstateerd (o.a. Brewer,
1972; Brewer & Owen, 1973; Chase & Chase, 1976). Elstrodt en Mellenbergh (1978)
beperkten zich tot het N.T.v.d.P. Zij analyseerden het onderscheidingsvermogen van de
statistische toetsen vermeld in de jaargangen 1971, 1972 en 1973 en concludeerden dat
dit in het algemeen te laag is, met name wanneer de veronderstelde populatie-effecten
klein tot middelmatig zijn. Onze bevindingen zijn daarmee geheel in overeenstemming al
valt voor het N.T.v.d.P. een lichte verbetering te bespeuren (tabel 6).

Tabel 6. Vergelijking mediaan onderscheidingsvermogen N.T.v.d.P. jaargang
26 t/m 28 en 31 t/m 33

Het zou overigens onjuist zijn iüer van een systematische verbetering te spreken, daarvoor
zijn de verschillen te gering. In feite rest ons weinig anders dan enkele verstandige aanbe-
velingen van Elstrodt en Mellenbergh in herinnering te brengen.
Zij doen de volgende aanbevelingen:

1. - Waar mogelijk dient men als onderdeel van de opzet van het onderzoek te bepalen

welke aantallen proefpersonen dienen deel te nemen om bij een verwachte effect-
grootte een tevoren gekozen onderscheidingsvermogen te realiseren.

2. - Heeft men slechts de beschikking over beperkte aantallen proefpersonen dan kan

soms een oplossing zijn dat een significantie-niveau van 10% of meer wordt aange-
houden. Zo vergroot men weliswaar de kans dat de nulhypothese wordt verworpen
terwijl deze in feite waar is maar tegelijkertijd brengt men zo de kans dat de
nulhypothese wordt verworpen in geval de alternatieve hypothese waar is op een
acceptabeler niveau.

3. — Als men tenslotte, bij gebrek aan voldoende proefpersonen redelijkerwijs slechts

weinig hoop mag koesteren eventueel in de populatie aanwezige effecten aan te
kunnen tonen verdient het aanbeveling van uitvoering van het onderzoek af te zien
of althans een tijdje te wachten op een betere gelegenheid.
Radicale verbeteringen ten aanzien van onderzoeksrapportages en -procedures kunnen ver-
moedelijk alleen tot stand komen via de opleiding tot onderzoeker en een stringenter
redactioneel beleid. Wat het eerste betreft is dat een kwestie van tijd, wat het laatste
betreft verdient het overweging vanuit een overkoepelende organisatie als het N.I.P. nor-
men op te zetten ten aanzien van de uniformering en standaardisering van tijdschrift-
publikaties, zoals dit in Amerika met enig succes is gerealiseerd.

Brewer, J.K. On the power of statistical tests in the American Educational Research Journal. American
Educational Research Journal, 1972, 9, 391-401.

Brewer, J.K. & Owen, P.W. A note on the power of statistical tests in the Journal of Educational
Measutemant. Journal of Educational Measurement, \9Ti,10, 71-74.

Buiter, R.K. & Hoogstraten, Joh. De poortwachtersfunctie van tijdschriftredacties. De Psycholoog,
1919,14, 457464.

Chase, L.J. & Chase, R.B. A statistical power analysis of applied psychological research. Journal of
Applied Psychology, 1976, 61, 234-237.

Cohen, J. Statistical Power Analysis for the Behavioral Sciences. New York: Academic Press, 1969.

Elstrodt, M & Mellenbergh, G.J. Eén minus de vergeten fout. Nederlands Tijdschrift voor de Psycho-
logie, 1978, ii, 33-49.

Studielast en Normstudent:
Ontwerp van een Akkoordtheorie
II Parameterkeuzen, Toepassingen,
Nederlandse Problemen

Study load and 'the typical student'
II Implementation; the case of the Dutch system

'n this second article, the working and consequences of the theory-for-agreemcnt set out in the
first article (De Groot, 1979b) are illustrated, distributions of student variables discussed (Ch.
3), and a few conclusions drawn regarding the choice of parameters values and innovation strat-
egies in the case of the university system in the Netherlands (Ch. 4).

In Figure 1 the possible v-dispersion - learning achievement (or effect), E, over time-on-task, 1
- in a supposedly critical task, ti, is illustrated by the cases of five hypothetical students. The
ability and (minimal) study strategy of S2 correspond to those of 'the typical student.' I; 1 is
the time-on-task actually spent by Sj on tj; the point s, arbitrarily located on the abscissa,
marks a possible system hmit to Ij j. In Table 1 the possible compensatory effects of differ-
ences in (yearly) study effort, Ij/L^j, are illustrated: effects on study progress over real time,
Vi_T, and on relative study duration, Dj(Ex)/C. Again, the figures for the live hypothetical
students are illustrative only. In Table 2, for the purpose of exploring the (upper) limit of
Ij-values - Ij = Lfj = 1700 hours being the standard currently adhered to in Netherlands
university policy - Ij-values are converted into numbers of n-hours 'working days' and of
"vacation days' per year.

As regards the distribution of overall study ability, v; -j-, it is argued that the dispersion in
(T-)distributions, if expressed as a quotient of decile values, gj (15a), is hkely to vary roughly
from gj = 2 to gj = 4. Tlie dispersion obviously depends on the operative study contract, in
particular on the corresponding entrance selection criteria. An even more pronounced depen-
dence on study contract conditions is likely to co-determine the central tendencies and spread
of the empirical distributions of the actual yearly study efforts of students, Ij, in different
systems (countries, institutions, programs). In Figure 2 the supposed Ij-distributions corro-
spondkig to two contract types are sketched: in curve B that of the (Anglosaxon) 'expedition
model' institutional entrance selection; D = C; low dropout rate; strong mutual obligations of
students and professors), and in curve A that of the (current Dutch) 'steeplechase model'
(lenient admission rules; D/C large, or: no D-limit; relatively higli dropout rate; few mutual
obligations). Curve B is mainly based on anecdotal evidence; curve A, however, representing the
supposed overall Ij-distribution of Dutch university students, is based on the outcomes of quite
a few small-scale empirical investigations.

In Section 3.7, the present working model is shown to provide a useful basis for a systematic
differentiation of causes of unfitness of a (prospective) student, S;; unfitness either for com-
pleting a critical learning task, t^ (1), or, for completing the program, T, as a whole (2). For
each of the two cases, the relevant categories are:

(a) prohibitively low ability, i.e.: Ij> respectively: Ij^x > - see formulae (13) and
(14), and S5 in Figure 1;

(b) in addition to (low) ability (a), a prohibitive personal limit to the effort Sj is able to invest
in the task, i.e.: 1| ^ > respectively: Ij j > - see formulae (12) and (14);

(c) in addition to personal ability and maximal effort restrictions, a prohibitive system limit
to the time-on-task that can be spent, i.e.: Ij ^ > s^, respectively: Ijj- > D.Li(max) - see
section 3.3 and formula (8a).
Tlie discussion on possible options for parameter values in the Dutch ease, finally (Ch. 4), leads
to the proposal of maintaining, for the time being, the current policy choices: D ^^^ I-5C, Pn =
75, Ljm = 1700. For attempts to improve the effectivity and efficiency of the Dutch
university system, the following priorities are recommended: 1) promotingJj-increase: dimin-
ishing the present gap (in certain disciplines in particular) between Ln and I, and diminishing
the spread at the lower end of curve A; 2) continual policy pressure on D: from D = 1-iC down
towards D = C; 3) adjusting p^ downwards to the extent that measure 2 has proved successful;
4) possibly, differentiating the L^-standard according to type (and cost) of study (discipline):
e.g., for one group (A): Ln = 1500, for another (B): Ln = 2000.

In deel I (De Groot, 1979b) van dit dubbelartikel werd een 'algemeen model' gepresen-
teerd voor de formele beschrijving van een (tertiaire) opleiding. In dit model kan men drie
groepen variabelen onderscheiden (vgl. 1.2), namelijk variabelen die betrekking hebben
op: (1) wat en hoe moeilijk de examenstof is, (2) hoe knap en hoe ijverig studenten zijn,
en (3) welke randvoorwaarden — met name tijdbeperkingen: hoe vlug het moet — in het
onderwijssysteem in kwestie gelden.

Beschouwt men de wijze waarop het onderwijsprogramma wordt afgewerkt als gegeven,
dan hangen studieverloop en studiesucces, en dus ook individueel en collectief rendement
van de opleiding van deze drie groepen factoren af. Moet het onderwijs ge-(her-)program-
meerd worden, dan moet die (her)programmering op deze drie groepen factoren worden
afgestemd, en/of omgekeerd.

Het model is algemeen in die zin dat het als basis voor praktische beslissingen en bespre-
kingen toepasbaar is op alle (tertiaire) onderwijssystemen en alle typen (tertiaire) oplei-
dingen - mits (of voor zover) de conventies waarop het model (de akkoordtheorie) berust
inderdaad akkoord bevonden worden. Die conventies zijn de volgende:
1. De eindtermen, T, van een opleiding zijn volledig op te delen in leertaken, {t^} - zie

2. Leertaak-lasten worden gemeten in standaard-uren ('time-on-task'); zij zijn dus optel-
baar - zie I, 1.5.

- Dit geldt zowel voor de taaklasten van individuele studenten, als voor normatieve
taaklast-waarden (zie nrs. 8, 9 en 10 hieronder). In verband met conventie 1 betekent dit,
dat de som van alle taaklasten gelijk is aan de totale studielast; dus respectievelijk: 21; ^ =
Ij^x en SIn ,k = In ,t - zie 1, formules (5) en (2).

3! De taaklast, Ij'k, van een individuele student (Sj) voor een leertaak (t^) wordt gedefi-
nieerd als de tijd die Sj nodig heeft of zou hebben om te voldoen aan de minimumeisen
die voor t^ gelden.

— is dus niet de in werkelijkheid bestede tijd. De door Sj aan werkelijk bestede
studietijd (time-on-task) zullen we - waar we deze variabele nodig hebben (zie 3.3) -
(Si's W-)inspanning oï-inzet noemen en aangeven als: Ij^k-

Nog een toelichting is nodig. Schattingen van minimaal vereiste taaklasten moet men zich
afgestemd denken op een realistische 'minimum-strategie' \din de student. Wie een tenta-

men, bijvoorbeeld, alleen maar wil 'halen' (en dus niet mikt op een hoge beoordeling) zal
zijn tijdbesteding niet afstemmen op wat nodig is voor 'een 6-', maar een zekerheidsmarge
inbouwen tegen mogelijke pech (slechte conditie, toeval, beoordelingsfouten, en dgl.).
Hoe groot die marge moet zijn hangt af van (de schatting van) het pech-risico; dat kan
groter of kleiner zijn, naar gelang van het type leertaak, het vak, de examenmethode, en
de persoon van Sj. Bij nogal wat leertaken kan men gevoeglijk aannemen dat volgen van
zo'n realistische minimumstrategie erop neerkomt dat de student in feite 'mikt op een 7'.
Ook deze conventie, met bovenstaande toelichting (exclusief 'de persoon'), geldt evenzo
voor de schatting van normatieve taaklasten.

4. Leertaken worden geacht zo te kunnen worden, en in feite zo te zijn gedefinieerd, dat
het zinvol is om bij elk ervan een bepaalde, tamelijk homogene, 'leertaak-begaafdheid' te
postuleren, die naar gelang van het type taak een grotere of kleinere spreiding kan verto-
nen in studentenpopulaties (zie 1,2.5).

5. De tk-begaafdheid van student Sj - geschreven: v.^k - wordt geacht een, Sj kenmer-
kende, constante te zijn.

6. De tk-begaafdheid van student Sj wordt gedefmieerd als tk-leersnelheid, d.w.z. als
omgekeerd evenredig met de individuele taaklast (zie 3); dus:vi,k = c/lj.k-

7. De inspanning, in standaard-uren, die een student aan een leertaak wil besteden - of
in feite heeft besteed: Ii,k (zie toelichting bij 3) - of die hij aan de hele studie, of per
tijdseenheid (gemiddeld per jaar, b.v.) wil besteden of besteed heeft, is een variabele die
hij zelf in de hand heeft, tot aan bepaalde grenzen (maxima) die over studenten variëren
maar per student geacht worden constanten te zijn; een belangrijke individuele grens-
waarde is de maximaal door Sj te dragen jaarlast, Li(max) - zie I, 2.2.

8- De 'normstudent' is niet een 'type student', maar wordt geheel gedefinieerd - aller-
eerst per leertaak (t^), vervolgens voor de gehele opleiding (T), maar dan ook alleen voor
deze opleiding - door de als zodanig vastgestelde normatieve leertaaklasten, In^k, voor
alle tk's van T, tezamen met een als zodanig vastgestelde waarde voor de normatieve
jaarlast, Ln - alles in standaarduren.

9. Voor alle leertaken, t^, worden de waarden voor de normatieve t^-lasten in principe
op dezelfde wijze vastgesteld, namelijk door schatting van steeds dezelfde percentiel-
waarde (pfj) voor de taaklast in de desbetreffende studentenpopulatie, •{Sj}.

10. Alle normatieve t^-begaafdheden - de leersnelheden van 'de normstudent' - worden
gelijk 1 gesteld: VN,k ~ 1 voor alle k. Daamit volgt (zie 6) dat c = In,k = Vi,k ' li,k; zodat
^N.k te lezen is als de normatieve ('objectieve') zwaarte van leertaak tk, maar ook - binnen
het domein van de tk-begaafdheid (zie 4) - ais de normatieve ('objectieve') grootte van
het bijbehorende leereffect, Ek; dus: Ek = Iw.k (zie echter voetnoot 2 op p. 13.).

11. Voor de cursusduur van een opleiding, C, uitgedrukt in jaren, wordt aangenomen dat
hij gelijk is aan het quotiënt van de totale normatieve studielast en de normatieve jaarlast;
dus:C = LN,T/LN,of:C = 2LN,k/LN. ^ ^^ .

12. Is er in het onderwijssysteem een maximale inschrijvingsduur, D (m jaren) dan geldt

Met uitzondering van nr. 12 die alleen ter invoering van D is opgenomen maar moeilijk te
bestrijden valt, bevatten al deze conventies in principe aanvechtbare vereenvoudigingen
van de werkelijkheid. Zij lijken echter adequaat voor onze akkoordtheorie: over hun
bruikbaarheid bij toepassingen moet overeenstemming te bereiken zijn. Het algemene
model is onschuldig vergeleken bij wat nog komen moet: het voorstellen van getalswaar-
den voor de parameters van het model.

hl liet voorgaande is nog niets gezegd over de wenselijke grootte van cursusduur en
inschrijvingsduur, met name over hoe zij met elkaar in verband zouden moeten staan.
Gedurende een aantal jaren ging men in Nederland, blijkens de publieke discussies over dit
onderwerp, soms uit van een relatie: D = C + 2, soms ook van D = C. Dit berustte
echter alleen op nu eenmaal gedane numerieke voorstellen (De Groot, 1964, de Nota's
van Posthumus, 1968, en de Herstructureringswet, 1975), en niet op onderwijskundig
dwingende overwegingen. Dit laatste kon ook moeilijk, gezien het feit dat Angelsaksische
systemen in het algemeen werken met D = C. Pogingen om dit laatste iets meer te
benaderen, eerst door de CVHWO, later door minister Pais (H.O.V,V.-Nota 1978) zijn nog
niet succesvol gebleken. We beschouwen de kwestie nog als onbeslist, en, ook in Neder-
land, ter discussie (zic 4.1).

Mutatis mutandis geldt hetzelfde voor de normatieve jaariast, L^. Meestal wordt aangeno-
men dat Ln = 1700 (standaarduren); maar ook dit is veeleer een resultaat van historisch
toeval', dan van een onderwijskundig weloverwogen keuze. Twee vragen verdienen veel
meer aandacht dan zij tot dusver gekregen hebben: Moet dezelfde LN-norm voor alle
tertiaire opleidingen gelden? en: Zo ja, is 1700 standaarduren — b.v. vergeleken met het
buitenland - dan wel de verstandigste keuze? (zie 4.4).

Ook met betrekking tot de grootte van het normstudent-percentiel, Pn, is in Nederland
een zekere traditie ontstaan; de waarde p^ = 75 is althans vaak genoemd. Die keuze werd
dan echter meestal gerechtvaardigd vanuit een vage conceptie waarin statistische en mo-
rele normen door elkaar liepen (zie I, 1.1 en conventie 8 hierboven): de normstudent
moest beantwoorden aan het 'beeld' van een 'goede' of 'ruim voldoende' student die
bovendien 'behoorlijk werkte'. Ook deze vraag staat in principe nog open; een grondige
analyse is gewenst, ook hier met inachtneming van de kenmerken van andere (buiten-
landse) systemen. Daarbij zal ook meer duidelijkheid moeten worden verkregen over de
definitie van de doelpopulaties van studenten, waarin de percentiel-waarde wordt bepaald
of geschat (zie 3.5 en 4.2).

Om bij de analyse van deze drie beslissingsproblemen (D/C, Ln, en Pn) zo veel mogelijk
profijt te hebben van de denkwijzen en formaliseringen van ons algemene model is het
nuttig de werking en de betekenis ervan op enkele punten wat verder uit te werlcen en te
concretiseren. Daarbij zullen andere 'openstaande vragen' aan het licht komen waarop bij
toepassingen antwoorden gegeven zullen moeten worden (zie 3.3 t.m. 3.5).
Bij de bespreking van al deze praktische, en deels politiek geladen, 'invullings'-problemen
zal tenslotte blijken, dat hun oplossing ten sterkste afhangt van het antwoord op de vraag
onder wat voor onderwijscontract wij eigenlijk willen^ werken, in Nederland. Dat hier, bij
de vraag: 'Voor welk type contract opteren we?', de kern ligt van bijna alle problemen
van planmatige onderwijsorganisatie en -vernieuwing — selectie, programmering, studie-
rechten en -plichten, niveaubewaking, enz. — is geen nieuwe conclusie. De onafwendbaar-
heid van die conclusie en het belang van een veel grondiger studie en discussie over dit
onderwerp kunnen echter bij de uitwerking van ons model goed gedemonstreerd worden.

' Bij de Amstcrdam|e (G.U.-)psychologen werd in het begin van de zestiger jaren al een studiepunten-
stelsel ingevoerd waarin gerekend werd met 85 punten (van elk een week = 40 uren) voor een tweejarig
postkandidaatsprogramma; dus: Ln = 1700.

In Figuur 1 wordt, volgens de schematisering van het algemene (lineaire) model, het
leerproces of de leer-gang van een aantal voorbeeldstudenten afgebeeld bij het volbrengen
(of niet volbrengen) van een leertaak, t,. De normatieve taaklast is gesteld op de waarde
•n,i. Daarmee is tevens, volgens formule (II) in I, 2.3, de grootte van het te bereiken
leereffect, E,, gegeven: E, = Volgens het model neemt bij iedere student het

leereffect, E (verticale as), lineair'toe met de eraan bestede leer-tijd in standaarduren, 1
(horizontale as). In de grafiek is aangenomen, dat alle studenten op hetzelfde (nul-)niveau
van tl-onwetendheid beginnen, zodat de leer-ganglijnen - volgens de algemene formule E
= v.1; zie I, (1 la) - uitwaaieren vanuit de oorsprong (E = 0,1 = 0), elk met een richtings-
coëfficient gelijk aan de ti-begaafdheid (tj-leersnelheid) van Sj: Vj,, = iN.iAi.i • De verti-
cale as en de student-lijnen zijn, met uitzondering van die van 'de (ti-)normstudent',
onderbroken getekend om de in I, 2.3 besproken restricties van het lineaire model - de
schaarste van en onzekerheid omtrent adequate meetpunten - te symboliseren.

' Deze formule (en de 'produkt-wct' zoals die hier zal worden toegepast, vgl. I, 2.3) is in deze vorm
alleen bruikbaar zolang men zich beperkt tot de bespreking van één leertaak, t|, met de daarbij
behorende tj-hegaafdheid (zie 3.1, nr. 4). Denkt men aan praktijkvoorbeelden dan spreekt dit vanzelf.
Weliswaar is het in studiepunten-systemen goed gebruik om bijvooibeeld 40 uien practicum, 40 uren
college lopen en 40 uren zelfstudie gelijk te schakelen; maar dat houdt niet in dat de grootte van de
leereffecten zoals hier bedoeld (toenemend tot, of voorbij, l'.,) noodzakclijkeiwijzc gelijk zouden
moeten zijn. Zou men dit nader kunnen en willen onderzoeken, dan kan men beter werken met een
formule die alleen de evenredigheid van E en l aangeeft en niet tevens de meeteenheid gelijkschakelt;
dus b.v.: I-,| = a,.lN 1 en l'.^ = "2.1n 2 - '"et als probleem hoe de alpha's zich verhouden.

In de tekening is de spreiding in leersnelhcden onder de voorbeeld-studenten, van Sj met
V = vi,i = 2 tot S5 met v = vj^i = 0,25, van een grootte-orde zoals men die bij kritische
leertaken kan aantreffen (type 2 in I, 2.5).

51 is een zeer vlugge (ti-)studcnt, die, door meer inspanning (li 1) aan ti te besteden dan voor hem
nodig is (li,i), qua leereffect (E) aanzienlijk boven de minimum-eisen (Ei) uitkomt. Niettemin blijft
zijn feitelijke time-on-task di i) aanzienlijk onder de norm (1n,i)-

52 is een student met een ti-begaafdheid gelijk aan die van dè normstudenf. V2_i = 1 en I2J = Inj.
Ook hij zou met meer inspanning (l2,i > h.i) een hoger leereffect (E) kunnen liereiken, maar hij doet
dat niet.

S3, de middelste van de vijf, zou met zijn v = 0,8 de mediane student kunnen zijn in een - overigens
nog ongedefmeerde - populatie waarin de tj-leersnelhcidsnorm die van pn = 75 is; enige gelijkenis
met Nederlandse verlioudingen is in de tekening wel nagestreefd. Ook S3 spant zich meer in (studeert
langer op ti) dan voor hem nodig is (13^1 > 131) en komt dan ook uit bij een E > Ei.
S4 heeft een laag tempo (v = 0,5) maar 'studeert stug door' tot hij liet niveau lieeft geliaald: I4 1 = I4 j

Van Ss wordt in de tekening aangenomen dat hij een prohibitief lage ti-leersnelheid heeft. Hij houdt
ermee op na een inspanning (Is,]) die ver onvoldoende is om Ei te halen. Zou hij zijn doorgegaan
(gestippelde lijn), dan zou hij eerder zijn aangekomen bij de verticale stippellijn van Xi dan bij de
horizontale van Ei. Met andere woorden: Ss zou gestuit zijn op de algemene bovengrens voor de
t]-tijdbesteding, volgens 1, 2.4, formule (13): het punt - in feite natuurlijk veeleer een zone - waar de
ti'taaklast in het algemeen verondersteld wordt de pan uit te rijzen, niet meer sociaal aanvaardbaar te
zijn: 'Zo lang mag die ene leertaak niet duren, dat heeft geen zin'. Op de vraag waarom S5 er mee
opgehouden is (bij Is^i) geeft de tekening geen antwoord. Misschien heeft hij 'X] zien aankomen', dat
wil zeggen ingezien dat het 'geen zin' had met ti door te gaan als hij zo langzaam opschoot. Een
andere mogelijkheid is dat S5 op dit punt, qua inspanning voor ti, al zijn persoonlijke tijdbestedings-
bovengrens bereikt had: 15^1 = Xsj, volgens I, 2.4, formule (12). Dat zou dan betekenen dat S5 op dit
punt (1 = 151) - op grond van de tot zover opgedane ervaringen - 'het niet meer had' om nog verder
aan ti te werken.

De verticale stippellijn 1 = s, rechts van 1 = 1n,i - maar overigens (evenals 1 = Xi) op een
vrij willekeurige plaats op de 1-as aangebracht - is bedoeld om een eventuele systeem-
grens aan de opvoering van de aan ti besteedbare tijd aan te geven. Het kan voorkomen
dat een leertaak, ook een kritische, in het curriculum zo functioneert en is ingepast, dat er
in feite een maximum aantal standaarduren voor staat, dat voor sommigen prohibitief kan
zijn. In de tekening zou dit behalve voor S5 ook voor S4 gelden.

Figuur 1 suggereert nog een andere interpretatie. Het zou een afbeelding kunnen zijn van
de studiegang van studenten door een gehele opleiding; en wel zo dat de verticale lijnen
bij 1n,i en s respectievelijk de cursusduur, C, en de maximale inschrijvingsduur, D(max),
zouden voorstellen.

Is de figuur zo te lezen? En zo ja, op welke punten moeten de interpretaties dan worden
veranderd?

De figuur is inderdaad zo te lezen; en de te veranderen leeswijze is formeel gemakkelijk
weer te geven.

1) Men leze voor T]: de gehele opleiding, T (opgevat als één leertaak) — voor de taak-
index 1 wordt overal T gesubstitueerd.

2) Men interpretere de horizontale as nu niet als bestede studietijd (time-on-task), maar
als geïnvesteerde levenstijd of kalendertijd, dus als studie^/uwr — voor de 1 voor 'last'
denke men zich (b.v.) een d voor 'duur' (in dagen, maanden, jaren); en ook I wordt
steeds zo gelezen.

3) Men leze voor de v's nu niet tj-leersnelheden in taakuren maar T-voortgangssnel-
heden over kalendertijd - aan te geven door Vj^x (in plaats van Vj^ j).

Vervolgens kan men inderdaad de normatieve taaldast (1n,i) vervangen door de
cursusduur, C, en voor de systeemgrens, s, substitueren: D(max), of korter: D.
ben nieuwe figuur lijkt niet nodig; de lezer kan deze wijzigingen in gedachten zelf wel
aanbrengen. Maar hij moet wel gewaarschuwd worden tegen verwarring van de twee
'eeswijzen en tegen onderschatting van het verschil in betekenis. Dat verschil is zeer groot.
J^let belangrijkste verschil is dit. Weliswaar kan de nieuwe leeswijze als schematische
beschrijving van 'hoe het gegaan is', of hoe het in het algemeen gaat (in Nederland) zijn
aantrekkelijkheid en zijn nut hebben, maar men kan er qua verheldering van de probleem-
stellingen van de praktijk verder niet veel mee doen. Dat komt doordat Vj^T-waarden, in
tegenstelling tot Vj , (en Vj_x), wel als gebleken of verwachte (voortgangs-)s«ettec/en
gunnen worden gelezen, maar niet als resultaten of (criterium-)maten voor vaste persoons-
kenmerken. Als begaafdheden, waarmee rekening kan en moet worden gehouden, bijvoor-
beeld als het gaat om problemen van geschiktheid (zoals in I, 2.2 en 2.4), zijn Vj^x-waar-
den niet op te vatten. Ten eerste is het al wat dubieus om een gehele studie als één
eertaak te beschouwen; ten tweede is Vj ^, qua voortgangssnelheid door de (kalender-)
t'jd, een produkt van leersnelheid èn ijver; ten derde faalt ook de (nood)oplossing, waar
men aan zou kunnen denken, namelijk: dat produkt tóch als een soort T-begaafdheid op
te vatten, in de betekenis van 'het vermogen om in zo'n T-studie hard op te schieten'. Men
oopt dan vast op het verschil tussen kunnen en willen. Neemt men aan dat ijver mede een
Zaak is van vrije wil (zie 3.1, nr. 7) en/of dat het mogelijk moet blijven te onderscheiden
tussen een 'begaafde maar luie' en een 'weinig begaafde maar ijverige' student, dan is Vj x
een weinig bevredigende variabele.

'-»aat men over naar de nieuwe leeswijze, dan moeten de beelden van de vijf studenten ook
grondig worden herzien. Om een indruk te geven van de veranderingen die de ijver-factor
Kan te weeg brengen zijn in de volgende tabel voor de vijf studenten de consequenties van
V^er-compensatie met een paar voorbeeldcijfers weergegeven.

in de eerste kolom (v.^x) staan voor de vijf studenten de in figuur 1 aangenomen waarden
opnieuw vermeld. De tweede kolom geeft de relatieve ijver-factor weer, met nogal

arbitrair gci^ozen getallen, die voor Sj de relatieve studie-inspanning per tijdseenheid
aangeven: het gemiddeld per jaar door S| werkelijk aan de studie bestede aantal uren. Ij,
gedeeld door de norm daarvoor, de normatieve jaariast, L^. De studie-voortgangssnelheid
over kalendertijd, Vj^y, in de derde kolom, is telkens het produkt van de getallen in de
eerste en de tweede. De vierde kolom geeft de minimale (tot E-p reikende) studieduur van
Sj aan in verhouding tot de cursusduur, C, als norm; de getallen zijn de omgekeerden van
de vorige kolom.

Uit de vierde kolom blijkt dat - met de gegeven (arbitraire) getallen van kolom (2) -
ijver-compensatie grote effecten kan hebben.

Si is, door zijn geringe inzet, afgezakt tot de vierde plaats, S3 heeft zich door ijver naar de eerste
plaats opgewerkt, S4 naar de derde. Alleen de, nóg grotere, ijver van 85 heeft, gegeven zijn lage Vj t,
weinig verbetering gebracht.

Denken wij ons nu, op zijn Nederlands, een maximale inschrijvingsduur D(max) - s in figuur 1 - die
gelijk is aan IfC, dan zien wij het volgende. Sj kan met de hier veronderstelde lage jaariast (0,33) nog
juist het minimumniveau, K-r, halen in de tijd van de maximale inschrijvingsduur. Neemt hij - zoals in
de figuur is aangenomen - met dat minimum geen genoegen (of, lukt het hem niet zich daarop te
richten), dan zal hij om het l>niveau van figuur 1 te behalen een studieduur van meer dan twee maal
de cursusduur nodig hebben - als dat kan in het systeem, gezien de royale overschrijding van de
maximale inschrijvingsduur. Zou S| dat hebben zien aankomen en zijn relatieve jaariast van 0,33 tot
0,50 hebben opgevoerd, dan zou het niveau lij kunnen behalen in de tijd C, en het niveau van figuur 1
in de tijd D(max). S3 blijkt door zijn extra inzet capaciteit over te hebben, waarmee hij (evenals in de
tekening verondersteld werd) met een F-: > Ey kan eindigen, nu zelfs met een studieduur gelijk aan de
cursusduur. Ook S4's ijver-compensatie is royaal geslaagd aangezien hij het E-j-niveau nu bin-
nen de tijd D(max) = l-jC kan halen. 85 daarentegen kan het Ex-niveau, zelfs met zijn (verdub-
belde) ijver, alleen dan halen als het systeem - en Sj's uithoudingsvermogen (de waarde van zijn
T-bovengrens, Xs^y; vgl. 2.4) - een studieduur langer dan de maximale inschrijvingsduur toelaat.

De getallen geven een beeld van hoe de formules werken en van de invloed van de
ijver-factor op het eindresultaat — tenminste, indien de in kolom (2) geïntroduceerde
spreiding in Ij realistisch is (zic 3.6).

Over de verdelingen van leertaak-begaafdheden, of tk-leersnelheden, Vj ^ — of van de
reciproke student-variabelen tj^k = Vj_k, de tk-studietijdbehoeften (zie I, 2.6) - voor
verschillende typen leertaken is in I, 2.5 al het een en ander gezegd. Alleen een paar
preciseringen en uitwerkingen zijn nodig, vooral met betrekking tot dc resulterende Vi_x-
waarden.

Allereerst moet een afspraak worden gemaakt over Üe studentenpopulatie, waarbinnen
over de verdelingen van deze student-variabelen zal worden gesproken. Uit praktische
overwegingen ligt de keuze voor de hand: de bespreking van Vj ^- (of ti_k-)verdelingen zal
betrekking hebben op een populatie, -(Sj}, bestaande uit alle tot t^ toegelaten of toe te
laten studenten Gaat het om vj^j-verdelingen, dan omvat {Sj} alle tot T (in het verleden)
toegelaten of (in de toekomst) toe te laten studenten.

Deze keuze heeft het voordeel dat men spreekt over kwaliteiten van studenten zo als deze
laatste er (kunnen) zijn, zo als ze toegelaten zijn. Er zijn echter ook enkele vervelende,
maar moeilijk te vermijden consequenties aan verbonden. Ligt de leertaak t^ laat in het
curriculum (bijvoorbeeld kort voor het doctoraalexamen) dan kunnen er al vele studenten

Uit de <(Si} voor T afgevallen zijn, waardoor de betreffende Vj^k-spreiding aanzienlijk
verminderd kan zijn vergeleken bij die voor een, overigens gelijksoortige leertaak, ti, die
vroeg in de studie valt. Vergelijken en generaliseren kan men niet goed. Verder is wat men
over Vi_T-verdelingen, in de {Sj} voor T, kan zeggen gebonden aan de desbetreffende
opleiding en met name afhankelijk van de aan de toelating tot T voorafgaande zelf-selectie
en institutionele selectie.

Dit laatste maakt het in het bijzonder moeilijk om uitspraken over v-verdelingen en
spreiding daarin te doen die gelden voor systemen met verschillende onderwijscontracten
(zie C.O.W.O., 1972). In geval van een expeditiemodel - met verwaarloosbare uitval en
met studieduiir = cursusduur (D; = D(max) = C) voor alle Si - selecteert men vooraf
scherp, om iedereen te kunnen meenemen onder handhaving van het minimum-niveau.
Et- In geval van een veldloopmodel daarentegen selecteert men vooraf - onder de 'toe-
laatbare' (eligible) gegadigden - alleen als dit uit capaciteitsoverwegingen strikt noodzake-
lijk is (en dan misschien nog d.m.v. loting), omdat men niemand die een kans zou kunnen
hebben wil tegenhouden. Heeft deze strategie niet het voor de hand liggende - en waar-
schijnlijk vaak voorkomende - gevolg dat E^ afzakt, dan is het risico groot dat de
Vi,T-spreiding, in {S;} voor T, zo groot is, met name aan de lage kant, dat men vele
ongeschikten toelaat (zie 3.7).

I^ortom, het is moeilijk om over vj.k-verdelingen voor verschillende typen leertaken en
over Vi_T-verdelingen veel meer in het algemeen te zeggen dan in I, 2.5 (en 2.6) al gedaan
's. Er zijn enkele grenzen en afltankelijkheden te noemen waarmee bij schattingen reke-
ning moet worden gehouden.

In het algemeen geldt dat de spreiding in totale stiidiebegaafdheid, vj^t, in {Sj}, kleiner
moet zijn dan die in de (kritische) leertaak (vf_k) met de grootste spreiding^ - die dikwijls
tevens de zwaarste zal zijn. Verder is het duidelijk dat de Vi,T-spreidmg m <(Si)- des te
groter zal zijn:

naarmate T méér sterk spreidende (zwaardere, kritische) leertaken omvat;
naarmate de leertaak-begaafdheden, Vj^k, in het algemeen sterker correleren - dus naar-
mate T homogener is. , r,r\
Drukt men de V; ^spreiding uit in de eerder ingevoerde spreidmgsmaat, gk (formule (15)
in I. 2.5), dus nu!

dan kan men op grond van ervaring en gezond verstand aannemen, dat gx over verschil-
lende T's (in tertiaire opleidingen, in westerse landen) zal variëren van {minder dan) 2 tot
(tneerdan) 4.

De laagste waarden vindt men in opleidingen die volgens het expeditiemodel werken, met
TOor allen constante studievoortgangssnelheid: V, t = C. Daar is de ij ver-compensatie
compleet (door het systeem gegarandeerd); d.w.z.: de feitelijke relatieve studie-inspan-
■^ng, Ii/Ln, die om Et te kunnen halen omgekeerd evenredig moet zijn met de totale
studiebegaafheid, Vj^x, stelt grenzen aan de mogelijke spreiding van Vj^x in {Si> - {Sj} is

' Voor twee leertaken (n = 2) is dit niet moeilijk te bewijzen voor de reciproke variabele, tj^x =
Volgens (16b) in 1, 2.6 is dan: tj x = citj , + ezti^j, met ei + ej = 1. Is nu de variantie van tjj
SToter dan die van tj 2 - dus: s,' > s,^ - dan geldt ook: s,' > sx^ Ook bij n > 2 treedt dit effect
pp: de spreiding wordt mee-'gemiddeld'. Waarschijnlijk geldt dit - sx' < Sk' (max) - ook voor de
'harmonisch gemiddelde' v's (zie I, 2.6) indien de Vj^k's in spreiding verschillen.

dan 'homogener'. In zulke systemen kän gx kleiner dan 2 worden; dus: een 'snelle'
(negende deciel) student is minder dan twee maal zo T-begaafd als een 'trage' student.
In het andere extreme geval, dat van het veldloop-model, lijkt gx = 4 een reële waarde:
kleiner dan 6, de voor kritische leertaken veronderstelde grootte-orde (I, 2.5), maar nog
steeds vrij groot (goede student vier maal zo vlug als een zwakke). Daarbij wordt dan wel
een voorafgaande zelf-selectie en selectie verondersteld, het laatste minstens op toelaat-
baarheid op grond van een diploma dat voorkennis en basis-vaardigheden garandeert. Is er
géén selectie - en werkt de zelf-selectie niet goed - dan kan gx ver boven de 4 stijgen, en
theoretisch zelfs oneindig groot worden, namelijk als {Sj} minstens 10% studenten bevat
die 'er niets van (kunnen) begrijpen', dus met Vj x = 0.

Van veel belang voor schattingen zijn de verdelingen van de inspanningsvariabelen Aller-
eerst een concrete vraag over de in 3.4 (tabel I) ingevoerde 'relatieve ij ver-factor', het
quotiënt van Sj's per jaar feitelijk gemaakt (of te maken) aantal standaarduren en de
normatieve jaarlast: Ij/Ln. De vraag is of de in tabel 1 gegeven voorbeeld-getallen reëel
zijn, met name de hoge waarden van Ij/LiM voor 83,84 en 85 (de ondergrens is uiteraard:
Ij = 0).

Het eerste antwoord op de gestelde vraag is natuurlijk dat dit van de grootte van L^
afliangt. Stellen we Ln op 1700 standaarduren, dan kan men een wat concreter beeld van
de reële last en de haalbaarheid van hoge Ij-waarden verkrijgen door de 365 dagen van het
jaar in te delen in 'werkdagen' van n uren en 'vakantiedagen' van O uren. Tabel 2, waarin
dit is gedaan, spreekt verder voor zichzelf.

De tabel is instructief als concretisering van de betekenis van veel gebruikte getallen voor
de jaarlast (of feitelijke jaar-inspanning). Trekt men van de 365 dagen, volgens traditio-
nele werktijdopvattingen, de 104 zaterdagen en zondagen af, dan blijken er, bij de norma-
tieve last van 1700 uren en een werkdag van 8 uren, 155-104 = 51 (overige) vakantiedagen
over te blijven, d.i. 10 weken 'vakantie' per jaar (inclusief officiële vrije dagen). Voor een
werknemer - zelfs in het onderwijs - zou dat een zeer licht programma zijn.
Het voordeel van de opstelling in tabel 2 is echter dat men zich ermee kan losmaken van
de traditionele opvattingen. Enerzijds is het onnodig aan te nemen dat men op officiële
vrije dagen niet zou kunnen, willen of behoeven te studeren; anderzijds lopen zowel de

praktijk als de opvattingen over het aantal standaarduren dat een student op een 'werk-
dag' zou kunnen, willen, of zou geacht mogen worden te maken sterk uiteen. Wat de
extremen betreft: men kan horen verdedigen, dat een student niet meer dan vier uur per
dag 'kan studeren', maar ook, dat voor een (a.s.) intellectueel twaalf uur werken op een
werkdag volstrekt niet abnormaal is. Dit laatste komt ook wel voor, zeker in sommige
buitenlandse (PhD-)programma's, maar ook in bepaalde stadia van, bijvoorbeeld, de medi-
sche studierichtingen (b.v. acht uren colleges en practica, vier uren boekenstudie).
Zijn de getallen in de eerste twee kolommen nu 'reëel'? Dat wil zeggen: (1) Komen zij
voor in de praktijk? en (2) Mag men dit verwachten, met name van studenten die een
grote ijver-compensatie nodig hebben? Wat vraag (1) betreft moet men waarschijnlijk voor
alle vier de rijen in tabel 2 'Ja' antwoorden - met dien verstande dat studenten die 3400
uren per jaar maken vermoedelijk wel bestaan (ook in Nederland?) maar zéér uitzonder-
lijke blokkers zijn. Wat vraag (2) betreft: de 1700 uren van de eerste rij lijkt vrij reëel als
norm - meer hierover in 4.2 - en de 2550 uren van de derde rij, nog steeds, niet
'onmenselijk' in gevallen waar ijver-compensatie nodig is. De getallen van de tweede rij
lijken absurd voor een (full time) student, en die van de vierde rij: te veel gevraagd - ook
al komt dit voor.

Wat is er uit onderzoek bekend over Ij-verdelingen? Het is hier niet de plaats om dit, nog
steeds wat 'moeilijke', punt - m.b.t. vraag (1) hierboven - uitvoerig te bespreken met
statistieken en interpretaties daarvan. Alleen drie algemene uitkomsten moeten worden

1- In verreweg de meeste empirische onderzoekingen naar de gemiddelde feitelijke 'stu-
dielast' of studie-inspanning per jaar (I) komt men in Nederland veel lager uit dan op
1700 uur.

2- De gemiddelden variëren sterk en systematisch naar gelang van de studierichting en
het aantal (verplichte) contact-uren daarin ('schoolsheid').

Er zijn sterke aanwijzingen dat de Nederlandse Ij-waarden aanzienlijk lager liggen dan
die in de - ongetwijfeld veel meer 'schoolse' - tertiaire (universitaire) opleidingen in
andere landen: de V.S., de westeuropese en de oosteuropese landen.

Wat de punten 1 en 3 betreft is de lüer afgedruicte figuur, die drie en een half jaar geleden
werd gemaakt (De Groot, 1976) op grond van toen beschikbare gegevens (en schattingen),
vermoedelijk nog steeds vrij adequaat.

Een zekere verschuiving van curve A naar rechts zal vermoedelijk wel hebben plaats
gevonden, met name ten gevolge van de herprogrammering met de bijbehorende 1700-
uren-norm. Ook voor de grootte van die, veronderstelde, verschuiving zal echter zeker
punt 2 gelden: verschillend voor verschillende studierichtingen. Er is echter weinig reden
om aan te nemen, dat de verschuiving zo groot zou zijn, dat de algemene beweringen
onder 1 en 3 niet meer zouden gelden.

Voor een verdere uitwerking van de beantwoording van vraag (2): wat men qua Ij mag
verwachten, en van de bespreking van de persoonlijke grens-variabelen qua inspannings- en
uithoudingsvermogen: Xj^k en Xj^r (i.v.m. A^ en Xj), Li(max) en Di(min) - zie resp. in I
de formules: (12), (13), 04), (8) en (10) - is het nodig iets nader in te gaan op de
problemen van uitval en ongeschiktheid (3.7).

Volgens onze akkoordtheorie hangt het antwoord op de vraag of een student al dan niet
zal uitvallen - de studie zal staken, of zal worden weggestuurd - in principe geheel af van
de Produkten van zijn t\^-capaciteiten (vj^k) en i\^-inspanningen (Ij^k) in relatie tot de
minimum-eisen van het examenprogramma — waarvan alleen de zwaarte (E^) of het
normatieve tijdbeslag (In.k) beschreven wordt - en van de regels van het vigerende
studiecontract. Het daarmee verkregen beeld is uiteraard schematisch en onvolledig. Wil
men het model gebruiken voor een betere systematische beschrijving van de modaliteiten
van het uitval-verschijnsel — met behoud van het hoofdelement, de 'produktwet' — dan is
dat mogelijk door nadere uitwerkingen. Een student kan bijvoorbeeld falen door een
verkeerde verdeling van zijn inspanningen in de tijd, in relatie tot de eisen van het
onderwijsprogramma', of doordat hij in conflict raakt met andere eisen van het systeem
(contract) dan de enkele tot zover in de definities en formules ingevoerde eisen.
Deze weg is begaanbaar — met specificaties naar gelang van het onderwijssysteem en de
opleiding in kwestie — maar wij zullen hem hier niet bewandelen. Het lijkt echter wel
nuttig om op "basis van het model te trachten de mogelijke oorzaken, niet van feitelijk
falen, maar van ongeschiktheid op de rij te zetten.

Daarbij gaan wij ervan uit dat ongeschiktheid 'bestaat', d.w.z. dat in de populaties van
voor bepaalde opleidingen, met eindtermen T, toegelaten studenten, {Sj}, studenten
voorkomen die men 'T-ongeschikt' kan noemen. Weliswaar maakt de asymmetrie van het
(predictieve) geschiktheidsbegrip het moeilijk om individuele o/2geschiktheidsuitspraken
empirisch te toetsen: terwijl 'geschiktheid' evident kan blijken (door succes) blijft 'onge-
schiktheid' ook in geval van falen een onzekere interpretatie." Er zijn echter, zeker voor

" De beste manier om die interpretatie te verstevigen - waarvan zowel om research- als om pedagogi-
sche redenen te betreuren is dat hij praktisch nooit wordt toegepast - is waarschijnlijk af te gaan op,
zorgvuldig verzamelde, 'learner report'-achtige uitspraken van de uitgevallen studenten zelf. Wie zelf
verklaart: 'dat vak (iji T) was me te zwaar' of 'die inspanning kon ik niet opbrengen', erkent en
definieert daarmee zijn eigen T-ongoschiktheid (vgl. de discussie over geschiktheid in T.H. Delft,
1959).

wat betreft qua abstractieniveau en/of stof-omvang 'moeilijke' tertiaire opleidingen (vgl.
De Groot, 1978a), voldoende aanwijzingen dat 'ongeschiktheid' in {Si} voor T kèn voor-
komen - soms zelfs in aanzienlijke percentages: 10, 20,30%. Trouwens, ook als T-onge-
schikten alleen buiten de populatie van tot T toegelaten of toe te laten studenten, <Si>, te
vinden zouden zijn, zou het nuttig blijven enige aandacht te besteden aan de mogelijke
oorzaken van die ongeschiktheid.

Waar kan het aan liggen, dat een student (of niet-student) ongeschikt is?
In het kader van ons model zijn de volgende gevallen te onderscheiden.
1- Een vak of onderdeel is te moeilijk (niet haalbaar) voor Si, bijvoorbeeld een kritische
leertaak tj^. Wat de grenswaarde (of -zone) voor li_k = Iw.k/vi.k betreft zijn drie
gevallen te onderscheiden:

la) een zo hoge t^-last 'kan eenvoudig niet'; doordat Vi_k « 1, wordt:
Ib) een zo hoge t^-last kan Si 'persoonlijk niet opbrengen':

Ic) onderwijsprogramma- en/of contractregels stellen een grens aan de voor t^ te
spenderen tijd: 'meer mag (kan) men daaraan niet besteden':

2. De studie als geheel (Tj is te zwaar voor Sj. Ook hier zijn, analoog, drie gevallen te
onderscheiden:

2c) er is een systeemgrens gesteld in de vorm van een maximale inschrijvingsduur (=
maximale studieduur), D(max) of D, en Si 'kan de studie niet binnen de tijd
klaarkrijgen':

In de gevallen la en 2a is Si's geringe begaafdheid (leersnelheid), respectievelijk voor tk en
voor T, de enige, althans een voldoende reden om hem ongeschikt te noemen. In de
gevallen Ib en 2b wordt aangenomen dat óók persoonlijke grenzen aan Si's, maximaal
(voor tk resp. T) op te brengen inspanning een rol spelen. In de gevallen Ic en 2c speelt
bovendien een systeem- (contract- of programma-)g/-(?/i5 mee.

Bij het behandelen van problemen van (veronderstelde) ongeschiktheid lijkt het nuttig de
mogelijke oorzaken en hun combinaties goed uit elkaar te houden. Per persoon kan de
nadruk verschillend liggen; en elk van de hier ingevoerde persoonlijke (grens-)waarden kan

op ziclizelf prohibitief zijn voor studiesucces. Voor de begaafdheidsvariabelen, Vi^^ en vj^x
Oi.k cn li_x) is dit al eerder besproken. Het kan echter ook zijn - ongeacht de grootte van
de v's - dat de individuele grenswaarden, en Xj^x prohibitief laag liggen, bijvoorbeeld
bij geringe affiniteit tot, of zelfs afkeer van, een bepaald onderdeel (t^) of de studie (T)
als geheel (Ib en 2b). Tenslotte is er, met name in geval van een systeem-grens aan de
studieduur (2c), de mogelijklieid — opnieuw ongeacht de grootte van Vj^x> en eventueel
ook ongeacht Sj's affiniteit tot de studie - dat bij Sj de maximaal te dragen jaarlast,
l^(max), te laag ligt om aan formule (8a) - of (10) of (10a); zie I, 2.2 - te kunnen
voldoen; d.w.z. dat zijn maximale ijver of studie-uithoudingsvermogen te kort schiet. Ook
de persoonlijke grensvariabelen met betrekking tot de op te brengen inspanning, dus: Xj_k,
Xj .p en Lj(max), zijn te beschouwen als persoonsconstanten die Sj's geschiktheid of onge-
schiktheid mede determineren.

Zijn dit echter wel persoonlijke 'constanten', d.w.z. binnen het geldigheidsbereik van de
akkoordtheorie onveranderlijke kenmerken van Sj? Het lijkt verstandig deze model-ver-
eenvoudiging van de werkelijkheid - bij definitie - te aanvaarden, evenals dit bij de
Vj^k-waarden voor Sj is gedaan. Daarbij passen echter twee aantekeningen. Ten eerste is de
veronderstelling dat Xj k, Xj x en Lj(max) over de (studie-)tijd constant zouden zijn
waarschijnlijk een sterkere simplificatie dan de overeenkomstige voor Vj_k (en Vj^x)- Ten
tweede is het duidelijk, dat constantie van deze persoonsvariabelen in geval van sterke
veranderingen in de sociale situatie niet mag worden verondersteld. Wat men kan opbren-
gen hangt, sterker dan hoe vlug men leert, af van het vigerende onderwijscontract en van
het bijbehorende sociale klimaat. Kijkt men naar de gevallen A en B in figuur 2, dan is in
'klimaat A' iemand die 2550 uur maakt een uit de toon vallende uitslover; in 'klimaat B'
daarentegen valt iemand die met 1500 uur de kantjes eraf loopt uit de toon. Iets doen dat
in een gegeven sociaal klimaat uit de toon valt is (sociaal) moeilijk. Li(max) is derhalve
ongetwijfeld sterk afliankelijk van (drastische veranderingen in) onderwijscontract en so-
ciaal klimaat. Hetzelfde geldt, mutatis mutandis, zeker ook voor de lambda's.

4. KEUZE VAN PARAMETER-WAARDEN; NEDERLANDSE PROBLEMEN
4.1 Inschrijvingsduur en cursusduur: D ~ l^C?

Het Nederlandse denken over de verhouding tussen maximale inschrijvings- (en studie-)-
duur, D, en cursusduur, C, is nog steeds 'in beweging', maar onder randvoorwaarden die
nauwelijks enige werkelijke beweging toestaan. Dat denken wordt eensdeels bepaald door
volgens sommigen 'muurvast' zittende verhoudingen tussen belangengroepen - zodat
bijna niets 'haalbaar' is - anderdeels doordat men, vanzelfsprekend en/of stilzwijgend,
uitgaat van een aantal, onderling samenhangende, traditionele kenmerken van het Neder-
landse universitaire (veldloop-)systeem.® Tekenend voor dit denken is, onder meer, dat

' Om er nog eens een paar te noemen (verspreid te vinden in oudere publikaties, vanaf De Groot,
1966, 1971, COWO 1972, tot en met 1979a): landelijke uniformiteit (ontbreken van differentieel
instellingsbeleid) inzake eindexameneisen, toelatingsregelingen en -rechten, niveau van programma's;
ontbreken van zinvolle uitgangen-onderweg in w.o.-opleidingen tot het doctorandus-niveau: geen
Bachelor's Degrecs o.i.dgl.; zwak, vrijblijvend onderwijscontract tussen studenten, docenten en over-
heden: veel vrijheden en rechten, weinig verplichtingen; samengevat: per w.o.-discipline is er maar één
drempel voor één tempel - die niettemin 'voor velen', vele recht-hebbenden, bestemd is. Onze voor-

men moeilijk kan loskomen van eenmaal voorgestelde compromissen of ingeslepen denk-
wijzen, zoals D = l|C en D = C+2. Tekenend is ook, dat men - met name de overheid en
haar onderhandelingspartners - zich in het recente verleden nauwelijks lijkt te hebben
gerealiseerd dat de verhouding C/D niet alleen een belangrijke index van contractsterkte is
(zie (10a) in I, 2.2), maar ook een belangrijke determinant ervan. Blijft D als bovengrens
van de inschrijvings- en studieduur onbepaald groot (zoals nu nog) of wordt D ten
opzichte van C royaal afgesteld en door allerlei clausules en mazen in wet en controle
daarop verzwakt (zoals in de nieuwere wetten en voorstellen), dan kan men ook in andere
opzichten niet van de vrijblijvendheid en inefficiëntie van het systeem afkomen.
In het volgende zullen we ons wat Nederland betreft echter maar neerleggen bij wat de
politieke realiteit schijnt te zijn. D zal 'voorlopig' wel ongeveer I5C blijven. Het nu op
stapel staande nieuwe systeem kan op zijn best uitgroeien tot een enigszins beperkt
veldloopmodel, waar sommige vroegere uitwassen uit weggewerkt zijn.
Wel zullen wij bij de bespreking van de andere twee parameters telkens ter vergelijking het
geval van het expeditiemodel met C = D erbij halen.

Het algemene model legt alleen vast dat pw zo gekozen moet worden dat 'de T-normstu-
dent' - met vn k = 1 voor alle k (k=l,2..n) - moet kunnen slagen (bij gegeven Ln in de
tijd C). Men kan daarbij echter in principe even goed denken aan een hoog als laag
Percentiel in de betreffende verdeling in {Sj} voor T; men kan bijvoorbeeld ^'juist vol-
doende' begaafdheid als norm gebruiken, maar ook 'ruim voldoende' of 'hoge' begaafd-
heid. Welk percentiel is de beste keuze?

Dit hangt sterk af van het type onderwijscontract. In een expeditiemodel zijn ingangs-
selectie en onderwijsprogrammering erop berekend dat allen mee moeten kunnen. Alle
toegelatenen, of zo goed als alle toegelatenen - beoordelingsfouten bij studenten (met
hun keuze) en bij de leiding (bij de selectie) komen natuurlijk ook hier voor - zijn bij
definitie geschikt; geschikt onder de dubbele vooronderstelling dat zij zelf meewerken
(ook door ijver-compensatie) en dat de studieleiding hen daarbij zoveel mogelijk en naar
behoefte helpt (eventueel inclusief remedial teaching). 'Geschikt' betekent daarbij: in
staat om in de tijd D = C (een erkende variant van) het programma met succes af te
werken. De populatie <Si} bestaat dus uitsluitend uit 'geschikte' studenten. Aangezien
men in een dergelijke situatie de programmering en alle bijbehorende maatregelen wel
moet richten op de relatief weinig begaafde - hard werkende en intensief te steunen -
student, moet men het normstudentpercentiel laag kiezen, bijvoorbeeld bij Pn = 10.
In het (beperkte) veldloopmodel ligt het probleem anders. Men moet rekening houden
met een, bij sommige T substantieel (zie 3.7), percentage ongeschikten in {Sj}; en men
moet rekening houden met een aanzienlijke systeem-speling. Neemt men aan dat Ln =
1700, en dat een feitelijke jaarlast voor studenten die ijver-compensatie nodig hebben tot
li-waarden van 2000 a 2500 standaarduren tot de reële mogelijkheden behoort, dan wordt

naamste zorg is derhalve dat die drempel niet te hoog mag zijn; en de enig overblijvende oplossing voor
het selectie- en differentiatieprobleem is; dóórgaan met (z^]i-)selectie onderweg, en veel kansen geven
door veel vertraging toe te laten; kortom: dóórgaan met het afvalsysteem van ons veldloopmodel -
met dien verstande dat men daarbij (zie 3.6) niet zozeer aan een (afval-)'race' moet denken; slechts een
minderheid 'loopt hard'.

dc grootte-orde van 100%. Dat betekent dat een student met een vj^y = | het met
ijver-compensatie nog kan halen binnen de tijd 1). (Zie S4 in Tabel 1.) Kiest men Ln lager
dan 1700 dan wordt de speling nog groter.

Beide overwegingen - aanwezigheid van ongeschikten in {Sj}- en van speling in het sy-
steem - pleiten voor een relatief hoge keuze van het normstudentpercentiel in {Si},
bijvoorbeeld ergens tussen 60 en 80.

Binnen deze marge ligt Pn = 75 nog enigszins aan de hoge kant. Wij menen dat deze keuze
voor ons systeem in dc huidige Nederlandse situatie de best mogelijke is. De argumenten,
naast de beide zojuist genoemde, zijn in het kort de volgende (voor een uitvoeriger bespre-
king, zie De Groot, 1976; vgl. ook de Bijlage bij CVHWO, 1976):

1) Het 'derde kwartiel' correspondeert met vaker gemaakte onderscheidingen, ligt
psychologisch voor de hand en is niet moeilijk te hanteren en te representeren.

2) Pn = 75 correspondeert vrij goed met het beeld dat Nederlandse universitaire docen-
ten zich plegen te vormen van de 'normale' doctoraahiudcnt, zoals zij die in de laatste
jaren van de studie meestal pas leren kennen; en dat is een relatief 'goede' student, gezien
in de instroompopulatie {Si}.

3) Zolang de speling voor meer inzet van minder begaafde studenten groot genoeg is (en
dat is ze, zie boven), is het uit een oogpunt van maximalisering van wat studenten in hun
studie leren, en in het bijzonder van niveaubewaking, zinvol pn relatief hoog te kiezen.
Wij opteren dus - zeker als D ongeveer l|c blijft en Ln niet hoger dan 1700 wordt
gesteld (en bovendien in de praktijk gemiddeld lang niet wordt gehaald) - voor de keuze
Pn = 75 (zie echter 4.4).

Ook de bespreking hiervan kan kort zijn (voor een uitvoeriger discussie, zie opnieuw De
Groot, 1976). In de huidige Nederlandse situatie, nu inclusief de aanvaarding van D
l^C en Pn = 75 (4.1 en 4.2), pleiten sterke argumenten vóór Ln = 1700.

1. Nu al een aantal jaren lang is de 1700-uren-norm in het politieke overleg overeind
gebleven. Weliswaar 'bewijst' dat niets; maar het betekent wel dat men sterke argumenten
contra moet aanvoeren wil men bereiken dat een andere keuze wordt gedaan.

2. Er is een duidelijk ethische kant aan de zaak. In de algemene opvatting over wat een
'reguliere' student aan de universiteit, of in een andere tertiaire opleiding geacht wordt te
doen, alsmede in alle studiefinancieringsregelingen - waarvan de kosten grotendeels door
niet-gestudeerd-hebbende belastingbetalers worden gedragen - gaat men ervan uit dat
studeren een füll time bezigheid is. Vanuit dit gezichtspunt bekeken is het alleen maar
'eerlijk' en 'redelijk' om te verwachten (a) dat de student zijn (betaalde) tijd grotendeels
- in principe: niet minder dan een ander - aan zijn studie besteedt, en (b) dat hij de
directe kosten van de studie en de duur van zijn maatschappelijk niet-produktieve levens-
periode binnen de perken houdt door goed op te schieten.

Ook naar de kant van studieleiding en individuele docenten kan dit ethische argument
produktief gehanteerd worden. Blijkt in een studie dat de programmering zo is dat die
1700 uren als norm niet reëel zijn — te geringe of eenzijdige eisen (b.v. relatief te veel
zelfstudie gevraagd, wat men geen 40 uur per week uithoudt), slechte aansluitingen, lange
wachttijden, en dgl. - dan behóórt die programmering te worden verbeterd.

Kortom: de student moet studeren; 1700 uur is, vergeleken bij anderen, die minder
bevoorrechting genieten en later zullen genieten, als norm niet te veel gevergd; de studie-
leiding moet ervoor zorgen dat dit realiseerbaar is, door een doordachte en efficient
Werkende programmering.®

3. De empirische bevinding voor Nederland, dat in veel studierichtingen de gemiddelde
werkelijke inspanning (1) ver onder de 1700-uren-norm blijft, is niet weg te redeneren,
door bijvoorbeeld te wijzen op tekortkomingen van de onderzoeksmethode; daarvoor is
het verschil te groot en het aantal serieuze onderzoekingen al te talrijk. Maar die bevin-
ding is óók niet te interpreteren als aanwijzing dat 1700 uren niet reëel zou zijn: veel
buitenlandse voorbeelden, en waarschijnlijk toch ook een paar Nederlandse studierichtin-
gen geven aanzienhjk hogere gemiddelde I-waarden te zien. Het argument 'dat het niet
•^an', qua biosociale grenzen (zie l, 2.4), of bijvoorbeeld omdat een aanstaande intellec-
tueel 'the leisure of the theory class' (hommage aan Vehlen, 1899) voor zijn ontwikkeling
nodig zou hebben, is gewoon ongeldig (zie echter ook 4.4).

4. Kan men volhouden dat het in Nederland niet kan, gegeven de condities van onder-
wijssysteem en sociaal klimaat? Deze opvatting zou betekenen: onze inefficiëntie en con-
tract-zwakte zijn onverbeterlijk; en wel voornamelijk omdat de in ons nationale sociale
Wimaat heersende attitudes en denkwijzen (vooroordelen) versterking van de systeem-
beheersing zullen blijven belemmeren.

Inderdaad spelen in ons Academia vele (oude) vooroordelen - rationalisaties van de
elitaire voorrechten van de vrijblijvendheid - een belemmerende rol: vrees voor de 'hard-
heid' van prestatie-eisen, vrees voor selectie en voor differentiatie naar begaafdheid (bin-
nen de elite der (a.s.) studenten), vrees voor 'verschoolsing', met daarbij de nog steeds
levende gedachte dat na ons zwaar belastende(?) v.w.o. de Vrijheiden de Zelfstandigheid
van het Studeren (meteen) behoren te beginnen, en dgl. Inderdaad zijn dit soort voor-
oordelen, met bijbehorende attitudes, gedragspatronen en politieke stellingname, moeilijk
te bestrijden. Maar dat zij ook in een situatie van schaarser wordende middelen zoals de
huidige zo onverwoestbaar zouden zijn als zij soms lijken, is niet aan te nemen. Ook
zonder 'echte' innovatie (met een principieel ander, sterker contract, b.v. dat van het
expeditiemodel) moet er in Nederland een moment komen, waarop de, ethische (punt 2)
en economische pressie op 'harder' programmeren (docenten) en 'harder' studeren (stu-
denten) effectief gaat worden - zeker als de overheid met haar gesprekspartners overtui-
gender dan tot dusverre de noodzaak daarvan weet aan te tonen en de middelen daartoe
Weet te ontwerpen. -

Kortom: het lijkt onnodig defaitisme om aan te nemen dat opvoering van I tot in de
buurt van of voorbij Ln = 1700 'in Nederland niet mogelijk zou zijn'.

Tenslotte een psychologisch punt.
Als bezwaar tegen handhaving van Ln = 1700 kan worden aangevoerd, dat de grote
programmeringsronde van de afgelopen jaren die daarop gebaseerd was, in veel gevallen
■■ationalisatieprocessen op gang heeft gebracht die meer op papieren overeenstemming dan
op reële schattingen van de studielast gericht waren. Houdt men nu vast aan die, voor vele
T's, irreëel hoge 1700 uren, dan blijft de 'mauvaise foi' ingebouwd en dan worden verdere
i^ationalisaties bevorderd. Ergo, men moet 'reëler' zijn en Ln lager kiezen, b.v. bij 1200 of
1500 uren (vgl. Hofstee, 1976).

' Een eenvoudig, voor de hand üggend (en alléén in de Nederlandse 'opinion chic' in een kwade reuk
staand) middel is dat van de opvoering van het aantal - verpUchte, goed voorbereide en instrumenteel
Verzorgde - massa-colleges, aan de hand van een goed 'textbook'.

Het psychologische argument tegen deze opvatting is simpel. Wie zichzelf tracht te verbe-
teren moet daarbij gewoonlijk door een periode van mauvaise foi héén, vóórdat hij zijn
nieuwe normen waar kan maken. Men mag hopen dat het met ons w.o.-systeem ook zo
gaat. Een 'realistische' verlaging van Ln zou daarentegen, ook afgezien_van de al bespro-
ken bezwaren (1, 2 en 3), de stimulans eruit halen. Als streefgetal voor I lijkt L^ = 1700,
in de huidige Nederlandse verhoudingen, goed gekozen.

ln dit artikel heb ik mij ten aanzien van de lopende vernieuwingsvoorstellen tenslotte
nogal 'conservatief opgesteld door als voorlopig beste oplossing de gangbare waarden
(toch maar) te verdedigen: D/C I5, p^ = 75 en Ln = 1700. In deze laatste paragraaf is
de vraag aan de orde welke veranderingen bij een verstandig vernieuwingsbeleid in de
toekomst nodig zullen zijn, als 'voorlopig' voorbij is.

Denkt men bij dit laatste aan de tachtiger jaren vanaf bijvoorbeeld 1981 of 1982, dan ligt
het voor de hand aan te nemen: dat (1) in Nederland de condities voor een werkelijk
ingrijpende en doordachte innovatie van het hoger onderwijs ook dan nog wel niet vervuld
zullen zijn, maar dat (2) de behoefte aan procesbeheersing, en de druk op versobering en
op verhoogde efficiëntie in het w.o. waarschijnlijk sterker en in ieder geval niet geringer
zullen zijn geworden dan zij nu zijn. Onder die veronderstellingen verdienen twee proble-
men betreffende onze akkoordtheorie en haar toepassing de aandacht:

1. Is het verstandig nationaal te blijven werken met, of te blijven toewerken naar, één
waarde voor elk van de parameters, voor alle opleidingen in het hoger onderwijs?

2. Moeten de vastgestelde parameter-waarden constant worden gehouden of gewijzigd,
en in het laatste geval: welke wijzigingen zouden bij een verstandig beleid de beste zijn?

Ad 1. Het lijkt niet verstandig om het gehele h.o.-systeem dezelfde waarde voor D/C, pn
en Ln blijvend op te leggen.

D/C: Invoering van D/C = I5 in het h.b.o. - vooruitlopend op een toekomstig systeem
waarin het met het w.o. is gecoördineerd - zou een aanmoediging tot studieduurverlen-
ging inhouden waar niemand mee gediend is. Zo moet die coördinatie (of integratie) in
ieder geval niet gebeuren; het h.b.o. blijve hier buiten. Binnen het wetenschappelijk
onderwijs zijn de voordelen van uniformiteit over studierichtingen echter aanzienlijk gro-
ter dan de nadelen, vooral in verband met een zo eerlijk mogelijke regeling van studierech-
ten. Ergo: zo lang de coördinatie w.o.-h.b.o. er nog niet is, handhave men binnen het w.o.
één zelfde DjC-waarde voor alle studierichtingen (zie echter Ad 2).
Pn : Ten aanzien van deze systeem-parameter kan, zd lijkt het, eenzelfde waarde voor het
gehele hoger onderwijs (voorlopig) geen kwaad.

Ln: Hier is een wat dikker vraagteken op zijn plaats. Vermoedelijk zullen ook in de
toekomst de I-waarden'' van de meer 'schoolse' opleidingen (met name de medische)
hoger blijven uitvallen dan die van de meer op zelfstudie gerichte, minder 'schoolse'

(rechten, economie, vele sociale wetenschappen) - óók als het lukt om ook deze wat

' Van groot belang lijkt het dat de onderzoekingen die gericht zijn op empirische bepaling van de
werkelijke inspanning van studenten in verschillende studies - w.o. maar ook h.b.o. — meer systema-
tisch worden voortgezet, en gepubliceerd. De overheid zou dat best mogen stimuleren.

meer te Verschoolsen'. Men kan zich afvragen of zo'n verschil - mits niet te groot -
misschien toch te rechtvaardigen en te aanvaarden is, mede in verband met verschillen in
Osten per student. Het lijkt denkbaar dat in de toekomst voor de eerstgenoemde richtin-
gen - in de tandheelkunde zit men daar al mee - een Ln groter dan 1700 zal worden
mgesteld, en dat voor sommige van de laatstgenoemde richtingen een Ln < 1700 zal
borden aanvaard. Zo een verschillende normstelling zou echter met argumenten en feiten
onderbouwd moeten worden; en bovendien in verschillende studiefinancieringsregelingen
moeten worden uitgedrukt.

Wat is het meest geschikte aangrijpingspunt voor een beleid gericht op verhoogde
e ncié'ntie en versobering in het w.o.? Welke parameters moet men aanpakken als men
l^oor 'aanpassingen' (zie De Groot, 1978b) het onderwijscontract wil versterken?

et antwoord is duidelijk. Ln komt voorlopig niet voor verdere verhoging in aanmerking
V n zeker niet voor verlaging ) — hoogstens voor een zekere differentiatie. Wat pn betreft,
e Waarde pn = 75 is afgesteld op ons beperkte veldloopmodel. Ontwikkelt ons systeem
ich van veldloop- naar expeditiemodel, bijvoorbeeld door vermindering van de D/C-spe-
mg, dan zal pn te eniger tijd anders moeten worden gekozen. Maar een beleidsm/^/tfe/ om
Zo n ontwikkeling te bevorderen is pn-verlaging beslist niet. Integendeel: op zichzelf zou
it alleen maar een contractverzwakking betekenen.

'J't over de verhouding tussen inschrijvings- en cursusduur: D/C. Inderdaad is dit het
punt waar iets gedaan kan worden; trouwens, minister Pais heeft dit ook, zij het met
^atig succes, geprobeerd. Zoals elders uiteengezet (De Groot, 1978c en 1979a), is het
aarbij van belang dat de overheid zich richt op hantering van de systeemparameter
^aarover zij de bevoegdheid en competentie bezit, dus niet op de cursusduur, C, maar op
e inschrijvingsduur, D. Immers, D is de aangewezen maat van de door de overheid
erleende, en dus ook door haar te beperken, eerlijk te distribueren en feitelijk onder
'Controle te houden studierechten. Zoals al vaker is betoogd zou er al veel gewonnen zijn
"let een hardere, minder door uitzonderingsclausules en mazen in het net verzwakte
aximum-srucf/eduur van zes jaar® : D = 6 - terwijl de verantwoordelijkheid voor de
aststelling van C (bij gegeven D) daar wordt gelegd waar zij behoort te liggen, namelijk
y de T-studieleiding (de instellingen, de A.R.-secties).

e systeemparameter D lijkt het aangewezen handvat om de systeemspeling (D/C) ook

ingrijpende innovatie te verminderen, d.i. om instellingen, secties, docenten en
udenten ertoe te brengen het onderwijscontract wat aan te trekken. Er zijn, zoals
ekend, aanwijzingen dat de beide laatste categorieën daar veel minder tegen gekant zijn,

dit in onderhandelingssituaties soms lijkt,
opelijk is het gelukt in dit tweede artikel duidelijk te maken dat de in het eerste artikel
gepresenteerde akkoordtheorie toepasbaar is en probleemverhelderend kan werken.

sch ff huidige situatie is het weliswaar onmogelijk om in het reguliere systeem het recht af te
tejj na meer dan zes jaar studeren door te gaan, gebruik te blijven maken van onderwijsfacili-

^erk" examen af te leggen. Maar dit kan anders worden als de Open Universiteit eenmaal

Commissie Ontwikkeling Wetenschappelijk Onderwijs, COWO. Selectie voor en in het hoger onderwijs.

Een probleemanalyse. Publikatie nr. 3. Den Haag: Staatsuitgeverij, 1972.
Commissie Voorbereiding Herprogrammcring Wetenschappelijk Onderwijs, CVUWO. Vijfde Werkstuk:
Naar een nieuw Academisch Statuut. Bijlage III: Een werkmodel voor de 'normstudent'. Den Haag;
Academische Raad, 1976, pp. 87-93.
Groot, A.D. de. Propaedeuse nieuwe stijl: 30 stellingen over hoger onderwijs. Universiteit en Hoge-
school, 1964, 6,355-363.
Groot, A.D. de. Vijven en zessen. Groningen; Wolters, 1966.

Groot, A.D. de. Standpunt, over onderwijs, democratie en wetenschap. Den Maag, Mouton, 1971.
Groot, A.D. de. Een werkmodel voor de 'normstudent'. Deel II: Verdelingen en parameterkeuzen.

RITP-Memorandum nr. 070. Amsterdam; R.I.T.P., 1976.
Groot, A.D. de. Hoe moeilijk is een tertiaire opleiding? Heymans Bulletins. HB-78-365-EX. Groningen,
1978a.

Groot, A.D. de. Over landelijke onderwijs-innovatie; kan dat (bctci)'! Beleid en Maatschappij, 1978b,
5,6, 165-171.

Groot, A.D. de. H.B.O. in één systeem - voor velen? Een vervolg op minister Pais' beleidsnota. Beleid

en Maatschappij, 1978c, 5, 10, 273-281.
Groot, A.D. de. Hoger onderwijs verbeteren vereist systeem-denken. Over 'horizontalisering' via een

'equivalentiepunt'. Universiteit en Hogeschool, 1979a, 25, 5, 299-318.
Groot, A.D. de. Studielast en normstudent; Ontwerp van een akkoordtheorie. I Algemeen model.

Tijdschrift voor Onderwijsresearch, 1979b, 4, 257-274.
Herstructurering wetenschappelijk onderwijs. Wet van 12 nov. 1975, houdende wijziging van de Wet

op het wetenschappelijk onderwijs en van de Wet universitaire bestuurshervorming 1970.
Hofstee, W.K.B. Hoe reëel is de norm van 1700 uur? Onderzoek van Onderwijs, 1976, 5, 1, 9-10.
Hoger onderwijs voor velen. Beleidsnota Minister van O. & W. Den Haag; Staatsuitgeverij, 1978.
Posthumus, K. De universiteit, doelstellingen, functies, structuren. Den Haag; Staatsuitgeverij, 1968.
T.H. Delft. (A.D. de Groot, red.) Mislukking en vertraging van de studie. Delft; T.H., 1959.
Veblen, Thorsten. The theory of the leisure class, an economic study of institutions. (McMillan, 1899)
Mentor Books, 1953.

A software package is described which is used by a number of universities in the Netherlands
for Computer Managed Instruction. The CMl-ll packagc is an interactive general purpose pack-
age which can execute the routine tasks associated with individualized courses of study. In this
paper special attention is given to the facUities for structuring and implementation of courses
and blocks in a course. Tlie facilities provided for guiding students through a course and for
evaluation are also discussed.

Sinds een aantal jaren zijn aan een aantal universiteiten en hogescholen in Nederland
individuele onderwijssystemen ontwikkeld (van Rookhuyzen, 1977). De belangrijkste
■kenmerken van een individueel onderwijssysteem zijn:

- De leerstof is onderverdeeld in een aantal blokken die elk een samenhangend deel van
de leerstof vertegenwoordigen.

~ Een student kan, binnen zekere grenzen, zelf de volgorde kiezen waarin hij de diverse
blokken doorloopt.

- Telkens na de bestudering van een blok moet de student, door middel van een toets,
aantonen dat hij de betreffende leerstof in voldoende mate beheerst.

™t spreekt vanzelf dat door de individualisering naar studietempo en studiepatroon
(gekozen volgorde van blokken), het lesmateriaal ook individueel hanteerbaar moet zijn.
Dat wil zeggen dat het aanbieden van leerstof veelal gebeurt door middel van boeken,
films, videotapes en dergelijke, terwijl voor het klassieke hoorcollege een mmder belang-
rijke rol is weggelegd. De rol van de docent in een geïndividualiseerd onderwijssysteem
verschuift daarmee ook en wel naar het verzorgen van goed, individueel hanteerbaar
lesmateriaal en het individueel begeleiden van studenten die moeite hebben met het zich
eigen maken van de leerstof.

Men stelle zich voor dat een geindividualiseerd onderwijssysteem wordt opgezet voor een
groep van enige honderden studenten. De hoeveelheid administratie die nodig is om alles
goed te laten verlopen is enorm. Er moeten toetsen worden samengesteld, toetsen moeten
borden beoordeeld, het studiepatroon van elke student moet bewaakt worden, de vorde-
ringen van elke student moeten geregistreerd worden en vele taken meer. Het is dan ook
vanwege dit managementprobleem dat een computer wordt ingeschakeld voor het uitvoe-
ren van de administratieve routinetaken. De docent kan dan zijn aandacht volledig richten
op zijn pedagogische taken.

geïndividualiseerd onderwijssysteem waarbij een computer wordt gebruikt voor het
beheren van de administratie wordt een Computer Managed Instruction (CMI) systeem

genoemd. In Nederland is de ontwikkeling van CMI systemen in 1969 gestart aan de
TIl-Eindhoven. In samenwerking tussen de vakgroep Technische Mechanica van de afde-
ling der Werktuigbouwkunde en de groep Onderwijsresearch werd een software pakket
(CMI-I) ontwikkeld voor het beheer van de administratie (Braak, 1974). In eerste instan-
tie werd dit pakket uitsluitend door de TH-Eindhoven gebruikt voor het beheer van één
cursus.

In 1977 werd het gebruikt door zes universiteiten en hogescholen, Eindhoven, Tilburg,

Delft, Nijmegen, Groningen en Utrecht, voor ongeveer 20 cursussen. De groei van het

aantal gebruikers van CMI-I bracht met zich mee dat nieuwe en andere inzichten werden

Met het bestaande pakket kon niet, of slechts ten dele, aan deze wensen tegemoet worden

Begin 1977 is dan ook aan het Rekencentrum van de TH-Eindhoven gevraagd een nieuw
pakket voor Computer Managed Instruction te ontwerpen. Dit nieuwe pakket, CMI-II, is
operationeel sinds augustus 1978. De faciliteiten die door dit nieuwe pakket worden
geboden zijn onderwerp van dit artikel.

Zoals in de inleiding reeds is vermeld, bestaat een cursus in een CMI systeem uit een
aantal blokken die deels in een vrij te kiezen volgorde en deels in een voorgeschreven
volgorde moeten worden doorlopen. Voor elk blok moet de student een toets afleggen
alvorens nieuwe blokken te mogen bestuderen. Om het studiepatroon van elke student te
kunnen bewaken is het nodig om te definiëren welke studiepatronen mogelijk zijn, of
anders geformuleerd, de relaties tussen de diverse blokken moeten worden vastgelegd. In
deze paragraaf wordt beschreven welke relaties mogelijk zijn, hoe deze vastgelegd kunnen
worden in een cursusstructuur en op welke wijze een cursusstructuur met behulp van het
CMI-II pakket geïmplementeerd moet worden.

Blokken kunnen op twee manieren gerangschikt worden. Sequentieel indien er een hiër-
archische volgorde in de leerstof bestaat of parallel indien er geen voorkeursvolgorde
bestaat. Deze twee basisstructuren zijn schematisch weergegeven in figuur 1.

Fig. 1. Basisstructuren. Het aantal parallelle takken in een parallelle structuur mag groter zijn dan
twee en bovendien mag een tak meerdere blokken bevatten.

De betekenis van de sequentiële structuur is dat met blok 1 moet worden begonnen en
dat met blok 2 eerst mag worden begonnen nadat voor blok 1 met goed gevolg een toets
's afgelegd. Bij de parallelle structuur is men daarentegen vrij in het kiezen van de vol-
gorde. De functies van de twee elementen die een parallelle structuur altijd omgeven, een
^euzepunt en een poort, worden verderop uitvoerig besproken.

Met behulp van de twee basisstructuren kan een (complexe) cursusstructuur worden
ontworpen door de basisstructuren op hun beurt weer te gebruiken als elementen van een
^quentiële of parallelle structuur. Een voorbeeld daarvan is gegeven in figuur 2.
•^oor een cursusstructuur worden alle toegestane studiepatronen gedefinieerd. Enkele van
de vele (ongeveer 7.500), in de structuur van figuur 2 mogelijke patronen zijn:

J^et is echter niet altijd noodzakelijk of soms zelfs niet gewenst dat een student alle
olokken van een cursus doorloopt. Afhankelijk van bijvoorbeeld de vooropleiding van een
student, of van zijn prestaties in de cursus, zou men hem voor een aantal blokken vrij
willen stellen of een aantal blokken extra wOlen laten doen. Het kan ook zijn dat men op
^sn punt in de cursus een aantal blokken aanbiedt, waarvan de student er slechts een
beperkt aantal behoeft te doorlopen. Naast de vrijheid van volgorde is er daarom behoefte
aan vrijheid van onderwerpkeuze. Deze vrijheid kan gerealiseerd worden met behulp van

het keuzepunt dat, zoals eerder reeds vermeld, altijd deel uitmaakt van een parallelle
structuur. CMI-Il biedt de gebruiker vijf typen keuzepunten:

- GEEN KEUZE: De student moet alle uitgaande takken doorlopen in een vrij te kiezen
volgorde.

- VRIJE KEUZE (m, n): Van de n uitgaande takken moet de student er m doorlopen.
Wanneer hij in een bepaalde tak vastloopt kan hij op zijn keuze terugkomen.

- STUDENT KEUZE (m, n): Van de n uitgaande takken moet de student er m kiezen,
maar hij mag niet op zijn keuze terugkomen.

-• DOCENT KEUZE (m, n): De docent wijst van de n uitgaande takken er m aan die
door de student moeten worden doorlopen.

- SYSTEEM KEUZE: Aan de hand van een door de docent geformuleerde keuzeregel
wijst het systeem een aantal takken aan. Het aantal kan per student verschillen. In de

Fig. 3. Programma voor het beschrijven van een cursusstructuur. De beschrijving van een keuzepunt
zoals KEUZE(2: STUDENT(l)) moet gelezen worden als: het nummer van het keuzepunt is 2; het is
een keuze van het type STUDENT KEUZE, waarbij de student één van de takken moet kiezen.

keuzeregel kan de docent refereren aan eerdere prestaties van de student cn/of aan
specifieke kenmerken zoals vooropleiding of studierichting,
'n dit artikel zal verder niet ingegaan worden op de wijze waarop een keuzeregel moet
worden geformuleerd. Hiervoor wordt verwezen naar de Witte (1978a).
Een keuzepunt is een mechanisme waarmee het studiepatroon van een student kan wor-
den gestuurd. Een poort daarentegen is een controle-element. De toegang tot onderlig-
gende blokken wordt pas vrijgegeven nadat alle in de bijbehorende keuze voorgeschreven
takken zijn doorlopen.

'n liet CMI-II systeem wordt een cursusstructuur geïmplementeerd met behulp van een
eenvoudig programma in de speciaal daarvoor ontwikkelde Cursus Definitie Taal. We gaan
'lier niet in op de syntax van deze taal, maar volstaan met het geven van een voorbeeld.
Een volledige beschrijving van de syntax is te vinden in de Witte (1978a). In figuur 3 is
het programma gegeven waarmee de cursusstructuur uit figuur 2 geimplementeerd kan
Worden. Keuzepunt 2 is daarin een keuze waarbij de student zelf één van de twee moge-
lijke takken kiest, keuzepunt 3 is een keuze waarbij de docent één tak voorschrijft.

Zoals bekend representeren de blokken in een cursusstructuur elk een deel van de leer-
stof. Een van de belangrijkste taken die het CMl-II systeem van de docent overneemt is
het samenstellen en beoordelen van individuele toetsen. Een blok in het CMl-II systeem
bestaat dan ook niet uit een hoeveelheid leerstof, maar uit een gestructureerde verzame-
ling vragen met antwoorden en bijbehorende beoordelingsregels betreffende die leerstof,
^it de vragenverzameling worden de toetsen samengesteld op grond waarvan beoordeeld
kan worden of een student de leerstof beheerst of niet.

^et een toets wordt nagegaan of een student aan alle doelstellingen van een stuk onder-
lijs voldoet. De vragenverzameling van een blok is dan ook onderverdeeld in een aantal
delen waarbij elk deel bestaat uit een aantal gelijksoortige vragen, dat wil zeggen vragen
van hetzelfde type, die eenzelfde doelstelling trachten te meten. Het CMI-11 pakket biedt
de docent een keuze uit zes typen vragen:

vragen waarbij uit een aantal alternatieve antwoorden één alternatief gekozen moet
Worden, multiple-choice (MC) vragen;
- Mc vragen waarbij tevens moet worden aangegeven of men zeker is van zijn antwoord
of niet (MCZ);

~ vragen met een aantal beweringen, waarbij van elke bewering moet worden aangegeven
of deze correct is of niet, multiple-true-false (MTF) vragen;

MTF vragen waarbij tevens voor elke bewering moet worden aangegeven of men zeker
is van zijn antwoord (MTFZ);

Vragen waarbij men liet antwoord zelf moet berekenen, numerieke vragen (NUM);
open vragen, waarbij het antwoord bestaat uit een stuk proza, een berekening of een
handeling, hetgeen door de docent in de vorm van een cijfer moet worden beoordeeld

de mogelijklieid te hebben in een toets meerdere vragen uit eén deel te laten voor-
komen, wordt een deel weer onderverdeeld in subdelen. Bij het samenstellen van een toets
Wordt uit elk subdeel telkens één vraag genomen.

behalve de vragen met de bijbehorende antwoorden moet bij de beschrijving van een blok

ook een aantal parameters worden gedefinieerd die nodig zijn bij het beoordelen van een
toets. Een aantal van deze parameters moet op het niveau van een deel worden gegeven,
een aantal op het blokniveau:

- Voor elk deel (alle vragen moeten van hetzelfde type zijn) moet een scoringsregel
worden gedefinieerd. Deze regel geeft aan welke score een goed respectievelijk een fout
antwoord op een vraag uit dit deel oplevert. Daarnaast moeten, ten behoeve van de
terugkoppeling naar de student, een deelnorm en studieadviezen worden gedefinieerd.
Deze adviezen worden gegeven indien de totale score die voor de vragen uit het
betreffende deel wordt behaald lager is dan de deelnorm. Binnen een deel kunnen aan
de subdelen onderling verschillende gewichten worden gegeven.

- Op blokniveau moet de norm worden gedefinieerd, dat wil zeggen de score die mini-
maal gehaald moet worden wil men toegang krijgen tot volgende blokken in de cursus.
Veelal ligt deze norm op ongeveer 80% van de maximale haalbare score. Daarnaast
moet worden gedefinieerd het aantal malen dat een student mag proberen de norm te
halen, het maximaal aantal pogingen. Ook op dit niveau kunnen studie-adviezen wor-
den gedefinieerd en kan aan de diverse delen een gewicht worden toegekend.

In figuur 4 is schematisch weergegeven hoe de structuur van een blok is en welke para-
meters op de verschillende niveaus kunnen of moeten worden gedefinieerd.
De implementatie van een blok gebeurt door middel van een eenvoudig programma,
geschreven in de Blok Definitie Taal. Figuur 5 geeft een voorbeeld van een dergelijk
programma.

Zoals in het voorbeeld is te zien, worden de vragen gepresenteerd door nummers. Deze
verwijzen naar teksten die meestal in boekvorm gebundeld zijn. Deze verzameling vragen
wordt het toetsboek genoemd. De reden dat de teksten niet in het geheugen van de
computer zijn opgeslagen is tweeledig. Enerzijds zou bij het samenstellen van toetsen het
printen van de vaak lange teksten teveel tijd in beslag nemen en anderzijds komen in de
vraagstelling vaak elementen voor die op een terminal niet of slechts moeilijk weer te
geven zijn: tekeningen, formules, griekse letters, vector notaties en dergelijke.
Behalve faciliteiten om cursusstructuren en blokken te definiëren biedt het CMI-II pakket

blok : norm,aantal pogingen,

sCudieadviezen,gewichten

per deel,aantal delen.

deel : deelnorm,studieadviezen,type van
t

de vragen, scoringsregel.gewichten
per subdeel.aantal subdelen.
subdeel : aantal vragen.

Pig. 5. Programma voor het beschrijven van een blok. De beschrijving van een vraag zoals 112, 3 : 2
"loet gelezen worden als: vraagnummer = 112, de vraag heeft 3 alternatieven waarvan het tweede

de mogelijkheid om bestaande cursusstructuren en blokbeschrijvingen te wijzigen,
^elfs in een lopende cursus. We gaan op deze faciliteiten niet in maar verwijzen naar de
gebruikershandleiding (de Witte, 1978a).

Nadat van een cursus zowel de structuur als alle daarin voorkomende blokken gedefi-
nieerd zijn, kan het CMI-II systeem de administratieve begeleiding van studenten over-
nemen. Eerst moet elke deelnemer aan een cursus worden ingeschreven. Dit gebeurt door
^ijn naam, zijn identiteitsnummer en eventueel een aantal andere kenmerken, zoals voor-
opleiding of studierichting, in het systeem in te voeren. Aan de hand van de cursusstruc-
ti^ur wordt dan bepaald voor welk(e) blok(ken) een toets mag worden afgelegd en/of bij
^elke keuzepunten (aUeen die van het type STUDENT of DOCENT) een expliciete keuze
"loet worden gemaakt. De verzameling van blokken waarvoor een toets mag worden
afgelegd en de keuzepunten waarbij een keuze bekend gemaakt moet worden noemen we

Wanneer nu een student een toets wil afleggen dan wordt eerst nagegaan of het blok
doorkomt in de status van de student en wanneer dit het geval is wordt, op basis van de

Structuur van liet betreffende blok, een toets samengesteld. Een voorbeeld van een toets is
gegeven in figuur 6.

Dc vraagnummers verwijzen naar dc te beantwoorden vragen in liet toetsboek dat samen
met het toctsformulier aan de student wordt uitgereikt.

Nadat de student, in een aparte toetsruimte, de vragen heeft beantwoord, codeert hij zijn
antwoorden op een schrapkaart. Indien in de toets 'open' vragen voorkomen dan moet
het antwoord eerst door de docent worden beoordeeld en wordt de waardering, in de
vorm van een cijfer, op de schrapkaart ingevuld. Is de kaart geheel ingevuld, dan wordt
deze met behulp van een optische lezer ingevoerd. Op de aan de optische lezer verbonden
terminal verschijnt dan binnen enkele seconden het resultaat. Er zijn drie mogelijke
resultaten:

1. Dc behaalde score is groter of gelijk aan de norm. De student is geslaagd en het
systeem bepaalt automatisch de nieuwe status.

2. De behaalde score is kleiner dan de norm maar de student heeft nog niet alle pogingen
'verbruikt'. Dc status blijft ongewijzigd en er wordt een nieuwe toets samengesteld.

3. De behaalde score is kleiner dan de norm en bovendien heeft de student alle pogingen
'verbruikt'. De student wordt naar de docent verwezen, het verplichte docentbezoek.
Dc docent zal dan, in een individueel gesprek met de student, trachten de problemen
met dc leerstof op te lossen. Dit gesprek kan leiden tot de conclusie dat de leerstof
voldoende wordt beheerst en dat de student zijn weg mag vervolgen, of tot de conclu-
sie dat alsnog een toets moet worden gedaan.

Nadat op deze manier alle blokken zijn afgerond is de student klaar met de cursus en
wordt dooc het systeem, op grond van de behaalde resultaten, een eindcijfer berekend.
Behalve de twee faciliteiten die hier genoemd zijn, samenstellen en scoren van een toets,
zijn er nog een tiental andere faciliteiten beschikbaar die een flexibele begeleiding van
studenten mogelijk maken. Voor een volledig overzicht wordt verwezen naar de Witte
(1978b).

Het spreekt vanzelf dat het voor de docent nuttig is om informatie te kunnen krijgen over
zowel de prestaties van individuele studenten als over blokken in een cursus en de cursus
als geheel. Vaak zal hij zich vragen stellen als: 'Wat zijn de resultaten van die en die
student, welke blokken in mijn cursus geven veel moeilijkheden, hoeveel tijd besteedt
men aan de studie van een blok, is de plaats van een bepaald blok in de cursusstructuur
wel goed, enzovoorts'.

Orn al deze informatie te kunnen leveren wordt door het CMl-II systeem gedurende de
"ur van een cursus een grote hoeveelheid gegevens verzameld. Te allen tijde kunnen op
asis van deze gegevens een aantal evaluatierapporten worden geproduceerd, zowel stu-
dent-georiënteerd als cursus-georiënteerd.

1 • Een overzicht van alle door een student in een bepaalde cursus behaalde resultaten.

2- Per toets die met een onvoldoende resultaat is afgelegd, een overzicht van de vragen
die te beantwoorden waren, de gegeven antwoorden en de correcte antwoorden. Dit
rapport wordt door docenten veelvuldig gebruikt indien studenten verplicht naar
hen worden verwezen en is als zodanig een belangrijk instrument in de terugkoppe-
ling.

1- Een overzicht van alle activiteiten in een cursus. In dit overzicht staan gegevens
zoals het totaal aantal afgelegde toetsen, het aantal voldoende toetsen, het aantal
docentverwijzingen, enzovoorts. Daarbij kan men kiezen voor een overzicht waarbij
de gegevens gecumuleerd zijn vanaf het begin van de cursus, ofwel een overzicht
waarbij de gegevens gecumuleerd zijn gedurende een zelf te bepalen periode.

2- Per blok van een cursus een statistische analyse op basis van alle voor dat blok
afgelegde toetsen. Beschikbaar zijn een histogram van de behaalde scores, voor elk
deel een histogram van de behaalde deelscores, de correlatiecoëfficiënten tussen de
diverse deelscores en tenslotte een itemanalyse. In deze itemanalyse wordt van elke
vraag uit het blok aangegeven het aantal studenten dat die vraag heeft beantwoord,
de gemiddelde score op die vraag en een overzicht van de gegeven antwoorden.

^ cursusgeoriënteerde evaluatie is een belangrijk instrument bij het beoordelen van een
cursus, bij het verbeteren van het lesmateriaal en het eventueel wijzigen van de toetsings-
procedure.

Het CMI-II pakket is geïmplementeerd op de Burroughs B7700 van de Technische Hoge-
school Eindhoven. Het pakket is in principe voor iedereen toegankelijk. De uitgifte van
gebruikershandleidingen is echter in handen van de Nederlandse Vereniging voor Program-
"lasystemen Geïndividualiseerd Onderwijs, waarvan het secretariaat gevestigd is in Nijme-
gen (Nederlandse Vereniging PGO, PhÜips van Leydenlaan 25, Postbus 9101, Nijmegen).
Iedereen die het pakket wil gebruiken moet beschikken over een eenvoudige terminal en
optische lezer die via een datacommunicatielijn aan de machine in Eindhoven verbon-
den zijn. De verbinding kan een vaste, permanent beschikbare verbinding zijn, maar ook
een zogenaamde kieslijn waarbij men telkens wanneer men het pakket wil gebruiken een
verbinding tot stand moet brengen. Het pakket is geheel geschreven in Burroughs Ex-
tended Algol (BEA) en bestaat uit drie onafhankelijke stukken:

Een programma dat alle cursusgerichte faciliteiten omvat, dat wil zeggen de faciliteiten
voor het implementeren van cursusstructuren en blokken, het wijzigen van cursusstruc-
turen en blokken en het produceren van alle cursusgeoriënteerde evaluaties.
Een programma dat alle faciliteiten omvat voor het begeleiden van studenten en het
produceren van studentgeoriënteerde evaluaties.

- Een Message Control System (MCS) dat alle dataverkeer van en naar de terminals, dus
tussen gebruiker en pakket, beheert. Dankzij dit, speciaal ontworpen MCS, is het
gebruik van het pakket uitermate eenvoudig.
Voor een goed begrip zij vermeld dat in het algemeen de studenten geen toegang hebben
tot het systeem. Alle activiteiten zoals de uitgifte van toetsen, het inlezen van schrapkaar-
ten, het invoeren van cursusstructuren enzovoorts, worden verricht door een onderwijs-
assistent. Deze kan eventueel een aantal geïndividualiseerde cursussen beheren.
Tot slot een aantal gegevens over de cursussen die op dit moment met behulp van het
CMI-II pakket beheerd worden. Het zijn cursussen in allerlei vakgebieden zoals economie,
natuurkunde, psychologie, tandheelkunde en technische mechanica.
Het merendeel van deze cursussen bestaat uit 10 tot 15 blokken en het aantal deelnemers
varieert van 100 tot 1000. Het aantal toetsen dat moet worden samengesteld en beoor-
deeld loopt uiteen van 500 per jaar voor een kleine cursus, tot 15000 a 20000 per jaar
voor een omvangrijke cursus met veel studenten. Het spreekt vanzelf dat bij deze aantal-
len het gebruik van een computer als hulpmiddel in het onderwijs, geen overbodige luxe
is.

Braak, L.H. Geïndividualiseerde onderwijssystemen. Constructie en Besturing. Proefschrift, Technische

Hogeschool Eindhoven, 1974
Rookhuyzen, R.F. van, Tj. Plomp, A. Pilot. Individuele Studie Systemen in het tertiair onderwijs; een

overzicht. Groningen: OTO-cahiers, Wolters-Noordhoff, 1977
Witte, P.C.F de. Gebruikershandleiding CMI-II: Het definiëren van cursussen. Nijmegen, uitgave van de

Nederlandse Vereniging voor PGO, 1978a
Witte, P.C.F. de. Gebruikershandleiding CMI-II: Activiteiten ten behoeve van studenten Nijmegen,
uitgave van de Nederlandse Vereniging voor PGO, 1978b

Centrum voor Onderzoek van het Wetenschappelijk Onderwijs,' Universiteit van Amsterdam

Mei 1979 gaf de minister van onderwijs het rapport vrij dat in zijn opdracht door het
CITO werd uitgebracht over de mogelijklieden van 'Studietoetsen voor toelating tot stu-
dierichtingen met een numerus clausus' (CITO, januari 1979). Op grond van de bevindin-
gen daar gerapporteerd werd het CITO opdracht gegeven metterdaad deze toetsen te
ontwikkelen, vooruitlopend op het nieuwe wetsontwerp en de behandeling in het parle-
ment (voorjaar 1980 naar het zich laat aanzien). Ik wil hier kort op het rapport ingaan,
omdat er verreikende konklusies worden getrokken die in breder kring dan het selckte
gezelschap van de CITO Begeleidingskommissie niet onbesproken mogen blijven. Voor-
zover het volgende als kritiek op de rapportage is op te vatten, is dat aan deze kommissie
gericht, omdat de leden van het projectteam die het rapport geschreven hebben kennelijk
binnen een strikte onderzoekopdracht hadden te blijven, en niet de vrijheid hadden de
formulering van de onderzoekopdracht kritisch te beschouwen.
Het rapport is bedoeld antwoord te geven op de vragen

'I • Is het mogelijk toetsen samen te stellen waarbij dezelfde kennis wordt verondersteld
in de eindexamenopgaven, maar waarbij het element inzicht een sterker accent krijgt?
2- Leveren de nieuwe toetsen, gelet op de reeds in gebruik zijnde instrumenten, met
"ame de eindexamens, meer c.q. nieuwe informatie en, zo ja: in hoeverre?'
Wat betreft vraag 1. wil ik op voorhand wel aannemen dat deze bevestigend beantwoord
kan worden. Of je dan ook tot gebruik van dergelijke toetsen zou kunnen overgaan
Wanneer vraag 2 ook bevestigend beantwoord zou worden ligt dan nog geenszins voor de
hand. Hier verder op in gaan zou bespreking van de rapportering van de werkgroep-Wie-
gersma vragen, en dat is een mer-è-boire waarvoor ik graag verwijs naar het CRWO stand-
punt 'Loot om oud ijzer'.

^raag 2. wordt opgevat als de vraag naar de voorspellende geldigheid voor de studierich-
ting waarvoor de toets (mede) als selektiemiddel dient. Als je daarin meegaat kun je niet
anders dan ook hier op voorhand al verwachten dat zo'n toets best een verhoging in deze
voorspellende geldigheid zal opleveren (boven en naast eindexamen cijfers bijv.). Daar wil
il^ niet kinderachtig in zijn. Jammer is alleen dat de vraag verkeerd is gesteld: natuurlijk
ben je niet geïnteresseerd in de voorspellende geldigheid van zo'n toets, maar in de
differentiële geldiglieid, de mate waarin je op basis van deze toetsresultaten in staat bent
je rendement (je utiliteit) te maximaliseren door een goede verdeling van kandidaten over
verschillende studierichtingen, studierichtingen mét, en studierichtingen zónder een nu-
merus clausus.

Welnu, voor verdeling of plaatsing van kandidaten heb je geen instrument nodig dat voor
iedere studierichting goed of redelijk sukses voorspelt, maar een instrument dat kan
voorspellen of er in de ene studierichting voor deze kandidaat 'meer sukses' te verwachten
is dan in een andere. Een toets als door de werkgroep Wiegersma voorgesteld en door het
CITO onderzocht zal dat heel waarschijnlijk niet kunnen.

Omdat de toelatingstoets niet op differentiële geldigheid werd onderzocht, vervalt de zin
van vrijwel alles wat in het CITO rapport wél over het functioneren van de selektietoetsen
wordt gezegd. Ik wil dat nog op één punt toelichten. Op p. 38 wordt gesteld dat wanneer
met rendementen rekening gehouden wordt zou gelden dat:

'als men noodgedwongen de toelating van kandidaten tot een bepaalde studierichting moet beperken,
dient men zoveel mogelijk die kandidaten toe te laten waarvan men mag verwachten dat zij het
hoogste studierendement zullen hebben.'

Dat is een uitspraak die alleen geldt voor personen die uitsluitend belang hebben bij een
hoog studierendement in alleen deze studierichting. Je mag aannemen dat de minister
geïnteresseerd is in een goed studierendement ook voor andere studierichtingen, en met
name ook voor studierichtingen waarnaar op een dergelijke toets afgewezen kandidaten
uitwijken. Is de voorspellende geldigheid van een toelatingstoets ongeveer even groot voor
de numerus clausus studie als voor uitwijkstudies, en er is geen reden om daar hard aan te
twijfelen, dan valt er met het hanteren van zo'n toets niets te 'verdienen', het over-all
rendement van het wetenschappelijk onderwijs wordt er niet door verbeterd.
Eerder werd er door Wilbrink en Van der Vleugel (1974) al op gewezen dat rendements-
berekeningen waarbij met differentiële geldigheid van eindexamencijfers (het ging destijds
om de gewogen loting) geen rekening wordt gehouden, zinledig zijn.

Centraal Instituut voor Toetsontwikkeling CITO: Studietoetsen voor toelating tot studierichtingen
meteen numerus clausus. 's-Gravenhage: Staatsuitgeverij, 1979.

Contactgroep Research Wetenschappelijk Onderwijs CRWO: Loot om oud ijzer. Voorburg: CBOWO,
postbus 590, 1979.

Wilbrink, B. en Van der Vleugel, H. Bij gebrek aan beter / Cijfers weersproken. Onderzoek van Onder-
wijs, 1974, 3 nr. 3, 8-14.

^^geleide onderwijsvernieuwing. Evaluatie van een curriculum-innovatie gericht op
'yfferentiatie van het aanvankelijk leesonderwijs.
^'Iburg: Zwijsen, 1979, 492 pp.

U'^t D.A.L.-projekt (Differentiatie Aanvankelijk Lezen) is uitgevoerd door het Schooladviescentrum in
Utrecht. Het projekt beoogt meer kinderen de doelstellingen van het aanvankelijk lezen te laten
DCteiken, en doet dit aan de hand van een kurrikulum dat in het projekt ontwikkeld werd. Het gaat
"er om een bewerking van de methode 'Veilig leren lezen'. Een tweede kenmerk van het projekt is dat
oerkrachten geleerd wordt gedifferentieerd en systematisch te handelen.

1 'Begeleide onderwijsvernieuwing' beschrijft Pieter Appelhof het onderzoek waarin dit innovatiepro-
J®kt Wordt geëvalueerd. Dit D.A.L.-onderzoek vormt dus de evaluatie van het D.A.L.-pro/'eA/.

e eerste vier hoofdstukken van het boek gaan over het D.A.L.-projekt. In de overige twaalf wordt op
systematische wijze het D.A.L.-onderzoek beschreven, dat uitgevoerd is volgens het evaluatie-model
j'"" Stake (1969). Dit model omvat zowel een empirische beschrijving en toetsing als een meer
.^sUtatieve waardering. Ook zijn zowel proces- als produktevaluatie opgenomen. In de zgn. beschrij-
J^igsmatrix wordt getoetst of de Produkten van het nieuwe kurrikulum, het kurrikulum zelf en de
■condities waaronder het wordt uitgevoerd volgens plan gerealiseerd zijn. In de zgn. waarderingsmatrix
Wordt geoordeeld over de waarde van het kurrikulum voor het onderwijs. Aan de hand van dit model
yan Stake worden de probleemstellingen van het D.A.L.-onderzoek onderzocht. Ze luiden:

Leidt curriculum-innovatie, zoals uitgevoerd door het D.A.L.-projekt, tot verandering van het
«lidaktisch handelen in de richting van differentiërend didaktisch handelen overeenkomstig de
gestelde begeleidingsdoelstellingen.

Leidt het onder invloed van het D.A.L.-projekt gei'nnoveerde onderwijs tot een verhoging van het
Prestatienivo van de leerlingen, tot vermindering van het aantal zwakke lezers en tot grotere
vooruitgang op het gebied van het sociale gedrag van de leerlingen.' (blz. 119).
jOor het onderzoek wordt gebruik gemaakt van het 'pre-cxperimental onegroup pretest posttest
^^sign (Campbell & Stanley, 1966), waarbij één leerkrachtengroep (N = 17) twee opeenvolgende
^'looljaren (1973/74 en 74/75) gevolgd werd. Er is informatie verzameld bij ± 500 leerlingen. De
•teuze van de leerkrachten is niet gebaseerd op toeval. Er is zowel gebruikgemaakt van bestaande
J"<^ctinstrumenten als van meetmiddelen die zelf ontwikkeld zijn.
p resultaten van het onderzoek zijn de volgende. Als gevolg van het D.A.L.-projekt

heeft een gewenste verandering plaatsgevonden van het leerkrachtengedrag, die blijkt uit het feit
dat twee-derde van de leerkrachten met nivogroepen gaat werken en uit het bevorderen van de
zelfstandigheid van de leerlingen;

zijn de leesprestaties van de leerlingen niet verbeterd, noch bij het technisch, noch bij het
begrijpend lezen.
• is het aantal zwakke lezers niet verminderd.

zijn de interakties tussen de leerlingen tijdelijk toegenomen.
J^aast deze teleurstellende resultaten, die overigens op een zeer eerlijke wijze zijn gerapporteerd, heeft
D.A.L.-onderzoek enkele waardevolle gegevens opgeleverd. Op de eerste plaats levert dit onderzoek
een bijdrage aan de ontmythologisering van het idee, dat differentiatie noodzakelijkerwijs leidt tot
yerbetering van leerprestaties en sociale interakties. Dat blijkt in het D.A.L.-onderzoek niet zo te zijn.
I'^ppelhof wijst op blz. 366 e.v. op andere onderzoekingen met soortgelijke, teleurstellende resulta-
'^n.) Op de tweede plaats wordt aangegeven op welke wijze wél een verbetering plaats zou kunnen
Vinden: door verhoging van de kwaliteit van de taakstellende komponent in het didaktisch handelen,
betrekking heeft op 'de gedragingen van de leerkracht welke op grond van een analyse van het
Objekt van leren en de daardoor benodigde leerprocessen noodzakelijk en/of gewenst geacht worden'
(Creemers, 1974, pp. 45). De leerkracht moet dus Ieren om op grond van inzicht in het onderwijs-leer-
Ptoces de leerling op de juiste wijze te benaderen. Hiervoor acht Appelhof een professionalisering van
leerkrachten noodzakelijk.

Dit boek geeft een uitvoerige (en soms breedvoerige) beschrijving van de evaluatie van een systema-
tische onderwijsinnovatie aan de hand van een model dat een breed scala van aspekten omvat, en is
zeker de moeite waard voor iedereen die belangstelling heeft voor onderzoek, begeleiding en vernieu-
wing van het onderwijs.

De lioofdstukken 15 en 16 vormen een goede samenvatting van het boek.
Verwijzingen;

Stake, R.li. The countenance of educational evaluation. In; Anderson, R.C., Current research in in-
struction. New Yersey, 1969.
Campbell, D.T. en J.C. Stanley, Experimental and quasi-experimental designs for research on teaching.

In; Gage N.L. (cA.), Handbook of research on teaching. Chicago, 1966
Qeemers, H.P.M., Evaluatie van onderwijsstijlen binnen het aanvankelijk lezen, een onderwijskundig
onderzoek naar de relatie tussen methode gebruik van de leerkracht en de prestaties van de
leerlingen. Utrecht, 1974

School en Ongelijkheid', hoe het onderwijs bijdraagt aan het handhaven van
ongeÜjklieid in de maatschappij.
Link, Nijmegen 1979.

Enkele jaren geleden verenigden een aantal onderwijssociologen en taalkundigen uit Nijmegen, Leiden,
Amsterdam en Utrecht zich in de zgn. OOMO-Groep (Onderzoek naar onderwijs en maatschappelijke
ongelijkheid). De verschillende leden van deze groep hebben sindsdien op meerdere plaatsen gepleit
voor een gewijzigde opstelling van de onderwijssociologie in Nederland, waarbij huns inziens de maat-
schappelijke context van het onderwijs expliciet onderwerp van onderzoek diende te worden, uit-
gaande van een materialistische wetenschapsopvatting. De bekende Afe«i en Maatschappij 1975 bock-
aflevering, geredigeerd door Van der Kley en Wesselingh, over Onderwijs en maatschappelijke ongelijk-
heid was een eerste stap in die richting. Andere wijs over onderwijs van Brands, Egas, Karsten en
Wendrich (Nijmegen 1977) komt eveneens uit de boezem van de OOMO-Groep voort, evenals het in
1978 verschenen rapport Onderwijs, sociologie en ongelijkheid (Nijmegen 1978), waarin een program-
mering van onderzoek werd voorgesteld.

Het hier te bespreken boek is de uitwerking van het theoretische gedeelte van dit in 1978 verschenen
rapport. Het is een collectief werk, dat door Wesselingh werc^ gestroomlijnd en geredigeerd. Deze nogal
uitgebreide inleiding is nodig om aan te geven dat het boek in een bepaalde ontwikkeUng past. Het
verklaart wellicht eveneens waarom School en Ongelijkheid is zoals het is. Verschillende schrijvers
hebben er stukken aan bijgedragen; het is geen afgerond geheel maar een serie theoretische fragmenten
waarin een nieuwe onderwijs-sociologische optiek wordt aangeduid.

Allereerst een kort overzicht van de inhoud. In hoofdstuk 1 worden achtergrond en opzet van het
boek geschetst. Hoofdstuk II behandelt onderzoek en beleid in Nederland met betrekking tot ongelijk-
heid in het onderwijs. Uitsluitend onderzoek van /ja 1975 wordt behandeld, omdat in de bovenge-
noemde Mens en Maatschappij-silawenn^ (1975) reeds het Nederlandse onderz'oek van vóór die datum
werd geëvalueerd. Dat leverde destijds overigens 'weinig of geen nieuwe gezichtspunten' op en daar is
sindsdien ook 'weinig of geen verandering in gekomen' (pag. 26). In vogelvlucht worden toch de
onderzoeken van Metjnen, het longitudinale ITS-onderzoek 'Generatie 1965', het CBS-cohorten onder-

oek cn de Rotterdamse en Amsterdamse stimuleringsprojecten besproken. Hoewel hierbij vele vcr-
"illen in opzet en resultaten werden gevonden, komt School en Ongelijkheid tot de volgende twee
^iclusies. Allereerst wordt in Nederlands onderzoek niet de structuur van het onderwijs zelf ter
'scussie gesteld. Daarnaast zijn alle Projekten gericht op bestudering en activering van individuele
''orten van leerlingen en/of hun ouderlijke gezinnen. Met is met name deze individueel-deßcitaire
PVatting waartegen in School en Ongelijkheid stelling wordt genomen, ten gunste van een meer
tcgrale benadering van maatschappelijke ongelijkheid.
^ deze benadering te onderbouwen, wordt m de volgende 50 pagina's een overzicht gegeven van
^kele buitenlandse ontwikkelingen. In een kennissociologisch getinte beschrijving komen discussies
Qe USA (m.n. de sociolinguïstiek en Bowles & Gintis); de nieuwe onderwijssociologie van Young,
Arnstein, Keddie en Willis in F.ngeland en de politieke economie van het onderwijs in West-Duitsland
^ n de orde. Geconcludeerd wordt dat - hoewel deze ontwikkelingen onderling geheel verschillend
J" -- het gemeenschappelijke moet worden gezocht in de onvrede met de individucel-deficitaire

oofdstuk IV vormt eigenlijk de hoofdmoot van het boek; hierin wordt op basis van het voorbande
Probeerd een maatschappelijke ongelijkheidsbenadering te schetsen met grote aandacht voor institu-
aspecten. Uitgangspunt daarbij is de reproduktie van maatschappelijke ongelijkheid via het
nacrwijs. Sleutelprocessen zijn de kwalificatie, identificatie en selectie van leerlingen, die maatschap-
^■ijk (dwz. door de Staat) worden gelegitimeerd. Op basis van deze uitgangspunten wordt een drietal
naderingen van liet onderwijs voorgesteld: de algemeen maatschappelijke invalshoek (uitgaande van
ft kapitalistische karakter van onze samenleving); een institutioneel-organisatorische en een commu-
'catief-interactionistische aanpak (binnen school en klas). Verder wordt in dit hoofdstuk nog een
ritiek geformuleerd op constructie en gebruik van lO-tests, waarbij slechts snelheid en nauwkeurig-
zou worden gemeten. In hoofdstuk V wordt dit alles nog eens kort samengevat.

Zoals hierboven al werd vermeld, is School en Ongelijkheid een theoretische uitwerking van het
°fsptonkelijke 1978 OOMO-rapport. Zoals uit het voorgaande mag blijken, is er echter nog geen
^ "lenhangende theorie; de integratie van de diverse gezichtspunten zal nog moeten worden onder-
omen. De lezer blijft een beetje zitten met de vraag of de voorgestelde benaderingen beter zijn dan de
Sangbare en of er ook meer mee kan worden verklaard. Op verschillende plaatsen wordt genoemd
^Pag. 109, 131, 142, 155/156, 170) dat de voorlopige hypothetische verklaringen in empirisch onder-
Zullen moeten worden getoetst. Juist daarom is het jammer dat de oorspronkelijke onderzoeks-
g^^'^tsllen in dit boek zijn wegplaten, waardoor de lezer zich een indruk had kunnen vormen van de
j^^Pirische benaderingen. Impliciet zijn echter wel een aantal suggesties in de tekst te vinden. Zo wordt
J het interactionistische perspectief een sterke voorkeur uitgesproken voor kwalitatief onderzoek op
^asis van video-observaties in de klas (p. 141). Ongetwijfeld zinnig onderzoek, maar het ontgaat mij
äarom deze aanpak nu zo specifiek zou zijn voor een meer totale benadering van onderwijs en
^tschappelijke ongelijkheid. Dit geldt evenzeer voor een voorpsteld longitudinaal onderzoek op
asis van opnieuw gescoorde intelligentietests, als een dergeüjk onderzoek al mogelijk zou zijn
|Pag- 155).

^School en Ongelijkheid wordt onderwijsongeUjkheid gezien als afgeleide van de bestaande maat-
^^nappeiijke structuur. Het uitgebreide betoog in Hoofdstuk IV voor de bestudering van processen
i«e/2 de school is ongetwijfeld van belang, maar daarbij blijven juist de maatschappelijke randvoor-
^ aarden waaronder een school moet functioneren buiten schot. Het is mijns inziens dan ook geen
oldoende verklaring om te zeggen dat ons 'laat-kapitalistische systeem' verantwoordelijk is voor deze
ndvoorwaarden (pag. 102). Nergens in het boek wordt ook maar één verwijzing gemaakt naar 'vroeg'-
, "iet'-kapitalistische maatschappijen. Zonder schroom wordt Oost-Europese informatie buiten be-
^nouwing gelaten (pag. 92) (alsof de problemen daar wezenlijk anders zijn); evenals ontwikkelingen in
^eden (waar een hele onderwijsstructuur werd omgegooid).

^ lezende vraagt men zich af voor wie School en Ongelijkheid nu eigenlijk is geschreven. Gaat het
Om de vakgenoot te attenderen op de veel te geringe aandacht voor het institutionele kader waarbin-
het onderwijs functioneert? Welnu, deze kan de boodschap niet ontgaan, want op vele plaatsen
ordt die herhaald en samengevat (o.a. pag. 9, 17, 97, 157, 166). Een artikel van enkele tientallen
pagina's had die functie ook kunnen vervullen. Of is het boek geschreven om de geïnteresseerde leek
'fouten' van de oude onderwijssociologie te laten zien en een kritischer kijk op ons onderwijs en
^ aatschappelijke systeem te geven? In dat geval is het boek te ondoorzichtig. De terminologie is vaak
P®cialistisch en er wordt veel voorkennis (ook van literatuur) verondersteld. Argumenten worden

doorgeschoven naar andere publicaties, die dc lezer zelf maar moet opzoeken (bijv. wat heeft Jencks
nou gedaan? Wat is het Colcman-onderzoek?). Sommige paragrafen vallen wel erg kort uit, zoals die
over arbeidsmarkttheoricèn (2 bladzijden!). De redacteur stelt zelf op verschillende plaatsen (o.a-
pag. 9, 158), dat het niet is gelukt (en ook niet de bedoeling was) om een sluitend theoretisch geheel te
presenteren. Om echter de door hem gewenste discussie op gang te brengen over de nieuwe benaderin-
gen in de onderwijssociologie, moet de lezer wel voldoende worden geïnformeerd. Anders bestaat de
kans dat men elkaar met half-begrepen argumenten te lijf gaat.

Ondanks deze kanttekeningen kan men waardering hebben voor het verschijnen van Schooien Onge-
lijkheid. Er blijkt duidelijk dat de onderwijssociologie in beweging is, op zoek naar andere benaderin-
gen. Dat die nog niet alle empirisch zijn onderzocht, mag men de auteurs niet kwalijk nemen. Met des
te meer belangstelling mag men echter uitkijken naar een volgende publicatie uit de OOMO-groep,
wanneer er over enige tijd resultaten van onderzoek zijn te melden. Het pleidooi voor meer institutio-
neel onderzoek en aandacht voor de maatschappelijke context van ons onderwijs is absoluut terecht,
ook al krijgen onderwijssociologen daardoor af en toe de naam lastige vragen te stellen.
Kkant is wellicht dat nog geen half jaar na het verschijnen van School en Ongelijkheid door de
Innovatie Commissie Basisonderwijs een advies aan de minister werd uitgebracht over het onderwijs-
stimuleringsbeleid (ICB Advies 9a, Zeist juli 1979). In deze nota worden voorstellen gedaan tot
vermindering van ongelijkheid van onderwijskansen in exact dc 'individueel-deficitairc' traditie. Het is
duidelijk dat de beleidsadviezen nog ver afstaan van de door Wesselingh en zijn mede-auteurs gewenste
benadering van het onderwijs. Om van het beleid zelf nog maar te zwijgen.

Onlangs heeft de Stichting voor Onderzoek van het Onderwijs (SVO) te Den Haag het startsein gegeven
^oor de ontwikkeUng van vier nieuwe onderzoeksthemagroepen (OTG's). OTG's zijn landelijke samen-
werkingsverbanden van onderzoekers en andere terzake kundigen die streven naar verbetering van de
opbrengst van het onderzoek voor de onderwijspraktijk. Daartoe zijn probleemgebieden m het onder-
^'js geselecteerd die zich als 'thema's' lenen voor samenhangend geprogrammeerd onderzoek. De
nieuwe OTG's richten zich op de terreinen (thema's): curriculum, evaluatie van onderwijsvcrnieuwin-
Sen, onderwijsleerprocessen en onderwijs en maatschappeüjke ongeüjkheid. Het OTG-experiment
strekt zich nu uit over vijf proefvelden. Het thema motivatie in het onderwijs was de bovengenoemde
onderwerpen al als proefveld voorgegaan. Kind 1980 zal het experiment in een beslissend stadium
■^oinen. Dan zal het SVO-bestuur, op grond van de op de afzonderlijke proefvelden opgedane ervarm-

zich moeten uitspreken over de voortgang ervan.
Inmiddels heeft de SVO de zorg voor de OTG-ontwikkelingen op de onderscheiden proefvelden m
nanden gegeven van speciaal daartoe aangestelde coördinatoren. Zij zullen de verdere outbouw en
Poortgang van de themagroepen bewerkstelHgen. Belangstellenden kunnen kontakt opnemen met (een
^n) de onderstaande personen.
*oor het thema motivatie in bet onderwijs:

drs. E. Roede, R.I.T.P., Prinsengracht 303, Amsterdam, tel. 020-233201
°or het thema cumcu/i/m;
mevr. drs. R.Wolbert, Vakgroep Onderwijskunde R.U. Utrecht, Heidelberglaan 1, De Uithol, tel.

drs. G. Beukhof, Vakgroep Onderwijskunde R.U., Utrecht, Heidelberglaan 1, De Uithol, tel.
030-534941

drs. W. v.d. Grift, Kohnstamm Instituut, Keizergracht 119, Amsterdam, tel. 020-2294/1
Voor het thema onderwijs en maatschappelijke ongelijkheid: „o/. c, ->a, i

drs. J. Meurs, Afd. Onderwijssociologie, Sociologisch Instituut, K.U., Nijmegen, tel. 080-513013

Host-Academisch unUerwijs Vakgroep Statistiek en Meettheorie Faculteit Sociale Wetenschappen
'^jksuniversiteit Groningen

cursus voor 1980 wordt hieronder aangekondigd. Vim dinsdag 1 tot en met vrijdag 4 september
doceert Dr. David Wishart clusteranalyse aan de hand van het pakket CLUSTAN, nadere mede-
"^lingen volgen over een jaar.

^-4.0. Cursus Graphenanalyse in de Sociale Wetenschappen
docenten: Prof. dr. R.J. Mokken en Prof. dr. F.N. Stokman
Tijd: 8 t/m 12 september 1980.
Plaats: Paddepoel, Groningen.

Overzicht van graphentheoretische concepten en theorema's, voor zover relevant voor empirisch

sociaal-wetenschappelijk onderzoek;
2. toepassingen voor sociaal-wetenschappelijke schaal- en analysemodellen in graphentheoretische

3- introductie van het gebruik van standaardpakketten voor graphenanalyse (GRADAPen Graphlib);

4. bruikbaarlicid voor concepten en theorema's in empirische onderzoekingen op verschillende inhou-
delijke terreinen (interorganisatorische netwerken; analyse van kleine groepen; analyse van kennis-
graplien; analyse van strukturen in besluitvormende organen). Hoewel pratikumdata hiervoor aan-
wezig zijn, wordt U aangemoedigd eigen data mee te nemen.

Methodologisch gesclioolde sociaal-wetenschappelijk onderzoekers. Elementaire kennis van matrix
algebra, relaticlcer en graphentheorie wordt verondersteld (zie bekend veronderstelde literatuur).

De inleidingen worden 's morgens gegeven (9-12 uur). De middagen zijn gereserveerd voor de introduc-
tie in de standaardpakketten, praktische oefeningen op sociaal-wetenschappelijke data, bespreking van
empirische resultaten en behandeling van enkele sociale onderwerpen (zoals gesigneerde graphen met
hun toepassing op kennisgraplien).

Aan de deelnemers van dc cursus wordt zo spoedig mogelijk een opgave gedaan van bekend veronder-
stelde en aanbevolen literatuur.

Cursusgeld: ƒ80,- (studenten ƒ20,-) storten op postgironummer 826171 van de Rijksuniversiteit
Groningen, t.n.v. kostenplaatsnummer 086001 P.A.O.-cursusscn Statistiek (naam deehiemer op beta-
ling vermelden).

Inschrijving: mw. G. Winkel, Vakgroep Statistiek en Meettheorie FSW, Oude Boteringestr. 23, 9712
GC Groningen.

Alplien de Veer, R.J. van, Kuiper, Cath.M. & Schuurman, M.l.M. Problemen van adolescenten op
school en thuis: Probleemstelling en opzet van verder onderzoek. Leiden: Nederlands Instituut
voor Preventieve Gezondheidszorg TNO, juU 1979.

Alphen de Veer, R.J. van. Schuurman, M.l.M. Klachten van leerlingen en de samenhang met enkele
andere kenmerken. Proefafname van een bestaande probleemvragenlijst op een scholengemeen-
schap voor mavo, havo en vwo. Leiden: Nederlands Instituut voor Preventieve Gezondheidszorg
TNO, aupstus 1979.

Appelhof, Pieter N. Begeleide onderwijsvernieuwing: Evaluatie van een curriculum-innovatie gericht op
differentiatie van het aanvankelijk leesonderwijs. Tilburg: Uitgeverij Zwijsen, 1979.

Beroepsopleiding. Informatiebulletin van het Europees Centrum voor de Ontwikkeling van de Beroeps-
opleiding, 1979, nr. 2-3.

Beukhof, G. Werkplan t.b.v. Onderzoekthenwgroep 'Onderwijsleerprocessen' 1-9-1979 tot 1-9-1980.
Utrecht: Vakgroep Onderwijskunde, OTG Onderwijsleerprocessen, augustus 1979.

Camstra, B., Dijk, T. van, Avoird, \V. v.d. e.a. Leren met de computer. Eindrapport van het PLATO-
proefproject. Amsterdam: Universiteit van Amsterdam, Centrum voor Onderzoek van het Weten-
schappelijk Onderwijs, augustus 1979.

Qaessen, J.P.M., Galen, A.M. van. Oud-de Glas, M.M.B. Voortgezet onderwijs en behoeften aan mo-
derne vreemde talen, 's Gravenhage: Staatsuitgeverij, 1979 (= SVO-reeks no 18).

Claessen, J.F.M., Galen, A.M. van. Oud-de Glas, M.M.B. Wetenschappelijk onderwijs en de behoeften
aan moderne vreemde talen, 's Gravenhage: Staatsuitgeverij, 1979 (= SVO-reeks no 19).

Claessen, J.F.M., Galen, A.M. van. Oud-de Glas, M.M.B. Bedrijven en overheidsdiensten en de behoef
ten aan moderne vreemde talen, 's Gravenhage: Staatsuitgeverij, 1979 (= SVO'-reeks no 20).

Crombag, H.F.M. e.a. Onderwijsmiddelen van de open universiteit: functies en kosten. Den Haag:
Staatsuitgeverij, 1979.

^raaff, E. de. Gebruikers-evaluatie van de 'Haarlemse Keuzelessen'. Verslag van eon onderzoek onder
leerkrachten-gebruikers van het keuze-lessenpakket de Haarlemse Keuzelessen. Amsterdam: Re-
search Instituut voor de Toegepaste Psychologie, mei 1979.
'nelman, J.D. (red.). Filosofie van opvoeding en onderwijs: Recente ontwikkelingen binnen de wijs-

Serige pedagogiek. Groningen: Wolters-Noordhoff, 1979.
'^ogramma van de onderzoeksgroep Instrumentconstructie en Evaluatie (I & Ej voor de jaren

1980-1984. Amsterdam: Research Instituut voor de Toegepaste Psychologie, september 1979.
^oest, Wil van. Voortgezet onderzoek nieuwe lerarenopleiding: Integratie tussen vakopleiding en on-
derwijskundige voorbereiding; problemen en mogelijkheden. Amsterdam: Research Instituut voor
de Toegepaste Psychologie.
Zoutendijk, Sibe & Oscar de Wit. Kinderen tussen ouders en school, verslag over de ouder-enkete.
Deelrapport Enschedese onderzoekingen in het tweede leerjaar van het lager onderwijs. Amster-
dam: Vakgroep Onderwijspsychologie, Universiteit van Amsterdam, 1979.
Veldhuijzen, N. Aspecten van Criterion-Referenced Measurement. Cito Bulletinreeks, nr. I. Arnhem:
,„ Centraal Instituut voor Toetsontwikkeling.

Carries, Egbert e.a. Beheersingsleren een leerstrategie. Groningen, Wolters-Noordhoff, 1979 (= Serie
Onderwijskunde 11).

Procesanalyse van het onderwijsgedrag, door J. Lowyck
De Waardering van waarden, door H.J.M. Hermans

Kroniek: Conferentie van de 'Comparative Education Society in Europe' van 25-29 juni 1979 te
Valencia, door E. Velema

''oe denkt de Wetenschappeüjke Raad voor het Regeringsbeleid over sociale ongelijkheid, door J.
getting

^rezinka's metatheorie als grondslag voor empirisch-pedagogische onderzoek: een kritiek, door
^•H-van IJzendoorn

"e relevantie van het historisch-pedagogisch onderzoek voor de pedagogische wetenschappen. Com-

organisatie voor onderwijspsychologisch onderzoek is opgericht op 22 maart 1979. Het doel van
organisatie is de bevordering van wetenschappelijk onderzoek op het gebied van de onderwijspsy-
'•lologie. Het bestuur van de organisatie wil dit doel realiseren door het beleggen van vvetenschappe-
"jke bijeenkomsten en het bespreken en beoordelen van onderzoekvoorstellen, waarna deze ter subsi-
diering worden ingediend bij S.V.0. of Z.W.0. of andere subsidiërende instellmgen. Het bestuur heeft
■et voornemen een aantal bijeenkomsten te organiseren, waarop de raamplannen voor onderzoek op
een bepaald gebied besproken kunnen worden.

De eerste bijeenkomst vindt plaats op woensdag 19 maart a.s., m een der gebouwen van de Vrije
Universiteit te Amsterdam. Het onderwerp is het onderzoek van onderwijsleerprocessen. Onderzoek-
plannen op dit gebied zullen worden geschetst in een bestuursnota. De nadere specificatie van het
gebied en de aanwijzing van deelgebieden waarop liet onderzoek nodig is zullen in deze nota aan de
orde komen.

Commentaar op de nota wordt gegeven in drie afzonderlijke inleidingen, door specialisten op het
betrokken gebied, die ook hun eigen visie op het onderzoek op dit terrein zullen geven. De specialisten
zijn afkomstig uit verschillende subfaculteiten en onderzoeksinstituten.

Personen, die aan deze bijeenkomst wensen deel te nemen kunnen zich opgeven bij:
Dr. S. Dijkstra, Subfaculteit der Psychologie,
De Boelclaan 1115, kamer C-110, Amsterdam.
Tel. 020-5483876.

'Antrum voor Onderzoek van het Wetenschappelijk Onderwijs*
'Universiteit van Amsterdam

In criterion referenced testing the problem of locating cutting scores that are in some sense
optimal is usually solved after intricate mathematical reasoning. The same solution is shown to
be obtainable by simple arithmetics, though admittedly still based on the same debatable
premises as more sophisticated approaches like Iluynh's (1976).

Moreover, statistical modeling is nice in theoretical work, but not a necessary condition for
sensible applications. The practitioner needs only 1) the value of a selection parameter, derived
from the assessed utilities (losses) on possible decision outcomes, and 2) the scatter diagram of
scores on test and referral task (or a parallel test) from students not given differential treatment
on the basis of these testscores. Statistical models are useful insofar as improved estimates on
the probability of succes on a referral task, given testscore, are obtained.

In Nederland heeft het probleem van het kiezen van grensskores altijd al in de belangstel-
ling gestaan, omdat in ons onderwijs (helaas) nogal de nadruk wordt gelegd op voldoende-
onvoldoende beoordelingen. In de Verenigde Staten heeft het grensskore probleem pas de
laatste tien jaar sterk de belangstelling van voornamelijk theoretici getrokken, vanuit de
^ens om bij kriterium gerefereerde toetsen op verantwoorde wijze grensskores te bepalen.
Een overzicht van de resultaten van dat theoretisch werk wordt gegeven door Hambleton

al. (1978), terwijl Glass (1978) verschillende benaderingen heeft gekritiseerd.
De meest belovende aanpak van het probleem hoe de grensskore in omschreven zin
'Optimaal te kiezen is met gebruik making van de technieken uit de decisie-analyse (Raiffa
en Schlaifer 1961, Raiffa 1968, Lindley 1971, Keeney en Raiffa 1976). Het is ook de
enige benadering die in de ogen van Glass (1978).genade kan vinden. De moeilijkheid is
echter dat tot nog toe alle auteurs die vanuit deze benadering optimale grensskores
Zoeken te bepalen daarbij wiskundige technieken nodig hebben die hen het kontakt met
de mensen in het onderwijsveld hebben doen verliezen. Exponent bij uitstek hiervan is
^el het werk van Huynh (1976, 1977). Is het nodig om ingewikkeld te doen over opti-
male grensskore bepaling? Ik dacht het niet, en zal in dit artikel een werkelijk eenvoudig
alternatief aanreiken (Huynh (1977) noemde zijn methode al 'simpel', vandaar).
Daarmee zijn we nog niet uit de problemen, omdat alle tot nu toe aangereikte methoden
lijden aan een kwaal die ik in de diskussie zal aanduiden, en waarvoor de medikatie in een
tweede artikel aangereikt zal worden (Wilbrink, in druk).

Toetsen waarbij de behaalde skore in de eerste plaats iets zegt over de mate waarin de
getoetste leerstof beheerst wordt, noemen we vandaag de dag kriterium gerefereerd (hoe-
wel domein gerefereerd eigenlijk een betere term zou zijn, verwijzend naar het domein
van toetsvragen waaruit de toets is samengesteld). Toetsen waarbij de skore allereerst aan
moet geven of de prestatie beter of slechter is dan die van andere leerlingen heten in dit
jargon dan norm gerefereerd.

Meestal wordt met de term 'kriterium gerefereerde toetsen' gedoeld op kleine voortgangs-
toetsen, zoals die bijvoorbeeld in individuele studie systemen gebruikt worden. Maar het
is ook niet ongebruikelijk om jaarlijks af te nemen diagnostische toetsen over een bepaald
vak, meestal door bedrijven als CTB/McGraw-Hill geproduceerd, zo te noemen (Hamble-
ton en Eignor, 1978).

Op zich hoeft zo'n kriterium gerefereerde toets geen grensskore te hebben, als het gaat
om toetsen van de mate van stofbeheersing. In de praktijk wordt op basis van de toets-
skore beslist over de voortgang naar het volgende studieonderdeel, en dan ontstaat er wél
een grensskore probleem. Vastgesteld moet worden welke skore tenminste behaald moet
zijn om zonder bijspijkeren door te kunnen gaan met het verdere studieprogramma. Een
stille omwenteling in de betekenis van 'kriterium gerefereerd toetsen', door meerdere
auteurs gesignaleerd, en betreurd (laatstelijk door Glass, 1978).

Ervan uit gaande dat er een grensskore aangewezen moet worden is de vraag hoe de 'beste'
grensskore gevonden kan worden. Een bijna traditioneel geworden eerste stap is de herfor-
mulering van het probleem: als ik zou weten wat de beste beslissing is ten aanzien van een
enkele leerling (mits die leerling niet om een bijzondere reden is gekozen) dan kan ik
daaruit afleiden welke toetsskore de leerling tenminste zou moeten hebben om doorgela-
ten te worden (voldoende beoordeeld), en dan zou dat ook de optimale grensskore voor
de overige leerlingen zijn.

De juistheid van de beslissing 'doorlaten' of 'bijspijkeren' wordt beoordeeld op een ge-
schikt gekozen kriterium variabele. Dat kan de onderliggende ware beheersing zijn, gedefi-
nieerd als de proportie gekende vragen in het domein van vragen waaruit de toets is
samengesteld. Dat lijkt de vanzelfsprekende weg bij kriterium gerefereerd toetsen, maar
zeker voor toetsen in een individueel studie systeem is er een andere goed aansprekende
mogelijkheid. Wanneer aangenomen wordt dat de ware beheersing op het ene onderdeel
van de stof bevorderlijk is voor de bestudering van het volgende onderdeel, ligt het voor
de hand de skore op de vervolgtoets als kriterium variabele te nemen. Deze tweede
mogelijkheid leent zich beter voor illustratieve doeleinden omdat de analyse een wat
minder abstrakt karakter kan hebben dan ware skore analyse. Er valt wel meer te zeggen
over de keuze van de kriterium variabele, maar dat wil ik doen aan de hand van de
problematiek die ik in een vervolg artikel aansnijd (WUbrink, in druk).
Aangenomen wordt dat er op de vervolgtoets een kritische skore, verder drempel te
noemen, valt aan te wijzen. Het is gebruikelijk om daar letterlijk-een drempel mee te
bedoelen: er is een kwahtatief verschil tussen skores boven en skores beneden de drempel.
In het leren-voor^-beheersing jargon zou je zeggen dat skores beneden de drempel er op

figuur l. Mogelijke utiliteitsfunktie over skores op een vervolgtoets bestaande uit 10 vragen. Verkre-
Sen door 'ordered metric sealing'.

lijzen dat beheersing (nog) niet aanwezig is. Ik geloof niet dat het verstandig is om die
drempel zo extreem op te vatten. Het is ook al prachtig wanneer de docent een streef-
niveau op de vervolgtoets kan aanwijzen, dat als drempel kan funktioneren. In shnpele
gevallen zou de docent de overtuiging kunnen hebben dat goed kunnen beantwoorden van
^ uit 10 vragen het niveau is waar hij naar streeft, en dat betere prestaties welkom zijn
maar niet zo nodig hoeven. In minder eenvoudige gevallen kan de docent zijn streefniveau
bepalen aan de hand van zijn utiliteitsfunktie over vervolgtoets skores. Zo'n utiliteitsfunk-
tie zou er uit kunnen zien als in figuur 1. Het gaat daarbij om de relatieve waardering die
'^e docent voor de verschillende mogelijke toetsskores heeft. Voor het opstellen van
'dergelijke utiliteitsfunkties geven Keeney en Raiffa (1976) de technieken. Een iets andere
benadering is te vinden bij Siegel (1957) (zie ook Becker en Siegel, 1962), waarop mis-
schien te verbeteren valt met een door Goode ontwikkelde methode (besproken in Van
der Ven, 1977). Siegel zoekt alleen de verschillen in utiliteit tussen verschillende moge-
lijke skores te bepalen; in de praktijk zou zijn techniek, die werkt met paarsgewijze
''ergelijkingen, daarom wel eens de eenvoudigst hanteerbare kunnen zijn.
^ de definitie van Siegel (1957) is het streefniveau de hoogste van de twee skores
daartussen de koorde het steilst is. In figuur 1 is de skore 8 het streefniveau, en zou dan

als drempel op de vervolgtoets gekozen kunnen worden.
^ drempel op de vervolgtoets hoeft niet gelijk aan de op die vervolgtoets te hanteren
êrensskore te zijn, hoewel er geen al te groot verschil tussen beide zal bestaan. De drempel
is het meest gewenste niveau van stofbeheersing, terwijl bij het bepalen van de grensskore
rekening gehouden wordt met de gevolgen van ten onrechte door laten gaan of laten
^jspijkeren.

Een verfyning die ik hier buiten beschouwing laat is dat de drempel eigenlijk aangewezen
dordt op de onderliggende ware stofbeheersing, zodat je vervolgtoetsskores om precies te
^ijn zou moeten vervangen door de bijbehorende geschatte ware skores.

De onzekerheid bij het beslissen over een enkele leerling is of hij op de vervolgtoets de
drempel zal halen. Zijn we nu zo gelukkig empirische gegevens ter beschikking te hebben
over het verband tussen toetsskores en vervolgtoetsskores, dan is de oplossing al in zicht.
Dan kunnen we immers een schatting maken van de waarschijnlijkheid dat een leerling i
die een toetsskore Xj blijkt te hebben, op de vervolgtoets tenminste gelijk aan de drempel
skoort.

Wie het van belang vindt of er meer of minder ver boven of onder de drempel geskoord
wordt, kan beter niet met drempels werken. Ik verwijs naar Davis et al. (1973), v.d.
Linden en Mellenbergh (1977), en Wilbrink (in druk). Davis et al. (1973) laten zien dat bij
lineaire en andere uitkomstutiliteitsfunkties het aanwijzen van een drempel niet nodig is.
Ook bij v.d. Linden en Mellenbergh (1977) is dat dus niet nodig, hoewel zij de indruk
wekken dat de plaats van een aangewezen 'drempel' ook bij hanteren van lineaire verlies-
funkties van belang zou zijn. Aangetoond kan worden dat bij de door hen gegeven
oplossing voor de optimale grensskore deze aangewezen 'drempel geen rol speelt.' Mijn
verontschuldiging voor het gebruik van technische termen die ik pas later introduceer, ik
dacht hier alternatieven voor drempel gebruik aan te moeten geven.

Bij het werken met grensskores vallen er altijd 'foute beslissingen': sommige leerlingen
skoren voldoende maar hebben eigenlijk bijspijker aktiviteiten nodig, anderen skoren
onvoldoende en zouden het best zonder bijspijkeren kunnen doen. Zouden beide soor-
ten 'foute beslissing' even vervelend zijn, dan neem je ten aanzien van een enkele leerling
de beslissing die de hoogste waarschijnlijkheid heeft de juiste te zijn, en ligt de optimale
grensskore daar waar de waarschijnlijkheid van beide 'fouten' gelijk j is.
Vind je het daarentegen vervelender een leerhng ten onrechte te laten bijspijkeren dan het
is om een (andere) leerling ten onrechte te laten doorgaan, of omgekeerd, dan wordt het
ingewikkelder omdat nu de 'fouten' als het ware 'gewogen' moeten worden. Eén van de
manieren waarop je dat kunt doen is met gebruik van de verworvenheden van de decisie
analyse (bijvoorbeeld Raiffa en Schlaifer, 1961). Ik zal hier een eenvoudige techniek bij
wijze van voorbeeld geven, en in een vervolgartikel (Wilbrink, in druk) verder op deze
decisie analytische benadering ingaan, en er ahernatieven voor geven (tenminste, waar het
gaat om optimale grensskores te bepalen).

Voor een enkele leerling heb je te maken met vier mogelijke uitkomsten, weergegeven in
figuur 2: er zijn twee beslissingsalternatieven, en ieder kan achteraf juist of onjuist blijken
te zijn.

' De 'drempel' bij v.d. Linden en Mellenbergh (1977) wórdt in hun model gebruikt als oorsprong,
waaraan de vergelijkingen voor de lineaire funkties gerefereerd zijn. Maar de keuze van oorsprong is
irrelevant voor de oplossing van het optimale grensskore probleem, want daarbij speelt slechts het snij-
punt (als dat bestaat) van de utiliteits- of verliesfunkties een rol. Zie ook de opmerking van v.d. Lin-
den en Mellenbergh (blz. 598) in geval beide konstanten a^ en a, in beide funkties aan elkaar gelijk
zijn, dat is: het snijpunt van beide funkties ligt dan precies op de plaats waar de 'drempel' is aan-
gewezen. In dat geval is de optimale grensskore die waarde voor X waar het verschil tussen de ver-
wachte skore op de kriterium variabele en de drempel voor de eerste keer positief wordt. Opmerke-
lijk is dat Glass (1978) als enige kritiek op deze benadering van v.d. Linden en Mellenbergh heeft dat
deze aanpak nog steeds van het 'willekeurig' aanwijzen van een drempel afhankelijk zou zijn. Het aar-
dige is nu dat die drempel in dat model geen rol speelt.

Je Zou nu aan iedere uitkomst een waarde kunnen toekennen, de uitkomstutiliteit, af te
leiden uit de utiliteitsfunktie over bestede tijd en opgedane kennis. Gelukkig is het niet
altijd nodig deze omslachtige weg te bewandelen. Noem de uitkomsten die je verkregen
zou hebben als je het wél deed A, B, C, en D, algebraïsche labels (zie figuur 2) die niet
gekwantificeerd hoeven te worden. Ik ben op zoek naar de 'wegingsfaktoren' voor de
•^eide 'onjuiste uitkomsten'. Voor ten onrechte bijspijkeren is dat het verschil in uitkomst-
utiliteiten (B-A), voor ten onrechte doorgaan is dat het verschil (C-D). Bovendien blijkt
^oor dit soort probleem alleen de ratio van beide van belang te zijn. De technische term:

De verliesratio drukt uit hoeveel erger je het vindt dat een leerling ten onrechte bijspijker-
onderwijs volgt, dan dat een leerling ten onrechte doorgaat met het vervolgonderwijs.
Dit geraamte in het vlees zettend zou je bijvoorbeeld kunnen zeggen: (B-A), het verlies
Van ten onrechte bijspijkeren en eventueel hertoetsen, bestaat uit het tijdverlies daarbij
opgelopen; (C-D), het verlies bij ten onrechte doorgaan, is wat moeizamer te omschrijven
äls het extra tijdverlies dat in de vervolgstudie ontstaat doordat niet tijdig bijgespijkerd is.
Het laatste is dus niet gelijk aan de tijd die voor alsnog bijspijkeren in de vervolgstudie
"odig is, want daar moet de tijd die anders aan tijdig bijspijkeren besteed zou zijn vanaf
getrokken worden. Onderwijskundige ervaring doet vermoeden dat in reële onderwijs-
situaties (C-D) kleiner zal zijn dan (B-A), dus L groter dan 1.

Is voor die ene leerling de waarschijnlijkheid van beide verliezen ('onjuiste uitkomsten')
gelijk, dan beslis je voor het alternatief met het kleinere verlies. In alle andere gevallen
vermenigvuldig je het verlies (B-A) met de kans Pi dat voor deze leerling i laten bijspijke-
ren de verkeerde beslissing zou zijn, en het verlies (C-D) met (l-Pj), de kans dat doorlaten
de verkeerde beslissing is. Beide produkten zijn verwachte verliezen. De Pj moet geschat
borden uit beschikbare empirische gegevens over het verband tussen toets- en vervolg-
toetsskores.

De optimale grensskore Ugt bij de toetsskore waarbij de waarschijnlijkheid P hoort die
beide verwachte verliezen aan elkaar gelijk maakt. De optimale grensskore moet het punt

zijn waarbij het je onverschillig is of leerlingen met die skore doorgaan dan wel bijspijke-
ren. Ofwel:

De selektieparameter P geeft de waarschijnlijkheid dat iemand die op de toets gelijk aan
de optimale grensskore skoort op de vervolgtoets tenminste gelijk aan de drempel zal
skoren, als skoring op de toets kontinu zou zijn.

Aangenomen dat bij hogere toetsskores Xj ook de Pj hoger worden (tenminste niet dalen),
een niet onredelijke aanname in het onderwijs, is de optimale grensskore de toetsskore Xk
waarvan de bijbehorende Pk het dichtst boven P ligt of daaraan gelijk is.
Welk vernuftig theoretisch model ook gehanteerd wordt bij het lokaliseren van optimale
grensskores, altijd komt deze selektieparameter er uit (ik zal dat straks laten zien). Je hebt
dan ook geen bijzondere modellen nodig om deze P te vinden, maar misschien zijn ze
bruikbaar om tot verbeterde schattingen Pj te komen. Jammer is dat iedere auteur met
veel moeite aantoont dat zijn model deze selektieparameter oplevert (wat niet meer is dan
een check op de juistheid van het model), en expliciete formules voor Pj niet gegeven
worden.

De verliezen gerefereerd aan een drempel worden veelal drempelverliezen genoemd, en
worden meestal als voor alle leerlingen gelijk beschouwd. Deze aanname van konstante
verliezen is niet onredelijk wanneer bijspijkeren voor de onjuist beoordeelde leerlingen
ieder van hen ongeveer evenveel tijd kost, respektievelijk niet-bijspijkeren voor ten on-
rechte doorgelatenen ieder op ongeveer evenveel extra tijd komt te staan. Wanneer bijspij-
keren klassikaal of groepsgewijs gebeurt, of daar een vaste individuele instruktie voor
doorgelopen wordt, zul je daar zeker aan voldoen. Voor leerlingen die extreem ver van de
grensskore af zitten is een en ander waarschijnlijk niet vol te houden, maar bedenk dat
voor deze leerlingen geldt dat ten aanzien van hen altijd dezelfde beslissing genomen zal
worden, hoe ook met de grensskore geschoven wordt: voor het vinden van de optimale
grensskore leggen zij geen gewicht in de schaal.

Nu ik toch met aannamen bezig ben: ik heb er in het bovenstaande nog één verzwegen: ik
heb verliezen gelijk gesteld aan tijdverliezen, wat een lineaire verliesfunktie over tijdverlies
veronderstelt, althans in het tijdverlies bereik wat beschouwd wordt. Mocht aan deze
veronderstelling niet bij benadering voldaan zijn, dan moet met op de verliesfunktie
gewaardeerde tijdverliezen gewerkt worden.

Figuur 3 geeft toets- en vervolgtoetsskores voor 200 leerlingen. De docent zou deze ge-
gevens verzameld kunnen hebben over leerlingen die eerder dezelfde toets aflegden, en
over wie hij ook skores op de vervolgtoets inmiddels heeft kunnen bepalen. Verondersteld
is dat de gegevens over de vervolgtoetsskores betrekking hebben op leerlingen ten aanzien
van wie op basis van de toetsskores geen speciale maatregelen genomen zijn: op de toets
zijn voor deze leerlingen nog geen voldoende-onvoldoende beslissingen genomen, er zijn
geen extra leertaken aan bepaalde leerlingen toegekend.

^oor iedere toetsskore afzonderlijk wordt de proportie leerlingen bepaald die op de
Vervolgtoets tenminste de drempel (skore 17) haalt. Tabel 1 geeft deze proporties in
kolom 4. Deze proporties zijn te gebruiken als schatting voor de kans dat een willekeurige
leerling met toetsskore X; tenmmste 17 punten op de vervolgtoets zal halen. Een ruwe

9
10
11
12

20
21
22
23

werkwijze, toegegeven, maar goed genoeg voor het doel de optimale grensskore G(opt) te
kunnen bepalen. Nu zullen de berekende proporties evenals in het onderhavige geval nogal
eens grillig blijken uit te vallen. Grote uitschieters die zeer waarschijnlijk alleen aan
dergelijke toevalsfluktuaties te wijten zijn, zou je graag willen verwijderen of vereffenen
(smoothen). Een even simpele als bruikbare methode is voor ieder drietal proporties de
mediane waarde te substitueren voor de middelste: bijv. .476, .583, .409, vervang .583
door .476.

Kolom 5 in tabel 1 geeft de aldus vereffende proporties. Te zien is dat dc proporties van
boven naar beneden niet kleiner worden, in overeenstemming met de aanname uit de
vorige paragraaf. Zou dit niet het geval zijn, dan kan nogmaals op dezelfde wijze vereffend
worden, en eventueel nogmaals totdat de nieuw verkregen proporties niet meer verande-
ren. Houd in deze reeks de bovenste en onderste proportie gelijk aan de beginwaarde; is
het gewenst om ook deze mee te vereffenen, zie dan Tukey (1977, blz. 221) 'end value
smoothing'. Varianten op de hier gegeven eenvoudige methode van vereffenen worden in
het opmerkelijke boek van Tukey (1977) gegeven. Een methode voor het direkt vereffe-
nen van de data zoals in figuur 3 wordt o.a. door Novick en Jackson (1974, par 10.9)
gegeven, maar is verre van eenvoudig. Statistische vereffeningsmethoden zijn in talrijke
vormen beschikbaar, maar ingewikkeld voor de docent, en kostbaar voor deze kleinere
beslissingsproblemen; Kolen en Whitney (1978), Clark (1977), Hobson (1976) e.g.

Zou de docent de verliesratio bepaald hebben op L=l,5 dan is volgens formule (3) de
waarde van de selektieparameter P = .4. In kolom 5 van tabel 1 is te zien dat deze waarde
ligt tussen die van de proporties horend bij de toetsskores 11 en 12, waarmee de optimale
grensskore G(opt) bepaald is op 12. Het voorbeeld laat zien dat de aanwijzing van G(opt)
een bruuske zaak is, een probleem dat sterker speelt naarmate het aantal vragen in de
toetsjes kleiner is (Zie ook Novick en Lewis, 1974, blz. 142).

Het is leerzaam om na te gaan hoe ver de verliesratio zou moeten veranderen om tot een
andere 'optimale' grensskore te leiden. Wordt L kleiner dan 1.1 dan springt de grensskore
van 12 op 14. Is L = 2, dan is 11 de optimale grensskore. Voor waarden van L tussen 1.1
en 2, een fors bereik, is G(opt) = 12.

De gevoeligheid van Gopt voor de plaats waar de drempel gelegd wordt blijkt groot te
zijn. Zou de drempel op 16 gekozen zijn dan is G(opt) = 11, bij drempel 18 blijkt G(opt)
= 15 te zijn. In dit skorebereik treft dat 79 van de 200 leerlingen!

Overigens is het hiermee ook duidelijk dat je bij het veranderen van drempels en grens-
skores rekening moet houden met terugkoppehngseffekten: leerlingen zullen hun gedrag
aan veranderingen aanpassen, en daarmee bedoelde effekten gedeeltelijk teniet kunnen
doen (zie ook Van Naerssen, 1976). Daardoor wordt het verzamelen van empirische
valideringsgegevens een moeizame zaak, omdat het misschien een paar keer zal moeten
gebeuren.

In gevallen waar de empirische proporties ook na herhaald vereffenen nog 'omkeringen' in
strijd met de aanname vertonen, waardoor misschien twee 'optimale' grensskores
aangewezen zouden worden, valt er weinig anders te doen dan de leerlingen het voordeel
van de zwakte van de beschikbare empirische data te geven: neem van eventueel meerdere
'optimale' grensskores degene waaraan de leerlingen de voorkeur geven.

Wat betreft het bepalen van de waarde van de selektieparameter P heb ik in het voor-
gaande een eenvoudige oplossing gegeven. Andere auteurs kiezen de moeilijker weg van
het minimaliseren van het verwachte verlies over de hele groep leerlingen. Daarvoor is
nodig de proportie ai van ten onrechte onvoldoende beoordeelde, en de proportie di van
ten onrechte voldoende beoordeelde leerlingen als Xj als grensskore gekozen zou worden.
Het verwachte verlies bij de keuze van Xi als grensskore is

Voor G(opt) is dat verlies minimaal. Zonder enige aanname over de aard van de gezamen-
lijke verdeling van X en Y (toets- en vervolgtoetsskores) kan de selektieparameter P
bepaald worden. Vastenhouw (1973) en Petersen (1976) hebben laten zien dat

Zij gaven het bewijs voor maximaliseren van de verwachte utiliteit, maar Raiffa en
Schlaifer (1961) hebben laten zien dat het minimaliseren van het verwachte verlies de-
zelfde resultaten moet geven.

Anderen (Alf en Dorfman, 1967; Rorer et. al., 1966; Huynh, 1976 om er enkele te
noemen) stellen een model op voor de gezamenlijke verdeling van toets- en vervolgtoets-
skores en leiden uit dat model de waarde van de selektieparameter P af. Ik verklap vast
dat ze allen uitkomen op dezelfde waarde, zoals die in (3) en (5) al gegeven werd. Beschik
je dan toch eenmaal over zo'n statistisch model, dan kun je dat ook gebruiken om je
empirische gegevens te fatsoeneren: in plaats van de ruwe data gebruik je een statistisch
"^odel dat in zijn parameters zó gekozen is dat het het best bij de data past. Je kunt dan
Voor iedere Xj een schatting Pi maken op basis van je model. Gegeven de eenmaal ge-
schatte P; gaat het vinden van G(opt) precies zoals we het eerder op de proporties uit
tabel 1 gedaan hebben.

Alf en Dorfman (1967) veronderstellen zowel toets- als vervolgtoetsskores normaal ver-
deeld. De regressie van vervolgtoets op toets is dan lineair, de verdeling voor vervolgtoets-
skore gegeven toetsskore is eveneens normaal (zie figuur 4a). Alf en Dorfman leidgn
dezelfde selektieparameter P=1/(L-H) af, in figuur 4a voorgesteld door het gearceerde
gedeelte van de konditionele verdeling.

Rorer et. al. (1966a, b) veronderstellen een natuurlijke tweedeling als doelvariabele (man-
vrouw, ziek-gezond, succes-falen bijv.), en dat de toets- en testsskores van personen uit
dezelfde doelkategorie normaal verdeeld zijn (figuur 4b). Als L = 1 dan is G(opt) grafisch
te vinden als het punt (eventueel de twee punten!) waar deze normaalverdelingen elkaar
snijden. Wanneer het aantal personen in de ene doelkategorie een stuk kleiner is dan dat
de andere kategorie is het mogelijk dat er geen snijpunt is: dezelfde beslissing ten
aanzien van alle personen is optimaal. In het algemeen echter zal de verliesratio L # 1
zijn. Als fi(X) de skoreverdeling is voor de groep die op de vervolgtoets beneden de
drempel skoort, en f2(X) de skoreverdeling voor de groep die tenminste gelijk aan de
drempel skoort, dan is aan te tonen dat G(opt) grafisch te bepalen is door f2(X) te
vermenigvuldigen met L, waarbij de snijpunten fi(X) = Lf2(X) de optimale grensskores
aangeven (zie figuur 4b).

Figuur 4b. Model
RoreretaL (1966).
Normaal verdelin-
gen voor lager dan
de drempelskoren-
de personen /i (X)
en ten minste ge-
lijk aan de drempel
skorende personen
fJX). L is de ver-
liesratio.

'let is mogelijk om normaalverdelingen bij de ruwe empirische frequentieverdelingen te
passen, maar het is natuurlijk ook mogelijk om beide empirische frequentieverdelingen
met vereffeningstechnieken te bewerken,
"oe zit dat nu met de selektieparameter P? Per definitie

'luynh (1976) behandelt verschillende modellen, waarbij het beta-binomiale model een
opvallende plaats inneemt. De toetsskore, gegeven ware beheersing t, is binomiaal ver-
beeld, de ware skore verdeling is beta verdeeld. Op het ware skore bereik is de drempel to
aangewezen. Ondanks de schijn van het tegendeel is het door Huynh hier gepresenteerde
model een 'gewoon' drempelverlies model (hij noemt het 'the beta-binomial model with
constant losses and 0-1 referral success'). Langs moeilijk navolgbare wegen bereikt hij de
oplossing voor de optimale grensskore, bij hem Co geheten, gegeven in zijn formule (10).
De vraag is of ook bij Huynh de optimale grensskore bepaald wordt door dezelfde waarde
•/(L+1) voor de selektieparameter P. Dat kan aangetoond worden, gebruik makend van
•^et feit dat in dit model de ware skore verdeling voor gegeven toetsskore ook een betaver-
'leling is. De inkomplete beta funktie ratio in Huynh's formule (10) is precies het komple-
"lent van de gezochte waarschijnlijkheid P. (Zijn verliesratio Q is gelijk aan mijn L). Ook
^luynh komt zodoende uit op de selektie parameter P = (1/L+l), zijn theoretisch model
geeft de Pi als het komplement van een inkomplete beta verdeling, waarvan de parameters
op basis van empirische gegevens te schatten zijn, of subjektief te bepalen wanneer het om
'iet schatten van de ware skore verdeling voor een enkele persoon gaat. Nog twee opmer-
'^mgen bij dit model. 'Konstante verliezen' betekent zoals gezegd drempel verliezen,
"uynh (1976, 1977) werkt in alle door hem gepresenteerde modellen met drempelver-
'iezen. '0-1 Referral success' betekent dat gegeven de ware skore succes op de vervolgtoets
perfekt voorspelbaar is (succes is het al dan niet beneden de drempel op de vervolgtoets
^■^oren); bij deze aanname is de 'referral task' van geen praktisch belang meer, het zijn
alleen de ware skores op de toets die bij het vinden van de optimale grensskore van belang
zijn.

"^s afsluiting in deze rij het werk van Hambleton en Novick (1973), Swaminathan et. al.
<^'975). Deze benadering is een oefening in betrouwbaarheid: gestreefd wordt naar zo
êoed mogelijke schatting van de ware beheersing per individuele leerling. Daartoe wordt
®en Bayesiaanse regressie analytische benadering gebruikt, toegepast op getransformeerde
^ata. Bijzonder knap, maar ook een bijzonder ondoorzichtige procedure. Het vinden van
^(opt) gaat, gegeven het voorgaande, langs de bekende weg van minimaliseren van het
Verlies over'de hele groep leerlingen. Verder onderzoek langs deze lijn zal waarschijnlijk
"iet gebeuren, gezien de opmerking van Hambleton et. al. (1978) dat de aanpak van
(1976) eenvoudiger is.

In lict dagelijks leven wordt op grote schaal met grensskores gewerkt, vaak in situaties en
met tests die moeilijk of niet te standaardiseren zijn. De gebruiker van de test of toets, die
vaak ook de maker ervan is, zal dan zélf een optimale grensskore moeten zien te vinden,
en ook aan zijn leerlingen, kliënten, etc. duidelijk moeten kunnen maken op welke wijze
die grensskore is bepaald. Dat alles vraagt om transparante, eenvoudige, praktische proce-
dures. Ik heb laten zien dat een eenvoudige procedure gegeven kan worden.
Wie toch reden heeft om met modellen over (onderliggende) skoreverdelingen te werken,
bijvoorbeeld omdat de bijbehorende assumpties goed bij zijn specifieke situatie passen,
kan zich in drie opzichten door de in het voorgaande gegeven methode gesteund weten:
Ie hoeft niet vanuit het nieuwe model opnieuw 'bewezen' te worden dat voor Gop, geldt
dat de selektieparameter P=1/(L+1); 2e weet hij nu dat de funktie van het nieuwe model
moet zijn om tot 'verbeterde' schattingen Pj te komen; 3e blijft het dan ook bij ingewik-
kelde modellen mogelijk om de wijze waarop Gop, bepaald is op begrijpelijke wijze uiteen
te zetten aan betrokkenen.

Ondanks de eenvoud van de gegeven aanpak zijn er nog problemen te over. Op een aantal
daarvan wil ik hier kort ingaan. Ik begin met een citaat van Ebel, gebruikt door Hamble-
ton (1978):

'Zak-slaag beslissingen op basis van iemand's studieresultaat vinden sommige meet specialisten maar
een heel zorgelijke zaak. Zij weten alles van meetfouten. Zij weten dat sommigen die nauwelijks slagen
dat alleen maar te danken hebben aan meetfouten. Zij weten dat sommigen die zakken dat alleen maar
te wijten hebben aan meetfouten. Voor hen hangt zakken of slagen helemaal niet van hun stofbeheer-
sing af. Het is alleen maar een kwestie van geluk. Dat lijkt oneerlijk, en dat is het natuurlijk ook. Maar,
zoals iedere meet specialist uit kan leggen, het is ook geheel en al onvermijdelijk. Maak een betere toets
en reduceer zo het aantal dat zakt of slaagt door meetfouten. Maar hun aantal kan nooit tot nul
teruggebracht worden.'

Het Standpunt van Ebel is vandaag de dag nog steeds te beluisteren in kringen van 'meet
specialisten', ondanks de pogingen van De Groot (1970, 1972) om deze problematiek van
de differentiële rechtvaardigbaarheid op wat minder primitieve leest te schoeien. De
Groot wijst er op dat de onderwijssituatie zó ingericht moet zijn dat de leerling het risiko
van pech in de grenszone zelf kan dragen. Dat vraagt om doorzichtige toetsing, waar de
leerling zich effektief op voor kan bereiden (zie ook Wilbrink, 1978), het zak-risiko kan
'beheersen'» Zak-slaag beoordelingen kunnen dan gezien worden als liggend binnen een
afspraken systeem met de leerhngen: je mag doorgaan met het vervolgonderwijs als je
'slaagt', maar je mag er niet op rekenen altijd te 'slagen' wanneer je de stof ook 'vol-
doende beheerst'; 'ten onrechte' zakken is iets dat iedere leerling wel een paar keer zal
overkomen, en inherent aan het gehanteerde beoordelingsstelsel. (Wat niet betekent dat er
geen beter beoordelingsstelsel bedacht zou kunnen worden).

Waarom breng ik dit alles ter sprake? Het heeft alles te maken met de nogal naiëve
opvattingen die we er nog steeds op na houden waar het gaat om de vraag welke stof-
beheersing van de leerling verlangd moet worden, welk niveau als 'mastery level' aange-
duid kan worden, etcetera. Welnu, dit zijn de verkeerde vragen. Zelden of nooit is er in
het onderwijs sprake van een scherp afpaalbaar niveau van stofbeheersing dat als 'grens'
tussen 'voldoende' en 'onvoldoende' aangewezen kan worden. Het heeft er de schijn van
dat het denken in termen van 'drempels' e.d. ons de laatste tijd opgedrongen is vanuit de
hoek van de 'meet specialisten'. Op zijn best kun je grensskore procedures blijven hante-

"^en om daarmee een omschreven, maar dan wel redelijk globaal, niveau van stofbeheersing
Voor de groep leerlingen te realiseren. Verhogen of verlagen van de grensskore zal effekten
hebben op dat globaal gerealiseerde niveau, zodat de keuze van grensskore een effektief
"Jiddel is om het onderwijs te sturen.

perken met grensskores en drempels is prima, als we daar maar niet de idee bij hebben
dat het zou gaan om duidelijk kwaUtatieve grenzen in de aard van de stofbeheersing. Geen
overdreven betekenis hechten aan het verschil tussen skores die net onder en net boven
^o'n drempel liggen.

I^ok binnen de boven geschetste toetsing-als-sturing-van-onderwijs opvatting is het van
"elang de resultaten van bijspijker onderwijs voor een 'ongeselekteerde' groep leerlingen
te onderzoeken. Het opmerkelijke is nu dat bij alle eerder gegeven methoden (Hambleton
et al. 1978), evenals bij de door mij geschetste eenvoudige methode overigens, van de
docent wordt gevraagd om intuïtief deze alleen empirisch te achterhalen bijspijkereffek-
en mee te waarderen bij het kiezen van utiliteiten of het bepalen van de verliesratio L.
'Oe je het ook bekijkt, dat is een weinig rationele procedure, en het siert onderzoekers
Van onderwijs niet van docenten een intuïtief oordeel te vragen waar zij zelf er in ieder
snder geval op aan zouden dringen eerst maar eens valideringsgegevens te verzamelen. Het
niet onwaarschijnlijk dat bijspijkeren maar tot een kleine 'winst' in termen van vervolg-
toetsskores leidt, een 'winst' die bij onderzoek wel eens vér beneden het niveau zou
kunnen liggen dat de docent met zijn ongewapend oog er altijd van verwacht heeft. Ik
derk dit uit in een vervolgartikel (Wilbrink, in druk).

E.F. Jr., and Dorfman, D.D. The classification of individuals into two criterion groups on the basis
of a discontinuous pay oîî ÏMncWon. Psychometrika, 1967, 32,115-123.

S.W., and Siegel, S. Utility and level oi TupitiWon. American Journal of Psychology, 1962, 75,

R.M. Non-parametric estimation of a smooth regression function. Journal of the Royal Statisti-
cal Society, Series B, 1977, 39, 107-113.

C.E., Hickman, J., en Novick, M.R. A primer on decision analysis for individually prescribed
instruction. Iowa City: The research and development division, The American College Testing
Program, 1973.

'^'ass, G.V. Standards and criteria. Journal of Educational Measurement, 1978, 15, 237-261. (Special
issue on standard setting),
'oot, A.D. de. Some badly needed non-statistical concepts in applied psychometrics. Nederlands
^ Tifdschrift voor de Psychologie, 1970, 25, 360-376.
•^"ot, A.D. de. Selectie voor en in het hoger onderwijs. Een probleemanalyse. Den Haag: Staatsuit-
geverij,1972.

^bleton, R.K. On the use of cut-off scores with criterion-referenced tests in instructional settings.

-fournal of Educational Measurement, 1978, ii, 277-290.
arnbleton, R.K., and Eignor, D.R. Guidelines for evaluating criterion referenced tests and test man-

uals. Journal of Educational Measurement, 1978,15, 312-327.
ambleton, R.K., and Novick, M.R. Toward an integration of theory and method for criterion-refer-

enced Journal of Educational Measurement, 1973,10,159-170.
arnbleton, R.K., Swaminathan, H., Algina, J., and Coulson, D.B. Criterion-referenced testing and
■rieasurement: a review of technical issues and developments. Review of Educational Research,
^ 1978,45,1-47.

o°son, R. Properties preserved by some smoothing functions. Journal of the American Statistical

Association, 1976, 71, 763-766.
''ynh, H. Statistical consideration of mastery scoks. Psychometrika, 1976, 41, 65-78.

Huynh, H. Two simple classes of mastery scores based on the betabinomial model. Psychometrika,
1911,42, 601-608.

Keeney, R.L., and Raiffa, H. Decisions with multiple objectives: preferences and value tradeoffs-
London: Wiley, 1976.

Kolen, M.J., and Whitney, D.R. Methods of smoothing double-entry expectancy tables applied to the
prediction of success in college. Journal of Educational Measurement, 1978,15, 201-211.

Linden, W.J. van der, cn Mellenbergh, G.J. Optimal cutting scores using a hnear loss function. Applied
Psychological Measurement, 1977,1, 593-599.

Naerssen, R.F. van. Het derde tentamenmodel met een toepassing. Tijdschrift voor Onderwijs Re-
search, 1976,;, 161-171.

Novick, M.R., and Lewis, C. Prescribing test length for criterion-referenced measurement. In: C.W-
Harris, M.C. Alkin and W.J. Popham (Editors) Problems in criterion referenced measurement. CSE
monograph series in evaluation, no 3. Los Angeles: Center for the Study of Evaluation, University
of CaUfornia, 1974.

Novick, M.R., and Jackson, P.H. Statistical methods for educational and psychological research. Lon-
don: McGraw-Hill, 1974.

Novick, M.R., and Lindley, D.V. The use of more realistic utility functions in educational applications-
Journal of Educational Measurement, 1978,15, 181-191.

Petersen, N.S. An expected utility model for 'optimal' selection. Journal of Educational Statistics,
1976,7,333-358.

Raiffa, H. Decision analysis. Introductory lectures on choices under uncertainty. London: Addison-
Wesley, 1968.

Raiffa, H. and Schlaifer, V.. Applied statistical decision theory. London: The M.I.T. Press, 1961.

Rorer, L.G., Hoffman, G.E., LaForge, R., and Hsieh, K-Ch. Optimum cutting scores to discriminate
groups of unequal size and variance. Journal of Applied Psychology, 1966, 50, 153-164.

Rorer, L.G., Hoffman, P.J., and Hsieh, K-Ch. Utilities as base-rate multipliers in the determination of
optimum cutting scores for the discrimination of groups of unequal size and variance. Journal of
Applied Psychology, 1966,50, 364-368.

Siegel, S. Level of aspiration and decision making. Psychological Review, 1957, 64, 253-262.

Swaminathan, H., Hambleton, R.K., and Algina, J. A Bayesian decision-theoretic procedure for use
with criterion-referenced Issis. Journal of Educational Measurement, 1975,12, 87-98.

Vastenhouw, J. Optimale rationele selectie: een waardenprobleem. Onderzoek van Onderwijs, 1973,2,
12-13.

Ven, H.G.S. van der. Inleiding in de schaaltheorie. Deventer: Van Loghum Slaterus, 1977.

Wilbrink, B. Enkele radikale oplossingen voor kriterium gerefereerde grensskores. Tijdschrift voor
Onderwijs Research, in druk.

Relevante Variabelen bij het Doorverwijzen
na de Lagere School; een Structureel Model

The assignment of elementary school pupils to secondary school types; a linear structural model
Aim of the study was to determine the effect of the sex of the pupil, the SES of the parents
and the scores on a well-known Dutch school achievement test (Cito-schooltoets) on the assign-
ment of elementary school pupils to secondary school types. To that end the relations were
explored between sex of the pupil, SES of the parents, teacher predictions of the testscore, the
obtained testsscores, first teacher advice as to the most appropriate school type (given before
the test), second teacher advice (given after the test), application of the parents and the fmal
decisions of the assignment committees in a sample of 514 sixth grade pupils. After introduc-
tion of a non-measured variable, school achievement (throughout the year), our linear structural
model fits in with the data and is easily interpretable. Our conclusions are that sex and SES
have influence upon school achievement only, with advantage for girls and for pupils with
higher SES. Neither the teachers, nor the parents nor the assignment committees seem to take
into account sex or SES of the pupils. As to the well-known school achievement test, the
obtained test score has a slight influence upon the assignment proces via the second teacher
advice. Somewhat surprisingly the predicted testscore seemed to have a greater influence than
the obtained testscore. After all, the factor which most influenced the decisions of the various
persons involved (teachers, parents, assignment committees) is the unmeasured variable school
achievement throughout the year.

De LO-VO overgang vormt al vele jaren een dankbaar terrein van onderzoek. Eén van de
grondleggers van de Nederlandse onderwijsresearcii, Révész, is de eerste geweest die het
probleem van de aansluiting serieus aanvatte. Révész constateerde in 1926 dat de school-
prestaties van H.B.S.-leerlingen bedroevend slecht waren en zocht de oorzaak hiervan in
de selectie, die naar zijn oordeel niet streng genoeg was. Ook Kohnstamm heeft zich,
Intensiever, beziggehouden met het aansluitingsprobleem. Samen met Van Veen bracht hij
m 1928 aan de wethouder voor het onderwijs te Amsterdam een rapport uit over 'De aan-
eensluiting tusschen Lager en Middelbaar (Gymnasiaal) Onderwijs'. Zoals Deen (1969)
beschrijft, heeft dit thema een belangrijke rol gespeeld in het onderzoek van het Nuts-
seminarium voor Pedagogiek aan de Universiteit van Amsterdam. De ontwikkeling van de

'Amsterdamse Schooltoetsen' samen met het RITP in 1966 vormde een waardige afslui-
ting van het werk dat het Nutsseminarium op dit terrein verricht heeft. Het aansluitings-
probleem werd door de schooltoets evenwel niet uit de wereld geholpen en het onderzoek
werd voortgezet. Van Heek (1968), Boon van Ostade (1972), Oosterbaan (1973), Peschar
(1975), Blok (1978), Dronkers (1978) hielden zich bezig met de invloed van sociaal
milieu op de doorstroming en, wijder soms, de schoolloopbaan. Bos & Warries (1971)
verrichtten een evaluatie van de Amsterdamse Schooltoetsen. Sandbergen et al. (1972),
Lutje Spelberg & Rotteveel (1978) schonken aandacht aan de voorspellende waarde van
intelligentie- en schoolvorderingentoetsen, die gebruikt worden bij de LO-VO overgang.
Onlangs werden aan deze onderzoeken nog enkele toegevoegd. Het CITO rapporteert over
een onderzoek naar het gebruik van en de waardering voor eindprocedures en -methoden
bij de LO-VO overgang (CITO, 1978). Hoogstraten & Mellenbergh (1978) en Groene-
boom et al. (1978) trachten vast te stellen welke variabelen invloed hebben op en van
belang zijn voor het onderwijzersadvies. Blok en Wesdorp (1979) inventariseren welke,
oorspronkelijk aan de schooltoets toegedachte functies momenteel vervuld worden door
de CITO-toets. Het gaat ernaar uitzien dat deze stroom van onderzoeken nog doorgaat tot
het moment dat lager en voortgezet onderwijs zo hecht aaneen gesmeed zijn, dat selectie
en detenninatie niet meer nodig zijn.

Er zijn drie vraagstellingen met het oog waarop wij ons model ontwikkelden. De eerste
twee vragen zijn die naar invloeden van sexe en sociaal milieu op de doorstroming. De
derde vraag betreft de invloed van een schooltoets op beslissingen aangaande de school-
keuze. Op het belang van deze vragen willen wij kort ingaan.

Dat meisjes in het onderwijs een achterstand oplopen is bekend en al vaak aangetoond. Zij
sluiten hun onderwijsloopbaan gemiddeld eerder en op een lager niveau af dan jongens
(Meijer, 1977). Een antwoord op de vraag naar de oorzaken van deze achterstand kan nog
niet gegeven worden, want empirisch onderzoek op dit terrein komt nu pas van de grond.
Mogelijke oorzaken van deze achterstand kunnen echter wel aangegeven worden. Meisjes
blijken over het algemeen gemiddeld iets lagere scores dan jongens te leveren op school-
toetsen (Kohnstamm, 1973). Het is mogelijk dat meisjes als gevolg daarvan bij de over-
gang van het ene schooltype naar het volgende minder mogelijkheden hebben. Het kan
ook zijn dat de achterstand van meisjes niet zozeer een gevolg is van hun net iets lagere
prestaties, maar dat ouders of leerkrachten een succesvolie schoolloopbaan voor meisjes
minder belangrijk achten. Wij zullen nagaan of meisjes tijdens de LO-VO overgang achter-
gesteld worden, en zo ja, welke rol hierbij niet alleen schoolprestaties spelen, maar ook de
leerkrachten en de ouders.

Niet alleen van meisjes, ook van kinderen uit lagere sociale milieus is de onderwijsachter-
stand vaak vastgesteld. Hoewel op dit terrein al meer onderzoek verricht is, zijn er ook
hier verschillende gezichtspunten over de bron van deze achterstand. Een strijdvraag is
bijvoorbeeld inhoeverre het lager onderwijs tijdens de aansluiting bijdraagt aan de onge-
lijke verdeling van onderwijs. De belangrijkste conclüsies uit empirisch onderzoek (Van
Heek, 1968; Van Kemenade en Kropman, 1972; Kropman en Collaris, 1974; Dronkers,
1978) hebben betrekking op de generatie die in 1965 het lager onderwijs verliet. Voor
deze generatie werd geconstateerd dat onderwijzers in hun adviezen bijdragen aan de
maatschappelijke ongelijkheid. Blok's conclusie (Blok, 1978) dat leerkrachten in hun
adviezen leerlingen uit lagere milieus niet benadelen, is gebaseerd op gegevens uit het
Amsterdamse onderwijs in 1977. Recente gegevens met een landelijk en representatief
karakter ontbreken. Wij zullen nagaan of leerlingen uit de lagere milieus bij de overgang

een achterstand oplopen en zo ja, welke rol hierbij schoolprestaties, leerkrachten en
ouders spelen.

Als derde doel van ons model noemden wij het beoordelen van de invloed van een
schooltoets op het onderwijzersadvies en de uiteindelijke plaatsing in het voortgezet
onderwijs. De beslissing die genomen moet worden omtrent de schoolkeuze heeft vaak
Verstrekkende consequenties voor de toekomst van 12 a 13-jarige leerlingen. Om de te
nemen beslissingen beter te kunnen onderbouwen, werd in 1967 de wettelijke verplich-
ting ingevoerd dat over leerlingen die aangemeld zijn voor het HAVO, het VWO of
HAVO-VWO combinaties minstens één tweede toetsingsgegeven beschikbaar moet zijn.
De keus is hierbij uit de volgende methoden: een psychologisch onderzoek, een schoolvor-
deringenonderzoek, een proefklas of een toelatingsexamen. Een onderzoek naar de
schoolvorderingen blijkt de meest gehanteerde methode geworden te zijn. Een dergelijk
onderzoek heeft zich onder de naam van schooltoets een zekere faam verworven. De
eerste schooltoets werd in 1966 in Amsterdam geïntroduceerd door het RITP en het
Nutsseminarium. In de voorafgaande discussie merkte De Groot (1966) op dat de ver-
dachte verbetering door de schooltoets van de selectie voor het VO niet groot is. Al
Vormde de selectieve functie de aanleiding tot de introductie van de schooltoets, toch
hechtten de oorspronkelijke ontwerpers veel meer belang aan de evaluatieve functies. Het
hlijkt nu dat schoolhoofden en leerkrachten desondanks de schooltoets veel vaker een
selectieve functie toekennen dan een evaluatieve (CITO, 1978). Hoe groot de selectieve
functie is, is evenwel onbekend.

t^e keuze welke schooltoets in het onderzoek opgenomen zou worden, was niet moeilijk.
Er zijn in ons land slechts enkele omvangrijke eindtoetsen voor het lager onderwijs in
gebruik. Wij kozen voor de grootste, de CITO-toets. Deze toets wordt door circa 45% van
^le doorstromende leerlingen gemaakt. Het CITO doet enkele aanbevelingen aangaande
de procedures, die gevolgd worden bij de LO-VO overgang. Wanneer deze aanbevelingen
dorden opgevolgd, leidt dit tot de volgende gang van zaken. In januari brengen de school-
hoofden voor iedere leerling een eerste advies uit. Dit advies, waarin het schoolhoofd
aangeeft welk type voortgezet onderwijs het meest geschikt is voor de leerling, wordt aan
het CITO opgegeven. Tevens wordt dit eerste advies ingebracht in het overleg met de
ouders, dat in de eerste maanden van het jaar gevoerd wordt. De ouders schrijven hun
•^nd in op de school van hun keuze. Bij de inschrijving dienen ze, naast enkele personalia,
ook het onderwijzersadvies op te geven. In de maanden februari of maart wordt meestal
de toets afgenomen. Wanneer de toetsscores een maand later aan de school worden
nieegedeeld, is de reguliere inschrijvingstermijn voor het voortgezet onderwijs al gesloten,
^ia de school wordt de toetsuitslag aan de ouders gerapporteerd. Vervolgens stellen de
leerkrachten, soms nog na overleg met de ouders, voor iedere leerling het tweede en
definitieve advies vast. Het is de bedoeling dat ook dit advies en de toetsscore ter beschik-
•^ng komen van de toelatingscommissies. Deze nemen de toelatingsbeslissingen.
Hoewel geenszins vaststaat dat de door het CITO aanbevolen procedure overal strikt
gevolgd wordt, kunnen wij bij gebrek aan nadere gegevens vooralsnog niet anders doen
dan ons baseren op de beschreven procedure. Uit de beschrijving van deze procedure
hlijkt dat er drie centrale partijen te onderscheiden zijn, die ieder hun beslissingen nemen.
Leerkrachten dienen een eerste en een tweede advies op te stellen, ouders dienen te

Figuur 1. Structureel model waarin de beslissingen van leerkrachten, ouders en toelatingscommissies
opgenomen zijn benevens de informatie die hen ter beschikking staat

besluiten op welke school zij hun kind gaan aanmelden, toelatingscommissies beslissen
over de toelating. Wanneer de leerkracht zijn eerste advies opstelt, beschikt hij over een in
de klas verkregen indruk aangaande de capaciteiten van de leerling. De ouders zijn, wan-
neer zij hun kind aanmelden, op de hoogte van het eerste advies. Als de leerkracht zijn
tweede advies geeft, heeft hij de beschikking over het eerste advies, de aanmelding of
schoolkeuze van de ouders en de score op de schooltoets. De toelatingscommissie is in het
bezit van de beide onderwijzersadviezen en kent de schoolkeuze van de ouders en de
schooltoetsscore van de leerling. Omdat we weten over welke informatie de verschillende
partijen beschikken, ligt het op te stellen structurele model voor de hand (zie figuur 1).
De variabele 'predictie' in deze figuur staat voor de voorspelde toetsscore. Wij veronder-
stellen dat de leerkracht in zijn eerste advies rekening houdt met de verwachte of voor-
spelde score op de schooltoets.

Het is mogelijk dat de beslissingen tijdens de overgangsprocedure niet alleen gebaseerd
worden op de informaties waarover de drie partijen beschikken, maar ook afhankelijk zijn
van de sexe en het sociale milieu van de leerling. Daarom worden sexe en milieu nog als
oorzakelijke-variabelen aan het model toegevoegd met een directe invloed op de beslissin-
gen van de drie partijen. In het volledige model, model A (zie figuur 2), worden dus de
volgende relaties opgenomen:

a. het eerste onderwijzersadvies wordt direct bepaald door de sexe van de leerling, het
sociale milieu en de verwachte prestatie op de toets;

b. de aanmelding door de ouders wordt direct bepaald door het geslacht van hun kind,
het sociale milieu en het eerste advies van de onderwijzer;

c. het tweede onderwijzersadvies wordt direct bepaald door het eerste advies (waarin sexe
en milieu-invloeden al verdisconteerd zijn evenals de verwachte toetsscore), de aanmel-
ding en de behaalde toetsscore;

d. de plaatsing wordt direct bepaald door de sexe en het sociale milieu van de leerling, de
beide onderwijzersadviezen, de aanmelding en de behaalde toetsscore.

Om het model volledig te specificeren, dienen we nog een drietal keuzes te maken. De



B32 \
	ys adv. 2

S3I7

y2 aanm.
6	I

yi adv.I

waarbij E(y)=0, E(x)=0, "ECp-O, E(x5') = 0, E(cc' )=diagonaal.
P'iguur 2. Paddiagram voor model A met bijbehorende modelvergelijkingen

eerste betreft de vorm van de relaties tussen de variabelen. Wij achten het plausibel dat de
relaties tussen de vier adviesvariabelen, d.w.z. advies 1, aanmelding, advies 2 en plaatsing,
lineair zijn: een toename bijvoorbeeld in advies 1 geeft waarschijnlijk aanleiding tot een
evenredige toename in aarunelding, in advies 2 en in plaatsing. Hetzelfde geldt voor de
relatie tussen de voorspelde en behaalde toetsscore. Ook de relaties tussen de vier advies-
variabelen en de twee prestatiescores (predictie, toetsscore) zullen waarschijnlijk lineair
Zijn: de adviezen die leerlingen ontvangen zijn waarschijnlijk evenredig met hun prestaties,
'^ver de lineariteit van de relaties tussen milieu en de andere variabelen kunnen we minder
stellig zijn. Maar zolang er voor andersoortige relaties geen aanwijzingen zijn, menen wij er
Êoed aan te doen eenvoudigweg lineaire relaties te veronderstellen. De lineariteit van de
relaties tussen sexe en de andere variabelen vormt geen probleem omdat sexe een dicho-
tome variabele is.

De tweede keuze betreft de wijze waarop de effecten van de verschillende variabelen
worden gecombineerd. Het lijkt plausibel dat de beslissingen genomen worden op basis
van een compensatorisch model, met eventueel ongelijke gewichten voor de verschillende
bronnen van informatie. Dit impliceert dat de effecten van de vier adviesvariabelen en de
beide prestatiescores additief zijn. Over de additiviteit van de effecten van sexe en milieu
op de andere variabelen bestaat minder duidelijkheid, maar vooralsnog veronderstellen we
ook hier additiviteit. In paragraaf 7 zullen we hier nog op terugkomen.
Tenslotte leek het redelijk om aan te nemen dat alle invloedrijke variabelen in het model
opgenomen zijn. Van alle andere, niet in het model opgenomen variabelen verwachten wij
kleine, onafhankelijke effecten die elkaar opheffen. Als gevolg daarvan nemen wij aan dat
de residuen ongecorreleerd zijn.

De data hebben betrekking op leerlingen die in 1978 het lager onderwijs verlieten. In dat
jaar waren 28 februari, 1 maart en 7 maart de dagen waarop de CITO-toets afgenomen
werd. De toetsresultaten werden in de week na 10 april aan de scholen bekend gemaakt.
Uit het bestand van ± 3.060 scholen die in 1978 de CITO-toets gebruikten, trokken wij
een steekproef van 103 lagere scholen in een verhouding van 1 op 30 met random
startgetal. Op 17 maart werd aan deze lagere scholen schriftelijk een verzoek gericht tot
deelname aan het onderzoek. De taak van de aangezochte respondenten was het invullen
van enkele leerlinggegevens op antwoordformulieren. Om de invullers niet te zwaar te
belasten kon één groep volstaan met gegevens van leerlingen wier achternaam begon met
een van de letters A t/m K, de andere groep diende gegevens te verschaffen over de L t/m
Z leerlingengroep. De betrokken gegevens waren het geslacht van de leerling, beroep van
de vader, het eerste onderwijzersadvies en de voorspelde score op de toets. Wat dit laatste
betreft luidde de instructie als volgt: 'Het bijzondere van dit onderzoek is dat wij u vragen
voor deze leerlingen te voorspellen welke score zij gehaald hebben op de toets. De vraag is
minder moeilijk dan hij lijke. Precies voorspellen is onmogelijk. Dat vragen wij u dan ook
niet. Waar het ons om te doen is, is dat u een globale voorspelling geeft. U kunt hierbij
iedere score tussen 1 en 100 gebruiken, maar misschien verdient het aanbeveling om
alleen de vijftallen te gebruiken. Het voorspellen wordt hierdoor gemakkelijker.' In een
tweede ronde werd aan de scholen die voor 10 april het eerste antwoordformulier gere-
tourneerd hadden, een tweede formulier gezonden waarop ingevuld diende te worden de
behaalde score, het tweede advies, het schooltype van aarunelding en van plaatsing. Alle
voor het onderzoek benodigde gegevens werden verstrekt door schoolhoofden of zesde
klasleerkrachten. Het gaat om de volgende variabelen:

b. het beroepsniveau van de vader, ingedeeld in zeï beroepsniveaus volgens de indeling

van Westerlaak e.a. (1975) als indicatie voor het sociaal milieu. De schaal kent de

c- het eerste onderwijzersadvies, gemeten op een ordinale schaal met zeven categorieën:

de plaatsing, gemeten op dezelfde schaal als het eerste advies
g- de door de leerkracht voorspelde score op de CITO-toets, percentielscores
h- de behaalde score op de CITO-toets, totaalscore voor de taal- en rekenonderdelen

^an de 103 benaderde schoolhoofden namen er 49 deel aan de eerste ronde. Van deze
poep namen er 45 ook deel aan de tweede ronde. Zij leverden de gegevens van 591
leerlingen. Van 514 leerlingen beschikten wij over alle gegevens. Hun gegevens vormen de
hasis van onze analyse. De non-respons in onze steekproef is groot geweest. Omdat wij
niet over populatiegegevens beschikken, kunnen wij de representativiteit van de respons-
groep niet nagaan. Wel is vergelijking mogelijk met de populatie leerlingen die in 1977 het
Voortgezet onderwijs binnentraden, waarvan het CBS gegevens verzamelde ten behoeve
Van het onderzoek 'Schoolloopbaan en herkomst van leerlingen bij het voortgezet onder-
lijs.' Hoewel dit strikt genomen een andere populatie betreft (1977 in plaats van 1978 en
'^en landelijke groep in plaats van de groep door het CITO getoetste leerlingen), kan de
vergelijking wel laten zien inhoeverre onze responsgroep grote afwijkingen vertoont van
de landelijke situatie. Wij konden een vergelijking maken wat betreft sexe, tweede advies
cn plaatsing. Bij alle drie de vergelijkingen constateerden wij statistisch significante afwij-
'^ingen. Onze responsgroep bevat iets meer jongens (x^ = 5.63, df = l,p< .05); wat betreft
het tweede advies is in onze groep het LBO oververtegenwoordigd ten koste van het
Mavo (x^ = 11.36, df = 2, p < .Ol); wat betreft de plaatsing is in onze groep niet alleen
het LBO, maar ook het VWO en havo enigszins oververtegenwoordigd ten koste van het
Mavo (x^ = 22.21, df = 2, p < .001). Omdat de verschillen niet erg groot zijn, hebben
dij de indruk dat onze responsgroep geen ernstige afwijkingen vertoont van de landelijke
leerlingengroep.

Gezien de probleemstelling van dit onderzoek, namelijk het bepalen van de grootte van de
effecten van de verschillende variabelen op elkaar en de specificatie van het model in
lineaire strukturele vergelijkingen lijkt de keuze van de LISREL-procedure voor de hand
te liggen (Jöreskog & Sörbom, 1978). Een probleem is echter dat de variabelen hoogstens
°P ordinaal niveau gemeten zijn. Men zou daarom kunnen overwegen om gebruik te
niaken van programma's voor het analyseren van nominale of ordinale data (Goodman,
1972; Bishop e.a., 1975; Nelder & Wedderburn, 1972). Dit is echter niet mogelijk zonder
een groot verlies aan informatie, omdat het aantal cellen in de tabel te groot zou worden
Om analyseerbaar te blijven. Als gevolg daarvan zou men categorieën samen moeten

voegen. De kans is groot dat men categorieën samenvoegt die niet samengevoegd mogen
worden. Het is de vraag of deze fout opweegt tegen de fout die we maken wanneer we van
interval-statistiek gebruik maken, ooic al zijn de variabelen in wezen ordinaal (Blalock,
1964; Reynolds, 1977).

Een andere mogelijklieid die men zou kunnen overwegen, is om deze data te analyseren
met behulp van discriminant analyse zoals gedaan is door Groeneboom e.a. (1978). Hoe-
wel deze keuze op basis van het datamateriaal terecht zou zijn, valt echter toch in verband
met de interpretatie-mogelijkheden het gebruik van LISREL te overwegen. We moeten
dan echter enig inzicht hebben in de fouten die we daardoor kunnen maken.
Voordat we hierop ingaan, moeten wij allereerst vermelden dat in de twee-dimensionale
analyse bleek dat de relaties tussen alle variabelen monotoon stijgend zijn overeenkomstig
onze verwachting, behalve bij de variabele milieu waarvoor de categorie 4 (kleine zelfstan-
digen) gemiddeld lager scoorde op de andere variabelen dan categorie 3 (lagere em-
ployees). Aangezien daarmee de reden vervalt om categorie 4 hoger te achten dan catego-
rie 3, hebben we in alle volgende analyses deze twee ranggetallen omgewisseld. Als gevolg
daarvan heeft onze variabele milieu misschien meer de betekenis van opleidingsniveau van
de ouders dan de oorspronkelijke schaal.

Nu we mogen aannemen dat we voor alle variabelen tenminste de juiste ranggetallen
hebben blijft nog het probleem dat de afstanden tussen de verschillende categorieën niet
noodzakelijk gelijk hoeven te zijn, zoals het geval is wanneer we de ranggetallen als
waarden op een intervalschaal opvatten. Gegeven het ordinale niveau van de variabelen is
elke monotone transformatie mogelijk zonder dat dit tot verandering in de ordening van
de klassen leidt. Wat echter wel verandert onder dergelijke transformaties is de relatie
tussen de variabelen. Omdat we echter veronderstellen dat alle relaties lineair zijn, zou het
feit dat foute getallen zijn toegekend aan de verschillende categorieën kunnen betekenen
dat de relaties dan niet meer lineair zijn. Als dus de eta-coëffïciënt voor de verschillende
paren van variabelen veel hoger is dan de correlatiecoëfficiënt, dan zou dit kunnen bete-

kenen dat foute getallen zijn toegekend aan de verschillende categorieën. Is dit niet het
geval dan zouden deze getallen bij benadering juist kunnen zijn. In tabel 1 hebben we
voor alle paren van variabelen de p jn.-correlatie-coëfficiënt vermeld en de eta-coëfficiënt.
Uit deze tabel blijkt dat de eta-coëfficiënten slechts minimaal groter zijn dan de correla-
tiecoëfficiënten. Voor de onderlinge relaties tussen de variabelen advies 1, advies 2, aan-
melding en plaatsing is dit niet verwonderlijk, omdat ze zijn gemeten met dezelfde schaal.
Elke verandering in de ene schaal zal dus ook de andere schalen veranderen en de relaties
zullen nauwelijks veranderen, temeer daar de correlaties erg hoog zijn. Voor deze variabe-
len geeft de tabel ons alleen een indicatie dat de veronderstelling van lineariteit voor deze
variabelen niet onjuist was. Hetzelfde geldt voor de onderlinge relatie tussen de variabelen
predictie en Cito-toets. Ook deze relatie blijkt lineair te zijn. De relaties tussen de vier
adviesvariabelen en de twee prestatie-variabelen vertonen nauwelijks grotere afwijkingen
dan de relaties binnen deze twee groepen. Hetzelfde geldt voor de relaties tussen al deze
variabelen en de variabele beroep. Voor de variabele sexe mogen we geen verschalen
Venvachten aangezien deze variabele dichotoom is. Deze resultaten suggereren dat de
getallen, die aan de verschillende klassen zijn toegekend, niet dermate fout zijn dat ze de
relaties tussen de variabelen sterk vertekend hebben, aannemend dat onze veronderstelling
Van lineariteit juist is.

Om na te gaan hoe robuust de correlatiecoëfficiënt is bij plausibele niet-lineaire, mono-
tone transformaties hebben we de relatie tussen de variabelen advies 1 en predictie wat
nader bestudeerd. Omdat de afstanden tussen de categorieën van de adviesschaal niet
gelijk hoeven te zijn aan beide uiteinden van de schaal hebben we deze schaal getransfor-
nieerd via een machtsfunctie y = (advies 1)'' waarbij aan b verschillende waarden zijn
gegeven. Voor de variabele predictie lijkt het meer plausibel dat de schaal te zeer is
uitgerekt in het midden, aannemende dat schoolprestaties een normaal verdeelde variabele
is. Daarom hebben we voor elke percentielscore de bijbehorende z-score ingevuld. In tabel
2 is te zien hoe de correlatiecoëfficiënt verandert door deze transformaties. Het is duide-
lijk dat de effecten van de transformaties slechts zeer gering zijn. De meest extreme
verschillen bedragen minder dan 5% ten opzichte van de correlatiecoëfficiënt. Toch zijn
de veranderingen in de schaalwaarden voor de klassen aanzienlijk. Aangezien het niet
plausibel leek dat de afwijkingen van de schaalwaarden groter zouden zijn dan de afwij-

I's correlatiecoëfficiënt voor de relatie tussen de variabelen advies 1 en predictie onder vetschUlende
transformaties

kingen van de ranggetallen die we hier hebben gepostuleerd, hebben we geconcludeerd dat
de fout bij het analyseren van deze data uitgaande van de hierboven vermelde correlatie-
matrix slechts tot zeer geringe fouten aanleiding zal geven. Wij zijn van mening dat het
gebruik van statistische technieken gebaseerd op interval meetniveau in dit geval zonder
veel problemen kan geschieden.

Gegeven dit uitgangspunt hebben we de LISREL procedure verkozen boven schatting van
de effecten m.b.v. de kleinste kwadraten methode en wel om de volgende redenen:

1. De resultaten zullen voor ons model nauwelijks verschillen voor de twee methoden;

2. De LISREL-procedure levert automatisch inzicht in de mate waarin het model bij de
data past, terwijl men deze informatie zelf moet uitwerken in het andere geval;

3. De LISREL-procedure geeft ook inzicht in de totaal effecten van de verschillende
variabelen. Ook deze effecten zouden apart berekend moeten worden in het andere
geval;

4. De LISREL-benadering maakt het mogelijk om latente variabelen te introduceren in
het model, hetgeen niet mogelijk is in het andere geval.

In de LISREL-procedure wordt de waargenomen correlatiematrix gebruikt als data-basis
en aangeduid met S. De correlatiematrix van de populatie wordt aangeduid met 2. Aange-
geven kan worden dat deze matrix een functie is van de parameters van het model. We
zullen deze parameters aanduiden met de vector Deze vector kan vrije parameters
bevatten, parameters die a priori een vaste waarde hebben gekregen en parameters die
gelijk moeten zijn aan andere parameters. Om een schatting te krijgen van de parameters
wordt functie f (tt) geminimaliseerd (zie Saris, 1978). Indien de variabelen multivariaat
normaal verdeeld zijn levert de schattingsprocedure de meest aannemelijke schatters op
van de parameters in £. Deze aanname kan hier echter niet worden gemaakt. Dat wil
echter nog niet zeggen dat deze procedure daarom niet geschikt zou zijn. Het is namelijk
bewijsbaar dat deze procedure ook bij afwijkingen van de multivariate normaalverdeling
consistente schatters oplevert (Dijkhuizen, 1978). Echter, vanwege de afwijkende verde-
ling moet wel de extra informatie die het programma LISREL levert zoals standaard-
fouten voor de schatters en de 'goodness of fit' test met voorzichtigheid worden gehan-
teerd. We zullen daarom bij de bestudering van de passing van het model voornamelijk
afgaan op de residuen die overblijven wanneer de geobserveerde correlaties worden afge-
trokken van de gereproduceerde correlaties die zijn berekend op basis van de geschatte
waarden van de parameters. De grootte van deze residuen is een indicatie voor het feit of
het model bij de data past.

Wij eindigden paragraaf 2 met de formulering van model A. In figuur 2 werd een diagram
van model A opgenomen met de gespecificeerde vergelijkingen. Op basis van de data in
tabel 1 en de procedure, die hiervoor beschreven is, zijn de parameters geschat. Vervol-
gens zijn ook de residuen berekend om na te gaan of het model past bij de data. Uit de
residu-matrix blijkt het model niet volledig te voldoen gezien de grote residuen voor de
relaties van de Cito-score met andere variabelen (nl. -.102, -.183, -.135 en -.174 met
resp. advies 1, aanmelding, advies 2 en plaatsing). De overige residuen zijn wel aanvaard-
baar en bedragen absoluut gezien maximaal .064. Ook de 'goodness-of fit' test berekend
door het programma laat zien dat dit model niet goed past bij de data (x^ = 122.4521, df

= 7). Dit kan er op wijzen dat de relaties tussen de Cito-score en de endogene variabelen
niet correct gespecificeerd zijn. Aangezien echter vastligt dat de toetsscore pas na het
eerste advies en de aanmelding maar voor het tweede advies en de plaatsing een rol kan
spelen, kunnen er geen andere relaties tussen deze variabelen zijn dan in model A aange-
geven is. De slechte verklaring van de relaties tussen de Cito-score en de adviesvariabelen
Zou echter ook kunnen optreden als gevolg van een variabele, die niet in het model
opgenomen is, maar wel invloed uitoefent op de Cito-score en op de adviesvariabelen. De
Variabele predictie kan deze rol niet vervullen, omdat deze variabele een kenmerk van de
leerkracht is en onbekend bij de andere beslissers. De meest voor de hand liggende
Variabele die invloed kan uitoefenen op zowel de adviesvariabelen als op de toetsscore
Wordt gevormd door de schoolprestaties van de leerling. De verandering die we daarom in
model A zouden kunnen aanbrengen is het opnemen van een ongemeten oorzakelijke
variabele, die wij voorlopig Schoolprestaties (SP) noemen. Van het nieuwe model, model
wordt de modelspecificatie hieronder weergegeven:

I^e verandering is dat wij een ongemeten endogene variabele Schoolprestaties postuleren
die een direct effect heeft op de Cito-score, de predictie, het eerste advies en de aanmel-
ding. Cito-score en predictie worden hierdoor nu als afhankelijke variabelen behandeld.
Over de plaats van de variabele Schoolprestaties hebben wij de volgende verwachtingen:
de invloed van SP op Cito-score moet hoog zijn, omdat de Cito-toets taal- en reken-
prestaties meet;

de invloed van SP op Predictie zal wat lager zijn door schattingsfouten van de leer-
kracht;

de invloed van SP op Advies 1 zal matig hoog zijn, omdat de onderwijzer in zijn advies
ook rekening houdt met andere aspecten (motivatie, ijver, doorzettingsvermogen, etc.);
de invloed van SP op Aanmelding zal nog lager zijn, omdat de ouders wellicht minder
goed dan de onderwijzer de schoolprestaties van hun kind kunnen beoordelen en
daarnaast bij hun aanmelding nog met andere aspecten rekening houden (bijzonder
karakter V.O.-school, afstand naar de school, bekendheid met de school, etc.). Boven-
dien verlaten zij zich voor een deel ook op het eerste advies.
I^e verwachtingen over de vier effecten kunnen ook als volgt weergegeven worden: Psi >
^ 1^31 > 041 • Een directe invloed van SP op het tweede advies verwachten wij niet,
slechts indirect via advies 1. Omdat toelatingscommissies niet beschikken over de school-
prestaties van de leerlingen, veronderstelden wij ook geen directe relatie tussen SP en

plaatsing. Het effect van sexe op SP moet ongeveer nul zijn, het effect van milieu op SP
nioet laag tot matig zijn en positief.

Oni identificatie van het rnodel mogelijk te maken, werd op 1 gefixeerd. Daardoor
zijn alle effecten in model B weer uniek te bepalen met de LISREL-procedure. Alle
elementen van de residu-matrix van model B blijken nu tot bijna nul gereduceerd te zijn.
De grootste absolute afwijking is 0.024, een acceptabel verschil. De gemiddelde absolute
afwijking is .003. De verandering in het model blijkt de grote residuen voor de Cito-score
tot kleine afwijkingen te hebben gereduceerd. Dit resultaat impliceert dat wij er in zijn
geslaagd een model op te stellen dat de relaties tussen de variabelen bevredigend verklaart,
pat model B een verbetering is in vergelijking met model A blijkt ook uit de test van de
'goodness of fit' (x^ = 6.1570, df = 6). In model B kunnen we nog wel enige vereenvoudi-
gingen aanbrengen door de relatief kleine effecten weg te laten. In model C zijn daarom
alle effecten die kleiner zijn in absolute waarde dan tweemaal de door LISREL geschatte
standaardfout op nul gesteld. Dit betreft het effect van sexe en milieu op aanmelding en
op plaatsing en het effect van advies 1 op plaatsing. Deze veranderingen hebben geen
nadelige gevolgen voor de passing van het model. Het absoluut grootste element van de
residu-matrix is .031 en de gemiddelde absolute afwijking bedraagt .006. Ook de 'good-
ness of fit' teft van model C is acceptabel (x^ = 12.2448, df = 11). In figuur 3 worden de
schattingen voor de gestandaardiseerde parameters gegeven. Aangaande de effecten van de
latente variabele, die wij voorlopig Schoolprestaties noemden, valt het volgende te consta-
teren. SP heeft een groot direct effect op de Cito-score en verklaart 88% van de variantie
daarvan. Omdat de Cito-score een maat voor reken- en taaiprestaties is, vermoeden wij dat
de latente variabele veel overeenkomst vertoont met schoolprestaties op de kernvlakken
rekenen en taal, al achten wij het mogelijk dat ook schoolprestaties op de andere vakken
onze latente variabele mede bepalen.

De door de onderwijzer voorspelde toetsscore blijkt ook grotendeels te berusten op
Schoolprestaties. De directe invloed van Schoolprestaties op het eerste advies en op de
^nmelding is minder groot maar nog in ruime mate aanwezig.

De variabele Schoolprestaties ondervindt een zeer zwak effect van sexe. Het effect van
milieu op Schoolprestaties is zwak en positief. Uit dit overzicht blijkt de variabele School-
prestaties precies die plaats in het model in te nemen die we verwachtten,
gezien dit resultaat en de kleine residuen en het feit dat ook andere parameterwaarden
Zinvol blijken te zijn, zoals we hierna zullen laten zien, concluderen we dat het niet nodig
te trachten het model verder te verbeteren. We beschouwen daarom model C als het
Uiteindelijke model en zullen in de volgende paragraaf het gevonden resultaat proberen te
«iterpreteren.

Circa 99% van de variantie van de plaatsing wordt verklaard door de variabelen die in ons
rnodel opgenomen zijn. Directe beïnvloeding vindt voor het grootste deel plaats door de
aanmelding. Inspectie van de betreffende kruistabel leert ons dat slechts 2% van de 514
leerlingen op een andere school geplaatst zijn dan waar zij werden aangemeld. De aanmel-
ding zou dus zo goed als doorslaggevend voor de plaatsing beschouwd kunnen worden.
Dit resultaat mag echter niet al te veel gewicht gegeven worden want ook voor de va-
riabele advies 2 blijkt dat het percentage leerlingen dat anders geplaatst werd dan geadvi-

seerd was, gering te zijn, nl. 14%. Het punt is dat de aanmelding en het tweede advies een
correlatie van .944 met elkaar vertonen. Bij een dergelijke hoge correlatie tussen de
verklarende variabelen is de interpretatie van de grootte van de regressie-coëfficiënten
altijd gevaarlijk (Gordon, 1968; Schmidt & Muller, 1978). In dergelijke gevallen kunnen
kleine verschillen tussen steekproeven aanleiding geven tot grote veranderingen in de
regressie-coëfficiënten, als gevolg waarvan deze laatste weinig stabiel zijn. In iets mindere
mate geldt hetzelfde voor de Cito-score. Ook deze heeft een hoge correlatie met de andere
twee variabelen (.785 met aanmelding, .818 met advies 2). Dit betekent dat deze drie
variabelen blijkbaar zoveel gemeenschappelijk hebben, dat in ieder geval de Cito-score
nauwelijks meer een eigen bijdrage levert tot de verklaarde variantie en het tweede advies
ook slechts weinig. Vooral door hun gemeenschappelijke componenten verklaren deze
variabelen bijna alle variantie die in de variabele plaatsing aanwezig is.
Interessant is dan vervolgens de vraag waar deze gemeenschappelijke variantie vandaan
komt. De gemeenschappelijke variantie van aanmelding en Cito-score wordt blijkens fi-
guur 3 volledig veroorzaakt door de variabele Schoolprestaties. Ook de gemeenschappe-
lijke variantie van advies 2 en Cito-score is afkomstig van de variabele Schoolprestaties,
afgezien dan van een klein direct effect van de Cito-score op het tweede advies. De
variabelen aanmelding en advies 2 hebben als gemeenschappelijke verklaring niet alleen de
variabele schoolprestaties, maar ook nog het eerste advies. En ook het eerste advies wordt
voor een belangrijk deel weer beïnvloed door schoolprestaties en verder door sexe, milieu
en predictie. Om de interpretatie kort te sluiten en een beter inzicht te krijgen in de
effecten van Schoolprestaties, sexe en milieu, hebben wij het totaaleffect van deze variabe-
len op de andere variabelen vermeld in tabel 3. Het totaaleffect is de som van het directe
en het indirecte effect, waarbij de indirecte effecten berekend kunnen worden door
vermenigvuldiging van de padcoëfficiënten en sommering van de verkregen produkten. Zo
wordt het indirecte effect van predictie op advies 2 als volgt berekend (zie figuur 3):
(.377 X .312) + (.377 x .609 x .563) = .247.

Uit de tabel blijkt duidelijk de centrale positie die Schoolprestaties in het hele proces
innemen. Vergeleken bij de effecten van deze variabele vallen de effecten van sexe en
milieu in het niet. Hieruit volgt dat de gemeenschappelijke component Schoolprestaties in
de drie variabelen aanmelding, Cito-score en advies 2 zeer groot is. De variabele aanmel-
ding en advies 2 hebben daarnaast nog als gemeenschappelijke componenten de variabelen

geslacht, milieu en predictie, die via de variabele advies 1 van invloed zijn. Hun effecten
zijn relatief echter veel kleiner, al valt het indirecte effect van predictie op het tweede
advies (.247) en op aanmelding 0230) niet te verwaarlozen. Eigenlijk is het verbazingwek-
l^end dat het eerste advies niet alleen gebaseerd wordt op de schoolprestaties, maar ook
op de voorspelde toetsscore. Dit betekent dat de variabele predictie waarschijnlijk iets
anders indiceert dan alleen maar schoolprestaties. Bovendien blijkt de invloed van de
Voorspelde toetsscore op het eerste advies zelfs groter te zijn dan de invloed van de
behaalde score op het tweede advies. De redenen hiervoor kunnen velerlei zijn, maar een
"logelijke interpretatie luidt dat de status van de Cito-toets zo groot is, dat er enige
anticiperende invloed van uitgaat, waardoor correctie in het tweede advies minder nodig
is.

herder kan nog worden opgemerkt dat in ons model niet alle relevante variabelen opgeno-
"len zijn. Het eerste advies en in mindere mate de aanmelding blijken niet volledig
verklaard te worden. Advies 1 heeft een onverklaarde variantie van .263, aanmelding van
•181. Er is dus nog enige ruimte over voor andere verklarende variabelen zoals bijvoor-
beeld motivatie, ijver en doorzettingsvermogen, waar de leerkracht wellicht rekening mee
houdt. Via het eerste advies en de aanmelding kunnen dergelijke variabelen indirect nog
enige rol spelen bij de uiteindelijke plaatsing.

de conclusies knopen wij allereerst aan bij de in de inleiding gestelde vragen. Omdat het
effect van sexe op Schoolprestaties uiterst laag is, concluderen wij dat jongens en meisjes
rüet verschillen in schoolprestaties. Onafhankelijk van schoolprestaties oefent sexe een
kleine directe invloed uit op het eerste onderwijzersadvies (zie tabel 3). Dit effect is
Zodanig dat meisjes iets vaker hogere adviezen krijgen dan jongens. Hoewel een dergelijk
direct effect van sexe niet aanwezig is op de aanmelding of de plaatsing, behouden meisjes
hun voordeel wel tot en met de plaatsing vanwege indirecte effecten via advies 1. Er is dus
geen sprake van dat meisjes bij de LO-VO overgang een achterstand oplopen. Hun school-
prestaties verschillen niet met die van jongens en via het eerste advies van de onderwijzer
Valt de uiteindelijke plaatsing voor hen iets kansrijker uit.

Methodische overwegingen dwongen ons de schaal van de variabele milieu aan te passen,
^s gevolg daarvan hebben wij het milieu van lagere employees een hogere waardering
toegekend dan het milieu van kleine zelfstandigen. Het na deze aanpassing geschatte
effect van .310 van milieu op Schoolprestaties laat zien dat leerlingen uit lagere milieus
lagere Schoolprestaties geleverd hebben. Onafhankelijk van Schoolprestaties blijkt er een
klein effect van milieu op advies 1 te bestaan. Een direct effect van milieu op de aarunel-
^'ng of de plaatsing hebben wij niet gevonden. Maar via het eerste advies blijft er wel tot
en met de plaatsing een indirect effect van mUieu bestaan (zie tabel 3). Leerlingen uit
'agere milieus hebben dus op 12 a 13-jarige leeftijd een achterstand in schoolprestaties.
Onafhankelijk van deze achterstand lopen deze leerlingen via een direct effect van milieu
op advies 1 een kleine extra achterstand op tijdens de LO-VO overgang.
^ ons compensatiemodel blijken de variabelen geslacht en milieu slechts geringe effecten
te hebben. Het zou echter ook kunnen zijn dat deze beide variabelen een interactie-effect
bebben met de andere variabelen. Teneinde dit na te gaan verdeelden we onze respons-
groep in vier subgroepen: meisjes hoog milieu, meisjes laag milieu, jongens hoog milieu en
jongens laag milieu. Uit een simultane analyse bleek voor deze vier groepen hetzelfde

model te kunnen gelden als voor de totale groep. Wel bleken sommige padcoëfficiënten
niet in alle groepen precies gelijk te kunnen zijn. Omdat de gevonden verschillen echter
klein zijn, was er voor ons geen aanleiding de conclusies te differentiëren voor de vier
subgroepen.

Uit het feit dat de score op de Cito-toets een uiterst klein direct effect heeft op de
plaatsing, menen wij te kunnen afleiden dat plaatsingscommissies geen beslissingen base-
ren op de toetsscore alleen. Via het tweede advies oefent de Cito-score nog enige indirecte
invloed uit op de plaatsing, maar ook dit effect (.016) is zeer gering. Blijkbaar voegt de
toetsscore nauwelijks nog iets toe aan de informatie over schoolprestaties en voorspelde
toetsscore die reeds in de adviezen en de aanmelding verwerkt zijn. Als gevolg daarvan
concluderen wij dat de invloed van de score op de toets tijdens de LO-VO overgang
verwaarloosbaar klein is. Dit betekent niet dat de toets zelf geen invloed heeft op de
LO-VO overgang. Want van de door de leerkracht verwachte score op de toets blijkt een
grotere invloed uit te gaan. Via dit direct effect van predictie op advies 1 heeft de
Cito-toets een invloed op de uiteindelijke plaatsing die niet verwaarloosd kan worden
(.228). Het merkwaardige feit doet zich dus voor dat de toets wel enige invloed heeft op
de overgang, niet via de behaalde maar via de verwachte score. Wanneer men dit geen
wenselijke situatie zou vinden, rijst de vraag hoe daarin verandering is aan te brengen.
Overwogen zou kunnen worden de toets eerder af te nemen, zodat de toetsscore ter
beschikking komt voordat het eerste advies gegeven wordt. Voordeel hiervan is in ieder
geval dat de ouders bij de aanmelding beschikken over de toetsscore. Zij zijn dan niet
alleen meer afhankelijk van het onderwijzersadvies. De effecten van een vervroegde toets-
afname op het onderwijzersadvies zijn niet helemaal zeker. Grote veranderingen zijn
echter niet te verwachten, omdat de toets de plaats van de variabele predictie zal gaan
innemen in het model. Als gevolg daarvan zal het effect van de voorspelde score op advies
1 waarschijnlijk plaats maken voor het effect van de behaalde score.
Tot slot merken wij op dat de invloed van schoolprestaties gedurende de gehele overgang
erg groot is. Zowel de beslissingen van onderwijzers als van ouders als van toelatingscom-
missies blijken voor het grootste deel direct dan wel indirect gebaseerd te zijn op de
schoolprestaties van leerlingen. Alleen in het eerste advies en de aanmelding is nog ruimte
aanwezig voor directe effecten van andere variabelen. Over de identiteit van deze variabe-
len levert ons onderzoek geen aanwijzing op. Het lijkt echter niet onwaarschijnlijk dat het
gaat om kwaliteiten als ijver, motivatie, doorzettingsvermogen en de eigen wens van de
leerling.

Bishop, Y.M.M., S.E. Fienberg en P.W. Holland. Discrete multivariate analysis: Theory and Practice.
Cambridge, Mass.; The MIT press, 1975.

Blalock, H.M. Causal inferences in non experimental research. Chapel Hill: University of North Caro-
lina press, 1964.

Blok, H. De Schooltoets en gelijke kansen. Psychologisch Laboratorium aan de Universiteit van Am-
sterdam, 1978 (doctoraal werkstuk).

Blok, H. en H. Wesdorp. De schooltoets na twaalf jaar. Deel 1. Een evaluatie van de op de leerling ge-
richte functies: selectie voor het v.o., advisering aan de ouders en opsporing van reserve aan intel-
lect. Deel II: Een evaluatie van de op het onderwijs gerichte functies: analy^je van de stand van het
onderwijs, concretisering van doelstellingen en beïnvloeding van het lager onderwijs. Pedagogische
Studiën. 1979,56, 335-347, 388-396.

Boon van Ostade, A.H.. Het milieu en de overgang van het basis- naar het voortgezet onderwijs in

Nederland. Soc/o/o^/sc/je Gids. 1972, iP, 211-219.
"OS, J. en E. Warries. De functie van een toetsprogramma: de Amsterdamse Schooltoetsen in 1969 en

1970. Amsterdam; RITP, 1971.
C-I.T.0. Meningen over de eindtoets en plannen voor de toekomst. Arnhem; CITO, 1978.
"een, H.Een halve eeuw onderwijsresearch in Nederland. Het Nutsseminarium voor Pedagogiek aan de

Universiteit van Amsterdam 1919-1969. Groningen; Wolters, 1969 (proefschrift).
Dijkhuizen, A.A. LISREL-procedure: Mathematisch-statistische analyse van lineair structurele vergelij-
kingsmodellen met latente variabelen. Uitgave van het project onderwijs en sociaal milieu, Rotter-
dam, 1978.

"ronkers, J. Manipuleerbare variabelen in de schoolloopbaan. Boeknummer van Mens en Maatschappij
(1978) over stratificatie.

Goodman, L.A. A general model for the analysis of surveys. American Journal of Sociology, 1972, 77
1035-1086.

Gordon, R.A. Issues in multiple regression, ^menca« youma/o/Socio/ogy, 1968, 73,592-616.
Groeneboom, P., J. Hoogstraten, G.J. Mellenbergh en J.P.H. van Santen. Relevante variabelen bij het
doorverwijzen na de lagere school; een correlationele analyse. Tijdschrift voor Onderwijsresearch
1978,5,262-280.

Gioot, A.D. de. Het nut van een schooltoets in de zesde klas L.0. Het Schoolblad, 1966,1, 288-292.
Heek, F. van, e.a. Het verborgen talent. Meppel: Boom, 1968.

Hoogstraten, J. en G.J. Mellenbergh. Relevante variabelen bij het doorverwijzen na de lagere school:

een experiment. Tijdschrift voor Onderwijsresearch, 1978,5, 161-172.
Jóreskog, K.G. en D. Sörbom. LISREL IV: analysis of lineair structural relationships by the method of

maximum likelihood. Chicago; International Educational Services, 1978.
Kemenade, J.A. van en J.A. Kropman. Verborgen talenten? Kritische kanttekeningen bij een onjuiste

interpretatie. De Sociologische Gids, 1972,19, 219-229.
•kohnstamm, G.A., Geslachtsverschillen in prestaties op schoolvorderingentoetsen en enkele tests aan

het einde van de basisschool. Nederlands Tijdschrift voor de Psychologie, 1973,28, 351-367.
^opman, J.A. en J.W.M. Collaris. Van jaar tot jaar. Nijmegen; ITS, 1974.

t-utje Spelberg, H.C. en H.J. Rotteveel. De voorspellende waarde van de Groninger Schoolvorderingen-

toets. Tijdschrift voor Onderwijsresearch, 1978,3, 3-9.
^®'jer, J.L. Sociale atlas van de vrouw. Sociaal en Cultureel Planbureau, Den Haag: Staatsuitgeverii,
1977.

Nelder, J.A. en R.W.M. Wedderburn. Generalized linear models. Journal of the Royal Statistical

Society, Ser. A, 1972,135, 370-384.
■Josterbaan, J.W. De Amsterdamse schooltoets in 1969 in relatie tot enige conclusies van 'Het verbor-

gen talent' Sociologische Gids, 1973, 20, 88-97.
eschar, J.L. Milieu school beroep; een achteraf-experiment over de periode 1958-1973 naar de in-
vloed van het sociaal milieu op school- en beroepsloopbaan. Groningen; Tjeenk Willink, 1975.
Reynolds, H.T. The analysis of cross-classifications. London: Free Press, 1977.
Zandbergen, S., J.J. Elshout, T. Akkerman en A. van Peet. Enkele relaties tussen een intelligentietest

en een studietoets. Nederlands Tijdschrift voor de Psychologie, 1972,27, 509-529.
'^aris, W.E. Introduction to the use of linear structural equation models in non-experimental research.

Vrije Universiteit, Amsterdam, 1978.
5>chmidt, P. en E.N. Muller. The problem of multicoUinearity in a multistage causal alienation model: a
comparison of ordinary least squares, maximum likelihood and ridge estimators. Quality and
Quantity, 1978,12, 267-297.
Westerlaak, J.M. van, J.A. Kropman en J.W.M. CoUaris. Beroepenklapper. Nijmegen; ITS, 1975.

Subfaculteit der Pedagogische en Andragogische Wetenschappen, Katholieke Universiteit Nijmegen

In connection with the determination of the predictive validity of the I.S.I.-interest-test it was
necessary to have at our disposal an instrument that could be used to measure the school results
of pupils in secondary schools.

There were 41 different school results, to be judged by 40 secondary school teachers, that is 8
teachers for each of the five schools that were involved in the research representing four types
of schools.

In presenting the school results to the judges we made use of a BIBD. The school results were
presented in 82 blocks of 5 schoolresults each. The judges were asked to order those 5 school
results according to the achieved level of education. The Durbintest was used to check consis-
tency.

To construct the scale and calculate the scale values we used Guildord's Composite Standard
Method.

In het kader van een in 1978 verricht onderzoek naar de prediktieve validiteit van de
I.S.I.-interesse-test was het, ter meting van de kriterium-variabele, noodzakelijk over een
schaal voor bereikt niveau van voortgezet onderwijs te kunnen beschikken. In de op dit
onderwerp betrekking hebbende literatuur werden een drietal voorbeelden gevonden van
meetinstrumenten die voor bovenstaand doel gebruikt zouden kunnen worden. Dirkzwa-
ger (1966) hanteerde bij het bepalen van de relatie tussen intelligentie en schoolprestaties,
het schooltype, de afdeÜng en de klas waar de leerling jaar na testdatum het onderwijs
volgde, als kriterium.

Uitgangspunt voor zijn benadering vormden steekproeven uit de populaties van oor-
spronkelijk 6 LO-, 2 ULO-, 4 ULO-, 2 MO- en 4 MO-leerlingen. Elke steekproef werd in
eerste instantie op grond van bovenstaand kriterium in een aantal subgroepen verdeeld. In
het totaal ontstonden er op deze wijze 41 kriteriumgroepen. De verdeling in subgroepen
reflekteert daarbij een hierarchie van tweeweg besUssingen, waarvan elke beslissing uitslui-
tend relevant is voor de desbetreffende subgroep. Zo splitst bijvoorbeeld bij de oor-
spronkelijke 6e klas lager onderwijs leerlingen (6L0-leerlingen) de hoofdstroom zich eerst
in leerlingen die ULO of MO volgen en in leerlingen die LTS, HHS (Huishoudschool) of
geen onderwijs (NMOS) volgen.

Vervolgens splitst de eerstgenoemde groep zich in ULO- en MO-leerlingen en de tweede
groep in LTS (HHS)-leerlingen en schoolverlaters (NMOS). Tenslotte kan men binnen elke
Van deze laatstgenoemde groeperingen t.w. de MO-, ULO- en LTS-leerhngen, een onder-
scheid maken tussen vlotte en trage leerlingen dus tussen leerhngen die binnen 2 jaar na
fcstdatum ook inderdaad in dc tweede klas zitten en leerlingen waarbij dat niet het geval
Op een zelfde wijze als in het hier boven beschreven geval vindt de opsplitsing in
subgroepen van de overige steekproeven plaats.

Van Weeren (1968) werkte met een rangordening naar zwaarte, van een groot aantal
carrières in het voortgezet onderwijs, waarbij het oordeel van een 100-tal leraren in een
schaal, lopende van 0: geen vervolg onderwijs tot bijvoorbeeld 80: in 7 jaar Gymnasium
resulteerde. Beide meetinstrumenten hebben echter betrekking op een onderwijssitua-
tie zoals deze bestond voor dc invoering van de Mammoetwet, en zijn dus om deze reden
Voor bovenvermeld doel niet toepasbaar.

Van Dijk (1977) volgde een procedure die qua aanpak veel gelijkenis vertoont met de
methode zoals ook Dirkzwager die toepaste. In een onderzoek naar de prediktieve validi-
teit van de Galo en de ISI ging hij namelijk bij het bepalen van de relatie tussen intelligen-
tie en schoolsucces, uit van een 7-tal kriteriumgroepen, t.w. MAVO 3-, MAVO 3-i-,
MAVO 4-t-, HAVO HAVO+. VWO -, VWO +.

Een negatief teken (-: zonder diploma) duidt daarbij steeds op een groep niet succesvolle
leerlingen, een positief teken (-h: met diploma) op een groep succesvolle leerlingen. Zo
l^cvat bijvoorbeeld de groep MAVO 3-I-, alle leerlingen die na 3, 4 of 5 jaren het diploma
MAVO (vorm 3 jaar) behaalden en de groep HAVO -i- alle leerlingen die een HAVO
diploma behaalden. Om een tweetal hierna te noemen redenen blijkt ook deze laatste
benadering minder geschikt. Op de eerste plaats vereist bovenvermeld onderzoek, een
aanpak waarbij een meer gedifferentieerd onderscheid dient te worden gemaakt tussen
Verschillende niveau's van voortgezet onderwijs. Op de tweede plaats lijkt het, in dit
leader, bovendien wenselijk enig zicht te krijgen op de relatieve afstanden tussen de
verschillende bereikte niveau's hetgeen een schaal op interval niveau vereist. Om laatstge-
noemde redenen werd dan ook besloten zelf de ontwikkeling en konstruktie van een
intervalschaal voor het meten van bereikt niveau van voortgezet onderwijs (BNVO-schaal)
ter hand te nemen. Als basismateriaal zullen daarbij schoolresultaten worden gebruikt
^oals die werden aangetroffen bij leerlingen die bij het, aan het begin van deze inleiding
vermeldt, onderzoek betrokken waren. Bij de uit 164 leerlingen bestaande onderzoeks-
groep bleken 6 jaar na testdatum (laatste jaar basisonderwijs) in feite, 33 verschillende
schoolresultaten (in het voortgezet onderwijs) voor te komen. De schoolresultaten zullen
leerkrachten, verbonden aan scholen van verschillend niveau van voortgezet onderwijs
ter beoordeling worden aangeboden. Bij de presentatie van deze schoolresultaten zal
gebruik worden gemaakt van een BIBD (Balanced Incomplete Block Design). De beoorde-
laars zullen daarbij worden verzocht de gepresenteerde schoolresuUaten te rangschikken
niet betrekking tot het bereikte niveau van voortgezet onderwijs. De consistentie van de
beoordelingen van elke leerkracht afzonderlijk zal met behulp van de Durbintoets worden

l^ij de konstruktie van de schaal zal gebruik worden gemaakt van Guilford's 'Composite
Standard' methode. Tenslotte zal daarbij ook aandacht besteed worden aan de verschillen
^ beoordeling tussen de leerkrachten verbonden aan scholen van verschillende niveau's
Van Voortgezet onderwijs.

Het basismateriaal bestaat uit 33 schoolresultaten in het voortgezet onderwijs. Tabel 1
geeft een overzicht van deze schoolresultaten. Hierbij betekent bijvoorbeeld schoolresul-
taat 1: na een jaar voortgezet onderwijs, op het LHNO (vorm: 3-jarig) deze opleiding, na
de Ie klas, beöindigd en schoolresultaat 28: na 6 jaar voortgezet onderwijs, op het
ATHENEUM, deze opleiding afgerond, met diploma (zie voor afkortingen de appendix)-
De schaalwaarden van de schoolresultaten op de te ontwikkelen schaal voor het meten
van bereikt niveau van onderwijs zullen dus de relatieve posities van deze schoolresultaten
ten opzichte van elkaar dienen te representeren.

1. Na 1 jaar voortgezet onderwijs, op het LHNO (vorm: 3 jarig) deze opleiding, na de Ie klas,
beëindigd.

2. Na 2 jaar voortgezet onderwijs, op het LHNO (vorm: 3 jarig) deze opleiding, na de 2e klas,
beëindigd.

3. Na 2 jaar voortgezet onderwijs, op het LNO (vorm: 3 jarig) deze opleiding, na de 2e klas,
beëindigd.

4. Na 3 jaar voortgezet onderwijs, op het LNO (vorm: 3 jarig) deze opleiding, na de 3e klas,
beëindigd, zonder diploma.

5. Na 3 jaar voortgezet onderwijs, op het LNO (vorm: 3 jarig) deze opleiding afgerond, me'
diploma.

6. Na 3 jaar voortgezet onderwijs, op het LHNO (vorm: 3 jarig) deze opleiding, na de 3e klas,
beëindigd, zonder diploma.

7. Na 3 jaar voortgezet onderwijs, op het LHNO (vorm: 3 jarig) deze opleiding afgerond, met
diploma.

8. Na 3 jaar voortgezet onderwijs, op de MAVO (vorm: 3 jarig) deze opleiding afgerond, met
diploma.

9. Na 4 jaar voortgezet onderwijs, op het LNO (vorm: 3 jarig) deze opleiding, na de 3e klas,
beëindigd, zonder diploma.

10. Na 4 jaar voortgezet onderwijs, op het LNO (vorm: 3 jarig) deze opleiding afgerond, met
diploma.

11. Na 4 jaar voortgezet onderwijs, op het LNO (vorm: 4 jarig) deze opleiding, na de 4e klas,
beëindigd, zonder diploma.

12. Na 4 jaar voortgezet onderwijs, op het LNO (vorm: 4 jarig) deze opleiding afgerond, met
diploma.

13. Na 4 jaar voortgezet onderwijs, op het LHNO (vorm: 3 jarig) deze opleiding afgerond, met
diploma.

14. Na 4 jaar voortgezet onderwijs, op de LDHS deze opleiding, na de 3e klas, beëindigd.

15. Na 4 jaar voortgezet onderwijs, op het LHNO (vorm: 4 jarig) deze opleiding afgerond, met
diploma.

16. Na 4 jaar voortgezet onderwijs, op het LLTBO (vorm: 4 jarig) deze opleiding afgerond, met
diploma.

17. Na 4 jaar voortgezet onderwijs, op de MAVO (vorm: 3 jarig) deze opleiding afgerond, met
diploma.

18. Na 4 jaar voortgezet onderwijs, op de MAVO (vorm: 4 jarig) deze opleiding, na de 4e klas
beëindigd, zonder diploma.

19. Na 4 jaar voortgezet onderwijs, op de MAVO (vorm: 4 jarig) deze opleiding afgerond, met
diploma.

Voor het presenteren van de schoolresultaten aan de beoordelaars werd gekozen voor een
zogenaamd 'Balanced Incomplete Block Design', in het kort aangeduid als BIBD,D(v,b,
r, k, In de gebruikelijke terminologie is een BIBD een rangschikking van v elementen
hl b blokken van elk k elementen zodanig dat elk element in r blokken en elk paar
elementen in het totaal X keer voorkomt (zie figuur 1). Noodzakelijke kondities voor het
bestaan van BIBD's zijn de hiervolgende:

20. Na 4 jaar voortgezet onderwijs, op de HAVO, deze opleiding, na de 4e klas beëindigd.

Na 5 jaar voortgezet onderwijs, op het LNO (vorm: 4 jarig) deze opleiding afgerond, met
diploma.

22. Na 5 jaar voortgezet onderwijs, op het LHNO (vorm: 4 jarig) deze opleiding afgerond, met
diploma.

Na 5 jaar voortgezet onderwijs, op de MAVO (vorm: 3 jarig) deze opleiding adgerond, met
diploma.

24. Na 5 jaar voortgezet onderwijs, op de MAVO (vorm: 4 jarig) deze opleiding afgerond, met
diploma.

25. Na 5 jaar voortgezet onderwijs, op de HAVO deze opleiding, na de 4e klas beëindigd.

26. Na 5 jaar voortgezet onderwijs, op de HAVO deze opleiding afgerond, met diploma.

27. Na 6 jaar voortgezet onderwijs, op het LNO (vorm: 4 jarig) deze opleiding afgerond, met
diploma.

28. Na 6 jaar voortgezet onderwijs, op het ATHENEUM deze opleiding afgerond, met diploma.

29. Na 6 jaar voortgezet onderwijs, op de MAVO (vorm: 4 jarig) deze opleiding afgerond, met
diploma.

31. Na 6 jaar voortgezet onderwijs, op de HAVO deze opleiding, na de 5e klas, beëindigd, zonder
diploma.

32. Na 6 jaar voortgezet onderwijs, op de HAVO deze opleiding afgerond, met diploma.

34. Na 3 jaar voortgezet onderwijs, op de MAVO (vorm: 3 jarig) deze opleiding, na de 3e klas,
beëindigd, zonder diploma.

35. Na 4 jaar voortgezet onderwijs, op het LHNO (vorm: 3 jarig) deze opleiding, na de 3e klas,
beëindigd, zonder diploma.

36. Na 4 jaar voortgezet onderwijs, op het LLTBO (vorm: 4 jarig) deze opleiding, na de 4e klas,
beëindigd, zonder diploma.

37. Na 4 jaar voortgezet onderwijs, op de MAVO (vorm: 3 jarig) deze opleiding, na de 3e klas,
beëindigd, zonder diploma.

38. Na 5 jaar voortgezet onderwijs, op het LNO (vorm: 4 jarig) deze opleiding, na de 4e klas,
beëindigd, zonder diploma.

39. Na 5 jaar voortgezet onderwijs, op het LHNO (vorm: 4 jarig) deze opleiding, na de 4e klas,
beëindigd, zonder diploma.

"^0. Na 5 jaar voortgezet onderwijs, op de MAVO (vorm: 4 jarig) deze opleiding, na de 4e klas,
beëindigd, zonder diploma.

Na 5 jaar voortgezet onderwijs, op de HAVO, deze opleiding, na de 5e klas, beëindigd, zonder
diploma.

waarbij b het aantal presentaties (blokken),
V het totaal aantal stimuli,
r het aantal replikaties van elke stimulus,
k het aantal stimuli per presentatie en
X het aantal replikaties van elk stimulus paar is.

Aan elke beoordelaar zal dus een beoordelingslijst met daarop b blokken bestaande uit elk
k schoolresultaten (stimuli) ter beoordeling worden aangeboden.

Het gebruik van een BIBD bij het verzamelen van beoordelingsgegevens heeft als belang-
rijk voordeel een drastische vermindering van het aantal noodzakelijke, ter beoordeling
aan te bieden, stimulikombinaties. Zonder dat daardoor de informatiewaarde vermindert,
behoeven nu niet alle mogelijke kombinaties van steeds k stimuli, uit een totaal van v
stimuli, ter beoordeling te worden aangeboden, maar slechts een deelverzameling daarvan
(zie figuur 1).

Men dient daarbij echter de waarde voor k niet te groot te kiezen omdat anders het gevaar
niet denkbeeldig is dat individuele beoordelaars de gelijktijdig iti één blok gepresenteerde
schoolresultaten niet meer zullen kunnen overzien en verstek laten gaan bij het maken van
vergelijkende beoordelingen voor bepaalde 'moeilijke' blokken.

In het onderhavige geval leek, gezien de komplexe aard van de stimuli, dan ook, een
aantal van 5 stimuli per presentatie (k = 5) het uiterst haalbare. Voor v, in (1), dient dus
een getal gekozen te worden groter dan of gelijk aan 33 (aantal gevonden schoolresulta-
ten) waarvoor bij de geldende restrikties een BIBD bestaat. Het kleinste getal dat hieraan
voldoet en waarvoor bovendien de waarde van k kleiner of gelijk aan 5 is, bleek 41 te zijn.
Hall (1967, table 1, no. 42, appendix) geeft dit design als d (41, 82, 10, 5, 1) met als
oplossing: 1,37,16,18,10; 8,9,5,21,39; mod. 41.

Besloten werd dit design voor het verzamelen van de gegevens te gebruiken. Dit besluit
had echter wel de consequentie dat het aantal schoolresultaten binnen het voortgezet
onderwijs met 8 stuks diende te worden uitgebreid om aan het totale aantal van 41
stimuli te komen. Deze uitbreiding gebeurde door daarvoor een 8-tal schoolresultaten te
selekteren (zie tabel 1), zodanig dat deze de lakunes tussen de reeds voorhanden zijnde
schoolresultaten binnen het voortgezet onderwijs, op een redelijke wijze zouden kunnen
opvullen. Aan elke beoordelaar zal dus een beoordelingslijst met-daarop 82 blokken
bestaande uit elk 5 schoolresultaten ter beoordeling worden aangeboden.

I^ij de keuze van de beoordelaars speelt 'deskundigheid' een essentiële rol. Om een juist v..
afgewogen oordeel te verkrijgen over de verschillende schoolresultaten in het voortgezet
onderwijs lijkt het gewenst deze beoordehngen door, bij uitstek, deskundigen op dit
terrein n.1. de leerkrachten in het voortgezet onderwijs zelf, te laten verrichten. Hierbij is
het de bedoeUng dat deze leerkrachten zoveel mogelijk afkomstig zijn uit alle niveau's van
het voortgezet onderwijs. Nagegaan zal worden of de beoordelingen van leerkrachten
verschillen naar niveau van voortgezet onderwijs. Daarbij is het dan wel van belang dat er,
Van alle scholen die bij het onderzoek betrokken worden, zoveel mogelijk, een gelijk
aantal leerkrachten bij de beoordeHng worden ingeschakeld. Met dit doel voor ogen werd
bij een vijftal verschillende scholen voor voortgezet onderwijs, om medewerking verzocht.
Van elke school werd in principe een 8-tal leerkrachten bereid gevonden aan het onder-
zoek medewerking te verlenen. Van de oorspronkeüjk 40, werden 37 volledig ingevulde
beoordelingslijsten terug bezorgd.

Alle 40 beoordelaars werd naast een brief waarin het doel van het onderzoek werd
uitgelegd, een beoordelmgsHjst met daarop 82 blokken van elk 5 schoolresultaten plus een
gedetailleerde instruktie ter hand gesteld.

In deze instruktie werd o.a. aan de hand van een konkreet voorbeeld (zie appendix)
aangegeven hoe men bij de beoordeling te werk diende te gaan. Daarbij werd in het
bijzonder aandacht geschonken aan de wijze waarop men de verschillende schoolresulta-
ten binnen elk blok diende te rangschikken met betrekking tot het bereikte niveau van
Voortgezet onderwijs.

Op de beoordelingslijst bevonden zich voor dit doel onder elk blok 5 hokjes met daar-
naast de respectievelijke rangnummers 1 tot en met 5. Het schoolresultaat dat naar mening
Van de beoordelaar het hoogste niveau van voortgezet onderwijs representeert dient dan
het rangnummer 1 toegewezen te krijgen, het op e'én na beste rangnummer 2 enz..

Om te komen tot een schaal voor bereikt niveau van voortgezet onderwijs (BNVO-schaal)
Werd Guilford's 'Composite Standard' (C.S.) methode als uitgangspunt gekozen. Het ka-
rakteristieke van Guilford's methode is het vinden van gemiddelde proporties M« van
beoordelingen van elke stimulus vergeleken met elke andere stimulus en met zichzelf (zie
Ouilford 1954, p. 170). De totale groep van stimuli wordt daarbij beschouwd als een
'composite standard' (C.S.), waarmee elke stimulus, afzonderlijk, wordt vergeleken. De
assumptie van een 'composite standard' is volgens Guilford verdedigbaar als we deze
plaatsen in het licht van Helson's concept van een 'adaptation level'. Plaatsen we het
begrip 'adaptation level' in een psychologisch kader (zie Helson, 1947, pag. 1-29) dan
kunnen we dit vergelijken met de tendens om oordelen rond een neutraal punt, de spil, te
centreren. Dit neutrale punt is het 'adaptation level', een gemiddelde waarde. Welnu, bij
Guilford's C.S. methode wordt elke stimulus beoordeeld in vergelijking met de (n-1)

andere stimuli met als netto resultaat dat elke stimulus vergeleken is met het 'gemiddelde'
van alle stimuli. Dit 'gemiddelde', de 'composite standard' kan daarbij opgevat worden als
een 'fixed quantity' zonder variantie (zie Guilford, 1954, pag. 170 en 335).

Van elke beoordelaar afzonderlijk zijn er, als ruwe data, gegevens bekend van zijn oordeel
over elk schoolresultaat in vergelijking tot elk ander schoolresultaat. Deze gegevens be-
staan uit 82 blokken met rangnummers, variërend van 1 tot en met 5. Ze werden ter
bepaling van de konsistentie in eerste instantie samengebracht in 37 matrices R van de
orde (82 x 41). (N.B. 82 = aantal blokken, 41 = aantal stimuli).

Om te toetsen of de individuele oordelen een redelijke mate van konsistentie vertonen
werd op elke matrix R de Durbintoets (Durbin, 1951) toegepast.

In een 'Balanced Incomplete Block Design' kan deze toets gebruikt worden om de nulhy-
pothese te toetsen dat elke rangschikking van de random variabelen binnen elk blok even
waarschijnlijk is, m.a.w. deze toets geeft een indikatie voor de mate van konsistent oorde-
len.

Waarin Rj de som is van de rangnummers in de j-de kolom van matrix R en v, k, en r
dezelfde betekenis hebben als in (1).

Deze toetsing bleek voor alle 37 matrices R een significante waarde op te leveren (a <
.01), m.a.w. er is weinig reden om aan te nemen dat elke rangschikking van alternatieve
schoolresultaten binnen elk blok even waarschijnlijk is. Op grond van bovenstaande resul-
taten kan men stellen dat de individuele beoordelaars de hun aangeboden schoolresultaten
op een redelijk konsistente wijze hebben beoordeeld.

Volgens Guilford's 'Comparative-judgement approach' (zie Guilford, 1954, pag. 180) is
het bij herhaalde beoordehngen van dezelfde serie stimuH mogelijk, uit de door de beoor-
delaars aangebracht rangordening van deze stimuli comparatieve oordelen af te leiden. Op
deze wijze kan de proportie van het aantal keren worden bepaald dat elke stimulus,
vergeleken met elke andere stimulus, als 'beter' met betrekking tot de ondergestelde
psychologische dimensie gekwalificeerd kan worden. Voor het aantal keren dat een stimu-
lus verkozen zou zijn indien deze met zichzelf vergeleken zou zijn wordt daarbij een
proportie van .50 verondersteld (zie Guilford 1954, pag. 170). Deze proporties vormen de
basis voor verdere analyse van de gegevens. Konkreet betekent bovenstaande nu het hier

Volgende: Op de eerste plaats worden uit de door elke beoordelaar aangebrachte, en in
matrix r samengebrachte, rangordening der stimuli, comparatieve oordelen afgeleid,
•^ze oordelen worden vervolgens gecodeerd en samengebracht in een anti-symmetrische
"latrix A van de orde (41 x 41). Per blok van steeds 5 stimuh zijn er 10 comparatieve
Oordelen af te leiden. Hiermede kan men steeds 20 cellen van de matrix A vullen. Daarbij
'Corresponderen de in de comparatieve oordelen als eerste geplaatste stimuli met de rijen
Tabel 2

^«schatte schaalwaarden bereikt niveau van voortgezet onderwijs (B.N.V.0.) volgens Guilford's 'Com-
^ite Standard (C.S.) Method' door achtereenvolgens a) de L.B.0. -, de MAVO-, c) de HAVO/
^O- en d) de totale groep leerkrachten.

ILHNO
2 lhno

2 lno
'^lnq

4 lhno

3 lhno
hno
^LDHS
Hno

^lhno

4 Mavo
hno

3 Mavo
Hltbo

4 lno
6LN0

5 mavo
Hhno

lno

3 lhno

5 Mavo

4 Mavo
hkno
hno

4 Mavo
Hltbo
4lno
hhno

3 Mavo
^havo

6 Mavo

4 Mavo
6 Havo
6 Havo

5 Mavo
^Havo
4 Mavo

6 Havo

^havo
^ath

Fig. 2 a time BNVO-schalen met daarop aangegeven verschillen in de beoordeling door achtereenvol-
gens a) de LBO-, bj de MA VO- en c) de HA VOjVWO leerkrachten.

d) BNVO schaal ontwikkeld en gekonstrueerd volgens Guilford s C.S. methode en gebaseerd op be-
oordelingen van de schoolresultaten door de totale groep leerkrachten.

en de als tweede geplaatsten met de kolommen van matrix A. Voor het coderen van de
comparatieve oordelen wordt de hier volgende regel gehanteerd: Overtreft de als eerste
geplaatste stimulus qua rangnummer de als tweede geplaatste dan wordt in de betreffende
cel van matrix A een 1 geplaatst, in het andere geval een 0. Op deze wijze worden alle
1640 buitendiagonale cellen van matrix A gevuld. Voor alle 37 beoordelaars wordt op
gelijke wijze een dergelijke matrix gekonstrueerd. Deze 37 matrices worden vervolgens
gesommeerd. De zo ontstane som-matrix B wordt tenslotte omgezet in een matrix C met
proporties, van de orde (41 x 41), waarbij in de cellen op de hoofddiagonaal een propor-
tie van .5 is ingevuld. De analyse kan nu worden voortgezet door de proporties in matrix-
C kolomgewijs op te tellen en te delen door v, het totale aantal stimuH (v = 41). Op
deze wijze verkrijgt men Mp de gemiddelde proportie per stimulus. Deze wordt vervolgens
omgezet in een standaardscore, Zj, die na transformatie (dit om alle waarden van Z
positief te maken) tenslotte, Sj, de geschatte schaalwaarde van stimulus j oplevert (zie
tabel 2d).

In figuur 2 d. is de B.N.V.O.-schaal zoals ontwikkeld en gekonstrueerd volgens Guilford's
C.S. methode visueel weergegeven. Zowel in figuur 2 alsook in tabel 2 worden bij het
Weergeven van de schoolresultaten de hier volgende afkortingen gebruikt: d = diploma, k =
klas, O = over. Zo betekent bijvoorbeeld 4 Mavo 3d; na 4 jaar VO voor het eindexamen
Mavo (vorm: 3-jarig) geslaagd.

3-3. Verschillen in de beoordeling van schoolresultaten tussen respektievelijk de LBO-,
de MAVO- en de HAVOA^O leerkrachten

Gezien het feit dat bovengenoemde BNVO-schaal tot stand is gekomen op basis van
beoordelingen van schoolresultaten door leerkrachten werkzaam op scholen van verschil-
lend niveau van voortgezet onderwijs, is het noodzakelijk, de eventuele verschillen in
beoordeling tussen deze groepen leerkrachten vast te stellen. Met dit doel voor ogen
derden de beoordelaars in eerste instantie, op grond van het niveau van voortgezet onder-
lijs waarin ze werkzaam zijn, verdeeld in drie kategorieën; t.w.: LBO-leerkrachten (LNO,
lhno, LLTBO en LDHS), MAVO-leerkrachten en HAVO/VWO-leerkrachten (Athe-
neum). Uit elke kategorie werd vervolgens at random een groep van steeds 6 leerkrachten
geselekteerd. Tenslotte werden, voor elke groep afzonderlijk en met behulp van de hier-
door beschreven methode, de schaalwaarden van de verschillende schoolresultaten bere-
kend (zie figuur 2 a tot en met c en tabel 2 a tot en met c).

Voor het bepalen van de samenhang tussen de beoordelingen van de schoolresuhaten door
de drie groepen leerkrachten werden Pearson product moment correlatie coëfficiënten
berekend. De gevonden correlaties bleken erg hoog te zijn (r > .96). Bij toetsing, met
behulp van de t-toets bleken deze correlatiecoëfficiënten dan ook allen significant te zijn
(df = 39, a < .01), m.a.w. er is weinig reden om aan te nemen dat leerkrachten verbonden
^n scholen van verschillend niveau van voortgezet onderwijs de hun aangeboden school-
resultaten op een significant verschillende wijze beoordeeld hebben.
Vergelijkt men vervolgens de afstanden tussen verschillende schoolresultaten op deze
eerste drie schalen dan kan men het volgende konstateren:

Ten eerste vertonen de schaalwaarden, tot stand gekomen op basis van de beoordelingen
der schoohesultaten door de groep LBO-leerkrachten, vergeleken met de groep MAVO- en
HAVO/VWO leerkrachten de grootste spreiding (zie figuur 2, vergelijk a, b en c). Voor de

laatste twee groepen zijn de spreidingen nagenoeg aan elkaar gelijk. Ten tweede is er een
tendens om tussen schoolresultaten, die betrekking hebben op het 'eigen' schooltype,
meer te diskrimineren dan tussen andere schoolresultaten (zie figuur 2 vlg. I en II in c met
I en II in a en b, vgl. III in b met III in a en c, vgl. IV in a met IV in b en c). Een, alleszins
acceptabele verklaring voor het tweede punt lijkt de volgende: Men kan in alle redelijk-
heid toch wel verwachten dat leerkrachten het best bekend zijn met het schooltype en
niveau van onderwijs waarin zij zelf functioneren. Ze zijn daardoor, beter dan anderen, in
staat juist deze schoolresultaten optimaal te discrimineren.

Minder eenvoudig is het een verklaring te vinden voor de gevonden grotere spreiding
tussen de schaalwaarden bij de LBO-leerkrachten. Wellicht dat daar een verklaring voor
gevonden kan worden bij de gehanteerde schalings-methode. De door elke beoordelaar,
veronderstelde, en impliciet gehanteerde 'Composite Standard' zou bij de LBO-leerkrach-
ten wel eens een lager gemiddelde en een grotere spreiding kunnen vertonen vergeleken
met de MAVO- en HAVO/VWO-leerkrachten.

Concluderend kan gesteld worden dat men, met behulp van de, op de in de voorafgaande
paragrafen beschreven wijze ontwikkelde en gekonstrueerde BNVO-schaal (zie tabel 2 d
en figuur 2 d), in staat is aan de schoolresultaten in het voortgezet onderwijs numerieke
waarden toe te kennen die gebruikt kunnen worden als kriteriumscores. Daarbij is het
gezien het interval-karakter van deze schaal, bovendien mogelijk een indruk te krijgen van
de relatieve afstanden tussen deze schoolresultaten.

1. Rangschik de 5 mogelijkheden binnen elk blok van het hoogst tot het laagst bereikte niveau van
voortgezet onderwijs.

4. De letter die staat voor het, volgens U, hoogst bereikte niveau komt in hokje 1, die van het op één
na hoogste bereikte niveau in hokje 2, die van het laagst en op één na laagst bereikte niveau res-
pektievelijk in hokje 5 en 4 en de resterende mogelijkheid in hokje 3.

"^THENEMUM = 6 jarig behorende tot het VWO-voorbereidend wetenschappelijk onderwijs

Dirkzwager, A. Intelligentie en schoolprestatie. Amsterdam; Swets en Zeitlinger, 1966.

JJurbin, J, Incomplete blocks in ranking experiments. British Journal of Psychology, 1951, 4, 85-90.

"yk, van, H. De relatie tussen intelligentie en schoolsukses. Beroepskeuze. Tijdschrift voor school-,
studie- en beroepskeuzevoorlichting met de aanverwante gebieden. 1977,24, 197-215, 242-258.

nelson, H. Adaptation-level as a frame of reference for prediction of psychophysical data. American
Journal of Psychology, 1947, 60, 1-29.

Weeren van, P. Generatie onderzoek 1965: een inventarisatie van de capaciteiten en van de belangstel-
ling van leerlingen in het zesde leerjaar van het basisonderwijs. Nederlands Instituut voor Praeven-
tieve Gezondheidszorg, TNO, werkgroep Onderwijsresearch, Leiden 1968.

DE BETROUWBAARHEID VAN EEN OBJECTIEVE STUDIETOETS ALS
FUNCTIE VAN HET AANTAL VRAGEN EN VAN HET AANTAL ANT-
WOORDMOGELIJKHEDEN PER VRAAG

Voor het preciese verband tussen het aantal vragen dat in een objectieve studietoets is
opgenomen, het aantal antwoordmogehjkheden per vraag en de betrouwbaarheid van de
toets zijn verschillende modellen denkbaar (Tversky, 1964, van Naerssen, 1970, Lord,
1977). Deze modellen zijn vaak niet eenvoudig. Ebel (1969) geeft voor dit verband een
simpele formule die bovendien het voordeel heeft dat hij gebruikt kan worden om een
zinnige schatting te maken van de betrouwbaarheid van een toets nog vóórdat men de
beschikking heeft over empirische gegevens van die toets.

Verder kan deze formule gebruikt worden om in een gegeven situatie te beslissen of het
zin heeft om een toets om te bouwen teneinde de betrouwbaarheid ervan te verhogen (op
deze laatste toepassing gaat Ebel zelf niet in).

De formule van Ebel gaat uit van een aantal aannamen, die als volgt omschreven kunnen
worden:

1. Het gemiddelde van de toets-scores kan geschat worden door de waarde te nemen
midden tussen de hoogst mogelijke score (alle vragen goed) en de verwachte kans-score
(liet aantal vragen gedeeld door het aantal antwoordmogelijkheden).

2. De standaard afwijking van de toets-scores kan geschat worden door hiervoor een
zekere proportie p van het verschil tussen de hoogst mogelijke score en de verwachte
kans-score te nemen.

3. De standaard afwijkingen van de items zijn gelijk, hetgeen impliceert dat voor de
betrouwbaarheid de KR-21 formule toepasbaar is.

Deze aannamen passen in het model van het blind raden, dat wil zeggen dat wanneer een
student niet weet wat het goede antwoord is hij/zij at random een antwoord raadt.
Wanneer men, zoals van Naerssen (1970,1976), uitgaat van een ander model dan leidt dat
tot duidelijk andere resultaten dan de formule van Ebel. Van Naerssen gaat uit van een
model waarin vierkeuze-vragen opgebouwd worden gedacht uit een samenvoeging van 2
tweekeuze-vragen. Wanneer men een toets heeft met veel vragen die samengesteld zijn uit
twee beweringen dan lijkt het model van Van Naerssen meer van toepassing. Wanneer de
afleiders onderling verwisselbaar en simpel te verzinnen zijn (zoals bij veel rekenopgaven)
dan Ujkt de formule van Ebel goed toepasbaar.

Uit de aannamen van Ebel (in Ebel, 1969, iets anders geformuleerd) volgt voor het ver-
band tussen het aantal vragen k, het aantal antwoordmogelijkheden a en de betrouwbaar-
heid ra de volgende formule:

daarin p een zekere proportie is (van het verschil tussen de hoogst mogelijke score en de
Verwachte kans-score), p is afhankelijk van het aantal vragen en van de homogeniteit van
e Vragen: Ebel geeft als vuistregel voor toetsen van 10 items of of minder p = 1/3, voor
toetsen van 11 tot 20 vragen p = 1/4, voor toetsen van 21 tot 60 vragen p = 1/5 en voor
'angere toetsen p = 1/6.

ormule 1 kan gebruikt worden om van een toets een redelijk a priori schatting te geven
de betrouwbaarheid vóórdat er empirische gegevens bekend zijn. Zo volgt uit formule
Voor een hypothetische studietoets van 50 vierkeuze-vragen een geschatte betrouwbaar-
heid van 0,81. Men kan formule 1 ook gebruiken om de vraag te beantwoorden wat er
gebeurt met de betrouwbaarheid van een toets wanneer een bestaande toets wordt omge-
ouwd. Bijvoorbeeld: een docent gebruikt al jaren een tentamen bestaande uit 25 twee-
keuze-vragen en hij/zij overweegt om hier driekeuze-vragen van te maken. In dit geval zijn
er wél empirische gegevens over de betrouwbaarheid van de (tweekeuze-)toets, en deze
kunnen gebruikt worden om p te bepalen. Dit gebeurd met formule 2 (een algebraïsche
Omvorming van formule 1):

Wanneer het tentamen uit het voorbeeld door de bank genomen een betrouwbaarheid
^eeft van 0,60 dan wordt p : p = 0.266. Ingevuld in formule 1 geeft dit voor een
tentamen van 25 driekeuze-vragen een geschatte betrouwbaarheid van 0.75.

^it formule 1 blijkt dat de (geschatte) betrouwbaarheid groter wordt naarmate het aantal
antwoordmogeUjkheden groter wordt. Er zit hier echter een adder onder het gras: hoe
meer antwoordmogelijkheden er zijn hoe langer de tijd die nodig is om de toets in te
^Uen. Vaak is niet het aantal vragen de beperkende factor bij een toets maar eerder de
beschikbare tijd. Wanneer we aannemen dat de benodigde tijd voor een toets recht evenre-
dig is aan het aantal antwoordmogelijkheden^, dan wordt het aantal mogelijke vragen bij
® antwoordmogelijkheden vergeleken met het aantal vragen bij 2 antwoordmogelijkheden
(in dezelfde tijd) gegeven door formule 3:

daarbij ka het aantal vragen bij a antwoordmogelijkheden is en k2 het aantal vragen bij 2
Antwoordmogelijkheden. Bij een overgang van tweekeuze-vragen op driekeuze-vragen

Van Naerssen (1970, 1976) gaat er van uit dat meerkeuze-vragen zijn opgebouwd uit een aantal
J^cekeuze-vragen. In dat geval zou formule 3 moeten luiden: kg = k, ^ log(a). Aangezien Ebel duidelijk
'Jgaat van het model van blind raden is de formule kg = 2k, / a konsekwenter. Overigens is het ver-
^'^hil tussen beide formules klein zolang het aantal antwoordmogelijkheden a klein is (zeg a < 8). Bij
® 4 en bij a = 2 geven beide formules hetzelfde resultaat.

moeten we er rekening mee houden dat de toets met 1/3 bekort zal moeten worden. Onze
studietoets van 25 vragen reduceert dan tot een toets van 17 vragen. Formule 1 geeft dan
een te verwachten betrouwbaarheid van 0.62, een geringe verhoging ten opzichte van de
oorspronkelijke r,.,. = 0.60. Bij vierkeuze-vragen treedt wanneer we rekening houden met
een 'tijdverkorting' op deze manier zelfs een verlaging op: k=\3 waarbij /-,•,• = 0.59.

De formule van Ebel geeft uiteraard geen exacte voorspelling van de betrouwbaarheid van
een onbekende toets of van de betrouwbaarheid van een bekende toets wanneer deze
omgebouwd wordt naar een ander aantal antwoordmogelijkheden. Hij moet gezien wor-
den als wat Amerikanen een guesstimate noemen: een zinnige schatting die verder met
enige reserve moet worden bekeken.

Ebel, R.L. Expected reliability as a function of choices per item. Educ. and Psych. Meas., 1969, 29,
565-570.

Lord, P.M. Optimal number of choices per item - a comparison of four approaches. Journ. of Educ.
Meas., 1977,33-38.

Naerssen, R.F. van. Tweekeuze-items in studietoetsen. Ned. Tijdschr. v.d. Psych., 1970, 25, 393403.
Naerssen, R.F. van. Discriminerend vermogen van toetsen met twee- en met vier-keuze items. Tijdschr.

voor Onderwijsresearch, 1976,1, 269-272.
Tversky, A. On the optimal number of alternatives at a choice point./ourn. of Math. Psych., 1964,1,
386-391.

Algemene Psychodiagnostiek II: Testtheorie
Amsterdam: Swets & Zeitlinger, 1978, 708 pag. ƒ110.-

Dit boek is bedoeld als handboek, vergelijkbaar met NunnaUy's/'s>'c/!OOTefr;c Theory, geschreven voor
studenten en praktizerende testspychologen die zich in de grondslagen van de testtheorie wensen te
verdiepen. Het boek is in vergelijking met Drenth's Inleiding in de testtheorie uitgebreider en gaat met
name veel dieper in op de technische aspekten, met zware accenten op het Rasch-model enerzijds en
op faktoranalyse anderzijds.

De daartoe benodigde wiskundige voorkennis wordt apart uiteengezet in resp. een paragraaf Waat-
sclüjnlijkheidsleer en een hoofdstuk Matrix-algebra. Op deze basis kan een interessant werk worden
samengesteld. Helaas moet worden gekonkludeerd dat het onderhavige boek niet aan de verwachtingen
beantwoordt. Als hoofdbezwaar geldt dat de technische delen van het boek vol staan met onjuiste
beweringen, kromme bewijzen, kategoriefouten, en onjuist gebruik van wiskundige notatie. Sekundaire
bezwaren betreffen de rommelige opbouw, de selektie van de stof (te veel bijzaken en antikwarische
formules), het gebrek aan integratie van tegenstrijdige citaten, en wellicht ook het nu en dan idiosyn-
kratische taalgebruik. De 'huishoudelijke' accuratesse van het boek is zeer behoorlijk: er zijn weinig
drukfouten, en literatuurverwijzingen en dwarsverwijzingen binnen de tekst brengen de lezer zelden oP
een dwaalspoor. De problemen schuilen in de inhoudelijke accuratesse. De onderstaande selektie van
fragmenten moge dit verduidelijken:

- Op 124 wordt het trekken van een wortel (y = sfc) verward met het oplo'ssen van de vergelijking
y' = c. De problemen die hierdoor ontstaan keren regelmatig in de tekst terug. Ook van het vermin-
deren van de skores met hun gemiddelde wordt nodeloos een probleem gemaakt.

Op 144 lezen we: 'Als men de p.m.c.-formule zou toepassen indien de skores niet-binair gegeven
konden zijn, dan zouden de resultaten identiek zijn met die, berekend volgens de formules van de'
•■• punt-biseriele en phi-korrelatie.

Op 155 wordt beweerd dat systematische fouten die niet voor alle onderzochten gelijk zijn,geen in-
vloed op de testbctrouwbaarheid hebben.

Op 171 staat te lezen dat de korrelatie tussen twee testvariabelcn gelijk is aan het meetkundig
gemiddelde van hun betrouwbaarheden.

Op 217 wordt een koppeling gemaakt tussen de begrippen sufficient statistic en meest aanneme-
lijke schatter (zie ook 253); voor de faktorstelling treffen we deze onvolledige omschrijving aan:
't»e waiirscliijnlijkheid p van het linker lid kan als het produkt van twee waarschijnlijkheden
Worden geschreven'.

Op 219 ff wordt het begrip Verwachte waarde' als ander wooz-d voor gemiddelde gehanteerd i.p.v.
als ander begrip-. De ware score wordt nog steeds gedefinieerd via een onbeperkt aantal replikaties.
Ook blijkt de diskrete variabele Xg, van 219 op 220 een dichtheidsfunktie te bezitten. Op 220
komt het dubbel-stochastisch karakter van de testskore niet uit de verf zodat de eigenschappon van
221 in de lucht komen te hangen.

Op 248 en 250 wordt het symbool oo als reëel getal gehanteerd hetgeen tot absurde gevolgtrekkin-
gen leidt.

Op 324 staat dat de attenuatiekorrektie ook op de testbetrouwbaarheid wordt toegepast, en wel
Om de theoretisch maximale betrouwbaarheid van de test te bepalen.

Op 47J en 5 jo lezen we dat faktoranalyse op ipsatieve variabelen niet is toegestaan. Als dat waar
IS, dan is het evenmin toegestaan centroide faktoranalyse na de eerste faktor voort te zetten, of
O-analyse te doen op dubbclgecentreerde matrixen (cf. 517).

Op 489 wordt do cosinus van de hoek tussen de regrossielijnen van y op x en x op y gelijkgesteld
aan de korrelatie tussen x en y, wanneer beide variabelen in z-score vorm staan. Deze fout wordt
'verklaard' door do onderste regels van p. 490.

•n het algemeen kan de korrelatie tussen twee variabelen x en y meetkundig worden voorgesteld als

de cosinus van de hoek tussen de vektoren van x en y. De formule Pxy= h^hy cos cixy (490) geldt

alleen indien de grootheden van het rechterlid gemeten zijn in de ruimte der gemeenschappelijke

faktoren. Verwaarloost men dit detail dan ontstaan 'bewijzen' als dat op 554, wat begint met 'De

Het bewijs voor invariantie van do kommunaUteit onder rotatie (497) is van het type X = X.

Op 517 wordt gesproken over het dubbel-standaardizercn van een skoresmatrix. Niet-vierkante

matrices kunnen nooit, vierkante matrices zelden dubbel gestandaardizeerd worden.

Op 532 wordt de indruk gewekt dat kovarianties tussen ruwe cn tussen afwijkingsscores kunnen

Op 549 wordt het varimax-probloem vereenvoudigd tot het maximeren van de som van vierde
machten van de ladingen. Deze 'vereenvoudiging' berust op een foutieve afleiding.
Op 550 wordt gewaarschuwd voor divergentie van de varimax procedure. Ten onrechte. Kaiser's
varimax konvorgeert monotoon naar een (lokaal) maximum.

De term 'eigenwaarde' wordt op 552 (Tabel 7.3.7.) gehanteerd bij geroteerde faktoron.
Op 566 wordt een niet-diagonale matrix gcinvorteerd door de elementen afzonderlijk te inverteren.
Op 567 wordt uit A B = O, A O gokonkludeerd B,= O, waarbij A cn B matrices zijn, en O een
nullenmatrix van passende orde.
~ Op 608 lezen we dat als (a, b, c) een lineair onafliankelijk stelsel vektoren vormt, elke vektor x er
een hneaire kombinatie van is. De begrippen basis en lineair onafliankelijk stelsel worden als
identiek opgevat.

is nog veel meer. Maar ik heb mij grotendeels beperkt tot uitspraken waarover de lozer ook zonder
'et bock erbij te hebben zich een oordeel kan vormen. Men kan de vraag stellen of er aan dit boek dan
^elemaal niets te genieten valt. Zover wil ik niet gaan. Tussen de bedrijven door worden wel degelijk
°ehartenswaardige opmerkingen gemaakt. Maar het betoog wordt zo vaak en in zo ernstige mate
ontregeld door misgrepen dat dit boek noch als leerboek, noch als naslagwerk kan worden aanbevolen.

Bi-lingual Icariiini; in multi-racial societies. Selected titles. Den Haag: Bernard van Leer Toundatioi-
1978.

De onderwijskundige voorbereiding van aanstaande leraren. Verslag van een studieconferentie, 's Gra'

venhagc: Staatsuitgeverij, 1980 (SVO-reeks no. 27).
Kwantiwijzer. Intcrinirapport III. Verslag van de periode jan. 1978-sept. 1979. SVO-project 0327'

Psychologisch Laboratorium, R.U. Utrecht, 1979.
Limburgs Universitair Centrum. Het educatieve boek. Hasselt: Heideland, 1979.
Mommers, M.J.C. & Smits, B.W.G.M. (red.). Lees-taalonderwijs in de basisschool. Bijdragen tot

Ondcrwijsresearchdagen 1979. 's Gravenhage: Staatsuitgeverij. 1979 (SVO-reeks no. 24).
Nijhof, W.J. & Hout, J. van (red.). Differentiatie in het onderwijs. Uitgangspunten en onderzoek-
Bijdragen tot dc Onderwijsresearclidagen 1979. 's Gravcngagc: Staatsuitgeverij, 1979. (SVO-reeks
no. 23).

Peschar, Jules L. (red.). Van achteren naar voren. Achterstandsituaties in het onderwijs. Bijdragen to'

de Ondcrwijsresearchdagen 1979. 's Gravenhage: Staatsuitgeverij, 1979 (SVO-reeks no. 22).
Polak, L.J. De stmktuur van het Hoger Onderwijs in de provincie Limburg. Maastricht: Stichting W^^'

tcnschappclijk Onderwijs Limburg, oktober 1979 (SWOL-projekt rapport 1).
Schroots, J.J.r". Leidse Diagnostische Test. Deel 5: Cognitieve ontwikkeling leervermogen en school'

prestatie. Lissc: Swets &. Zeitlinger, 1979.
Stakenborg, J. (red.). Onderzoek binnen universitaire lerarenopleidingen. Een VULON-inventarisatiC'
juli 1979.

Stand van zaken papers. Bijdragen tot de Ondcrwijsresearchdagen 1979. 's-Gravenhage: Staatsuitgev«'

rij, 1979 (SVO-reeks no. 26).
Steclioudcr, M.I'. e.a. l.eren communiceren. Procedures voor mondelinge en schriftelijke coitvnui^''

catie. (+ oefenboek). Groningen: Wolters Noordhoff, 1979.
Thio, K.P. & Weeda, P. (red.). Examenproblematiek. Bijdragen tot de Ondcrwijsresearchdagen 1979'

's-Gravenhage: Staatsuitgeverij, 1979 (SVO-reeks no. 25).
Timmers, J. Itemhank Projekt Wiskunde. Eindrapport. Deel I. Algemene beschrijving: Deel III. P'

CITO-RITP-bundels; Deel VII. Supplement. CITO, Arnhem & RITP, Amsterdam, 1979.
Vcenman, S.A.M. & Kok, J.J.M. (red.). De ontwikkeling en evaluatie van het onderwijsleerpakket

'Interaktie-analyse'. Een samenvatting, 's Gravenhage: Staatsuitgeverij, 1979 (SVO-reeks no. 16)-
Veldhuijzen, Niels 11. Cesuurbepaling in het beta-binomiale model. Arnhem, CITO, 1979 (= Bulletin'
reeks no. 4). ,

Wesdorp (red.). Studietoetsen en hun effecten op het onderwijs. Verslag van een aantal studies hetrd'
fende de rol van meerkeuzetoetsen bij de selectie van leerlingen, hun invloed op het gedrag i'"''
leerling en docent, hun effecten op het onderwijsbeleid en hun beïnvloeding van het curricului'^-
's-Gravenhage: Staatsuitgeverij, 1979 (SVO-reeks no. 15). ,

Wollcnberg, A.L. van den. The Rasch model and time-limit tests. An application and some theoreticO
contributions. Dissertatie, K.U. Nijmegen, 1979.

Wat is er met het kind gebeurd? Het effekt-ontwikkelingsmodel en de geschiedenis van het kind, do"'

B. Spiecker cn L.F. Groenendijk
Het ontstaan van schoolproblemen (II). Gedragsobservatie door kleuterleidsters, door J. Hermanns
Idcccnproduktivitcit, door B.J. Wolters

Kroniek: Symposium 'De cognitieve variabelen in het onderzoek van onderwijzen', door J. Lowyck

^ubfac. Psychologie, Universiteit van Amsterdam *
Hanneke den Hartog
^ITP, Amsterdam

A vocabulary test was constructed for measuring language development in a research project
studying the influence on 2- to 4-year old children of being in a play-group. The test consisted
of 8 subtests, containing 172 items. More than half of the items required the child to name the
word illustrated in the material; the other items required the child to point at the illustration of
a testword. Of the items, 124 asked for knowledge of nouns, 8 for color-names, 20 for verbs
and 20 for adjectives.

Test results of 211 children from low socio-economic status homes, 70 children from high
socio-economic status homes and 26 children from an intermediate group, all participants in the
research project, were analysed. A principal components factor analysis over subjects showed
the test as a whole to be very homogeneous.

From the pool of 172 test items, two shorter versions, each containing 64 items, were constructed.
These two new tests can be considered to be parallel tests, according to available data. Scores
on the tests reach a ceiling at about three and a half years, so the test seems inappropriate for
children above that age.

Van 1970 tot 1975 is in Amsterdam in het projekt Proefkreche '70 een onderzoek gedaan
"aar de invloed van het verblijf in een kreche op de ontwikkeling van jonge kinderen,
vooral van ouders met een korte scholing. Kohnstamm, e.a. (1976) is een verslag van dit

Ofti een beeld te krijgen van de ontwikkeling van de kinderen die deelnamen aan dit
Onderzoek zijn op verschillende leeftijden tests afgenomen. Het testprogramma had tot
doel de eventuele effekten op uiteenlopende aspekten van de ontwikkeling vast te stellen.
iJiteindelijk hebben vooral de algemene kognitieve ontwikkeling en de taalontwikkeling
de aandacht gekregen. Voor de algemene kognitieve ontwikkeling werden gebruikt de
^ayley Mental Scale, de Stutsman en de Stanford (Kohnstamm, e.a., 1976, p. 79). Wat
petreft de taalontwikkeling lag het in de bedoeling verschillende tests te ontwikkelen. Er
gewerkt aan een 'comprehension-test', een imitatie-test en een woordenschat-test
kohnstamm, ea., 1976, p. 89). Uiteindelijk is alleen de woordenschat-test gereed geko-
pien. Deze is onder de naam Proefkreche Woordenschattest (PKW) in het onderzoek ge-
bruikt en tevens in een beperkte oplage in de handel gebracht.

In dit artikel wordt verslag gedaan van de psychometrische analyse van PKW-gegevens die
in het Proefkreche projekt verzameld zijn. Daarbij dienen de gangbare vragen voor wat
betreft de interne struktuur van de test beantwoord te worden. Hoe betrouwbaar is elk
van de subtests en de test als geheel? In hoeverre kunnen alle subtests geacht worden
dezelfde taalvaardigheid te meten? Vervolgens komen validiteitsvragen aan de orde. In
hoeverre is de score op de PKW representatief voor de taalontwikkeling? En in hoeverre
onderscheiden woordenschat en taalontwikkeling zich bij de onderzochte groep van alge-
mene kognitieve ontwikkeling?

Het is wellicht voor de lezer nuttig hier te vermelden dat het uitgangspunt bij het schrij-
ven van dit artikel is geweest dat er een test bestaat, de PKW, waarover gegevens beschik-
baar zijn, die enig inzicht in de kwaliteiten van de test kunnen geven. Anders gezegd: het
onderzoek is niet opgezet met de bedoeling hypothesen over enig aspekt van de taalont-
wikkeling te onderzoeken. We hadden de veel beperktere bedoeling een bestaande test
psychometrisch door te lichten. Mede daarom worden aan het slot van het artikel ook
enige normgegevens met betrekking tot de PKW gemeld.

De PKW bevat 172 items, verdeeld over 8 sub tests. Vijf van deze subtests vragen naar
kennis van zelfstandige naamwoorden (tesamen 124 items), één subtest betreft kleur-
namen (8 items), één subtest betreft werkwoorden (20 items) en er is een subtest van
bijvoeglijke naamwoorden (20 items).

Sommige subtests vallen uiteen in een aktief deel, waarbij het kind een voorwerp of
tekening te zien krijgt en de gevraagde woorden moet zeggen, en een passief deel, waarbij
een woord genoemd wordt en het kind op een afbeelding het bijbehorende voorwerp of
de handeling moet aanwijzen. Bij 'passieve' items is het kind niet werkelijk passief: het
moet iets aanwijzen. Om die reden worden de termen 'aktief en 'passief tegenwoordig
vaak vervangen door 'produktief resp. 'receptief. In dit artikel zullen we van aktieve en
passieve items blijven spreken omdat dat ook de terminologie is van de test-handleiding-
Waar dit het geval is worden in de hier te rapporteren analyses de scores op het aktieve en
het passieve deel van de subtests als afzonderlijke scores vermeld.

Bij elke subtest behoren één of twee voorbeeld-items, die dienen om het kind te wennen
aan de procedure bij die subtest.

De instruktie laat de proefleider nogal wat vrijheid, en de bedoeling daarvan is dat de
proefleider de afname zoveel mogelijk kan afstemmen op het kind. Zo is zij/hij vrij om
halverwege de test-afname een pauze in te lassen en zij/hij mag ook de volgorde van de
subtests veranderen. Dit laatste kan bv. nodig zijn als een kind een gebrek aan concentra-
tie toont; de subtest 'Kleine Voorwerpen' kan dan een welkome afwisseling vormen
tussen tests met alleen maar platen.

Bij de afname van de PKW moet één van de ouders of een ander voor het kind vertrouwd
persoon aanwezig zijn. Deze mag het kind aanmoedigen, maar uiteraard niet helpen.
Deze elementen in de instruktie hebben tot gevolg dat er nogal wat variatie mogelijk is in
het feitelijk verloop van de afname. Bij de opzet van de test wordt deze armslag voor de

proefleider echter noodzakelijk geacht, omdat van deze heel jonge kinderen niet geëist
kan worden dat zij zich aan een strakke afname-procedure aanpassen.
In de praktijk kwamen afwijkingen van de standaard-procedure alleen bij de alleijongste
kinderen voor (zie voor de volledige instruktie: de Handleiding (z.j.))
De aantallen items per subtest lopen sterk uiteen. Dat is het gevolg van toevallige omstan-
digheden bij de konstruktie van de test, waarvan de beschikbaarheid van bruikbare materi-
alen de voornaamste was.

Het materiaal bij deze subtest is een boekje bestaande uit 21 testplaten met op iedere
plaat vier verschillende tekeningen, meestal van voorwerpen.

De proefleider stelt per blad één vraag, bv. 'Waar is de schaar?' of 'Kun je de schaar
aanwijzen?'. Als het kind de juiste afbeelding aanwijst, reageert de proefleider goedkeu-
rend.

Het materiaal bestaat uit zes komplexe voorstellingen, waarbij het kind afwisselend de
naam van getoonde zaken moet noemen en dingen moet aanwijzen. De voorstellingen zijn
van een huis met een tuin, een kamer met meubilair, een hall in een huis, een keuken, een
park met een vijver en verschillende dieren, en een straat met verkeer.
De items per voorstelling zijn zoveel mogelijk onafhankelijk van elkaar, zodat het niet
•runnen beantwoorden van één item geen invloed heeft op de overige items.

Deze subtest bestaat uit 8 platen met op iedere plaat een vlek van een bepaalde kleur. Het
l^nd moet de naam van de getoonde kleur noemen.

Deze subtest bestaat uit zeven platen, die elk één voorwerp tonen, waarvan het kind de
naam moet noemen.

Het materiaal bij deze subtest is een doos met daarin 27 kleine voorwerpen, zoals een
kam, een steen, een krant, een krijtje, een tandenborstel en een kwast. De proefleider laat
het kind de voorwerpen één voor één zien, waarbij het kind de voorwerpen mag vasthou-
den en betasten. De proefleider zorgt ervoor dat het kind steeds maar één voorwerp
tegelijk kan zien. Het kind moet van ieder voorwerp de naam noemen.

de aktieve items van deze subtest krijgt het kind een tekening te zien waarop een
Werkwoord is afgebeeld. Het kind moet dat werkwoord noemen. Als het kind niet met
een werkwoord reageert, mag de proefleider de vraag herhalen (bv.: 'Ja, dat is een schaar,

maar wat doet moeder met de schaar?'). Bij de passieve items krijgt het kind platen te
zien, waarop vier werkwoorden zijn afgebeeld; de proefleider vraagt bv. 'Waar is de jongen
aan het bouwen?' en het kind moet de juiste tekening aanwijzen.

Het materiaal bij deze subtest is een pop, gekleed in een jurk met sokken en schoenen.
Aktieve en passieve items wisselen elkaar af. Bij de aktieve moet het kind de naam
noemen van lichaamsdelen en kledingstukken; bij de passieve items moet het door de
proefleider genoemde dingen aanwijzen. Ook hier mag de proefleider de vraag herhalen,
bv. wanneer een lichaamsdeel aangewezen werd en het kind de naam van een kledingstuk
noemt. Dergelijke verwarringen worden bovendien vermeden door uitsluitend blote li-
chaamsdelen aan te wijzen.

Het materiaal van deze subtest bestaat uit 20 voorwerpen, die in paren bij elkaar horen.
De subtest kan het best worden beschreven met een voorbeeld. De proefleider pakt de
eerste twee voorwerpen, een gebroken schoteltje en een gaaf schoteltje, en legt deze voor
het kind. Hij/zij vraagt dan: 'Welk schoteltje is kapot?' en als het kind het gebroken
schoteltje aanwijst, vraagt zij/hij: 'En dit schoteltje is ...?', waarbij hij/zij op het gave
schoteltje wijst. Het kind moet dan antwoorden: 'Heel.' Op dezelfde wijze bevatten alle
voorwerpen-paren één passief en één aktief item.

Voor de subtests Voorwerpen-meerkeuze en Kleine Voorwerpen gelden een begin- en een
afbreek-regel. De items zijn geplaatst in volgorde van opklimmende moeilijkheid. Deze
volgorde werd vastgesteld door middel van proefafnamen in de konstruktie-fase van de
test. Kinderen boven de 3 jaar beginnen bij item 11, en als het kind bij de eerste zes
daaropvolgende items geen fout maakt, worden de items 1 t/m 10 als 'goed' gerekend.
Maakt het kind wel een fout bij de items 11 t/m 16, dan gaat de proefleider terug naar de
eerste tien items. De afbreekregel houdt in dat, wanneer een kind van zes opeenvolgende
vragen er 5. fout beantwoordt, de afname van de subtest beëindigd wordt en de proef-
leider doorgaat naar de volgende sub test. De afbreekregel geldt ongeacht de leeftijd van
het kind. Items die tengevolge van deze regel worden overgeslagen worden 'fout' gere-
kend.

De proefleider noteert voor elk item één van de volgende scoringen: 'goed', 'fout', 'weige-
ring', 'omissie' of 'goed maar slechte uitspraak'. 'Weigering' wordt genoteerd als het kind
ondanks verzoeken van de proefleider niets doet, of wanneer het kind expliciet weigert.
'Omissie' duidt erop dat de proefleider een item niet heeft afgenouien in verband met de
begin- of afbreekregel, of dat hij het per abuis heeft overgeslagen.
'Goed maar slechte uitspraak' komt alleen bij aktieve items voor.

Voor de verdere analyses is aan de scoring 'goed', 'goed maar slechte uitspraak' en 'omis-
sie'-volgens-de-beginregel een score van 1 punt toegekend. Aan de overige scoringen is de
score O toegekend.

Aan 307 kinderen die deelnamen aan het Proefkrècheonderzoek is de PKW afgenomen. In
verband met de aard van dat onderzoek bestond deze groep voor ca. 75% uit kinderen van
ouders met korte scholing (n = 211) en voor 25% uit kinderen van ouders met lange
scholing (n = 70). Bovendien bevat de proefgroep een kleine tussen-kategorie (n = 26) van
kinderen die in het onderzoek waren opgenomen op grond van achteraf onjuist gebleken
scholings- of beroepsgegevens. De indeling in scholingskategorieën geschiedde op de vol-
gende wijze: een kind werd tot de lange scholingskategorie gerekend wanneer beide
ouders tenminste een middelbare school- of havo-diploma hadden; tot de korte scholings-
kategorie werd een kind gerekend wanneer beide ouders niet meer opleiding hadden
genoten danLO,huishoudschool,nijverheidsschool, |LTS in één van de praktijkrichtingen,
of twee jaar ULO indien daarvan in het beroep geen gebruik gemaakt werd; bovendien
rnocht bij deze kategorie het beroep dat de ouders uitoefenden of uitgeoefend hadden
niet hoger zijn dan kategorie 3 van de Beroepenklapper van het ITS (1975). Als een kind
niet aan de definitie van één van beide kategorieën beantwoordde, werd het niet in het
onderzoek opgenomen.

Er zij met nadruk op gewezen dat de proefgroep een niet-representatieve steekproef
vormt uit de populatie, en wel zodanig, dat alleen de extremen van scholingsduur in de
groep zijn opgenomen. Bovendien werden de kinderen op zeer uiteenlopende manieren
Voor het onderzoek aangeworven, waardoor allerlei processen van (zelf)selektie kunnen
zijn opgetreden. Een belangrijk gevolg hiervan is dat kinderen uit de lange scholingskate-
gorie over het algemeen op jongere leeftijd voor het onderzoek werden aangemeld dan
kinderen uit de korte scholingskategorie. De afname van de PKW volgde kort na aanmel-
ding voor het onderzoek, zodat ook voor de PKW-gegevens geldt dat in de groep van de
allerjongsten de lange scholingskategorie onevenredig sterk is vertegenwoordigd.

De spreiding in de leeftijd bij afname van de PKW is vrij groot; sommige kinderen worden
getest nadat zij kort tevoren 2 jaar geworden waren, anderen waren bijna 4 jaar oud.

Voor de items werden de p-waarden en de item-totaal-korrelatie berekend. Tabel 1 geeft
een overzicht van de resultaten.

In tabel 1 valt op dat de item-totaal-korrelaties over het algemeen hoog zijn, bij een goedé
spreiding van de p-waarden.

'n tabel 2 zijn de gegevens per subtest vermeld, waarbij voor die subtests waar dat van
toepassing is, de gegevens voor het aktieve en het passieve deel afzonderlijk vermeld zijn.

Uit tabel 2 blijkt dat de subtests Kleuren-namen, Werkwoorden-aktief en Bijvoeglijke
naamwoorden-aktief het moeilijkst zijn. Op de subtest Situatieplaten is er vrijwel geen
verschil tussen het aktieve en het passieve deel; bij Werkwoorden en bij Bijvoeglijke
Naamwoorden is dit verschil daarentegen zeer groot. De subtest Pop-aktief is makkelijker
dan Pop-passief. Dit is opmerkelijk omdat men het andersom zou verwachten. De verkla-
ring is eenvoudig: makkelijke woorden werden vaker aktief gevraagd (bv. arm, been,
knoop, sok) en moeilijke woorden passief (bv. rug, wang, kraag, veter). De standaarddevi-
atie van de subtests hangt nauw samen met het aantal items in een subtest. De korrelaties
van sub test-scores met totaal-scores zijn over het algemeen hoog, met als belangrijkste
uitzonderingen de makkelijkste en de moeilijkste subtest: Bijvoeglijke naamwoorden-
passief en Kleuren-namen. De gemiddelde p-waarde van de test als geheel is .49 en dat is
voor een test met overwegend open vragen bevredigend.

Oni verschillende redenen leek het van belang om de PKW te splitsen in twee kortere
parallel-tests. In de eerste plaats bleek de test voor veel jonge kinderen wel erg lang; ze
hadden moeite gedurende de hele afname met volle concentratie bezig te blijven. In de
tweede plaats wordt de test door gebruikers buiten het Proefkrèche onderzoek vaak
ëebruikt in situaties waar het effekt van een training of behandeling wordt onderzocht
met een voor- en nameting; in de ons bekende gevallen wordt hiervoor de PKW tweemaal
Ogenomen. Maar in dergelijke situaties verdient het gebruik van paralleltests veruit de
Voorkeur boven herhaald gebruik van één en dezelfde test. In de derde plaats bestond in
het Proefkrècheonderzoek de indruk dat met een aanzienlijk kortere test volstaan kon
dorden.

Ijlit de item- en subtest-gegevens die hierboven vermeld zijn werd door ons gekonkludeerd
dat het mogelijk moest zijn om uit de verzameling van 172 items van de PKW twee
kortere versies samen te stellen, die ieder nog in voldoende mate betrouwbaar zouden
zijn.

Allereerst wordt nu de wijze beschreven waarop twee kortere tests werden samengesteld,
et daarna zullen enkele bewerkingen worden gerapporteerd, die aangeven in hoeverre
deze tests ieder voor zich betrouwbaar, en onderling parallel zijn.

•^it iedere subtest werden paren van psychometrisch bij benadering equivalente items
gevormd. Hierbij werd geen gebruik gemaakt van de meest voor de hand liggende item-
"idices (p-waarden en item-test-korrelaties) maar van de item-parameters uit een vereen-
voudigde versie van het normaal-ogief model. Het doel van deze werkwijze was om na de
samensteUing van twee verkorte versies van de test nog de beschikking te hebben over de
P-daarden en de item-test-korrelaties, als onafhankelijke indices voor de betrouwbaarheid
^ de parallelhteit van de beide versies.

Dat lukt natuurlijk maar gedeeltelijk, omdat de parameters die met het normaal-ogief
ntodel berekend worden nauw verwant zijn met de conventionele item-indices,
n de berekeningen werd niet de totaal-score als maat voor de onderliggende variabele
gebruikt, maar leeftijd bij afname van de PKW. Dat is ongebruikelijk. Er zijn twee redenen
Voor aan te geven. Ten eerste wordt de onafhankelijkheid van de item-parameters ten
Opzichte van de conventionele item-indices erdoor verhoogd. Ten tweede zijn de item-
Parameters goed te interpreteren. Dit geldt vooral de eerste parameter, die als de gemid-
elde verwervingsleeftijd van het desbetreffende woord kan worden opgevat. De tweede
Parameter geeft aan hoe sterk de leeftijden waarop kinderen het woord verwerven uiteen-
open. Dit waren voor ons goede redenen leeftijd te gebruiken als onderliggende variabele
J" het normaal-ogief model.

n het gebruikte model wordt de normaal-ogief benaderd door de logistische kromme
(.Lord & Novick, 1968). Een vereenvoudigde berekeningsmethode (de Roo, 1977) levert
per item 3 parameters. De eerste parameter is een schatting van de leeftijd waarop 50%
Van de kinderen het item goed beantwoordt; de tweede parameter is een maat voor de
Snelheid waarmee het percentage goede antwoorden toeneemt met een toename van de
eeftijd; en de derde parameter is een index voor 'fit', d.w.z. de mate waarin steekproef-
^gevens benaderd worden door de best-passende logistische kromme.
De door de Roo ontwikkelde berekeningsmethode is een vrij ruwe benadering van het
ogistische model. Maar wanneer de parameters slechts voor onderlinge vergelijkingen
ëebruikt worden, zoals hier het geval is, is deze benadering aanvaardbaar.

Op grond van de eerste twee parameters werden de item-paren samengesteld. Van elk
item-paar werd vervolgens geheel willekeurig één item aan de ene, en het andere aan de
andere testversie toegewezen.

Bij het samenstellen van de korte tests zijn 44 items uitgevallen om één of meer van de
volgende redenen:

a. een te hoge of te lage waarde op de eerste parameter; het item is dus te makkelijk of te
moeilijk en draagt daardoor nauwelijks bij tot de testvariantie;

b. een te hoge waarde op de tweede parameter; de best-passende logistische kromme is
dan erg vlak en de moeilijkheid van het item blijft bij toenemende leeftijd ongeveer
gelijk; het item kan niet beschouwd worden als een geschikte maat voor de ontwikke-
ling van de woordenschat;

Bij het hanteren van deze kriteria zijn geen nauwkeurige grenswaarden gebruikt, mede
omdat ook de lengte van een subtest bij de beslissing om een item te laten vervallen een
rol speelt: bij een lange subtest laat men eerder een item vervallen dan bij een korte,
omdat men in het eerste geval nog voldoende items overhoudt, terwijl in het laatste geval
de voorraad snel uitgeput zou zijn.

De beide korte versies van de test omvatten uiteindelijk elk 64 items. Tabel 3 geeft de
voornaamste gegevens over de subtests van de beide korte versies. In de tabel zijn de
gegevens over de korresponderende subtests naast elkaar geplaatst, en bovendien zijn van
subtests met een aktief en een passief deel afzonderlijke gegevens over elk van die delen
vermeld.

Van elke subtest worden gegeven het aantal items, de gemiddelde score, de gemiddelde
p-waarde, de standaard-deviatie en de KR20, terwijl ook de korrelaties tussen bij elkaar
behorende subtests worden vermeld.

Vergelijkt men tabel 3 met tabel 2, dan zal opvallen dat bij de selektieprocedure overwe-
gend moeilijke items zijn uitgevallen.

De gemiddelde p-waarde van bijna alle subtests is hoger geworden, en de gemiddelde
p-waarde van de test als geheel is gestegen van .49 naar .55.

Verder valt op dat de KR20's voor de meeste subtests behoorlijk hoog zijn, zeker wanneer
men bedenkt dat het vaak subtests betreft met slechts 3 items. De korrelaties tussen
gelijksoortige subtests uit de beide testversies zijn in een aantal gevallen hoger dan de
KR20's van de subtests, hetgeen toegeschreven moet worden aan de wijze waarop de
subtests gekonstrueerd zijn. Wanneer men item-voor-item parallelle tests maakt kan de
onderlinge korrelatie hoger worden dan de interne konsistentie.

De interne konsistentie van de beide testversies als geheel is hoog, en we kunnen dus
konkluderen dat twee betrouwbare korte versies van de PKW zijn ontstaan. Vergelijkt
men de beide versies ook op de andere gegevens en beziet men de onderlinge korrelatie,
dan kan bovendien gesteld worden dat zij in hoge mate psychometrisch paraUel zijn.
Bij de hoge waarden van de betrouwbaarheidsindices dient men wel te bedenken dat deze
mede onder invloed van de leeftijdsverschillen in de onderzoeksgroep tot stand gekomen
zijn. Zou men de betrouwbaarheid berekenen in groepen met kleinere onderlinge verschil-
len in leeftijd, dan kan met grote zekerheid voorspeld worden dat lagere betrouwbaar-
heden gevonden zouden worden. Men kan dit ook zo zeggen: de gevonden waarden zijn
een overschatting van de betrouwbaarheid waarmee verschillen in woordenschat tussen

even oude kinderen gemeten kunnen worden. Bij de interpretatie van PKW-scores dient
hiermee rekening gehouden te worden.

De konklusie dat twee parallelle tests gekonstrueerd zijn wordt gestaafd door de resulta-
ten van een principale komponenten analyse ter bepaling van de interne struktuur van de

^s variabelen werden gebruikt de subtests van de kortere versies, waarbij weer het aktieve
en het passieve deel van de subtests als afzonderlijke variabelen in de analyse werden
opgenomen. Het aantal variabelen in de analyse is derhalve 24. De eerste faktor heeft een

eigenwaarde van 13.16 en deze verklaart derhalve meer dan de helft van de variantie. De
tweede faktor is aanzienlijk minder belangrijk (eigenwaarde 1.53) en in totaal zijn er
slechts 3 fatoren met een eigenwaarde groter dan 1.

In de tabel 4 staan ook de kommunaliteiten van de subtests afgedrukt. Het patroon van
factorladingen rechtvaardigt de conclusie dat de ware score-variantie van de subtests van
de PKW over het algemeen verklaard kan worden door één gezamenlijke factor.
Hierop zijn enkele uitzonderingen. In de eerste plaats de subtests ïüeuren. Deze hebben
de hoogste ladingen niet op faktor 1, maar op faktor 2. Hierbij valt verder op te merken
dat de twee subtests Kleuren uit de twee testversies zich bij de faktor-analyse op vrijwel
identieke wijze gedragen: de faktor-ladingen van deze subtests op elk der drie faktoren
vertonen grote overeenkomst. De andere uitzondering wordt gevormd door de aktieve
subtest Pop. Deze heeft weliswaar een hoogste lading op de eerste faktor, maar daarnaast
ook ladingen van .41 en .45 op de derde faktor. Het ligt buiten het bestek van dit artikel
verklaringen te zoeken voor deze afwijkingen van een één-faktor patroon.

In het Proefkrècheonderzoek zijn naast de PKW nog een aantal andere tests voor algeme-
ne intelligentie en taalontwikkeling afgenomen. We hebben de relaties van de PKW met
deze andere tests en subtests daarvan bekeken, teneinde een indruk te krijgen van de
validiteit van de PKW. Alvorens enkele uitkomsten weer te geven, dienen kort de gebruik-
te tests en subtests beschreven te worden.

Van de Merrill-Palmer Scale of Mental Tests, bewerkt door Stutsman (1948) (hier te
noemen de 'Stutsman') zijn gebruikt de voor omissies gekorrigeerde ruwe totaal-score, en
de scores op de onderdelen Kleuren, Eenvoudige Vragen, Nazeggen en 'Action-Agent'.Van
de Stanford-Binet Intelligence Scale (Terman & Merrill, 1973) werd het IQ opgenomen in
de analyse.

Van de Utrechtse Taalniveau Test voor 4- tot 7-jarigen (UTANT; Kohnstamm e.a., 1971)
berden de voor omissies gekorrigeerde scores op de subtests Woordenschat, Tegenstel-
lingen en Analogieën, en Grammatika opgenomen. De vierde subtest van de UTANT,
Onder Woorden Brengen, werd in het Proefkrèche testprogramma niet afgenomen omdat
deze test voor kinderen jonger dan 4 jaar te moeilijk is.

Behoudens de gebruikelijke en in dit geval soms aanzienlijke uitval door verhuizingen,
langdurige ziekte, e.d. zijn bovengenoemde tests afgenomen bij alle deelnemers aan het
onderzoek. In een follow-up onderzoek is bij een steekproef van 130 kinderen een jaar
nadat zij de krèche verlaten hadden de Amsterdamse Kinder Intelligentie Test, AKIT
(Drenth, e.a., 1968) afgenomen. Hiervan werd de verkorte versie gebruikt, die bestaat uit
de subtests Visueel Geheugen, Figuurherkennen, Exclusie en Woordbetekenissen. De ruwe
subtestscores zowel als het IQ zijn voor de analyse gebruikt.

De leeftijd waarop de Stutsman werd afgenomen varieerde in het onderzoek van 2 jaar en
1 maand tot 3 jaar en 10 maanden. Ook bij de afname van de PKW was er veel variatie in
leeftijd van de kinderen, zoals hierboven al werd opgemerkt. Bij de overige tests werd
daarentegen een vaste afname-leeftijd aangehouden, waarvan slechts afwijkingen van ten
hoogste enkele maanden voorkomen. Bij de Stanford-Binet en de UTANT was deze
leeftijd 3 jaar en 11 maanden; bij de AKIT 4 jaar en 11 maanden.

In tabel 5 worden de korrelaties van de gebruikte tests en subtests met de leeftijd van
afname van de PKW.

Het lijkt misschieen vreemd korrelaties te berekenen tussen leeftijd bij afname van de
PKW en de later afgenomen tests. Op zich zijn dat ook weinig interessante korrelaties. Zij
zijn echter gebruikt bij het berekenen van de partiële korrelaties (zie tabel 6) en ze dienen
Om die reden toch hier vermeld te worden.

We zien dat de korrelaties van leeftijd met de Stutsman-totaalscore en de scores op de
heide PKW-versies hoog positief zijn. De korrelaties van leeftijd met Stutsman-subscores
zijn minder hoog positief en de korrelaties van leeftijd met de overige tests zijn licht

De positieve korrelaties van leeftijd met Stutsman en PKW worden veroorzaakt door de
grote spreiding in leeftijd bij afname van die tests.

De negatieve korrelaties van leeftijd met Stanford-Binet IQ, UTANT en AKIT kunnen
Verklaard worden uit het feit dat kinderen uit de kategorie lange scholing, die op derge-
lijke tests gewoonlijk hogere scores halen dan kinderen uit de kategorie korte scholing,
gemiddeld op jongere leeftijd voor het onderzoek werden aangemeld dan de andere kin-
deren.

Daardoor vinden we niet de nul-korrelaties die verwacht moeten worden wanneer een test
bij alle kinderen op dezelfde leeftijd wordt afgenomen, maar deze licht negatieve korrela-
ties.

In tabel 6 worden de korrelaties gegeven van de beide PKW-versies met de overige tests.
De tabel vermeldt zowel de gewone korrelaties als de partiële korrelaties met leeftijd bij
de PKW-afname als de variabele waarvan het effekt geëlimineerd wordt.

^ij beschouwing van tabel 6 valt op dat de korrelaties van de Stutsman met de PKW lager
Worden wanneer men de invloed van leeftqd uitschakelt, terwijl bij de korrelaties tussen
de PK\y gjj jg overige tests het omgekeerde optreedt. De verhogingen door uitpartiëren
Van leeftijd variëren hierbij van .12 tot .26. Het is duidelijk dat de gewone korrelaties een
vertekend beeld geven van de relaties van de PKW met andere tests, en we zullen ons dus
jnoeten richten op de partiële korrelaties.

"et zou te verkiezen zijn deze korrelaties vervolgens ook nog te korrigeren voor attenu-
atie door onbetrouwbaarheid (Cronbach, 1975). Dan zou een antwoord mogelgk worden
pp de vraag of de PKW algemene intelligentie meet, dan wel verbale intelligentie of nog
jets anders. We hebben echter voor de verschillende tests de beschikking over betrouw-
aarheidscoëfficiënten van zeer uiteenlopende aard. Voor de Engelse versie van de Stan-
tord-Binet uit 1937 geeft Cronbach (1970) een parallel-test-betrouwbaarheid van .91;
voor de subtests van de UTANT vermeldt de handleiding (Kohnstamm e.a., 1971) test-
J^f rtestbetrouwbaarheden uit vier verschillende onderzoekjes, die nogal sterk uiteenlopen
Wjv. .60, .71, .78 en .82 voor de subtest Grammatika; voor de AKIT (Drenth e.a., 1968)
ZJjn test-hertest- en split-halves-betrouwbaarheden bepaald die voor sommige subtests ver
Uiteen liggen (bijv. .51 lesp. .80 voor de subtest Visueel Geheugen); van de Stutsman
tenslotte zijn ons in het geheel geen betrouwbaarheidsgegevens bekend. Bedenk daar nog
^ij dat deze koeffïciënten bepaald zijn bij groepen met ongelijke (en niet nauwkeurig
ekende) leeftijds-spreiding en het zal duidelijk zijn dat de korrektie voor attenuatie in dit
ë®val niet tot verduidelijking van het beeld zou leiden. Wij volstaan dus met de aandacht
® vestigen op enkele aspecten van het patroon van partiële korrelaties in tabel 6.

Stutsman-subscores zijn scores op verbale onderdelen van die test, en ook om die
reden in de analyse opgenomen. Twee van deze Stutsman-subscores, Eenvoudige Vragen
^ Nazeggen, vertonen met de PKW een even hoge partiële korrelatie als het Stutsman-IQ.
Dit betekent dat op grond van enkele verbale subscores van de Stutsman een even goede
Voorspelling van de PKW-score gemaakt kan worden als op grond van de gehele Stutsman
"logelijk is. Hieruit konkluderen we dat de PKW in de eerste plaats de verbale intelligentie
meet (of de verbale ontwikkeling).

De partiële korrelaties van de subtests van de UTANT met de PKW zijn van dezelfde orde
Van grootte als die van de subscores van de Stutsman. Alle subtests van de UTANT zijn,
Oeraard, verbale tests.

Van de AKIT-subscores bereikt alleen de specifiek verbale subtest Woordbetekenissen een
partiële korrelatie van hetzelfde nivo. Hierbij kan nog worden opgemerkt dat het opval-
'®nd is dat de partiële korrelaties van de PKW met verbale subtests van de andere tests niet
^nemen naarmate het tijdsinterval tussen de tijdsafnames toeneemt (tussen Stutsman en
I^KW één maand, en tussen AKIT en PKW ruim één jaar tot bijna drie jaar). Hieruit kan
men konkluderen dat verschillen tussen kinderen in het nivo van verbale ontwikkeling
betrekkelijk stabiel zijn, en deze konklusie wordt enigszins bevestigd door het feit dat
juist op de subtest Woordbetekenissen van de AKIT de test-hertest- en de split-halves
betrouwbaarheden vrijwel even hoog zijn (.65 resp, .63). Maar voor dit laatste gegeven
Zijn nog wel andere interpretaties mogeÜjk, en men moet de konklusie dat woordenschat-
verschillen stabiel zijn dus met voorbehoud omkleden.

^et Stanford-Binet IQ vertoont een hogere partiële korrelatie met de PKW dan alle andere
|ests in de analyse, en wijkt daarmee enigszins af van het hierboven geschetste beeld.
Deels zal dit wel samenhangen met de hoge betrouwbaarheid van de Stanford-Binet score.
En bovendien wordt in vele subtests van deze test een beroep gedaan op de verbale
Vermogens van het kind (vgl. Cronbach, 1970).

Samenvattend kunnen we zeggen dat de PKW over het algemeen hoger korreleert met
verbale dan met andere subtests van algemene intelligentietests. Doordat het niet mogelijk
is de korrelatie voor attenuatie te korrigeren is het onmogelijk vast te stellen of de PKW
naast verbale ontwikkeling nog andere zaken meet. Erg waarschijnlijk lijkt dat echter,
gezien de gegevens, niet.

Hoewel de beschikbare gegevens door de kleine aantallen kinderen, en de wijze van
steekproeftrekking zich niet voor een echte normering lenen, geven we in tabel 7 toch de
gemiddelden en standaard-deviaties op de beide PKW-versies opgesplitst naar leeftijd en
scholingskategorie. Deze gegevens kunnen van nut zijn bij het interpreteren van test-resul-
taten met de PKW. In tabel 7 zijn alle gegevens opgenomen van groepen van tenminste 10
kinderen.

Tussen de groepen kinderen van ouders met lange scholing en die met korte scholing
bestaat over de gehele linie een verschil van 10 score-punten. Dit verschil wordt alleen in
de hoogste leeftijdsgroepen minder, doordat de toename in de lange scholingskategorie
minder wordt, terwijl die in de korte scholingskategorie nog doorgaat, tot ook daar het
nivo van ca. 45 score-punten is bereikt.

De afvlakking, en zelfs een geringe terugloop, in de gemiddelde scores bij de hogere
leeftijdsgroepen kan worden veroorzaakt door een plafondeffekt. Dat wil zeggen dat de
PKW misschien items bevat die ook voor kinderen van bijna vier jaar nog te moeilijk zijn.
Een andere mogelijkheid is dat de PKW voor deze groep te makkelijk wordt en dat
daardoor de motivatie dermate afneemt, dat fouten gemaakt worden meer door slordig-
heid en gebrek aan concentratie dan door het werkelijke nivo van taai-ontwikkeling. In
ieder geval zou men uit tabel 7 de konklusie kunnen trekken dat de PKW voor het
bepalen van het nivo van taai-ontwikkeling tot de leeftijd van ongeveer jaar geschikt is,
maar voor hogere leeftijden ongeschikt.

gegevens overziende kunnen we enkele samenvattende conclusies trekken. Ten eerste
de PKW is een zeer homogene test. De ontwikkeling van de woordenschat gaat kennelijk
Voor de verscliillende woordsoorten en testtaken (aktief en passief) gelijk op. De belang-
rijkste uitzondering hierop wordt gevormd door het benoemen van kleuren.
Ten tweede, uit de gegevens valt niet met zekerheid op te maken of de ontwikkeling van
de woordenschat representatief is voor de taalontwikkeling in het algemeen. Bij vergelij-
king met subtests van tests voor algemene intelligentie blijken PKW-scores sterker samen
te hangen met taal-subtests dan met andere subtests. Daarbij wordt geen verschil gevon-
den tussen samenhang met woordenschat-subtests en andere taalsubtests. De PKW-score
njkt dus een redelijk goede indicator voor taalontwikkeling.

'en derde bleek uit de gegevens dat de stijging van scores bij kinderen van ouders met
Jange scholing rond de derde verjaardag en bij de groep met korte scholing op 3|-jarige
'eertijd ophoudt. Aangenomen moet worden dat dit een artefact is van de PKW, ook al
'"ijven de groepsgemiddelden van deze leeftijdsgroepen ver verwijderd van de maximum-
score op de PKW. De bruikbaarheid van de PKW eindigt dus voor normale kinderen
danneer zij 3 è Sj jaar oud zijn.

^onbach, L.J. Essentials of Psychological Testing. Third Edition New York: Harper & Row, 1970.
"Jonbach, L.J. On the Design of Educational Measures. In: D.N.M. de Gruyter & L.J.Th. van der
Kamp (eds.) Advances in Psychological and Educational Measurement. London: John Wiley &
Sons, 1975.

"renth, P.J.D., Petrie, J.F. & Bleichrodt, N. Amsterdamse Kinder Intelligentie Test. Handleiding.
Amsterdam; Swets & Zeitlinger, 1968.
andleiding voor de proefkrèche woordenschattest Amsterdam, Stichting Krèche en Wetenschap, z j
'^■beroepenklapper (van Westerlaak, J.M., Kropman, J.A. & CoUaris, J.W.M.) Nijmegen ITS, 1975.
Onnstamm, Dolf, van der Lem, Truus, Cornelisse, Martine, Kleerekoper, Locs, CoUand, Vivian en van
der Doef, Sanderijn, Had de proefkrèche effektl Nijmegen: Dekker & v.d. Vegt, 1976.
■^ofinstamm, G.A., Messer, A.P. & de Vries, A.K. De Utrechtse Taalniveau Test voor 4-7 jarigen.

Amsterdam: Swets & Zeitlinger, 1971.
•-"rd, F.M. & Novick, M.R. Statistical Theories of Mental Test Scores. Reading Mass.: Addison-Weslev
1968.

''e Roo, M. Een eenvoudige methode om de parameters van de normaal ogive van een item te schatten.

Ongepubliceerde notitie, 1977.
'Utsman, R. Guide for administering the Merrill-Palmer Scale of Mental Tests. Yonkers, N.Y.: World

Book Co., 1948 (eerste uitgave, 1931).
®mian, L.M. & Merrill, M.A. Stanford Binet Intelligence Scale. 1972 norms edition. Boston: Hough-
ton Mifflin Company, 1973.

Centrum voor Onderzoek van het Wetenschappelijk Onderwijs Universiteit van Amsterdam
Some radical answers to the criterion-referenced cutting score problem

A serious defect in decision analytic approaches to the cutting score problem hitherto has been
that remedial treatment effects are rather imphcitly subsumed in utility assignments to an
incomplete set of possible outcomes. The correct decision analysis is presented, using results
from a second validation study on students assigned to the remedial treatment irrespective of
their testscores. The specification of utilities, not longer being mixed up with probabilistic
contingencies resulting from remediation, is now possible in a rather clear-cut way. The obvious
relation to Cronbach and Snow's (1977) ATI methodology is summarily pointed out. The given
approach, however correct, is still rather impractical; the best and simplest procedure is sug-
gested to be the simultaneous optimization of the cutting scores on the set of tests, experiment-
wise varying cutting scores and observing resulting achievements and needed studytimes.

In een voorgaand artikel (Wilbrink, 1980) werd een eenvoudige decisie-analytische me-
thode voor het bepalen van optimale grensskores bij kriterium gerefereerde toetsjes gepre-
senteerd, en gerelateerd aan andere, meer omslachtige en minder doorzichtige benaderin-
gen in recente literatuur gegeven. Zowel deze eenvoudige als de omslachtige aanpak lijden
aan het gebrek dat er gesmokkeld wordt met het effekt dat de behandeling 'bijspijkeren'
heeft: impliciet is dat effekt opgenomen in de toekenning van utiliteiten aan de uit-
komsten die de beslissingsalternatieven 'doorlaten' of 'bijspijkeren' op kunnen leveren.
Het is niet moeilijk om in de decisie-analyse deze bijspijker effekten op te nemen, effek-
ten die in een afzonderlijk valideringsonderzoek geschat moeten worden. Prettige bij-
komstigheid is dat nu ook veel duidelijker is hoe utiliteitsfunkties bepaald kunnen wor-
den, een probleem dat tot nu toe onder het kleed geveegd pleegde te worden met de
opmerking dat het natuurlijk erg moeilijk is utiliteiten toe te kennen, maar dat de beslis-
singnemer (docent) dat toch moet kunnen omdat hij immers tot nog toe ook zijn zak-
slaag beslissingen altijd heeft kunnen nemen, zelfs zonder hulp van een decisie-analyse
(Raiffa en Schlaifer 1962, blz. 22 bijv.).

Op natuurlijke wijze wordt in deze benadering aansluiting gevonden bij het werk van
Cronbach en Snow (1977) over de Aptitude Treatment Interaction methodologie. Omdat
bij dit alles de analyse er wel beter maar niet praktischer op wordt sluit ik het artikel af
met enkele suggesties voor methoden om voor meerdere toetsjes tegelijk via een meer
experimentele procedure goede grensskores te bepalen.

Ik heb een kaartje voor een theatervoorstelling. Het liefst zou ik daar op de fiets naar toe gaan, maar ik
ben wat verlaat zodat ik dan misschien niet op tijd zal zijn. Het alternatief is een taxi te nemen,
waardoor ik het gedeelte voor de pauze waarschijnlijk niet hoef te missen. Waar het in dit alledaagse

beslissingsprobleem om gaat is niet hoe laat ik aankom, maat of ik nog voor het begin van de
voorstelling aankom. Een probleem met drempelverlies dus. Kijk ik alleen naar het al dan niet op tijd
•tornen, ongeacht de wijze waarop ik reis, dan heb ik te maken met de utiliteit Uo van 'te laat
komen', en de utiliteit Uj van 'op tijd zijn'. Het verschil tussen op tijd of te laat komen is het verschil
tussen een goede en een vergalde avond, voor mij iets méér dan de prijs van mijn toegangskaart, en in
'lit geval op 30 gulden te schatten. Op tijd komen is de 'doelvariabele' waar het in dit probleem om
gaat. Maar de kosten van de taxi spelen ook een rol, vormen een bijkomende doelvariabele: als het
even kan ga ik liever op de fiets. Voor mij kost 'de fiets' niets, en ben ik voor die taxi 10 gulden kwijt.
Door voor beide doelvariabelen de utiliteit in guldens uit te drukken worden ze op dezelfde waarde-
ringsschaal gebracht. Is mijn waardering voor deze relatief kleine geldbedragen ongeveer lineair, dan
kan ik voor iedere mogelijke uitkomst de utiliteit van beide variabelen bij elkaar optellen, en zijn zo
verkregen uitkomstutiliteiten ook met elkaar vergelijkbaar.

De 'kosten' van fiets en taxi zijn resp. K» = -O en K, = -10. De kans f op tijd te komen met de fiets
schat ik op 2/3. De kans t per taxi op tijd te komen schat ik op 9/10. Er zijn geen bruggen, sluizen of
spoorwegovergangen te nemen, dus die twee kansen zijn onafhankelijk van elkaar,
yoor beide alternatieven kan ik nu de verwachte utiliteit V Uf, V Uj, berekenen. Voor ieder alternatief
^'jn er twee mogelijke uitkomsten, iedere uitkomstutiliteit vermenigvuldig ik met de kans op die
Uitkomst, en tel beide bij elkaar op:

tk kies het alternatief met de grootste verwachte utiliteit. Gebruik makend van het gegeven dat U, -
= 30, bereken ik dat het verschil V Ut - V Uf = -3, zodat ik toch maar snel op de fiets stap.

Let in het gegeven voorbeeld op de volgende punten. Er is netjes geïnventariseerd om
Welke doelvariabelen het bij de beslissing gaat, nl. op tijd komen, en vervoerskosten. Over
beide doelvariabelen zijn utiliteiten bepaald op dezelfde schaal (guldens) die bij benade-
ring lineair is. Voor beide overwogen alternatieven werd de kans geschat op tijd te kunnen
komen, en daarbij werd opgemerkt dat beide kansen van elkaar onafhankelijk geacht
konden worden. Er kon volstaan worden met bepalen van de utiliteit van het verschil Ui
-Uo.

Houd zorgvuldig het onderscheid in de gaten tussen utiliteiten of utiliteitsfunkties over
doelvariabelen, uitkomstutiliteiten van mogelijke uitkomsten, en verwachte utiliteiten
Voor beslissingsalternatieven. De reden dat ik niet over verliezen heb gesproken is dat deze
in dit voorbeeld omslachtiger te berekenen zijn, en dat is een opmerkelijk punt waarop ik
straks nog terugkom.

Allereerst ga ik bekijken welke informatie beschikbaar moet zijn om te kunnen beslissen
of een leerling die toetsskore X; blijkt te hebben bijspijker onderwijs moet volgen. Omdat
bet theatervoorbeeld als analogon voor precies dit beslissingsprobleem is gekonstrueerd,
sa ik hier evenzo te werk. Eerste doelvariabele is het al dan niet beneden de drempel op
fen vervolgtoets skoren. Bij kriterium gerefereerde toetsing moet doorlaten of bijspijkeren
'ets te maken hebben met het op een volgende toets verwachte sukses; dat volgt immers
nit de filosofie achter deze vorm van toetsing. De drempel kan aangewezen worden als het
meest gewenste niveau op de vervolgtoets, zie ook Wilbrink (1980).
Afwijzen van een leerling betekent dat hij of zij een stukje extra onderwijs volgt, een

extra studie inspanning pleegt, en de zin daarvan moet liggen in een verhoogde kans na
deze behandeling het volgende stukje onderwijs vlot te kunnen doorlopen en op de
bijbehorende toets boven de drempel te skoren. Voor beide behandelingen, bijspijkeren of
doorlaten, is deze doelvariabele op dezelfde wijze van belang, en moet de waardering voor
skores al dan niet beneden de drempel gelijk zijn. Analoog aan het al dan niet op tijd
komen, per fiets dan wel met de taxi, uit het theatervoorbeeld. Beneden de drempel
skoren heeft utiliteit Uq, tenminste gelijk de drempel skoren heeft utiliteit Uj. Ik bekom-
mer me nog niet direkt om de waarden die Uq en Ui zouden kunnen hebben, en werk
eerst met deze symbolen verder.

Een tweede doelvariabele vormen de kosten aan bijspijkeren verbonden. Ook van die
kosten is de utiliteit vast te stellen, op dezelfde schaal als waarop Uq en Uj gezet worden.
Noem de utiliteit van bijspijkeren T, en laat nog even in het midden welke waarde T
konkreet zal hebben.

Dan heb ik nodig de kans Pj dat een leerling met skore Xj tenminste gelijk aan de drempel
op de vervolgtoets skoort. Uit onderzoek dat ik eerder gedaan moet hebben naar het
verband tussen toetsskores en het al dan niet beneden de drempel op de vervolgtoets
skoren is deze kans bekend, zie ook Wilbrink (1980). Maar bovendien moet ik weten hoe
groot de kans Rj is dat een leerling met toetsskore Xj na bijspijkeren tenminste gelijk aan
de drempel skoort. Ook deze kans moet verkregen zijn uit onderzoek, nu met een groep
leerlingen die ongeacht hun toetsskore de bijspijker behandeling hebben gekregen; overi-
gens is dit onderzoek op dezelfde wijze te verrichten als het voorgaande.
Uit hetzelfde onderzoek kan ook informatie verkregen worden over de samenhang van de
tijd besteed aan bijspijkeren, en de toetsskore. Wordt dat bijspijkeronderwijs klassikaal
gegeven, dan zal voor iedereen die tijd ongeveer gelijk zijn. Worden de kosten van bijspij-
keren voornamelijk door dit tijdbeslag bepaald, dan zou je aan kunnen nemen dat T
dezelfde verwachte waarde heeft voor leerlingen met verschillende toetsskores.
Abstrakt zijn de verwachte utiliteiten voor doorlaten en bijspijkeren, VUd en VUbij, op
dezelfde wijze als in de voorgaande paragraaf te bepalen als:

Zoals in Wilbrink (1980) besproken moet voor de optimale grensskore Gopt gelden dat
beide verwachte utiliteiten aan elkaar gelijk zijn. Voor de optimale grensskore is het mij,
de beslissingsnemer, immers onverschillig of leerlingen met deze skore doorgaan, dan wel
bijspijker onderwijs zullen volgen.
Uit gelijkstellen van (1) en (2) volgt na uitwerking dat

Een formule die volkomen doorzichtig is: de kosten van bijspijkeren moeten tenminste
gedekt worden door de met R-P verhoogde kans op de 'winst' Ui - Uq . Het enige
probleem is dat je in deze kontekst met 'drempels' niet goed uit de voeten kunt, zoals in
het voorgaande artikel (Wilbrink, 1980) in de diskussie aangegeven, maar dit is straks te
verhelpen door op een beter passende utiliteitsfunktie over vervolgtoetsskores over te
gaan (zie figuur 5 voor een illustratie).

De optimale grensskore Ggpj is dan gelijk aan de toetsskore Xj waarvoor (3) precies
opgaat, óf indien er geen X; is die daar precies aan voldoet is het van beide dichtst bij
zijnde skorewaarden de hoogste.

De 'traditionele' oplossing voor de optimale grensskore Gopt wordt gegeven door de
selektieparameter P = (B-A)/(B-A+C-D), zie Wilbrink (1980). Formule (3) geeft echter
aan dat P = R + T/(Ui -Uq). Nu zal het best mogelijk zijn om de vier uitkomstutiliteiten
A, B, C, en D zó te kiezen dat P dezelfde waarde krijgt als de werkwijze uit de voorgaande
paragraaf oplevert. Maar hoe kan een beslissingnemer zó te werk gaan dat hij daarin ook
slaagt, wanneer hij niet beschikt over een goede schatting van R behorend bij de optimale
grensskore? De koninklijke weg is dan ook niet om van de beslissingnemer impliciet een
subjektieve schatting van R te vragen, maar die schatting expliciet op basis van daartoe
verzamelde empirische gegevens te maken. Je kunt ook als bezwaar tegen de 'traditionele'
aanpak, althans waar het om de beslissing over verschillende 'behandelingen' gaat, aanvoe-
ren dat de besUssingnemer niet gevraagd wordt zuivere utiliteiten te bepalen, maar utilitei-
ten die gekontamineerd zijn door een onbekende kans R. Wil je met een decisie-analyti-
sche aanpak van je beslissingsprobleem enige waarborg voor een aanvaardbaar resultaat
Verkrijgen, dan zul je juist dergelijke kontaminaties moeten voorkomen.

Het grensskore probleem bij kriterium gerefereerd toetsen wordt gewoonlijk aangepakt als
een probleem met drempelverliezen, volgens de lijn door o.a. Novick en Jackson (1974,
blz. 7 en 117) beschreven: de besHssing t.a.v. een leerling met toetsskore kan juist of
onjuist zijn, zodat er in het eerste geval géén (gelegenheids)verlies is, in het tweede geval
dél. Er is in die redenering maar één manier waarop de beslissing 'bijspijkeren' onjuist kan
zijn: wanneer deze persoon zónder bijspijkeren boven de drempel of daaraan gelijk zou
hebben geskoord. Maar wat te doen met de mogelijkheid dat ook na bijspijkeren de skore
Van deze persoon nog beneden de drempel blijft? In dat geval heeft bijspijkeren niets
opgeleverd, en wordt het (gelegenheids)verlies -T geleden, de kosten van het bijspijkeren,
bovendien kan in het geval zonder bijspijkeren tenminste gelijk aan de drempel geskoord
Zou worden de beslissing 'bijspijkeren' op twee manieren onjuist zijn: de eerste manier is
dat ook na bijspijkeren tenminste gelijk aan de drempel geskoord wordt, wat het (gelegen-
heids)verlies -T oplevert, omdat bijspijkeren 'voor niets' is geweest; de tweede manier is
dat na bijspijkeren de skore zelfs beneden de drempel blijft, met het gelegenheidsverlies
- (Uo+T), volgens de regel dat het (gelegenheids)verlies gelijk is aan de uitkomstutili-
teit van de beste beslissing verminderd met de uitkomstutiliteit van de genomen beslissing.
De beslissing 'doorlaten' tenslotte is alleen ten onrechte wanneer beneden de drempel
geskoord wordt terwijl na bijspijkeren tenminste gelijk aan de drempel geskoord zou
dorden: het (gelegenheids) verlies is dan (Ui-hT) - Uq. Zodat de volledige verliestabel
Voor het drempelverlies model er uit komt te zien als in figuur 1.

Het is niet mogelijk om deze tabel te vereenvoudigen tot de 2 bij 2 tabel van de traditio-
nele benadering, met maar twee 'verliezen', zonder de kans Rj in de uitkomstutiliteiten
zelf op te nemen. Verwarren of kontamineren van utiliteiten en kansen is, het behoeft
geen verdere toelichting, in een decisie-analyse onzinnig en verwerpelijk.
Verwachte verliezen voor de beide beslissingsalternatieven zijn te berekenen door in fi-
guur 1 ieder verlies met zijn waarschijnlijkheid te vermenigvuldigen, en deze produkten te
sommeren. De beste beslissing is die met het kleinste verwachte verlies. De analyse via

'state of nature' variabele: vervolgtoetsskore zoals die er na
beide respektievelijke 'behandelingen' uit ziet (zou zien)

Figuur 1. Verliestabel voor het drempelverlies model. U, en U, zijn de utiliteit van resp. tenminste
gelijk aan de drempel en er beneden skoren, Tj de verwachte kosten, uitgedrukt op dezelfde utilitiets-
schaalals £/, en U^, van bijspijkeren vooreen persoon met toetsskore Xj.

verwachte verliezen levert dezelfde resultaten als via verwachte utiliteiten, en het is nu wel
duidelijk dat de laatste methode, via verwachte utiliteiten, in dit soort beslissingsprobleem
eenvoudiger is.

Wie liever niet aan een vervolgtoets, maar aan een kritisch niveau op de onderliggende
'ware beheersing' refereert, kan in grote lijnen dezelfde analyse gebruiken. Het nadeel van
deze aanpak is dat 'ware beheersing' een abstraktie is, die je vervolgens weer konkreet
moet proberen te maken door te werken met skores op parallel toetsen, e.d. Zo kun je op
een paralleltoets de drempel aanwijzen, en al dan niet beneden die drempel skoren als
doelvariabele hanteren. Van daar af gaat de analyse precies als voor het gevd de drempel-
skore op een vervolgtoets als doelvariabele gebruikt wordt.

In dit verband stelt zich ook de vraag naar de betrouwbaarheid van toets en vervolgtoets
(paralleltoets), of misschien beter de vraag naar de rol die de grootte van de standaard-
meetfout voor de individuele leerling speelt. Wat de toets betreft, is deze te manipuleren
door het aantal vragen te variëren, en dat doet de nieuwe optimaliseringsvraag rijzen
hoeveel vragen, in samenhang met de bepaalde optimale grensskore, gewenst zijn. Voor de
vervolgtoets valt te bedenken dat de drempel aangewezen wordt als een observeerbare
toetsskore, en dat daarbij dan ook met de kwaliteit van de vervolgtoets als 'meting'
rekening gehouden moet worden. Een alternatief is om de drempel op de onderliggende
schaal voor ware stofbeheersing aan te wijzen, zie daarvoor Van der Linden (1979).
Wordt de toets gebruikt om te selekteren, dan wordt er niet 'bijgespijkerd' maar gewoon
afgewezen. In figuur 1 verdwijnt dan eenvoudig alles wat met bijspijkeren te maken heeft,
zodat je een 2 bij 2 tabel overhoudt van afwijzen-doorlaten versus beneden of boven de
drempel skoren. Dan zijn we terug bij het model van Alf en Dorfman zoals in het
voorgaande artikel besproken.

In het voorgaande heb ik stilzwijgend aangenomen dat de leerling na bijspijkeren doorgaat
niet het verdere onderwijsprogramma. Het is natuurlijk ook mogelijk om de leerling na
bijspijkeren opnieuw te toetsen, en hoe zijn skore ook uitvalt hem of haar in ieder geval
door te laten gaan. Deze tweede toets zou dan kunnen dienen als evaluatie van het
bijspijkeronderwijs en als terugkoppeling naar de leerling. Meer gebruikelijk is echter om
op die tweede toets wederom een beslissing doorlaten of bijspijkeren te nemen, en zo ook
bij een derde toetsing, zodat theoretisch de mogelijkheid bestaat dat een leerling een
bepaald stukje onderwijs pas na meerdere herkansingen kan afsluiten. In zo'n regeling
fungeert iedere toets als selektiemiddel voor het er op volgende onderwijs, echter zonder
dat een afwijzing ooit definitief is. Het is niet duidelijk wat daarvan de onderwijskundige
zin kan zijn, hoe deze komplekse beslissingsprocedure te modelleren en te valideren is. In
een vergelijkbaar geval, tentamens met onbeperkte herkansingen, is wel een model bekend
Voor de optimale studiestrategie door de student te volgen (Van Naerssen, 1976; Wilbrink,
1978), ik kom daar later nog op terug. Vrijwel altijd zal de groep die voor 2e of 3e
herkansing opkomt te klein zijn om er zinnig valideringsonderzoek mee te kunnen verrich-
ten. Daar komt bij dat deze kriterium gerefereerde toetsjes meestal erg kort zijn, en
daardoor een relatief grote standaardmeetfout zullen hebben. Het lijkt dan ook beter om,
Wanneer dat maar enigszins mogelijk is, leerlingen te vrijwaren van de frustratie van
meerdere herkansingen. Het werken met maar één keer bijspijkeren en daarna doorgaan
met het verdere onderwijs heeft als voordeel, zoals in het voorgaande rijkelijk gedemon-
streerd, dat een doorzichtige modellering en validering van de beslissingsproblematiek dan
ook binnen handbereik ligt.

Voor ieder beslissingsprobleem waar tussen twee of meer verschillende behandelingen
gekozen moet worden op basis van toets of test gegevens, moet op basis van validerings-
onderzoek de relatie tussen deze toetsskores en de doelvariabele(n) bekend zijn. Bij
kriterium gerefereerd toetsen zijn de beide behandelingen 'doorlaten' en 'bijspijkeren', en
IS de regressie van vervolgtoetsskores op toetsskores onder beide behandelingen afzonder-
lijk te onderzoeken. In het voorgaande artikel werd aandacht besteed aan een eenvoudige
methode om de kans op tenminste gelijk de drempel te skoren, gegeven de toetsskore, te
bepalen voor een groep leerlingen die ongezien hun toetsskore doorgegaan zijn met het
Vervolgonderwijs. Hetzelfde kan ook gedaan worden voor een groep leerlingen die onge-
zien hun toetsskore bijspijkeronderwijs gevolgd hebben. Dat levert voor iedere Xi,i = O, 1,
•■• n, waarbij n het aantal toetsvragen is, de twee schattingen P; en R; op. Het is ook
mogelijk voor beide delen van het onderzoek een of andere vorm van regressie-analyse te
doen, wat een resultaat op zou kunnen leveren als in figuur 2 geillustreerd.
In het algemeen zal er sprake zijn van een ordinale interaktie, de verwachte vervolgtoets-
skore is na bijspijkeren altijd hoger, en wel des te meer zo naarmate de toetsskore lager is.
Zou je een en ander nu tot een konkreet model uit willen werken, dan ligt het voor de
band daarbij te beginnen met een model waarbij de toetsskores de negatief hypergeome-
trische verdeling hebben, en waar ook de konditionele verdeling voor vervolgtoetsskores
f(VIXi), ook de voorspellende kansverdeling voor de vervolgtoetsskores genoemd, negatief

Figuur 2. Ook empirische gegevens om de regressie van vervolgtoetsskores op toetsskores voor dege-
nen die bijspijker onderwijs krijgen te kunnen bepalen zijn nodig.

Figuur 3. Voorspellende kansverdelingen voor vervolgtoetsskores gegeven Xf, met de uitkomstutilitei-
ten over vervolgtoetsskores, onder de alternatieven 'doorgaan'en 'bijspijkeren'.

hypergeometrisch is. Het is niet mijn bedoeling om dit hier verder uit te werken, het is
een aanwijzing hoe je je deze f(YlXi) kunt voorstellen. In principe is op grond van
valideringsonderzoek zowel fd(YlXi) voor 'doorgelaten' leerlingen, als fbij(YlXi) voor
leerlingen die de 'bijspijker' behandeling gekregen hebben, te bepalen voor alle Xj. In het
algemeen mag je verwachten dat bijspijkeronderwijs leidt tot een hogere verwachte skore
op de vervolgtoets, zodat fbij t.o.v. fj in de richting van de hogere Y skores opgeschoven
zal zijn, zie figuur 3.

In figuur 3 zijn ook de uitkomstutiliteitsfunkties ingetekend. In het drempelverlies model
is de uitkomstutiliteit afhankelijk van de vervolgtoetsskore Y, zodat ze als funktie van Y
geschreven zijn: Ud(Y) is de uitkomstutiliteitsfunktie bij beslissingsalternatief doorlaten,
Ubij(Y) bij bijspijkeren. Voor het alternatief 'doorlaten' telt alleen het resultaat op de
vervolgtoets, zodat Ud(Y) in dit geval gelijk is aan de utUiteitsfunktie over vervolgtoets-
skores. Voor het alternatief 'bijspijkeren' hebben we te maken met precies dezelfde
UtUiteitsfunktie over Y (al dan niet beneden de drempel skoren wordt gelijk gewaardeerd
voor doorgelaten zowel als bijgespijkerde leerlingen), maar bovendien zijn er nu de kosten
van het bijspijkeren, op dezelfde utiliteitsschaal gewaardeerd op T, en de kombinatie van
beide levert een uitkomstutiliteitsfunktie op die een konstante waarde -T beneden Ud(Y)
ligt.

De kosten van bijspijkeren kunnen een konstante waarde T hebben, bijvoorbeeld wanneer
dat bijspijkeren klassikaal gebeurt, of een verwachte waarde Ti afhankelijk van Xi wan-
neer het een ervaringsgegeven is dat bijspijkeren minder kost bij hogere waargenomen
toetsskores bijvoorbeeld. Gegeven Xi is Ti dan toch konstant.

Het 'beste' alternatief is dat wat de hoogste verwachte utiliteit oplevert. De verwachte
utiliteit voor d (doorlaten) gegeven Xi is

daarin m = aantal vragen in de vervolgtoets. Voor ViUbij zijn in (6) Uj en fj door Ubij en
fbij te vervangen.

In zo'n drempelverlies model is het soms handig de hoogste uitkomstutiliteit de waarde 1
toe te kennen, en de laagste de waarde O, waarna voor de overige nog hun waarde op dit
schaaltje te bepalen is (waarvoor bijvoorbeeld technieken gegeven door Raiffa (1968) bruik-
baar zijn). In figuur 3 zijn deze schaalwaarden rechts van de figuur aangegeven.

Drempelutiliteit of drempelverlies is wel een erg eenvoudige funktie, maar in situaties
daar geen duidelijke 'drempel' aan te wijzen is op de kriterium- of doelvariabele van een
dat hinderlijke eenvoud. Er is niets dat de keuze van een beter passende utUiteitsfunktie
over de doelvariabele Y in de weg staat. Figuur 4 laat een ogief zien, de funktie Ud(Y),
die bij kriterium gerefereerde toetsing goed bruikbaar lijkt. Wie niet aan nauwkeurigheid
hecht zou zo'n utiliteitsfunktie zelfs grafisch kunnen bepalen. Wie enige zorg aan het
bepalen van zijn utiliteitsfunktie over Y wil besteden kan gebruik maken van technieken
zoals gegeven door Siegel (1957), Becker en Siegel (1962), Keeney en Raiffa (1976), en
Novick en Lindley (1978), om maar drie verschillende benaderingen te noemen. Voor
gedetailleerde toepassingen van dergelijke utiliteitsfunkties verwijs ik naar Davis, Hickman

en Novick (1973), hoewel aan hun behandeling het bezwaar kleeft waartegen ik mij in dit
artikel richt, dat impliciet in de uitkomstutiliteitsfunktie voor de behandeling 'bijspijke-
ren' het effekt is opgenomen dat bijspijkeren heeft op de voorspellende kansverdeling
over de doelvariabele Y. Van der Linden en Mellenbergh (1977) werken met lineaire
uitkomstutiliteitsfunkties, met hetzelfde bezwaar.

Voor de behandeling 'doorlaten' hebben we dan als uitkomstutüiteitsfuiiktie weer de
funktie die gelijk is aan de utiliteitsfunktie over de kriterium- of doelvariabele Y, vervolg-
toetsskores, in figuur 4 aangegeven door Ud(Y). Voor de behandeling 'bijspijkeren' heb-
ben we te maken met dezelfde utiliteitsfunktie over Y, en moet deze gekombineerd
worden met de negatieve utiliteit ofwel de 'kosten' van bijspijkeren, dat levert Ubij(Y).
In figuur 4 zijn alle funkties kontinu getekend, om illustratieve redenen: in de pr^tijk
nemen ze diskrete waarden aan. Verwachte utiliteit van ieder beslissingsalternatief ge-
geven dat Xj waargenomen wordt, is dan weer volgens formule (4) te berekenen.
Een bijzonderheid van figuur 4 lijkt ook te zijn dat beide uitkomstutiliteitsfunkties elkaar
niet snijden. Dat volgt direkt uit de aard van de gekozen doelvariabelen, en houdt geens-
zins als vanzelfsprekend in dat de behandeling 'doorgaan' altijd de betere zou zijn. In een
volgende paragraaf zal ik, in figuur 5, verwachte utiliteiten over toetsskores X bespreken,
en voor deze funkties geldt uiteraard wél dat er een snijpunt in het bereik van de toets-
skores moet zijn wil niet één van beide behandelingen altijd beter zijn ongeacht de
waargenomen toetsskore.

De wil toch iets langer bij het verschijnsel van elkaar niet snijdende uitkomstutiliteitsfunk-
ties stil blijven staan, omdat Davis et al. (1973), en van der Lmden en Mellenbergh (1977,
1979) er van uit gaan dat er wél een snijpunt moet zijn wil er een optimale grensskore
bestaan. Deze auteurs modelleren het beslissingsprobleem als een selektieprobleem in deze

zw dat effekten van 'bijspijkeren' uitsluitend tot uitdrukking gebracht worden in de te
kiezen uitkomstutiliteiten, zodat er (stilzwijgend) vervolgens vanuit gegaan kan worden
dat over de kriterium- of doelvariabele onder beide behandelingen de konditionele kans-
verdelingen identiek zijn. Welnu, weeg je twee uitkomstutiliteitsfunkties met dezelfde
kansverdeling bij het berekenen van verwachte utiliteiten, dan kun je alleen een niet-tri-
viale optimale grensskore vinden wanneer beide uitkomstutiliteitsfunkties elkaar ook snij-
den.

^eeg je ze met verschillende kansverdelingen, dan is elkaar snijden geen voorwaarde voor
het bestaan van een optimale grensskore.

Dat beide funkties Ud(Y) en Ubij(Y) elkaar niet snijden volgt direkt uit de utiliteits-
analyse voor het onderhavige probleem. Bijspijkeren heeft zeker effekt op de waarde van
de doelvariabele, maar alleen via de voorspellende kansverdeling onder de behandeling
'hijspijkeren': de utiliteit van de waarde van Y die bereikt wordt is niet afhankelijk van de
gevolgde 'behandeling'. (Zou je van mening zijn dat een hoge skore op de kriteriumva-
riabele Y iets anders waard is wanneer ze na bijspijkeren verkregen is, dan is er kennelijk
nog een andere doelvariabele in het spel, bijvoorbeeld de snelheid waarmee het eenmaal
geleerde weer vergeten wordt, die hoger zou kunnen liggen voor 'bijgespijkerde' leerlingen
dan voor de anderen met dezelfde Y skore). Voor beide behandelingen hebben we te
maken met dezelfde utiliteitsfunktie over vervolgtoetsskores, en alleen voor 'bijspijkeren'
moet daar een 'korrektie' op gepleegd worden door er de kosten van bijspijkeren af te
trekken om de uitkomstutiliteitsfunktie Ubij(Y) te krijgen.

Voor alle duidelijkheid: bijspijkeren zal doorgaans natuurlijk effekt hebben op de vervolg-
toetsskore, maar in de zin van een hogere verwachte skore, dus via de kansverdeling over
^ voor bijgespijkerde leerlingen.

Voor een goede vergelijkbaarheid van het in dit artikel gepresenteerde en oudere litera-
tuur is het goed om te weten dat er twee nogal verschillende mogelijkheden voor het
decisie-analytisch benaderen van het grensskore probleem zijn, in de literatuur (bijv.
^iffa 1968) bekend als de 'normal form' en de 'extensive form analysis'. Beide metho-
den geven dezelfde resultaten, de ene doet dat alleen op omslachtiger wijze dan de andere.
Het vervelende is dat overeenkomsten tussen beide niet eenvoudig te vinden zijn, zodat de
mdruk kan ontstaan dat het om wezenlijk verschillende methoden gaat. Davis et al.
(1973, blz. 17 e.v., 43) bespreken verschillen en overeenkomst op verhelderende wijze.

Extensive form analyse kiest de beslissingsregel die het verwachte verlies minimaliseert voor de waar-
genomen waarde van X. Daarentegen kiest de normal form analyse de beslissingsregel die het gemid-
delde van de verwachte verliezen voor alle mogelijke waarden van X minimaliseert.' (Davis et al., 1973
18).

In dit en in het voorgaande artikel hanteer ik de extensive form analyse, zoals ook Novick
®n Jackson (1974) doen, terwijl Davis et al. (1973) beide naast elkaar gebruiken (om
didaktische redenen zoals zij zeggen). De normal form analyse is gebruikt door Petersen
(1976), Huynh (1976), en Van der Linden en Mellenbergh (1977, 1979). In het voor-
gaande artikel heb ik'^en poging gedaan dit op verschillende benaderingen gebaseerde
V'^erk aan elkaar te relateren.

Verwachte utiliteit onder beide behandelingen kun je berekenen volgens formule (4) voor
iedere observeerbare toetsskore X. Daar kun je dan een mooi plaatje van maken, zoals
figuur 5. De gelijkenis met de gebruikelijke afbeelding van aptitude treatment interactions
is niet alleen een oppervlakkige. De 'aptitude' is in dit geval de stofbeheersing zoals die in
de toetsskore tot uiting komt, een nogal ruime opvatting van 'aptitude' die Cronbach en
Snow (blz. 6) uitdrukkelijk toelaten. Hetzelfde geldt voor de 'treatment', die er in dit
geval uit bestaat of de leerling bijspijkeronderwijs volgt of niet. De 'interaction' is gedefi-
nieerd op de op een utiliteitsschaal geëvalueerde uitkomstvariabele, en daar zijn Cronbach
en Snow helaas wat minder duidelijk over (zie bijv. blz. 32).

In figuur 5 heb ik vertikaal de verwachte utiliteit afgezet, omdat dat ook is wat de beide
getekende funkties voorstellen. Ik kan even goed vertikaal de utiliteit van de bereikte
uitkomst, dat is de utiliteit van de behaalde vervolgtoetsskore Y na al dan niet bijgespij-
kerd te zijn, noemen, zoals Cronbach en Snow (fig. 2.6a) doen, dat blijft hetzelfde. De
methodologie voor ATI onderzoek kan van belang zijn voor degenen die met grensskores
willen werken op kriterium gerefereerde toetsen. Dan zijn er echter nog wel enige proble-
men op te lossen. Zo zal in het algemeen de decisie-analyse niet leiden tot lineaire
regressie van uitkomstutiliteit op toetsskore, zoals ik gemakshalve in figuur 5 nog wel
getekend heb. Ook is de relatie tussen toetsing van de ATI veronderstelling, en het
aanwijzen van de optimale grensskore niet zonder meer duidelijk, al lijkt het dat je het
laatste best kunt doen zonder het eerste.

Terugblikkend op de geschetste volledige decisie-analytische methode voor het bepalen
van optimale grensskores bij kriterium gerefereerde toetsjes lijken we in de situatie ge-
raakt te zijn dat er weliswaar een goede methode beschikbaar is, maar dat deze praktisch
vrijwel onhanteerbaar is. Het is eenvoudig ondenkbaar om voor ieder toetsje een volledig
Valideringsonderzoek te doen, en vervolgens een utiliteits- en decisie-analyse. Dergelijke
toetsjes zijn kort, en talrijk: ze plegen maar een handvol vragen te bevatten, 10 of zelfs
minder, en iedere kursus bevat een reeks van dergelijke toetsjes als afsluiting van ieder
onderdeel. Ook waar het gaat om landelijk gebruikt toetsmateriaal is in principe lokaal
Valideringsonderzoek als aanvulling op de algemene gegevens over toetsen en grensskores
noodzakelijk.

Om aan deze praktische bezwaren het hoofd te kunnen bieden zou je kunnen proberen
om niet voor ieder toetsje afzonderUjk, maar voor de hele reeks toetsjes per kursus
tegelijk de optimale grensskores te bepalen. Zeker wanneer die toetsjes kwa opzet en
karakter niet veel van elkaar verschillen is zoiets mogelijk door te experimenteren met de
plaats van de grensskore op alle toetsjes tegelijk, en de onderwijsresultaten en benodigde
tijdbesteding als afhankelijke variabelen te registreren. Iets wat daarop lijkt is bijvoorbeeld
door Barkmeicr, Duncan en Johnston (1978) gedaan: zij onderzochten niet het effekt van
Verschillende hoogte van de grensskore, maar van verschillend aantal herkansingsgelegen-
heden op bestede tijd en behaald resultaat over een kursus met negen kriterium gerefe-
reerde toetsjes.

Wanneer het niet mogelijk is om in dezelfde kursusperiode met verschillende 'experimen-
tele groepen' te werken, kan de grensskore voor iedere nieuwe kursus stelsehnatig voor
alle toetsjes veranderd worden (telkens een punt hoger of lager gelegd).
Misschien zijn de resultaten niet makkelijk te interpreteren: het kan zijn dat de docent de
'tradeoff tussen stofbeheersing èn studietijd moet bepalen (Keeney en Raiffa (1976) geven
technieken). Het kan zijn dat randvoorwaarden (tijd, te lage stofbeheersing, te veel her-
halingen) overschreden worden, waardoor het pleit ten gunste van een bepaalde grens-
skore beslecht kan worden. Hebben leeriingen bij de 'optimale' grensskore veel herhahn-
Een nodig, dan kan de docent overwegen of dit konsept van kriterium gerefereerd toetsen
Voor hem wel bruikbaar is. Een alternatief zou zijn dat niet ieder 'onvoldoende' toetsje
hijspijkeren en herhalen vraagt, maar dat pas na een aantal opeenvolgende 'onvoldoendes'
de docent speciale aandacht aan de leerling schenkt. Een fleksibele aanpak van het grens-
skore probleem is hiermee weer mogelijk, de situatie blijft doorzichtig voor de docent, het
onderwijs is eenvoudig te evalueren. Statistische en psychometrische technieken die je
hierbij zou kunnen gebruiken zullen het in deze termen geformuleerde probleem niet zo
makkelijk nog kunnen versluieren.

^ie niet bezwijkt voor de verleiding om een model zoals dat van Huynh (1976) op de
Zak-slaag problematiek bij tentamens in het wetenschappelijk onderwijs toe te passen, zou
de volgende oplossing kunnen vinden (zie Wilbrink (in voorbereiding) voor een gedetail-
leerde uitwerking).

Voor tentamens geldt, zeker voor studenten die niet tot de hoogvliegers behoren, dat de
hoogte van de gestelde eis (grensskore) de mate van voorbereiding op het tentamen

beïnvloedt. Dat is uit te werken tot een tentamenmodel, waaruit optimale studiestrate-
gieën bij gegeven grensskores te bepalen zijn (Van Naerssen, 1976; Wilbrink, 1978). De
student die 'zakt' legt opnieuw tentamen af, totdat hij slaagt. Het zit ingebakken in deze
konjunktieve examenregeling dat de student zo af en toe, en vaak eigenlijk 'ten onrechte',
tentamens zal moeten overdoen ook wanneer hij een verstandige studiestrategie hanteert.
Voor de student ligt het voor de hand om zijn studiestrategie dan ook mede op het aantal
te verwachten herkansingen af te stemmen.

De grensskore moet kennelijk zó gekozen worden dat studenten studiestrategieën kiezen
die in de beschikbare tijd tot maximale stofbeheersing leiden. Ik zeg met opzet de be-
schikbare tijd, dat is de tijd die volgens het studieprogramma voor dit studieonderdeel
uitgetrokken is. In die beschikbare tijd moeten ook de herkansingen gedaan kunnen
worden, voorzover het gaat om herkansingen die volgen uit 'optimale' studiestrategieën.
(Tijd nodig voor deze herkansingen moet dan opgevat worden als gemiddeld over deze
deelgroep studenten). Een belangrijke doelvariabele, tijdbesteding, is hiermee gefixeerd.
Dan is voor de doelvariabele 'stofbeheersing' het maximum te zoeken door uit het tenta-
menmodel voor verschillende grensskores en toetslengten de verwachte mate van stofbe-
heersing te schatten.

Zonder utiliteitsanalyse is de optimale grensskore te vinden. Dit is een kompromisloze
aanpak voor het vinden van optimale grensskores bij tentamens. Daarin zijn heel wat
details in te vullen, maar de grondgedachte is in het bovenstaande tamelijk volledig
weergegeven. Overigens betekent het hanteren van optimale grensskores niet dat het
beoordelingsstelsel daarmee ook 'optimaal' zou zijn: bij een 'ideale' examenregeling zou je
dezelfde stofbeheersing kunnen bereiken zonder dat er tijd en kosten verloren gaan aan
herkansingen. Het is niet uitgesloten dat een kompensatorische examenregeling, waarin
geen herhalingen van tentamens voorkomen, waarin het over-all gemiddeld (gewogen)
studieresultaat bepalend is voor het slagen voor het examen in zijn geheel, dicht in de
buurt van zo'n 'ideale' regeling komt.

Barkmeier, D.R., Duncan, Ph.K. & Johnston, J.M. Effects of opportunity for retest on study behavior
and academic performance. Journal of Personalized Instruction, 1978,5, 89-92.

Becker, S.W. & Siegel, S. Utility and level of aspiration. American Journal of Psychology, 1962, 75,
115-120.

Cronbach, L.J. & Snow, R.E. Aptitudes and instructional methods. A handbook for research on inter-
actions. London: Halsted, 1977.

Davis, Ch.E., Hickman, J. & Novick, M.R. A primer on decision analysis for Individually Prescribed
Instruction. Iowa City: The Research and Development Division of the American College Testing
Program, 1973.

Huynh, H. Statistical consideration of mastery scores. Psychometrika, 1976,41, 65-78.

Keeney, R.L. & Raiffa, H. Decisions with multiple objectives: preferences and value tradeoffs. Lon-
don: Wiley, 1976.

Linden, W.J. van der & Mellenbergh, G.J. Optimal cutting scores using a linear loss ïmvcXïon. Applied
Psychological Measurement, 1977,1, 593-599.

Linden, W.J. van der, Using aptitude measurement for the optimal assignment of subjects to treatments
with and without mastery score. Unpublished draft, Twente University of Technology, july 1979-

Mellenbergh, G.J; & Van der Linden, W.J. The internal and external optimality of decisions based on
Applied Psychological Measurement, 1979,i, 257-274.

Naerssen, R.F. van. Het derde tentamenmodel met een toepassing. Tijdschrift voor Onderwijs Re-
search, 1976, i, 161-171.

Novick, M.R. & Jackson, P.H. Statistical methods for educational and psychological research. London:
McGiaw-HUl, 1974.

Novick, M.R. & Lindley, D.V. The use of more realistic utility functions in educational applications.
Journal of Educational Measurement, 1978,15, 181-191.

^tersen, N.S. An expected utility model for 'optimal' selection. Journal of Educational Statistics,
1976,7,333-358.

"^aiffa, H. Decision analysis. Introductory lectures on choice under uncertainty. London: Addison-
Wesley, 1968.

Raiffa, H. & Schlaifer, Applied statistical decision theory. London: M.I.T. Press, 1961.

"ilbrink, B. Examenregeling deel A: Studiestrategieën. Amsterdam: COWO, Universiteit van Amster-
dam, 1978.

"ilbrink, B. Optimale kriterium gerefereerde grensskores zijn eenvoudig te vinden. Tijdschrift voor
Onderwijs Research, 1980,5.

"ilbrink, B. Cesuurbepaling. Amsterdam: COWO, Universiteit van Amsterdam, in voorbereiding.

De Voorspelbaarheid van Studieprestaties
van Eerste Jaars Studenten aan de
Subfaculteit Psychologie van Amsterdam

Kath. Meerum Terwogt — Kouwenhoven
Subfaculteit Psychologie, Universiteit van Amsterdam'

In this study, carried out at the psychology department of the University of Amsterdam with
students that started their study in 1977, an attempt was made to establish a relationship be-
tween some student-variables (intellectual abilities, schoolachievement, study devotion, study
motivation) and the academic performance after the first year of study. In view of the lack of
resuhs of other research in the field of prediction of academic performance, the outcomes of
this study can be considered highly satisfactory (muUiple correlations ranging from .50 to .58;
and ranging from .71 to .74 after elimination of students who showed very irregular study-pat-
terns). This in spite of the fact that there were some difficulties in defining the criterion situa-
tion, passing or failing the first year examination being determined by a whole complex of cir-
cumstances, due to the complexity of the examination and the way it is used by the students.

In de loop van het bestaan van het Tijdschrift voor Onderwijsresearch is verscheidene
keren aandacht besteed aan de problematiek van de voorspelbaarheid van studieprestaties.
In het allereerste nummer van het TOR werd door Crombag, Gaff en Chang (1975)
verslag gedaan van een onderzoek naar de relatie tussen stuc^eergedrag en studieresultaten,
welke relatie niet aangetoond kon worden. De auteurs stelden bovendien vast, dat het
vinden van significante relaties tussen studieprestaties enerzijds en variabelen die daar
redelijkerwijs mee samen zouden moeten hangen eerder uitzondering is dan regel, hetgeen
men in de literatuur bevestigd kan vinden.

0.a. naar aanleiding van dit artikel werd door Elshout (1977) in het TOR een artikel
gepubliceerd waarin hij zijn ideeën weergaf over het waarom van het falen van dit soort
onderzoek: het schort hem in het algemeen aan overeenkomst tussen test-situatie (de aard
van de gekozen variabelen) en kriterium-situatie (de aard van de te leveren studiepresta-
ties).

Wanneer men zich bezig houdt met het ontwikkelen van onderwijsprogramma's in een
bepaalde studierichting rijst al snel de vraag of men ook hier te maken heeft met een
situatie waarin wordt gesuggereerd dat het slagen of zakken voor b.v. een propedeuse net
zo goed bepaald kan worden door het werpen van een munt. Indachtig het onderwijs-
model van Glaser (1962), die het onderwijsresultaat afhankelijk acht van de aanvangsei-
genschappen van de onderwijsdeelnemers, het onderwijsprogramma en de wijze van vast-

Stellen van de resultaten, moet er bij een gegeven onderwijsprogramma en een gegeven
examenregeling, die voor alle onderwijsdeelnemers gelijk zijn, een relatie aantoonbaar zijn
tassen de aanvangseigenschappen van deze onderwijsdeelnemers en het uiteindelijk resul-
^^at, mits deze aanvangseigenschappen relevant zijn voor de te leveren prestaties (vgl.
Elshout).

De bedoeling van het hier beschreven onderzoek was na te gaan of deze relatie inderdaad
^^ngetoond kon worden voor het studieverloop gedurende het eerste jaar van de studen-
van een bepaalde jaargang aan de subfaculteit Psychologie van de Universiteit van

Voor dit studieverloop bestaat een eenduidig kriterium; men is na de voorgeschreven tijd
of niet geslaagd voor de propedeuse. Door de bestaande examenregeling voor deze
propedeuse is dit slagen of zakken echter op zichzelf geen 'daad' of'handeling', maar het
"logelijke gevolg van een complex patroon van handelingen dat daaraan vooraf moet
Saan: men is geslaagd voor de propedeuse als men de zeven tentamens waar de propedeuse
nit bestaat heeft afgelegd en hiervoor een puntentotaal van 189 of meer punten heeft
Verworven, met dien verstande dat men voor elk afzonderiijk tentamen tenminste een
°epaalde minimumscore moet hebben behaald.

Om te kunnen slagen voor deze propedeuse moet men dus aan een aantal voorwaarden
Voldoen (zeven tentamens afleggen en minstens 189 punten halen), die echter noch afzon-
derlijk noch in combinatie voldoende voorwaarden vormen voor dit slagen.
Aan slagen of zakken voor de propedeuse zijn consequenties verbonden voor het verdere
Verloop van de studie. In dit licht gezien is het het meest relevante kriterium voor het
studieverloop gedurende het eerste jaar. Dit kriterium laat zich echter inhoudelijk noch
procesmatig beschrijven. Voor het bepalen van hiervoor relevant geachte aanvangseigen-
schappen vormt dit een moeilijk probleem. Om aan dit probleem tegemoet te komen
gullen in dit onderzoek ook de twee belangrijkste voorwaarden om voor de propedeuse te
künnen slagen, n.1. het aantal afgelegde tentamens en het aantal behaalde punten (onder-
hrig uiteraard niet onafhankelijk) als kriteria voor het studieverloop gehanteerd worden,
'et bepalen van de variabelen, die relevant geacht kunnen worden in verband met de
gehanteerde kriteria vormt een apart probleem. Uit de literatuur (b.v. Lavin, 1965) blijkt
dat er vele bronnen van variabelen zijn (intellectuele, biografische, emotionele, motivatio-
lele) waarvan studieprestaties afhankelijk kunnen zijn. In een verslag van meer recent
°riderzoek (Astin, 1971) wordt aangetoond dat middelbare school cijfers een belangrijke
Correlatie hebben met prestaties aan het eind van het eerste studiejaar (r = .50). Een
belangrijk kriterium voor de selectie van relevante onafhankelijke variabelen zou het
kriterium van Elshout (1977) kunnen zijn, n.1. het principe van overeenkomst tussen test-
kriteriumsituatie. Dit principe heeft ons bij de uiteindelijke selectie wel degelijk voor
°êen gestaan, zij het dat we het niet systematisch (d.w.z. middels degelijke analyse van de
^rd van het kriteriumgedrag) hebben toegepast.

Het doorlopen van de propedeuse leek ons toch in de eerste plaats opgevat te moeten
Worden als een intellectuele prestatie, die onder bepaalde omstandigheden geleverd moet
borden.

Pe keuze van de onafhankelijke variabelen is dan ook in eerste instantie beperkt tot het
^tellectuele domein. Gedacht is daarbij vooral aan vaardigheden die men zou kunnen
Opvatten als de intellectuele voorwaarden voor het kunnen leveren van de gewenste pres-
taties, variabelen die informatie geven over hoe studenten leerprestaties leverden onder
Vergelijkbare (vroegere) omstandigheden en variabelen die informatie geven over hoe de
Uiteindelijke prestaties daadwerkelijk tot stand gekomen zijn.

De keuze van variabelen is dus vooral beperkt tot het intellectuele domein; in het uitein-
delijk onderzoek zijn variabelen betrokken, die bepaalde intellectuele vaardigheden meten
en variabelen die betrekking hebben op de vooropleidingsloopbaan van de studenten. Om
inzicht te krijgen in de wijze waarop bepaalde prestaties tot stand komen is een poging
gedaan om iets te weten te komen over de wijze waarop het eerste propedeuse-tentamen
werd voorbereid. Dit resulteerde in de afname van de volgende tests en vragenlijsten:

Hierin werd geïnformeerd naar het opleidingstype, de samenstelling van de eindexa-
menpakketten, behaalde eindexamencijfers, eventueel andere gevolgde opleidingen of
andere aktiviteiten wanneer men niet aansluitend op het eindexamen met de studie
was begonnen etc. etc. Tevens waren hier aan toegevoegd enkele vragen over de studie-
motieven van de studenten.

De kwantitatieve variabelen, die we er uit hebben kunnen afleiden zijn scores voor het
gemiddeld landelijk (of schriftelijk) eindexamencijfer en voor het gemiddeld school (of
mondeling) eindexamencijfer. Aan de betrouwbaarheid van deze scores moet echter
ernstig worden getwijfeld, omdat veel studenten de exacte cijfers niet meer weten,
terwijl anderen juist cijfers vermelden tot op tienden nauwkeurig en omdat het boven-
dien gaat om cijfers van allerlei schooltypen en van examens van verschillende inhoude-
lijke samenstelling. Daar komt bij, dat schoolexamencijfers, zoals ze tot stand komen
op de mammoet-scholen, per vak op zichzelf vaak een gemiddelde zijn van een (per
school verschillend) aantal toetsen.

Een maat voor de uitgebreidheid van iemands woordenschat en de kern van de intelli-
gentie-factor CMU uit het model van Guilford, de verbale of taalvaardigheidsfactor.

Deze test bestaat uit een aantal korte engelse zinnen uit het boek 'An Introduction to
Psychology' van Hilgard, Atkinson and Atkinson waarin een woord is onderstreept-
Van dit onderstreepte woord moet men de nederiandse betekenis omschrijven.
Ook deze test is een maat voor CMU, maar kan tevens opgevat worden als een manier
om het onderricht dat men heeft gehad in de Engelse taal te evalueren met het oog op
de kennis' van het Engels die men nodig heeft voor de studie Psychologie.

Test voor het vaststellen van iemands bekwaamheid op het gebied van de exacte
vakken, bestaande uit 40 vier-keuze items. Deze test geeft een evaluatie van het onder-
richt dat men heeft genoten in de beta-wetenschappen.

Deze test bestaat uit 30 opgaven van het type: A = B en B > C, wat is de relatie tussen
A en C, voor het meten van de Guilford factor CMS, de vaardigheid om gecompliceer-
de conceptuele structuren te begrijpen. Aan deze factor wordt in het onderwijs in- of
expliciet nogal veel belang gehecht. Of hij ook een rol speelt in het verwerven van
nieuwe kennis is waarschijnlijk erg afhankelijk van de aard van het vak wat betreft de
rol die formele of abstracte structuren daarin spelen (zie b.v. Kunst, 1978).

Deze test bestaat uit 70 uitspraken omtrent psychologische fenomenen, waarvan men
moet aangeven of deze uitspraken juist of onjuist zijn dan wel dat men dit niet weet.
Vragenlijst voorbereiding eerste propedeuse-tentamen.

In deze vragenlijst werd na afloop van het eerste tentamen geïnformeerd naar de inzet
bij de voorbereiding, of men gebruik had gemaakt van de geboden onderwijsfacili-
teiten, welke moeilijkheden men had ondervonden, wat de aard was van de gepleegde
voorbereidingsaktiviteiten, of men tevreden was over de gevolgde voorbereidingsstra-
tegie etc.

De propedeuse bestaat uit zeven tentamens, n.1. drie tentamens Inleiding in de Psycho-
logie, één tentamen Geschiedenis van de Psychologie, twee tentamens Statistiek en één
tentamen Testleer.

Deze tentamens worden in de loop van het eerste jaar afgenomen, het eerste tentamen
(Inleiding in de Psychologie, deel A) eind oktober, het laatste tentamen (Testleer) half
mei.

In principe moet men zeven tentamens afleggen om voor de propedeuse te kunnen
slagen; het aantal tentamens dat in de praktijk wordt afgelegd varieert van O t/m 7.
Birmen deze verschillende mogelijkheden bevinden zich de studenten, die in feite de
studie in de loop van het eerste jaar hebben gestaakt.

Nadat alle tentamens zijn afgenomen kan van alle ingeschreven eerste jaars bepaald
worden hoeveel tentamens zij daadwerkelijk hebben afgelegd.
Het aantal behaalde punten.

Het totaal aantal behaalde punten voor de propedeuse wordt bepaald door het voor elk
tentamen afzonderlijk bepaalde aantal te sommeren.

Het aantal punten dat men voor elk afzonderlijk tentamen kan halen is niet voor elk

tentamen hetzelfde; sommige tentamens leveren aanzienlijk meer op dan andere (en

bestaan dan ook uit meer items), wel bestaan alle tentamens uit meer-keuze vragen,

In de praktijk is het mogelijk dat men 189 punten of meer behaalt met minder dan

Aan de subfaculteit Psychologie van de Universiteit van Amsterdam zijn alle eerste jaars
Verplicht tot deelname aan de z.g. testweek, waardoor het onderzoekers van de subfacul-
teit mogelijk wordt gemaakt schriftelijk testmateriaal af te nemen aan een grote groep
Proefpersonen. In de testweek van november 1978 werden genoemde tests en vragen-
%ten afgenomen, behalve de vragenlijst over de voorbereiding van het eerste tentamen,
die direct na afloop van dat tentamen werd afgenomen.

{" principe treft men hier de gehele eerste jaars populatie, maar door allerlei omstandig-
heden, die wisselende aantallen deelnemers per test tot gevolg hebben, heeft men uitein-
delijk te maken met een grote steekproef, waarvan de grootte bovendien per test kan
Verschillen. Omdat van alle testweekdeebiemers bovendien afzonderlijk toestemming

moet worden gevraagd om hun testweek gegevens te mogen gebruiken in verband met
andere gegevens (zoals in dit geval tentamen-uitslagen) bedraagt de omvang van de uitein-
delijke steekproef 176 eerstejaars, waarvan 52% van het manlijk en 48% van het vrouwe-
lijk geslacht en in leeftijd variërend van 17 jaar tot ouder dan 40 (M = 22, SD = 4.6).
In mei konden bij deze testweekgegevens de propedeuseresultaten van de betrokkenen
gevoegd worden om de onderlinge relaties te bepalen.

Na scoring van de tests en propedeuse-resultaten werd van elke proefpersoon een over-
zicht verkregen van zijn prestaties op de tests en tentamens. De gegevens over de tests zijn
samengevat in Tabel 1.

Hierbij moet worden aangetekend dat de verdelingen van de gemiddelde eindexamen-
cijfers niet normaal zijn; met een onvoldoende zou men zich niet in de steekproef bevin-
den, omdat men dan voor het eindexamen gezakt zou zijn.

De verdeling van de scores van de andere maten was redelijk normaal, althans op het oog;
°e verdelingen zijn niet getoetst op normaliteit. Voor alle tentamens, die in multiple
choice vonn worden afgenomen behalve het tweede Statistiek tentamen, zijn drie score-
Punten belangrijk: de maximaal mogelijke score, de 70%-score vanaf waar men zich als
geslaagd voor dat onderdeel kan beschouwen en de ondergrensscore, waaronder geen
compensatie mogelijk is.

Dok de vragenlijst over de voorbereiding van het eerste tentamen werd gescored. De
■"esultaten hiervan zijn neergelegd in een afzonderlijk verslag. Over alle verzamelde gege-
vens werd een correlatie-matrix berekend middels het programma PEARSONCORR, dat
opgenomen in SPSS (Statistical Package for the Social Sciences). Deze correlatie-matrix
berekend over 161 personen, zijnde de studenten, die minstens één tentamen hadden
afgelegd. Het interpreteren van de resultaten van een dergelijke omvangrijke correlatie-
jnatrix is een moeizame bezigheid, die om vereenvoudiging vraagt. Bovendien kan men
Wemit alleen lezen wat de correlaties van elke afzonderlijke variabele zijn met de kriteria.
Het is dus zaak een nadere analyse te plegen van de correlatie-matrix waarmee tevens
nagegaan zou kunnen worden hoe de variabelen in samenhang bijdragen tot de gekozen
Criteria. Gekozen werd voor een regressie-analyse, waarvoor de oorspronkelijke correla-
l^ie-matrix echter te omvangrijk was. Met name de vragenlijst over de voorbereiding van
het eerste tentamen leverde een hoeveelheid variabelen die niet allemaal in de analyse
betrokken konden worden. Bij het vergelijken van de studenten die voor de propedeuse
geslaagd waren met die welke voor de propedeuse gezakt waren was gebleken dat variabe-
len uit deze vragenhjst die de aard van de voorbereiding beschreven tussen deze beide
poepen niet differentieerden, maar variabelen die te maken hadden met de inzet getoond
de voorbereiding of iets van de omstandigheden weergaven wel differentieerden tussen
deze beide groepen. Op grond hiervan werden de volgende variabelen geselecteerd voor de
"■egressie-analyse:

Var. 01 hoe goed heeft u dit (het eerst) tentamen, naar uw eigen idee, voorbereid

zeer slecht 1—2—3—4—5 zeer goed
Var. 03 aantal uren aan de voorbereiding besteed (achteraf geschat)
Var. 04 hoe regelmatig heeft u aan de voorbereiding gewerkt

zeer onregehnatig 1—2—3—4—5 zeer regelmatig
Var. 05 ik heb geheel alleen aan de voorbereiding gewerkt, zonder contact met mede-
studenten (score: O of 1)
Var. 17 hoeveel vragen heeft u op het responsie-college gesteld (antwoordmogelijkheden

variërend van 'geen' t/m 'op elk responsiecollege één of meer, (score: O t/m 4)
Var. 39 ik had moeihjkheden om vast te stellen of ik het tentamen voldoende goed had

voorbereid om voor het tentamen te kunnen slagen (score: O of 1)
Var. 55 ik heb net zo lang doorgeleerd tot ik het gevoel had de stof volledig te beheersen
(score: O of 1)

Variabelen die de intellectuele uitrusting en andere examen-situaties betreffen
Var. 77 Engels lezen
Var. 78 Vocabulaire test

Resultaten regressie-analyse met als kriterium het punten-totaal van de pro-
Pedeuse-tentamens ___

Resultaten regressie-analyse met als kriterium het aantal afgelegde tenta-
niens gedurende het eerste jaar.__

R	R'	toename v. R'	B
.31 .39	.10 .15	.10 .06	1.10 4.32
.46 .50	.21 .25	.06 .04	11.17 1.97
.53	.28	.03	7.22

Resuhaten regressie-analyse met als kriterium geslaagd (1) of gezakt (O)zijn
Voor de propedeuse. _______

var. 79 Kennis van de Psychologie
var. 80 Kennis test C
var. 103 gemiddeld landelijk examencijfer
var. 104 gemiddeld schoolexamencijfer

var. 106 ik heb besloten tot de studie psychologie omdat ik me interesseer voor algemene

psychologische theoriëën
var. 107 idem, omdat ik me interesseer voor zuiver wetenschappelijk onderzoek
var. 108 idem, omdat ik later graag mensen, die psychische problemen hebben, wil helpe"
(score voor deze variabelen O of 1)

In tabel 3 is de correlatie-matrbc van alle in de analyse betrokken variabelen weergegeven-
Bij de intellectuele variabelen is de test Conclusies III weggelaten, omdat in de oorspron-
kelijke matrix was gebleken, dat deze test eigenlijk nergens mee correleerde, noch me^
andere intellectuele variabelen, noch met enige kriterium-variabele.
Toegevoegd zijn een aantal studiemotieven, uit de vragenlijst over de vooropleiding, oifl
ook nog een ander domein in de vergelijking op te nemen.

De weergegeven 'kleine' correlatie-matrix werd geanalyseerd met een stepwise regressie*
analyse (programma REGRESSION UIT SPSS), welke procedure de onafhankelijke varia-
belen kiest die de best mogelijke voorspelling verschaffen met de minst mogelijke hoeveel-
heid variabelen. De resultaten zijn weergegeven in Tabel 4, 5 en 6.

De belangrijkste bijdragen aan de multiple correlatie worden geleverd door de in tabel 4
vermelde variabelen. Met noch acht andere variabelen, die elk een veel geringere bijdrag®
leveren, loopt deze multipele correlatie op tot 0.58.

Uit deze resultaten kunnen we konkluderen, dat het behaalde puntentotaal afhankelijk is
van een aantal intellectuele variabelen, die kwa inhoud veel overeenkomst hebben met de
studietaken die van de student gevraagd worden en de inzet die men aan de dag heeft
gelegd bij de voorbereiding van het eerste tentamen.

Het aantal afgelegde tentamens is van andere factoren afhankelijk, die grofweg gezegd
meer in de motivationele sfeer liggen en betrekking hebben op het gedrag in vroeger®
leersituaties. Het gemiddeld landelijk eindexamencijfer heeft echter een negatief B-effect,
hetgeen niet eenvoudig is te verklaren. Het kan te maken hebben met het feit, dat een
landelijk eindexamencijfer de uitdrukking is van een éénmalige prestatie, terwijl het aantal
afgelegde tentamens juist een maat is voor iemands vermogen om een reeks prestaties,
gespreid in de tijd, te leveren.

Slagen of zakken voor de propedeuse is afhankelijk van een combinatie van de factoren
die verantwoordelijk zijn voor de beide andere kriteria, welke, zoals gezegd, voorwaarden
vormen om te kunnen slagen voor de propedeuse. Dit is een zerer bevredigend resultaat.
Om te kunnen slagen voor de propedeuse moet men enige inzet vertonen bij de voorberei-
ding van het eerste tentamen (goed voorbereiden en regelmatig werken), getoond hebben

dat men in vroegere situaties, waarin ook de uiteindelijke waardering afhankelijk was van
een complex van omstandigheden (schoolexamencijfer) uit de voeten kon, beschikt over
een aantal vaardigheden die voor de aard van de gevraagde leerprestaties van belang zijn
(kennis van de psychologie, kennis van de natuurwetenschappen, kennis van de Engelse
taal) en een brede belangstelling.

^e kunnen daarmee vaststellen dat de prestaties van deze jaargang eerstejaars substantiële
relaties hebben met hun aanvangseigenschappen en hun gedrag tijdens de propedeuse op
een zodanige wijze dat zinnige interpretaties mogelijk zijn.

ln eerste instantie kunnen we konkluderen, dat het onderzoek opmerkelijke en onver-
dachte resultaten heeft opgeleverd. Studieprestaties, althans binnen deze beperkte popu-
latie, blijken wel degelijk te beschrijven in daarvoor doorgaans relevant geachte termen,
^ij achten dit resuhaat voor een groot gedeelte inderdaad te danken aan het door Elshout
(1977) benadrukte principe van 'similarity' tussen 'testsituatie' aan de ene kant en 'krite-
riumsituatie' aan de andere kant. Elshout onderscheidt aan dit principe drie componen-
ten: 1. similarity of content; 2. similarity of process; 3. similarity of format.
Inhoudelijk vertoont de test Kennis van de Psychologie waarschijnlijk de meeste overeen-
komst met althans een deel van de propedeuse tentamens. Er zijn immers drie tentamens
Inleiding in de Psychologie, waarvan de aard van de te verwerven informatie overeenkomt
niet de aard van informatie waar de test op berust; de test bevat items die een beroep
doen op zuivere kennis van psychologische feiten (b.v. Het minderwaardigheidscomplex
speelt een centrale rol in de theorie van Adler), maar ook items die beantwoord kunnen
dorden op grond van inzicht in psychologische fenomenen en de mogelijkheden van de
psychologie als wetenschap (b.v. Een van de belangrijkste psychologische bevindingen is,
dat de mens een rationeel denkend wezen is). De resultaten van deze test zijn echter,
helaas, enigszins gecontamineerd, doordat de test werd afgenomen, nadat het eerste pro-
pedeuse tentamen (Inleiding in de Psychologie, deel A) reeds had plaats gevonden. Door
de voor dit tentamen verantwoordelijke docent werd geconstateerd dat 30 van de 70
items van de test beantwoord konden worden op grond van kennis van deze tentamen
stof De correlaties van deze test met de andere propedeuse tentamens waren echter ook
aanzienlijk, behalve met de Statistiek-tentamens Ónl. in de Psych., deel A: .40, Inl. in de
l'sych., deel B: .36, Inl. in de Psych., deel C: 41, Geschiedenis v.d. Psych.: .37, Testleer:
•37, het totaal van de beide Statistiek-tentamens: .11).

Inmiddels is deze test geschoond van de contaminerende items en opnieuw afgenomen,
niet hetzelfde resultaat.

Oni de informatie over de psychologie en de statistiek te kunnen bereiken is kennis van de
engelse taal noodzakelijk; de informatie over deze onderwerpen wordt in het engels
Verstrekt. Dit verklaart de rol die de test Engels lezen speelt.

l^ennis van de natuurwetenschappen (of een klassieke B-opleiding) is echter ook belang-
^jk, waarschijnlijk zowel omdat er inhoudelijk een beroep op wordt gedaan (statistiek,
fysiologische en funktieleer onderwerpen in de psychologie) alsook omdat er proces-
niatige overeenkomsten zijn. We denken b.v. aan het beschikken over en kunnen toepas-
sen van abstracte structuren, kunnen omgaan met formules, lezen en interpreteren van
grafieken etc. Een aanwijzing hiervoor kunnen we vinden in het feit dat de test Conclusies

III, de test voor de Guilford-factor (CMS) die aan dit soort processen appelleert, allee"
enige correlatie vertoont met de Kennis test C (.28).

Van de propedeuse resultaten was bekend, dat zij beïnvloed worden door het feit of
studenten wel of geen wiskunde-toets af moeten leggen tijdens de propedeuse. Welke rol
kennis van de wiskunde alszodanig speelt is onduidelijk. Het eindexamen voor wiskunde
zou hiervoor een indicatie kunnen zijn, maar we hebben dit in dit onderzoek niet betrok-
ken, omdat slechts 60% van onze studenten beschikt over een eindexamencijfer voor
wiskunde. Onze poging om dit probleem te ondervangen met de test Conclusies lH
(wiskundecijfer en Conclusies zijn beide maten voor de factor CMS) kan als mislukt
worden beschouwd. In een volgend onderzoek zal daarom een wiskunde-toets worden
afgenomen om de rol van kennis van de wiskunde in het studieverloop te kunnen bepalen.
Overeenkomst in 'format' kan geconstateerd worden tussen de wijze waarop schoolexa-
men resultaten tot stand komen en de wijze waarop het propedeuse resultaat tot stand
komt. Beide eindscores zijn de resultante van een reeks toetsen, waarvan de afzonderlijke
scores (geheel of gedeeltelijk) compenseerbaar zijn. Dergelijke regelingen ten nutte kun-
nen aanwenden vereist waarschijnlijk van iemand hele bepaalde kwaliteiten: planning over
langere tijd, geconcentreerd blijven op een in tijd verder verwijderd uiteindelijk doel
middels een aantal subdoelen, flexibele voorbereiding met het oog op de kwaliteit van de
gewenste prestatie (b.v. een 'acht' kunnen halen om een 'vier' te compenseren), de rege-
ling en haar consequenties goed overzien, subdoelen aan kunnen passen op grond van de
resultaten en ervaringen met eerdere subdoelen etc. etc. De ervaringen die men opdoet in
dergelijke situaties kunnen kennelijk nuttig zijn wanneer men met aanverwante situaties
geconfronteerd wordt. Het gemiddeld landelijk eindexamencijfer, dat op een geheel ande-
re wijze tot stand komt, speelt een heel onduidelijke rol. Hoewel we met het verkregen
resultaat geenszins ontevreden waren, moest toch worden geconstateerd dat met een
multipele correlatie van .58 slechts 33% van de variantie in het kriterium-gedrag wordt
verklaard. Dit roept de vraag op of er mogelijkerwijs nog andere factoren zijn die mede-
verantwoordelijk zijn voor het studieverloop van eerste jaars danwel dat studieprestaties
toch voor een deel van het toeval afhankelijk zijn.

Wanneer je het studieverloop van de eerste jaars bekijkt blijkt dat een deel van hen na
kortere of langere tijd eigenlijk geen pogingen meer doet om de propedeuse daadwerkelijk
te halen en dat er daarnaast studenten zijn die een zeer 'irrationeel' gebruik maken van de
propedeuse-regeling (studenten, die wel een voldoende punten-totaal hebben behaald,
maar toch zij gezakt omdat ze één of meer tentamens niet hebben gedaan, of voor één of
meer tentamens de ondergrensscore niet hebben gehaald). Omdat het ons in dit onder-
zoek te dóen was om het vaststellen van een relatie tussen aanvangseigenschappen van
studenten en hun studieverloop gedurende het eerste jaar en niet om het probleem van de
uitvallers en andere 'irreguliere' gedragingen, leek het zinvol de gevolgde analyse-procej
dures te herhalen met een steekproef van wat men zou kunnen noemen de 'reguliere'
studenten. Deze steekproef bestond uit 111 studenten. De resultaten zijn samengevat in
Tabel 7 en 8.

Wanneer we deze resultaten vergelijken met de resultaten van de analyses van de 'grote'
steekproef (waarbij we de analyse met het kriterium 'aantal afgelegde tentamens' achter-
wege hebben gelaten, omdat dit veel van zijn zin verloren had) dan vallen er opmerkelijk®
overeenkomsten te constateren. Voor het kriterium slagen of zakken zijn de resultaten
praktisch identiek, voor het kriterium totaal-score krijgen we de'zelfde predictor-varia-
belen te zien, zij het in een iets gewijzigde volgorde. Dit kan te danken zijn aan het fei*

Resultaten regressie-analyse met als kriterium punten-totaal, bij geredu-
'^«erde steekproef.

Resultaten regressie-analyse met als kriterium geslaagd of gezakt zijn voor
"e propedeuse, bij gereduceerde steekproef.

Kennis v.d. Psychologie
Studiemotief: belangstelling
^oor algemene theorieën
Studiemotief: belangstelling
^oor zuiver wetenschappelijk

dat de correlatie-matrixen niet identiek zijn, hoewel de afwijkingen gering zijn. Wel is erin
de 'kleine' steekproef een variabele bijgekomen,.n.l. het studiemotief: belangstelling voor
algemene theorieën. In beide gevallen is de multipele correlatie echter aanzienlijk omhoog
gegaan, meer dan op grond van de reduktie van de steekproef verwacht kan worden. Dit
'betekent, dat wanneer studenten daadwerkelijk een poging ondernemen om te trachten
aan de voorwaarden te voldoen om voor de propedeuse te kunnen slagen de kwaliteit van
bnn prestatie en hun slagen of zakken zeer redelijk beschreven kan worden in termen van
intellectuele en andere noodzakelijke voorwaarden.

De wijze waarop in dit onderzoek de relatie tussen aanvangseigenschappen en studiever-
Joop beschreven wordt kan vragen oproepen.
Ten eerste wat betreft de kriterium-variabelen.

We hebben er al op gewezen dat het belangrijkste kriterium (slagen of zakken) de uit-

R		toename v. R^	B
.45	.20	.20	0.17
.55	.31	.10	0.15
.61	.38	.07	0.12
.65	.42	.04	0.27
.66	.43	.02	-0.21
.67	.45	.02	0.21
.68	.47	.02	0.20
.70	.49	.02	0.60

komst is van een complex van voonvaarden en handelingen die op ingewikkelde ^^
moeilijk formaliseerbare wijze samenhangen. Men zou het kriterium-gedrag waarschijnlijl'
meer recht doen wanneer dit gehele complex was te vatten in een model voor het studie-
verloop.

We raken hier het probleem van de examenregeling waar we van uit moesten gaan en
waarvan blijkt dat het doel van deze regeling niet overeenkomt met de praktijk, waardoor
er een extra bron van te verklaren gedrag ontstaat, n.1. niet slagen voor de propedeuse en
niet voldoen aan de voorwaarden om te kunnen slagen. Door het hanteren van enkelvoU'
dige kriteria, zoals in dit onderzoek, dekt men de bestaande situatie niet.

Met verwijderen van 'irreguliere' studenten uit de steekproef, zoals gedaan in de analyses,
die in deze diskussie beschreven zijn, komt men wel enigszins aan het probleem tegemoeti
maar voor de praktijk van het onderwijs blijft daarmee het probleem liggen hoe dit
irreguliere gedrag te verklaren of, met andere woorden, waarom het voor velen kennelijl'
zo moeilijk is om aan de gestelde voorwaarden te voldoen. Hanteert men dergelijk®
examenregelingen dan wordt het noodzakelijk op deze vraag in te gaan.
Een tweede punt betreft de aanvangseigenschappen. Bg het beschrijven van de relatie tussen
aanvangseigenschappen en een bepaald kriterium gedrag middels een regressie-analyse gaat
men er van uit dat elke in de regressievergelijking betrokken eigenschap (predictor-varia-
bele) een onafhankelijke bijdrage levert aan het kriterium. De eigenschappen die wij in de
regressievergelijking hebben betrokken vertonen onderling echter wel degelijk bepaalde
relaties: school- en landelijke eindexamenprestaties zijn zeker niet onafhankelijk van el-
kaar, schoolprestaties en studiemotieven zouden wel eens medebepalend kunnen zijn voof
de inzet die men tijdens de studie aan de dag legt. Bovendien gaan schoolprestaties
temporeel vooraf aan het studiegedrag en kunnen variabelen die de intellectuele uitrusting
betreffen, wanneer ze opgevat kunnen worden als uitingen van iemands intellectuele
potentie, ook verantwoordelijk gesteld worden voor deze schoolprestaties. Over de aard
van de onderlinge relaties tussen deze variabelen kan gespeculeerd worden; aannemelijk is
in ieder geval dat zij onderling niet onafhankelijk zijn. Een regressie-vergelijking is daar-
door waarschijnlijk een erg simpele weergave van de feitelijke structuur en nadere analyse»
waarbij aan de onderlinge verhouding tussen de predictor-variabelen aandacht kan worden
geschonken (b.v. middels pad-analyses), verdient aanbeveling. Daarnaast zal het uiteraard
nodig zijn het gehele onderzoek als zodanig te herhalen bij volgende jaargangen eerste
jaars, om de gevonden relaties te kunnen bevestigen.

Astin, A. Predicting Academic Performance in College. New York: Free Press, 1971.

Crombag, H.F., Gaff, J.G. en Chang, T.M. Study Behavior and Academic Performance. Tijdschrift voO'

Onderwijsresearch, 1915,1,3-14.
Elshout, J.J. Predicting the validity of predictors of academic performance. Tijdschrift voor Onderwip'
research, 1911, 3, 2A-31.

Kunst, H. Cognitie van Semantische Systemen; Strategieën en Representaties bij een Structure ol

Intellect Vaardigheid, Acad. Proefschrift, Univ. v. A'dam, 1978.
Lavin, D.E. The prediction of academie performance, New York: Wiley & Sons, 1965.

^"ght maakte al in 1960, tijdens een bezoek van Rasch aan Chicago, kennis met het Raschmodel en
^as daarmee een van de eersten buiten het scandinavische taalgebied. Lange tijd is hij ook de enige in
Verenigde Staten geweest die zich voor dit onderwerp interesseerde en er onderzoek aan verrichtte,
ligt niet in de laatste plaats aan hem zelf. Pas sinds 1977 verschijnen er met regelmaat artikelen van
^'Jn hand; daarvoor moeten we het alleen doen met een gepubliceerde voordracht die in 1967 gehou-
werd op de E.T.S. Invitational Conference on Testing Problems en zijn - overigens zeer bekende
^ artikel met Panchapakesan (Wright, 1968; Wright & Panchapakesan, 1969). Zo is er bijvoorbeeld
^Per bekend dat Wright reeds in het midden van de zestiger jaren aan de voorwaardelijke meest
®®nnemelijke schatting van de Raschparameters heeft gewerkt - een onderwerp dat door de bijdragen
Andersen en Fischer pas na 1970 de aandacht trekt -, maar dat hij dit afsloot vanwege numerieke
onnauwkeurigheid bij grotere aantallen items, dezelfde onnauwkeurigheid die er de oorzaak van is dat
^'scher's bekende programmatuur slechts bij korte tests met succes gebruikt kan worden.

goed, nu is er dan een boek van Wright, tezamen met Stone geschreven, dat de lezer in een keer
•"formeert over het Raschonderzoek dat de laatste tien jaar in Chicago plaats heeft gevonden. Som-
''"ge onderwerpen zijn te vinden in de recente artikelen van Wright; het merendeel betreft evenwel
onderzoek dat alleen via interne onderzoeksmemoranda vastgelegd is. Het boek heeft ruim 200 pagi-
■^'s, die een uitgebreid voorwoord en een aantal hoofdstukken met ieder een ander psychometrisch
onderwerp bevatten. We bespreken deze in de volgorde waarin ze in het boek aangetroffen worden.

voorwoord, dat konsekwent 'forward' genoemd wordt - een hardnekkige typefout? Of een be-
vloeide woordspeling? is eigenlijk een eerste hoofdstuk en geeft een historische weergave van het
Probleem waarmee men bij de eerste tests in het begin van deze eeuw al worstelde, namelijk dat van de
^bsolute, testonafhankelijke schaal. In de specifieke objektiviteit van het Raschmodel vindt dit pro-
''leem een fraaie oplossing. Het omvangrijke oeuvre van Lord wordt in dit overzicht slechts met één zin
^gedaan. Degenen die van de ontwikkelingen in de amerikaanse psychometrie en haar heroïsche strijd
lassen de 'l-parameter' en '3-parameter school' op de hoogte zijn, zullen aUicht begrijpen waarom,
eerste hoofdstuk 'The measurement model' bouwt op een zeer inzichtelijke wijze het Raschmodel
Het doet dit onder het gezichtspunt van de absolute schaal waarop personen en items door meting
calibratie een positie toegewezen krijgen. En passant wordt met behulp van duidelijke figuren
^^illustreerd hoe de klassieke testscoring tot ongerijmde uitkomsten kan leiden. In dit hoofdstuk is
®v«neens een korte inleiding opgenomen in de ML-schatting van de Raschparameters. Daarnaast wordt
procedure PROX geïntroduceerd, komt Wright's modeltest even aan de orde en vindt een vergelij-
king tussen Raschparameters en de traditionele itemindices plaats.

l^e beide volgende hoofdstukken heten 'Item calibration by hand' en 'Item caUbration by computer'
geven een behandeling van de procedures PROX en UCON voor het Raschmodel. UCON is de
Onvoorwaardelijke meest aannemelijke schattingsmethode van Wright en Panchapakesan (1969), aange-
^Id met een later opgestelde correctiefactor die geacht wordt de onzuiverheid te neutraliseren die
methode wel en de voorwaardelijke methode niet bezit. PROX is een benadering van UCON die
■^ormaal verdeelde item- en persoonsparameters veronderstelt en verwantschap vertoont met de heuris-
Jj^che schattingsmethode voor het normaalogief model. Beide hoofdstukken hanteren de didaktiek van
kookboek en geven aan de hand van een voorbeeld van de output van Wright's computerprogram-
BICAL stap voor stap de formules. De discussie die deze gewoonlijk oproept, is hier natuurlijk ook
toepassing. Misleidend is het feit dat in ieder van de drie hoofdstukken aUe formules uit PROX
^®8even worden, maar dat soms de notatie, de layout van de formules of de gekozen indicering wat
^®fschilt. Volgens de eerste paar zinnen van het voorwoord is dit een praktisch boek dat bestemd is

voor de lezer die wil leren hoe Raschmetingen verricht worden. Het lijkt me evenwel dat deze kateg"'
rie met een dergelijke overdaad en de verwarring die ze kan scheppen niet gediend is.
Het vierde hoofdstuk 'The analysis of fit' geeft Wright's test voor itemrespons, item en persoon W'
zoals deze bijvoorbeeld in BICAL geïmplementeerd is. Statistisch rammelt deze test. Ze is gebaseef"
op een hele reeks benaderingen, waarvan de grofste wel de normaalbenadering van de dichotoif^
(!) verdeling van itemresponsen is.

De laatste vier hoofdstukken geven toepassingen van het Raschmodel. Hoofdstuk vijf 'Constructing'
variable' is een van de mooiste hoofdstukken in dit boek. Het laat zien hoe gcdragswetenschappelij'''
variabelen geconstrueerd en geïnterpreteerd kunnen worden door na te gaan hoe eigenschappen va"
gecalibreerde items met de onderliggende dimensie variëren. Dit plaatst de klassieke validiteitsprobl«'
matiek binnen een geheel nieuw kader. Daarnaast laat dit hoofdstuk zien met behulp van wcU"^
testafnamen items en personen op een gemeenschappelijke schaal gebracht en dus item banks opg^'
bouwd kunnen worden.

Het volgende hoofdstuk 'Test Design' werkt ideeën over testontwikkeling uit die Birnbaum in zij"
bijdrage aan Lord en Novick's boek voor het eerst naar voren heeft gebracht. Wright gebruikt e®"
benadering waarin gemiddelde, range en vorm van de verdeling van itemparameters en testlengt^
zodanig gekozen worden dat dc standaardmeetfout voor de te meten populatie van personen minimaa'
is. Lord's benadering, waarin niet een populatie personen maar de gewenste vorm van de informati«'
funktie als target gekozen wordt, lijkt niet alleen eleganter maar ook flexibeler. Andere dan uniforifl'
of normale populaties komen in dit hoofdstuk niet aan de orde, evenmin als het probleem van d®
testontwikkeling voor optimale beslissingen.

In het voorlaatste hoofdstuk 'Making measures' worden hoofdzakelijk twee onderwerpen behandeld'
namelijk tailored testing en de identifikatie en interpretatie van slecht passende responspatronen. Daa*'
naast worden opnieuw PROX en UCON besproken, dit keer in gezelschap van UFORM, een schattingS'
methode die uniform verdeelde parameters veronderstelt. Ook hier worden de formules met e®"
minimum aan toelichting gegeven.

In hoofdstuk acht 'Choosing a scale' worden een aantal mogelijkheden besproken om door keuze va"
locatie en eenheid item- en persoonsparameters een gemakkelijk interpreteerbare schaal te geven.

Laat ik beginnen met dit boek ter lezing aan te bevelen. De lezer die geïnteresseerd is in het Raschm"'
del vindt de amerikaanse ontwikkelingen keurig bij elkaar gebracht. Ook de meer inhoudelijke ondef
wijskundige doet er goed aan van de inhoud van dit boek kennis te nemen. Door de bekende 'AER^
prc-sessions' van Wright heeft het Raschmodel ingang gevonden in de amerikaanse onderwijsreseard'
en grijpt het aantal toepassingen snel om zich heen.

Zonder dit op deze aanbeveling in mindering te willen brengen, moet ik toch kwijt dat het boek ooK
een aantal bezwaren kent. Deze worden duidelijk als we het naast het boek van Fischer legge"
(Fischer, 1974). In zekere zin vertegenwoordigen beide boeken verschillende culturen. Fischer's boe"
is veel grondiger, completer en 'europeser'. Bovendien gaat het op tal van uitbreidingen en verbijzonde'
ringen in die in Wright en Stone's boek niet eens genoemd worden. Wright en Stone zijn veel pragnia*
tischer, minder diepgravend en 'amerikaanser'. Computerprogrammatuur en benaderingen gaan vooi'
op, de laatsten vaak geheel los van hun vooronderstellingen en konsekwenties. Wie dit boek door wjl
nemen doet er daarom goed aan Fischer eerst te lezen. Wie Fischer al gelezen heeft moet vooral oo"
kennis nemen van Wright en Stone. Het behandelt een aantal onderwerpen onder een verrassend
gezichtspunt en geeft nieuwe toepassingen.

Fischer, G.H. Einführung in die Theorie psychologischer Tests. Bern: Verlag Hans Huber, 1974. .
Wright, B.D. Sample-free test calibration and personel measurement. In Proceedings of the 196'
Invitational Conference on Testing Problems. Princeton, N.J.: Educational Testing Service, 196®-
Wright, B., & Panchapakesan, N. A procedure for sample-free item analysis. Educational and Psyche
logical Measurement, 1969,29, 2348.

"''ly school Leavers in Australia
Stockholm, Almqvist & Wiksell International, 1978

"st boek dat als nr. 7 verschenen is in de reeks lEA Monograph Studies bevat het verslag van een
^»Qerzoek dat in Australië is verricht naar kenmerken waarin 16-jarige schoolverlaters zich
^"Verscheiden van leeftijdgenoten die verkozen hebben de schoolbanken niet te verlaten. Evenals in
,, . ändere landen komen scholieren in Australië in verband met het aflopen van de leerphcht op
^■jarige leeftijd voor deze beslissing te staan. De gegevens voor het onderhavige onderzoek werden in
'2 verzameld bij 16-jarige jongeren die in 1970 hadden deelgenomen aan het lEA Science Project in
"stralië. Bijzonderheden omtrent het steekproef-design, standaardfouten en responspercentages
j;°rden in hoofdstuk 4 vermeld.

onderzoek richtte zich op de volgende vier kernvragen: ln termen van welke milieu en persoonlijke
ctoren onderscheiden de schoolverlaters zich van de 'schoolblijvers'? Welke relaties zijn er tussen
factoren? In welke mate liggen deze relaties voor jongens anders dan voor meisjes? Zijn er voor
^at betreft deze relaties nog verschillen tussen de zes Australische staten?

'J het uitwerken van het onderzoekskader in hoofdstuk 2 mikt Rosier op twee doelstellingen,
^nerzijds wil hij, juist omdat er omtrent deze materie nog weinig bekend is, zoveel mogelijk factoren
. kader betrekken om zodoende bij wijze van exploratie de relatieve relevantie van deze factoren
® kunnen beoordelen.

^oerzijds mikt hij, zoals het een goed onderzoeker betaamt, op het handhaven van het
uiigheidsprincipe bij het karteren van relaties tussen factoren. Dit spanningsveld tussen veelheid en
g,'"ligheid lost hij op door het begrippenkader op te bouwen uit blokken verklarende factoren, waarbij
^ blok is samengesteld uit verwante factoren die niet alleen inhoudelijk maar ook qua chronologische
®'gorde van optreden dicht bij elkaar staan. Vervolgens postuleert Rosier causale relaties tussen de
Ve^H Terecht noemt hij dit bouwwerk een begrippenkader en niet een theorie daar het geheel niet
jjfdet komt dan het beschrijven van gedrag en (causale) relaties tussen gedragsmomenten,
t Vaststellen van motieven van het beschreven gedrag blijft buiten de picture, zodat hiermee nog
duidelijke stap wordt gezet in de richting van een psychologische en/of sociologische theorie
^•O-t. de desbetreffende keuze van de 16-jarige scholieren.

de hand van het begrippenkader kiest Rosier voor een gefaseerde analyse-strategie. In hoofdstuk 5
de auteur vrij uitvoerig in op de methodologische overwegingen bij de keuze van de
g ^ysestrategie en techniek. De analyse van de resultaten verloopt in twee opeenvolgende fasen.
[ v®ndien worden beide fasen voor de zes afzonderlijke staten uitgevoerd.

eerste fase onderwerpt hij elk afzonderlijk blok aan een 'Multiple Classification'-analyse (MCA,
y. "multiple regressie voor categorische predictoren) om zodoende zicht te krijgen op de relevantie
^ de in het desbetreffende blok opgenomen factoren voor het uiteindelijke criterium: de beslissing
^ de school wel of niet te verlaten.

begrippenkader bevat vier blokken. Het eerste blok beschrijft het gezinsmilieu van de scholier in
van ouders, broers en zusjes, die mogelijk als 'significant others' van invloed zijn op het
j t®fiumgedrag van de scholier. Het tweede blok betreft een karakterisering van de school van de
. "olier in termen van leraren en medescholieren, die eveneens mogelijk als 'significant others' van
loed zijn op het criteriumgedrag,
derde en vierde blok bevatten op het onderwijs betrekking hebbende persoonskenmerken gemeten
de 16-jarige leeftijd. Gedetailleerde beschrijvii^en van de blokfactoren worden gegeven in

hoofdstukken 6 t/m 9 waarin tevens de operationalisaties van de factoren worden beschreven. Het
ïtste gebeurt nogal summier - gegevens over betrouwbaarheid en validiteit van gebruikte
^®®tinstrumenten worden niet gegeven.

elk afzonderlijk blok worden in deze hoofdstukken de resultaten van de MCA-procedure
'Voerig beschreven. Naast de voor multiple regressie analyse gebruikelijke coëfficiënten als eta- en
, «gewichten en bespreekt Rosier zowel verbaal als met behulp van grafieken de relaties
jS®corrigeerd en gecorrigeerd, d.w.z. bij constanthouding van de andere factoren in het blok) tussen
y.' criterium en de afzonderlijke factoren. Op grond van deze analyses bepaalt hij voor elk
^^onderlijk blok welke onderzochte factoren voldoende relevant zijn om 'meegenomen' te worden in
, " uit relevante factoren samengestelde variabele.

tweede fase werkt Rosier een pad-analyse model uit voor causale relaties tussen de voor elk blok
s ""ingestelde variabele en het criterium. In hoofdstuk 10 behandelt de auteur op heldere wijze de
Pacificatie van het causale pad-analyse model en de schatting van de parameters.

Naast een landelijk pad-diagram met daarin de mediane (uit zes staat-gebonden analyses)
pad-coëfficiënten werkt Rosier tevens voor elke afzonderlijke staat een gemodificeerd pad-diagram uf-
De afzonderlijke pad-diagrammen blijken niet dramatisch af te wijken van het landelijke diagram.
In het laatste hoofdstuk geeft Rosier een goede samenvatting van de resultaten uit de voorafgaan^
hoofdstukken. Kenmerken waarin de schoolverlaters zich onderscheiden van de 'schoolblijvers' zij"
vooral het sociaal-economische niveau van het gezin en de op 14-jarige leeftijd gemeten attitude te"
aanzien van het voltooien van het secundair onderwijs. De uitkomsten van de pad-analyses tenderen i"
de richting van een causaal verband tussen (in chronologische volgorde) het gezinsmilieu, de
persoonskenmerken op 14-jarige leeftijd en de uiteindelijke beslissing op 16-jarige leeftijd. Tussen d«
beslissing en geslacht blijkt slechts een zwakke relatie te bestaan. In de laatste paragraaf waagt Rosier
zich aan een bespreking van implicaties voor onderwijsbeleid. Dit blijkt geen sterke paragraaf te zijn,
die zin dat de vertaling van onderzoeksresultaten naar concreet beleid niet goed uit de verf kom'-
Rosier komt niet verder dan het doen van suggesties t.a.v. de leeftijd waarop bij de scholiere"
stimulansen voor het blijven volgen van onderwijs het meest effectief zijn, maar over de aard van di®
acties wordt hij niet concreet. Mijns inziens is dit niet in de laatste plaats te wijten aan het feit dat dc
resultaten niet meer dan voorzichtige conclusies rechtvaardigen en daarmee een nog te smalle basis
voor beleid vormen. Beleid dat gericht is op het beïnvloeden van een beslissing behoeft inzicht in d^
wijze waarop de beslissing tot stand komt: over welke informatie beschikt de beslisser, hoe percipiëerf
en verwerkt hij de informatie. Kortom, onderzoek op dit terrein dient meer toegespitst te worden of
het beschrijven van het beslissingsproces dat voorafgaat aan de uiteindelijke beslissing. Het is op di'
punt dat in het onderhavige onderzoek sprake is van een omissie. Gezegd moet evenwel worden dat he'
verslag voldoende gedetailleerde gegevens, op overzichtelijke wijze gerangschikt en besproken, beva'
om de lezer in staat te stellen zelf de waarde van de cijfermatige resultaten voor het trekken van
beleidsconclusies te schatten.

Gespecialiseerde kennis van pad-analyse blijkt niet nodig te zijn voor het kunnen volgen en begrijpe"
van de uiteenzettingen in het boek.

Dit boek bevat een serie van veertien korte opstellen, gebundeld met het idee om beheersingsleren b')
klassikaal onderwijs in Nederland populair te maken.

In ieder van de hoofdstukken wordt een aspect van mastery learning behandeld. Eerst een tweetal ov®'
de theorie öp de achtergrond (Warries), dan een stukje geschiedenis (Schoo), gevolgd door ervaringe"
met de methode uit de literatuur (Poortvliet) en uit de Nederlandse praktijk in het basisonderwijs
(Hesselink, Flierman en Slavenburg & Creemers). Ervaringen in het voortgezet onderwijs worde"
beschreven door de Kat & Roede en Nuy & Timmer. Ook het tertiair onderwijs komt ter sprak®
(Plomp & Pilot, Schoemaker). Van der Linden en Warries geven daarna nog een tweetal methodol"'
gische beschouwingen, waarna Warries het geheel afsluit met een nawoord waarin hij grond tracht aa"
te dragen voor het optimisme waarmee beheersingslere-n als oplossing voor vele problemen word
gepresenteerd.

De aanpak van het boek is gevarieerd genoeg. De uitwerking ervan is helaas wisselend van kwaliteit-
Overzichtelijk zijn de twee bijdragen van Warries als theoretische inleiding. De geschiedenis van he
idee van mastery learning wordt verhelderend behandeld door Schoo. Ook zeer leesbaar is beheersing®'
leren door Plomp & Pilot behandeld in een wat bredere context van geïndividualiseerde studiesyste*
men.

Een dieptepunt is het slecht geschreven verslag van Hesselink over beheersingsleren in de lagere schoo''
met onduidelijke tabelletjes (tikfouten?) waaruit geforceerde conclusies worden getrokken. Onleesbaa'
is het verhaal van Flierman over het Innovatieprojekt Amsterdam, waarin van de lezer gevraagd wordt'

I^Selijkertijd achttien verschillende stclUngen uit elkaar te houden. Te moeilijk voor de gemiddelde
is de behandeling van criterium georiënteerd toetsen door van der Linden. De rest van de
^ofdstukken is redelijk afgestemd op een breed pubhek van docenten, waarbij opvalt dat de tekst
®Peler leest, naarmate de auteurs minder worden gehinderd door onderzoeksuitkomsten,
leesbaarheid van een aantal opstellen lijdt onder het worstelen met de feiten. Dat komt omdat
^astery learning een ideologie is en dat verdraagt zich slecht met feiten. Men moet geloven in mastery
ïrning, niet alleen om het waar te kunnen maken, maar ook moet worden geloofd dat beheersingsle-
n Voor iedereen het beste is, in ieder geval voor achterblijvers. Van de docenten wordt gevraagd, het
^"derwetse idee los te laten, dat prestatieverschillen in de klas worden veroorzaakt door intelligentie-
J'schillen waar men niets tegen kan doen. Het nieuwe idee is, dat bijna iedereen bijna alles kan leren,
s maar zorgvuldig wordt opgelet dat niemand noodzakelijke stappen in het leerproces overslaat.
Ucces hangt af van die zorgvuldigheid. Zodra die controle over het leerproces niet waterdicht is, zal de
°Pzet dus mislukken.

gebeurt allicht bij klassikaal onderwijs, waar het nu eenmaal moeilijk is, alle leerlingen in de gaten
e houden. Een voorbeeld van zo'n mislukte opzet vormt het Schagense projekt (hoofdstuk 8) waar vele
peilingen de basisstof niet herhalen bij gebleken onvoldoende beheersing. Als resultaat blijkt dat de
pthode van beheersingsleren ongeveer even goed werkt als andere methodes. Ook andere projekten
'Ijken dubieuze verbeteringen op te leveren. Waar succes gerapporteerd wordt (Warries over leerresul-
^'en in Amsterdam Oud-West, p. 199) rijst het vermoeden, dat hier door het gebruik van ruwe scores
1 artefact is gemeten. D.w.z. de vorderingen zijn onmiskenbaar, maar of deze groter zijn bij leer-
"gen met een ichterstand, is met de gegeven grafiek onbewijsbaar. De gevonden resultaten kunnen
gevolg zijn van een te beperkt meetbereik van het instrument door een te gering aantal moeilijke items.
®t succes van de mastery learning-strategic, waar het boek zijn propagandistische waarde aan moet
"tienen, is dus twijfelachtig.
^ probleem dat niet iedereen altijd even goede schoohesultaten bereikt, is bij beheersingsleren
in het basisstof-extrastof-model. Het onderwijs is steeds gebaseerd op de basisstof. Snelle
erlingen mogen niet verder gaan, maar werken na het passeren van het criterium bij klassikaal
^"derwijs in de diepte. Dat zij daarvan ook iets leren en tragere leerlingen niet, verandert niets aan hun
^Uedige beheersing van de basisstof.

at werkelijk anders is aan de strategie van beheersingsleren, is de rol van de docent. Hier is het accent
j^^fschoven naar zeer uitgebreide lesvoorbereiding, waarbij op individuele ondersteuning voor achter-
^ 'JVers kan worden bespaard. Dat betekent een verschuiving van de variabele naar de vaste
^Jiderwijslast. Of dit een efficiëntere lesmethode (d.w.z. bij gelijke totale onderwijslast een beter
sultaat) oplevert, is een vraag die in dit boek niet wordt beantwoord. Poortvliet komt in haar
eiatuuroverzicht nog het dichtst bij het stellen van deze nuttige vraag.
I^et boek wordt zeer vriendelijk ingeleid door Bloom, één van de twee grondleggers van de mastery
Qq"ing-strategie. Jammer dat zijn autoriteit kort geleden grondig is ondermijnd door Freudenthal
bg . "lie aantoonde dat in Bloom (1976), herhaaldelijk geciteerd in het hier besproken boek,
^^ijskracht voor mastery learning wordt ontleend aan zacht gezegd zeer fantasierijke interpretaties
" ongepubliceerde onderzoeksresultaten.

p Oom, B.S. Human Characteristics and School Learning New York: McGraw Hill, 1976.
'«udenthal, H. De waarde van resumerende en tweede hands inïoxmdiXïe. Pedagogische Studiën, 1979
p. 323-326.

De Stichting voor Onderzoek van het Onderwijs (SVO) heeft een folder uitgegeven met beknopf !
informatie over de ontwikkeling van onderzoeksthemagroepen en de integratie ervan in de organisatie !
van het onderwijsonderzoek in Nederland. De titel van de folder is 'Onderzoeksthemagroepen sne' j
beschouwd'. Geïnteresseerden kunnen een gratis exemplaar bestellen bij de afdeling voorlichting vaU
de SVO, Pletterijkade 50, 2515 SH Den Haag, tel. 070-824321.

Het Prof. Duijkerfonds is door de Universiteit van Amsterdam ingesteld om door het doen van (dooi' !
gaans jaarlijkse) geldelijke uitkeringen de beoefening van de toegepaste psychologie te bevorderen.

Voor het jaar 1981 is een bedrag van ƒ 25.000,- beschikbaar ten behoeve van een of meer onderzoeK'
projecten. De bedoeling is kwalitatief goed onderzoek mogelijk te maken, dat anders niet gerealiseef'
zou worden omdat de middelen ontbreken.
Te denken valt bijvoorbeeld aan financiële steun voor

2. Aanvragen moeten gemotiveerd worden. Vermeld dient te worden wat de doelstelling van het prf
ject is, de opzet en wijze van uitvoering, de duur, de wijze van verslaglegging, de medewerkers eü
degene die verantwoordelijk is voor de uitvoering, en voorts een nauwkeurige begroting van d®
kosten.

Tevens dient vermeld te worden waarom het project niet uit andere bron gefinancierd kan worden-

3. Aanvragen zullen door de Adviescommissie van het Prof. Duijkerfonds beoordeeld worden op:

- het aangevraagde bedrag (eventueel in het verband van de totale projectbegroting).

De Adviescommissie wordt gevormd door de leden van het bestuur van de Stichting Instituut voo'
Sociale en Bedrijfspsychologie aan de Universiteit van Amsterdam (ISBP), aangevuld met een lid va",
de Wetenschapscommissie van de Subfaculteit Psychologie.

4. Schriftelijke aanvragen tot een maximum van ƒ25.000,- kunnen vóór 1 oktober 1980 wordei"
gericht aan:

De Adviescommissie van het Prof. Duijkerfonds, t.a.v. Dr. A. Jansen, p.a. Stichting ISBP, Keizers*
gracht 649, Amsterdam, tel. 020-525.3528.

Onderzoek naar effecten van sociale interactie op de cognitieve ontwikkeling van kinderen, doo'
W. Doise

Onderwijsprogramma's gericht op de sociale ontwikkeling: een overzicht en een uitzicht, doo'
J.R.M. Gerris

Affectieve doelstellingen in het onderwijs: exploratie van een probleemgebied, door E.J.J. Klemers

A serious drawback of the beta-binomial model is the requirement of equal item difficulties.
Some literature on how this requirement arises is summarized.

Then, it is shown that equal item difficulties are not required for the beta-binomial model to
hold. To assume that items are exchangeable is consistent with the model.

Keywords-, beta-binomial model, exchangeability, item difficulty, subjective probabihty.

beta-binomial model, proposed by Keats and Lord (1962), may be stated as follows:
V For a given relative true score 9,0 <6 <1, the number-right scores X are independent
^"d have a binomial distribution with parameters 0 and n, where n is the number of items
■"the test:

In a given group of examinees, the true scores d follow a beta distribution with param-
^^^rs tt and /3:

Thus, in the given group of examinees, the number-right scores X follow a Polya (or
"Negative hypergeometric) distribution with parameters a and p:

3 I am grateful to Margo Jansen, Phiel Theunissen and Huub Verstralen for their helpful comments
Box 1034, 6801 MG Arnhem.

Numerically, the model is quite manageable. It is, however, not at all clear what empif
cal system it represents.

Lord and Novick (1968) mention Equation (1) at two different places. In their Chapt®'
23, they foUow Keats and Lord (o.c.).

In their Chapter 11, they show how Equation (1) arises in the item sampling model
the description of that model, Lord and Novick take it for granted that responses af®
deterministic in nature; i.e., one knows the answer to an item or not.
Van der Linden (1979) gives a thorough account of the different concepts of item re''
ponses, and the consequences these concepts have for the item difficulties. His resul'®
may be summarized as follows. We may consider item responses as deterministic; i.e., a"
examinee knows the answer to an item or not. This implies that all item characteristi'^
curves are of the Guttman type. When we test an examinee repeatedly with independe"'
samples of n items from a domain, Equation (1) emerges. The parameter 9 depicts th®
proportion of items in the domain the examinee answers corrcctly.
No restrictions on the item difficulties are needed. To combine distributions for differen'
examinees by applying tlie sum and product rules of probability theory, it is necessaf/
and sufficient that all examinees take independent item samples. When all examinees ta'''
the same test, as is usually the case, the test scores are conelated. The correlation equal®
the variance of the item difficulties (Lord and Novick, o.c., eq. 8.4.2.). So a necessaty
condition for using the beta-binomial model in item sampling is that all items in the
main are of equal difficulty.

We also may view item responses as stochastic in nature. The conjunction of an examif^^
a and an item g gives rise to the distribution with parameter ^^:

where ^^ is the ability level of examinee a, measured on some scale, and Ug^ can take ofl®
of two values: 1 for a right answer, 0 for a wrong answer. The expected response of exaf'
inee a on item g may be written as:

Considered as a function of , this is the item characteristic curve of item g.
Assuming local independence (Anderson, 1959), the probability of a number-right scof®
X, for examinee a is:

where 2 (•) means summing the expression (.) over all response patterns with x l's ai'

We can write Equation (4) in the format of Equation (1) if and only if it holds that
Pg(Ugal?a) = P(Ugalla)

for all items. This means that all item characteristic curves are identical. And this impH®^
equal item difficulties.

> When all examinees take the same test, both the deterministic and the stochastic con-
JPt of item responses make it necessary to have equal item difficulties; at least if one
^ants to exploit the beta-binomial model,
ne Way out, of course, is to abandon the beta-binomial model completely, seeking ref-
6® in models such as the compound binomial model, based on Equation (4).

is, however, another possibility. This possibility, which leads us into the realm of
''jective probability, is the subject of the following section.

n adopting the beta-binomial model, we partition a given group of examinees. All exam-
with the same number-right score constitute an equivalence class. All people in an
Wvalence class are treated the same way. We do not differentiate between response pat-
ens leading to the same number-right score. (If we do, no model based on number-right
ore is adequate.) This way of considering all response patterns with equal number of I's
equal number of O's is made precise by assuming that the item responses are ex-
^^"ngeable.

® call item responses exchangeable if all permutations of them have the same probabili-
y (Lindley and Phillips, 1976; Heath and Sudderth, 1976, Johnson and Kotz, 1977). Ex-
^^angeability is a wesier condition than independence. Consider an urn with two red and
0 white balls. Drawing two balls from the urn, one at a time, without replacement, the
^bability of just one red ball in the sample is 2/3.

permutation of the 'response pattern' (i.e. 'red-white' or 'white-red') is equally prob-
Je. Obviously, the two outcomes, first and second draw, are not independent.
® Pinetti (1937) proved one of the most remarkable theorems of probability theory. He
Wed that for every infinite sequence of exchangeable random variables taking the val-
s 1 or 0, the probability of a certain response pattern may be written as

all n, 0 < k < n, and some distribution F (0).
n Words, we may consider a sequence of exchangeable 0 - 1 variables as a mixture of se-
^^ences of Bernoulli trials. For a simple proof of the theorem, see Heath and Sudderth

^e distribution of the sum of n exchangeable yariates is easily derived from Equation

^ Finetti's theorem states the existence of F(0) for a given P (X = x), but does not tell
^^ how to construct it. However, the point of this paper is just to show that the beta-bi-
^^mial model is consistent with Equation (6). , , . . „ , ,, ,

>stitution of Equations (2) and (3) in Equation (6) and mte^gratmg out 0 shows tha
identity holds So, for the beta-binomial model, exchangeability of items is a sufficient
''^^mption.

Note that, in De Finetti's theorem, F(0) is induced by P (X = x), not the other w^J'
around. P (X = x) reflects our knowledge and ideas about an examinee or a group of exa"''
inees, with respect to the item domain where the test comes from. P (X = x) is called^
subjective probability.

(In practice, one uses the negative hypergeometric distribution with parameters a andr
as P (X = x), and the beta distribution with the same parameters a and |3 as F(0). Th^
parameters a and P are set subjectively, or estimated. Such an ad hoc procedure use'
Equation (6). But to advocate such procedures is not the theme of this paper).

Two approaches to the problem of item difficulties within the beta-binomial model ha^®
been described. The first approach tries to postulate a model to describe the process
generating item responses. In this view, there exists an item response generating mecha"'
ism, and we try to reveal it. If we want to use the beta-binomial model for this purpos®'
we are forced to require equal item difficulties.

The second approach is not concerned with some Platonic true state of nature. It tries t"
give a description of what we are doing. As said in the foregoing section, we treat all r^^'
ponse patterns that result in the same number-right score as equivalent. ,

Nothing is said about the 'objective truth' of this equivalence. There is no question "
items being (objectively) exchangeable, independent or equally difficult. The point is th^
we act as if one of these conditions holds. For the use of the beta-binomial model, ^^^
weakest of these conditions suffices, viz. exchangeability. Of course, making observatio"'
may augment the information we have, so that we may be forced to alter our way °
treating test results. But as long as we make use of number-right scores only (by lack "
or ignoring other information), exchangeability of item responses is all we need.
Which approach is to be prefered? In our opinion, this question can not be answered W
objective criteria. We all have to decide for ourselves.

Anderson, T.W. Some scaling models and estimation procedures in the latent class model. In: O. GrJ
nander (Ed.), Probability and Statistics, The Harold Cramer Volume. New York: Wiley 19"'
pp. 9=38. ^

De Finetti, B. La Prévision: ses lois logiques, ses sources subjectives. Ann. Inst. H. Poincaré, 1937, ''
1-68.

Heath, D. and Sudderth, W. De Finetti's Theorem of exchangeable variables. The American Static'''
dan, 1976,50,188-189.

Johnson, N. and Kotz, S. Urn models and their applications. New York: Wiley, 1977. -

Keats, J. and Lord, F. A theoretical distribution for'mental test scores. Psychometrika, 1962,
59-72.

Lindley, D. and Phillips, L. Inference For a BernouUi Process (a Bayesian View). The American
tician, 1916,30,112-119.

Lord, F. and Novick, M. Statistical Theories of Mental Test Scores. Reading: Addison-Wesley, '

Van der Linden, W. Binomial Test Models and Item Difficulty. Applied Psychological Measurem^" '
1979,5,401411.

If the date at which units of a PSl-course are successively contracted, most students maintain
an equal pace throughout the available course period. When students are free to determine the
contract date, some keep the date on which the next unit is due as far away as possible, others
let the contract date positively affect their study behavior. The former students mainly avoid
the negative consequence of missing a contract, the latter receive positive feedback on their
studying behavior. The former do not Uke the contracting system but the latter do appreciate
it positively. Contracts may be better appreciated with students who have some experience in
planning their study habits. A few suggestions are made to prevent that the contracting system
IS evaluated as a hurdle rather than as an aid in planning study behavior.

Ij* its original form Personalized Systems of Instruction (PSI) leave the progress rate to the
Self initiative. However, as the duration of PSI-courses is often fixed by the calendar,
'-pacing is usually limited; at best the first and last test-date are pre-determined. Also,
SI advancement to successive units is solely determined by mastery of the preceding
k ^erials. Both characteristics, self-pacing and mastery, make differences in progress rates
Qq^een students more visible than do deadlines in fixed schedule instruction. Click
of ^ hypothetically describes a few patterns of progress in PSI-courses in which the end
g , . semester constitutes the only deadline. Some students concentrate all course work
^^''ty in the course period; others distribute course work uniformly across the course peri-
abl ^^^ remaining students gradually increase their rate of test-taking, but some are un-
j,. e to increase their rate of test-taking sufficiently, and some start too late on a rapid se-
of tests to reach the last test before the end of the term. Teachers are particularly
jg'^'^erned about students with a late start, for most of the drop-outs and incompletes be-
^J'g to this group. Consequently, PSI has often been complemented with temporizing
Vices of an imposing character. Artificial starting points, intermediate deadlines for suc-
ssive parts of the course work, point systems (Bijou etal, 1976), and minimal rate of
°9"ess contingencies (Henneberry, 1976) have all been used to prevent students from

are indebted to Hans Adamse, Sander Neijnens, Johan van de Sande and Sjef Simons who served
eyJ'"'octors, to the Educational Research Center that generously made time and facilities available,
on short notice; to the Department, for supporting the program, and to Prof. P.J. Willems for
Of p^^'^gement and editorial comments. Reprints may be obtained from the first author: Department
J ^ychology, Tilburg University, 5000 LE TUburg, Tlie Netherlands.

^ /"'ow at the Regional Institute for Children and Adolescents, 605 South Chapel Gate Lane, Balti-
"'«.Md. 21229, U.SA.

procrastinating. These particular measures have been employed most often, because they
are easily available to teachers. Yet, recent literature search (Click and Semb, 1978) ha'
failed to uncover substantial data to support the necessity for imposing pacing systems-
A pacing system that does not permit for individual differences does not do justice to th®
essence of PSI as it was advocated by its early founders. Moreover, imposed pacing may
degrade PSI's attractiveness, it may add to the inconvenience of many students, and i'
may be at the root of high drop-out rates. Academic behavior may have been shaped dif"
ferentially and shaping may have taken place in courses where reinforcement availability
is imposed by a time-based schedule. Therefore it is not suprising that (some) students
have difficulties in a PSl-course where reinforcement is entirely behavior dependent-
Click (1978) considers students with pacing problems as students who have not yet ac-
quired scheduling skills, or strategies for organizing studying behavior. It may be neces-
sary to train students to plan adequately by means of self imposed deadlines. Such train'
ing should focus attention on shaping student responsibility for progress through th«
course.

Many factors contribute to results in an educational system; many of those factors may
be of a personal and of a temporary nature. Some factors however, are located in the edu-
cational system itself in which students are immersed, and two of these are the particula'
course contents and the manner in which the course is administered.
Generally, it was thought that artificially regulating progress-rate would alleviate procraS'
tination. It was, therefore, decided that for all students the educational program would b®
accompanied by a pacing system. In our research the effects and possible benefits of ^
contracting system in PSI were investigated in two studies. Next to reducing procrastin^'
tion the system had to accomodate individual differences among students. In two PSI'
courses individual students could, within certain limits, determine the time at which they
would complete the next unit. It was expected that, within the boundaries set by th®
number of weeks the course ran, students would use the system to plan their rate of prog'
ress, and that such a system would have minimal aversive connotations. A self-impose''
pacing system would contrast favorable with experiences in regular educational systenis-
Our investigation concentrated on how students used the contracting system, how they
distributed the workload over the available time period, and on how the contracting syS'
tem was evaluated. The results are described separately for each course.

The contracting system was applied during a PSI-course on Operant Conditioning to ^
group of 80 first-year students during the first semester literature part of a two-semestef
required course on experimental psychology. They were half of the total number of stf'
dents; the remaining students were assigned to a regular lecture-discussion course usin^
the same materials except for the unit-quizzes. Students had various backgrounds, bi^'
generally came from European-type high schools. Students for the PSI-course were sele'''
ted randomly, with the restriction that those students who, for extra-curricular reasonSi
followed night-classes, were not taken for the PSI-course.

literature to be studied consisted of a book on Operant Conditioning (Blackman,
'4) and about 10 articles. These readings were divided into 16 units, each accompanied
y a study-guide. The total readings consisted of about 500 pages. Quizzes and study
"Uestions were available for each unit.

louring the first week of the course all PSI-students were assembled and the PSI- and con-
jacting system were explained. The results of a quiz showed that all had properly under-
ood the PSI- and contracting system. Students were asked to make an attempt at the
J^t unit within a week. After making the first unit quiz they were to select the date upon
ftich they would complete the first unit if they failed the first quiz, or the next unit if

had passed unit one. The date selected, the 'contract' was written on a contract
eet to be signed by both proctor and student. Then the contract-date and test-date were
P otted on a cumulative record. On this cumulative record the diagonal was drawn of the
ordinates units (ordinate) and weeks (abcissa). In addition, a line with a positive curva-
f® Was drawn below the diagonal. Students who wanted to contract a date below the
e^rved line were told that this may endanger their progress in the course; they were asked
project three more dates for the three following units that would bring them above the
-lyed line. Care was taken that the procedure did permit a student to take ample 'time
.'t from

the present course; for well planned 'time off periods usually more than 4
®eks could be allowed. All data about successive quizzes and contracts were registered
a separate sheet; this registration sheet, the contract and the cumulative record were
in a personal file. The limitations on the contracts were thus twofold: all units had
t)e finished before the end of the term, and excessively long contracts had to be com-
^Jisated for. If a contract was not met in time, 3 credit points were subtracted from the
oht • ^^ earned on unit quizzes; this was the only way in which students would
An p credit.

th '"Students estimated the time needed to prepare for quizzes on each unit separately;
jj® traditional students estimated the time spent on three occasions during the course,
®bout one third, two third and at the end of the course, when examinations were to be
^ aoe. Xwo weeks after the course period ended, a final examination was given to all stu-
tak '^'^ter the final examination dl students were asked to fill out a questionnaire and
^ e part in a brief group-interview,
proctors served

the present authors, an advanced student in educational psychology
three teaching assistants,
tw^ ^®^t-room was available every week on four late-afternoon and evening sessions and
0 rnorning sessions, all together about 12 hours; when necessary appointments beyond
^"c-hours were allowed.

^^ the 80 PSI students 71 completed all 16 units in time. The remaining students left the
"'ersity for various reasons before the end of the term. There are no indications that

7 8 9 10 11 12
SUCCESSIVE V^fEEKS
Figure 1. Mean percent of course work finished on successive weeks.

The dashed scallop-shaped line indicates the minimal achievement beyond which contracts were"''
lowed under certain conditions only. Tlte percent of students that had completed all units is indicate'
by a curve starting above the baseline on week eleven.

the course content or PSI-format contributed in a special way to the decision not to coH'
tinue their education at the Psychology Department. Of the group of 80 students tha'
followed the lecture-discussion method 62 were still considered active in the entire pf^'
gram at the time of the final examination. On the final examination no differences i"
grades could be observed between the PSI- and the 'traditional'-group. The average nuif'
ber of hours needed per unit, as estimated by PSI-students did not vary from the begi"'
ning to the end of the course, whereas traditional students gave higher estimates for th®
first two blocks (10 units) of the course, but much lower estimates for the last 6 uni''
(table 1).

The average rate of progress through the course for PSI-students is pictured in Figure 1'
as well as the percentage of students that had completed the course in each week.Coni'
parisori of the progress line with the curved line from the cumulative record shows th^'

^^gure 2. The test-distances (drawn-lines) for the group with long contracts (open stars) do not differ
group with short contracts (filled circles). The contract-distances are presented hy dashed

"edule. Most students slowed down after week 5, and week 11, coinciding with a pe-
of examinations for other courses. To complete all unit quizzes took at least 10

®eks, but 4(y/o of the students distributed their course work through the entire course
Period
The

contracting system, as administered in this course, permits comparison of contract-

^^ ^es with actual test-dates. The number of days a student allows himself to master a unit,
^ contract-distance, may be compared with the actual number of test-days between two
fit-quizzes^ the test-distance. The present findings indicate that the average contract-dis-
ices per student ranged between 4.80 and 15.67 test-days; the average test-distances
"ged between 2.60 and 4.53 test-days. Contrary to common data analysis procedures,
investigation concentrated on the extremes in the use of the contracting system,
sc f location on the range, i.e. those occupying the upper and lower 25% of the
^le, rather than the upper and lower 25% of the population, were considered for the
^ sjysis.* Figure 2 presents the data of students who used the contracting system in an
Usual way. It depicts the mean contract- and test-distances of those who occupied the
^^er 25% of the contract-distance range (N = 16) and of the students (N = 10) that had
^^ea^ contract-distances in the upper 25% of the range. Although the contract-distances
these two groups are quite different, there were no differences in test-distances for the

Usg^*"® students occupying scale values between 25%-75% (63,4% of the population) did on occasion
or short contract-distances, but were in no way persistent in either strategy.

two groups; nor was there any difference in progress-rates between the groups. Studefl"'
with long contract-distances did estimate the time they spent per unit as shorter than th'
students with short contract-distances. There were no differences in final grades betwee'
the groups with long and short contract-distances. The appreciation of the contract!"?
system became apparent from the questionnaire data. Most PSl-students (83%) felt ths'
the contracting system did force a study rate upon them, and more than half of all PS''
students did appreciate it as helpful in acquiring and monitormg good study habits. St"'
dents who generally maintained long contract-distances felt that the contract was not veO
helpful in planning their study or in helping them to stick to their plans. Rather, the)
said that they were well able to keep themselves in line, and that contracts were an intr"'
sion into the freedom to plan their own study. They also stated that the negative con^'
quences of missing a contract date, could not be justified, since it amounted to the sul"'
traction of academic credits for planning behavior that was not essential to acaden"'
achievement. Students with short contract-distances disagreed on these points, althoug"
only students from the latter group experienced the aversive consequences of not meeti"?
a contract.

In the present case PSl in combination with a contracting system did have beneficial
fects: drop-out rates and the estimated study time were lower than in the traditional sy^'
tem. Of course, these data can not yield definite conclusions about the separate and inde-
pendent effects of either PSI or contracting. It appeared from the progress data that
dividual differences were not eliminated by the contracting system. Students who kep
the negative consequences of missing a contract as remote as possible,used the system^'
an avoidance schedule, whereas students taking short contract-distances, appeared to us®
the system as a positive monitoring system. The latter students had few objections to th^
use of contracts, but the 'avoiders' disliked it. As there are no differences in final grad^®
between the groups that made a different use of the contracting system, it is desirable
search for ways to rid the contracting system of its unpleasant aspects.
The negative aspects of the contracting system need not be inherent to the system; the)
may partly originate from lack of experience in distributing course work through th^
available course period. Control of study-rate may be experienced as an external forc^'
the contract-date may be considered as a threat to be kept at a distance, rather thafl ^
sub-goal that may be reached, constituting a reinforcing event. Both uses of the contra^'
ting system are common among first-year students, but data from a fourth semester PS''
course with contracts suggest that experience with academic course-work may help sf'
dents to use the contracting system in a positive way.

The contracting system was similarly applied in an advanced course on Learning using ^
chapters from Nevin (1973) and 25 articles accompanied with study-guides and study
questions. This course could be chosen as one of four courses'to be taken during the se^'
ond term of the second year.

14 .
12-
10-
8 .

4 ^
2 -

s/^^'"® The test-distances (drawn lines) for the long contract-distance group (open stars) and the
contract-distance group (fdled circles) are not different. The contract-distances for the two
"Ps (dashed lines) converge in the second half of the course.

Sixteen students taking this course were subjects in this study. They all had the Operant
°nditioning course as background, but none were familiar with the PSI-format. The
p. I'System was explained to aU students. The course material was divided in 17 units. The
!''st and last test-date were fixed. The procedure with the contracting system was essen-
the same as in study one. The contracting system included subtraction of 1/3 credit
^■nt from the total of 7 points to be gained from the unit quizzes. Students could max-
^ally earn 2 additional credits in the final examination at the end of the course. AU stu-
•^ts filled out a questionnaire.

data on the contracting system are presented. Figure 3 summarizes the contracting
^^ in a similar fashion as in Figure 2: the mean contract- and test data of the upper (N
and lower (N = 5) quart of the range are compared.* The students who originally

^'stan ®tudy 1, most students (56,25%) did not persist in using extremely long or short contract-

kept long contracts, gradually took fewer days between test and contract, and finished
the course well before the end of the term; the approaching last test date does not suffi'
ciently explain the shorter contracts as the course-period drew to an end. Almost all stu-
dents expressed a positive appreciation of the contracting system and the PSl-forma''
Generally students liked the support the contracting system gave them in maintaining the
desired pace throughout the course.

An actual change in strategy is seen in the development of contract-distances, and this
change may be the result of experience in moderating one's study-rate. The positive at"
titudes that became apparent from the questionnaire data also indicate that students used
the system to monitor their study habits and that they did not feel pushed by the con-
tracts. Students with more experience in academic course work seem to use the system as
a feedback device, rather than as an avoidance schedule.

The way a student proceeds through the course material is the interactive result of many
factors, only some of which suit into a systematic class-room investigation. Ordering
course material and pacing the administration of its parts may reveal some determinants
of progress-rate. Generally, we conclude that if procrastination is to be avoided, and if^
curriculum designer deems it necessary to change non-academic behaviors (Born and
Moore, 1978; Glick, 1978; Holland, 1978), the contracting system in PSI is a likely can-
didate to monitor studying activities.

Although we did not specifically look for improved study habits in courses parallel witl^
or following the PSI-course, it was noted that the PSI-students achieved higher grades
than the traditional group during the second semester of the Experimental Psychology
Course.

The contracting system, as presently employed, does eliminate late starts, but it should
not affect students who start early and at a high rate, nor those who distribute worl'
evenly throughout the course period. If students take the opportunity of using contracts
for providing immediate feedback about study-rate and of maintaining a planned study
pace through an extended period of time, contracting is beneficial to accomplishing acS'
demic goals. If the contracts are perceived as an avoidance contingency contracting may
not be an asset to cholarly endeavours. Avoidance schedules do not provide optimal infof"
mation about the response contingencies as the contingent aversive stimulus is rarely
countered and most behavior consists of continQously escaping unspecified conditioned
stimuli. Preventing the use of the contracting system as an avoidance schedule may b®
desirable.

Although it is not clear how a contracting system comes to be used as a positive feedback
system a few suggestions present themselves:

- Positive reinforcers for meeting a contract may be used, rather than subtraction of
credits for failure to meet a contract. If credits are used, the'difference between pos-
itive and negative contingencies may be too small to produce great differences. If othef

reinforcers than credits are apphed (e.g. privileges, lectures, additional instruction, ex-
tra examination facilities) accurate study-planning may be enhanced.
A contract need not be limited to one unit, it could as well be applied to blocks of
units. Some students prefer to regulate their study behavior by means of an available
system, some may prefer to work on bigger blocks and some may prefer to have no
contract at all. It may be expected that within blocks of units 'scallops' will be observ-
ed, i.e. students may prefer to work hard for a while and pause after a block of units
has been passed. The contract then serves as a deadline and does not necessarily induce
regularly paced studying. The contracting system in which one unit at a time is planned
is flexible enough to allow for 'scallops', but it looses its immediate feedback function
when used in such a way.

Adequate introduction to the contracting system may teach students how to use the
contracting system with the greatest benefits. The PSl-format permits frequent contact
With proctors; they may be instructed to amplify the feedback on planned and realized
study patterns.

'ne semester system used in most academic institutions may be the biggest hurdle to the
jeedom PSI prescribes; if it can not be abolished it would be interesting to know just
n°w much procrastination the present educational institutions can tolerate, and how
much enforced pacing is required to reduce procrastination to an acceptable level,
■^om the present investigation contracting appears to constitute an adequate system to
assure regular progress through a course; it can be used with minimal infringements on
Jne personal study habits of individual students, and it need not be aversive.
" one of the objectives of PSI is to teach a student how to study, the contracting system
may be a valuable addition. If it reinforces study habits, contracting can be a beneficial
Element in an educational system, as adequate as most imposed pacing systems and gener-
^ly more appealing.

S.W., Morris, E.K. and Parsons, J.A., A PSI course in child development with a procedure for re-
g ducing student procrastination.1976, i (1), 36^0.
'ackman, D., Operant Conditioning, an experimental analysis of behavior. London: Methuen, 1974.

D., and Moore, M.C., Some related thoughts on pacing. Journal of Personalized Instruction,
f,,. 1978, J(l), 3342.

^"ck, DM., If there is a pacing problem in PSI, will we recognize it when we see i\1 Journal of Per-
sonalizedInstruction, 1978, J (1), 42-45.
"ek, D.M., and Semb, G., Effects of pacing contingencies in personalized instruction: A review of
the evidence. Journal of Personalized Instruction, 1978,3 (1), 3642.
"®nneberry, J.K., Effects of three Anti-procrastination measures in a PSl-course. Proceedings of the
Second National Conference, Los Angeles, 1975, Center for Personalized Instruction, Washington
H ,?-C-. 1976.

Holland, J.G., Behaviorism: part of the problem or part of the solution, yourna/ of Applied Behavioral
Analysis, 1978,11 (1), 163-174.
®vin, J.A. (ed.). The study of behavior; Learning, Motivation, Emotion and Instinct. Glennview, Illi-
nois: Scott, Foresman and Co., 1973.

De Invloed van Zinsvolgorde-Verschillen
bij het Leren Begrijpen van het Frans
door Nederlandstaligen

The influence of word order differences in understanding French by Dutch native speakers.
Word order differences pose a problem in understanding French by Dutch native speakers. We
try to find out whether subjects, who are unfamiliar with French, are able to establish a 'degree
of difficulty' between different types of sentences with French and Dutch word order.
Conclusive to the experiment is that these subjects are unable to distinguish degrees of difficulty
when the word order was not the Dutch one. Subjects were well capable of distinguishing degrees
of difficulty among various Dutch word order types.

In een onderzoek proberen wij na te gaan of en zo ja in hoeverre, zinsdeelvolgordever-
schillen tussen moedertaal en vreemde taal belemmerend werken bij het leren begrijpen
van die vreemde taal. Uit de resuhaten van dat onderzoek hopen wij inzicht te verkrijgen
in de prioriteiten die men zou moeten stellen in het vreemde-talenonderwijs. Dit zou moe-
ten gebeuren door het vaststellen van systematische relaties tussen bepaalde typen verschil-
len en een bepaalde moeilijkheidsgraad, waardoor een hiërarchie van leerproblemen kan
worden opgesteld.

In eerste instantie is ons onderzoek gericht op het vinden van een geschikte methode voor
het meten van die moeilijkheidsgraad.

Hierover gaat dit artikel. J.P.G. Ickenroth en M.P.J. Geraerts-Stoop (1974) hebben voor
dit doel twee experimenten uitgevoerd, uitsluitend voor wat betreft het Frans. Er werd
getracht vast te stellen of door beoordeling van'de 'moeilijkheid' van zinnen bepaalde
typen van zinsstructuren zouden kunnen worden onderscheiden. De zinnen moesten helaas
in het Nederlands worden aangeboden, omdat de kinderen het Frans onvoldoende of in
het geheel niet beheersten. Bij gevorderden in de Franse taal zou het aan de orde gestelde
probleem, namelijk de plaats van het pers. vnw. in de zin, al bekend zijn.Wij hebbende
verwerking van deze experimenten uitgevoerd en rapporteren hierna de resultaten.

Er werden drie zinsconstructies aangeboden (hierna 'typen' genoemd), die in de Neder-
'andse volgorde als volgt luiden:

^ype 1: subject — werkw. — pers. vnw. als object — bepaling van plaats.
Voorbeeld: de juffrouw zag hem in het zwembad.

^ype 2: subject - werkw. - pers. vnw. als indirect object - object,
"oorbeeld: de juffrouw gaf hem een schrift.

^ype 3: subj. - hulpww. (aux) - pers. vnw. als object - werkw. (inf) - werkw. (inf).
Oorbeeld: de juffrouw moest hem komen halen.

l^eze typen werden in diverse zinsdeelvolgorden verwerkt, namelijk:
de Franse volgorde

Nederlandse bijzinsvolgorde (die wat betreft één type samenvalt met de Franse volgorde)
^ 'onzin'-volgorde, die met geen van bovenstaande volgorden overeenkwam,
^'le zinnen, 36 in getal (zie voor een volledige weergave de Appendix 1), werden in het
Nederlands aangeboden aan 147 elf- en twaalfjarige proefpersonen ('pp'). De pp bevonden
^'ch in de volgende klassen:

In het experiment werden vier zinnen 2 x gepresenteerd om de beoordeUngsconsistentie
Van de pp te controleren. Deze bleek, na vergelijking van de paren zinnen, voldoende te
^'jn. Van de pp vielen 16 af omdat zij het experiment niet volledig hadden uitgevoerd. De
■^esultaten werden dus berekend over 131 pp. De pp moesten perzineenbeoordeUngscijfer
Seven op een 1 O-puntsschaal, waarbij zoveel mogelijk gebruik gemaakt moest worden van
de hele schaal; een 10 voor de zinnen die zij het gemakkelijkst te begrijpen vonden en een
1 Voor de moeihjkste. Voor de opdracht aan pp zie Appendix II. Bij het samenstellen van
^et zinnenmateriaal gingen Ickenroth en Geraerts-Stoop uit van de hypothese dat een
franse volgorde gemakkelijker te begrijpen is wanneer deze samenvah met de Nederlandse
"ijzinsvolgorde (dat zou het geval zijn bij type 1: de juffrouw hem zag in de tuin) dan
^anneer dat niet het geval is (zoals bij type 2: de juffrouw hem gaf een schrift, en type 3:
de juffrouw moest komen hem halen). Het op grond van deze hypothese door hen ver-
dachte beoordelingspatroon van 'gemakkelijkst' tot 'moeilijkst' was als volgt:
de Nederiandse volgorde (N)

de Nederlandse bijzinsvolgorde, die bovendien wat betreft type 1 samenviel met de
Franse volgorde (NbF)

de Franse volgorde en wel van type 2 en type 3, die niet samenviel met de Nederlandse
bijzinsvolgorde (F)
" 'onzin'-volgorde.

In taalkundig onderzoek is de Wilcoxon-toets gebruikelijk om verschillen tussen (groepe"
van) data aan het Ucht te brengen. Toepassing van deze toets op de verzamelde data
verde een rangordening op van de zinstypen in drieën (deze drie groepen verschilden sig'
nificant):

- Frans-niet-Nederlands; Frans-Nederiandse bijzin; niet Frans-Nederlandse bijzin (F e"
NbF)

F en NbF vertoonden onderling geen significant verschil en zijn daarom samengegro^'
peerd. De resultaten van dit eerste experiment werden tweezijdig getoetst, dat wü
zeggen er werd uitgegaan van de gedachte dat niet voorspelbaar zou zijn welke van de te
vergelijken zinstypen door de pp hoger beoordeeld zou worden.

Omdat blijkens de toegepaste statistische Wilcoxon-toets aan de verwachting van Ickefl'
roth en Geraerts-Stoop niet is voldaan, zou men kunnen concluderen dat het voor Nedef'
landers blijkbaar geen verschil maakt of de Franse volgorde een niet-Nederlandse volg'
orde is of de Nederiandse bijzinsvolgorde. Tegen de zojuist gesuggereerde conclusie hebben
wij echter bezwaren. Om deze te adstrueren brachten wij een fynere onderverdehng aan
in de zinstypen, als volgt:
Nederlandse volgorde:

Type 1: de juffrouw zag hem in het zwembad (Nl)
Type 2: de juffrouw gaf hem een schrift (N2)
Type 3: de juffrouw moest hem komen halen (N3)
Franse, niet-Nederiandse volgorde:

Type 2: de juffrouw hem gaf een schrift (F2)
Type 3: de juffrouw moest komen hem halen (F3)
Franse, tevens Nederlandse bijzinsvolgorde:

De Wilcoxon-toets leverde een rangordening op als volgt (van gemakkelijk naar moeilijl')
(niet significant verschillend is samen gegroepeerd):

De Franse volgorde van type 1 (NbFl: de juffrouw hem zag in het zwembad), werd door
Ickenroth en Geraerts-Stoop tevens beschouwd als de neutrale Nederlandse bijzinsvolgorde.
I^it was niet geheel juist (weliswaar is het een Nederlandse bijzinsvolgorde, maar niet de
neutrale, immers, in de gebruikelijke bijzin is de persoonsvorm door de voorwerpen en be-
palingen zover mogelijk van het onderwerp gescheiden (Van de Berg, 1963; Van derLubbe,
1965)). Het ligt meer voor de hand te constateren dat de proefpersonen die Nederlandse
^ijzinsvolgorde NbFl niet als zodanig hebben herkend omdat het geen gebruikelijke bij-
zinsvolgorde was. Deze conclusie wordt ook nog ondersteund door het feit dat Nb3 sig-
nificant hoger werd gewaardeerd dan NbF. Dat wil zeggen: er werd voor de zinnen van
het type Nb3 (de juffrouw hem moest komen halen) hoger gescoord dan voor de 'Franse
Volgorde, Nederlandse bijzin' (de juffrouw hem zag in de tuin). Dit resuUaat doet ons aan-
nemen dat de Nederlandse bijzinsvolgorde Nb3 wèl was herkend. Deze zelfde Nederlandse
bijzinsvolgorde Nb3 werd ook significant hoger gewaardeerd dan de Franse volgorde die
in het Nederlands niet bestaat (F2). Bovendien werd Nb3 significant hoger gewaardeerd
dan de Franse volgorde van type 3, die niet tevens de Nederlandse bijzinsvolgorde was
(P3). Dus: niet alleen de 'correcte Nederlandse volgorde', maar ook de Nederlandse bij-
zinsvolgorde (Nb3) werd hoger gewaardeerd dan elk type met de Franse volgorde. Ook
deze resultaten doen ons veronderstellen dat de proefpersonen de zinnen van het type:
de juffrouw haar moest komen halen' wel als Nederlandse bijzin herkend hebben.

öij het samenstellen van de 'onzin'-zinnen zijn Ickenroth en Geraerts-Stoop niet voldoen-
de nauwkeurig te werk gegaan. Dit is vermoedelijk te wijten aan het onterechte gebruik
Van de term 'woordvolgorde'. In feite gaat het namelijk niet om woordvolgorde, maar om
zinsdeelvolgorde.

I^e in het onderzoek centraal staande verschillen in zinsstructuur tussen talen (zeker voor
^at betreft de moderne Europese talen die in Nederland op de scholen onderwezen wor-
betreffen namelijk de volgorde van de zinsdelen, bijvoorbeeld Hdwoord + zelfstandig
naamwoord worden in al die talen als één geheel beschouwd. Aan deze regel hielden zij
niet vast bij het samenstellen van de zogenaamde 'onzin'-zinnen (zie Appendix I). Bijvoor-
bij de correcte Nederlandse zin: de juffrouw zag hem in het zwembad, paste de 'on-
zin'-volgorde: de hem juffrouw zag in het zwembad, waar het persoonlijk voornaamwoord,
^at lijdend voorwerp in deze zin is, geplaatst werd tussen een lidwoord en het daarbij be-
horende zelfstandig naamwoord. De zinnen waarin dit verschijnsel zich voordeed, zijn
'loor ons om bovenstaande reden buiten beschouwing gelaten, waardoor slechts twee zin-
nen overbleven die wel te vergelijken waren met de overige zinnen van het experiment,
namelijk twee zinnen waarin het persoonlijk voornaamwoord (object) helemaal vóórin de
Zin of helemaal achterin de zin werd geplaatst:

voorin : 'hem de juffrouw moest gaan zoeken' (type 3)
achterin: 'de juffrouw moest komen halen haar' (type 3).
ï^e Wilcoxon-toets bevestigde de verwachting dat een significant verschil te zien zou zijn
tussen deze onzin-zinnen en de zinnen met de Franse volgorde van hetzelfde type: voor
onzin-zinnen werd lager gescoord.

Een tweede experiment werd door Ickenroth en Geraerts-Stoop uitgevoerd, waarin even
eens 36 zinnen werden voorgelegd. De werkwijze was gelijk aan die van het eerste expe
riment. Er waren dit keer 90 elf- en twaalfjarige proefpersonen (5e, 6e klas L.0. en brug
klas). Hiervan vielen 10 proefpersonen wegens onvolledig uitvoeren van het experiment af
De resultaten zijn berekend over de resterende 80 proefpersonen. Van dit tweede experi
ment worden door ons slechts twee zinstypen in beschouwing genomen, namelijk zinsty
pen die qua constructie overeenkwamen met typen uit het eerste experiment, maar die
daarvan in lengte verscliilden door toevoeging van bijvoeglijke naamwoorden. Het betrof
twee zinnen van het volgende type, dat overeenkwam met type 2 uit het eerste experiment,
namelijk: 'de juffrouw geeft hem de eerste prijs' en 'de dame geeft haar een mooi boek'
(we noemen dit type N4 in het tweede experiment). Verder twee zinnen van het type dat
overeenkwam met type 3 uit het eerste experiment, namelijk: 'zijn oudste zus moet hem
gaan zoeken' en 'haar jongste broer moet haar komen halen' (we noemen dit type N5 in
het tweede experiment). Naast de Nederlandse volgorde werd van deze zinnen de Franse
volgorde, voor zover liet de plaats van het persoonlijk voornaamwoord ten opzichte van
het werkwoord betrof, aangeboden, namelijk: 'de juffrouw hem geeft de eerste prijs' en
'de dame haar geeft een mooi boek' (F4), 'zijn oudste zus moet gaan hem zoeken' en
'haar jongste broer moet komen haar halen' (FS). Ook werden 'onzin'-zinnen van deze
typen aangeboden, die overigens verschilden van de onzinvolgorden uit het eerste experi-
ment: 'de juffrouw de eerste hem prijs geeft' en 'de dame een mooi haar boek geeft' (04),
'zijn oudste zus zoeken moet hem gaan' en 'haar jongste broer komen moet hem halen'
(05).

De overige zinstypen van het tweede experiment bevatten andere dan zinsdeelvolgorde-
problemen en werden om die reden buiten beschouwing gelaten.

Met de Wilcoxon-toets werden de volgende typen met elkaar vergeleken: N4 met N5; F4
en 04; F5 met 05. De resultaten, met daarnaast de vergelijking met de overeenkomstige
resultaten uit het eerste experiment in volgorde van gemakkelijk naar moeilijk, luidden als
volgt:

In het eerste en in het tweede experiment maakten de proefpersonen op dezelfde manier
onderscheid tussen verschillende typen Nederiandse volgorden. Het type 'de juffromv gaf
hem een boek' (N2, resp. N4) vonden zij (significant) gemakkelijker te begrijpen dan het
type 'de juffrouw moest hem gaan halen' (N3, resp. N5). Hoewel in'het tweede experiment
de zinnen langer waren door toevoeging van bijvoeglijke naamwoorden, bleek de beoor-
deling van de zinstypen door de proefpersonen binnen de twee experimenten overeen te

komen. Nergens werd (significant) onderscheid gemaakt tussen de verschillende Franse
Volgorden. Uit de resultaten van beide experimenten kunnen we concluderen dat het be-
Sljpen van Franse zinnen van type 3 respectievelijk 5 ten opzichte van hetzelfde type in
het Nederlands meer moeilijkheden zou kunnen opleveren dan de Franse zinnen van type
2> respectievelijk 4 ten opzichte van het overeenkomstige Nederlandse type. Hier staat
®ehter tegenover dat alle zinstypen in het Frans niet significant van elkaar verschillen, het-
geen betekent dat alle Franse zinstypen even moeilijk werden gevonden.
Ook werden de overeenkomstige zinstypen uit beide experimenten met elkaar vergeleken.
De resultaten zouden per type overeen moeten komen. We maakten nu gebruik van de t-
'est. Er kon namelijk voor deze vergelijkingen niet gebruik gemaakt worden van de Wilco-
''on-toets, aangezien deze slechts bruikbaar is voor vergeUjkingen tussen scores van gelijke
aantallen proefpersonen, hetgeen hier niet het geval was. De resultaten van de vergelijkin-
gen met behulp van de t-test van overeenkomstige typen uit beide experimenten luidden
als volgt: N2 werd significant gemakkelijker gevonden dan N4; N3 werd significant ge-
makkelijker gevonden dan N5; F2 en F4 verschilden niet significant en hetzelfde gold

De ideale situatie waarbij gemakkelijk verschillen in moeilijkheid zouden zijn af te lezen is
een situatie waarbij alle voorkomende Nederlandse zinstypen door de proefpersonen als
even moeilijk beschouwd worden (dus op één punt van de schaal worden gescoord), ter-
wijl de bijbehorende Franse volgorden al naar gelang de beoordeling door de proefpersonen
afgezet worden op diezelfde schaal. Uit de resultaten van de twee uitgevoerde experimen-
ten kwam echter juist de omgekeerde situatie naar voren: de Nederiandse zinstypen ver-
schilden significant, maar alle aangeboden Franse volgorden vertoonden onderhng geen
%nificante verschillen.

t^en verklaring hiervoor kan liggen in het feit dat de proefpersonen meer vertrouwd zijn
l^et de Nederlandse constructies en daardoor beter in staat zijn 'nuances in begrijpelijk-
heid' aan te brengen tussen die typen, terwijl zij alle Franse volgorden onderling even
Vreemd vinden, waardoor zij die zinnen allemaal een min of meer gelijk beoordelingscijfer
gaven. Deze zelfde verklaring kan gelden voor het feit, dat wél een significant verschil op-
rad tussen de overeenkomstige Nederlandse typen van beide experimenten, maar niet tus-
sen de overeenkomstige Franse typen. In experiment I werd de ideale situatie benaderd:
de typen Nl en N3 verschilden niet significant (de bijbehorende Franse volgorden ver-
schilden eveneens niet-significant). In experiment II kwam type 1 echter niet meer voor,
Zodat de vergelijking niet kan worden doorgetrokken.

Met meer zinsmateriaal en meer zinstypen trachten de ideale situatie zoals hierboven
beschreven, te creëren. Er is voorlopig nog geen reden om het gebruik van de 10-punts-
schaal te verwerpen, maar de komende experimenten moeten nauwkeuriger worden op-
gezet;

Er moeten andere betrouwbare methoden overwogen worden die de mate van moei-
lijkheid aangeven, ter bevestiging of ontkenning van de resultaten van de 1 O-puntsschaal-
methode. Hierbij wordt gedacht aan RSVP (Rapid Serial Visual Presentation). Aange-
zien deze methode vrij omslachtig is (hij moet per persoon worden afgenomen), moet
hij slechts dienen om de bruikbaarheid van een schaalmethode te controleren.

03 • De hem juffrouw moest komen halen
O3 De juffrouw moest komen halen haar
O3 Hem de juffrouw moest gaan zoeken
O3 De haar juffrouw moest gaan zoeken

Jullie krijgen zo meteen een klein boekje (laten zien!) dat bestaat uit 36 blaadjes. Op elk
blaadje staat een zinnetje en achter dat zinnetje een rij cijfers van 10 tot 1.
zijn normale zmnetjes bij en ook een beetje rare zinnetjes.

bedoeling is dat jullie elk zinnetje bekijken en het dan een cijfer geven. Als je het zin-
J^stje gemakkelijk te lezen vindt geef je een hoog cijfer en als je het zinnetje moeilijk te
'®zen vindt geef je het een laag cijfer.

^Tihet zinnetje een cijfer te geven moetje een kringetje zetten om een cijfer op het blaadje.
J^ogmaals: een makkelijk zinnetje krijgt een hoog cijfer, een moeilijk zinnetje krijgt een
cijfer. Een zinnetje datje een beetje moeilijk vindt krijgt een iets hoger cijfer dan een
^•nnetje dat je nog iets moeilijker vindt, enzovoort.
^Is je een keer een cijfer hebt gegeven, moetje dat laten staan.

moet snel werken: zinnetje bekijken, cijfer geven en blaadje omslaan en het volgende
pinnetje bekijken,
^la geen blaadjes over.

niet op wat de andere jongens en meisjes van de klas doen.
iJe volgorde van de zinnen is in alle boekjes anders.

y^n de Berg, B. Onderzoekingen betreffende de zinsbouw in het Nederlands, Den Haag, 1963.
'<^kenroth, J.P.G. & Geraerts-Stoop, M.P.J. Woordvolgorde onderzoek, ongis^nhlicsttA manuscript, In-

stituut voor Toegepaste Taalkunde en Computer Linguïstiek, Wilhelminapark 11, Utrecht, 1974.
»an der Lubbe, H.T.A. Woordvolgorde in het Nederlands, een synchrone structurele beschouwing, 2e
druk. Assen, 1965.

Kath. Meerum Terwogt-Kouwenhoven
Subfaculteit Psychologie, Universiteit van Amsterdam

Een tiental jaren geleden was het aan de Subfakulteit Psychologie van de Universiteit vafl
Amsterdam de gewoonte dat de nieuwe eerstejaars welkom werden geheten door een
Hoogleraar, met de opdracht goed te kijken naar hun buren in de collegebanken, omdat
zij één van deze twee buren het volgend jaar niet terug zouden zien. Hij had daarin gelijl'
en zou daarin op dit moment nog steeds gelijk hebben. Er van uitgaande dat niet het fei'
of je links of rechts van iemand zit bepalend is voor je studiesucces zouden sommige stu-
denten zich door deze opmerking meer aangesproken moeten voelen dan andere. De vraag
is echter wie: Student A, die zich op de subfaculteit laat inschrijven op 39-jarige leetijd,
nadat hij enige jaren als econoom werkzaam is geweest op het Ministerie van Binnenland-
se Zaken en met een HBS-B diploma op zak, of Student B, die zich op 20-jarige leeftijd
laat inschrijven, een jaar nadat hij eindexamen Atheneum heeft gedaan, zonder Wiskunde
in zijn eindexamenpakket, terwijl hij in het tussenliggende jaar heeft gereisd en gewerk'
voor een aantal uitzendburo's. En wat te zeggen van Student C, 19 jaar, met een MAVO-
diploma en de opleiding K en O, die zich aan de subfaculteit laat inschrijven direct na vol-
tooiing van deze HBO-opleiding, na met goed gevolg het Colloquium Doctum examen t®
hebben afgelegd, of Student D, nu 41 jaar, die een HBS-B diploma bezit en voor haar hu-
welijk enige jaren als secretaresse heeft gewerkt.

Alle vier zijn zij representanten van de huidige eerstejaars populaties aan deze subfaculteit-
Zij nemen gelijktijdig deel aan het propedeuse-onderwijs en aan het eind daarvan zullen
sommige van hen als geslaagd kunnen worden beschouwd en andere niet. Twee van hen
hebben hierbij een extra hindernis te nemen in de vorm van een met goed gevolg af te leg-
gen wiskundetoets. Om voor hen de kans te bepalen dat zij binnen de voorgeschreven tijd
voor de propedeuse slagen zou op een bepaald moment van alle eerstejaars bij aanvang vaU
hun studie informatie moeten worden verkregen, die relevant geacht kan worden voor he'
studiegedrag, om deze informatie in verband te brengen met de uiteindelijke studieresul-
taten. Meestal zal men hierbij zoveel mogelijk kwantificeerbare gegevens trachten te ver-
zamelen.

Een niet te onderschatten bron van informatie daarbij is nu juist gelegen in de vooroplei'
dingsloopbanen van de eerstejaars.

We hebben enkele van deze vooropleidingsloopbanen geschetst. Wat levert dit ons aan
kwantificeerbaar materiaal. In feite niet meer dan de leeftijd en het jaar waarin men aa^
enige middelbare school eindexamen heeft gedaan, en, als men nominale variabelen nie'
schuwt, het geslacht en of men al of niet beschikt over een einddiploma dat rechtstreeks
toegang geeft tot de gekozen universitaire opleiding (of een andere nominale aanduiding
van de aard van de genoten vooropleiding). En dan beginnen de moeilijkheden pas goed:
de gekwantificeerde variabelen zijn onderling niet onafhankelijk (leeftijd en eindexamen-
jaar hangen met elkaar samen, evenals geslacht en aard van de vooropleiding, alsook g®;
slacht en eindexamenjaar, om maar enkele voorbeelden te noemen), waardoor men bij
verdere bewerking van deze gegevens op moeilijkheden stuit; de verkregen getallen vor-
men slechts een uiterst armoedige voorstpllina van zaken en geven bovendien ceen ade-

quate indruk van wat men tot uitdrukking wil brengen. De studenten A en D bijvoorbeeld
Vallen beide in de categorie oudere studenten en bezitten beide een diploma dat recht-
streeks toegang geeft tot de gekozen opleiding. De één echter heeft intussen een maat-
schappelijke carrière opgebouwd, terwijl de ander zich niet verder heeft ontplooid of
heeft kunnen ontplooien. Grofweg dezelfde gekwantificeerde uitkomsten hebben hier ge-
heel verschillende betekenissen, welke verschillen nu juist verantwoordelijk zouden kun-
nen zijn voor een verschil in studiegedrag; op voorhand zou je de econoom meer kans van
slagen geven dan de 'huisvrouw'. Om deze verschillen te kunnen laten spreken zijn de ge-
noemde gegevens onvoldoende en inadequaat.

Naar mijn idee zijn er twee mogelijkheden om uit deze impasse te geraken, n J. wat ik ge-
makshalve aan zal duiden als een technische en een meer intuïtieve benadering. De tech-
nische benadering zou kunnen bestaan uit het trachten te kwantificeren van alle mogelij-
ke gegevens die uit de vooropleidingsloopbanen gehaald kunnen worden en deze te combi-
neren tot één kwantitatieve variabele. Het zal jaren kosten om een dergelijk model te ont-
wikkelen en zelfs als een dergelijke constructie tot stand zou kunnen komen blijft het
probleem dat het model waarschijnUjk altijd achter de feiten aan zal lopen; maatschappe-
lijke ontwikkelingen (hoger onderwijs voor nog meer) en ontwikkelingen in het onderwijs
(b.v. een nieuwe examenregehng) zijn niet te stoppen.

De meer intuïtieve benadering, die los kan staan van een technische oplossing, maar hier-
van ook de exploratieve fase kan uitmaken, moet veeleer gezocht worden in een persoon-
lijke beoordeling van de waarde van elke afzonderlijke vooropleidingsloopbaan.
Deze benaderingen vormen twee extreme mogelijkheden voor het waarderen van de voor-
opleidingsloopbanen. En daarmee stuiten we op een controverse uit de vijftiger jaren, na-
meUjk de controverse tussen statistische en kUnische predictie (b.v. Meehl, 1954), recen-
telijk weer aangesneden door Dawes (1979). Wanneer hier de twee meest extreme vormen
dorden vergeleken (statistische voorspelling volgens een 'proper hnear model' en klinische
Voorspelling) blijkt de statistische voorspelling in het voordeel. Tussen deze twee extre-
men liggen echter allerlei combinatiemogelijkheden (b.v. improper linear models, waarbij
de gewichten in een regressievergelijking gebaseerd kunnen zijn op intuïtieve oordelen,
Uitgewerkt door Dawes, of de semi-intuitieve voorspellingsformule van De Groot (1961).
Ook het gebruik van improper linear models blijkt tot betere voorspellingen te leiden dan
zuiver klinische voorspellingen. In beide gevallen geldt dit echter alleen voorgevallen waar-
hij de voorspellende variabelen gekwantificeerd waren. Ons probleem is echter dat het
kwantificeren van de voorspellende variabele op moeilijkheden stuit en dat hierbij wat
technisch nu juist zo moeilijk te simuleren valt door mensen moeiteloos gedaan kan wor-
den, nj. het op subtiele wijze afwegen van het. belang van afzonderlijke of gecombineerde
gegevens en het hanteren van een niet geexpliciteerd netwerk van ingewikkeld verknoopte
relaties. Een zuiver klinische (intuïtieve) beoordeling hoeft dit niet te zijn. Het is mogelijk
het afwegingsproces te expliciteren en te controleren, maar het is niet noodzakelijk dit te
doen tot op het nivo dat voor een technisch model vereist zou zijn.
De beoordelaar loopt daarbij wel het risico dat het afwegingsproces niet bij iedere beoor-
deling op dezelfde wijze verloopt, met als resultaat een onbetrouwbare uitkomst. Toch is
een menselijke beoordelaar vooralsnog de enige die de complexiteit van de situatie kan
hanteren.

In het studiejaar 78/79 heb ik aan genoemde subfaculteit, bij wijze van experiment, ge-
probeerd op deze wijze van 240 eerstejaars te voorspellen of ze wel of niet met succes hun
propedeuse zouden voltooien binnen de voorgeschreven tijd, aan de hand van beoorde-
lingen van hun vooropleidingsloopbanen.

Op grond hiervan werd aan het begin van de studie bepaald of ze wel of niet voor de pro-
pedeuse zouden slagen, dan wel dat er sprake was van twijfel. Studieresultaten waren mij
op dat moment niet bekend. De voorspellingen werden in december'78 gedeponeerd bij
een van de redacteuren van dit blad en na afloop van de propedeuse werden de voorspelde
resultaten vergeleken met de werkelijke resultaten.
Bij de beoordeling werden de volgende kriteria gehanteerd:

— met Pedagogische of Sociale Academie en Havo of Mavo als middelbare schoolop-
leiding

— met Colloquium Doctum zonder middelbare schoolopleiding of een middelbare
schoolopleiding lang geleden of zonder wiskunde in de opleiding of met een HBO-
opleiding die niets met psychologie te maken heeft (behalve HTS)

— waarvan het eindexamen lang geleden had plaatsgevonden en die intussen geen aan-
vullende opleidingen hadden genoten

— met avondatheneum zonder wiskunde, gevolgd door een (gedeeltelijke) andere stu-
die

— met de oude gymnasium-alpha opleiding, gevolgd door een (gedeelteUjke) andere
studie

— andere middelbare school opleidingen die geen toegang geven tot de studie Psycho-
logie, gevolgd door een (gedeeltelijke) andere studie.

— met een middelbare schoolopleiding die toegang geeft tot de studie psychologie en
een verdere opleiding (HBO of academische studie tot en met het kandidaats of
doctoraal).

Dit aantal bedraagt 111.
De belangrijkste beoordelingskriteria zijn daarmee de vermeende kwaUteit van de genoten
opleiding, en het vak wiskunde.

Aan het eind van het eerste jaar bleek dat van de aldus beoordeelde 240 eerstejaars 76 ge-
slaagd waren en 164 gezakt.

In de tabel op pagina 169 is vermeld hoe zij zijn verdeeld over de voorspelde categorieën.
De categorie Twijfel gedraagt zich inderdaad als een groep van gerede twijfelgevallen: van
hen is ongeveer evenveel geslaagd als gezakt. We moeten echter constateren dat de voor-
spelling in zijn totaliteit niet goed uitkomt. De waarde van Somer's coëfficiënt d (Everitt,
1977, p. 65) voor de voorspelling van de propedeuseresultaten uit de oorzaken bedraagt
slechts 0,23.

Aan de hand van deze tabel kunnen we ook vaststellen dat de belangrijkste oorzaak hier-
van gelegen is in het feit dat de propedeuseresultaten veel ongunstiger zijn dan werd voor-
speld; er zijn veel meer studenten gezakt dan op grond van hun vooropleidingsloopbaan

verwacht mocht worden. Hierdoor zijn de verhoudingen tussen de randfrequenties zeer
ongelijic. Binnen de voorspelde categorieën Te slagen en Te zakken is een duidelijk ver-
schil waarneembaar in de mate waarin de voorspelling geslaagd kan worden genoemd: van
de mensen die vermeend werden te zakken is ongeveer 80% inderdaad gezakt, maar van de
mensen die hadden moeten slagen is maar 39% daadwerkelijk geslaagd. Het voorspellend
vermogen binnen de categorie Te zakken is duidelijk groter dan binnen de categorie Te
slagen. De nulhypothese dat de ratio's geslaagd/gezakt voor deze twee categorieën gelijk
zijn werd op éénzijdig 5% nivo getoetst door gebruik te maken van de stelling over logli-
neaire contrasten (Fienberg, 1977, p. 71 en 72). De procedure levert een toetsingsgroot-
heid die bij benadering standaardnormaal verdeeld is. De gevonden waarde van de toet-
singsgrootheid is 6,06, zodat de nulhypothese verworpen wordt.

Over het algemeen wordt in onderzoek over het voorspellen van studieprestaties op grond
van vooropleidingsgegevens naar een relatie gezocht tussen deze opleidingsgegevens en
studiesucces. Studiesucces (slagen) kan echter nooit alleen afhankelijk zijn van het voor-
opleidingsnivo; variabelen die betrekking hebben op het gedrag dat aanleiding geeft tot
de bedoelde prestaties (geleverde inspanning en/of studievaardigheid) spelen hier ook een
rol. Tot op zeker hoogte kan een gebrekkig opleidingsnivo gecompenseerd worden met
een grote hoeveelheid inspanning. Het is echter denkbaar dat een laag opleidingsnivo de
bodemwaarde aangeeft aan de compensatiemogelijkheden. Voor voorspellingen op grond
van het opleidingsnivo alleen zou dat betekenen dat een laag opleidingsnivo alleen maar
kan leiden tot falen (het inspanningsnivo is irrelevant geworden), maar dat een middel-
matig tot hoog opleidingsnivo tot slagen en tot zakken kan leiden, afhankelijk van de hoe-
veelheid geleverde inspanning.

De fout bij het voorspellen van succes moet in dit geval dus worden toegeschreven aan het
ontbreken van een andere, eveneens relevante, voorspellingsbron.

Een en ander neemt niet weg dat het falen voor de propedeuse redelijk voorspeld kan
Worden op grond van niet meer dan een beoordeling van de vooropleidingsloopbanen van
studenten.

Dawes, R.M. The robust beauty of improper linear models. American Psychologist, 1979,34, 571-583.
Everitt,B.S. The analysis of contingency tables, hondon: Chapman & Hall Ltd., 1977.
Pienberg, S.E. The analysis of cross-classified categorical data. Cambridge, Massachusetts: MIT-Press
1977.

Meehl, P.E. Clinical versus statistical preAc^b«. Minneapolis: University of Minnesota Press, 1954.
Manuscript ontvangen 7-3- '80

Te oordelen naar De Psyciioloog van april 1980, staat ook ons wellicht een IQ debat te
wachten. Mijnerzijds kunnen enkele kernpunten als volgt worden samengevat. Op een ac-
ceptabel definitieniveau is nauwelijks bekend wat intelligentie inhoudt, de scores wisselen
longitudinaal vaak aanzienlijk, de predictieve validiteit van de tests is matig, het weefsel
correlaties onontwarbaar, en het IQ debat over de herkomst van de verschillen is voorba-
rig en vooralsnog zinledig. Ik wil, ten dele op grond van recent materiaal, een poging
doen, enkele aspecten naar voren te schuiven, resp. wat uit te diepen.
De psychometrische traditie is m.i. atheoretisch en onverantwoord operationalistisch, het-
geen o.a. wordt goedgepraat door de geschiedenis van de natuurkunde verkeerd voor te
stellen. Het operationalisme is in tal van bronnen te vinden, bijvoorbeeld waar Boring (in:
Jensen, 1972, pag. 76) stelt: 'Intelligence, by definirion,iswhat intelligence tests measure'.
Voor wat betreft het atheoretisch karakter noteert Bereiter (1973): 'IQ is important, not
because it measures "intelligence", but because it predicts something important: school
achievement'. Eysenck (1962) schrijft onbekommerd: 'It is often believed that intelli-
gence tests are developed and constructed according to a rationale deriving from some
scientific theory. In actual fact intelligence tests are not based on any very sound scientific
principles'.

Een groep psychometristen (in: Block en Dworkin, 1976, pag. 448) maakt kenbaar: 'None
of the existing scales are based on any theory of intellectual development', en in het
handboek van de Terman-McNemar test staat: 'In the eariy days of the development of
group tests of mental ability an attempt was made to validate them by correlating scores
with teacher's marks'. Ter rechtvaardiging grijpt Eysenck herhaaldelijk naar analogieën
met klassieke thermometers, maar zonder te vermelden dat deze open instrumenten
mengsels waren van temperatuur- en barometers, en dat de fysica theorie heeft ontwik-
keld en moeten ontwikkelen om het instrument te verbeteren en tot het inzicht te komen
dat in feite sprake was van twee apparaten. Het ridiculiseren van de natuurkunde is nog
wat sterker'te vinden bij Jensen (1972) waar hij zegt: 'Intelligence, like electricity, is
easier to measure than to define'. Ik vraag mij af of een fysicus hier iets in herkent. Via
een tijdmachine worden verse kikkerpoten, glasstaven, een Leidse fles e.d. naar de Bata-
vieren verscheept, alsmede een aantal moderne meetinstrumenten. Dit zal vermoedelijk
leiden tot een 'electriciteitsdebat' (meer factor theorie?), want de groepsleden meten
watts, volts, ampères, EMK, joules, coulombs, henry's, newtons, farads, esu's en ohms.
Electriciteit is alleen goed te definiëren als men de theorie kent, en voortgang in de (na-
tuur)wetenschappen bestaat uit meten èn theorievorming. Dit laatste is, mede dankzij de
desastreuze echtscheiding van psychometristen en cognitivisten, in de psychologie m.i. on-
voldoende gebeurd. (Niet iedereen is het overigens eens met (extreme vormen van) opera-
tionahseren; Roskam (1979) schrijft: 'Operationaliseren und Operationalisation sollten
mit rückwirkender Kraft beerdigt werden').

De matige bruikbaarheid van de open thermometer vindt men (derhalve) terug bij de IQ

tests. De cognitieve ontwikkeling, vastgesteld met de test, verloopt niet alleen capricieus,
ook de voorspellende waarde is (dus) vaak gering.

Drenth (1975) merkt op dat tests soms lager correleren met latere schoolprestaties dan
vroegere schoolprestaties dat doen, en wel ondanks het feit dat de items op de schoolse
vaardigheden zijn toegesneden. Bovendien zou vanaf 1920 in dit opzicht nauwelijks voor-
uitgang zijn geboekt. De correlatie tussen IQ en succes binnen het beroep is gemiddeld on-
geveer nul. Drenth voert in dit verband 'storende externe variabelen' in het criterium aan,
ten dele van organisatorische aard. Hij heeft daar wellicht gelijk in, maar hoe kan men be-
slissingen voor en over individuen nemen, gegeven de eis dat predictieve validiteit zowel
een betrouwbare test als een betrouwbaar criterium veronderstelt? Een eventuele dynami-
sche werkelijkheid maakt de IQ test nog niet tot een bruikbaar instrument. Men zou kun-
nen tegenwerpen dat de laatstgenoemde correlaties beïnvloed zijn door 'restriction of
range'. Ik vraag mij af of deze altijd belangrijk is. Brody en Brody (1976) presenteren een
lijst van 74 beroepen (accountant tot boerenknecht). Het gemiddeld IQ bestrijkt het ge-
bied tussen 128,1 en 87,7, de standaarddeviaties lopen uiteen van 10,9 tot 20,8 en de va-
riatiebreedte van de scores omvat maar liefst 50 tot 127 IQ punten.
Ondanks het feit dat de correlatie tussen IQ en intelligentie onbekend is, er geen eenstem-
migheid bestaat binnen de (psychometrische) theorie in termen van factorstructuren, en
het gegeven dat de tests vaak zijn voorgekookt op g, resp. schoolse vaardigheden, vraagt
men zich af in welke mate aanleg en omgeving verantwoordelijk zijn voor de verschillen.
De empirische h^ ligt ergens tussen O en 1, en zelfs binnen kampen zijn er aanzienlijke
verschillen, bijvoorbeeld de Birmingliam groep (B) en de Hawaiigroep (H). B bedient zich
van variantie en covariantie, H van z-getransformeerde correlaties, B gebruikt geen padmo-
dellen, H wèl, B gaat er niet van uit dat er een correlatie is tussen genotype en omgeving, H
benut omgevingsindices zoals SES, B treft veel genetische dominantie aan, H legt de na-
druk op genetische additiviteit, en zo kan men doorgaan. Jaspars en de Leeuw (In: van
der Kamp et al., 1980), stellen zich op het standpunt dat sinds Galton op inhoudelijlc ni-
veau in de humane gedragsgenetica nauwelijks iets is gebeurd, afgezien van statistische ver-
fijningen. Dankzij die laatste zien zij kans, talloze modellen op e'e'n verzameling gegevens
te leggen, met alle desastreuze gevolgen voor h^ vandien.

Men kan zich zelfs de vraag stellen of het überhaupt zin heeft, h^ uit te rekenen. Wahlsten
roept in het monumentale handboek van Royce en Moss (1979) op pag. 480 uit: 'Who
has plunged behavioral genetics into conceptual confusion and theoretical chaos? ....
Different things are meant by the word "heredity", and different degrees of respect exist
for the concept of "heritability".' Wat brengt Wahlsten tot deze drastische uitspraak over
de gedragsgenetica? We definiëren 'erfelijk' als de informatie die men via chromosomen en
genen van zijn ouders meekrijgt en eventueel aan het nageslacht doorgeeft. De verervings-
coëfficiënt (h^) is de proportie fenotypische variantie binnen een populatie die berust op
genetische verschillen. We spreken verder af: V = variantie, F = fenotype, G = genotype,
O = omgeving, CVgo = covariantie en VgxO = interactie. Als O en G ongecorreleerd zijn,
zegt men dat Vp = Vq -h Vq • De verervingscoëfficiënt in brede zin is h^ ^ = Vc/Vp. Bij
discussies gaat het vooral hierom. G valt uiteen in de gemiddelde effecten van de genen
van een individu (A), dominantie (D) en epistase (E). Als deze additief zijn geldt dus dat
Vq = Va + Vn -H Ve . De 'smalle' verervingscoëfficiënt is h^ s = Va/Vk . Als over genera-
ties (dieren) O constant blijft, raakt Va uitgeput zodat h^s nadert tot nul. Om op grond
van F de componenten G en O te kunnen scheiden, moet sprake zijn van (minstens) een
twee maal twee factorieel design.

Voorbeeld: twee verzamelingen vliegen Gi en G2 groeien op in milieus Oi en O2. Er zijn
dan vier fenotypen: F,,, F^ , F21 en F22 die, in beginsel, conclusies mogelijk maken. Bij
het IQ van rassen en klassen hebben we echter slechts twee cellen, namelijk Fn en F22-
Het is nu bijzonder moeilijk uit te maken of het aangetroffen verschil komt door (Gj -
G2),(0i - 02),of beide. Een voorbeeld.

Vandenberg (1970) stelt dat de omgevingsdeprivatie van de neger in de U.S.A. zijn geno-
typische variatie onderdrukt. Hij voorspelde dat zowel h^e als het gemiddeld IQ lager
zouden liggen dan bij de blanke, hetgeen op grond van tweelingstudies leek te kloppen.
Het probleem is echter dat men ditzelfde resultaat zowel vanuit de aanlegtheorie als van-
uit de omgevingstheorie kan voorzien.

1. Aanleg. Vroeger waren beide G typen misschien gelijk, maar de IQ genen zijn in de
loop der eeuwen bij de negers 'uitgemendeld'. Dit put V^ uit. Consequentie: h^g en ge-
middeld IQ zijn lager.

2. Omgeving G is gelijk bij blank en zwart, maar een gedepriveerde omgeving maakt het
moeilijk, G te realiseren. Consequentie: idem.

Deze paradox is mogelijk omdat (bij de mens) G en O door elkaar lopen. Een demonstra-
tie daarvan is pag. 5 van Gallons^ Hereditary Genius', 'the arguments by which I endevour
to prove that genius is hereditary, consists in showing how large is the number of in-
stances in which men who are more or less illustrious have eminent kinsfolk'. Deze ver-
warring van aanleg en milieu heeft statistisch te maken met covariantie en interactie. De
afspraak h^g = V(j/Vp kan gemaakt worden als G en O ongecorreleerd en addititief zijn.
Bij een correlatie tussen G en O schrijft men Vp = Vg -h Vq + 2 CVgo- De laatste term
kan positief of negatief zijn, en groter of kleiner dan Vq .

Bij onvolmaakte correlaties (verschillende niveaus dus van G en O) kan CVgo in beginsel
worden uitgerekend. Voor de menselijke gedragsgenetica betekent dit echter dat we G en
O meten, en dat lukt niet of nauwelijks (voor wat betreft de omgeving). De meeste au-
teurs tellen CVgo bij G. Dit is echter willekeurig; men kan met hetzelfde recht voor O
kiezen.

Interactie betekent dat de mate waarin G tot uitdrukking komt afliangt van O en dat het
gedrag bij een veranderende O te maken heeft met G. Bij dierproeven is Vgxo vaak zeer
groot, en men schrijft Vp = Vg -h Vq + CVgo + VgxO- Als doorgefokte ratten opgroei-
en in 'Standard' en 'enriched cages' en ten aanzien van hun exploratief gedrag wordt
VgxO opgeteld bij G, neemt h^^. toe van .04 tot .37 (Henderson, 1970), wat een factor
negen verschil maakt. (Het is verleidelijk, hierbij te denken over het gegeven dat h^ 3 van
het IQ bij kinderen volgens sommigen zes maal zo groot is als bij volwassenen). Ook
VgxO kan naar believen bij G of O worden ondergebracht, zeker bij de mens, waar, nog-
maals, G noch O goed meetbaar zijn. Kortom: met betrekking tot h^ 3 van het IQ is spra-
ke van twee mogelijk (zeer) grote variantiebronnen-die in de lucht hangen.
Tenslotte enkele opmerkingen over de relatie tussen (een hoge) h^ g en de manipuleer-
baarheid van een eigenschap vanuit de omgeving. In het algemeen is, zelfs wanneer de ge-
nen een belangrijke invloed uitoefenen, veel variatie mogelijk. Voorbeeld: een populatie
genetisch identieke individuen (de toekomstig gekloonde personen) worden in verschillen-
de mate gevoed. De lengtevariatie wordt veroorzaakt door het milieu, zodat h^ g = O- An-
ders gezegd; h^g voorspelt op zich niets over de plasticiteit van een eigenschap.
Volgens Jensen betekent de fameuze waarde van .80 'genetic enslavement', waaraan wel-
licht alleen iets is te doen via 'eugenic foresight' (zoals Spencer en Galton een eeuw gele-
den en recentelijk Wilson, 1979, stelden). Er zijn onderzoeken met tweeHngen gedaan

(Newman et. al., 1937) waaruit naar voren komt dat h^B van lengte èn gewicht ongeveer
•60 is. Desondanks weet ieder dat volwassenen wel dikker of dunner, maar niet langer of
korter worden. Óok het omgekeerde doet zich voor, namelijk dat een lage h^B te maken
kan hebben met een hoogst weerbarstige eigenschap. Op het gebied van het (overigens
eveneens omstreden) onderzoek naar linkshandigheid zegt Collins (1977) dat handvoor-
keur vrijwel niet genetisch bepaald is. Desondanks is het bijzonder moeilijk, bij het schrij-
ven van hand te wisselen.

CVqo en VgxO zij" zó essentieel dat men h^ alleen zinvol kan uitrekenen binnen een
factorieel design in de sfeer van andijvie, bananenvliegen en doorgefokte muizen. Ten aan-
zien van het menselijk gedrag is het misschien redehjker om te steUen IQ = f(G,0). Nie-
mand kan zich nu een buil vallen, en dat is misschien de reden waarom wij dergelijke in-
gewikkelde formules in alle tijden aantreffen. Buikhuisen (1979) verklaart met betrekking
tot crimineel gedrag dat D = f(P,S), ofwel Deliquent gedrag heeft te maken met een Per-
soon en een Situatie,en Epiktetos' boek 'Diatribai' (Gesprekken) van plm. 79 kan worden
samengevat als B = f(W4), ofwel onze Beleving is een functie van de Werkelijkheid en de
Interpretatie daarvan.

Bereiter, C. Race and IQ; blaming the psychometricians. Contemporary Psychology, 1973 jg 10
455-456. ' '

Block, N.J., Dworkin, G. (Eds.) The IQ controversy. New York; Pantheon Books, 1976.
Brody, E.B., Brody, N. Intelligence. New York: Academic Press, 1976.
Buikhuisen, W. Kriminologie in biosociaal perspektief. Deventer, Kluwer, 1979.

Collins, R.L. Origins of the sense of asymmetry; Mendelian and non-Mendelian models of inherit-
ance. /l«na/s of the New York Academy of Sciences, 1977, 299, 283-305.
Drenth, P.J. Inleiding in de testtheorie. Deventer: van Loghum Slaterus, 1975.
Eysenck, \i.}. Know your own IQ. Penguin Books, 1962.

Henderson, N.D. Genetic influences on the behavior of mice can be obscured by laboratory rearing.

Journal of Comparative and Physiological Psychology, 1970, 72, 5 05-511.
Jensen, A.R. Genetics and education. London: Methuen, 1972.

Kamp, L.J.Th, van der, Langerak,'W.F., Gruijter, D.N.M. de Psychometrics for educational de-
bates. New York: Wiley, 1980.
Newman, H.H., Freeman, F.N., Holzinger, K.J. Twins: a study of heredity and environment. Chicago:

University of Chicago Press, 1937.
Roskam, E.E. Eine Fallstudie über Forschungsmethodik. Zeitschrift für Sozialpsychologie, 1979
70,114-133.

Royce, J.R., Mos, L.P. Theoretical advances in behavior genetics. Alphen aan den Rijn: Sijthoff, 1979.
Vandenberg, S.G. A comparison of heritability estimates of U.S. negro and white high school students.

Acta Geneticae Medicae et Gemellologiae, 1970,19, 280-284.
Vroon, P.A. Intelligentie. Basisboeken, Baarn, 1980.
Wilson, De gouden kooi. Amsterdam: Elsevier, 1979.

Stokking^ bespreekt de functie van toetsen op statistische significantie binnen de sociale
wetenschappen, in het bijzonder gezien vanuit het quasi-experimentele antwoord op de
evaluatievraagstelling in onderwijsonderzoek. Ten behoeve daarvan geeft hij een uitgebrei-
de bespreking van de literatuur van statistisch toetsen en de vooronderstellingen daarbij.
Hij geeft een beknopte en voornamelijk tot de visie van Popper beperkte bespreking van
het wetenschappelijke proces van hypothesen toetsing.

Door een analyse van problemen op het snijvlak van beide vormen van toetsing komt hij
tot de conclusie dat statistisch toetsen iets anders is dan het toetsen van hypothesen. Het
verwerpen van een statistische nul-hypothese is een beslissing van de onderzoeker binnen
één afzonderlijk onderzoek. Het verwerpen van een theoretische hypothese is nooit een
beslissing van een individuele onderzoeker, vrijwel nooit gebaseerd op één afzonderlijk
onderzoek.

Hij bepleit dat statistische toetsingsresultaten daarom slechts zinvol in het wetenschappe-
lijk proces van hypothesenbeproeving kunnen worden gebruikt, als zij als een argument
naast andere argumenten worden gehanteerd.

Daarmee lost hij de belofte van ondertitel en inleiding niet in. Deze belofte kan omschre-
ven worden als het antwoord geven op de vraag naar de betekenis van het voorgaande
voor onderwijskundig evaluatie-onderzoek. In feite laat hij de lezer zelf naar antwoord
zoeken.

Hij kan deze belofte ook niet inlossen, omdat hij het probleem verkeerd stelt. Hij doet het
namelijk voorkomen alsof zijn probleem van de verhouding tussen statistisch en weten-
schappelijk tpetsen het kernprobleem van onderwijskundig evaluatie-onderzoek is.
Daarmee maakt hij een te gemakkelijke identificatie tussen programmaevaluatie en hypo-
thesetoetsing, tussen het effect van een onderwijsprogramma en een onderwijskundige
hypothese. Bovendien laat hij na om het probleem van programma-evaluatie te analyseren
om de mogelijke plaats en functie van statistische toetsing daarbij aan te kunnen geven.
Om bij het laatste te beginnen, de evaluatie van een programma veronderstelt een beschrij-
ving van programma-uitvoering en een beschrijving van geconstateerde effecten. Beschrij-
vende statistiek kan in beide gevallen erg nuttig zijn om informatie in kort bestek weer te
geven. Een noodzakelijke voorwaarde om effecten te constateren is een beschrijving van

1. Vakgroep Onderwijskunde van de R.U.G., Westerhaven 16, 9718 AW Groningen. R.I.O.N., Nieuwe
Stationsweg 5-9, 9751 SZ Haren.

2. K.M. Stokking - Toetsend onderzoek; Over toetsen op statistische signifikantie in de sociale we-
tenschappen, in het bijzonder gezien vanuit het kwasi-experimentele antwoord op de evaluatievraag-
stellingen in de onderwijsresearch; Dissertatie, Groningen, 1979.

de doelrealisering: zijn de gewenste effecten wel of niet (voldoende) gerealiseerd. Een mo-
gelijkheid om effecten te constateren is een vergelijking met een controlegroep; namelijk
een beschrijving van het verschil in realisering van gewenste effecten in de programma-
groep en de controlegroep. Problemen die zich daarbij voordoen, bestaan uit de vergelijk-
baarheid van beide groepen: in de controlegroep worden meestal andere programma's met
soms andere soms dezelfde doeleinden op het betreffende terrein uitgevoerd, of er wordt
helemaal niets aan reaHscring van dergelijke doeleinden gedaan. Als je een controlegroep
hebt gevonden, waarin naar dezelfde doelstelling wordt gestreefd als in het programma
dat je wil evalueren, dan wordt vergelijking tussen programmagroep en controlegroep zin-
vol. Verschillen tussen beide groepen geven informatie over de relatieve doeleffectiviteit
van het te evalueren programma. Alleen als de verschillen zo klein zijn dat ze mogelijker-
wijs bij toeval zijn ontstaan (bij een hypothese dat de doelrealisering in de programma-
groep minder of even effectief is als in de controlegroep), wordt statistische toetsing zin-
vol. Alleen als randomiserings- en matchingsprocedures adequaat zijn geweest, kunnen de
toetsingsresultaten als doorslaggevende argumenten worden beschouwd. In andere geval-
len kunnen toetsingsresultaten natuurlijk ook als argument worden beschouwd, maar
Stokking bespreekt niet wat de argumentatieve meerwaarde is van een geconstateerd ver-
schil dat ook statistisch significant is, vergeleken met een geconstateerd verschil waarvan
de statistische significantie niet is nagegaan (beide in situaties waarin niet adequaat geran-
domiseerd en gematcht is). Deze argumentatieve meerwaarde lijkt afwezig. De enige uit-
zondering lijkt dat de geconstateerde verschillen systematisch zouden kunnen worden ver-
klaard vanuit beschikbare theorieën, met behulp van te beschrijven verschillen in program-
ma dan wel in randvoorwaarden.

Daarmee zijn we gekomen op de tweede belangrijke misser in de analyse van Stokking, de
te gemakkelijke identificatie van programma-evaluatie met hypothesetoetsing. Als een on-
derwijsprogramma theoretisch wordt gereconstrueerd, is er vrijwel nooit sprake van een
simpele hypothese over een handeling en een effect. Vrijwel altijd is er sprake van een
aantal handelingen die in relatie tot elkaar en in een bepaalde volgorde het verwachte ef-
fect sorteren. Als je al evaluatie en toetsing identificeert, is er bij evaluatie sprake van toet-
sing van een netwerk van hypotheses. Bij adequate toetsing zou je alle onafhankelijke en
intermediërende variabelen moeten hebben gecontroleerd, omdat alleen hun configuratie
leidt tot de voorspelling van een effect. Statistische toetsing in een dergelijke situatie kan
alleen maar betekenen dat ée'n of meer causale hypotheses worden beproefd; dat kan al-
leen maar bij systematische variatie van de causaal geïnterpreteerde variabelen en bij een
tegelijkertijd constant houden van alle andere onafhankelijke en intermediërende variabe-
len uit het netwerk. Dit probleem wordt niet eens gesignaleerd, laat staan tot een oplos-
sing gebracht door Stokking.

Het geheel overziende vanuit de beantwoording van de evaluatievraagstelling in het onder-
\vijs-onderzoek is het feit dat formatieve evaluatievraagstellingen niet worden besproken,
de belangrijkste beperking van de analyse van Stokking. De formatieve evaluatievraagstel-
hng koppelt de effectiviteitsvraag aan de vraag welke bijdragen de ontwikkelde middelen
leveren aan het effect met als doel deze middelen (programma's, cursussen of onderdelen
daarvan) bij te stellen zodat het gewenste effect beter wordt gerealiseerd. Bij een beant-
woording van deze vraagstelling spelen constraints van de practische ontwikkelingssituatie
een zodanig belangrijke rol dat zij een enigszins verantwoorde statistische toetsingsopzet
helemaal onmogelijk maken. Daar staat tegenover dat de formatieve evaluatievraagstelling
bij onderwijs-onderzoek vaker voorkomt dan de door Stokking in feite besproken summa-

tieve vraagstelling. Ook het GEON-project had volgens zijn eigen mededeUngen (blz. 22)
een formatieve evaluatievraagstelling.

Samenvattend kan worden gesteld dat Stokking ten behoeve van een discussie over en een
antwoord op de vraag wat de functie van toetsen op statistische significantie is bij het be-
antwoorden van de evaluatievraagstelling in onderwijsonderzoek, een aantal belangrijke
problemen bij dit type onderzoek over het hoofd heeft gezien. Analyse van deze proble-
men zou aanleiding hebben gegeven tot een ander, en waarschijnüjk betrekkelijker oordeel
over de zinvolheid van statistische toetsing.

In samenhang daarmee is een discussie over en een antwoord op de vraag van Stokking
minder belangrijk voor goed onderwijsonderzoek dan een beantwoording van de vraag hoe
je goed, wetenschappehjk verantwoord onderzoek kan doen ter beantwoording van (for-
matieve) evaluatievraagstellingen.

EEN REAKTIE OP 'COMMENTAAR OP STOKKING: "TOETSEND
ONDERZOEK''' VAN CREEMERS EN HOEBEN, OF: HET MISVERSTAND
ROND EEN ONDERTITEL.

Allereerst wil ik mijn erkentelijkheid uitspreken voor de moeite die Creemers en Hoeben
hebben genomen door kommentaar te leveren op mijn proefschrift^, voor de belangstel-
ling die TOR daarvoor toont, en voor de bereidheid van de redaktie een reaktie van mijn
kant te plaatsen.

Omdat de meeste lezers van dit tijdschrift het proefschrift wel niet gelezen zullen hebben,
en omdat naar mijn mening daarvan uit het kommentaar van C. en H. ook moeiUjk een
indruk valt op te bouwen, geef ik eerst een beknopte schets van de opzet daarvan. De
samenvatting in het boek zelf geeft m.i. goed weer waar het over gaat, maar die beslaat zes
bladzijden; voor hen die dat bij de hand hebben vermeld ik even dat genoemde samenvat-
ting integraal is opgenomen in het bulletin van de VVS van september 1979.^
Het proefschrift valt uiteen in een zestal hoofdstukken. In het eerste, inleidende hoofdstuk
wordt ingegaan op soorten statistiekgebruik en typen onderzoek, wordt aangegeven dat
de rest van het boek voomameUjk over experimenteel onderzoek zal gaan, en wordt alvast
kort aangegeven wat daarbij de funktie van statistisch toetsen kan zijn. Hoofdstuk 2 gaat
in op de zgn. klassieke statistische toetsingstheorie, en op de toetsingsopzet die in de so-
ciale wetenschappen vrijwel standaard is. Daarvan wordt aangegeven dat-die een zeer spe-
cifieke keus vertegenwoordigt uit de mogeUjkheden die de toetsingstheorie openlaat,
wordt beschreven dat die opzet soms nogal slordig wordt gehanteerd, en wordt gekonklu-
deerd dat die opzet bepaald niet past op het toetsen in de zin van falsificeren van theorieën
en hypothesen. In hoofdstuk 3 wordt nogal uitgebreid aandacht geschonken aan een aan-
tal assumpties achter statistisch toetsen, mede gerelateerd aan diverse analysetechnieken
en aan zgn. robuustheidsonderzoek. Slotsom is daar dat de empirisch-analytische metho-
dologie werkt met nogal ongrijpbare kwaliteitsmerken, terwijl het toch juist afhankelijk is
van konkrete onderzoeksaktiviteiten of aan assumpties wordt voldaan. In het vierde
hoofdstuk wordt geprobeerd in te gaan op het toetsen van theorieën en hypothesen. Daar-
toe wordt het denken van Popper beschreven, met name zijn falsificeerbaarheidstheorie,
zijn corroboreerbaarheidstheorie en zijn theorie van de achtergrondkennis. Gekonkludeerd
Wordt dat we in de wetenschap vaak een kausaal-generaliserende interpretatie toepassen.
In hoofdstuk 5 wordt ingegaan op de belangrijke herhaalbaarheidsassumpties achter toet-
send onderzoek, mede in relatie tot repUkatieonderzoek. Getracht wordt te laten zien dat

1. GEON, Oude Gracht 299, 3511 PA Utrecht. De evaluatie van hetGEON-projekt(1973-1979) wordt
dit jaar afgerond. De auteur is evaluator van het projekt.

2. Toetsend Onderzoek; over toetsen op statistische signifikantie in de sociale wetenschappen, in het
bijzonder gezien vanuit het kwasi-experimentele antwoord op de evaluatievraagstelling in de onderwijs-
research.

3. VVS-buUetin, maandblad van de Vereniging voor Statistiek, jaargang 12 nummer 9, september 1979
pp. 24-29. Zie ook Statistica Neerlandica, Volume 34 nr 1 (1980) pp. 52-53.

de wetenschapsfilosofische diskussie ook, en zo mogelijk nog pregnanter, gevoerd wordt
op het mathematisch-statistische vlak, en dat omgekeerd statistische theorieën (besproken
worden Neyman cs. Fisher cs, en de Bayesiaanse aanpak) samenhangen met wetenschaps-
opvattingen. In de hoofdstukken 4 en 5 wordt verder nog uitgewerkt hoe een aantal waar-
schijnlijkheidskoncepten in dit geheel een rol spelen, en wordt tevens een opvatting over
aktieonderzoek ontwikkeld. Het zesde hoofdstuk tenslotte betoogt dat, als je overgaat tot
toetsen op statistische signifikantie, het in het licht van de voorgaande hoofdstukken ver-
standig is je af te vragen wat je eigenlijk toetst. Algemener kun je je na een experiment af-
vragen wat je nu eigenlijk weet, kunt weten, gezien de alles doordringende maar hypothe-
tisch blijvende veronderstelling van het bestaan van konstanties en wetmatigheden, en ge-
zien het feit dat in de onderzoekspraktijk telkens tal van tegenargumenten voor konklusies
opgeworpen blijken te kunnen worden.
Tot zover een schets van mijn proefschrift.

Dan nu mijn reaktie op het kommentaar van C.en H.ldaarop. Kort samengevat luidt die;;
ze maken enkele behartcnswaardige opmerkingen over onderwijskundig onderzoek, met
name over programma-evaluatie, maar ze gaan eigenlijk amper in op de inhoud van mijn
dissertatie. Ik kan dat alleen maar terugvoeren op een misverstand omtrent de bedoeling
van het boek. Dat bhjkt mijns inziens waar ze spreken van 'de belofte van ondertitel en
inleiding'. Het inleidende hoofdstuk had juist de funktie een aantal beperkingen aan te
geven (zoals ook op p. 9 wordt gesteld), en wat de belofte die zou uitgaan van de onder-
titel betreft: daarin wordt gesteld dat het gaat over het 'toetsen op statistische signifikan-
tie in de sociale wetenschappen', en die 'belofte' heb ik toch wel ingelost. C. en H. zijn
naar mijn mening te zeer aan de haal gegaan met de daarop volgende toevoeging: 'in het
bijzonder gezien vanuit het kwasi-experimentele antwoord op de evaluatievraagstelling in
de onderwijsresearch'. Die toevoeging maakt duidelijk dat het zal gaan over summatieve
evaluatie volgens een bepaalde traditie (de kwasi-experimentele), waarnaast uiteraard an-
dere antwoorden op de evaluatievraag mogelijk zijn (zoals de door C. en H. terecht zo be-
langrijk geoordeelde formatieve).

De toevoeging als geheel had echter de funktie om me al bij voorbaat tegenover statistici
te verontschuldigen als zou blijken dat ik vanuit mijn discipline me aan eenzijdigheden of
blinde vlekken schuldig zou maken. Het is eigenlijk wel grappig om nu te moeten konsta-
teren dat wat dus als het aangeven van een ongetwijfeld aanwezige zekere beperktheid was
bedoeld door anderen juist als een belofte kan worden gezien.

Genoemd misverstand verklaart grotendeels de kritiek van C. en H. op het boek. Die kritiek
bestaat uit twee door hen zo genoemde 'missers', en een toevoeging over formatieve eva-
luatie. Ik wil graag op hetgeen door hen naar voren wordt gebracht nog iets nader ingaan.
(1) Ik zou doen voorkomen alsof het probleem van de verhouding tussen statistisch en
wetenschappelijk toetsen het kernprobleem van onderwijskundig evaluatie-onderzoek is.
Uit bovenstaande blijkt dat zulks niet de bedoeling is geweest, en ik zou ook niet weten
waar ik zoiets gesteld zou hebben. Wat ik wel gesteld heb (en blijf stellen) is dat het evalu-
atieprobleem een kernprobleem is in onderwijskundig onderzoek (of, zoals ik meestal
schrijf: onderwijsresearch). En dat is toch echt een andere stelling. Verder weten we alle-
maal dat voor 'het kernprobleem van onderwijskundig evaluatie-onderzoek' verschillende
zeer serieuze kandidaten in de markt zijn; ik noem slechts het kriteriumprobleem en het
generalisatieproble em.

Is er al geen sprake van identifikatie van evaluatie en toetsing, zoals C! en H. verderop stel-
len, bepaald vreemd vind ik dat ik geen aandacht besteed zou hebben aan wat C. en H.
*

schrijven m.b.t. toetsing van een netwerk van hypothesen: dat komt juist herhaaldelijk ex-
pliciet in het boek aan de orde (zie de paragrafen 3.1, 3.3, 4.3 en 4.4, en meer specifiek
op de pp. 35,41, 69, 153-154).

(2) Ik zou nagelaten hebben om het probleem van programma-evaluatie te analyseren.
Alweer: uit wat ik boven heb gesteld zal duidelijk zijn dat ik me vanaf het begin heb ge-
richt op summatieve evaluatie. In de kwasi-experimentele traditie op dat terrein is de
funktie van statistisch toetsen er een van het leveren van een beslissingskriterium, waar
het gaat om het al dan niet trekken van de konklusie dat er sprake is van een (experimen-
teel) effekt. (Op de diskussie over de verschillende te hanteren analysetechnieken ga ik nu
maar niet in).

Overigens is van een groot deel van wat C. en H. bij dit punt te berde brengen ('Om bij het
laatste te beginnen ...') mij niet duidelijk of ze het gestelde bedoelen te brengen als een sa-
menvatting van wat ik geschreven zou hebben, of als visie van henzelf. Ik hou het op het
laatste, maar kan mij hoe dan ook in veel van wat ze daar zeggen heel goed vinden. De
Passage over 'argumentatieve meerwaarde' vind ik een prima suggestie; aan toepassing van
de argumentatieleer ben ik echter nog niet toegekomen.
Op een viertal punten in dit bestek ben ik het duidelijk niet met ze eens:

~ De grootte van verschillen is geen maat voor de zinvolheid van statistische toetsing,
maar omgekeerd: een statistische toets geeft kriteriuminformatie bij het al dan niet aan
'het toeval' toeschrijven van verschillen.

- Of toetsingsresultaten als argument kunnen worden beschouwd waar geen sprake is van
adekwate randomisering e.d. is nu juist een van de essentiële vragen in mijn boek; dat is
zeker niet 'natuuriijk' zo.

- Het nagaan of in een bepaalde situatie niet adekwaat gerandomiseerd is doe je juist met
behulp van een statistische toets; dat kun je niet 'vooraf' al weten.

- De argumentatieve meerwaarde van een óók nog konstateren van een verschil dat het
'staüsüsch signifikant is' lijkt me gezien de rond publikatieprocessen verrichte en ook
in mijn proefschrift gememoreerde studies sociaalpsychologisch bezien niet afwezig,
maar vooriopig juist nog wel verzekerd; en dat betreur ik juist.

(3) Als belangrijkste beperking noemen C. en H. dat formatieve evaluatievraagstellingen
niet worden besproken. Dat is juist; zo heb ik in het boek wel meer beperkingen aange-
bracht, en ik gaf ook al aan waar.

Dat de formatieve evaluatievraagstelling bij onderwijsonderzoek vaker voorkomt dan de
summatieve waag ik te betwijfelen: de 'grote' evaluatiestudies ä la Head Start werden juist
bekritiseerd op hun al te uitsluitende gerichtheid op het meten van de 'impact' van de
programma's. Dat ook het GEON-projekt volgens mijn eigen mededelingen een formatieve
evaluatievraagstelling had is juist; ik noemde die vraagsteUing t.a.p. echter temidden van
een aantal andere, waaronder als belangrijkste juist de summatieve.
Nu het GEON-projekt toch ter sprake is gebracht daarover nog twee opmerkingen. In de
eerste plaats: ik heb het projekt (met name de evaluatie-aanpak) in mijn proefschrift her-
haaldelijk genoemd, maar bij wijze van illustratie; het is dus géén dissertatie over het pro-
jekt. Vervolgens: diverse zaken waarvan C. en H. aangeven ze belangrijk te vinden komen
juist in de GEON-evaluatie ruim aan bod, zoals een beschrijving van de programma-uitvoe-
ring, en een koppeling van de effektiviteitsvraag aan de vraag welke bijdragen de ontwik-

kelde middelen leveren aan het effekt. Ik noemde dat al in mijn proefschrift (p. 164),
maar ik wil vooral verwijzen naar de eindrapportage over het projekt.^

Samenvattend: ik heb niet zozeer problemen over het hoofd gezien als wel bewust niet
behandeld; een oordeel over de zinvolheid van statistische toetsing kan amper betrekke-
lijker uitvallen dan in mijn proefschrift; en dat C. en H. aan het eind reppen over de vraag
naar 'goed, wetenschappelijk verantwoord onderzoek' komt op mij een beetje over als
'begging the question'.

Ik kan een reaktie van het type als C. en H. geven alleen maar verklaren door te veronder-
stellen dat zij hevig teleurgesteld waren te merken dat ook alweer in dit boek niet het
antwoord te vinden bleek te zijn op de vragen die zij zich stellen. Hun kommentaar schiet
een beetje langs het doel heen. Als ik over curriculumevaluatie had willen schrijven had er
wel een onderwijskundige in het promotieteam gezeten. Nü was de bezetting daarvan (een
statistikus en een filosoof) precies adekwaat aan de bedoelingen.

4. Zie de papers voor de Onderwijsresearchdagen 1979 en 1980, en de dit jaar (1980) in Pedagogische
Studiën te verschijnen artikelenreeks.

Onderzoek naar het effekt van het aanleren van algoritmische en heuristische oplossings-
methoden mede in verband met persoonskenmerken.
Swets en Zeitlinger, Lisse 1979 (proefschrift).

Het onderzoek van De Leeuw heeft betrekking op twee soorten probleemvelden of denkstofgebieden,
zoals hij ze noemt: het extrapoleren van getalrijen (een vorm van inductief denken) en het evalueren
van syllogismen (een vorm van deductief denken). Binnen elk denkstofgebied worden twee klassen
problemen aangeboden: een homogene (makkelijker) en een heterogene (moeilijker).
Voor het leren oplossen van beide klasse problemen binnen de twee denkstofgebieden is een algorit-
mische en een heuristische methode van oplossen ontwikkeld die door de computer wordt onderwezen
(CAI). Het CAl-systeem is zodanig opgezet dat de proefpersonen (ppn) niet kiezen uit gegeven ant-
woordmogelijkheden maar hef antwoord zelfstandig moeten konstrueren. De proefpersoon aan de
terminal heeft steeds gezelschap van een proefleider. De afhankelijke variabelen bestaan uit leerresulta-
ten op de onderwezen klasse problemen en prestaties bij het oplossen van andersoortige problemen.
Deze laatste dienen om horizontale, vertikale en non-specifieke transfer vast te stellen. De verschillede
tests voor de meting van deze variabelen werden driemaal afgenomen: onmiddellijk na de treatment
(onmiddellijke natest), enige dagen later (uitgestelde natest) en enige maanden later (retentie-test).
Voor de aanvang van de treatment werden twee voortest-sessies gehouden waarin de tests voor het
nieten van persoonskenmerken en de zojuist genoemde prestatie-tests zijn afgenomen. De persoonsken-
merken waarvan wordt nagegaan of ze met de treatments interakteren zijn: negatieve faalangst, presta-
tie-motivatie, veld(on)afhankelijkheid en faktoren van algemene en specifieke intelligentie.
De groep proefpersonen bestond in het eerste onderzoek uit vijfde en zesde klassers van de basisschool,
in het tweede onderzoek uit leerlingen van de vierde klas van de HAVO-top van een pedagogische
academie.

De Leeuw benadrukt dat de leerstof geen eigenlijke leerstof is maar bestaat uit denkstof. De inhoud
van de denkstofgebieden is zodanig gekozen dat leerlingen van verschillende begaafdheden er mee
moeten kunnen Ieren werken. Dit betekent dat de proefpersonen voor de treatment al over een zekere
kennis en vaardigheid beschikken. De mate waarin dat voor elk van hen het geval is wordt vastgesteld
niet behulp van voortests. De inhoud van de soorten problemen en de inhoud van de instruktiepro-
gramma's worden uitgebreid beschreven. De onderwijs-leerpsychologische achtergronden van deze pro-
gramma's zijn als volgt kort samen te vatten. Er wordt verslag gedaan van veel literatuur op het gebied
Van leren denken. De meeste aandacht wordt hierbij gegeven aan de theorieën van Sovjet-psychologen
als Landa en Gal'perin. Deze worden aangevuld met visies uit de Westerse leerpsychologie. Opvallende
afwezige bij deze laatste is de theorie van Gagné. De vormgevingsprincipes voor de uiteindelijke
programma's worden grotendeels ontleend aan Landa. Niet helemaal duidelijk is mij waarom de
fasegewijze vorming van mentale handelingen van Gal'perin niet is opgenomen in bijvoorbeeld het
algoritmische instruktieprogramma. Dit programma bevat een algoritmisch oplossingsschema en een
procedure voor de training van het gebruik ervan bij het oplossen van problemen. Het heuristische
programma begint met een korte introduktie, geeft vervolgens een probleem, de pp stelt dan hypothe-
sen op over mogelijke oplossingen en probeert deze uit. Nadat het probleem is opgelost, komt een
Volgende.

Als de pp vastloopt kan hij hulp vragen. Hef programma geeft deze hulp vanuit het principe van 'de
kleinst mogelijke hulp' (Selz). D.w.z. dat eerst zeer algemene hulp wordt gegeven als de leeriing
problemen heeft en als deze geen effekt sorteert, steeds specifiekere informatie wordt aangereikt, tot
uiteindelijk de oplossing. Ter voorkoming van misverstanden: de beide CAI programma's zijn algorit-

misch van aard ook het programma dat een heuristische methode van oplossen onderwijst. Het aan-
leren van heuristische processen moet volgens De Leeuw verlopen via een instruktie-algoritme, omdat
op deze manier een maximale kontrole van het leerproces mogelijk is en de onderwijzende instantie
maximaal effekticve aanwijzingen kan geven. Hierbij moet de kanttekening worden geplaatst dat De
Leeuw's typen problemen zowel met een heuristische als met een algoritmische methode zijn op te
lossen. Voor het leerproces bij meer komplexe problemen waarvoor alleen en meestal meerdere,
heuristische oplossingsmethoden beschikbaar zijn, is het ontwerpen van een enigszins effektief instruk-
tie-algoritme problematisch. Met name omdat het oplossen van deze problemen op zich moeilijk te
algoritmiscren is.

Na een overzicht van de hteratuur op het gebied van persoonskenmerken en ATI worden een aantal
relevante persoonskenmerken gekozen en predicties gedaan over hun interaktie met de onderwijspro-
gramma's. Vervolgens is een hoofdstuk gewijd aan de methodologisch-statistisch aspckten van (ATI)
onderzoek naar het aanleren van oplossingsmethoden. Hierin wordt aangegeven hoe dc onderzoeks-
opzet eruit ziet en komen de gekozen statistische technieken (multiple regressie-analyse, pad-analyse)
en de problematiek van veranderingsskores aan de orde. De techniek van pad-analyse is in deze
kontekst relatief nieuw en wordt gebruikt voor het opsporen van causale relaties tussen variabelen van
het leerproces en leerresultaten.

Afbreuk aan deze uitgebreide en redelijk heldere verantwoording doet het feit dat de onderzoeksopzet
als zodanig niet gekarakteriseerd is naar of gekonfronteerd is met de bekende soorten onderzoeksde-
signs (experimenteel, quasi-experimenteel) en de wijzen waarop de interne validiteit van het onderzoek
wordt gemaximaliseerd. Nu moet de lezer bijv. op verschillende plaatsen in het proefschrift vernemen
dat de proefpersonen niet at random zijn toegewezen aan de treatments maar gematcht (vanwege het
kleine aantal) en dat er individucel onderwijs wordt gegeven op verschillende tijdstippen waarbij het
tijdsverschil tussen twee paren hoogstens een dag geweest is.

Een andere onvolkomenheid is het gemis van psychometrische gegevens over de gebruikte tests. Een
groot aantal van de prestatietests bestaat uit toetsen die door de onderzoeker zelf gekonstrueerd zijn.
Minimaal zijn gegevens over de betrouwbaarheid van de tests gewenst.

De zeer grote hoeveelheid resultaten wordt per denkstofgebied, per test, per meting geanalyseerd op:
treatmenteffekt, ATI's cn aptitude effekten. Daarnaast wordt aandacht gegeven aan de relatie van een
drietal Icerprocesvariabclcn (leertijd, foutenfrekwentie cn hulpvragen) met persoonskenmerken. De
pad-analyse, die vanwege te kleine aantallen slechts eenmaal kon worden gebruikt, brengt een causale
relatie tussen het vragen van met-specifieke hulp en de prestaties op de natest aan het licht bij het
extrapoleren van getalrijen.
De resultaten zijn kort samengevat:

- De algoritmische instruktiemethode geeft een beduidend beter leereffekt dan de heuristische bij het
extrapoleren van getalrijen op de onmiddellijke natest.

Op de uitgestelde natest is dit effekt omgekeerd (dc prestaties van de 'algoritme-groep' zijn sterk
gedaald). Op de retentie-test zijn de prestaties van deze groep weer gestegen en verschillen de
gemiddelden van beide groepen nauwelijks. Bij het evalueren van syllogismen laat het heuristische
programma op de natest en de retentie-test signifikant betere leerresultaten zien dan het algorit-
mische in de homogene probleemklasse.

Zowel bij het extrapoleren van getalrijen als bij het evalueren van syllogismen komen weinig
signifikante verschillen in transferprestaties voor. Slechts twee van de 36 transfermetingen hebben
een p-waarde gelijk of lager dan vijf procent.

- Een tiental ATI's is signifikant op vijf-procentsniveau er» drie en twintig op tien-procentsniveau. Dit
is resp. 5 en 11% van het totaal aantal mogelijke interakties. Het enige invloedrijke persoonsken-
merk is negatieve faalangst.

Hierbij zijn de (trends tot) interakties met de treatments in overeenstemming met de literatuur op
dit gebied.

- Meest opvallend bij de invloed van persoonskenmerken op zich is dat veldonafhankelijken tot
grotere horizontale transfer in staat zijn en kortere leertijden nodig hebben dan veldafhankelijken.

Na het trekken van konklusics ('diagnose') gaat De Leeuw in op de mogelijkheden tot verbetering
('therapie'). Hierbij komt het bekende probleem van het treffen van maatrègelen o.g.v. ATI's aan de
orde: kurcren of kompenseren. Wat hij hierover opmerkt vind ik nogal teleurstellend. Het voegt niets
toe of doet niets af aan wat op grond van de literatuur in het begin van het proefschrift al aangegeven
is.

De Leeuw's proefschrift Ujkt opgezet vanuit de optie om ATI's te vinden. Evaluatieve opmerkingen
over de instruktieprogramma's komen niet voor. Onderwijsprocesvariabelen cn leerresultaten worden
Voornamelijk benut om na te gaan of er interakties met aptitudes te vinden zijn. Wat mij betreft kan de
Volgende stelling bij Plomp's proefschrift (Plomp, 1974) ook na het verschijnen van dit proefschrift
blijven gehandhaafd: 'Het onderzoek naar "aptitude-treatment interactions" (ATI) is wetenschappelijk
gezien interessant. Het moet echter nog blijken of dit type onderzoek voor de construktie van onder-
wijs bruikbaar is'.

'Le savoir-lire de l'enfant en première année de l'ecole primaire: évaluation et prodromes'
Luik, 1978. ±880 pp.

'Le savoir-lire de l'enfant en première année de l'ecole primaire: évaluation et prodromes' is de titel
van de dissertatie, waarop Paul Dickes in 1978 promoveerde aan de universiteit van Luik. Bij mijn
weten is deze dissertatie in Nederland niet verkrijgbaar. Vanwege de belangwekkende resultaten leek
het mij de moeite waard om althans in de vorm van deze samenvatting bekendheid te geven aan dit
onderzoek'*'.

Het doel van het onderzoek is de leesprestaties van kinderen te voorspellen op het einde van het eerste
leerjaar op grond van kenmerken van het kind en zijn/haar omgeving. (Dickes slaagt erin om 87%
(!) van de variantie van leesprestaties na 1 jaar te verklaren.)

Het eerste deel van de dissertatie bestaat uit een omvangrijke literatuurstudie over variabelen die
voorspellende waarde hebben voor het lezen in de eerste klas. Op grond daarvan ontwerpt Dickes zijn
theoretische model (deel 2). Daarna beschrijft hij de opzet van zijn onderzoek en de konstruktie van
de meetinstrumenten (deel 3). Hij besluit met de resultaten (deel 4) en de konklusies van het onder-
zoek (deel 5).

Op grond van de literatuurstudie van meer dan 500 onderzoeken komt Dickes tot een overzicht van de
maximale korrelaties die gevonden zijn tussen diverse voorspellers van leesprestaties en de leespres-
taties zelf. In onderstaande tabel worden ze weergegeven.

Belangstellenden kunnen een meer uitgebreide samenvatting vinden in deebapport 3 (Opzet van het
longitudinale onderzoek) van S.V.O.-projekt 0389 'Preventie van leesmoeilijkheden'.
Adres: Instituut voor onderwijskunde, Erasmuslaan 40, Nijmegen.

Uit deze tabel blijkt dat niet alleen leesrijpheidstests, die meer specifieke leesvoorwaardcn meten,
samenhangen met leesprestaties, maar dat zowel persoonlijkheidskenmerken als intelligentie, kognitief
ontwikkelingsnivo, leervermogen, koncentratievermogen, sociabiliteit en aanpassing aan school, als
kenmerken van de sociale en psychologische omgeving ook duidelijk korreleren met leesprestaties.
Bij de konstruktie van zijn model, zoals dat hieronder schematisch is weergegeven blijkt dan ook dat
Dickes een breed skala van variabelen opneemt als mogelijk relevante voorspeller (kenmerken van de
sociale en psychologische omgeving van het kind, oordeel van de leerkracht over de persoonlijkheid
van het kind. Icervermoeen) naast de meer traditionele voorspellers als psychologische tests en proe-
ven. Als afhankelijke variabelen kiest Dickcs leesprestaties na 3, na 6 en na 9 maanden onderwijs in het
eerste leerjaar.

De gegevens van het empirisch onderzoek zijn in de stad Luxemburg verzameld bij 110 kleuters, die
het volgend jaar naar de eerste klas zouden gaan.

Voor het meten van de leesprestaties maakte Dickes gebruik van de Luxemburger Fibeltcst, die hij zelf
ontwikkelde. Deze test is klassikaal afneembaar en bestaat uit een tiental subtoetsen die voornamelijk
technische leesvaardigheid of onderdelen daarvan meten. De betrouwbaarheid is behoorlijk hoog (resp.
.76, .84 en .90). Op de subtests werd faktoranalyse uitgevoerd. Na 3 maanden bleken twee faktoren
belangrijk, nl. schriftelijke produktie en herkenning. Na 6 en 9 maanden werd slechts één faktor
(algemene leesfaktor) gevonden.

M.b.t. de voorspellers werd een vaste procedure gevolgd: tussen de items va:^ de prediktor-variabelen
en de kriterium-variabelen werden bivariate korrelaties berekend (items met een korrelatie van nul met
items van de kriterium - en de overige prediktor variabelen werden geëlimineerd); op de overblijvende
items werd vervolgens per prediktor-variabele faktoranalyse uitgevoerd, waardoor "prediktor-faktoren'

Ontstonden; tussen prediktor- en kriterium-faktoren werd de samenhang berekend; m.b.v. ortogonale
multipele regressie-analyses en kommunaliteitsanalyses werden tot slot de relaties tussen verschillende
prediktor- en kritcriumfaktorcn bepaald. Het zou te ver voeren de verschillende analyses in detail te
beschrijven. Ik volsta met een overzicht van de faktoren die sterk samen blijken te hangen met de
leesprestaties en die als voorspeller kunnen worden beschouwd:

E>e slotanalyses van Dickes betreffen de voorspelbaarheid van leesprestaties. In onderstaande tabel
worden de resultaten van deze analyses weergegeven:

Uit deze tabel blijkt dat Dickes erin geslaagd is een zeer hoog percentage variantie van leesprestaties te
verklaren. Hij verklaart zelfs 71% van de variantie van leesprestaties na 9 maanden onderwijs door
Variabelen die zelf géén leesvaardigheid meten.

Vergeleken met een aantal bestaande lees- en schookijpheidstoetsen betekent deze batterij een belang-
rijke verbetering, die wellicht een bijdrage kan leveren aan een meer verantwoorde prediktie van lees-
prestaties van kinderen bij het begin van het systematische leesonderwijs.

Tot slot dient nog opgemerkt te worden dat dit onderzoek betrekking heeft op de Luxemburgse
situatie en dat niet zonder meer zeker is dat de resultaten ook gelden van het Nederlandse onderwijs.

De keuze van werk: ontwikkeling van een model, een meetinstrument en een begeleidings-
methodiek

De keuze van werk is de titel van de dissertatie van L.M.H.J. van Geffen, voor een breder publiek toe-
gankelijker gemaakt door een handelsuitgave van Schoolpers B.V. te Culemborg.
Het boek vormt het verslag van een uitgebreid onderzoeksprogramma gewijd aan de ontwikkeling van
een model voor beroepskeuzebeslissingen en een al dan niet in samenhang daarmee te gebruiken instru-
ment voor de meting van affiniteiten. Ook worden praktische aanwijzingen gegeven voor beroepskeu-
zebegeleiding, bedoeld voor o.a. de schooldekaan, beroepskeuzeadviseur en psycholoog.
Het grootste deel van het boek (de hoofdstukken 2 t/m 7) is gewijd aan de konstruktie van de affini-
teiten-vragenlijst.

Ofschoon affiniteiten aanvankelijk gedefinieerd worden als disposities gericht op het veld van de ar-
beid (equivalent met work values of arbeidswaarden), worden er uiteindelijk zowel interessen als waar-
den (cq. behoeften) onder verstaan. Na een beschouwing over de methodiek van meting (hoofdstuk 2)
en een overzicht van de literatuur (hoofdstuk 3) wordt een reeks studies beschreven, waarin m.b.v.
cluster- en faktor-analyse op een beurtelings aangroeiende en geselekteerde set van items naar een
steeds uitgebreider lijst van schalen cq. faktoren wordt toegewerkt (hoofdstukken 4, 5 en 6).
Telt de lijst aanvankelijk 8 ä 10 waarde-schalen, aan het eind van het proces zijn 23 schalen beschik-
baar, 11 voor het meten van interesse-dimensies, 12 voor de meting van waaide-dimensies. Als laatste
stap in de instrumentontwikkeling worden de resultaten gepresenteerd van een aantal studies naar de
begripsvaliditeit: kotrelaties met andere instrumenten, skore-verschillen tussen personen in een aantal
opleidingsgroepen met bepaalde beroepsvoorkeuren resp. personen die de betreffende opleidingen had-
den voltooid en skore-verschillen tussen personen die in een uiteenlopende (met een ad hoe instrument
gedefinieerde) werkomgeving verkeerden (hoofdstuk 7).

In de resterende hoofdstukken wordt de aandacht gericht op een model voor de keuze van beroepen
(of werkkringen) en het mogelijke gebruik daarvan in de beroepskeuzepraktijk. In essentie is het model
een 3-faktor expectancy model, waaraan een aparte term voor sociale invloed is bijgevoegd (hoofdstuk
8). In een vereenvoudigde notatie luidt de formule

= instrumentaliteit van beroep i voor 'outcome'j
Ej = expectancy dat beroep i bereikt zal worden
Sj = sociale druk om beroep i te kiezen
M = meegaandheid
w, en Wj zijn regressie-parameters

Het model wordt beproefd door voor een aantal proefpersonen (within subjects analyse) de voorspelde
rangordening van beroepen naar aantrekkelijkheid te vergelijken met de feitelijke rangordening naar
aantrekkelijkheid, dit onder een aantal condities, die onder meet betrekking hebben op de meting van
de factoren.

De valenties worden daarbij behalve op direkte schattingen door de ppn gebaseerd op de vragenlijst.
Tenslotte volgt een algemene beschouwing over beroepskeuze-begeleiding, waarbij aangegeven wordt
hoe het model en de vragenlijst toegepast kunnen worden (hoofdstuk 9).

In zijn soort is de studie van Van Geffen beslist de moeite waard, enerzijds omdat publikaties over on-
derzoek op het gebied van de beroepskeuze in ons land zeldzaam zijn, anderzijds omdat er interessante
punten in worden aangesneden en een degelijke uitwerking wordt gegeven. Wel moet gezegd worden,
dat de beschiijving die van de ontwikkeling van de vragenlijst wordt gegeven de lezer enigszins op de
proef stelt. Er worden studies opgesomd die gedeeltelijk onafhankelijk van elkaai verricht lijken te
zijn en door de wisselende steekproeven, methoden en data-bestanden een weinig ordelijke (ofschoon
wel levensechte) indruk maken. Achteraf lijkt de vraag gerechtvaardigd of het uiteindelijke resultaat
ook niet in een strakker en veel beperkter onderzoeksprogramma tot stand gebracht had kunnen wol-
den.

Het vervaardigde instrument, de affiniteiten-vragenlijst (in een bijlage opgenomen), lijkt psychome-
trisch goede eigenschappen te bezitten, althans bij interindividueel gebruik. De betrouwbaarheid lijkt
bevredigend, de meeste schalen zijn onderling vrijwel onafhankelijk.

Gegevens over de waarde bij intra-individuele toepassing worden jammer genoeg niet vermeld (men zou
hiernaar hoogstens kunnen gissen op grond van de uitkomsten met de allereerste versie van het instru-
ment en de Validiteiten' verkregen met het model). Aan de begripsvaliditeit is ruime aandacht geschon-
''en. Zij is, dunkt mij, niet op alle punten even overtuigend, maar reden tot verder onderzoek is er ze-
ker, waarbij overigens de variabele sekse nog wel aandacht zou behoeven.

De gebruikswaarde van de vragenlijst is moeilijk te taxeren. De onderzoeker (de onderwijs-researcher
overigens minder dan zijn koUega in het veld van arbeid en organisatie) zal er wel mee uit de voeten
kunnen. Dit geldt zeker voor de waarde-schalen, die binnen Nederland de eerste in hun soort zijn. Ik
kan mij voorstellen dat de schooldecaan, beroepskeuzeadviseur, schoolpsycholoog of beroepskeuze-
Psycholoog nog nadere gegevens over het instrument afwachten. De testtijd van ly ä 2 uur is bepaald
niet gering, maar zou op kunnen wegen tegen het feit dat hier een interesse-test en een waardentest in
eén instrument verenigd zijn.

Een punt dat in verband met het praktisch gebruik van belang is, maar ook vanuit psychometrisch ge-
zichtspunt aandacht verdient, betreft de ipsatieve interpreteerbaarheid van de schaalskores. Ofschoon
Van Geffen een heldere uiteenzetting wijdt aan het probleem van ipsatieve vs. normatieve skores -
beide zijn in de beroepskeuze wenselijk, maar ze zijn moeilijk te verenigen - wordt toch niet goed
duidelijk in hoeverre de skores op de uiteindelijke vragenlijst voor intra-individuele vergelijking ge-
schikt zijn. Speciale voorzorgen in de konstruktie, zoals gedwongen keuze, of ipsatieve normering,
Worden niet toegepast. Overwogen wordt, dat aangezien de antwoorden bij de verschillende items
steeds op schalen met gelijke ankerpunten worden gegeven, een direkte vergelijking van (gemiddelde)
schaalskores mogelijk zou zijn. Dat laatste lijkt mij niet zonder meer juist, omdat het zou veronder-
stellen dat verschillen tussen antwoorden op items alleen de persoonlijke evaluatie van de inhoud
Weerspiegelen en niet gevoelig zijn voor de formulering van de items. Op voorhand zou men een zekere
uivloed van de formulering echter niet mogen uitsluiten. Verder gaat het niet om afzonderlijke items
•loch om een reeks van items en de schalen waarop de gemiddelde itemskores (of totaalskores) geme-
ten worden behoeven ook niet vergelijkbaar te zijn. Men zou bijv. verwachten dat de itemskores per
afzonderlijke schaal verschillende verdelingen zouden hebben. Aldus is het een open vraag, of een
denkbeeldige persoon met geen enkele voorkeur voor welke waarde dan ook, toch niet een ongelijk
Profiel van schaalskores zou kunnen behalen.

Een ander aspekt, waarop al werd gewezen, is dat het wenselijk zou zijn, te beschikken over gegevens
omtrent bijv. de betrouwbaarheid van de profielen.

In het licht van de weergave van het keuze/begeleidingsproces, waarin de klemtoon geheel op de ipsa-
tieve interpretatie valt, rijst voorts de vraag hoe Van Geffen denkt over de mogelijkheden van een
normatief gebruik van de instrumenten, waarvoor hij zoals gezegd wél passende psychometrische gege-
vens verstrekt. Misschien zijn dit punten die in een handleiding bij de vragenlijst expliciet aan de orde
gesteld kunnen worden.

Bij de hantering van het keuze-model is een vraag of het gebruik van de vragenlijst wel nodig is. Uit het
onderzoek blijkt dat men met een direkte rangschikking van affiniteiten door de cliënt ook tot bruik-
bare resultaten komt.

Een meer algemeen probleem dat rijst wanneer men arbeidswaarden in de beroepskeuze introduceert
IS dat van de externe voorlichting. Het is niet gemakkelijk aan te geven, welke beroepen, of werkomge-
vingen in aanmerking komen om bepaalde waarden te bevredigen. Deze opgave is althans moeilijker
•lan in het geval van interessen, die meer specifiek naar beroepen of daarvoor kenmerkende aktiviteiten
Verwijzen.

Dat het keuze-model bruikbaar is, blijkt wel uit het feit dat soortgelijke modellen in de praktijk al ge-
niime tijd in zwang zijn, in elk geval in een aantal van de geautomatiseerde systemen voor beroepskeu-
zebegeleiding die men in Amerika aantreft. Van Geffen's studie voegt een aantal belangwekkende ex-
ploraties toe, waarbij vooral die naar de bijdrage van de sociale component vermeldenswaard is.
ïk heb wel enige moeite met het gebruikte kriterium: de direkte rangordening van beroepen naar aan-
trekkelijkheid. Als dit een goed kriterium zou zijn, d.w.z. als inderdaad déze rangordening voorspeld
^ou moeten worden, dan zou, zo schijnt mij toe, het gebruik van het model overbodig zijn; men kan
de cliënt rechtstreeks naar vragen. Neemt men aan dat het oordeel van de cliënt juist met hulp van
het model verbeterd zou moeten worden, dan lijkt het geen goed kriterium.

Tenslotte nog een opmerking over Van Geffen's benadering van de beroepskeuze. Dat de keuze op een
cognitivistische aanpak is gevallen, is niet verrassend, gezien de populariteit die deze thans in het alge-
meen geniet. Wel heeft het mij verbaasd dat nergens een plaats is ingeruimd voor de kapaciteiten van
de cliënt en de aard en het niveau van de genoten opleiding. Dit lijken toch zeer belangrijke determi-
nanten van een geslaagde keuze, die bepaald niet met de gemeten affiniteiten samenvallen.
In het onderzoek behoeft het geen groot bezwaar te zijn dat deze faktoren niet genoemd worden, zo-
lang althans met leerlingen uit eenzelfde schooltype wordt gewerkt; voor gebruik in de praktijk lijkt
het echter een omissie.

Een wat filosofische vraag is deze. Expectancy modellen zijn ontleend aan de normatieve beslissings-
t]ieorie;ze belichamen principes om rationele beslissingen te nemen. Geven zulke modellen ook inzicht
als de bedoeling is het beroepskeuzeproces beter te begrijpen?

An application of Bayesian statistical methods to a problem in educational measurement
Dissertatie, R.U. Groningen, 1977

In dit proefschrift gaat het om de vraag of en in welke mate een Bayesiaanse predictiemethode te ver-
kiezen is boven klassieke voorspellingsmodellen.

Aan het eind van de lagere school wordt iedere leerling/ouder/schoolhoofd geconfronteerd met de keu-
ze van het vervolgonderwijs. Eén van de hulpmiddelen bij die keuze is de Cito toets. Op grond van de
door een leerling behaalde (predictor) scores, kan nu criterium gedrag en daaruit voortvloeiend het
schooltype, voorspeld worden. De keuze van criterium, predictoren en de te onderzoeken scholen,
komt op voortreffelijke wijze in hoofdstuk 2 aan de orde. In hoofdstuk 3 kiest Jansen voor een
Bayesiaans predictiemodel.

Centraal hierin staat de aanname van 'exchangeability', ofwel van uitwisselbaarheid, toegepast in 'm-
group regression'. Het Bayesiaanse model kan beschouwd worden als een compromis van twee extre-
me modellen: aan de ene kant kan men elke school afzonderlijk beschouwen (met als gevolg dat, door
het kleine leerling aantal per klas, de kwaliteit van de predictie laag kan zijn), aan de andere kant kan
men alle scholen aan elkaar gelijk veronderstellen (met het gevolg dat voor elke school hetzelfde pre-
dictiemodel geldt). Het Bayesiaans model veronderstelt nu dat scholen op elkaar lijken, d.w^., niet
volledig ongelijk, maar ook niet precies gelijk aan elkaar. De precieze uitwerking van deze assumptie
komt aan de orde in hoofdstuk 3.

In hoofdstuk 4 wordt de inhoud, alsmede de psychometrische analyses, van de Cito toets beschreven.
Jansen vermeldt uit een studie uit 1973 betrekkelijk lage predictieve validiteitscoefficienten: lopend
van .20 tot .56.

De validatieopzet waarmee de diverse predictiemethoden (per school of simultaan voor alle scholen
tegelijk) beoordeeld moeten worden, wordt behandeld in hoofdstuk 6. Jansen (p. 55) kiest hier voor
L.B.0. en M.A.V.0. scholen, omdat: 'M.A.V.O. schools appear to be a more homogeneous group of
schools', en '... H.A.V.0. schools were excluded because these schools are generally part of a "Scho-
lengemeenschap", and very difficult to classify unambigously'. Met andere woorden, M.A.V.O. scholen
(in de onderzochte regio) kunnen a priori (volgens Jansen) als uitwisselbaar gezien worden, voor

H.A.V.0. scholen geldt dat blijkbaar niet. Het a priori ooräeel of scholen wel of niet tot een homogene
subgroep behoren (en dus uitwisselbaar zijn), berust hier niet op statistische gronden, maar wordt
veeleer bepaald door overwegingen van praktische aard, zoals kennis van de regio, gelijke (of vergelijk-
bare) toelatingseisen, etc.

In de overwegingen hierbij is Jansen weinig expliciet: "moreover, it appeared that several of these
schools were fairly a-typical compared with the others: so they would have been eliminated from the
sample anyhow'. In hoofdstuk 7 worden de validatieresultaten vermeld. Zo is voor een M.A.V.O.
steekproef de gemiddelde kwadratische fout tussen het voorspelde en gerealiseerde criterium met de
klassieke methode .73, en voor de Bayesiaanse .64: een gemiddelde reductie van 12%. Dit grote ver-
schil realiseerde zich niet wanneer de correlatie tussen voorspeld en actueel criterium-gedrag als maat
werd genomen: een gemiddelde verhoging van .02 voor de Bayesiaanse methode. De resultaten in

hoofdstuk 7 worden op rustige en goed leesbare manier gepresenteerd. De algemene conclusie hierin
is dat de Bayesiaanse methode altijd verbeteringen te zien geeft (soms grote, soms kleine, afhankelijk
Van de maat). Hoewel de verbeteringen niet spectaculair zijn, geldt natuurlijk wel dat elke verbetering
Wj predictie, en dus bij het advies voor het vervolgonderwijs, belangrijk is. Het zeer leesbare proef-
schrift van Jansen toont overtuigend aan dat de (simultane) Bayesiaanse methode te prefereren is bo-
ven de klassieke methode per school alleen. ^

feeding and Sowing, Preface to a Science of Mathematical Education
D. Reidel Publ. Co., Dordrecht 1978,314 pag., ƒ 90,- (Paperback ƒ 31.20)

feeding and Sowing is een 314 bladzijden durend voorwoord van een volgens de auteur niet bestaande
Wetenschap: die der vorming. Hij is ervan overtuigd dat een dergelijke wetenschap het eerst zal ont-
staan binnen de wiskunde.

In het eerste hoofdstuk 'Wliat is Science?' gaat Freudenthal na waarin het wetenschappelijke zich on-
derscheidt van het pseudo- en niet-wetenschappelijke. Als belangrijke criteria waaraan een wetenschap
"loet voldoen behandelt hij: relevantie, consistentie en openbaarheid. In een dergelijk hoofdstuk is
älle ruimte aanwezig voor een aantal kritische en prikkelende opmerkingen. Die staan er dan ook te
over. Laat ik er een paar noemen die betrekking hebben op de sociale wetenschappen.

- Het is treurig dat een verkeerd beeld van de natuurwetenschappen als model dient voor de sociale
wetenschappen. Het deductieve element in de natuurwetenschappen wordt zwaar overschat. In bij-
voorbeeld de natuurkunde worden de meeste problemen veeleer opgelost door ad hoe Strategien
dan door deductie uit een algemene theorie.

- Wiskundige termen als functie, informatie, model, structuur, verzameling en relatie worden op mo-
dieuse en zinloze wijze gebruikt in vele andere wetenschappen. Wat Freudenthal hier bedoelt wordt
mijns inziens aardig geïllustreerd bij lezing van 'De pragmatische aspecten van de menselijke com-
municatie' van Watzlawick et al. Het gebruik van wiskundige vaktaal leeg van betekenis is karakteri-
stiek voor charlatans.

- De 'nature or nurture' discussie in de literatuur is armoedig, tendentieus en gelardeerd met misbruik
Van statistiek.

Sprake van enige overdrijving en ongenuanceerdheid is er zeker zo hier en daar. Maar het feit dat Freu-
denthal geen blad voor de mond neemt betekent dat het hoofdstuk prettig weg leest.
In het tweede hoofdstuk 'On Education' betoogt de auteur dat het bieden van gelijke kansen voor ie-
dereen een prijzenswaardig ideaal is. Dit kan echter niet bereikt worden met administratieve maatrege-
len bedacht door onderwijsresearchers die niet in de klas maar in het laboratorium werken, gewapend
met de x^ en variantie-analyse.

Onderwijsdifferentiatie binnen een geintegreerde Middenschool klinkt fraai maar is met een ongewij-
zigd leerplan en met onveranderde leraren tot mislukking gedoemd.

Beheersingsleren, een ander paradepaard van de onderwijsresearch, veronderstelt dat iedereen alles kan
l^ren mits er voldoende tijd ter beschikking staat. Er is echter hooguit aangetoond dat iedereen ieder
examen kan passeren mits hij het onbeperkt vaak mag afleggen. Het in staat zijn iets te leren is gei'den-
tificeerd met het in staat zijn een toets te passeren. Ik denk dat de auteur hier de spijker op zijn kop
slaat. Een paar jaar geleden kreeg ik enkele studenten op mijn spreekuur die zojuist met behulp van be-
heersingsleren voor een cursus statistiek geslaagd waren. Ze bleken de stof in het geheel niet begrepen
te hebben, laat staan te beheersen. Ze hadden wel een aantal keren minstens negen van de tien meer-
keuze vragen goed gemaakt.

Onderwijsvernieuwing moet volgens Freudenthal in de klas plaats vinden en kan niet tevoren door
technici geprogrammeerd worden. De heterogene leergroep is hierbij, volgens de ervaringen van de au-
teur, ideaal. Leren is immers een sociaal proces. Leerlingen van verschillend niveau moeten deehiemen
aan dezelfde taak. Ze kunnen dan van eikaars fouten en inzichten leren. Daarnaast is de bijbehorende
Vernieuwing van de leraarsopleiding van fundamenteel belang.

Ik denk dat de recente modernisering van ons wiskunde onderwijs een goed voorbeeld levert van ver-
nieuwing zoals het volgens Freudenthal niet moet. In 1968 zijn bij de invoering van de Wet op het
Voortgezet Onderwijs de examenprogramma's voor het VHMO gemoderniseerd. Ondanks alle goede
bedoelingen en begeleiding van diverse experimenten door het lOWO (een instituut waar Freudenthal
destijds directeur van was) is er, voor zover het de wiskunde I betreft, een onbedoeld gedrocht ont-
staan. Vrijwel ieder examen en herexamen voor wiskunde I heeft tot dusverre bestaan uit één opgave
over functies, één over waarschijnlijkheidsrekening en statistiek, één over differentiaalvergelijkingen
en één over parameterkrommen. Het zijn inderdaad onderwerpen die op het programma staan. En de
laatste drie zijn nieuw. Kennelijk worden ze daarom jaarlijks geëxamineerd. Dat betekent dat in het
onderwijs een grote nadruk op de behandeling van deze stof is komen te liggen. Wat de statistiek be-
treft is dat een gunstige ontwikkeling, maar van onderwerpen als differentiaalvergelijkingen en para-
meterkrommen ziet de leerling terecht het nut niet in. De behandeling in de gemiddelde leergang is
technisch, niet inzichtgevend, onsamenhangend en aan de toepassingen komt men niet toe. Parameter-
krommen zal men, vrijwel ongeacht wat men gaat studeren, ook nooit meer tegenkomen.
De resultaten van de vernieuwingsoperatie kunnen kort samengevat worden: de leraren soms bijge-
schoold maar onveranderd, de keuze van de nieuwe stof ongelukkig, de leerboeken van matige kwali-
teit en geen plaats voor de toepassingen van de wiskunde. )

In hoofdstuk 3 'On a Science of Education' betoogt Freudenthal dat et de laatste vijftig jaar een enor-
me hoeveelheid literatuur met wetenschappelijke pretenties op het gebied van de onderwijskunde is
ontstaan. Maar dat het gebrek aan kritisch vermogen minstens even groot is. Veel is vanuit de leun-
stoel geschreven over onderwijsdoelstellingen, curriculum theoriën, opinieonderzoek en evaluatie. De
auteur laat hier zijn kritisch Ucht over schijnen. De taxonomie van Bloom et al., een ruwe classificatie
van onderwijsdoelen, wordt genadeloos gekraakt. De veel verdergaande atomisering van de stof wordt
met goedgekozen voorbeelden (p. 94, 95) evenzeer belachelijk gemaakt. Het gebruik van (wiskundige)
modellen, stroomschema's, paradigma's, de KR 20, factor-, variantie- en regressie-analyse en mathema-
tische statistiek in het algemeen, gebeurt overwegend zonder enig vertoon van inzicht met het doel de
lading een wetenschappelijk tintje te geven. De auteur is bepaald mopperig in dit hoofdstuk. Maar er
moet gezegd worden hij geeft af en toe aardige voorbeelden van wat hij bedoelt. Het op blz 139 gege-
ven citaat uit Gage (ed.), 'Handbook of Research on Teaching' is inderdaad onthullend. Het begint als
volgt: Teaching can be conceived as the ternary relation: x teaches y to z. Expressed in the notation
of relation theory, this becomes (x, y)Tz, or more generally, T(x, y, z). ...'. Het doet mij denken aan
een gemeentelijk rapport dat mij onlangs onder ogen kwam vol met uitspraken zoals:

De theoriën van de onderwijskunde zijn niet eens zwarte maar lege dozen omdat men vorm en inhoud
loskoppelt. Men kan volgens Freudenthal zeggen dat, voorzover de onderwijskunde ooit effectief ge-
weest is, dit als een placebo-effect opgevat dient te worden. Er is echter nog hoop volgens de auteur.
Men zal vorm en inhoud in de onderwijskunde weer moeten combineren. Zich realiseren dat leertheo-
rie hierbij een fundamentele rol dient te spelen. Dat het ïn die leertheorie speciaal gaat om de bestu-
dering van de discontinuïteiten in het proces, dat Ieren een individueel proces is dat zich niet statistisch
laat beschrijven en dat het bestuderen van leerprocessen geen werk voor psychologen is omdat je ze
niet in het laboratorium kunt bestuderen.

In het vierde en laatste hoofdstuk 'A Science of Mathematical Education' geeft de auteur een aantal
suggesties voor de ontwikkeling van een wetenschap van het wiskunde onderwijs. Hij meent op grond
van zijn ervaringen bij het lOWO dat zo'n wetenschap slechts kan ontstaan middels de werkzaamheden
van een hecht team. Ondermeer omdat een dergelijke groep mensen een onderling eenduidige vaktaal
kan ontwikkelen.

Freudenthal bestrijdt de algemene opvatting dat ideeën, concepten en oordelen ontstaan door voortdu-
rende oefening en eindeloze herhaling via een continu proces van inductie en generalisatie. Iets wat wel

geldt voor lichamelijke vaardigheden. Hij vraagt zich af of de methode van de vele voorbeelden niet
juist de oorzaak is van mislukkingen en Wokkades bij het leren. Op grond van ervaringen met onder-
meer zijn kleinkinderen gelooft hij dat leren vooral plaatsvindt via één goed gekozen voorbeeld, een
paradigma. Hij geeft vervolgens tal van voorbeelden van paradigmatisch leren. Het paradigma der para-
digma's treft men aan op pagina 202.

Ik wü graag een eigen ervaring als voorbeeld geven om Freudenthal's opvattingen te ondersteunen. Een
kind dat 12 en 17 wil optellen moet bedenken dat geldt 12 + 17 = (10 + 2) + (10 + 7) = (10 + 10) +
(2 + 7) = (10 + 10) + (7 + 2) = 20 + 9 = 29. Dat betekent dat men een kind dat leert optellen eerst de
commutatieve en associatieve wet voor de optelling bij moet brengen. Ik Uet hiertoe mijn zoontje Gijs
(5 jaar) met een telraam 3+4 uiterekenen. Hij telde alle zeven de kralen af en gaf het juiste antwoord.
Vervolgens legde ik hem uit dat hij al wist dat er in het ene groepje 3 kralen zaten zodat hij slechts
Vanaf 3 hoefde te tellen. Dit principe had hij onmiddellijk door. Vervolgens gaf ik hem de opgave 2 +
7. Tellen vanaf 3, vrij veel werk. Daarna 7 + 2, tellen vanaf 8 en meteen het juiste antwoord 9. Ik wees
hem erop dat hij bij de opgave 2 + 7 natuurlijk ook bij de groep van 7 de overige 2 kon optellen. Hij
had ook dit prindpe direct zonder herhaalde oefening door en bleek bij verdere opgaven een feilloos
gebruik van de commutatieve wet te maken.

Na behandeling van onderwerpen als taalniveau's en verandering van blikrichting besluit Freudenthal
het boek met een voorbeeld van wat hij ziet als een noodzakelijke voorwaarde voor onderwijskundig
onderzoek in de wiskunde: didactische fenomenologie van wiskundige begrippen.
Waardevolle suggesties te over in dit hoofdstuk. Hoe moeilijk het is die ook in de praktijk te brengen
hlijkt uit het boek 'Complexe Getallen' van de auteurs Freudenthal en Nijdam. Het onderscheidt zich
naar de inzichten van mijn wiskunde II leerlingen en mijzelf in niets van het gebruikelijke wiskunde
leerboek. Het doet nergens denken aan de suggesties uit hoofdstuk vier van 'Weeding and Sowing',
pat het wel kan bewijst Martin Gardner in een artikel 'The imaginableness of the imaginary numbers'
in de Scientific American van augustus 1979.

Ook al is het slechts een voorwoord en is het humeur van de auteur niet dtijd even goed, het boek zou
door alle onderwijskundigen gelezen moeten worden. De hoofdstukken één tot en met drie om zich te
laten stichten door de daar geuite kritiek en hoofdstuk vier in verband met de uitstekende analyses van
leerprocessen en de vele fraaie suggesties voor een 'Science of Mathematical Education'.

Berkel, H.J.M. van. Avondopleiding, een alternatief voor werkstudenten? Een onderzoek naar de si-
tuatie van werkstudenten op de juridische fakulteit. Amsterdam: Centrum voor Onderzoek van het
Wetenschappelijk Onderwijs, Universiteit van Amsterdam, februari 1980.

Boekaerts, M. Towards a theory of learning based on individual differences. Ghent: Communication
and Cognition, 1979 (Blandijnberg 2, 9000 Gent, België).

Bootsma, H.P.M., Blakenburg, K.P. & Schuurman, C.M.A. Project Leerplan M.L.K.-scholen. De ont-
wikkeling van een Rekenprogramma. Verslag over de periode februari 1977 tot en met juli 1978.
Rotterdam: Gemeentelijk Pedologisch Instituut, september 1979 (= P.I.-bijdrage m. 11).

directory of Educational Research Information Sources. The Hague: Foundation for Educational Re-
search in the Netherlands, 1979.

Haccou, Ronald. Abstractie. Een onderzoek naar groeperingsgedrag van 10- en 12-jarige kinderen uit
het onderwijs voor moeilijk lerende kinderen en 8- en 10-jarige kinderen uit het basisonderwijs.
Rotterdam: Gemeentelijk Pedologisch Instituut, december 1978 (= P.I.-bijdrage nr. 8).

Het avondonderwijs onderzocht. Eindrapportage van een onderzoek onder scholieren en leraren van
het avond-MAVO, -HAVO en -VWO. Avondscholenprojekt. 's Gravenhage: Staatsuitgeverij, 1980
(=SVO-reeks, no. 28).

^ong, A.J.M. de. Correctievoorschriften en interbeoordelaars-betrouwbaarheid. Arnhem: CITO, maart
1980 (= CITO Bulletinreeks nr. 6).

Kamp, L.J.Th, van der, Langerak, W.F. & Gruijter, D.N.M. de. Psychometrics for educational debates.
Chichester: John Wiley & Sons, 1980.

Kamp, Max van der. Wat neemt de leerling mee van kunstzinnige vorming? 's Gravenhage: Staatsuitge-
verij, 1980 (= SVO-reeks no. 29).

Meerling. Methoden en technieken van psychologisch onderzoek. Deel 1: Model, observatie en beslis-
sing. Meppel: Boom, 1980.

Mettes, C.T.C.W. & Pilot, A. Over het leren oplossen van natuurwetenschappelijke problemen. Een me-
thode voor ontwikkeling en evaluatie van onderwijs, toegepast op een kursus Thermodynamika.
Proefschrift T.H. Twente, 1980.

Pel, P.C. Project leerplan M.L.K.-scholen. Verslag van activiteiten en resultaten t.a.v. doelstellingen-
inventarisatie en -formulering in de periode augustus 1977 t/m mei 1979. Rotterdam: Gemeentelijk
Pedologisch Instituut september 1979 (= P.I.-bijdrage nr. 10).

Rede als richtsnoer. Bijdragen over methoden van denken en werken in de gedragswetenschappen aan-
geboden aan prof. dr. A.D. de Groot bij zijn afscheid van de Universiteit van Amsterdam, 's Graven-
hage: Mouton, 1979.

Ruijter, C.T.A. Van fysisch meetpraktikum naar praktikum fysische meetmethoden. Enschede: Onder-
wijskundig Centrum CDO/AVC, Technische Hogeschool Twente, no. 40, december 1979.

Tweede jaarverslag van de ACLO-Moedertaal i.o. 1979. Adviescommissie voor de Leerplanontwikkeling
Moedertaal, februari 1980.

Vroon, P. Intelligentie. Over het meten van een mythe en de politieke, sociale en onderwijskundige
gevolgen. Baarn; Ambo, 1980.

Wright, B.D. & Stone, M.H. Best test design. Rasch measurement. Chicago: MESA Press, 1979.

Zee, H. van der. Data-analyse. Een wegwijzer voor onderzoekers en gebruikers van onderzoek. Meppel;
Boom, 1979.

Zentralblatt für Erziehungswissenschaft und Schule. Jahrgang 1, Band 1. Duisburg: Verlag für Päda-
gogische Dokumentation, 1980.

Socioco^nitief conflict en cognitieve ontwikkeling, door J.B. Rijsman, J.H.Th. Zoetebier, A.J.F.Gin-
ther, W. Doise

Schoolwerkplanontwikkeling; een maatschappelijk probleem, door G.J. Bergenhenegouwen, R. Elte,

Onderwijsvisies: een fictie? Een empirisch onderzoek naar opvattingen over universitair onderwijs,

door S.E.M. Everwijn en F. Koopmans
De evaluatie-aanpak in het GEON-projekt, door K.M. Stokking

Kroniek: Een verslag van een Amerikaanse conferentie over onderwijspsychologie, gehouden in New-

York, 1-5 september 1979, door A.D. Wolff-Albers
Boekbesprekingen
Mededelingen ^

If one wants to test the hypothesis that a test with easy and simple items measures the same
factor as one with difficult and complex questions, the Spearman correction for attenuation
may be used. But one has to take into account that the corrected correlation may be spuriously
low due to item differences in difficulty. In this study the complexity of an item is defined as
'he number of bits of knowledge - 2-choicc items - that is required to answer the multiple-
choice or essay item correctly. It was shown with Monte Carlo generation of scores that the
effect will mostly be low, about .02 when the complexity of the second test is 4. The effect is
nil when the complexity of the second test is 2 (for instance 4-choice items consisting of the con-
junction of two 2-choice items); it is .10 when the complexity is extremely high, e.g. 8. Within
the usual range of item difficulty and dsicrimination the effect increases slightly with both
Parameters.

De laatste tijd zijn er enkele stemmen opgegaan om docenten te adviseren (ook) gebruik
te maken van heel eenvoudige items bij hun tentamens of proefwerken, hetzij 'True-False
items' (Ebel, 1971), hetzij 'Onbenullige items' (Hofstee, 1973), hetzij 'Bekende items'
(van Naerssen, 1973).
ï^edenen voor dit advies zijn:

1) zulke items zijn aanmerkelijk gemakkelijker te construeren door ongeschoolden op
dit gebied, ze kunnen na korte oefening uit de mouw worden geschud, en

2) een toets van zulke items correleert vermoedelijk hoog met een consciëntieus gemaak-
te vierkeuzetoets in verhouding tot de toetsbetrouwbaarheden, terwijl

3) bovendien een belangrijk deel van het verschil in prestaties op elk der toetsen kan
borden toegeschreven aan intelligentie, een factor die men bij het meten van onderwijs-
resultaten nu juist vaak als ongewenst wil uitschakelen.

De weerstand van vele docenten tegen het gebruik van studietoetsen hangt ongetwijfeld
samen met de moeizame constructie van vierkeuze-items. Daarnaast is er natuurlijk het
opzien tegen veel administratief werk (o.a. typen en nakijken van dikke itemboekjes bij
elk tentamen en het bijhouden van een itemotheek; hoe al deze administratie met een-
voudige computerprogramma's kan worden verricht werd beschreven in van Naerssen,
1980). En ten slotte hebben auteurs als Bloom et al (1956) er het hunne toe bijgedragen
om door het creëren van een waardehiërarchie van items de mening te doen postvatten

dat ordinaire kennisitems vervangen moeten worden door moeilijk te construeren vragen,
die vooral inzicht, analyse, synthese en evaluatie zouden moeten meten. Maar met dit
laatste meet men misschien juist weer hoofdzakelijk intelligentie, waar het niet om gaat
bij de controle of de student zijn best gedaan heeft om de stof te bestuderen.
Accepteert men voorlopig met ons de hypothesen dat kennisverwerving een belangrijk en
misschien wel het belangrijkste onderdeel is van de (universitaire) studie, en dat kennis
mogelijk even goed met simpele items gemeten kan worden als met complexe, dan doet
zich het probleem voor hoe deze tweede hypothese getoetst zou kunnen worden. De klas-
sieke manier is die van Spearman: men neemt bij dezelfde groep over dezelfde stof een
toets af met simpele items en een toets met complexe items, en corrigeert de correlatie
tussen beide tests voor attenuatie door deze te delen door het meetkundig gemiddelde van
de twee betrouwbaarheidscoëfficiënten. De gecorrigeerde correlatie moet significant lager
zijn dan 1.00 wil men kunnen concluderen dat beide toetsen iets anders meten. Coffman
(1971), bijvoorbeeld, vermeldt enkele onderzoekingen waarbij met deze klassieke me-
thode wordt getoetst of een meerkeuzetoets hetzelfde meet als een essaytoets over de-
zelfde stof.

Dit laatste probleem valt onder het meer algemene probleem van simpel versus complex,
waarbij de essayvraag als meer complex kan worden beschouwd. Bij een essay worden
immers vele dingen tegelijk gevraagd, die elk afzonderlijk een keuzevraag zouden kunnen
opleveren.

Cronbach et al (1972) waarschuwen tegen de klassieke methode van Spearman op grond
van het feit dat de betrouwbaarheidscoëfficiënten in de noemer niet eenduidig gedefiniëerd
zijn. Men kan verschillende soorten betrouwbaarheid onderscheiden. Zij lossen dit pro-
bleem op met hun generaliseerbaarheidstheorie en facetmethode. Misschien is deze me-
thode echter zelden nodig. Uit een onderzoek van Cronbach en Azuma (1962) blijkt na-
melijk dat coëfficiënt alpha (KR20) meestal een zeer goede schatter is van op diverse wij-
zen gedefiniëerde testbetrouwbaarheidscoëfficiënten.

In het onderstaande wordt een ander probleem gesignaleerd en geëxploreerd, bij eventueel
gebruik van de klassieke attenuatiecorrectie voor het toetsen of simpele vragen hetzelfde
meten als complexe; en wel het probleem dat ontstaat doordat de betrouwbaarheid mees-
tal gemeten wordt met behulp van de intercorrelaties of covarianties tussen hetzij alle
items onderling (alpha), hetzij tussen twee (of meer) groepen van items (paraUeltests),
terwijl correlaties en covarianties tussen items afliankelijk zijn van verschillen in moeilijk-
heidsgraad tussen de items of itemgroepen. De productmomentcorrelatie tussen twee
dichotome items kan bijvoorbeeld alleen één zijn als beide items even moeilijk zijn, en
hoe groter het verschil in moeilijkheidsgraad, hoe lager de maximale correlatie.
Dit heeft indertijd Loevinger (1947) er toe gebracht om als item-item-correlatiecoëfficiënt
niet phi te gebruiken maar phi/phimax en Horst (bijv. 1966) om een analoog gecorrigeer-
de alpha in te voeren. Anderzijds hebben Cronbach en Azuma (1962) aangetoond dat
Horst's correctie bepaald geen verbetering geeft van de KR20 bij ongelijke moeilijkheid
van de items en verwerpen zij Loevinger's H omdat deze bij constante tetrachorische cor-
relatie meer varieert met het verschil in itemmoeilijkheid dan de gewone phi. Cronbach en
Azuma waren echter geïnteresseerd in de invloed van itemmoeilijkheidsverschillen binnen
een test en binnen random-parallel tests. Hier gaat het om twee tests die aanmerkelijk ver-
schillen in de moeilijkheid van de items.

Bij een eerder gebruikt model (van Naerssen, 1979) dat aantrekkelijk is door zijn een-
voud, wordt een complexe vraag gezien als de conjunctie van een aantal simpele vragen,
d.w.z. om een complexe vraag (bijvoorbeeld een bewijs in de wiskunde) goed te kunnen

beantwoorden moet men twee of (veel) meer simpele feiten, stellingen, relaties, sekwen-
ties, enz. kennen. Het eenvoudigste voorbeeld is een bepaald soort vierkeuzevraag die be-
staat uit de conjunctie van twee tweekeuzevragen, maar voor een gewoon bewijs zal men
misschien wel een tiental relaties paraat moeten hebben. Het spreekt vanzelf dat de p-
Waarde van zo'n complexe vraag veel lager ligt dan die van een simpel item dat er deel van
uitmaakt. (Het woord 'onbenullig' klinkt eigenlijk te denigrerend voor iets wat men wel
nietig maar toch nuttig acht.) Als alle k benodigde (en onafliankelijke) relaties even moei-
lijk zijn voor iemand van een bepaald niveau dan is voor hem de kans om de complexe
vraag te beantwoorden gelijk aan de kans om één relatie te kennen (of goed te raden) tot
de k-de macht, dus veel kleiner. Dit alles doet vermoeden dat men voorzichtig moet zijn
met het gebruik van de attenuatiecorrectieformule als men wil aantonen dat simpele items
iets anders meten dan complexe vragen. Om na te gaan in welke gevallen men vooral be-
denkingen moet hebben (en wanneer niet) werd het nu volgende Monte-Carlo-onderzoek

Hierbij ging het alleen om de invloed van drie parameters op de voor attenuatie gecorri-
geerde correlatie, namelijk: itemmoeilijkheid, itemdiscriminatie en complexheid (tegen-
over simpele tweekeuze-items).

Er wordt aangenomen dat het logistische model geldt, met de drie itemparameters: de
discriminatiemaat aj, de moeilijkheidsmaat b, en de raadfactor Cj. De trek of kennis thèta
Van de persoon vormt een aselecte steekproef uit een practisch normale verdeling (in casu
het differentiaalquotiënt van de logistische verdelingsfunctie 17.2.4 van Lord en Novick,
met D = 1.7). Beide tests bestaan uit paralleUtems (d.w.z. de itemkarakteristieke krom-
nien zijn binnen elke test identiek). De eerste toets heeft simpele tweekeuze-items met
discriminatie a, moeilijkheid b en raadfactor 0.5. Hieruit kan de kans pi op 'item goed'
gegeven thèta berekend worden (par. 17.3 van Lord en Novick, 1968).
De andere toets bestaat uit items van dezelfde trek (de personen hebben dezelfde thèta)
maar elk complex item van deze toets bestaat a.h.w. uit de conjunctie van k simpele items,
d.w.z. de kans pi hierbij is pjk. Om de betrouwbaarheid van beide toetsen vergelijkbaar
te maken is het aantal items van de eerste toets k maaJ zo groot als dat van de tweede
toets. (Dat klopt in ieder geval ongeveer bij k = 2; immers bij die vierkeuze-items die op te
Vatten zijn als de conjunctie van twee tweekeuze-items heeft men voor gelijke betrouw-
baarheid half zoveel items nodig als bij een tweekeuze-test; zie bijv. van Naerssen, 1979).
^oor de oplossing van een complex item heeft men k maal zoveel kennis nodig als voor de
Oplossing van een simpel item. De factor k is dus de voor de hand liggende maat voor de
Complexheid van het item.

^ij het computerprogramma' voert men in: het aantal replicaties R, het aantal perso-
nen N, het aantal items n, de complexheid k, de discriminatie a en de moeilijkheid b. Het
programma trekt een toevallige steekproef van N thèta's, berekent hiervoor de N waarden
Pi en p2 en daarmee en een 'random number generator' de itemscores (O of 1) van de N
personen op de n items van de twee toetsen. Hieruit volgen weer de scores, de p-waarden.

de beide betrouwbaarheidscoëfficiënten (alpha), de correlatie tussen de scores op de
simpele en de complexe toets, en deze wordt tenslotte gecorrigeerd voor attenuatie. Bij de
groep van R repUcaties van deze berekeningen wordt dan nog het gemiddelde en de stan-
daardafwijking bepaald van de alpha's en (daar gaat het om) van de gecorrigeerde correla-
tie. Met de standaardafwijking en het getal R ziet men direct of het gemiddelde significant
afwijkt van de theoretische waarde 1.00 die men zou verwachten omdat dezelfde perso-
nen tweemaal op dezelfde trek zijn gemeten (hoewel eenmaal met simpele en de andere
keer met complexe items).

Een aantal grootheden waar het bij dit onderzoek niet om gaat, werden constant gehou-
den op een ronde, veel voorkomende waarde: het aantal personen van elke steekproef is
100, het aantal tweekeuze-items 72; deze twee grootheden hebben geen of zeer weinig in-
vloed op de effecten waar het hier om gaat; het aantal repUcaties werd na enig proberen
doelmatigheidshalve op slechts 26 gesteld, een waarde waarbij trends toch nog duidelijk
zichtbaar zijn en practisch alle gecorrigeerde correlaties significant onder de 1.00. Bij 26
repUcaties is de s.d. van het gemiddelde 1/5 van die van de correlatie zelf.
De simulaties werden uitgevoerd bij drie relevante niveaux van hemdiscriminatie, name-
lijk a = 0.5 (waaruit een gewoonlijk te laag bevonden testbetrouwbaarheid of homogeni-
teit resulteert), 0.7 (goede betrouwbaarheid) en 0.9 (uitzonderlijk hoge homogeniteit) en
vier niveaux van itemmoeilijkheid, nameUjk b = -1.0 (gemakkelijk, normaal bij 'onbe-
nuUige' en bij bekende items), -0.5 (tegenwoordig vaak aanbevolen), 0.0 (30 jaar geleden
aanbevolen) en 0.5 (te moeilijk meestal, hoewel soms toch nog goed discriminerend).
Wat betreft de complexheid van de tweede toets, bleek dat bij een complexheid 2 de vol-
gens Spearman gecorrigeerde correlaties niet verschilden van de waarde 1.0. Soms waren
zij hoger, soms lager. Dit suggereert dat de klassieke methode gerust kan wordentoegepastom
bijvoorbeeld na te gaan of een True-False toets hetzelfde meet als een vierkeuzetoets over
dezelfde stof (als het gebruikte model geldt). In het verdere onderzoek worden slechts
twee niveaux van complexheid beschouwd: 4 (vermoedelijk normaal bij een wiskundig be-
wijs, maar ook bij vele vierkeuze-items en de meeste essay-vragen) en 8 (uitzonderUjk
complax: men moet hier immers aan acht dingen denken om de vraag goed te beantwoor-
den; een tweekeuzetoets van 72 items wordt hier bijv. vergeleken met een essay-tentamen
van 9 moeilijke vragen).

In tabel 1 staan de belangrijkste resultaten van de 2 x 3 x 4 x 26 repUcaties. Alvorens de
tabel nader te beschouwen is het echter nuttig de interpretatie van de drie niveaux van a
en de vier niveaux van b te vergemakkeUjken dqor te kijken naar ook door het programma
afgedrukte betrouwbaarheidsmaten en gemiddelde p-waarden. Wat betreft de betrouw-
baarheid ligt het uiteraard voor de hand deze te vergelijken met de discriminatiemaat a,
terwijl de p-waarde vergeleken kan worden met de moeilijkheid b. Vermeld worden nu
eerst de waarden voor complexheid 4;' daarachter staan tussen haakjes die voor complex-
heid 8.

De betrouwbaarheid (KR20) van de toets met complexe items variëert bij resp. a = 0.5.
0.7 en 0.9 gemiddeld van 0.72 (0.63) via 0.82 (0.76) tot 0.87 (0.82). De betrouwbaarheid
neemt, bij constant product k maal n, af met de complexiteit k, overeenkomstig de theo-

"e (van Naerssen, 1979). De betrouwbaarheid van de tweekeuzetoets (= complexiteit 1)
blijkt, ook volgens de theorie, gemiddeld steeds enkele procenten hoger te liggen: 0.78,

^oor de interpretatie van de moeilijkheidsmaat b volgen nu de gemiddelde p-waarden
voor complexiteit 4, met tussen haakjes daarachter die voor resp. complexheid 1 (twee-
keuzetoets) en 8:

De gevonden standaardafwijkingen zijn, behalve voor de significantiebepaling hier minder
interessant. Vermeld zij slechts dat de standaardafwijking van de betrouwbaarheid van de
complexe test altijd hoger ligt dan die van de tweekeuzetoets, en die van de gecorrigeerde
eorrelatie bijna altijd weer wat hoger. De laatste blijkt gemiddeld 0.042, neemt toe met k
en met b, neemt af met a en varieert van 0.017 bij de combinatie k = 4, a = 0.9 en b = -1
tot 0.095 bij de combinatie k = 8, a = 0.5 en b = 0.5.

l^ij empkische studies met de Spearman-correctie zal men zelden replicaties toepassen
(wat wel gemakkelijk kan bij simulaties). Dat betekent dat men pas verschil in factoren
tussen beide tests heeft aangetoond als 1.0 min de gecorrigeerde correlatie groter is dan
(zeg) twee maal de standaardafwijking. Dus gemiddeld in de onderzochte situaties (met
= 100, n = 72, enz.) als de gecorrigeerde correlatie kleiner is dan (zeg) 0.92. (In de
oudere publicaties werd helemaal geen rekening gehouden met steekproeffluctuaties, te-
genwoordig wel.) Maar bovendien zal men soms ook rekening moeten houden met het
onderhavige fenomeen. We beschouwen hiertoe tabel 1.

'^et bovenste getal in elk vak heeft betrekking op een complexheid 4, het onderste op een
^an 8. Duidelijkheidshalve staan in de cellen niet de gemiddelde volgens Spearman gecor-
•■'geerde correlaties zelf maar 1.0 min deze correlatie, maal 1000. Deze waarden verschil-
'«n alle zeer significant van nul (z groter dan 3.00) behalve de drie waarden in de bovenste
['j van a = 0.5 (waar z ongeveer 1.1 is).

«et eerste wat opvah is de toename van het effect met de complexheid k. Bij k = 2 is, zo-

als aan het begin reeds werd opgemerkt, het effect nul, bij k = 4 is het effect gering, ge-
middeld 0.023, bij k = 8 echter hoog, gemiddeld 0.096. Dit laatste betekent bijv. dat men
het vergelijken van een gemakkelijke 72-item tweekeuzetoets en een moeilijk 9-item es-
say-tentamen geen hogere correlatie dan 0.90 kan verwachten, ook al meten beide tenta-
mens precies dezelfde factor.

Wat betreft de dimensies itemdiscriminatie a en itemmoeilijkheid b kan men opmerken
dat binnen het gebruikelijke bereik (a van 0.5 tot 0.9 en b van -1 tot -hO.5) er weinig ver-
schillen zijn. Hoogstens kan men zeggen dat de gecorrigeerde correlatie het dichtst bij de
1.0 ligt bij gemakkelijke en weinig homogene items (a = 0.5 en b = -1) terwijl het effect
van verschil in moeilijkheidsniveau nog het grootst is bij moeilijke items en een homogene
test (a = 0.9 en b = 0.5). Deze verschillen zijn het grootst op het complexe niveau (k = 8).

Concluderend kan op grond van het simulatieonderzoek gezegd worden dat wanneer men
met de bekende Spearman-correctie wil nagaan of een toets met simpele items hetzelfde
meet als een toets met complexe items over dezelfde stof, men dan, behalve met het feit
dat de correlatie een (bekende) steekproefverdeling heeft, in sommige gevallen ook reke-
ning zal moeten houden met het verschijnsel dat de verwachting van de correlatie al iets
kleiner is dan 1.0 ook al meten beide toetsen precies dezelfde trek (kennis). Dh verschil is
gemiddeld 0.02 bij een naar schatting normale complexheid (k = 4) van de tweede toets,
maar nihil bij complexheid 2 (bijv. een vierkeuzetoets bestaande uit twee tweekeuzevra-
gen telkens gecombineerd). Anderzijds kan men bij een uitzonderlijke hoge complexheid
8 wel een verschil van 0.10 verwachten. Het verschil is het grootst bij hoogcorrelerende en
moeilijke items, binnen de gebruikelijke range.

Bloom, B.S. (Ed.). Taxonomy of educational objectives I: Cognitive domain. New York, Mckay comp.,
1956.

Coffman, W.E. Essay Examinations. In: R.L. Thorndike, Educational Measurement (sec. ed.). Wash-
ington D.C.; Council of Educ., 1971.

Cronbach, L.J. and H. Azuma. Internal-consistency reliability formulas applied to randomly sampled
single-factor tests: an empirical compaiison. Educational and Psychological Measurement, 1962,22,
645-665.

Cronbach, L.J., G.C. Gleser, H. Nanda and N. Rajaratnam. The dependability of behavioral measure-
ments: Theory of generaUzability for scores and profiles. New York; Wiley, 1972.

Ebel, R.L. How to write True-False items. Educational and Psychological Measurement, 1971, 31t
417-426.

Hofstee, W.K.B. Participatiecontrole door 'onbenullige' toets-items. Nederlands Tijdschrift voor de
Psychologie, 28,

Horst, P. Psychological Measurement and Prediction. Belmont, Calif.: Wadsworth, 1966.

Loevinger, J. A systematic approach to the construction and evaluation of tests of ability. Psychologi-
cal Monographs, no. 61, 1947.

Lord, F.M. and M.R. Novick. Statistical theorie of mental test scores. Reading: Addison-Wesley, 1968.

Naerssen, R.F. van. Voor- en nadelen van toetsen met bekende items. Nederlands Tijdschrift voorde
Psychologie, 1973, 28, 259-266.

Naerssen, R.F. van. Optimal number of choices in parallel item test. Tijdschrift voor Onderwijsresearch,
1919,4, 145-150.

Naerssen, R.F. van. Verdere automatisering van terxtamens. Révész-Berichten no. 5, Psychologisch La-
boratorium, G.U. Amsterdam, 1980.

Een Onderzoek naar de Toepasbaarheid van
de LM - Gitter van Schmalt op een
Nederlandse Proefgroep.

Instituut Algemene onderwijskunde voorde Lerarenopleiding,
Katholieke Universiteit Nijmegen

The 'Leistungsmotiv - Gitter' (LM - Gitter) of SchmaJt is a semi-projective technique based on
cognitive - interactive forntulations of achievement motivation theory. The LM - Gitter was
admininstered to 311 six-grade children. The reliability and mternal consistency oftheGitter-
scales were as high as in in the German group. The factor structure of the items was also com-
parable, but as opposed to Schmalt no stable structure was found for boys and girls. Factor
analysis of the items grouped by situations hardly permits any interpretation, thus replicating
the Schmalt findings. It was concluded that the LM - Gitter measures a rather highly general-
ized motive structure. The discriminant validity with reference to social desirability and intelli-
gence was satisfactory and in accordance with the German results. The correlation of the LM
Gitter scores with the scores on a Dutch achievement motivation questionnaire (PMT-K) and
with academic - achievement scores was low. The application of the LM - Gitter in the Dutch
schoolsystem was not advised.

In het onderzoek naar prestatiemotivatie is de discussie over de meetmethode nog steeds
actueel. De Bruyn, Alberts en Peters (1979) geven een overzicht van de belangrijkste me-
thoden en gaan in op hun theoretische fundering. Een van de theoretisch meest belovende
instrumenten is de Leistungsmotiv-Gittsr van Schmalt (1976b). In deze semi-projectieve test
Worden 18 prestatiesituaties gepresenteerd en dient de proefpersoon aan te geven welke
Van de hierbij aangegeven uitspraken op de situatie van toepassing zijn. De uitspraken zelf
hebben betrekking op het nomologische netwerk van de prestatiemotivatie-theorie.
Naast de interessante theoretische constructie van het instrument leek de LM-Gitter ook
perspectief te bieden voor de praktijk. In een aantal onderzoekingen heeft Schmäh (1976b)
de test empirisch gevalideerd waarbij ook de relatie met schoolprestaties kon worden aan-

getoond. De uitspraken die bij de plaatjes horen zijn vrij eenvoudig zodat waarschijnlijk
nauwelijks beroep wordt gedaan op de verbale vaardigheid van de kinderen. Bij de 18
plaatjes worden steeds dezelfde 18 uitspraken in dezelfde volgorde gepresenteerd.
De overwegend positieve waardering van de LM-Gitter was aanleiding voor de opname
van de test in een onderzoek naar de relatie tussen doceerstijl en motivatie bij leerlingen
op een aantal Nijmeegse scholen (De Bruyn, 1979). In het kader van dit onderzoek wer-
den ook .rapport- en toetscijfers verzameld evenals scores op een intelligentietest en een
Nederlandse test voor prestatiemotivatie.

Gezien het belang van de toepasbaarheid van het instrument leek het de moeite waard om,
los van het vermelde onderzoek, de LM-Gitter te onderwerpen aan een kritische analyse
en de resultaten te vergelijken met de bevindingen van Schmalt. De Nijmeegse proefgroep
telde 311 leerlingen afkomstig uit een sociaal economisch heterogeen schoolbestand
waardoor generalisatie van de bevindingen verantwoord lijkt. Dit onderzoek kan worden
opgevat als een gedeeltelijke replicatiestudie en levert aanvullende informatie op het on-
derzoek van Snel, Bos, Uyling & Ras (1978). Voor zover de gegevens het toelaten worden
de analysemethoden van Schmalt gevolgd.

Het onderzoek richt zich eerst op de kenmerken van het instrument als zodanig. Naast
verdeling en betrouwbaarheid van de scores wordt de interne structuur van het instrument
gecontroleerd. Daarna wordt ingegaan op de discriminante en confirmerende validiteit
(Drenth, 1975). Om de LM-Gitter nader te situeren wordt vooraf kort ingegaan op de
problemen rond het meten van het prestatiemotief. Aan de opbouw van de LM-Gitter en
de resultaten van Schmalt wordt uitvoeriger aandacht besteed. In het laatste deel van dit
artikel wordt tenslotte de bruikbaarheid van de LM-Gitter geëvalueerd in het licht van de
onderzoeksresultaten.

Uit overzichtsartikelen (zie o.a. Schmalt, 1976b, Finemann, 1977) blijkt, dat er tussen de
verschillende meetmethoden om het prestatiemotief te meten een geringe samenhang be-
staat. Als oorzaak van deze geringe confirmerende validiteit wordt gewezen op de matige
psychometrische kwaliteiten van met name de projectieve meetinstrumenten, op het ver-
schil in-meetmethoden en op de verschillen in de conceptuele kaders die ten grondslag la-
gen aan de operationalisering. In deze paragraaf beperken wij ons tot het probleem van de
meetmethode. Vanaf 1949 is er in de literatuur de discussie gaande of een projectieve dan
wel vragenlijstmethode de voorkeur verdient bij de meting van het prestatiemotief.
De voorstanders van de projectieve methode 'Thematic Apperception Test' (TAT) (McClel-
land 1961; Heckhausen, 1963) wijzen erop, dat motieven in de concrete ervaringen en
handelingen voor de persoon zelf vaak ondoorzichtig en troebel zijn. Om deze reden komt
het erop aan motieven zo dicht mogelijk bij de bron zelf aan te boren. Dit kan in een
conditie waarin de persoon zo weinig mogelijk door de realiteit in een bepaalde richting
wordt gedwongen. De TAT-meting garandeert een grote mate van beïnvloeding vanuit de
motieven zelf. Deze situatie levert bovendien een rijkdom aan gefantaseerde gedragsse-
quenties op die nauwelijks op het concrete gedragsniveau is te evenaren.
McClelland, Atkinson, Clark & Lowell (1953) erkennen de bezwaren die aan de projec-
tieve methode vastzitten. De inhoudsanalyse van de verhalen vereist getrainde scoorders
en is vrij arbeidsintensief. De TAT is gevoelig voor mogelijke situatie-invloeden, en derhalve
moeilijk te standaardiseren, de stabiliteit van de TAT is gering. Zij weerleggen deze laaste

bezwaren door op het interactionistische karakter van motivatie en op de wisselende aard
Van de motivatie zelf te wijzen. Daarnaast benadrukken zij dat de construct-validiteit van
de TAT beter is dan die van vragenlijsten. Hun kritiek op de vragenlijstmethode is, dat de
antwoorden veel meer functie zijn van antwoordtendensen of van algemeen aangeleerde
culturele waarderingen. Als zodanig geven vragenlijsten meer een aanduiding van de inten-
ties van de persoon (motive values) dan van de sterkte van zijn motieven (motive needs)
(McClelland, 1971).

Van de voorstanders van de vragenlijstmethode vinden sommigen de psychometrische te-
korten van de TAT zo ernstig, dat zij het gebruik van de methoden niet alleen ontraden,
rnaar ook ernstige twijfels hebben over de waarde van de theorie, die de methode moet
steunen (Klinger, 1966; Entwisle, 1972). Zij wijzen op de psychometrische kwaliteiten
Van vragenlijsten en op de voordelen van de eenvoudige en gestandaardiseerde scoringswij-
^en. Anderen menen dat de constructvaliditeit van de vragenlijstmethode is te waarborgen
door de items zoveel mogelijk congruent met de componenten van de theorie te formule-
ren (Mehrabian, 1968; 1969; Gjesme & Nygärd 1970. Hermans; 1967; 1971; Nygard &
Qjesme. 1973). Het bezwaar, dat antwoorden op vragenlijsten in hoge mate door ant-
woordtendensen bepaald worden weerleggen zij door te wijzen op de meestal geringe sa-
rtienhang tussen de motiefscores en scores op met name sociale wenselijkheidsschalen. Het
probleem van de sociale wenselijkheid lijkt voor de vragenlijstmethode niet onoverkomelijk
te zijn (Hermans, 1967; 1971). De Bruyn, Alberts en Peters (1979) komen op grond van een
analyse van de argumenten pro en contra projectieve- en vragenlijstmethode tot de con-
clusie, dat er geen overtuigende bewijzen zijn die een voorkeur voor de projectieve me-
thode rechtvaardigen.

Een semi-projectieve methode voor het meten van het prestatiemotief : de LM-Gitter

Schmalt (1973) heeft een poging ondernomen om de projectieve methode te combineren
rriet de vragenlijstmethode. Hij construeerde de Leistungsmotiv-Gitter (LM-Gitter), een
semi-projectieve methode. Hij verwacht van dit meetinstrument, dat het hetzelfde geldig-
heidsbereik heeft als de TAT, aantoonbare bevredigende psychometrische eigenschappen
hezit en tot slot ongecompliceerd en economisch in het gebmik is.
Schmalt gaat uit van een interactionistisch standpunt, hetgeen betekent dat het uiteinde-
hjke testgedrag een functie is van eigenschappen van de persoon en de situatie. In de LM-
^itter worden 18 situaties aangeboden. In tegenstelling met de TAT hoeft de persoon zelf
geen verhaaltje te schrijven, maar moet hij/zij bij de prestatie-gerelateerde uitspraken aan-
kruisen of die wel of niet van toepassing zijn op de afgebeelde situatie(tekening). Indien
l^en vertikaal de situaties plaatst en horizontaal de prestatiethematische uitspraken dan
heeft men naar de vorm een rooster (Gitter).

Situatiespecifieke intensiteit: het aantal uitspraken dat gerelateerd wordt aan een spe-
cifiek situatiebereik of situatietype.
2. Motief-extensiteit: het aantal situaties dat appelleert aan bet motief.

Intensiteit-extensiteit: deze maat sommeert de intensiteit over alle situaties. Deze score
is niet meer situatiespecifiek en kan als een maat voor een sterk veralgemeend motief
Worden gezien.

De keuze van de 18 situaties is door Schmalt via empirische weg opgelost, omdat er in de
literatuur nauwelijks aanwijzingen zijn voor classificatie van prestatiesituaties (Frederik-
sen, 1976). Schmalt vroeg aan 88 leerlingen wat ze graag deden, wanneer zij zich bijzon-
der inspanden, wat ze allemaal niet graag deden enz. Dit resulteerde in 40 beschrijvingen
van activiteiten en situaties. Hieruit werden 18 situaties gekozen, die voor de leerlingen
bekende en betekenisvolle situaties waren, een zo breed mogelijk situatiebereik besloegen
en die niet geslachtsspecifiek, noch duidelijk succes of mislukkings geörienteerd waren.
Verder werd aangenomen dat de situaties hoofdzakelijk betrekking liadden op het presta-
tiemotief, andere motieven zoals bv. het macht- en affiliatiemotief zouden er nauwelijks
door worden aangesproken (Schmalt, 1976c).

De 18 situaties van de Gitter zijn op apriori basis op 2 manieren geordend nl. naar het si-
tuatiebereik en naar de standaard van evaluatie. Telkens 3 situaties hebben betrekking op
de volgende 6 situatiebereiken: handvaardigheid, muzikale bezigheden, schoolse activitei-
ten, zelfstandigheid, hulpverlenende bezigheden, sportactiviteiten. Naar standaard van
evaluatie werden de situaties ingedeeld naar gelang ze betrekking hadden op een sociale
dan wel een individuele norm.

De afgebeelde situaties zijn betrekkelijk vaag gehouden waardoor zij multi-interpretabel
zijn.

Schmalt (1976b) heeft voor de beide tendensen van het prestatiemotief, 'Hoop op succes'
en 'Vrees voor mislukking' aparte schalen ontwikkeld. De uitspraken (zie de appendix)
zijn operationaliseringen van de theoretisch onderbouwde componenten van het presta-
tiemotief en van de empirisch gevalideerde scoringscategorieën van de TAT van Heck-
hausen (1963).

Van de 18 uitspraken hebben er zeven (3, 4,9,10, 14, 15,17) betrekking op de oriënta-
tie om succes te bereiken en zeven (2,5,6, 8,11,13, 18) op de oriëntatie om mislukking
te vermijden. Vier uitspraken (1,7,12,16) werden als neutraal opgevat. De 14 succes- en
mislukkingsgerichte items hebben betrekking op de specifieke anticipaties van de succes-
of mislukkingsgeoriënteerde leerlingen (bijv. Hij gelooft dat het hem wel zal lukken), de
typerende reactiewijzen van succes- en mislukkingsgeoriënteerde leerlingen en op de in-
schatting van de eigen bekwaamheid (bijv. Hij denkt, dat hij het niet kan). De typerende
reactiewijzen zijn de affectieve beleving bij het uitvoeren vaYi de taak (bijv. Hij denkt: 'Ik
ben er trots op dat ik dat kan'.), het stellen van doelen (bijv. Hij wil meer kunnen dan alle
anderen), en persistentie in functie van de moeilijkheid van de taak (bijv. Hij denkt: 'Ik
wil liefst iets doen wat een beetje moeilijk is'.).

Alle uitspraken zijn in de derde persoon (hij-vorm) gesteld. Schmalt vermeldt dat ze ge-
lijkwaardig zijn voor succes- en mislukkingsgerichte leerlingen en dat ze zo zijn gekozen
dat ze op elke situatie uit de LM-Gitter van toepassing zijn.

Schmält heeft de uitspraken onderworpen aan een factoranalyse waarbij de uitspraken
over de situaties gesommeerd werden. Meerdere analyses gaven een consistent beeld van 3
interpreteerbare factoren: Hoffnung auf Erfolg (HE), Furcht vor Misserfolg 1 (FM l)en
Furcht vor Misserfolg 2 (FM 2).

De uitspraken die laden op HE zijn 4, 9, 14, 15 en 17. Schmält omschrijft HE als het con-
cept van goede eigen bekwaamheid en als het vertrouwen op succes bij moeilijkere op-
drachten. Op FM 1 laden de uitspraken 2, 6,8, 12, 16 en 18. Deze factor wordt benoemd
als het concept van gebrekkige eigen bekwaamheid en als het initiatief tot handelen om
mislukking te vermijden. FM 2 tenslotte bevat de uitspraken 5, 7,11 en 13. Schmalt om-
schrijft FM 2 als vrees voor mislukking.

De 3-factorenoplossing is niet in overeenstemming met de oorspronkelijke verwachtingen.
De opzet van de test was het meten van HE en FM. De FM-schaal bleek echter uiteen te
vallen in de twee onafliankelijke componenten FM 1 en FM 2. Om deze tweedeling te
plaatsen verwijst Schmalt naar andere onderzoekingen die de onderstelling van een meer-
dimensioneel FM-construct aannemelijk maken. Opmerkelijk is dat drie van de vier aan-
vankelijk als neutraal opgevatte uitspraken op empirische gronden in de uiteindelijke scha-
len zijn opgenomen, met name uitspraken 12 en 16 bij FM 1 en uitspraak 7 bij FM 2. Uit-
spraak 1 bleek inderdaad niet op één der factoren te laden en werd behouden als buffer-
uitspraak. De apriori HE-uitspraken 3 en 10 vielen uit vanwege meerdimensionaliteit en
negatieve ladingen.

De LM-Gitter werd door de auteurs vertaald. Deze vertaling bleek achteraf nagenoeg iden-
tiek aan die van Snel et al. (1978). De test werd afgenomen bij 311 leerUngen uit 12 zesde
klassen van lagere scholen in Nijmegen. De leeftijd van de leerlingen varieerde van 11 tot
13 jaar met een gemiddelde van 12 jaar. De afnames hebben plaats gevonden in de loop
Van de tweede helft van april en begin mei 1977. In de regel was steeds een testleider en
een testassistent aanwezig. Naast de LM-Gitter werden afgenomen de niet-verbale intelli-
gentietest Standard Progressive Matrices van Raven (1960), de Prestatie Motivatie Test
Voor kinderen (PMT-K) van Hermans (1971) en de Motivatie Situatievragenlijst voor leer-
lingen MSV-L (De Bruyn, 1979). De volgorde van de testafname wasMSV-L, LM-Gitter,
PMT-K en de test van Raven. Om de onderlinge beïnvloeding van de testafnames te redu-
ceren werden, met uitzondering van de laatste sessie, de tests met één week tussentijd
aangeboden.

Naast de testgegevens waren ter beschikking de cijfers van het paasrapport en de gegevens
Van de Nijmeegse schoolvorderingentoets. Deze toets was in februari afgenomen. De rap-
portcijfers zijn gerangschikt in drie groepen: rekenen, taal en zaakvakken. De schoolvor-
deringentoets had betrekking op reken- en taaionderdelen.

De PMT-K, Raven, rapport- en toetsresultaten zullen bij de validering van de LM-Gitter
aan de orde komen. Eerst wordt ingegaan op de interne psychometrische kenmerken van
de LM-Gitter. De resultaten zullen steeds vergeleken worden met de bevindingen van
Schmalt (1976b).

De normeringsgroep van Schmalt (1976a) bestond uit leerlingen van het derde, vierde en
vijfde schooljaar. De leeftijd varieert van 9 tot 11 a 12 jaar. Schmalt vermeldt significante
verschillen op zowel FM 1 als FM 2 tussen enerzijds het derde en vierde en anderzijds het
vijfde schooljaar. Gezien de leeftijd kan de Nijmeegse proefgroep het best vergeleken
worden met de leerlingen uit het vijfde schooljaar. De gegevens zijn weergegeven in Tabel 1.

De betrouwbaarheid werd bepaald door middel van Cronbach's alpha. De coëfficiënt be-
draagt voor HE .91, voor FM 1 .84 en voor FM 2 .88. Bij de constructie van de LM-Gitter
is uitgegaan van een interactionistisch standpunt. Als de interactie tussen situatie (test-
plaatje) en uitspraak groot is, wordt geen sterke interne consistentie over de situaties ver-
wacht. Toch zijn de betrouwbaarheidscoëfficienten vrij hoog. Dit suggereert, dat de LM-
Gitter op het niveau van de schalen geen interactiescores oplevert, maar eerder sterk ver-
algemeende persoonlijkheidskenmerken vaststeh. Ook Schmah vond dezelfde hoge inter-
ne consistenties.

De gegevens van Schmalt (1976a, 1976b) hebben betrekking op 279 leerlingen van de
derde en vierde klas. Als input voor de factoranalyse sommeert Schmalt de uitspraken
over de 18 situatie's. Hij kiest uiteindelijk voor een driefactorenoplossing. De drie gevon-
den factoren verklaren 42.8% van de totale variantie. De factorstructuur bleek stabiel over
de tijd en bij verschillende wijzigingen in de samenstelÜng van de steekproef op basis van
geslacht, leeftijd en toeval.

De resultaten van de analyses leidden tot de keuze van de uitspraken voor de schalen HE,
FM 1 en FM 2. Een uitspraak werd als kenmerkend voor'een factor beschouwd als een
redelijk deel (di. minstens 50%) van de communaliteit door die factor verklaard werd.
Daarnaast werd als criterium gesteld dat de uitspraak een lading > .30 moest hebben op
de factor en een communaliteit > .20. Uitspraken 1, 3 en 10 bleken niet te voldoen. Uit-
spraak 1 vanwege te lage communaliteit. Uitspraken 3 en 10 vanwege meerdimensionaliteit.
In navolging van Schmalt (1976b) werd voor de Nijmeegse proefgroep in eerste instantie
gekozen voor een factoranalyse volgens de hoofdassenmethode en een rotatie van de eers-
te drie factoren volgens het varimax-criterium. De vergelijking tussen de Duitse en Neder-
landse gegevens wordt gepresenteerd in Tabel 2. De verklaarde variantie 46,3% is verge-

lijkbaar met die in het onderzoek van Schmalt (42,8%). Twee uitspraken (1 en 7) vallen
uit op grond van lage communaliteit. Van de overige 16 items blijken er 4 op andere fac-
toren te laden dan bij Schmalt. Aan de hand van de selectiecriteria van Schmalt worden
de 5 HE-uitspraken teruggevonden. Van de 6 FM 1 uitspraken blijven er 4 over en van de
4 Fm 2 uitspraken nog slechts 2. In tegenstelling met Schmalt bleek deze structuur niet
stabiel over de sexen. Jongens geven een andere factorstructuur te zien dan meisjes (Tabel
3). Beide structuren verschillen ook sterk van die van Schmalt.

De items die op de betreffende factoren laden worden tot schalen gecombineerd. Uit de
intercorrelaties van de schalen op de totale groep (N = 311) blijkt dat FM 1 zwak samen-
hangt met HE (r = .19) en met FM 2 een hogere samenhang vertoont (r = .32). De samen-
hang tussen HE en FM 2 bedraagt .34. Deze bevindingen komen in grote lijnen overeen
met die van Schmalt (1976a).

Schmalt (1976b) deelt de situaties van de LM-Gitter apriori in naar 6 prestatiebereiken en
2 evaluatienormen (sociaal en autonoom). Deze indeling kon hij door middel van factor-
analyse niet empirisch onderbouwen.

Ter controle van de bevindingen van Schmalt werd ook op de Nijmeegse proefgroep een
situatie-analyse uitgevoerd. De parameters van de situaties waren de scores op HE, FM 1
en FM 2. Inhoudelijk kan men het situatiekenmerk omschrijven als de mate waarin de si-
tuatie bijvoorbeeld de 'Hoop op succes' (HE) cognities actualiseert. De factoranalyse
groepeert dan die situaties die bij personen samenhangen wat betreft de mate waarin de

betreffende cognities worden opgewekt. Voor elke component (HE, FM 1, FM 2) is een
afzonderlijke analyse^ uitgevoerd en is gekozen voor een twee- en een zes-factorenoplossing.
Voor HE zijn de gekozen oplossingen zeker niet optimaal. Een één-factoroplossing zou
het meest voor de hand liggen gezien de eerste factor 40,3% van de variantie verklaart en de
tweede slechts 6%. Zowel de zes- als de twee-factorenoplossing zijn op basis van de gege-
vens als willekeurig aan te merken. Een ander beeld geeft FM 1. De variantie die door de
eerste factor wordt verklaard is 15,2% de volgende drie factoren voegen daar elk 8% aan
toe. Ook hier geldt dat een twee- of zes-factorenoplossing willekeurig blijft. Een vergelijk-
baar beeld levert ook FM 2 op. Hier verklaart de eerste factor 18,9% en hebben 6 factoren
een eigenwaarde > 1.0.

De analyse in twee of zes factoren leidde niet tot de eventueel te verwachten twee norm-
typen of zes situatiebereiken. Wat dat betreft wordt de negatieve bevinding van Schmalt
bevestigd. De factoren die empirisch gevonden worden zijn inhoudelijk moeilijk te be-
noemen. In tegenstelling tot Schmalt (1976b) werd geen volgorde-effect vastgesteld.

De LM-Gitter bleek in het Duitse onderzoek nagenoeg onafhankelijk van de sociale wense-
lijkheid en intelligentie. Enkel ten aanzien van FM 1 werd een geringe samenhang met de
leugenschaal van Aschersleben (1970) vastgesteld (r = -.23, N = 86). In het Nijmeegse
onderzoek werd sociale wenselijkheid bepaald met de schaal voor sociale^wenselijkheid
van de PMT-K, de intelligentie met de niet-verbale test van Raven.

2. Tabellen met intercorrelaties en factorladingen zijn op aanvraag bij de auteurs te verkrijgen.

Er werd geen verband vastgesteld tussen sociale wenselijkheid en scores op de LM-Gitter.
Wat de intelligentie betreft werden geringe negatieve relaties vastgesteld tussen scores op
de Raven en scores op de schalen HE (r = -.16) en FM 1 (r = -.19). De positieve bevin-
dingen van Schmalt ten aanzien van de relatieve onafhankelijkheid van de LM-Gitter van
sociale wenselijkheid en intelUgentie werden bevestigd.

Schmalt verzamelde evidentie voor de confirmerende validiteit van de LM-Gitter door de
scores op de test te relateren aan toetsresuhaten, uitslagen op instrumenten die verwante
begrippen meten en aan onder experünentele condities verzamelde aspiratieniveaus en
taakkeuzen. De inhoudelijk verwante tests waren de TAT (Meyer, Heckhausen & Kemm-
ler, 1965), de 'Kinder-Angst-Test' (KAT) van Thumer en Tewes (1969) en de 'Intellectual
Achievement Responsibihty Questionnaire' (lAR) van Crandall, Katkovsky en Crandall
(1965). De lAR werd aangeboden in de aangepaste versie van Meyer (1973). In het Nij-
meegse onderzoek kon beschikt worden over toets- en rapportcijfers en over de uitslagen
op de PMT-K.

In de prestatiemotivatie-theorie (zie o.m. De Bruyn, 1979) zijn prestaties slechts onder
bepaalde condities gerelateerd aan prestatiemotivatie. Wat de school betreft kunnen ver-
banden verwacht worden als de schoolsituatie daadwerkeUjk aan het motief appelleert.
Een ander probleem is dat de gebruikte motiefmaat betrekking kan hebben op een sterk
veralgemeende dispositie en prestatiecriteria uit beperkte situatiebereiken afkomstig kun-
nen zijn. Heckhausen (1967) meent desondanks dat doorgaans toch positieve verbanden
verwacht kunnen worden tussen prestatiemotief en prestaties op school. Dit kan aangevuld
worden met de opmerking dat doorgaans ook negatieve verbanden verwacht kunnen wor-
den tussen scores voor mislukkingstendensen en schoolprestaties.

De relaties tussen de LM-Gitter en schoolprestaties liggen bij Schmalt (1976b) over het al-
gemeen in de verwachte richting. In zijn vahditeitsstudies geeft Schmalt naast de alge-
mene scores ook steeds de intensiteitsscores per situatiebereik. Uit de resuhaten blijkt dat
HE en FM 1 zeer lage en overwegend negatieve correlaties opleveren. Voor FM 2 verschil-
len de correlaties op één uitzondering na niet significant (5% niveau) van nul.
Opmerkelijk is het resultaat voor het situatiebereik 'school'. Voor de hier gehanteerde
prestatiecriteria zouden de situatiespecifieke motiefscores op het bereik 'school' bijzon-
der predictief moeten zijn. Weliswaar zijn er significante correlaties, voor FM 1 echter zijn
ze tegengesteld aan wat theoretisch verwacht mocht worden. FM 2 daarentegen voldoet
wel aan de theoretische verwachting. Opvallend is dat ook Schmalt voor FM 1 en FM 2 re-
laties met schoolresultaten in de verwachte richting kon vaststellen voor situatiespecifieke
scores uit alle situatiebereiken behalve het bereik 'school'. Dit resultaat is theoretisch niet
consistent en kan o.i. dan ook niet beschouwd worden als ondersteuning van de confir-
merende validiteit.

Naast de schoolresultaten werden de scores op de LM-Gitter gerelateerd aan de PMT-K. In
vergelijking met Schmalt is het onderzoek naar de confirmerende validiteit hier beperkt
tot de relatie tussen de semiprojectieve (LM-Gitter) en de vragenlijstmethode (PMT-K).
Het voordeel van de keuze voor de PMT-K is wel dat deze test wat de gedragscomponen-
ten betreft op hetzelfde domein betrekking heeft als de LM-Gitter (De Bruyn, Alberts &
Peters, 1979). De KAT en lAR zijn daarentegen niet binnen de prestatiemotivatie-theorie

zelf ontwikkeld. Vandaar dat eerder significante verbanden verwacht kunnen worden tus-
sen LM-Gitter en PMT-K dan tussen LM-Gitter en de door Schmah gebruikte vragenhjs-
ten. Bovendien is de PMT-K een originele Nederlandse Test waardoor ook de toepasbaar-
heid op de onderzochte groep gewaarborgd is.

De PMT-K levert een score voor het prestatiemotief (P) en scores voor negatieve en posi-
tieve faalangst (F-, F+). Vanuit de omschrijving van de concepten kan een positief ver-
band worden verwacht tussen HE en P en tussen FM 1 en F-. De relatie tussen FM 2 en
F-^ is conceptueel niet geheel duidelijk. Uit de validiteitsstudies van Schmah blijkt dat aan
FM 2 geen remmend effect op de prestaties wordt toegekend en FM 2 ook positief met
prestaties samenhangt. Op grond hiervan zou FM 2 het best vergeleken kunnen worden
met de F-h van Hermans. Ook voor FM 2 en F+ kan dan een positief verband worden ver-
wacht.

Alleen de correlatie tussen FM 1 en F- haalt het niveau van significantie en bedraagt .10.
De conrelaties zijn zo gering, dat uitgesloten moet worden dat de ene test de andere zou
kunnen vervangen. De confirmerende validiteit is derhalve afwezig. Opmerkelijk is, dat
deze resuhaten aanzienlijk minder gunstig zijn dan die van Schmalt met de KAT en lAR,
terwijl deze vragenlijsen o.i. minder goed op de constructen van de LM-Gitter aansluiten
dan de PMT-K.

De betrouwbaarheid van de schalen van de LM-Gitter was goed. De a-coëfficient was in al-
le gevallen groter dan .80. Dit resuhaat is gunstiger dan de bevinding van Snel et al. (1978).
Een directe vergelijking is echter moeilijk omdat de proefgroep van Snel et al. was samen-
gesteld uit oudere kinderen, met name een groep van 12 en 13 jaar en een groep van 17 en
18 jaar oud. Het is mogelijk dat de betrouwbaarheid van de Gitter daalt met de leeftijd
van de respondenten. Over hertestingsbetrouwbaarheid werden geen gegevens verzameld.
Wat de factoriële validiteit betreft kon worden vastgesteld dat de gekozen driefactorenop-
lossing van Schmah voor de uitspraken van de LM-Gitter op de totale groep leidde tot een
vergelijkbare factorstructuur. Deze structuur is echter in tegenstelling tot de bevindingen
van Schmalt niet stabiel. Jongens en meisjes geven een ander beeld te zien en beide groe-
pen wijken af van de door Schmalt vastgestelde structuur. Een niet-consistente structuur
werd ook vastgesteld'in het onderzoek van Snel et al. (1978) waar het ging om de verge-
Ujking tussen oudere en jongere leerHngen. Op basis van het Nijmeegse onderzoek moet
gesteld worden dat de factoriële validiteit verschillend ligt voor jongens en meisjes. De test
kan voor beide sexen dan ook niet op gehjke wijze geïnterpreteerd worden.
De factorenanalyses over de situatiebereiken leverden net als bij Schmalt geen interpreteer-
bare gegevens op. Gecombineerd met de hoge interne consist'entie van de schalen leidt dit
tot het besluit dat de scores niet geïnterpreteerd kunnen worden als het resuhaat van een
interactie tussen motief en situatiebereik. De Gitter meet veeleer gegeneraüseerde motief-
structuren. Een belangrijke theoretische doelstelling van Schmalt lijkt daardoor niet be-
reikt.

De discriminante validiteit is globaal bevredigend te noemen. De verbanden met intelli-
gentie en sociale wensehjkheid zijn te verwaarlozen. De onafhankeUjkheid van de Gitter
ten aanzien van sociale wensehjkheid werd ook vastgesteld door Snel et al. (1978). De
confirmerende validiteit ten opzichte van prestatiecriteria als rapport- en toetscijfers en

ten opzichte van de PMT-K is zwak. Voor het situatiebereik 'school' gaan de verbanden
met rapport- en toetscijfers zelfs in een aan de verwachting tegengestelde richting voor HE
en FM 1. Ook Schmäh vindt voor dit bereik theoretisch de minst consistente resultaten
met betrekking tot schoolprestaties. Snel et al. (1978) gebruiken zowel een biometrische
maat als leerkrachtbeoordelingen als externe criteria. Zij rapporteren geen enkel verband
met de LM-Gitter.

Het besluit lijkt gerechtvaardigd dat het gebruik van de LM-Gitter van Schmäh voor advi-
sering in de praktijk ontraden moet worden. Het gebrek aan criterium-validiteit mag ech-
ter geen reden zijn om verder onderzoek naar de begripsvaliditeit te staken. Schmalt (1976b)
maakt o.i. terecht een onderscheid tussen 'Validitätsnahe' criteria en criteria die dwingend
door de theorie worden voorgeschreven. Dergelijke criteria, zoals aspiratieniveau en taak-
keuze ontbraken zowel in dit onderzoek als in dat van Snel et al. (1978). Een uitspraak
over de theoretische vruchtbaarheid van de LM-Gitter is afhankelijk van de relatie van de
test met criteria die tot de kern van de theorie behoren. Dit vereist nader onderzoek.

Aschersleben, K. Entwicklung eines Lügen-Scores zur Messung von Simulationstendenzen. Zeitschrift

für Entwicklungspsychologie und Pädagogische Psychologie, 1970, 2, 39-47.
Atkinson, J.W./In introduction to motivation. New York: Van Nostrand, 1964.
Bruyn, E.E.J. De. Doceerstijl, schoolse leerprestaties en prestatiemotivatie. In: E.E.J. De Bruyn (Red.),
Ontwikkelingen in het onderzoek naar prestatiemotivatie. Theorie, meetmethode en toepassing in
het onderwijs. Lisse: Swets & Zeitlinger, 1979.

Bruyn, E.K.J. De, Alberts, R.V.J., & Peters, V.A.M. Prestatiemotivatie-theoric en meetmethoden. In;
E.E.J. De Bruyn (Red.), Ontwikkelingen in het onderzoek naar prestatiemotivatie. Theorie, meet-
methode en toepassing in het onderwijs. Lisse: Swets & Zeitlinger, 1979.

Crandall, V., Katkovsky, W., & Crandall, V.J. Children's beliefs in their own control of reinforcements
in intellectual-academic achievement situations. Child Development, 1965,36, 91-109.

Drenth, P.J.D. Inleiding in de testtheorie. Deventer: van Loghum Slaterus, 1975.

Entwisle, D.R. To dispel fantasies about fantasy-based measures of achievement motivation. Psycho-
logical Bulletin, 1972, 77, 377-391.

Fineman, S. The achievement motive construct and its measurement: Where are we now? British Jour-
nal of Psychology, 1977, 68, 1-22.

Frederiksen, N. Toward a taxonomy of situations. In: N.S. Endler & D. Magnusson (Eds.), Interac-
tional psychology and personality. New York: Wiley, 1976.

Gjesme, T., & Nygärd, R. Achievement-related motives: Theoretical considerations and construction
of a measuring instrument. Unpublished report. University of Oslo, 1970.

Heckhausen, H. Hoffnung und Furcht in der Leistungsmotivation. Meisenheini am Glan: Anton Hain,
1963.

Heckhausen, H. The anatomy of achievement motivation. New York: Academic press, 1967.

Hermans, H.J.M. Handleiding bij de Prestatie Motivatie Test. Amsterdam: Swets & Zeitlinger, 1968.

Hermans, H.J.M. Prestatiemotief en faalangst in gezin en onderwijs. Tevens handleiding bij de Prestatie
Motivatie Test voor Kinderen (PMT-K). Amsterdam: Swets & Zeitlinger, 1971.

Klinger, E. Fantasy need achievement as a motivational construct. Psychological Bulletin, 1966, 66,
291-308.

McClelland, D.C. Assessing human motivation. New York: General Learning Press, 1971.

McClelland, D.C. Atkinson, J.W., Clark, R.A., & Lowell, E.L. The achievement motive. New York: Ap-
pleton, 1953.

Mehrabian A. Male and female scales of the tendency to achieve. Educational and Psychological Mea-
surement, 1968, 28, 493-502.

Mehrabian, A. Measures of achieving tendency. Educational and Psychological Measurement, 1969,29,
445-451.

Meyer, W.-U. Leistungsmotiv und Ursachenerklärung von Erfolg und Misserfolg. Stuttgart: Klett,
1973.

Meyer, W.-U., Heckhausen, H., & Kemmler, L. Validierungskorrelate der inhaltsanalytisch erfassten
Leistungsmotivation guter und schwacher Schüler des 3. Schuljahres. Psychologische Forschung,
1965,25, 301-328.

Nygärd, R., & Gjesme, T. Assessment of achievement motives: Comments and suggestions. Scandina-
vian Journal of Educational Research, 1973,17, 39-46.

Raven, J.C. Standard Progressive Matrices. Sets A, B, C, D, and E. Manual. London: Lewis, 1960.

Schmalt, H.-D. Die GITTER-Technik, ein objektives Verfahren zur Messung des Leistungsmotivs bei
Kindern. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 1973, 5, 231-252.

Schmalt, H.-D. Das LM-GITTER. Ein objektives Verfahren zur Messung des Leistungsmotivs bei Kin-
dern. Handanweisung. Göttingen: Hogrefe, 1976 (a).

Schmalt, H.-D. Methoden der Leistungsmotivmessung. In H.-D. Schmalt & W.-U. Meyer (Hrgs.), Leis-
tungsmotivation und Verhalten, Stuttgart: Klett, 1976 (c).

Snel, J., Bos, J., Uylings, R., & Ras, J.G.A. Achievement motivation with the Dutch version of the Git-
ter-test by Schmalt. Tijdschrift voor Onderwijsresearch, 1978, J, 173-181.

Thurner, F., & Tewes, U. Der Kinder-Angst-Test (K-A-T) Ein Fragebogen zur Erfassung des Ängst-
lichkeit sgrades von Kindern ab 9 Jahren. Göttingen: Hogrefe, 1969.

Self-prediction of performance on objective examinations of psychology freshmen.
Shortly before formal examinations psychology freshmen predicted their grades on a verbally
labeled five-point scale (A-E) and immediately after the examinations they predicted their scores
choosing one of nine categories. Data were gathered from 22 examinations witli more than 200
subjects at each in five consecutive years. Median rank correlations between predicted and actual
achievement were .34 (grade predictions) and .50 (score predictions). Absolute agreement be-
tween predicted and achieved performances averaged 34 pcrccnt (grade prediction), 24 percent
(score prediction), and 51 percent (pass/uncertain/fail). After examinations students underesti-
mated their performances, possibly due to a response set to minimize risk. Students did not improve
their estimates on successive occasions. It was concludcd that students did not exhibit strong
ability to predict their performance before or after examinations. Tliis result seems of significance
for botli educational theory and practice.

Vanuit tal van gezichtspunten is het van belang inzicht te verwerven in de accuratesse
waarmee studenten in staat zijn de eigen prestaties op een toets of examen te voorspellen.
Denkbaar is bijvoorbeeld dat men zich dit probleem aantrekt met als overweging dat hier
onderwijsdoelstelhngen in het geding zijn. Kooker en Williams (1959) dringen er op aan
de student ervaring te laten opdoen met het schatten van de eigen vooruitgang met de
studie vanuit de gedachte dat de vaardigheid in het oplossen van problemen zo vrucht-
baar gestimuleerd zou worden. Anderen (o.a. Duel, 1958) achten zulks wenselijk omdat
het inzicht in de eigen mogelijkheden erdoor zou worden verscherpt en aldus ook presta-
tieverbeteringen in het verschiet zouden komen bij toekomstige gelegenheden.
Onderwijspsychologisch is het gestelde probleem onder meer van belang in het kader van
onderzoek naar het aspiratieniveau en de factoren die daarbij een rol spelen (vgl. de Jong,
1970). Naar mag worden aangenomen maken schattingen omtrent de beheersing van de
stof en van de vermoedelijke prestaties op tentamens op informele wijze deel uit van het
voorbereidingsproces van studenten. Een adequate schatting van de te verwachten ten-
tamenprestaties tijdens de voorbereidingen zal mede bepalend zijn voor studiesucces. In
dit verband kan nog worden verwezen naar het tentamenmodel zoals voorgesteld door
van Naerssen (1971). Veelvuldig komt in diens beschrijving tot uitdmkking dat de student
wordt verondersteld een optünale strategie te volgen, inhoudende dat juist zo lang wordt
gestudeerd '... dat zijn relatieve ware score t de optimale waarde bereikt, namelijk die
waarbij de verwachting van de totale studeertijd minimaal is' (p. 123). Kennelijk wordt
de student ertoe in staat geacht zijn prestaties realistisch en zuiver te voorspellen.

' De auteurs danken dr. G.J. Mellenbergh en drs. P. Koele voor de kritische opmerkingen bij een
eerdere versie van dit artikel.

In dit artil<el zullen we ons met de volgende problemen bezighouden. Allereerst zal onder-
zocht worden in hoeverre studenten in staat bhjken hun prestaties op een tentamen te
voorspellen. Weten zij ongeveer welke tentamenscore ze zullen behalen en - belangrijker
nog - kunnen zij betrouwbaar aangeven of zij al dan niet zullen slagen voor het tenta-
men. Dat zal zowel vlak vóór als direct na het tentamen onderzocht worden. Ten tweede
zal nagegaan worden of de voorspellingsresultaten verbeteren naarmate men vaker schat-
tingen heeft moeten uitbrengen. En ten derde zal bekeken worden hoe het resultaat van
de voorspelling vlak vóór liet tentamen zich verhoudt tot de voorspelling direct erna.

Met ingang van het studiejaar 1971/72 zijn gedurende vijfjaren aan enkele van de pro-
pedeutische tentamens van de studie psychologie aan de Universiteit van Amsterdam
vragenlijsten toegevoegd met als doel de meningen van de deelnemers te peilen over het
begeleidend onderwijs en de wijze van tentaminering, en daarnaast enig inzicht te krijgen
in de wijze van voorbereiding op de tentamens. Voorafgaand aan het tentamen werd
steeds een lijst van 8 a 16 vragen aan de eerstejaars voorgelegd terwijl na afloop nog 10
vragen werden gesteld. Onderdeel van de vragenlijsten voor en na het tentamen vormde
het verzoek een voorspelling te doen van het tentamenresultaat. Vooraf gebeurde dit in
de vorm van een schatting van de XeniAxncnbeoordeling (Voorspelling Vooraf), achteraf
in de vorm van een voorspelling van de tentamenscore (Voorspelling Achteraf). Een
beoordeling op een 5-puntsschaal leek ons de meest gedifferentieerde voorspelling waar-
toe deelnemers vóór een tentamen in staat zouden zijn. Aansluitend op het tentamen
leek een meer precieze schatting haalbaar omdat men dan een indruk had gekregen van
de inhoud van het tentamen en de vermoedelijk geleverde prestaties. In 1971/1972 luidde
de vraag bij de Voorspelling Vooraf als volgt:

'Geef een schatting van de beoordeling die u verwacht te zullen behalen voor dit tenta-
men (kruis aan hetgeen het meest van toepassing is).'

A = goed/uitstekend
B = (ruim) voldoende
C = (matig) voldoende
D = (juist) onvoldoende
E = slecht.

Ook in 1972/1973 en daarna werd deze vraag gesteld, met 4ien verstande dat de aandui-
ding '(matig) voldoende' toen was gewijzigd in '(juist) voldoende'.

De voorspellingsvraag direct na het tentamen (Voorspelling Achteraf) was in 1971/1972
als volgt geformuleerd:

'Geef een schatting van het aantal goed ingevulde items dat u denkt behaald te hebben
(het desbetreffende getal omcirkelen).'
1 - 2 - 3 -.......... 28 - 29 - 30.

In 1972/73 en later moe'sten de antwoordmogelijkheden van deze vraag worden aange-
past als gevolg van veranderingen in de tentamenregeling. De tentamens omvatten nu een

variërend aantal items. Besloten werd de studenten een keuze te laten maken uit 9 ant-
woordmogelijkheden. Hoewel bij het vaststellen van de 9 klassen steeds werd gestreefd
naar een zo groot mogelijke differentiatie bij de tentamenscores met relatief hoge fre-
quenties, kan onze keuze een zekere willekeur niet worden ontzegd. Een tentamen be-
staande uit 30 vierkeuzevragen werd bijvoorbeeld als volgt gecategoriseerd: (O - 7)
(8 - 11) (12 - 14) (15 - 16) (17 -20) (21 -22) (23 -24) (25 -27) (28 -30) items
goed.

Aan het bovenstaande moet nog het volgende worden toegevoegd. Ten eerste geldt dat
niet alle propedeutische tentamens in het onderzoek werden betrokken. Uitgesloten
werden de tentamens Psychologische Statistiek en Wiskunde omdat de daarbij geldende
regelingen dermate afwijkend waren dat vergelijking met de overige tentamens niet goed
mogelijk was. Ten tweede moet worden opgemerkt dat het eerstejaarsprogramma in de
loop van de periode enkele malen niet onaanzienlijk is gewijzigd. Naast de al genoemde
veranderingen moet bijvoorbeeld worden vermeld dat vanaf 1972/73 een cumulatieve
tentaminering gold voor drie tentamens (zie Vorst, 1978) en dat in 1973/74 aan ieder
tentamen enige reserve-vragen waren toegevoegd. De tentamenregeUng zelf bleef tijdens
de onderzoeksperiode in grote lijnen hetzelfde. Een en ander vond plaats volgens een
beperkt compensatorisch model. Om te slagen voor de propedeuse diende men 70% van
alle vragen en tevens 55% van de vragen van elk afzonderiijk tentamen goed beantwoord
te hebben. Een tentamenscore tussen de 70% en 55% kon men compenseren met een
hogere score op een ander tentamen.

De relatie tussen de voorspelde en werkelijke tentamenprestaties is op drie manieren
onderzocht. Berekend zijn per tentamen (a) de correlatie tussen de voorspellingen en de
tentamenscore, (b) de percentages (on)juiste voorspellingen van de gecategoriseerde
tentamenscore en (c) de percentages (on)juiste voorspellingen van de tentamenuitslag. De
correlatie tussen voorspelde en behaalde score zal bepaald worden met behulp van Spear-
man's rangcorrelatiecoëfficiènt. De tentamenscores kunnen ook als afhankelijk van de
voorspellingen geanalyseerd worden. Everitt (1977, p. 63) beveelt in gevallen van een
asymmetrische relatie voor tabellen met geordende categorieën Somers's d aan. De ana-
lyses onder (b) en (c), die gericht zijn op de overeenstemming in absolute zin tussen voor-
spelling en resultaat, maken hercodering van de gegevens noodzakelijk.
De vijf beoordelingscategorieën van de Voorspelling Vooraf zijn als volgt gerelateerd aan
de te behalen tentamenscore: voorspellingscategorie A komt overeen met 90-100% van de
antwoorden goed, B met 80-89%, C met 70-79%, D met 55-69% en E met 54% en minder.
Combinatie van de beoordelingscategorieën en de gecategoriseerde tentamenscores le-
vert een 5X5-tabel op. Deze kan samengevat worden door drie groepen personen te onder-
scheiden. Zij die een juiste schatting gaven (frequenties in de cellen op de diagonaal), zij
die een hogere schatting gaven dan de werkelijk behaalde tentamenscore (b.v. de cellen
onder de diagonaal) en zij die een lagere schatting opgaven dan de werkelijk verkregen
tentamenscore (de cellen boven de diagonaal). Teneinde de Voorspelling Vooraf te kun-
nen relateren aan de tentamemitslag zijn de gegevens in drie categorieën ondergebracht:
categorieën A, B en C komen overeen met de voorspelling 'geslaagd', D met 'compenseer-
baar onvoldoende' en E met 'gezakt'. Combinatie van de zo gecategoriseerde Voorspelling
Vooraf en de werkelijke tentamenuitslag resulteert in een 3X3-tabel en samengevat levert

deze weer drie groepen op: juiste schatters, over- en onderschatters van de uitslag.
In 1971/72 gaven de studenten bij de Voorspelling Achteraf Qtn puntschatting, in latere
jaren werd volstaan met een schatting in negen categorieën. De puntschattingen zijn ten
behoeve van de berekeningen van de voorspellingsresultaten onder (b) en (c) omgezet in
de later gebruikte negen categorieën. De tentamenscore is vervolgens tot dezelfde negen
categorieën teruggebracht. Combinaties van beide gegevens leidt tot een 9X9-tabel. Ver-
gelijking van de voorspelde met de behaalde categorie levert weer drie groepen personen
op: juiste schatters, onder- en overschatters van de gecategoriseerde tentamenscore. Voor
een vergelijking met de voorspellingsresultaten bij de Voorspelling Vooraf zijn de gege-
vens van de Voorspelling Achteraf tot dezelfde vijf categorieën gehercodeerd en verge-
leken met de overeenkomstig gegroepeerde tentamenscore (90-100%, 80-89%, 70-79%,
55-69% en 54% en minder goed). De gegevens resuheren in een 5X5-tabel en opnieuw
drie groepen schatters. Tenslotte zijn dc voorspellingsgegevens teruggebracht tot de drie-
deling: 'geslaagd' (komt overeen met 70-100% goed), 'compenseerbaar onvoldoende' (55-
69% goed) en 'gezakt' (< 54%). Deze gegevens zijn wederom vergeleken met de werke-
lijke tentamenw/Zs/a^ met als resultaat een 3X3-tabel en de percentages juiste schatters,
onder- en overschatters van de uitslag.

Bij de 22 in het onderzoek betrokken tentamens is 18 maal een Voorspelling Vooraf en
21 maal een Voorspelling Achteraf verkregen. Bij 17 tentamens zijn beide voorspellingen
gedaan. In Tabel 1 zijn per tentamen de berekende relaties tussen de voorspellingen en de
behaalde tentamenprestaties weergegeven. De tentamens zijn per studiejaar in de gepro-
grammeerde volgorde gepresenteerd. In de eerste drie kolommen zijn per tentamen ver-
meld: een tentamenriummer, het aantal deelnemers en het percentage respondenten, dat
beide voorspellingen heeft gedaan. Bij vijf tentamens kan het percentage respondenten
van slechts één voorspelling gegeven worden. In de drie volgende kolommen onder Voor-
spelling Vooraf zijn de rangcorrelatie tussen voorspelling en tentamenscore (4), de percen-
tages juiste schattingen van de gecategoriseerde tentamenscore (5) en van het tentamen-
resultaat (6) vermeld. Daarna volgen dezelfde gegevens voor de Voorspelling Achteraf .

Uit kolom 4 en 7 blijkt dat Spearman's rangcorrelatiecoëfficienten tussen Voorspellingen
Vooraf en tentamenscores waarden bereiken van .24 tot .46 (mediaan: .34), die tussen
Voorspellingen Achteraf en scores van .31 tot .59 (mediaan: .50). De waarden van So-
mers's d wijken daar niet veel van af. Beschouwt men de Voorspelling Vooraf als onaf-
hankelijke en de tentamenscore als afliankelijke variabele dan bereikt d waarden tussen
.22 en .44 (mediaan: .35). Bij de Voorspelling Achteraf als onafhankelijke en score als
afhankelijke variabele liggen de c?-waarden tussen .26 en .55 (mediaan: .44).

Tabel 1. Relaties tussen voorspelde en behaalde scores/resultaten bij 22 tentamens.

De percentages juiste schattingen van de gecategoriseerde tentamensco/-e bij de Voorspel-
ling Vooraf (kolom 5) Hggen tussen 27 en 40% (mediaan*. 34%) en bij de Voorspelling
Achteraf (kolom 8) tussen 16 en 33% (25%). Daarbij moet rekening gehouden worden
met het feit dat de Voorspelling Vooraf in vijf categorieën is gegeven en Achteraf meestal
in negen. Zouden voorspelling en tentamenscore onafhankelijk volgens loting aan de
categorieën zijn toegewezen, dan zou men bij de Voorspelling Vooraf in ongeveer 20%
Van de gevallen een juiste schatting vinden en bij de Voorspelling Achteraf in 11%.
De percentages personen die een juiste voorspelling van de tentamenuz'fsfag konden geven
(kolom 6 en 9), liggen beduidend hoger: Vooraf 39 - 86% (mediaan: 60%) en Achteraf
32-85% (51%). Op grond van toeval is bij drie categorieën in ongeveer 33% van de gevallen
een juiste voorspelling te verwachten. Met betrekking tot de vraag of het aantal voorspel-
hngen dat studenten eerder hebben gedaan van invloed is op de nauwkeurigheid van de

Figuur 1. Gemiddelde percentages juiste schattingen, overschattingen en onderschattingen van de ge-
categoriseerde tentamenscore en -uitslag.

prognoses kan het volgende worden opgemerkt. Enkele uren na het tentamen werd de
studenten de gelegenheid geboden de behaalde score zelf voorlopig vast te stellen. Dat
betekent dat studenten directe terugkoppeling ontvingen op o.a. de gegeven prognose. De
condities waren dus aanwezig dat studenten nauwkeuriger konden leren schatten. Dat zou
feitelijk tot uitdrukking moeten komen in hogere correlaties tussen voorspelling en score
en hogere percentages juiste schattingen bij latere prognoses. De betreffende gegevens
over 1971/72, 1972/73, 1973/74 in Tabel 1 geven geen steun aan deze veronderstelling.
Een deel van de voorspellingsresultaten uit Tabel 1 zijn in beeld gebracht. In Figuur 1 zijn
de percentages juiste schattingen van de tentamenscore en het resultaat weergegeven, ge-
middeld over respectievelijk 18 tentamens (Vooraf) en 21 (AchteraO- Tevens zijn opge-
nomen de gemiddelde percentages overschattingen (lagere scöre/minder goede uitslag dan
voorspeld) en onderschattingen (hogere score/betere uitslag dan voorspeld). Ter illustra-
tie: Blijkens kolom 1 in de Figuur deed 34% van de proefpersonen Vooraf een juiste
schatting van de gecategoriseerde tentamenscore (midden), 33% gaf een onderschatting
(boven) en 33% een overschatting (onder)^_

Kolom 1 en 2 geven de percentages voor de Voorspelling Vooraf, kolom 3, 4 en 5 voor de
Voorspelling Achteraf. Kolom 1 en 4 hebben betrekking op de voorspellingsresultaten
zoals deze berekend zijn op grond van gegevens met vijf categorieën. In kolom 2 en 5 zijn
de voorspellingsresultaten .berekend in het geval de gegevens teruggebracht zijn tot drie
categorieën. De resultaten in kolom 3 zijn tot stand gekomen op grond van gegevens met

negen categorieën. Vooraf wordt relatief vaker overschat dan Achteraf en Achteraf komt
onderschatting frequenter voor. De percentages juiste schattingen in kolommen 1 versus
4 en 2 versus 5 verschillen niet veel.

Samenvattend kan met betrekking tot de algemene kwestie of studenten desgevraagd in
staat zijn de eigen tentamenprestaties te voorspellen het volgende worden opgemerkt:

— Een deel van de studenten, ongeveer 10% méér dan bij louter toeval is te verwachten,
kan de categorie voorspellen waarbinnen de behaalde tentamenscore valt. De tentamen-
uitslag wordt door een grotere groep correct voorspeld; door ongeveer 20% méér dan
bij toeval te verwachten.

— De voorspelling direct na het tentamen correleert hoger met de tentamenscore dan de
voorspelling vlak vóór het tentamen.

— Er bestaat bij de voorspelling van de gecategoriseerde tentamenscore direct na het ten-
tamen een neiging tot onderschatten van de werkelijke tentamenprestatie.

Ervaring met het voorspellen van eigen tentamenprestaties leidt niet tot hogere percen-
tages juist geschatte tentamenscores c.q. -uitslagen of hogere correlaties tussen voor-
spelde en behaalde prestaties.

Vervolgens is nagegaan in hoeverre sprake is van een zekere consistentie in de voorspel-
lingsresultaten Vooraf en Achteraf. Met andere woorden: zullen studenten die Vooraf
juist, onder- dan wel overschatten dat ook Achteraf doen. De relatief hoge correlaties
tussen beide voorspeUingen (.47 tot .70; mediaan: .62) wijzen in deze richting.
In Tabel 2 zijn de resultaten over beide voorspellingen samengevat. Het betreft gemid-
delde percentages berekend over de 17 tentamens, waarvan beide voorspellingen bekend
zijn (zie ook Tabel 1). In de Tabel zijn de voorspellingsresultaten vermeld ten opzichte
van de gecategoriseerde tentamenscore. Tussen haken zijn dezelfde gegevens ten opzichte
Van het tentamenresultaat weergegeven.

Dus, bij de Voorspelling Vooraf gaf 33% een onderschatting van de tentamerLsco/-*? (bo-
venste rij totalen), 29% deed dat Achteraf opnieuw (eerste getal bovenste rij). Het percen-
tage studenten dat zowel Vooraf als Achteraf een juiste schatting van de gecategoriseerde

score gaf (10%) is ongeveer gelijk aan het percentage dat bij louter toeval te verwachten is
(11%). Bij de voorspelling van de tcntameni/!?xto^ ligt het percentage juiste schattingen
aanzienlijk hoger (34%; in Tabel 2 tussen haken). Bij het voorspellen van de gecategori-
seerde tentamenscore en van de tentamenuitslag doet meer dan de helft van de respon-
denten tweemaal eenzelfde prognose; dus Vooraf èn Achteraf een juiste, een over- dan
wel een onderschatting (in Tabel 2 de proporties in de cellen op de diagonaal).
Uit dc gegevens in de tabel blijkt dat het deelnemen aan het tentamen aanleiding geeft tot
teruglioudendheid in de voorspelling van de tentamenprestatie en niet, zoals verwacht,
tot betere voorspellingsresultaten.

Uit het voorgaande komt als belangrijkste conclusie naar voren dat het percentage studen-
ten dat daartoe uitgenodigd een juiste schatting van de eigen tentamenprestaties weet te
doen, geen aanwijzing vormt dat studenten dat ook in meerderheid kunnen. Voor een deel
is deze magere overeenstemming tussen voorspelling en resuhaat een gevolg van het aan-
zienlijke percentage studenten dat direct na het tentamen de eigen prestaties onderschat.
Uit mondelinge reacties van respondenten blijkt o.a. dat studenten het aantrekkelijk vin-
den een voorzichtige voorspelling te doen zodat de feitelijke uitslag meestal een meevaller
vormt. Het is dus mogelijk dat onderschatten meer een comfortabele, zelf-beschermende
responsneiging is dan een gevolg van onbekwaamlieid op dit punt.^ Studenten blijken
voorts geen nauwkeuriger prognose te geven van de tentamenprestaties naarmate zij meer
ervaring hebben opgedaan met het afleggen van tentamens en het doen van voorspel-
hngen.

Op het materiaal zijn nog enkele aanvullende analyses uitgevoerd. Allereerst zijn de voor-
spelde en behaalde tentamenprestaties en de voorspellingsresultaten in verband gebracht
met enkele toevallig beschikbare persoonlijkheidsgegevens: de ABV (Wilde, 1963), de PMT
(Hermans, 1967), de 5-PFT (Elshout & Akkerman, 1976), een rigiditeitstest (Tellegen,
1968) en de NAS (Roe, 1975). Uit eenvoudige correlationele analyses en multiple regressie
analyse over deze gegevens blijkt dat noch de tentamenscores, noch de voorspellingen,
noch de schattingsresultaten belangrijke samenhangen met de in het onderzoek opgenomen
persoonlijkheidskenmerken vertonen. Verder zijn de voorspelde en behaalde tentamenpres-
taties van 21 tentamens in verband gebracht met evaluatiegegevens, die vlak voor en direct
volgend op het tentamen zijn ingewonnen. Correlaties tussen beide soorten gegevens waren
bijna alle zeer laag en boden geen aanknopingspunten voor verdere analyse. Tenslotte bleek
het percentage juiste schattingen van de tentamenwiYs/ag- afhankelijk van de moeilijkheids-
graad van het tentamen. Bij het moeilijkste tentamen was dit percentage 49% en bij het
gemakkelijkste 86%. Echter, het percentage juiste schattingen van de tentamenscore gaf
een zwak verband te zien met de moeilijkheidsgraad van de tentamens.

De empirische literatuur over 'self-grading', 'grade expectations' en 'self-estimation/pre-
dictions of performance/achievement' is beperkt van omvang en geeft slechts gedeelteUjk
aansluiting op de hier gerapporteerde bevindingen. Sunner & Johnson (1949) vroegen 52

^ Een andere mogelijke verklaring voor het onderschatten werd door P. Koele gesuggereerd. Bij het
gebruik van meerkeuzevragen zullen studenten een deel van de vragen, waarop zij het antwoord niet
weten, min of meer toevallig goed invullen. Het is mogelijk dat studenten met deze raadcomponent
geen rekening (kunnen) houden bij het voorspellen van de eigen tentamenprestatie en deze daardoor
onderschatten.

Studenten bij 13 toetsen gedurende een cursus algemene psychologie de score te voor-
spellen. Zij deden dat elke keer direct na de toetsing èn 24 uur later vlak vóór de studen-
ten het nagekeken werk terugkregen. Bij een deel van de toetsen werd de studenten ook
gevraagd een voorspelling te doen vlak vóór de afname (1 lx) en direct nadat zij de vragen
even hadden kunnen inzien (7x). De meerkeuzetoetsen werden met tussenpozen van
enkele (2 of 5) dagen afgenomen. De studenten overschatten vooraf de behaalde score
met gemiddeld bijna 15 punten (85 i.p.v. 70) en nadat zij de vragen hadden gezien met
gemiddeld bijna 9 punten. Direct na de toetsing werd met gemiddeld 3 punten onder-
schat en 24 uur later met ruim 2 punten. De voorspellingen vóór het invullen van de toets
correleerden respectievelijk .48 en .13 met de behaalde score. Na het invullen waren de
rho-correlaties tussen geschatte en behaalde prestaties .78 en .75. Analyse van verschil-
scores tussen voorspelde en behaalde toetsscores leverde consistente resultaten op. De
Voorspellingen bij de laatste vier toetsen waren aanzienlijk meer in overeenstemming met
de feitelijke score dan die bij de eerste toetsen. Studenten met de beste resultaten (het
bovenste kwartiel) gaven betere voorspellingen van de score dan studenten met de slecht-
ste prestaties (het onderste kwartiel). Vrouwelijke studenten gaven betere voorspellingen
Van de score dan mannelijke.

Mueller (1970) gaf studenten de gelegenheid de beoordeling van een tentamen (A t/m E)
te voorspellen. Dc meerderheid (54%) gaf een onderschattingen 33% een juiste schatting
Van het feitelijk behaalde resultaat. Murstein (1965) kon vermelden dat studenten met
goede studieresultaten per semester accurate voorspellingen gaven en dat studenten met
slechte resultaten te hoge prestaties van zichzelf verwachtten, zelfs na een reeks onrealis-
tisch gebleken voorspellingen. Bij enkele andere studies is weinig aansluiting te constate-
ren; noch wat betreft het type onderzoek, noch wat betreft de resultaten (o.a. Brim,
1954; Gavin, 1967; Keefer, 1961; Kooker & Williams, 1959; Spaights, 1965).
Tenslotte nog enkele min of meer ernstige problemen die bij dit type onderzoek kunnen
optreden. Allereerst wordt bij de verwerking van de gegevens soms gebruik gemaakt van
extreme groepen: bijvoorbeeld de voorspellingsgegevens van studenten met een hoge
score worden vergeleken met die van studenten met een lage score. Bij deze analyse treedt
gemakkelijk regressie naar het gemiddelde op. Statistisch gezien is de kans dat studenten
met een hoge score een onderschatting zullen geven groter dan de kans op een overschat-
ting. Eenzelfde redenering geldt voor studenten met een lage score; zij hebben een grotere
kans op overschatten dan op onderschatten. En dat is precies wat meestal in de besproken
hteratuur wordt gevonden. Het is mogelijk dat dit resultaat een artefact is van de onder-
zoeksmethode.

Een tweede kanttekening bij de hier gepresenteerde analyse betreft het werken met ver-
schilscores. Bekend is dat verschilscores van gecorreleerde variabelen aanzienlijk minder
betrouwbaar zijn dan de oorspronkelijke gegevens. In bovenstaande analyses is het voor-
spellingsresultaat uitgedrukt in percentages onderschattingen, overschattingen en juiste
schattingen (zie bijvoorbeeld Tabel 2).

Dit onderscheid is natuurlijk gebaseerd op het verschil tussen de voorspelling en de ten-
tamenscore. De betrouwbaarheid (KR-20) van de tentamens lag meestal rond de .70; de
correlatie tussen Voorspelling Achteraf en tentamenscore meestal rond de .50. Schat
men de betrouwbaarheid van de voorspelling eveneens op .70 en de varianties voor de
Voorspelling Achteraf en de tentamenscores op 16 dan hgt de te verwachten betrouw-
baarheid van de verschilscores rond de .40. Het ontbreken van verbanden tussen variabe-
len en verschilscores kan dus een gevolg zijn van de onbetrouwbaarheid van de gehan-
teerde verschilscore. Toch is het nauwelijks te vermijden verschilscores in de analyse te

betrekken. Correlatieve analyses geven een beperkt beeld van de relaties tussen de varia-
belen. Een hoge correlatie tussen voorspelling en tentamenscore hoeft nog niet te beteke-
nen dat de voorspellingen in absolute zin overeenkomen met de tentamenscores. Het is
te verwachten dat vcrschilscores bij grote aantallen toch een zekere zeggenschap behou-
den.

Een derde en laatste probleem dat de interpretatie van de gegevens bemoeilijkt zijn de
verbale omschrijvingen bij A t/m E van de Voorspelling Vooraf. Bij nader onderzoek
bleek dat deze beoordelingscategorieën geen eenduidige reacties bij studenten teweeg
brachten. Ondanks het feit dat de officiële beoordelingscijfers en bijbehorende scores in
de propedeuseregehng waren opgenomen, bleken deze niet als zodanig bij de studenten
bekend te zijn. Dc omzetting van deze vijf categorieën in tentamenscores is, zoals gezegd,
daarom niet zonder enige willekeur.

Ondanks bovenstaande punten lijkt de hoofdconclusie onverlet: studenten zijn slechts in
zeer beperkte mate in staat de eigen tentamenprestaties te voorspellen. Dit gegeven is
onderwijskundig van belang, omdat het direct aanleiding geeft tot de vraag: hoe is het mo-
gelijk dat studenten/leerlingen vooruitgang boeken als zij slechts ten dele in staat zijn de
eigen prestaties adequaat te schatten?

Brim, O.G. Jr. College grades and self estimates of intelligence. Journal of Educational Psychology,
1954,45,477-484.

Duel, H.J. Effect of periodical self-evaluation on student-achievement. Journal of Educational Psy-
chology, 1958,49, 197-199.
Elshout, J.J. & Akkerman, A.E. Vijf persoonlijkheidsfactoren test (5-PFTj Amsterdam: Swets & Zeit-
Unger, 1976.

Everitt, B.S. The analysis of contingency tables. London: John Wiley & Sons, 1977.

Garvin, A.D. A comparison of student's prediction of rank order on proximate and remote tasks. The

Journal of Educational Research, 1967, 176-178.
Hermans, H.J.M. Motivatie en Prestatie. Amsterdam: Swets & Zeitlinger, 1967.

Jong, J. de. Leerpsychologie en geprogrammeerde instructie. In: C.F. van Parreren en J. Peeck (Re-
dactie) Informatie over leren en Onderwijzen. Groningen: Wolters-Noordhoff, 1970.
Keefer, K.E. Qiaracteristics of students who make accurate and inaccurate self-predictions of college

achievement. The Journal of Educational Research, 1971, 64, 401-404.
Kooker, E.W. & Williams C. College students' ability to evaluate their performance on objective tests.

Journal of Educational Research, 1959,53, 69-72.
Mueller, R.H. Is self-grading the answer? Journal of Higher Education, 1970,41, 221-224.
Murstein, B.1. The relationship of grade expectations and grades beUeved to the deserved to actual

grades received. The Journal of Experimental Education, 1965,33, 357-362.
Naerssen, R.F. van. Een model voor tentamens. Nederlands Tijdschrift voor de Psychologie en haar

Grensgebieden, 1971, 26, 121-132.
Roe, R.A. Links en Rechts in een empirisch perspectief. Amsterdam: Academisch proefschrift Univer-
siteit van Amsterdam, 1975.
Spaiglits, E. Accuracy of self-estimation of junior high school students. The Journal of Educational

Research, 1965, 58, 416-419.
Sunner, F.C. & Johnson E.E. Sex differences in levels of aspiration and in self-estimates of perfor-
mance in a classroom situation. The Journal of Psychology, 1949, 27, 483-490.
Tellegen, B. Over rigiditeit. Zaltbommel, 1968.

Vorst, H.C.M. Studietempo, onderwijsfactoren en persoonskenmerken. Tijdschrift voor Onderwijs-
research, 191&, 6, 241-256.
Wilde, G.J.S. Neurotische labiliteit gemeten volgens de vragenlijstmethode. Amsterdam: F. van Ros-
sen, 1963.

Wright and Stone (1979), in their book on best test design, develop a goodness of fit sta-
tistic for items in a test. We may summarize their procedure as follows:

— for each combination of a person i and an item j, there is a random variable uy which
takes values in {0,1};

Then the authors state that 'we expect this estimated residual to be more or less' distributed
as chi-square with one degree of freedom, using the normal approximation to the binomial.
They continue:

When a particular squared residual zy' becomes very large, we wonder if something unexpected
happened when person i took item j. Of course, a single unexpected response is less indicative of
trouble than a string of unexpectedly large value of zjj'. Then the accumulated impact of these
values taken (...) over persons for an item is bound to produce concern for the plausibility of (...)
that item's calibration. (Wright & Stone, o.c. p. 7).

that this statistic is distributed as chi-square with N degrees of freedom, divided by N.

Our first comment is that, although we may approximate a binomial distribution by a
normal one for large N, for N=1 this approximation will not do. Therefore, there is no
reason to treat MSQ as a chi-squared distributed statistic, divided by N.
Our second comment has to do with the preoccupation with large values of MSQ only.
This time-honoured way of looking at fit statistics will lead to erroneous conclusions
when applied to the Rasch model, as we hope to make clear in the following.

First of all, because we are dealing with just one item, we drop the subscript j in the
sequel. Next, without loss of generaUty, we give our exposition in terms of zj^ rather than
ofMSQ.

for all TTj. To see what happens when the model does not fit, we have to be more specific
in the alternative.

Now, when the alternative model holds:
E(Zi2|pi) = pie-''i-H(l -pOe^i
which, after some algebra, comes down to:
E(Zi^lPi)= ^ ^

e''i(i+ee-"i (1-h e'"'i)
As shown in an Appehdix, this function has the following characteristics:
For a = 1, E(zi^ |pi) = 1 ; this is the case in the Rasch model;
For a > 1, E(Zi2|pi) takes values in the interval (0,1);
For 0 < a < 1, Ip;) takes values in the interval [ 1 ,«>).

The parameter a monitors the steepness of the item characteristic curve (ICC); a value of
a greater (smaller) than 1 indicating an ICC steeper (flatter) than the ICC of a Rasch item.
We thus see that, with the given aUernative in mind, both large and small values of the fit
statistic indicate departures from the Rasch model. A large value indicates a flatter ICC
than expected, a small value a steeper one. The same reasoning applies to MSQ, the mean
of the individual Z;^. *

Unfortunately, we can say nothing about the distribution function of MSQ. To us, the
theorems of Liapunov or Lindberg (central limit theorems for non-identical distributed
random variables; see Rao (1973), pp. 227-228) seem not appHcable. Therefore, we advo-
cate to consider MSQ as a stress measure. Empirical investigations, including simulation
studies*, may lead to usable benchmarks for evduating a given MSQ.

* After preparing this note, I was told that Wright had undertaken such simulation studies which are
reported in the updated BICAL manual. I had no opportunity to look at it (NHV)

<e- y -H e(l - '»)y} = f(y) = f(-x); Q.E.D. Therefore, we may concentrate
on f(x) for X > 0.

3) 0<a< 1 =>-e(l - o:)x isamonotonely increasing function ofx,withaminimum value of
1 whenx = 0.So, whenO<a< 1, 1 <f(x)<°°.

4) a > 1 e(l - is a monotonely decreasing, positive function of x, with a maximum
Value of 1 when x = o. So, when a > 1,0 < f(x) < 1.

bright, B.D.& Stone, H. Best Test Design; Rasch Measurement. Chicago: Mesa Press, 1979.

C.R. Linear Statistical Inference and its Applications. New York: John Wiley & Sons, 1973.

Stokking (1980) constateert terecht dat in het commentaar van Creemers en Hoeben
(1980) op zijn dissertatie (Stokking, 1979) amper op de inhoud ervan is ingegaan. In de
discussie zijn slechts meningsverschillen naar aanleiding van en niet over deze inhoud naar
voren gekomen. Tijdens overleg is ons gebleken dat slechts enkele van deze meningsver-
schillen betekenisvol zijn in het kader van de beantwoording van evaluatievraagstellingen
in onderwijsresearch. Als voorlopige afsluiting van deze discussie willen we twee van deze
betekenisvolle meningsverschillen naar voren brengen.

1. Stokkings analyse mondt o.a. uit in een relativering van de zinvolheid van statistische
toetsing, onder meer bij quasi-experimenteel evaluatie-onderzoek. Creemers en Hoeben
delen dit oordeel, maar wilden in hun commentaar een stap verder gaan. Zij zijn van
oordeel dat de analyse uit zou kunnen monden in een relativering van quasi-experimen-
teel evaluatie-onderzoek zelf, althans binnen de onderwijsresearch.

In dat licht moet hun vermelding worden gezien van de toetsing van een netwerk van
hypothesen. De hieraan ten grondslag liggende theoretische veronderstelling van een
veelvoud van oorzaken voor waargenomen programma-effecten maakt huns inziens de
opzet van een enigszins verantwoord (quasi-)experiment onpraktisch en vrijwel onmo-
gelijk. Ook voor een wetenschappelijke beantwoording van evaluatievraagstellingen in
onderwijsresearch zullen in hun optiek andere wegen moeten worden gezocht.
Stokking vindt flaarentegen het (quasi-)experimentele standpunt in de internationale
discussie over evaluatie(-onderzoek) zeer waardevol, zij het niet vanzelfsprekend. Het
eerste betekenisvolle meningsverschil in de voorgaande discussie heeft zodoende be-
trekking op het nut van quasi-experimenten bij (wetenschappelijke) antwoorden op
evaluatievraagstellingen in onderwijsonderzoek. Vanuit^het hele scala van evaluatie-
opvattingen bezien (waarin evaluatie niet per se onderzoek, noch per se wetenschap
is), liggen onze opvattingen overigens waarschijnlijk betrekkelijk dicht bijeen, aldus
Stokking.

2. Daarnaast is er een tweede meningsverschil over het belang van een discussie over de
zinvolheid van statistisch toetsen. Dat Stokking deze discussie belangrijk vindt, ligt
voor de hand, gezien de inhoud van zijn dissertatie. Statistisch toetsen is naar zijn
mening één van de weinige 'harde' objectiveringshulpmiddelen die we in de sociale
wetenschappen hebben. Het betekent volgens hem dan ook nogal wat als dat hulpmid-
del weinig voorstelt. ♦

Creemers en Hoeben zien in een relativering van quasi-experimenteel evaluatie-onder-
zoek tegelijkertijd een relativering van het belang van een discussie over statistisch toet-
sen binnen de context van dergelijk onderzoek.
Met het aanwijzen van meningsverschillen die betekenisvol zijn voor onderwijsevaluatie
kan deze discussie alleen maar voorlopig worden afgesloten. Zij moet in de toekomst
Worden voortgezet, bij voorkeur aan de hand van de eindrapportage van een concreet
project, zodat we een 'toets'-steen voor onze opvattingen hebben.

De eindrapportage van het GEON-project wordt daarvoor op dit moment door ons in
overweging genomen.

Creemers, B. & Hoeben, W. Commentaar op Stokking: 'Toetsend Onderzoek', Tijdschrift voor Onder-
wijsresearch, 1980,5, 174-176.

Stokking, K.M. Toetsend Onderzoek', Over toetsen op statistische signifikantie in de sociale weten-
schappen, in het bijzonder gezien vanuit het kwasi-experimentele antwoord op de evaluatievraag-
stelüngen in de onderwijsresearch. Dissertatie, Groningen, 1979.

Stokking, K.M. Een reaktie op 'Commentaar op Stokking: "Toetsend Onderzoek" ' van Creemers en
Hoeben, of: Het misverstand rond een ondertitel. Tijdschrift voor Onderwijsresearch, 1980 5
177-180. ' '

Titel en Leitmotiv van deze bijdrage zijn enerzijds geinspireerd op het door R.W.0. (de
gezamenlijice centra voor onderzoek van het wetenschappelijk onderwijs) gekozen thema
voor het in december 1980 geplande congres. Dit thema luidt: 'Kwahteitsverbetering van
het onderwijs'. Met dit congres hoopt men met name docenten en beleidsfunctionarissen
te bereiken.

Anderzijds is de bijdrage geinspireerd op een artikel van De Zeeuw (1979), die erop wijst
dat kwaliteitsverhoging meer dan ooit een kernprobleem in onze samenleving is gaan vor-
men. De hoofdvraag die De Zeeuw bezighoudt luidt onder welke condities kwahteits-
verhoging van onderzoek nu ook daadwerkelijk kan leiden tot kwahteitsverhoging van het
handelen van diegenen die we met ons onderzoek willen bereiken. Zegmaar: de afnemers
ervan.

In het navolgende wil ik de vraag aan de orde stellen hoe men door kwaliteitsverhoging
van - met name tot docenten en beleidsfunctionarissen gerichte (onderwijskundige) pu-
blicaties het handelen van de lezer-cliënt in positieve zin zou kunnen beïnvloeden.
Het gaat derhalve om de - aloude - vraag wat men als onderzoeker(s) zèlf zou kunnen
doen om de spreekwoordelijke kloof tussen research en praktijk te overbruggen, c.q. om
de 'prevailing view of education' te beïnvloeden. Men zie in dh verband bijvoorbeeld het
rapport van de Verkenningscorrmiissie (1976, par. 2.2.).

Vaak wordt de geringe impact van publicaties toegeschreven aan het welig tieren van vak-
technisch, psychometrisch en/of statistisch jargon. Men zie bijvoorbeeld Fife (1979). De
lezer snapt dan gewoonweg niet wat er staat en zal het geschrift, al dan niet geïrriteerd,
na lezmg van twee of drie bladzijden wegleggen. Aan de eerste en meest elementaire
voorwaarde om zijn bereidheid tot handelen op te wekken wordt dan uiteraard niet vol-
daan. Maar zelfs mdien de auteur de elementaire jargon-fout heeft weten te vermijden,
is het nog maar de vraag of hij zijn chënt bereikt. Frequent in tandartswachtkamers aan-
wezige bladen (een fraai voorbeeld is de Watersportkampioe-n) immers, zijn weliswaar in
begrijpelijke taal geredigeerd maar leveren, naar men mag vermoeden, hooguit incidentele
leereffecten op.

Sommige auteurs (met name Becher, 1974) menen dan ook dat de kloof tussen onder-
wijsresearch en -praktijk bepaald niet tot een taalprobleem of vertaalprobleem mag wor-
den gereduceerd. Het próhleem hgt volgens Becher veel dieper en hij schrijft in dit ver-
band:

'The difficulty is not that the teacher wilfully refuses to listen to the researcher, but that however
carefully he listens tlie researcher has little of interest to teU him ...'

Anders gezegd, de lezer herkent zich niet in het betoog. Het verhaal 'raakt' hem niet.
De argumentatietheoreticus Perelman (1958) wijst erop dat een spreker, die bij een
auditorium van niet-vakgenoten de bereidheid tot handelen wil opwekken, er buitenge-
woon verstandig aan doet, reeds in het begin van het betoog duidelijk te maken waarom
het voor de luisteraar van belang is dat hij de spreker überhaupt aanhoort. Slechts in die
gevallen waarin de spreker zich in gezelschap van vakgenotenjspecialisten bevindt, kan hij
zich veroorloven om op lakonieke wijze met de deur in huis te vallen. Vanuit dit gezichts-
punt zullen (mede) op niet-vakgenoten gerichte onderwijskundige pubhcaties aanzienlijk
aan effectiviteit kunnen winnen indien - in principe reeds op de eerste bladzijde! - voor
de lezer duidelijk wordt dat voortzetting van de leesarbeid iets oplevert. Hiertoe zal de
auteur tot op zekere hoogte in de huid van zijn (met doceer-, studeer- of beleidsproèZe-
men kampende) lezer moeten kruipen. Dc grondgedachte is dat de auteur-onderzoeker in
het begin van zijn betoog duidelijk behoort te maken welke beloning (in termen van voor
de lezer relevante informatie) hij de lezer in het vooruitzicht stelt indien laatstgenoemde
tijd investeert in (verdere) lezing van de betreffende publicatie.

Met vermijding van vakjargon en een 'motiverende' presentatie van de informatie zijn
twee essentiële — noodzakelijke, maar niet voldoende — voorwaarden vervuld op de lange
weg die moet leiden tot kwahteitsverhoging van het handelen van de cliënt. Vervulling
van de eerste voorwaarde betekent dat de cUënt de informatie kan begrijpen. Vervulling
van de tweede dat de kans dat hij de informatie ook zal verwerken, toeneemt.
De vraag is echter of zijn repertoire aan gedragsmogelijkheden daadwerkelijk zal worden
uhgebreid of veranderd. Zal hij de ontvangen informatie benutten om tot (enigerlei)
over te gaan? Het is immers heel goed denkbaar dat hij - door gebrek aan tijd, scholing,
verbeeldingskracht of wat dies meer zij - de informatie niet vertaalt naar, voor hem moge-
lijke, alternatieve gedragswijzen. Hoe kan de informatiegever hem daarbij een handje
helpen?

Het antwoord op deze vraag is in principe simpel, verstrek hem: expUciete richtlijnen
voor het handelen; 'aanbevelingen', 'vuistregels', 'constructieregels' of simpelweg 'tips'
genaamd.

De Zeeuw (1979) spreekt in dit verband van 'doe-beweringen'. De essentie van zijn be-
toog komt op het volgende neer. Er zijn in de wetenschappen drie typen beweringen. In
de eerste plaats 'Er zijn A'-beweringen. Een voorbeeld: 'in 1979 waren x personen als
student bij Nederlandse universiteiten en hogescholen ingeschreven'. Dit zijn de zoge-
naamde empirische beweringen. In de tweede plaats 'Als A, dan C'-beweringen (of:
'naarmate A, des te meer C). Dit soort beweringen noemen we theorieën of theoretische
beweringen. Een derde categorie van beweringen, wordt gevormd door de 'Als A, doe
X'-beweringen (bij dit soort problemen ga je als volgt te werk ...). De 'doe-beweringen'.
De Zeeuw onderscheidt verschillende varianten van dit type beweringen, maar het voert
te ver dit tot in details te reproduceren.

Deze doe-beweringen nemen een opmerkelijke positie in, aangezien ze - in tegenstelling
tot de eerste twee categorieën — impliciet naar kwaliteitsverhoging verwijzen. De Zeeuw

wijst erop dat het merkwaardig is dat de doe-beweringen in veler ogen niet de status van
kennis bezitten. Op grond van argumenten laat hij zien dat het buitensluiten van dit type
beweringen nogal gekunsteld en onnodig is en bovendien het probleem in de hand ge-
werkt heeft dat kwaliteitsverhoging van onderzoek niet zonder meer leidt tot de gewenste
algemene kwaliteitsverhoging. Vervolgens gaat genoemde auteur in op de vraag hoe men
de kwalitatief 'betere' doe-beweringen kan herkennen. Sprekende over de structuur van
kwalitatief goede doe-beweringen, wijst hij erop dat deze vaak in de vorm zijn gegoten
van 'Doe X beter, door Y te doen'. Vergelijk: 'reculer pour mieux sauter', of als variant
hierop: 'als ik jou was, dan zou ik beginnen met...'.

Ik wil proberen dit toe te hchten aan de hand van een eenvoudig voorbeeld, ontleend aan
de onderwijsresearch. Indien men de bevinding dat de invoering van I.S.S.-systemen in
het eerste studiejaar vaak hogere studentenprestaties oplevert dan de klassieke onderwijs-
vorm, zonder meer zou vertalen naar een 'simpele' doe-bewering als: 'wanneer U het
rendement in het eerste jaar wil verhogen, introduceer dan een l.S.S.-systeem', loopt men
het gevaar dat het effect van een dergelijke maatregel nihil is, of erger nog: het rendement
negatief zal beïnvloeden. Immers, we weten dat veel docenten de bij I.S.S.-systemen be-
horende rol van 'constructeur van studiehandleidingen en -toetsen' niet willen of kunnen
aanvaarden, althans met grote weerstand op I.S.S.-plannen reageren. Anderzijds weten
we dat, zelfs wanneer een I.S.S .-systeem met succes is ingevoerd, het effect van de hogere
studentenprestaties gemakkelijk door allerlei minder gewenste mechanismen kan worden
te niet gedaan.

Anders gezegd, in een bruikbare 'doe-bewering' moeten randvoorwaarden of ongewenste
neveneffecten op enigerlei wijze verdisconteerd zijn. Dit betekent dat een doe-bewering
van behoorlijke kwaliteit, maar hoogst zelden een simpel voorschrift a la een kook- of
doktersrecept zal behelzen, maar een flinke speelruimte voor het handelen van de chënt
zal overlaten, c.q. een beroep op zijn gezond verstand, z!/« vermogen tot hnproviseren,
zijn creativiteit zal bUjven doen.

Zo waren 'de tien vuistregels' die ik aan mijn verhandeling over optimalisering van feed-
back (Buis, 1978) heb verbonden, een poging om een richting voor het handelen aan te
geven.

In de reeds eerder aangehaalde pubhcatie van Becher (1974) probeert laatstgenoemde
aan te geven hoe onderzoekers hun resultaten kunnen presenteren 'in ways which will be
both informative and illuminating for practioners and policy makers, and not just techni-
cally impressive for theh fellow researchers' (blz. 45). De auteur noemt als één van de
mogeÜjke middelen hiertoe een 'holistische benadering', maaf werkt deze gedachte niet,
of nauwelijks, verder uit. Een dergehjke uitwerking vindt men wel bij Chadwick (1979),
in een betoog dat de pittige titel draagt: 'Why educational technology is failing.'
Vrij vertaald komt diens betoog erop neer dat we ons in het verleden wel systematisch
met allerlei specifieke variabelen of deelaspecten van de onderwijssituatie hebben bezig-
gehouden, maar ons te weinig om het onderwijssysteem als zodanig hebben bekommerd
(the 'systematic approach' is ten koste van de 'systems approach' gegaan).' Dit heeft,
aldus Chadwick, tot gevolg gehad dat 'many of the changes associated with educational
technology have simply been ad hoc additions to the existing situation.....'.

Indien men zich richt öf op het curriculum, öf op onderwijsmethoden, öf op individuali-
sering, etcetera worden de effecten van de tot stand gebrachte veranderingen maar al te
gemakkelijk verstikt ('smothered') door de invloed van de overblijvende variabelen. Hij
noemt in dit verband de geringe impact van vernieuwingen die aanvankelijk zo veelbelo-
vend leken: geprogrammeerde instructie, onderwijstelevisie, geïndividualiseerd onder-
wijs, enzovoort.

Men vergelijke mijn eigen conclusie in het rapport 'Studiemislukking en studievertraging'
(1979): 'Het effect van allerlei maatregelen, gericht op een positieve beïnvloeding van
student- en studierichtingfactoren ... kan zeer gemakkelijk te niet worden gedaan door de
invloed van systeemfactoren: tekortschietende feedback, academische vrij(blijvend)heid,
permanente selectie.' (blz. 39)

Resumerend kan het volgende worden opgemerkt. De portée van een 'holistische benade-
ring', is hierin gelegen, dat men de kwaliteit van het (potentiële) handelen van de prac-
ticus/cliënt hoopt te verbeteren, door hem informatie aan te reiken omtrent een geheel
complex van variabelen (een 'systeem').

Men kan de voorgaande beschouwingen vertalen in de vorm van een hiërarchie van, nood-
zakelijke maar niet voldoende, voorwaarden. Hoe hoger men in de hiërarchie belandt, des
te sterker is de potentiële effectiviteit van de aangereikte informatie. Zie figuur 1.

Men wordt nogal eens met een expliciete tweedeling geconfronteerd: kwaliteit versus
relevantie. Voor een analyse van het (glibberige) begrip 'relevantie' kan worden verwezen

naar Van der Kamp (1975). Het risico van het hanteren van deze tweedeling is naar mijn
mening gelegen in het volgende. 'Kwaliteit' wordt maar al te gemakkelijk geïdentificeerd
met zoiets als 'het naleven van de methodologische spelregels' zoals die in de klassieke
handboeken worden behandeld (validiteitsproblemen, experimentele controle, kiezen
van de juiste meetschaal, enz.). Het begrip 'relevantie' daarentegen blijft vaak gereser-
veerd voor een soort, moeilijk definieerbaar, surplus. Een soort extra'tje, waar de maat-
schappij, de practicus, of de leek 'ooA:' iets aan heeft.

Binnen het hierboven geschetste traditionele denkkader zou men gemakkelijk in de verlei-
ding kunnen komen om de vervulling van de voorwaarden ex figuur 1 in de onbestemde
categorie 'relevantie' onder te brengen. Ik zou ervoor willen pleiten om aan de vervulling
van genoemde voorwaarden dezelfde status toe te kennen als aan de vervulling van de klas-
sieke methodologische kwaUteitseisen. Het lijkt me eenvoudiger, helderder, om conse-
quent van kwaUteitsverhogmg en niet van relevantieverhoging te spreken. Bovendien gaat
dit welÜcht onderschatting van deze 'nieuwe' kwaUteitseisen tegen. Methodologisch ge-
sproken lijkt mij de vervulling ervan een even grote uitdaging (en een even zware opgave)
als het naleven van de klassieke methodologische spelregels. In feite vormt dit laatste een
noodzakehjke, maar niet voldoende, voorwaarde die nog vooraf gaat aan voorwaarde nr. 1
van figuur 1.

De lezer zou kunnen opmerken dat de voorgaande beschouwingen over kwahteitsverho-
ging wellicht in de relatie tussen enerzijds onderzoekers en anderzijds cliënten ('leken')
een rol kunnen spelen, maar geen consequenties hebben voor de communicatie tussen
onderzoekers onderling. Zo betoogt Perelman (1958), in het kader van zijn argumentatie-
theorie, dat het in de confrontatie met vakgenoten legitiem is om 'geheimtaal' te gebrui-
ken en om 'met de deur in huis te vallen'.

Het probleem is nu echter dat de demarcatielijn tussen enerzijds vakgenoten en anderzijds
chënten/leken in het piepjonge wetenschapsgebied dat we met 'onderwijskunde' plegen
aan te duiden aanzienlijk minder scherp te trekken valt dan bijvoorbeeld in de fysica of
in de technische wetenschappen. In feite bevindt de onderwijskundige 'scientific com-
munity' zich nog in een pril ontwikkehngsstadium en is deze gemeenschap nog zeer
heterogeen van samenstelling. Heterogeen, zowel naar discipline van herkomst, als naar
de taakvelden waarop vakgroepen, (para)universitaire instituten, R.W.0 .-centra, leraren-
opleidingen, enz. zich bewegen. Het noodzakelijke, wetenschappelijke cement — in de
vorm van algemeen aanvaarde paradigma's, basisconcepten, modellen enz. is nog voor een
belangrijk deel afwezig.

Vanuit dit gezichtspunt doet de onderzoeker/pubUcist er waarschijnlijk verstandig aan te
bedenken dat er onder de lezers van — ook — zijn vakgerichte geschriften, meer 'cliënten/
leken' zijn dan hij op het eerste gezicht zou vermoeden. Wat ik wil betogen is dit, de
suggesties voor kwaliteitsverhoging, zoals samengevat in figuur 1, zouden binnen een pril
en multidisciplinair wetenschapsgebied als de onderwijskunde, ook hun nut kunnen heb-
ben in de communicatie tussen onderzoekers onderling.

Becher, R.A. The role of the researcher as an agent of innovation in the clussTOom. Information Bul-
letin 2/1974, documentation centre for education in Europe, CouncU of Europe, 1974.

Buis, P. Het functioneren van terugkoppeling in het wetenschappelijk onderwijs, Proefschrift U. van
Amsterdam. Amsterdam/Lisse: Swets & Zeitlinger, 1978.

Buis, P. Studiemislukking en studievertraging, verslag van een literatuuronderzoek, verricht op verzoek
van de minister van Onderwijs en Wetenschappen, 's-Gravenhage: Staatsuitgeverij, oktober 1979.

Qiadwick, C.B. Wliy educational technology is failing (and what should be done to create success).
Educational Technology, 1979,19, nr. 1.

Fife, J.D. Improving tlie use of Higher Education Research. Research in Higher Education, 1979,10,
nr. 2.

Kamp, M. van der. Evaluatie onderwijsresearch, eindrapport Kohnstamm-instituut van de U. van Am-
sterdam, Den Haag: S.V.O., 1975.

Perehnan, Ch. en L. Olbrechts-Tyteca, Traité de I'argumentation, Paris: P.U.F., 1958.

Verkenningscommissie Onderwijsresearch, Onderwijsonderzoek in Nederland, Rapport, 's-Graven-
hage: Staatsuitgeverij, juli 1976.

Zeeuw, G. de. Onderzoek in verandering. In: Rede als richtsnoer. Den Haag: Mouton, 1979.

De problematische psychologie en andere psychologische opstellen
Meppel; Boom, 1979,228 p.

Naar onderwerp en stijl beoordeeld zijn Duijker's publikaties behalve voor vakgenoten vrijwel altijd be-
stemd voor alle anderen die beroepshalve of uit interesse met de wetenschappelijke psychologie te ma-
ken hebben. Dit geldt zeker voor de hier te bespreken bundel van eerder verschenen opstellen, waarin
fundamentele vraagstukken betreffende de psychologie op erudiete en breedvoerige - dus voor velen
begrijpelijke wijze aan de orde komen.

In één van deze essays, 'De ideologie der zelfontplooiing", richt de schrijver zich voornamelijk tot hen
die verantwoordelijk zijn voor het onderwijsbeleid of voor de uitvoering daarvan. Hij betoogt dat de
overheid terughoudendheid dient te betrachten bij de vaststelling van de educatieve doelstellingen; in
geen geval mag het modieuze ideaal van zelfverwerkelijking tot officiéél oogmerk verheven worden. Wij
komen immers in uitzichtloze moeilijkheden als we proberen nader te bepalen wat dit ideaal inhoudt,
om nog maar te zwijgen over de nodige beoordelingsmaatstaven. Er zijn psychologen die hier anders
over oordelen, hoewel zij tevens menen dat witte raven betrekkelijk alledaags zijn in vergelijking tot
personen die zichzelf 'verwerkelijkt' hebben. Heel scherpzinnig vervolgt Duijker de gedachten van
laatstgenoemde vakgenoten en stuit dan op merkwaardige en ongewenste consequenties. Maar bovenal
demonstreert hij dat omschrijvingen van zelfactualisatic niet gegrondvest zijn in kennis van de mens,
zoals de zgn. humanistische psychologen suggereren, maar in denkbeelden over hoe de mens zou beho-
ren te zijn.

De mens is - zo menen de volgelingen van Maslow - in wezen goed. Als de juistheid of onjuistheid van
deze stelling aantoonbaar was, zou het basisprobleem der ethiek van de baan zijn, wat natuurlijk niet
het geval is. Waar men voor de oplossing van dit probleem ook zoeken mag, het terrein van de weten-
schap is hiervoor ontoegankelijk. Over ethische problemen, over dc kwaliteit van het bestaan heeft de
psychologie niets te zeggen. De auteur schuwt obscurantisme en alleen al daarom maakt hij bezwaar te-
gen een als psychologie verhulde heilsleer, maar bovendien vreest hij mogelijke praktische gevolgen
waartoe de vermomming in kwestie kan leiden. Men kan hierbij denken aan verordeningen tot wat niet
anders dan totalitaire scholing moet heten. Voor allen - het zullen er niet weinig zijn -, die in de ko-
mende tijd van plan zijn de zelfontplooiing van anderen te bevorderen, behoort dit nu reeds klassieke
artikel tot de dringend aanbevolen lectuur en verder voor ieder die verontwaardigde boosheid, hoffelijk-
heid en helderheid graag te zamen tot uitdrukking ziet gebracht.

In 'Norm en descriptie in de psychologie' betoogt de schrijver omstandig, en in algemenere zin, dat de
vraag naar wat menselijk welzijn is geen wetenschappelijk antwoord kan krijgen, en dat de psychologie
niet ten dienste kan of mag staan van een of andere levensbeschouwing. In het bijzonder spreekt hij
over de zich kritisch noemende psychologen die in bepaalde opzichten ongewoon onkritisch zijn. Zij
die maatschappelijk relevant onderzoek eisen zouden eens kunnen beginnen met het verzinnen van
psychologisch onderzoek, dat wetenschappelijk waardevol, maar maatschappelijk irrelevant is. Het
gegarandeerd uitblijven van succes is slechts een illustratie van de uiterst ingewikkelde problemen die
aan deze eisen ontspringen.

Met kennis van zaken en een goed gevoel voor wat belangrijk is schetst Duijker enige wederwaardighe-
den van dc psychologie sinds de erkenning van haar zelfstandigheid als wetenschappelijke discipline.
Hij kent zijn vak een zeer belangrijke plaats toe in het systeem der wetenschappen. Dc opdracht van de
psychologie, ruim geformuleerd (sommigen beschuldigen hem van een opvatting die men als acade-
misch imperialisme zou kunnen betitelen - ten onrechte overigens), maar niet zo ruim dat alle levens-
raadsels inbegrepen zijn, üjkt hem buitengewoon moeilijk uitvoerbaar. Want menselijk gedrag is door
vele, heterogene factoren gedetermineerd, en dat gedrag wordt nota bene door mensen bestudeerd.
Een speciale categorie van determinanten bestaat uit theorieën die de psychologie zelf ontwerpt:
'Daarom komt de psychologie nimmer tot een afsluiting, tot een definitieve interpretatie; zij verandert
door haar werkzaamheden haar object'. Men kan zich afvragen of deze steUing voor aUe denkbare
psychologische theorieën opgaat. Moet de mogelijkheid van psychologische interpretaties, die geen in-
vloed kunnen doen gelden op menselijk gedrag, principieel afgewezen worden? Zo lang nadere toelich-
ting hieromtrent ontbreekt, wil ik dat betwijfelen.

Ook vind ik de verhandeling over de moeilijkheden om tot een objectiverende benadering van mense-
lijke gedragingen te komen al met al toch nog te summier, en hier cn daar zelfs verwarrend. Gesteld
Wordt dat psychologen zich niet kunnen voordoen als volstrekte vreemdelingen in de wereld, ook al
zouden zij dit ambiëren. Algehele vervreemding is onmogelijk, alleen al omdat de rechtvaardiging voor
wetenschapsbeoefening in het algemeen en voor spelregels voor onderzoek in het bijzonder nu juist
wortelt in de menselijke cultuur. Dit duldt m.i. geen tegenspraak. Men zou nog kunnen opperen dat de
Psycholoog zich, afgezien van de noodzakelijke belasting met een minimaal cultureel erfgoed, dient tc
gedragen als een argeloze toeschouwer, die alle voorwetenschappelijke mensenkennis van zich afge-
worpen heeft; gedragingen moet hij in eerste instantie als bewegingen opvatten. Tegen zo'n, in beginsel
duidelijk, programma bestaan, meen ik geen logische doch wel ontzaglijke praktische bezwaren ;Duijkcr
Zou het beslist afwijzen.

Belangrijker is wat hij niet zou afwijzen. Zonder een pleidooi te houden voor het kritiekloos aanvaarden
Van ingeburgerde opvattingen over de mens, gelooft hij dat psychologen zich niet kunnen ontdoen van
hun mensclijklieid. Moe zij echter een zekere reserve kunnen bewaren ten opzichte van slecht gefun-
deerde oordelen over mensen, blijft voor de lezer de vraag. In de beschouwing is de suggestie besloten
dat onderzoekingen naar de effecten van systematische gedragsbeïnvloeding, gedragstechnologie ge-
naamd, uitkomst kunnen bieden. Helaas gaat de auteur nauwelijks in op de implicaties van deze weten-
schapsstrategie, waar technieken, niet theorieën prevaleren. Wel lijkt hij tamelijk optimistisch te zijn
over de realiseerbaarheid van dc onderhavige werkwijze als we lezen: '... gedrag van mensen blijkt in
hoge mate programmeerbaar te zijn'. Dit gegeven en de mogelijke specificaties ervan zijn zeer belang-
wekkend, zou je zeggen, maar deze conclusie blijkt - enigszins verwonderlijk - voorbarig: 'De weten-
schappelijke betekenis van de gedragstechnologie valt nog niet te taxeren'. Hoewel het hoofdonderwerp
van dit betoog de wetenschappelijke behoefte aan de tweeëenhcid objectiviteit cn relevantie noch de
eventuele bevrediging ervan door gcdragstechnologie betreft ben ik toch wat teleurgesteld, te meer om-
dat men vermoeden kan dat de schrijver ons hierover heel wat meer tc vertellen heeft.
Voor wat de wetenschapsstrategie betreft is een interessanter antwoord tc vinden in 'de problemati-
sche psychologie', waar deze kwestie centraal staat. In deze verhandeling staan dc voorboden van een
mogelijk op handen zijnde revolutie in de psychologie getekend.

Op meeslepende wijze voert Duijker ons naar een verrassend gezichtspunt. Hij is bepaald niet enthou-
siast over het huidige kennisbestand in de psychologie. Hij signaleert een traditioneel geworden gebrek
aan eenstemmigheid en effectiviteit, tekortkomingen waarin men nooit mag berusten. Goede hoop
heeft hij dat de zgn. cognitieve heroriëntatie de verdeeldheid in de psychologie kan opheffen. Deze be-
nadering kenmerkt zich door betekenis en betekenisverlening in liet middelpunt van de belangstelling
te plaatsen: de aandacht is ten volle gericht op de mens als interpreterend wezen.
Daar gedragingen op verschillende wijzen interpreteerbaar zijn, herbergt deze zienswijze de mogeüjk-
heid om voorheen strijdende partijen te verzoenen. In een veld waar geen der ideënmachten definitief tc
verslaan lijkt, zou zo'n onverwachte vrede inderdaad revolutionair zijn. Voor het zover is, zal eerst
aangetoond moeten worden dat menselijke interpretaties aan fundamentele, universeel geldende be-
perkingen onderhevig zijn. De problemen die hier opdoemen onderschat de schrijver natuurlijk geens-
zins.

Onvermeld blijft een niet erg belangrijke vraag inzake de naamgeving. In 'de cognitieve heroriëntatie'
ligt de nadruk op 'cognitieve factoren', en op datgene waar men weet van heeft, waarvan men zich be-
wust is. Terecht merkt do essayist op dat het onderzoeken van interpretaties tevens het expliciet ma-
ken van het impliciet werkzame behelst. Iedere interpretatie geschiedt immers vanuit een achtergrond
Van 'onbesefte vanzelfsprekendheden'. Dit inzicht acht ik zo belangrijk dat ik de voorkeur geef aan
naamsverandering boven verruiming van de term 'cognitief.

Naamgeving is een arbitraire zaak. De relatie tussen naam en het benoemde berust op een willekeurige
afspraak, zodat voor misverstanden geen plaats lijkt te bestaan. Niettemin blijkt naamgeving in de
Psychologie vaak misleidend te zijn. Dit vormt het uitgangspunt in 'nomenclatuur en systematiek der
Psychologie', een ruim twintig jaar geleden voor het eerst verschenen artikel.

Over dit nog steeds invloedrijke stuk valt veel te zeggen, te veel voor het mij toegemeten bestek. Ik
beperk mij tot één opmerking. Duijker's fameuze dictum: 'Of er is één psychologie, of er is géén'
Wordt door anderen vaak als een noodzakelijk axioma aangehaald. De stelling echter stoelt niet op lo-
gische, maar op (voornamelijk) empirische gronden, en dit betekent dat haar juistheid principiëel voor-
lopig is.

De zorg om de psychologie komt duidelijk tot uiting in het oudste stuk, 'Een sofist in de academie'.
Waarin twee personen, vermoedelijk heren, ernstig converseren. Het gesprek gaat over het eertijds fu-
rore makende werk 'Metabletica' van J.H. van den Berg, thans minder populair. Kenmerkend voor het

sofisme, waarvan dit werk een staaltje heet, is de voorkeur voor subjectivisme, dogmatisme en een
sceptische houding ten opzichte van kennis, alles met grote overredingskunst te berde gebracht. Deze
zienswijze, die strijdig is met de beginselen van de gevestigde empirische psychologie, heeft heden ten
dage een groeiend aantal aanhangers. Dit acht dc auteur een hoogst bedenkelijke tendens, reden waar-
om de dialoog verschenen is. Het voornaamste verwijt van de verdediger van 'metabletica' is dat de tra-
ditionele psychologie zich niet occupeert met de veranderlijkheid van de mens, wat volgens zijn
tegenstanders een misvatting is, omdat veranderlijkheid nu juist de grondslag vormt van de psycholo-
gie, daaraan toevoegend: V;/ kunnen veranderlijkheid niet denken dan als het ware tegen een achter-
grond van onveranderlijkheid".

De schrijver zelf is van retorisch vernuft niet gespeend. Zo laat hij zijn woordvoerder, even, bijna over-
rompelen door van den Berg's bewonderaar. Ook de afloop van het gesprek moet voornamelijk gezien
worden als een kwestie van stijl. Dc sofistische voorstander trekt zich nogal nijdig terug, hoewel het in
de rede ligt dat hij zich gewonnen geeft onder druk van een overvloed van argumenten. Als Duijket
werkelijk zo pessimistisch was over zijn eigen vooronderstelling, de bereidheid en het vermogen van
mensen redeUjke discussies aan te gaan, zouden zijn geschriften heel anders van aard zijn. Nu kan men
zeggen dat hij zich alle moeite getroost lastige problemen zorgvuldig uit de doeken te doen. De om-
standigheid waarmee dit gebeurt brengt met zich mee dat de lezer nieuwsgierig moet blijven naar Duij-
ker's ideëen over vraagstukken die slechts aangeduid zijn. Ook roepen sommige passages vragen en
twijfels op, maar aan zijn bedoelingen in hoofdzaken laat de schrijver geen plaats voor misverstand.
Behoedzaam voert hij ons naar vaak verrassende conclusies, die ons op het eerste gezicht als onont-
koombaar treffen, welk oordeel wij naderhand zelden behoeven tc herzien. De schrijfstijl is gedegen,
maar nooit dor. Alleen al om de vele wijsheden die en passant gedebiteerd worden, zijn de essays het
lezen waard. De nu uitgegeven bundel geeft een weloverwogen visie op de zorgelijke, maarniet hope-
loze status van de psychologie en verdient de aandacht van het publiek, waarvoor hij bestemd is.

Verslag van een aantal studies betreffende de rol van meerkeuzetoetsen bij de selectie van
leerlingen, hun invloed op het gedrag van leerling en docent, hun effecten op het onder-
wijsbeleid en hun beïnvloeding van het curriculum.
S.V.O.-reeks nummer 15, Staatsuitgeverij, 's-Gravenhage 1979,289 blz.

Deze publicatie is een eindverslag van een onderzoek betreffende onderwijskundige aspecten van het
gebruik van objectieve studietoetsen dat in de jaren 1976 t/m 1978 werd uitgevoerd. Dit verslag bevat
zowel de resultaten van een oriënterende literatuurstudie als de uitkomsten van een groot aantal empi-
rische deelstudies. De verzamelde gegevens worden behandeld in het kader van vijf thema's, die elk in
een afzonderlijk hoofdstuk worden uitgewerkt. Eerst worden per thema de belangrijkste resultaten uit
de literatuurstudie weergegeven, waarna de empirische deelstudies die aansluiten bij dit thema, aan de
orde komen. Op deze wijze is een overzichtelijk geheel ontstaan.

De vijf thema's zijn: 1. De discriminerende rol van objectieve toetsen bij het selectieproces; 2. De in-
vloed van toetsen op het beleid; 3. De invloed van objectieve studietoetsen op het curriculum; 4. Hou-
ding en meningen van leerkrachten t.a.v. meerkeuzetoetsen; 5. Cognitieve en affectieve effecten van
toetsgebruik op leerlingen.

Natuurlijk mag men niet verwachten dat de hierboven genoemde problematiek in al zijn facetten aan
de orde komt. Wel krijgt men de indruk, dat met zorg een selectie is gemaakt uit een groot aantal mo-
gelijke vraagstellingen, die met opzet tot een bepaald vak en type van onderwijs werden beperkt en z"
werden geconcretiseerd, dat op de gestelde vragen, binnen de beperkte grenzen waarin zij werden on-
derzocht, een concreet antwoord kon worden gegeven. Dit onderzoek vormt dan ook'ongetwijfeld een
bijdrage tot de discussie over het gebruik van studietoetsen. Bij lezing behoort men zich echter voort-
durend te realiseren, dat de resultaten niet zonder meer gegeneraliseerd kunnen worden, vooral omdat

de samenvattingen daar aanleiding toe kunnen geven. Daar staat tegenover dat er in de afgelopen jaren
in Nederland heel wat over toetsgebruik is geschreven, dat minder onderbouwd werd door geverifieer-
de gegevens. Men krijgt de indruk dat op dit moment de discussie tussen vóór- en tegenstanders van
studietoetsen in een wat rustiger vaarwater is gekomen. Als men dan een aantal met zorg vergaarde
empirische gegevens ter overweging krijgt aangeboden, dan kan dit uiterst nuttig zijn om eigen erva-
ringen en meningen te toetsen en mogelijk vooroordelen te herzien.
We laten hier enkele uitspraken volgen, die voor sommigen verrassend zullen zijn:

1. Wij vonden geen enkele aanwijzing dat leerlingen uit lagere sociaal-economische milieus benadeeld
worden door objectieve toetsen.

2. Het bevoegd gezag bhjkt nauwelijks op de hoogte van de informatie over de stand van het onder-
wijs, die een 'nevenprodukt' is van de aan het eind van het basisonderwijs afgenomen schooltoetsen.

3. Het basisonderwijs-curriculum Ujdt niet onder verschralende of verstarrende effecten van de eind-
toetsing.

4. Onderwijzers uit het Basisonderwijs hebben een neutrale of licht-positieve attitude jegens de
C.I.T.O.-eindtoets Basisonderwijs.

In het Voortgezet Onderwijs staan docenten (moderne talen) neutraal tot gematigd positief tegen-
over de eindexamens Moderne Talen.

5. Leerlingen prefereren meerkeuzetoetsen boven andere toetsvormen. Volgens hun zeggen is de voor-
bereidmg op de toetsen niet minder intensief of serieus dan op open vragen proefwerken.

Het is niet goed mogelijk in een kort bestek de afzonderlijke deelonderzoeken de revue te laten passe-
ren. Iedereen die geïnteresseerd is in de praktische en theoretische aspecten van toetsgebruik moet de-
ze publicatie niet ongelezen laten.

De eerste, Nederlandse inleiding in de onderwijspsychologie is over het geheel genomen een publikatie
geworden, die het waard is daarvan kennis te nemen. Een gevarieerd aantal onderwerpen op het gebied
van de onderwijspsychologie wordt door de Klerk in een zestal hoofdstukken aan de orde gesteld.
In een inleiding wordt het onderwerp met enkele hoofdlijnen nader ingeperkt. Het zal vooral gaan over
'de bestudering van de relaties tussen leerresultaten, psychologische leerlingkenmerken en directe om-
gevingsfactoren'. De aandacht wordt gekoncentreerd op cognitieve aspecten, waardoor affectieve en
psychomotorische doelstellingen buiten het bestek van het boek vallen. Onderwijspsychologie wordt
door de auteur opgevat als een 'toepassingsgebied van de psychologie'.

De getrokken hoofdUjnen zijn alleszins te rechtvaardigen. Ze bieden daardoor een kader, waarbinnen
de overige hoofdstukken van dit boek geplaatst moeten worden.
Hoofdstuk 1. Onderwijspsychologie.

'Het opzettelijk arrangeren van situaties ter inductie van bepaalde leerprocessen'wordt gepresenteerd
als de gehuldigde opvatting over onderwijzen. Hierop is ook het geregeld terugkerende begrip 'onder-
wijsarrangementen' gebaseerd. Doelstellingen, begintoestand, te induceren processen en proces-controle
worden gezien als de belangrijkste componenten bij het ontwerpen van onderwijsarrangementen.
Het onderscheid tussen procesgerichte en produktgerichte doelstellingen, de spanning tussen theorie
en praktijk en een pleidooi voor onderzoek van onderwijsleerprocessen completeren dit hoofdstuk.
Ten aanzien van onderzoek van onderwijsleerprocessen wordt nader ingegaan op een tweetal varianten:
de experimentele versus de correlationele methode en het ATI-onderzoek.
Hoofdstuk 2. Leerlingkenmerken.

In dit hoofdstuk wordt de vraag aan de orde gesteld 'op welke wijze met deze (leerling)kenmerken
rekening gehouden moet worden bij het ontwerpen van onderwijsarrangementen'. Uitvoerig wordt in-
gegaan op het kenmerk intelligentie. Met name de discussie over de erfelijkheid van intelligentie wordt

uitvoerig behandeld. De conclusie van de auteur in dit opziclit wordt gekenmerkt door het kiezen van
een middenpositie.

Naast intelligentie en intelligentietests wordt aandacht besteed aan de relatie tussen intelligentie en
schoolprestaties, terwijl ook de interactie tussen intelligentie en instruktie wordt besproken.
Aanmerkelijk beknopter wordt tenslotte ingegaan op andere leerhngkenmerken, zoals prestatiemotiva-
tie, faalangst en cognitieve stijlkenmerken.

Hoofdmoot van dit hoofdstuk vormt de bespreking van een aantal leertheorieën. Uit de behavio-
ristische traditie komen de opvattingen van Thorndike en Skinncr aan de orde, waarbij in samenhang
met de opvattingen van Skinner meer gedetailleerd wordt ingegaan op geprogrammeerde instructie
cn computer-gestuurd onderwijs. Ook contrasterende interpretaties van dc Russische onderwijspsycho-
logie worden hier aan de orde gesteld.

I'iaget en Ausubcl zijn de gekozen vertegenwoordigers uit de cognitivistische traditie. In samenhang
met deze cognitivistische traditie wordt nader ingegaan op het geheugen. Het opslaan van informatie,
de struktuur van het cognitieve systeem.

Minder rechtstreeks in verband met het voorgaande wordt tenslotte aandacht besteed aan liet onder-
scheid tussen intentioneel en incidenteel leren.
Hoofdstuk 4. Begrippen, regels en problemen.

Vertrekpunt is de veronderstelling, dat er een hiërarchische relatie bestaat tussen het leren van be-
grippen, het leren van regels en het leren van probleem oplossen: eerst begrippen, dan regels, dan pro-
blemen. In verband hiermee wordt de taxonomie van leertaken volgens Gagné besproken.
Met betrekking tot het leren van begrippen komen de associationistische S-R-theorie, de mediathcoric
cn de hypothese-toetsingstheorieën aan de orde.

Na een beknopte behandeling van het leren van regels wordt uitvoeriger ingegaan op het oplossen van
problemen. Na een bespreking van enkele relevante theorieën worden de algoritmische benadering cn
de heuristische benadering met elkaar vergeleken met name ook in hun betekenis voor het onderwijs.
Hoofdstuk 5. Leertaakanalysc.

Begonnen wordt met de vraag, op welke wijze doelstellingen voor het onderwijs optimaal geformu-
leerd kunnen worden. Auteurs als Mager en Bloom komen hier derhalve ter sprake. Vervolgens wordt
aangegeven op welke wijze het arrangeren van leertaken volgens Gagné zou moeten gebeuren.
Het specificeren van doelstellingen op zowel fonneel als inhoudelijk niveau wordt bepleit en de funktie
die daarbij kan worden vervuld door inhoudsanalyse en instructieanalyse komt uitvoerig aan de orde.
Op welke wijze de leerstof gestrukturcerd zou moeten worden op basis van een cognitivistisch stand-
punt vormt de afsluitende paragraaf van dit hoofdstuk. In een appendix bij dit hoofdstuk over leer-
taken wordt nog aangegeven, op welke wijze een leerhiërarchie gevalideerd zou kunnen worden. Hier-
bij wordt vooral aandaclit besteed aan de scalogram-analyse volgens Guttman.
Hoofdstuk 6. Evaluatie.

Dit hoofdstuk wordt ingeleid met een verduidelijking van de begrippen produkt-evaluatie en pro-
ces-evaluatie. Er wordt een onderscheid gemaakt tussen onderwijspsychologisch onderzoek ener-
zijds en evaluatie anderzijds, waarbij evaluatie wordt gezien als een aktiviteit, die beoogt na te gaan,
of de vertaling van ondet.wijspsychologisch onderzoek in onderwijsarrangementen geslaagd is.
Uitvoerig wordt ingegaan op het nemen van beslissingen met betrekking tot onderwijsarrangementen.
Met betrekking tot produkt-evaluatie worden achtereenvolgens studietoetsen, criteriumtoetsen en het
cesuurprobleem aan de orde gesteld. Dc psychometrische aspecten van studietoetsen - waaronder in-
houdsvaliditeit, betrouwbaarheid en standaardmeetfout - krijgen uitvoerige aandacht.
Verschillende benaderingen op het gebied van de criteriumtoetsen en enkele aspecten van het cesuur-
probleem sluiten dit hoofdstuk af.

In een 'Tot Besluit' worden tenslotte enkele belangrijke invalshoeken van het boek als geheel nog
eens bij elkaar gezet.

Tot zover een beknopte beschrijving van hetgeen men inhoudelijk mag verwachten van De Klerk's 'In-
leiding in de onderwijspsychologie'.

Meer subjectieve indrukken, die het boek na lezing achter laat, kunnen in een aantal punten worden
samengevat:

1. De Klerk biedt in zijn boek een bijzonder groot aantal zaken, die met betrekking •tot de onder-
wijspsychologie de moeite van het weten waard zijn. Een veelheid aan theorieën en onderzoeksresul-
taten wordt ten behoeve van het denken over onderwijs gepresenteerd. Van belang hierbij is ook, dat
vooral ook Nederlandse auteurs en hun werk in verband worden gebracht met meer internationaal be-
kende stromingen en opvattingen. De inleiding in de onderwijspsychologie getuigt van een ruime be-

2. De centrale vraag, die na lezing van het boek open blijft, is de vraag, of het boek wel onder de
meest geëigende titel gepubliceerd is. Een titel als 'Aspecten van de onderwijspsychologie' zou wellicht
beter in overeenstemming zijn met de inhoud van 'Inleiding in de onderwijspsychologie'. Voor een in-
leiding met betrekking tot een vakgebied is het boek van De Klerk onvoldoende in evenwicht. Dit geldt
in ieder geval de volgende punten:

a. Bij de keuze van de onderwerpen, die behandeld zouden worden, werd slechts voor een deel
aansluiting gevonden bij de thematiek, die doorgaans binnen de onderwijspsychologie aan de
orde komt. 'Motivatie', 'Persoonlijkheidskenmerken', 'Onderwijsmethoden', 'Leermoeilijkhe-
den' zijn voorbeelden van themata, die in het boek niet of nauwelijks worden aangesneden, on-
danks het feit, dat vele handboeken op het gebied van de onderwijspsychologie daaraan aandacht
besteden.

b. Ook binnen de gekozen onderwerpen is de gekozen wijze van behandelen niet altijd evenwichtig.
Nagenoeg elk hoofdstuk bevat wel een onderwerp, dat uitvoeriger wordt behandeld dan men op
grond van de totale struktuur van het hoofdstuk zou verwachten. Het onderscheid tussen de ex-
perimentele en correlationele onderzoeksmethode, het IQ-debat, de geprogrammeerde instruktie
en het computer-gestuurd onderwijs, de validatie van leerhiërarchiën, de psychometrie van stu-
dietoetsen kunnen worden gezien als onderwerpen, die in het grote geheel enigszins worden
overbelicht.

c. De gedetailleerdhïid, waarmee onderdelen in konkreto worden uitgewerkt, heeft niet overal een
goede Valens weten te vinden. Zo worden de samenstelling van de fenotypische variantie (p. 46),
het geheugen (p. 106) en de scalogram-analyse relatief uitvoerig besproken, terwijl cognitieve
stijlkenmerken (p. 75), het leren van regels (p. 134) cn validiteit op een meer globale wijze wor-
den behandeld.

d. Verklaringen van of toelichtingen op de gebruikte terminologie gebeurt niet altijd vanuit een-
zelfde optiek. Wanneer de twee gebruikte ingangen van een spccificatiematrix voor doelstellin-
gen met een schema (p. 160) en enkele voorbeelden worden toegelicht, verwacht men niet, dat
termen als regressielijnen (p. 36), simplcx-structuur (p. 62) en isomorfisme' (p. 206) bekend
verondersteld worden.

3. Nu spreekt het vanzelf, dat een auteur alle vrijheid moet hebben om onderwerpen en de behan-
deling daarvan zelf tc bepalen. Dat dit in het onderhavige geval geleid heeft tot de presentatie van een
belangrijk aantal wetenswaardigheden werd al eerder gesteld. Op basis van de titel van het boek ver-
wacht men echter een meer evenwichtige keuze cn een meer evenwichtige beha-.;" .'.ing.

4. Een laatste opmerking gaat enigszins in tegenover gestelde richting. Op verschillende plaatsen in
het boek wordt benadrukt, dat het boek geschreven is vanuit f;,i bewast gekozen benadering. Gesteld
Wordt: 'In dit boek is duidelijk gekozen voor een cognitieve benaderingswijze' (p. 43). en: 'ïn dit bock
is uitgegaan vanuit onderwijspsychologie 'vanuit leerpsychologisch perspectief (p. 231). En: 'In dit
boek is gepleit voor een ecologische ATI-benadering' (p. 232). En: 'Een ander aspect van dc in dit
boek weergegeven zienswijze betreft de relatie tussen onderwijs en maatschappij' (p. 234). Dit alles le-
zende na lezing van het boek kan men zich moeilijk aan de indruk onttrekken, dat de vermelde stelling-
namen toch op een enigszins onderkoelde wijze gebracht moeten zijn. Het naast elkaar plaatsen van ver-
schillende zienswijzen lijkt een betere typering voor het boek dan het kiezen voor een bepaalde bena-
dering. Met betrekking tot zienswijze op de relatie tussen onderwijs en maatschappij, over een pleidooi
voor een ecologische ATI-benadering en over cci duidelijke keuze voor een cognitieve benaderingswijze
is na lezing geen overtuigend spoor achter gelaten. Het geheel is veeleer een zakelijke bespreking van
gegevens en veel minder een persoonlijke stellingname.

Samenvattend kan worden gesteld, dat de Klerk - zij het wellicht onder een minder adequate titel -
een bock heeft geschreven, dat het waard is gelezen te worden.

Het beeld, dat achter bleef kan als volgt worden samengevat. Dc Klerk heeft een rondleiding verzorgd
door de bloementuin van de onderwijspsychologie. Daarbij heeft hij onverwacht lang stil gestaan bij
zijn lievelingsbloemen zonder overigens andere bloemen tc negeren. De structuur en de architectuur
van dc tuin in zijn geheel is echter minder goed toegelicht, zodat bezichtiging van dc bloementuin 'op
eigen houtje' tenminste aanwijzingen van ook andere gidsen behoeft.

Quasi-experimentation: Design & analysis issues for field settings.
Chicago: Rand McNally, 1979.

D.T. Campbell heeft zich lange tijd bezig gehouden met de methodologische aspecten van opzet en uit-
voering van empirisch onderzoek in de gedragswetenschappen. Over vrijwel alle onderdelen van deze
problematiek heeft hij belangrijk werk verricht, zoals op het gebied van validatie (Campbell & Fiske,
1959), niet-reacticve metingen (Webb, Campbell, Schwartz & Sechrest, 1966), indirect meten van atti-
tudes (Kidder & Campbell, 1970) en quasi-experimentele proefopzetten (Campbell & Stanley, 1963).
In 1976 is er een artikel verschenen van Cook en Campbell, dat men kan beschouwen als een herziening
van het Campbell en Stanley artikel uit 1963. Onlangs is het boek van Cook en Campbell verschenen,
hetgeen een uitwerking is van hun artikel. Daarbij hebben de auteurs het bijzonder verstandige idee ge-
had enkele gedeelten over statistische onderwerpen te laten verzorgen door andere auteurs.
Het boek begint met een hoofdstuk over de verschillende opvattingen van het causaUteits-begrip. In
het tweede hoofdstuk volgt een bespreking van het validiteits-begrip. De oorspronkelijke onderschei-
ding van Campbell en Stanley in interne en externe validiteit is verruimd. In plaats van interne validi-
teit worden de begrippen statistische conclusie validiteit en interne validiteit gebruikt en in plaats van
externe validiteit de begrippen begripsvaliditeit en externe validiteit. Onder deze vier begrippen wor-
den de factoren behandeld, die de validiteit van een empirisch onderzoek kunnen bedreigen. Boven-
dien wordt ingegaan op de relaties tussen de begrippen. In het derde hoofdstuk komen verschillende
varianten van de proefopzet met niet-equivalente controle groepen aan de orde. In het vijfde hoofd-
stuk wordt de opzet van een aantal tijdreeks-experimenten besproken. Er wordt telkens ingegaan op de
bedreigingen van de validiteit en problemen, die op kunnen treden in deze proefopzetten. Het vierde
hoofdstuk is geschreven door Reichardt en behandelt de statistische analyse van gegevens uit de proef-
opzet met niet-equivalente controle groepen, waarbij variantie-analyse, covariantie-analyse, analyse van
geblokte of gematchte gegevens en de analyse van winst-scores besproken worden. Enerzijds wordt bij-
zonder duidelijk gemaakt de fundamentele onmogelijkheid van een waterdichte statistische analyse
doordat de verwachte waarden van de pretest-gemiddelden van niet-equivalente groepen niet gelijk zijn
aan elkaar. Anderzijds wordt voortdurend getracht aan te geven welke oplossing men in bepaalde situa-
ties het best kan kiezen. Het zesde hoofdstuk - geschreven door McCain en McCIeary - en een gedeelte
van het zevende hoofdstuk - geschreven door Mark - behandelen de statistische analyse en het schat-
ten van interventie-effecten in tijdreeksen. In het zevende hoofdstuk wordt kort ingegaan op het vast-
stellen van causale relaties in niet-experimenteel onderzoek. Aan de orde komen o.a. pad-analyse en
'cross-lagged panel correlations'. Dit gedeelte van het boek is het zwakst, met name omdat de recente
oplossingen voor deze problemen via covariantie-structuur analyse (Jöreskog, 1978) niet goed uit de
verf komen. Het laatste hoofdstuk gaat uitvoerig in op de rol van het aselect toekennen aan condities
in experimenteel onderzoek. Er worden ook een aantal mogelijkheden besproken voor aselect toeken-
nen in veld studies.

Samenvattend is mijn oordeel dat dit een buitengewoon goed en belangrijk boek is. Het boek is bijzon-
der helder geschreven, vat zo ongeveer alles samen wat bekend is over quasi-experimentele proefop-
zetten, geeft een schat aan inzichten en practische ervaringen; de gedeelten over de statistische analyses
zijn helder en goed geschreven, vatten de stand van zaken van het moment goed samen en zijn boven-
dien goed toegankelijk voor beoefenaren der sociale en gedragswetenschappen, die geen kennis van
mathematische statistiek bezitten. Dit boek behoort dan ook zonder meer tot de verplichte stof voor
iedere serieuze onderzoeker op het gebied van psychologie en onderwijskunde.

Campbell, T.D., & Fiske, D.W. Convergent and discriminant validation by the multitrait-multimcthod

matrix. Psychological Bulletin, 1959,56, 81-105.
Campbell, D.T., & Stanley, J.C. Experimental and quasi-experimental designs for research on teaching-

In N.L. Gage (Ed.), Handbook of research on teaching. Chicago: Rand McNally, 1963.
Cook, T.D. & Campbell, D.T. The design and conduct of quasi-experiments and true experiments in
field settings. In M. Dunette (V.A.), Handbook of industrial and organizational psychology. Skokie.
111.: Rand McNally, 1976.

Jöteskog, K.G. Structural analysis of covariance and correlation matrices. Psychometrika 1978 43
443-477. ' ' '

Kidder, L.H., & Campbell, D.T. The indirect testing of social attitudes. In G.F. Summers {Ud.), Atti-
tude measurement. Chicago: Rand McNally, 1970.
Webb, E.J., Campbell, D.T., Schwartz, R.D., & Sechrest, L. Unobtrusive measures. Skokie, 111.: Rand
McNally, 1966.

Voor het vreemde-talenonderwijs in Nederland zou er een geheel zelfstandige en samenhangende
structuur moeten worden opgezet. Dit in tegenstelling tot de nu veelal gebruikelijke opzet per school-
type die leidt tot een versnipperde aanpak van het talenonderwijs. Binnen een dergelijke structuur
Zou per schooltype en per taal voor verschillende gebruikssituaties, zoals spreken, luisteren, schrijven
en lezen, een minimum niveau moeten worden vastgesteld. Iedere individuele leerling dient daarbij de
mogelijkheid te hebben om naar eigen keuze die vaardigheden uit te bouwen die in zijn of haar inter-
esse- of behoeftesfeer liggen.

Dit is één van de aanbevelingen in de nota 'Beleidssuggesties voor het Vrecmde-Talenonderwijs in
Nederland'. De nota is samengesteld door de Interim-Begeleidingscommissie ITS-onderzoek (IBI), de
enige commissie in Nederland die zich met het totale onderwijs in de vreemde talen bezighoudt. In de
commissie hebben zitting leden van de gezamenlijke (voormaUge) Commissies Modernisering Leer-
plan Moderne Vreemde Talen, aangevuld met ITS-onderzoekers. De commissie heeft gewerkt met
financiële en materiële steun van de Stichting voor de Leerplanontwikkeling (SLO) te Enschede en de
Katholieke Universiteit te Nijmegen.

De beleidssuggesties van de IBI vloeien mede voort uit de uitkomsten van het onderzoek dat het Insti-
tuut voor Toegepaste Sociologie (ITS) te Nijmegen, gesubsidieerd door de S.V.O., enige jaren geleden
heeft uitgevoerd naar de behoeften aan moderne vreemde talen.

Beukhof, G. Eerste interimrapportage van de onderzoeksthemagroep 'Onderwijsleerprocessen' periode
1-9-1979 tot 1-9-1980. OTG Onderwijsleerprocessen, Vakgroep Onderwijskunde, R.U. Utrecht,
juh 1980.

Beukhof, G., Kommers, P. & Straten, I. van. Resultaten van de enquete voor onderwijsonderzoekers
op het gebied van 'Onderwijsleerprocessen'. Onderzoeksthemagroep 'Onderwijsleerprocessen',
Vakgroep Onderwijskunde, R.U. Utrecht, juli 1980.
De Beroepsopleiding van Gehandicapten. Beroepsopleiding. Informatiebulletin van het Europees

Centrum voor de Ontwikkeling van de Beroepsopleiding, 1980, nr. 2
Olgers, A.J. & Riesenkamp, J. De onderwijskundige voorbereiding van aanstaande leraren. Den Haag:

Staatsuitgeverij 1980 (= SVO-reeks nr. 30)
Parreren, CF. van & Carpay, J.A.M. Sovjet-psychologen over onderwijs en cognitieve ontwikkeling.
Groningen: Wolters-Noordhoff, 1980 (Tweede, grondig bewerkte druk van 'Sovjet-psychologen
aan het woord')

Rapport over de voortgang en de resultaten van de ontwikkelingsexperimenten in opleidingsscholen
voor kleuterleidsters en pedagogische academies. Schooljaar 1978-1979. 's-Hertogenbosch: Coördi-
natiecommissie Opleidingen Basisonderwijs, 1980 (Secretariaat: Postbus 482, 5201 AZ 's-Herto-
genbosch)

Schuurman, M.I.M., Dorreman, R. & Kuiper, Cath.M. Klachten van scholieren in Noord-Brabant.
Eindverslag van een onderzoek op negen scholengemeenschappen voor vwo en havo. Leiden: Ne-
derlands Instituut voor Praeventieve Gezondheidszorg-TNO, maart 1980.

Vall, M. van de. Sociaal beleidsonderzoek: een professioneel paradigma. Alphen aan den Rijn: Samsom,
1980

De 'Beginning Teacher Evaluation Study' (I). Een overzicht van de voornaamste resultaten van een on-
derzoek naar effektief onderwijsgedrag gevolgd door enige kritische kanttekeningen, door S.A.M.
Veenman

Onderwijsangst en onderwijszorgen: Een onderzoek bij studenten chemie tijdens hun opleiding tot
leraar, door O. de Jong

Het 'Teacher-Advisor' Begeleidingsmodel. Een 'nieuwe' ontwikkeling in de Amerikaanse leerhngenbe-

geleiding, door J.C. Bakker
Kroniek: De toekomstige lerarenopleiding in Indonesië, door N.A. van der Cingel
Kroniek: De kortsluiting van theorie en praktijk in het onderwijs, door D. van den Brink
Boekbesprekingen
Mededelingen

Relaties tussen sociaal emotioneel functioneren en schoolprestaties van leerlingen in kleuter- en basis-
onderwijs, door J.N. Zaal

Het gebruik van foute woordbeelden in spellingtoetsen. Rapport over een experimenteel onderzoek,
door L. Heyerick

De 'Beginning Teacher Evaluation Study' (II). Een overzicht van de voornaamste resultaten van een
onderzoek naar effektief onderwijsgedrag gevolgd door enige kritische kanttekeningen door S.A.M.
Veenman

Kroniek: Verslag van de 28. Tagung der Arbeitsgruppe für empirisch pädagogische Forschung, door W.

Classical item statistics and the expectation of the item information function
The item information function at the limit of mastery is often propagated as a utility index of
items. The purpose of this investigation is to construct a method that calculates a table with
whicli the expected item information is found, given p values and item-test correlations, and
given the situation of the teacher, which means the number of students and items, the means
and standard deviations of p values and of the item-test correlations, and the 'mastery' propor-
tion in the population. First, the parameters of the logistic model are estimated for the given
situation and item scores generated with Monte Carlo techniques. Then, the table is constructed
from these item scores and the calculated mean item information. Applications of the method
in realistic situations show that the calculation of p values and item-test correlations is useful
even with small groups (N = 25). It is suggested that the increase to test information when an
item is added to a test be used as an item utility index; in this case the method produces a curve
that shows the Umit of acceptable items. When groups become smaller and mean item discrimi-
nations larger, however, the curve disappears from the table, which means that no item can be
rejected.

Wei haast sinds de eerste constructie van psychologische tests en studietoetsen worden er
twee belangrijke itemindices gebruikt: de p-waarde als maat voor de gemakkelijkheid en
de itemtestcorrelatie als maat voor de itemdiscriminatie (tussen hoog- en laagscorende
ppn). Beide worden berekend uit de steekproef waarbij de toets wordt afgenomen. De
p-waarde wordt wel eens gecorrigeerd voor raden, en in plaats van de itemtestcorrelatie
worden varianten gebruikt om de berekeningen te vergemakkelijken, zoals het verschil
tussen de p-waarden bij een groep met hoge totaalscores en een met lage, of om te
corrigeren voor bepaalde effecten zoals attenuatie of valsheid, maar in principe blijven het
toch p-waarden en itemtestcorrelaties. Deze, uit de steekproef berekende grootheden,
worden vrij algemeen als waarde-indices gebruikt voor de itemselectie. Nu is de waarde
van een item echter afhankelijk van het niveau waarop men wil meten, en dit is vooral het
niveau tussen slagen of zakken, of als men een onderliggende variabele of trek veronder-
stelt, op de grens van voldoende (mastery) of onvoldoende. De zogenaamde itemkarakte-
ristiek is de kans om het item goed te beantwoorden als functie van de onderliggende trek
(thèta). Het hgt misschien voor de hand om als waarde-index van het item te gebruiken de
helling van de itemkarakteristiek als functie van thèta, en als die van de totale test gegeven
thèta de helUng van de testkarakteristieke kromme (de som van de itemkarakteristieken).
Lord (1952) was vermoedelijk de eerste die inzag dat deze helling (dit differentiaalquo-
tiënt) echter nog gedeeld moet worden door de standaardafwijking van de scores gegeven
thèta. Zijn aldus gevonden coëfficiënt D werd later gekwadrateerd en kreeg bekendheid

als informatie I (zie Birnbaum in Lord en Novick, 1968). Naast de testinformatie
(gegeven thèta) kan men een iteminformatie definiëren als het kwadraat van de helling
van de itemkarakteristiek gedeeld door de itemvariantie gegeven thèta. De som van de
iteminformaties is dan bij benadering (niet precies!) gelijk aan de testinformatie (voor een
gegeven thèta). Men vergelijke Lord en Novick formule 20.2.5 met 20.2.7. Om precies te
zijn: de som van de iteminformaties is een bovengrens voor de informatie van de test - als
som van de itemscores - een bovengrens die alleen bereikt wordt in het Raschmodel met
gelijke itemdiscriminaties. Op het belang van de informatie als lokale, dat wil hier zeggen
van thèta afliankelijke, waarde-index van items hebben in ons land o.a. de Gruijter (1978)
en van der Linden (1980) gewezen. Voor een toepassing van Lord's D: zie van Naerssen
(1979 a).

Gezien deze verschuiving van de belangstelling naar de informatie kan men zich afvragen
wat het verband is tussen de in de praktijk gebruikte p-waarde en item-testcorrelatie
enerzijds en de theoretisch verkieslijke informatie anderzijds. Om deze schakel aan te
brengen heb ik indertijd (1978a) naar analogie van de figuren van Urry (1974), die de
normaalogiefparameters a; (itemdiscriminatie) en bj (moeilijkheid) laten schatten uit
p-waarde en itemtestcorrelatie, figuren getekend waarmee uit dezelfde indices de item
informatie geschat kan worden, en wel voor een vijftal thètawaarden, overeenkomende
met een proportie voldoende (mastery) van .1, .3, .5, .7 en .9. Deze berekeningen waren
gebaseerd op 'het model van Urry', d.w.z. de verdeling van thèta wordt normaal veronder-
steld en de correlaties met thèta worden benaderd door die met de totale score. Bij dit
model wordt geen rekening gehouden met de grootte van de steekproef personen, d.w.z.
het klopt alleen bij grote steekproeven.

In hoeverre is het model van Urry bruikbaar bij kleinere steekproeven? Om dit na te gaan
werd eerst het nu volgende simulatie-onderzoek verricht (voor details: van Naerssen,
1979b). Gegeven het 3-parameter-logistische model en de aj en bj (met Cj = .25, dus
4-keuzetoetsen) van een toets werden de itemscores van een groep (gesimuleerde) perso-
nen gegenereerd. Uit deze scores werden p-waarden en itemtestcorrelaties, gecorrigeerd
voor valsheid en attenuatie, berekend, en hieruit weer, met de methode van Urry de
geschatte aj en bj. (De correctie werd o.a. eerder gebruikt in van Naerssen (1979b); Urry
raadde slechts aan een lange test te gebruiken). Nagegaan werd in hoeverre deze geschatte
aj en bj correleerden met de oorspronkelijke. Het bleek dat bij een groepgrootte N = 1000
een zeer grote overeenstemming bestond tussen de oorspronkelijke en herberekende moei-
hjkheidsindex terwijl de overeenstemming bij de discriminatie-index ook nog groot was,
hoewel minder indrukwekkend. Bij N = 100 echter was wat de discriminatie betreft van
enige overeenstemming nauwelijks wat te bespeuren. Dit resultaat zou kunnen suggereren
dat de figuren in van Naerssen 1978a alleen van nut zouden zijn bij zeer grote steekproe-
ven (N = 1000) maar niet bij de gebruikelijke grootte waar de docent mee te maken heeft
(25-400). Het onderzoek zou ook kunnen suggereren dat het gewoon zinloos is bij deze
betrekkelijk kleine groepen p-waarden en itemtestcorrelafies uit te rekenen en voor de
itemselectie te gebruiken; immers, zou men kunnen denken, op grond van deze indices
zijn blijkbaar bij deze kleine steekproeven toch geen bruikbare schattingen te maken van
de informatie (waar het om gaat).

Aan de resultaten van het bovengenoemde onderzoek kan nauwelijks getwijfeld worden;
vergelijkbare uitkomsten werden door drie andere personen' elk met een zelfgeconstru-

' Hierbij spreek ik mijn dank uit voor de medewerking van de heren H. Verhey, L. Beem en A. de
Haan.

eerd programma gevonden. Maar lage correlaties tussen oorspronkelijke en herberekende
itemparameters hoeft er nog niet op te wijzen dat uit p-waarde en itemtestcorrelatie geen
bruikbare schattingen gemaakt kunnen worden van de iteminformatie. In het nu volgende
onderzoek werd dit laatste onder de loupe genomen.

Men kan de aj en b; uit itemscores schatten met een bestaand programma voor het
Birnbaum-model en hieruit de informatiemaat berekenen. Dergelijke programma's zijn
bestemd om de itemparameters te schatten van bepaalde items. Dat is hier niet nodig,
maar belangrijk is dat ze vaak na vele dure iteraties toch nog geen oplossing geven. Het
probleem hier echter is in principe veel eenvoudiger: we zijn niet geïnteresseerd in indivi-
duele items, maar we gaan wel uit van een bepaalde situatie, waarin de docent zich
bevindt; een toets van n items met itemtestcorrelaties van gemiddeld zoveel en een sprei-
ding van zoveel, p-waarden van gemiddeld zoveel en een spreiding van zoveel, afgenomen
bij N personen, waaivan zoveel procent ongeveer voldoende (mastery) heeft. Kan voor
zulk een situatie voor een aantal combinaties van p-waarde en itemtestcorrelaties geschat
worden wat de iteminformatie is? Dat kan als volgt.

Eerst schat men gemiddelde en spreiding van de itemparameters. Men moet hierbij een
aannemelijke verdeling van aj en bj kiezen en een correlatie tussen beide. Bij een eerder
vermeld programma (van Naerssen, 1978b) wordt bijv. een rechthoekige verdeling van
en bj aangenomen en een nulcorrelatie, bij het hieronder gebruikte programma een op het
oog normale verdeling van p-waarden en itemtrek-rbis (vermoedelijk wat realistischer,
maar het doet er weinig toe; de verdeling is natuurlijk niet precies normaal omdat de
p-waarden en de correlaties tussen O en 1 liggen). In het programma van 1978b worden de
parameters net zo lang gewijzigd tot de gewenste gemiddelden en standaardafwijkingen
van de steekproefwaarden van p en itemtestcorrelatie uit de bus komen. Zo'n nauwkeurig-
heid wordt hier niet nagestreefd, maar desgewenst kan men natuurlijk beginnen met het
programma van 1978. Voorts kiest men een verdeling van thèta, bijvoorbeeld normaal.
Dan trekt men een toevallige steekproef van n items en N personen (thèta's). Hiermee en
met het logistisch model genereert men de itemscorematrix. Daaruit vindt men op de
klassieke manier van de n items de p-waarden en itemtestcorrelaties. De items worden nu
geklassificeerd in een geschikt aantal combinaties (partities) van p-waarden en itemtest-
correlaties en per combinatie wordt over de items in de combinatie gemiddelde informatie
berekend. (Bij te weinig klassen ziet men het verband niet meer met p-waarde en itemtest-
correlatie, bij te veel klassen vallen er te weinig items per klasse, zodat de gemiddelde
informatie onbetrouwbaar en grillig wordt.) Uiteraard wordt het experiment vele malen
gerepliceerd.

Uitgaande van een bepaalde situatie waarmee de docent geconfronteerd wordt kan men
dus voor een eindig aantal combinaties (klassen) van p-waarden en itemtestcorrelaties
door simulatie berekenen welke informatie men kan verwachten. Aannemende dat dit de
juiste waarde-index is van het item in de situatie kan men zo elk item op de juiste wijze
Waarderen. Dat was ook de bedoeling bij de figuren van het eerder genoemde artikel (van
Naerssen, 1978a), maar nu wordt op bovengenoemde wijze rekening gehouden met de
steekproefgrootte N. In hoeverre zijn de uitkomsten verschillend?

Het programma (Dl 72) verdeelt het bereik van de p-waarden en de (voor valsheid en
attenuatie gecorrigeerde) itemtestcorrelatie in 20 even brede categorieën, plus nog een

categorie 'negatieve correlaties'. Ter illustratie wordt de tabel met gemiddelde (verwachte)
informatie afgedrukt van de volgende situatie: in de populatie 70% voldoende (mastery),
vierkeuzetoets van 40 items, voor raden gecorrigeerde p-waarden van gemiddeld .55 en st.
afw. .126, rbis gemiddeld .60, st. afw. .108; aantal replicaties 250 (dus totaal 10000
items), N = 100.

Deze tabel (figuur 1) kan nu vergeleken worden met de overeenkomstige figuur uit het
oude artikel (1978a). Bij de tabel moet natuurlijk rekening worden gehouden met het
beperkte aantal repHcaties, waardoor de gemiddelden in de vakjes ietwat grillig aandoen.
(De aantallen per cel zijn bekend doch het is wellicht niet nodig alle te vermelden.
Voorbeelden: het grootste aantal (303) bevat de cel met p's van .65 tot .70 en rbis van
.35 tot .40, terwijl de cellen met rbis boven .65 hoogstens één waarde bevatten. Uiteraard
zijn de waarden in het midden van de tabel het betrouwbaarst). Maar in grote lijnen
herkent men toch de figuur. Men kan trachten krommen van constante informatie te
schetsen in de tabel, om een figuur te krijgen als in de hier ook weer afgedrukte oude
tekening (figuur 2).

Men herkent dan de omhullende kromme en ruwweg ook wel de informatiekrommen, zij
het — noodzakelijk bij elke simulatie — veel vager. Men merkt niets van de scherpe
ombuigingen links en rechts, en in het midden lopen de lijnen minder recht. Voorts valt
op dat het nauwelijks mogelijk is een kromme van I = .3 te tekenen, laat staan van I = .6,
terwijl aan de onderzijde geen I = .01 getekend kan worden. M.a.w. de eindige steekproef
N = 100 levert minder extreme informatiewaarden dan die welke met de Urry-methode
(N oneindig) gevonden werden, zoals men natuurlijk ook intuïtief zou verwachten. Im-
mers hoe kleiner de steekproef, hoe meer slechts gemiddelde waarden gevonden worden
(regressie naar het gemiddelde).

Bij nog kleinere N, 50, 25, versterkt zich deze tendens: (hier niet afgebeeld) de I-waarden
komen nog dichter bij het gemiddelde te liggen hoe kleiner N; de gemiddelden lijken
grilliger bij eenzelfde aantal replicaties. Daarom wordt niet de tweedimensionale tabel
gegeven maar volstaan met de 'samengeklapte' figuur van de randfrekwenties. Figuur 3

geeft de verwachte informatie als functie
van de correlatie en fig. 4 als functie van
de p-waarde voor N = 100 resp. N = 25.

figuur 3: Verwachte informatie als functie Figuur 4: Verwachte informatie als functie
^an itemtestcorrelatie bij N = 25 en N = 100 van de p-waarde bij N =25 en N = 100

Men ziet dat de iteniindices bij N = 25 hoewel heel wat minder waard dan die bij N = 100,
toch nog wel enige informatie geven. Het is kennelijk niet nutteloos om de indices bij zo'n
klein aantal personen uit te rekenen.

0'oo>oov>0'oo'oO»ooioo»o
t-vosDioio-^-^fOrotsn—i^O O
öööööööööööööö d

Iteminformatiewaarden zijn altijd positief, maar de aanwezigheid van items met lage
hoewel positieve informatie kan de testinformatie toch verlagen. Men weet bij deze maat
niet precies welke items men moet verwerpen - en daar gaat het bij itemindices ten slotte
om. Dat weet men wel bij de volgende variant van de iteminformatiemaat; de toename
van de testinformatie (gegeven thèta) door opneming van het betreffende item in de toets.
Deze maat correleert wel zeer hoog maar niet volkomen met de 'gewone' iteminformatie
(gegeven thèta). Belangrijker is echter dat men bij deze nieuwe informatiemaat aan het
teken direct ziet of het item verworpen moet worden: een negatief teken betekent im-
mers dat weglating van het item de testinformatie verhoogt. (Om deze reden geef ik de
Voorkeur aan het maximaliseren van de testinformatie - Lord en Novick's formule 20.2.2
- boven die van de informatiefunctie van de test - Lord en Novick's formule 20.2.7.) Ter
illustratie wordt de nieuwe maat (l') ook getekend in de figuren 3 en 4. Bij de tot nog toe
behandelde situaties komen overigens practisch geen negatieve informatiewaarden voor.
Dit komt omdat de a; (en dus de itemtest-correlaties) in de itempopulatie gemiddeld hoog
zijn en alle positief Daarom wordt tot slot (fig. 5) een iets gewijzigde situatie voorgesteld,
Waarbij men duidelijk ziet bij welke combinaties van p-waarde en itemtestcorrelatie men
het item moet verwerpen: itemtrekbiseriële r's zowel als gecorrigeerde p-waarden van
gemiddeld .50 en een st. afw. van 1.77 in de itempopulatie.

Hoewel ook hierbij alle itemcorrelaties in de itempopulatie positief zijn moet men toch
items verwerpen, en wel die met de combinatie van lage p-waarde en lage itemtestcorre-
latie. Naarmate N echter kleiner wordt verschuift de nulgrens zich naar linksbeneden. Hoe
kleiner de steekproef personen, hoe muider items men kan verwerpen. Dit is dezelfde
conclusie als in een ouder artikel (van Naerssen, 1967, p. 356). Bij zeer kleine groepen en
gemiddeld hoge itemtestcorrelaties is het ten slotte altijd voordeliger items te handhaven,
zodat men in dat geval eigenUjk niets heeft aan de itemanalyse. De geschetste methode laat
zien in welke gevallen men wel en wanneer men niet wat heeft aan de itemanalyse. De
situatie is enigszins analoog aan een welke men aantreft bij de selectie van personen, die
inmiddels door velen is beschreven (bijv. van Naerssen, 1965, de Gruyter, 1977). Alleen
gaat het daar niet om de invloed van het aantal personen maar om die van de testlengte,
tesp. betrouwbaarheid of validiteit.

Wat betreft de maat 1' rrioet worden opgemerkt dat deze, in tegenstelling tot I, afhanke-
lijk is van de test. Maar het gaat bij dit onderzoek ook om een bepaalde testsituatie.
Waarvoor men een optimale itemsselectie zoekt.

Ten slotte moet nog worden opgemerkt dat Nunnaly (1978) geen wijzigingen heeft aange-
bracht wat betreft zijn itemselectiestandpunt. Nog steeds wordt aangeraden alleen signifi-
cant met de totaalscore correlerende items te aanvaarden en ook wijst hij itemselectie
naar p-waarde af Het onderhavige simulatieonderzoek suggereert echter dat letten op
P-waarden naast correlatiecoëfficiënten wel dergelijk van nut kan zijn, in het bijzonder bij
een klem aantal personen (en uiteraard afhankelijk van de selectieverhouding of van de
mastery score). Dat was ook wel te verwachten omdat p-waarden zoveel betrouwbaarder
zijn dan itemtest-correlaties, een punt waar eerder op gewezen werd (van Naersen, 1967,
par. 7), om welke reden het selecteren op p-waarde speciaal werd aanbevolen bij kleine
steekproeven.

Wanneer men - zoals velen tegenwoordig - aanneemt dat de iteminformatie op de grens
tussen voldoende en onvoldoende de juiste itemwaarde-index is, terwijl men anderzijds
over de uit de steekproef berekende p-waarde en itemtestcorrelatie beschikt, dan doet het
probleem zich voor hoe uit de laatste de eerste te schatten. Dat kan bij grote groepen
personen deterministisch met het zogenaamde model van Urry, maar deze methode laat
ons bij kleine steekproeven in de steek. Een weinig computertijd vergende methode is dan
op de volgende wijze een tabel of figuur construeren die voor de bepaalde situatie (gege-
ven groepsgrootte en proportie voldoendes, aantal toetsitems, gemiddelde en standaardaf-
wijking van p-waarde en itemtestcorrelatie) voor een aantal relevante combinaties van
p-waarde en itemtestcorrelatie aangeeft wat de verwachte iteminformatie is. Genereer
voor die situatie met het 3-parametcr logistische model bij een voldoende aantal replica-
ties itemparameters en itemscores, bereken uit de eerste de iteminformaties en uit de
laatste p-waarden en itemtestcorrelaties, klassificeer deze in combinaties en bereken door
gewoon middelen voor elke combinatie de verwachte iteminformatie.
Wanneer men deze methode toepast bij een aantal in de praktijk vaak voorkomende
gevallen - parameters die reahstische testbetrouwbaarheden en gemiddelden en spreidin-
gen van p-waarden en itemtestcorrelaties opleveren - dan blijkt dat bij steekproeven van
100 personen figuren uit de bus komen die nog goed vergelijkbaar zijn met die welke
eerder werden gepubliceerd. Bij kleinere groepen kan men beter afgaan op de randfre-
kwenties (van p-waarden en itemtestcorrelaties). Maar dan blijkt dat ook nog bij N = 25
het zeker niet zinloos is om deze itemsteekproefgrootheden te berekenen.
Wel verdient het de voorkeur om de iteminformatie iets anders te definiëren, namelijk als
toename van de testinformatie (gegeven de trekwaarde) door de toevoeging van het item
bij de test. Dan ziet men namelijk direct aan het teken van de verwachte iteminformatie
of items uit de betreffende combinatie van p-waarde en itemtestcorrelatie verworpen
moeten worden of niet, d.w.z. of ze op den duur tot verhoging van de utiliteit (hier
informatie ter plaatse van de masterygrens) zullen leiden of niet. Hoe kleiner de steek-
proef personen echter, en hoe hoger de gemiddelde informatie van de geconstrueerde
items, hoe meer zich de kromme van 'nulinformatie' verplaatst, tot de kromme ten slotte
geheel uit het beeld verdwijnt, d.w.z. dat op grond van de steekproefgegevens geen items
meer verworpen kunnen worden. Als men gemiddeld items construeert met negatieve
utiliteit dan verdwijnt de nulkromme bij kleinere steekproeven in tegenovergestelde rich-
ting, maar dit geval zal zich in de praktijk wel niet voordoen.

De getoonde figuren zijn alleen als illustratie bedoeld. Waar het op aan komt is dat er een
methode — een computerprogramma — bestaat dat voor elke reële situatie aangeeft bij
welke combinatie van p-waarde en itemtestcorrelatie men items dient te handhaven en bij
welke men ze dient te verwerpen, aangenomen dat men bij een gegeven trekwaarde - de
grens tussen voldoende en onvoldoende - de testinformatie wenst te maximaliseren.

Gruijter, D.N.M. de. Psychometrische aspecten van tentamens (diss.). Leiden, 1977.
Gruijter, D.N.M. de. Optimale vragen bij selektie van personen op basis van een vast kriterium. Tijd-
schrift voor Onderwijsresearch, 1978,3, 35-36.

Linden, W., van der. A latent trait look to pretest-posttest validation of criterion-referenced test items.
In preparation, 1980.

Lord, F.M. and M.R. Novick. Statistical theories of mental test scores. Reading: Addison-Wesley, 1968.

Naerssen, R.F. van. Enkele eenvoudige besliskundige toepassingen bij tests en selectie. Nederlands
Tijdschrift voor de Psychologie, 1965, 20, 364-380.

Naerssen R.F. van. Itemselectie bij studietoetsen. Nederlands Tijdschrift voor de Psychologie, 1967
22,345-359.

Naerssen, R.F. van. Grafieken voor de schatting van Birnbaum's iteminformatiemaat. Tijdschrift voor
Onderwijsresearch, 1978a, 3, 37-39.

Naerssen, R.F. van. Een snel programma voor de simulatie van een gegeven test. Tijdschrift voor
Onderwijsresearch 1978b, 3, 281-283.

Naerssen, R.F. van. Optimal number of choices in parallel item tests. Tijdschrift voor Onderwijsre-
search 1979a, 4, 145-150.

Naerssen, R.F. van. Een controle op de parameterberekening van Urry. Memo D168, Subfaculteit
Psychologie, Univ. v. Amsterdam, 1979b.

Het Effect van Lokale Deelname aan
Verschillende Typen Secundair
Onderwijs op Individuele Schoolloopbanen'

The effect of district participation in different types ofsecundary education on the educational
careers of individuals

The independent effect of district participation in secundary education on individual careers is
studied in this article. District educational participation is operationalizcd as percentages of
participation in different types of secundary education by clusters of municipahties in the
eleven Dutch provinces. The effects of these district educational participation variables were
computed with multiple regression analysis, allowing for the effects of SES and sex, on the
base of a simplified Wisconsin-model.

The expected independent effects could be shown to exist but further research will be needed.
The results shown in this article, can contribute to the revived discussion on multi-level-research.
It gives also way to a more empirical discussion on the relations between structural features and
individual behaviour.

Attention is paid to the regional educational inequality, concealed by educational policy but
allied with the educational grants and settlement-policy of the Dutch government.

Zoals bekend bestaan er tussen provincies en tussen gemeenten soms nogal grote verschil-
len in participatie aan de verschillende typen secundair onderwijs (zie bv. Regionale door-
lichting van Nederland, 1973). Binnen de onderwijsresearch en de onderwijssociologie is
dit wel bekend, maar. wordt aan de oorzaken of gevolgen van deze verschillen weinig aan-
dacht besteed. Meestal laat men de bestudering van deze regionale verschillen over aan de-
mografen of sociaal-geografen (bv. Voster, 1967; Vergoossen en Wever, 1978). Een uit-
zondering hierop zijn de activiteiten van Santema (1974, 1977).

Een voorbeeld van deze verwaarlozing van de gevolgen van regionale verschillen is de be-
kende studie van Van Heek c.s. (1968). Enerzijds wordt daarin in een apart hoofdstuk
ingegaan op de regionale verschillen in deelname aan het v.h.m.o. in Nederland (pp.
104-125). De auteurs concluderen uit een analyse op provinciaal en regionaal niveau dat

1. Het Steinmetz-Archief te Amsterdam stelde de data uit het 'Van Jaar tot Jaar'-onderzoek beschik-
baar.

Het dagelijks bestuur van SISWO (Stichting Interuniversitair Instituut voor Sociaal-Wetenschappelijk
Onderzoek) te Amsterdam danken wij voor hun financiële steun aan deze vingeroefening.
Een eerdere versie van dit artikel werd gepresenteerd als vrij paper op de Onderwijsresearchdagen 1980
te Leiden. De themagroep Multi-Level research en J. Dessens, P. van den Ecden, A Goethals, W. Jan-
sen, M. Santema en J. Tinbergen danken wij voor hun kritische opmerkingen.

'de regionale verschillen in de totale deelneming aan het v.h.m.o. op bevredigende wijze
grotendeels verklaard worden uit regionale verschillen in de samenstelling van de bevol-
king naar beroepsgroepen'. Vervolgens besluit men op grond van dit resultaat 'dat de on-
derzoekingen van het Talentenproject in het bijzonder geconcentreerd (zijn) op de vraag
welke factoren in de beroepsgroepen van het lager milieu de doorstroming van het v.h.m.o.
beïnvloeden' (pp. 125). In het vervolg van 'Het verborgen talent' houden Van Heek c.s.
zich in hoofdzaak bezig met de effecten van het beroepsniveau van de individuele vader
op de schoolloopbaan van zijn kinderen. In feite maken Van Heek c.s. hier een zgn. eco-
logische of aggregatie fout, nl. een verband dat op groepsniveau bestaat, wordt ook op
individueel niveau verondersteld en daarmee gelijk gesteld.

De regionale verschillen worden op basis van gevonden regionale verbanden opgevat als
verschillen in beroepsniveaus van de individuele vaders.^

Toch zijn in Van Heek c.s.' studie aanwijzingen te vinden voor het belang van regionale
verschillen voor de individuele schoolloopbanen. Men vermeldt verschillen tussen Fries-
land, Brabant, Twente en Amsterdam met betrekking tot de individuele doorstroming
naar het v.h.m.o. en de schakelfunctie van de ULO voor het v.h.m.o. (p. 151).
Uit deze aanwijzing trekken Van Heek c.s. echter geen consequenties voor hun analyse.
Juist deze aanwijzing van Van Heek was de eerste aanleiding tot dit onderzoek.

Een tweede aanleiding tot dit onderzoek is de ook binnen de onderwijsresearch oplevende
discussie rond 'multi-level onderzoek'. De Vereniging voor Onderwijsresearch organi-
seerde een cursus over dit onderwerp (Van den Beden, 1978) en de eerste muhilevel-
studies op het terrein van de onderwijsresearch verschijnen thans (Meijnen, 1979;Mooy,
1980). Het gaat bij multi-level onderzoek om de analyse van relaties tussen data van ver-
schillende sociale niveaus (in ons geval een benadering van het gemeente-niveau enerzijds
en individuen anderzijds). In de Amerikaanse literatuur komt men veel multi-level onder-
zoek tegen. Het gaat daar vaak om variabelen op schoolniveau (bv. mate van segregatie,
percentages blanken, negers en andere rassen) of op schooldistrictsniveau (bv. uitgaven
voor onderwijs per schoolgaand kind). Het heeft daar geleid tot veel onderzoek, felle
discussies en een omstreden beleid.

Het lijkt de moeite waard soortgelijk onderzoek ook hier in Nederland uit te voeren, ook
gezien de mogelijke beleidsimplicaties.

Een derde aanleiding is de thans weer oplevende discussie over de relatie tussen psycholo-
gie en sociologie, tussen individuele kenmerken en structurele kenmerken. Het methodo-
logisch individuahsme bv. verwoord door Hummell en Opp (1971), benadrukt de reduc-
tiemogelijkheden van sociale fenomenen op individueel gedrag. Elias (1971) worstelt met

2. Dit wijst er op dat de meeste Nederlandse onderwijssociologen de 'Verborgen Talent'-Studie ten
onrechte als een afdoende kwantitatieve analyse van de ongelijkheid in de onderwijsdoorstroming heb-
ben beschouwd (b.v. Vervoort, 1972; Van der Kley en Wesselingli, 1975; Wesselingh, 1979).
Gezien de zich opstapelende bezwaren tegen Van Heek's analyse (o.a. Van Kemenade cn Kropman,
1972; Peschar, 1975; Dronkers, 1978; Dronkers en Jungbluth, 1979) is een grondige herwaardering
Van de conclusies uit 'Verborgen Talent' met behulp van betere data, theoretische begrippen en statis-
tische methoden dringend nodig, niet in de laatste plaats met het oog op beleidsmakers, die zich nog
steeds op Van Heek's resultaten beroepen. Gelukkig is de belangstelling daarvoor groeiende, mede
dankzij de overleggroep longitudinaal school- en beroepsloopbaanonderzoek, opgericht door SISWO
onder auspiciën van dc stuurgroep Onderwijssociologie, het interuniversitair samenwerkingsorgaan van
Nederlandse Onderwijssociologen.

zijn figuraties met hetzelfde vraagstuk. Ingewijden zullen hierin de klassieke discussie tus-
sen Dürkheim, Marx en Weber herkennen. Op zich kan ons onderzoek dit dilemma niet
oplossen. Wel is het mogelijk de kracht van de relatie tussen structurele kenmerken (zoals
lokale onderwijsparticipatie) en individuele schoolloopbanen te analyseren. Daardoor
wordt de mogelijkheid geopend voor een meer empirische discussie over deze relaties.

De vierde en niet onbelangrijkste aanleiding tot dit onderzoek is de verwaarlozing door de
beleidsvoerders van de regionale onderwijsverscliillen. De Contourennota (1975: 9-11)
kent slechts ongelijke deelname aan het onderwijs voortvloeiend uit het ouderlijk milieu
en het geslacht van de leerling. In feite is er sprake van gezapige tevredenheid op dit punt.
De vervolgnota op de Contourennota (1977: 59) zegt dat er in ons land een redelijk ge-
spreid net van scholen en instituten voor volledig dagonderwijs en part-time onderwijs
aan 16- tot 19-jarigen, met vele variaties in studierichtingen en levensbeschouwingen,
bestaat. Toch zijn er niet onaanzienlijke regionale onderwijs verschillen (zie: Regionale
doorlichting van Nederland, 1973), die kunnen samen hangen met het bekostigingsbeleid
van de overheid van scholen. De minister stelt elk jaar een plan op, dat tot doel heeft te
komen tot een evenwichtig geheel van onderwijsvoorzieningen naar soort van onderwijs,
mede gelet op het verlangde (onderstreping van ons) onderwijs in het betrokken gebied
(art. 65, lid 1, wet op het voortgezet onderwijs). De ongelijke spreiding van de bevolking
over Nederland is daarbij uiteraard een comphcerende factor. Er is daarom een regionale
gebiedsindeling ontwikkeld die berust op de volgende criteria: a) de scholen in het gebied
moeten een bepaald gemeenschappelijk verzorgingsrayon vertonen; b) elk gebied moet
zo veel mogelijk (onderstreping van ons) beschikken over een volledig pakket van onder-
wijsvoorzieningen, aansluitend op het basis onderwijs; c) de opbouw van de gebieden
moet aansluiten bij de samenhang, die bestaat tussen de spreiding van de scholen over
stedelijke centra en platteland (onderstreping van ons); d) bij de opbouw van de gebieden
moet worden uitgegaan van de maatschappelijke, culturele en economische samenhang
die de gebieden kenmerkt, (zie verder De Jonge, 1977: 104-106). Het is uit het boven-
staande duidelijk dat deze zgn. planprocedure sterk aansluit bij reeds lang bestaande re-
gionale verschillen, en deze niet aantast maar eerder bestendigt. Gezien de grote rol van
de Rijksoverheid en de koepelorganisaties in deze planprocedure en de door hen elders
beleden noodzaak tot vermindering van ongelijkheid in het onderwijs, zou speciale aan-
dacht voor de effecten van regionale verschillen op individuele schoolloopbanen alleszins
gerechtvaardigd zijn.^

3. Het is een interessante vraag waarom de Rijksoverheid en de onderwijsorganisaties in hun gezamen-
hjk beleden wens tot het tegengaan van ongeüjkheid in het onderwijs, zich richten op de door lien veel
moeilijker direct te manipuleren factoren en effecten (bv. sociaal milieu van de ouders) in plaats van
op voor hen meer voor de liand liggende factoren, zoals regionale verschillen. Een oorzaak kan zijn
dat de planprocedure een te belangrijke rol speelt in het in standhouden van de onderwijspacificatie
(de Jonge: 1977: 107). Een tweede oorzaak kan zijn dat materiële, concrete, nationale maatregelen
ongelijkheid in het onderwijs (bv. via de planprocedure) de maatschappelijke verhoudingen wel eens
ingrijpender zouden kunnen aantasten dan idealistische, vage, partiële experimenten rond deze onge-
lijkheid (bv. activeringsprogramma's, geïsoleerde middenschoolexperimenten). Het laatst^ alternatief
kan dan wel eens voor de overheid, die binnen de smalle marges moet werken, aantrekkelijker zijn dan
het eerste. Hier ligt wellicht een parallel met de variabele 'extra curriculaire activiteiten', ook ongelijk
verdeeld over scholen, ook sterk afhankeüjk van de bekostigingsvoorschriften van de Rijksoverheid,
ook een zelfstandig effect op het succes in de schoolloopbaan, maar waarvoor tegelijkertijd weinig be-
langstelling van de zijde van de overheid of onderwijsorganisaties bestaat. (Dronkers, 1978: 137).

In dit onderzoek gaat het erom de kracht van de zelfstandige effecten van 'lokale onder-
wijs-participatie' variabelen op dc verschillende momenten in individuele schoolloopbanen
te bepalen. Het achterliggend doel van dit onderzoek is vast te stellen of een bredere en
diepgaandere studie naar de effecten van onderwijs- en ander kenmerken van verschillende
sociale niveaus (gemeente, regio, etc.) op de individuele schoolloopbaan vruchtbaar zou
kunnen zijn. Dit onderzoek is dan ook bedoeld als voorstudie.

In de volgende vier paragrafen bespreken wij achtereenvolgens het gebruikte schoolloop-
baanmodel, de gebruikte data uit het 'Van Jaar tot Jaar' onderzoek, de operationalisatie
van de 'lokale onderwijsparticipatie' variabelen, en de gebruikte padanalyse. In paragraaf
1 worden de resultaten besproken aan de hand van zes hypothesen, terwijl in de slotpara-
graaf een voorstel tot het hoognodige vervolgonderzoek wordt gedaan.

In dit onderzoek wordt een vereenvoudigd schoolloopbaanmodel gebruikt, gebaseerd op
Dronkers (1978), Dronkers en Jungbluth (1979) en Dessens en Jansen (1979). Het ver-
eenvoudigde schoolloopbaanmodel is afgebeeld in figuur 1. Het gaat om 15 variabelen uit
het 'Van Jaar tot Jaar' onderzoek, verdeeld over zeven categorieën.''

1- Interesse van de ouders in schoolvorderingen van hun kind volgens de onderwijzer uit

de 6de klas lagere school in 1965
8. Het belang van onderwijs- en beroepskeuze voor meisjes volgens de ouders

10. Het advies van de onderwijzer over het meest geschikte type secundair onderwijs in
1965

13. Aanwezigheid extra-curriculaire activiteiten in de eerst bezochte secundaire school

In een toegevoegde appendix worden de categorieën van deze 15 variabelen weergegeven.

Figuur 1: Een vereenvoudigd causaal model van de relaties tussen schoolloopbaan-variabelen

Een afzonderlijk probleem is de ordening van deze variabelen in een schoolloopbaan-mo-
del. Het belangrijkste probleem bij de constructie van dergelijke modellen is de causale
ordening van de variabelen, die men door het model aanbrengt. Het patroon van ons mo-
del is gebaseerd op een aantal veronderstellingen afgeleid uit het zgn. Wisconsin-model.
Dit model is reeds een aantal malen toegepast in de hierboven genoemde publicaties.
De ordening in ons model is meestal niet omkeerbaar, gezien de chronologische volgorde
van de data. Binnen een categorie worden echter geen causale relaties tussen de variabelen
verondersteld. De prestatiescore van een leerling kan bijvoorbeeld het advies van de on-
derwijzer beïnvloeden. De waarneming door de onderwijzer van de leerling (die zich uit-
drukt in zijn advies) beïnvloedt op zijn beurt de zelfwaarneming door de leerling en daar-
door zijn prestatiescore. Het is goed er hier op te wijzen dat het model zelf hier niet ge-
toetst wordt. Het vertrouwen in een dergelijk model kan alleen toenemen naarmate het
model ondersteund wordt door verschillende data-sets en door uiteenlopende analyses.
Voor een bespreking van de overige problemen rond de ordening van de variabelen in het
schoolloopbaanmodel en de aanvaardbaarheid ervan verwijzen wij naar de discussie in de
genoemde artikelen.

De plaatsing van de lokale onderwijsparticipatie variabelen in categorie I 'milieu'^behoeft
nog nadere toelichting. Wij zijn van mening dat deze variabelen het meest in deze catego-
rie thuishoren omdat deze, evenals de andere variabelen uit deze categorie al aanwezig zijn
vóór de individuele schoolloopbaan begint. Plaatsing van de lokale onderwijsparticipatie
variabelen in een van de andere categorieën stuit bovendien op logische bezwaren.

Dit onderzoek is een secundaire analyse van de unieke longitudinale data over school-
loopbanen, verzameld door het l.T.S. te Nijmegen in het zgn. 'Van Jaar tot Jaar' onder-
zoek (Kropman & Collaris, 1974; Collaris & Kropman, 1978). Het omvat data over de
schoolloopbaan van 1845 leerlingen. Het panel kan beschouwd worden als een represen-
tatieve steekproef uit diegenen die in 1965 de lagere school verlieten.
Voor nadere gegevens over deze data volstaan wij met te verwijzen naar de genoemde pu-
blikaties en de hiermee reeds eerder verrichte analyses.
Datzelfde geldt ook voor de beperkingen verbonden aan secundair onderzoek.

Secundaire analyse van longitudinale data impliceert dat men moet werken met de data
die door anderen verzameld zijn en die niet altijd voor het eigen onderzoek optimaal zijn.
Het zelf opnieuw verzamelen van longitudinale data is zo kostbaar en tijdrovend, dat men
om die redenen in het geheel afziet van verder longitudinaal onderzoek.
Aan de mogelijkheid om uniek beschikbaar materiaal, dat niet uitputtend geanalyseerd
is, te gebruiken wordt te weinig gedacht. Omdat de 'Van Jaar tot Jaar' data zo uniek zijn,
menen wij dat deze niet-optimale bruikbaarheid geaccepteerd moet worden.
Een gebrek van de 'Van Jaar tot Jaar' data voor dit concrete onderzoek is dat de gemeen-
tenaam of het gemeentenummer niet meer beschikbaar is. Het gevolg hiervan is dat de on-
derwijsparticipatie op gemeenteniveau niet meer in dit onderzoek vastgesteld kan worden.
Gelukkig weten wij wel tot welke provincie de woongemeenten behoorden, en wat de ur-
banisatiegraad van deze woongemeenten was.®

Een combinatie van beide gegevens stelt ons in staat de afzonderlijke gemeente van de
leerling bij benadering te schatten, b.v. een kleine stad in Limburg (Sittard, Weert, Bruns-
sum, Hoensbroek) of grote stad in Utrecht (Utrecht).

Het bleek dat 57' van de maximaal 77 mogelijke cellen gevuld waren. Een aantal provin-
cies kent geen gemeenten met een bepaalde urbanisatiegraad (In Friesland komt b.v. geen
grote stad' voor) en de steekproef van het 'Van Jaar tot Jaar' onderzoek bestreek boven-
dien niet alle mogelijke combinaties. Het voordeel van deze combinatie is dat op deze
wijze rekening wordt gehouden met zowel de onderwijsparticipatie verschillen tussen pro-
vincies als tussen gemeenten met verschillende urbanisatiegraad. Bovendien is het aantal
gevallen door deze combinatie groot genoeg om bepaalde terechte bezwaren van Swan-
born (1978: 209-216) tegen de analyse met geaggregeerde variabelen te ondervangen.
Het gemiddelde aantal respondenten per gevulde cel is 32 personen. Dit is niet hoog maar
wij beschouwen het voorlopig als voldoende.

Voor elke cel berekenden wij het percentage leerlingen dat in die cel een bepaald type se-

* C	V ü^S iB
T3 »	l!.
•-S. « » l«	<0 %s SS
a Ol SS	II

cundair onderwijs bezocht in verhouding tot alle leerlingen in dezelfde cel. Hierbij ge-
bruikten wij de variabele 'het eerste schooltype bezocht na het lager onderwijs' als basis
voor onze aggregatie. Op deze wijze verkregen wij vijf lokale onderwijsparticipatie-variabe-
len: het percentage leerlingen in een bepaalde combinatie van provincie en urbanisatie-
graad dat:

In tabel 1 vindt men een weergave van het resultaat van de aggregatie. In elke kolom is de
combinatie van urbanisatiegraad en provincie met de bovenste en onderste tien procent
voor drie lokale onderwijsparticipatie variabelen weergegeven met daarachter enige voor-
beelden van gemeenten die bij die combinatie horen.

Het zal duidelijk zijn dat deze lokale participatie variabelen iets anders meten dan een
combinatie van urbanisatiegraad en provincie. In het eerste geval gaat het om het gemid-
delde deelnamepercentage aan verscliillende typen secundair onderwijs. In het laatste ge-
val gaat het om het woonachtig zijn in gemeenten met een bepaalde urbanisatiegraad in
een bepaalde provincie. Uit tabel 1 blijkt dat deze deelname-percentages niet parallel lo-
pen met deze gemeentelijke en provinciale indeling.

Gezien de kleine aantallen per combinatie, de daaruit voortvloeiende toevalsfluctuaties
in de berekende percentages en de wellicht onterechte samenvoeging van gemeenten in
één combinatie gezien hun werkelijke onderwijsparticipatie, moet men de betrouwbaar-
heid van deze vijf geaggregeerde variabelen wantrouwen. Dit lijkt ons in deze fase van het
onderzoek niet bezwaarlijk omdat deze geringe betrouwbaarheid in dit geval de kans op
het vinden van significante effecten van lokale onderwijsparticipatie variabelen op de
individuele schoolloopbanen verkleint. Er is geen duidelijke reden om aan te nemen dat
de toevalsfluctuaties en de willekeurige samenvoegingen in dit geval de resultaten syste-
matisch in een bepaalde richting vertekenen. Uitsluitend de 'ruis' en de kans op een lage-
re verklaarde variantie wordt daardoor vergroot.

Deze multi-level analyse heeft dus betrekking op twee niveaus: een individueel (de meeste
schoolloopbaanvariabelen) en een gemeentelijk (zoals benaderd met onze vijf lokale on-
derwijsparticipatie variabelen). Dit wil niet zeggen dat er geen andere sociale niveaus te
onderscheiden zouden zijn. Het data-materiaal maakte het gebruik van drie of meer ni-
veaus echter onmogelijk.

Op drie andere bezwaren tegen deze procedure willen wij nog ingaan. Het zou ook moge-
lijk geweest zijn om de variabele 'het bereikte eindniveau in het secundaire dagonderwijs'
te gebruiken i.p.v. de variabele 'eerste schooltype na l.o.'. Wij hebben toch voor de laatste
gekozen omdat deze beter en eenduidiger dan de eerste uitdrukt wat in de betrokken cel
de 'norm' voor onderwijsparticipatie is. Bovendien levert de variabele 'eindniveau' het
probleem op dat de niet voltooide schoolopleidingen moeilijk eenduidig te coderen zijn.
Een tweede bezwaar is dat de geaggregeerde variabelen ontleend aan de individuele
schoolloopbaan van de onderzochte leerlingen, aan het begin van de causale keten ge-
plaatst worden in dezelfde categorie als de variabelen met betrekking tot dc ouders. Hier-
door worden geaggregeerde variabelen, vastgesteld in 1965-1966, in de tijd teruggeplaatst
naar het begin van de zestiger jaren. Wij erkennen dat dit bezwaarlijk kan zijn omdat

hierdoor de causale volgorde van het schoolloopbaanmodel verstoord lijkt te worden. Dit
bezwaar zou nog sterker gelden indien de aggregatie op basis van de variabele 'eindniveau
secundair dagonderwijs' was uitgevoerd. Wij veronderstellen dat gedurende dit halve de-
cennium de relatieve plaats van het deelnamepercentage aan een bepaald type onderwijs
van een bepaalde cel ten opzichte van de overeenkomstige deelnamepercentages van de
andere cellen niet is veranderd. Hoewel er enige aanwijzingen zijn dat deze aanname niet
geheel correct is (Van Heek, 1968; 124) lijkt het ons in deze fase van het onderzoek een
bruikbare en niet geheel verwerpelijke veronderstelling.

Een derde bezwaar is dat de geaggregeerde variabelen gecombineerd worden met de in-
dividuele variabelen (met name eerste keuze voortgezet onderwijs), waaraan ze ontleend
zijn. Dit kan leiden tot contaminatie en autocorrelatie. Strikt genomen moeten de geag-
gregeerde data onafhankelijk van de individuele data gemeten worden waarmee ze gecom-
bineerd worden.

Toch is dit bezwaar in de praktijk niet belangrijk. Wij mogen aannemen dat, indien wij de
geaggregeerde variabelen bij een vroeger, dichtbijgelegen cohort (b.v. de cohort die in
1964 de lagere school verliet) hadden gemeten, de relatieve plaats van het deelnameper-
centage aan een bepaald type secundair onderwijs van een bepaalde cel ten opzichte van
de overeenkomstige deelnamepercentages van de andere cellen nauwelijks zou zijn veran-
derd. De veranderingen in deelnamepercentages gaan immers niet snel. Op grond van
deze overweging menen wij dat het contaminatie-bezwaar niet ernstig is en dat onze me-
ting van de geaggregeerde variabelen als min of meer onafliankelijk beschouwd kan wor-
den.

Als analysetechniek gebruiken wij multipele regressie-analyse. De regressie-coëfficienten
gebruiken wij vervolgens als pad-coefficienten, ten einde directe en indirecte effecten te
berekenen. Wij gebruikten in onze berekening steeds ten hoogste vier van de vijf lokale
onderwijsparticipatievariabelen omdat de vijf variabelen gezamenlijk lineair afhankeUjk
zijn (dus per definitie gezamenlijk 100% zijn). Wij verwijderden vooraf steeds die lokale
participatie-variabele die relatief de laagste correlatie met de afhankelijke variabele had.
Dit bleek in de anal/se t.b.v. tabel 2 steeds de variabele 'lokale participatie ULO' te zijn.

Negen regressievergelijkingen kunnen opgesteld worden op basis van het model uit figuur
1. De variabelen, links van de betrokken afhankelijke variabele zijn de onafhankelijke va-
riabelen. De afhankelijke variabele 'bereikt eindniveau in het secundair dagonderwijs' heeft
alle variabelen uit de categorie I tot VI als onafhankelijke variabelen. De vergelijkingen
kunnen worden opgelost met multipele regressieanalyse (Nie, Huil, Jenkins, Steinbrenner,
Bent, 1975) en de al dan niet geaggregeerde data uit het 'Van Jaar tot Jaar' onderzoek. De
gevonden regressiecoëfficiënten kunnen gebruikt worden als padcoëfficiënten (Dessens,
Jansen, Swanborn, 1974). Op basis van de resultaten van De Leeuw en Stoop (1979) en
van Dessens en Jansen (1979) mag aangenomen worden dat de relaties lineair zijn en dat
interactie-effecten afwezig zijn. Dit is echter door hen niet nagegaan voor de thans door
ons geconstrueerde lokale onderwijsparticipatie-variabelen.

De resultaten van de negen regressie-vergelijkingen zijn weergegeven in tabel 2. (De cor-

relatie matrix waarop deze vergelijkingen gebaseerd zijn wordt op verzoek door de au-
teurs^ toegezonden.) Elke kolom is een regressievergelijking met de afliankelijke variabele
in de kop van de tabel en de onafhankelijke Unks. De verklaarde variantie (R^) van elke
vergelijking is weergegeven aan de voet van de tabel. De 'lokale onderwijsparticipatie'
variabelen werden stapsgewijs toegevoegd aan de vergelijkingen nadat de overige onafhan-
kelijke variabelen reeds opgenomen waren. In tabel 2 zijn bovendien alleen de regressie-
coëfficiënten van die 'lokale onderwijsparticipatie' variabelen opgenomen die een gestan-
daardiseerde beta hoger dan 0,05 hebben.'' De R^ ^ toename is dan ook de toename in de
verklaarde variantie door toevoeging van de relevante 'lokale onderwijsparticipatie' varia-
belen als laatste onafliankelijke variabelen aan de vergelijking. Deze R^^ toename is een
conservatieve methode om het zelfstandige effect van deze lokale onderwijsparticipatie
variabelen vast te stellen, omdat de gezamenlijke verklarende kracht van de covariantie
van deze variabelen met de andere onafhankehjke variabelen al in de 'lokale onderwijs
participatie-vrije' vergelijking is opgenomen. Een eerste inspectie van tabel 2 leert ons dat
sommige lokale onderwijsparticipatie variabelen een direct effect hebben op de afhanke-
lijke variabelen 'interesse van ouders in de school', 'belang vlg. ouders van school- en be-
roepskeuze meisjes', de 'prestatiescorc v.h.m.o.', het 'eerste schooltype gevolgd na de la-
gere school' en 'aanwezigheid van extra-curriculaire activiteiten in het secundaire onder-
wijs'. De kracht van de directe effecten van deze variabelen is ongeveer even groot als de
veel meer in de belangstelling staande variabele 'geslacht'. Dit geldt zowel voor de gestan-
daardiseerde regressiecoëfficiënten als voor de toenamen in de R^ (vgl. Dronkers en
Jungbluth, 1979: 24-25).

De kracht van de effecten van de lokale onderwijsparticipatie variabelen is in vergelijking
met sommige andere variabelen, zoals 'opleidingsniveau vader', 'advies van de onderwijzer'
of 'prestatiescore v.h.m.o.', niet groot. Toch menen wij met Ellemers (1976) dat niet al-
leen gezocht moet worden naar de zgn. basisvariabelen, die wellicht veel variantie verkla-
ren, maar die nauwelijks veranderd kunnen worden door doelbewust ingrijpen van de
overheid of andere groeperingen. Men moet ook die manipuleerbare variabelen onderzoe-
ken, die wellicht slechts weinig variantie van de afhankelijke variabele verklaren, maar die
betrekkelijk 'gemakkelijk' door een doelbewust ingrijpen veranderd kunnen worden.
Dit laatste is juist daarom van belang omdat de effecten van de manipuleerbare variabelen
binnen het bestaande onderwijsstelsel veel kleiner zijn dan de effecten van de niet-mani-
puleerbare variabelen (Dronkers, 1978: 137).

Uit tabel 1 bleek reeds dat de gemeenteUjke deelnamepercentages aan het secundaire on-
derwijs niet parallel lopen met de urbanisatiegraad van die gemeenten.
Uit tabel 3 blijkt dat de geconstateerde effecten van de lokale onderwijsparticipatie varia-
belen niet toegeschreven kunnen worden aan de variabele urbanisatiegraad, dus aan de
fysieke en vooral sociale verstedelijking.

Aan de negen vergelijkingen, die ook in tabel 2 gebruikt zijn, werd na de gebruikeUjke on-
afhankelijke variabelen de variabele urbanisatiegraad toegevoegd, ongeacht de hoogte van

6. J. Dronkers, SISWO, Oude Zijds Achterburgwal 128, 1012 DT Amsterdam, postbus 19079, 1000
GB Amsterdam.

7. Deze grens van 0,05 (gestandaardiseerde regressie-coëfficiënt) is relatief willekeurig, hoewel meer-
dere auteurs deze grens aanhouden. Gezien het aantal respondenten ligt de grens van significante coëf-
ficiënten onder de 0,05.

zijn bijdrage aan deze vergelijkingen. Daarna werden maximaal vier lokale onderwijspar-
ticipatie variabelen stapsgewijs toegevoegd aan de vergelijkingen. Daarbij gebruikten wij
dezelfde stop-regel als hierboven.

Urbanisatiegraad èn lokale onderwijsparticipatie hebben blijkens tabel 3 een eigen effect
op een aantal onafhankelijke variabelen van het schoolloopbaanmodel.
Een vergelijking van de tabellen 2 en 3 leert dat de gedwongen opname van de urbanisatie-
graad de effecten van de lokale onderwijsparticipatie variabelen in de vergelijking van de
variabelen negen t/m veertien ongemoeid laat. Alleen in de eerste twee vergelijkingen tre-
den verschuivingen op (nl. van positieve effecten van de lokale participatie aan de l.b.o. en
v.h.m.o./m.m.s. naar negatieve effecten van de complementaire variabelen lokale partici-
patie aan v.g.l.o. en u.l.o.; resp. van een negatief effect van het percentage l.b.o. naar een
positief effect van het percentage u.l.o.). Het blijkt dus dat de lokale onderwijsparticipatie
variabelen een eigen effect hebben, dat niet toegeschreven kan worden aan de variabele
urbanisatiegraad (en vice-versa).

De betekenis, die men kan toekennen aan de hierboven gepresenteerde resultaten rond de
lokale onderwijsparticipatie variabelen, hangt mede af van de verklaringen die men voor
deze resultaten heeft. Dit geldt uiteraard niet alleen voor de effecten van de lokale onder-
wijsparticipatie variabelen, maar in dit geval ontbreekt voor velen de vanzelfsprekendheid
die effecten van bepaalde andere variabelen (bv. beroepsniveau vader of prestatiescore)
blijken te hebben.

Daarom is het van belang dat men één of meerdere verklaringen kan vinden voor effecten
van de gemeentelijke onderwijsparticipatie (zoals benaderd met onze lokale onderwijspar-
ticipatie variabelen) op de individuele schoolloopbaan. Omdat structurele gemeentelijke
kenmerken nooit rechtstreeks en onmiddellijk zichtbaar 'ingrijpen' in die individuele
schoolloopbanen, is toekomstig onderzoek naar variabelen en processen die liggen tussen
gemeentelijke ondenvijsparticiparie en het individueel gedrag, van groot belang. Helaas

Figuur 2: Een schema van mogelijke relaties tussen gemeentelijke context en individuele schoolloop-
baanvariabelen.

laten de data uit 'Van Jaar tot Jaar' een dergelijk onderzoek niet toe.
Toch willen wij een poging doen de achtergronden van de gevonden effecten van lokale
onderwijsparticipatie enigszins te belichten, waardoor de aanvaardbaarheid ervan vergroot
kan worden. Wij hebben ons hierbij laten inspireren door Hummell (1972).
De sociaal-culturele context van een gemeente verwijst naar drie mechanismen, die deze
context vorm kunnen geven: de gelegenheidsstructuur, de samenstelling van de bevolking
en het culturele klimaat.® De gelegenheidsstructuur heeft betrekking op de aanwezigheid
van materiële goederen in een gemeente of in omliggende gemeenten. Die is per gemeente
verschillend (bv. om historische oorzaken of door een nationaal spreidingsbeleid). Moge-
lijke operationalisaties hiervan zijn de aanwezigheid van culturele voorzieningen (biblio-
theek, etc.) en van schooltypes (event, afstand tot scholen in nabijgelegen gemeenten).
De samenstelling van de bevolking (het tweede mechanisme) heeft vooral betrekking op
kenmerken van de mensen die in die gemeente wonen.

Deze samenstelling kan afwijken van die van andere gemeenten door migratiestromen tus-
sen gemeenten, verschillen in regionale en nationale geschiedenis, etc. (Hummell noemt

dit mechanisme het zelf-selectie-mechanisme, waarmee hij te veel accent legt op één van

8. Een ander proces of mechanisme, dat Hummell (1972) noemt, lijkt ons in ons geval minder rele-
vant, nl. beïnvloeding door de dominante normen binnen een context. De gemeente lijkt ons in de
meeste gevallen niet een dergelijke sociale eenheid dat daarin normen voorkomen die door institutiona-
lisering, internalisering of objectivering voor alle of een groot aantal inwoners van die gemeente geldig-
heid krijgen.

de oorzaken van verschillen in samenstelHng van de bevolking.) Mogelijke operationalisa-
ties van deze samenstelling van de bevolking zijn de samenstelling van de beroepsbevol-
king of het gemiddeld IQ. Het derde mechanisme, het cuhurele klimaat in een gemeente
heeft betrekking op het gedrag en de normen en waarden van de inwoners van een ge-
meente. Dit kan bv. geoperationaliseerd worden in het gebruik van culturele voorzienin-
gen per 1000 inwoners of het aantal krantenabonnementen op 1000 inwoners.
Deze drie mechanismen geven gezamenlijk vorm aan de sociaal-cuhurele context van een
gemeente, die op zich veroorzaakt kan zijn door allerlei factoren zoals de functie van die
gemeente binnen de regio, de regionale en nationale geschiedenis, de regionale economi-
sche structuur, infrastructuur, etc.

De lokale onderwijsparticipatie variabelen zijn een uitdrukking van de gemeentelijke con-
text, waarbinnen de drie genoemde mechanismen een rol kunnen spelen. Deze lokale on-
derwijsparticipatie variabelen kunnen immers gelijktijdig verwijzen naar de gelegenheids-
structuur, het cultureel klimaat en de samenstelling van de bevolking van die gemeente.
Wij veronderstellen nu dat deze drie mechanismen gezamenlijk of afzonderlijk verant-
woordelijk zijn voor het effect van de gemeentelijke context (in deze studie geoperationa-
liseerd als lokale onderwijsparticipatie variabelen) op de individuele variabelen binnen het
schoolloopbaanmodel. Het cuhurele klimaat én de samenstelUng van de beroepsbevolking
kunnen bv. de mate van interesse van de ouders in de school beïnvloeden.

Ten einde deze mogelijke relaties tussen kenmerken van gemeentelijke context en indivi-
duele schoolloopbaanvariabelen nauwkeuriger te bespreken formuleerden wij vooraf hy-
pothesen. Wij zullen deze achtereenvolgens in het licht van onze resultaten en het ontwik-
kelde schema bespreken.

a. Er zijn effecten van een of meer lokale onderwijsparticipatie variabelen op de twee
variabelen, die de opvattmgen van de ouders over het onderwijs meten (nl. interesse van
de ouders in school en belang school- en beroepskeuze voor meisjes).
Uit tabel 2 blijkt dat deze hypothese geaccepteerd kan worden. De variabelen 'lokale par-
ticipatie l.b.o. en v.h.m.o./m.m.s.' hebben een positief effect op de variabele 'interesse
van de ouders in de school', de variabele 'lokale participatie - geen verder dagonderwijs'
een negatief. Dit lijkt verklaarbaar uit zowel het culturele klimaat als uit de bevolkingssa-
menstelling van een gemeente. De hoge percentages leerlingen die in bepaalde gemeenten
geen verder dagonderwijs volgen, weerspiegelen een bepaald cultureel klimaat of een be-
paalde bevolkingssamenstelling waarin ouders minder interesse voor de lagere school to-
nen omdat de vervolgopleiding toch niet belangrijk is. De omgekeerde redenering gaat
ook op voor de effecten van de lokale participatie l.b.o. en v.h.m.o./m.m.s. De hoge per-
centages leerlingen, die in bepaalde gemeenten voortgezet hoger en middelbaar onderwijs
volgen, weerspiegelen een bepaald cultureel klimaat of een bepaalde bevolkingssamenstel-
ling waarin ouders meer interesse voor de lagere school tonen omdat de vervolgopleiding '
belangrijk is. Dit geldt ook voor het l.b.o., omdat het beroepsonderwijs gedurende de zes-
tiger jaren in zekere zin beschouwd kon worden als een subtop van de hiërarchie 'geen
vervolg'-v.g.l.o.-l.b.O. Het negatieve effect van de variabele 'lokale participatie l.b.o.' op
de variabele 'belang school- en beroepskeuze voor meisjes' kan ook uit het effect van dat
culturele klimaat van een gemeente verklaard worden.

Een grote deelname aan het lager beroepsonderwijs in een gemeente (en dat is voor meis-
jes het l.h.n.o.-onderwijs) kan samenhangen met meer traditionele opvattingen over de

geslachtsrollen (cultureel klimaat) en daardoor met minder belangstelling voor de schooi-
en beroepskeuze voor meisjes.

b. Er is een effect van een of meer lokale onderwijsparticipatie variabelen op de variabele
'prestatiescore v.h.m.o.'.

Uit tabel 2 blijkt dat deze hypothese geaccepteerd kan worden voor de op de variabelen
'lokale onderwijsparticipatie l.b.o. en v.h.m.o./m.m.s.' wat betreft de directe effecten
(.05 ; .07). Dit effect kan verklaard worden uit het cultureel klimaat en de bevolkingssa-
menstelling van een gemeente, die een bepaalde lokale participatie v.h.m.o. en l.b.o. tot
gevolg hebben en die tegelijkertijd hoge scores op de v.h.m.o. -prestatietest stimuleren.
Het negatieve effect van de lokale participatie l.b.o. (in tegenstelling tot hierboven) kan
verklaard worden door de gebruikte maat voor schoolprestaties. De prestatiescore v.h.m.o.
is speciaal bestemd voor het v.h.m.o. De inhoud wijkt daardoor af van die van de presta-
tiescore l.b.o. (zie ook Kropman & Collaris, 1974).

c. Er is een effect van een of meer lokale onderwijsparticipatie variabelen op de variabele
'advies van de onderwijzer'.

Het ontbreken van directe effecten van de lokale onderwijsparticipatie variabelen is opval-
lend in het licht van de vorige aanvaarde hypothese. De verklarende mechanismen, die
voor het effect van de lokale onderwijsparticipatie variabelen op de prestatiescore v.h.m.o.
verantwoordelijk zouden zijn, zouden ook voor de variabele 'advies van de onderwijzer'
moeten opgaan.

Een verklaring voor het verwerpen van de hypothese ligt echter voor de hand. De v.h.m.o.-
prestatietest meet 'gestandaardiseerd' de prestaties van de leerlingen zonder rekening te
houden met de omstandigheden binnen en buiten de school waaronder deze prestaties
moeten worden geleverd. Een leerling uit een gemeente met een voor het secundair onder-
wijs slecht cultureel klimaat of ongunstige bevolkingssamenstelling, scoort daardoor lager
dan een overeenkomstige leerling uit een gemeente met een 'goed' cultureel klimaat of
een gunstige bevolkingssamenstelling. De onderwijzers, die moeten adviseren kennen -
volgens ons - dit verschil tussen gemeenten, tussen de omstandigheden waaronder schoolse
prestaties geleverd moeten worden. Zij houden in hun advies rekening met dit verschil.
De prestaties van een leerling in een gemeente met moeilijkere omstandigheden (bv. cultu-
reel klimaat) zullen door een onderwijzer in die gemeente hoger gewaardeerd worden, ge-
zien de hem bekende moeilijke omstandigheden, dan de waardering van een andere onder-
wijzer van overeenkomstige prestaties van een leerling in een gemeente met gunstiger om-
standigheden. Dit effect van verschillende (her)waardering 'heft' het effect van de lokale
onderwijsparticipatie variabelen bij schoolprestaties voor de variabele 'advies van de on-
derwijzer' op.

Het gestandaardiseerde karakter van de v.h.m.o.-prestatietest èn het rekening houden
door de onderwijzer met de omstandigheden waaronder prestaties afgelegd moeten wor-
den, kan tegelijkertijd de afwezigheid van een effect van lokale onderwijsparticipatie va-
riabelen op de variabele 'advies van de onderwijzer' èn de aanwezigheid van een effect
van deze lokale variabelen op de variabele 'prestatiescore v.h.m.o.' verklaren. Uiteraard is
dit een voorlopige verklaring, die nog nader onderzocht moet worden.

d. Er is een effect van een of meer lokale onderwijsparticipatie variabelen op de variabele
'eerste schoolkeuze na lagere school'.

Er is blijkens tabel 2 een direct effect van de variabele 'lokale deelname v.g.l.o.' op de
variabele 'eerste schoolkeuze na lagere school'. Deze hypothese kan dus aanvaard worden.
In dit geval kunnen alle drie mechanismen dit directe effect verklaren. Zowel een gunstig
cultureel klimaat, een gunstiger gelegenheidsstructuur èn gunstige bevolkingssamenstelling
van een gemeente kunnen dit resultaat verklaren.

e. Er is een effect van een of meer lokale onderwijsparticipatie variabelen op de variabele
'bereikt niveau in secundair dagonderwijs'. Uit tabel 2 blijkt dat deze hypothese verwor-
pen moet worden. De afwezigheid van een effect van lokale onderwijsparticipatie variabe-
len op het bereikt eindniveau in het secundaire dagonderwijs roept wel enige vragen op.
Waarom hebben het cuhurele klimaat, de gelegenheidsstructuur of de samenstelling van
de inwoners gedurende de secundaire schoolloopbaan niet meer dezelfde effecten als ge-
durende de primaire schoolloopbaan? Is dit een uiting van de zgn. resource-conversion,
d.w.z. bepaalde voor - of nadelen van het ouderlijk milieu worden in eerste instantie om-
gezet in voor- en nadelen gedurende de lagere schoolloopbaan, die op hun beurt weer wor-
den omgezet in een bepaalde secundaire schoolloopbaan, etc.? De lokale onderwijssitua-
tie zou in dat geval een overeenkomstige werking hebben als het ouderlijk milieu, nl. er is
alleen een belangrijk effect gedurende de lagere schoolloopbaan en bij de overgang naar
het voortgezet onderwijs.

f. De effecten van de lokale onderwijsparticipatie variabelen op de variabelen in de indi-
viduele schoolloopbaan zijn voor meisjes sterker dan voor jongens. Uit o.a. Dronkers en
Jungbluth (1979: 36, 39-40) blijkt dat de individuele schoolloopbanen van meisjes meer
door buiten individuele variabelen beïnvloed worden dan de schoolloopbanen van jon-
gens. Lokale onderwijsparticipatie variabelen kunnen, ongeacht de achterhggende proces-
sen die een effect te weeg brengen, beschouwd worden als buiten individuele variabelen.
Indien de resultaten van dit onderzoek niet toevallig zijn, moeten enerzijds de resultaten
van jongens en meisjes afzonderlijk niet onverklaarbaar verschillen en moeten anderzijds
de eventuele verschillen overeenkomstig onze hypothese zijn. In tabel 4 vindt U de resul-
taten. De wijze van toevoeging van de lokale onderwijsparticipatie variabelen is dezelfde
als bij tabel 2. Voor beide groepen zijn dezelfde lokale onderwijsparticipatie variabelen ge-
bruikt, d.w.z. zij zijn niet gedifferentieerd voor jongens en meisjes, hoewel de deelname
percentages van jongens en meisjes aan de verschillende typen secundair onderwijs uiteen-
loopt. Wij zijn er dus in deze studie van uitgegaan dat jongens èn meisjes beïnvloed wor-
den door de totale lokale onderwijsparticipatie variabelen en niet door de 'mannelijke lo-
kale onderwijsparticipatie', resp. door de 'vrouwelijke lokale onderwijsparticipatie varia-
belen'. Het zou ons echter niet verbazen indien zou blijken dat een dergelijke splitsing
toch noodzakelijk zou zijn. De omvang van de populatie van 'Van Jaar tot Jaar' stonden
dit echter niet toe.

In het algemeen zijn de effecten van de lokale onderwijsparticipatie variabelen voor jon-
gens en meisjes afzonderlijk, overeenkomstig. Dit kan beschouwd worden als een aanwij-
zing van het niet-toevallig karakter van onze resuhaten. De meest saillante verschillen zijn
bij de vergelijkingen van de variabelen 'zitten blijven' (nummer 8) en 'advies van dc onder-
wijzer' (nummer 9). Het eerste verschil is te verklaren uit de verschillende betekenis en
achtergronden van zitten blijven op de lagere school voor jongens en meisjes. Het cultu-
reel klimaat van de (kleine) middenstand dat geïndiceerd kan worden door een hoog per-
centage u 1.0. zou zelfstandig en aggressief gedrag van jongens minder bevorderen en zou

hun zittenbHjven zo tegengaan. Het cultureel klimaat van de ongeschoolde arbeider en
het cuhureel klimaat van de maatschappelijke elites, geïndiceerd door een hoog percen-
tage geen vervolgonderwijs of door een hoog percentage v.h.m.o./m.m.s., zouden zelf-
standig en aggressief gedrag van meisjes bevorderen en daardoor hun zittenblijven bevor-
deren. Overeenkomstige aanwijzingen voor verschillen tussen milieu's en geslachtsrollen
vindt men bij Bosman, Louwes en Van der Meer (1980). Het tweede verschil bij 'advies
van de onderwijzer' is te verklaren uit het maatschappelijk verschil tussen l.h.n.o. en l.t.s.
In tegenstelling tot onze hypothese vinden wij geen duidelijk groter effect van de lokale
onderwijsparticipatie variabelen op de schoolloopbanen van meisjes dan van jongens.

Tot slot van deze paragraaf willen wij nog wijzen op een niet-verwacht effect, nl. het ef-
fect van de variabelen lokale participatie l.b.o. en v.h.m.o./m.m.s. op de aanwezigheid van
extra-curriculaire activiteiten in het secundair onderwijs dat de betrokkene bezocht
(tabel 2). Reeds eerder merkten wij op (Dronkers, 1978: 136-137) dat het stimuleren en
eerlijk verdelen van extra-curriculaire activiteiten een relatief bruikbaar middel is om eer-

Hjker kansen binnen het bestaande onderwijs te bevorderen. Uit tabel 2 blijkt bovendien
dat het bestaan van deze activiteiten mede samenhangt met lokale onderwijsparticipatie
variabelen. Deze samenhang wordt waarschijnlijk veroorzaakt door het culturele klimaat
in de betrokken gemeenten met hoge percentages v.h.m.o.-leerUngen. Dit cuhurele kli-
maat stimuleert deelname aan het v.h.m.o. en tegelijkertijd de aanwezigheid van meer
extra-curriculaire activiteiten, omdat bepaalde kritische ondergrenzen voor het organise-
ren daarvan gemakkelijk overschreden kunnen worden. Hetzelfde geldt voor het lbo, om-
dat het lbo (tenminste, zeker in de zestiger jaren) als een subtop binnen de onderwijs-
hiërarchie beschouwd kan worden.

De resuhaten van dit onderzoek zijn uiteraard slechts zeer voorlopig. Te veel compromis-
sen moesten ten gevolge van de beschikbare data gesloten worden. Met name de benade-
ring van de gemeentelijke onderwijsparticipatie door de combinatie van urbanisatiegraad
en provincie en het relatief kleine aantal respondenten per cel kunnen als zwakke punten
aangewezen worden. Bovendien gaat het hier slechts om een twee-niveau-analyse (gemeen-
te - individu) terwijl een groter aantal niveaus mogelijk is. Ook is in dit onderzoek niet
verder gezocht naar mogelijk intermediaire variabelen, waardoor het effect van het lokale
niveau op de individuele loopbaan verduidelijkt kan worden. Tenslotte is in dit onder-
zoek slechts gewerkt met één lokaal kenmerk, nl. onderwijsparticipatie, terwijl er veel an-
dere kenmerken van binnen en buiten de 'Van Jaar tot Jaar' variabelen denkbaar zijn (be-
roeps- of onderwijsniveau-samenstelling per gemeente; gemiddelde prestatiescore per ge-
meente; economische typering per gemeente; etc.).

Dit onderzoek heeft dan ook een beperkte pretentie, nl. de kracht te onderzoeken van de
zelfstandige effecten van 'lokale onderwijsparticipatie' variabelen op de verscliillende
momenten in individuele schoolloopbanen, teneinde de mogelijke levensvatbaarheid van
een breder en diepgaander studie naar de effecten van onderwijs- en andere kenmerken
Van verschillende niveaus (school, wijk, gemeente, nodaal gebied, sociaal-economische
regio, etc.) op de individuele schoolloopbanen vast te stellen.

Wij menen dat in dit onderzoek aangetoond is dat sommige lokale onderwijsparticipatie
variabelen (hoe gebrekkig gemeten ook) effect hebben op verschiUende momenten in de
individuele schoolloopbaan, dat deze gevonden effecten goed interpreteerbaar zijn en van
niet-toevallige aard zijn en dat derhalve een breder en diepgaander studie naar deze effec-
ten geboden is.

Het zal duidelijk zijn dat een dergelijke studie ook maatschappelijke en politieke conse-
quenties kan hebben, met name voor het functioneren van de planprocedure. Een derge-
lijk onderzoek zal afwijken van het thans gebruikelijke onderzoek dat in het kader van de
planprocedure door het KASKI en het CBS wordt uitgevoerd.

Onlangs heeft het CBS de eerste mededehng gepubliceerd over haar nieuwe voortgezet on-
derwijs cohort (CBS, 1979). Dit cohort, dat ruim 30.000 leerlingen omvat, zal alvast de
hele schoolloopbaan van deze leerlingen omvatten. Ook zijn er gegevens over hun ouders
(beroepsniveau, onderwijsniveau, etc.), over psychologische kenmerken van de leerlingen
(CITO-toets; IQ-score; PMT-score), over de exacte woonplaats van de leerlingen en over
de school van de leerling.

Deze gegevens bieden de gelegenheid voor een bredere en meer diepgaande muhi-level

analyse. Met behulp van de school- en de woonplaatsgegevens kunnen verschillende ni-
veaus vastgesteld worden: wijk, gemeente, nodaal gebied, sociaal-economische regio, pro-
vincies, landdeel.

Hetzij door aggregatie van individuele gegevens naar deze verschillende niveaus, hetzij
door het toevoegen van gegevens uit andere broimen, kunnen de relaties tussen de moge-
lijke variabelen van de verschillende sociale niveaus en van het individuele niveau vastge-
steld en geanalyseerd worden.

De voorlopige resultaten van dit onderzoek kunnen dan getoetst en wellicht verder uitge-
bouwd worden.

De gevolgen van wijk-, gemeente- en regio-ongelijkheid voor de ongehjkheid van kansen in
het onderwijs kunnen dan beter vastgesteld worden.

Deze studie zal dan tevens een beter antwoord geven op een van de eerste vraagstukken
waarvoor de Nederlandse onderwijssociologie werd gesteld, n.1. de oorzaken van de toen-
malige geringe deelname van de Noord-Brabantse jeugd aan het voortgezet onderwijs in
vergelijking met die in de overige provincies (Matthijssen en Sonnemans, z.j.).

land- en ongeschoolde handarbeid; geschoolde handarbeid; boeren en tuinders; zelfstandige mid-
denstand; uitvoerende hoofdarbeid; middenkader; academische vrije beroepen en leidinggeven-
den.

De volgorde van deze categorieën wijkt af van de gebruikelijke (zie b.v. Dronkers, 1978) ten ein-
de een optimale lineariteit te bereiken, overeenkomstig dc resultaten van Dc Leeuw en Stoop
(1979). Deze noodzakehjke hercoderingcn, bedoeld om een optimale lineariteit te bereiken, zou-
den nog eens afzonderlijk bestudeerd moeten worden op hun theoretische implicaties, wat de
Leeuw en Stoop (1979) helaas nalaten.

lager onderwijs of voortgezet lager onderwijs; lager beroepsonderwijs; alleen vakcursussen; ulo;
middelbaar beroepsonderwijs; v.h.m.o.; h.b.o. of w.o. (zic ook de opmerkingen bij beroepsniveau
vader)

alleen lager onderwijs of voortgezet lager onderwijs; lager beroepsonderwijs; alleen vakcursussen;
middelbaar beroepsonderwijs; u.l.o.; v.h.m.o.; h.b.o. of w.o. (zie ook dc opmerkingen bij beroeps-
niveau vader)

4. De categorieën van de variabele aantal kinderen in het ouderlijk gezin waren:

twee kinderen; vier kinderen; één kind; drie kinderen; vijf kinderen; zes kinderen; zeven kinderen;
acht kinderen; negen of meer kinderen, (zie ook de opmerkingciï bij beroepsniveau vader)

6. Hiervoor hebben wij vijf variabelen gebruikt die per combinatie van provincie en urbanisatiegraad
(gebruikt als vervanging van de gemeente) de percentages leerlingen die die combinatie een be-
paald type secundair onderwijs bezochten in verhouding tot alle leerlingen in die combinatie (zie
verder paragraaf 5)

7. Ouderlijke belangstelling in schoolvorderingen is een dichotome variabele: geen sterke belangstel-
ling; sterke belangstelling.

8. Het belang beroepskeuze meisjes volgens de ouders is gemeten met een vijf-puntsschaal (onbelang-
rijk, zeer belangrijk). <■

9. Zitten blijven is een dichtome variabele: niet blijven zitten; een of meermaal blijven zitten.
10. De categorieën van het onderwijzersadvies zijn:

11. De prestatiescore v.h.m.o. (afgeleid uit de Nederlandse Onderwijs Differentiatie Test, NDT) om-
vat: 1) Rekentest; 2) Geschiedenistest; 3) Intelligentietest (progressieve matrix); 4) Snelheid- en
nauwkcurigheidstest; 5) de som van rapportcijfers voor rekenen, taal, geschiedenis, en aardrijks-
kunde.

12. De categorieën van het eerste schooltype na l.o. zijn: geen verder dagonderwijs; v.g.l.o.; l.b.o.;
u.l.o.; v.h.m.o. ogm.m.s.

13. Deze variabele is de som van de scores op vragen over de aanwezigheid van extracurriculairc ac-
tiviteiten: schoolbibliotheek; excursies; leerlingenraad; sclioolclubs; schoolblad.

14. Ouderlijke instemming is een dichotome variabele: het kind had een andere keus moeten maken;
het kind heeft het onderwijs gevolgd dat voor hem of haar het beste is.

15. De categorieën van de variabele 'hoogst bereikt onderwijsniveau' zijn: alleen l.o.; v.g.l.o. zonder
diploma; v.g.l.o. met diploma; l.b.o.; brugklas Ie jaar; ulo, mavo, havo, mms Ie, 2e of 3c klas/
l.b.o. 2e, 3e of 4c klasA-b.o. met diploma/vhmo Ie of 2e klas; ulo, mavo, havo, mms 4e klas/
vhmo 3c' klas/ulo, mavo met diploma; havo, mms zonder of met diploma/vhmo 4e, 5c of 6e klas
zonder diploma; hbs met diploma; gymnasium, atheneum met diploma, (zie ook de opmerkingen
bij beroepsniveau vader)

Bosman, R., Louwes, W. en van der Meer, A. Sexe, School, Beroep, ORD paper, 1980.

C.B.S., Typologie van de Nederlandse gemeenten naar urbanisatie-graad 31 mei 1960, Zeist, 1964.

C.B.S., Mededeling nr. 76 99, Schoolloopbaan en herkomst van leerlingen bij voortgezet onderwijs

1977Ins. Voorburg, juli 1979.
Collaris, J.W.M., Kropman, J.A. Van Jaar tot Jaar, tweede fase. Nijmegen; I.T.S., 1978.
Contouren van een toekomstig onderwijsbestel. Tweede kamer, zitting 1974-1975, nr. 13459, 2.
Contouren van een toekomstig onderwijsbestel 2 (vervolgnota). Tweede kamer, zitting 1976-1977, nr.
14435, 2.

Dessens, J. en Jansen, W. Van Jaar tot Jaar: een commentaar op Dronkers en een analyse op interac-
ties.'in: Mens en Maatschappij, 1979 54, 87-100.
Dessens, J., Jansen, W. en Swanborn, P.G. Padanalyse: uitgangspunten en basisbegrippen. Mens en

Maatschappij, 1974, 49, 157-185.
Dronkers, J. Manipuleerbare variabelen in de schoolloopbaan. In: J. Peschar en W. Ultee, Sociale Stra-
tificatie, Deventer: Van Loghum Slaterus, 1978 (Boeknummer Mens en Maatschappij).
Dronkers, J. en Jungbluth, M.M.M. Schoolloopbaan cn geslacht. De invloed van geslacht op de school-
loopbaan van het Nederlands primair cn secundair onderwijs. Amsterdams Sociologisch Tijdschrift,
1979, 6, 6-50.

F-eden, P. van den. Enige opmerkingen over multi level research. Syllabus t.b.v. een studiedag over
muiti level research, georganiseerd door dc Vereniging voor Onderwijs Research (Utrecht, 15 sep-
tember 1978).

EUemers, J.E., Veel kunnen verklaren of iets kunnen veranderen: krachtige versus manipuleerbare

variabelen. Beleid en Maatschappij, 1976, 53, 5-39.
Heek, F. van, e.a. Het verborgen talent: milieu, schoolkeuze en schoolgeschiktheid. Boom: Meppel,

Hummell, H.J. en Opp, K.D. Die Reduzierbarkeit von Soziologie auf Psychologie, Braunschweig:

De Jonge, J. De praktijk van de planprocedure. In: L. Box, J. Dronkers, M. Molenaar e.a. (red.). Vrij-
heid van Onderwijs. Nijmegen: Link 1977.
Kemenade, J.A. van. Kropman, J.A. Verborgen talenten? Kritische kanttekeningen bij onjuiste inter-
pretaties. Socio/o^iscAe G/c/s, 1972, i 9, 219-228.
Kley, P. van der, Wesselingh, A. (red.). Onderwijs en maatschappelijke ongelijkheid. Boeknummer

Kropman J A en Collaris, J.W.M. Van Jaar tot Jaar, onderzoek naar de school- en beroepscarrière van

jongens en meisjes die in 1965 het lager onderwijs verlieten, eerste fase. Nijmegen: ITS, 1974.
Leeuw, J. de, en Stoop, J. Secondaire analyse 'Van Jaar tot Jaar' met behulp van niet-lineaire multi-

variate technieken. In: J.L. Peschar (red.), Van achteren naar voren, achterstandsituaties in het on-
derwijs. 's Gravenhage: Staatsuitgeverij, 1979.

Matthijssen, M.A.J.M., Sonnemans, G.J.M. Schoolkeuze en schoolsucces bij v.h.m.o. en u.l.o. in Noord
Brabant. Tilburg. Uitgeverij Zwijsen, z.j.

Meynen, W. Schoolkenmerken en milieuspecifieke leerprestaties, In: J.L. Peschar (red.). Van Achteren
naar voren, achterstandssituaties in het onderwijs, 's Gravenhage: Staatsuitgeverij, 1979.

Mooy, T. Multi-Ievel onderzoek van samenwerking in het part-time onderwijs. Mens en Maatschappij,
1980, 55, 148-169.

Nie, N.H., Huil, C.H., Jenkins, J.G., Steinbrenner, K., Bent, D.H., SPSS, Statistical Package for the
social sciences, second edition. New York: Mc. Graw-Hill, 1975.

Regionale doorlichting van Nederland, Ministerie van CRM, Stafbureau Statistiek, Statistisch cahier
13, november 1973.

Santema, M. Enkele nieuwe onderzoekscentra in de Bondsrepubliek. Pedagogische Studiën, 1977, 54,
362-365.

Swanborn, P.G. Schoolkenmerken en leerlinggedrag, enkele methodologische merkwaardigheden in
het onderzoeksbedrijf. Mens en Maatschappij, 1978, 53, 209-216.

Vergoossen, TIi.W.M., Wever, E. Regio, onderwijs en K.U., Geografisch en Planologische Instituut
K.U.N., november 1978.

Vervoort, C.E., Het talentproject- en daarna. In: R.F. Beerling, J.K.M. Gevers, H. Philipsen (red.).
Onderzocht en overdacht. Boeknummer Mens en Maatschappij, Universitaire pers Rotterdam, 1972.

Voster, W. De cultureel-geografische indeling van Nederland, Universitaire Pers Rotterdam, 1967.

Instituut voor Pedagogische en Andragogische Wetenschappen, Rijksuniversiteit te Utrecht

Evaluatieuitkomsten van onderwijsprogramma's staan als regel ter diskussie. Die diskussie
wordt vaak fel gevoerd, en niet slechts als er politieke belangen of overtuigingen in het
spel zijn. Ook om onderzoekstechnische kwesties wordt gestreden. Voor zover die geen
puur 'akademische' aangelegenheden betreffen zullen echter juist verschillen in belangen
of overtuigingen voor de felheid zorgen. Die verschillen zijn dan als het ware ingekapseld
in het wetenschappelijke jargon en daardoor soms verminderd herkenbaar. Dat besten-
digt dan de diskussie, maar bevordert haar niet.

Een voorbeeld van zo'n onderzoekstechnische kwestie die bij onderwijsevaluatie bijna
onontkoombaar een politieke lading krijgt is de beruchte 'statistische regressie naar het
gemiddelde'. We hoeven slechts te verwijzen naar de evaluatie van Head Start als voor de
hand Üggend en duidelijk voorbeeld (zie b.v. Campbell and Erlebacher, 1970; CicirelH,
1970).

Er zijn verschillende aanleidingen om aan genoemd verschijnsel aandacht te besteden, op
dit moment, en in een tijdschrift als T.O.R. Zo is de diskussie hieromtrent, gevoerd m de
eerste jaargang, wel gestopt maar niet echt afgesloten (zie Groen (1975), De Groot en Van
Peet (1975, 1976), Peschar (I976a-hb)). Verder is dit jaar een beleidsmatig belangrijk
gevonden onderzoeksprojekt afgerond, het zgn. GEON-projekt, bij de evaluatie waarvan
'statistische regressie' ook een rol heeft gespeeld. Tenslotte is, zoals bekend, 'regressie'
ook een kernpunt in de diskussie over de erfelijkheid van intelligentie (zie b.v. Hogben
(1957), Kempthorne (1978), Vroon (1978)). In die laatste diskussie willen we hier na-
drukkelijk niet treden, aangezien die op zich niets te maken heeft met datgene waar we
het hier over willen hebben.

Ons belangrijkste motief voor deze bijdrage is gelegen in de bijna mystieke wijze waarop
soms statistische uitspraken met ontologische pretenties worden aangekleed. Naar onze
smaak wordt de funktie van onderzoeksprocedurele faktoren daarbij dan schromelijk
veronachtzaamd.

We zullen bij wijze van illustratie hier en daar aanhaken bij de eerdere TOR-diskussie en
kort ingaan op de evaluatie van het GEON-projekt.

Voor een eerste aanduiding van wat regressie naar het gemiddelde nu eigenlijk is, kunnen
wc volstaan met te zeggen dat aanvankelijk extreme skores in tweede instantie dichter bij
het gemiddelde blijken te liggen, in termen van de respektievelijke standaardafwijkingen.
Hierbij gaat het om dezelfde of althans bijeen horende onderzoeksobjekten; bij skores
hoeft niet direkt aan een test gedacht te worden; een tweede meting hoeft niet van
hetzelfde instrument gebruik te maken. Kort gezegd: lage relatieve posities stijgen, hoge
dalen.

— regressie bij herhaalde meting bij één persoon (door hem 'regressie binnen het individu'
genoemd);

De eerste vorm van regressie is feitelijk een konsekwentie van het gedrag van een toevals-
variabele. De tweede vorm speelt een rol in het eerder genoemde erfelijklieidsonderzoek
(kinderen worden daarbij met hun ouders vergeleken); zoals gezegd gaan we daar niet
verder op in. De derde variant is hier het meest relevant. Als aanvankelijk lage skores
stijgen en dat door andere faktoren dan de experimentele interventie kan zijn veroor-
zaakt, ontstaat voor evaluatie van onderwijsprogramma's een lastig probleem. Een effekt
kan dan namelijk een artefakt zijn.

Thorndike wijdde reeds in 1942 een grondig artikel aan regressie als probleem, namelijk
bij wat hij noemde 'matched groups experiments'. Wij doen hier voor een deel niet meer
dan in herinnering brengen wat Thorndike schreef over de voorwaarden voor het optreden
van regressie. Weliswaar ging het hem er primair om of de regressie verschilt in te vergelij-
ken groepen, maar waar het om genoemde voorwaarden gaat, is zijn tekst in principe
volledig. We richten ons verder vooral op experimenten met groepen, geëvalueerd met
behulp van tests. Samengevat komt de situatie waarin regressie optreedt dan op het
volgende neer. Als skores bij een voormeting extreem laag liggen ten opzichte van het
gemiddelde en men kiest de 'cases', bijvoorbeeld kinderen, die zulke skores behaalden, uit
op grond van die extremiteit, in het bijzonder: voor experimentele beïnvloeding, terwijl
de meetbetrouwbaarheid van de voormeting niet perfekt was, dan mag men verwachten
dat hun skores bij een tweede meting sowieso hoger uitvallen (omdat men dan heeft
gekapitaliseerd op negatieve meetfouten), zodat een eventuele vooruitgang niet (geheel)
aan de interventie mag worden toegeschreven. (Zie ook Bereiter, 1967; Campbell and
Erlebacher, 1970; Roskam en Van der Sanden, 1974; Molenaar en Thomas, 1978;Hind-
ley and Owen, 1978).

Het hier geschetste regressie-probleem treedt op onder een tweetal voorwaarden: meeton-
betrouwbaarheid bij de eerste meting, en een keuze van extreem skorende cases tussen
eerste en tweede meting. Er zijn ook twee belangrijke effekten. Ten eerste: bij het
trekken van konklusies aangaande de effektiviteit van een programma zal men zoals we al
aanduidden rekening moeten houden met de mogelijkheid dat de vooruitgang (deels) een
artefakt is. In de tweede plaats zal men kunnen konstateren dat de korrelatie tussen eerste
en tweede meting kleiner dan 1 is.

Het niet perfekt korreleren van twee meetmomenten, in het bijzonder: tussen voor- en
natest, is een algemener verschijnsel. Korrelaties vallen lager uit naarmate het interval
tussen beide meetmomenten groter is, en naarmate de eerste afname op jongere leeftijd
plaatsvindt. Zie onder meer Hindley and Owen (1978) en Roskam en Van der Sanden
(1974). De verklaringen hiervoor zijn bekend (Hindley and Owen, 1978, p. 347; Vroon,
1978, p. 289):

Zeiden we hierboven al dat in een situatie waarin regressie optreedt de interkorrelatie
tussen beide metingen kleiner dan 1 is, nu zien we dat één van de twee voorwaarden voor
het optreden van regressie als probleem, namelijk een onbetrouwbare meting, ook geldt
als voorwaarde voor niet perfekte interkorrelatie. Een en ander wil echter niet zeggen dat
we met 'onbetrouwbare eerste meting' en 'niet-perfekte interkorrelatie' in feite tweemaal
hetzelfde uitdrukken. Een niet-perfekte interkorrelatie kan samengaan met een perfekte
meetbetrouwbaarheid, namelijk als je beide keren niet hetzelfde meet, of als de kinderen
verschillend veranderd (eventueel: beïnvloed) zijn. Waar het nu om gaat is dat waar de
interkorrelatie kleiner dan 1 is, 'regressie naar het gemiddelde' gekonstateerd kan worden.
Dat is uiteraard onvermijdelijk. Als er echter geen reden is om aan de meetbetrouwbaar-
heid (van de eerste afname) te twijfelen, of als extremiteit geen selektiekriterium was (zie
boven), dan mag men niet van een regressie-artefakt spreken. Alleen al op grond van een
niet-perfekte korrelatie tussen eerste en tweede meting ziet men regressie optreden, alleen
gaat het dan om een mathematisch verschijnsel, los van mogelijke substantiële oorzaken.

Het ligt voor de hand om in die situaties waarin statistische regressie naar het gemiddelde
een vertroebelende faktor is te proberen op het vlak van de berekeningen een of andere
korrektie toe te passen. Motto: dan ben je meteen van alle gezeur af. Bereiter (1967,
pp. 3, 9) spreekt echter niet voor niets van een 'over-correction-under-correction-dilem-
ma'. Hij stelt ons inziens terecht dat men de diskussie dan alleen maar verschuift naar de
keuze van een betrouwbaarheidskoëfficiënt respektievelijk korrektieformule. De volgende
passage verdient geciteerd te worden:

The present state of the dilemma may be fairly illustrated by Garside's (1956) article in which three
methods of solving for the regression of gains on initial scores are discussed, his own and two others.
All three methods have a certain plausibility, but with one method the regression estimate increases as
the correlation between pretest and post-tests increases, with another it decreases, and the third
method is indifferent to this correlation.

Zie ook Cronbach (1976, pp. 6, 8). Met andere woorden: als men niet oppast korrigeert
men het experimentele effekt weg. Dat gebeurt als men ten onrechte korrigeert (zonder
selektie op extremheit van aanvankelijke skore géén 'regressie' als artefakt-veroorzaker).
En het kan gebeuren als men verkeerd korrigeert. Hindley and Owen (1978, p. 347)
stellen terecht dat

correction for test unreliability substantially reduces regression effects only when they are in any case
relatively small because the correlation between scores at two ages is high. This tends to occur over
shorter intervals. Most of the larger regression effects are attributable predominantly to a mixture of
(b) and (c) (bedoeld worden verschuivende testsamenstelling en werkelijke ontwikkelingsverschillen,
K.S.), which cannot be disentangled here.

Slotsom: korrigeren voor meetonbetrouwbaarheid is nog lang geen korrigeren voor regres-
sie, en zelfs van het eerste staat niet vast hoe dat zou moeten.

Korrigeren voor regressie is minder urgent als er slechts in geringe mate van regressie
sprake is. Hindley en Owen lijken te bedoelen (zie boven) dat regressie voor zover veroor-
zaakt door meetonbetrouwbaarheid niet zo'n vaart loopt. Naarmate de meetbetrouwbaar-
heid hoger is en naarmate de extremiteit geringer (en: als selektie plaatsvindt op een
andere, maar gerelateerde variabele, naarmate die variabele en de eerste skore minder
korreleren (zie Thorndike, 1942, pp. 94-97)) kan minder sprake zijn van regressie als
probleem (zie ook Campbell and Erlebacher, 1970, p. 194.)

Er zijn aanwijzingen dat in evaluatie van onderwijsprogramma's regressie als probleem niet
zo'n grote rol speelt, zie bijvoorbeeld Cicirelli (1970, p. 212). Dat is ook de slotkonklusie
van Peschar (1976) in de TOR-diskussie uit '75-'76.

Ook de GEON-gegevens laten zich in die richting interpreteren. We hebben dan ook
korrektie achterwege gelaten. Dat werd ook ingegeven door de gunstige indruk die we van
de meetbetrouwbaarheid kregen, de problemen bij de keuze van een eventuele korrektie-
formule (zie boven), de problemen bij het gebruik van een korrektieformule (hierop
komen we straks nog terug), en het feit dat we in het projekt werkten met ingebouwde
replikaties. (De redenering was: het zou wel zéér toevallig zijn als effekten zich onder
verschillende omstan4igheden herhalen en toch steeds een regressie-artefakt zouden zijn).
Toch hebben we aanvankelijk, in 1974-1975, bij de keuze van het onderzoeksdesign, zo
goed mogelijk rekening proberen te houden met de valkuil 'statistische regressie'. Een
korte schets. Op de projektscholen kregen niet alle kinderen evenveel (extra) aandacht. Er
waren bijvoorbeeld series extra aktiviteiten waaraan een steeds weer opnieuw door middel
van een toets te bepalen groepje kinderen meedeed (zij die dat het hardste nodig leken te
hebben; het oordeel van de leerkracht speelde overigens ook een rol bij deze procedure).
Na afloop werd dezelfde toets gebruikt voor evaluatiedoeleinden. Dit is precies de situatie
waarin men een 'regressie-effekt' mag verwachten. Maar dat betekent dat men geboekte
vooruitgang niet zomaar mag toeschrijven aan de extra aktiviteiten die ondernomen wer-
den. Daarom is ook op vergelijkingsscholen steeds eveneens een soortgelijke 'doelgroep'
getoetst. Daarmee is getracht een 'baseline' te kreëren waarbij wèl sprake is van de
mogelijkheid van regressie, maar niet van een experimenteel effekt.
Aan het doorwerken van elke serie aktiviteiten zaten ook trainingsfacetten voor de leer-
kracht. We verwachtten dat toename van bepaalde vaardigheden haar werk in het alge-
meen ten goede kon komen. Om dat na te gaan is steeds ook een gemiddelde vooruitgang

per klas/school bepaald (om tijd te besparen door middel van steekproeven); ook dat
gebeurde eveneens op de vergelijkingsscholen.

Er werden dus gegevens verzameld op projekt- zowel als vergelijkingsscholen, van 'doel-
groepen' zowel als steekproeven, vooraf zowel als achteraf.

Hetzelfde design werd ook gehanteerd over de gehele periode (van twee jaar) dat projekt-
scholen werden begeleid, waarin naast de genoemde series op kinderen gerichte aktivitei-
ten met name ook in-service trainings kursussen werden gebruikt. Door middel van een
test werd via dat design een maat verkregen voor een 'overall-effekt' van GEON (dat is:
voor het gehele pakket aan aktiviteitenseries en in-service trainingskursussen).
Nadere informatie over de onderzoeksopzet en het trainingsprogramma kan men vinden
in de in dit jaar (1980) in het tijdschrift 'Pedagogische Studiën' verschijnende artikelen-
reeks. Op de geschetste manier kan men proberen enigszins zicht te krijgen op het belang
van de volgende faktoren:

1. De ontwikkeling van de kinderen als ze op een kleuterschool gaan: de vooruitgang in
de skores van de steekproef op de vergelijkingsscholen.

2. De mate van betrouwbaarheid van het instrument, resp. de ernst van het regressiever-
schijnsel: wat de doelgroep op de vergelijkingsscholen meer vooruitgaat dan de steek-
proef op de vergelijkingsscholen.

3. Het effekt van het zitten in een klas waar de leidster begeleiding vanuit het projekt
ontvangt (de in-service training): wat de steekproef op de projektscholen meer vooruit-
gaat dan de steekproef op de vergelijkingsscholen.

4. Het effekt van de extra aktiviteiten: wat de doelgroep op de projektscholen dan nog
extra vooruitgaat.

Uiteraard blijven er ook in een dergelijke opzet problemen: het wordt bijvoorbeeld al
weer wat minder plausibel dat een vergelijkingsbasis voor het regressieverschijnsel is ge-
vonden als de vergelijkingsdoelgroep bij voorafname niet zó extreem laag blijkt te skoren
als de projektdoelgroep. Als men bij de schoolkeuze die scholen voorrang laat hebben die
de begeleiding het hardste nodig hebben doet zich deze moeilijkheid gemakkelijk voor. In
het projekt had een dergelijke schoolkeuzeprocedure dan ook herhaaldelijk dat effekt.
(Zie ook Stokking, 1980a).

ten aanzien van de genoemde fóersgegevens is ongetwijfeld sprake geweest van een zeker
regressie-artefakt. De toetsjes waren niet geweldig betrouwbaar en de selektie op extreme
beginskores was evident. We menen echter dat het ten aanzien van de resrgegevens (óók)
in GEON met die regressie (als probleem) niet zo'^n vaart loopt, en wel op de volgende
gronden:

1. De meetbetrouwbaarheid was gunstig; interne konsistentiebeoordehngen gaven vrijwel
zonder uitzondering zeer hoge uitkomsten te zien.

2. Er is niet geselekteerd op basis van extreme skores. Onze projektscholen (en overigens
ook de vergelijkingsscholen) werden gekozen via een schoolkeuzeprocedure waarin
alleriei kriteria een rol spelen, maar géén testskores. En op de scholen zijn steekproeven
getrokken. De 'doelgroepen' die daarnaast werden gehanteerd werden gevormd op
aanwijzing van de kleuterieidsters, en niet op basis van de voortestgegevens (zoals bij
de toetsjes het geval was). Weliswaar is er samenhang tussen schoolkeuzekriteria en
leidstersoordelen aan de ene kant en testgegevens aan de andere, maar door de laatste
niet zélf als keuzekriteria te hanteren vermindert de mogelijkheid van regressie door
kapitaUsatie op negatieve meetfouten.

3. We zien dat de doelgroep op de projektscholen met hun natestskores gemiddeld dich-

ter bij de steeicproef (klasgemiddelde) komt te liggen, terwijl het verschil tussen doel-
groep en steekproef op de vergelijkingsscholen juist toeneemt. (Uitgaande van de 'fan-
spread' hypothese van Campbell and Erlebacher (1970) zou men het omgekeerde
verwachten!).

4. Hoewel kinderen van vaders met diverse beroepen gemiddeld per kategorie kwa voor-
testskore verschillen (kinderen van arbeiders skoren lager), zien we geen duidelijke
verschillen tussen de kategorieën in verschil tussen voor- en natest.
We vestigen er de aandacht op dat de eerste twee van bovenstaande argumenten procedu-
reel van aard zijn; de laatste twee gaan uit van de verkregen gegevens.

Waardoor kan meetonbetrouwbaarheid een voorwaarde voor regressie zijn? Meetfouten
zijn toch normaal verdeeld, respektievelijk een volkomen toevallige aangelegenheid? Berei-
ter (1967, p. 3) verklaart het zojuist genoemde uit een 'spurious negative element in the
correlation of an mitial score with gains on the same test, because of the sharing (with
opposite sign) of the same errors of measurement...'. De assumptie hierbij is, dat extreme
skores vooral fouten bevatten die ze extreem gemaakt hebben. We zien nu het belang van
de eerder genoemde voorwaarde van selektie op extremiteit. Meetonbetrouwbaarheid is
géén voldoende voorwaarde voor regressie als probleem, als oorzaak van een artefakt: als
er geen sprake is van selektie op extremiteit, is er geen reden om uit te gaan van een
'spurious negative element'. (Zoals meestal gaat het in dit soort diskussies om regressie
vanuit extreem lage skores. Lord (1967, p. 23) geeft een voorbeeld van regressie 'van twee
kanten').

Meetonbetrouwbaarheid is vervolgens geen nodige voorwaarde voor regressie als verschijn-
sel We zagen al dat perfekte meetbetrouwbaarheid samen kan gaan met een niet perfekte
interkorrelatie tussen de twee metingen. (Overigens geldt zelfs het voldoende zijn van een
niet perfekte korrelatie voor het optreden van het regressieverscliijnsel slechts onder
kondities: de vanzelfsprekendheid waarmee we over regressie spreken komt voort uit de
alomtegenwoordigheid van unimodale-symmetrische verdelingen. Dan geldt de assump-
tie die we eerder in déze paragraaf maakten, namelijk, dat extreme skores vooral fouten
bevatten die ze extreem gemaakt hebben, eenvoudig omdat gemiddelde skores het meest
waarschijnlijk zijn. Vergelijk ook Stein's paradox (Efron and Morris, 1977).)
Tenslotte: in de al herhaaldelijk aangestipte TOR-diskussie stond regressie naar een 'waar'
gemiddelde centraal, niet zozeer naar een tweede meting; het ging niet om onderzoek naar
experimentele effekten. Als men een korrektie zou wiUen toepassen is echter de vaststel-
hng van dit 'ware' gemiddelde problematisch (zie ook Campbell and Erlebacher, 1970,
p. 195). Dat is het geval zelfs al gaat men van de gekonstateerde groepsgemiddelden uit.
In GEON bijvoorbeeld is niet hard te maken of men de gemiddelde skores voor de
projektscholen en de vergelijkingsscholen nu wel of niet apart moet nemen; met name de
vraag of de doelgroep in de twee experimentele kondities naar een gemeenschappelijk
gemiddelde regresseert (immers: het gaat in beide gevallen vooral om kinderen van arbei-
ders) of dat beide groepen elk naar een eigen gemiddelde regresseren (immers: het skore-
niveau op projekt- en vergelijkingsscholen verschilt) is niet beantwoordbaar.

In de eerdere TOR-diskussie over regressie fungeerde regressie als een verschijnsel dat
tegelijkertijd onontkoombaar èn spontaan optreedt. De Groot en Van Peet (1976, p. 136)
stellen:

Als men een kriterium gebruikt om groepen in te delen en dan een verschil in gemiddeld IQ tussen
die groepen vindt, dan treedt het regressie-effekt in werking (zelfs al is het kriterium willekeurig).

Dit doet denken aan Stein's paradox, maar die is niet van toepassing op een situatie met
slechts twee te schatten gemiddelden (Efron and Morris, 1977, p. 122). Ons inziens
vergeten De Groot en Van Peet dat men eerst nog op extremiteit zou moeten selekteren
(zoals bij matchen). Ze zullen immers niet bedoelen als, zeg, een verschil in gemiddeld IQ
gevonden wordt tussen mannen en vrouwen, dat verschil 'in werkelijkheid' (of: bij een
tweede meting) geringer uitvalt? Want wat voor redenen zijn er om zoiets aan te ne-
men? Deze kwestie is uiteraard gerelateerd aan het 'long-run' perspektief zoals dat bij
statistische analyse veelal wordt aangehouden. De rationale van een randomisatietoets
toont dat perspektief wellicht het duidelijkst. Waar het ons hier om gaat is dat we het dan
hebben over onderzoeksprocedures. De Groot en Van Peet spreken hierboven van regres-
sie op basis van uitkomsten (je vindt een verschil in gemiddelde). Regressie als effekt (hun
terminologie), dat is dus wat in deze notitie wordt aangeduid met regressie als probleem,
treedt echter niet op zonder dat sprake is van bepaalde konkrete ondexzoéksaktiviteiten.
Namelijk: de genoemde selektie op extremiteit.

Meer overwegingen betreffende de relatie tussen statistiekgebruik en onderzoeksproce-
dures zijn te vinden in Stokking (1979b).

Guttman (1976, pp. 1-2) schreef terecht dat mathematische termen geen reële betekenis
hoeven te hebben:

Non-mathematicians, who instead are prone to react to verbal labels as having meaning and implica-
tions apart from and beyond the designated technical concepts. For example, the term 'regression'
first arose in the context of Francis Galton's genetic research before the propagation of gene theory,
and has been retained by mathematicians ever since for something which has no necessary connection
with any genetic process, nor with any other kind of process.

True that it is desirable to have a single word for 'a set of conditional arithmetical means', but
retaining the word 'regression' for such a set gives non-mathematicians ideas of dynamic processes and
laws of nature in contexts for which these ideas are wholly erroneous.

Wat te doen als regressie wèl een serieus probleem vormt? Is er dan wel een adekwate
wijze van analyseren beschikbaar? Men gaat denken aan Lords bekende verzuchting
(1967, p. 38):

If as often happens randomized assignment is impossible, then there is often no way to determine
what is the appropriate adjustment to be made for initial differences between groups, and hence often
no way to show convincin^y by statistical manipulations that one treatment is better than another.

Waarschuwde Thordike (1942) voor regressie bij matchen, Campbell en Stanley (1963)

herhaalden dit maar wezen op de mogelijkheid van kovariantieanalyse. Campbell and
Erlebacher (1970) trokken die suggestie terecht schielijk weer in, omdat kovariantieana-
lyse geen oplossing biedt. Verder is het goed om op te merken dat 'regressie' maar één van
de vele problemen is in (kwasi-)experimenteel onderzoek. We presenteerden elders al een
lijst van meer dan 20 valkuilen bij het trekken van konklusies (zie bijvoorbeeld Stokking,
1980b).

10. Slotsom: Regressie als etiket, en de presentatie van sociaal-wetenschappelijke
onderzoeksgegevens

We denken dat onvoldoende wordt geëxpliciteerd dat regressie die uitsluitend gepaard
gaat met een niet perfekte korrelatie niet meer is dan een etiket. Dan is namelijk, ook bij
een perfekt betrouwbare eerste meting, de voorspelbaarheid van de tweede niet perfekt.
Regressie is dan een naam voor een gevolg van wat er gebeurd is (bijvoorbeeld: 'true
changes in relative ability'), en geen oorzaak van een artefakt, in de zin van een bedreiging
van een effektkonklusie.

Dat in GEON bijvoorbeeld naar onze mening regressie als probleem niet zo'n grote rol
speelt, wil niet zeggen dat er geen regressie plaatsvindt als verschijnsel. We moeten dan
echter terug naar andere oorzaken dan selektie op basis van een onbetrouwbare voorme-
ting. Lastig blijft ook, dat zodra 'regressie' eenmaal als kritiek is gevallen (zoals naar
aanleiding van de GEON-grafieken gebeurde op de onderwijs-researchdagen 1979; zie
Stokking 1979a) voor sommigen dat meteen alles kan verklaren. Toch is het de moeite
waard om onderscheid te maken tussen regressie als verschijnsel en regressie als probleem,
en om na te gaan in hoeverre van het laatste sprake is. Dat oordelen daarover alleen op
basis van vooronderstellingen zijn uit te spreken is daarbij onontkoombaar.

Bereiter, C. Some persisting dilemma's in the measurement of change. In Harris, Ch. W. {ed). Problems
in measuring change. London, 1967.

Campbell, D.T. and Stanley, J.C. Experimental and quasi-experimental designs for research on teach-
ing. Chicago, 1963.

Campbell, D.T. and Erlebacher, A. How regression artefacts in quasi-experimental evaluation can mis-
takenly make compensatory education look harmful. In Hellmuth, I. (ed). Disadvantaged child,
vol. 3, New York, 1970, 185-210.

Cicirelli, V.G. The relevance of the regression artefact problem to the Westinghouse-Ohio evaluation of
Head Start: A reply to Campbell and Erlebacher. In Hellmuth, I. (ed). Disadvantaged child, vol. 3.
New York, 1970, 211-215.

Cronbach, L.J. Research on classrooms and schools: formulation of questions, design and analysis.
Stanford, 1976.

Efron, B. and Morris, C. Stein's paradox in statistics. Scientific American, may 1977, 119-127.

Groen, H.K. Leerlingen uit verschillende sociale milieus hebben geen gelijke kansen, tijdschrift voor
Onderwijsresearch, 1975,7, 40-42.

Groot, A.D. de, en Peet, A.A.J. van. Enkele kanttekeningen bij het proefschrift van J.L. Peschar:
Milieu, school en beroep. Tijdschrift voor Onderwijsresearch, 1975,1, 36-39.

Groot, A.D. de, en Peet, A. van. Nogmaals de invloed van regressie-effekten. Tijdschrift voor Onder-
wijsresearch 1976,7, 133-137.

Guttman, L. What is not what in statistics.. Paper presented in Jerusalem, june 28,1976 (The Statisti-
cian, 1977,26, «1-107).

Hindley, C.B. and Owen, C.F. The extent of individual changes in IQ for ages between 6 months and
17 years, in a British longitudinal sample. Journal of child psychology and psychiatry, 1978, 19,
329-350.

Hogben, L. Statistical theory. The relationship of probability, credibility and error. New York, 1957.
Kempthorne, O. Logical, epistemological and statistical aspects of Nature-Nurture data interpretation.

Biometrics 1978, 34, 1-23.
Lord, F.M. Elementary models for measuring change. In Harris, Ch. W. (ed). Problems in measuring
change. London, 1967.

Molenaar, I.W. en Thomas, A. Psychometrics in subgroups, or Regression to the mean revisited.

Tijdschrift voor Onderwijsresearch, 1978,5, 152-160.
Peschar J. De invloed van regressie-effekten in het Milieu-School-Beroep onderzoek: Een antwoord

aan A.D. de Groot en A.A.J. van Peet. Tijdschrift voor Onderwijsresearch, 1976a, 1, 49-58.
Peschar, J. Andermaal de invloed van regressie-effekten. Tijdschrift voor Onderwijsresearch, 1976b, 1,

Roskam, E.E. en Sanden, A.L.M. van der. Factor-analytische modellen in longitudinaal onderzoek.

Nederlands tijdschrift voor de psychologie 1974, 29, 67-94.
Stokking, K.M. Evaluatieonderzoek in het GEON-projekt. Paper voor de ORD'79. In Peschar, J. (ed).

Van achteren naar voren. Den Haag, 1979a, 212-283.
Stokking, K.M. Toetsend Onderzoek. Dissertatie, Groningen, 1979b.

Stokking, K.M. Evaluatieonderzoek inservicetraining GEON-projekt. Paper voor de onderwijsresearch-
dagen, 1980a.

Stokking, K.M. De evaluatie-aanpak in Pedagogische Studiën, 1980b, 57, 182-194.

Thorndike, R.L. Regression fallacies in the matched groups experiment. Psychometrika, 1942, 7,

Vroon, P.A. Enkele kanttekeningen bij het onderzoek naar de herkomst van intelligentieverschillen.

Een research-overziciit betreffende de effecten van grammaticaonderwijs en een verslag
van een onderzoek naar de praktijk van dit onderwijs in Nederland.
SVO-reeks no. 17,'s-Gravenhage: Staatsuitgeverij 1979.

Dit deeltje uit de SVO-reeks is het interim-rapport van een onderzoek, dat aan het Research Insti-
tuut voor Toegepaste Psychologie te Amsterdam door A. Tordoir en H. Wesdorp werd uitgevoerd.
In Nederland is nooit eerder onderzoek gedaan naar het nuttig effect van het onderwijs in de traditio-
nele grammatica.

Deze grammatica is overigens al decennia lang voor onze schrijvers over moedertaalonderwijs een om-
streden zaak, zeker waar het betreft het lager onderwijs. Een recent voorbeeld hiervan geeft het 'Ad-
vies over het grammatica-onderwijs in de lagere school' van de Adviescommissie voor leerplanontwik-
keling moedertaal (ACLO-M), dat in het najaar van 1978 verscheen (1).

Dit advies spreekt zich uit tegen het op zichzelf staande, systematische, gebruikelijke grammatica-on-
derwijs in de lagere school.

Het onderzoek van Tordoir en Wesdorp was al vóór die tijd gestart; het rapport van beide auteurs en
hun mogelijk voortgezet onderzoek kunnen echter belangrijke bijdragen leveren tot de discussie over
dit aspect van het moedertaalonderwijs, te meer omdat de onderwijzers en leraren uit hun steekproe-
ven over het algemeen enigszins anders denken over het nut van grammatica-onderwijs dan de ACLO-M.
Wesdorp deed in een artikel in Levende Talen (2) een poging om de eerste resultaten van het onder-
zoek van Tordoir en hemzelf te vergelijken met de argumenten van het advies van de ACLO-M, niet om
deze argumenten aan te vechten maar om ze waar mogelijk te ondersteunen. Hij pleitte in dit artikel
onder meer voor het verzamelen van feitenmateriaal; daar is behoefte aan: meningen zijn er genoeg (3).

- Is het (traditionele) grammatica-onderwijs of (modernere) taalbeschouwingsonderwijs nuttig?

- Is aantoonbaar, dat het grammatica-onderwijs behalve directe 'grammaticale doelen' ook verder lig-
gende 'uitemdelijke doelstellingen' bereikt?

Het rapport omvat een voorstudie die antwoord geeft op een aantal vragen die voor de opzet van het
hoofdonderzoek (rondom de kwestie: Is grammatica-onderwijs nuttig?) van belang zijn. Deze vragen
worden in de hoofdstukken 1, 2 en 3 beantwoord. Het 4e en laatste hoofdstuk geeft een summiere
schets van mogelijk vervolgonderzoek met een argumentatie voor de keuze van prioriteiten.

In het eerste hoofdstuk wordt ingegaan op de vraag: 'Welke motieven worden in de meer theoretisch
gerichte literatuur, met name de Nederlandse, naar voren gebracht voor het geven van traditioneel en
eventueel anders gericht grammatica - of taalbeschouwingsonderwijs?' (Traditioneel ontleden en
woordbenoemen; alternatief -> transformationeel-generatieve grammatica, taalkunde-onderwijs en
taalbeschouwingsonderwijs.) De meest genoemde motieven bij voorstanders van de traditionele en
transformationeel-generatiev^ grammatica bleken te zijn: grammatica-onderwijs ten behoeve van de
taalbeheersing, ten behoeve van het vreemde-talenonderwijs, ten behoeve van het logisch denken en als
interessant doel-op-zichzelf. Hierbij werden 'taalbeheersing' en 'vreemde talen' het meest genoemd.
Voorstanders van 'taalkunde'-onderwijs legden meer nadruk op motieven als: 'het is nodig als voorbe-
reiding op het tertiaire onderwijs' en 'het is van belang voor het inzicht in andere gebieden waarop taal
een grote rol speelt'.

Voorstanders van het 'taalbeschouwings'-onderwijs noemden motieven als: 'leerlingen inzieht verschaf-
fen in de alledaagse praktijk van het taalgebruik en de relatie taal - werkelijkheid, zodat deze als
bewuste taalgebruikers uiteindelijk invloed kunnen uitoefenen op de maatschappelijke verhoudingen'.

In het tweede hoofdstuk wordt getracht de vraag te beantwoorden: 'Welke onderzoeksresuhaten met
betrekking tot de effecten van grammatica-onderwijs heeft de research-literatuur te melden?'
Hierbij ging het om:

Met betrekking tot 1. wees de literatuur uit, dat de Nederlandse zesde-klasser een flink aantal gramma-
ticale termen op het gebied van woordbenoemen en zinsontleding kent en die op vrij verschillende ma-
nieren kan toepassen; waarschijnlijk hebben leerlingen in het voortgezet onderwijs een nog uitgebrei-
der grammaticale kennis. . .
Ad 2 werd gekonstateerd, dat vooral latere studies voldoende hoge correlatie-cocfficiënten te zien geven
tussen grammatica-onderwijs en taalbeheersing om als basis te dienen voor de hypothese, dat gramma-
tica-onderwijs dienstig is aan taalvaardigheidsonderwijs. De auteurs zijn echter geneigd hierbij vraagte-
kens te zetten.

Ad 3 is gebleken, dat deze invloed niet dbect kan worden aangetoond: de directe methoden - vooral
de methoden die'veel aandacht aan schrijfonderricht schenken zonder zich om grammaticale zaken te
bekommeren - zijn vaak superieur; maar in veel experimenten is geen verschil gekonstateerd tussen ef-
fecten van grammaticale en directe methoden.

In het derde hoofdstuk doen de auteurs verslag van een onderzoek naar de praktijk van het grammatica-
onderwijs in Nederland. Naast hun literatuuronderzoek aclitten zij enig inzicht in de praktijk een
noodzakelijke voorwaarde voor het nog op te zetten empirisch hoofdonderzoek.
De onderzoekers construeerden een enquête op basis van de volgende vragen:

a. Wat wordt er in Nederland in het basis- en vervolgens in het voortgezet onderwijs gedaan aan gram-
matica-, taalkunde- of taalbeschouwingsonderwijs?

c. In hoeverre bereikt dit onderwijs zijn onmiddellijke doelen (= kennis van grammaticale begrippen)?

De enquête werd verzonden aan a-selecte steekproeven van basisscholen en scholen voor lbo, mavo,
Havo en vwo, in totaal 1381 scholen. Na het versturen van de enquête werden in totaal drie rappel-
brieven verzonden. Dit alles leverde een zeer hoge verwerkbare respons op, nl. 87%!
De enquête was zodanig ingericht, dat ook scholen die een andere dan de traditionele vorm van gram-
matica geven erop konden reageren.

- In het Nederlandse onderwijs, althans in de scholen uit de steekproeven, wordt voornamelijk tradi-
tioneel grammatica-onderwijs gegeven; 'alternatier grammatica- of taalbeschouwingsonderwijs is
zeldzaam.

- In het Nederlandse onderwijs wordt vrij veel aandacht aan grammatica-onderwijs geschonken: in de
klassen 5 en 6 van het lager onderwijs gemiddeld ongeveer één uur per week, in de klassen 1 en 2
van HAVO en VWO gemiddeld één lesuur per week, in het LBO ongeveer 30 minuten per weck en
in het MAVO ongeveer 40 minuten per week in de klassen 1 en 2.

- In het Nederlandse onderwijs worden volgens de leerkrachten de directe grammatica-doelen (= kennis
van grammaticale begrippen) in een goed deel van de gevallen (> 75%) bereikt; de omvang van de
leerstoffen varieert per schooltype. De grammatica-leerstof is kennelijk niet te moeüijk voor dc leer-
lingen. j , ..,

- De argumentatie van het grammatica-onderwijs is voor de meeste praktijkmensen geen probleem;
zij argumenteren vooral vanuit het nut voor het vreemde-talenonderwijs en het moedertaal-onder-
wijs Bij het laatste zouden vooral spelvaardigheid, steWaardigheid en begrijpend lezen door de
grammaticalessen bevorderd worden. Het grammatica-onderwijs wordt dus gezien als dienstbaar
met betrekking tot taalbeschouwingsdoelen. Men vindt grammatica meestal geen zinvol doel op

Zoals in het tweede hoofdstuk reeds werd gekonstateerd, worden deze bevindingen niet in de on-
derzoeksliteratuur bevestigd, hierbij moet echter niet worden vergeten, dat in dc Nederlandse situa-
tie het grammatica-onderwijs doorgaans veel meer geïsoleerd is dan bijvoorbeeld in de V.S.

Tordoir en Wesdorp achten vervolgonderzoek naar het nuttig effect van grammaticaonderwijs gerecht-
vaardigd.

Er is een lange traditie op het gebied van de schoolgrammatica, maar er zijn ook aarzelende pogingen
om alternatieve vormen ingang te doen vinden.

Bij het vervolgonderzoek willen Tordoir en Wesdorp dan ook sterke nadruk laten vallen op twee aspec-
ten:

1. de vergelijking tussen de effectiviteit van traditioneel grammatica-onderwijs en van bepaalde vor-
men van alternatief grammatica-onderwijs;

2. de legitimering van het grammatica-onderwijs op grond van taalvaardigheid in de moedertaal en die
op grond van het nuttig effect voor het vreemde-talenonderwijs (met name de laatste is nog nergens
onderzocht).

1. ACLO-M, Advies over het grammatica-onderwijs in de lagere school, 's-Gravenhage, 1978.

2. Wesdorp, H., Het grammatica-onderwijs. Een vergelijking van onderzoeksresultaten met het ACLO-
M-advies, in: Levende Talen, 1979, hr. 347, pp. 924-945.

Balen, Ate van en Diederik Grit, Grammatica, de leraar Nederlands en het vreemde-talenonderwijs,
in: Levende Talen, 1980, nr. 348, pp. 11-23.

Griffioen, J., Grammatika in het VWO? 1, II en 111 in resp.: Levende Talen, 1971, nr. 274, pp. 23-

Balkum, H. van. Onderzoek van RITP toont aan; Onderwijs is overtuigd van nut van grammatica,
in: Weekblad voor leraren bij het voortgezet onderwijs, 1979, 12e jaargang nr. 7, pp. 222-223.
Vrijenhoef, Huub, Grammatika-onderwijs in Nederland, in: 04, maandblad voor de verzorging van
het onderwijs, 1979, 9e jaargang nr. 8, p. 14-16.

Facultair Instituut Algemene Onderwijskunde voor de Lerarenopleiding K. U. Nijmegen

Deel 5: Cognitieve ontwikkeling. Leervermogen en schoolprestaties
Lisse: Swets en Zeitlinger, 1979,265 p. (ƒ38,40).

In deze publicatie wordt een experimentele versie beschreven van de Leidse Diagnostische Test. Of-
schoon deze versie niet identiek is met de definitieve vorm van de L.D.T. is de overeenkomst toch wel
zo groot, dat gebruikers van deze test er verstandig aan doen kennis te nemen van de hier gepresenteer-
de onderzoeksresultaten en achtergronden.

In een algemene inleiding wordt de test in een breder kader geplaatst. Hij is geconstrueerd in verband
met de problematiek van de vroegtijdige herkenning van leerstoornissen. Verder worden de uitgangs-
punten aangegeven, die leidden tot het eerste doel van het onderzoek: de ontwikkeling van een meet-
instrument ter bepaling van zowel de intelligentie (d.i. het algemeen cognitief ontwikkelingsniveau) als
het niveau van een aantal afzonderlijke funkties, die mogeUjk van belang zijn voor het leren op school.
De test is bedoeld voor individueel psychologisch onderzoek van schoolverlatende kleuters (5- en 6-ja-
rigen).

Deel A bestaat uit een verslag van de samenstelling, plaatsbepaling en ijking van deze test. Het verband
tussen cognitieve ontwikkeling en schoolprestaties staat daarbij centraal. Het startpunt wordt gevormd
door de theorie van Mark over de ontwikkeling van leer- en denkprocessen. Niet ten onrechte consta-
teert de auteur dat de bestudering van de testliteratuur rond het thema 'intelligentie en cognitie' een
ontmoedigende aangelegenheid is. Als men echter verder wil komen, zal men toch moeten aansluiten
bij een of andere theorie. Vermoedelijk zijn de verwachtingen die aanvankeüjk bestonden ten aanzien
van het Mark-model wat te optimistisch geweest. In de testpraktijk bleek nameUjk een valide hiërarchi-
sche organisatie van functies moeilijk terug te vinden (p. 29). Dit neemt niet weg dat dit model bij de
samenstelling en beschrijving van de test een nuttige leidraad is geweest.

Bij lezing van dit verslag voelt men voortdurend het spanningsveld tussen theorie, model en testprak-
tijk. De problemen worden daarbij niet verdoezeld of glad gestreken. Er worden duidelijke gegevens
verschaft over de psychometrische aspecten van de test, waarbij ook aan de validiteit de nodige aan-
dacht wordt geschonken. Gezien de zorg waarmee het onderzoek werd opgezet en de diverse analyses
werden uitgevoerd, is het jammer dat door onoverkomenlijke financiële en organisatorische moeilijk-
heden de steekproef van personen niet zo samengesteld kon worden, dat deze als representatief kan
gelden voor ons land. Alleen kleuters in 's-Hertogenbosch en Rosmalen werden in het onderzoek be-
trokken.

Zoals de naam van de test aangeeft, wordt nogal wat aandacht geschonken aan de diagnostische moei-
lijkheden en grenzen van het meetinstrument. De L.D.T. is bedoeld voor de eerste fase van het indivi-
dueel psychodiagnostisch onderzoek, dat nu eens een direct antwoord kan geven op een bepaalde
vraag, dan weer indicaties oplevert voor uitgebreider psychodiagnostisch onderzoek. Gezien de resuha-
ten van het validiteitsonderzoek lijkt het gebruik van deze test gerechtvaardigd voor de bepaling van
het niveau van enkele cognitieve functies die van belang zijn voor het leren op school. Maar hoe be-
langrijk deze functies precies zijn voor het verwerven van elementaire vaardigheden als lezen, rekenen,
taal en schrijven is een vraag die verder onderzoek vereist.

Omdat de analyse en interpretatie van een testprofiel niet zonder risico's is, werd bij deze test een
stroomdiagram ontwikkeld. In dit diagram wordt aan de hand van een serie beslissingsregels aangege-
ven hoe men het L.D.T .-profiel kan analyseren en welke uitspraken men kan doen op basis van deze
analyses. Voor de verantwoording hiervan wordt verwezen naar een andere publicatie m.n. 'Leidse
Diagnostische Test, deel 2: Handleiding voor het stroomdiagram'.

Deel B van de onderhavige publicatie handelt over leervermogen en schoolprestaties. Daarbij staat cen-
traal het 'grenzen-toetsen' (limit-testing), een klinische onderzoeksprocedure die wel als aanvulling
wordt gebruikt op het traditionele standaard-testonderzoek. Hierbij wordt nagegaan in hoeverre veran-
deringen in de wijze van afname van de items verschillen in reakties opleveren, met het doel daaruit
aanwijzingen te kunnen afleiden voor de behandeling. Bij een viertal subtests van de L.D.T. werd on-
derzocht of de post-test-scores verkregen door middel van 'grenzen-toetsen' een nauwere samenhang
vertoonden met schoolprestaties dan de testscores verkregen door het standaard testonderzoek. Bo-
vendien werd nagegaan of het verschil tussen deze scores op dezelfde tests een maat voor het leerver-
mogen kan verschaffen. De "gevonden resultaten zijn weinig bemoedigend. Het is echter belangrijk dat
ook aan teleurstellende onderzoeksresultaten bekendheid wordt gegeven, vooral als daarbij ook nog
suggesties worden gedaan voor verder onderzoek. Ongetwijfeld is deze publicatie een waardevolle bij-
drage tot de discussie over de psychodiagnostiek in Nederland.

A.H.G.S. van der Ven
Inleiding in de schaaltheorie
Deventer: Van Loghum Slaterus, 1977.

In het voorwoord van zijn boek tracht Van der Ven (VDV) zijn lezers te bemoedigen door op te
merken- 'U zult bij het lezen van dit boek misschien meer ontdekken wat schaaltheorie allemaal niet is
dan wat het wel is Wees daardoor niet teleurgesteld want u hebt tenminste doorzien wat de bedoeling
van de auteur was' Het boek is bestemd voor eerstejaars studenten m de Sociale Wetenschappen, in
het bijzonder voor psychologiestudenten. Daarnaast zou het nuttig moeten zijn 'zowel voor meer op
het onderzoek als voor meer op de praktijk gerichte psychologen, pedagogen, sociologen en politico-

logen'. VDV is kennelijk van plan een zo breed mogelijk publiek van z'n illusies te bevrijden. Hij
gebruikt hiervoor twee strategieën. Ten eerste definieert hij het onderwerp zo eng en restriktief
mogelijk en ten tweede laat hij de stof zo weinig mogelijk aansluiten bij wat het bedoelde publiek
vermoedelijk reeds weet of interesseert.

In de Inleiding wordt schaaltheorie afgezet tegenover testtheorie. Testtheorie gaat uitsluitend over
somskores; schaaltheorie behandelt 'de meer fundamentele vragen in hoeverre het gerechtvaardigd is
met somskores te werken en welke betekenis men aan een dergelijke somskore moet hechten' (pag.
15). Een bladzijde verder lezen we: 'een ander woord voor schaaltheorie is meettheorie'. Door zo
schaaltlieorie gelijk te stellen aan de axiomatische karakterisering van schaalproblemen stelt VDV zich
wel heel extreem op. In hun monumentale meettheorie-boek 'Foundations of Measurement' gunnen
Krantz et al. (1971) de schaaltheorie tenminste nog een eigen plaatsje:

The work on fundamental measurement representations, which is relatively recent in the behav-
ioral sciences, contrasts with an older research field known as psychometrics and scaling theory.
(...) Most of these scaling procedures assume the validity of the proposed model and produce a
best-fitting numerical representation of the data, whether or not the assumed model is really
appropriate. Here, by contrast, wc are concerned almost exclusively with the quaUtative condi-
tions under which a particular representation holds. To some extent, therefore, theories of
measurement may be regarded as complementary to the methods of scaling, with the former
being concerned with empirical laws (axioms) that make a particular type of numerical repre-
sentation appropriate and the latter with methods for finding a numerical representation of a
particular type. (o.c. pag. 32, 33).

Tot op zekere hoogte, inderdaad, want de suggestie dat meettheorie zich bezighoudt met de empirie cn
dat de hele psychometrische traditie zich beperkt heeft tot rekenen doet nogal pedant aan. In principe
bestudeert de meettheorie (in de zin van 'Foundations') uitsluitend de struktuur van een uepaald type
geïdealiseerde experimenten en houdt de psychometrie (inclusief schaaltechnieken) zich, opnieuw in
principe, bezig met het analyseren van uit de empirie afkomstige (d.w.z. met onverwachte eigenschap-
pen behepte) data.

Meettheorie in de zin van VDV ('schaaltheorie') onttrekt zich aan beide tradities. Het is eigenlijk
eerder een soort leer, gezien de vele imperatieven die er in verwerkt zijn. Een eerste karakteristiek van
deze leer is, dat men eigenlijk alleen maar een schaaltechniek mag toepassen als van te voren al bekend
is wat er uitkomt: 'M.b.t. het gebruik van dc Coombs-schaal moet er met nadruk op gewezen worden,
dat men tevoren over een inhoudelijke theorie moet beschikken over de preferentie van de subjecten
voor de stimuli. In het ideale geval moet deze theorie een leidraad kunnen verschaffen voor de bepaling
van de volgorde der middelpunten. Er zijn echter nog geen voorbeelden van psychologische theorieën,
die daartoe in staat waren' (pag. 86). Aan de andere kant moet men, als de data zich niet perfekt
volgens het model gedragen, 'het vigerende model verwerpen en een nieuw model verzinnen' (pag.
117). Pas in hoofdstuk 13, over 'Nonmetrische schalen' (metrisch schalen komt overigens in het hele
boek niet voor), wordt voor het eerst aarzelend een verliesfunktie gei'ntroduceerd. Het enige (kunst-
matige) voorbeeld van dit hoofdstuk heeft, hoe kon het ook anders, stress nul.

Schaaltheorie in de zin van VDV ('meettheorie') is bovendien overwegend één-dimensionaal. Van de
323 bladzijden tekst gaan ongeveer 17% over iets mecr-dimensionaals. Populaire technieken zoals
INDSCAL en MDPREF, hoewel 'bijzonder interessant', krijgen niet meer dan een paar bladzijden en
hier ontbreken zelfs voorbeelden met verzonnen data. 'Multidimensionele extensies van de in hoofd-
stuk 7 behandelde scmi-orde (bedoeld wordt: analyse van 'piek any/n' data) zijn de auteur niet
bekend' (pag. 6). Dat is jammer, want ze bestaan wel; een eenvoudig overzicht is te vinden in Lingoes
(1968) en er zijn kant-en-klare komputerprogramma's voor, zoals MSA (Multidimensional Scalogram
Analysis) of HOMALS (Homogeneity analysis by Alternating Least Squares). De zogeheten 'Non-
metric computational breakthrough' uit het begin van de zestiger jaren is so-wie-so aan VDV voorbij-
gegaan, vermoedelijk omdat hij niet van verhes houdt, ook al is het geminimaliseerd. Juist de ontwik-
keling van eenvoudig te bedienen komputerprogramma's heeft het mogelijk gemaakt om mensen met
een minimum aan technische kennis te laten profiteren van de enorme mogelijkheden die schaaltech-
nieken voor een inzichtelijke weergave van gegevens te bieden hebben. Theoretisch elegante, maar
praktisch vrijwel onuitvoerbare en voor beginners onuitstaanbare 'worksheet' methoden (zoals de
delta-methode waar het boek vol mee staat) zijn helemaal niet meer nodig en men treft ze in de
toegepaste literatuur ook vrijwel nergens meer aan.

Misschien nog wel het meest hinderlijke aan de leer van VDV is zijn beperkte horizon als het om
data-bronnen gaat. Als het aan hem ligt hebben schaaltechnieken alleen betrekking op 'dichotome
oordelen' (verzameld in een 'observatiematrix') of op 'getallen die dank zij een schaaltheorie verkregen
zijn' (verzameld in een 'datamatrix'). Dit is een hoogst beperkt standpunt en een onorthodox gebruik
van termen. Meer gebruikelijk in deze kontekst is, het technische woord 'data' te gebruiken voor
datgene wat wordt geanalyseerd en 'observaties' voor alles, wat dan ook, wat is geregistreerd. Data zijn
geïnterpreteerde observaties. Het inspirerende van Coombs' boek 'A Theory of Data' uit 1964 is voor
velen vooral geweest, dat het bladzij na bladzij laat zien, dat er duizenden typen observaties zijn maar
slechts een beperkt aantal typen data. Dit is niet minder dan een basisprincipe:

'Axiom 4 offers three dichotomies and asserts that all behavioral observations may be so
interpreted as to satisfy each of these three dichotomies. This suggests the possibility of there
being, in principle at least, 2^=8 different kinds of data. (...) I suggest that these ei^t classes
represent the eight kinds of primitive data from which all psychological measurement arises'
(o.c. pag. 20, 21).

Het proces van 'mapping observations into data' is een subjektieve stap en wordt door Coombs
zorgvuldig onderscheiden van waar schaaltechnieken zich mee bezighouden: 'mapping data into rela-
tions between points in space'. Met name, '... there is no necessary interpretation of any behavioral
example as some particular kind of data' (o.c. pag. 6). Of de eerste mapping een sukses was blijkt pas
wanneer je de tweede mapping probeert. Dit betekent overigens niet, dat men altijd schaaltechnieken
moet toepassen; wel, dat men ze altijd kan toepassen. Op een tabel met intertest korrelaties bijvoor-
beeld mag volgens VDV géén MDS gedaan worden, volgens Coombs (en wie eigenlijk niet? vlg. Guttman
(1966)) wél.

Kwa presentatie wisselt 'Inleiding in de schaaltheorie' helderheid af met duisternis. Het hoofdstuk over
'Methoden van stimulusaanbeiding' is zeer rijk aan details (zelfs een afbeelding van een echt karrewiel
ontbreekt niet), terwijl 'Multidimensionele extensies van de Guttman-schaal' te kort en vaak onbegrij-
pelijk is. Een aantal keren wil VDV twee dingen tegelijk uitleggen (zoals bij 'Additief conjunct meten'
uitvoerig op een variant van dataverzameling wordt ingegaan, of bij de bespreking van de vraag 'Wat is
schaaltheorie nu eigenlijk?, uitvoerig het klusterschema van Johnson uit de doeken wordt gedaan).
Soms staan er duidelijk te veel formules in voor het nivo waarop gemikt wordt (zoals bij 'Probabilisti-
sche Modellen'). De behandeling van Coombs' kwadranten is om onduidelijke redenen in twee aparte
hoofdstukken ondergebracht en zoals gewoonlijk te abstrakt geïntroduceerd. Het is ook te betreuren
dat 'Additief conjunct meten' weer zó meettheoretisch wordt gepresenteerd (er wordt heel wat af
gecanceUeerd en verworpen), dat de overeenkomsten en verschillen met huis-tuin-en-keuken variantie
analyse de beginner volstrekt zullen ontgaan. Voorbeelden van analyses zoals ze in de praktijk van
diverse discipUnes voorkomen ontbreken in dit boek totaal. In de bibliografie staan hooguit twee titels
die iets met toepassingen te maken hebben. Het apart bij dezelfde uitgeverij uitgegeven opgavenboekje
bevat 100 multiple choice vragen ter kontrole of men de tekst heeft begrepen. Een groot gedeelte van
deze vragen zullen koren op de molen zijn van studenten die klagen dat MC tentamens geen kennis en
inzicht in de stof meten, maar rijvaardigheid op de stokpaarden van een docent.

Een goedkoper en veel bruikbaarder boekje ter inleiding is 'Multidimensional Scaling' van Kruskal en
Wish (1978). Het is in het engels en zeker niet volledig, maar het laat tenminste zien wat schaaltheorie
wél is.

Guttman L Order analysis of correlation matrices. In R.B. Cattell (ed.): Handbook of Multivariate

Experimental Psychology. Chicago, lU.: Rand Mc Nally, 1966.
Krantz, D.H., Luce, R.D., Suppes, P. and Tversky, A. Foundations of Measurement. New York:
Academic Press, 1971.

Kruskal J B and Wish, U. Multidimensional Scaling. Beverly Hüls and London: Sage Pubns, 1978.
Lingoes' J.c! The Multivariate Analysis of Qualitative Uatz. Multivariate Behavioral Research, 1968, 3,
61-94.' "

The Rasch model and time-limit tests (an application and some theoretical contributions)
Ph.D. thesis Vakgroep Mathematische Psychologie, Katholieke Universiteit, Erasmuslaan
16, Nijmegen, 1979.

Among the many ways of deahng with a set of dichotomous items pretending to measure an attitude
or achievement, the Rasch model occupies a special position. Its assumptions are so demanding that
many attempts to construct a Rasch scale are frustrated. On the other hand, a Rasch scale has a sound
methodological basis and opens up a rather diverse and interesting area of applications. Fischer (1974)
goes deeply into the methodology and the mathematical derivations, offering also a comparison with
classical test theory and several applications and extensions. The recent introduction by Wright &
Stone (1979) offers many hints for the practical work with the model, but contains some mathemat-
ical inaccuracies.

The thesis reviewed here is a welcome addition to the growing Rasch literature. It was written under
the guidance of Roskam and has its origin in Van den Wollenberg's visit to Fischer in Vienna in 1976.
Chapter 1 contains a very clearly written introduction to latent structure analysis in general and to the
Rasch model in particular. It is especially valuable in its discussion of goodness-of-fit tests. Although
the sections on extensions of the Rasch model and on specifically objective measurement are perhaps a
little underdeveloped, this reviewer would not hesitate to recommend the 44 pages of this chapter as
an excellent opportunity to obtain a good insight into the Rasch model.

In Chapter 2 the model is applied to data provided by Welten on 2500 fifth and sixth grade pupils who
took the six intelligence tests of the ISI-battery, each consisting of 20 items. The tests were taken
under speed conditions such that less than half of the pupils finished all 20 items. As nearly aU got as
far as item 11, for each test, the author first investigates the fit of the Rasch model for the first 11
items; effective sample sizes then vary between 1578 and 2276 after omitting subjects with less than 11
attempted items or with all or none of the items correct.

To the Andersen likelihood rate test for high and low scoring groups, the author adds inspection of the
plotted item difficulty estimates, of their correlations and of the Fischer-Scheiblechner statistic, in his
lucid and careful discussion of model violations. It is a little surprising that exact probabilities of ex-
ceedance for chisquare statistics are nowhere used, and that their suboptimal square root transform is
used rather than the better normalization by the third root Wilson-Hilferty transformation.
Next, the analysis is repeated for the 11 items by partitioning the subjects according to the total
number of items attempted (varying from 11 to 20). The chapter ends by relating the results to Van
der Ven's theory involving the basic traits of speed and precision: its assumptions of precision being
constant across items, independent of speed and unidimensional across tests are not met in the present
dataset. Independence-is measured across subjects within one test; this reviewer should like to observe
that independence across tests within one subject is not investigated. Throughout the chapter, there is
a careful and largely convincing discussion of skipped items.

Chapter 3 begins with the question whether the existing model tests arc suitable for detecting viola-
tions of the axioms of monotonicity, sufficiency of total number correct, and unidimensionality (local
independence being postponed). A key result is that the concatenation of two tests measuring differ-
ent latent traits with the same set of item difficulties appears Rasdh homogeneous when groups are
formed according to the total score. If, however, a partitioning is made on the basis of one item, or of
a few items measuring the same trait, and item difficulties are estimated for the remaining items, the
heterogeneity is clearly detectable in the difficulty plot: items measuring the trait on which the split is
based are more difficult for the low than for the high group, and as log difficuUies are normed to a
sum of zero, items measuring the other trait show the reverse behavior. The reviewer tried this trick
out on data for 685 pupils taking two scales of 9 and 11 items, and was pleasantly surprised to obtain
each item group ahnost on a straight line and situated in the predicted region of the plot.
In the sccond half of the Chapter, the author proposes two new tests based on the property that the
probability n^i of having item i correct, or n^ij of having both items i and j correct, for subjects with a
total score of r, can be simply obtained from the item easinesses ej and their symmetric functions. If
there are n,} and n^y of such subjects, respectively, among the n^ subjects with total score r, the first
test is a chisquare type statistic based on the differences between njj and its expectation njTtr;. Due to
various dependencies and restrictions on the random variables n,;, summation across items and score-
groups leads to a statistic for which the expectation exceeds the degrees of freedom. The author
presents some simulation evidence that the statistic almost has a chisquare distribution after applica-
tion of a suitable multiplication.

The author seems to have missed the technical report Allerup & Sorbet (1977) in which a test for each
(r, i) combination is based on the binomial (%, jr,;) distribution of njj (as above, given r and the vector
e). This test and the corresponding plots are incorporated in the program EBA described by Allerup &
Sorber, and also in the program PML by Gustafsson (1977, 1979). The square of the standardized
binomial statistic is simply the sum of the chisquare contributions of n^j and nj - n^j calculated by
Van den Wollenberg. His proposal has the advantages of accounting for insertion of the estimated
values of ej, and of the combination into one statistic. Disadvantages are the adhoc multiplication into
something hopefully close to chisquare, and violation of the chisquare property when some n^ are
small and/or some n-jj are close to 0 or 1.

The second new test is based on the deviation of njy, introduced above, from njTTjij. This is analyzed
in the 2x2 table for items i and j within scoregroup r. After summation across item pairs and score
groups, a similar multiplication factor is used to make the degrees of freedom equal to the expecta-
tion. This reviewer adds two objections. First the author uses the conditional distribution of njij given
not only n, and the vector e but also given n^i and njj, but then the expectation is no longer nrWrij.
Second, it is not clear why the inserted extimate of c is the one based on the particular score group (p.
129) rather than on the total group. These points are elaborated in a separate paper by the reviewer
(Molenaar, 1980). Notwithstanding them, the first statistic is a fastly computed alternative to the
Andersen LR-test and the second one has the virtue of being sensitive to violations of unidimensionality
and local independence.

In the final chapter 4, the six ISI tests are re-analyzed with the new tools, with and without the last 9
items. Moreover, 8-item concatenations consisting of 4 items from each of 2 tests are similarly investi-
gated. Several interesting features of the data are revealed and discussed.

The Fortran program by Formann (Vienna) has been adapted by the author in order to incorporate his
new proposals (Raaijmakers & Van den Wollenberg, 1979). Apart from many Monte Carlo simulations,
the following data generation technique is used. Let the population values for k item difficulties be
given. Draw 1000 standard normal deviates representing the subject parameters ïy- For each ^v, calcu-
late the individual probabilities of each of the 2^ answer patterns and sum them across v. The resulting
numbers per answer pattern are rounded to the nearest integer and treated as observed response fre-
quencies. Although the reviewer admires this ingenious way of obtaining one 'perfect sample' rather
than being forced to use hundreds of Monte Carlo replications, the technique provides no answer to
burning question how frequently across repeated samples some test statistic exceeds its nominal criti-
cal value. It may be useful in a first exploration, but not in a study of the robustness or the statistical
power of a test.

The length of my criticisms may convey the totally wrong impression that I dishkc this book. Apart
from its virtue of shedding light on the underdeveloped areas of speeded tests and of violations of
unidimensionality, I like it most because of its lucid exposition, and because of the careful way in
which the author handles both his data analysis and his formal derivations. Apart from the remarks
already made, the book offers one of the rare instances in quantitative social science where high (for-
mal) reliability and high (content) validity go hand in hand.

Allerup, P. & Sorber, G (1977), The Rasch model for questionnaires. With a computer program (2nd.

ed). Copenhagen: The Danish Institute for Educational Research, 1977,4.
Fischer, G.H. (1974) Einführung in die Theorie psychologischer Tests. Grundlagen und Anwendungen.
Bern: Huber.

Gustafsson J E. (1979) PML: A computer program for conditional estimation and testing in the Rasch-
model for dichotomous items. Reports from the Institute of Education, University of Göteberg, nr.
85 (Verkrijgbaar bij Technisch Centrum FSW, Roetersstraat 15, Amsterdam).
Molenaar, I.W. Some improved diagnostics for failure of the Rasch model, (submitted for publication,

manuscript available from the author).
Raaijmakers, N.H. & Van den Wollenberg, A.L. (1979) Radi: program for the dichotomous Rasch

model. I^ogram Bulletin. University of Nijmegen.
Wright, B.J. & Stone, M.H. {\919) Best Test Design, Rasch measurement, MESA Press, 5835 Kimbark

Ave., Chicago 111! 60637.
Gustafsson J E (1977) The Rasch model for dichotomous items: Theory apphcations and a computer
program Reports from the Institute of Education, University of Göteberg, no. 63.

Op 23 en 24 april 1981 zullen in Maastricht de Onderwijsresearchdagen worden gehouden.
Het programma bestaat uit zogenaamde Vrije papers' die het hele terrein van de onderwijsresearch
kurmen bestrijken en papers die in het kader van een bepaald thema gepresenteerd worden. Thema's,
die tijdens de ORD '81 aan de orde zullen komen zijn: Methodologie van het onderwijsonderzoek.
Onderwijsplanning, Schoolwerkplanontwikkeling, Universitair onderwijs. Samenwerking tussen HBO
en WO en Probleemgestuurd onderwijs.

Inlichtingen: Organisatiekommitee ORD '81 - J.G. van Uden - Tongersestraat 53 - Postbus 616 -
6200 MD Maastricht - (tel. 043-888888)

CITO. Jaarverslag 1979. Arnhem: Centraal Instituut voor Toetsontwikkeling, 1980.
Hofstee, W.K.B. De empirische discussie: Theorie van het sociaal-wetenschappelijk onderzoek. Meppel
Boom, 1980.

Obtaining original publications in the educational and related social sciences. The Hague: Bernard van
Leer Foundation, 1980.

Plannen van kennen. Handleidingen voor het voorbereiden van informatief onderwijs. Utrecht: Vak-
groep Onderwijskunde, Projekt Procesgerichte Differentiatie, aug. 1980.
Riemersma, F.S.J. & Kat, E. de. Ervaringen van oud-leerlingen. Eindrapport over het schoolgericht
onderzoek - middenschool 1978-1979 - op de Open Schoolgemeenschap Bijlmer, A'dam: Re-
search Instituut voor de Toegepaste Psychologie, juni 1980 (3 delen).
Wijk, L.J. van. Verandering van lesgedrag van leraren. Een literatuurstudie m.b.t. veranderingsproce-
dures waarin gebruik gemaakt wordt van beschrijvingsinstrumenten en verschillende vormen van
feedback. Nijmegen: Nijmeegs Instituut voor Onderwijsresearch, december 1979.

Kwalitatief-psychologische analyse van het oplossen van aanvankelijke rekenopgaven bij 6 a 8-jarige

basisschoolleerlingen, door E. De Corte en L. Verschaffel.
Het onderwijsleermodel van Carroll, aanzet tot een krachtige onderwijstechnologie, door J.W. Holle-
man.

Kroniek: Ontwikkelingen in de interdisciplinaire onderwijskunde. Symposium te Groningen (1979),

Studievaardigheden voor de Basisschool: Leren omgaan met teksten (1), door W. Kok, C. Boonman en
G. Beukhof.

Een exploratief onderwijsexperiment met aanvankelijke rekenopgaven bij 6 a 8,-jarige kmderen, door

E. De Corte en L. Verschaffel.
Inhouden en achtergronden van de inservice-trainings-cursussen in het GEON-project, door A.K. de
Vries.

Kroniek: Nationaal programma arbeidsmarktonderzoek: project onderwijs-arbeidsmarkt, door M. San-
tema.
Boekbesprekingen.
Mededelingen.

Itaat	a) LBO-lkn Sj	b) MAVO-lkn Sj	c) HAVO/VWO-lkn Sj	d) Lkn-tc Sj
3kl	0	0	0	0
3k2	.63	.40	.07	.29
3k2	.59	.40	.42	.38
3k3	1.14	.42	.38	.70
3k3	1.04	.29	.48	.71
3k3	1.18	.82	.53	.85
3k3	1.20	.87	.53	.86
k3	1.48	.85	.42	.89
4k4	1.72	.92	.75	1.16
4k4	1.70	.87	.76	1.17
3k3	1.70	1.12	.94	1.24
4k4	1.79	1.21	1.04	1.33
3k3	1.72	1.33	1.04	1.35
4k4	1.77	1.19	.92	1.35
3d	1.80	1.68	1.45	1.61
4d	2.16	1.36	1.49	1.66
4k4	2.32	1.56	1.23	1.70
3d	1.99	1.66	1.52	1.72
3d	2.00	1.90	1.58	1.78
3d	1.94	1.76	1.61	1.79
3d	2.33	1.65	1.55	1.86
4k4	2.41	1.86	1.55	1.90
4d	2.27	1.78	1.70	1.93
4d	2.32	1.89	1.83	1.99
3d	2.51	2.13	1.86	2.12
4d	2.56	2.10	1.84	2.19
4d	2.59	2.13	2.04	2.20
4d	2.53	2.08	1.97	2.20
3d	2.55	2.33	2.08	2.28
k4	2.87	2.17	1.94	2.30
4d	2.82	2.08	2.08	2.33
k4	2.97	2.30	1.91	2.37
k4 0	3.22	2.50	2.23	2.56
k5	3.25	2.42	2.08	2.56
4d	3.08	2.56	2.42	2.65
k5	3.25	2.64	2.26	2.71
4d	3.12	2.89	2.64	2.84
d	3.65	3.22	3.06	3.29
k5 0	3.95	3.25	2.82	3.30
d	3.80	3.40	3.29	3.49
d	4.50	3.88	3.80	4.07

voorspeller	maximale waarde van de korre-
	latie volgens de literatuur
- kenmerken van de sociale en psycholo-
gische omgeving	.40 - .50
- intelligentie	.40 - .50
- leesrijpheid o.a.	.55 - .65
• 'l'aptitude à la lecture primaire'	.40 - .50
• ruimtelijke en verbale intelligentie	.30 - .40
• grove en fijne motoriek	.20 - .25
- kognitief ontwikkelingsnivo (Piaget)	.50 - .60
- beoordeling door leerkrachten van per-
soonlijkheidskenmerken o.a.	.00 - .70
• koncentratie	.20 - .40
• sociabiliteit	.10-.40
• aanpassing aan school	.00 - .23
- leervermogen	signifikant

voorspeller (variabele)	% verkl; lee 3 mnd.	aarde varia sprestaties 6 mnd.	ntie van na 9 mnd.
persoonlijkheidskenmerken (inklusief leesrijpheid)	40^9%	63%	63%
persoonlijkheidskenmerken en kenmerken Van de sociale en psychologische omgeving	50-54%	69%	71%
persoonlijkheidskenmerken, kenmerken Van de sociale en psychologische omgeving en leesprestaties na 3 en 6 maanden onderwijs	n.v.t.	n.v.t.	87%

			■o
			^ 0 M 0				s
	•a	s «		« S	a> ■0 c	0 1	« C
	1	i y	(A V	lü.		'S	» w
d ffl	1	c >H	-H U $ S	V) 4	C 0 2 Ï	s1 s a	w
J		1	-H U $ S	8S	VI « < 3	Sä	z
	V « t^	■0	'S	C T3 «	II	s Ii	s •I
	«	w c	1 <0	2«	II	II	Tl 'H «äS
	II	Is Ol -H	2t Ï £	C TJ 4, g	«	2« 5 «	22:j «A «> Sll 1
	Ï 3	Ji! b.	Q. S	X Z	a	0.2	22:j «A «> Sll 1

3	Ol «1
C 2	w "0
o *	*
sl	C 0) SÄ
2 Vi	II
	e
	1
T}
2Ï
« u
	53
II	« is

25
24		1 1
23		1
22				1	1	3	2	3	2
21					2	1		e	1 1 1
20	2		1		2	2	4	6	2 1
19			2	2	2	1	2	1	1 1 1
18	1	e	6	2	6	5	3	2	2 2
17	_Drenigel 1	4	5	4	6	1	2	4
	1	4		6	6	3	3	4
to 15	1	2	2	1	2	3	3		2
1	1	S	3	4	3	1	1	2
5 >3	1 3	1	2	2			1
1	1 2	1	2
1 »	1
1 -0	1		1
s
	9 10 11 I	2	13	14	15	16	17 :	18	19 20 21 22 23 24 25
	toetsskores -*
figuur 3. Skores van 200 personen op toets en vervolgtoets.

aantal	totaal	proportie	vereffende
>Dr= 17	aantal	Pi	proporties
0	1	0	0
0	3	0	0
4	12	0.333	0.333
10	21	0.476	0.476
14	24	0.583	0.476
9	22	0.409	0.583
19	30	0.633	0.633
13	20	0.650	0.633
13	21	0.619	0.650
23	29	0.793	0.750
6	8	0.750	0.750
3	3	1	1
4	4	1	1
1	1	1	1
1	1	1	1

R	R'	toename v. R'	B
.31	.10	.10	0.15
.37	.14	.04	0.69
.41	.17	.03	0.53
.43	.19	.02	0.20
.44	.19	.01	-0.41
.45	.20	.01	-0.60
.47	.22	.01	0.41

faktor (voorspeller)	% verklaarde variantie van de gevonden
		faktoren na
	3 mnd.		6 mnd.	9 mnd.
	schriftelijke	herkenning
	produktie
- sociaal-ekonomische status	1	8	7	10
- linguïstische situatie in het gezin	2	1	10	12
- verbale vaardigheid, beoordeeld door
de leerkracht	7	11	27	34
- koncentratievermogen	1	4	5	5
- ruimtelijke intelligentie	12	15	26	24
- verbale intelligentie	3	11	15	18
- fijne motoriek	0	13	3	3
- geheugen voor spatiele ordening	6	5	12	12
- verbaal uitdrukkingsvermogen	7	8	18	20
- diskriminatie m.b.t. spatiele ordening	11	3	8	2

voorzieningen en gebruiksmogelijkheden	leidt tot^	gebruik van voorzieningen
	?

1.	Hij
2.	Hij
3.	Hij
4.	Hij
5.	Hij
6.	Hij
7.	Hij
8.	Hij
9.	Hij
10.	Hij
11.	Hij
12.	Hij
13.	Hij
14.	Hij
15.	Hij
16.	Hij
17.	Hij
18.	Hij

1.	Hij
2.	Hij
3.	Hij
4.	Hij
5.	Hij
6.	Hij
7.	Hij
8.	Hij
9.	Hij
10.	Hij
11.	Hij
12.	Hij
13.	Hij
14.	Hij
15.	Hij
16.	Hij
17.	Hij
18.	Hij

1.	Hij
2.	Hij
3.	Hij
4.	Hij
5.	Hij
6.	Hij
7.	Hij
8.	Hij
9.	Hij
10.	Hij
11.	Hij
12.	Hij
13.	Hij
14.	Hij
15.	Hij
16.	Hij
17.	Hij
18.	Hij