Een twee-maandelijks tijdschrift voor onderzoekers van onder-
wijs, gewijd aan theoretische, methodologische en profes-
sionele problemen in de onderwijsresearch.

Robert F. van Naerssen
Roland Vandenberghe
Marinus J.M. Voeten (se-
cretaris)
Peter Weeda
Wynand H.F.W. Wijnen

Tijdschrift voor Onderwijs-
research js een uitgave van
de Stichting Onderwijsre-
research. De uitgave wordt
mede mogelijk gemaakt
door een subsidie, verleend
door de Stichting voor On-
derzoek van hot Onderwijs
te 's-Gravenhage.

Buis, P. Interdisciplinaire wetenschapsbeoefening? Verslag van een methodo-
logische vingeroefening 132
Corte, Erik de. Objecten, doelen en methodologie van de onderwijspsychologie 209
Crombag, Hans F.M. ATI; perhaps not such a good idea after all 176
Delbeke, Luc L. & Janssen, Piet J. Studiemotieven en studiekeuze: Een pei-
ling met behulp van Bechtel's scalair productmodel voor de analyse van
voorkeuroordelen 219
Drift, K.D J M. van der. De doelmatigheid van computer-ondersteund onderwijs 49
Engelse, A.E. den. Het verzamelen van onderwijskundige literatuurin Nederland 167
Groot, A.D. de. Studielast en normstudent: Ontwerp van een akkoordtheorie.

Hunt, David E. The new three R's in person-environment interaction; Respon-
siveness, reciprocality and reflexivity 184
Jansen, Margo GJJ. Het simultaan schatten van regressievergelijkingen van m

Jansen, Margo Gü. De voorspellende waarde van de eindtoets basisonderwijs 239
Jansen, Margo G.H. Further applications of Bayesian statistical methods to

Borgesius, T.B. Scoringssystemen en ethiek 199
Drift, K.D J Jvl. van der. De doeltreffendheid van een reactie op 'de doelmatig-
heid van CAI' 247
Hees, E. van. De doelmatigheid van een doelmatigheidsanalyse 245
Hofstee, W.K.G. Schatting van de true score met inachtneming van andere va-
riabelen 38
Klerk, Len F.W. de. ATI, perhaps a good idea after all 191
Langerak, W.F. Herkennen vs. herinneren, oftewel meerkeuze vs. opstelvragen 140
Naerssen, Robert F. van. Correctie voor raden en ethiek 90
Naerssen, Robert F. van. Dupliek 202
Swanborn, Peter G. Warries' Procrustesbed 291
Verhoeven, Ad FJVl. Opmerkingen naar aanleiding van Crombag's artikel 'ATI:

Hamaker, Christiaan. Bespreking van: Educational Psychology; A Cognitive
View. Second Edition door D.P. Ausubel, J.D. Novak en H. Hanesian en
van The Conditions of Leamung. Third Edition door R.M. Gagné 41

Jong, Dirk de. Bespreking van: Interne differentiatie als een innovatie. Een on-
derwijskundig onderzoek naar de haalbaarheid van een model voor interne
differentiatie in het basisonderwijs (dissertatie) door W J. Nijhol 298

Linden, WJ, van der. Bespreking van: Structural models of thinking and lear-
ning door Spada, H. & Kempf, W.F. (Eds.) 253
Linden, WJ. van der. Z/e Bruijn, I. de. 203
Oud,J.H.L. Bespreking van: Het project Onderwijs en Sociaal Milieu. Een
bundel artikelen opgedragen aan Dr. Jan Grandia bij zijn afscheid als pro-
jectleider door Slavenburg, J. (red.) 250
Pelkmans, Ton. Bespreking van: Secularisering en verzuiling in het onderwijs.
Een sociologisch onderzoek naar de vrije schoolkeuze als legitimatieschema
en als sociaal proces door J. Billiet 248
Smid, Nico. Bespreking van: De machteloze onderzoeker door Joh. Hoogstra-
ten 301
Verreck, W.A. Bespreking van: Verwoorden en verstaan door H.H. ten Voorde 45

T.O.R. is in 1975 gestart, mede ondersteund door een subsidie door de Stichting voor
Onderzoek van het Onderwijs, verleend voor een proefperiode van drie jaar. Zoals uit dit
nummer blijkt, wordt de uitgave van het tijdschrift in dezelfde vorm voortgezet. Voor de
lopende jaargang kan opnieuw (en in dezelfde mate als voorheen) gerekend worden op
subsidie van de S.V.0.

Ter voorbereiding van deze beslissing tot continuering heeft de redactie een aantal evalua-
tieve gegevens gerapporteerd aan de S.V.0. Omdat dit waarschijnlijk lezers en (potentiële)
auteurs zal interesseren wordt deze evaluatie hier kort samengevat. Daarbij komen achter-
eenvolgens aan de orde het kopij-aanbod en het redactiebeleid, het aantal abonnees, de
resultaten van een enquête onder abonnees en de meningen van een aantal om hun
oordeel gevraagde deskundigen.

T.O.R. wil bijdragen publiceren die van professioneel belang zijn voor onderzoekers van

2. artikelen waarin mathematische, statistische of psychometrische methoden 'vertaald'
worden voor onderzoekers van onderwijs;

5. overzichtsartikelen waarin reeksen samenhangende onderzoeken in een theoretisch of
methodologisch perspectief worden geplaatst, dan wel hteratuurstudies die een nieuw
licht werpen op bepaalde teneinen van onderwijskundig onderzoek;

6. artikelen betreffende onderzoeksaanpak, onderzoeksbeleid, voorbereiding en beheer
van onderzoeksprojecten.

1) Heeft de bijdrage betrekking op een zaak die voor onderzoekers van onderwijs van
professioneel belang is?

2) Heeft het artikel voldoende kwahteit? Is het een belangrijke, originele bijdrage tot de
onderwijsresearch?

onderzoeksproblemen. Wat de publikatie van empirische studies over onderwijs betreft zij

1. Gebaseerd op het eindverslag aan S.V.0. over de driejarige proefperiode 1975-1978.

ter verduidelijking nog opgemerkt dat het er niet om gaat resultaten van empirisch onder-
zoek te verspreiden onder een breder publiek, liet gaat om de presentatie van onderzoek
voor een interdisciplinair samengesteld wetenschappelijk forum.

Alle aangeboden manuscripten worden door de redactie op hun kwaliteit beoordeeld.
Over een manuscript voor een artikel wordt een advies gevraagd aan één of meer op het
betreffende terrein deskundige beoordelaars. Buiten de redactieleden hebben tot nog toe
een vijftigtal personen uit verschillende disciplines deze beoordelaarsrol vervuld. Zonder
hun bereidwillige medewerking zou T.O.R. niet kunnen functioneren.
De beslissing over plaatsing van een artikel wordt genomen door de redactie. Over Notities
en Commentaren en boekbesprekingen beslissen de redactiesecretarissen.

In de periode tot 20-9-78 werden 106 manuscripten ter publicatie als artikel aangeboden,
43 voor de rubriek Notities en Commentaren en 34 Boekbesprekingen. Alle aangeboden
Notities en Commentaren en Boekbesprekingen werden (eventueel na herziening) ge-
accepteerd. Met betrekking tot de artikelen was de meest voorkomende beslissing: vragen
om (kleinere of grotere) herzieningen, op basis van het commentaar van de beoorde-
laar(s). Gewoonlijk leidde dit tot het accepteren van het manuscript in tweede (of latere)
versie. Ongeveer een kwart van de aangeboden manuscripten werd afgewezen. Tabel 1
geeft een overzicht van de als artikel aangeboden manuscripten, ingedeeld naar de zes
boven vermelde kategorieën.

Drie van de 26 afgewezen manuscripten werden in de rubriek Notities en Commentaren
geplaatst. In elf gevallen was de reden van afwijzing dat het manuscript niet past in de
redactieformule. In 12 gevallen was een negatieve beoordeling van de kwahteit van het
manuscript doorslaggevend.

De redactie opereert op basis van spontaan aangeboden kopij. De redactie heeft niet als
gewoonte deze of gene te vragen over dit of dat onderwerp iets te schrijven. Het aanbod
van kopij was wat aan seizoeninvloeden onderhevig maar over het algemeen voldoende om
de nummers tijdig gevuld te krijgen, terwijl soms zelfs een bescheiden 'publication lag'

ontstond. Bij de opening van de tweede en derde jaargang heeft de redactie haar bezorgd-
heid uitgesproken over eenzijdigheden in het kopij-aanbod. In de conclusies van deze
evaluatie wordt dit herhaald. Met name om deze eenzijdigheden te corrigeren heeft de
redactie zich actief ingezet om kopij te werven, zonder daarbij de beoordelingsprocedure
aan te tasten. Deze wervingsinspanning heeft geleid tot enige toename in het aanbod van
verslagen van empirisch onderzoek.

De initiatiefnemers van het tijdschrift rekenden in 1975 op 450 abonnees. Dit aantal is
inderdaad gehaald. Per I-8-'78 was de situatie als volgt:

Dit betekent dat het tijdschrift in de huidige vorm zonder subsidie niet kan bestaan.

Bij verzending van het juh-1978 nummer (half augustus) werd een enquete formulier
mgesloten. Van de 500 verzonden formuheren werden er 175 terugontvangen. De abon-
nees werd op een aantal aspecten hun mening gevraagd over de gepubliceerde nummers,
terwijl tevens enkele vragen over de toekomst werden gesteld.

98 respondenten vonden de redactieformule goed, 57 respondenten vonden deze te be-
perkt, terwijl in vier gevallen werd geantwoord dat de redactieformule te ruim is. De
meesten (ong. 80%) van degenen die de redactieformule te beperkt vonden menen dat de
tot nu toe verschenen nummers te veel methodologische, statistische en psychometrische
artikelen bevatten. Ongeveer 60% van hen vond dat te wemig verslagen van empirisch
onderzoek werden gepubhceerd en ongeveer eenzelfde percentage vond het aantal artike-
len over beleid t.a.v. de onderwijsresearch te gering.

Iets meer dan de helft van de respondenten (nl 95) meende dat het aantal methodolo-
gische, statistische en psychometrische artikelen te groot is, 71 antwoordden op de betref-
fende vraag met 'genoeg' en 7 vonden het nog te weinig. De antwoorden op de vraag naar
het aantal verslagen van empirisch onderzoek vormen het spiegelbeeld hiervan. Ongeveer
80% trof te weinig overzichtsartikelen en literatuurstudie aan. Op de vraag naar het aantal
artikelen over beleid t.a.v. de onderwijsresearch lagen de antwoorden meer verdeeld: te
weinig: 64, genoeg: 96, te veel: 12. Het aantal Notities en Commentaren was volgens de
meesten (bijna 80%) genoeg, maar t.a.v. de boekbesprekingen antwoordde 45% dat dit

2. Met dank aan de respondenten en aan het CITO voor de verwerking van de resultaten.

aantal nog te weinig is; de overige respondenten ineenden dat er genoeg boekbesprekingen
in de tot nu toe verschenen nummers hebben gestaan.

De respondenten hebben kennelijk de artikelen in redelijke mate gelezen en oordelen over
het algemeen positief over de kwaliteit ervan.

Met betrekking tot dezelfde vragen over Notities en Commentaren geven de antwoorden
ongeveer hetzelfde beeld, zij het dat het aantal niet-lezers iets groter is en de beoordeling
iets minder positief. De boekbesprekingen blijken aan een behoefte te voldoen, voorname-
lijk als informatie over nieuwe publicaties (122) en in mindere mate als bijdrage tot het
wetenschappelijk forum (23).

112 respondenten zeggen voor het eigen werH iets aan T.O.R. te hebben gehad; 57
respondenten beantwoordden de betreffende vraag negatief.

Wat is, op grond van de tot nu toe verschenen nummers, uw oordeel over het voortbe-
staan van het tijdschrift?

Een beleidsvraag voor de redactie in de afgelopen periode was of T.O.R. in principe alleen
voor Nederlandse en Belgische auteurs zou moeten openstaan, dan wel of ook potentiële
auteurs buiten het Nederlandse taalgebied zouden moeten worden gestimuleerd om in
T.O.R. te publiceren. 41 respondenten meenden in principe alleen Nederlanders en Bel-
gen, 79 waren ervoor ook ruimte te laten voor anderen, 54 bleken onverschillig t.o.v. deze
vraag.

Een grote meerderheid van de respondenten was van mening dat de artikelen zowel in het
Engels als in het Nederlands gesteld kunnen zijn; 33 respondenten vonden alleen in het
Nederlands, terwijl 6 er de voorkeur aan gaven alleen artikelen in het Engels te publiceren.
Uit de antwoorden op de volgende vraag kan men afleiden dat ook de komende twee
jaren de kopij blijft stromen:

2.3 Denkt u dat u in de komende twee jaren een eigen bijdrage aah het T.O.R. zult
aanbieden?

2.4 Hebt u bij vraag 2.3 alternatief c gekozen, op welke wijze gaat u dan de resultaten van
uw werk rapporteren? Kies één of meer van onderstaande mogelijkheden.

- het tijdschrift richt zich te nadrukkelijk op psychometrische/statistische zaken

Op de verschillende open vragen werd uitgebreid gereageerd. De teneur van de gemaakte
opmerkingen was vooral dat het tijdschrift te eng-psychometrisch is. In vele gevallen
werden onderwerpen of thema's genoemd die men in T.O.R. aan de orde gesteld wil zien.
Over het algemeen betrof dat zaken die binnen de huidige redactieformule aan bod
zouden kunnen komen, maar nog niet bij de binnengekomen kopij werden aangetroffen.
Uit verschillende suggesties blijkt dat sommige lezers een aktiever beleid van de redactie
zouden wensen (onderzoekers uitnodigen over bepaalde onderwerpen te schrijven, thema-
nummers uitgeven, review-artikelen werven, redactioneel commentaar op inhoudelijke
kwesties, publicatie van samenvattingen van doctoraalscripties en van SVO-rapporten sti-
muleren).

De redactie heeft kennis genomen van de vele suggesties en opmerkingen.
Meningen van enkele deskundigen

In een rondschrijven d.d. 23 juni 1978 heeft de redactie een zestal open vragen gesteld
over redactieformule en inhoud van T.O.R. Het rondschrijven werd gericht aan een door
de redactie en het bestuur van de Stichting Onderwijsresearch geselecteerd panel van
28 deskundigen op het terrein bestreken door de redactieformule. Van löpersonen^
werd antwoord ontvangen.
De volgende vragen waren gesteld:

• ln hoeverre vindt U het bestaan van het T.O.R. nuttig en stimulerend voor de Nederiandse
onderwijsresearch?

2. Vindt U dat er een ontoelaatbare overlap bestaat tussen het T.O.R. en andere Nederlandse tijd-
schriften op het gebied van de onderwijsresearch of op verwante gebieden?

• Zijn er onderwerpen waaraan naar Uw mening te weinig aandacht besteed wordt in het T.O.R.t

4. Wat vindt U in het algemeen over de kwaliteit van de artikelen? Is Uw mening afhankelijk van het
type onderzoek?

(Bij de beoordeling van de kwaliteit gaarne ingaan op methodologisch/statistische aspecten, rele-
vantie voor theorievorming en/of voor de onderwijspraktijk).

3. Voor hun medewerking danken wij A. van den Berg, P. Buis, B.Th. Brus, E. de Corte, J.J. Elshout,
A.D. de Groot, W.K.B. Hofstee, F.K. Kieviet, L.F.W. de Klerk, G.J. Mellenbergh, W. Molenaar,
M.J.C. Mommers, J. Rispens, E. Velema, E. Warries en V.J. Weiten.

Uit alle antwoorden icwam naar voren dat de redactieformule als zinnig wordt ervaren.
Een respondent meende dat naar een breder lezerspubliek gestreefd zou moeten worden,
niet alleen onderzoekers maar ook 'gebruikers' van onderzoeksresultaten. In deze opvat-
ting zou wat meer accent moeten komen liggen op het doorgeven van informatie uit in
Nederland verriciit onderzoek en zouden vooral ook 'review'-artikelen over actuele onder-
werpen de aandacht moeten krijgen. Een ander benadrukte dat T.O.R. er tot dusver nog
niet in is geslaagd een belangrijk deel van de bedoelingen te realiseren.
Naar het oordeel van de meeste respondenten levert T.O.R. een belangrijke bijdrage aan
het wetenschappelijk forum en heeft het daarin een eigen plaats verworven. Van ontoe-
laatbare overlap met andere Nederlandse tijdschriften is geen sprake, zo meenden alle
respondenten.

Zoals in de enquete onder abonnees kwam ook hier in de antwoorden tot uiting dat velen
de feitelijke inhoud van het tijdschrift te eenzijdig vinden. In de methodologisch-statisti-
sche bijdragen valt een sterk accent op de psychometrie. Een breder scala van methodolo-
gische en methodisch-technische onderwerpen zou aan de orde moeten komen. De
psychometrische bijdragen zijn vaak te ver verwijderd van de toetspraktijk. Het evaluatie-
onderzoek zou meer aandacht moeten krijgen.

Als een tweede eenzijdiglieid werd opgemerkt dat 'grote', theoretisch belangrijke onder-
werpen onvoldoende worden aangesneden, het blijft te veel 'kleine' techniek.
Verder werd geconstateerd dat betrekkelijk weinig verslagen van empirisch onderzoek
werden gepubliceerd.

Gestreefd zou moeten worden naar een bredere vertegenwoordiging van de disciplines die
zich met onderwijsresearch bezighouden.

Tenslotte is er een behoefte aan overzichtsartikelen en kritische besprekingen van contro-
versiële topics in de onderwijsresearch.

Diverse respondenten denken aan een aktief en gericht kopijwervingsbeleid van de re-
dactie. Anderen stelden daar echter tegenover dat zich in T.O.R. de stand van zaken van
de (meer sophisticated) onderwijsresearch in ons land weerspiegelt.
De respondenten waren eenstemmig in hun oordeel dat de artikelen in doorsnee van
redelijk tot goed niveau zijn. Aan de leesbaarheid van de artikelen zou volgens sommigen
wel een en ander verbeterd moeten en kunnen worden.

Op grond van de bereikte resultaten en de bijeengebrachte evaluatiegegevens concluderen
wij dat T.O.R. op de ingeslagen weg dient voort te gaan.

Ongetwijfeld levert het tijdschrift nu reeds een bijdrage tot de bevordering van de kwali-
teit van onderzoek van onderwijs. Het is goed dat onderzoekers worden gestimuleerd tot
publiceren; het tijdschrift levert daar een bijdrage aan. Er wordt ruimte geboden voor
publicaties waarvoor in andere Nederlandse tijdschriften niet of nauwelijks plaats zou
zijn. De beoordelingsprocedure leidt niet zelden tot verbetering van manuscripten. De
kwaliteit van het gepubliceerde kan in zekere mate als normstellend (gaan) functioneren
voor verslaggeving van onderwijskundig en psychometrisch onderzoek in Nederland en
België. Er vindt in (en buiten) het tijdschrift discussie plaats over verricht onderzoek.
De inhoud van de gepubliceerde nummers was redelijk gevarieerd, maar is in het licht van
de redactieformule toch duidelijk nog als 'te eenzijdig' te kwalificeren, zoals uiteengezet

in het evaluatieverslag. Dit is ten dele mogelijk een gevolg van de achtergrond waaruit het
tijdschrift ontstaan is (m.n. de nadruk op psychometrie), maar kan waarschijnlijk ook
gezien worden als een weerspiegeling van de situatie waarin de Nederlandse onderwijs-
research en de beoefening van de psychometrie in Nederland verkeren. Het is (gelukkig)
waar dat een groot deel van de auteurs die vroeger in de ÖPO-nummers publiceerden, nu
in T.O.R. publiceren, maar tevens zijn er vele andere auteurs bijgekomen en is dc geva-
rieerdheid van het kopij-aanbod gedurende de proefperiode toegenomen.
In de doelstelling is opgenomen dat ook 'onderzoek betreffende methodiek en strategie
van ontwikkelingswerk, innovatie en evaluatie' onder de redactieformule valt. Hiervan
kon in de proefperiode slechts weinig gerealiseerd worden. Hetzelfde geldt voor 're-
viewende' artikelen. Het aantal verslagen van empirisch onderzoek dat kon worden ge-
publiceerd (c.q. dat werd aangeboden) bleef naar het oordeel van lezers en redactie onder
de maat. Door SVO gefmancieerde onderzoeksprojecten leidden slechts in geringe mate
tot manuscripten voor T.O.R. Hetzelfde geldt voor ORD-papers.

Een 'positief effect hiervan was dat de 'publication lag' beperkt bleef, zodat het 'snelle
communicatie'-aspect van de doelstelling redelijk gerealiseerd kon worden. Het open staan
voor diverse disciplines werd echter niet maximaal beantwoord. Het tijdschrift trok voor-
namelijk auteurs van psychologische huize.

De redactieformule (d.w.z. aard en niveau van te publiceren bijdragen en beoordehngs-
procedure) blijft in volle omvang gehandhaafd. De redactie streeft ernaar de geconsta-
teerde eenzijdigheden te corrigeren. Daarom tol slot nog eens een opsomming van enkele
kategorieën bijdragen die de redactie graag tegemoet ziet:

- empirische studies die theoretisch, methodologisch of anderszins van belang zijn voor
de voortgang van de onderwijsresearch in Nederland en België.

- overzichtsartikelen waarin de stand van zaken m.b.t. een bepaald gebied van onderwijs-
onderzoek inhoudelijk en/of methodologisch kritisch wordt besproken.

- studies over methodologische, methodisch-technische, statistische en psychometrische
onderwerpen voorzover relevant voor onderzoek van onderwijs en met bijzondere
aandacht voor toepassingen en praktijkproblemen.

- kritische besprekingen van onderzoek en van controversiële topics in de onderwijs-
research, inclusief het onderzoeksbeleid.

Geen enkele van de bovengenoemde kategorieën is bedoeld om andere uit te sluiten; de
lijst moge dienen ter stimulering.

Methods to equate and calibrate tests and to find the optimal cutting scores have been de-
scribed by test theorists. The value of these methods can be tested with simulation of item and
test scores, using logistic item characteristic curves. This paper has two purposes: to describe a
method and computer program for this simulation and to apply the method to the following
problem. Number of items, rehability, mean and standard deviation of p-values and item-test
correlations of a test are given. It is assumed that 1) the test is administered to a random sample
of persons, 2) the parameter values of the items are a random sample from a universe of known
distribution, 3) the utility of the pass-fail decision is a linear function of the trait underlying the
items, and 4) the logistic item model is appropriate. From a utility point of view which method
is preferred: a constant percentage passed (the norm referenced method) or a constant cutting
score (the criterion referenced method)? What is the difference in utility units in relation to the
fluctuations of the utility? How does this difference change with the number of test items and
the number of persons? An estimation of the confidence interval of some item and test statis-
tics are given. Model and program were checked by tracing 1) how certain statistics behave if
the number of items and persons are altered, and 2) how far optimal utility and cutting score
agree with those calculated from the model rising from a bivariate normal distribution between
test scores and utility.

Simulatie - bedoeld wordt hier de zogenaamde Monte-Carlo-methode - kan overal ge-
bruikt worden om problemen op te lossen, die (nog) te ingewikkeld zijn om zonder meer
met een eenvoudig mathematisch model te worden aangepakt. Met simulatie kan het
model veel realistischer gemaakt worden maar de hoge computerkosten weerhouden de
onderzoekers er van om altijd naar dit middel te grijpen. Enkele relatief eenvoudige didak-
ometrische problemen werden reeds met behulp van gesimuleerde itemscores opgelost
(bijvoorbeeld van Naerssen 1976, 1977 en 1978).

Het hier behandelde onderzoek had een tweeledig doel: ten eerste ervaring op te doen
met shnulatie met behulp van het logistische itemmodel, dat wil zeggen te controleren of
de gebruikte simulatiemethode hier wel juist is, en ten tweede een begin te maken met het
aanpakken van enkele equivaleringsproblemen waarvan in de literatuur alternatieve oplos-
singen zijn aangeboden zonder dat duidehjk is in welke gevallen deze de voorkeur verdie-
nen. Bijvoorbeeld zijn*er verschillende methoden in omloop om de aftestgrens te bepalen
van toetsen. Men kan normen van vorige toetsen overbrengen met behulp van herhaal-

items, en dat weer op vele verschillende manieren, men kan van alle items van de voorraad
tot een normgroep herleide indices berekenen met het normaalogiefmodel, men kan
kernitems gebruiken, zich beperken tot een vaste proportie geslaagden (de relatieve me-
thode) of een vaste aftestgrens (de absolute methode) dan wel 'hybride' methoden ont-
wikkelen, daarbij al of niet gebruikmakend van Bayesiaanse technieken. Men zie bijv. de
Gruijter (1977 en 1978). In dit artikel wordt simulatie beperkt tot het eenvoudigste
probleem: de keuze tussen een relatieve en een absolute aftestgrens in verband met
testlengte en aantal personen in de steekproef.

ln de eerste plaats wordt aangenomen dat het logistische model van toepassing is, dat wil
zeggen: 1) er is slechts één gemeenschappelijke factor, de zogenaamde trek, 2) alle item-
karakteristieken (de i.k. geeft de kans om het item goed te beantwoorden als functie van
de trekwaarde) zijn logistische krommen (Lord en Novick, 1968, p. 405) met drie para-
meters: een discriminatie-index aj, een moeilijkheidsindex bj en een kans om het item
goed te beantwoorden bij een trekwaarde min oneindig Cji vaak kan men Cj bij benadering
gelijk stellen aan één gedeeld door het aantal keuzemogelijkheden. Logistische krommen
zijn op het oog gelijk aan normaalogieven. Voorts nemen we aan dat de groep examinandi
een toevallige steekproef vormt uit een populatie met een gegeven verdeling over de trek
en dat de groep items die de toets vormt, een toevallige steekproef is uit een domein items
met een bepaalde verdeling van de itemparameters. Wanneer men een bepaalde situatie wil
simuleren waarbij de verdelingen min of meer bekend zijn, dan kan men deze in het
programma inbouwen; wij hebben eenvoudig geprogrammeerd dat 1) de verdeling van de
personen over de trek logistisch-standaard normaal is (formule 17.2.3 van Lord en No-
vick, maar dan nog met de factor 1.7 dus de dichtheid is als functie van de trek O gelijk
aan 2) de verdeling van aj rechthoekig is tussen de waarden 0.2 en

1.2, 3) de verdeling van bj rechthoekig is tussen de waarden -2 en +2, 4) de waarde van C;
constant 0,25 is, overeenkomende met vierkeuzetoetsen, 5) de correlatie tussen aj en bj in
het itemuniversum nul is. Over die verdelingen en grenzen bij gepubliceerde en teacher-
made tests is niet veel bekend. Bij onze keuze hebben de volgende overwegingen een rol
gespeeld: Door itemselectie zijn items met te hoge of te lage bj of te lage a; er meestal
reeds uitgehaald, terwijl items met aj boven de 1.2 hoogst zeldzaam zijn (een a; met 0.2
komt overeen met een rj,jj, met de trek van 0.196 en een aj van 1.2 met een r^jj, van
0.768; bij een r^j^ van 0.5 bijvoorbeeld komt een bj van -2 overeen met een op raden
gecorrigeerde p-waarde van 0.84 en een bj van +2 met een van 0.16; zie bijv. de formules
2 en 3 in van Naerssen 1977b, waarin de formules van Urry worden afgeleid); kleine
verschillen in Cj zullen geen invloed hebben op de uitkomsten; de precieze vorm van de
verdeling van a; en bj zal er vermoedelijk weinig toe doen, evenals een eventueel matige
correlatie tussen a; en bj; de grenzen zijn na wat proberen zo gekozen dat veel voorko-
mende of althans realistisch lijkende testindices uit de bus kwamen, waarbij gelet werd op
de betrouwbaarheid KR20, de p-waarden en hun spreiding en de itemtestcorrelaties en
hun spreiding.

Het programma (D156A) selecteert nu eerst - voor elke gesimuleerde toetsafname - de
K items, d.w.z. daarvan de aj en bj, en daarna de personen d.w.z. de N trekwaarden 6.
Daarna wordt de itemscorematrix gegenereerd met behulp van (weer) het toevalsmecha-

nisme, nu in combinatie met de formule die de kans-op-goed geeft als functie van aj, bj, Cj
en ö. Daarna worden steekproefindices berekend om na te kunnen gaan of model en
programma adekwaat functioneren: gemiddelde en spreiding (standaardafwijking) van de
scores, dc p-waardcn en de itemtestcorrelaties, en ook de KR20. Dan volgt waar het om
gaat: dc utiliteit van de selectie bij de absolute en de relatieve methode. We komen hierop
terug in par. 4.

Dc berekeningen worden 100 maal herhaald; er wordt dus gesimuleerd dat er 100 toetsen
zijn afgenomen met telkens een toevallige steekproef van items en van personen. Van de
stcekproefindices worden gemiddelden en spreidingen berekend, evenals van de utiliteiten
bij verschillende aftestgrenzen.

Dc berekeningen zijn verricht bij drie niveaus van testlengte (K = 20, 40 en 80) en drie
niveaus van groepgrootte (N = 25, 50 en 100).

Tabel I geeft de gemiddelden en spreidingen (de laatste achter het plus-of-min-teken) van
een zestal grootheden, berekend bij de 100 steekproeven en de 9 combinaties van K en N.
M^ is de gemiddelde testscore; deze grootheid gedeeld door het aantal items K is uiteraard
de (niet afgedrukte) gemiddelde p-waarde. De spreiding van de testscores is s^ de be-
trouwbaarheid (KR-20) is r^x' de spreiding van de p-waarden Sp en gemiddelde en sprei-
ding van de item-test-correlaties zijn M^j^ en s^jx-

Zoals reeds werd opgemerkt zijn de grenzen van de itemparameters aj en b; zo gekozen
dat vermoedelijk veel voorkomende r^^^, s , M^j^ en s^j^ uit de bus komen. Wanneer men
een bepaalde test(-situatie) voor ogen heeit waarvoor men een simulatie wil laten uitvoe-
ren, dan kan men gemakkelijk na wat proberen de gewenste grootheid van de indices
bereiken: r^j^ en M^j^^ worden bijvoorbeeld verhoogd door de gemiddelde aj te vergroten,
Sfj^ door het bereik van aj en Sp door dat van bj te vergroten. Een computerprogramma
dat dit werk uit handen neemt is echter beschikbaar; we hopen in een volgend artikel
hierop terug te kunnen komen.

Een nieuw programma over een nieuw onderzoeksgebied kan om zeer vele redenen foutie-
ve uitslagen geven en moet dus grondig worden getoetst. De volgende berekeningen die-
nen om eventuele twijfel hieromtrent weg te nemen.

Enige controle op model en programma kan men nu uitoefenen door na te gaan hoe de
grootheden zich gedragen bij variatie van K en N.

De gemiddelde p-waarde moet constant blijven en ongeveer 0.625 zijn bij een Cj van 0.25
en een gemiddelde b; 0. Dit blijkt ook zo te zijn, bijvoorbeeld is de gemiddelde score
ongeveer 50 bij K = 80.

Wat betreft de spreiding van de scores, deze blijkt, zoals het hoort, niet afliankelijk van N.
De (gemiddelde) spreiding is natuurlijk wel afhankelijk van K en volgt zelfs vrij nauwkeu-
rig de klassieke formule voor n-maal homogene testverlenging:

Het volgende staatje geeft als voorbeeld de hiermee uit de gegevens met K = 20 berekende
Sn voor n = 2 (K = 40) en n = 4 (K = 80) met daarachter de met K = 40 en K = 80 uit de
simulatie gevonden spreiding:

N=100 Sj = 5.94 (6.06) S4 = 11.20 (11.31)
N= 50 S2 = 5.87 (5.92) S4 = 11.06 (11.39)
N= 25 Sj = 5.87(5.91) S4 = 11.06 (11.94)

De gemiddelde KR-20 blijkt, zoals hoort, niet of nauwelijks afhankelijk van N te zijn en
wat betreft K volgens verwachting ongeveer de Spearman-Brown-formule te volgen. Naar
analogie van het staatje met s kan men stellen:

N = 100 KR2O2 = 0.786 (0.794) KR2O4 = 0.880 (0.882)
N = 50 KR2O2 = 0.779 (0.781) KR2O4 = 0.875 (0.883)
N= 25 KR2O2 = 0.775 (0.780) KR2O4 = 0.874 (0.871)

Wat betreft de spreiding van de p-waarden is verklaarbaar dat deze toeneemt bij afnemen-
de N (hoe kleiner de steekproef hoe meer toevalsfluctuaties). De ietwat toenemende
spreiding bij toenemende K is slechts gedeeltelijk verklaarbaar uit de gebruikte spreidings-
formule (met deling door K i.p.v. K-1).

Het gemiddelde van de itemtestcorrelaties blijkt volgens verwachting niet afhankelijk te
zijn van N maar wel van K: hoe kleiner K hoe hoger de itemtestcorrelatie door valsheid
(het item zit ook zelf in de test). Men kan de gemiddelde itemtestcorrelatie met een
Wassieke formule schatten uit (met de Spearman-Brown-formule berekende) gemiddelde
itemintercorrelatie r:

(zie bijv. Nunnally, 1967, p. 177). Dit levert tabel 2. (Ook met behulp van andere formules
uit de klassieke testleer kan de gemiddelde itemtestcorrelatie gecontroleerd worden.)
worden.)

Men ziet dat de uit de KR20 berekende itemtestcorrelaties wel systematisch wat lager
liggen dan de door het programma berekende M^j^ uit tabel 1, maar dat het verband met
K overings mooi wordt voorspeld.

Bovengenoemde verbanden zijn misschien voldoende om model en programma met ver-
trouwen te gebruiken. Uit tabel 1 volgen echter nog andere verbanden die van nut kunnen
zijn.

Zo ziet men dat de gemiddelde spreiding van de itemtestcorrelaties zeer duidelijk afneemt
met toenemende N, zoals te verwachten was, maar bovendien toeneemt met K.
Van belang zijn vooral ook de spreidingen van de indices berekend over de 100 testafna-
men, dus de getallen achter de plus-of-mintekens. Deze geven immers weer in hoeverre
men vertrouwen kan hebben in de gemiddelden. Aannemende dat de betreffende verdelin-
gen normaal zijn, hetgeen bij deze verdelingen van gemiddelden praktisch het geval is, kan
men zeggen dat er een kans van 68% is dat men bij een gegeven testafname een gemiddelde
vindt van het in tabel 1 staande gemiddelde plus de spreiding en het gemiddelde min die
spreiding. Wat betreft r^^, Sp, M^j^ en s^j^^ ziet men duidelijk dat de spreiding zowel
afneemt bij toenemende N als bij toenemende K. Dit is ook het geval bij de spreiding van
de gemiddelde p-waarden (M^^/K).

Aldus kan men door simulatie een duidelijke indruk krijgen van het betrouwbaarheidsin-
terval van de indices als functie van N en K.

We definiëren de utihteit hier als de waarde van de beslissing een examinandus te laten
slagen ten opzichte van de beshssing hem te laten zakken. Een beslissing iemand te laten
zakken heeft dus per definitie een utiliteit nul, terwijl de beslissing hem te laten slagen
positief of negatief is naar gelang het een 'goede' of een 'slechte' student betreft. Deze
wijze van definiëren vereenvoudigt de formules en berekeningen. De aanname van een
utiliteitscurve van 'laten zakken' naast die van 'laten slagen', waartoe sommige auteurs
zich gedrongen achtten (bijv. de Gruijter 1977, p. 51, en van der Linden en Mellenbergh
1977, eq. 4) wordt hierdoor overbodig.

We nemen aan dat de te maximaliseren utiliteit een lineaire functie is van de trek 6,
terwijl de utiliteit nul is bij een trekwaarde Personen met een trekwaarde boven Öq
'behoren' dus te slagen en personen met een trekwaarde beneden behoren te zakken.
Bij het onderzoek hebben we ons beperkt tot een Oq van -0.5, overeenkomende (volgens
de cum.st.normaaltabel) met 30.85% die zou moeten zakken. Bij een minimum-voldoen-
de-score (MVS) X zijn alle personen met een score van minstens X geslaagd en is de totale
utiliteit van de beslissing gelijk aan de som van de utiliteiten van de geslaagde personen
(de gezakten hoeven bij deze aanpak niet meegerekend te worden want hun utiliteit is per
definitie nul). Om het aantal personen N niet nodeloos in de formules mee te slepen zal
later onder 'utiliteit' niet de totale utiliteit verstaan worden maar deze gedeeld door N,
dus de utiliteit per geteste persoon.

Het programma laat nu in de eerste plaats de utiliteit berekenen van de beslissing (selec-
tie) bij alle K-H MVSs. Bij de eerste en de laatste 'testafname' worden deze waarden ter
controle afgedrukt, samen met de frekwentieverdeling. Figuur 1 toont, naast de frekwen-
tieverdeling, deze selectieutiliteit als functie van de score en wel bij de laatste testafname
van de combinatie K = 20 en N = 100. De eenheden van de utiliteitsschaal zijn hier en
onder gelijk aan standaarddeviaties van 6 d.w.z. u = 0.6 bij een score van 12 betekent
bijvoorbeeld dat bij een MVS = 12 de utihteitswinst per geteste persoon ten opzichte van
de strategie 'niemand laten slagen' gemiddeld gelijk is aan die welke men verkrijgt wan-

neer men een persoon, die een O heeft die 0.6 standaarddeviaties boven hgt, laat
slagen. Een betere a priori strategie is in dit geval 'iedereen laten slagen' (zie van Naerssen
1965). De utiliteit hiervan wordt voorgesteld door de horizontale lijn door U = 0.5.
(omdat (?o = -0.5). De utiliteitskromme (een gebroken lijn) begint bij ongeveer 0.5; niet
precies meestal, omdat de gemiddelde utiliteit van de groep (hier N = 100) om deze
waarde fluctueert (met een s = 1/lOOr = 0.1). De utihteit neemt toe tot een maxhnum
bereikt wordt bij de optimale aftestgrens en neemt dan af tot O (bij een MVS = K+1). Ten
opzichte van de a priori strategie 'iedereen laten slagen' is de utihteit aanmerkehjk, name-
lijk 0.5, lager en vanaf een MVS = 14 zelfs negatief.

Het programma berekent ook voor een aantal scores om het optimum de utiliteit gemid-
deld over 1 00 afnamen. De vloeiende kromme door deze punten is ook getekend in figuur 1.
Voorts berekent het programma voor een zelfde aantal fracties-geslaagden de bijbehoren-
de MVS (d.w.z. de fractie gezakten van die score is gelijk aan of iets groter dan de
opgegeven fractie) en noteert daarvan de utiliteit. Uit de computerberekeningen vindt
men de maximum utiliteit bij constante MVS en die bij constante fractie geslaagden. Deze
maxhna maal 1000 en hun verschillen staan in tabel 3, gemiddeld over de 100 testafna-
men en voor de 9 combinaties van K en N. Een positief verschil betekent dat de absolute
methode (constante MVSs) de voorkeur verdient, een negatief verschil de relatieve metho-
de constante fracties geslaagden).

Intuïtief begrijpt men wel dat de absolute methode vooral moet worden toegepast als het
aantal items groot is (zodat de absolute grens stabiel is) en de relatieve methode als het
aantal personen groot is (zodat de relatieve grens stabiel is). Dit blijkt ook uit de theorie
(de Gruijter 1977, p. 39). Men ziet dit nu eveneens bij deze simulatie. Het verschil is
negatief (de relatieve methode is voordeliger) als K klein is (20) of als N groot is (100); m
de andere gevallen is een absolute grens beter, in het bijzonder als N klein is (25) en K
bovendien groot (80).

Maar tevens blijkt uit de simulatie dat de verwachte verschillen in utihteit uiterst gering
zijn. Zelfs bij de combinatie van 80 items en 25 personen is het verschil slechts 0.014,
d.w.z. de winst van de optimale absolute grens boven de optimale relatieve grens is gemiddeld
per persoon slechts evenveel als de winst die men verkrijgt indien men een persoon met
een thèta van slechts 0.014 standaarddeviaties boven 0q laat slagen.
Ook blijkt de relatieve geringheid van het verschil indien men de standaarddeviatie van de
utiliteit bij de 100 'testafnamen' in beschouwing neemt. In figuur 1 is met twee gestreepte
krommen ook de utiliteit plus de standaarddeviatie en de utiliteit min deze standaardde-
viatie getekend (zodat in ongeveer 68 van de 100 testafnamen de utiliteit tussen deze
beide gestreepte krommen ligt). In dit geval (N = 100, K = 20) ligt de utihteit van de
optimale relatieve grens gemiddeld 0.004 boven die van de optimale absolute grens, maar
de standaarddeviatie s van de utiliteit is, zoals reeds werd opgemerkt, I/IOO^" = O.I,

althans bij een MVS = O (want de standaarddeviatie van 6 is 1 en er zijn 100 testafnamen).
Bij hogere MVSs neemt s ietwat af, zoals men ook aan het toenaderen van de gestreepte
krommen in fig. 1 kan zien. Neemt men de absolute caesuur die gemiddeld de hoogste
utiliteit heeft, dan spreidt de utiliteit met een standaardafwijking van 0.092, dit is dus nog
een veelvoud van het verschil tussen de gemiddelde utiliteiten bij de absolute en de
relatieve methode.

De maximale utiliteit willen we nu nog bij wijze van controle vergelijken met die volgens
de door van Naerssen (1965) afgeleide formules bij aanname van een bivariaatnormale
verdeling tussen utiliteit en testscore. Dat model verschilt duidelijk van het hier gehanteer-
de model, maar er zijn toch ook grote overeenkomsten. De uitkomsten moeten dus ook
overeenkomsten vertonen en de vergelijking kan dienen als controle op eventuele grove
fouten in het model en de gebruikte eenheden en op constructie fouten in het program-
ma. Zoals afgeleid in Van Naerssen 1967, par. 6 kan men in de plaats van een uitwendig
utiliteitscriterium ook de ware score kiezen, waarbij men in de formules in de plaats van
de correlatie tussen utiliteit en testscore de betrouwbaarheid van de testscore moet ge-
bruiken. In wezen dezelfde berekeningsformule, zij het met andere letters voor de para-
meters, en zonder het straks te noemen onderscheid tussen de twee a priori strategieën
vindt men bij de Gruijter (1977, 6.7).

De beste a priori strategie (van Naerssen 1965) is niemand laten slagen als positief is en
iedereen laten slagen als d^ negatief is¹). In het tweede geval wordt de maximale utiliteit
per geteste persoon

waarin y de ordinaat van de dichtheid van de normale verdeling is, behorende bij de
proportie geslaagden p. Door (3) of (4) naar p te differentiëren en nul te stellen verkrijgt
men de optimale aftestgrens in z-scores (form. 3 in het 1965-artikel):

(Zie ook van Naerssen 1967, p. 355 en van der Linden en Mellenbergh, 1977, formule
16).

Voor de 9 combinaties van K en N werden nu uit de KR-20 als betrouwheidsmaat met (5)
0op, berekend, uit de optimale aftestgrens en met de standaardnormaaltabellen y en p en
met (4) de utiliteit t.o.v. 'niemand laten slagen'. Deze kunnen vergeleken worden met de
uhkomsten uit de simulatie. Beide gegevens staan in tabel 4.

1 In het 1965-artikel heet -öq d, de proportie geslaagden heet s en Zx(opt) heet x.

Voor het vinden van de optimale aftestgrens en de optimale fractie geslaagden volgens de
simulatie werden met de computergegevens krommen getekend, die de utiliteit geven als
functie van de aftestgrens, resp. de fractie geslaagden. De waarden volgens het bivariaat-
normale model (BNM) zijn in tabel 4 afgerond tot de nauwkeurigheid, die de getekende
figuren van de simulatie toelaten.

Uit de tabel blijkt dat de optimale aftestgrens (in ruwe scores) van BNM en simulatie
duidelijk overeenkomen. Met de proportie geslaagden is de overeenkomst minder duide-
lijk; het BNM geeft consistent hogere proporties geslaagden, ongetwijfeld het gevolg van
het feit dat de scores bij de simulatie (en in werkelijklieid) niet normaal verdeeld zijn. Wat
de utiliteiten (t.o.v. niemand slaagt; die t.o.v. iedereen slaagt zijn alle 0.5 lager) betreft,
hier geeft het BNM consistent wat lagere waarden. De utiliteiten blijken (net als de
optimale aftestgrens en optimale slaagfractie) niet afhankelijk van N maar uiteraard wel
van K: hoe langer de toets, hoe betrouwbaarder en dus hoe hoger de utiliteit.
Voor de discrepantie tussen de uitkomsten van simulatie en BNM zijn vele oorzaken aan
te wijzen: Zo zijn de uit de simulatie, dus bij een beperkte steekproef gevonden waarden
gebruikt als parameters. Het ene model werkt met continue waarden van scores, het
andere met discrete. Bij de simulatie is geen normale verdeling van scores aangenomen en
bovendien is het gokken ingebouwd in verband met de parameter c. Ook is bij de simula-
tie eerst de utiliteit per toetsafname berekend en is deze vervolgens gemiddeld. Het is
daarom des te opmerkelijker dat er nog zo'n duidelijke overeenkomst is, die o.i. bijdraagt
tot het vergroten van het vertrouwen dat we in model en programma kunnen stellen.

Het model met logistische itemkarakteristieken kan in een simulatieprogramma gebmikt
worden voor het oplossen voor problemen als: gegeven een toets met bekende statistische
grootheden als: aantal items, aantal personen per afname, betrouwbaarhsid, gemiddelde
en standaardafwijking van p-waarden en itemtestcorrelaties en gegeven dat de parameters
van de items beschouwd kunnen worden als toevallige trekkingen uit een universum met
bepaalde grenzen, en de groep personen als een toevallige trekking uit populatie met een

bepaalde verdeling van de trek, gegeven ook dat de utiliteit van de slaag-zak-beslissing een
lineaire functie is van de trek, verdient het dan uit utiliteitsoverwegingen de voorkeur om
een constante aftestgrens (minimum-voldoende-score) te handhaven (absolute methode)
dan wel een constant percentage geslaagden (relatieve methode). Uit een voorbeeld met
veelvoorkomende item- en test-indices en aftestgrens blijkt dat overeenkomstig de ver-
wachting bij een korte test (K = 20) en/of een groot aantal personen (N = 100) de
relatieve methode de voorkeur verdient, en anders de absolute methode, maar dat de
verschillen in utihteit zeer gering zijn vergeleken met de te verwachten schommelingen
van deze utiliteit. De toets gedraagt zich met model en computerprogramma bij manipula-
tie van de aantallen personen en items blijkens een aantal controles practisch precies zoals
men dat zou verwachten. Het onderzoek suggereert dat men de gevolgde methode ook
kan gebruiken bij het toetsen van andere equivalerings-, calibratie- en aftestgrensbepahngs-
methoden die in de literatuur vermeld staan.

Overigens zouden bij verder onderzoek eveneens enkele alternatieven geëxploreerd kun-
nen worden. Zo werd de utihteit een lineaire functie verondersteld van de trek. Een
dichotome utiliteit wordt in de hteratuur echter ook wel eens aangenomen (o.i. op weinig
overtuigende gronden, maar tussenvormen zijn misschien wel levensvatbaar). Voorts werd
hier de relatieve caesuur bepaald door een constant percentage geslaagden. Iets andere
uitkomsten kan men verwachten indien men de caesuur stelt op een vast aantal scorestan-
daardafwijkingen van het gemiddelde.

Gruijter, D.N.M. da. Psychometrische aspecten van tentamens. Proefschrift Leiden 1977.

Gruijter, D.N.M. de. A Bayesian approach to the passing score problem. Tijdschrift voor Onderwijsre-
search 1978, i, 145-151.

Linden, W.J. van der, and Mellenbergh, G.E. Optimal cutting scores using a hnear loss function. Ap-
plied Psychological Measurement, 1977,1, 593-599.

Lord, F.M. and Novick, M.R. Statistical theories of mental test scores. Addison-Wesley, 1968.

Naerssen, R.F. van. Besliskundige toepassingen bij tests en selectie. Nederlands Tijdschrift voor de
Psychologie, 1965, 20, 364-380.

Naerssen, R.F. van. Itemselcctie bij studietoetsen. Nederlands Tijdschrift voor de Psychologie, 1967,
22, 345-359.

Naerssen, R.F. van. Computersimulatie bij het onderzoek van tentamenregelingen. Tijdschrift voor
Onderwijsresearch, 1976,1,112-117.

Naerssen, R.F. van. Moeite en tijd bij conjunctieve en compensatorische combinatie van twee toetsen.
Tijdschrift voor Onderwijsresearch, 1977, 2, 165-171.

Naerssen, R.F. van. Grafieken voor de schatting van de helling van itemkarakteristieken. Tijdschrift
voor Onderwijsresearch, 1977b, 2, 193-201.

Naerssen, R.F. van. Een voorbeeld van simulatie ter controle van empirisch-statistisch onderzoek.
Tijdschrift voor Onderwijsresearch, 1978,3, 49-55.

Three groups of students were asked to study a story with the expectation of either recalling it,
or recognising parts of it or answering some questions about it. Afterwards all subjects were
given a free-recall and a recognition task. The instructions were found to have no major effect
on the nature or quantity of what was remembered. Tlie results indicate that story processing
operates along the same lines no matter the variety of memory instructions given. Tliis was
given support by a study in which no additional instructions at all were used besides the simple
request to read through the story. Tlie retention profile of the story propositions in this group
was similar to those found in the three study instructions. Tlius, the semantic organisation of
the story, rather than the mode of reading, is likely to be an important predictor of which parts
of the story are best remembered, further examination of the semantic organisation shows
however that contemporary hierarchical analysis, e.g. Mandler & Johnson (1977) are also inade-
quate. Alternative approaches to semantic organisation are considered.

Over de verschillen tussen herinnerings- en herkenningsprocessen is de laatste jaren veel
getheoretiseerd en geëxperimenteerd (vgl. Brown 1976). Tegenover de traditionele drem-
peltheorie (Postman, Jenkins & Postman, 1948), waarin recall en recognitie gezien wor-
den als twee verschillende meetpunten van één en hetzelfde geheugenproces, zette Kintsch
(1970) een twee-processen theorie. In deze conceptie spelen retrievalstrategieën een
grote rol bij herinneringsopgaven, maar zijn ze van weinig of geen belang bij het herken-
nen. Een proefpersoon die zich voorbereidt op een herkenningsopgave zou zich dan ook
meer moeite getroosten de aangeboden informatie goed georganiseerd op te slaan. Dit
vergemakkelijkt dan immers het zo cruciale terugzoeken. In het geval van een herken-
ningsopgave zouden dit soort activiteiten echter geen vruchten afwerpen. De unitaire
opvatting van Postman c.s. leidt vanzelfsprekend tot een andere predictie: indien struc-
tureringsactiviteiten herinneren faciliteren zullen ze dat ooTc doen bij herkennen.
In feite wil Kintsch dus het belang van retrievalprocessen aantonen door, d.m.v. instruc-
tieverschillen, verschillende opslagprocessen te bewerkstelUgen. Door de onverbrekelijke
koppeling tussen opslag en retrieval staat ons, experimenteel gezien, ook nauwelijks een
andere weg open (Carey & Lockhart 1973) Kintsch veronderstelt hiermee een controle-
mechanisme dat in staat is in te spelen op de verwachte opgave. Deze controlemecha-
nismen staan centraal in de theorie van Norman en Rumelhart (1970): Waar men bij

1 Met dank aan Jehannê Vieijra-Middelhoff en KeesVuyk voor hun holp bij de uitvoering van het
experiment en de bewerking en Paul Harris voor zijn steun en suggesties.

Kintsch de indruk krijgt dat er een zekere basisactiviteit is waar bovenop, aheen in het
geval van een herkenningsopgave, een extra structureringstendentie werkzaain wordt, ver-
onderstellen Norman & Rumelhart ook voor een herkenningsopgave een taakspecifieke
wijze van informaticopslag. De voorspelling die hieruit volgt is: in alle gevallen zal slechts
een maximale prestatie worden geleverd als de proefpersonen in de leerfase al op de
hoogte zijn van de taak die hen tc wachten staat. M.a.w. men is in staat te leren met een
zeker doel.

Duidelijke evidentie voor dit meest verstrekkende standpunt, t.a.v. de controle die men
over zijn eigen leeractiviteiten zou hebben, is tot op heden niet gevonden.
De algemene opzet van dit soort experimenten is een vier groepen design. Twee groepen
ontvangen hierbij een herinnerings- resp. herkenningsinstructie en ondergaan ook werke-
lijk de aangekondigde opgave. De andere twee groepen ondergaan daarentegen juist de
opgave waarop ze zich niet hadden voorbereid. Soms is deze opzet aangevuld met twee
controlegroepen die geen specifieke studiedoelstelling krijgen voorgeschoteld.
In overeenstemming met Kintsch is een herinneringsinstructie, in vrijwel alle experimen-
ten, effectiever dan een herkenningsinstructie. Dit zou men kunnen zien als een falsifi-
catie van Postman's theorie, waarin beide taken immers een beroep doen op hetzelfde
geheugenproces. De instructies zouden dan voor de proefpersonen te herleiden zijn tot
verschillende formuleringen van een vragen naar één en dezelfde activiteit.
Zelden wordt, conform de aanvullende voorspellingen van Norman & Rumelhart, gevon-
den dat anticipatie op recognitie tot een betere herkenningsprestatie leidt. Een recall- dan
wel neutrale instructie hebben hetzelfde effect (Freund, Breisford & Atkinson 1969;
Naus, Omstem & Kreshtool 1977) of stünuleerde zelfs tot een betere herkennmg (Loftus
1971). Als we dus toch specifieke herkenningsstrategieën willen veronderstellen waren die
in deze experimenten niet geactiveerd door de instructie, dan wel merkwaardig slecht
opgewassen tegen de taakomstandigheden. Een mogelijke verklaring is weUicht te zoeken
m het experimentele materiaal waarvan al deze onderzoekingen zich bedienden: de woor-
denlijst. Mandler (1972) stelt dat het belangrijk is dat de proefpersoon voldoende ruimte
binnen de opgave heeft om een eigen structuur aan te brengen. Met deze argumentatie
wijst hij woordenlijstmateriaal af Eigen experimentatie met het inprenten van woorden-
lijsten, waarbij hardopdenkinformatie werd verzameld (Meerum Terwogt 1970), liet een
grote verscheidenheid van 'geheugen-trucjes' zien en wees dus niet zozeer in de richting
van een beperkende invloed. Het is echter mogehjk dat dit soort verschillen niet in een
kwantitatieve scoring tot uiting komen. Inderdaad maken Eagle & Leiter (1964) en Con-
nor (1977) melding van kwalitatieve verschillen in de encoderingsactiviteiten tussen de
instructiegroepen.

Dit maakte het voor ons interessant om tot een andere materiaalkeuze te komen waarin
eventuele encoding-verschillen wél zichtbaar zouden kunnen worden gemaakt in de retrie-
val-prestaties. We kozen voor het bestuderen van een tekst. Dit werd mede uigegeven
door de observatie van Douglass & Talmadge (1934) dat studenten zich anders zeggen
voor te bereiden op een open-end tentamen dan op een meerkeuze-vorm. Dit werd recen-
telijk nog eens opnieuw bevestigd in een opiniepeiling onder psychologie-studenten aan de
Vrije Universiteit (Van der Flier e.a. 1976). Deze twee tentamenvormen worden gewoon-
lijk gekoppeld aan het recall-recognitie onderscheid. We mogen dus veronderstellen dat bij
de proefpersonen, in ieder geval intuïtief, het idee aanwezig is dat het mogehjk is zich
doelgericht voor te bereiden op een herinnerings- dan wel herkenningstaak, als er teksten
bestudeerd moeten worden.

Het gebruik van tekstmateriaal opent de mogelijkheid een veelheid van aspecten op een
kwantitatieve wijze te benaderen, l.t.t. King (1960), die een aantal afzonderlijke indexen
heeft ontwikkeld voor zaken als 'correcte weergave van ideeën', 'volgorde van inhouden'
etc., hebben we gekozen voor een meer omvattende structuurbenadering. Deze is gelegen
in het aanwenden van de, de laatste tijd zo in de belangstelling staande, 'story-grammars'
(o.a. Rumelhart 1975; Kintsch & van Dijk 1976; Bower 1976; Thorndyke 1977;Mandler
& Johnson 1977) als evaluatiecriterium.

In deze grammars worden proposities van een verhaal naar hun funktie benoemd: bv.
'setting', 'action', 'goal' etc. Vervolgens worden ze in een structuurmodel geplaatst vol-
gens een aantal grammaticale regels. Een dergelijk model krijgt daarmee een hiërarchisch
karakter: subthema's welke een uitwerking van het hoofdthema zijn worden een lager
niveau toegekend.

Men kan nu de volgende predictie maken: 'We suppose that the higher up in the hierarchy
a given proposition is, the more salient it is, the easier it is to identify, the more central it
is to the story, the more attention the person will pay to it, the more hkely it is to
remembered (Bower 1976, blz. 518)'. Even verder voegt Bower hier de uitspraak aan toe:
'These higlier clements are also better recalled in a free recall situation possibly because
they arc more closely connected to the implicit retrieval cues provided by the abstract
framework for stories.' (blz. 522)

In principe moeten dit soort grammars te ontwikkelen zijn voor elk soort zinvolle tekst.
Tot op heden is men er echter alleen nog maar in geslaagd op deze wijze teksten met een
klassieke verhaalstructuur, zoals sprookjes, sagen en mythen, met redehjk succes aan te
pakken.

In onze opzet willen we ons daarom beperken tot een tekst uit deze klasse van proza.
Overeenkomstig de gebruikelijke opzet worden er verschillende instructiegroepen onder-
scheiden, waarvan de reproductie- zowel als de herkenningsprestatie wordt bekeken. Na-
gegaan zal worden of er een differentiëel effect van deze instructies op de prestaties
meetbaar te maken is.

De aard en hoeveelheid van het in de free-recall situatie geproduceerde materiaal wordt
geëvalueerd tegen de achtergrond van een structuurmodel wat op basis van de gramma-
ticale regels, zoals die door Rumelhart (1975) zijn geformuleerd, is geconstrueerd. Dit
betekent dat we binnen deze opzet tevens in staat zijn Bower's hiërarchiepredictie te
toetsen.

Proefpersonen: Het experiment werd gehouden onder $7 postkandidaats psychologie-
studenten. Uitvoering gebeurde tijdens college-uren. De medewerking was op vrijwillige
basis.

Materiaal: Het te bestuderen verhaal bestond uit de nederiandse vertaling van indiaanse
mythe 'War of the Ghosts' (zie bijlage 1). Dit verhaal werd al m 1932 door Bartlett
geanalyseerd en is sindsdien nog vele malen onderwerp van studie geweest. Voor de
analyse van de resultaten maakten wij dan ook o.a. gebruik van de gramma'ticale represen-
tatie die Mandler & Johnson (1977) van dit verhaal geven (zie bijlage 2).
Procedure: De pp'n werden in drie groepen verdeeld, die allen de opdracht kregen het
verhaal 'naar beste vermogen te bestuderen'. De eerste groep (n = 36) kreeg daarnaast een

recall-instructie: 'de bedoeling is dat u zich in staat stelt het verhaal zo nauwkeurig
mogelijk na te kunnen vertellen'. De tweede groep (n = 41) ontving een recognitie-instruc-
tie: 'de bedoeling is dat u zich in staat stelt de onderdelen uit het verhaal te herkennen uit
soortgelijke zinsneden'. De derde groep (n = 20) kreeg een neutrale instructie die voor-
bereidde op 'het beantwoorden van enige vragen over de tekst'. Voor allen gold verder
dezelfde procedure. Bestuderingstijd was 7 minuten. Daarna volgde een periode van
20 minuten, waarin college over een niet gerelateerd onderwerp werd gegeven. Vervolgens
kregen allen zowel een recall- als een recognitieopdracht.
De eerste luidde:

'Geef hieronder het verhaal "de oorlog der geesten" zo nauwkeurig mogelijk
weer. Tracht dus het origineel qua inhoud én formulering zo dicht mogelijk te
benaderen'.

De tijd om aan deze opdracht te voldoen was ongelimiteerd. In de praktijk bleek vrijwel
iedereen er minimaal 15 minuten over te doen en kon na twintig minuten overgegaan
worden naar de volgende opdracht. Deze luidde:

'Op de volgende bladzijde vindt u een aantal paarsgewijs geordende fragmenten
uit het verhaal "de ooriog der geesten". De twee fragmenten uit elk paar zijn,
qua vorm en/of inhoud, sterk gelijkend. Slechts één van de twee komt in werke-
lijklieid in het verhaal voor.

Kruis van ieder paar het fragment aan dat letterlijk in deze vorm in het verhaal
voorkomt. Zet bovendien een Z voor het aangekruiste alternatief indien u zich
vrij zeker ten aanzien van uw keuze voelt.'

Ook hier gold geen tijdslimiet, maar deed niemand er langer over dan 5 minuten. Hiermee
was het experiment geëindigd.

We willen bij deze procedure aantekenen dat ze enigszins afwijkt van de gewoonlijk
gevolgde opzet, zoals die in de inleiding is geschetst. Deze zou echter een verdere splitsing
van elke groep gevergd hebben in een gedeelte dat alleen een herinneringstest kreeg en een
gedeelte dat alleen een herkenningstest ontving. We meenden de omvang van de groepen
echter niet verder te mogen inkrimpen. Daar we niet over meer pp'n konden beschikken
hebben we gekozen voor een opzet waarin de groepen beide opgaven kregen. Hiermee was
de volgorde van afname dan wel vastgelegd. Een confrontatie met het herkenningsmate-
riaal zou een zekere beïnvloeding van de herinnering betekenen. Minder duidelijk is echter
hoe de herinneringsactiviteiten zouden kunnen doorwerken in de herkenningsprestatie.
Helemaal zonder invloed zullen ze wel niet zijn geweest. Gegeven dat we recall als een
actieve reconstructie mogen opvatten kunnen we aannemen dat na de weergave vervor-
mingen in de opgeslagen informatie zijn opgetreden (vergl. de herhaalde retrievalproce-
dure van Bartlett, 1932), die interfereert met mogelijke eerdere geheugensporen. Het lijkt
echter niet noodzakelijk om aan te nemen dat hierdoor een gelijkschakeling van de
instructie-invloeden, die als leidraad van de initiële opslag van informatie hebben gefun-
geerd, zal optreden. Niettemin zullen door de gevolgde procedure, eventuele verschillen in
de herkenningsprestaties kunnen zijn afgezwakt. We richten ons dan ook primair op de
wijze waarop de verschillende instructies hebben doorgewerkt in de herinneringsprestatie.

b. liet totaal aantal weergegeven proposities. Hierbij zijn we uitgegaan van de propositie-
indeling van Mandler & Johnson (1977): zie bijlage 1. Voor de beoordeling of een
propositie correct is weergegeven zijn twee verschillende scoringscriteria gehanteerd:
SCORING I: Capitaliseert m.n. op de informatie die in de betreffende propositie is

vervat. Grondregel is: als deze informatie op de één of andere wijze in
de weergave is terug te vinden wordt de propositie als 'aanwezig' ge-
scoord.

SCORING II: Capitaliseert naast inhoudelijke ook op formele aspekten. Deze scoring
is strenger. Indien een propositie in deze scoring als 'aanwezig' wordt
aangemerkt, wordt hij dat automatisch ook in scoring I. De criteria
waaraan een propositie moest voldoen zijn voor iedere propositie afzon-
derlijk vastgelegd. Ze betroffen veelal het letterlijk gebruik van bepaalde
kernwoorden, maar ook grammaticale aspekten zoals het gebruik van de
directe of indirecte rede en tegenwoordige of verleden tijd.
Grofweg zou men scoring I kunnen karakteriseren als een index voor de handhaving
van de grote lijn in het verhaal en scoring II als een maat voor de nauwkeurigheid
waarmee dit geschiedde.

Interbeoordelaarsbetrouwbaarheid van beide scoringen werd bepaald d.m.v. het onaf-
hankelijk scoren door twee beoordelaars van vijf, random gekozen, protocollen uit
iedere groep. Voor scoring I bleek dat er t.a.v. van 6% van de scoringen een verschil van
mening bestond. Voor scoring II was dit beeld nog iets gunstiger: iets onder de 5%. De
overige protocollen zijn slechts door één van beide beoordelaars gescoord.

c. het aantal weergegeven proposities per inhoudsfunktie. Mandler & Johnson hanteren
de grammatica van Rumelhart (1975) waarin de volgende inhoudsfuncties werden
onderscheiden: 'setting', 'beginning', 'ending', 'attempt', 'action', 'simple reaction',
'outcome' en 'internal event'. Volgens beide scoringsmethoden bekijken we het aantal
proposities dat in elke functie-categorie onthouden wordt door de verschillende in-
structiegroepen.

d. het aantal weergegeven proposities per hiërarchisch niveau. De zelfde vergelijkingen
worden gemaakt als onder c., met dien verstande, dat nu als indelingscriterium niet de
functie van de propositie wordt gehanteerd, maar zijn positie in de hiërarchische
niveaustruktuur. (zie bijlage 2)

e. het aantal distorties in de weergave. In navolging van Bartlett (1932) willen we de
reproducties bekijken op een aantal specifieke aspecten.'

a. spontane inferenties: deze zijn, gezien de in het verhaal aanwezige informatie, van
logische dan wel niet onlogische aard.

b. vervangende termen: synoniem, bovengeordend dan wel ondergeordend aan de in
het verhaal gebezigde term.

c. relatiewijzigingen: het veranderen van een tijdsrelatie in een causale-relatie, of om-
gekeerd.

De gemiddelde reproductielengte loopt voor de verschillende instructiegroepen nauwehjks
uiteen. De groepen met een recall- respectievelijk neutrale instructie komen tot een ge-
middelde lengte van rond de 250 woorden (d.w.z. ruim twee-derde van de eigenlijke
lengte). De recognitiegroep zit hier iets onder (235 woorden gemiddeld: significante afwij-
king op 10 procents niveau). In alle groepen is de spreiding even boven de 40 woorden.

TABEL 1: Gemiddeld aantal niet in de reproductie opgenomen proposities, berekend volgens beide
scoringscriteria

1 Twee proefpersonen uit de neutrale instructiegroep en één uit de recallinstructiegroep zijn uit de
resultaten verwijderd: de geleverde prestatie kon niet als een serieuze poging om aan de reproduc-
tieopgave te voldoen worden aangemerkt.

2 Eén pp in deze groep is niet in aanmerking genomen bij de berekeningen van scoring 11. Doordat in
de reproductie voor een weergave in de ik-vorm is gekozen zou de score bij deze pp onevenredig
laag zijn uitgevallen.

Volgens geen van beide scoringen is er dus van noemenswaardige verschillen tussen de
groepen sprake in de aantallen gereproduceerde proposities.

TABEL 2: De mate waarin proposities onvermeid blijven gerangschikt naar inhoudsfunctie. (bere-
kend over beide scoringen)

De in de cellen voorkomende frekwenties zijn gemiddeld over het aantal pp'n uit de betreffende in-

TABEL 3: Twee factoren ANOVA met herhaalde metingen over de factor B
(ongewogen gemiddelden oplossing)
Factor A: Instructievorm
Factor B: Inhoudsfunctie

In beide scoringen blijkt de inhoudsfunctie een belangrijke variantiebron te zijn. Alleen in
scoring II valt daarnaast een geringe invloed van de instructievorm te constateren. In

tabel 2 kunnen we zien dat die vnl. op rekening valt te schuiven van de groep met de
recall-instructie, welke er in de categorieën 'setting', 'beginning' en 'attempt' duidelijk
uitspringt. Van een interactie tussen instructievorm en inhoudsfunctie is in geen van beide
scoringen sprake.

Kijken we naar tabel 2 dan blijkt dat de vier best onthouden inhoudsfuncties steeds
dezelfde zijn: 'setting', 'beginning', 'attempt' en 'outcome'. Hierbij komt m.n. 'beginning'
in scoring I als gunstig naar voren (essentieel voor de handhaving van de grote lijn?) en de
'attempts' in scoring II. Het is juist in deze laatste categorie dat de hoofdpersonen van het
verhaal aan het woord worden gelaten. Dit soort uitspraken worden dus relatief nauw-
keurig gereproduceerd. De 'action'-categorie komt er in alle gevallen slecht af. Dit lijkt
terug te voeren op specifieke kenmerken van dit ene verhaal. De 'actions' betreffen nl.
allen een gedeelte waarin wordt beschreven hoe de hoofdpersonen verslag doet van wat
hem is overkomen: in feite herhaling van informatie. Dit gedeelte kan integraal worden
overgeslagen, dan wel in één zin worden aangeduid, zonder dat er voelbare 'gaps' in het
verhaal ontstaan. Dit werd dan ook vaak door de proefpersonen gedaan.

Evenals overigens bij de indeling in inhoudsfuncties, ontmoeten we deze keer het bezwaar
dat per niveau het aantal proposities nogal uiteenloopt en in een paar gevallen slechts één
of twee statements bevat. Waar bij de inhoudsfunctie geen zinnige wijze van samenvoegen
van categorieën te motiveren was, kunnen we hier, zonder het hiërarchie-idee geweld aan
te doen aangrenzende categorieën bijeen nemen. De variantie-analyse is daarom uitge-
voerd met slechts vier waarden voor de faktor 'niveau', n.1.: I + II (aantal proposities: 15),
III + IV (11), V (8), VI + VII -H VIII (8).

Het is duidelijk dat in deze resultaten geen enkele steun te vinden is voor de uitspraak dat
een propositie beter onthouden wordt naarmate ze hoger in de hiërarchisch structuur van
het verhaal te vinden is.

Ook de instructievorm heeft geen enkele verklaringswaarde voor de gevonden resultaten.
Noch is er van enige interactie sprake. Kijken we naar tabel 4, dan mochten we iets
dergelijks al verwachten. Alleen de niveau's III en VII springen er enigszins uit. De laatste

bevat echter slechts één statement en de eerste valt juist weer samen met de groep
'action'-statements die, zoals in de vorige sektie al uiteen is gezet, een wat uitzonderlijke
positie innemen.

Voor een eerlijke toetsing van Bower's hiërarchiepredictie kunnen we ons het beste beper-
ken tot de groep die zich had voorbereid op de reproductieopgave. Hiervoor hebben we
een rangcorrelatie berekend tussen het nivo van de proposities enerzijds en de proportie
proefpersonen die deze proposities correct vermelden anderzijds. Dit leverde in geen van
beide scoringen een significant resultaat op (rs = .40 resp. rs = .53).

De gereproduceerde verhalen vertonen, zoals te verwachten, een aantal spontane gevolg-
trekkingen (Bartlett 1932; Paris & Lindauer 1976).

Zo wordt bv. de situatie dat de indianen oorlogskreten horen en naar de kust vluchten
soms gevolgd door de, niet in de tekst voorkomende, toevoeging dat ze 'bang waren'.
Gezien de contekst mogen we dit als een 'logische gevolgtrekking' kenschetsen. Anders
ligt het in het volgende voorbeeld. De situatie is aldus: De twee jonge mannen, in het
bezit van een kano, hebben zich op de kust teruggetrokken. Er arriveert een boot met vijf
mannen, die één van hen overhalen om mee te gaan. De tekst veimeldt hier: 'Eén van de
jonge mannen ging dus met hen mee en de andere ging terug naar huis'. Een proefpersoon
maakt hiervan '... ging over de wal terug naar huis'. Deze gang van zaken is weliswaar in
principe mogelijk maar wordt nergens door de beschikbare informatie waarschijnlijk ge-
maakt. Dit soort toevoegingen hebben we als 'onlogische inferenties' aangemerkt. Hier-
naast komen een enkele keer ook totaal met de informatie in strijd zijnde gevolgtrek-
kingen voor, waarbij de kwalificatie 'onlogisch' dus een duidelijke zaak is.

In feite houden inferenties steeds een specifiêring van de situatie in. We zien echter ook
generaliseringen. Deze komen vooral tot uiting in vervangende termen, met een hoven-
geordend karakter: bv. 'wapens' i.p.v. 'pijlen'. In deze klasse van vervangende termen
hebben we nog twee groepen opgenomen, n.1. nevengeordende termen: bv. 'geweren'
i.p.v. 'pijlen' en een speciale subgroep nevengeordenden: de synoniemen. Deze houden in
feite nauwelijks een distortie in. Een voorbeeld hiervan is 'gevechtskreten' i.p.v. 'oorlogs-
kreten'. De laatste mogelijkheid: ondergeordende termen: 'jonge mannen' is vervangen
door de specificatie 'jonge indianen', hebben we opgenomen onder de inferenties.
Waar inferenties en vervangende termen distorties op het inhoudelijke vlak betreffen,
hebben we ook aandacht willen geven aan een categorie structuurveranderingen. Mandler
& Johnson (1977) wijzen er al op dat het verhaal 'de oorlog der geesten' nogal wat
relatie-anomalieën bevat. Op verschillende punten is een te verwachte causale relatie
tussen de proposities vervangen door een tijdsrelatie (zie bijlagen 1 en 2). Het lijkt geens-
zins onzinnig te veronderstellen dat de instructiegroepen zich zouden onderscheiden in de
mate waarin ze geneigd zijn deze anomalieën glad te strijken door een vervanging van het
voegwoord 'toen' door 'omdat' o.i.d.

Van de twaalf items die in de recognitietest werden gebruikt (zie bijlage 3) vertoonden de
items 1,4, 6, 8 cn 12 in alle groepen een zodanig plafondeffekt (door vrijwel alle pp'n
goed beantwoord) dat differentiatie uitgesloten was. De verdere analyse is dan ook op de
overige zeven items gebaseerd. Per item is het beeld weergegeven in tabel 7.

TABEL 7; Gemiddelden op de items per groep van de gewogen scores
Weging: goed beantwoord + zekerheidsindex aangestreept = 2
goed beantwoord = 1

fout beantwoord + zekerheidsindex aangestreept = -1
(de gemiddelden kunnen hiermee dus variëren tussen -1 en 2)

Er is dus een behoorlijke itemvariantie, maar de invloed van de instructie laat zich nauwe-
lijks gelden. Op vraag tien springt de herkenningsgroep er enigszins uit: Zij kiezen meer
voor de waarschijnlijker volgorde 'Toen hoorden ze het geluid van peddels en verschenen
er kano's' dan de in het verhaal staande zin 'Toen verschenen er kano's en hoorden ze het
geluid van peddels'. De herinneringsgroep lijkt dit nog het meest letterlijk te hebben
vastgelegd, evenals in vraag negen. Hier betreft het een ongelukkige zinsconstructie in het
verhaal: 'Hij vertelde het aan iedereen en zei: "Hoor toe, ...".' Op deze vraag presteert
ook de herkenningsgroep echter niet zo slecht. Alleen de neutrale groep vertoont hier de
neiging het dubbel-op karakter van de mededeling te vermijden. Het laatste item waarop
nog van enig verschil tussen de groepen mag worden gesproken betreft de setting van het
verhaal: vraag zeven. De herkenningsgroep blijkt het best te hebben opgeslagen, dat het
verhaal zich gedurende de nacht afspeelt. Indien we nu het gemiddelde aantal juist beant-
woorde items per groep vergelijken, dan wordt ons idee bewaarheid dat er geen enkel
significant verschil valt te konstateren: zie tabel 8.

Wel significante verschillen vallen in het gebruik van de zekerheidsindex'waar te nemen:
Het is duidelijk dat de herinneringsgroep zich bij de beantwoording overtuigder toont dan
de andere twee instructiegroepen. In een gewogen score leidt dit echter niet tot een
significant betere prestatie (vgl. tabel 7), omdat deze groep zich vaker terecht, maar ook
vaker ten onrechte zeker van zijn zaak voelde.

De algemene conclusie die we uit de resultaten mogen trekken is dat geen der instructies
resulteert in een relatief betere reproductieprestatie - en wel gemeten volgens beide
scoringscriteria - of herkenningsprestatie. Als we hiermee stellen dat de instructies niet in
staat zijn gebleken de studie-instelling zodanig te beïnvloeden dat er een differentieel
effect optreedt t.a.v. de retrievalmogelijkheden dan is dit resultaat in strijd met elke vorm
van een twee processen theorie (Kintsch c.s., dan wel Norman c.s.). De unitaire theorie
van Postman c.s. is weinig exphciet over de storagefase, maar is in principe wel in te
passen. We redeneren dan als volgt: Indien herinnering en herkenning twee meetpunten
van hetzelfde proces zijn, is er geen reden om zich anders op deze opgaven voor te
bereiden. Beide instructies zetten dus hetzelfde proces in werking.
Aangezien in de literatuur herhaaldelijk is gebleken dat verschillende instructies bij het
bestuderen van teksten tot verschillende retrievalcapaciteiten leiden (zie bv. Frederiksen
1975) willen we hier eerst een poging ondernemen het idee van het differentiële instruc-
tieeffect overeind te houden.

De eenvoudigste verklaring voor onze resultaten is, vanuit deze stellingname, gelegen in de
mogelijkheid dat de proefpersonen de instructies niet voldoende tot zich hebben laten
doordringen. Eagle & Leiter (1964) toonden aan dat een transformatie in de zin van

'bestudeer de volgende teksts' is zeer wel mogelijk is voor alle drie de groepen. Dit zou
elke specifieke instructiewerking nivelleren. Anderzijds mag dan gesteld worden dat, als
men onder elk der instructies geneigd is een transformatie in bovenstaande zin toe te
passen, deze instructies kennelijk geen wezenlijk verschil in betekenis herbergen.
Een tweede ontsnappingsmogelijkheid kunnen wc zoeken in de bestuderingstijd. Het is
denkbaar dat de gekozen tijd van zeven minuten niet voldoende was om strategiever-
schillcn tot uiting tc laten komen. Dit zou wijzen in de richting van een identieke basis-
aanpak voor alle groepen, waarna pas in een later stadium aandacht aan specifieke aspec-
ten van het verhaal besteed zou worden om aan de instructie tegemoet te komen. Het
omgekeerde, een te lange studietijd, is in principe ook mogehjk. De doelsteUingsspecifieke
activiteiten zouden dan bv. tijdens het de eerste keer doornemen van het verhaal ont-
plooid worden. In de overgebleven tijd wordt dan de doelstehing ruimer gesteld om aan
eventualiteiten in de komende opgave het hoofd te bieden. Onze experimentatie laat geen
concrete uitspraken op dit punt toe. De experimenten van King & Russel (1966) laten
echter zien dat, met het variëren van de bestuderingstijd, het beeld dat de diverse instruc-
ties opleveren radicaal kan veranderen.

Een meer aannemelijke verklaring ligt in de mogelijkheid besloten dat de groepsverschillen
niet als 'beter' maar als 'anders' zijn te karakteriseren. In onze resultaten zijn daar inder-
daad aanwijzingen voor. Zo bhjkt het dat de herinneringsgroep bij de reproductie minder
spontane inferenties, m.n. van logische aard, maakt, minder vervangende termen gebruikt,
maar meer relatieveranderingen aanbrengt (zie tabel 6). De neutrale groep en de herken-
ningsgroep wijken in deze zaken niet significant van elkaar af. Een coherent beeld over
een achterhggende strategie levert dit niet op. Uitgaande van de veel gehanteerde steUing
dat voor de reproductie van een verhaal van deze lengte het begrijpen van de inhoud van
groter belang is dan voor een herkenningstaak, mag een meer actieve structureringsaanpak
verwacht worden bij de groep die zich op een dergehjke taak voorbereidt. Deze grote lijn
constructie zou dan wellicht ten koste van het aantal details gaan. In dit beeld past dat de
recallgroep, meer dan de anderen, veranderingen in relatiestructuur aanbrengt, waar deze
niet in overeenstemming is met het macro-schema (Kintsch & van Dijk 1975). Ook zou
men nu echter mogen verwachten dat het gebruik van vervangende termen en het aantal
logische spontane inferenties rel|itief hoog zou zijn. De recognitiegroep kan immers vragen
verwachten op verbatim-niveaii, terwijl voor de recaUgroep de grote lijn van het verhaal
door deze 'violations' niet voelbaar wordt aangetast. Het omgekeerde blijkt nu het geval.
Dit levert een vooralsnog voor ons niet te interpreteren beeld op. Eén en ander wordt niet
duidelijker als we naar de recognitietaak kijken. Hier bleek de recallinstructiegroep zeker-
der van zijn zaak te zijn. Men zou kunnen aanvoeren dat die zekerheid zijn oorzaak vindt
in het feit dat de kennis, meer dan in andere groepen, is ingebed in een context. Belang-
wekkend is dat we dan moeten aannemen dat die achtergrondstructuur zo fijnmazig is dat
de alternatieve antwoordmogelijkheid, die veelal slechts m geringe mate afwijkt, daar niet
in zou passen. Dit lijkt in hoge mate onwaarschijnlijk.

We blijven dus met een aantal bevindingen zitten die elkaar niet lijken te ondersteunen in
een coherent patroon.

Bij de huidige stand van de kennis over tekstverwerking is het onvermijdelijk, dat men bij
het bestuderen van groepsverschillen vervalt in een nogal ad hoc-achtige keuze van onder-
zoeksvariabelen. De kans om op deze wijze aan procesmatige informatie te komen hjkt
gering. Wellicht is een zinvollere invalshoek gelegen in een exploratieve aanpak via een
individuele procesanalyse. We denken hierbij m.n. ook aan het verzamelen van proces-

kenmerken gedurende storage- en retrievalactiviteiten van de proefpersoon, m.b.v. tech-
nieken als oogbewegingsregistratie, partiële informatie aanbieding e.d.
Op dit punt aangekomen willen we eens bekijken hoe ver we komen indien we van de
andere länt vertrekken. De algemene stelling luidt nu dat alle studieopdrachten die inhou-
den dat er kennis moet worden genomen van de totale tekst een min of meer automa-
tische wijze van tekstwerking in gang zetten, welke niet of nauwelijks door een explicite-
ring van de doelstelhng waarmee de tekst moet worden bestudeerd te beïnvloeden is.
Er zijn dan ook geen wezenlijke retrievalvcrschillen te verwachten.

Wat nu te maken van de in de inleiding al aangehaalde uitspraken van studenten waarin ze
zich anders zeggen voor te bereiden op meerkeuze tentamens dan op tentamens met een
open vraagvorm? Een dergelijk feit kan worden ingepast met de verklaring dat deze rap-
portage berust op onvoldoende toegang tot de eigen mentale processen. De redenering is
aldus: Hoewel er in werkelijkheid geen sprake is van enig verschil in de wijze van infor-
matie verwerking onder beide kondities, acht de proefpersoon het plausibel dat zulks wél
het geval is. Zijn rapportage berust dan dus, zonder dat hij zich hiervan bewust is, op een
post hoe constructie. Dit verschijnsel is in een groot aantal omstandigheden aangetoond
(Nisbett & DeCamp Wilson 1977). Achteraf blijkt dan ook, dat het nauwelijks iets uit-
maakt voor het resultaat of de geanticipeerde tentamenvorm inderdaad overeenkomt met
de degene waaraan men wordt onderworpen (Vallance 1947; Sax & Collet 1968).
Met onderzoekingen als die van Frederikson (1975) in gedachten, gaat het wat ver om de
stelling dat iedere instructie hetzelfde min of meer automatisch verlopende verwerkings-
proces in werking zet in zijn algemeenheid te handhaven. Voorlopig willen we onze
uitspraken dan ook duidehjk beperken tot de hier gehanteerde instructies en het hier
gebruikte materiaal.

Om de beweringen te onderbouwen hebben we het volgende additionele experiment
uitgevoerd. Het verhaal is nog eens voorgelegd aan een nieuwe groep pp'n (n = 15) met
geen enkele andere instructie dan dat ze het moesten doorlezen. Hiervoor werd drie
minuten de tijd gegeven. De resultaten per propositie (scoring I) zijn weergegeven in
figuur I. Duidehjk is natuurhjk dat deze groep over het geheel gezien beduidend minder
onthouden heeft. Uiterst belangrijk echter is dat de onderiinge verschillen in retentie-
waarde van de afzonderhjke proposities hetzelfde patroon volgen als bij de overige in-
structiegroepen te konstateren is. De toppen en dalen in de grafiek vinden we bij nage-
noeg dezelfde statements. Voor het retentieverschil met onze drie oorspronkelijke groe-
pen is dan geen andere verklaring nodig dan dat deze beschikten over vier extra minuten
rehearsaltijd. Dit leidt tot de conclusie dat we, onafhankelijk van de instehing waarmee de
tekst bestudeerd is, vanuit de eigenschappen van de tekst zelf moeten kunnen verklaren
wat goed onthouden zal worden en wat niet.

Hiermee komen de story-grammars weer in het centrum van de discussie te staan. De
pretentie is immers dat een, met behulp van deze regels opgesteld, structuurmodel een
beschrijving geeft van de wijze waarop het verhaal wordt verwerkt. De waarschijnlijkheid
waarmee een propositie onthouden wordt is dan te voorspellen uit de positie die wordt
ingenomen in de hiërarchische dieptestructuur (zie de aanhaling van Bower in de inlei-
ding). Deze predictie wordt door onze resultaten op geen enkele wijze ondersteund (zie
tabellen 4 en 5). Het concept 'dieptestructuur', waarbij we de diepte mogen opvatten als
een metafoor voor de mate waarin bepaalde informatieeenheden kunnen wegzakken, is
hiermee natuuriijk niet van de baan. Wel wordt het idee ondergraven dat deze structuur te
vangen zou zijn in grammaticale regels (i.e. Rumelhart 1970), zoals die door Mandler &

Johnson gehanteerd worden. Uit het feit dat het verhaal een uiterst onconventionele
structuur bezit en de betreffende grammaticaregels in vele gevaUen daarom slechts moei-
zaam toe te passen zullen zijn geweest, mag men opmaken dat de beslissingen die tot de
boomstructuur uit bijlage 2 hebben geleid in een aantal gevallen arbitrair zijn geweest. Dit
kan natuurlijk niet verantwoordelijk worden gesteld voor het verdwijnen van elk spoor
van een relatie tussen het hiè'rarchieniveau dat aan de propositie is toegekend en het
aantal keren dat deze in de reproductieprotocollen is terug te vinden. De conclusie hjkt
onvermijdelijk dat we met deze regels in de hand niet tot een redelijk predictiemodel
kunnen komen. Van een verdere uitbouw van de basisregels tot een meer flexibel systeem
mag, in het licht van onze resultaten, ook nauwelijks iets verwacht worden.
Veeleer dan steeds nieuwe ad hoe modellen te bouwen, die dan weer een toetsing moeten
doorstaan, lijkt het zinnig het onderzoek aan de andere kant te laten beginnen door op
empirische wijze netwerken te distilleren uit het reproductiegedrag dat we bij een bepaald
verhaal te zien krijgen. Deze aanpak wordt gevolgd in Harris & Meerum Terwogt (1978).
Dc vraag, waar we dan vervolgens voor komen te staan, is met welk minimum aan
decisieregels niet aUeen de fit op de resultaten behouden blijft maar het netwerk tevens
een psychologisch plausibele structuur vertoont. Door deze methode op een groot aantal
verhalen toe te passen wordt het wellicht mogelijk de structuurinterpretaties uit te tillen
boven het onmiddehjk gegevene en regels te formuleren die niet slechts plausibihteit
bezitten binnen een bepaald verhaal maar die te generaliseren zijn naar verwant materiaal.
In Harris & Meerum Terwogt (1978) is de basisregel, aan de hand waarvan de boomstruc-
tuur wordt geconstrueerd, die van de 'asymetrische relatie'. Als alle pp'n die propositie
noemen ook propositie X hebben genoemd, dan wordt verondersteld dat Y slechts in het
geheugen te bereiken is via X. Omgekeerd is het niet noodzakelijk dat bij het noemen van
X ook Y bovenkomt; X is dus een voorwaarde voor Y. Y kan op zijn beurt weer als
voorwaarde fungeren voor het verschijnen van Z, etc. We spreken van een psychologisch
plausibel resultaat als, intuïtief gezien, de noties die aan het begin van een keten staan
ook de kerninformatie van een verhaal bevatten.

Het ketenprincipe vinden we in de grammaticale modelbenadering ook terug. A priori
wordt daar bv. gesteld dat een 'action' een uitwerking is van een ontwikkeling die het
gevolg is van een 'beginning'. Op basis van dit idee wordt de 'beginning' hoger in de keten
geplaatst dan de 'action'. In het algemeen lijkt er echter geen enkele reden om aan te
nemen dat de semantische waarde van de 'beginning' altijd een belangrijker bijdrage tot
het verhaal zou vormen. Het lijkt dan ook aannemelijk dat de in tabel 3 gekonstateerde
samenhang tussen de retentie van de proposities en hun functiebenoeming binnen de
grammaticale structuur er een van spurieuze aard is. Binnen de beperkte populatie van
sprookjes en sagen is het heel wel mogehjk dat de belangrijkste informatie steeds weer in
dezelfde structuurelementen opduikt. Het blijft dan o.i. echter onjuist die grammaticale
structuur als uitgangspunt voor de benadering van het probleem te hanteren. Hiermee
gaan we in feite voorbij aan de doorslaggevende factor: de inhoud van de in de propositie
aanwezige informatie.

Bower, G.II. Experiments on story understanding and recall. Quarterly Journal of Experimental
I'syciwlogy, 1976,2S, 51 1-534.

Carey, S.T. & Lockhart, R,S. Encoding differences in recognition and recall. Memory £ Cognition,
1973, /, 297-300.

Connor, J.M. Effects of organisation and expectancy on recall and recognition. Memory & Cognition,
1977,5, 315-318.

Douglass, 11.R. & Tallmadge, M. How university students prepare for new types of examination.
SciuMl and Society, 1934, iP, 318-320.

làgle, M. & Leiter, E. Recall and recognition in intentional and incidental learning. Journal of Experi-
mental Psychology, 1964, 68, 58-63.

llier, 11. van der, Graaf-Stroo, A.A. de, Huismans, S.E., Kampen, D. van, Leeuw, L. de. Het tentamen
getentamineerd, intern rapport Vrije Universiteit, Amsterdam, 1976.

Frcderiksen, C.H. Effect of context induced processing operations on semantic information acquired
from discourse. Cognitive Psychology, 1975, 7, 139-166.

Freund, R.D., Brelsford, J.W., & Atkinson, R.C. Recognition vs. recall: Storage or retrieval differ-
ences? Quarterly Journal of Experimental Psychology, 1969,27, 214-224.

Harris, P.L. & Meerum Terwogt, M. A Network account of Synoptic Processes in Story recall. Paper
presented at the/nf. Conference on Practical Aspects of Memory sept. 1978.

King, D.J. On the accuracy of written recall; A scaling and factor analytic study. Psychological Rec.,
1960,/O, 113-122.

King, D.J. & Russell, G.W. A comparison of rote and meaningful learning of connected meaningful
material, iowrn. of Verb. Learning and Verb. Beh., 1966,5,478483.

Kintsch, W. & van Dijk, T. Comment on se rappelle et on résume des histoires. Language, 1975, 9,
110-128.

Loftus, G.R. Comparison of recognition and recall in a continuous memory task. Journ. of Experi-
mental Psych., 1971, 97, 220-226.

Mandler, G. Organization and recognition. In E. Tulving & W. Donaldson (eds.) Organization of mem-
ory, New York Academic Press, 1972.

Mandler, J.M. & Johnson, N.S. Remembrance of things parsed: story structure and recall. Cognitive
Psychology, 1977, 9, 111-151.

Meerum Terwogt, M. Protocolanalytische benadering van de test Volgorde onthouden'. Intern Rap-
port, Universiteit van Amsterdam, afd. Funktieleer, 1970.

Naus, M.J., Ornstein, P.A. & Kreshtool, K. Developmental differences in recall an recognition: The
relationship betjveen rehearsal and memory as test expectation changes. Journ. of Exp. Child
Psych., 1977, 2i, 252-265.

Nisbett, R.E. & DeCamp Wilson, T. Telling more than we can know: Verbal reports on mental pro-
cesses. Psych. Review, 1977, 84, 231-257.

Norman, D.A. & Rumelhart, D.E. A system for perception and memory. In D.E. Norman {tA.), Models
of human memory. New York Academic Press, 1970.

Paris, S.G. & Lindauer, B.K. The role of inference in children's comprehension and memory for
sentences. Cognitive Psychology, 1976,5, 217-227.

Postman, L., Jenkins, W.O. & Postman, D.L. An experimental comparison of active recall and recogni-
tion./Imerican your/i. of Psych., 194 8,(57 , 511-5 1 9.

Rumelhart, D.E. Notes on a schema for stories. In D.G. Bobrow & A. Cpllins (eds.) Representation
and understanding: studies in cognitive science. New York Academic Press, 1975.

Sax, G. & Collet, L.S. An empirical comparison of teh effects of recall and multiple-choice tests on
student achievement, your«, of Educational Measurement, 1968,5,169-173.

Thorndyke, P.W. Cognitive structures in comprehension and memory of narrative discourse. Cognitive
Psychology, 1977,9,77-110.

Vallance, Th.R. A comparison of essay and objective examinations as learning experiences. Journ. of
Educational ResearchU941,41,219-288.

Winer, B.J. Statistical principles in experimental design. M. Graw-Hill, New York, 1962.

1 Op een nacht lieten twee jonge mannen van Egulac zich de rivier afzakken om zeehonden te jagen.

21 En de krijgers gingen de rivier op naar een stad aan de andere kant van de Kalama.

25 Maar weldra hoorde de jonge man één van de krijgers zeggen: 'Gauw laat ons naar huis gaan: die
indiaan is getroffen'.

31 En hij vertelde het aan iedereen en zei: 'Hoor toe. Ik ging met de geesten mee en we gingen
vechten.

Hiërarchische analyse van de 'War of the Ghosts'-story.
(ontleend aan Mandler & Johnson, 1977)

- de nummering correspondeert met de in bijlage 1 weergegeven propositie-indeUng

Eén van de jonge mannen was bang en zei: 'Ik heb geen pijlen'.
Eén van de jonge mannen zei: 'Ik heb geen pijlen'.
Er kwam iets zwarts uit zijn mond. Zijn gezicht raakte verwrongen.
Zijn gezicht raakte verwrongen. Er kwam iets zwarts uit zijn mond.
'Misschien is er wel een oorlog aan de gang'.
'Er is vast een oorlog aan de gang'.
Hij voelde zich niet ziek.
Hij voelde zich niet goed.
Toen klonken er strijdkreten.
Toen hoorden ze oorlogskreten.
'Wij hebben pijlen bij ons', zeiden ze.
'Er zijn pijlen in de kano', zeiden ze.

Op een dag heten twee jonge mannen van Egulac zich de rivier afzakken.
Op een nacht lieten twee jonge mannen van Egulac zich de rivier afzakken.
Er zaten vijf mannen in de kano.
Er zaten vijf indianen in de kano.
Hij vertelde het aan iedereen en zei: 'Hoor toe,...
Iedereen luisterde en hij zei: 'Hoor toe,...
Toen verschenen er kano's en ze hoorden het geluid van peddels.
Toen hoorden ze het geluid van peddels en verschenen er kano's.
De mensen kwamen naar de waterkant, ze begonnen te vechten.
De mensen kwamen naar de waterkant om met hen te vechten.
Hij was dood.
Hij stierf.

(1)	A
	B
(2)	A
	B
(3)	A
	B
(4)	A
	B
(5)	A
	B
(6)	A
	B
(7)	A
	B
(8)	A
	B
(9)	A
	B
(10)	A
	B
(11)	A
	B
(12)	A
	B

Binnen liet stelsel van de klassieke true-scoretheorie kan de volgende stelling worden
bewezen: wil men de true score t van een variabele x schatten, en heeft men tevens de
beschikking over scores op een variabele y met txy i^O, dan kan men altijd de schatting
van t verbeteren door y mee te wegen, en soms zelfs door y zwaarder te wegen dan x.
Uiteraard kan y een samengestelde variabele zijn. Onder 'schatten' zal worden verstaan
het schatten van de relatieve positie op t, niet het schatten van de individuele true score;
m.a.w. het probleem zal in correlationele termen worden behandeld.
De context waarin de stelling opkwam was de volgende: de Werkgroep-Wiegersma beveelt
o.a. aan, bij de selektie voor numerus-claususrichtingen alleen te letten op cijfers behaald
op het centraal schriftelijk examen, en de cijfers op het schoolonderzoek daarbij in het
vervolg buiten beschouwing te laten. Een tegenargument tegen deze aanbevehng - hoewel
zeker niet het belangrijkste tegenargument - is nu: zelfs als men uitsluitend geïnteres-
seerd was in het schriftelijk resultaat, dan nog zou men de schatting daarvan kunnen
verbeteren door het schoolonderzoek mee te wegen. Wijnen (pers. meded.) heeft voor-
zover mij bekend een dergelijk argument het eerst naar voren gebracht.
Het eerste deel van de stelhng (als txy O kan men altijd de schatting van t verbeteren
door y mee te wegen) is waarschijnlijk invoelbaar. Het tegenintuitieve is eventueel hierin
gelegen, dat men beducht zou kunnen zijn dat door meewegen van y zoveel ruis en
niet-valide (t.o.v. t) variantie insluipt dat het netto resultaat een slechtere schatting wordt.
Zo is bijv. bekend dat toevoeging van items met positieve item-rest-correlatie de betrouw-
baarheid van een toets kan verlagen in plaats van verhogen. In ieder geval is men zich
blijkbaar niet op aanzienlijke schaal van de stelling bewust, want dan zou hij wel vaker
worden toegepast in de grote hoeveelheid van situaties die daarvoor in aanmerking ko-
men. Ook hebben we de stelling niet als zodanig in de literatuur kunnen vinden. Wel zou
hij gemakkelijk geëxtrapoleerd kunnen worden uit Lord's (1956) werk m.b.t. schatten
van 'true gain'.^

1 De auteur is prof. dr. W. Molenaar, dr. Ch. Lewis en dr. J.M.F. ten Berge erkentelijk voor hun
waardevolle bijdragen aan deze notitie.

2 Men kan de stelling ook opvatten als een generalisatie van het geval waarin er twee groepen zijn (y =
1,0) waarvoor de schatting van de true score systematisch verschilt, zoals bij leerlingen uit hogere en
lagere socio-economische milieu's. Die beschouwingswijze leidt uiteraard tot andere generahsaties
(bijv.: y is een polytomie op nominaal meetniveau), die hier niet verder worden uitgewerkt.

Het bewijs is simpel. Het optimale regressiegewicht van y is volgens de algemene multi-
pele-regressierekening:

Zolang rxt < 1 is bty.* ^ O hetgeen inhoud dat de multipele correlatie hoger is dan rxt,
q.e.d. Bovendien heeft bjy.x hetzelfde teken als rxy, aangezien de overige termen alle
positief zijn; y treedt dus niet als suppressor op.

Aangezien rxt = St = i^xSx. waarbij rx* de betrouwbaarheid van x is, kan b,y.x in
observeerbare termen worden uitgedrukt:

Opgemerkt zou kunnen worden dat aan statistische aspekten hier geen aandacht is ge-
schonken: als men bjy .x in de steekproef zou schatten zou in een volgende steekproef de
multipele correlatie tot beneden r^t kunnen krimpen. In de context van eindexamens zou
men echter over zeer grote steekproeven kunnen beschikken.

Het tweede, meer tegenintuitieve deel van de stelling is relevant als men om bepaalde
redenen aan y niet noodzakelijk het optimale gewicht wil geven. De stelling luidt dat men
soms y zelfs minstens even zwaar kan wegen als x en toch een betere schatting van t
krijgt. We bedoelen hier niet het theoretische geval waarin r^y > t^x- De lezer kan
desgewenst verifiëren dat dan altijd b,y.x.> btx.y als Sx = Sy. Evenmin bedoelen we
triviale gevallen waarin Sy < s*. We zullen de situatie nemen waarin rxx > rxy > O, en
waarin x en y beide in standaardscore-vorm staan.

Gezocht wordt nu naar een relatieve wegingsconstante c > 1, te gebruiken in z = x -H cy,
zodanig dat r^t > rxt. Uitschrijven van r^j levert op:

s, (1 + c' + 2 c rxy)T
Op dezelfde manier als (2) kan (5) in observeerbare termen worden geschreven:

40 Notities en Commentaren
Omdat r^t en r^t beide positief zijn Icunnen we c zodanig kiezen dat r^, > r^,, d.w.z.
C') -^-->^xx

Aan (8) kan worden voldaan als het rechterlid > 1 is, wat na uitwerking resulteert in:

Tabel 1 geeft de minimale waarden van txy voor waarden van rxx - Het blijkt dat txy in
het middengebied bijna .20 lager kan liggen dan r^^ en toch de schatting van t kan
worden verbeterd terwijl y minstens even zwaar wordt gewogen als x. Uiteraard is c niet
het optimale gewicht, maar het maximaal toelaatbare (onder de voorwaarde).
De betrouwbaarheid van y komt in dit verhaal nergens voor, hoewel hij natuurlijk op de
achtergrond wel meespeelt. Als y een informelere procedure is, zoals een schoolexamen of
een andere beoordeling waarvan de betrouwbaarheid lastig te schatten is, dan is dat dus
geen probleem.

Lord, F.M. The measurement of growth. Educational and Psychological Measurement, 1956, 16,
421-437.

Rapport Werkgroep Selectie in verband met de Machtigingswet Inschrijving Studenten. Den Haag,
Staatsdrukkerij, 1978.

D.P. Ausubel, J.D. Novak en H. Hanesian
Educatioml Psychology; a Cognitive View. Second Edition.
New York: Holt, Rinehart & Winston, 1978
Prijs: ƒ 54,60; 733 blz.

The Conditions of Learning. Third Edition.
New York: Holt, Rinehart & Winston, 1977
Prijs: ƒ 32,85; 339 blz.

Van twee klassieken van de onderwijspsychologie zijn in de afgelopen tijd herziene edities verschenen.
Vorig jaar publiceerde Gagné de derde editie van 'The Conditions of Learning' en kort geleden
verscheen de tweede editie van Ausubel's 'Educational Psychology; a Cognitive View'.
Tussen vroegere versies van beide werken bestond al een duidelijk kontrast. Ausubel ontwikkelde een
geheel eigen theorie van het leren in het onderwijs, de assimilatie-theorie, en bij de bespreking van
uiteenlopende onderwerpen uit de onderwijspsychologie greep hij steeds terug naar die theorie. Gagné
was een eclecticus, die wel een eigen systematiek volgde, maar daarbij uit alle velden van de psycholo-
gie plukte wat hem van belang leek voor het leren in het onderwijs.

Dit kontrast is in de nieuwe edities alleen maar sterker geworden. Ausubel herhaalt voor het grootste
deel letterlijk wat hij tien jaar geleden schreef (en dat is vaak letterlijk wat hij vijftien jaar geleden
schreef in 'The Psychology of Meaningful Verbal Learning'). De nieuwe editie bevat slechts marginale
wijzigingen, en de ontwikkelingen van de laatste tien jaar in de psychologie lijken grotendeels aan hem
voorbij gegaan te zijn. Gagné daarentegen trekt ten volle profijt van die recente ontwikkehngen, en zijn
boek is drastisch veranderd. Van oorsprong was hij, hoewel pluralist, toch vooral S-R-theorieën toe-
gedaan. De titel van zijn boek was dan ook niet toevallig: voor Aq processen die zich tijdens het leren
bij de lerende afspelen had hij geen aandacht, slechts de voorwaarden voor en de resultaten van leren
werden bezien. In de nieuwe editie is voor het leerproces een belangrijke plaats ingeruimd, evenals voor
cognitieve strategieën, die door Gagné worden neergezet als centrale processen, waarmee de lerende
zijn eigen leren, waarnemen en denken kan reguleren. Bovendien besteedt Gagné in de nieuwe editie
ook aandacht aan het leren van motorische vaardigheden en van attitudes. Kortom: wie 'bij' wil bhjven
moet wel de nieuwe uitgave van Gagné aanschaffen, maar kan de nieuwe editie van Ausubel's boek in
de boekwinkel laten.

Maar laten we de nieuwe edities in wat meer detail bekijken. Ausubel heeft zich voor de herziening van
zijn boek voorzien van de medewerking van Novak en Hanesian. De gevolgen hiervan zijn nauwelijks
merkbaar, zoals moge blijken uit een overzicht van de belangrijkste veranderingen. In de nieuwe editie
worden alle hoofdstukken voorafgegaan door een inleiding en aan het eind van het boek is een
'glossary' opgenomen van de belangrijkste begrippen uit de assimilatie-theorie. Het hoofdstuk over
The acquisition and use of concepts' is naar voren gehaald, en is nu hoofdstuk 3 geworden. In het
hoofdstuk 'Instructional Materials' wordt aandacht besteed aan de konsekwenties van de assimilatie-
theorie voor curriculum-ontwikkehng. De belangrijkste aanbeveling is dat de conceptuele struktuur van
de disciphne waarvoor men een leerplan gaat maken duidelijk uitgewerkt moet worden. Verdere
aanbevelingen zijn niet veel meer dan herhalingen van dingen die ook elders in het boek gezegd
worden. Interessant is nog wel de bespreking van Gagné's leer-hiërarchieën in dit hoofdstuk: Ausubel
steunt de analyse van een vakgebied, die nodig is om zo'n hiërarchie op te stellen, maar bestrijdt dat
men daarna van onder naar boven moet gaan werken, zoals Gagné voorstelt. Het verdient volgens
Ausubel de voorkeur te beginnen met de meest algemene ideeën van een discipline, waarbij het wel
noodzakelijk kan zijn dat deze in eerste instantie op een weinig precieze, intui'tieve wijze gepresenteerd
worden. In ditzelfde hoofdstuk is ook plaats ingeruimd voor onderwijsdoelstellingen, geïndividuali-
seerde instruktie, geprogrammeerde instruktie, CAI en beheersingsleren. Verdwenen zijn de onderwer-
pen stapgrootte, moeilijkheid, interne logika van het materiaal, en alles over de curriculum-vernieuwin-
gen op specifieke vakgebieden.

Dan komen we toe aan de kleinere veranderingen: toevoegingen en weglatingen ter lengte van ongeveer
een bladzijde. Uit die veranderingen hier niet meer dan een greep. Toegevoegd zijn passages over de
Skinner-Chomsky controverse, Wliorf, vergeten en retroactieve interferentie, een verdediging van orga-
nizers, de betekenis van Piaget voor het onderwijs, kompensatie-programma's, de intelligentie-contro-
verse, test-angst, leermoeilijkheden, cn dogmatisme en authoritarisme. Weggelaten zijn de passages
waarin neo-behavioristische theorieën bekritiseerd werden, en voorts passages over Initial teaching
alphabet', strategieën bij concept-vorming, geautomatiseerd onderwijzen, het faciliterende effekt van
verbaliseren op transfer, het vermogen van kinderen en volwassenen om talen te leren, en leerplan-
breedte. Bij de bespreking van vele onderwerpen zijn onderzoeksreferenties van na 1968 toegevoegd.
De indehng in ahnea's is veelvuldig gewijzigd, en er zijn soms iets andere bewoordingen gekozen.
Wat blijft is dan de verwondering over alles wat niet veranderd is. Het overgrote deel van de tekst is
identiek aan die van 1968, en Ausubel's aankondiging in de inleiding dat nu gekozen is voor een '...
livelier (if less precise) prose style' is dan ook uit de lucht gegrepen. De abstrakte, moeilijk toeganke-
lijke schrijfwijze van Ausubel is kenmerkend ook voor deze tweede editie.

Belangrijker is dat Ausubel inhoudelijk op veel punten niet bij de tijd is. Ik noem een drietal voorbeel-
den. Bij de bespreking van Guilford's intelligentie-model is de zinsnede '... only about a half dozen
factors ... have been well established and shown to have predictive value for related aspects of
academic achievement' (1978, p. 260) onveranderd uit de vorige editie overgenomen. Van Guilford is
slechts één pubhkatie van na 1966 in de hteratuurlijst opgenomen: een artikel van 6 pagina's in
Journal of Creative Behavior van 1973. In een onderzoek uit 1968 (Hoepfner, e.a., 1968;aangehaald
in Guilford & Hoepfner, 1971) bleken echter al 7 van de 16 onderzochte faktoren signifikante
prediktoren voor een tekstbegrip-taak, die gekozen was wegens zijn overeenkomst met in het onderwijs
gangbare taken. En een veel groter aantal faktoren kan inmiddels als 'well established' beschouwd
worden.

Het tweede voorbeeld is iets soortgehjks. De helft van hoofdstuk 16 is gewijd aan probleem-oplossen.
Maar in de literatuurlijst vinden we bij Newell slechts een artikel van Newell, Shaw en Simon uit 1958,
en bij Simon een artikel van 6 pagina's in Science uit 1974.

Het derde voorbeeld raakt het meest aan de kern van Ausubel's theorie. De ontwikkelingen op het
gebied van de cognitieve leer-theorie, de modellen voor het geheugen en andere informatieverwerWngs-
processen, die in de laatste jaren zo'n grote vlucht genomen hebben, hebben Ausubel's boek onberoerd
gelaten. Hij beklaagt zich er slechts over dat zijn theorie in de afgelopen vijftien jaar zo weinig
weerklank gevonden heeft bij andere psychologen. Dat hangt echter ongetwijfeld samen met de ook in
de tweede editie bestaande vaagheid van zijn theorie. In recente modellen worden zaken die Ausubel in
het vage laat zeer nauwkeurig uitgewerkt. Ook hiervan enkele voorbeelden. Het begrip 'meaning' is bij
Ausubel een primitieve term. Het enige wat met wat goede wil als een nadere omschrijving zou kunnen
worden opgevat is de uitdrukking 'differential cognitive content'. Daartegenover kan men geheugen-
modellen stellen van mensen als Kintsch, Schank, CoUins, Norman en Lindsay, waarin de aard van de
ideeën in het geheugen, en de relaties tussen die ideeën tot in detail gespecificeerd worden. Ook een
tweede kernbegrip uit Ausubel's theorie, 'assimilation', is vaag. Het wordt niet goed duidelijk hoe een
anker-idee, waaraan een nieuwe betekenis geassimileerd wordt, door die assimilatie verandert.
De vaagheid van Ausubel's theorie is ook door andere opgemerkt. Zo schrijft Frase (1975): 'Ausubel's
text ... contained useful and stimulating theoretical speculations, but these speculations were put forth
without a coordinate development of experimental methods that allowed empirical tests of those
conjectures' (p. 2).

Zelfs waar Ausubel's theorie uitmondt in een konkrete aanbeveling, het gebruik van 'advance
organizers', blijkt de abstrakte wijze waarop hij dat begrip omschrijft in de onderzoekspraktijk aanlei-
ding te geven tot allerlei problemen. Vele onderzoekers (bv. Peeck, 1977) hebben erop gewezen dat de
definitie onvoldoende operationeel is om tot eenduidige resultaten te komen. Ausubel bestrijdt de
rechtmatigheid van die klacht in de nieuwe passage waarin hij organizers verdedigt. Maar alleen al de
aanwijzing dat de organizer moet aansluiten bij wat de leerhng al weet, stelt de onderzoeker voor het
probleem dat hij een beeld moet zien te krijgen van het kennisnivo van de leerling, en dan voor zijn
organizer algemene ideeën op het betreffende vakgebied moet vinden die een brug kunnen vormen
tussen de bij de leerling aanwezige kennis en het nieuwe materiaal. Daaruit blijkt (vel dat de konstruk-
tie van organizers geen probleem is om lichtvaardig overheen te stappen, en men vindt dan ook in de
onderzoeksliteratuur onder de naam 'organizer' zeer uiteenlopende zaken, van een 'topic sentence'
(Gagné & Wiegand, 1970) tot een konkreet model van een komputer (als organizer bij het leren van
een komputer-taal; Mayer, 1976). Ausubel's repliek op dit punt is niet overtuigend.
Tegenover deze negatieve opmerkingen staat wel dat het boek nog altijd uniek is door de wijze waarop

het ideeën over alle aspekten van het onderwijs-leren in één geïntegreerde opvatting samenbrengt. Die
kombinatie van breedte met eenheid maakt het boek geschikt voor wie zich in de onderwijspraktijk
door een geïntegreerde visie wil laten leiden. Voor dc wetenschappelijke psychologie heeft het boek
echter weinig waarde, mede omdat het te zeer bij recente ontwikkeUngen ten achter is gebleven.
Gagné's opvattingen hebben sedert 1970, het jaar waarin de vorige editie van zijn boek verscheen, wel
een drastische wijziging ondergaan. Deze wijziging was al zichtbaar in andere publikaties (bv. Gagné,
1974). In deze bespreking zal het nieuwe boek uitsluitend met het boek van 1970 vergeleken worden.
De voornaamste algemene wijzigingen zijn de introduktie van het model van de mens als informatiever-
werker en een geheel nieuwe indehng van soorten leren. De belangrijkste zaken die niet veranderd zijn,
zijn de bekende leerhiërarchieën en de bespreking van elk van de typen leren in termen van interne en
externe kondities voor het leren. Wat wel en wat niet veranderde, bespreek ik uitvoeriger aan de hand
van een overzicht van de inhoud van het nieuwe boek.

Vanaf de introduktie maakt Gagné duidelijk dat er veel veranderd is, en in de tekst van hoofdstuk 1
verschijnen al spoedig enkele betekenisvolle nieuwigheden. De definitie van leren is onveranderd, maar
de zinsnede the association is the simplest form of learned capabihty, ... it constitutes a fundamen-
tal "building block" for other more complex performances' (1970, p. 6-7) is verplaatst van een
paragraaf over The Elements of the Learning Event' naar de paragraaf over 'The Associationist
Tradition' in de nieuwe editie, en de weergegeven opvatting is daarmee naar de geschiedenis verwezen.
Voor het onderscheiden van typen leren kiest Gagné vervolgens dezelfde, empirische basis als in de
vorige editie: '... there are several varieties of performance types that imply different categories of
learned capabilities. These varieties of performance may also be differentiated in terms of the condi-
tions for their learning.' (1977, p. 20). Met deze laatste toevoeging maakt Gagné duidelijk dat het
gaat om soorten leren die in alle waarneembare opzichten, de voorwaarden én de uitkomsten, verschil-
len.

Nergens in het boek wordt het model van de processen die zich afspelen tijdens het leren zo ver
uitgewerkt dat we een antwoord krijgen op de vraag of het hier om wezenlijk verschillende vormen van
leren gaat, de vraag die door Ausubel zo nadrukkelijk bevestigend beantwoord wordt in zijn onder-
scheid tussen 'rote' en 'meaningful' leren. Gagné omzeilt op listige wijze de vraag naar de discon-
tinuïteit tussen associatief en cognitief leren. Illustratief hiervoor is dat de titel van hoofdstuk 2 in de
editie van 1970, 'Varieties of Learning', in de nieuwe uitgave veranderd is in: 'What is learned -
varieties'. In het vervolg van deze bespreking gebruik ik gemakshalve maar gewoon de uitdrukking
'soorten leren'.

1. Verstandehjke vaardigheden (mijn vertaling van 'intellectual skills'), omschreven als het gebruiken
van symbolen. Voorbeelden zijn: lezen, schrijven, rekenen, begrippen leren en regels leren.

3. Cognitieve strategieën, waarmee de leerling zijn leren, denken en onthouden kan besturen.

Wie de 1970-uitgave kent, of vertrouwd is met één van de vele secundaire bronnen, waarin Gagné is
weergegeven, zal zich afvragen waar de acht vormen van leren, (in de reeks die loopt van 'signal
learning' tot probleem-oplossen) zijn gebleven. Wel, de hoogste vorm van leren, het probleem-oplossen,
is terug te vinden onder cognitieve strategieën; de volgende drie (diskriminatie, 'concept learning' en
regels leren) keren terug als ondersoorten van verstandelijke vaardigheden; en de laagste vier worden
nog wel behandeld in een apart hoofdstuk, getiteld: 'Basic forms of learning', maar komen in het
overzicht van de verschillende soorten leren niet voor.

In hoofdstuk 3 wordt een model geschetst voor de gebeurtenissen tijdens het leerproces. Hierin vinden
we zaken terug, die bekend zijn uit de informatieverwerkings-theorieën, zoals drie typen geheugen
(zintuiglijk, korte duur en lange duur), een 'respons-generator' (door zijn nadruk op de uiterlijke,
waarneembare kant van het leren maakt Gagné hier niet de fout die Ausubel maakt door het leren bij
het tot stand komen van een inwendige cognitieve struktuur te laten ophouden), encoderen en retrie-
val. Ter besturing van de informatiestroom worden dan ook nog kontrole-processen aan het model
toegevoegd, die uiteraard de plaats van handeUng vormen bij het leren van cognitieve strategieën. Dit
hoofdstuk wordt afgesloten met een overzicht van de externe faktoren, die de interne informatiever-
werking beïnvloeden (zoals 'cues' bij 'retrieval' en de keuze van voorbeelden bij het encoderen van een
nieuw konsept). Daarmee heeft Gagné het model meteen toegankelijk gemaakt voor de onderwijsprak-
tijk, die die externe faktoren kan aangrijpen voor sturing van leerprocessen bij de leerling. Het is deze
nadruk op externe faktoren en voorwaarden voor het leren, die waarschijnlijk bepalend is voor de

giote populariteit in onderwijskundige kringen van Gagné's boek. Zonder te komen tot gedetailleerde
aanwijzingen voor de onderwijspraktijk, geeft hij toch steeds aan hoe het onderwijs de voorwaarden
voor bepaalde vormen van leren kan scheppen. De introduktie van het informatieverwcrkings-modcl,
inklusief externe faktoren, is een uitbreiding van het repertoire van bei'nvloedingsmogelijkheden, die
door de onderwijskunde waarschijnlijk in dank zal worden afgenomen.

De bespreking van eenvoudige vormen van leren in hoofdstuk4 volgt grotendeels die van de 1970-edi-
tie, maar is in de nieuwe editie sterk ingekort. In dit hoofdstuk bespreekt Gagné het leren door jonge
kinderen van nieuwe woorden, en het is aardig zijn opvatting te leggen naast die van Ausubel. Gagné
ziet het leren van nieuwe woorden als een proces dat overwegend berust op stimulus-response asso-
ciatie; Ausubel ziet het als een vorm van betekenisvol leren, omdat kinderen als zij ongeveer één jaar
oud zijn de algemene gedachte 'dingen hebben namen' verwerven, en vervolgens het leren van nieuwe
woorden in verband kunnen brengen met dit algemene, superordinate idee.

Ook de bespreking van de verstandelijke vaardigheden in hoofdstuk 5 en 6 volgt die van de vorige
editie op enkele wijzigingen na. Zo is in de bespreking van het leren van konkrete begrippen de analyse
met behulp van rnediërende stimulus-response verbindingen vervangen door meer cognitief taalgebruik,
waarin het leren van belangrijke kenmerken van konsepten zonder nadere analyse toegestaan is. Daar-
naast is het leren van gedefinieerde konsepten meer op eigen benen komen te staan. Deze receptieve
vorm van begrippen leren, waarbij de leerhng de belangrijke kenmerken van een definitie gepresenteerd
krijgt, wordt scherp onderscheiden van leren van concrete begrippen, waarbij de leerling zelf de
hoofdkenmerken moet vinden. De gebruikte termen zijn minder gelukkig gekozen, omdat eenzelfde
begrip heel goed op beide manieren geleerd kan worden, terwijl de uitdrukkingen 'defined concepts' en
'concrete concepts' suggereren dat elk begrip op slechts één manier geleerd kan worden.
De hoofdstukken 7 t/m 10 over resp. Cognitieve strategieën, het leren van verbale informatie, moto-
rische vaardigheden en attitudes, zijn alle nieuw, ook al is zo hier en daar wel eens een passage te
vinden die in de eerdere editie in een ander verband al voorkwam. De hoofdstukken volgen alle het
bekende patroon: beschrijving van de soort leren, met verschillende subtypen van iedere soort, be-
schrijving van de voorwaarden voor die soort leren, en aan het eind van ieder hoofdstuk een aanduiding
van de betekenis ervan voor het onderwijs. De hoofdstukken vormen een goed overzicht van de
desbetreffende onderwerpen, en geven hier geen aanleiding tot verder kommentaar.
Ook de afsluitende hoofdstukken, waarin aanwijzingen gegeven worden hoe dc analyse van soorten
leren gebruikt kan worden bij het ontwerpen van onderwijsprogramma's, zijn grondig veranderd. Het
zijn er nu nog maar twee en wel hoofdstuk 11 over taak-analyse, en hoofdstuk 12 over de konstruktie
van onderwijsprogramma's. Het proces van onderwijsontwikkeling dient, volgens Gagné, te beginnen
met het uiteenleggen van de te leren taak in deeltaken. Hieraan ligt bij hem de gedachte ten grondslag
dat mensen zich bij het uitvoeren van taken laten leiden door procedures waarin een aantal deeltaken
onderscheiden kan worden. Bij ieder van deze deeltaken moet vervolgens vastgesteld worden om welke
soort leren het gaat, en wat de noodzakelijke interne voorwaarden (voorkennis) zijn. Van deze voor-
kennis moet vervolgens worden beshst of deze bij de leerhng bekend verondersteld mag worden, of dat
in het programma die voorkennis onderwezen moet worden. Het resultaat van deze voorkennis-analyse
is natuurlijk wat we al kennen als Gagné's leer-hiërarchieën. Deze hiërarchische analyse is dus in de
nieuwe editie opgenomen in een meer omvattende taak-analyse methode, op een wijze die doet denken
aan de manier waarop de oude acht soorten leren zijn opgenomen in een meer-omvattende klassifikatie
van soorten leren. In beide gevallen heeft het boek aan waarde gewonnen.

Hoofdstuk 12 is een sterk gekomprimeerde versie van de hoofdstukken 11 en 12 uit de oude edifie,
waarbij bovendien aanpassing aan het informatieverwerkingsmodel en de nieuwe vijfdeling van leren
heeft plaats gevonden.

Tenslotte twee details. Het probleem van 'sexistisch' taalgebruik heeft Gagné op charmante wijze
opgelost, door het afwisselend gebruik van 'he' en 'she' als het om de leerhng of de leerkracht gaat. En:
dc paginaverwijzing in de index loopt systematisch voor; bij verwijzingen midden in het bock moet
men ongeveer drie pagina's verder zoeken dan in de index is aangegeven, aan het eind van het boek is
de voorsprong van de index opgelopen tot zes pagina's.'

' De foutieve nummering in de index van Gagné's boek is in de inmiddels verkrijgbare latere oplagen
gecorrigeerd.

- Ausubel, D.P. The psychology of meaningful learning. N.Y.: Grune & Stratton 1963.

- l'rase, L.T Prose Processing, in: Bower, G.U. (ed.) The Psychology of learning and motivation.
Vol. 9. N.Y.: Academie Press, 1975.

- Gagné, R.M. Essentials of Learning for Instruction. Hillsdale, 111.: Dryden Press, 1974.

- Gagnc, R.M. & Wiegand, V.K. Effects of a superordinate context on learning and retention of
facts. Journal of Educational Psychology, 1970, 61, 406-409.

- Guilford, J.P. & Hoepfner, R. The analysis of intelligence. N.Y.: McGraw Hill, 1971.

- Hoepfner, R., Guilford, J.P. & Bradley, P.A. Identification of transformation abilities in the struc-
ture-of-intellect model. Report from the Psychological Laboratory, Univ. of Southern California,
1968.

- Mayer, R.E. Some conditions of meaningful learning for computer programming: advance orga-
nizers and subject control of frame order. Journal of Educational Psychology, 1976, 68, 143-150.

- Peeck, J. Preinstructional Strategies and Extra Reading Time in Learning from Text. Tijdschrift
voor Onderwijsresearch, 1977, 2, 202-207.

Het proefschrift van ten Voorde is de neerslag van zo'n 14 jaar bezig zijn met vernieuwing in het
scheikundeonderwijs op de middelbare school. In deel 1 situeert hij zijn werk in de vernieuwing van
het onderwijs en het onderwijsbeleid. Hij onderscheidt daarbij enkele trends (verwetenschappelijking
van maatschappij en onderwijs, vermaatschappelijking van wetenschap en onderwijs, veronderwijzing
van wetenschap en maatschappij), waaruit verschuivingen blijken in de relaties tussen wetenschap,
maatschappij en onderwijs. Zijn onderzoek (deel 3, e.v.) wil een bijdrage leveren tot de ontwikkeling
van een empirisch-wetenschappelijke vakdidaktiek, en kan gezien worden als een poging tot onderwijs-
vernieuwing van onderop.

In deel 2 geeft ten Voorde een overzicht van de voorgeschiedenis, in het bijzonder het ontstaan van de
werkgroep empirische inleiding (w.e.i.). Deze w.e.i. ontstond in 1963 toen enkele scheikundeleraren,
die al eerder samenwerkten aan vernieuwing in het scheikundeonderwijs (dit stuk voorgeschiedenis
wordt in deel 1 behandeld) de gespreksgroep wilden uitbreiden. Hierdoor ontstaat een verband, waarin
leraren geïnteresseerd in onderwijsvernieuwing, maar met nog weinig uitgekristalliseerde gedachten
(door ten Voorde korterlerenden genoemd) samenwerken met en in feite geschoold worden door (in
didaktische vakdeskundigheid) reeds langer vernieuwend bezig zijnde leraren (langerlerenden). Deze
periode loopt tot 1968. In de w.e.i. vindt een leerproces plaats dat kortweg gekarakteriseerd kan
worden als loskomen van de eigen chemie-opleiding en -visie en komen tot een didaktiek waarin
uitgegaan wordt van de eigen leefwereldervaringen van leerlingen, althans in eerste instantie. Op het
aldus ontstane grondniveau van de leerlingen kan dan worden doorgebouwd naar een beschrijvend en
vervolgens theoretisch niveau. Dit niveauschema ontstaat ook langzamerhand pas o.g.v. leservaringen.
De beschrijving van de ontwikkelingen in de w.e.i., de ervaringen in de lespraktijk en de koppeling
hiertussen is uitvoerig en geschiedt aan de hand van de leerstof scheikunde. De leergang wordt diverse
malen herzien. De onderwijspraktijk leidt tot een gesprek tussen leerlingen en leraar, waarbij de laatste
veel meer moet luisteren en veel minder of niet geforceerd moet uitleggen als de aansluiting aan het
leefwereldniveau er nog niet is.

In deel 3 wordt de opzet van het onderzoek (1968-1972) beschreven. Dit onderzoek vloeide voort uit
de eerdere werkzaamheden. Het onderzoek beperkte zich tot de eerste twee leerjaren. De leergang,
door t.V. onderwijsgang genoemd, wordt in deze periode systematisch gebruikt door 2 leraren (waar-
onder t.V. zelf) en regelmatig herzien volgens een schema. Het onderwijs wordt vnl. georganiseerd via
gespreksgroepjes van leerlingen, die opdrachten moeten uitwerken. Van vele gespreksgroepjes worden

bandopnamen gemaakt, die worden uitgeschreven (Protokollen). Deze Protokollen vormen het em-
pirisch materiaal waarmee de ontwikkelde gedachten worden getoetst. Deze beschrijving vindt men in
deel 4.

In deel 5 tenslotte wordt nog een korte theoretische verantwoording van het onderzoek geboden. De
diverse onderzoeksvragen worden hier nog eens op een rij gezet en beantwoord onder verwijzing naar
diverse plaatsen in het boek. Ook de generalisatiemogelijkheden komen aan de orde. Verder wordt nog
ingegaan op het perspektief dat het werk biedt voor onderwijsvernieuwing en leerplanontwikkehng.
Het werk van t.V. verdient grote waardering. In de ideale kombinatie van onderzoeker cn docent op
het onderzochte vakgebied heeft hij een grote hoeveelheid gegevens verzameld uit de onderwijspraktijk
zelf. Theoretische veronderstellingen over niveauschema's in het leren, het belang van direkte ervaring
en het produktieve gesprek met en tussen leerlingen als medium voor leren heeft hij met de verzamelde
gegevens op een aanvaardbare manier empirisch weten te onderbouwen, voor zover ik dat als nict-des-
kundigc t.a.v. het vak scheikunde kan beoordelen. Onderzoek langs deze lijn op andere vakgebieden cn
voor het scheikundeonderwijs in hogere jaren dan klas 1 en 2 lijkt me zeer goed mogelijk en ook
wenselijk. Voor leerplanontwikkeling op het secunair niveau biedt dit werk op zich al een aantal goede
aanknopingspunten.

De verbanden die t.V. legt met onderwijsbeleid cn -vernieuwing in ruimere zin zijn ongetwijfeld
interessant, maar staan m.i. wat los van het onderzoek zelf (en de voorgeschiedenis). Met enkele
alinea's in het laatste hoofdstuk had t.V. op dit punt kunnen volstaan. Nu haalt hij er wat teveel
andere zaken bij.

Het werk vertoont t.o.v. de leesbaarheid alle karakteristieken van een proefschrift. Het is weliswaar
zeer systematisch opgebouwd, maar door de vele kleine (sub)paragrafen is het verkrijgen van een
overzicht niet eenvoudig. Daarbij komen dan nog de aantekeningen na elk deel, een boek met bijlagen
Oioofdzakelijk m.b.t. deel 4: Protokollen) en het kleine lettertype. Gelukkig is er wel een glossary. Het
uithoudingsvermogen van de lezer wordt zeer op de proef gesteld. Zonder daarom het belang van de
diverse delen tegen elkaar af te willen wegen de volgende suggestie voor de potentiële lezers. Wil men
de theorie, ontwikkeUng en onderbouwing ervan volgen, dan geeft lezing van deel 2 en 5 een goede
indruk. Wil men de onderbouwing in detail volgen, m.n. de vakinhoudelijke kant dan is lezing van
deel 4 en de bijbehorende Protokollen in de bijlage gewenst. De lezer die zich vooral interesseert voor
vernieuwing van onderwijs en onderwijsbeleid beveel ik lezing van deel I en 5 aan. Nog beter ware het,
indien t.V. enkele beknopte, losse artikelen schreef over het onderzoek, de methode van protokol-
leren, de ontwikkeling van de w.e.i., het niveauschema en zijn opvattingen over onderwijsbeleid en
-vernieuwing, uitgaande van zijn proefschrift. Op die manier wordt een ruimer publiek bereikt dan nu
ongetwijfeld het geval is. Het verrichte werk verdjent dat.

De organisatie van dc ORD'79 is in handen van het NIVOR (Nijmeegs Instituut voor Onderwijs-
research) in opdracht van de VOR (Vereniging voor Onderwijsresearch). Subsidie wordt verleend door
de SVO (Stichting voor Onderzoek van het Onderwijs) en de Katholieke Universiteit van Nijmegen.
De doelen van deze dagen zijn:

a. de kwaliteit van het onderzoek van het onderwijs verbeteren door uitwis^seling van ideeën over

resultaten van (recent) onderzoek;
h. de doorstroom van informatie bevorderen ten behoeve van belanghebbenden bij resultaten van de
ondcrwijsrcscarch;

c. die aandachtspunten centraal stellen, waardoor reflektie over (niet recente) research aanleiding kan
zijn tot breder inzicht in en overzicht op maatschappelijk relevante research;

d. de bevordering van kontakt tussen onderzoekers onderling en van de gebruikers van resultaten met
onderzoekers van het onderwijs.

1. De presentatie van papers rond vier door de begeleidingskommissie vastgestelde thema's. Deze vier
thema's met mogelijke aandachtspunten zijn:

2. De presentatie van vrije papers, die min of meer los staan van de gekozen thema's.

3. De presentatie van 'stand van zaken papers'. Door de begeleidingskommissie wordt een beperkt
aantal onderzoekers benaderd, om de stand van zaken rond enkele aspekten van de onderwijs-
research onder woorden te brengen eventueel betrekking hebbend op een van de gekozen thema's.

4. De presentatie van VOR-kursussen.De VOR organiseert tijdens en na de ORD enkele kursussen.

5. Marktpresentatie van onderwijsprogramma's materialen, (onderzoeks)-instrumenten e.d.

6. Door de organisatoren wordt ruimte ter beschikking gesteld voor werkgroep-aktiviteiten.

De stuurgroep Onderwijssociologie, het interuniversitair samenwerkingsverband van onderwijssociolo-
gen, heeft een nota opgesteld over de plaats van do onderwijssociologie tc midden van dc andere
onderwijswetenschappen. De directe aanleiding tot deze nota is de opbouw van de interdisciplinaire
studierichting onderwijskunde in verschillende universiteiten. De nota onderstreept dc noodzaak van
een zelfstandige onderwijssociologie binnen de sociologische subfaculteit. Er worden vijf voorwaarden
genoemd waaraan voldaan moet zijn, wil een reële inbreng van de onderwijssociologie in dc opbouw
van de interdisciplinaire studierichting onderwijskunde mogelijk zijn.
De nota is verkrijgbaar bij Dr. J. Dronkers, SISWO, Postbus 19079, 1000 SB Amsterdam.

Op verzoek van de Stichting voor Onderzoek van het Onderwijs (SVO) te Den Haag zullen door een
groep onderwijsdeskundigen de mogelijkheden worden onderzocht die kunnen leiden tot de financie-
ring van een gecoördineerde landelijke aanpak van het onderzoek door meerdere groepen onderzoekers
naar de relatie tussen het onderwijs en dc maatschappelijke ongelijkheid.

Begin 1976 gaf de toenmalige minister van onderwijs, dr.'J.A van Kemenade, de wens te kennen dat
een dergelijk gecoördineerd onderzoek zou moeten worden uitgevoerd.

Inmiddels zal een groep wetenschappers zich nu gaan beraden over de mogelijkheid van landelijk
gecoördineerd onderzoek op het terrein van de maatschappelijke ongelijkheid. In opdracht van dc SVO
zal deze groep bezien of er op dit terrein een onderzoeksthcmagroep te ontwikkelen is.
Aangrijpingspunt voor de groep wetenschappers vormt het rapport "Onderwijs, sociologie en ongelijk-
heid' dat een groep auteurs, verbonden aan verschillende universiteiten in Nederland, eerder dit jaar
aan de SVO overhandigde. In dit rapport wordt het huidige onderzoek naar de ongelijkheidsproblc-
matiek en de relatie daarvan met het onderwijs geïnventariseerd. Tevens geeft het rapport aan in welke
richting het komend onderzoek zou moeten gaan.

Beleidsnota van de Contactgroep Research Wetenschappelijk Onderwijs Voorburg, oktober 1978.

De zevende fase van het doelstellingenonderzoek Ubbo Emmius/R.l.O.N. De tweede verwerkings- en
analysefase. Haren: R.I.O.N., 1978.

Fredebeul, F.H. & Krebs, H. Beroepsopleiding in de Bondsrepubhek Duitsland. Supplement bij Be-
roepsopleiding, informatieblad, Brussel: Commissie van de Europese Gemeenschappen, 1978.

Groenendael, HanJ. Vroegtijdige hulpverlening aan zwak funktionerende kleuters. Proefschrift V.U
Amsterdam, 1978.

Hopman, Elly. Doorstroming nader bekeken. Een exploratief onderzoek naar de schoolloopbaan in het
lager onderwijs en voortgezet onderwijs van vijf opeenvolgende zesde klassen van een lagere school.
Innovatieproject Amsterdam, Amsterda: RITP, juh 1978.

Innovatiecommissie Basisschool. Advies 5B aan de minister van onderwijs en wetenschappen. Tweede
voortgangsadvies bij het plan voor activiering van het innovatieproces basisschool. Zeist, november
1978.

Levelt-Divendal, Veronica. Opvattingen van ouders over veranderingen, Innovatieproject Amsterdam,
Amsterdam: RITP, juh 1978.

Raaphorst, Eline. De exemplarische methode in de praktijk. Amsterdam: SUA, 1978.

Vroeijenstein, A.1. Bouwstenen voor een beleid, achtergronden van het beleidsplan van de Contact-
groep R.W.O. Voorburg: C.B.O.W.O./A.R. 1978.

It is often suggested that a greater use of technical means such as audiovisuals and computers
will increase efficiency in higher education. In this study the cost-effectiveness of computer
assisted instruction (CAl) is investigated.

Compared with traditional education tlxed costs (i.e. cost items independent of the number of
students, such as preparation time, courseware and hardware) are several times higher, but the
variable costs (i.c. costs relative to the number of participants) arc usually lower than is the case
with traditional education. So the main conclusion of this study is that CAI will be cost-effec-
tive if the number of participating students is sufficiently high. Other cost data in the study
indicate that a hardware configuration, either based on a minicomputer or on a PLATO-system
is the most efficient. In the latter ease it is assumed that at least 100 terminals are (nationwide)
connected to the central computer.

Considering efficiency, not only institutional but also student costs are of primary importance.
Although the evidence is still rather scarce there arc indications that CAI may cause a substan-
tial reduction in the average time needed to complete the course.

Naarmate de instellingen van wetenschappelijk onderwijs zich meer genoodzaakt zien, om
met een gelijkblijvende hoeveelheid middelen een toenemend aantal studenten op te
vangen, groeit de noodzaak van onderzoek naar de doelmatigheid van het onderwijs.
Dergelijk onderzoek kan een antwoord geven op de vraag, hoe het onderwijs ingericht
dient te worden teneinde met minder kosten dezelfde leerresultaten te bereiken (zowel in
kwalitatieve zin als uitgedrukt in aantallen geslaagden) danwel hoe met gelijkblijvende
financiële middelen méér resultaten bereikt kunnen worden (zoals het zonder kwaliteits-
verlies kunnen opvangen van meer studenten).

In dit verband wordt soms gesuggereerd, dat computer-ondersteuning in het onderwijs
zou kunnen leiden tot een grotere doelmatigheid. Dit artikel poogt hiervan een globale
indruk te geven. Allereerst worden kort de (onderwijskundige) baten behandeld. Vervol-
gens wordt een overzicht van de kosten gegeven en tenslotte wordt de doelmatigheid van
computer-ondersteund onderwijs vergeleken met de doelmatigheid van andere vormen van
instructie.

Dit artikel beperkt zich tot dc groep gccoinbinccrdc CAI/CMI-systcmen. Vooreen uitecn-
/.ettiiig van dc karakteristieken hiervan zij verwezen naar Van Hees (1977). Moonen
(1978) geeft een uitvoerig ovcr/.icht van een praktijkgeval. Ik wil mij hier beperken tot de
constatering, dat dergelijke systemen /.owe! leer- cn oefenstof aanbieden alsook de voort-
gang van de student signaleren ten bcliocvc van docent cn student.

Doelmatigheid is een typisch bedrijfseconomisch begrip, dat de verhouding tussen kosten
en baten van een bepaalde aktiviteit aangeeft. Als voorbeeld kunnen wij een universitaire
dictatencentralc nemen. Deze verkoopt jaarlijks 20.000 dictaten :i ƒ5 per stuk, terwijl de
kosten aan apparatuur cn personeel 80.000 per jaar bedragen plus / I per dictaat voor
papier, Inkt en de werkstudent die stencilt cn bindt. De kostcn/baten-ratio bedraagt in dit
geval (80.000 -h 20.000)/(20.000 x 5) = I.

In liet kader van de samenwerking w.o.-h.b.o. gaat een h.b.o.-instclling een aantal van
deze dictaten gebruiken, namelijk 5.000 stuks per jaar. De kosten/baten-ratio wordt dan
(80.000 -I- 25.000)/(25.000 x 5) = 0,84, hetgeen betekent dat de dictatencentralc doel-
matiger gaat werken.

Zolang kosten cn baten zijn uit tc drukken in dezelfde meeteenheid (meestal in geld), kan
op een dergelijke eenvoudige wijze een besluit worden genomen over bijvoorbeeld een
investering of een andere aanpak. Dc zaak ligt echter minder gemakkelijk, als het er om
gaat, op grond van het doelmatigheidscriterium een oordeel te vormen over de wenselijk-
heid van computergebruik in het onderwijs. Weliswaar zijn de kosten (offers) in financiële
zin nog in geld uit te drukken, maar aan de opbrengstzijde is dit niet het geval: het aantal
geslaagde studenten of dc hoeveelheid toegevoegde kennis en vaardigheden zijn niet een-
voudig te herleiden tot guldens.

Er is een aangepast doelmatiglieidsbegrip, dat in de onderwijssituatie wcihcht wel hanteer-
baar is: de kosteneffectiviteit. Hierbij is niet de kostcn/baten-rar/o bepalend voor de
doelmatiglield, maar worden kosten en baten uitgedrukt in hun eigen dimensie: de kosten
meestal in geld, de baten (effecten) in een andere - laten wij voor wat betreft het
onderwijs veronderstellen, dat de opbrengst ligt in de sfeer van aantal geslaagden en
gemiddelde kwaliteit per geslaagde, uitgedrukt in kennis en vaardigheden. Bij een kosten-
effectiviteits-analyse wordt vervolgens die combinatie van inputfactoren (= onderwijs/
leervorm) het meest doelmatig genoemd, waarbij de kosten per eenheid effect het laagst
zijn.

Over de effecten in onderwijskundige zin van computer-ondersteund onderwijs, is een
aanzienlijke hoeveelheid onderzoek voorhanden. Zo hebben Jamison, Suppes en Wells
(1973) studies, die traditionele onderwijsmethoden in het hoger onderwijs vergelijken met
cursussen waarin de computer in meer of mindere mate ondersteuning biedt, naast elkaar
gelegd teneinde een totaal-oordeel over de effectiviteit te verkrijgen. Zij concluderen dat
bij beide vormen van onderwijs een nagenoeg gelijk niveau van kennis of vaardiglieden
bereikt wordt.

Een tekenend voorbeeld van onderzoek met 'bemoedigend' resultaat, vormt een recente
studie naar het effect van PLATO op het economie-onderwijs aan Cornell University
(Henn& Platt, 1977):

'... tlic statistically significant improvement in scores of the 1976 class over the 1975 performance is
an encouraging indication. The CM class averaged 91.18 on the project in comparison with the 1975
class's average of 88.18. Tiierc is only a probability of less than .005 that this difference in perfor-
mance on the project was due to chance alone.'

Wellicht een significant, maar materieel tevens een uiterst gering verschil!
Niet alleen het bereikte niveau is een maat voor het effcct, ook het aantal geslaagden is
van belang, hoewel geconstateerd moet worden, dat beide niet geheel onafliankelijk van
elkaar zijn. De beschikbare literatuur geeft op dit punt geen uitsluitsel; waar wel gegevens
over het numeriek rendement voorhanden zijn, kunnen vraagtekens bij de daaruit te
trekken conclusies gezet worden (Van der Drift, 1978).

Gaan wij ervan uit, dat de effectiviteit van CAl/CMl vooralsnog niet overtuigend groter is
dan die van andere onderwijsvormen, dan zou een verschil in kosten of kostenstructuur de
aanleiding kunnen vormen voor serieuze overweging van ruimere toepassing van de com-
puter in het onderwijs. Dit neemt niet weg, dat in de toekomst zou kunnen blijken dat
CAI/CMl wel degelijk effectiviteitsverhogend werkt. In dit verband kan gewezen worden
op het experimentele onderzoek, dat het Centrum voor Onderzoek van het Wetenschap-
pelijk Onderwijs van de Universiteit van Amsterdam momenteel doet naar de mogelijk-
heden van het PLATO-systeem, dat ontwikkeld is aan de University of Illinois (U.S.A.) in
samenwerking met Control Data Corporation.

Temidden van de overvloed aan onderzoek naar de effectiviteit van computer-onder-
steund onderwijs, schitteren studies, die inzicht zouden moeten verschaffen in de kosten
van dergelijk onderwijs, door afweziglieid. In de spaarzame gevallen waarin sprake is van
aandacht voor de kosten, is dit óf (zeer) onvolledig gebeurd óf maken de onderzoekers er
zich van af met gemeenplaatsen als: 'nü is het nog duur, maar door daling van apparatuur-
kosten zal het over enkele jaren goedkoop zijn'.

Ik wil in dit verband onder kosten verstaan: alle in geld uitgedrukte offers en inspan-
ningen, die voortvloeien uit het beslag op schaarse middelen en die direkt of indirekt
samenhangen met de betreffende aktiviteit. Hieronder vallen tijd van universiteitsperso-
neel en studenten, beslag op ruimten en apparatuur en tenslotte het gebruik van hulp-
materialen als papier, boeken e.d. Deze laatste categorie wordt, wegens de geringe finan-
ciële consequenties, verder buiten beschouwing gelaten.
De kosten-veroorzakende aktiviteiten zijn als volgt in te delen:

— werking van het systeem in ruime zin»(apparatuur, ruimtebeslag en bedienend perso-
neel).

Aangezien uit de literatuur niet is gebleken, dat de omvang van de drie eerstgenoemde
aktiviteiten systeem-afliankelijk zijn, zal ik deze in algemene zin behandelen. Vervolgens
komt het vierde aktiviteitsaspekt, waarvan de kosten wel afhankelijk van het computer-
systeem zijn, aan de orde, waarna een totaalbeeld van de kosten wordt geschetst.

Dc tijd die nodig is om cursusmateriaal te ontwikkelen, is sterk afliankelijk van het te
behandelen onderwerp en de ervaring van de docent-gebruiker. Het lijkt redelijk om te
veronderstellen, dat dc ontwikkeltijd van ccn uur cursusstof gemiddeld 80 uur bedraagt
(Van der Drift, 1978).

Cursusstof is niet in ccn keer van bevredigende kwaliteit. Het zal meestal nodig zijn om
later nog wijzigingen aan te brengen. Ook vanwege veranderde didactische of vakinhoude-
lijke inzichten zullen geregeld aanpassingen nodig zijn. Wanneer deze latere aanpassingen
geschat worden op 4 uur per uur cursusstof per jaar, lijkt het niet onredelijk om, uit-
gaande van een gemiddelde levensduur van de cursusstof van 5 jaar, per jaar 80/5 + 4 =
20 uur per cursusuur toe tc rekenen als kosten voor ontwikkeling en onderhoud van
lesprogramma's.

Daarnaast blijkt dat de docent-gebruiker bij het ontwikkelen van cursussen doorgaans
assistentie nodig heeft van een systecmanalist, een programmeur cn een onderwijskundige.
Aan dc hand van de beschikbare literatuur is hiervan geen berekening per cursusuur o.i.d.
te maken. Dc opgaven lopen uiteen van 0,2 manjaar-ondersteuning voor een klein projekt
tot vele tientallen voor een groot projekt.

Hierbij dient men zicli wc! te realiseren, dat het systemen betreft in de ontwikkelfase.
Wanneer dc tcchnische kant geheel uit-ontwikkeld is. zal een deel van de informatica-en
programmeer-ondersteuning overbodig zijn. Toch resteert zelfs dan een aanzienlijk beslag
op ondersteunend personeel, waarbij t.a.v. de onderwijskundige inbreng nog opgemerkt
kan worden, dat bij afwezigheid van ccn dergelijk computerprojekt, deze mankracht
waarschijnlijk zou zijn ingezet om 'traditionele' cursussen te verbeteren.
Control Data biedt het PLATO-systeem aan inclusief de daarin aanwezige (engelstalige)
lesprogramma's, lict COWO van de UvA onderzoekt, in hoeverre deze programma's toe-
pasbaar zijn aan deze universiteit. Op grond van verschillen in cultuur en onderwijsinrich-
ting moet echter vooralsnog verwacht worden, dat overname slechts na zeer omvangrijke
aanpassingen mogelijk is, hetgeen in feite overeenkomt met het ontwikkelen van complete
nieuwe programma's.

Tegenover deze toegerekende ontwikkeltijd van 20 uur per cursusuur per jaar + e.xtra
ondersteuning, kan de voorbereidingstijd voor een uur traditioneel onderwijs gesteld wor-
den op 4 tot 8 uur por lesuur per keer. Overigens zijn bij deze berekening niet de kosten
in aanmerking genomen, die voortvloeien uit iict testen van de programma's (computer-
en terminalbeslag, proefpersonen e.d.). Over het algemeen zullen deze van relatief geringe
omvang zijn.

Uitgaande van ccn gemiddelde personeelslast voor w,etenschappclijk personeel (excl.
kroondocenten) van ƒ80.000,- cn ccn netto-werktijd van 1600 uur per jaar, dient aan

keling en onderhoud. Terzijde is liet overigens interessant te constateren, dat één weten-
schappelijk staflid al een volle jaartaak heeft aan de zorg voor het aanwezig zijn van een
computerondersteunde cursus van 80 contacturen (namelijk 80 x 20 uur).

De hoogte van tijdsbcslag van het personeel, dat een computcr-onderstcunde cursus bege-
leidt, is van ondergeschikt belang, vergeleken met de hoogte van de andere kostenposten.

Een goed uit-ontwikkeld Icsprogriinmia behoeft nauwelijks begeleiding. Voor uitspraken
over de totale omvang van dc ondcrwijslast van een computer-ondersteunde cursus, is het
van belang te weten, of het gecomputeriseerde cursusonderdeel een vervanging van of een
toevoeging aan écn of meer bestaande cursuselemcnten is.

Wanneer het maken van oefeningen aan een terminal in dc plaats komt van een werk-
college of werkgroep, treedt er wellicht een verlaging van de jaarlijkse onderwijslast op.
Wanneer echter dc student kan kiezen uit het maken van oefeningen aan de terminal óf in
een werkcollege, dan zal de vermindering van de onderwijslast aanzienlijk geringer of zelfs
nihil zijn'. Overigens is liet niet uitgesloten, dat zelfs bij vervanging de tijdsbesparing
geheel of ten dele teniet gedaan wordt door verhoogde deelname aan andere onderwijs-
faciliteiten als vragenuur of spreekuur.

Het effect op de begeleidingstijd is derhalve sterk afliankelijk van de cursus, zodat een
algemene uitspraak hierover niet mogelijk is. Ook het effect op de 'administratieve' kant
van dc onderwijsbegeleiding is per cursus verschillend, maar het is aannemelijk, dat daarbij
sprake is van een overwegende tijdsbesparing, zeker wanneer het gaat om grote studenten-
aantallen. Deze besparing t.o.v. traditioneel onderwijs (met essay-toetsen) wordt veroor-
zaakt door een aanzienlijke vermindering van de tijd, die nodig is om toetsen na te kijken,
waarbij bovendien bedacht dient te worden, dat het programma de docent in staat stelt
om de kwaliteit van de vragen te beoordelen alvorens de cijfers worden toegekend. Om
deze voordelen te bereiken is echter geen compleet CMl-systceni noodzakelijk.
Hetzelfde geldt voor een ander pluspunt van CAl/CMl-systemen dat soms genoemd
wordt: de besparing van tijd van de administratieve staf. Gegevens hierover zijn niet
vooriianden, maar verwacht mag worden dat de kosten van computer-tijd aanzienlijk
geringer zijn dan dc situatie waarin de administratie de studievoortgangsgegevens zelf
bijhoudt, later terugzoekt en hiervan overzichten samenstelt. Ook hiervoor is een beperkt
C'A//-systeem voldoende.

Het lijkt op het eerste gezicht wat merkwaardig om de tijd. die studenten aan onderwijs-
aktiviteiten besteden, in een beschouwing als deze te betrekken. Studenten staan immers
niet op de loonlijst van de universiteit. Zowel op nationaal niveau als op het niveau van de
individuele student is er echter wel degelijk sprake van een kostenpost. Voor de student
betekent het deelnemen aan onderwijs, dat hij — aangezien tijd een schaars goed is — geen
of minder tijd overhoudt om materieel beloonde arbeid te verrichten en van vrije tijd te
genieten. Er is dan sprake van kosten in de zin van 'gemiste opbrengsten' (die overigens
ten dele gecompenseerd worden door de ouderlijke en/of rijksbijdrage in de studie).
Op nationaal niveau is sprake van kosten in de vorm van studietoelagen; kinderbijslag en
-aftrek, en in de vorm van 'gederfde opbrengsten' in de zin van een lager Nationaal
Produkt dan wanneer de studenten aan het produktieproces zouden deelnemen.
Zou de werkelijke studieduur korter worden omdat de studenten sneher de beoogde
leerdoelen bereiken, dan treden er besparingen op in de kosten, veroorzaakt door aktivi-
teiten van studenten.

Bij computer-ondersteund onderwijs blijkt sprake te zijn van enige tot aanzienlijke bespa-
ringen in studenttijd. Er zijn voor het hoger onderwijs enkele studies voorhanden, die aan

1. Het invoeren van parallelle werkvormen zou overigens een positief effect op de studieresultaten
kunnen hebben. Men vergelijke bijvoorbeeld Cohen (1978) en Vos (1978).

dit aspckt aandacht besteden. Het betreft onder meer een cursus programmeren, waarbij
dc groep traditioneel onderwezen studenten gemiddeld 24 uur besteedde en de groep
CAI-studcntcn 13,75 uur (Jamison, Suppes & Wells, 1973, p. 49).

Moonen (1978) heeft de invloed onderzocht van het maken van oefeningen aan de ter-
minal, op de studcnttijd. Na een uitvoerige analyse van de tijdsbestedingsgegevens van
enerzijds de studenten, die oefeningen aan de terminal maken en anderzijds de studenten,
die op het oefencollcge aanwezig zijn, concludeert hij, dat studenten, die op efficiënte
wij/.e gebruik maken van het terminalsysteem (dit is ofwel er een redelijke tijd aan
besteden (100-299 minuten) ofwel er ccn redelijk aantal oefeningen mee maken (4-9),
significant minder tijd gebruiken voor de totale cursus (d.w.z. oefeningen voorbereiding
van het tentamen + voorbereiding van de oefeningen) dan de andere studenten. Een
dergelijke conclusie kan t.a.v. de ocfencollegesituatie niet getrokken worden.
Müldstad( 1974) maakt melding van een aantal studies, waaruit een tijdsbesparing van 10
tot 50% zou blijken.

Hoewel liet te ver zou gaan om op grond van deze onderzoekresultaten te besluiten, dat
computcr-ondcrsteimd onderwijs leidt tot een vermindering van de studcnttijd met bijv.
20 ä 407o, kan wel dc verwachting worden uitgesproken, dat toepassing in het onderwijs
op ruimere schaal, zou kunnen leiden tot substantiële vermindering van deze tijd. Mede in
het licht van de herstructurering, is dit een niet onbelangrijk gegeven. Overigens kan men
zich afvragen, of de verlaging van de studcnttijd niet mede veroorzaakt wordt door het
feit, dat bij de onderzochte cursussen sprake was van een betere onderwijsplanning dan
veelal gebruikelijk is.

Deze groep van kosten is dermate hardware-afiiankelijk, dat allereerst een vijftal systemen
gegeven zal worden, waarna achtereenvolgens de voor- en nadelen van ieder van de syste-
men en hun kosten besproken worden. Het eerste alternatief betreft het huren van
PLATO-temiinals en computer-dienstverlening bij Control Data Corp.
Het is ook mogehjk, om met een aantal (nederiandse) universiteiten en hogescholen
gezamenlijk een eigen PLATO-systeem op te zetten; deze mogelijkheid hjkt realistisch, nu
de Universiteit van Amsterdam onderzoekt in iioeverre het mogehjk is, hiervoor een
afgeschreven CDC-computcr in te zetten.

Ten derde kan gebruik gemaakt worden van de apparatuur van het universitaire reken-
centrum (zoals dat bij de cursus statistiek van Moonen het geval is).
Een vierde mogelijkheid is een minicomputer, waarop 10-30 terminals kunnen worden
aangesloten. Tenslotte kan het aanschaffen van een aantal stand-alone computers (los-
staande terminals met ingebouwde computer) overwogen worden. De vijf alternatieven
zullen hieronder kortheidshalve worden aangeduid met PLATO/CDC, PLATO/UvA, URC,
MINI en TERM.

De eerste twee systemen hebben het voordeel, dat gebruik kan worden gemaakt van
speciaal voor onderwijsdoeleinden ontwikkelde systeemsoftware, randapparatuur en
auteurtaai. Bovendien zijn grote aantallen terminals aan te sluiten op é,én systeem (tot
1000 stuks) zonder onacceptabel trage responsietijden. Het derde en vierde systeem mis-
sen de eerstgenoemde voordelen, terwijl de ervaring met het gebruik van multi purpose-
computers is, dat de 'responsietijden vaak te hoog worden (> 2 sec.), hetgeen storend
werkt op dc student-gebruiker. Ook Moonen (1978) rapporteert deze handicap. Boven-
dien kan het bij de alternatieven URC en MINI noodzakelijk zijn, de programmatuur aan

Figuur 2. Operationele kosten per student-kontaktuur
te passen wanneer het operating system vervangen wordt.

Bij het prijspeil van medio 1978 kunnen de in figuur 1 geschetste kostenstructuren in
grote lijnen representatief geacht worden voor de verschillende alternatieven, voorzover
het de operationele kosten betreft. Voor de aan figuur 1 ten grondslag liggende bedragen
en veronderstellingen zij men verwezen naar appendix A.

In figuur 1 is op de abscis het aantal terminals aangegeven. Het benodigde aantal terminals
is te schatten door het totaal aantal student-kontakturen te delen door 1600 uur (de
waargenomen gem. jaarlijkse produktie per terminal). De ordinaat geeft de resulterende
operationele kosten. De uitkomsten spreken voor zich. De meest opvallende zijn, dat zelfs
bij grote aantallen terminals, een systeem met stand-alone computers goedkoper is dan
het URC (althans met de in Leiden gehanteerde kostentoerekeningsmethode) en dat
PLATO/UvA bij 125-150 aangesloten terminals het goedkoopst is^.
Figuur 2 geeft het verloop van de operationele kosten per student-kontaktuur weer.

2. Van een dergelijk aantal terminals is sprake, wanneer bijvoorbeeld 7 universiteiten en hogescholen
ieder 20 computer-ondersteunde cursussen par jaar geven, waarbij per cursus gemiddeld 150 studen-
ten ieder 10 uur aan de terminals zitten.

Hiermee wordt een vergelijking met andere onderwijsvormen mogelijk voorzover men zich
beperkt tot dc studcnt-afiiankclijke kosten; volledige vergelijking is slechts mogelijk, wan-
neer ook dc student-onafliankelijke kosten (zoals cursusontwikkeling cn -onderhoud) in
de beschouwing worden betrokken.

Overigens realisere men zich, dat bij vergelijking van CAI met conventioneel onderwijs,
ook dc volgende factoren mede in overweging behoren te worden genomen:

— koppclgrootte per terminal: dc kosten per student-kontaktuur zijn aanzienlijk te redu-
ceren door meer studenten tegelijk aan één terminal tc laten werken.

Zonder nader onderzoek c.q. zonder acht te slaan op concrete toepassingen, is hiervan
geen schatting tc maken. Met betrekking tot het aantal kontakturen wil ik volstaan met
nogmaals dc aandacht te vestigen op de constatering, dat ook in het conventionele onder-
wijs een vermindering van het aantal benodigde kontakturen bereikt zou kunnen worden
door een betere planning van het onderwijs.

Bij een - zeer globale - vergelijking van kosten en baten van computer-ondersteund
onderwijs enerzijds en onderwijsvormen, waarbij geen computer wordt toegepast, ander-
zijds, kan het volgende geconcludeerd worden.

De effectiviteit van computer-ondersteund onderwijs verschilt over het algemeen niet van
die van meer gebruikelijke onderwijsvormen. Voorzover het niveau van kennis cn vaardig-
heden wel (substantieel) hoger ligt, kan men zich afvragen, in hoeverre dit te danken is
aan dc volgende factoren:

Ook zonder CAI/CMI zou dit wellicht te realiseren zijn, maar computer-ondersteund
onderwijs werkt deze drie factoren ook werkelijk in de hand; zo dwingt CAI bijvoorbeeld
tot een gedegen planning.

Wat de kosten betreft, lijkt er enige evidentie te bestaan voor de bewering, dat studenten
minder tijd nodig hebben om aan de eindtermen te voldoen dan bij het conventionele
onderwijs. Ook hier kan men zich overigens afvragen, in hoeverre een dergelijk resultaat
evenzeer bereikt zou kunnen worden door een betere planning van het conventionele
onderwijs.

Bezien wij de kosten voor de instellingen van W.O. en beperken wij ons daarbij tot de
kosten van cursusontwikkeling en -onderhoud en de operationele kosten^, dan kan een
vergelijking van de kosten per student-kontaktuur gemaakt worden voor de verschillende
onderwijsvormen. Tabel 1 geeft hiervan een overzicht voor enkele onderwijsvormen. In
appendix B staat vermeld, welke formules daarbij gehanteerd zijn en van welke normen en
veronderstellingen is uitgegaan m.b.t. vaste onderwijslast (d.w.z. student-onafhankelijke
nullast per cursusonderdeel), variabele onderwijslast (afliankelijk van aantal deelnemers),
groepsgrootte enz. .

3. Derhalve zijn de volgende kostenposten buiten beschouwing gelaten; ruimtebeslag, hulpmateriaal,
assistentie van onderwijskundigen en informatica-specialisten. Bovendien wordt geen rekening gehou-
den met (financiële) effecten op andere cursusonderdclen.

Uit tabel 1 kan worden geconcludeerd, dat computer-ondersteund onderwijs uit kosten/
effectiviteitsoverwegingen nu al toegepast zou kunnen worden, mits voldoende grote
groepen studenten kunnen worden gevormd. Dit vraagt van docenten, vakgroepen, facul-
teiten en instellingen een grotere mate van samenwerking dan gebruikelijk is. Dan zal
echter ook blijken, dat nog met andere factoren dan de in dit artikel genoemde, rekening
geliouden moet worden; daarbij valt te denken aan de diversiteit van het onderwijs,
psychologische weerstanden bij docenten, effecten op de werkgelegenheid in het W.O. en
op de totale uitgaven voor het W.O. (Van der Drift, 1978).

Cohen, M.J. Contracten in het Hoger Onderwijs. In H.F. Crombag en T.M. Chang (red.). Een lileine
zoölogie van het onderwijs. Leiden: Universitaire Pers, 1978.

Drift, K.D.J.M. van der. De computer in het onderwijs: veel geprezen maar zelden geprijsd. Leiden:
Bureau Onderzoek van Onderwijs der Rijksuniversiteit, 1978.

Hees, 1',. van. Deksel gelicht van de computer-ketel. Onderzoeli van Onderwijs, 1977, 6, 8-14.

Hcnn, 11.G. & Platt, R.C. Computer-assisted law instruction. Journal of Legal Education, 1977, 28,
435.

Jamison, D., Suppes, P. & Wells, S. The ejfcctiveness of alternative instructional media: a survey.
Stanford: Stanford University, 1973,44-51.

Moldstad, J.A. Selective review of research studies showing media effectiveness: a primer for media
directors./11' Communication Review, 1974, 22, 402-404.

Vos, P. Het woord bij dc daad) con opstel over motivatie. In H.I'. Crombag cn T.M. Chang (red.)./;>)(
tilcine zoölogie van het ouderwijs. Leiden: Universitaire Pcrs. 1978.

Talx'l I Kosten per studcnt-kontaktuur, per cursus

onderwijsvorm	aantal	groeps-	kosten per
	deelnemers	grootte	student-
	per jaar		kontaktuur
	per cursus
CAI, koppcl-	100	1	/ 19,-
groottc 1	1000	1	10,-
groottc 1	2500	1	9.10
C'AI. koppcl-	100	2	14.50
groottc 2	1000	2	5,50
	2500	2	4,60
werkgroep	60	15	11,15
	120	15	10,25
	240	15	9,80
hoorcollege	50	50	7,15
hoorcollege	100	100	3,55
	500	500	0.70
paticntcn-simu-	-	1	104,-
latic, reëel	-	10	9,60
paticntcn-simu-	_	1	49.-
latic, CAI		1	19,-
		1	11,
	-	2	14.50
	-	2	6,50

In deze bijlage wordt een overzicht gegeven van de operationele kosten van computer-
ondersteund onderwijs (exclusief de kosten, die verbonden zijn aan terminalruimtes; hier-
van is het kosten-effect minimaal). Onderstaande kosten luiden in guldens en zijn inclusief
18% BTW. Voorzover er sprake is van aanschaf van apparatuur, zijn de kosten hiervan
gespreid over een periode van 5 jaar; jaarlijks wordt 20% van de aanschafprijs opgevoerd.
Met betrekking tot het terminalgebrulk wordt uitgegaan van een gemiddelde bezetting van
1600 uur per jaar. Ervaringen elders leren, dat bij een weloverwogen planning van com-
putergestuurde cursussen in het studiejaar en avond-openstelling van dc terminalruimtes,
een dergelijk gemiddeld gebruik haalbaar is.

De kosten zijn te verdelen in twee categorieën, te weten de variabele kosten per terminal
en de vaste kosten, die onafliankelijk zijn van het aantal terminals.

Uitgaande van beeldscherniterminals, gelden de volgende kosten. Een abonnement op
PLATO/CDC kost fA.llQ,- per maand, inclusief onderhoud. Ingeval van PLATO/UvA
komt de aanschaf van PLATO-terniinals op ƒ18.880,- per terminal en een onderhouds-
contract op ± ƒ1.500,- per terminal per jaar. Bij grotere aantallen wordt de stuksprijs
lager: er kan sprake zijn van ongeveer 15% kwantum-korting bij 10 abonnementen of 100
aangeschafte terminals.

Bij gebruikmaking van dc dienstverlening van het Leidse Rekencentrum CRI komen de
kosten per uur op ƒ 15 voor de apparatuur en log-on-tijd, vermeerderd met dc kosten van
CPU-tijd, die volgens Moonen (1978) ƒ11 per uur bedroegen. Dit resulteert in jaarlijkse
kosten per terminal van 1600 uur x ƒ26,- = ƒ 41.600,-. Bij een mini-computer bedragen
de aanschafkosten van een beeldschermterminal ƒ12.000,— (IBM, systeem 34) en kost
een onderhoudscontract jaarlijks ƒ990,-. Een stand-alone computer met beeldscherm
kost ƒ 72.500,- (IBM 5110), het onderhoudscontract ƒ 5.100,-- per jaar. Hier is gemaks-
halve gerekend met een kortingspercentage, dat oploopt van 5% bij aanschaf van een
systeem van 10 terminals tot 15% bij een systeem van 100 terminals.
In een aantal gevallen kan het noodzakelijk geacht worden, dat de student ook over
schriftelijke informatie beschikken kan, bijvoorbeeld om thuis een gemaakte opgave of
een studie-advies, nog eens na te zien. In principe zijn hiervoor een tweetal mogelijkheden
voorhanden. De eerste is, dat (een aantal) terminals voorzien worden van een kopieer-
apparaat. Bij PLATO is hiertoe Tektronix apparatuur leverbaar met een aanschafprijs van
ƒ16.500,-, een geschat jaarlijks onderhoud van ƒ1.500,- en betrekkelijk hoge papier-
kosten. Een tweede mogelijkheid is, om een aantal bceldschcrmterminals te vervangen
door teletype-terminals. Dit is door Moonen toegepast. Het nadeel hiervan is het lawaai
dat zij produceren, maar er is welhcht een kostenvoordeel t.o.v. beeldscherniterminals
met kopieerapparatuur. CDC onderzoekt de mogelijkheid van een dergelijke oplossing. Bij
het alternatief MINI kost een teletype-terminal ƒ23.500,— en het jaarlijks onderhoud
ƒ1.980,-. Bij de stand-alone computer kan a raison van ƒ15.500,- een matrix-printer
aangeschaft worden; het jaarlijks onderhoud hiervan bedraagt ƒ 1.800,-.
Een laatste belangrijke variabele kosten-post is de lijnverbinding tussen terminal en com-
puter. De kosten van een telefoonlijn bedragen binnen de randstad ƒ400,- per maand en
locaal ƒ20,- per maand. Omdat er per lijn 4 (URC, MINI) resp. 8 (PLATO) terminals
aangesloten kunnen worden, bedragen de jaarlijkse kosten per terminal bij URC en MINI
ƒ60 en bij PLATO ƒ 600.

In dit geval zijn bij twee alternatieven de vaste kosten relevant, namelijk wanneer een
aantal universiteiten gezamenlijk een PLATO-computer aanschaffen (PLATO/UvA), en
wanneer zij, al dan niet gezamenlijk, een mini-computer voor onderwijstoepassingen aan-
schaffen.

In het geval PLATO/UvA wordt de computer voor een symbolisch bedrag overgenomen
van CDC. De levensduur bedraagt dan nog tenminste 4 jaar. Aanschaf van het PLATO
operation system beloopt ƒ1.530.000,- en de communicatie-apparatuur kost (bij
100 terminals) ƒ710.000,-. Bij een afschrijving over 5 jaar betekent dit een jaarlijkse
vaste kosten-post ten bedrage van ƒ448.000,-, waarbij aangetekend dient te worden, dat
dc PLATO systeem-softwarc (gratis) onderhouden en verder ontwikkeld wordt door CDC.
De genoemde ƒ 1.530.000,- zou derhalve een eenmalige aanschaf 'voor altijd' zijn, het-
geen de jaarlijkse vaste kosten aanzienlijk kan verlagen. Ook een tweede vaste kosten-fac-
tor, n.1. het centrale personeel cn de huisvesting van de centrale computer, kan dan
betrekkelijk laag zijn, omdat de systeemsoftware door CDC onderhouden wordt.
Aan personeels- en huisvestingskosten (inclusief onderhoud van de centrale apparatuur),
zou vooruitlopend op een definitieve berekening van de UvA, ƒ 350.000,- per jaar uitge-
geven dienen te worden.

In het geval van een mini-computer, waaraan maximaal 30 terminals aangesloten kunnen
worden, bedraagt de aanschafprijs van de computer naar schatting ƒ 200.000,-, de com-
municatie-apparatuur ƒ 75.000,- en extra ruimte voor gegevensopslag ƒ 50.000,—. Het
onderhoud hiervan kost jaarlijks ± ƒ 30.000,-. Voor personeel en huisvesting moet op ±
ƒ 150.000,— per jaar gerekend worden. Bovendien moet de systeemsoftware dan nog ont-
wikkeld of aangekocht worden (eenmalig, ± ƒ 200.000,-), terwijl deze (i.t.t. PLATO)
ook door de universiteit onderhouden moet worden ä ± ƒ 20.000,- per jaar. Hiermee
komen de jaarlijkse vaste kosten op ƒ 245.000,- per computersysteem, plus ƒ60.000,-
voor de systeemsoftware, die slechts bij één systeem in rekening wordt gebracht en waarbij
de aanschaf van de systecm-software over vijf jaar gespreid is.

Gaan wij uit van een verhouding van 1 kopieerapparaat op 4 beeldschermterminals
(PLATO) resp. I teletype-terminal op 3 beeldschermterminals (URC, MINI, TERM), dan
resulteren de in tabel 2 gegeven operationele kosten, gesplitst naar vaste kosten (het
centrale systeem) en variabele kosten (kosten per terminal).

Uij onderlinge vergelijking van deze getallen rcalisere men zich wel, dat sommige zeer
nauwkeurig berekend zijn, maar andere slechts indicatieve schattingen zijn (bijv. MINI cn
I'LATO/UvA). Bovendien is er geen rekening mee gehouden, dat de vaste kosten, die aan
het computcr-ondcrstcund onderwijs toegerekend moeten worden, lager kunnen zijn in-
dien dc computer ook voor andere toepassingen gebruikt wordt.

Tenslotte moet opgemerkt worden, dat dc kosten gebaseerd zijn op het prijsniveau
1977-1978. Aangezien de apparatuurkosten tot nu toe voortdurend gedaald zijn (de
laatste jaren —5% per jaar, bij een hoog inflatictempo) cn er aan deze prijsdaling nog geen
eind lijkt te zijn gekomen, mag verwacht worden dat de operationele kosten, voorzover
die veroorzaakt worden door dc apparatuur, verder zullen dalen. Hier staat ccn stijging
van de personele kosten tegenover, die er de oorzaak van kan zijn, dat de totale kosten
van CAI (inclusief cursusontwikkeling etc.) gelijk blijven of zelfs stijgen.

De in tabel 1 genoemde kosten zijn met behulp van de volgende formules, normen en
bedragen tot stand gekomen.

totale operationele kosten per uur kosten cursusmat. per uur per jaar
aantal studenten per terminal aantal deelnemers per jaar

Dc totale operationele kosten per uur bedragen ƒ9, onder de veronderstelling dat er (lan-
delijk) 30 terminals zijn aangesloten op de systemen MINI of PLATO/UvA.
De kosten van het cursusmateriaal zijn ƒ 1000 per uur per jaar.

(vaste ond. last + aantal werkgr. x uren per w.g. x ond.last per uur) x pers. kosten per uur
aantal werkgroepen x uren per werkgroep

Het aantal uren per werkgroep bedraagt 24, bijv. 12 weken van 2 uur.
Dl- vaste onderwijslast is 65 uur per cursus per jaar.
De onderwijslast per werkgroep-uur is 3 5 uur.

De personeelskosten bedragen ƒ 40 per uur. Dit is minder-dan de ƒ50 die elders steeds zijn
gebruikt, omdat voor werkgroepen veelal lager gesalarieerd personeel wordt ingeschakeld.

(vaste ond.last -h aantal h.c.-uren x ond. last per h.c.-uur) x personeelskosten per uur
aantal toehoorders x aantal h.c.-uren

De vaste onderwijslast bedraagt 75 uur, de onderwijslast per hoorcollege-uur is 4 uur.
De personeelskosten bedragen ƒ 50 per uur.

Het gaat liierbij om anamneses, waarbij het accent ligt op dc medisch-teclinische aspecten.
Dc gedragswetenschappelijk kant (patiënten-benadering, opvang e.d.) bhjft buiten be-
schouwing, omdat de CAl-vcrsie iiicrvoor niet geschikt is.

Dc voorbereiding van dc patiënt vergt 6 uur, voor algemene rollenspeitraining en inoefe-
nen van de rol. Hierbij is een arts/instructeur aanwezig. Uurkosten arts: ƒ50, uurkosten
patiënt ƒ 15. De aldus geïnstrueerde patiënt is meerdere malen te 'gebruiken'. Stel, dit is
gemiddeld 10 keer.

liet opstellen van een rol kost de arts gemiddeld twintig minuten. Omdat de rol vele
malen te gebruiken is, zijn de kosten hiervan te verwaarlozen.

Het anamnesegesprek zeifis tien minuten, de voorbereiding is vijf minuten cn dc evaluatie
vergt ongeveer drie kwartier. Iedere anamnese bedraagt dan totaal 1 uur. Dc kosten per
sessie van 1 uur belopen derhalve

Soms wordt gebruik gemaakt van een onderwijsvorm, waarbij één student dc anamnese
uitvoert en een aantal andere studenten (tot 10 man) aktief toekijken. Gesteld, dat de
evaluatie in dat geval een uur duurt cn de anamnese + voorbereiding een kwartier, dan
bedragen de kosten per student-kontaktuur

Gesteld dat anamnese -(- evaluatie 1 kontaktuur omvatten en dat de toe te rekenen cursus-
kosten bij vijfjarig gebruik weer ƒ 1000 per uur bedragen (zie par. 3).
De kosten per student-kontaktuur zijn dan

Bij 25 keer gebruik per jaar bedragen de kosten dan ƒ 49 per uur en bij 100 keer per jaar
ƒ19 per uur.

Indien twee studenten tegelijk aan één terminal zitten, dan bedragen de kosten bij
25 deelnemers per jaar per simulatiepatiënt ƒ 44,50 en bij 100 deelnemers per simulatie-
patiënt ƒ 14,50.

After comments by Vijn (1977) on a method for defining and estimating single re.serves of talent,
described by Roe (1977), are considered and found to rest on improper assumptions, a general-
ization of the method is presented for multiple reserves of talent. For two eases that are distin-
guished, parallel and successive schooling options, a number of formulas is derived.

In een eerder artikel (Roe, 1977) is een definitie van intellektuele reserve gegeven en is
een methode gepresenteerd om intellektuele reserves eenduidig te schatten. Intellektuele
reserve is opgevat als het aantal personen dat in staat geacht kan worden een gegeven op-
leiding te volgen, doch dit (nog) niet doet. In een kommentaar stelt P. Vijn (1977) dat de
toepassing van de methode aan voorwaarden is gebonden, hetgeen hij adstrueert met enkele
afleidingen en getalvoorbeelden. Het onderhavig artikel heeft een tweeledig doel. In de
eerste plaats zal onderzocht worden in hoeverre Vijn's kanttekeningen juist zijn. Dit kan
bijdragen tot een explicieter en daardoor adekwater fomiulering van het aan de methode
ten grondslag liggende model. In de tweede plaats zal aan dit model een uitbreiding worden
gegeven door het te generaliseren naar het geval van meerdere opleidingen.

Het model voor intellektuele reserve dat in Roe (1977) werd gepresenteerd gaat uit van
één mogelijke opleiding, d.w.z. intellektuele reserve is steeds gedefinieerd met betrekking
tot een bepaalde opleiding. Aangezien in het tweede deel van onderhavig artikel het geval
van meerdere opleidingen bekeken zal worden, zullen wij hier van enkelvoudige intellek-
tuele reserve spreken, afgekort EIR. Aangegeven is dat de binnen een populatie aanwezige
reserve voor een gegeven opleiding gedefinieerd kan worden als^:

waarin x een intehigentievariabele is, verdeeld in klassen Xj (i = 1,2,..., m), en waarin
voorts fj (i = 1, 2,..., m) de bij die klassen behorende frekwenties zijn, s behaald sukses in
de opleiding representeert en d deelname aan die opleiding. De expressie tussen akkolades

1. De auteur is drs. I'. Vijn erkentelijk voor diens waardevolle kanttekeningen bij het tweede gedeelte
van dit artikel. *

2. In kans-formules wordt dc interscktic van twee gebeurtenissen a cn b kortheidshalve als a,b aange-
duid. Voor het overige gebruiken wij dc notatic anb.

kan worden opgevat als de relatieve intellektuele reserve binnen intelligentieklasse Xj, in
de notatie van Vijn (1977):

Door in deze formules steekproefgegevens te substitueren verkrijgt men schattingen van
de intellektuele reserve in de populatie.

Vijn (1977) komt tot een drietal uitspraken over de hier aangehaalde methode voor het
schatten van intellektuele reserves:

1) men moet uitgaan van meerdere opleidingen (n > 1), aangezien anders de relatieve re-
serve D(Xi) nihil wordt;

2) men moet de eis stellen dat D(Xj) > O, aangezien een negatieve reserve, die binnen het
model mogelijk zou zijn, zinloos is;

3) in het algemeen is de bewering dat met het toenemen van de deelname aan de opleiding
P(d|X|) de relatieve reserve D(Xi) afneemt en omgekeerd, niet juist.

Deze uitspraken worden gebaseerd op een aantal afleidingen uit formule (2). Ofschoon de
afleidingen op zichzelf juist zijn, zijn de konklusies die Vijn hier trekt niet gerechtvaardigd.
De reden hiervoor is, dat de assumpties waarvan hij uitgaat andere zijn dan die welke aan
ons model ten grondslag liggen. In feite wordt het model door deze gewijzigde assumpties
gegeneraliseerd en zijn de restrikties die vervolgens aan het licht treden een voortvloeisel
uit deze generalisatie. Om duidelijk te kunnen maken waar Vijn's uitwerking van de onze
afwijkt, zullen wij zijn assumpties en afleidingen hieronder kort de revu laten passeren.
Allereerst zullen wij echter onze eerdere formulering van het model (Roe, 1977) van een
korte toelichting voorzien en de aannamen, die tot dusverre verbaal zijn gebleven, explici-
teren. De uitweiding over het model voor enkelvoudige reserves is vooral gewenst in ver-
band met de uitbreidingen ervan die in het tweede gedeelte van dit artikel zullen worden
beschreven, doch zij kan ook rondom de door Vijn naar voren gebrachte punten verhelde-
rend werken.

In de hierboven aangehaalde definitie van intellektuele reserve is sprake van personen die
in staat zouden zijn een gegeven opleiding met sukses te volgen, doch die opleiding (nog)
niet hebben gevolgd. Men kan zich hier een verzameling geschikte personen s' denken en
verzamelingen suksesvolle personen s, beide deel uitmakend van een universum De
reserve wordt dan gevormd door de personen die tot s' behoren, maar niet tot s; zij is de
omvang van de verzameling (s'\s), dus:

Voor de verdere afleiding is het gewenst zich binnen het universum tevens een verzameling
d te denken van personen die aan de opleiding deelnemen en de aanname te doen dat tus-

sen de verzameling s', s en d de volgende relatie bestaat: s' O d = s. Er zij op gewezen dat
deze aanname, die in woorden luidt: de personen die voor de opleiding geschikt zijn én
eraan deelnemen vormen de verzameling suksesvollen, drie implikaties heeft, nl.:

c) (d\s) n s' = Ö, de personen die bij deelname geen sukses hebben, kunnen niet tot de ge-
geschikten behoren.

Van de omvang van de verzameling (s'\s) is niet zonder meer een schatting te maken. Het
aantal geschikte personen kan alleen bepaald worden aan de hand van een voorspeller, de
intelligentie-variabele x. Deze variabele, waarvoor bij definitie geldt dat hij naast deelname
de enige is die voor sukses bepalend is (Roe, 1977), denken wij ons verdeeld in m klassen
Xj (i = 1,2,..., m), waarmee het universum kan worden gestratificeerd.
Voor de EIR is dan te schrijven:

Voor de omvang van het universum, N = en de omvang van de klassen Xj, fj = Ixjl,

Aansluitend bij bovenstaande aanname beschouwen wij geschiktheid nu als het kunnen
behalen van sukses indien men aan de opleiding deelneemt en definiëren wij:

In woorden betekent dit, dat de kans dat een persoon met een intelligentienivo binnen
klasse Xj voor de opleiding geschikt is^, gelijk is aan de kans dat een persoon met eenzelf-
de intelligentienivo die aan de opleiding deelneemt daarin sukses behaalt. Substitueert men
formule (9) in (8) dan ontstaat onze basis-formule (1).

De reserve — preciezer de verzameling personen die de reserve vormen — kan grafisch wor-
den uitgebeeld. Wanneer wij ons beperken tot de intelligentieklasse Xj, levert dat het in
Figuur la gepresenteerde beeld. Overeenkomstig de gemaakte aanname is s als deelverza-
meling van s' getekend; de omvang van s' is op grond van (9) uit die van de verzamelingen
d en s afgeleid. Figuur Ib toont hetzelfde beeld op een andere wijze. Hier is tevens de ver-
zameling d ingetekend en wel zodanig dat s de doorsnede van d en s' vormt — dit alles binnen

3. Wij spreken hicr verder van 'geschiktheidskans' cn zien af van de eerder gebruikte term 'theoretische
sukscskans', welke zoals is gebleken gemakkelijk verwarring kan scheppen.

Figuur I: Relatieve reserve binnen intelligentieklasse xj weergegeven (gearceerd) als verschil tussen
verzamelingen s'k cn s^: rechts (Ih) is s^ als intersektie van dj^ en s\ afgebeeld.

Xj. In de beide afbeeldingen geeft het gearceerde oppervlak dc deelverzameling |(s'\s) H Xj |
aan. oftewel de relatieve reserve.

Dat intellektuele reserve in het hier weergegeven model steeds op één gegeven opleiding
betrekking heeft, kan in de bovenstaande en nog volgende fomiules doormiddel van een
subscript-notatie tot uitdrukking worden gebracht. Wanneer we de opleiding waarvoor de
reserve wordt bepaald als k aanduiden, kan voor de (absolute) reserve worden geschreven
E1R|^, voor de deelname aan de opleiding voor geschiktheid s'^. en voor sukses De
relatieve reserve kan als D|^(Xj) worden aangeduid.

1) Er zijn n opleidingen (j = 1,2,..., n); de opleiding waarvoor de reserve wordt bepaald,
wordt — net als hierboven — met k aangeduid.

2P(dj|Xi)= 1; dit houdt in dat alle personen binnen Xj geacht worden aan enige
j

opleiding deel te nemen en tegelijk, dat de n opleidingen elkaar uitsluiten.
Geen van deze beide aannamen is in Roe (1977) aan te treffen. Zoals hierboven al onder-
streept werd, is daar steeds uitgegaan van slechts één opleiding. De aanname P(d,^ iXj) = 1
zou in dat geval weinig zinvol zijn, aangezien zij tot gevolg zou hebben dat P(Sk I Xj) =
P(s.^ I Xj) zou zijn en de (relatieve) reserve daardoor nihil. Juist in het feit dat er binnen de
intélligentieklasse Xj personen zijn die aan de betreffende opleiding niet deelnemen, schuilt
- zoals onderstaande formule (14) nog eens laat zien - de mogehjkheid een reserve te
definiëren. Op zichzelf bestaat tegen de eerste aanname geen bezwaar, mits men ervan uit
blijft gaan dat s- n dj = Sj en er rekening mee houdt dat bij elke dj een eigen Sj behoort.
De tweede aanname zou aanvaardbaar kunnen zijn wanneer men één opleiding, zeg n, per
definitie laat bestaan uit 'geen opleiding'. De mogehjkheid dat, zoals in Vijn's voorbeeld
alle personen met bijv. 100 < IQ < 120 naar de MAVO óf het Atheneum gaan, is niet
slechts onreahstisch; zij is met het oog op het begrip intellektuele reserve niet zinvol. Ove-
rigens zijn er gevallen te onderscheiden waarin de aanname van wederzijdse uitsluiting van
opleidingen niet kan worden gehanteerd; wij komen hierop later terug.

Vijn brengt een transformatie aan in de formule voor D(Xj) door de term H(s|Xj) te ver-
vangen (vgl. 2). Hij maakt voor de substitutie gebmik van:

Houdt men de iuerboven aangegeven notatie aan, d.w.z. voorziet men s van een subscript,
dan wordt dit:

Wat nu duidelijk wordt, is dat deze expressie de waarde nul aanneemt voor alle waarden
van j, behalve j = k. Dit vindt zijn oorzaak in het feit dat P(S|^|dj,Xj) = O indien ki=]. In
woorden: men kan alleen sukses behalen in een opleiding die men volgt; de kans op sukses
in een andere opleiding is nihil''.
Herschrijft men (11) nu tot

Alle verdere afleidingen die Vijn presenteert (zie p. 278) zijn in feite met deze formule
equivalent.

Aan de hand van het voorgaande is gemakkelijk in te zien dat de gevolgtrekkingen in Vijn's
artikel niet juist zijn.

(1) Een relatieve reserve D|j(Xi) van nul is zoals hierboven werd aangegeven inderdaad
mogehjk, namelijk indien de deelname aan opleiding k volledig is (zie ook Roe, 1977). Als
regel zal echter P(dk IXj) < 1 zijn; dat geldt zelfs voor het basis onderwijs. Dit heeft tot
gevolg dat P(s'iXi) > P(s|Xi), zodat D|^(Xi) > 0. De konklusie dat mefl om D|^(Xj) = O te
vermijden n > 1 zou moeten kiezen berust op de aanname P(dk |Xj) = 1, waarvoor binnen
ons model geen plaats is, en is dus met betrekking tot dit model niet gerechtvaardigd.

4. Wanneer men meerdere opleidingen ondersclieidt, volgt dit uit de aannamen si^Cd^ en djOdj; = 0.
Dc laatste houdt in dat gelijktijdige deelname aan verschillende opleidingen niet mogelijk is.

(2) Een negatieve intellektuele reserve is niet mogelijk; dit kan direkt uit (14) worden af-
gelezen.

(3) Op onze stelling dat naarmate P(d,^ Ixj) groter is D^(Xj) kleiner is en omgekeerd, be-
staan zie opnieuw formule (14) - geen uitzonderingen; de getallen in het voorbeeld van
Vijn (op p. 279) beantwoorden niet aan de aanname Sj^ c d,^. Men zou hoogstens kunnen
eisen dat hier een uitdrukkelijk ceteris paribus wordt vermeld: het is natuurlijk wel zo dat
D^(X|) ook van Pfs^ iXj) afliankelijk is'.

Het principe waarop het intellektuele reserve-model berust, is dat het aantal suksesvolle
personen kan worden vergroot door een groter aantal geschikten tot deelname te bewegen
en dit door binnen de gehele populatie een grotere deelname aan het onderwijs tot stand
te brengen. Op de wijze zoals hiervoor gedefinieerd geeft de reserve het maximale resul-
taat aan dat men hierbij kan bereiken. De reserve is het aantal personen dat alsnog sukses
kan behalen wanneer de gehele populatie aan de opleiding zou deelnemen. Men kan zich
voorstellen dat bij het aanboren van reserves grenzen worden gesteld aan het maximale
aantal deelnemers, zodat in plaats van de gehele populatie slechts een gedeelte hiervan tot
deelname komt (vgl. Roe, 1977). Is hiervan sprake - geldt m.a.w. een numerus fixus -
dan zal van de intellektuele reserve ook slechts een gedeelte aangesproken worden. Men
kan dit effekt duidelijk maken door in het model een toelatingsparameter t op te nemen.
Dit leidt tot een generalisatie van het model welke in de buurt komt bij die welke door
Vijn werd gepleegd. Het resultaat zullen wij hieronder aangeven, mede omdat ervan in het
tweede deel van dit artikel gebruik kan worden gemaakt.

Wij denken ons binnen het universum een verzameling personen t,^, bestaande uit degenen
die tot opleiding k kunnen worden toegelaten. Deze verzameling vatte men op als een
a-selekte steekproef uit het universum, d.w.z. wie voor toelating in aanmerking komt
wordt door loting bepaald. De reserve bij beperkte toelating - wij noemen deze de
aanspreekbare reserve — is nu te definiëren als

In woorden betekent dit: de reserve bestaat uit degenen die geschikt zijn én toegelaten
kunnen worden tot opleiding k, doch die opleiding (nog) niet hebben gevolgd.
Gebruik makend van het gegeven dat t,^ cn s'^ onafliankelijk zijn, kan dit op analoge wijze
als in 1.2 beschreven, uitgewerkt worden tot

5. In persoonlijke kommunikaties is ons erop gewezen, o.a. door Vijn, dat men deze sukseskans vari-
abel zou kunnen opvatten, bijv. als funktie van d. Ixn geringere deelname zou een verbetering van dc
onderwijskwaliteit ten gevolge kunnen hebben en deze zou de sukseskans kunnen vergroten. Zulk een
aanname zou echter tot een ander model nopen.

Het hier weergegeven model omvat het model voor enkelvoudige intellektuele reserve dat
in de voorgaande paragrafen besproken werd; het biedt echter ook een aantal andere mo-
gelijkheden. Gaat men uit van P(t|^) = 1, dan wordt HIR,^ = EIR,^ en D|^(Xj) = D|^(Xj): bij
toelating van de gehele populatie verkrijgt men hetzelfde resultaat als bij het oorspronke-
lijke model.

Neemt men P(t,^) = P(d|^|Xi), dan ontstaat een relatieve reserve van nul; laat men evenveel
personen tot de opleiding toe, als er tot dat moment aan deelnamen, dan zullen er even-
veel suksesvollen zijn als er tot dan toe waren en is er geen reserve. Kiest men P(t|^) <
P(d|^ |Xj), dan ontstaat een negatieve relatieve reserve; d.w.z. is het aantal toegelaten per-
sonen geringer dan tevoren, dan zal het aantal suksesvollen ook geringer zijn en is de reser-
ve negatief. Figuur 2 licht het één en ander toe: uitgaande van P(s,^ |Xj) = .2üzijn voor ver-
schillende waarden van P(t|^) en P(d,^ |X|) de bijbehorende waarden van Dk Cxj) weergege-
ven. berekend m.b.v. formule (17).

Terugkerend naar Vijn (1977) kan men thans stellen dat een negatieve reserve (in sociaal
opzicht) alleen zinvol is wanneer er andere opleidingen zijn dan k, waarin degenen die ge-
schikt zijn maar niet worden toegelaten een grotere kans op sukses hebben. Dit vereist

echter een ander model, zoals aanstonds zal blijken. Wil men een negatieve aanspreekbare
reserve vermijden, dan zal men de voorwaarde moeten stellen dat D|^(xj)>0, oftewel
P(t|^)>P(d|^ I Xj). Om een aanspreekbare reserve van nul te vermijden moet men de
voorwaarde PCt^) 4 P(d|^ | X|) hanteren. Overigens houde men voor ogen dat het hier
steeds gaat om relatieve reserves. De kans P(d|^ | x,) zal voor verschillende waarden van i
over het algemeen niet gelijk zijn. Dat kan betekenen dat terwijl in sommige intelligentie-
klassen de relatieve reserve nul of negatief is, zij in andere klassen positief is en ook dat
daarbij de totale (absolute) reserve toch positief is.

De methode beschreven in Roe (1977) heeft mét de traditionele methoden voor het
schatten van intellektuele reserves (bijv. Wolff, 1963) gemeen, dat zij slechts op één op-
leiding tegelijk kan worden toegepast. Zijn er meerdere opleidingen waarvoor men de
reserve wil bepalen, dan kan men wehswaar voor elk van deze afzonderlijk de methode
toepassen, maar het totaliseren van de resultaten over twee of meer opleidingen is niet
mogelijk, aangezien er tussen de geschatte reserves in het algemeen overlap bestaat. In
deze paragraaf zal onderzocht worden op welke wijze het mogehjk is intellektuele reserves
te definiëren, zodanig dat (1) van overlap geen sprake is, terwijl tegelijk (2) een noemer te
vinden is waaronder zij samen te nemen zijn. Dit leidt tot een andere, ruimere konceptie
van intellektuele reserve en tot nieuwe schattingsmethoden.

In terminologisch opzicht is een zekere differentiatie nodig. De intellektuele reserve voor
meerdere opleidingen tegelijk, een begrip waaraan hieronder nog nader inhoud zal worden
gegeven, wordt als meervoudige intellektuele reserve (MIR) aangeduid. De elkaar uitslui-
tende reserves voor afzonderlijke opleidingen, waaruit deze reserve opgebouwd gedacht
kan worden, zullen partiële intellektuele reserves worden genoemd (PIR). Voorde onder-
delen van de partiële reserves zullen wij de naam reserve-fraktie gebruiken. De relatieve
reserves, proportionele reserves binnen intelligentieklassen zullen, al naar gelang zij be-
trekking hebben op partiële dan wel meervoudige reserves, worden aangeduid met de af-
korting DM, of DP.

Dat enkelvoudige reserves niet zonder meer tot een meervoudige reserve getotaliseerd
kunnen worden, vloeit in de eerste plaats voort uit het feit dat zij als regel onderling af-
hankelijk zijn. Bijvoorbeeld: van de reserve voor de MAVO zal een gedeelte ook tot de
reserve voor de Universheit behoren; tegelijk zal een gedeehe behoren tot de reserve voor
de Lagere Tuinbouw School, de Lagere Technische School, enz. (vgl. Roe, 1977). De rela-
ties tussen de reserves voor verschillende opleidingen kunnen worden gespecificeerd door
te achterhalen hoe de betreffende opleidingen zich tot elkaar verhouden, met name welke
deelnamepatronen wel en niet mogelijk zijn. Voor analytische doeleinden is het zinvol
twee mogelijkheden te onderscheiden:

Het gaat hier om een reeks opleidingen die achtereenvolgens doorlopen worden. Ken-

Figuur 3: Deelnamepatronen bij meerdere opleidingen: (a) opleidingen in serie, (bj parallele oplei-
dingen.

merkend is dat degenen die aan opleiding j deelnemen, op de voorgaande opleiding
j - 1 in de reeks sukses moeten hebben behaald en dus ook aan die opleiding moeten
hebben deelgenomen. In temien van verzamelingen kan men stellen dat hier geldt
djCsj_, en aangezien Sj_, Cdj_, ookd|Cdj_,. Voorbeelden van opleidingen die
als series beschouwd kunnen worden zijn: basisonderwijs - hoger algemeen vormend
onderwijs - hoger beroepsonderwijs - wetenschappelijk onderwijs en basisonderwijs
— lager algemeen vormend onderwijs — lager beroepsonderwijs — middelbaar beroeps-
onderwijs — hoger beroepsonderwijs, in principe zijn alle doorstroommogelijkheden
die ons onderwijssysteem kent op te vatten als series in de hier bedoelde zin.
Hieronder zullen wij spreken van het nivo van opleidingen in serie. Dit zal worden aan-
geduid met subscript g, waarbij® g = 1,2,..., G en G = het totaal aantal opleidingen in
de serie.

Het betreft hier opleidingen van hetzelfde nivo, waarvan in principe slechts e'én kan
worden doorlópen. Hier geldt dat de deelname aan de éne opleiding, bijv. j, deelname
aan alle andere opleidingen uitsluit. Sukses op opleiding j imphceert wel deelname aan
j; sukses op meerdere opleidingen is uitgesloten. In temien van verzamelingen: Sj n S| = Cl,
indien j I.

de Middelbare Technische School, de Slagervakschoo), de Middelbare Opleiding voor
het Baggerbedrijf, het Konservatorium, de Opleiding tot Bejaardenverzorgende, tot
Kleuterleidster, enz. Parallelle opleidingen zullen worden aangeduid met het subscript
h, waarbij h = 1,2,... H en H = het totaal aantal mogelijke opleidingen op een gegeven
nivo.

Het moge duidelijk zijn dat de relaties tussen de reserves voor twee of meer opleidingen
zeer verschillend zullen zijn, afhankelijk van de deehiamepatronen die mogelijk zijn. Dit

maakt dan ook - zoals aanstonds zal blijken - volstrekt verschillende uitwerkingen van
partiële en meervoudige reserves noodzakelijk.

Bij opleidingen in serie bestaat de mogelijkheid de overlap tussen de verschillende enkel-
voudige reserves nauwkeurig in beeld te brengen. Dit vloeit voort uit het feit dat de ver-
zamelingen suksesvollen en geschikten voor die opleidingen 'genest' zijn. Het Venn-dia-
gram in figuur 4 illustreert dit. Voor drie opleidingen (g = 1,2,3) zijn de verzamelingen
geschikten en suksesvollen getekend. De intersekties tussen de verschillende verzamelin-
gen zijn op uiteenlopende wijzen gearceerd. De frakties die voor ons van belang zijn, zijn
van een letter voorzien: a staat voor de personen die behoren tot de reserve voor oplei-
ding 1, maar niet tot die voor 2 of 3, b voor degenen die reserve zijn voor opleiding 1 en
2, maar niet voor 3, enz. Men kan nu vaststellen dat de enkelvoudige reserve voor oplei-
ding 1 bestaat uit de frakties a, b en c, die voor opleiding 2 uit b, c, d, en e, die voor
opleiding 3 uit c, e en f.

Figuur 5: Ophouw uit rescrve-fraicties a tfm ƒ van relatieve enkelvoudige reserves voor 3 opleidingen
in serie (g= 1,2,3).

Brengt men de reservefrakties onder in een schema als in figuur 5 weergegeven, dan wordt
niet alleen duidelijk hoe de enkelvoudige reserves voor de drie opleidingen zijn opge-
bouwd, maar ook in welke vorm de overlap in de reserves zich precies voordoet. In het
schema zijn voor de drie opleidingen in rijen de frakties zo geordend dat die frakties
welke bij meerdere opleidingen behoren in dezelfde kolommen staan. Zo komt tot uit-
drukking dat a alleen tot de reserve voor opleiding 1 behoort en evenzo d alleen tot die
voor 2, f alleen tot die 3 voor; verder dat b tot de reserve voor 1 én 2 behoort, e tot die
voor 2 én 3 en tot slot c tot de reserves voor 1, 2 en 3.

Wil men nu meervoudige reserves definiëren, dan is dat mogelijk door een aantal van deze
elkaar uitsluitende frakties samen te nemen op grond van een gemeenschappelijk ken-
merk. Zo'n kenmerk is het feit dat zij personen bevatten die maximaal 1, 2 of meer
opleidingsnivo's hoger zouden kunnen komen dan het geval is geweest. In ons voorbeeld
zou de reserve voor één opleidingsnivo hoger bestaan uit de frakties a, d en f; die voor
twee nivo's hoger uit b en e en die voor 3 nivo's lioger uit c. De overlap zoals die zich bij
enkelvoudige reserves manifesteert wordt hier vermeden door de frakties steeds aan het
hoogst mogelijke opleidingsnivo toe te rekenen. Men kan de aldus verkregen meervoudige
reserves, die wij zullen aanduiden met MIR_v, waarin v staat voor het nivoverschil tussen
de opleiding die voltooid is en die welke maximaal mogelijk zou zijn, op hun beurt weer
totaliseren tot een meervoudige reserve over alle opleidingsnivo's heen. Voor deze totale
meervoudige reserve schrijven wij MIR_j;y. In ons voorbeeld behoren tot die reserve de-
genen die deel uitmaken van de reserve voor opleidingen van 1, 2, of 3 nivo's hoger, dus:
a + b+ c + d+ e-i-f. Hieronder werken wij één en ander in fomiule-vorm uit.

Wij gaan ervan uit dat er G + 1 opleidingen g zijn (g = O, 1, 2,..., G) en dat er voor elke
opleiding een verzameling geschikten s'g, een verzameling suksesvollen Sg en een verzame-
ling deelnemers dg is. Opleiding O geldt hierbij als een 'dummy'-opleiding, één die door
ieder individu in de populatie gehaald is; per defmitie^eldt s'o = Sq = do = Deze toe-
voeging is wenselijk omdat dit tot eenvoudiger formules leidt. De assumptie uit het model
voor enkelvoudige reserves, nl. s'^ n d^ = s^ nemen wij hier over.
Wij voegen hieraan twee aannamen toe, nl.:

- dg C Sg_ ,: de deelnemers aan een opleiding van een bepaald nivo vormen een deelver-
zameling van degenen die op een opleiding van één nivo lager sukses hebben behaald;

- s'g C s'g_,: de geschikten voor een opleiding van een bepaald nivo^ vormen een deel-
verzameling van de geschikten voor dc opleiding van één nivo lager.

Het laatste kan ook zo geformuleerd worden: het is uitgesloten dat personen die voor een
opleiding van nivo ^-1 niet geschikt zijn, wél geschikt zouden zijn voor een opleiding van
nivo g. Het is op grond van deze aanname geweest dat dc verzamelingen geschikten in het
voorbeeld hierboven als genest zijn weergegeven. Dat ook de verzamelingen suksesvollen
genest zijn, berust op de relatie Sg C Sg_,, welke volgt uit de eerste cn de twee aanname.

Wij definiëren nu de partiële reserve voor een opleiding van nivo g, afliomstig uit de ver-
zameling personen die sukses heeft gehaald op een opleiding van v nivo's lager (waarbij
V > 0) als: het aantal personen dat geschikt is voor opleiding g maar niet tegelijk voor een
hogere opleiding en dat tevens sukses heeft behaald op een opleiding van v nivo's lager,
doch niet heeft deelgenomen aan enige opleiding van een nivo hoger dan g-v."' Wij schrij-
ven voor de hier bedoelde verzameling:

hetgeen, op grond van het feit dat zowel de geschikten als de deelnemers voor opeen-
volgende opleidingen geneste verzamelingen vormen (zie hiervoor), vereenvoudigd kan
worden tot

Voor de partiële reserve, die wij aanduiden als PlRg_v, kan nu geschreven worden:

Wij denken ons thans het universum weer gestratificeerd met behulp van intelligentie-
variabele X, met klassen Xj (i = 1, 2, ..., m) en bijbehorende frekwenties f,-. De partiële
reserve kan nu worden geschreven als

namen 2 en 3), kan dit worden ontbonden en onder gelijktijdige vereenvoudiging van
notatie worden geschreven als

7. Zou dit laatste wel zo zijn, dan zou men te maken hebben met een groep die op dat hogere nivo
ofwel geslaagd was, ofwel niet geslaagd. In het eerste geval betreft het personen uit een andere 'reser-
velichting' dan hier is bedoeld; in het tweede geval kunnen de betrokkenen nimmer tot de geschikten
voor een hogere opleiding behoren.

Geschiktheid zij weer gedefinieerd op de wijze van formule (9). Dit geeft het eerste ge-
deelte tussen akkolades in formule (24) de volgende vorm:

d'^g-v+i g^^chrapt kan worden;
2e dg C en dg^, C Sg_y, waardoor ook Sg_y geschrapt kan worden.
De formule voor de partiële reserve krijgt daardoor uiteindelijk de volgende vorm:

(25) PlRg_, = S fj I P(Sg I dg, Xj) -P(Sg^, Idg^,, Xj) 1 . I P(Sg_ Jxj) - P(dg_,^, I Xj) I .

Totzover is alleen de partiële reserve voor een gegeven opleidingsnivo g, afkomstig van v
nivo's lager, uitgeschreven. De meervoudige reserve voor alle opleidingen bij een gegeven
nivo-verschil v kan verkregen worden door de waarden van PlRg_v over g te summeren;
g kan daarbij lopen van v tot G. Dus:

Na verwisseling van summatictekens kan de volledige formule nu worden geschreven als:
m G

Beperkt men zich tot een intelligentieklasse Xj dan kan men de relatieve reserve noteren
als

Wanneer men de laatste formule toepast op het voorbeeld van pag. 71 dan verkrijgt men
voor V = 1 (reserve voor één opleiding hoger dan werd behaald) de volgende formule

waarin P(so I Xj) = 1. De drie termen van deze formule korresponderen met de frakties a,
d en f. Op analoge wijze kan men DM_2(X|) en OM jCXj) uitschrijven.
In het hier beschreven model kan men het eerder gepresenteerde model voor enkelvoudige
reserves als een bizonder geval zien. Gaat men uit van g = 1, v = 1 en G = 1 dan ontstaat
de formule

welke doordat P(so lXj)= 1, ekwivalent is met formule (13) en dus met de basis-formule
(2).

Behalve meervoudige reserves van het hierboven bedoelde type, betrekking hebbend op
een gespecificeerd aantal v opleidingsnivo's hoger, kan men zoals aangekondigd ook een
totale meervoudige reserve over alle opleidingsnivo's heen definiëren, MlR_j.y. Aangezien
tussen de meervoudige reserves van het type IVIIR_^ voor verschillende waarden van v
geen overlap bestaat, kan dit totaal door eenvoudige optelling worden verkregen, dus:

Bij parallelle opleidingen is een vergelijkbare aanpak niet mogelijk. Weliswaar kan een ana-
lyse worden opgezet overeenkomstig die in het geval van opleidingen in serie, doch het
afleiden van een schattingsformule stuit op een onoverkomelijk probleem. Dit is dat, aan-
gezien gelijktijdige deelname aan meer dan één opleiding niet mogelijk is, geen kwantifi-
cering te geven is van de aantallen geschikten voor meerdere opleidingen tegelijk. Het
spreekt vanzelf dat wanneer men de overlap niet kan schatten er ook geen mogelijkheden
zijn om deze aan de ene of de andere opleiding 'toe te wijzen'. Wil men toch tot partiële
reserves komen die én onafhankelijk zijn én zich ervoor lenen samen genomen te worden,
dan is dit mogelijk door uit te gaan van het begrip 'aanspreekbare reserve' dat in par. 1.6
werd geïntroduceerd. Het principe wordt daarmee, dat men de populatie opgedeeld denkt
in elkaar uitsluitende verzamelingen van personen die aan verschillende opleidingen
worden toegewezen en binnen deze de aanspreekbare reserves bepaalt. Deze zijn dan ver-
volgens te totaliseren. Het resultaat is een meervoudige reserve, maar één die betrekking
heeft op een bepaalde verdeling van personen over verschillende opleidingen. Wij zullen
deze gedachtengang hieronder nader uitwerken.

Men stelle zich voor dat het universum gestratificeerd wordt in een aantal deelverzame-
lingen th(h= 1, 2, ..., H) met een tevoren vastgelegde omvang n^, zodanig dat geldt:

S P(th) = 2—= 1. Deze deelverzamelingen moeten worden opgevat als random steek-
h h N

proeven van personen die aan de opleidingen h (h= 1,2, ...,H) worden 'toegewezen',
d.w.z. tot deelname aan die opleidingen in staat gesteld worden. Aangenomen wordt op-
nieuw dat s'j, n d,, = s^ en verder — specifiek voor parallelle opleidingen — dat d,, n = Ö

voor h k. Men kan nu de partiële reserve voor opleiding h bepalen als de aanspreekbare
reserve voor die opleiding; wij geven dit aan door te schrijven PIR,, = EÏR,^. Uits,, n s,^ = Ö,
t|, n t;^ = Q en s'i, n t,^ = Ö voor h k, welke zijn af te leiden uit de aannamen, volgt dat
de partiële reserves vrij zijn van overlap en derhalve getotaliseerd kunnen worden, dus:

(33) MIR = Pi S I P(Sh I dh, Xi) P(t„) - P(S|, I Xi) I
waarna men voor de relatieve reserve verkrijgt:

Er is ook een andere uitwerking van bovenstaande gedachtengang mogelijk waarbij t,, niet
onafliankelijk is van Xj, zoals hier, maar voor elke klasse Xi een andere waarde heeft. Dit
maakt het mogelijk per intelligentieklasse een aparte 'verdeelsleutel' te hanteren. Op deze
mogelijkheid, die een aanzienUjk komplexer model tot gevolg heeft, gaan wij hier niet
nader in. Overigens kan men het hier gegeven model ook vereenvoudigen in plaats van het
te kompliceren, nl. door uit te gaan van de vereenvoudigende aanname dat P(t(,) voor ver-
schillende opleidingen konstant is en gelijk aan

Wij merken tot slot op dat onze formule (1) voor de enkelvoudige reserve te zien is als een
bizonder geval van formule (33). Substitueert men nl. H = 1, dan reduceert formule (33)
tot formule (16) en vult men hierin P(tf,) = 1 in, dan ontstaat formule (1).

Zoals ten aanzien van elk model kan ook bij de hier gepresenteerde modellen de vraag
gesteld worden of zij praktisch hanteerbaar zijn en of zij tot uitkomsten kunnen leiden
die de realiteit voldoende dicht benaderen. Valt dezevraag zonder empirische beproeving
vooralsnog niet te beantwoorden, wel is het mogelijk te wijzen op enkele moeilijkheden
die bij de toepassing van de modellen verwacht mogen worden. Om te beginnen is er de
kwestie van de prediktoren, welke ook reeds in verband met het model voor enkelvoudige
reserve aan de orde kwam (Van Meerem en Van Peet, 1976; Roe, 1977; De Groot, 1978; Roe,
1978; De Gruijter, 1978). Het gaat om de vraag of men met intellektuele prediktoren moet
volstaan (voorspelling op 'smalle' basis), dan wel motivationele aspekten en sociale klasse in
de voorspelling moet betrekken (voorspelling op 'brede' basis). Dit vraagstuk kan, evenals
de keuze van het 'juiste' type kriterium, worden opgelost door middel van een definitie
van 'intellektuele reserve'. Het is niet noodzakelijk de definitie te volgen die wij eerder
gaven (Roe, 1977); de hoofdzaak is dat de eenmaal gemaakte keuze konsekwent wordt

nageleefd, d.w.z. dat voor x slechts dat type prediktor wordt gelezen dat volgens de defi-
nitie vereist is. Overigens speelt dit vraagstuk alleen een rol bij het lokaliseren en aanboren
van reserves. Bij het schatten van de totale omvang van de reserve doet de keuze van de
prediktor niet terzake®. Bij de schatting van meervoudige reserves is een bijzonder aspekt
van het hier genoemde probleem of men één enkele prediktor hanteert, dan wel meerdere
prediktoren'. Het is goed denkbaar dat bij meerdere opleidingen, vooral wanneer deze
van het parallelle type zijn, uiteenlopende intehektuele eisen in het geding zijn en dat
voor optimale voorspeiling verschillende prediktoren of prediktorkombinaties vereist zijn.
De hier beschreven modellen bieden ruimte voor slechts één prediktor; het gebruik van
meerdere prediktoren zou een aanpassing vergen.

Een tweede belangrijk probleem heeft te maken met de juistheid van de assumpties. In de
modellen voor meervoudige reserves zijn de relaties tussen opleidingen sterk vereenvou-
digd, met het gevolg dat werkelijke deelnamepatronen slechts gebrekkig benaderd worden.
In feite is het bijv. mogelijk, zij het ten koste van enig tijdveriies, parallelle opleidingen
achtereenvolgens te doorlopen; in de modellen is deze mogelijkheid niet voorzien. Afge-
zien hiervan geldt dat een opleiding soms ten opzichte van bepaalde opleidingen als paral-
lel kan worden opgevat en tegelijkertijd met een aantal andere een serie vormt. In verband
met dit laatste zou men de modellen voor parallelle en serie-opleidingen wel ineen kunnen
voegen, maar te betwijfelen valt of op deze wijze de opleidingswereld wel geheel adekwaat
gerepresenteerd zou kunnen worden. Praktisch gesproken zou men toch slechts een
bepaalde selektie van opleidingsmogelijkheden tegelijk in ogenschouw kunnen nemen,
weinig anders dan geldt voor de thans afzonderlijk gepresenteerde modellen. Voor het
model voor parallelle opleidingen is de assumptie van a-selekte toewijzing aan opleidingen
van belang, welke neerkomt op loting met vaste quota. Het model biedt in deze vorm niet
de mogelijkheid het effekt van optimaliserende klassifikatie te bepalen, een strategie die
vanuit een oogpunt van onderwijsbeleid gewoonlijk als realistischer zal worden ervaren'®.
Van meer praktische aard tenslotte is het probleem van de steekproef. Om de modellen
voor meervoudige reserves met vrucht te kunnen toepassen en de samengestelde kansen
met voldoende mate van nauwkeurigheid te kunnen schatten, zijn tamelijk grote steek-
proeven nodig, een probleem dat zicli sterker doet gevoelen, naarmate het aantal oplei-
dingsmogelijkheden dat men in het model betrekt groter is.

8. Tijdens een bijeenkomst van dc Nederlandse Stichting voor Psychometrie werd ons er op gewezen
dat het bewijs in Roe (1977; p. 127) niet korrekt is, aangezien dc veronderstelling dat z^ en z^ iden-
tiek zijn niet verenigbaar is met verschillende korrelaties ten opzichte van hetzelfde krilerium.^Het is
echter voldoende erop te wijzen dat, aangezien dc gemiddelden van de prediktoren gelijk zijn. de ver-
wachte waarden van Zy ook gelijk zijn, dit ongeacht dc korrelaties: z^ = z^ = O Zy' = Zy" = 0. De
voorspelde waarden y' en y" zijn in dit geval beide gelijk aan het gemid'delde y (dat bij een diehotoom
kriterium als de gescliiktheidskans is op te vatten). Verder blijft gelden, dat bij gelijke prediktorskores
boven het gemiddelde de meest valide prediktor tot een liogere kritcriumschatting leidt, bij gelijke pre-
diktorskores beneden het gemiddelde daarentegen tot een lagere schatting. Gegeven Zy' = Tj yZ^ ,
Zy" = r^ yZx , Tx y > fx^ y en z = z^^ = Zx^ geldt namelijk z > OZy'> Zy" en z < O-I. Zy'< Zy".

10. l'.on vraag waarop van redaktionele zijde dc aandacht werd gevestigd is of dc wijze waarop in het
model voor opleidingen in serie dc partiele reserves worden samengenomen ccn zinvolle is. Men zou
kunnen aanvoeren dat ccn verschil van bijv. twee nivo's bovenin dc hiërarchie kwalitatief anders is dan
ccn verschil van twee nivo's onderin de hicrarcliic, zodat simpele optelling niet gerechtvaardigd zou
zijn. Denkbaar is hier in plaats van ccn ongewogen (vgl. 26) ccn gewogen optelling tc verrichten.

Dc hier genoemde problemen mogen de praktische toepassing van de modellen voor meer-
voudige reserves enigszins bemoeilijken, niet te verwachten valt, dat zij het gebruik ervan
in de weg zullen staan. Gelet op de aanvulling die deze modellen vormen op de methoden
die tot dusver voor het schatten van intellektuele reserves ter beschikking stonden - be-
doeld zijn dan met name het 'klassieke' model voor enkelvoudige reserve, zoals beschreven
door o.a. De Wolff (1963) en Van Meerem en Van Peet (1976), en de 'intui'tieve methode'
— lijkt hun toepassing in elk geval alleszins de moeite waard. Zij zullen een additioneel
hulpmiddel kunnen vormen om indrukken te verkrijgen omtrent het potentieel binnen
een gegeven populatie dat door het voeren van een bepaald onderwijsbeleid gemobiliseerd
kan worden.

Groot, A.D. dc. Waarvan hangt dc reserve-uitkomst af? Tijdschrift voor Onderwijsresearch, 1978, 3,
138-141.

Gruijter, D.N.M. de, Dc relatie tussen prcdikticve validiteit cn de omvang van de intellektuele reserve.

Tijdschrift voor Onderwijsresearch, 1978, 3, 236-237.
Meerem. L.M. van cn Peet, A.J. van, Intellektuele reserve als indikatie voor gelijkheid van kansen. Tijd-
schrift voor Onderwijsresearch, 1976,1, 241-265.
Roe, R.A., Het schatten van intellektuele reserve. Tijdschrift voor Onderwijsresearch, 1977, 2, 120-
131.

Roe, R.A., Antwoord aan De Groot, Tijdschrift voor Onderwijsresearch, 1978, 3, 141.
Vijn, P. De kansen op intellektuele reserve. Tijdschrift voor Onderwijsresearch, 1977, 2, 276-279.
Wolff, P. dc. Mogelijkheden tot vaststelling van begaafdheidsreserves. CPB-overdrukken nr. 87. Den
Haag: Centraal Plan Bureau, 1963.

Psychologisch Laboratorium, Rijksuniversiteit Utrecht
Testing algorithms in traffic education

In two experiments tlic applicabihty and effectiveness of the use of algorithms in traffic
education in real classroom settings was investigated. Three matched groups of elementary
school pupils participated in the first experiment. In the first group a transformation algorithm
for solving traffic priority problems was built up together with the pupils. Then they were
trained in working with the algorithm. The second g roup learned the traffic priority rules in a
non-algorithmic way. The third group served as a control group. Post and retention tests showed
that the experimental groups did not differ significantly, although the expected tendency in the
spread of learning results was found. In both groups retention remained below expectation
level.

In the second experiment with two matched groups of pupils, the experimental group was
offered a combination program, which contained the key elements of the experimental condi-
tions mentioned above. Moreover, in the experimental condition pupils worked with the algo-
rithm in the role of a cyclist, unlike the first experiment, in which they did not solve the
problems as a real participant in the traffic situation. Our hypothesis that this program would
lead to better retention was confirmed.

The paper concludes with some suggestions for additional improvements of the experimental
program.

Het hier beschreven onderzoek is bedoeld om een bijdrage te leveren in de discussie rond
het vraagstuk van de waarde en toepasbaarheid van algoritmische' onderwijsprocedures in
de reële schoolsituatie. Als zodanig sluit het aan bij een door Van Parreren (1975, p. 401)
aan de orde gesteld probleem, dat wij hier kort zullen samenvatten. Bij probleemoplos-
send handelen vallen er twee aspecten te onderscheiden, nl. enerzijds het inzicht dat de
proefpersoon verwerft in de principes welke ten grondslag liggen aan het probleem en
anderzijds het beheersen van de technische afwikkeling bij het oplossen.
(Boom)algoritmen zijn met name op het tweede aspect gericht; wat vaak naar voren
wordt gehaald als argument tegen algoritmiseririg van het onderwijs (Van Hiele, 1957).

1. Algoritmische en heuristische handelingsvoorschriften zijn methoden, die van dienst kunnen zijn
bij het oplossen van problemen. Het belangrijkste practische verschil tussen beide soorten methoden is
dat het gebruik van een algoritmisch handelingsvoorschrift dc oplossing garandeert, terwijl de toepassing
van ccn heuristiek weliswaar dc oplossingskans vergroot, maar geen absolute oplossingszekerheid ver-
schaft.

Hierbij moet men wel in het oog liouden dat de traditionele verbale instructie, waar deze
plaats vindt, weliswaar de nadruk legt op het ontstaan van inzicht, maar de technische
afwikkeling voor een belangrijk deel aan de leerhngen pleegt over te laten. Nu kan men
zich afvragen of inzicht nog van belang is als men dc technische afwikkeling beheerst. Hier
sciuiilt een probleem dat zeker nog niet geheel is opgelost. Voorlopig mogen wij echter
wel zeggen dat ook als de technische afwikkeling via algoritmen (in boom- of andere
vorm) wordt aangeleerd inzicht noodzakelijk blijft met het oog op het verdere verloop
van het leerproces, als verkortingen gaan optreden en indien algoritmen door vergeten
onbetrouwbaar worden.

In de literatuur worden vaak algoritmische cn heuristische oplossingsprocedures tegenover
elkaar gezet (Landa, 1969, 1976; Van Parreren, 1975; Abram, 1976). Kenmerkend voor
het algoritmisch probleemoplossen is dat dc proefpersoon middels het algoritme beschikt
over alle voor het probleemtype relevante regels, die bovendien in een samenhangend
systeem bijeen staan.

Bij heuristisch probleemoplossen is dit niet het geval. Hier beschikt de proefpersoon over
een handelingsvoorschrift van een andere aard: het is een verzameling zoekrcgels met een
min of meer algemeen karakter. Heuristieken formuleren een goede strategie, d.w.z. een
verstandig proberen om de oplossing voor het probleem te zoeken. Het onderscheid
tussen algoritmen en heuristieken is een logisch onderscheid. Zij zijn echter ook psycholo-
gisch te onderscheiden als routinematige dan wel kreatieve regels (Abram, 1976).
Op grond van het hierboven gemaakte onderscheid zou men wellicht de conclusie kunnen
trekken dat een proefpersoon die een in principe algoritmisch oplosbaar probleem oplost
zonder dat hem het daarvoor noodzakelijke algoritme bekend is gebruik maakt van heu-
ristieken. Dit hoeft o.i. niet het geval te zijn. Het komt in de reële onderwijssituatie nogal
eens voor dat de leeriing alle van toepassing zijnde regels voor een bepaald probleemtype
leert - waarbij de zin van deze regels met betrekking tot het probleem benadrukt wordt
- terwijl hij toch in zekere zin in het ongewisse gelaten wordt over de concrete toepas-
singsvolgorde van deze regels, hetgeen tot uitdrukking kan komen in onzekerheid bij het
nemen van beslissingen tijdens het oplossingsproces. De leerling zoekt dan wel naar een
oplossing maar het is de vraag of hij dan gebruik maakt van wat men doorgaans onder
heuristische zoekregels verstaat. Hij moet de toepassingsvolgorde van de regels in zekere
zin voortdurend zelf ontdekken. Kenmerkend voor deze vorm van oplossen, die wij verder
als niet-algoritmisch zuUen aanduiden, is dat deze vormA^an oplossen niet door een hande-
hngsvoorschrift wordt gedefinieerd.

Tot op zekere hoogte valt het onderscheid tussen algoritmische en niet-algoritmische
onc/mvf/xprocedures (de didaktische pendant bij bovenstaand onderscheid) samen met
het verschil tussen sturende en zelf-ontdekkende onderwijsprocedures, waarvan bijvoor-
beeld resp. Gal'perin en Bruner voorstander zijn (Gal'perin, 1967; Bruner, 1966).
Wij zullen trachten in een experimentele onderwijssituatie algoritmische oplossingspro-
cessen zo zuiver mogeUjk te vergelijken met niet-algoritmische. Als experimentele taak.
kozen wij voorrangsproblemen, zoals die op rijexamens gewoonlijk aan kandidaten voor-
gelegd worden. De opgave bestaat meestal uit een tekening van een kruising of splitsing
van wegen, waarbij de kandidaat de juiste volgorde van voorrang dient aan te geven. Wij

Stelden ons als doel basisschool-leerlingen door middel van een trainingsprogramma dit
type voorrangsopgaven aan te leren op 'rijexamennivo'. Voorrangsopgaven kunnen wor-
den opgelost met behulp van een transformatiealgoritme^.

Transformatiealgoritmen worden veelal weergegeven in de vorm van boomdiagrammen.
Landa (1976) is van mening dat een dergelijk algoritme bij voorkeur met de leerlingen
samen dient te worden opgebouwd, althans dat zij zoveel mogelijk actief bij het presen-
teren en aanleren ervan betrokken dienen te worden. Is het algoritme op deze wijze
aangeleerd dan fungeert het bij de uitvoering naar de mening van Landa als een volledige
oriënteringsbasis van het derde type, in termen van Gal'perins onderwijsleertheorie (Van
Parreren & Carpay, 1972, p. 40). Wij plaatsen bij deze stelling van Landa voorlopig een
vraagteken: bij handeling op basis van een voorschrift (zoals dat bij een algoritme het
geval is) is de oriëntering weliswaar volledig op de situatiegcgevens gericht, maar kenmer-
kend voor het uitvoeren van een algoritmisch handelingsvoorschrift is juist dat de relatie
tussen situatiegegevens en (deel)handelingen in hoge mate arbitrair kan lijken (waarschijn-
lijk geldt dit het sterkst voor de 'zwakke leeriing'). Op grond van deze overweging neigen
wij er toe er van uit te gaan dat het uitvoeren van een algoritmisch handelingsvoorschrift
eerder een oriënteringsbasis van het tweede type vormt: het uitvoeren kan meer wegheb-
ben van het uitvoeren van een dressuurhandeling dan van een inzichtige handeling op basis
van kennis (Van Parreren, 1975a, p. 15). In de onderwijspraktijk is het vaak mogelijk
leeriingen stereotiepe oplossingsmethoden en handelingsvoorschriften bij te brengen, zon-
der dat dit echter met een merkbare inzichtstoename gepaard gaat.
Om nu het door ons gebruikte algoritme te toetsen zal in de algoritme conditie het
transformatiealgoritme samen met de leerlingen worden opgebouwd. In de niet-algoritme
conditie zullen de leeriingen alle voorrangsbegrippen en regels leren zonder dat deze in de
vorm van een algoritmisch schema expliciet aan elkaar worden gerelateerd. Hier zal, meer
m overeenstemming met de praktijk van het gangbare verkeersonderwijs, het funktioneren
van de regels geleerd worden aan de hand van het doorwerken van een serie complexe
voorrangssituaties.

Hierbij dient wel opgemerkt te worden dat het onderscheid tussen de beide experimentele
condities niet in absolute zin te maken is: het gaat veeleer om accentverschillen ('wat
moet ik doen?' versus 'hoe zit het probleem in elkaar en welke regels zou ik moeten
gebruiken?'). Het gaat om het tegen elkaar afzetten van twee op zich plausibele wijzen
van aanpak in de onderwijspraktijk. Bij het oplossen van voorrangsproblemen met behulp
van een boomalgoritme kunnen er zich ons inziens twee mogelijkheden voordoen: ófwel
de leeriingen gaan tijdens het hanteren van het algoritme voor zichzelf de inhoudelijke
relaties tussen de regels expliciteren, ófwel zij doen dit niet en passen het algoritme
zonder meer 'blind' toe. In het laatste geval leidt dit, zolang het algoritme functioneert,
wèl tot een goede oplossing van de opgaven, ofschoon wezenlijk inzicht in de aard van de
probleemsituatie en het systeem van de voorrangsregels ontbreekt. Wij vragen ons af
welke mogelijkheid zich het meest voor zal gaan doen.

Strakke, sturende onderwijsleerprogramma's hebben een homogeniserend effect op de
leerresultaten (Van Loon-Vervoorn, 1974) terwijl gedifferentieerde programma's het te-
gengestelde resultaat bewerkstelligen. Wij verwachten dat er van het programma in de
algoritme conditie een homogeniserend effect uit zal gaan, in tegenstelling tot het pro-

2. Transformatiealgoritmen hebben ten doel systematische veranderingen aan een gegeven object
teweeg te brengen; men denke bijvoorbeeld aan de algoritmen voor bewerkingen met breuken in het
basisonderwijs.

gramma in de niet-algoritmc conditie, waar de stappen om tot beslissingen te komen niet
zo sterk vastliggen, maar meer gebaseerd zijn op algemeen inzicht in het ontstaan van de
voorrangregels en de toepassing ervan, waarbij het algoritme impliciet blijft. Tenslotte
vragen wij ons af of het middels het algoritme verworven leerresultaat sneller zal 'slijten'
en door vergeten onbetrouwbaar zal worden (Van Parreren, 1975, p. 401).

Gezien omvang van de literatuurgegevens met betrekking tot onze vraagsteUing en het
voorlopig karakter van de onderzoeksconclusies die men daar aantreft zullen onze onder-
zoeksvraagstellingen in hoofdzaak van exploratieve aard zijn (Bouwmeester, 1974; Wol-
ters, 1974).

a. Wat is het effect van een 'algoritmisch' onderwijslcerprogramma voor het aanleren van
voorrangsrcgcis vergeleken met dat van een 'niet-algoritmisch' programma?

b. Verwerven de leerlingen in de algoritme conditie ook inderdaad inzicht in het systeem
van voorrangsregels?

c. Heeft het algoritme-programma in tegenstelling tot een niet-algoritmisch programma
een homogeniserend effect op de spreiding der leerresultaten?

d. Beklijft het leerresultaat in de algoritme conditie even goed als in de niet-algoritme
conditie?

Er werd gewerkt met 3 gematchte groepen basisschoolleerlingen. Elke groep bevatte 7
derde- en 9 vierdeklassers. Dc ppn. werden in eerste instantie gematcht op hun voortoets-

skore. Daarna bleek het bovendien mogelijk de groepen te matchen op hun schoolpres-
taties (taal- en rekenrapportcijfer). Met het oog op onze vraagstelling is een vergelijking
van de beide experimentele groepen het belangrijkst, terwijl vergelijking van deze groepen
met de controlegroep extra informatie oplevert over het effect van de factor onderwijs.
De leerhngen in de controlegroep kregen tijdens het experiment verkeersles waarin het
onderwerp voorrang niet aangesneden werd.

Voorrangsproblemen kunnen naar inlioudelijke kenmerken geclassificeerd worden. Clas-
sificatiecriteria zijn bijvoorbeeld de aanwezigheid van bijzondere weggebruikers, snelver-
keer, voorrangswegen enz. Op grond van deze classificatie werd een pool van 63 items
samengesteld. In een vooronderzoek werden deze items aan leerlingen van 3 basisscholen
voorgelegd. Het waren leerhngen uit de 3e t/m de 6e klas, in totaal 224 leerhngen. Op
grond van de resultaten van de itemanalyse en de gebruikte classificatie werden er uit
de pool drie equivalente voorrangstoetsen geconstrueerd. Dc toetsen bestonden groten-
deels uit voorrangsitems zoals deze bij rijexamens gebruikt worden, aangevuld met enkele
vragen betreffende voorrangsborden, definities van categorieën weggebruikers enz.
De twee critische voorrangstoetsen hadden een dubbel doel: ten eerste werden zij inge-
voerd om het risico van een eventueel plafondeffect na de programma's te ondervangen;
daarom bevatten deze twee (equivalente) toetsen 7 extra moeilijke voorrangsitems op
'rijexamennivo', ten tweede waren deze toetsen bedoeld om na te gaan in hoeverre de
leerlingen inderdaad inzicht hadden verworven in het waarom van de voorrangsregels;
hiertoe waren per toets 5 inzichtsvragen opgenomen. Deze inzichtsvragen waren van
tweeëriei aard: er waren vragen waarbij de leerhngen de zin van een bepaalde voorrangs-
regel moesten beargumenteren en verder vragen, waarbij de leerlingen zelf in een gegeven
situafie bepaalde voorrangstechnischc maatregelen moesten treffen voor een optimale
regehng van het verkeer op het kruispunt (bv. door plaatsing van borden e.d.).
Samenvattend kan het testmateriaal globaal verdeeld worden in 'rijexamen-achtige' op-
gaven, aan te duiden als kennisitems en typische inzichtsitems. Voor de constructie van
deze toetsen werden de moeilijkste items uit het vooronderzoek gebruikt (zie boven).

Het was de bedoeling dat de beide experimentele condities zoveel mogelijk met elkaar
overeenkwamen, met uitzondering van de bedoelde verschillen in leerstofpresentatie 'niet-
algoritme' versus 'algoritme'. Daarom werd in de tweede fase van het experiment gewerkt
met een serie trainingsopgaven, die in beide condities gehjk was.

Grondgedachte bij de niet-algoritme conditie was te werken van de meest algemene regels
(de regels van rechts, snelverkeer en afslaan) naar de bijzondere (bijzondere weggebrui-
kers); hierdoor werd een systematische uitbouw van het systeem van voorrangsregels
mogelijk gemaakt. Bij de algoritme conditie was de gedachtengang juist omgekeerd: hier
werd van de meest bijzondere naar de meest algemene regels gewerkt.
Beide experimentele groepen kregen per week twee lessen van een halfuur.

(Voor een gedetailleerde beschrijving: Assink, 1977). In dc eerste twee lessen werden de
basisbegrippen aangeleerd, die noodzakelijk waren om het algoritme samen met de leer-
lingen op tc bouwen. Dc in beide condities gebruikte filmstrip diende ter consolidatie van
deze kennis. Dc gezamenlijke opbouw van het algoritme geschiedde door de zeven voor-
rangsregels op een zijbord te schrijven cn dc leerlingen te vragen naar dc 'voornaamste'
voorrangsregel. ('Welke weggebruikers hebben altijd voorrang?'). Toen de betreffende re-
gel gevonden was werd deze bovenaan in het algoritme geplaatst en van het zijbord
weggeveegd. Vervolgens moesten de leerlingen van de resterende regels de voornaamste
aanwijzen enz. Zo ontstond het onderstaande boomalgoritmc (zie fig. 3).
De laatste twee lessen in het programma waren er op gericht de leerlingen geleidelijk aan
te leren werken met het algoritme op mentaal nivo. Dc leerlingen werkten in dyade-vorm.

Dc eerste drie lessen waren bedoeld om uitvoerig het hoe en waarom van dc voorrangs-
regels aan te leren. Fhcrbij fungeerden de leerlingen zelf als verkeersdeelnemer in voor-
rangssituaties en werd gebruik gemaakt van maquettes en miniatuur-voertuigen. Het pro-
gramma werd afgerond met dezelfde filmstrip en trainingsopgaven. Ook hier werd de
dyade-vorm toegepast.

Dataverwerking geschiedde door middel van covariantieanalyses, waarbij het resultaat op
de voortoets als covariant werd opgenomen (fig. 1).

Wat de eerste onderzoeksvraag betreft (effect algoritme- versus niet-algoritme program-
ma), uit de toetsresultaten bij de tweede observatie bleek, dat er geen reden was aan te
nemen dat één der beide groepen superieur was: op geen enkele der toetsen bleek een
significant verschil te bestaan; dit gold met name ook voor de critische voorrangstoets.
Zoals wij onder 3. al opmerkten bevatte deze toets een aantal inzichtsitems. Ook op deze
items verschilden de beide groepen niet, zodat wij met betrekking tot vraagstelling 2
(verwerft de leerling in de algoritme conditie ook inzicht?) de conclusie mogen trekken
dat de algoritmegroep niet minder inzicht in het waarom en de toepassing der voorrangs-
regels verwierf; deze groep scoorde gemiddeld zelfs enigszins hoger op de inzichtsitcms
(tabel 2). Overigens bleek in dit geval bij de toetsing dat de aanname van homogeniteit der
varianties niet houdbaar was (tabel 1), zodat hiervoor moest worden gecorrigeerd (Winer,
1971, p 43). Voor de critische natoets (inzichtsitems) was het resultaat: t = .50 df = 25.5
p = .62. Voor de critische retentietoets (totaal): t = .847 df = 25.3 p = .405.
Wat vraagstelling 3 betreft (zijn er verschillen in de spreiding der leerresultaten?), tabel 1
geeft een overzicht van de varianties van de scores der beide experimentele groepen op de
toetsen.

Uit de tabel blijkt dat de verschillen in spreiding inderdaad in de verwachte richting
liggen, hoewel deze tendens niet overal significant is.

Met betrekking tot vraag 4 (beklijving der resultaten in beide condities) vonden wij dat
de beide groepen over het algemeen niet sterk verschilden (tabel 2).
Als wij nu als beklijvingscriterium het percentageverschil tussen de overeenkomstige na-
en retentietoetsen nemen, dan kunnen wij de resultaten met betrekking tot de beklijving
naar itemtype (kennis- en inzichtsitems) als volgt samenvatten (tabel 3):

Uit tabel 3 blijkt het reeds genoemde geringe algemene verschil. Beschouwen wij de
beklijving op dc critische voorrangstoets, dan zien wij dat bij de algoritmegroep de terug-
val op de kennisitems het geringst is; bij dc niet-algoritmcgrocp geldt liet omgekeerde. Dit
interactieeffcct was niet significant.

Ons vermoeden dat kennis van de voorrangsregels, aangeleerd in de vorm van een algo-
ritme, meer aan slijtage onderhevig zou zijn, werd ook bij het kwalitatieve individuele
onderzoek niet bevestigd: de meeste leerlingen in de algoritmegroep kenden na een wacht-
tijd van drie weken het algoritme zelfs nog uit het lioofd! Bij dit individuele onderzoek
viel ook op dat dc leerlingen in de niet-algoritme conditie vaak bleven weifelen bij het
doen van hun keuzen; zij hadden de door lien geleerde regels blijkbaar niet in een systeem
geïntegreerd. Hierop zullen wij nog nader terugkomen.

Gegeven zijn de groepsmiddclcn per toets; tussen haakjes het overeenkomstige
groepsgemiddelden tussen de beide experimentele groepen is getoetst.

Dc belangrijkste algemene conclusie ten aanzien van dc beklijving der leerresultaten was
echter dat deze in beide groepen onder onze verwachting bleef. Flet is niet onmogelijk dat
dit toegeschreven kan worden aan tekorten in beide experimentele programma's. In het
individueel kwalitatief onderzoek (fig. 1) bleek namelijk dat, toen aan 8 proefpersonen
uit de niet-algoritme groep en aan 8 proefpersonen uit de algoritmegroep nog eens een
viertal opgaven uit de trainingsserie werd voorgelegd, de benodigde oplossingstijd voor de
proefpersonen uit de niet- algoritme conditie aanzienlijk langer was. Het is achteraf gezien
jammer dat de variabele 'oplossingstijd' niet in het hoofdonderzoek betrokken is. In
vervolgonderzoek zal dit aspect zeker nader aan de orde komen, vooral omdat in de
actuele verkeerssituatie dc oplossingstijd van eminent belang is. Wij vragen ons af of een
combinatie van beide programma's het niet beter zou doen, omdat dan immers de voor-
delen van beide in één programma ondergebracht worden.

llocncn^ onderzocht of een combinatieprogramma, dat dc kernelementen van beide pro-
gramma's bevatte, inderdaad leidde tot duurzamer leerresultaten. Het combinatieprogram-
ma bestond uit 6 lessen (2 per week) cn werd gegeven in een vierde klas basisschool
(n = 18), terwijl als controlegroep een parallelklas fungeerde (n = 30). Gezien de resul-
taten op de voortoets, die equivalent was aan die van het eerste onderzoek, waren deze
leeriingen qua relevante voorkennis vergelijkbaar met die van het eerste onderzoek.
Dc voorrangsbegrippen cn -regels, bouwstenen voor het algoritme, werden aangeleerd vol-
gens de procedure uit dc niet-algoritme conditie. Daarna werd samen met de leeriingen
het algoritme opgebouwd, waarbij echter een belangrijke wijziging werd aangebracht: de
leerlingen in liet eerste onderzoek (de algoritme conditie) hadden het algoritme als het'
ware vanuit een 'bovenaanzichtsstandpunt' uit leren hanteren; nu wilden wij de leerlingen
'binnensituationcel' (dus in de rol van weggebruiker, i.e. fietser) met het algoritme leren
werken. Daarom werd het algoritme met de leeriingen opgebouwd vanuit het standpunt
van ccn fietser, die een voorrangssituatie nadert. Uiteraard is deze wijziging vanuit psycho-
logisch standpunt niet gering.

Het nieuwe combinatieprogramma werd afgesloten met dezelfde series trainingsopgaven
als in liet eerste onderzoek. Ter afsluiting bezocht de experimentele groep verder een druk
kruispunt, waar de gemeentepolitie de verkeerslichten iiad uitgeschakeld, om kennis te
maken met de praktijk van de voorrang. Na het programma werden weer twee nametin-
gen, met een tussentijd van 3 weken, verricht: een onmiddellijke nameting en een reten-
tiemeting. Beide nametingen bevatten twee subtoetsen: een schriftelijke toets met 16
'normale' voorrangsitems (dc parallelversie van de voortoets) en een speciale individueel
afgenomen diatocts. Op elke dia naderde een fietser vanuit een standaardpositie een
kruising of splitsing. Elke dia werd 15 sec. vertoond. De leerling moest beslissen of hij in
dc gegeven situatie als fietser (in dc standaardpositie) wel of niet voorrang moest verlenen.
Deze diatoctsen werden geconstrueerd op basis van de gegevens uit liet vooronderzoek ten
behoeve van het eerste experiment cn kwamen qua moeilijkheidsgraad overeen met de
daar gebruikte zgn. critisclie toetsen. Deze diatoctsen werden enerzijds ingevoerd om na
te gaan of de leerlingen inderdaad in staat waren 'binncnsituationed' op voorrangssitua-

3. Dit onderzoek werd uitsievocrd in het k:ider van een doctoraal onderzocksstagc aan liet Psycholo-
gisch Laboratorium. Wij danken Drs. .(. Iloeiicn voor het ter bcschikkini: stellen van do onderzoeks-
resultaten.

ties te reageren, anderzijds waren zij bedoeld om tc toetsen of dc leerlingen op grond van
het door hen geleerde algoritme bovendien snel en adequaat konden reageren op voor-
rangssituaties, een doelstelling, die ons inziens in het verkeersonderwijs niet genoeg bena-
drukt kan worden.

In dit verband wijzen wij nogmaals op het feit dat de leerlingen in het eerste experiment
in de niet-algoritme conditie (zie 5.) vaak bleven aarzelen bij het doen van hun keuzen.
De resultaten van het combinatieprogramma staan samengevat in tabel 4:

Uit dc tabel blijkt duidelijk het effect van het combinatieprogramma: beide groepen
verschillen op de natoetscn schriftelijk/dia resp. 4 en 2.75 pt. Toch bleef het resultaat
enigszins beneden onze verwachting. De leerlingen bereikten, als wij een criterium van
100% stellen, op deze toetsen slechts criteria van 60 cq. 78%; dc eerste waarde weck
overigens niet noemenswaard af van die van net eerste experiment. Vermoedelijke oor-
zaak hiervan is dat het programma om practische redenen te sterk gecomprimeerd moest
worden. Het bleek dat sommige leerlingen tijdens dc series trainingsopgaven nog proble-
men hadden met de identificatie van de noodzakelijke begrippen en definities'*.
De dia-toets bleek goed te discrimineren; leerlingen in de controlegroep scoorden op
kansnivo.

In aanvulling op bovenstaande criteriumvraag waren wij evenzeer geïnteresseerd in effec-
ten op wat langere termijn en met name in de vraag in hoeverre het coinbinatieprogramma
inderdaad leidde tot duurzamer leerresultaten. Welnu, uit tabel 4 blijkt een duidelijke
consolidatie der resultaten in de experimentele groep. Indien wij hetzelfde beklijvings-
criterium hanteren als in het eerste experiment dan vinden wij voor de schriftelijke cn
diatoetsen terugvalpercentages van resp. 6 en 2%, waarden die inderdaad - hoewel niet
spectaculair — lager liggen dan de vorige.

Bij de dia-retcntietoets blijkt het verschil tussen de-beide groepsgemiddelden zelfs nog
enigszins te zijn toegenomen, een resultaat dat wellicht verklaard kan worden doordat de
diatoets scherper discrimineert. Verder zij hier ook gewezen op het feit dat met name op
dc diatoets het terugvalpercentagc zeer gering is.

4. Dit gold zowel voor het identificeren van dc voorran.ussituaties als voor het identificeren van dc
categorieën cn begrippen in het gehanteerde algoritme. Wij merken hierbij op dat Nederlandse basis-
school leerlingen niet vertrouwd zijn met het werken met algoritmen in dc vorm zoals wij die gebruik-
ten.

Overigens is het niet onwaarschijnhjk dat de leerhngen, doordat zij met het algoritme
'binncnsituationeer leerden werken, buiten de school het geleerde gingen toepassen, een
factor die met name op de diatocts tot uiting zou kunnen komen.
Doordat het experimentele programma aan specifieke leerstof gebonden was moeten wij
het gevonden effect als een fixed factor opvatten.

Hoewel het combinatieprogramma een gunstiger lange-termijn effect opleverde achten wij
het voor een zodanige verbetering vatbaar dat met derde klas basisschool leerlingen crite-
ria tussen de 95 en 100% behaald kunnen worden. Allereerst zal het dan in een wat
minder gecomprimeerde vorm gegeven dienen te worden; verder is het ons inziens moge-
lijk de gesignaleerde idcntificatieproblemen te ondervangen. Daartoe zou het gebruikte
algoritme tijdens de lessen moeten evolueren: de lange en formele omschrijvingen in het
algoritme zouden tijdens het programma vervangen kunnen worden door (of gecombi-
neerd met) schematische aanduidingen, waardoor de leerlingen sneller de noodzakelijke
identificatiehandelingcn in het algoritme kunnen voltrekken (Sechter, 1972; Kuljutkin &
Suchobskaja, 1967;Carpay, 1975).

Abram, I.B.JI. Zoekregels (heuristische regels) en vindregels (algoritmische regels) in (onderwijs-)leer-
processen. R.I.T.P. Universiteit van Amsterdam, 1976.

Bouwmeester, Wat is een algoritme waard? Doctoraal scriptie Utrecht, Psychologisch Laboratorium,
1974.

Carpay, J. Onderwijs-leerpsvchologie en leergangontwikkeling in het moderne vreemde-talenonderwijs.
Utrecht, 1975.

(JaPpcrin, P.J. Die Psychologie des Denkens und die Lehre von der ctappcnweiscn Ausbildung geistiger
Handlungen. In; Untersuchungen des Denkens in der sowjetischen Psychologie. Berlin; Volk und
Wissen, 1967.

Kuljutkin, J.N. & Suchobskaja, G.S. Het gebruik van aanschouwelijke schema's bij het aanleren van
grammaticale vaardigheden (Russ.) in; Voprosy Psikhologii, 1967 no. I.

Landa, LN. Instructional regulation and control. i:nglewood Cliffs, New Jersey, 1976.

Loon-Vcrvoorn, W.A. v. Ilnige aspecten van het leren schaakdenkcn op basis van de theorie van
Gal'perin. In; Nederlands Tijdschrift voor Psychologic, 1974, 29, 731-746.

Parreren, C.I'. v. Algoritmen on heuristieken in het onderwijs. In; Pedagogische Studiën 1975, 52, 394-
405.

Parreren, C.F. v. Een nieuw gedragsmodel. Discussiestuk, interne publicatie Psych. Lab. R.U. Utrecht,
1975a.

Parreren, C.F. v. & J.A.M. Carpay. Sovjetpsychologen aan het woord, Groningen, 1972.

Scchter, Successieve en simultane identificatieprocessen. In; Van Parreren & Carpay (1972).

Wolters, M.A.D. Algoritmen en aanschouwelijke schema's in het grammatica-onderwijs. In; Pedago-
gische Studiën 1974, 51, 307-315.

Van (Je hand van T.G. Borgesius verscheen onlangs een rapport over 'Een empirisch onder-
zoek naar het correctie voor raden scoringssysteem'. Dc onderzoeker vat zijn werk zelf
aldus samen:

Do bedoeling van het te rapporteren onderzoek is een antwoord tc krijgen op oen drietal vragen ton
aanzien van het correctie voor raden scoringssysteem, waarbij een fout beantwoord item ccn negatieve
itemscore oplevert:

- zijn de bij het correctie voor raden scoringssysteem onderdrukte antwoorden slechts blind geraden
antwoorden?

- zijn dc betrouwbaarheid cn validiteit van correctie voor raden scores hoger dan die van gedwongen
raden scores?

- is de mate waarin de betrouwbaarheid en de validiteit hoger zijn atliankolijk van de hoeveelheid
niet-gegcvcn antwoorden bij corrcctic voor raden scoring c.q. de hoeveelheid (blind) geraden ant-
woorden bij gedwongen raden scoring?

Gelijktijdig zijn In ccn normale tentamensituatie afgenomen een antwoordkeuzetoets van het good-
fout type volgons het correctie voor raden scoringssysteem alsmede een antwoordconstructiotoots over
dezelfde tentamenstof als validiteitscriterium.

Na afloop zijn de studenten "gedwongen" de overgeslagen keuze-items alsnog naar beste kunnen te
beantwoorden: "echte" gedwongen raden scores. Dezelfde overgeslagen items zijn achteraf ook nog
beantwoord met zuiver toevallig gekozen antwoordalternatievcn: "random" gedwongen raden scores.
Door splitsing van dc keuzetoets zijn achteraf naast de totale keuzctoets twee toetshelften ontstaan die
verschillen in hoeveelheid niet-gegeven antwoorden bij correctie voor raden scoring: ccn helft met veel
cn ccn helft met weinig niet-gegeven antwoorden.

- Indien bij correctie voor raden scoring slechts blindgcraden antwoorden worden onderdrukt, zijn
de betrouwbaarheid cn validiteit van correctie voor raden scores hoger dan die van gedwongen
raden scores cn wel des tc meer naarmate meer blind raden voorkomen wordt.

a. de antwoordresultatcn bij gedwongen raden op do overgeslagen items verschillen van de resultaten
bij blind raden. Ten eerste behalen do studenten oen gcmiSdeld resultaat dat beter is dan het blind
raden resultaat. Ten tweede is het aantal studenten met een beter dan blind raden resultaat
("winst") groter dan het aantal met ccn slechter dan blind raden resultaat ("verlies"). Ten derde
zijn de voor raden gecorrigeerde antwoordresultatcn zowel het gemiddelde resultaat als de winst-
verlies verhouding afhankelijk van het score niveau: studenten met lagere scores behalen ongeveer
bUnd raden resultaten terwijl studenten met hogere scores betere resultaten behalen dan bij blind
raden het geval zou zijn. Een dergelijke afhankelijkheid is er bij blind raden uiteraard niet.

b. de betrouwbaarheid cn validiteit van echte gedwongen raden scores zijn hog<»r dan die van random
gedwongen scores.

- Do betrouwbaarheid van correctie voor raden scores is hoger dan die van echte gedwongen raden
scores en wel des? te meer naarmate meer items worden opengelaten bij correctie voor raden
scoring.

- de validiteit van correctie voor raden scores verschilt niet van die van echte gedwongen raden
scores. Bij de toetshelft met weinig opengelaten antwoorden is wel een significant verschil gcvon-

den ten gunste van correctie voor raden: er is geen bevredigende verklaring gevonden voor het feit
dat het verschil wel optreedt in dc situatie waar het dc kleinste kans leek te hebben.'

Het onderzoek lijkt mij correct ontworpen en uitgevoerd, de rapportage is duidelijk, inaar
daar gaat het hier niet om. Belangstellende lezers moeten dit maar zelf concluderen na
bestelling van het rapport bij het lOWO. Het gaat mij hier slechts om de signalering van
een 'ethisch' probleem: Mag de docent een studietoets afnemen met de instructie 'altijd
een antwoordalternatief kiezen tenzij alle alternatieven je even waarschijnlijk voorkomen,
dan openlaten' als hij wéét (en dat is ten overvloede door het onderhavige onderzoek weer
eens bewezen) dat door deze instructie de scores gemiddeld lager liggen dan bij de instruc-
tie 'altijd een alternatief kiezen desnoods blind, anders benadeel je jezelf. Mag hij om een
hogere betrouwbaarheid en validiteit te bereiken een niet-optimale strategie aanbevelen?
Ik ben helemaal niet tegen misleiding van proefpersonen bij psychologische experimenten,
maar bij studietoetsen, die voor examens of tentamen gebruikt worden, liggen de kaarten
toch wel anders. Misschien zou de onderzoeker zich veel werk bespaard hebben wanneer
hij aandachtiger gelezen had wat ik eerder hierover schreef (in de Groot en van Naerssen
1975 p. 280 e.v.):

'Dc optimale strategie bij deze scoring schrijft dus voor om nooit een item over te slaan maar om altijd
een alternatief - het ogenschijnlijk beste - aan te strepen. Deze strategie faalt alleen - is niet optimaal
- in het geval het dc testconstructeur gelukt is zoveel foutieve alternatieven te bedenken, dat dc
niet-weter een negatieve score haalt. We hebben gezien (18: 2) dat sommigen voor dit geval ccn andere
scoringsformule hebben bepleit. Maar in de praktijk komt dit waarschijnlijk zelden voor.
Moe eenvoudig deze optimale strategie ook is, vele personen, aan wie dc correctieformule is uitgelegd,
houden er geen rekening mee. Bij het geven van "strafpunten" voor foutieve antwoorden zijn er altijd
voorzichtigen, die liever ccn item overslaan dan de kans te lopen op een minpunt. Opdat er zo min
mogelijk verschillen in scores ontstaan door verschillen in strategie, moet men dus ook bij dc gangbare
correcticformule iedereen aanmoedigen alle items te beantwoorden. Dit houdt in: geen items overslaan
cn de testtijd zo verdelen, dat geen items aan het einde overblijven.

Maar volgt uiteindelijk iedereen deze strategie, dan is de scoringsformule overbodig geworden. Men had
dus evengoed als score het aantal goed beantwoorde items x kunnen nemen.'

Daarmee wil ik niet zeggen dat het onderzoek van geen nut is geweest. Vermindering van
onzekerheid - die eerder bleek uit tegenstrijdige opvattingen - is op zichzelf zinvol, ook
al mogen we de verkregen kennis niet zonder meer toepassen.

Ethisch wel verantwoord is de 'zekeraanduiding' (zie bijv. de Groot en van Naerssen p.
284-287) maar het nut hiervan voor betrouwbaarheidsverhoging is tot nog toe twijfelach-
tig. Een simpele vorm van zekeraanduiding bij tweekeuzeitems verkrijgt men door het
negatieve gewicht van de fouten iets groter te kiezen dan het positieve gewicht van de
goede antwoorden, in combinatie met een passende instructie. Ik herinner mij echter dat
lang geleden reeds onderzoek is verricht met variabel gewicht van de fouten, zonder dat
nuttige aanbevelingen mogelijk waren. Het is jammer dat het toelaatbare hier niet nuttig
schijnt en het nuttige niet toelaatbaar.

T.G. Borgesius. Een empirisch onderzoek naar het correctie voor raden scoringssysteem. Instituut voor

onderzoek van het Wetenschappelijk Onderwijs, Katholieke Universiteit te Nijmegen, 1978.
A.D. de Groot en R.F. van Naerssen. Studietoetsen construeren, afnemen, analyseren. Mouton, 2 dr.
1975.

T. dc Groot-llovens Gréve
Statistiek anders (deel I)
Groningen: H.D. Tjeenk VViilinic, 1976.

It is ccn simpele regel om ccn eerste schifting aan tc lircngcn tussen dc betere en slechtere inleidende
slatistickbockcn voor psychologen, sociologen cn pedagogen. Dezx luidt als volgt: sla de index open cn
ga na of het begrip stochastische of kansvariabclc opgenomen is. Zo ja, dan kan het wel eens een van
de betere boeken zijn; zo nee, gooi het dan weg. Boeken die het begrip stochastische variabele niet
introduceren vertonen altijd meer gebreken. Ze geven overdreven veel aandacht aan tabellen cn grafie-
ken, brengen amper lict kansbegrip bij, verwaarlozen het modclkarakter van dc statistiek cn laten na
om, waar mogelijk, vcrdclingsvormen tc relateren aan onderliggende kansproccsscn. Kortom, dc foef-
jes, trucjes cn vuistregels zijn er wel, maar formeel begrip en interpretatie ontbreken.
Toen ik het bock 'Statistiek anders' door T. dc Groot-llovens Gréve, onder begeleiding van een
keurige brief van dc uitgever ontving dacht ik bovenstaande regel even snel toe tc kunnen passen: mis,
dit bock heeft geen index! Oe introductie cn dc tekst op dc achtcrtlap waren zo veel belovend dat ik
het toch ben gaan lezen:

'Voor hen die ccn gewoon statistickbock moeilijk kunnen begrijpen en ccn gewoon statistiek
colicgc nauwelijks kunnen volgen is dit werkboek samengesteld'.
'Dc auteurs van 'Statistiek anders' zijn vooral didactici.'

'Statistiek anders' is fundamenteel. De methodische denkwijze die aan statistiek ten grondslag ligt
wordt vanaf liet begin geleidelijk aan opgebouwd, zodat men inzicht krijgt in doel. funktie, werk-
wijze cn toepassingsmogelijkheden van het vak'.

Ondanks al deze beloften ken ik geen inleidend statistickbock dat beginnende studenten zo vaak op
het verkeerde been zet als 'Statistiek anders'. Het maakt simpele dingen moeilijk cn stelt moeilijke
dingen veel tc simpel voor, er staan talloze aperte fouten in, bijzaken krijgen ruime aandacht terwijl
hoofdzaken verdoezeld worden cn nergens krijgt men zicht op dc struktuur van het v.nk. Hoewel het
boek bedoeld is als een voorbereidend werkboek waarna eventueel een gewoon statistickbock bestu-
deerd kan worden, denk in niet dat ik ooit een student die 'Statistiek anders' door heeft moeten nemen
deze overstap uit vrije wil zal maken. Tussen de regels door wordt de 'echte' statistiek voortdurend af-
geschilderd als een moeilijke en voor gewone mensen ontoegankelijke materie. Daar komt nog bij dat
statistici slordig en star zijn:

'Hoe sneller inc-n dc werkwijze, dc toedracht in dc statistiek doorziet, des tc minder last zal men
hebben van het merkwaardige cn ook zeer slordige woordgebruik. Op dat punt kan men geen steun
vcrwachtcn van dc statistici. Onder licn bevinden zich doorgaans geen lieden die afstand kunnen
nemen tot hun begrippensysteem of hun taalgebruik." (pTó)

Met dcci van 'Statistiek anders' dat wc hier bespreken kent vier onderdelen, l'.erst komen dc methodo-
logische assumpties cn dc terminologie van dc statistiek aan dc orde, vervolgens dc dcscripticvc sta-
tistiek daarna ccn voorbereiding op toetsen cn schatten cn tenslotte de correlatie.
Hoewel dc titel van het eerste onderdeel dit belooft worden amper methodologische assumpties
genoemd. Dc studenten moeten volstaan met dc mededelingen dat alle waarnemingen op dezelfde
wijze cn onder dezelfde omslandiglicdcn uitgevoerd moeten worden (p. 17jl8), ccn andere onder-
zoeker tot dezelfde uitkomsten moet komen, instrumentele waarneming dc voorkeur heeft cn alle
waarnemingen verwerkt moeten worden i^p- 20). Verder wordt ccn rookgordijn opgetrokken met
behulp van dc begrippen object, element, kenmerk, waarden, waarncmingsuitkomstcn, scorc, waar-
nomen cn nieten, cn wordt ccn variabele weer eens op de bekende wijze verkeerd gedefinieerd als ccn
variërende cmpirischc grootheid:

'... dat wat verschillende waarden aanneemt is de variabele. It is altijd ccn kenmerk dat aan alle
objecten aanwezig is en juist omdat het een kenmerk is, is het niet eens zo erg verschillend aan
de verschillende objecten van het onderzoek. Of het variabel is en hoe variabel hot is, hangt af van
de onderzoekgroep.' (p. 8-9).

Als het in de wiskundebockjes van de eerste klas van het voortgezet onderwijs boter kan, waarom hier
dan niet? Wat dacht U overigens van de volgende drie definities in een warrig stuk over het schaal-
bogrip:

'Een schaal is een in gelijke stukken gedoelde rechte lijn. Een meetschaal meet. Ixn statistische
schaal verzamelt - d.w.z. maakt por waarde oen subverzameling uit dc totaio verzameling van
waarnomingsuitkonistcn - en iedere waarde ligt tussen twee maatstrepen'.

Je zal maar student zijn die op een tentamen moet laten blijken dit tc snappen. Hoe kan ccn in gelijke
stukken gedeelde rcchtc lijn nu moten? r.n verzamelen? Dit soort tekst, en 'Statistiek anders' staat cr
vol van, slaat iedere poging tot begrip dood en dwingt de student, die toch al onzeker gemaakt is, tot
louter memoriseren. Met de begrippen continu en diskreet is hot al even droevig gesteld. Zo worden
niet zorgvuldig geïntroduceerd (p. 23), cn dit wreekt zich het hele boek door. Op p. 53 probeert dc
auteur aannemelijk tc maken dat een waarde van een continuum niets anders kan zijn dan oen interval.
Op p. 120 wordt rustig gesuggereerd dat er in de realiteit altijd continuïteit is. Hot toppunt vindt
plaats op p. 99 waar hot onderscheiden van meer waarden dc wet van de grote aantallen genoemd en
vervolgens als argument voor continuitcit opgevoerd wordt. Is het nu zo moeilijk om duidelijk tc
maken dat - en waarom! - de statistiek continue verdelingen gebruikt om diskrote te benaderen en
dat dit een correctie voor continuïteit met zich meebrengt?

Het tweede onderdeel omvat de descriptieve statistiek, die overigens al in het derde hoofdstuk van het
eerste onderdeel begint. Het bestaat uit ccn tientallen pagina's durend vertollen over cn oefenen met
histogrammen, polygonen, relatieve frekwenties, gemiddelden en varianties. Ik zal de eerste zijn die dc
waarde van een goede grafische presentatie verdedigt - het oog wil ook wat maar ccn dergelijke
omvang vind ik overdreven. Juist dc categorie studenten waarvoor dit bock geschreven is, is gediend
met ccn ruimere beschikbare tijd voor do centralere onderdelen uit dc statistiek. Naar mijn idee is het
voor een juist begrip van de statistiek beter om dc descriptieve onderdelen niet als een inleiding voor-
afgaande aan de statistiek maar als een toegift of intermezzo van de kansrekening te behandelen.
Het is droevig om tc zien hoe het kansbegrip gcintroducccrd wordt. Dit wordt domweg gelijk gesteld
aan do relatieve frekwentie: 'Houdt dat vast: de kans is de frokwenticproportic (= do relatieve frekwen-
tie)' (p. 174). Dat is nu ccn van do konsekwenties van dc nadruk op dc dcskriptiove statistiek! In ccn
alinea worden ook de som - en produktrcgcl behandeld. Schrik niet;

'Dc kans op meer dan ccn waarde uit ccn frekwentieverdeling is dc som van do betreffende
frckwcnticproporties d.i. do somrogel; hij drukt uit dat de kans op meer waardon groter is cn
precies hoe voel groter. Als dc vraag zo is gesteld dat zowel aan do ene als aan do andore frekwentie-
verdeling wordt gerefereerd, wordt de kans .kleiner; dan geldt do produktrogol; omdat ccn kans
altijd een breuk is is hot produkt van twee kansen altijd oen kleinere kans' (p. 1 74).

In het onderdeel over dcskriptiove statistiek is ook een paragraaf over dc normaalverdcling opgenomen.
Grenzen spelen geen rol! Ik heb do neiging om hier weer tc citeren en liet citaat voor zichzelf to laten
spreken:

'Een bijzonder geval van ccn frekwontiovordeling valt op door de vorm van hot histogram. Het is
symmetrisch, vertoont ccn sterke centrale tendentie on loopt naar beide kanton op niets uit.
Onder bepaalde voorwaarden noemt men al gauw aan, dat bij het doen van zeer veel waarnemingen
(alle) cn het steeds nauwkeuriger onderscheiden van kleine waardcnverschillcn hot verbinden van
alle ordinaten van dc afgemeten waarden oen klokvorm zou vertonen, zoals hieronder aangegeven.
Wc noemen ccn dergelijk verband tussen do waarden van dc variabele on do frekwenties waarin ze
voorkomen dc normaio verdeling', (p. 175).

Het derde onderdeel is bedoeld als een voorbereiding op schatten en toetsen, maar alleen het eerste
hoofdstuk ervan kan als zodanig aangeduid worden. Dit behandelt oen aantal begrippen als steekproef.

populatie, mcethypotlicsc, signifikantie. De beide andere hoofdstukken gaan over rcspecticvelijk de
binoniiaalverdcling cn de x^-toets.

Ilct laatste onderdeel is ccn hoofdstuk over correlatie. Ik zou hier weer op veel onbegrip kunnen
wijzen en met citaten kunnen illustreren. Het is evenwel voldoende om op te merken dat de laatste
twee onderdelen zich in hun behandeling van de stof in niets van de eersten onderscheiden.
Ook in dc statistiek is er geen koninklijke weg. Ook in dc statistiek moeten dc juiste dingen in dc juiste
volgorde behandeld worden. I^n als studenten cr moeite mcc hebben moet men het tempo verlagen, de
didaktick aanpassen, de eisen herzien, of teruggaan naar een behandeling van die wiskundige voorken-
nis die kennelijk nog niet begrepen is. Als men het op ccn andere wijze cn met zoveel fouten doet als
"Statistiek anders' dan neemt dc verwarring alleen maar toe.

I r is nog eoi tweede deel van 'Statistiek anders' door P..\1. Karstanje. Volgens dc omslag behandelt dit
dc indukticve statistiek. Misschien doe ik deze auteur onrecht aan. maar aan lezing ervan ben ik niet
meer begonnen. Voor liet eerste deel gekit in ieder geval: 'Statistiek anders' is wat anders dan sta-
tistiek!

Het bestuur van de Stichting voor Onderzoek van het Onderwijs (SVO) heeft drie nieuwe terreinen
(proefvelden) binnen het onderwijsonderzoek aangewezen die zich naar het oordeel van de onderzoe-
kers lenen voor de ontwikkeling van nieuwe experimentele onderzoeksthemagroepen (OTG's). Daar-
mee worden landelijke samenwerkingsverbanden bedoeld van onderzoekers en terreindeskundigen die
streven naar een verbetering van de onderzoeksopbrengst. Met de invoering van deze activiteiten wordt
een verder gevolg gegeven aan de uitgangspunten van de in 1976 verschenen SVO-nota 'Programmering
van onderwijsonderzoek'. In 1977 cn 1978 werd reeds het startschot gegeven voor de onderzoeks-
themagroepen op de terreinen: 'motivatie in het onderwijs' en 'onderwijs en sociale ongelijkheid'. Bij
dc drie nieuwe proefvelden gaat hel om dc thema's: 1) onderwijsleerprocessen, 2) curriculumonder-
zoek en 3) evaluatie van onderwijsvernieuwingen.

Aan het bestuursbesluit ging onder meer een enquêtering vooraf onder een voor de onderwijsweten-
schappclijkc gemeenschap representatieve groep van 200 onderzoekers en andere ter zake kundigen.
Dc bevraging van de deskundigen, die zich uitstrekte over twee ronden, had ten doel onderwerpen te
selecteren die geschikt zouden kunnen zijn voor inhoudelijke samenwerking tussen onderzoekers op
landelijk niveau.

Voor elk proefveld wordt een coördinator aangetrokken, die vooralsnog speciaal belast zal worden met
het opzetten van de desbetreffende onderzoeksthemagrocp in oprichting.

l-r dienen regelingen tc worden getroffen die de inbedding van samenwerkingsverbanden in bestaande
fmancieringsstromen mogelijk maken. Tevens dienen er structuren tc worden ontwikkeld die de com-
municatie cn de coördinatie tussen deze samenwerkingsverbanden regelen. Bovendien zullen cr ook
procedures ontwikkeld moeten worden op het punt van de beoordeling van onderzoek dat voorbereid
cn uitgevoerd wordt in het kader van deze samenwerkingsverbanden.

Met gaat daarbij niet om vraagstukken die de Stichting in het kader van de themaprogrammering alleen
kan of zou moeten oplossen. Door de directie van de SVO is daartoe overleg met dc directie van ZWO
aangegaan, dat dient uit te monden in een statuut voor een gemeenschappelijke basisstructuur voor
samenwerkingsverbanden van onderzoekers. Naar verwachting zullen medio 1979 de eerste door een
onderzoeksthemagrocp goedgekeurde voorstellen voor het doen van onderzoek gereed komen.

Onder auspiciën van de Stuurgroep Onderwijssociologie organiseert SISWO op maandag 11 en dinsdag
12 juni 1979 de vierde Onderwijssociologische Conferentie in het Conferentiecentrum Woudschoten te
Zeist.

Vanuit een onderwijssociologisch perspectief een verbinding leggen tussen nieuwe theoretische benade-
ringen van het begrip kwalificatie cn aanzetten tot onderzoek van de relatie onderwijs - arbeidsmarkt,
die verder gaan dan de problematiek van aansluiting tussen beide.

a) J. van Hoof (SISWO) zal een globaal overzicht geven van onderzoek op het terrein van de relatie
tussen onderwijs cn arbeidsmarkt, vanuit de arbeidskant gezien.

b) M. Baethge (SOFI, Göttingen) zal spreken over zijn onderzoek Ausbildungs- und Berufsstart-
probleme von Jugendlichen unter den Bedingungen verschärfter Situationen auf dem Arbeits-
und Ausbildungsstcllcnmarkt.

c) D. Finn (Business School, Manchester) vertelt over het onderzoek, dat ten grondslag ligt aan
Paul Willis' bock Learning to Labour cn het vervolg daarop. Hij was nauw betrokken bij de
uitvoering ervan.

2. Discussie in werkgroepen over ingezonden papers rond de volgende vier deelthemata (voorlopige
indeling):

1. Onderwijsintcrne processen. Disciplincrings- en reproductiefunctie van het onderwijs.

2. I' ffecten van onderwijsontwikkelingen op het aanbod van kwalificaties op de arbeidsmarkt.

4. i:ffecten van arbeidsmarktontwikkelingcn op de vraag naar kwalificaties, verworven in het
onderwijs.

Regionale problemen in de relatie onderwijs - arbeidsmarkt worden toegelicht aan de hand van het
voorbeeld Zuid-Limburg door H. Geelen en F. Janssen (ABOP, afd. Zuid-Limburg).
Hierna drie mogelijkheden:

De deelnemersprijs, inclusief informatiemateriaal vóór en na de conferentie, bedraagt ƒ 180,-.
Voor studenten komt de prijs op ƒ 100,-.

Bij het secretariaat van de voorbereidingscommissie kan een folder met verdere gegevens en een

De NSP is ccn vrij jonge stichting die zich tot doel stelt dc psychometrie in dc ruimste zin des woord tc
bevorderen. Onder psychometrie kan globaal worden verstaan: dc konstruktie en analyse van formele
modellen ter bestudering van responscn op psychologische meetinstrumenten. Centraal hierin staan dc
klassieke cn moderne testtheorie, multivariate analyse, meettheorie, cn schaalmethoden. De NSP re-
kent zowel dc theorie als de toepassing van formele modellen tot haar werkterrein. Ilct 'bevorderen'
van de psychometrie bestaat uit:

a. liet stimuleren van kommunikatie tussen onderzoekers. Momenteel wordt er drie maal per jaar een
bijeenkomst gehouden waarop een onderzoeker verslag uitbrengt van zijn bevindingen cn waarop
tevens recente artikelen uit het Tijdschrift voor Onderwijsresearch (TOR) met dc auteurs worden
besproken.

b. Het bevorderen van psychometrisch onderzoek. Dc NSI' hoopt dc onderzoekers op het gebied van
dc psychometric zodanig tc organiseren dat zij als partner voor Z.W.O. c.q. dc R.W.O.P. kan
fungeren inzake toewijzing cn begeleiding van 2c geldstroom-onderzoek.

Om haar doelstellingen te kunnen verwezenlijken doet dc NSl' ccn beroep op alle psychometrie-
bcocfcnarcn in Nederland zich als belangstellende aan tc melden. Dat kan door overmaking van f 10,
inschrijfgeld op giro 802777 van dc Rabobank tc CJroningcn, t.n.v. de NSI', rekening nr. 76621. Het op
dc girokaart vermelde adres zal door ons als uw corrcspondcntic-adrcs worden opgenomen, tenzij u ons
anders bericht.

Bonkc, l'.M.M. & Verhoeven, A.l'.M. Angstmeting in onderwijssituaties. Inventarisatie van angsttcsts
cn dc eerste ontwikkelingsfase van de Angst Vragenlijst NIVOR AVN (tests A, H, C cn D).
Nijmegen: NIVOR, augustus 1978 (Rapport 0256-2).
Innovaticcommissic participatie-onderwijs. 'Participerend leren: ccn andere leerweg'. Discussienota,
oktober 1978. 's Gravcnhagc: Staatsuitgeverij, 1978. (Dcell: Analyse cn vergelijking van zes pro-
jecten. Deel 11, 111 en IV: Buitenlandse projecten. Deel V, VI cn Vil: Nederlandse projecten).
Kat, i:. de & Ricrmcrsma, l-.S.J. Het projekt 'School-Samenlcving': ccn beschrijving van ccn jaar
projcktonderwiis op het Haags Montcssori Lyceum. Verslag van het schoolgcricht ondcrzock-mid-
dcnschool 1977-1978. Amsterdam: R.I.T.P., december 1978 (+ bijlagen).
Michcls, Ch.G.J. & Verhoeven, A.l-'.M. Testklapper 0256. Tests en vragenlijsten. Nijmegen; NIVOR,

februari 1977 (Rapport 0256-6, 2 delen).
Motivatie irt het onderwijs: een symposium over theorievorming cn onderzoek met betrekking tot het
thema 'motivatie in het onderwijs', 's Gravcnhagc: Onderzock-thcmagrocp Motivatie in het Onder-
wijs, S.V.O., oktober 1978.
Muskcns, L.A.G.M., Ricmcrsma, l-.S.J., Roede, i;. & Tuyl, M. van. Inventarisatie van knelpunten in dc
klas in het l.b.o. Amsterdam: R.I.T.P., november 1978 (l^ndrapport S.V.O. projekt 0423, 2 delen).
Ricmcrsma, l'.S.J. De leraar op de Open Schoolgemeenschap Bijlmer: een beschrijving. Verslag van

het schoolgcricht onderzoek-middcnschool 1977-1978'.
Soutendijk, Sibc. Men teorctics onjuiste cn praktics niet erg bruikbare benadering van het mondelinge
taalgebruik van handarbeiderskinderen. Kommentaar op de R.I.T.P.-brochure: 'Toelichting op de
procedure van dc taalanalyse, I'valuatie ondcrwijs-stimuleringsbclcid, tweede versie', Univ. van
Amsterdam, Vakgroep Onderwijspsychologie, 1978.
Torsius, W.A. ABL: een (on)voldocnde? Dc evaluatie van de multimediaal opgezette kursus 'Aanvul-
lende beroepsopleiding van leraren', Amsterdam: Vrije Universiteit, Instituut voor Toegepast So-
ciaal Wetenschappelijk Onderzoek, november 1978.
Verhoeven, A.T.M. Aspekten van Doceerstijlcn. hen evaluatie van het docccrstijlondcrzoek

1968-1972. Nijmegen: NIVOR, oktober 1977 (Eindrapport projekt SVO-0208).
Verhoeven, A.F.M., Biestcrbos, G.A.M. & Dragstra-Janscn, H.J. Aspekten van organisatorisch Ics-
gedrag. De eerste fase van de ontwikkehng van vragenlijsten voor de meting van enige aspekten van
organisatorisch lesgcdrag van docenten (OGD). Nijmegen: NIVOR, augustus 1978 (Rapport
0256-3).

Studiekeuze en Selectie: Differentiële
Onderwijseffecten voor Vrouwen
en Mannen¹

Program choice and selection: differential schooling effects for women and men
From national statistics in The Netherlands is concluded: women receive less schooling than
men; women are enrolled in programs with fewer possibilities open to further studies; girls are
enrolled in different types of vocational institutions than boys and therefore they are prepared
to enter occupations predominate to their sex.

A conceptual scheme is proposed which suggests why differential educational opportunities for
girls and boys persist.

In school there are four crucial career decisions made for girls and boys: screening by the 11 +
examination; selection for main streams in secondary education after the first year; selection
for substreams after 3 years; selection for higher education after 5 or 6 years.
Three important variables are held responsible for this differential participation by sexes in
education: a group of individual characteristics (i.e. self image, interest, motivation, achieve-
ment); the means for determining aptitudes; the educational policy of the ministry of educa-
tion. The first and second variables are influenced by two other factors: the quality of instruc-
tion and the sex stereotypic role percepUon by school personnel.

Needed measures for effecting change in the educational participation of boys and girls are
suggested.

Deelname aan onderwijs is een recht dat de Nederlandse burger zich, precies als de burgers
in andere hoog-ontwikkelde landen, nagenoeg compleet verworven heeft. Binnen de gren-
zen van het redelijke kan een ieder in Nederland zóveel goed onderwijs volgens als hij wil.
De uitgaven voor dit meerdere en betere onderwijs zijn de laatste twintig jaar dan ook met
zoveel kracht gestegen dat sommigen wel eens verondersteld hebben dat binnen afzien-
bare tijd de hele landsbegroting aan onderwijs zou opgaan. Zover is het niet gekomen. De
groei is langzamerhand stopgezet, maar de aandacht die de burgers en de overheid hebben
voor het onderwijs is gebleven en lijkt zelfs toe te nemen. Bezinning op kwaliteit en
doelstellingen van allerlei onderwijsvormen leiden vaker dan vroeger tot publieke discus-
sies en tot grondige studies. Aan verschillende instellingen voor wetenschappelijk onder-
wijs komt zelfs onderwijskunde als wetenschap tot ontwikkeling en mede op grond van de
te verwachten inbreng van afgestudeerden van deze instellingen is het aan te nemen dat de
capaciteiten en kwaliteiten van het onderwijs ook in de toekomst nog verbeterd zullen
worden. Juist in onderwijskundige kring is' men zich ervan bewust dat kwalitatieve verbe-
tering van het onderwijs tot de opdrachten behoort die wij ons als Nederlandse samenle-

1 Dit is de bewerking van een rede uitgesproken bij het 60-jarig bestaan van de WAO, Vereniging
van Vrouwen met een Academische opleiding, te Rotterdam op 27 mei 1978.

ving voor de komende jaren dienen te stellen. Daarbij moet in elk geval gedacht worden
aan twee belangrijke problemen waaraan onderwijskundigen de komende 25 jaar zullen
moeten werken, namelijk het probleem van uitval en vertraging en het probleem van de
ongelijkheid van onderwijskansen. Dit artikel, dat de verschillende schoolloopbanen van
jongens en meisjes behandelt, heeft met beiden te maken.

Het eerste probleem, dat van uitval en vertraging op alle onderwijsniveaux, wordt door
onderwijskundigen veel meer opgevat als een instruktieprobleem dan als een selectievraag-
stuk. Deze opvatting is het wetenschappelijk analogon van de veld winnende opvatting in
de maatschappij, dat het onderwijssysteem zich dient aan te passen aan het leerlingenma-
teriaal dat binnenkomt. Nu maatschappelijk gezien het deel hebben aan goed en steeds
meer onderwijs een recht is geworden voor allen, rekenen de onderwijskundigen het meer
en meer tot hun taak onderzoek te doen naar oorzaken van het verschijnsel van uitval en
vertraging en methoden te ontwerpen om dit fenomeen terug te dringen.
Het tweede grote probleem waar onderwijsonderzoekers zich voor gesteld zien, is dat van
de ongelijkheid van onderwijskansen. Het gaat hierbij om twee vragen. Hoe komt het dat
verschillende groepen uit de bevolking zulke verschillende schoolloopbanen blijken te
volgen? En: wat kan er worden gedaan om hierin verandering te bewerkstelligen? Tot nu
toe is erg veel onderzoek gedaan om de eerste vraag te beantwoorden en de oorzaken van
verschillende schoolresultaten te achterhalen. Het lijkt erop dat de inspanning van onder-
wijskundigen langzamerhand wat meer gericht kan worden op de beantwoording van de
tweede vraag, die betrekking heeft op het vidjzigen van de bestaande toestand. Zo is het
algemeen bekend dat de laatste tijd meer aandacht wordt besteed aan het vergroten van
de mogelijkheden om bijvoorbeeld de laagste sociaal-economische groepen meer deel te
laten hebben aan de onderwijsvoorzieningen. Het probleem van de gelijke kansen is ver-
want aan het eerstgenoemde belangrijke probleem. Immers, vertraging en uitval in school
en studie komen niet m alle bevolkingsgroepen even sterk voor.

Hiermee zijn we gekomen aan het eigenlijke onderwerp van dit artikel, namelijk de
differentiële deelname aan het Nederlandse onderwijs door meisjes en jongens. Bij de
behandeling van dit onderwerp maken we gebruik van een conceptueel model dat in
Figuur 1 is weergegeven. In het model zijn alleen die factoren en activiteiten vermeld
waarvan wij jiannemen dat ze te maken hebben met het verschil in schóoUoopbaan van de
sexen. Verder wordt in het model alleen rekening gehouden met culturele of omgevings-
invloeden op het onderwijsresultaat en komen bijv. biologische verschillen tussen meisjes
en jongens niet ter sprake. De nummers tussen haakjes in de tekst corresponderen met de
nummers in de figuur. In het schema is aangegeven dat het verschil in onderwijsresultaat
(9) tot stand komt door twee soorten selectieve actiefs of handelingen, persoonlijke (8) en
institutionele (7). Omdat zulke acties en handelingen in het onderwijs ondernomen wor-
den op grond van de ter beschikking staande gegevens over de leerlingen (6) en daarbij de
geschiktheidsschattingen door de selecterende instantie (5) ook een rol spelen, besteden
wij aan deze beide zaken aandacht: de persoonlijke kenmerken waarop wordt geselecteerd
en de manier waarop van bevoegde zijde oordelen over geschiktheid tot stand komen.
Deze laatstgenoemde factor, de geschiktheidsbeoordeling bij advisering en bij institutio-
nele selectie, is - zeker waar het gaat om differentiële deelname van mannen en vrouwen
aan het onderwijs - mede bepaald door de heersende maatschappelijke opvattingen over
de leer- en werkmogelijkheden van vrouwen en mannen in onderwijs en maatschappij
(1). Diezelfde opvattmgen werken trouwens ook m op de ontwikkelmg van de persoon-
lijke kenmerken van de kandidaten, namelijk via de opvattingen binnen de school (3). Het

spreekt verder vanzelf dat de leer- en levenservaringen in de school, waardoor relevante
kenmerken aan de persoon van de leerling zich hebben ontwikkeld tot wat ze zijn, niet
alleen op grond van de opvattingen in de school zo zijn geworden maar ook (en in
hoofdzaak, schatten wij) door de kwaliteit van het gegeven onderwijs (4).
Het is van belang deze dingen wat analytisch te benaderen omdat wij dan des te beter
aangrijpingspunten kunnen identificeren voor verandering. Er is nog een grootheid die
door de maatschappelijke opvattingen over de leer- en beroepsmogelijkheden beïnvloed
wordt en dat is het onderwijsbeleid (2). De ene onderwijs-minister kan nog wel eens

beginnen met krachtige politieke uitspraken te doen en een andere minister kan met zeer
veel doorzettingsvermogen enkele jaren lang bepaalde vernieuwingen propageren, uitein-
delijk is het beleid van de minister toch ook afliankelijk van de heersende maatschappij-
mening over onderwijs. Onderwijs-beleid oefent op zijn beurt op de selectieve processen
rechtstreeks invloed uit of via beïnvloeding van de kwahteit van het onderwijs.
Het is onze bedoeling het in Figuur 1 gegeven beïnvloedingsproces verder toe te lichten en
vervolgens de vraag op te werpen, welke punten daarin als aangrijpingspunten in aanmer-
king komen, als we tenminste menen dat er aan die differentiële deelname iets gedaan
moet worden.

Door kennis te nemen van de onderwijsstatistieken die in ons land met grote regelmaat
verschijnen, is het mogelijk een inzicht te krijgen in de deelname aan het onderwijs. De
statistieken van het CBS (Centraal Bureau voor Statistiek) zijn opgedeeld in aparte tabel-
len voor mannen en voor vrouwen — gepresenteerd in deze volgorde uiteraard — en het
berekenen van het percentage vrouwen dat deel heeft aan een bepaalde onderwijssoort is
dus een simpele zaak. In plaats van percentages kan men uiteraard ook met verhoudings-
getallen werken en omdat het hier gaat om een verschil in deelname, lijkt dat ons ook de
aangewezen methode. We zouden de 'vrouw/man-ratio' kunnen nemen om de verschillen
goed aan te geven. Als beide geslachten even sterk vertegenwoordigd zijn dan is die ratio
1,00. Zouden ergens de vrouwen half zo sterk als de mannen aanwezig zijn dan is het getal
0,50. Deze notatie verschaft een directe vergelijking tussen vrouwen en mannen waardoor
een eventuele achterstand direct in het oog springt. Een uitspraak als 'in 1977 was de
vrouw/man ratio onder de ingeschreven studenten in het wetenschappelijk onderwijs
38/100' is in dit opzicht dan ook een wat dramatischer mededeling dan de uitspraak 'Het
percentage vrouwelijke ingeschrevenen bedroeg 27,4%'. Het laatste lijkt nog heel wat. En
dat is het ook, maar omdat er maar twee sexen zijn is het vergelijkenderwijs erg gering.
Wij zullen nu enige aan C.B.S.-publikaties ontleende voorbeelden geven om te verduide-
lijken dat mannen en vrouwen op verschillende manier profijt trekken van de in ons land
geboden onderwijsvoorzieningen. Daarbij maken wij gebruik van gegevens die vooral
kwantitatief zijn (hoeveel procent van een jaargroep is nog op school?) en gegevens die
een kwalitatief of inhoudelijk karakter hebben (wat voor soort onderwijs volgt men?).
Om te beginnen geven wij een zuiver kwantitatieve vergelijking tussen meisjes en jongens:
in Tabel 1 is voor vier leeftijdsgroepen voor een aantal jaren vanaf 1930 aangegeven
hoeveel procent van de meisjes deelnam aan het onderwijs op een dagschool. Per leeftijds-
groep is voor elk onderzocht jaar daarnaast nog de vrouw/man ratio aangegeven; die
hebben wij geschat (met niet meer dan één cijfer achter de komma vanwege de afron-
dingsfouten) op grond van de deelname-percentages van de geslachten. Op de vierde regel
staat dus dat in 1947 van alle 14-jarige meisjes 52% nog volledig dagonderwijs volgde, van
de 16-jarigen was dit 21%, van de l8-jarigen 7% en van de 20-jarige meisjes 2%. De
meisjes lagen in alle vier leeftijdsgroepen achter bij hun mannelijke leeftijdsgenoten. De
deelnamecijfers hebben de volgende verhoudingen: op de 10 jongens trof men in de vier
leeftijden aan respectievelijk 8, 6, 5 en 3 meisjes.
Uit de cijfers in de tabel blijkt het volgende:

- Deelnamepercentages (in elk jaar van het beschreven tijdvak) nemen af met de leeftijd.

- De deelname van meisjes aan het onderwijs in alle leeftijdsgroepen is in het beschreven
tijdvak sterk gestegen.

- Er is een gelijke deelname ontstaan bij de 14-jarigen en er is bij de 16-jarigen m deze
dertig jaar een geringe vooruitgang m relatieve deelname voor meisjes.

- Voor 18- en 20-jarigen is er géén merkbare vooruitgang in relatieve deelname van
meisjes.

Het tweede voorbeeld is ontleend aan de cijfers over de deelname aan het voortgezet
onderwijs in 1977. Wij houden ons in Tabel 2 bezig met de geslaagde deelname aan het
vwo en avo: de geslaagden voor de schoolexamens in dat jaar. Uit de gegevens in Tabel 2
blijkt het volgende:

- Er zijrf in totaal evenveel meisjes als jongens die voor het eindexamen van een vwo,
havo of mavo-school zijn geslaagd

- De vrouw/man ratio m de groep geslaagden wordt hoger in de reeks vwo-havo-mavo
4-mavo 3

- De vrouw/man ratio is groter dan 1,00 in de A-richtingen van het vwo en veel lager dan
1,00 in de B-richtingen¹.

Uit deze drie bevmdingen valt te constateren, dat meisjes in het v.o. vaker dan jongens
kortere opleidmgen kiezen (die minder doorstromingsmogelijkheden en minder status

1 De vraag kan ook anders gesteld worden, namelijk 'Hoe is de verhouding tussen het percentage voor
B geslaagde meisjes en het percentage voor B geslaagde jongens? De v/m ratio voor de vier diploma's is
volgens onze berekenmg dan als volgt: gymnasium A: 1,96; gymnasium B: 0,64; Atheneum A: 1,92,
Atheneum B: 0,47.

hebben) en dat meisjes veel minder vaak een diploma halen dat toegang geeft-tot hoogge-
waardeerde studierichtingen als medicijnen, tandheelkunde en diergeneeskunde.
Een ander voorbeeld van verschil in deelname in inhoudelijk opzicht vinden we in de
vakkenpakketkeuze in havo en mavo. We hebben de CBS - cijfers over 1974 onderzocht
om na te gaan of en in hoeverre een verschijnsel als de ondervertegenwoordiging in vwo-B
diploma's ook in de vakkenpakketkeuze in havo en mavo is terug te vinden. Dat is
inderdaad het geval, zoals blijkt uit de bovenste rij getallen in Tabel 3. In deze tabel is
aangegeven hoe in 1974 de vrouwelijke en de manlijke (geslaagde) eindexamenkandidaten
havo en mavo hun eindexamenpakket samenstelden. Er zijn drie pakketten mogelijk.
Overwegend exact, met de vakken wiskunde, natuurkunde, scheikunde en biologie. Over-
wegend talen, met de vakken Frans, Duits en Engels. Overwegend Sociaal-Economisch:
aardrijkskunde, geschiedenis, staatsinrichting, economie, handelskennis of handelsweten-
schappen, recht. Een onderscheid is gemaakt tussen alle havo-examens en een subgroep
daarvan: de examens van havo's aan pedagogische academies. Zoals gezegd geeft de bo-
venste regel van de tabel een bevestiging van het beeld in het vwo. De meisjes zijn

duidelijk ver in de minderheid met hun keuze voor een exact pakket. Opvallend is, dat dit
ook het geval is in de havo-afdeling ter voorbereiding op de onderwijzers(es)-opleiding.
Zelfs als mannen en vrouwen zich op hetzelfde beroep voorbereiden is er blijkbaar een
vrouwenachterstand bij de exacte vakken.

Het verdient vermelding dat het vwo/havo/mavo waarover Tabel 2 gegevens verstrekte,
ongeveer 70% van de uitstroom uit de zesde klas basisonderwijs omvat. De resterende 30%
gaat bijna geheel naar het lager beroepsonderwijs. In het lager en middelbaar beroepson-
derwijs zijn grote inhoudelijke verschillen tussen het meisjesonderwijs en het jongenson-
derwijs. Voor de jongens in het lbo. (aUe jaren) geldt, dat de grootste groep, zo'n 90%,
zich bevindt in het technisch of nautisch of landbouwonderwijs waar de vrouw/man ratio
slechts 0,06 bedraagt. Voor meisjes in het lbo geldt dat bijna 80% gaat naar het huishoud-
en nijverheidsonderwijs waar de v/m-ratio 52 is. Het middelbaar beroepsonderwijs ver-
toont een soortgelijke sterke differentiatie. Zowel in mbo als in lbo bezoeken de meeste
jongens en meisjes aparte onderwijsinstellingen waar ze niet met de andere sexe samen op-
werken en waar ze voor totaal verschillende beroepen worden opgeleid.
Het laatste voorbeeld betreft het hoger onderwijs in Nederland, dus het hoger beroeps-
onderwijs met zo'n 125 duizend en het wetenschappelijk onderwijs met ongeveer 136
duizend studenten. Ook hier zijn weer kwantitatieve en kwalitatieve verschihen aan te
wijzen. Wat het eerste betreft: in het cursusjaar 1977-1978 was in het hbo de v/m-ratio
0,67 en in het wo was dit 0,38. Het is duidelijk dat vrouwen een achterstand in deelname
hebben, het duidelijkst in het wetenschappehjk onderwijs. De vrouw/man-verhouding
binnen de groep die gediplomeerd het wo verlaat was in 1977: 0,23. Dit is dus nog een
duidelijker verschil. Dc kwalitatieve verschillen zijn analoog aan die in het lager en middel-
baar beroepsonderwijs. Binnen wo en hbo bestaan typisch manlijke en typische vrouw-
lijke studierichtingen. De meeste studenten studeren ergens waar hetzij de mannen hetzij
de vrouwen in de meerderheid zijn.

Samenvattend: Het blijkt dat meisjes vergelijkenderwijs weinig onderwijs volgen, zeker na
hun vijftiende jaar en heel duidelijk in het tertiair onderwijs. Naast deze kwantitatieve
achterstand zijn er kwalitatieve of inhoudelijke verschillen met jongens, hetgeen blijkt uit
de vakkenpakketkeuze in vwo/havo/mavo en uit het feit dat de meeste mannen en vrou-
wen totaal verschillende studies volgen in het beroepsonderwijs en in het wetenschappe-
lijk onderwijs.

In het voorgaande is de differentiële deelname aan de onderwijsvoorzieningen door vrou-
wen en mannen beschreven aan de hand van voorbeelden. Deze verschillen ontstaan in het
onderwijs zelf. Uitval, vertraging en geringere of inhoudelijk verschillende deelname van
vrouwen ontstaan door selectieve processen en overgangsmomenten in het onderwijs. In
het volgende houden wij ons bezig met de overgangsmomenten. Wij maken een onder-
scheid tussen institutionele selectie (7) en zelfselectie (8). In Figuur 1 zijn deze twee
aangegeven: de selectie en determinatie vanwege de onderwijsinstelling enerzijds en de
keuzen van de persoon zelf tijdens de schoohoopbaan anderzijds. Beide selectieve werkin-
gen treden op vier momenten op:

0) De overgang van basisonderwijs naar voortgezet onderwijs en de bepaling van de
geschiktheid van de leerling(e) voor het volgen van een verdere opleiding

(iv) De overgang van havo of vwo naar het hoger beroepsonderwijs ofhet wetenschappe-
lijk onderwijs.

Behalve deze vier min of meer officiële overgangsmomenten in het onderwijs zijn er
andere die een minder algemeen of officieel karakter hebben. We noemen de toelating
naar het mbo, vergelijkende propedeutische tentamens en de selectie voor bepaalde afstu-
deerrichtingen in het wetenschappelijk onderwijs.

Bijna al de overgangsmomenten in het onderwijs zijn te beschouwen als voorbeelden van
hoofdzakelijk institutionele selectie. Het belang van de instelling staat voorop. Toelatings-
commissies en selectiepsychologen houden zich bezig met beschikbare plaatsen, de bege-
leidingskosten van potentiële achterblijvers en de mogelijkheid van verhoogde opbrengst
voor de instelling bij gelijkblijvende inspanning en kosten.

Voor vrouwen als groep is van belang dat de overgangsmomenten niet alleen een institu-
tionele funktie hebben, maar dat ook zelfselectie daarbij een rol kan spelen. De zelfselec-
tie hoeft uiteraard niet beperkt te zijn tot de tijdstippen waarop de officiële selectie
plaatsvindt. Zelfselectie manifesteert zich waar kandidaten wel of niet de stap doen om
zich aan te melden voor een verdere of moeilijker opleiding. Bij zelfselectie houdt de
leerling(e) zich bezig met vragen over de eigen slaagkans in een bepaalde opleiding, over
zijn of haar aanleg en de mogelijkheden en aantrekkelijkheden van bepaalde beroepen.
Meestal spelen bij het nemen of voorbereiden van de belangrijke beslissingen waarover het
hier gaat, de oordelen van vrienden, vriendinnen en volwassenen een belangrijke rol.
Wij gaan er van uit dat de differentiële deelname aan het onderwijs die wij hiervoor
hebben beschreven, tijdens de schoolloopbaan tot stand komt door institutionele en door
zelfselectie. Bestaande kwantitatieve en kwalitatieve verschillen in deelname aan het on-
derwijs door mannen en vrouwen worden geëffectueerd op bepaalde beslismomenten in
het onderwijs. De keuzen en beslissingen van die momenten worden genomen nadat
bepaalde individuele kenmerken van de kandidaat zijn geregistreerd en geïnterpreteerd
door diegenen die zich bezighouden met de geschiktheidsschattingen. In het volgende
zullen wij wijzen op enkele relevante verschillen tussen de sexen in individuele kenmer-
ken. Vervolgens gaan wij na welke maatstaven of geschiktheidsschattingen worden gehan-
teerd bij het sêlecteren of determineren in het onderwijs.

Niet alle persoonlijke kenmerken zijn relevant in het kader van ons onderwerp. We behan-
delen alleen die, waarvan we veronderstellen dat ze helpen bij de interpretatie van het
verschillend onderwijs-effect van vrouwen en mannen. Verder spreken we alleen over die
kenmerken die ondubbelzinnig en begrijpelijk definieerbaar zijn en waarvan we aannemen
dat ze op korte of wat langere termijn beïnvloedbaar zijn door onderwijs. Zo spreken wij
niet over intelligentiemetingen omdat de aangeboren verschillen van jongens en meisjes in
het geheel niet, en de eventuele aangeleerde verschillen in intelligentie tot nu toe nauwe-
lijks, interessant zijn op school. De persoonlijke kenmerken die wij wèl van belang achten
zijn: zelfbeeld, belangstelling, motivatie, leerprestatie. Van deze vier variabelen of groepen
variabelen, definiëren we eerst het zelßeeld. Hieronder verstaan wij al datgene wat de
leerling(e) van zichzelf denkt als leerling nu en in de toekomst. Alle meningen over de

eigen vermogens bij denlcen, leren, onthouden willen wij er toe rekenen. Ook opvattingen
over eigen zwakke en sterke kanten in de schoolvakken of eventuele latere beroepsuitoe-
fening. Wat de belangstelling van de leerling(e) betreft, denken wij aan voorkeuren voor
bepaalde vakken, daarbij ook de mate waarin de leerhng geboeid wordt door het essen-
tiële of het kenmerkende van de verschillende schoolvakken of studierichtingen. Wil de
leerling graag de werking van mechanisch speelgoed ontdekken? Raadpleegt hij een ency-
clopedie? Leest hij graag avonturenverhalen of vooral gebeurtenissen die te maken hebben
met de sociale relaties tussen kinderen en volwassenen? Heeft hij meer belangstelhng voor
poëzie dan voor rekenwerk? Werkt hij bij rekenwerk het liefste met duidelijk vaste regels
of zoekt hij naar nieuwe oplossingen? Hebben bij de aardrijkskunde bijvoorbeeld geolo-
gische fenomenen en vestigingsfactoren voor nijverheid zijn aandacht of bepaalt hij zich
tot klederdrachten en plaatselijke gerechten? Experünenteert hij graag? Leert hij het lief-
ste uit zijn hoofd? De opsomming kan zo doorgaan. Met motivatie bedoelen wij in het
bestek van ons onderwerp: de aantoonbare wil om aan het werk te blijven met een
bepaalde taak op school of thuis. Aldus opgevat is het niet nodig op de psychologische
problematiek (zoals de verschillen tussen extrinsieke of intrinsieke motivatie) in te gaan,
hoezeer ook van belang in ander verband. Bij motivatie denken wij niet alleen aan be-
paalde taken of schoolvakken maar tevens aan de vasthoudendheid bij het leren in het
algemeen. Die algemene leer-motivatie kan zich uiten door trouw schoolbezoek, door
huiswerk op tijd te maken, door extra inspanning en op langere termijn door volgehouden
leren na het emde van de leerphcht. Het zo beschreven begrip motivatie stemt nagenoeg
overeen met de term 'perseverance' Van Carroll (1963). De leerprestatie van een leerlin-
g(e) is in het kader van ons onderwerp uiteraard een zeer relevante karakteristiek van de
leerling(e). Het gaat daarbij van ouds om een objectieve of zo rechtvaardig mogelijk
subjectieve vaststelling, hoe goed of de leerling(e) is in de verschillende vakken. Daarbij
wordt gebruik gemaakt van uitslagen op gemeenschappelijke proefwerken, van rapport-
cijfers, van het gemiddelde eindexamencijfer, van uitslagen op de schooltoets of de
schoolvorderingentest, enz.

Wij zijn allen opgegroeid in het besef dat meisjes en jongens wel ergens en soms heel sterk
verschillen op de vier hier genoemde individuele kenmerken en dat deze verschillen mee
behoren te tellen bij de institutionele en zelf-selectie in het onderwijs. Empirisch onder-
zoek toont eveneens aan dat zulke verschillen bestaan en dat ze selectief kunnen werken.
Bij herhaling is bijv. gevonden dat jongens beter zijn in aardrijkskunde en rekenen en
meisjes io Nederlandse taal. Onlangs is weer door Kelly (1978) in het internationaal
vergelijkend onderzoek van de lEA gevonden dat de prestaties van jongens op 'science'
beter zijn dan bij meisjes, zowel op 10 jarige als (nog iets sterker) op 14 jarige leeftijd.
Ook de belangstellmg van de jongens en meisjes voor vakken als natuur- en scheikunde
bleek in alle landen te verschillen. Sandbergen (1974) vond trouwens dat in ons land het
verschil tussen de sexen in dit opzicht groter is dan elders.

Waar komen deze en andere bekende verschillen in zelfbeeld, belangstehing, leermotivatie
en leerprestaties vandaan? Het is onze overtuiging dat de verschillen mede gevormd wor-
den door het emancipatorische khmaat in de school en door de kwaliteit van de instruc-
tie. Op deze twee factoren komen wij hierna nog terug.

Geschiktheidsschattingen vormen een essentieel deel van institutionele selectie, behalve
wanneer het er om gaat een klein aantal plaatsen onder een groter aantal geschikte
kandidaten te verdelen. In zo'n geval zou men ook kunnen loten. De geschiktheid van
kandidaten binnen institutionele selectie wordt geschat door een vergelijking van de eisen
die het instituuts-onderwijs stelt en metingen van de relevant geachte persoonlijke ken-
merken van de kandidaat. Voor meisjes zien wij daarbij tenminste twee oorzaken voor
verminderde toelatingskansen. Ten eerste de invloed van de heersende opvattingen over
taken en mogelijkheden van vrouwen op het waarnemen en op het afwegen van de
individuele kenmerken. Ten tweede de conserverende invloed van de uitkomsten van
onderzoek naar de correlaties tussen beginkenmerken en succesmetingen later in het
onderwijs. Zo leggen de heersende opvattingen en de statistieken beide een negatief
verband tussen vrouw-zijn en met succes en op tijd een doctoraal-diploma behalen in
bepaalde studies. Hetzelfde geldt bijv. voor het verband tussen vrouw-zijn en het te
bereiken nivo van wiskunde-prestaties in het vwo. Met andere woorden, daar waar in de
selectie subjectieve geschiktheidsschattingen worden uitgebracht, daar zullen meisjes te
maken hebben met opvattingen over hun aanleg voor de exacte vakken en hun motivatie
om te gaan studeren. Daar waar objectieve gegevens gebruikt worden om studiesucces te
voorspellen, daar zullen vrouwen minder goede prognoses krijgen omdat de beschrijvende
statistieken daartoe als aanleiding worden gezien.

Bij de selectiemomenten in het onderwijs die wij hier bespreken worden geschiktheids-
schattingen toegepast die overwegend objectief zijn en die daarnaast uiteraard subjectieve
elementen hebben. Van belang in deze vier momenten is dat het hier allereerst gaat om
een institutionele selectie waarbij het onderwijsinstituut een leidende rol heeft. Er wordt
over de leerling beschikt deels met subjectieve middelen en oordelen en deels met objec-
tieve middelen, in beide gevallen echter door gebruik te maken van selectiemethoden en
-technieken die werden ontwikkeld in dienst van de institionele selectie (en niet bijv. in
dienst van de persoonlijke advisering of de counseling). Het kenmerkende nu aan het werk
van 'echte selectie-specialisten' is, dat zij streven naar een zo goed mogelijke efficiency
van het bednjf of de onderwijsinstelling. Zij spreken bij voorkeur van 'een optimaal
gebruik van de middelen'. Wij, met anderen, hebben over dit rendementsstreven geschre-
ven in het kader van onze advisering over de toelating tot het wetenschappelijk onderwijs
(1977). Naar onze mening leggen speciahsten op het gebied van institutionele selectie in
overeenstemming met wat de instituten willen tenminste drie kriteria aan:

(i) Kandidaten die door hiaten in kennis of vaardigheden aansluitingsproblemen kunnen
opleveren worden afgewezen

(ii) Kandidaten met een leertempo dat in het voorafgaande onderwijs laag was, worden
afgewezen

(iii) Kandidaten met een hoge intelligentie, goede sociale aanpassing en hoge sociale status
worden toegelaten.

Door deze drie maatstaven vergelijkenderwijs aan de gegadigden op te leggen, tracht men
naar ons inzicht, zonder te investeren in de verbetering van het eigen onderwijs-systeem,
een hoger rendement voor het instituut te bereiken want de start van de geselecteerde
groep zou door deze wijze van selecteren sneller zijn, de studievoortgang voortspoediger
en 'het nivo' van de afgestudeerden zou 'behooriijk' kunnen blijven of worden. De belan-
gen van de individuele kandidaat behoeven door een aldus opgevatte institutionele selectie

niet gediend te zijn. Evenmin is het aan te nemen dat op den langen duur zelfs de
belangen van het instituut gediend kunnen zijn door te selecteren op eigenschappen die in
het verleden tot succes in de studie hebben geleid of de status van het instituut en de
beroepsuitoefening hebben bevorderd.

De geschiktheidsschattingen in ons onderwijs, ook op de vier momenten waarover wij hier
spreken, kunnen maar op één 'hard' theoretisch selectie-concept steunen en dat is het
aangeduide selectieve, institutionele, predictieve concept. Naar onze mening leidt het
uitgaan van dit concept er toe dat de differentiële deelname van vrouwen en mannen aan
het onderwijs worden bestendigd. Immers, waar de noodzakelijke subjectieve factor in de
geschiktheidsschatting in het geding is, daar zullen de heersende opvattmgen in maat-
schappij en school een rol spelen waardoor meisjes eerder als ongeschikt zuUen worden
geklassificeerd, misschien met de toevoeging dat dit in hun eigen belang is. In onderzoek
door mijn oud-collega Bos (1974) van het RITP is bijv. gevonden dat meisjes van schooi-
en beroepskeuzeadviseurs lagere adviezen krijgen dan jongens als ze gelijke objectief meet-
bare gegevens hebben.

Waar de objectieve of correlationale predictie aan de orde is, daar zullen objectief gezien
vrouwen eerder als ongeschikt zijnde moeten afvallen dan mannen. Immers mannen blij-
ken in de statistieken langer door te studeren dan vrouwen en ze bhjken betere carriere-
mogelijkheden te hebben na hun opleiding. De statistieken zeggen niets over de oorzaken
en de aard van de relaties tussen begin-prestaties en uiteindelijk mislukken en slagen. Ze
zeggen ook niets over de manier waarop mislukking en vertraging zouden kunnen worden
voorkomen of verminderd. De selectiespeciahst of het instituut konstateert dat een be-
paalde eigenschap goed of slecht studiesucces voorspelt en door een zo goed mogelijke
combinatie van gemeten eigenschappen of scores probeert men tot een zo goed mogelijke
voorspelling te komen, m de hoop daarmee de opbrengst van het onderwijssysteem te
verhogen. Overal waar vrouwen méér hebben van kenmerken die slechte predictoren zijn
en minder van de goede predictoren, is hun kans om toegelaten te worden tot een stuk
onderwijs dus klemer in vergelijking met mannen.

Samenvattend kunnen we zeggen dat de geschiktheidsschattingen binnen onze huidige
institutionele selectie om twee redenen een geringe deelname van meisjes aan het onder-
wijs bestendigen. Bij subjectieve beoordeling van de geschiktheid werken de bestaande
opvattingen over wat vrouwen zijn en kunnen belemmerend op een grotere deelname. Bij
objectieve voorspelling van studiesucces. speelt een rol dat tot nu toe in ons systeem
vrouwen minder succes hadden.

De door ons genoemde persoonlijke kenmerken ontwikkelen zich onder invloed van de
omgeving. Tot die omgeving behoort ook de school met daarin de leeftijdgenoten, de
leraren, het lesmateriaal, de ouders die in de school een rol spelen. Jarenlang worden
kmderen dagelijks geconfronteerd met de opvattingen in de school over wat meisjes
kunnen, moeten en zouden moeten willen (3). Die opvattingen staan niet los van de
heersende opvattingen in de maatschappij (1). Over het bestaan van opvattingen in de
school over meisjes- en jongensrollen is vrij veel onderzoek gedaan. Dit onderzoek heeft
zich, waarschijnlijk vanwege de betrekkelijk gemakkelijke toegankelijkheid, vooral gecon-
centreerd op de mhoud van lesmateriaal, m het bijzonder met het oog op de daarin

voorkomende veronderstellingen over dc Iccrmogelijklieden en de relaties van jongens en
meisjes, de rollen die mannen en vrouwen vervullen in de maatschappij en de status die je
als man of vrouw hebt later. Meijer (1977) heeft in de Sociale Atlas voor de Vrouw daar
kleurrijke overzichten van gegeven. Een Werkgroep van MVM (Man-Vrouw-Maatschappij)
(1975) heeft een werkmap 'Sekse en test' gepubliceerd waarin soortgelijke literatuur
wordt aangehaald en weergegeven. In het lesmateriaal dat onderzocht is, komt een beeld
van manlijke en vrouwelijke activiteiten naar voren dat niet in overeenstemming is met de
veranderingen in onze maatschappij. Het is zelfs traditioneler dan het beeld dat vele
kinderen, hoe conformistisch die ook meestal zijn, zelf hebben. Als een Marsbewoner een
typering van de twee sexen op grond van onze schoolboekjes zou moeten geven, dan
zouden meisjes en vrouwen er ongeveer als volgt uit komen te zien in vergelijking met de
man: banger, braver, vriendelijker, accurater, minder prestatiegericht, minder op de voor-
grond tredend, minder handelend, minder weetgerig (maar wel nieuwsgierig), minder
gericht op het ontdekken van dingen en het oplossen van problemen. De man zou in de
ogen van de Marsbewoner juist het tegendeel van deze opsomming zijn, een centrale
figuur, actief, leiding gevend, ccn onderzoeker en een ontdekker. Bovendien zou de
bewoner van Mars, op grond van de frequentie van het optreden van mannen en vrouwen
in de boeken, veronderstellen dat er ongeveer drie maal zoveel jongens en mannen zijn als
vrouwen en meisjes.

Natuurlijk is lesmateriaal niet het enige in de school dat inwerkt op ontwikkeling van het
beeld van wat de kinderen zouden kunnen en willen en wat er van ze verwacht wordt.
Lesmateriaal wordt natuuriijk ook geïntroduceerd en gebruikt door de docenten. Ook de
andere kinderen zullen hun opvattingen hebben over wat je als jongen of meisje kunt en
behoort te willen in de school of later. Er is alle reden om aan te nemen dat de heersende
opvattingen in de maatschappij over de rollen en de mogelijkheden van vrouwen en
mannen ook in het optreden van docenten en medeleeriingen terug te vinden zijn. Door
Froeling & Petit (1978) is in elk geval beschreven dat men tijdens de opleiding van
leerkrachten weinig aandacht lijkt te geven aan het bestaan van ongelijke onderwijskansen
van mannen en vrouwen en het verband daarvan met heersende opvattingen over de
man/vrouw verhouding.

Hiervoor is ter sprake gekomen dat meisjes en jongens zo dikwijls inhoudelijk of kwalita-
tief verschillend onderwijs volgen waardoor ze geheel verschillende vooropleidingen of
beroepsopleidingen krijgen. Hier willen we aandacht geven aan een meer technische opvat-
ting van de kwahteit van het onderwijs, een begrip dat bijv. door Carroll (1963) als
'quahty of instruction' werd geïntroduceerd en waarmee gedoeld wordt op allerlei kanten
aan het onderwijsleerproces die bijdragen tot succesvol leren van een klas. Is met dit
laatste nu bedoeld dat de beste leeriingen van de groep de aUerhoogste prestaties leve-
ren? Wij menen van niet. Wij menen dat de kwaliteit van de instructie of van het onder-
wijs afgemeten wordt aan de mate waarin alle leerlingen van een klas hebben leren
beheersen wat er op het programma stond. In onze opvatting kan het dus niet voorkomen
dat het onderwijs goed is en een deel van de leerlingen slecht. Wanneer de kwaliteit van
het onderwijs aldus wordt opgevat dan horen daar veronderstellingen bij over wat met
goed onderwijs nagestreefd wordt. Goed onderwijs in een schoolvak weet de blijvende

belangstelling van de leerling te wekken, weet alle leerlingen voldoende kennis en inzicht
van het vak bij te brengen, en slaagt erin de leerling het gevoel te geven dat hij de stof
beheerst. Als wij de hier gestelde eisen aanleggen aan het gewone lagere of aan het alge-
mene voortgezette onderwijs in ons land, dan blijkt dat aan deze eisen in verschillende
mate wordt voldaan voor jongens en meisjes. Immers uit reeds genoemd onderzoek blijkt
dat de belangstelling en de prestaties van meisjes en jongens verschillend zijn in vakken als
bijv. de wiskunde, de talen, schei- en natuurkunde en aardrijkskunde. Naar ons inzicht is
het onderwijs daarvoor in zekere mate verantwoordelijk. Met andere woorden: het feit
dat meisjes in vergelijking met jongens in enkele, uit oogpunt van verdere studie en
carriëre belangrijke, vakken blijkbaar minder weten en kunnen, minder interesse tonen en
minder vertrouwen in eigen mogelijklieden hebben is voor een goed deel veroorzaakt door
de manier waarop het door hen genoten onderwijs werd gegeven. Hoe moet het onderwijs
in een schoolvak dan worden ingericht om zekerder te kunnen zijn van een goede op-
brengst van elke individuele leerling?

Volgens moderne opvattingen wordt de kwaliteit van de instructie in vele schoolvakken
bevorderd als men ongeveer de volgende inrichting nastreeft: Er zijn vaste leerdoelen die
alle leerlingen moeten bereiken. Er zijn verschillende leerwegen om tot een bepaald leer-
doel te komen. De leraar of de leerling zelf toetst frequent of datgene wat behandeld is
ook beheerst wordt. Bij hiaten of misverstanden krijgt de individuele leerling daarover
informatie en hij of zij krijgt extra tijd en hulp om weer bij te raken. De beoordeling is
gericht op het vaststellen of de gestelde leerdoelen bereikt zijn.

Wij menen dat als het onderwijs ongeveer aldus wordt ingericht, dat het onderwijsleerpro-
ces dan een soort zelf-corrigerend proces wordt en dat meer leerlingen dan tevoren doelen
bereiken die eerst alleen door 'de besten' (dat zijn degenen waarbij instructie en leerling
optimaal op elkaar waren afgestemd) werden bereikt. Deze opvatting is elders door Bloom
(1976) en Warries (1979) uitvoerig uiteengezet bij hun behandeling van het begrip 'be-
heersingsleren'. Aangenomen wordt, en dit is van belang in verband met differenriële
onderwijsresultaten van meisjes en jongens, dat beheersingsleren, en algemener: onderwijs
waarin bijzondere aandacht wordt gegeven aan de hierboven genoemde aspecten van
kwalitarief goed onderwijs, leidt tot het verdwijnen van achterstanden en tot groter
vertrouwen in eigen leermogelijkheden. Een leerling(e) die het gevoel krijgt met succes te
leren, kan zich ook veroorioven wat meer interesse voor een vak te krijgen. Een leerling(e)
die in verscheidene of in de belangrijkste schoolvakken langere tijd behooriijke prestaties
levert, is ook langzamerhand in staat tot een positieve houding tegenover het leren in het
algemeen, nu op deze school en later in eventueel vervolg-onderwijs.
Onze veronderstelling is dat onze instructie niet genoeg op meisjes is afgestemd om te
voldoen aan de bovengenoemde ejsen. Daarmee bedoelen we beslist itiet dat bijv. de
wiskunde minder 'exact' of de natuurkunde 'vrouwelijker' van inhoud zou moeten wor-
den. Wij konstateren slechts dat meisjes in ons huidige systeem slechtere resultaten beha-
len, dat zij daarmee een ongelijke positie innemen voor wat betreft de persoonlijke
kenmerken (6 in de figuur) en daardoor eerder kans lopen 'uitgeselecteerd' te worden
door een instituut (7) of zichzelf (8) en wij veronderstellen dat de verschillen in zelfbeeld,
belangstelling, motivatie en prestaties direct in verband staan met de kwaliteit van de
instructie (4).

Als we in ons conceptueel schema de pijlen in omgekeerde richting volgen dan komen
we uit bij de heersende opvattingen in de maatschappij over onderwijs voor mannen en
vrouwen (1). Een beschrijving van die opvattingen valt buiten het bestek van dit artikel.
Wij volstaan met op te merken dat net als elders ook in onze Nederlandse samenleving aan
de ene kant veel traditionele opvattingen over de rol en de mogelijkheden van vrouwen
leven die niet meer met de grote economische en sociale veranderingen van de laatste
decennia in overeenstemming zijn. Aan de andere kant zijn er de laatste vijftien jaar
enorme veranderingen opgetreden in de publieke opinie ten aanzien van de rol van vrou-
wen in de maatschappij.

In de inleiding van dit artikel hebben wij aangeduid dat het onderwijsbeleid (2) ook
afhankelijk is van de heersende opvattingen in de maatschappij. Hoewel een onderwijs-
minister als regeerder vooruitziet en dus ook scherp zal moeten letten op de veranderin-
gen die in de meningsvorming aan de gang zijn, zal hij ook met de bestaande of de wat
verouderde opvattingen rekening houden, al was het maar uit haalbaarheidsoverwegingen.
Ook moet de minister er mee rekenen dat binnen het onderwijs (3) dezelfde opvattingen
aanwezig zijn als in de maatschappij. Op rationele en zeer goed beargumenteerde gronden
kunnen wij er vóór zijn dat er ander onderwijs wordt gegeven en dat er anders geselec-
teerd wordt, maar daarmee ligt nog geen onderwijsbeleid klaar. De minister zou de eman-
cipatie in de scholen niet kunnen binnenbrengen door oekazes of een herderlijk schrijven.
Een minister is geen tsaar en geen herder. Een minister is ook maar een mens.
Het onderwijsbeleid zal met de heersende opvattingen rekening moeten houden. Neem de
status van de man: Twee van de drie ouderparen heeft liever als eerste kind een jongen.
Het aantal meisjes dat, als het zou kunnen, van sexe ging veranderen, is tienmaal zo hoog
als het aantal jongens die dat willen. Neem karakter en geest van de vrouw: De meeste
mensen zien vrouwen in vergelijking met mannen als dommer, charmanter, passiever,
creatiever, emotioneler. Vele Nederlanders menen dat dit zo is en dat het zo dient te
blijven. Het onderwijsbeleid moet rekening houden met zulke opvattingen en met feitelijk
gevonden verschillen in correlatie-onderzoekingen zoals wij reeds vermeld hebben.
Men zou haast gaan denken dat 'het onderwijsbeleid' ten onrechte in ons conceptueel
schema terecKt is gekomen en dat het beleid niet bij machte zou zijn aan de differentiële
effecten ook maar iets te veranderen. In het nu volgende stuk over aangrijpingspunten zal
blijken dat wij een dergelijk standpunt niet aanhangen.

Wij menen dat een kwalitatieve en kwantitatieve verbetering in de deelname aan het
onderwijs door vrouwen en in het effect van onderwijs voor vrouwen tot stand kan
komen door op meer punten in ons schema te opereren. Twee aspecten zien wij aan de
innovatiestrategie die vrouwen daarbij zouden kunnen volgen: enerzijds het bevorderen
van de mentahteitsverandering en anderzijds het beïnvloeden van het onderwijsbeleid aan
de top of op de lagere nivo's.

Wat de mentaliteitsverandering betreft, kunnen we verwachten dat vrouwen voort zullen
gaan met de beïnvloeding en de informatie waarmee zij begonnen zijn en waarmee zij
enorme vooruitgang hebben bereikt. Uitspraken over de rechten en ongelijkheden van

vrouwen die tien jaar geleden op algemene en heftige weerstand stuitten wanneer ze door
Dolle Mina's werden gedaan, worden thans getolereerd of herhaald door de populaire
damesbladen. Dat er wat het onderwijs betreft echter nog zeer veel in de opmies kan
veranderen staat voor ons vast.

Beïnvloeding van het onderwijsbeleid zou zich naar ons inzicht moeten bezig houden met
één of twee belangrijke strategische zaken. Vanuit onze eigen deskundigheid denken wij
dan in de eerste plaats aan een pleidooi voor de ontwikkeling en uitvoering van een R &
D-programma. Research en Development hebben zich tot nu toe slechts terloops bezigge-
houden met het probleem van ongelijke onderwijs-participatie van vrouwen en mannen.
Een tweede strategisch punt zou kunnen zijn het aandringen op die systeemveranderingen
waarvoor nauwehjks of geen research nodig is. Zo zou men kunnen pleiten voor een
verlengde brugperiode in het voortgezet onderwijs om aan meisjes meer doorstromings-
kansen te bieden.

Het komt ons voor dat in ons schema voldoende aangrijpingspunten zijn voor een strate-
gie van mentaliteitsverandering, onderzoek en ontwikkeling, of systeemverandering. Wij
noemen:

Het onderwijsbeleid (2): De minister van onderwijs kan door vrouwen op een groot aantal
dingen gewezen worden die onderzocht zouden moeten worden of die veranderd zouden
kunnen worden. De minister heeft heel wat mogelijkheden om onderzoek- en ontwikke-
hngswerk te laten verrichten. Hij heeft bijv. de SLO (Stichting Leerplan Ontwikkeling) in
Enschede, het CITO (Centraal Instituut voor Toetsontwikkelmg) in Arnhem en de SVO
(Stichting voor Onderzoek van het Onderwijs) in Den Haag.

Opvattingen in de school (3): De gerichte mentaliteitsbeïnvloeding waarmee vrouwen al
zo lang en met succes bezig zijn kan zich nog meer richten op de leerkrachten en op de
opleidingen voor onderwijsgevenden.

De kwaliteit van de instructie (4): Onderzoeks- en ontwikkelingswerk kunnen zich bezig-
houden met de pogingen om het onderwijs in de klas zo in te richten dat meisjes en
jongens hetzelfde aan het genoten onderwijs kunnen overhouden in termen van zelfbeeld,
belangstelhng, motivatie en leerprestaties.

Geschiktheidsschattingen bij adviseringen selectie (5): Onderzoek kan hier gericht zijn op
het nog duidelijker of opnieuw of voor allerlei selectiesituaties aantonen van ongelijke
uitkomsten voor jongens en meisjes. Onderzoek of ontwikkelingswerk kunnen ook veran-
deringen mogelijk maken en experimenten waarin op een andere manier de geschiktheid
voor verder leren wordt vastgesteld.

Institutionele selectie (7): Onderzoekers kunnen de bestaande testtheorie kritisch onder-
zoeken en het hele selectieprobleem samen met anderen nog eens kritisch doorlichten.
Duidelijke bronnen van differentiële selectie zoals het bebruik van conserverend werkende
correlatieberekeningen en te vroege selectiemomenten kunnen door systeemwijziging wor-
den weggenomen.

Zelfselectie (8): Onderzoek, ontwikkeling en mentaliteitsveranderingspogingen kunnen
trachten opheldering en verbetering te brengen daar waar blijkt dat meisjes sub-opthnaal
hun onderwijskansen inschatten of benutten.

Differentiële onderwijseffecten (9): Statistieken moeten worden bijgehouden. De presenta-
tie van cijfers kan gestuurd worden. Het onderzoek dat het CBS of regionale overheden
doen, kan zich specifiek op bepaalde vraagstellingen richten die te maken hebben met het
differentieel effect.

Tot slot nog een algemene opmerking over de mogelijke inbreng van de onderwijsresearch

bij het onderzoek naar de achterstand van meisjes in onderwijsdeelname en de mogelijkhe-
den tot verandering. Onderzoek en ontwikkeling zetten alleen zoden aan de dijk wanneer
ze plaatsvinden in een R & D-programma voor de wat langere termijn. Zo zou er bijv. nog
wat meer en grondiger beschrijvend onderzoek kunnen komen. Een aantal bestaande
werkmappen en doctoraalscripties mag best herzien, uitgebreid of up to date worden
gemaakt. Behalve op beschrijvend en analytisch onderzoek kan een programma zich ook
richten op ontwikkelingswerk, op experimenten en op evaluatiestudies. Voor onderzoe-
kers is het zeer wel mogelijk een concept-onderzoeksprogramma op te stellen, als dit niet
uitsluitend drijft op leeronderzoek en werk dat in de vrije tijd door goedwillende ama-
teurs wordt ondersteund. Voor een goed onderzoekprogramma, dat bijv. vijf of tien jaar
beslaat, is veel geld nodig. Zelfs het opstellen van een plan kost al geld. Dus daarmee zijn
wij weer aangeland bij het beleid van het ministerie van onderwijs.

Bos, D.J. Schoolkeuze-adviezen, Resultatencontrole na vijfjaar. Den Haag; Mouton, 1974.

Carroll, J.B. A model of school learning. Teachers College Record, 1963, 64, 723-733.

Froeling Leni & Carla Petit: Kijk, zo wordt de meester uit Marie nooit wijs. ITS/onderwijssociologie
K.U. Nijmegen, stageverslag 1978.

Het volledig dagonderwijs in 1977/78 (voorlopige aantallen). Statistiek van onderwijs en wetenschap-
pen. CBS Medelingen, no. 7674. januari 1978.

MVM: Werkmap Sekse en Test. Actiegroep Man Vrouw Maatschappij, Postbus 746, Den Haag 1975.

Sandbergen S. lEA Six Subjects Study. Nederlandse Resultaten in natuurwetenschappen, RITP, Am-
sterdam, 1974.

Statistiek van het vwo, havo en mavo 1972173. In-, door- en uitstroom van de leerlingen. CBS, 1973.

Statistiek van het vwo, havo en mavo. Keuze van vakken hij de eindexamens 1974 en in de leerjaren
waarin een vakkenpakket is gekozen, 1 september 1974. CBS, 1977.

Toelatingskriteria voor de numerus fixus-studierichtingen in het wetenschappelijk onderwijs. Advies
van de Adviescommissie toelatingscriteria w.o. Ministerie van O & W, januari 1977.

Warries, E. De toelating tot het universitaire onderwijs. Memorandum voor de adviescommissie toela-
tingscriteria. T.H.Twente. Kenmerk WMW.91.76.018; 1976.

Warries, E. De toelating tot het universitaire onderwijs. Rede. Congresboek Onderwijsresearchdagen
1976. Tevens als publicatie Vakgroep Onderwijskunde T.H. Twente nr.WMW.90/76/167.

Warries, E. e.a. Beheersingsleren een leerstrategie. Groningen: Wolters-Noordhoff, 1979.

Verslag van een vervolgonderzoek van het project Friesland in het zesde leerjaar

Three groups with Frisian home language, but different with respect to schooling condition,
took part in the project Friesland from grade K-3. For comparative purposes a group of Dutch
speaking children from a rural area in the province of Utrecht, was included.
Although the Frisian children's oral proficiency in Dutch was on a lower level than that of the
Utrecht group, this did hamper neither their communicational efficiency in Dutch nor their
attainment in Dutch language usage and reading. However, by the end of grade 3, attainment of
all Frisian groups in arithmetic was at a considerably lower level than that of the Utrecht group.
In this study a follow-up investigation in grade 6 is reported. In the follow-up study a language
usage test, a reading comprehension test and an arithmetic test were administered. On the
language tests the differences between the four groups are negligible, but compared with a
national sample the level is low. It is reasonable to assume however, that the national sample
was thoroughly prepared, as the tests were originally some sort of examination. This does not
apply to the sample in our investigation. If this is taken into consideration, the level of
attainment on these tests is rather normal in all four groups.

With regard to the arithmetic test, we note that there is again a considerable discrepancy
between the Frisian groups on the one hand - with no significant differences among themselves
- and the Utrecht group on the other. In an earlier study in grade 6 the suspicion had arisen
that this discrepancy corresponded with a difference in the time devoted to the subject arith-
metic. This could not be confirmed, however. The statistical analysis makes it seem plausible
that the cause of this difference lies in the initial years of teaching, but we have been unable to
localize this cause any further. It is hard to believe however, that this has anything to do with
the children's linguistic background, as nothing of the kind shows on the written language tests.
The conclusion to be drawn is that in the Frisian situation linguistic background and schooling
modél do not affect school attainment in a significant way. The results of our investigation
hardly provide arguments for one schooling model or another. At a local level it is possible to
choose one of the various legal possibilities on other grounds.

1. Tegenwoordig verbonden aan het Centraal Instituut voor Toetsontwikkeling (CITO) te Arnhem.
Evenals het oorspronkelijke project werd dit vervolgonderzoek echter uitgevoerd onder auspiciën van
de Vakgroep Onderwijskunde van de R.U. te Utrecht en gefinancierd door de Stichting voor Onder-
zoek van het Onderwijs. Het volledige onderzoeksrapport is onder dezelfde titel op aanvraag verkrijg-
baar bij dc Vakgroep Onderwijskunde, Aidadreef 7 te Utrecht.

Het onderzoek werd begeleid door een commissie bestaande uit de heren Kr. Boelens, prof. dr. J. Sbc-
ma, G.H. Vledder en dr. A.K. de Vries. De opzet en uitvoering van de dataverwerking werd enkele
malen besproken met drs. M.A. Zwarts. Met erkentelijkheid vermeld ik hun bijdrage aan dit onder-
zoek.

Dc mate waarin het Fries, resp. liet Nederlands als voertaal wordt gebruikt bij het kleuter-
en lager onderwijs in Friesland, kan van school tot school sterk verschillen. Tot 1975 gold
daarbij voor de lagere scholen de beperking, dat het Fries na het derde leerjaar niet meer
als voertaal gebruikt mocht worden. De lagere scholen die in de laagste klassen het Fries -
ook schriftelijk - als voertaal gebruiken, worden meestal aangeduid als de tweetalige
scholen, in tegenstelling tot de eentalige scholen, waar het Nederlands vanaf klas 1 de
officiële voertaal is. In beide schooltypen kan verder het Fries als vak in het leerplan
worden opgenomen. Hiervan wordt ook door de eentalige scholen, met name in de hogere
leerjaren, op ruime schaal gebruik gemaakt.

Voor van huis uit friestalige kinderen kan de overgang naar het Nederlands als voertaal bij
het onderwijs op verschillende momenten plaatsvinden:

In deze situatie werd van 1971-1976 het project Friesland (SVO-project 0181) uitge-
voerd. Het zg. startonderzoek richtte zich op de relatie tussen de (mondelinge) beheersing
van het Nederlands, schoolbekwaamheid voor en schoolsucces in de bestaande vormen
van nederlandstalig lager onderwijs bij van huis uit friestalige kinderen, in vergelijking met
van huis uit nederlandstalige kinderen buiten Friesland, gedurende de eerste drie leerjaren
van het lager onderwijs.

Ten tijde van het onderzoek was het gebruikelijk in de tweetalige scholen om de overgang
naar het Nederlands als voertaal gedurende het tweede leeijaar voor te bereiden, waarna
vanaf het derde leerjaar het Nederlands voertaal werd. Het derde leerjaar dient echter nog
als een overgangsjaar te worden beschouwd, in die zin dat aan de technische leesvaardig-
heid in het Nederlands meestal extra aandacht wordt besteed, terwijl ook een speciale
taalmethode beschikbaar is. Vanaf het vierde leerjaar komt het programma van de twee-
talige scholen in grote lijnen overeen met dat van de eentalige scholen, terwijl aange-
nomen mag worden dat voor beide schooltypen ook dezelfde einddoelstellingen geaccep-
teerd worden, afgezien van doelstellingen op het gebied van het Fries. Dit betekent dus
dat de twee schooltypen voor lager onderwijs in Friesland gedurende de eerste drie
leerjaren verschillende wegen volgen om uiteindelijk dezelfde doelstellingen te bereiken,
waarbij we mogen aannemen dat deze gemeenschappelijke einddoelstellingen niet wezen-
lijk verschillen van het onderwijs in de rest van Nederiand.

Het einde van het derde leerjaar is dus in de tweetalige scholen een belangrijk moment.
Voor de beantwoording van de vraagstelling werd daarom gekozen voor een vergelijking
van friestalige kinderen in een drietal onderwijscondities met een groep nederlandstalige
kinderen gedurende de eerste drie jaren van het lager onderwijs, waarbij de eerste meting
aan het einde van het kleuteronderwijs plaats vond. De drie groepen van huis uit friestali-
ge kinderen waren afkomstig uit de volgende combinaties van kleuter- en lagere scholen:

Alle kinderen en scholen waren afkomstig uit overwegend friestalige plaatsen. De verge-
lijkingsgroep van van huis uit nederiandstalige kinderen (U) werd gevonden in het
Utrechtse weidegebied. Aan het startonderzoek, dat van 1972-1975 werd uitgevoerd,
hebben in totaal ongeveer 240 kinderen meegewerkt, afkomstig van 29 scholen (zie voor
nadere details over de opzet van het startonderzoek Wijnstra, 1976).
In de opzet van het startonderzoek was oorspronkelijk niet voorzien in het vaststellen van
het schoolsucces na het derde leerjaar. In het schooljaar 1974/75 werd echter een parallel-
onderzoek uitgevoerd in de zesde klassen van de lagere school die ook aan het startonder-
zoek deelnamen. De bevindingen in dit parallelonderzoek weken sterk af van die in het
startonderzoek, tenminst wat de vergelijking met landelijke gegevens betreft. In het eind-
rapport worden de onderzoekresultaten als volgt samengevat:

'Wc zijn (...) tot de bevinding gekomen dat van huis uit friestalige kinderen, die gedurende de eerste
drie leerjaren onder verschillende kondities onderwijs hebben gekregen, aan het eind van het derde
leerjaar onderling vergeleken weinig verschillen vertonen op het gebied van de schriftelijke beheersing
van het Nederlands. De kinderen van de tweetalige scholen hebben daarnaast ook het Fries leren lezen
en schrijven. De Friese groepen vertonen bovendien op het gebied van de schriftelijke beheersing van
het Nederlands ook geen belangrijke verschillen met van huis uit nederiandstalige kinderen van het
Utrechtse platteland. Hoewel in het parallelonderzoek, dat in het zesde leerjaar werd uitgevoerd, de
groepen op enkele achtergrondkenmerken minder goed vergelijkbaar waren (vgl. hoofdstuk 8) zijn in
dit onderzoek soortgelijke konklusies mogelijk ten aanzien van dc schoolvorderingen op het gebied van
lezen en taal.

Met betrekking tot het onderwijs aan van huis uit friestalige kinderen mogen we daarom konkluderen
dat de in sommige opzichten onvolledige mondelinge beheersing van het Nederlands niet in aanwijs-
bare mate een belemmering vormt voor het ontwikkelen van de schriftelijke beheersing van deze taal,
tenminste als de vergelijkingsgroep uit het Utrechtse weidegebied als maatstaf wordt genomen. Worden
landelijke gêgevens als vergelijkingsmaatstaf genomen, dan blijken in klas 3 - voorzover landelijke
gegevens beschikbaar zijn - eveneens geen verschillen van belang. Aan het einde van het basisonderwijs
daarentegen blijken de gemiddelde skores op de lees- en taaltoetsen aanzienlijk lager te liggen dan de
landelijke gemiddelden. Een verklaring voor dit verschil in bevindingen tussen klas 3 en 6, dat zowel in
de eentalige als tweetalige scholen optreedt en in mindere mate ook in het Utrechtse weidegebied, is
moeilijk te geven. Daarvoor zou voortgezet onderzoek noodzakelijk zijn.

De resultaten van het rekenonderwijs tonen zowel in klas 3 als in klas 6 verschillen tussen Friese en
Utrechtse leerlingen, terwijl met name aan het einde van het basisonderwijs ook op dit gebied aanzien-
lijke verschillen met landelijke gemiddelden aan het licht komen. In beide gevallen liggen de skores in
Friesland op een lager nivo. Uit onze analyses van de lesroosters wordt het aannemelijk dat de
verschillen tussen de Friese en Utrechtse leerlingen niet zo zeer samenhangen met de taalachtergrond
van dc leerlingen, als wel met de bestede tijd aan het rekenonderwijs (Wijnstra, 1976, pp. 271, 272).'

De resultaten van het parallelonderzoek in het zesde leerjaar en het in aansluiting daarop
uitgevoerde aanvullende onderzoek - een beperkte herhaling van het parallelonderzoek in
het schooljaar 1975/76 (Buter et al., 1976) - konden niet in verband worden gebracht
met eerdere maten voor schoolsucces. Het zou met name belangrijk zijn geweest om te
weten hoe de prestaties van deze kinderen in de lagere leerjaren waren, in vergelijking met
landelijke gegevens.

Gezien de gesignaleerde discrepantie werd de medewerking van de scholen nogmaals
ingeroepen voor een vervolgonderzoek in de zesde klas bij de kinderen die aan het start-

onderzoek hebben deelgenomen (schooljaar 1977/78). Omdat van deze kinderen wel
gegevens over het schoolsucces in de klassen 1-3 beschikbaar zijn, zou dit onderzoek een
nieuw licht kunnen werpen op de gerezen problemen.

De vraagstelhng voor het in het schooljaar 1974/75 uitgevoerde parallelonderzoek werd
als volgt geformuleerd: In hoeverre ondervinden van huis uit friestalige kinderen aan het
einde van het basisonderwijs belemmeringen in schoolsucces en communicatievaardigheid
in het Nederlands, vergeleken met een overigens vergelijkbare groep van huis uit neder-
landstalige kinderen. Voor dit vervolgonderzoek dient daaraan te worden toegevoegd: 'en
vergeleken met een landelijke steekproef, terwijl de (mondehnge) communicatievaardig-
heid weggelaten moet worden. De afhankelijke variabele 'schoolsucces' wordt evenals in
het genoemde aanvullende onderzoek in het schooljaar 1975/76 uiteen gelegd in recep-
tieve schriftelijke taalbeheersing en Tekenvaardigheid en gemeten met de onderdelen Stil-
lezen (korte stukken). Taalgebruik 1 en Rekenen 1 uit de Eindtoets Basisonderwijs 1975
(ClTO-pubhcatie nr. 31, 1974). Hiermee wordt een rechtstreekse vergehjking met dc
eerder uitgevoerde onderzoeken in het zesde leerjaar mogehjk.

Evenals in de voorgaande onderzoeken wordt in dit vervolgonderzoek de nonverbale
intelligentie als controlevariabele betrokken (Standard Progressive Matrices; Raven,
1960). In dit geval kan de nonverbale inteUigentie evenwel ook als afhankelijke variabele
worden opgevat, in die zin dat het door relatering aan vroegere afnames mogelijk is
eventuele verschiUen in ontwikkehng in verband te brengen met de onafhankelijke varia-
bele 'onderwijsconditie'.

De onafliankelijke variabele 'onderwijsconditie' wordt evenals in het startonderzoek, be-
paald door de voertaal bij het kleuter- en lager onderwijs en de geografische locatie van de
school. Dit resulteert in de genoemde vier groepen A, B, C en U. In het startonderzoek
werd groep A onderverdeeld naar de grootte van de lagere school (twee vs. meer dan twee
leerkrachten). Aangezien in het startonderzoek de conclusie werd getrokken dat tussen
deze twee groepen geen verschillen van betekenis optreden als de leerlingengroepen goed
vergehjkbaar z'ijn op gezins- en persoonlijkheidskenmerken, werd in het vervolgonderzoek
— mede om economische redenen — de groep kleine tweetalige scholen niet voor deel-
name uitgenodigd. Wanneer in het vervolg sprake is van groep A, worden daarmee de
leerhngen bedoeld van de tweetalige scholen met meer dan twee leerkrachten. De scholen
in deze groep komen qua grootte redehjk goed overeen met de scholen in de andere
groepen, zij het dat in de Utrechtse groep de scholen in doorsnee wat groter zijn dan in de
Friese groepen.

Van de Utrechtse groep werd één school niet uitgenodigd voor deelname, omdat deze
school reeds bij het aanvullend onderzoek in het schooljaar 1975/76 te kennen had
gegeven af te willen zien van verdere deelname. Voorts bleek een andere school in de
Utrechtse groep inmiddels gesplitst te zijn in twee scholen, die beide hun medewerking
verleenden.

Bij de toetsafnames eind januari/begm februari 1978 bleek dat m drie Utrechtse scholen de
toetsen niet helemaal onbekend waren: in één school was in september 1977 het onder-
deel Taalgebruik gemaakt, een tweede school had kort voor Sinterklaas het onderdeel
StiUezen afgenomen. De zesde klas van de derde school had rond de kerstvakantie de

gehele eindtoets Basisonderwijs 1975 gemaakt. Van deze laatste school werden de scores
van de eerste afname in de verwerking opgenomen.

De rapportage over het startonderzoek was gebaseerd op de zg. individuele steekproef, dat
deel van de leerlingen dat ook aan de individuele toetsen had deelgenomen. De overige
leerlingen namen steeds alleen aan de klassikale toetsen deel. Omdat ermee rekening werd
gehouden dat van de individuele steekproef in klas 6 te weinig leerlingen zouden zijn
overgebleven, werden van de overige leerlingen ook gegevens over sociaal milieu e.d.
verzameld (van de individuele steekproef waren deze gegevens bekend), terwijl alle leer-
lingen in het zesde leerjaar aan de toetsafnames deelnamen. Het bleek echter dat tussen
klas 3 en 6 slechts weinig kinderen van de individuele steekproef waren verhuisd of waren
blijven zitten (groep A: 5 van de 38, groep B: 3 van de 40, groep C: 2 van de 44, groep U:
10 van de 59; het verschil in groep U is vooral te wijten aan het niet meer deelnemen van
één school).

Gezien deze omstandigheid zal in dit verslag weer uitgegaan worden van de individuele
steekproef, voorzover gegevens uit zowel klas 3 als 6 beschikbaar zijn.

Voordat we overgaan tot de presentatie van de onderzoeksresultaten, zullen we eerst
nagaan welke gevolgen het wegvallen van enkele leerlingen heeft voor de vergelijkbaarheid
van de samenstelling van de groepen ten opzichte van de verhoudingen in klas 3.
Uit tabel 1 blijkt dat de verhoudingen tussen de groepen op de in klas 3 afgenomen
toetsen die corresponderen met de in het vervolgonderzoek afgenomen toetsen, door de
uitgevallen leerlingen nauwelijks zijn aangetast. De Standard Progressive Matrices zijn
identiek aan de in het vervolgonderzoek afgenomen toets (serie B,C,D). De toetsen Be-
grijpend Lezen en Schriftelijke Opdrachten worden beide geacht de vaardigheid begrij-
pend lezen te meten en komen als zodanig overeen met het in klas 6 afgenomen toets-
onderdeel Stillezen. De toetsen Syntaksis en Semantiek dekken samen ongeveer het ter-
rein dat bestreken wordt door het toetsonderdeel Taalgebruik in klas 6. Om deze reden
wordt bij de overgebleven steekproef de som van scores op de toetsen Syntaksis en
Semantiek in klas 3 opgevoerd onder de naam Taalgebruik. De Schiedamse Rekentest in
klas 3 tenslotte correspondeert met het toetsonderdeel Rekenen in klas 6.
Door het wegvallen van enkele leerlingen zijn ook veranderingen opgetreden in de samen-
stelhng van de groepen met betrekking tot het opleidingsniveau van de ouders, dat als
volgt werd ingedeeld:

1. alleen basisonderwijs, onvoltooide lagere beroepsopleiding of minder dan twee jaar

voortgezet algemeen vormend onderwijs;
2 voltooide lagere beroepsopleiding, twee jaar of langer voortgezet algemeen vormend
onderwijs, maar minder dan voltooid ulo-niveau;

Vergeleken met de oorspronkelijke verhoudingen (vgl. Wijnstra, 1976) is de vergelijkbaar-
heid van de groepen op dit punt afgenomen. Het opleidingsniveau van de moeders is
redelijk vergelijkbaar gebleven (p < .50), maar het opleidingsniveau van de vaders verschilt
significant (p < .05). In de Utrechtse groep is, met name bij de vaders, opleidingsniveau 2

Sterk vertegenwoordigd, in tegenstelling tot niveau 3. De vergelijkbaarheid van het be-
roepsniveau van de vaders tussen de groepen is echter redelijk (p < .50). Voor de classi-
ficatie van het beroepsniveau is gebruik gemaakt van de beroepenklapper van het Instituut
voor Toegepaste Sociologie te Nijmegen (ITS, 1973), waarbij de niveaus 5 en 6, en 1 en 2
zijn samengenomen.

In tabel 2 wordt een overzicht gegeven van het significantieniveau van het milieu-effect bij
enkelvoudige variantie-analyses binnen de groepen en van het hoofdeffect milieu en het
interactie-effect bij tweevoudige variantie-analyses onderwijsconditie x milieu. Hoewel de
samenhang van de milieuclassificaties met de afhankelijke variabelen voor Nederlandse

begrippen gering is, zullen we bij de verdere presentatie van de resultaten de factor sociaal
milieu nader in de beschouwingen betrekken, gezien de in sommige opzichten wat dispro-
portionele verdelingen.

Voordat de resultaten op de schoolvorderingentoetsen gepresenteerd worden (2.3), zullen
we in de volgende paragraaf eerst aandacht schenken aan de scores op de Standard
Progressive Matrices. In par. 2.4 volgt dan een bespreking van de resultaten en een nadere
uitwerking van enkele punten.

Dc verschillen tussen de groepen op de Standard Progressive Matrices (serie B, C, D) lijken
in klas 6 wat groter dan in klas 3. In een enkelvoudige variantie-analyse is de waarde van F
bij df 3/156: 2.22 (p <.10, zie tabel 3, vgl. tabel 1). De verschillen tussen de gemiddelden
hggen in dezelfde orde van grootte, maar de spreiding is in klas 6 veel kleiner dan in klas
3.

Wanneer miheu als factor in de variantie-analyse wordt opgenomen^, wijzigt het beeld
zich enigszins, in die zin dat bij opleidingsniveau M als tweede factor, voor het hoofdef-

Tabel 3 Vergelijking van de groepen A, B, C en U op de Standard Progressive Matrices mid-
dels variantie-analyse: enkelvoudig, met toevoeging van milieu als tweede factor*), en de score
op de Standard Progressive Matrices in klas 3 als covariate

2 Omdat de celfrequenties ongelijk en disproportioneel zijn, is bij de toepassing van het programma
ANOVA uit SPSS (Nie et al.., 1975) gebruik gemaakt van option 10, de hiërarchische benadering. Op
deze wijze wordt een stapsgewijze analyse uitgevoerd, gebaseerd op een klernste-kwadratenoplossing,
waarbij ieder hoofdeffect wordt gecorrigeero voor de voorafgaande getoetste effecten met behulp van
hneaire regressie-analyse, (vgl. ook Overall & Klett, 1972).

Wanneer milieu, als tweede onafhankelijke variabele in de variantie-analyse wordt opgenomen, naast
onderwijsconditie, wordt het hoofdeffect onderwijsconditie steeds als laatste getoetst en alleen de
F-waarden voor dit hoofdeffect worden in de tabellen vermeld.

feet onderwijsconditie p > .10 wordt (aangeduid als n.s. = niet significant), terwijl bij
beroepsniveau V p < .05 wordt. Wordt vervolgens nog de score op de Standard Progressive
Matrices in klas 3 als covariate toegevoegd, dan dalen de F-waarden voor het hoofdeffect
onderwijsconditie in alle gevallen, waarbij alleen bij beroepsniveau V p < .10 wordt.
Gezien de tendens tot significante verschillen tussen de groepen zullen we bij de verdere
presentatie van de gegevens hieraan aandacht schenken, mede vanwege de behoorlijke
correlaties tussen de scores op de Standard Progressive Matrices en de schoolvorderingen-
toetsen in klas 6, met name het onderdeel Rekenen (vgl. tabel 4).

Voordat we overgaan tot de presentatie van de resultaten op de schoolvorderingentoetsen,
zullen we nu eerst nog de non-verbale intelligentie als afhankelijke variabele beschouwen
en met name nagaan of er tussen de onderwijscondities verschillende ontwikkelingen
optreden. Om dit na te gaan is een variantie-analyse uitgevoerd in een 'repeated measure-
ment design' (vgl. Winer, 1970), met als factoren: onderwijsconditie, leerjaar en leerling
als genestelde derde factor.

In tabel 5 wordt de uitgevoerde analyse samengevat. Omdat het aantal leerlingen tussen
de groepen verschilt, zijn de gemiddelde kwadratensommen voor de effecten A, B en A x
B berekend op de ongewogen groepsgemiddelden, die in figuur 1 grafisch worden weerge-
geven.

Hieruit blijkt dat het hoofdeffect onderwijsconditie niet significant is, terwijl ook geen
sprake is van een significant interactie-effect. Dit wijst er dus op dat tussen de onderwijs-
condities de ontwikkeling van de nonverbale intelligentie, zoals gemeten met de Standard
Progressive Matrices, niet verschillend verloopt.

In deze paragraaf zullen we de resultaten op de schoolvorderingtoetsen aan de orde stéllen
en daarbij zowel de groepen onderling vergelijken als een vergelijking met landelijke
gemiddelden treffen. De landelijke gegevens zijn gebaseerd op de zg. psychometrische
steekproef van 1090 leerlingen uit de totale populatie van ongeveer 88.000 kinderen die
aan de Eindtoets Basisonderwijs 1975 hebben deelgenomen (vgl. Jansen, 1975).
In tabel 6 worden de gemiddelden per groep vermeld met de resultaten van de enkel-
voudige variantie-analyses tussen de groepen A, B, C en U en de t-toetsen tussen ieder van
de groepen en de psychometrische steekproef.

Vergeleken met de landelijke gemiddelden wijkt het onderdeel Stillezen het minst naar
beneden af, Rekenen het meest, althans bij de Friese groepen. Op dit onderdeel hgt het
gemiddelde van de Utrechtse groep ongeveer op landelijk niveau. Ten opzichte van het
parallelonderzoek lijkt er in eerste instantie weinig gewijzigd te zijn. We komen hierop
terug in par. 2.4.2.

Evenals in klas 3 in het startonderzoek en in de voorgaande onderzoeken in het zesde
leerjaar, zijn de verschillen op het onderdeel Rekenen tussen de Friese groepen aan de ene
kant en de Utrechtse groep aan de andere kant, aanzienlijk. De verschillen in milieusamen-
stelling en nonverbale intelligentie kunnen dit niet verklaren. Op de toetsen voor schrifte-
lijke taalbeheersing zijn de verschillen tussen de groepen nagenoeg te verwaarlozen, ook

wanneer milieu als tweede factor wordt toegevoegd (zie noot 2) en de skores op de
Standard Progressive Matrices in klas 3 en 6 als covariaties (tabel 7).
In tabel 7 worden, naast de scores op de Standard Progressive Matrices in klas 3 en 6, ook
nog de corresponderende toets(en) uit klas 3 als covariatie toegevoegd. Aangezien op de
toetsen voor schriftelijke taalbeheersing in klas 3 de verschillen tussen de groepen mini-
maal zijn (vgl. tabel 1: Schriftelijke opdrachten, Begrijpend lezen en Taalgebruik) en gelet
op de vrij hoge correlaties met de corresponderende toetsen in klas 6 (tabel 8), zou dit de
variantie binnen klassen kunnen reduceren, waardoor de power van de F-test toeneemt. In
tabel 7 bhjkt dit echter niet.

De verschillen tussen de groepen waren in klas 3 op de Schiedamse Rekentest aanzienlijk.
Als dit in aanmerking wordt genomen, dan zijn de verschillen tussen klas 3 en 6 niet veel
groter geworden, hoewel bij groep C de daling zich nog hjkt voort te zetten. In figuur 2
wordt hiervan een grafische voorstelling gegeven, waarbij per leerjaar een hneaire transfor-

matie is uitgevoerd naar een verdeling met een gemiddelde van O (nul) en een standaard-
deviatie van 25, om een vergelijking tussen de klassen mogelijk te maken. In de figuur
worden eerst de gegevens van de oorspronkelijke steekproef over de klassen 1-3 gepresen-
teerd, en daarnaast de gegevens van de overgebleven steekproef in klas 3 en 6.
Wat uit de figuur niet blijkt, maar vermeldenswaard is, is dat het grote verschil in sprei-
ding tussen de Friese groepen aan de ene kant en de Utrechtse groep aan de andere kant
in klas 3, in klas 6 weer verdwenen is.

In de volgende paragraaf zullen we de hier gepresenteerde gegevens op enkele punten
nader uitwerken en van commentaar voorzien.

Dc tot nu toe gepresenteerde gegevens bevestigen de in par. 1.1 gegeven samenvatting wat
betreft de resultaten in het zesde leerjaar: op de toetsen voor receptieve schriftelijke
taalbeheersing blijken in het vervolgonderzoek geen grote verschillen tussen de groepen A,
B, C en U, zeker als we in aanmerking nemen dat een deel van de leerlingen in de
Utrechtse groep niet helemaal onbekend was met de toetsen Stillezen en Taalgebruik.
Landelijk gezien zijn de resultaten echter laag, hoewel minder laag dan in het parallel-
onderzoek. Tussen de groepen blijkt op de rekentoets een aanzienlijk verschil. De Friese
groepen scoren gemiddeld lager dan de Utrechtse groep, waarbij de Friese groepen ook
landelijk gezien erg laag scoren, in tegenstelling tot de Utrechtse groep.
Soortgelijke conclusies werden in het parallelonderzoek getrokken met in achtneming van
de verschillen tussen de groepen op de Standard Progressive Matrices. Zou deze toets niet
als covariate toegepast zijn, dan zou de conclusie ten aanzien van de vergelijking tussen de
groepen op de toetsen voor schriftelijke taalbeheersing anders hebben moeten luiden (vgl.
Wijnstra, 1976). Achteraf gezien lijkt deze handelwijze in het parallelonderzoek correct.
De verschillen tussen de groepen op de Standard Progressive Matrices zijn niet te beschou-
wen als een effect van de hier onderscheiden onderwijscondities.

Op de veriiouding tot landelijke gegevens gaan we nader in in par. 2.4.2. In voorgaande
rapporten is het verschil in rekenprestaties tussen de Friese groepen en de Utrechtse groep
in verband gebracht met verschillen in tijdsbesteding aan het vak rekenen. In par. 2.4.3
komen we hierop nog eens terug.

Vooraf gaan we echter nog in op de samenhang tussen sociaal milieu en toetsprestaties.
Uit tabel 2 blijkt een weinig consistent beeld van nauwelijks of geen samenhang. Dit is
volledig in overeenstemming met hierover eerder gepubliceerde gegevens uit het starton-
derzoek (vgl. Wijnstra, 1974), maar tegengesteld aan bevindingen in andere onderzoeken,
meestal uitgevoerd in stedelijke gebieden. Ook in een soortgelijk project als het project
Friesland, dat in Kerkrade wordt uitgevoerd (SVO-project 0241), blijkt een sterk verband
tussen het beroepsniveau van de vader en de prestaties van de kinderen (vgl. Stijnen,
19753 en Stijnen et al., in voorbereiding). In eerdere publicaties (Wijnstra, 1970; 1972;

3. Stijnen betrolc in zijn analyses ook de gemeente Ooststellingwerf in Friesland. In deze gemeente,
die voor het grootste deel een plattelandskarakter heeft, zijn de verbanden tussen sociaal milieu en
toetsprestaties ook veel minder sterk dan in Kerkrade.

1974) werd dit hier opnieuw bevestigde verschil in bevindingen, in verband gebracht met
de volgende factoren:

a. De doorstroming naar het voortgezet onderwijs van de generaties waartoe de ouders
behoren, is in plattelandsgebieden geringer geweest dan in de steden, waardoor in de
lagere opleidingsklassen mogelijk meer potentieel intellect aanwezig is.

b. De samenstelling van de beroepsbevolking verschilt. Mogehjk is ook het verband tussen
beroepsniveau en opleidingsniveau op het platteland kleiner dan in de steden.

c. In gebieden met een hoge urbanisatiegraad vindt wijkvorming plaats naar beroepsgroep
en inkomensklasse. Op het platteland daarentegen is de samenstelling van de bevolking
in de woonkernen qua sociaal-ekonomische status heterogeen. Deze heterogeniteit
strekt zich ook uit tot de samenstelling van de schoolbevolking op één school, omdat
er meestal ter plaatse maar één school is.

Verder onderzoek naar deze discrepantie tussen milieu-invloeden in stedelijke en platte-
landsgebieden, zou waardevol kunnen zijn voor het vergroten van het inzicht in de samen-
hang tussen sociaal milieu en cognitieve ontwikkehng.

Landelijk gezien liggen de resultaten op de schoolvorderingentoetsen laag, hoewel in het
vervolgonderzoek de verschillen met de landelijke gemiddelden iets minder groot zijn dan
in de eerder uitgevoerde onderzoeken in klas 6.

In het eindrapport (Wijnstra, 1976) hebben we geschreven dat het onwaarschijnlijk is dat
de grote verschillen met landelijke gegevens verklaard kunnen worden uit het feit dat de
scholen voor het eerst - en onvoorbereid - aan de Eindtoets Basisonderwijs van het
CITO hebben deelgenomen. Het is de vraag of we deze mening niet voor een deel moeten
herzien. De ervaring leert dat op scholen die jaarlijks aan de Eindtoets van het CITO
deelnemen, veel aandacht wordt besteed aan de voorbereiding op de toets. Op één uitzon-
dering na nemen de scholen die aan het vervolgonderzoek hebben meegewerkt, niet deel
aan deze landelijke eindtoets en ook nu waren dè leerlingen niet specifiek voorbereid op
deze toetsen. Bij de vergehjking met de psychometrische steekproef uit 1975, kunnen we
ervan uitgaan- dat de leerlingen uit deze steekproef voor het grootste deel wel specifiek op
de toetsen waren voorbereid. Hoe groot het effect hiervan is, is moeilijk te schatten.
Door een toevallige omstandigheid bleek een van de Utrechtse scholen ongeveer een
maand voor de uitvoering van het onderzoek de gehele Eindtoets Basisonderwijs 1975 te
hebben afgenomen. Deze scores zijn ook in de verwerking van de hier gepresenteerde
gegevens opgenomen. Eind januari hebben we de toetsen in deze school wel opnieuw
afgenomen, om het trainingseffect te kunnen bekijken (volgens mededeling van het hoofd
waren de toetsen niet in zijn geheel achteraf besproken, maar alleen op enkele punten die
moeilijkheden hadden opgeleverd). In tabel 9 worden de gemiddelden van de eerste en
tweede afname op de drie toetsonderdelen gepresenteerd. De gegevens zijn gebaseerd op
de scores van 24 leerlingen. In verband met de hierna te bespreken gegevens uit Engeland
en Ierland, worden de gemiddelden ook getransformeerd naar een schaal met een gemid-
delde van 100 en een standaarddeviatie van 15, op basis van de resultaten van de psycho-
metrische steekproef.

Er blijken aanzienlijke verschillen tussen de eerste en de tweede afname. Het verschil is
het grootst bij de toets Taalgebruik, die bij de eerste afname landelijk gezien het laagst
uitviel. Omdat het hier dezelfde toetsen betreft, zijn de verschillen waarschijnlijk wat
geflatteerd.

Macnamara (1964) voerde in Dublin een onderzoek uit om het trainingseffect op 6 Moray
House English Tests te onderzoeken, omdat hij bij de verwerking van zijn gegevens uit
Ierland met Engelse normgegevens op soortgelijke problemen stuitte (Macnamara, 1966).
Op een schaal met een gemiddelde van 100 en een standaarddeviatie van 15 kwam hij tot
een trainingseffect van 6 punten en hij haalt andere onderzoeken aan waarin effecten van
dezelfde orde van pootte blijken.

Uit tabel 9 bhjken verschillen van 4,9 en 13 punten. Als we het effect van Macnamara (6
punten) als reëel aanhouden, dan betekent dit op de door ons gebruikte toetsen een
verschil in ruwe scores van ongeveer 2 punten. Hoewel het nogal speculatief is, zou dit
betekenen dat de verschillen met de landelijke gemiddelden nogal geflatteerd zijn. Op de
toets Stillezen zou bijv. het landelijke gemiddelde binnen bereik komen. De aanname
hierbij is dat het gebruikelijk is om vrij specifiek op de Eindtoets Basisonderwijs voor te
bereiden. Hierover, noch over de effecten daarvan, zijn ons echter gegevens bekend. Het
zou een onderzoek waard zijn.

Omdat de items uit de rekentoets duidelijk gerelateerd kunnen worden aan leerstofgedeel-
ten, hebben we ook de scores op itemniveau vergeleken met de gegevens van de psycho-
metrische steekproef. Hieruit blijkt niet dat bepaalde itemrubrieken sterk verschillen van
andere, hoewel de rubrieken gewone breuken, herleiding van breuken en procenten het
meest consistent laag zijn bij de Friese groepen, in tegenstelling tot de Utrechtse groep.
Het ziet er echter naar uit dat over de gehele linie de scores laag liggen.

In het startonderzoek (klas 3) en het parallelonderzoek hebben we geconstateerd dat er
tussen de Friese scholen en de scholen in het Utrechtse weidegebied aanzienlijke verschil-
len bestaan m.b.t. de tijd die aan het vak rekenen wordt besteed. Deze verschillen lopen
parallel aan de geconstateerde verschillen op de rekentoetsen en er werd verondersteld dat
hiertussen een oorzakelijk verband zou kunnen bestaan. Wel werden de nodige reserves in
acht genomen, omdat binnen de groepen de samenhang tussen de toetsresultaten en de
tijdsbestedingsgegevens niet al te duidelijk was. Naar aanleiding van deze bevindingen
hebben we opnieuw de weekroosters van de deelnemende scholen over de klassen 3-6
geanalyseerd.

In tabel 10 geven we eerst een overzicht van de totale weekroosters over klas 3-6 in kwart
uren per week, als volgt onderverdeeld (tussen de haakjes staan de letters uit artikel 2 van
de lager-onderwijswet van 1920):

De gemiddelden in de tabel zijn gewogen gemiddelden, waarbij het aantal leeriingen per
school als wegingsfactor is gebruikt. In ieder van de groepen A en B is één school niet
meegerekend, omdat de roosters van deze Jenaplan-scholen voor ons doel niet voldoende
analyseerbaar waren. De Utrechtse school die vanaf klas 5 in twee scholen is gesplitst,
hebben we als één school beschouwd.

Opnieuw bhjkt dat volgens de weekroosters in Friesland aanzienlijk mmder tijd aan
rekenen wordt besteed dan in Utrecht (ruim 12 kwartier over vier jaar, d.w.z. ongeveer 3
kwartier per week)._Ook de tijd voor taal en lezen ligt lager. Daarentegen wordt er meer
tijd opgevoerd voor de vakkencombinatie (a-i). Dit verkleint de verschillen enigszins. Een
deel van de tijd die m Friesland minder aan rekenen wordt besteed, wordt gebruikt voor

Figuur 3. Strooidiagram van de relcengemiddelden in Iclas 6 en tijdsbesteding aan relcenen in klas 3-6.

onderwijs in het Fries, maar niet alleen daarvoor. In Friesland wordt ook iets meer tijd
besteed aan het godsdienstonderwijs en de expressievakken.

In tabel 11 worden de correlaties tussen tijdsbesteding aan het vak rekenen en het
gemiddelde op de rekentoetsen vermeld, waarbij ook weer de groepen A, B en C worden
samengenomen onder de naam Friesland.

In figuur 3 wordt het strooidiagram afgebeeld, met daarin getekend de regressielijnen van
Y (rekengemiddelde klas 6) op X (tijdsbesteding klas 3-6) voor de scholen in Friesland en
Utrecht. Hierbij is de voor het vak rekenen opgevoerde tijd vermeerderd met het derde
deel van de tijd voor de vakkencombinatie (a-i).

Hieruit blijkt dat de regressie zeer heterogeen is. Om deze reden is het statistisch niet
geoorioofd om de factor tijdsbesteding als covariatie te gebruiken, maar het zou ook niets
opleveren, d.w.z. de verschillen tussen Friesland en Utrecht op de rekentoets zouden er
ook niet door gereduceerd worden. Het vermoeden dat de verschillen in rekenprestaties
verklaard zouden kunnen worden door de verschillen in tijdsbesteding, wordt bij de door
ons gevolgde procedure niet bevestigd.

Zoals we in par. 2.3 hebben gezien, wordt een aanzienlijk deel van de verschillen tussen de
groepen A, B, C en U in klas 6 verklaard door de verschillen in klas 3 en na klas 3 zijn de
verschillen niet meer veel groter geworden, ondanks toenemende verschillen in onderwijs-
tijd. Waardoor de verschillen in klas 3 zijn ontstaan, is echter niet duidelijk. Zowel in het
parallelonderzoek, het daarop gevolgde aanvullende onderzoek als nu in het vervolgonder-

zoek hebben we aanzienUjke verschillen in rekenvaardigheid gevonden tussen de Utrechtse
groep en de Friese groepen. Gezien het voorgaande ligt het voor de hand om te veronder-
stellen dat de basis voor deze verschillen in de eerste leerjaren ligt. Nader onderzoek zou
hierop hcht kunnen werpen.

De vraagstelling voor dit onderzoek hebben we als volgt omschreven: in hoeverre onder-
vinden van huis uit friestalige kinderen aan het einde van het basisonderwijs belemme-
ringen in schoolsucces, vergeleken met een overigens vergelijkbare groep van huis uit
nederiandstalige kinderen en vergeleken met een landelijke steekproef. Daarbij hebben we
schoolsucces uiteen gelegd in receptieve schriftelijke taalbeheersing (in het Nederiands) en
rekenvaardigheid.

In dit vervolgonderzoek verschilt de schriftelijke beheersing van het Nederiands niet in
belangrijke mate tussen de Friese groepen onderiing en vergeleken met de Utrechtse
groep. Landelijk gezien is in alle groepen het niveau echter laag. Vermoedelijk zijn de
verschillen met de landelijke gemiddelden enigszins geflatteerd, omdat de leeriingen in de
steekproef niet specifiek op de gebmikte toetsen waren voorbereid.
De rekenvaardigheid verschilt niet tussen de Friese groepen onderiing, maar vergeleken
met de Utrechtse groep en landelijke gegevens is het niveau laag. Een verklaring hiervoor
hebben we niet kunnen vinden. Gezien de resultaten op de taaltoetsen is het echter
moeilijk in te zien dat de taalachtergrond van de leeriingen dit verschil verklaart.
Het vermoeden dat verschillen in tijdsbesteding aan het vak rekenen verantwoordelijk zijn
voor de verschillen in rekenprestaties tussen Friesland en Utrecht, kon niet worden be-
vestigd. Hoewel het onwaarschijnlijk is dat bij een cursorische vaardigheid als rekenen de
onderwijstijd niet van belang is (vgl. Lundgren, 1972), hebben we dit verband bij deze
kleine steekproef van scholen niet zichtbaar kunnen maken met de door ons gehanteerde
analysemethode.

Gezien de overeenkomst tussen bevindingen in klas 3 en 6 en de hoge correlaties, waar-
door — statistisch — de verschillen in klas 6 voor een groot deel verklaard worden door de
verschillen in klas 3, is het niet onwaarschijnlijk dat de oorzaak van de geconstateerde
verschillen in de beginjaren van het onderwijs gezocht moeten worden. Nader onderzoek
op dit punt is gewenst. Hierin zou zowel de f^eitelijke tijdsbesteding als de vormgeving van
het rekenonderwijs moeten worden betrokken.

De kern van onze slotbeschouwing in het eindrapport (Wijnstra, 1976) kwam er ongeveer
op neer, dat — wanneer de schoolvorderingen in aanmerking worden genomen — in
Friesland op plaatselijk niveau een zekere keuzevrijheid aanwezig is bij de vormgeving van
het onderwijs m.b.t. de voertaal en het onderwijs in het Fries als vak. Gezien de overeen-
komst in bevindingen tussen dit vervolgonderzoek en het parallelonderzoek, kan deze
uitspraak gehandhaafd blijven. In Friesland is het mogelijk om verschillende wegen te
volgen (eentalige school, tweetalige school) om een gelijk niveau van schoolsucces te
bereiken.

Buter, P., Wesseling, H & Wijnstra, J.M. Het van huis uit friestalige kind in het nederlandstalige basis-
onderwijs, interimrapport V projekt Friesland. Utrecht; Instituut voor Pedagogische en Andrago-
gische Wetenschappen, 1976.

ClTO-publikatie no. 31. Handleiding schooltoetsen basisonderwijs 1975. Arnhem; Centraal Instituut
voor Toetsontwikkeling, 1974.

Jansen, G.G.H. De psychometrische analyse van de schooltoetsen basisonderwijs 1975. Arnhem; Cen-
traal Instituut voor Toetsontwikkeling, 1975 (CITO-pubhkatie no. 35).

Lundgren, U.V. Frame factors and the teaching process. Stockholm, Almquist & Wiksell, 1972.

Macnamara, J. Zero error and practice effects in Moray House English quotients. British Journal of
Educational Psychology, \ %A,34, 315-320.

Macnamara, J. Bilingualism and primary education. Edinburgh University Press, 1966.

Nie, N.H., Hull, C.H., Jenkins, J.G., Steinbrenner, K. & Bent, D.H. Statistical package for the social
sciences. New York; McGraw-Hill, 1975.

Overall, J.E. & Klett, C.J. Applied multivariate analysis. New York; McGraw-Hill, 1972.

Spitz, J.C. Statistiek voor psychologen, pedagogen, sociologen. Amsterdam; Noord-Hollandsche Uit-
gevers Maatschappij 1968.

Stijnen, P.J.J. Taalgebruik, sociaal milieu en schoolresultaten. Nijmegen; Nijmeegs Instituut voor On-
derwijsresearch, 1975.

Stijnen, P.J.J. et al. Eindrapport 2e fase Kerkrade-projekt (precieze titel nog niet bekend). Nijmegen;
Nijmeegs Instituut,voor Onderwijsresearch, in voorbereiding.

Winer, B.J. Statistical principles in experimental design. London; McGraw-Hill, 1970.

Wijnstra, J.M. Tweetaligheid in Friesland: één kind, twee talen. Pedagogische Studiën, 1970,47,
152-168.

Wijnstra, J.M. Het van huis uit friestalige kind en zijn tweede taal: twee jaar later. Utrecht; Instituut
voor Pedagogische en Andragogische Wetenschappen, 1972.

Wijnstra, J.M. Dc invloed van het opleidingsniveau van de ouders op toetsprestaties van plattelands-
kinderen. Memoreefcs Onderwijsresearch, 1974, 1, nr 6, 1-6.

Wijnstra, J.M. Het onderwijs aan van huis uit friestalige kinderen. 's-Gravenhage; Staatsuitgeverij, 1976
(SVO-reeks nr. 2).

Interdisciplinaire Wetenschapsbeoefening ?
Verslag van een Methodologische
Vingeroefening

According to the O.li.C.D.-definition (1972), 'interdisciplinary' is 'an adjective describing tiie
interaction among two or more different disciplines. This interaction may range from simple
communication of ideas to the mutual integration of organising concepts, methodology, proce-
dures, cpistemology, terminology, data, and organisation of research and education in a fairly
large field ...'

This definition gives rise to many questions and problems of a, fundamental, methodological as
well as a practical character. On the one hand: what is the structure of a scientific product
resulting from such a 'mutual integration'; how can the process which should yield such a
product be systematized or steered? On the other hand: how can the interaction between
persons trained in different disciplines be realised in (Dutch) universities which arc organized
around highly autonomous, (mono)disciphnary groups of researchers and teachers Cvakgroe-
pcn')?

This article reports a methodological exercise made within the frame-work of some interdisci-
plinary research activities, when writing a thesis (1978), devoted to The functioning of feed-
back in higher education'.

These activities involved the construction of a theoretical frame of rcfcrence consisting of
analogies, drawing on not only theory and models from the field of learning psychology but
also from such diverse disciplines as cybernetics, psychiatry and argumentation theory.
Further more, this exercise involved the simulation of real life - interaction between partici-
pants of an interdisciplinary group, thus avoiding the practical problems wc referred to.

Negatief geformuleerd kan interdisciplinaire wetenschapsbeoefening (èn, m het verlengde
daarvan, interdisciplinair onderwijs) worden opgevat als een middel ter bestrijding van
vakidiotisme of intellectuele schotjesgeest. Het meest gehoorde positieve argument luidt
dat de complexiteit van de maatschappelijke problemen waarmee men — ook als weten-
schapper - wordt geconfronteerd, dusdanig is toegenomen, dat de samenleving eenvou-
digweg op 'interdisciplinaire oplossingen' is aangewezen.

Op zichzelf is interdisciplinaire samenwerking tussen onderzoekers of andere beroepsuit-
oefenaren niets bijzonders. Men ziet het 'dagelijks gebeuren', binnen*klinieken, adviesbu-
reau's, in het kader van onderzoekprojekten, enzovoort. Medewerkers, leden van een
multidisciphnair team, elk met hun eigen monodisciplinaire achtergrond en referentie-
kader, ingehuurd om gezamenlijke problemen dichter bij een oplossing te brengen, leren
elkaar al communicerend en improviserend in de dagelijkse werksituatie vinden, nemen
informatie en ideeën van elkaar over en functioneren tenslotte interdisciplinair.

Er doemen echter vele vragen en problemen op wanneer men zich expliciet gaat bezinnen
op de lading die wordt gedekt door terminologische vlaggen als 'multidisciplinair' en
'interdisciplinair', alsook op de (hoogst actuele) vraag hoe men aan de - in de praktijk op
'natuurlijke' wijze tot stand komende - interdisciplinaire samenwerking een meer forme-
le, geinstitutionaliseerde, basis kan geven.

In het O.E.C.D.-rapport 'Interdisciplinarity' (1972) wordt 'multidisciplinary' omschreven

'Juxtaposition of various disciplines, sometimes with no apparent connection between them e.g.:
Music + mathematics + history.'

'an adjective describing the interaction among two or more different disciplines. This interaction may
range from simple communication of ideas to the mutual integration of organising conccpts, method-
ology, procedures, epistemology, terminology, data, and organisation of research and education in a
fairly large field ...'

Kennelijk imphceert een interdisciplinaire werkwijze steeds een interactie, een rwcc-rich-
ting verkeer, tussen (beoefenaren van) verschillende monodisciplines. Beide partners moe-
ten er beter, althans anders van worden. Verder valt in de definitie op, dat deze interactie
kan plaatsvinden langs een geheel continuum, waarvan het bescheiden einde door gewone
communicatie tussen niet-vakgenoten wordt gekenmerkt en het ambitieuze einde door
een wederzijdse integratie van concepten, methoden, terminologie, enz. wordt getypeerd.
Het lijkt niet moeilijk zich een concreet beeld te vormen van een geslaagde interdisci-
plinaire interactie op het allereenvoudigste niveau: een medicus en een socioloog praten
wat met elkaar, laat ons zeggen over 'optimalisering van de gezondheidszorg' vertellen
elkaar 'iets' (theoretische snuljes, empirische feiten of feitjes, enz.) dat is ontleend aan
hun eigen moederdisciplines en hebben vervolgens het gevoel dat ze beiden iets van het
gesprek hebben meegenomen.

Voor een beantwoording van de vraag hoe het product en het proces van de interactie op
het hoogste abstractieniveau (de wederzijdse methodologische, conceptuele en terminolo-
gische integratie, enz.) eruit zien, lijkt meer verbeeldingskracht nodig.
Wat het tweede probleem betreft - de institutionalisering van interdisciplinaire samen-
werking, respectievelijk de 'organisation of research and education ...' in de O.E.C.D.-defi-
nitie, - kan het volgende worden opgemerkt. Sedert nog niet zo lange tijd, een decen-
nium of zo, wordt, ook in Nederland, geprobeerd een interdisciplinaire aanpak in het
wetenschappelijk onderwijs te concretiseren. Bekende voorbeelden van nieuwe (inter)dis-
ciplines, met daaraan gekoppelde opleidingen, zijn bestuurskunde, miheukunde en onder-
wijskunde. Maar ook binnen oude en respectabele disciplines, zoals de geneeskunde er één
is, maakt het interdisciplinaire denken steeds meer furore (men zie bijv. A.A. de Roo,
1978) en wint het inzicht veld dat basisvakken (zoals anatomie en fysiologie) en de meer
praktijk-gerichte klinische vakken niet meer strikt gescheiden, en in de tijd achter elkaar
volgend, maar veeleer op geïntegreerde wijze dienen te worden aangeboden, opdat de
aanstaande artsen beter dan voorheen toegerust worden om hun beroepsrol - het oplos-
sen van patiëntenproblemen - met succes te vervullen.

Met andere woorden, de oude gedachte dat de integratie van kennis, zich maar 'in het

hoofd' van de student moet voltrekken (sommigen menen dat dit zelfs inherent is aan het
volgen van wetenschappelijk onderwijs) begint hier en daar plaats tc maken voor het
streven om de studenten door middel van formele onderwijsvoorzieningen een handje bij
de integratie te helpen.

De laatste jaren begint een stroom(pje) van publicaties op gang te komen over empirische
bevindingen, opgedaan met de constructie van interdisciplinair opgezette cursussen en het
vervaardigen van geïntegreerd leermateriaal zoals werkboeken (men zie bijvoorbeeld Co-
hen, 1978). Veelal betreft het hier de ervaringen van de producenten van cursusmateriaal.
Over het consumentenaspect - de eigenlijke leerpsychologische effecten van interdiscipli-
nair onderwijs bij de studenten — bewaart de literatuur, althans voor zover de auteur kan
overzien, nog het stilzwijgen.

In het voorgaande viel de term 'integratie'. Het ligt voor de hand hierbij te denken aan
integratie in cognitieve zin (kennis, inzicht, probleemoplossing, enz.). Een belangrijk bij-
komend, onderwijskundig, argument voor dit geïntegreerde, probleemgerichte, onderwijs
is echter dat de interdisciplinaire aanpak van het onderwijs ook de studiemotivatie ten
goede zou komen, aangezien het probleem-gerichte (versus discipline-gerichte) onderwijs
nauwer aansluit bij de interessen en de 'leefwereld' van dc studenten.
Bij dit alles moet worden opgemerkt dat het samenstellen van interdisciplinaire onderwijs-
en/of onderzoekprogramma's of programma-onderdelen binnen onze verzuilde universitei-
ten, met hun sterk autonome, monodisciplinair georganiseerde, vakgroepen, vanuit organi-
satorische (èn psychologisch) gezichtspunt geen eenvoudige zaak is. Zo wijst Van der
Drift (1978) in het kader van een studiedag 'Horizontale samenwerking in de universiteit'
op het volgende.

'In dc huidige situatie zien wij de balans tussen "drang naar autonomie" cn "drang naar samenwer-
king" meestal doorslaan naar autonomie. Factoren die hieraan in belangrijke mate bijdragen zijn de
algemeen geldende opvatting, dat de wetenschappelijke ontwikkchngcn slechts plaatsvinden binnen do
afzonderlijke vakgebieden - cn dan bij voorkeur nog in de fundamentele vakgebieden - en dat
derhalve samenwerking met anderen verspilde energie is... Een derde factor, die de autonomie bevor-
dert, is de bestaande beloningsstructuur. In het algemeen zijn wetenschappelijke medewerkers voor
hun materiele belangen en daarmee samenhangende beoordeling, aangewezen op hun hoogleraar-be-
heerder. Deze .zal bij zijn oordeel een grotere waarde hechten aan de prestaties binnen het eigen
vakgebied dan aan het aandeel, dat ócn van zijn medewerkers heeft gehad in het resultaat van een
samenwerkingsprojckt.'

Het is in het licht van het bovenstaande dan ook niet verwonderlijk dat de R.U. Limburg,
alwaar men uitdrukkelijk voor een probleem-gerichte en interdisciphnair georiënteerde
opzet heeft gekozen, door de invoering van een matrixorganisatie een randvoorwaarde
heeft willen scheppen waardoor het type problemen zoals zojuist gesignaleerd, althans
kan worden teruggedrongen.

Het voorgaande samenvattend kan worden gesteld dat de verwezenlijking van de intcrdls-
ciplinariteitsgedachte tenminste twee soorten vragen doet rijzen:

Vragen van het volgende type. Hoe kan men het product van een interdisciplinaire inte-
gratie - op een nfveau dat verder reikt dan de 'simple communication of ideas' - struc-
tured en inhoudelijk afbeelden? Hoe kan men het proces dat tot deze integratie leidt
faseren, systematiseren, sturen, enzovoort?

Hoe valt interdisciplinaire samenwerking binnen 'verzuilde', rondom monodisciplinaire,
autonome, vakgroepen opgezette, universiteiten, organisatorisch te verwezenlijken? Van
welke aard zijn de psychologische weerstanden tegen interdisciplinaire samenwerking?
Identiteitsproblematiek? Welke 'beloningen' kunnen voor interdisciplinair werk worden
'uitgeloofd'? Men zie in dit verband bijvoorbeeld De Groot (1977, blz. 231-34) over
'republieken en imperia' binnen één vakgebied.

In de navolgende paragrafen wordt geprobeerd een zo levensecht mogelijk verslag te geven
van de wijze waarop in het kader van de totstandkoming van een proefschrift (Buis, 1978)
werd getracht een multi/interdisciplinaire werkwijze te concretiseren.
De inhoudehjke probleemstelling waaraan de dissertatie was gewijd luidde: welke basis-
voorwaarden moeten vervuld zijn opdat terugkoppeling (feedback) van informatie naar
studenten over de door hen behaalde studieprestaties zo effectief en efficiënt mogehjk
kan geschieden? Uit dc (zeer uitgebreide) literatuur over dit onderwerp is bekend dat men
door het manipuleren van terugkoppelingsvariabelen het leer- en studieproces in belang-
rijke mate kan sturen; op de vraag hoe men de terugkoppelingsprocedures in de praktijk
van het (wetenschappehjk) onderwijs zo goed mogelijk kan opzetten, geeft de hteratuur
nauwehjks een antwoord. De voornaamste doelstehing van het onderzoek was daarom
gelegen in het formuleren van een aantal - empirisch onderbouwde - vuistregels waarvan,
niet alleen onderwijskundigen maar ook onderwijspractici — met name vakdocenten/curri-
culumconstructeurs — enig profijt zouden kunnen hebben bij de opzet van cursussen,
enzovoort.

Anders geformuleerd: het eigenlijke onderzoek behelsde een zo grondig mogehjke ad-
structie van (practisch hanteerbare) vuistregels. Uit deze doelstelling bleken twee metho-
dologische hoofdproblemen voort te vloeien, waarvoor de oplossing in 'multi/interdiscipli-
naire richting' moest worden gezocht. Het eerste probleem (A) luidde: waar halen we een
theoretisch kader vandaan om de analyse van het empirisch materiaal te kunnen structu-
reren? Het tweede probleem (B) was van argumentatie-strategische aard en luidde: hoe
kan 'het betoog' van de auteur zodanig worden opgezet dat hij de beste kansen maakt om
door een heterogene, multidisciplinair samengestelde, kring van lezers au sérieux te wor-
den genomen?

Ad A; in de theorefische (leer)psychologische hteratuur worden de functies die de terug-
koppeling in het leerproces vervult veelal in termen van cognitieve en/of motivationele
effecten behandeld. Op gronden, die in het bestek van dit korte artikel niet tot in details
kunnen worden uitgewerkt, was de promovendus van mening dat een vitale functie van
feedback (zonder een minimale terugkoppeling gaat 'het' eenvoudig niet) en anderzijds
een sociale functie van feedback (het beeld van gesprekspartners die boodschappen aan
elkaar verzenden, waarop de ander met functioneel gedrag moet kunnen reageren) in de
psychologische theorieën onderbelicht blijven. Teneinde zijn theoretisch kader ook vanuit
deze laatstgenoemde gezichtspunten zo adequaat mogehjk te vullen, zag de onderzoeker

zich genoopt - over de grenzen van de psychologie heen - te speuren naar theoretische
zienswijzen en modellen. Aldus belandde hij bij de cybernetica, de psychiatrie en de
argumentatieleer.

Ad B; de veelgehoorde opmerking dat er een '(communicatie)kloof bestaat tussen onder-
zoekers van onderwijs en onderwijspractici', die daarmee de daadwerkelijke invoering van
onderwijsvernieuwingen belemmert en/of sterk vertraagt, moge als een cliché overkomen,
zij lijkt daarom niet minder behartigenswaardig te zijn. Becher (1974, blz. 45) is van
mening dat onderzoekers maar ferm de hand in eigen boezem moeten steken en onder-
zoekresultaten moeten presenteren 'in ways which will be both informative and illumin-
ating for practitioners and policy makers, and not just technically impressive for their
fellow researchers.' Bij dit alles benadrukt Becher de noodzaak van een meer holistische
benadering van leersituaties, waarbij de onderzoeker zich ook buiten de grenzen van zijn
eigen specialisme zou moeten wagen.

De argumentatietheoreticus Perelman (1958) wijst erop dat wanneer 'een spreker' met
een, naar functie en beroep, heterogeen auditorium wordt geconfronteerd, multipele
argumenten (in het geval van ons proefschrift argumenten, ontleend aan een multidiscipli-
naire verscheidenheid van gezichtspunten) de overtuigingskracht van het betoog ten goede
kunnen komen.

Aldus convergeerden de sub A en B vermelde overwegingen naar de conclusie: vermijdt
monodisciplinaire eenzijdigheid, zowel wat de constructie als de presentatie van het theo-
retisch kader betreft.

Daar een onderzoekthema als het onze een terrein bestrijkt dat qua uitgestrektheid en
complexiteit als een mer ä boire kan worden bestempeld en, zoals in de vorige paragraaf
reeds tot uitdrukking kwam, er bepaald geen kant-en-klare theorie beschikbaar was, leek
de formulering van specifieke hypothesen — en toetsing daarvan in een laboratorium — of
veldsituatie - onbegonnen werk. De keuze viel daarom op een exploratieve analyse van
een literatuurverzameling, die zo'n 150 boeken, dissertaties en tijdschriftartikelen omvat-
te. Enerzijds kan dit type onderzoek als 'exploratief in de zin van De Groot (1961)
worden getypeerd. De Groot vermeldt voor dit onderzoektype de volgende indicatiestel-
ling

'lixploratief onderzoek is, positief gesproken, vooral dan geïndiceerd, wanneer men op een relatief
breed gebied, waarover weinig bruikbare theorie bestaat, met een veelheid van observatiegegevens of
variabelen te maken heeft over wier relatieve relevantie weinig bekend is. Men heeft echter wel - öf op
grond van theoretische gezichtspunten, of van duidelijke, practische vraagstellingen - een betrekkelijk
gerichte belangstelling voor bepaalde typen samenhangen, met bijbehorende ideeën cn relatief vage
verwachtingen. Deze gerichtheid bepaalt in hoofdzaak welke gegevens men zal opnemen, wat men zal
meten en, ruim gesteld, welke verbanden men alzo zal nagaan.' (De Groot, 1961, blz. 324).

Anderzijds vertoonde ons onderzoek de kenmerken van een interpretatiefjtheoretisch
onderzoek, eveneens in de zin van De Groot (1961), dat o.m. hierdoor wordt gekenmerkt
dat de conclusies (of wel interpretatieve beweringen) berusten op hetgeen de auteur uit
een eenmalige, gesloten, (maar uiteraard wel voor anderen toegankelijke) verzameling
materiaal heeft 'gehaald'. Een onderzoektype dat door De Groot wordt beschreven als één

van de meest attractieve, maar (liet risico van contaminatie en subjectiviteit!) tevens als
één van de meest riskante.

Ons onderzoek verliep in twee fasen. In de eerste fase werd een theoretisch kader gecon-
strueerd. Hierbij werden de verschillende functies die dc terugkoppeling in het leer/do-
ceerproces geacht wordt te vervullen (waak- en signaleringsfunctie; hypothesetoetsende
functie; communicatieve functie, enzovoort) belicht vanuit een muhidisciplinaire ver-
scheidenheid aan invalshoeken. Inzichten van o.m. de cybernetici Ashby (1960) en Pask
(1965), de psychiaters Watzlawick e.a. (1970), de argumentatietheoreticus Perelman
(1958), alsook van een aantal psychologen (o.m. Annett, 1969 en Ausubel, 1963) lever-
den hier het informatie- en inspiratiemateriaal. Tenslotte werd een poging tot integratie
van de verschillende standpunten (de overgang van multi naar inter!) ondernomen, die als
volgt verliep. De kenmerken van menselijke, lerende, systemen, zoals studenten en docen-
ten, werden beschreven in termen van een structurele dimensie — te weten complexiteit,
een dimensie waarop mensen niet principieel verschillen van (sommige) machines - en
een dynamische dimensie — te weten het vermogen tot zelfvernieuwing of repertoirever-
andering, een dimensie waarop mensen wèl van machines verschillen. Hierbij werden
onder iedere dimensie een reeks monodisciplinaire zienswijzen, in de vorm van analogieën,
ingevuld. Ter illustratie, de verbale invulling van één van deze 'A:B = C:D'-structuren: De
privé-instructeur (A) die zijn onderwijsprogramma, zijn programmataai en zijn beslissings-
norm voortdurend herziet : een onderwijsmachine (B) (die met een vast dogma werkt) als
een modern retoricus (C), die nieuwe argumenten aanvoert en oude argumenten elimi-
neert, in functie van het verloop van het betoog : een klassiek retoricus (D) die zijn
pappenheimers precies meent te kennen en hen een bij voorbaat vaststaand programma
(van stijlfiguren, retorische wendingen, enz.) vooriegt.

In dit voorbeeld is het A:B-element ontleend aan de cyberneticus Pask en het C:D-ele-
ment aan de rechtsfilosoof/argumentatietheoreticus Perelman.

Vervolgens werd aan dit schema van analogieën een aantal algemene werkhypothesen
(zoals: 'specifieke terugkoppeling van studieprestaties is effectiever dan globale') ont-
leend, ter toetsing aan de empirisch georiënteerde literatuur. Hiermee was het onderzoek
in zijn tweede fase gekomen. De tijdens deze fase gevolgde werkwijze kan als volgt
worden omschreven.

Voor de adstructie/toetsing van de bovengenoemde en andere werkJiypothesen werd
hoofdzakelijk uit een monodisciplinaire bron (de psychologie) geput. Hierbij werd zoveel
mogelijk de convergentiemethode gehanteerd. Dat wil zeggen dat zoveel mogelijk onder-
zoekresultaten de revue passeerden die enerzijds waren verkregen in de context van geva-
rieerde onderzocktypen (zowel laboratorium- als veldexperimenten, literatuurreviews,
enz.) en anderzijds — inhoudelijk — betrekking hadden op gevarieerde onderwijsleersitua-
ties (zowel geprogrammeerde instructie als micro-teaching, post-academisch medisch on-
derwijs, enz.).

De per onderzoektype en per onderwijsleersituatie in de literatuur aangetroffen bevindin-
gen werden beschouwd als subconclusies, behorende bij deelverzamelingen van gegevens.
Hoe sterker deze subconclusies convergeren naar 'specifieke feedback is effectiever dan
globale' hoe sterker de werkhypothese mag worden geacht.

Men vergelijke de werkwijze van bijvoorbeeld een jurist die zijn hypothese/theorie 'er was
bij verdachte wèl/gcen sprake van voorbedachten rade' bij voorkeur fundeert aan de hand
van convergentie van de verklaringen van niet alleen veel, maar vooral van heterogene.

getuigen (getuigen/deskundigen; intieme vrienden van de verdaclite; werkgevers; collega's,
etc.), aangezien deze heterogeniteit de beste waarborg biedt dat het inderdaad afzonder-
lijke (onafhankelijke, zo min mogelijk gecontamineerde) deelverzamelingen van gegevens
betreft.

De eindconclusies van het onderzoek werden tenslotte vertaald naar een tiental vuistre-
gels, die in gewone - vanuit het gezichtspunt van disciplinariteit 'neutrale' - omgangstaal
waren geformuleerd.

Dc vraag rijst in hoeverre ons onderzoek - wat enerzijds het prot^ucraspect en anderzijds
het pTOcexaspect betreft — nu als multi- of interdisciplinair kan worden bestempeld, in het
licht van de problematiek, zoals aangestipt in 1. Is er iets terechtgekomen van de vervaar-
diging van een product als resultante van wat, in de ambitieuze termen van de O.E.C.D.-
defmitie, een methodologische, conceptuele en terminologische integratie wordt ge-
noemd?

Methodologisch gesproken kan dc strategie die bij onze dataverwerking werd gevolgd
multidisciplinair worden genoemd. Enerzijds namelijk (de analyse van empirisch-psycho-
logische onderzoekresultaten) functioneerde de onderzoeker als psycholoog, anderzijds
(voor zover hij binnen een gesloten verzameling schriftelijk materiaal naar convergente
informatiebronnen speurde en deze interpreteerde) volgde hij de strategie van een histori-
cus, respectievelijk van een jurist (het adstrueren van beweringen, door een aantal hetero-
gene getuigen 'op te roepen').

Het product van deze activiteiten bestond ondermeer in een zelf vervaardigd theoretisch
schema van analogieën, geconstrueerd aan de hand van inzichten ontleend aan uiteenlo-
pende monodisciplines. Wellicht is hier de term 'integratie' niet misplaatst en kan derhalve
van een interdisciplinair product(je) worden gesproken. Voorts leverde het onderzoek een
soort 'multidisciplinaire taal' op: enerzijds werd in het proefschrift een groot aantal
multidisciplinair gekozen, illustraties, voorbeelderi, en 'beelden' tout court verwerkt, an-
derzijds werd, wat de conclusies en de vuistregels betreft, naar een neutraal,'meta'-discipli-
nair, taalgebruik gestreefd. Of met dit alles echter van conceptuele en terminologische
integratie mag worden gesproken is zeer de vraag!

Wat de vraag betreft in hoeverre onze werkwijze overeenkwam met een interdisciplinair
proces, het volgende.

'Echte' interdisciplinaire processen worden, althans volgens de eerder geciteerde O.E.C.D.-
definitie gekenmerkt door interactie tussen (beoefenaren van) verschillende disciplines.
Indien men aan 'interactie' de meer abstracte betekenis van interactie op lange termijn -
via 'het forum', de literatuur enz. — wil toekennen, valt over het door ons verrichte
onderzoek nauwelijks een zinnige opmerking te maken. Of publicaties al dan niet tot een
interactie, van welke aard dan ook, bijdragen, is een zaak die 'moet blijken'.
Indien men aan 'interdisciplinaire interactie' een meer concrete inhoud geeft door te
denken aan de interactie tussen niet-vakgenoten die - in elkaar's lijfelijke nabijheid - in
een werksituatie een gezamenlijk, interdisciphnair, product trachten af te leveren, komt
de vraag in hoeverre onze onderzoekactiviteiten 'interdisciplinair' mogen worden ge-
noemd, in een wat interessanter licht te staan.

De conclusie moet dan namelijk luiden dat ons onderzoek de pure kenmerken van een
simulatie-experiment vertoonde. Immers, de onderzoeker trad op als een solitair opereren-

de (denkbeeldige) secretaris van een (fictieve) vergadering, samengesteld uit (door hèm!)
geselecteerde representanten van diverse disciplines, wier monodisciplinaire uitspraken
door de notulist op nogal eigenmachtige wijze tot interdisciplinaire notulen werden geïn-
tegreerd.

Met erkenning van de nadelen die mogen kleven aan simulatie-onderzoeken in het alge-
meen - en onze werkwijze in het bijzonder - lijkt de gedachte om interdisciplinaire
samenwerkingsprocessen door middel van onderzoek (en dat hoeft niet altijd een litera-
tuurstudie te zijn zoals in ons geval) te simuleren, bij nader inzien niet zo gek. Het is in
ieder geval een goedkoop onderzoektype, waarbij het grote voordeel komt dat de in 1.
onder II geschetste organisatorische en psychologische problemen — waarop de verwezen-
lijking van de interdisciplinariteitsgedachte in de praktijk zo vaak lijkt af te ketsen -
worden omzeild.

Mits 'de notulen' door een interdisciplinair samengesteld gremium gecontroleerd kunnen
worden, lijkt de aanpak perspectieven te bieden.

Annett, J. Feedback and human behavior. Harmondsworth, Middlesex: Penguin Books Ltd., 1969.

Ausubel, D.P. Psycholdgy of meaningful verbal learning. New York: Grune and Stratton, 1963.

Becher, R.A. The role of the researcher as an agent of innovation in the classroom. Information
Bulletin 2/1974, documentation centre for education in Europe, Council of Europe.

Buis, P. Het functioneren van terugkoppeling in het wetenschappelijk onderwijs: twee voorafgaande
voorwaarden. Proefschrift, U. van Amsterdam. Handelsuitgave: Lissc: Swets & Zeitlinger, 1978.

Cohen, M. J. Interdisciplinaire ontwikkeling van een kursus: Staatkunde in de Fakulteit der Rechtsge-
leerdheid van de R.U. Leiden. Memorandum nr. 449-78, Bureau Onderzoek van Onderwijs, Rijks-
universiteit Leiden, 1978.

Drift, K.D.J.M. van der. Een poging tot onderwijs-integratie. Memorandum nr. 439-78, Bureau Onder-
zoek van Onderwijs, Rijksuniversiteit Leiden, 1978.

Groot, A.D. de. Methodologie; grondslagen van onderzoek en denken in de gedragswetenschappen.
Den Haag: Mouton, 1961.

Groot, A.D. de. Gevraagd: forum-convergentie inzake bcgrips-, theorie-cn beilmtvarming. Nederlands
Tijdschrift voor de Psychologie, 1977, 32, 219-241.

O.E.C.D. Interdisciplinarity, report based on the results of a seminar, organized by C.E.R.1. in collabo-
ration with the French Ministry of Education at the University of Nice - september 7th - 12th
1970, blz. 25 cn 26. Paris, 1972.

Perelman, Ch. cn Olbrcchts-Tytcca, L. Traité de I'argumentation. Paris: Presses Univcrsitaires de
France. 1958.

Roo, A.A. de. Interdisciplinariteit en het medisch onderwijs. Onderzoek van Onderwijs, oktober 1978,
jaargang 7/nummer 3.

Watzlawick, P., Bcavin, J.H. en Jackson, D.D. De pragmatische aspecten van de menselijke communica-
tie. Deventer: Van Loghum Slatcrus, 1970 (vertaling).

In deze notitie worden twee zaken aan de orde gesteld. In de eerste plaats, of herkennen
('recognition') en herinneren ('recall') qua geheugenprocessen fundamenteel van elkaar
verschillen; uitgangspunt hierbij is het uit de geheugenliteratuur bekende feit dat retentie
voor zinloze lettergrepen, woorden en dergelijke over het algemeen beter is bij herken-
nings- dan bij herinneringstaken. In de tweede plaats, of het onderscheid tussen herken-
nen en herinneren samenvalt met de indeling in meerkeuzevragen aan de ene kant en
opstelvragen aan de andere kant.

Gezien het feit dat retentie over het algemeen beter is bij herkennings- dan bij herinne-
ringstaken, is de vraag waar dit verschil op berust. Theoretisch gesproken, zijn er op zijn
minst vier, elkaar niet geheel uitsluitende, verklaringen mogehjk:

1) herkennen is een gevoeliger test voor de aanwezigheid van kennis dan een herinnerings-
opdracht;

2) bij herkennen zijn minder, in het bijzonder minder ingewikkelde processen in het
geding dan bij herinneren;

3) bij herkennen zijn fundamenteel andere, minder ingewikkelde processen in het geding
dan bij herinneren;

4) herkennen en herinneren verschillen qua fundamentele processen niet of nauwelijks,
maar herkennen is in de meeste gevallen in het voordeel door bijkomende faktoren.

Voor we de verschillende verklaringen aan een nadere analyse onderwerpen, eerst het
volgende: zowel bij herkennen als herinneren is er een leerfase (presentatie van items) en
een testfase. Bij herkennen wordt in de testfase gevraagd van een al dan niet in de leerfase
aangeboden item aan te geven of het wel of niet in de leerfase voorkwam; de testfase
behoeft niet het karakter te hebben van een ja/nee vraag, maar kan ook een meerkeuze-
situatie betreffen waarin behalve een in de leerfase aangeboden item ook enige afleiders
worden gepresenteerd. Bij een herinneringsopdrachf wordt uitsluitend gevraagd de items
van de leerfase te reproduceren, meestal in een door de proefpersoon zelf te bepalen
volgorde ('free recaU').

Verklaring 1, sedert 1900 in zwang, is niet houdbaar gebleken. In feite komt verklaring 1
erop neer dat herkennen, in vergelijking met herinneren, een lagere drempelwaarde heeft,
dat wil zeggen dat bij herkenningsopdrachten het geheugenspoor voor een bepaald item
minder sterk behoeft te zijn dan bij een herinneringsopdracht. Verklaring 1 is, zoals
gezegd, niet houdbaar gebleken. Als het verschil tussen herkennen en herinneren alleen
maar zou berusten op een verschil in drempelwaardes, dan zouden herkennen en herinne-
ren door derde variabelen op dezelfde wijze beïnvloed moeten worden. Dit nu is voor een
aantal variabelen niet het geval, althans niet in een aantal gangbare, niet te ingewikkeld
opgezette onderzoekssituaties:

a) associatieve interferentie: herinneren, in tegenstelling tot herkennen, is gevoehg voor
associatieve interferentie, in het bijzonder retroactieve inhibitie;

b) potentiële organisatiegraad van het leermateriaal: puur associatieve, maar ook concep-
tuele verbanden, 'aanwezig' in het leermateriaal, bevorderen het herinneren, maar heb-
ben geen invloed op herkenningsopdrachten;

c) incidenteel vs. intentioneel leren: maakt geen verschil bij herkennen, maar wel bij
herinneren in die zin dat intentioneel leren tot betere prestaties leidt dan incidenteel
leren;

d) frekwentie van woordgebruik: frekwent gebruikte woorden doen het beter bij herinne-
ringsopdrachten, minder gangbare woorden lijken het daarentegen beter bij herken-
ningsopdrachten te doen.

Herkennen en herinneren worden dus door de onder a t/m d genoemde variabelen ver-
schillend beïnvloed; een en ander valt te lezen bij Kintsch (1970a; 1970b), Gregg (1976),
Lockhart et al. (1976), Loftus & Loftus (1976), Melton & Martin (1972), Postman
(1976) en Tulving (1976).

Vrij recentelijk (1960-1970) is er aan deze voor een deel reeds langer bekende feiten/ver-
schillen de conclusie verbonden dat herkennen en herinneren kennelijk verschillende za-
ken vertegenwoordigen. Hiermee zijn we aangekomen bij de verklaringen 2 en 3, of liever
bij verklaring 2: verklaring 3 is wel eens als zodanig geformuleerd, maar nooit — naar wij
aannemen: terecht - als een serieus alternatief beschouwd. In de beginjaren 70 is het
vooral Kintsch (1970a; 1970b; 1972) geweest, die aan verklaring 2 nadere inhoud heeft
gegeven: herkennen zou uitsluitend een (eenvoudig) beslissingsproces omvatten (gegeven
het testitem, kontroleer op de een of andere manier of het overeenkomstige geheugen-
spoor een merkteken ('tag') bevat dat naar de leerfase verwijst), herinneren daarentegen
zowel een zoekproces ('search/retrieval') als een beslissingsproces, en wel in genoemde
volgorde. Bij herinneringsopdrachten zou het beslissingsproces inhouden dat van een één-
maal herinnerd item nog gekontroleerd wordt, net als bij herkenningsopdrachten, of het
in het leermateriaal wel voorkwam. Met behulp van dit twee-processen model zijn de
bovengenoemde differentiële effecten op herkennen en herinneren prima verklaarbaar:
afhankelijk van de experimentele opzet kunnen associaties een ongustige (a) dan wel een
gunstige (b) uitwerking hebben op het zoekproces, bij intentioneel leren (c) wordt een
zoekschema Cretrieval plan' of 'scheme') opgebouwd in de vorm van associatieve en/of
conceptuele verbanden, en gangbare woorden (d), althans de geheugenrepresentaties daar-
van, hebben, in vergelijking met minder gangbare woorden, meer ingangen of invalshoe-
ken (associatieve verbanden of anderszins), die bovendien al in de leerfase ten nutte
kunnen worden gemaakt bij de opbouw van een passend zoekschema.
Het twee-processen model is zo vanaf '72 op de tocht komen te staan. De kritiek op dit
model is nog vrij fragmentarisch van aard en heeft zich op verschillende punten gericht,
onder andere dat:

— herkennen niet beïnvloed zou worden door de organisatiegraad van het leermateriaal;

— herkennen geen zoekproces zou kennen, oftewel dat het met een testitem korrespon-
derend geheugenspoor onmiddellijk toegankelijk ('direct access') zou zijn;

— herkennen, onder welke omstandigheden dan ook, superieur moet zijn aan herinneren
(impliciete aanname twee-processen model).

Deze en nog wel andere punten zijn door onderzoek geloochenstraft (Cooper & Monk,
1976; Lockhart et al., 1976; en Tulving, 1976). Een en ander betekent dat verklaring 4
heden ten dage als acceptabel wordt beschouwd. De theorievorming rond verklaring 4

heeft nog geen duidelijk, algemeen geaccepteerd beeld opgeleverd. Algemeen gesteld, gaat
men ervan uit dat herkennen en herinneren niet fundamenteel van elkaar verschillen: één
en hetzelfde proces, alhoewel er niet zozeer sprake is van één proces als wel van een
verzameling van deelprocessen, waarvan er enkele veel ingewikkelder in elkaar steken dan
werd aangenomen, met name in het twee-processen model.

De veronderstelling dat er geen fundamenteel verschil is tussen herkennen en herinneren is
ook meer rechtstreeks onderzocht, en wel door Tulving (1976). Werkend met 5-letter
woorden, vergeleek hij herinneren en — gewoon — herkennen en herkennen onder wegla-
ting in de testfase van de laatste 3, 2 en 1 letters. De resultaten wezen erop dat er geen
duidelijk breekpunt is tussen herinneren en herkennen bij respektievelijk 2, 3, 4 ('cued
recall') en 5 letters. Veeleer was er sprake van een gestage toename van het percentage
woorden dat werd herinnerd/herkend. Aan deze geleidelijke toename knoopte Tulving de
'interpretatie' vast dat bij herinneren, als experimentele konditie, uitsluitend algemene
informatie wordt verstrekt over wat herinnerd moet worden (indirekte aanduiding van het
leermateriaal door verwijzing naar bepaalde leerfase; bijvoorbeeld: Wat kunt u zich her-
inneren van de derde lijst van de morgenzitting?). Bij herkennen wordt daarenboven
specifieke informatie over het testitem verstrekt (vgl. 2 t/m 5 letters). Het zou juist
hierdoor zijn dat herkennen over het algemeen superieur is aan herinneren. Zuiver prag-
matisch bekeken, komt voorgaande interpretatie weer dicht in de buurt van verklaring 2:
de voorsprong van herkennen op herinneren moge dan niet toe te schrijven zijn aan het
feit dat bij herkennen minder, in het bijzonder minder ingewikkelde processen in het
geding zijn dan bij herinneren, maar de extra, specifieke informatie voorhanden bij her-
kennen kan kennelijk 'het' geheugenproces doelgerichter laten verlopen. De term 'doelge-
richt' slaat in dit verband niet zozeer op een geheugenproces waarbij geheugensporen als
anker, als vaststaand feit, worden gebruikt (doel = ophalen van informatie), als wel op een
rekonstruktieproces (= doel), waarbij de in de testfase verstrekte informatie tezamen met
relevante geheugensporen worden gebruikt om de in de leerfase tot stand gekomen code-
ring van gegeven x (niet x maar een selektie van x komt in het geheugen) als het ware
nieuw leven in te blazen (rekonstruktie in plaats van ophalen ('retrieval') van kant-en-
klare, ondeelbare geheugenelementen).

Als het voorgaande betrokken wordt op de vraag of opstel- en meerkeuzevragen een
verschil maken in die zin dat opstelvragen om herinnering en meerkeuzevragen om her-
kennen zouden vragen, dan moet deze vraag in het licht van de onderzoeksresultaten
ontkennend worden beantwoord. Deze conclusie is mede ingegeven door de gedachte dat
het juiste alternatief bij een meerkeuzevraag meestal njet in de letterlijke bewoording van
het tekstboek o.i.d. is gesteld, maar als parafrase is geformuleerd. Met andere woorden,
een meerkeuzevraag vormt geen zuivere herkenningstaak. Aan de andere kant, een opstel-
vraag zal over het algemeen evenzo niet het karakter hebben van een zuivere herinnerings-
taak (Wat weet u van hoofdstuk 2 uit boek x?), maar veeleer het midden houden tussen
herinneren en herkennen (Wat weet u van begrip/theorie x?; Wat is de definitie van
X?; Welke variabelen hebben volgens theorie x invloed op verschijnsej y?): 'cued recall',
waarbij x en y als 'cues' dienst doen. Meerkeuze- en opstelvragen zijn, althans voorzover
zij als test fungeren voor de vraag of iets in het kennisbestand aanwezig is of niet, dus
varianten van hetzelfde: 'cued recall'.

Cooper, A.J.R. & Monk, A. Learning for recall and learning for recognition. In: J. Brown (ed.). Recall

and recognition. New York: Wiley, 1976.
Gregg, V. Word frequency, recognition and rccalL In: J. Brown (ed.). Recall and recognition. New
York: Wiley, 1976.

Kintsch, W. Learning, memory, and conceptual processes. New York: Wiley, 1970 (a).

Kintsch, W. Models for free rccall and recognition. In: D.A. Norman (ed.). Models of human memory.

New York: Academic Press, 1970 (b).
Kintsch, W. Notes on the structure of semantic memory. In: E. Tulving & W. Donaldson (eds.). Organ-
ization of memory. New York: Acadcmic Press, 1972.
Lockhart, R.S., Craik, F.I.M. & Jacoby, L. Depth of processing, recognition and recall. In: J.Brown

(ed.). Recall and recognition. New York: Wiley, 1976.
Loftus, G.R. & Loftus, E.F. Human memory: processing of information. New York: Wiley, 1976.
Melton, A.W. & Martin, E.M. Coding processes in human memory. New York: Wiley, 1972.
Postman, L. Interference theory revisited. In: J. Brown (ed.). Recall and recognition. New York:
Wiley, 1976.

Tulving, E. Ecphoric processes in recall and recognition. In: J. Brown (ed.); Recall and recognition.
New York: Wiley, 1976.

Het Prof. 'Duijkerfonds is door de Universiteit van Amsterdam ingesteld om door het doen van
(doorgaans jaarlijkse) geldelijke uitkeringen de beoefening van de toegepaste psychologie te bevorde-
ren.

Voor het jaar 1980 is een bedrag van ƒ 25.000,- beschikbaar ten behoeve van een of meer onderzoek-
projecten. De bedoeling is kwalitatief goed onderzoek mogelijk te maken, dat anders niet gerealiseerd
zou worden omdat de middelen ontbreken. Te denken valt bijvoorbeeld aan financiële steun voor

2. Aanvragen moeten gemotiveerd worden. Vermeld dient te worden wat de doelstelling van het
project is, de opzet en wijze van uitvoering, dc duur, dc wijze van verslaglegging, de medewerkers
en degene die verantwoordelijk is voor de uitvoering, cn voorts een nauwkeurige begroting van de
kosten. Tevens dient vermeld tc worden waarom het project niet uit andere bron gefinancierd kan
worden.

3. Aanvragen zullen door de Adviescommissie van het Prof. Duijkerfonds beoordeeld worden op

- het aangevraagde bedrag (eventueel in het verband van de totale projectbegroting).
De Adviescommissie wordt gevormd door dc leden van het bestuur van de Stichting Instituut voor
Sociale cn Bedrijfspsychologie aan de Universiteit van Amsterdam (ISBP), aangevuld met een lid
van dc Wetenschapscommissie van de Subfaculteit Psychologie.
4. Schriftelijke aanvragen tot een maximum van ƒ25.000,- kunnen vóór 1 november 1979 worden
gericht aan:

Dc Adviescommissie van het Prof. Duijkcrfonds, t.a.v. Dr. A. Jansen, p.a. Stichting ISBP, Keizers-
gracht 649, Amsterdam, tel. 020 - 525.3528.

Bekkers, B. & Berkel, H.J.M. van. Werkstudenten en hun problemen: een literatuurstudie. Amsterdam:
Centrum voor Onderzoek van het Wetenschappelijk Onderwijs, september 1978.

Berkel, H.J.M. van. Werkstudenten eruit gelicht. Amsterdam: Centrum voor Onderzoek van het Weten-
schappelijk Onderwijs, maart 1979.

Keuze van nieuwe proefvelden voor de ontwikkeling van onderzoeksthemagroepen. Den Haag: Stich-
ting voor Onderzoek van het Onderwijs, december 1978 (Bestuursnota SVO 78-40).

Landelijke Coördinatie Commissie Technisch Wetenschappelijk Onderwijs - Hoger Technisch Onder-
wijs. Bulletin no. 16, T.H. Eindhoven, mei 1978.

Magnusson, O. Analyse der Berufsvorbereitungsmassnahmen in den Mitgliedstaaten der Europäischen
Gemeinschaften. Luxemburg: Amt für amtliche Veröffentlichungen der Europäischen Gemein-
scliaften, 1978.

Rapport over de voortgang en de resultaten van de ontwikkelingsexperimenten in opleidingsscholen .
voor kleuterleidsters en pedagogische akademies. Schooljaar 1977-1978. Uitgebracht door dc coör-
dinatiecommissie opleidingen basisonderwijs (sekretariaat: Postbus 482, 5201 AL 's-llertogcn-
bosch).

Seeland, Suzanne. Gelijke kansen in de beroepsopleiding. Resultaten van een seminar, Berlijn
28-30 sept. 1977. Berlijn: Europees Centrum voor de Ontwikkeling van de Beroepsopleiding, 1978.

Voortgezet Onderzoek Nieuwe Lerarenopleiding'. Een samenvattend verslag van de resultaten van het
Voortgezet Onderzoek naar enkele centrale aspekten van het funktioneren van de Nieuwe Leraren-
opleiding in Nederland. Amsterdam/Nijmegen: l.T.S., NIVOR en RITP, januari 1979.

Wesdorp, H. (red.). Studietoetsen en hun effekten op het onderwijs. Verslag van een aantal studies
betreffende de rol van meerkeuze-toetsen bij de selectie van leerhngen, hun invloed op het gedrag
van leerling en docent, hun effecten op het onderwijsbeleid en hun beïnvloeding van het curricu-
lum (Eindrapport SVO-project 0313). Amsterdam: RITP, januari 1979.

10 jaar horizontale doorstroming van TH naar HTS-Werktuigbouwkunde in kaart gebracht (augustus
1968-februari 1978). LCC-bulletin' 17, T.H. Eindhoven, februari 1979.

The relative efficiency of parallel item tests with different numbers of choices as a function of
true score is calculated. Tlie first model was that of knowledge or random guessing. The
graphed results agree with those of Lord (1977), as they should. After that another model in
which a four-choice test item is regarded as a combination of two two-choice items was used.
This model suggests that tests with items of this sort are less efficient than two-choice item tests
of double length, especially if p values are low. These items may be relatively efficient, how-
ever, if p values are high. So the structure of the items may be a factor influencing efficiency of
tests as a function of true scores.

Recently Lord (1977) pubhshed a paper m which he dealt witli four approaches to the
problem of the optimal number of choices (A) in test items when the product A times N
is a constant, here called C. As in Lord's paper N is the number of items in the test. The
first three approaches dealt with the overall reliabiUty of the test. We are interested only
in the last approach, in which an efficiency measure that varies with the true score is used
(Birnbaum, 1968). The logistic model parameters aj and b; and Cj of a five-choice
90-items test were already estimated. The median Cj was .15. The efficiency as a function
of the true score was calculated with these parameters, at first for the test itself and after
that for imaginary tests with the same a; and b; but with Cj successively .20 (five choices,
A = 5), .25 (A = 4), .33 (A = 3), and .50 (A = 2), and successively 120,150,200, and 300
items (AN constant). According to the rhodel of knowledge or random guessing, one
should expect aj and bj to remain constant while C; changes as indicated; aj is the
discrimination index of the item and bj the difficulty index.

It appears that three-choice tests are most efficient in the middle range of the trait
distribution. For this reason Lord compares the efficiency E of the other tests to the
three-choice test (of which the diagram is thus horizontal as in our fig. 1).
We will also first calculate the relative efficiency with the assumption of knowledge or
random guessing, but not in the same way as Lord. After that we wiU use another model
without knowledge or random guessing. In this section we will calculate efficiency rela-
tive to the efficiency of the three-choice test in order to be able to compare the results
with those of Lord. We will restrict ourselves to tests with parallel items (identical item
characteristic curves) as an inevitable approximation of redity in this sort of research.
The discrimination index D of Lord (1952) is used. The same results would be obtained if
the information measure of Birnbaum was used since this is the square of Lord's D in
tests with parallel items.

D^ as a function of d, the value of the trait that is believed to underlie the test scores (x).

is the slope of the test characteristic curve (the regression curve of score on trait, or the
true score given the trait value) divided by the standard deviation of the scores given 0:

We define the relative efficiency E^ of a two-, four-, or five-choice test as the value the
number of items of the three-choice test must be multiphed by so that its D3 (0) equals
the D^ (9) of the concerned test. The accent is added to indicate that the three-choice
test is lengthened or shortened. This means that, in connection with the product AN = C,
a three-choice test of E^ times C/3 items must have an as large a D (0) as an A-choice test
of C/A items.

If p is the relative true score (the true score divided by the number of items) when there
is an infinite number of choices, then the true score p^ with an A-choice test is, accord-
ing to the model of knowledge or random guessing:

Scores at a certain trait value are supposed to be binomially distributed. The standard
deviation of relative scores with a binomial distribution and probability p^ to answer an
item correctly is the square root of p^ (1-Pa) divided by the number of items. Thus, in
connection with (1), (2), (3), and (4) D^ (0) becomes (with C/A items):

The values of the curves of fig. 1 have been calculated witli this formula and A = 2,4, and
5. Comparing these curves with those of Lord one sees a striking likeness, as there sliould
be. The only difference is that the variable on the horizontal axis seems to be an ahnost
linear monotone transformation of that of Lord's. In fig. 1, of course, p has been assigned
to the horizontal axis mstead of the scores of an actual test.

The above method to deduce the relation between tests with different numbers of choices
with the model of knowledge or random guessing is not the only possibility. One can also
reason as follows. Many four-choice items consist of two statements, I and II. The choices
may be: a) only I is true, b) ordy II is true, c) I and II are both true, d) neither I or II is
true. In other four-choice items the statements are not mentioned explicitly, but the
structure may be approximately the same. For instance:
Tlie highest test reliabihty is calculated if

In a third category of four-choice items the true-false statemant may be disguised more
subtly. They are nevertheless present. We can assume that to answer a four-choice item
correctly is equivalent to answering two two-choice items correctly. If the probability of
answering a two-choice item correctly is p2, then, if local independence and parallel items
are assumed, the probabihty of answering a four-choice item correctly is p|. This assump-
tion was used in van Naerssen (1970).

Likewise, we can regard an eight-choice item as a combination of three two-choice items;

the probability of answermg tliis item correctly is thus p^. Analogically the probability of
answering a A-choice item is:

It is now convenient to use the two-choice test as standard. Note that in section 1 E^ was
the efficiency relative to a 3-choice test, to make tlie results comparable with those of
Lord. To mdicate the difference we will give E here an accent and write E^.

With this formula and A = 3, 4, 5 (and h = ^log A) the values of the curves of fig. 2 were
calculated.

Comparing fig. 2 with fig. 1 one observes that according to fig. 2 the two-choice test
deserves preference, not the three-choice test. Besides, here the curves go upwards: if the
items are difficult or the ability is low, two-choice tests are better, while if the items are
easy or tlie ability is high, tliere is not much difference and three-choice tests are better.
We must investigate empirically whether real items behave according to the models of
section 1 and section 2. The congruence depends on the structure of the items. The more
the four-choice item is like the combmation of two two-choice items the more model 2
may be adequate.

The calculations suggest a strategy about the use of four-choice items with two state-

ments. This kind of item may better be replaced by the double number of two-choice
items of which they are composed. If four<hoice items are unavoidable, then it may be
better, if p values are low, to construct items of another type. They may, however, be
efficient if p values are high.

These calculations were done with reference to a paper of Lord (1977). It is shown that
with alternative and in some cases plausible assumptions rather different results may be
expected. The ultimate choice among models must of course be made on the basis of
empirical investigations. Psychometric reséarch, however, is not superfluous. It generates
hypotheses and leads empirical investigation in fruitful directions.
The models used in tliis paper and those of Lord are, of course, simpler than reality. Tests
do not consist of equivalent items, and the construction of two-choice items does not
take exactly the same time as that of one four-choice item. But some experts, for
example Ebel (1965), believe that the construction of two two-choice items may take on
tlie average less time than that of one four-choice items. This is also the experience of the
present author. If true, and if psychometric deductions show tliat two-choice items are
preferable even if both alternatives take as much time, the results are even more im-
portant.

The model of knowledge or random guessing, and thus also the three-parameter logistic
model, are often criticized. The author believes that in many cases tliese models are still
useful. In any case, in tlie second part of the paper an alternative is offered. This second
model is of course also a simplification. Nevertheless, one has to use simple models before
empirical evidence eventually forces the construction of more complicated models.

Tlie author is indebted to F.N. Kerlinger, W. v.d. Brink and G.J. Mellenbergh, for their comments on
an earUer draft of this paper.

Birnbaum, A. Some Latent Trait Models and their use in inferring an examinee's Ability. In: Lord,
F.M. and Novick, M.R. Statistical Theories of Mental Test Scores. Reading: Addison-Wesley, 1968.
Ebel, R.L. Measuring educational achievement, ftentice Hall, 1965.

Lord, F.M. A Theory of Test Scores. Psychometric Monograph n. 7. Psychometric Society, 1952.
Lord, F.M. Optimal number of choices per item - a comparison of four approaches. Journal of

Education Measurement, 1977,14, 33-38.
Naerssen, R.F. van. Tweekeuze-items in studietoetsen. Nederlands Tijdschrift voor de Psychologie,
1970,25, 393-403.

Naerssen, R.F. van. Discriminerend vermogen van toetsen met twee- en met vierkeuze-items. Tijd-
schrift voor Onderwijsresearch, 1976,1, 269-272.

Whenever the amount of time spent on a test is proportional to its total number of alternatives,
the use of two-choice items is optimal. If this amount of time, however, is proportional to the
total number of questions plus the number of alternatives, the use of three-choice items is'
optimal. This is shown under very general conditions by using the item-sampling model with
ability corrected for guessing. Many other authors, using different methods and models, also
conclude that two- or three-choice items are optimal. So the above finding appears to be robust,
and the use- of four- or five-choice items questionable.

Wat is het optimale aantal alternatieven per item in een studietoets? Vanaf de twintiger
jaren zijn er zowel empirisch als theoretisch georiënteerde artikelen verschenen over dit
probleem. In alle theoretische artikelen wordt het aantal alternatieven per item (a) en het
aantal items (n) gevarieerd onder de voorwaarde dat an constant is. Om een voorbeeld te
geven: wat is beter, een toets die bestaat uit dertig vierkeuze-items of een toets die bestaat
uit zestig tweekeuze-items. Het 'beter zijn' wordt met behulp van een aantal uiteenlo-
pende criteria onderzocht. Men gaat er bij het stellen van de voorwaarde an is constant
van uit dat de tijd benodigd om een toets af te leggen evenredig is met het totaal aantal
alternatieven an in de toets. Dit lijkt redelijk.

Lord (1977) geeft een overzicht van de belangrijkste resultaten die tot 1977 gerappor-
teerd zijn. Hij onderscheidt daarbij vijf verschillende benaderingswijzen van het probleem.
In het kort komt dit op het volgende neer:

Diverse auteurs onderzochten de tijd nodig om items met verschillende aantallen alter-
natieven te beantwoorden. Vervolgens bepaalden ze de betrouwbaarheid van toetsen
waarvoor dezelfde hoeveelheid tijd nodig is. Sommige auteurs vonden dat de testbe-
trouwbaarheid maximaal is bij rweekeuze-items, anderen bij dr/ekeuze-items. Voor
referenties wordt verwezen naar het artikel van Lord (1977).

Tversky (1964) leidt op informatie-theoretische gronden af dat het optimale aantal
alternatieven per item drie is.

Volgens Grier (1975) ligt het optimum bij dr/ekeuze-items. Hij kwam tot deze con-
clusie door een benadering van de KR-21 betrouwbaarheidscoëfficiënt te maximalise-
ren.

Lord (1977) gebruikt het weten-of-blind-raden model en hypothetische toetsen be-
staande uit equivalente items. Hij bepaalt via de Spearman-Brown formule voor testver-
lenging de betrouwbaarheid en gaat na voor welke waarde van a deze maximaal is.
Naarmate de items makkelijker zijn dient het aantal alternatieven af te nemen. Als de
items de moeilijkheidsindex .5 hebben zijn dr/ekeuze-items optimaal. Bij moeilijkheids-
index .8 zijn ?weekeuze-items optimaal. De hier gebruikte moeilijkheidsindex is de
p-waarde van a-keuze items voor a »>, dat wil zeggen een voor gissen gecorrigeerde
p-waarde.

Bij deze aanpak gebruikt Lord (1977) het 3-parameter logistische of Birnbaum-model.
Het aantal alternatieven wordt gevarieerd via de gis-parameter C; uit dit model en de
moeilijkheid via de moeilijkheidsparameter bj.

Het verminderen van het aantal alternatieven per item, terwijl de test proportioneel
verlengd wordt, leidt tot het toenemen van de relatieve efficiency (Birnbaum, 1968,
pp. 453-479) van de test voor de goede examinandi en tot het afnemen voor de slechte
examinandi. Voor de zeer goede studenten zijn riveekeuze-items optimaal, voor de zeer
zwakken vi/ykeuze-items.

De conclusies zijn gebaseerd op een analyse van verschillende versies van één test, de
Scholastic Aptitude Test, Form TSA 13. Na een aanpassing van de moeilijkheid van de
vier beschouwde toetsen besluit Lord dat de toets met dnekeuze-items te verkiezen
valt.

We kunnen aan het bovenstaande nog een, niet door Lord vermelde, benaderingswijze
toevoegen:

Van Naerssen (1976) vergelijkt de discriminatie-index D van Lord van een tweekeuze-
toets bestaande uit 2k items met die van een vierkeuzetoets bestaande uit k items.
Voor de fweekeuze-toets is deze index steeds groter. Op grond hiervan zou een twee-
keuze-toets bestaande uit 2k items te verkiezen zijn boven een vierkeuze-toets be-
staande uit k items. Van Naerssen laat echter drie- en vijfkeuze-toetsen buiten beschou-
wing zodat hier niet van de bepaling van een optimum gesproken kan worden.

Een drietal opmerkingen naar aanleiding van het bovenstaande. In de eerste plaats lijken
de empirische benaderingswijzen en de theoretische aanpakken 1, 2 en 3 mank te gaan
aan het feit dat ze het optimale aantal alternatieven bepalen voor de gehele groep exami-
nandi. Ze gaan er aan voorbij dat het optimale aantal alternatieven ongetwijfeld afhangt
van het vaardigheidsniveau van de examinandus. Naarmate de exammandus beter is,
wordt de invloed van het raden immers minder van belang.

In de tweede plaats: is de tijd benodigd om een toets af te leggen wel evenredig met het
totaal aantal alternatieven in de toets? Zijn de meeste items niet van dien aard dat het
beter is van evenredigheid met het totaal aantal alternatieven vermeerderd met het aantal
stammen uit te gaan? Indien men bijvoorbeeld overgaat van dertig vierkeuze-items op
zestig tweekeuze-items, blijft het totaal aantal alternatieven in de toets constant. Er
komen echter wel dertig stammen bij waarvan de verwerking de examinandus tijd kost.
In de derde plaats wijzen alle resultaten er toch wel op dat de beste items twee- dan wel
driekeuze-items zijn en zeker geen vierkeuze-items. Het is dan ook op zijn minst merk-
waardig te noemen dat in Nederland het merendeel der gebruikte studietoetsen nog steeds
uit vierkeuze-items bestaat.

Lx)rd (1977) komt in zijn theoretische aanpak 4 tot de conclusie dat het optimale aantal
alternatieven per item samenhangt met het vaardigheidsniveau der examinandi. Hij komt
op grond hiervan echter niet tot een praktisch voorschrift voor het optimale aantal. In het
onderstaande zal een dergelijk voorschrift wel gegeven worden. Ook zal er rekening ge-
houden worden met de tijd kostende aanwezigheid van de stam van het item.

Een studietoets wordt opgevat als een aselecte steekproef van n binair gescoorde items uit
een groot universum. Het vaardigheidsniveau t van een examinandus wordt gedefinieerd
als de onbekende proportie items uit het gehele item universum die de examinandus
correct zou weten te beantwoorden als het mogelijk was hem met het gehele universum te
toetsen.

Bij herhaald toetsen met verschillende aselecte steekproeven van n items ieder wordt de
verdehng van de waargenomen totale score x voor een bepaalde examinandus gegeven
door

Tengevolge van meetfouten zoals raden, moet t geïnterpreteerd worden als de verwachte
proportie goede antwoorden in het universum voor een gegeven examinandus. Indien we
aannemen dat alle response-fouten, met uitzondering van raden, verwaarloosd kunnen
worden, is het mogelijk het gecorrigeerde vaardigheidsniveau Tg te definiëren. Hieronder
verstaan we de proporfie items uit het universum dat de examinandus correct weet te
beantwoorden doordat hij ze beheerst, dus zonder te raden. Onder raden verstaan we het
gedrag van de examinandus bij alle items die hij niet zeker weet. Hieronder valt dus zowel
het gebruik van partiële- en misinformatie als zuiver random gedrag. Indien we de gispara-
meter g van een examinandus definiëren als de verwachte proportie goede antwoorden
van die items in het universum die hij niet beheerst, geldt

(1) in kombinatie met (2) vormt het item-steekproef model met gecorrigeerd vaardig-
heidsniveau (van den Brink, 1978). Van dit model zal in het vervolg gebruik gemaakt
worden.

Het probleem of een examinandus moet zakken of slagen gegeven zijn waargenomen
toetsscore x, kan opgevat worden als het toetsen van een hypothese met betrekking tot
het gecorrigeerde vaardigheidsniveau Tg. Als de Xg van een student groter is dan het
critische gecorrigeerde vaardigheidsniveau t behoort hij te slagen voor de toets. Geldt
Tg < Tg ,, dan behoort hij te zakken. Het afleggen van de toets kan dus gezien worden als
het toetsen van de hypothese

Naast Tg ,, en de daarmee samenhangende fout van de eerste soort a voeren we een andere
waarde Tg j > r^ ,, van het gecorrigeerde vaardigheidsniveau in, zodanig dat, als het ware
gecorrigeerde vaardigheidsniveau gelijk is aan Tg , de kans op een fout van de tweede
soort gelijk is aan een tevoren gekozen waarde ß.

Een student met een Tg juist kleiner dan Tg j. heeft een kans kleiner dan a om toch voor
de toets te slagen. Een student met een Tg juist groter dan Tg ^ maar kleiner dan t ,
heeft echter een kans om te zakken die veel groter is dan ß. 'Dit is niet rechtvaarcfig.
Daarom passen we de hypothesetoetsmgsprocedure nog wat aan. We toetsen

We verbinden een te voren bepaalde a met Tg ^ en een te voren bepaalde ß met t ,. We
stellen

voor dat Tg o ^g i g^Hjk® afstanJ liggen van Tg De zo ontstane indi^feren-
tiezone (t^ p,Tg_j) correspondeert met het gebied waar de fielhng van de grafiek van het
onderscheidingsvermogen maxhnaal is. Het gebruik van een indifferentiezone is gerecht-
vaardigd omdat het verkeerd classificeren van een student met een Tg dicht in de buurt
van T als het minst ernstig opgevat kan worden.

In § z'namen we aan dat de testscore x een binomiale verdeling B(n, Tg -h g(l-Tg)) bezit.
Bij te voren gekozen aenß dient n dan aan de volgende vergelijkingen te voldoen:

Voor Tg^c zal men m de praktijk vrijwel altijd waarden als .5 of .6 kiezen. Aangezien Tg ^
en Tg j niet te veel van Tg,c mogen verschillen, kunnen we studenten met deze waarden
van het vaardigheidsniveau als marginaal opvatten.

Bij beheersingsleren zal men voor Tg_c een grotere waarde kiezen. Omdat er dan getoetst
wordt over kleine eenheden van de stof met behulp van betrekkelijk eenvoudige vragen
wordt de groep van de marginale studenten in deze situatie toch ook gevormd door de
studenten met een vaardigheidsniveau rond de Tg^g.

De siechste examinandi zullen bij de moeilijkste items wellicht een aselekte keuze maken
uit de verschillende antwoordmogelijkheden. Maar een student die slechts iets beter is zal
bij de meeste items in staat zijn tenminste één afleider te elimineren en de betere studen-
ten zullen dit bij een groter aantal afleiders kunnen (Lord and Novick, 1968, p. 309). Het
is dus een conservatieve aanpak om in de formules (3a) en (3b) voor de studenten met
vaardigheidsniveau Tg,o en Tg,i, dat wil zeggen de marginale studenten, g te vervangen
door de puntschatting 1/a, waarin a het aantal alternatieven van een item voorstelt.
Door de bmomiale verdeling normaal te benaderen gaan (3a) en (3b) over in:

Hierin stellen z^ en Zß scores voor in de standaard normale verdeling met rechterover-
schrijdingskans van resp. a en ß. Door uit (4a) en (4b) n op te lossen vinden we:

Van den Brink en Koele (1978) gebruikten de formules (4) en (5) om het aantal items n
en de grensscore c te bepalen om de zak-slaag beslissing met voorgeschreven precisie te
kunnen nemen. In het navolgende zal (5) gebmikt worden om het optimale aantal alterna-
tieven per item te bepalen. De hier behandelde procedure voor het bepalen van n en c
zorgt ervoor dat de marginale studenten zo rechtvaardig mogelijk behandeld worden. Juist
de classificatie van deze subgroep studenten levert immers problemen op. De goede en
slechte studenten komen met grote zekerheid vanzelf wel in het vakje waar ze thuis
horen.

4. Bepaling van het optimale aantal alternatieven per item op grond van de eis an is
constant

Door substitutie van een aantal waarden van a, en n bepaald door de voorwaarde an is
constant, kunnen we met behulp van formule (5) nagaan voor welke van die waarden de
fouten aenp en de lengte van de indifferentiezone geminimaliseerd worden.
Veel handiger is het echter om de zaak om te draaien. Kies a, p en de indifferentiezone
vast en ga na voor welke waarde van a an geminimaliseerd wordt. Bij gegeven a,P, Tg^o ^n
Tg,i kan het totaal aantal altematieven an van een toets bestaande uit n a-keuze-items
rechtstreeks berekend worden met behulp van formule (5). Om het totaal benodigd aantal
alternatieven in een a-keuze-toets te vergelijken met het totaal benodigd aantal in een
b-keuze-toets bij gegeven a, p en indifferentiezone voeren we de ratio

in (we noteren het met behulp van (5) berekende aantal a-keuze-items voortaan als na).
Geldt bijvoorbeeld V ^ < 1 dan betekent dit dat we in een a-keuze-toets totaal minder
alternatieven nodig hebben dan in een b-keuze-toets om de zak-slaag beslissing met
dezelfde precisie te kunnen nemen.
Uit (5) volgt:

In aansluiting bij Lord (1977) kiezen we in het vervolg voor a de waarde drie. We zullen
dus steeds het totaal aantal alternatieven in een b-keuze-toets vergelijken met het totaal
aantal in een driekeuze-toets nodig om dezelfde waarden van a, P, Tg,o en Tg,i te realise-
ren.

In eerste instantie kiezen we a gelijk aan p. We vatten daarmee het ten onrechte slagen
even ernstig op als het ten onrechte zakken. Aangezien a = ^ is z^ = z^j en is V ®
onafhankelijk van de grootte van a = p.

In tabel I is de verhouding V ^ berekend voor diverse keuzen van de indifferentiezone en
voor de waarden 2, 4 en 5 van b bij a = /3.

Uit kolom één blijkt dat het gebruik van drie keuze-items efficiënter is dan het gebruik
van twee, vier- of vijfkeuze items, omdat geldt V^ < 1. In kolom twee hetzelfde beeld. De
kolommen drie tot en met acht laten ieder zien dat tweekeuze beter is dan driekeuze, en
driekeuze beter dan vier- en vijfkeuze, zodat tweekeuze hier steeds optimaal is. In de
kolommen één en twee is het verschil in efficiëntie tussen het gebruik van twee en
driekeuze-items echter verwaarloosbaar klein. We kunnen dus concluderen dat het gebruik
van ^weekeuze-items optimaal is. En dit onafhankelijk van a = Tg^c> ^g,o en Tg,].
Voorzover althans geldt .5 < Tg^c < -8 en .1 < Tg_ j -Tg^o < •2. Mogelijk ook voor andere
keuzen van Tg^c en de breedte van de indifferentiezone. Die lijken echter praktisch niet
van belang en zijn daarom niet in de berekeningen opgenomen. Wel is tabel 1 opnieuw
berekend voor a :,!=/} voor de volgende paren (a ; j3): (0,05 ; 0,025), (0,10 ; 0,05), (0,20 ;
0,10), (0,30 ; 0,15), (0,025 ; 0,05), (0,05 ; 0,10), (0,10 ; 0,20) en (0,15 ; 0,30).
De struktuur van formule (7) is echter zodanig dat we de getallen uit tabel 1 weer
terugvinden met hooguit in de tweede of derde decimaal een afwijking. De conclusie blijft
dus gelden voor a Tot slot kan nog opgemerkt worden dat uit tabel 1 blijkt dat
driekeuze-items in bepaalde gevallen een goed alternatief vormen.

5. Bepaling van het optimale aantal alternatieven per item op grond van de eis (a + l)n is
constant

Er valt een belangrijk bezwaar tegen de voorwaarde an is constant in te brengen. Het zijn
niet alleen de in de toets aanwezige alternatieven die tijd kosten. Ook de verwerking van
de stam van het item zal de examinandus de nodige tijd kosten. Het lijkt daarom een
beter uitgangspunt om te eisen dat an -t- n = (a + 1 )n constant is.

In tabel 2 is de verhouding V berekend bij a = ß. Het totaal aantal alternatieven en

stammen in een driekeuze-toets wordt vergeleken met het totaal aantal alternatieven en
stammen in een b-keuze toets nodig om dezelfde precisie bij de zak-slaag beslissing te
bereiken.

Uit tabel 2 blijkt dat het gebruik van <inekeuze-items steeds opthnaal is. Dit wederom
onafhankelijk van a = ß, rg,c, Tg.o en onder de in de vorige paragraaf genoemde
beperkingen. Herberekening van tabel 2 voor de in de vorige paragraaf genoemde paren
(a, ß) leidt opnieuw slechts tot afwijkingen in hoogstens de tweede of derde decimaal.

In de in de inleiding behandelde literatuur wordt het optimale aantal alternatieven per
item steeds bepaald voor de volledige groep examinandi die aan een toets deelneemt.
Soms wordt met de invloed van het raden rekening gehouden, vaak ook niet. Slechts Lord
(1977) merkt op dat het optimale aantal een functie is van het vaardigheidsniveau. Aange-
zien een groep bestaat uit examinandi van verschillende vaardigheidsniveau's, is het lastig
om op grond hiervan tot een praktisch advies te komen. Ook wordt door alle auteurs de
aanwezigheid van de stammen der items in de toets genegeerd. Toch komen alle auteurs
tot de conclusie twee- of drie-keuze items te gebruiken, met de nadruk op de laatste
categorie. In dit artikel is rekening gehouden met het belang van de marginale studenten,
het effect van het raden is in het model opgenomen en de aanwezigheid van de stam
wordt niet genegeerd. Weer is de conclusie: gebruik steeds drie-keuze items. Zijn items zo
geconstrueerd dat het verwerken van de stam geen tijd kost, gebruik dan tweekeuze-items.
Kennelijk is dit resultaat zeer robuust. Vrijwel ongeacht het gebruikte model en optimali-
teitscriterium blijkt dat het gebruik van twee of driekeuze items het beste is. Ook van
Naerssen (1976) heeft reeds dikwijls gepleit voor het niet langer gebruiken van vierkeuze-
items. Toch neemt het gebruik liiervan steeds toe. In ieder schoolexamen treft men
tegenwoordig talloze vierkeuzetoetsen aan. Het wordt misschien tijd dat bijvoorbeeld het
CITO het roer eens omgooit. Vierkeuze-items leveren voortreffelijke driekeuze-items op
indien men het slechtste alternatief aan de vuilnisman meegeeft.

Biinbaum, A. Estimation of an ability. In F.M. Lord and M.R. Novick, Statistical theories of mental
test scores. Reading, Massachusetts: Addison-Wesley, 1968.

Brink, W.P. van den. Binomial models in the theory of mental test scores. Ongepubliceerd manuscript,
Universiteit van Amsterdam, 1978.

Brink, W.P. van den, en Koele, P. Decision making in achievement testing. Ongepubliceerd manuscript,
Universiteit van Amsterdam, 1978.

Grier, J.B. The number of alternatives for optimum test reliability. Journal of Educational Measure-
ment, 19T 5,12,109-112.

Lord, F.M. Optimal number of choices per item - a comparison of four approaches. Journal of
Educational Measurement, 1977,14, 33-38.

Lord, F.M. and Novick, M.R. Statistical theories of mental test scores. Reading, Massachusetts: Addi-
son-Wesley, 1968.

Naerssen, R.F. van. Discrimmerend vermogen van toetsen met twee- en met vierkeuze-items. Tijd-
schrift voor Onderwijsresearch, 1976,1, 269-272.

Tversky, A. On the optimal number of alternatives at a choice point. Journal of Mathematical Psychol-
ogy, 1964,7,386-391.

afdeling Onderzoek en Psychometrische Dienstverlening, CITO, Arnhem
Simultaneous estimation of regressions in m groups

The m group regression model developed by Novick et al. was applied to data from two
separate groups of schools of secondary education. The first group consisted of 12 schools of
'general intermediate continued education' (mavo) the second of 21 schools of vocational/tech-
nical education.

Least-squares and Bayesian regression equations were estimated in a validation sample and
cross-vahdated in a second sample.

The use of the Bayesian method proved to mcrease the predictive efficiency, especially in the
mavo-group.

In de overgang van het lager naar het voortgezet onderwijs willen toelatingscommissies
van scholen voor voortgezet onderwijs op grond van toetsscores voorspellmgen doen van
criteriumgedrag van de aangemelde leerlingen om op grond daarvan guidance/selectie
beslissingen te nemen.

Gewoonlijk gebeurt dit door per school lineaire regressie-vergelijkingen te gebruiken,
geschat op grond van bij vorige hchtingen toegelaten leerlingen verzameld materiaal. Een
comphcatie hierbij is dat de parameterschattingen moeten gebeuren op een betrekkehjk
klein aantal observaties, terwijl de schattingen zeer onderhevig zijn aan steekproef fluc-
tuaties, m.n. kleinste kwadratenschattingen zijn uitermate instabiel (Lord & Novick,
1968). De gebruikelijke oplossmgen: 'pooling' over een aantal opeenvolgende jaargroepen,
of over soortgelijke scholen zijn mmder aantrekkelijk wegens gebrek aan stabihteit van
het onderwijs en onderhnge verschillen tussen de scholen. De Bayesiaanse m-groepen
regressie-methode levert een compromis tussen 'within-groups' en 'pooling'. De regressie-
parameters van een individuele school worden geschat op basis van de gegevens van de
school m kwestie en zijdelmgse mformatie van andere soortgelijke scholen.
De methode is conceptueel verwant aan de procedure die door Kelly (Novick e.a., 1972)
werd voorgesteld voor het schatten van de ware score van een persoon. Zijn oplossing
bestond daaruit dat de ware score werd geschat door de geobserveerde score van de
persoon en de gemiddelde score van de groep waartoe die persoon behoorde te wegen met
resp. de betrouwbaarheid en één mmus de betrouwbaarheid en vervolgens bij elkaar op te
tellen. Dus:

Lindley's model voor lineaire regressie in m groepen begint met de gebruikelijke veronder-
stelling dat de regressie van de criteriumscores op de predicterscores lineair is in groep i,
voor iedere i = 1, ..., m. Dus, voor b.v. het geval van p predictoren:

waarbij Yy en Xjjh respectievelijk criterium- en predictorscores zijn van persoon j in groep
i. De symbolen öj en jJhi staan voor het intercept en de regressiegewichten in groep i.
Hieraan voegen we toe de assumptie dat de residuen onderling onafhankelijk normaal
verdeeld zijn met variantie en een gemiddelde gelijk aan nul.

Schattingen van de parameters kunnen worden verkregen door toepassing van de kleinste
kwadraten methode. Lindley & Smith (1972) tekenen bij deze procedure als bezwaar aan,
dat er gewoonlijk a priori informatie voorhanden is omtrent de parameters en dat deze
kan worden gebruikt om de schattingen van de parameters (aanzienlijk) te verbeteren. Bij
het formuleren van a priori kennis omtrent de parameters kan gebruik worden gemaakt
van het begrip 'exchangeability' dat afkomstig is van De Finetti.
Een definitie van 'exchangeabihty' luidt als volgt (Heath and Sudderth, 1976):

Definitie: De stochastische variabelen Xi,..., Xn zijn exchangeable als de n! permutaties
(Xk, ,..., Xk^) dezelfde n-dimensionele kansverdeling hebben. De variabelen
van een oneindige rij (Xn) zijn exchangeable als Xj,..., X^ exchangeable zijn
voor iedere m.

Hierbij moeten we nog opmerken dat in de Bayesiaanse statistiek ook parameters worden
opgevat als stochastische variabelen. Het 'exchangeability' theorema impliceert dat de set
van onderling verwisselbare parameters mag worden opgevat als een steekproef uit een
kansverdeling.

Aannemende 'dat de a priori informatie over de m sets regressieparameters onderling
verwisselbaar is, kunnen we aannemen dat het realiseringen zijn van m trekkingen uit een
multivariate kansverdeling.

Lindley kiest voor de vectoren (aj, fti,..., Pip) een multivariate normaal verdeling en voor
de variantie een inverse chi-kwadraat verdeling.

Hiermee worden nieuwe, z.g. hyperparameters geïntroduceerd, n.1. de parameters van de
multivariate normaal verdeling t.w. de vector van gemiddelden en een variantie-covariantie
matrix en twee (hyper)parameters voor een inverse chi-kwadraat verdeling.
Bij het kiezen van de a priori verdelingen spelen verschillende overwegingen een rol (Hays
& Winkler, 1970).

Allereerst moeten zij de a priori kennis adequaat formaliseren. Anderzijds moeten zij bij
voorkeur niet tot al te grote mathematische problemen leiden.

In de derde en voorlopig laatste stap wordt de a priori kennis omtrent de hyperparameters
uit stap 2 geformaliseerd door het kiezen van adequate a priori verdelingen. In deze stap
kiezen we gewoonlijk a priori's, waaruit blijkt dat onze kennis omtrent deze parameters
minimaal of 'vaag' is.

De simultane a posteriori verdeling van de m sets regressieparameters, gegeven de data
wordt verkregen door het vermenigvuldigen van de aannemelijkheidsfunctie van de gehele

dataset met de a priori verdelingen van de parameters en de hyperparameters en het
uitintegreren van de hyperparameters.

Schattingen kunnen worden verkregen door het oplossen van de z.g. 'Lindley equations',
de vergelijkingen voor de modus van de simultane a posteriori verdeling. Details over de
schattingsprocedures zijn te vinden bij Novick c.s. (Jackson, Novick en Thayer, 1971;
Jones en Novick, 1972). Een discussie over het Bayesiaanse regressie model in het kader
van het Bayesiaanse algemene hneaire model is te vinden in Lindley en Smith (1972). De
feitelijke gang van zaken bij het verkrijgen van schattingen voor de regressieparameters uit
Lindley's model is gecomphceerd. De resultaten echter zijn duidehjk verwant aan Kelly's
ware-score-schattingen. De Bayesiaanse schattingen voor de regressiegewichten hebben de
vorm van een compromis tussen de kleinste kwadraten schattingen per groep en het
gemiddelde over de groepen.

Dit is aan de vorm van de Lindley vergehjkingen, met enige moeite af te lezen.
Uit de vergehjkingen valt eveneens af te leiden welke kant de Bayesiaanse schattingen uit
zullen gaan, gegeven een bepaalde situatie. Een grote heterogeniteit in de groepen, wat
betreft de regressieparameters, zal gewoonlijk resulteren in schattingen van /S; die dicht bij
de kleinste kwadratenoplossing:

zuUen hggen. (A'j is een (p + l)xni matrix met op de eerste rij énen en op de volgende
rijen predictorscores van nj personen op p predictoren). Homogeniteit daarentegen zorgt
ervoor dat de schattingen een regressie naar het groepsgemiddelde gaan vertonen.
De mate van regressie wordt beïnvloed door o.a. de grootte van de groep en de afstand tot
het gemiddelde van de schattingen voor die groep.

De methodologie van 'm-group regression' wordt uitgelegd in een artikel van Jackson,
Novick en Thayer (1971), waarin eveneens toepassingen worden gegeven. Kruisvahdaties
worden gerapporteerd door Novick, Jackson, Thayer en Cole (1971 en 1972) en Jansen
(1977).

Shigemazu (1976) beschrijft een model voor een speciaal geval van 'm-group regression'
nl. het geval waarin de intercepten verschiUen over de groepen, maar de betagewichten
niet en past dit toe op een aantal datasets. In de studie van Novick e.a. werden data
gebruikt van het 'American College Testmg Program'. Het betrof hier het voorspellen van
GPA, m.b.v. deze testbatterij bij een groep van 22 colleges. Er werden data verzameld
voor twee verschiUende jaargroepen: 1968 en 1969. De data uit 1968 werden gebruikt
voor het schatten van de regressievergelijkingen, zowel volgens de kleinste kwadraten als
de Bayesiaanse methode. De geschatte regressievergelijkingen werden vervolgens gebruUct
om in de 1969 groep voorspellingen te doen. Deze voorspellingen werden vergeleken met
de feitelijk behaalde criteriumscore door middel van een aantal criteria, waaronder het
gemiddelde van de gekwadrateerde afwijkingen. Deze procedure werd herhaald met a-
selecte steekproeven van 25% per college uit de oorspronkelijke 1968 gegevens. Uit de
resultaten bleek dat toepassing van de Bayesiaanse methode inderdaad in staat was de
predictieve efficiëntie te verhogen, m ji. bij kleine aantallen observaties per groep.

De regressie van het gemiddeld kerstrapportcijfer op de onderdelen 'Rekenen' en 'Taal' van de School-
toets 1972: mavo, 1972-1973 steekproef.

De studie van Jansen (1977) beschrijft een toepassing van de Bayesiaanse methode bij het
voorspellen van schoolsucces in het voortgezet onderwijs. Bij het onderzoek waren twee
groepen scholen betrokken, waarvan de data apart werden geanalyseerd. De ene groep
bestond uit 12 mavo-scholen, de andere uit 21 lbo-scholen.

Bij beide schooltypen werden per school gegevens verzameld over twee jaargroepen:
1972-1973 en 1973-1974. Scores op twee onderdelen van de Schooltoetsen Basisonder-
wijs van het CITO werden gebruikt als voorspellers, gemiddelde kerstrapportcijfers als
criterium. In de 1972 groepen werden kleinste kwadraten en Bayesiaanse schattingen van
de regressies berekend. Deze werden vervolgens gekruisvalideerd in de 1973 steekproeven.
De belangrijkste resultaten zijn opgenomen in tabel 1 t/m 4. In tabel 1 en 2 bevinden zich
resp. de kleinste kwadraten en de Bayesiaanse schattingen van de regressieparameters.
Bij zowel de mavo als de lbo groep geldt dat de kleinste kwadratenschattingen van de
intercepten (5e kolom) grote schommelingen over de scholen vertonen. Dit is in mindere
mate het geval met de regressiegewichten (3] en ßj.

Opvallend is hierbij vooral het voorkomen van negatieve gewichten. Bij de Bayesiaanse
schattingen doet zich het verwachte verschijnsel van de regressie naar het gemiddelde
voor. Dit geldt vooral voor de variabele 'rekenen'. De gewichten van de variabele 'reke-
nen' regrediëren bij beide schooltypen naar een gemeenschappelijke waarde van 0.01 resp.
0.02.

Voor gewichten van de variabele 'taal' geldt dit alleen in de lbo groep. Hierdoor zijn ook
de negatieve schattingen verdwenen, wat intuïtief plausibeler is. De totale regressie naar
een gemiddelde waarde is de resultante van een kleine (eventueel zelfs negatieve) ge-
schatte populatie variantie van de betagewichten.

De kleinste kwadraten en de Bayesiaanse lineaire regressievergelijkingen werden gekruis-
valideerd in de 1973-1974 steekproeven. De resultaten hiervan zijn te vinden in tabel 3 en
4. De voorspelde en geobserveerde schoolcijfers werden met elkaar vergeleken op grond
van drie criteria. Het eerste criterium was het gemiddelde van de gekwadrateerde afwijkin-
gen tussen feitelijk behaald en voorspeld cijfer (mse), het tweede de correlatie tussen
behaalde en voorspelde cijfers (cor) en bij het derde werd een nul-één verliesfunctie
gehanteerd (zo'1). Hierbij werd berekend de proportie van verschillen die buiten een be-
paald acceptabel interval, t.w. een halve standaarddeviatie van de geobserveerde criterium-
scores, vielen. Uit de resultaten valt af te leiden dat de predictieve efficiëntie van de
Bayesiaanse regressievergelijkingen groter is dan die van de kleinste kwadraten. De supe-
rioriteit van de Bayesiaanse methode is het duidelijkst in de mavo-groep.

Uit het boven geciteerde onderzoek blijkt dat het mogelijk is om de predictieve efficiëntie
van regressievergehjkingen te verhogen door gebruik te maken van Bayesiaanse methoden.
De Bayesiaanse methode heeft daarnaast nog bijkomstige voordelen die voor het gebruik
van predictieformules in (onderwijs)situaties niet onbelangrijk zijn.
Zoals we gezien hebben, gebeurt het van tijd tot tijd dat bij een aantal scholen negatieve
schattingen voor het gewicht van een bepaalde predictor voorkomen. Bij het gebruik van
voorspellingen in toelatings- en 'guidance' situaties wordt het ongewenst geacht dat een
'slechte' prestatie het voorspelde cijfer verhoogt (Angoff, 1971). Dit probleem kan wor-
den opgelost door het weglaten van de predictor met de negatieve gewichten en het
herberekenen van de regressie vergelijkingen. Zoals gebleken kan ook het gebruik van de
Bayesiaanse methode een oplossing bieden.

Angoff, W.M. (Ed.). The college board admissions testing program. New York: CEEB, 1971.

Hays, W.L. & Winkler, R.L. Statistics. Volume 1: Probability, Inference and decisions. New York:
Holt, Rinehart and Winston, 1970.

Heath, D. & Sudderth, W. De Finetti's theorem on exchangeable variables. The American Statistician,
1976,50, 188-189.

Jackson, P.H. Novick, M.R. & Thayer, D.T. Estimating regressions in m groups. British Journal of
Mathematical and Statistical Psychology, 1971,24, 129-153.

Jansen, G.G.H. An Application of Bayesian Statistical Methods to a Problem in Educational Measure-
ment, thesis, Groningen University, November 1977.

Jones, P.K. & Novick, M.R. Implementation of a Bayesian system of prediction in m groups. A.C.T.
Technical Bulletin no. 6. Iowa, 1972 (City Iowa).

Lindley, D.V. & Smith, A.F.M. Bayes estimates for the hnear model. Journal of the Royal Statistical
Society, Series B, 1972,54,1-41.

Lissitz, R.W. & Schoenfeldt, L.F. Moderator subgroups for the estimation of educational performance:
a comparison of prediction moAé\s, American Educational Research Journal, 1974, II, 63-75.

Lord, F.M. & Novick, M.R. Statistical theories of mental testscores. Reading/Mass.: Addison-Wesley,
1968.

Novick, M.R. Jackson, P.H., Thayer, D.T. & Cole, N.S. Estimating multiple regression in m groups: a
cross-validation study. British Journal of Mathematical and Statistical Psychology, 1972,25, 33-50.

Shigemazu, K. Development and vaüdation of a simplified m group regression model. Journal of
Educational Statistics, 1976,1, 157-180. -

ONDERAFDELING DER WIJSBEGEERTE EN MAAT-
SCHAPPIJWETENSCHAPPEN VAKGROEP Gedragsweten-
schappen, groep Onderwijsresearch, is in de loop van 1980
de positie vacant van

De groep Onderwijsresearch heeft tot doel wetenschappelijk
onderzoek te doen naar processen en uitkomsten van het
wetenschappelijk onderwijs in de Technische Wetenschap-
pen. Dit onderzoek vloeit in hoofdzaak voort uit de dienst-
verlening van deze groep aan het onderwijs dat op de THE
plaatsvindt. De volgende eisen worden aan deze funktie
gesteld:

— Ervaring in het leiding geven en uitvoeren van psycholo-
gisch en/of onderwijskundig onderzoek, bij voorkeur in
het wetenschappelijk onderwijs.

— Vaardigheid in onderzoek dat in reële situaties buiten
het laboratorium (in 'het veld') wordt uitgevoerd.

— Goed ingevoerd zijn in de literatuur over leer- en denk-
processen, probleem oplossen en theorieën over onder-
zoek van onderwijs.

— Affiniteit tot het technisch wetenschappelijk onderwijs
en ervaring in het samenwerken met academici van ande-
re disciplines dan de zijne

— De aan te stellen lector zal moeten beschikken over goe-
de contactuele en didactische eigenschappen (in verband
met het verzorgen van het onderwijs in dit vakgebied) en
in staat en bereid zijn om deel te nemen aan bestuurlijke
activiteiten ten behoeve van de onderafdeling de Wijs-
begeerte en Maatschappijwetenschappen.

Schriftelijke sollicitaties te richten aan de voorzitter van de
benoemingsadviescommissie prof. dr. H. Bouma, Technische
^ Hogeschool Eindhoven, Instituut voor Perceptie Onderzoek

Een handleiding bij het verzamelen van Nederlands-, Duits-, Engels- en
Franstalige publikaties die na 1965 werden uitgegeven

Whoever goes in search of educational hterature in the Netherlands, as I did in the course of my
research into the efficiency of teaching methods, finds scarcely any publications which indicate
how one might go about this. Therefore I was myself obliged to develop a method for the
assembling of educational publications. The method is described in this article and takes the
form of a guide.

The guide is restricted to the assembling of publications which have appeared in Dutch, Ger-
man, English and French since 1965, but offers pointers to those seeking other publications.
There are two parts: part two concerns the assembhng of publications of which the titles are
known, while the first part deals with publications for which this cannot be said.
My point of departure was that the recommended method should be as effective and efficient
as possible: the risk that relevant publications would not be noticed, or not in time, was to be
as small as possible and the method was to be no more expensive than needful.

Wie in Nederland op zoek gaat naar onderwijskundige literatuur, belandt vaak in een
weinig benijdenswaardige situatie. Hij heeft wat boeken en tijdschriften, er zijn biblio-
theken waarvan hij gebruik kan maken en zijn collega's bevelen hem bepaalde pubhkaties
aan, maar hij is er beslist niet zeker van dat hij geen belangrijke uitgaven over het hoofd
ziet, weet niet goed wat hij doen moet om de hteratuur die hij zoekt zonder al te veel
kosten tijdig in handen te krijgen en publikaties waarin te lezen valt hoe hij te werk zou
kunnen gaan vmdt hij nauwelijks.

Zo verging het mij tenminste toen ik bij mijn onderzoek naar de doelmatigheid van
onderwijsmethoden m het academische onderwijs^ besloot om eerst die onderwijsmetho-
den te onderzoeken waarvan de doelmatigheid reeds beschreven was.

Mede dank zij de tips en de suggesties van anderen, onderzoekers en medewerkers van
documentatiecentra, ben ik er echter in geslaagd zelf een methode voor het verzamelen
van onderwijskundige publikaties te ontwikkelen die ik hier nu graag in de vorm van een
handleiding wil beschrijven^.

2 Het onderzoek werd voor opname in Dissertaties Maatschappijwetenschappen aangemeld bij het
Sociaal-Wetenschappelijk Informatie- en Documentatiecentrum te Amsterdam.

3 Het ligt in de bedoeling te zijner tijd ook de overige resultaten van het onderzoek te pubUceren.

— Van Melsens Inleiding in het gebmik van onderwijskundige documentatie- en informa-
tiesystemen (Van Melsen, 1977) stemt slechts voor een deel met de door mij aanbevolen
methode overeen;

— de International gidde to educational documentation waarvan in 1971 de tweede
editie uitkwam is sindsdien niet meer bijgewerkt;

— de Wegwijzer voor onderwijsresearch en -documentatie die door de Stichting voor
Onderzoek van het Onderwijs wordt samengesteld komt op z'n vroegst in de eerste helft
van 1979 uit.

Bovendien, ik ben niet zo somber als Vinken, hoogleraar medische informatieverwerking
aan de Rijksuniversiteit te Leiden, die meent dat de 'consument van wetenschappelijke
informatie ... over het algemeen arrogant, conservatief, lui en onwetend' ir en daarom
'liever ongeordende literatuuropgaven ... (doorneemt) dan geclassificeerde bibliografieën'
(Vinken, 1977, p319 en p330).

Ik heb me beperkt tot het verzamelen van Nederlands-, Duits-, Engels- en Franstalige
publikaties die na 1965 werden uitgegeven. De handleiding bevat echter aanknopingspun-
ten voor wie andere publikatiecategorieën zoekt.

Daarnaast wordt in de handleiding verwezen naar enkele naslagwerken die zich speciaal op
het academische onderwijs richten: het materiaal waarvan de titels in de bijgevoegde tabel
cursief gedrukt staan. Wie zich niet met het genoemde onderwijs bezighoudt kan het
gebruik ervan achterwege laten en de tabel zonodig aanvullen met uitgaven waarin titels
worden genoemd die voor zijn onderzoek relevant zijn en in het hoger genummerde
materiaal uit de tabel niet voorkomen.

De grens van een verzameling te onderzoeken publikaties wordt bepaald door het doel van
het onderzoek, door de vraag die men m.b.v. de publikaties wil beantwoorden. Op grond
van de voorwaarde waaronder het doel bereikt moet worden (bijvoorbeeld voor een
bepaalde datum of binnen een bepaald aantal werkdagen) moet men zich echter meestal
beperken tot het onderzoeken van een deel van de verzameling.

Eén van mijn uitgangspunten bij het ontwikkelen van de handleiding was dat de methode
zo doeltreffend en doelmatig mogelijk diende te zijn:" van de inhoudelijk relevante publi-
katies moesten er zoveel mogelijk verzameld kunnen worden terwijl de methode niet
duurder mocht zijn dan nodig was. Bij dat laatste dacht ik dan niet alleen aan de 'zicht-
bare' kosten, die van boeken en abonnementen bijvoorbeeld, maar ook aan de 'onzicht-
bare', zoals die van de tijd die met zoeken heengaat. Vandaar dat ik voorstel de deelver-
zameling te definiëren als de verzameling inhoudelijk relevante publikaties die minstens
die publikaties bevat waartoe de meest professionele naslagwerken per'publikatiecategorie
toegang verschaffen, voor zover die publikaties verkrijgbaar zijn via de meest professionele
diensten van documentatiecentra.

Voor het inhoudelijk operationaliseren van de deelverzameling zijn moeilijk regels te
geven, hooguit wenken. Ik doe dat waar ik aanraad te expliciteren welke publikatiecatego-
rieën men zoekt en waar ik verwijs naar trefwoorden.

Dat ik de deelverzameling definieer als een verzameling die minstens bepaalde publikaties

bevat, betekent niet dat men geen aandaciit zou mogen besteden aan andere publikaties,
bijvoorbeeld die waarmee men tijdens het onderzoek als het ware 'vanzelf geconfronteerd
wordt, zoals publikaties die genoemd worden in artikelen die men leest. Wel zal dit ter
aanvulling van de genoemde deelverzamehng moeten gebeuren en zeker niet ter vervan-
ging van publikaties die minstens aanwezig moeten zijn.

Als de deelverzamehng te groot of te klein blijkt te zijn, kan men twee dingen doen: nog
eens nagaan of er wel een verstandige beshssing genomen is bij de inhoudehjke operationa-
lisatie van de deelverzamehng, dus bij de keuze van publikatiecategorieën en trefwoorden,
en als dat geen oplossing biedt de vraag die men m.b.v. de pubhkaties wil beantwoorden
nog eens onder de loep nemen. Dat wordt in de handleiding dan ook aanbevolen.

De handleiding bestaat uit twee delen: het eerste deel geeft aanwijzingen voor het verza-
melen van publikaties waarvan de titel nog niet bekend is; deel twee doet dat voor
uitgaven waarbij dat laatste wel het geval is.

3. De handleiding, deel 1: het verzamelen van publikaties waarvan de titel niet bekend is

Ga als volgt en in de aanbevolen volgorde te werk en houd nauwkeurig aantekening van
uw doen en laten:

01. Formuleer de vraag die u met behulp van de literatuur wilt beantwoorden zo con-
creet mogelijk (als u dat tenminste nog niet eerder deed).

Het is moeilijk zoeken als je niet precies weet wat je zoekt. Als u het doel van uw
literatuurverzameling operationaliseert kunt u misschien ook voorkomen dat de pro-
bleemsteUing zich tijdens het onderzoek ongemerkt wijzigt.

Zoekt u artikelen, rapporten of boeken? Nederlands-, Duits-, Engels- of Franstalige
publikaties? Literatuur die in bepaalde jaren (na 1965) werd uitgegeven?
Houd niet alleen rekening met de vraag die beantwoord moet worden (01) maar ook
met de eventuele voorwaarde waaronder dat moet geschieden. Misschien is de tijd die
eraan besteed kan worden aan een .maximum gebonden of moet de vraag voor een
bepaalde datum van een antwoord zijn voorzien.

Op dit moment is dat het materiaal dat genoemd wordt in de bijgevoegde tabel. Voor
sommige categorieën betekent dat, dat u gebruik kunt maken van materiaal uit de
rubriek die in de tabel het hoogst genummerd is. Deze rubriek bevat het meest
professionele naslagmateriaal uit de tabel: materiaal dat periodiek wordt aangevuld,
waarin een groot aantal titels voorkomt, dat machinaal te doorzoeken is en waarin
iedere titel is voorzien van één of meer trefwoorden en van een referaat (uittreksel).
Voor andere categorieën bent u aangewezen op materiaal uit de laagst genummerde
rubriek. In deze rubriek vindt u het minst professionele naslagmateriaal uit de tabel:
materiaal dat wehswaar periodiek wordt aangevuld, maar dat met de hand doorzocht
moet worden en slechts een klein aantal, ogenschijnlijk vrij willekeurig geordende
titels bevat.

Per publikatiecategorie wijkt het materiaal dat niet in de tabel voorkomt in negatieve
zin af van het materiaal dat daarin wel is opgenomen: het wordt niet periodiek
aangevuld of de wijze waarop verwezen wordt is minder professioneel.

4.1. systematische 1966 -
catalogi bibliotheek/
informatiekaner
Ministerie van
Onderwijs en
Wetenschappen
(aanwinsten via

4.2. systematische 1970 -
catalogus
rapportencentrale
Sociaal-Wetenschappelijk
Informatie- en
Documentatiecentrum
(aanwinsten via 2.3.)

4.3. systematische 1966 -
catalogus
universiteits-
bibliotheek
(aanwinsten via 2.1.)

De naslagwerken uit de onder 03 genoemde tabel overlappen elkaar niet meer dan
onvermijdelijk is als je niet met het badwater ook het kind wilt wegspoelen. In de
catalogus van de bibliotheek van het Ministerie van Onderwijs en Wetenschappen zult
u bijvoorbeeld titels vinden die ook voorkomen in de catalogus van een universiteits-
bibliotheek. Het aantal titels dat slechts in één van de beide catalogi is opgenomen is
echter zo groot dat u waarschijnlijk belangrijke publikaties mist als u slechts één van
de twee catalogi gebruikt.

Als de publikaties waarnaar een naslagwerk verwijst min of meer te beschouwen zijn
als een deelverzameling van de publikaties waarnaar door het materiaal uit de tabel
verwezen wordt, is dat naslagwerk niet in de tabel opgenomen. De Social Sciences
Citation Index komt bijvoorbeeld in de tabel niet voor. Van de 148 periodieken op
het gebied van Education and Educational Research die volgens de Guide and Journal
Lists van de Social Sciences Citation Index 1977 (pl02) behoren tot de Fully Cov-
ered Source Journals van de index, behoren er volgens de Source Journal Index uit de
Current Index to Journals in Education (1978, 10, 1, pIX-XX) 119 tot de ruim 700
periodieken die door de laatstgenoemde index bestreken worden.

Het Sociaal-Wetenschappelijk Informatie- en Documentatie Centrum (SWIDOC) van
de Koninklijke Nederlandse Akademie van Wetenschappen (Kleine-Gartmanplantsoen
10, Amsterdam-C) biedt derden de gelegenheid gebruik te maken van de geautomati-
seerde versie van Current Index to Journals in Education en Resources in Education.
Er zijn op dit moment in Nederland weinig andere centra die datzelfde doen.
De Eerste Uitgave van de Centrale Catalogus van Periodieken en Seriewerken in Ne-
derlandse bibliotheken (CCPj (1971) en het daarbij behorende Cumulatief Supple-
ment mei 1976 (1976) kunnen behulpzaam zijn bij het zoeken van centra waar het
overige materiaal ter inzage is. De catalogi zijn ter inzage aanwezig bij de uitgever en
bij de meeste van de in de tabel onder 4 genoemde bibliotheken.

Probeer niet uw eigen documentahst te worden: er zijn betere. Vooral als het gaat om
het gebruik van geautomatiseerde databestanden is het verstandig de hulp van het
betrokken documentatiecentrum in te roepen als u prijs stelt op een niet te omslach-
tige zoekstrategie en voldoende resultaat.

Kies per naslagwerk één of meer trefwoorden, woorden waaronder de titels die u
zoekt waarschijnlijk te vinden zijn. Kies de trefwoorden zo mogelijk uit het bij het
naslagwerk behorende trefwoordenregister (als dat er is).

Er zijn helaas bijna net zoveel trefwoordenregisters, van zeer eenvoudige tot zeer
professionele thesauri toe, als er naslagwerken zijn. U zult voor de trefwoorden uit
uw vraagstelling (01) dan ook vaak bij ieder volgend naslagwerk opnieuw naar passen-
de vervangers moeten zoeken.

Gebruik bij het vertalen van trefwoorden een veeltalige thesaurus. De EUDISED
Veeltalige thesaurus voor de informatiebewerking op onderwijsgebied (1977) lijkt
daarvoor op dit moment het meest geschikt.

Overtuig u ervan of u via een trefwoord ook titels vindt die dat trefwoord missen
maar een 'narrower term', een ondergeschikt begrip, als trefwoord hebben. Soms is
dat niet het geval. Als ik bijvoorbeeld in Resources in Education zoek naar titels met

het trefwoord 'teaching methods' vind ik geen titels die dat trefwoord missen maar
wel het ondergeschikte begrip 'individual instruction'als trefwoord hebben.
Bedenk ook dat u bepaalde publikaties soms alleen maar op het spoor komt via een
overkoepelend trefv^^oord, een 'broader term'. De systematische catalogus van een
universiteitsbibliotheek noemt bijvoorbeeld onder Didaktiek, Theorie van het onder-
richt: 2050 Algemene werken, Handboeken het Handbook of Research on Teachmg
(Gage, 1963), terwijl Wallen en Travm' Analysis and Investigation of Teaching Meth-
ods, één van de hoofdstukken uit het boek, niet in de catalogus voorkomt.

08. Ga per naslagwerk en per trefwoord na naar hoeveel titels het trefwoord verwijst.
Een grove schatting is voldoende.

09. Ga per naslagwerk na hoeveel titels voorzien zijn van de eventuele combinatie van
trefwoorden.

Als het tellen handwerk is kunt u het beste beginnen met het trefwoord waaronder u
het kleinste aantal titels vond. Uit het bestand met dat trefwoord kiest u dan de titels
die ook voorzien zijn van het trefwoord dat bij het op één na kleinste bestand
voorkwam. Zo gaat u door tot u alle trefwoorden hebt gehad. Op die manier sluit u
zo snel mogelijk zo veel mogelijk irrelevante titels uit. Als ik in een systematische
catalogus met de hand de titels opzoek die betrekking hebben op 'doelmatigheid',
'onderwijsmethoden' en 'academisch onderwijsbegin ik als dat kan altijd met de
rubriek 'doelmatigheid'. De omvang ervan valt meestal bij die van de beide andere in
het niet.

Als machmaal telwerk op een deel van de trefwoorden al een klein bestand oplevert,
is het soms aan te raden dat bestand met de hand op de overige trefwoorden uit te
zoeken.

Als u erg veel of erg weinig titels vindt, is het wellicht aan te raden opnieuw te
beginnen, bij 02 en misschien wel bij 01.

Noteer nauwkeurig de titels die u gevonden hebt, voorzover dat al niet machinaal
werd gedaan.

12. Herhaal de procedure zonodig vanaf 08 en ga daarna door naar 13 (zie deel 2 van de
handleiding).

Als er nieuwe nummers van het naslagmateriaal verschijnen hoeft u niet opnieuw bij
01 te beginnen.

Neem als u gebruik maakt van een geautomatiseerd bestand eventueel een abonne-
ment op het machinaal doorzoeken van de aanwinsten daarvan.

4. De handleiding, deel 2: het verzamelen van publikaties waarvan de titel bekend is

Als u van een pubhkatie een kopie koopt kan dat een papieren kopie (hardcopy) zijn
of een kopie op microfilm of -fiche. Bedenk wel dat de kans klein is dat u m
Nederland een bibhotheek of een ander documentatiecentrum vindt, waar u van
microfilms of -fiches een papieren kopie kunt (laten) maken.

Soms zijn de publikaties verkrijgbaar bij de documentatiecentra waar u het bijbeho-
rende naslagmateriaal gebruikte of waarnaar in dat naslagmateriaal verwezen wordt.

- andere documentatiecentra ter plaatse: raadpleeg als het om artikelen gaat de in
deel 1 onder 05 genoemde Centrale Catalogus van Periodieken en Seriewerken in
Nederlandse bibliotheken;

- interlokaal interbibliothecair leenverkeer: zie als het om artikelen gaat weer de
zojuist genoemde centrale catalogus en raadpleeg uw bibhotheek voor nadere
informatie;

- de Lendmg Division van de British Library (Boston Spa, Wetherby, West York-
shire, Great Britain LS23 7BQ): u kunt er niet alleen kopieën van rapporten
kopen maar ook van artikelen. Dat laatste is extra van belang omdat u bij de
ERIC Document Reproduction Service (P.O. BOX 190, Arlington, Virginia
22210 U.S.A.) wel terecht kunt voor kopieën van het merendeel van de rappor-
ten uit Resources in Education maar niet voor kopieën van de artikelen die in de
Current Index to Journals in Education worden genoemd.

Om de betaling te vergemakkelijken wordt er door de Lending Division van de British
Library met coupons gewerkt die u er eerst koopt en die u later met uw bestellmg
meezendt ter betaling. Om dezelfde reden biedt de ERIC Document Reproduction
Service (EDRS) u de gelegenheid een depositorekening te openen.
Als een pubhkatie bij meer dan één centrum verkrijgbaar is, is de goedkoopste oplos-
smg de beste. Daarbij moet u dan wel alle kosten in rekenmg brengen. Als u voor een
kopie van een artikel naar een van de andere documentatiecentra ter plaatse gaat,
bent u misschien aanmerkelijk duurder uit dan wanneer u die kopie bij de British
Library bestelt. Als u de zojuist bedoelde kopie echter zeer snel nodig hebt, kunt u
misschien toch beter de eerste oplossing kiezen. Voorwaarden met betrekking tot de
periode waarbinnen de literatuurverzameling voltooid moet zijn, beperken de keuze
soms ook.
15. Vraag de publikaties aan.

Het verzamelen van onderwijskundige pubhkaties kost tijd, ook bij gebruik van machinaal
te doorzoeken naslagmateriaal. Bijna alle werk is immers handwerk, van het formuleren
van de vraagstellmg tot en met het aanvragen van de publikaties toe. Alleen de stappen
die m paragraaf 3 onder 08, 09 en 11 worden genoemd kunnen soms machinaal worden
uitgevoerd.

Het verzamelen zou echter nog beter verlopen als ook het materiaal dat daarbij gebruikt
werd verbeterd werd. In veel gevallen zou bijvoorbeeld de informatiewaarde per naslag-
werk verhoogd kunnen worden (zie paragraaf 3, onder 03). De naslagwerken zouden
onderlmg beter pp elkaar kunnen worden afgestemd (idem, onder 04). Ook een verdere
standaardisering van het trefwoordenbestand zou waarschijnlijk een aanzienlijke winst
opleveren (idem, onder 07).

Bibliographie Pädagogik. München: Verlag Dokumentation; 1966,1 - (ISSN 0523-2678).
British Education Index. London: The British Library, 1965/'66,4 - (ISSN 0007-0637).

Bulletin Signalétique 19-24 Sciences Humaines. Paris: Centre National de la Recherche Seientifique,
Centre de Documentation, 1966, 20 - 1968, 22.

Bulletin Signalétique 520 Pédagogie. Paris: Centre National de la Recherche Scientifique, Centre de
Documentation, 1969, 23.

Bulletin Signalétique 520 Sciences de l'Education. Paris: Centre National de la Recherche Scientifique,
Centre de Documentation Sciences Humaines, 1970,24 - (ISSN 0007-5558).

Centrale Catalogus van Periodieken en Seriewerken in Nederlandse bibliotheken (CCP): Eerste Uitgave.
's-Gravenhage: Koninklijke Bibliotheek, 1971.

Centrale Catalogus van Periodieken en Seriewerken in Nederlandse bibliotheken (CCPj: Cumulatief
Supplement mei 1976. 's-Gravenhage: Koninklijke Bibliotheek, 1976.

Current Index to Journals in Education. New York, New York 10022: Macmillan Information, 1969,
1 -.

Dissertaties Maatschappijwetenschappen, 1976-1977. Amsterdam: B.V. Noord-Hollandsche Uitgevers-
maatschappij, 1977.

Documentatieblad voor Onderwijs en Wetenschappen. 's-Gravenhage: Staatsuitgeverij, 1978,52 -.

EUDISED Veeltalige Thesaurus voor de informatiebewerking op onderwijsgebied. Den Haag: Staatsuit-
geverij, 1977 (ISBN 90 12 01571 5).

Gage, N.L. (ed.). Handbook of Research on Teaching. Chicago: Rand McNally & Company, 1963.

International guide to educational documentation. 2nd ed.: 1960-1965. Paris: United Nations Educa-
tional, Scientific and Cultural Organization (Unesco), 1971.

Literatuurdocumentatie Onderwijsresearch. 's-Gravenhage: Stichting voor Onderzoek van het Onder-
wijs (SVO), 1973,1 - (losbladige uitgave).

Meisen, J. van. Inleiding in het gebruik van onderwijskundige documentatie- en informatiesystemen.
Utrecht: Rijksuniversiteit Utrecht, Afdeling Onderzoek en Ontwikkeling van Onderwijs, 1977
(Intern, no. 2).

Pädagogischer Jahresbericht. Duisburg: Verlag für Pädagogische Dokumentation, 1968, 1 - (ISSN
0342-0485).

Periodiekenparade. Amsterdam: Koninklijke Nederlandse Akademie van Wetenschappen, Sociaal-We-
tenschappelijk Informatie- en Documentatiecentrum (SWIDOC), 1974,1 -.

Research into Higher Education Abstracts. Guildford, Surrey GU2 5XH: Society for Research into
Higher Education at the University of Surrey, 1967/'68,1 - (ISSN 0034 5326).

Resources in Education. Washington, D.C. 20402: Educational Resources Information Center (ERIC),
1966,1 - (ISSN 0098-0897).

Social Sciences Otation Index. Philadelphia, Pennsylvania 19106, U.S.A.: Institute for Scientific
Information (ISI) (ISSN 0091-3707).

Sträter, Hans H., Friedrich, Doris (Mitarb.). Thesaurus Pädagogik. Pullach b. München: Verlag Doku-
mentation, 1973.

Thesaurus of ERIC Descriptors. 7th ed.. Riverside, New Yersey 08075: MacmUlan Information, 1977
(ISBN 0-02-468130-x).

Titels van Sociaal-Wetenschappelijk onderzoek. Amsterdam: Koninklijke Nederlandse Akademie van
Wetenschappen, Sociaal-Wetenschappelijk Informatie- en Documentatiecentrum (SWIDOC), 1978,
6-.

Universele Decimale Classificatie: Onderwijscode. 3e dr.. Den Haag: Ministerie van Onderwijs en
Wetenschappen, Centrale Afdeling Documentatie, 1974.

Universiteit en Hogeschool. Bilthoven: Stichting Universiteit en Hogeschool, 1965/'66,12 - 1973/'74,
20.

Vinken, P.J. De wetenschappelijke onderzoeker als producent en gebruiker van informatie. Universiteit
en Hogeschool, 1978, 24, 319-339.

Tliis paper discusses possible explanations why twenty years of ATI-research have yielded Uttle
evidence for tlie occurence of ATI's in educational settings. It is argued that it is still unclear
what is meant by aptitudes, and that the idea that the behavioural possibilities of people are
predestinated by static patterns of aptitudes is conservative. As an alternative for the ATI-
approach the mastery learning approach is advocated, because it localizes responsibility for
educational outcomes in the learning process itself, where something can be done about them if
they are considered insufficient.

As far as I know the idea of aptitude-treatment-interactions was introduced into psychol-
ogy in general, and into educational psychology in particular, by Lee Cronbach in his
presidential address to the American Psychological Association in 1957 (Cronbach,
1957). His basic tenet is that within psychology there are two distinct disciplines, experi-
mental psychology and correlational psychology, both studying human behaviour in their
own way, but that psychology as a unified discipline has greatly suffered from the fact
that the students of the subdisciplines have not found ways to combine their efforts and
results.

I think the statement that psychology harbours two quite distmct subdisciplines was a
fair description of the state of affairs at the time and to a large extent still is. I think the
two disciphnes differ in two respects: (a) the kinds of results they are looking for, and (b)
the methodolo^ they preferably use. Experimental psychology is looking for the regu-
larities of behaviour in given environments: given a well-defined stimulus situation, in
what respect is the behaviour of organisms alike and therefore predictable? Within one
stimulus situation the behaviour of all individuals is supposed to be uniform. Individual
variations within a stimulus situation are termed 'error yariance'. Between stimulus situa-
tions the behaviour of organisms is supposed to vary in function of the characteristics of
the stimulus situation. If this works, behaviour can be predicted from characteristics of
the environment within the Ihnits set by the error variance; behaviour can be manipulated
through manipulation of the environment. The preferred methodology in this branch of
psychology is the manipulative experiment: through systematic variation of the environ-
ment we look for environment-behaviour or stimulus-response correlations.
The primary concern of correlational psychology are individual differences, within and
across stimulus situations. Given a particular environment, do individuals differ in their
behaviour and if so, can these differences in behaviour be 'explained' through stable

♦ Paper presented at XlXth International Congress of Applied Psychology, Munich, 30.VI1-5.VI1I,
1978.

characteristics (inherited, acquired or a combinations of both) of the individuals? (I have
put 'explained' between quotation marks as I shah return to the possible meaning of this
word lateron). If there are such things as relatively stable characteristics of mdividuals
which make a difference for behaviour in particular stimulus situations, the ultunate test
of their relevance would be if they would carry across environments in a systematic way.
The preferred methodology of correlational psychology is the experiment of nature:
through tests we collect data on individual characteristics and on behaviour or products
of behaviour in one or, preferably, a variety of situations, and look for person-behaviour
or person-performance correlations. The reason why we frequently replace records of
behaviour by measures of products of behaviour is that the products of behaviour are in
many instances more readily measurable than the actual behaviour which led to the
product. The assumption, of course, is that the product adequately reflects the behaviour,
a point which I have criticized elsewhere (Crombag, 1974).

Indeed, both approaches are somewhat one-sided. The experimental psychologist,loo king
for environment-behaviour correlations, is annoyed by the size of the error variance in his
data. In an attempt at reducing the size of the error variance, he may introduce the
concept of individual characteristics, and either use one or more as quasi-experimental
conditions m his experiments, or through some trick, e.g. analysis of covariance, try to
reduce the error term.

In correlational psychology environmental factors, especially task-specific factors, depress
the person-behaviour correlations. So we try to reduce the unexplained variance in the
criterion by either using environmental factors as quasi-individual differences, e.g. by
introducing perceptions of environmental characteristics as person characteristics, or
ehminating envhonmental factors from the data through some trick, e.g. standardization
per situation. All this is old hat, i.e. reflecting long-standmg practices in scientific
psychology. These practices are conservative in the sense that their prunary purpose is to
allow each discipline to more or less maintain its own approach to the study of behaviour.
Cronbach's plea for an integration of the two disciplines through the systematic study of
aptitude-treatment-interactions seems a more constructive approach. Although Cronbach
advocates an ATI-approach for psychological research in general, his pomt can be made
strongest for the case of educational psychology. In educational psychology the experi-
mental approach frequently takes the form of a search for teaching conditions under
which student learning is optimal. To this type of study, according to Cronbach (1957),
we should add the study of individual differences within conditions. In his own words
(p. 681):

Unless one treatment is clearly best for everyone, treatments should be differentiated in such a

In my opinion in 1957 it was difficult to disagree with Cronbach on this point. The idea
seems sound.

Since Cronbach's 1957 paper ATI-studies have been an important topic in educational
research. Exactly 20 years later it took Cronbach & Snow close to 600 pages to review
the state of the art (Cronbach & Snow, 1977). This is not a completely fair statement,

since they spend some 100 pages of their book on the methodology of ATI-research, a
subject on which there apparently is no little confusion. Also furtheron in the book
methodological issues fill quite a bit of space, since the authors find it frequently neces-
sary to criticize the methodology of studies reported in the hterature and sometimes even
to reanalyse published data.

The number of studies reviewed in the Cronbach & Snow book and the ever present
question whether the studies under review are methodologically sound, make it difficult
for the reader to make up his mind whether there indeed is solid proof for the existence
of ATI's or whether the evidence is still fragmentary. My personal conclusion — or should
I say: impression? - after reading the book is, that the evidence is at best fragmentary.
The best summary of the results reached so far m this field I heard from Snow himself -
he was, of course, not trying to summarize the Cronbach & Snow book, but the state of
affahs ten years earlier -: 'Finding an ATI is still very similar to a sighting of the monster
of Loch Ness'. I think this statement depicts the present situation adroitly. Some years
ago Glass (1970) came to an even more pesshnistic conclusion:

There is no evidence for an interaction of curriculum treatments and personological variables. I

don't know of another statement that has been confirmed so many times by so many people ...

Glass was too pessimistic in his conclusion, which was based on a review study of his
student Bracht (1970), a study which was heavily criticized by Cronbach & Snow (1977,
p. 494 ff.). Two years later Salomon (1972) published a paper which gave some reason
for optimism vdth respect to ATI. Not only does he discuss quite a number of ATI-
studies with positive results, together these studies of various authors (among which some
by Salomon himselQ seem to make sense and to fit mto a theoretical framework.
Let me explain Salomon's theoretical framework somewhat further, since I think it is the
best attempt yet to tie together results of separate studies. He mentions three teaching
models, in which one may expect ATI's to appear.

His first model is the remedial model. While learning to perform a particular task some
students do worse than others. Since 'learning is basically connective and cumulative', this
is probably due to the fact that some students fail to master certain subordinate parts of
the leammg task. This can be remedied by givmg those students remedial treatments, e.g.
more fime and/or extra instructional sessions. Were these remedial treatments also given
to other students, they would probably get bored, which might interfere with their
performance. Together this leads to ATI's of task-specific capabilities of students with
achievement.

Salomon's second model is the compensatory model. Here some students do worse than
others because they lack certain characteristics or are hindered by their presence, which
cannot be remedied themselves, but their debilitatmg effects can be circumvented or
compensated for during learning. Interactions emerge because for other students the act
of compensation is redundant. In this model one may expect aptitudes of a more general
nature to be involved m the ATI's.

Salomon's third model is the preferential model. Here an mstructional treatment is not
'designed to make up for deficiencies (the first model) or to circumvent them (the second
model)', but 'to capitahze on what the student is already capable of doing', playing to
'the preferred style or information-processmg strategy' of the student. Under this model
one may expect aptitudes of a more general nature to enter ATI's.
Salomon's theoretical framework not only explains why m certain conditions ATI's will

appear, it also predicts what kind of aptitude variables (general vs specific) will enter into
ATI's. Moreover, for each of the models described he is able to refer to empirical evidence
supporting it. No conflicting evidence is discussed by Salomon.

While writing their book, Cronbach & Snow are in desperate need of some kind of a
theoretical framework to tie together a variety of scattered results. For this purpose they
do not even consider Salomon's theory. Although Salomon's paper is occasionally men-
tioned in the book, its contents is not systematically discussed. Because the empirical
evidence turned out to be too thin afterall, or because there was too much conflicting
evidence? The answer is not given in the book.

ATI's were found in a number of studies, that the Cronbach & Snow book makes
sufficiently clear. But in many other instances no ATI's were found, although there were
reasons to expect them. There seems to be httle or no pattern. The only generalization
that Cronbach & Snow can come up with in the last chapter of their book, is that general
abilities seem to enter into ATI's more frequently than specialized abilities, and even that
was contrary to expectations (see p. 496). That is, to my mind, dramatically httle result
of an at first sight good idea, 20 years of experimenting and a book of almost 600 pages.
Something must be wrong with the original idea. Let us go back even one step further
than Cronbach's original idea, i.e. to the component ideas in the ATI-hypothesis. These
component ideas are (a) that people differ in aptitudes and that these differences are
relevant to educational outcomes, and (b) that educational treatments make a difference
for educational outcomes. Let us consider these propositions somewhat closer.

The proposition that individual differences in abihties - let me for reasons of brevity
restrict myself to abilities instead of the wider domain of aptitudes - make a difference
in educational outcomes, rests in turn on three more basic propositions: (a) people differ
in abilities, (b) people differ in educational outcomes, and (c) there are systematic rela-
tionships between differences in abilities and educational outcomes. Is there sufficient
empirical evidence in support of these assertions?

Do people differ in abilities? The answer to this question depends first of all on what is
meant by 'abihty'. Ability is something which is measured by an ability test, e.g. an
intelligence test. I construct a series of problems, verbal analogies, numerical problems,
etc., and make people respond to these problems. 1 count the number of correct re-
sponses and this constitutes a person's score for intellectual ability.
Suppose I have administered my test to 100 university students and they all score the
same - actually, this is what more or less happens when you give e.g. the Wechsler test to
university students. In the tradition of differential psychology I am expected to conclude
that my test is of poor quality, because it fails to discriminate among people. Therefore I
start replacing items with more difficult items until sufficient discrimination among
testees is reached - this was what e.g. AUce Heim did in constructing her test for
'high-grade intelligence' (Heim, 1947). But what am I doing: 'finding' individual differen-
ces or 'creating' them? Well, whatever, under particular circumstances, e.g. when the test
items are difficuU enough, people (can be made to) differ.

Differ in what? In abihty or behaviour and performance? Is my intelhgence test simply
recording behaviour or its result or is it measuring an ability, a relatively stable character-

istic of a person, which 'explains' behaviour? I am, of course, alluding to B.F. Skinner's
(1972) critique of faculty psychology, which assumes internal faculties or aptitudes as
explanatory concepts for observable behaviour. Will differential psychology ever be able
to get away from Skinner's critique, not in a verbal way, but actually? As a verbal way
out of Skinner's critique I consider blurring the meaning of the aptitude concept. Take
e.g. Snow's (1978) definition of'aptitudes' as 'individual difference variables that predict
leaming in a particular situation'. This definition is completely operational as it does not
say what aptitudes are and why they may be expected to be predictive of achievement, it
only indicates how to decide post hoc what to call an aptitude: anything that turns out to
be predictive of achievement. A headache during an examination will probably affect
performance. Does that make a headache an aptitude? Probably not, according to Cron-
bach & Snow's (1977, p. 160) own statement:

'While one can be interested in momentary states, any theory of aptitude surely should be

1 am not finished yet with the foregoing, but let us for now move on to individual
differences in educational outcomes. People differ in educational outcomes, we can ob-
serve that in our schools all the time. But again the question is whether these differences
are spontaneously found or willfully created. Do not teachers state their educational
objectives and construct their examinations in such a way as to maximize discrimination
among students? What kind of a teacher is it, who cannot tell a dumb pupil from a bright
one? His teaching anticipates differences in outcomes, his testing reinforces them because
the average difficulty level of the examination questions and the cutting score are set in
such a way that the anticipated differences in outcome will appear.
Is there an alternative? I think there is. The theory of mastery learning, of which I prefer
its more recent formulation (Bloom, 1976) by far to its earlier, rather naive statement
(Block, 1971), advocates that in education one should work to minimize individual
differences in outcomes. There is evidence that it can be done too (Bloom, 1976).
Let me try to formulate some provisional conclusions from the foregoing. When we find a
correlation — in whatever direction — between intelligence test scores and school per-
formance, can we say that differences in educational performance are explained by differ-
ences in intelligence? Such a statement completely lacks an empirical basis, and of neces-
sity does so, because 'ability' is at best a theoretical construct, and at worst a myth. If we
happen to find a statistically significant correlation between scores on an intelligence test
and educational performance, we can say that people who perform better in one situation
to a certain extent - as indicated by the size of the correlation coefficient - also tend to
do better in another situation, in other words we can say that there are (some) regularities
in human behaviour. Whether that is a materially significant result depends on whether
the tasks set by the tests were important, i.e. representative of a materially significant
domain of human behaviour, and whether the observed differences among individuals in
test performance were unavoidable, i.e. not just created for and by the test situation.
Especially this last requirement is in correlational educational psychology ahnost never
satisfied. People scoring low on an intelligence test may be trained to do better. Is that
forbidden? Why? Because it shakes the holy concept of mental ability? People scoring
low on an examination may be trained to do better. Is that forbidden? No, that is what
education is about. Why then do we accept differences in examination scores time and
again?

Am I not advocating adaptation of educational treatment to individuals? Yes, I am, but in
a different way as envisaged by the proponents of ATI-theory. I shall explain this in the
next paragraph. First one last remark on individual differences.

People differ in behaviour and performance widely. Some speak French excellently, some
don't. Some are very good at mathematics, some aren't. Some play basketball very good,
some don't. Some play the piano, others don't. Because some are more gifted verbally, or
mathematically, or physically or musically? Some speak better French than others be-
cause they happen to be Frenchmen. Some are better m mathematics because they
attended a prep school while others quitted school at the age of 14. Some play basketball
well because they happened to be taU while shorter people even did not bother to try.
Some play the piano while others don't because there happened to be a piano in the
house and their mother was a skilled piano-player too. Individual differences in behaviour
and performance are largely due to differences in the, past and/or present, environment —
and that, by the way, is the basic tenet of experimental psychology. Circumstances can be
changed, if you bother to do so, and then behaviour and performance will change. If you
do not want or are not able to change circumstances, then you do something different
and maybe become good at that. It is unportant m our culture that everybody can read
and write. So we try very hard to make circumstances such that almost everybody will
leam these skills. It is less important that everybody can speak French - except in French
speaking countries — so we try a httle less hard to force circumstances.
Are there not individual differences which make certain mdividuals more able to learn
mathematics, or a second language, or whatever? Of course, the combination of present
and past conditions may at a particular point m tune make a particular individual much
more ready for a leaming task than someone else. Do not differences m abilities, defined
as relatively stable characteristics of individuals, contribute anything to these differen-
ces? If this question has any meaning at all (see before), the answer must be: no, accord-
ing to Cronbach & Snow's own statement (1977, p. 497):

'We have found that tests of general ability relate to subsequent performance in just about the

Abihties do not predict performance any better than performance predicts performance.

The second assumption underlying the ATI-hypothesis is, that educational treatments do
make a difference in outcomes. Is there empirical evidence for this assumption? At first
sight not very much. Of course, I am referrmg to Dubin & Taveggia's (1968) famous
teaching-learning paradox. They reanalysed 91 comparative studies of college teaching
methods conducted between 1924 and 1965. The results 'demonstrate clearly and un-
equivocally that there is no measurable difference among truly distinctive methods of
college mstruction when evaluated by student performance on fmal examinations', a
conclusion which was quahfied by Taveggia in later pubhcations. I shall come to that
furtheron.

In the meantime, I think there is something wrong whh Dubin & Taveggia's conclusion. I
think their result is

largely due to the fact that researchers are inchned only to investigate non-trivial questions. The
question whether e.g. skill in designing a mechanical construction can be acquired equally well
by means of a lecture course as it can be by way of a series of exercises is something nobody
wants to investigate: obviously it makes a difference. For particular parts of the subject matter
and/of particular teaching goals some teaching methods are evidently not apphcable. Research-
ers are pnly wilhng, given a certain part of subject matter and certain objectives, to test
reasonable alternatives (Crombag, 1978).

Within the domain of reasonable alternatives, it does not make much of a difference
which educational treatment is actually chosen, that we know from Dubin & Taveggia's
study. So long as in ATI-studies the altemative treatments employed are sampled from
the domain of reasonable alternatives, we will virtually never find a significant ATI.
Sampling treatments from outside the domain of reasonable alternatives would obviously
be a stupid thing to do.

I indicated earher that in later pubhcations Taveggia (1976 & 1977) qualified the results
from 'The teachmg — leaming paradox': there is one educational treatment which is
consistently superior m educational outcomes to all other treatments. That treatment is
the 'Personahzed System of Instruction' (PSI) or the Keller Plan. In the Keller plan the
course material is divided into units, each containing a reading assignment, study ques-
tions, collateral references, study problems, and necessary mtroductory or explanatory
material. The student studies the units sequentially at the rate, tune and place he prefers.
The students are only allowed to proceed to the next unit after having demonstrated
complete mastery of the foregoing unit as revealed by mtermediate tests.
The distinctive features of the treatment are (a) the go-at-your-own-pace feature, (b) the
constant feedback on learning results followed, if necessary, by corrective measures, and
(c) the mastery requhement, leading to uniformhy of achievement for all students. If
these features are present, students perform superior to students in traditional educa-
tional treatments.

If this is so, does this not prove that adaptive education is better, and is this not essen-
tially what the ATI-theorists are advocatmg? The first half of this assertion is true, the
second is not. First, PSI is not a treatment in the sense it is used in ATI-theory. It is an
umbrella name for an mfinite variation of treatments, given to or rather created by
individual students. Second, the treatment each student receives is not adapted to his
aptitude-profile, but to the present state of his learnmg. In this respect PSI or the Keller
plan is hardly discriminable from Bloom's (1976) more recent formulation of the mastery
leammg theory. In the Cronbach & Snow book PSI is not mentioned as a possible
treatment, while mastery learning is discussed as a rivalling theory and finally
(p. 499-500) dismissed as inferior to ATI-theory.

In my opinion ATI-theory is conservative m the sense that it views mart as incarcerated in
a static pattern of mysterious aptitudes, predestinating for hfe or at least considerable
parts of it his behavioural possibilities. Although it seeks to alleviate this sad state of
affairs, it is essentially pesshnistic in outlook. Educational outcomes are as good as the
students that are put m: 'garbage in - garbage out'. Fortunately ATI-theory - and, m
general, correlational psychology - has httle by way of empirical evidence to prove its
vahdity, as the Cronbach & Snow book so aptly demonstrates.

The new educational theory, epitomized by the PSI and the mastery learning philosophies
locahzes the responsibility for educational outcome in the learning process itself. If we
want to improve leaming outcome, we will have to unprove the learning process. For-
tunately there is a growing body of empirical evidence that this can be done. The notion
of aptitudes pre-destinating learning potentials is only a poor excuse for our failures and
lack of responsibility.

Block, J.H. (e.d.). Mastery learning: theory and practice. New York: Holt, Rinehart & Winston, 1971.

Bloom, B.S. Human characteristics and school learning. New York: McGraw-Hill, 1976.

Bracht, G.H. The relationship of treatment tasks, personological variables and dependent variables to
aptitude-treatment interactions. Review of Educational Research, 1970,40, 627-645.

Crombag, H.F.M. Product and process in teaching and testing. In: H.F. Crombag & D.N. de Gruijter
(eds.). Contemporary issues in educational testing. The Hague: Mouton, 1974.

Crombag, H.F.M. On defining quality of tAucation. Higher Education, 1978, 7, 389-403.

Cronbach, L.J. The two disciphnes of scientific psychology. American Psychologist, 1957, 12,
671-684.

Cronbach, L.J. & Snow, R.E. Aptitudes and instructional methods. New York: Irvington Publishers,
1977.

Dubin, R. & Taveggia, Th.C. The teaching-learning paradox. A comparative analysis of college teaching
methods. Eugene (Oregon): Center for the Advanced Study of Educational Administration, 1968.

Glass, G. Discussion. In: M.C. Wittrock & D.C. Wiley (eds.). The evaluation of instruction. New York:
Holt, Rinehart & Winston, 1970.

Heim, A.W. An attempt to test high-grade intelhgence. British Journal of Psychology, 1947,37, 70-81.

Salomon, G. Heuristic models for the generation of aptitude-treatment interaction hypotheses. Review
of Educational Research, 1972, 42, 327-343.

Snow, R.E. Eye fixation and strategy analyses of individual differences in cognitive aptitudes. Paper
presented at the NATO Conference 'Cognitive Psychology and Instruction', Free University,
Amsterdam, June 1977.

Taveggia, Th.C. Personalized instruction: A summary of comparative research, 1967-1974. American
Journal of Physics, 1916,44,1028-1033.

Taveggia, Th.C. Goodbye teacher, goodbye classroom, hello learning: A radical appraisal of teaching-
learning linkages at the college level. Journal of Personalized Instruction, 1977,2:2, 119-121.

The New Three R's in Person-Environment
Interaction: Responsiveness, Reciprocality,
and Reflexivity'

Because of excessive concern with statistical and methodological issues, ATI research has taken
an approach which is (1) fixed, (2) unilateral, and (3) objective. This inadequate conception of
the teaching-learning process will prevent informing educational practice no matter how rigor-
ous the analysis and design. Teaching-learning transactions are viewed as examples of persons-in-
relation or person-environment interactions. To understand such phenomena, we must shift our
approach from: (1) fixed to responsive, (2) unilateral to reciprocal, and (3) objective to reflex-
ive. WhUe we are returning to the Old Three R's, let us also move forward to the New Three
R's: Responsiveness, ReciprocaUty, and Reflexivity.

I agree with Rothkopfs recent (1978) review of Cronbach and Snow's (1977) book on
Aptitude-Treatment Interactions (ATI) that ATI research requires a better conceptual,
theoretical foundation if it is to illuminate matching teaching to the needs of students in
particular and person-environment interaction in general. In its excessive emphasis on
statistical and methodological issues, ATI research has unquestioningly accepted an ap-
proach to investigating the teaching-learning process which is (1) fixed, (2) unilateral, and
(3) objective. In contrast I propose an approach which is (1) responsive, (2) reciprocal,
and (3) reflexive in attempting to understand person-environment interaction. Thus, I do
not disregard empirical work, but emphasize the need to redirect research through a
reconceptuahzation of the phenomenon.

1. That the basic aim of psychology is to understand person-environment interaction, or
persons-in-relation over time; in short to understand the nature of human experience.

2. That such understanding will always be contextual, i.e., in specific settings at specific
times (this assumption is similar to that voiced by Cronbach, 1975).

3. That such imderstanding will be informed by the imphcit or tacit knowledge of the

Although not an assumption, a distinction is needed between the unit of person-environ-
ment interaction or fit: large-scale, formal or macro-matching as distmct from small-scale,
informal, micro-matching. Macro-matching is exemplified by the assignment of students

1. Adapted from a paper presented at a Symposium on 'Interaction of personality development and
varying types of educational environments within college and university settings'. International Con-
gress of AppUed Psychology, Munich, 2 August, 1978.

to a specific form of educational approach for a fairly long time period while micro-
matching refers to teachers' minute-to-minute adaptation. Participants in this symposium
may differ in their concern with macro- or micro-matching. I believe that macro-matching
is effective primarily insofar as it facilitates micro-matching.

In Mitchell's 1969 paper 'Education's challenge to psychology: the prediction of behavior
from person-environment interactions', he summarized three areas of inquiry: need-press
analysis in colleges, classroom interaction analysis, and Aptitude-Treatment Interactions
(ATI). My initial comments refer to ATI.

Most ATI investigators view their efforts as a search for some elusive species called ATI.
In this statistical view, interactions are 'found' or not discovered. When many of the
hunting expeditions are unsuccessful, workers hke Glass (1970) conclude that ATI has
not 'paid off, or as he put it more specifically:

There is no evidence for an interaction of curriculum treatments and personological variables.

I don't know of another statement that has been confirmed so many tunes and by so many

Such cavalier statements which confuses arbitrary statistical criteria with the phenome-
non of person-environment interaction are bewildering to teachers, and only serve to
reinforce their suspicion that psychological and educational research are irrelevant to
their work. Teachers, other practitioners, and indeed all the rest of us when we are
interacting with others know through our experience that persons do interact differen-
tially to environments. Teachers know full well through their tacit or implicit knowledge
that their students vary enormously in their susceptibility to different approaches; they
are too busy with the real business of adapting to their students to make their tacit
knowledge expHcit. And they are certainly too busy to give attention to what must be
seen as a time-wasting question - do persons interact with environments in different
ways? If we pay attention to the actions of teachers and other practitioners as well as our
own tacit knowledge when we are not wearing our psychologist's hat, we will at once see
that person-environment interactions is the basic phenomenon to understand, not a trivial
topic to be abandoned because it has not 'paid off.

One reason for this difficulty is that the study of person-environment interactions has
been approached methodologically (with statistical and psychometric criteria) rather than
conceptually, e.g., rather than viewing person-environment interaction as a conceptual-
theoretical challenge, researchers have applied rigorous statistical criteria (Hunt, 1975;
Rothkopf, 1978). Further, it is ironic that early investigators have used traits which have
been found to be highly rehable or unchanging over time as those which are most likely
to provide an understanding of person-environment interaction. I am not advocating that
we should adopt inconsistent measures, but an adequate understanding of persons-en-
vironment interaction will include how persons change over time. We need a conceptual
understanding to permit the derivation of appropriate methods, many of which will be

quite different from those psychometric measures and statistical procedures now being
employed. Consider for example the unsuitability of measures for understanding the
process of development or the process of change itself (Cronbach & Furby, 1970).
One might maintain that the difference between the quotation of Glass and experience of
teachers is not really a difference of opinion, but a difference between macro-matching
and micro-matching. Nonetheless, micro-matching and macro-matching both involve shni-
lar processes and macro-matching must have some relation to teachers' mtuitive adapta-
tion. Teachers adaptation has also been underplayed as a reasonable source of informa-
tion. On the first page of their recent book (1977), Cronbach & Snow state: 'certainly the
casual adaptation teachers make is not the most vahd adaptation possible'. Smce there are
almost three million teachers in North America and since Cronbach himself has earlier
admitted that '1 know of no research on hnpressionistic adaptation of instruction ...'
(1967, p. 29), there seems to be reason to question such disregard of teacher adaptation.
In sum, the major difficulties with ATI work have been that it has been (1) fixed rather
than responsive, (2) unilateral rather than reciprocal, and (3) objective rather than re-
flexive.

I reverse the familiar Lewinian motto to emphasize that the relation between psychologi-
cal theory and educational practice is reciprocal, i.e. it seems increasingly clear that the
traditional unilateral theory-to-practice has been quite unsuccessful. The reversed motto
imphes that practice is the phenomenon to be understood, and that psychological re-
search should be informed and guided by the nature of practice. The reversed motto also
reminds us that research is to understand the phenomenon of psychology, or person-
environment interaction.
Asch has suggested (1959):

Every field of inquiry must begin with the phenomena that everyday experience reveals, and
with the distinctions it contains. Further inquiry may modify our understanding of them, but
the phenomena themselves will never be displaced (p. 379).

In psychology, the phenomena may be viewed as Behavior-Person-Envu-onment (Hunt
and Sullivan, 1974; adapting from L^win), i.e. m education a student (P) interacting with
an educational environment (E) with an mteractive outcome (B). Another view 1 discuss
briefly is to regard the phenomenon as that of Persons in Relation (Macmurray, 1962).
To acknowledge the phenomena to be understood is no light matter; it amounts to
redefinmg psychology as the understanding of human experience.

The reversed motto and the redefinition of psychology extend the epistemological criteria
of evidence. Most earher work has rehed on empirical evidence from objective experi-
ments with occasional admission of theoretical-logical evidence. Implicit knowledge
should not only be accepted, but taken as essential mformation. Whether refened to as
personal constructs (Kelly, 1955), common-sense psychology (Heider, 1958), or personal
knowledge (Polanyi, 1962) such tacit knowledge is legitimate and essential. For example,
several German psychologists (Hofer, 1978; Huber & Mandl, 1978) have recently demon-
strated the importance of teachers' imphcit theories m determining their classroom behav-

ior. This is not to recommend that we tum psychology completely over to Mr. Everyman
(Sarason, 1976) but that the logic of theory and the results of experiments be informed
by, and synthesized with, implicit knowledge. As I put it earlier, 'Teachers are psycholo-
gists, too' (Hunt, 1976a).

Even if ATI research had been successful, it is unhkely that it would have made a great
deal of difference in educational practice because it has all been done m a fixed mode. It
informs practitioners initially about how to 'tune in' or adapt to their students, but it
gives little guidance about adjusting to them over time. One reason is that person-environ-
ment interactions are expressed in ATI terms by graphs in which the person (aptitude)
dimension is precisely scaled on the horizontal axis, or abscissa, by a continuum of test
scores while the environment (treatment) is dichotomized. This representation is based on
a personnel selection model (Cronbach & Gleser, 1957) which emphasized placing the
person in the environment in which he would perform best. From a teacher's standpoint,
it would be more helpful to scale the educational environment more precisely to repre-
sent how the educational environment can be tuned to different students or modulated to
the same students. Such a presentation emphasizes environment adaptation to the student
rather than student placement into an environment.

The importance of responsiveness becomes clear if we wish to change or 'improve' the
aptitude or person characteristic, or at least avoid preventing further development. Mes-
sick's comment on maintaining a developmental perspective illustrates this need for re-
sponsiveness:

Consider the likehhood, however, that in our efforts to optimize the learning of subject matter
we may so sohdify the global child's cognitive style that he may never learn to discover any-
thing in his entire school career. This possibility suggests that teaching to produce maximal
learning of subject matter is not enough. We should also be concerned with the student's
manner of thinking. One possibility here is that we should attempt to foster alternative modes
of cognition and multiple styhstic approaches to problem solving ^970, p. 197).

Because most theory and research in psychology and education has been conceptualized
in the unidirectional x-causes-y framework, almost all emphasis has been on how the
environment affects the person. Thus, thousands of studies have been conducted on the
effect of teachers (or teaching approaches) on students, but only a handful have investi-
gated how students affect teachers (Hunt, 1976b). Our ways of thinking should be
reciprocal taking account of 'student pull' (P ->• E) as well as E P influences. Most
systems of 'interaction' analysis do not measure teacher-student interaction, but only
index teacher actions toward students (and occasionally student actions). A notable
exception is the reciprocal framework called the Hit-Steer approach developed by Fiedler
(1975) which provides a basis for coding the frequency (number of hits) and success
(number of steers) of influence attempts by both teacher and students.
Because earlier conceptions of person-environment interaction have dealt only with Envi-

ronment -> Person effects, the responsibihty for matching has usually rested with some-
one other than the student. However, when the reciprocality of person-environment
interaction is acknowledged, then the possibihty of student self-matching becomes a
possibility. In describing some alternative assumptions to those of Cronbach & Snow's ATI,
Merrill (1975) proposed that:

Individuals should be given some procedure enabUng them to adapt the environment to them-
selves. The individual should make decesions about what tactic they want next rather than
having this decision made for them (p. 221).

Student self-matching unplies accurate self-assessment. Student assessment is often con-
ducted by a psychometric expert who relies on objective testing, but rarely on the
student's self-assessment. Students vary in their capacity for accurate self-assessment, but
this avenue should not be ignored. As George KeUy used to admonish us in graduate
school, 'Always ask the client what is wrong - he may tell you'. Or as Michael remarked
(1977):

One strand of this research suggests that the individual generally is capable of being his or her
own best assessor; that the person's own self-statements and self-predictions tend to be at least
as good as the more indirect and costly appraisals of sophisticated tests and clinicians (p. 253).

Not only is every person a psychologist (Kelly, 1955), but every psychologist is a person
(Hunt, 1978a). Put another way, psychology is the only area of inquiry in which the
perpetrator of theory is also an object to be understood. To be reflexive, therefore,
requires the psychologist to be explicit about his imphcit, personal knowledge. Such
explication should enrich our understanding of psychological phenomena. Put somewhat
cynically, the psychological theorist is in the unique position of elevating his imphcit
knowledge to the level of objective, scientific truth. Put more constructively, by accepting
our own being persons we psychologists can develop a better understanding of the nature
of persons-in-relation (Hunt, 1977).

At this point your reaction to my bringing in the new three R's to person-enviromnent
interaction may be hke that of a colleague whom Snow (1977) quoted as follows:

If you're right, I quit because thismakes it all too complicated-theory becomes impossible! (p. 12).

I think it will be possible to incorporate responsiveness, reciprocahty, and reflexivity into
a framework, and I believe building the framework should begin by developing an ade-
quate conception of a person (Ossorio, 1973), and extending this to conceptualizing
persons-in-relation (Hunt, 1978b, 1978c). Such a persons-in-relation framework will pro-
vide a more adequate basis for a theory of the teaching-learning process.

Almost all earlier work in person-environment interaction has studied a single person
characteristic, e.g. anxiety, conceptual level, or occasionally multiple needs, but all these
approaches represent what Ossorio (1973) calls an incomplete conception of the person,
or parts viewed out of context of the whole. Ossorio believes that an adequate conception
of the person must contain the following:

Earlier understanding of persons (and thus of person-environment interaction or persons-
in-relation) has been hampered by studying single variables out of context, intention
disregarding knowledge, or vice versa. We cannot study all the parts at once, but the
part-whole relation needs to be acknowledged. As Sarason (1976) puts it:

... how you approach and deal with the part is influenced mightily by where you see it in rela-
tionship to the whole; that is, what you hope to do and the ways in which you go about it are
consequences of how you think it is imbedded in the large pictures (pp. 323-324).

Let me conclude by briefly considering how Ossorio's four person characteristics might
inform an understanding of persons-in-relation, or more specifically, teacher-student
transactions. In interacting with students, a teacher begins with certain intentions, forms
impressions of the student (knowledge), both of which along with the teacher's compe-
tence inform the teacher's action. I have earlier referred to such forming an impression
and adapting as the processes of 'reading' and 'flexing' (Hunt, 1976b). From the student's
standpoint, he or she not only has knowledge of the subject but acquires knowledge of
the teacher. As teacher and student become reciprocally aware of intentions, the teach-
ing-leaming transaction becomes more compatible. A teacher's 'reading' and 'flexing'
applies to their interactions with groups of students as well as individuals.

Asch, S. A perspective on social psychology. In S. Koch (Ed.), Psychology: A study of a science.
Volume 3, New York: McGraw-Hill, 1959.

Cronbach, L.J. How can instruction be adapted to individual differences. In R.M. Gagne (Ed.), Learn-
ing and individual differences, New York: MacmUlan, 1967, pp. 23-44.

Oonbach, L.J. Beyond the two disciplines of scientific psychology. American Psychologist, 1915,30,
116-127.

Cronbach, L.J., & Furby, L. How should we measure 'change' or should yuel Psychological Bulletin,
1970, 74, 68-80.

Cronbach, L.J., & Gleser, G.C. Psychological tests and personnel decisions. Urbana: University of
Illinois Press, 1957.

Cronbach, L.J., & Snow, Aptitudes and instructional methods. New York: Irvington, 1977.

Fiedler, M. BidirectionaUty of influence in classroom interaction. Journal of Educational Psychology,
1975, 67, 735-744.

Hofer, M. Implicit personality theory of teachers, causal attribution, and their perception of students.
Paper presented at American Educational Research Association meeting, Toronto, Ontario, 1978.

Huber, G.L., & Mandl, H. Teachers' vs. instruments' structures: What's implicit in implicit personality
theory? Paper presented to American Psychological Association, Toronto, Ontario, 1978.

Hunt, D.E. Person-environment interaction: A challenge found wanting before it was tried. Review of
Educational Research, 1915,45, 209-230.

Hunt, D.E. Teachers are psychologists, too: On the apphcation of psychology to education. Canadian
Psychological Review, 1916,17, 210-218(a).

Hunt, D.E. Teachers' adaptation: 'Reading' and 'flexing' to students. Journal of Teacher Education,
1976, 27, 268-275(b).

Hunt, D.E. Theory-to-practice as persons-in-relation. Ontario Psychologist, 1977, 9, 52-62.

Hunt, D.E. Theorists are persons, too: On preaching what you practice. In C. Parker (Ed.), Encour-
aging student development in college. Minneapolis: University of Minnesota Press, 1978(a).

Hunt, D.E. Teacher Centers as persons-in-relation. In S. Feiman (Ed.), Teacher centers: What place in
education? Chicago: University of Chicago Center for PoUcy Study, 1978, pp. 97-108(b).

Hunt, D.E. In-service training as persons-m-relation. Theory into Practice, 1978, 77(c).

Hunt, D.E., & Sullivan, E.V. Between psychology and education, Hinsdale, llhnois: Dryden, 1974.

Kelly, G.A. The psychology of personal constructs. New York: Norton, 1955, Volume 1.

Merrill, D. Learner control: Beyond aptitude treatment interactions. Audio Visual Communication
Review, 1915,23, 217-226.

Messick, S. The criterion problem in the evaluation of instruction: Assessing possible, not just intend-
ed, outcomes. In M.C. Wittrock & D.C. Wiley (Eds.), The evaluation of instruction: Issues and
problems. New York: Holt, Rinehart & Winston, 1970, pp. 183-202.

Mischel, W. On the future of personality measurement. American Psychologist, 1977,32, 246-254.

Mitchell, J.V. Education's challenge to psychology: The prediction of behavior from person-environ-
ment interaction. Review of Educational Research, 1969, 39, 695-721.

Ossorio, P. Never smile at a crocodile. Journal of Theory of Social Behaviour, 1973,3,121-140.

Rothkopf, E.Z. The sound of one hand plowing. Contemporary Psychology, 1978,23, 707-708.

Sarason, S.B. Community psychology, networks, and Mr. Everyman. American Psychologist, 1976,31,
317-323.

Snow, R.E. Individual differences and instructional theory. Educational Researcher, 1977, November,
11-15.

Wittrock, M.C., & Wiley, D.C. (Eds.), The evaluation of instruction: Issues and problems. New York:
Holt, Rinehart & Winston, 1970.

De vraag of ATI uiteindelijk toch niet zo'n goed idee is gebleken, is niet eenvoudig te
beantwoorden. Wat is ATI? ATI is te beschouwen als een research-paradigma, een onder-
zoeksopzet. In het kader van psychologisch onderzoek wordt een onderscheid gemaakt
tussen de experimentele en de correlationele methode. Kenmerkend voor de experimen-
tele is dat via nauwkeurige observaties wordt nagegaan wat de effecten zijn van systemati-
sche manipulatie van één of meer variabelen op het gedrag van een aantal (proef)perso-
nen. In het geval van correlationeel onderzoek wordt nagegaan welke (wederzijdse) ver-
banden er bestaan tussen bepaalde (door de onderzoeker geselecteerde) variabelen. Of,
zoals Crombag het formuleert: in het eerste geval is er sprake van een 'manipulative
experiment' waarbij de nadruk ligt op de relatie tussen omgeving en gedrag-, in het andere
geval is er sprake van een 'experiment of nature' waarbij de persoon-gedrag-ie\?Aie centraal
staat.

ATI is een combinatie van beide methoden. Kenmerkend voor ATI is dat er geen twee,
maar drie soorten van variabelen in het geding zijn: gedrag — omgeving - persoon. Dit
Lewiniaanse model kan ook worden toegesneden op onderwijspsychologisch onderzoek.
De drie variabelen zijn dan: Resultaten - Omgeving - Leerling (R-O-L). Onder resulta-
ten wordt verstaan de waameembare of registreerbare effecten van leerprocessen die in
een bepaalde (onderwijs)situatie zijn geïnduceerd. Deze resultaten zullen in zekere mate
afhankelijk zijn van allerlei factoren uit die omgeving, zoals bijvoorbeeld: de aard en de
presentatie van de leerstof, de instructiemethode, de wijze waarop feedback wordt ge-
geven tijdens het leerproces e.d. Deze factoren worden verondersteld het leerproces recht-
streeks — d.w.z. zonder tussenkomst van andere variabelen — te beïnvloeden. Zij worden
aangeduid met de term omgevingsfactoren. Het leerresultaat kan in een gegeven (onder-
wijs)situatie eveneens afhankelijk zijn van allerlei leerhngkenmerken, zoals bijvoorbeeld:
het niveau van relevante voorkennis, cognitieve stijlkenmerken, motivatie e.d.
Als nu bhjkt dat de relatie tussen L en R, tussen leerhngkenmerken en leerresultaten,
verschillend is voor verschillende waarden van O, dan is er sprake van interactie. ATI is
een onderzoeksopzet waardoor het mogehjk is interacties tussen R, O en L op te sporen
en te toetsen.

Terecht concludeert Crombag dat de resultaten die tot nu toe zijn verkregen door middel
van ATI-onderzoek nogal tegenvallen. Vandaar zijn uitspraak: ATI, perhaps not such a
good idea after all. Volgens deze auteur is het gebrek aan duidehike. consistente resulta-

Op verzoek van de redactie schreven L.F.W. de Klerk en A.F.M. Verhoeven elk een commentaar op
Crombag's artikel 'ATI: perhaps not such a good idea after all' (elders in dit nummer). Voor het
commentaar van Verhoeven zie p. 195.

ten voor een deel toe te schrijven aan het ontbreken van adequate theorieën. Hij wijst m
dit verband op het werk van Salomon waarin een theoretisch frame is uitgewerkt dat 'not
only explains why in certain condition ATI's wih appear, it also predicts what kind of
iptitude variables (general vs. specific) will enter into ATI's'.

Een minstens even interessante benaderingswijze vinden we bij Hunt en Sullivan (1974).
Volgens deze auteurs zijn de teleurstehende resultaten voor een groot deel toe te schrijven
aan het feit dat verreweg de meeste ATI-studies gericht zijn geweest op het zoeken naar
statistisch significante, disordinale interacties. Veel te weinig aandacht is besteed aan het
uitproberen van zinvolle en theoretisch verantwoorde combmaties van leerlingkenmerken
en omgevingsfactoren. Hunt en Sullivan hebben voorgesteld leerlingkenmerken te defi-
niëren in termen van 'accessibility characteristics'. Hiermee worden leerlingkenmerken
bedoeld die rechtstreeks verwijzen naar specifieke O-factoren. Zij zijn 'directly trans-
latable mto specific form of educational environments, hkely to be effective for the
person's leaming of development'.

Een voorbeeld kan dit verduidelijken. Stel dat sommige leerlingen meer visueel en andere
leerlingen meer auditief zijn ingesteld. Stel voorts dat dit 'acessibility characteristic' (dat
we kunnen omschrijven als sensorische oriëntatie) adequaat gemeten kan worden. Dit
kenmerk bepaalt dan als het ware de 'waarden' van een bepaalde O-variabele (in dit geval
de wijze van presentatie van de leerstof). Via ATI-onderzoek kan worden vastgesteld in
hoeverre de ene leerhng meer gebaat is met een voornamelijk visuele presentatie van de
leerstof en in hoeverre de andere leerhng meer gebaat is met een auditieve presentatie.
In dit voorbeeld gaat het slechts om één enkel leerlingkenmerk en één bepaalde omge-
vingsfactor. Hunt en Sulhvan stellen voor een profiel van leerlingkenmerken te ontwikke-
len, waarbij ieder kenmerken L naar een bepaalde O-factor verwijst. Via onderzoek kan
dan worden nagegaan hoe goed de geselecteerde L-factoren corresponderen met de ver-
schillende O-factoren. Zij spreken in dit verband van 'matching',: het op elkaar afstemmen
van leerlingkenmerken en de ermeer corresponderende omgevingsfactoren. Matching moet
niet alleen geschieden op basis van stabiele leerlingkenmerken, maar evenzeer op basis van
kenmerken die in de loop van de ontwikkehng (of zelfs gedurende het onderwijs) kunnen
veranderen. Indien bij de opzet van ATI rekenmg wordt gehouden met dit matchingsidee
dan biedt ATI wellicht goede perspectieven. Anders gezegd: it is perhaps a good idea after
all!

Crombag gaat uitvoerig in op het begrip 'aptitude'. Een bezwaar zou zijn dat Cronbach en
Snow (1977) hieronder vrijwel alleen de meer duurzame trekken (traits) verstaan. Dat is
niet juist. Beide auteurs hanteren een zeer ruime definitie en wel: 'any characteristic of a
person that forecasts his probability of success under a given treatment' (p. 6). Dus
hieronder vallen niet alleen de meer duurzame trekken (zoals IQ en extraversie), maar ook
leerlingkenmerken die een meer tijdelijk karakter (kunnen) hebben, zoals het niveau van
voorkennis of de mate van vertrouwdheid met het te bestuderen onderwerp.
Wat moeten we verstaan onder 'treatment'. Iedere O-factor. Of zoals Cronbach en Snow
het formuleren: 'Any manipulable variable'. Als we ons beperken tof cognitieve onder-
wijsdoelstellingen dan kan een 'treatment' worden opgevat als het bieden van specifieke
hulp aan leerlingen bij het opnemen en verwerken van de aangeboden mformatie. Deze
hulp kan op tal van manieren worden gegeven, bijvoorbeeld door de leerstof meer of
minder te structureren, door allerlei aanwijzingen te geven over de stof of over de wijze
waarop deze bestudeerd kan worden, door de leerhng te informeren over zijn vordermgen
en prestaties tijdens het leerproces e.d. Een belangrijke vraag hierbij is welke hulp het

meest geschikt is voor welke leerling. Er zijn op grond van ATI-studies aanwijzingen dat
negatief faalangstige leerlingen meer gebaat zijn met een goed voorgestructureerd pro-
gramma en positief faalangstige leerlingen meer gebaat zijn met een inductieve werkwijze
en niet-neurotische leerlingen met een deductieve werkwijze (Hermans, 1969); dat leer-
lingen met een laag niveau van voorkennis meer gebaat zijn met tussentijdse feedback en
leerhngen met een hoog niveau van voorkennis met een 'stilleesmethode' (Tobias, 1973).
Hierbij kunnen de volgende twee kanttekeningen worden geplaatst. Leerlingen zijn niet
gekenmerkt öf door een neuroticismescore, óf door een niveau van voorkennis, öf door
een faalangstscore. Leerhngen kunnen in zeer veel opzichten van elkaar verschillen. Het is
de kunst om de werkelijk relevante kenmerken te selecteren! Ook geldt dat de genoemde
O-factoren (structurering, tussentijdse feedback, instructiemethode) elkaar niet per sé
wederzijds behoeven uit te sluiten.

Door multivariaat ATI-onderzoek uit te voeren, waarbij verschillende leerlingkenmerken
en verschillende omgevingsfactoren tegelijkertijd worden onderzocht, is het in principe
mogelijk werkelijk interessante en voor de praktijk relevante interacties op te sporen. Dit
laatste houdt o.a. in dat bij de opzet van het onderzoek rekening gehouden moet worden
met de ecologische vahditeit.

Bronfenbrenner (1976) heeft uiteengezet dat een experiment ecologisch valide is als de
resultaten toegepast kunnen worden in een natuurlijke of realistische setting. Een setting
is gedefinieerd als een plaats (school of klas) waarin degenen die bij het experiment
betrokken zijn in een bepaalde rol (leerkracht of leerling) gedurende een bepaalde tijd
(lesuur ) bepaalde activiteiten (les.geven, lezen, een toets maken) verrichten. Plaats, tijd,
activiteiten en rol zijn de elementen van de setting. Ecologische vahditeit heeft volgens
Bronfenbrenner betrekking op alle elementen van de setting.

Ook Snow heeft gewezen op het belang van ecologisch valide ATI-onderzoek. Vanuit een
theoretisch gezichtspunt sluit hij aan bij het werk van Glaser en Atkinson. De kern waar
alles om draait is het leerproces. Op dit moment weten wij nog betrekkelijk weinig over
de wijze waarop leerlingen informatie opnemen, verwerken en gebruiken. Dit vraagt om
laboratoriumonderzoek waarbij voor allerlei specifieke leertaken wordt nagegaan op
welke wijze leerlingen van elkaar verschillen met betrekking tot de wijze waarop zij deze
taken aanpakken en verrichten. Snow (1977b) merkt in dit verband op:

ATI does not make theory impossible; it makes general theory impossible. Individual difference
variables operating m ATI show the essential importance of detailed description of both specific
instructional situations and specific groups of people. And information processing approaches
provide a means of analyzing both specific situation and specific person variables. But the kind
of theories that come out of this are quite specific, limited in both tune and space (p. 12).

Daarnaast stelt Snow (1977a) voor die ATI-hypothesen die uit het laboratoriumonder-
zoek voortvloeien of die anderszins plausibel zijn te toetsen in grootschahg onderzoek in
realistische settings.

Intussen is Crombag teleurgesteld. Na 20 jaar research zijn er nog weinig bruikbare ge-
gevens verkregen. ATI is not such a good idea after all! Hij concludeert zelfs dat er iets
mis is met ATI zodat gezocht moet worden naar een alternatief. Dat alternatief is volgens
hem 'mastery learning', de strategie voor beheersingsleren!

Tegen dit alternatief heb ik twee bezwaren. (1) Zoals reeds is gezegd is ATI een research
paradigma. Mastery Learning is een strategie die in de praktijk van het onderwijs gevolgd
kan worden. ATI is een onderzoeksopzet. Mastery learning is een onderwijsopzet en als

zodanig dus geen alternatief voor ATI. (2) Een bezwaar van Crombag tegen ATI is de
geringe theoretische achtergrond. Ditzelfde geldt mijns inziens a fortiori voor Mastery
leaming. Weliswaar worden allerlei algemene aanwijzingen gegeven, zoals: opsplitsen van
de leerstof in kleine eenheden; het regelmatig verschaffen van feedback; het geven van
aanwijzingen of cues, e.d., maar wat er ontbreekt is een adequate theorie, een theorie die
zowel prescriptief als normatief is. Hoe moet gegeven lesstof worden opgesplitst? Wat is
een optimale lesstofstructuur? Welk type feedback moet in een concrete shuatie worden
gebruikt? Welke correctieve maatregelen moeten worden getroffen als een leerlmg zakt
voor een tussentijdse criteriumtoets? Deze vragen blijven grotendeels onbeantwoord. ATI
daarentegen is een paradigma dat geschikt is voor het toetsen van instructietheorieën,
althans van daaruit afgeleide hypothesen. Bovendien wordt daarbij rekening gehouden
met eventuele verschillen tussen leerlingen.

De consequenties van deze benadermgswijze zijn door Snow (1977b) als volgt geformu-
leerd:

One should not take from this discussion the impression that individual differences in aptitudes
explain intructional processes and effects. Understanding is aided by including aptitudes, but
aptitudes are not themselves well understood. A process theory of aptitude is needed. ATI
research and the new cognitive psychology of information processing have come along together
at just the right time to be combined with great profit. But the profit is in coordinated concepts
and methodology apphed in specific instructional designs and evaluation settings. General
instructional theory, I think, is a holy grail (p. 15).

Bronfenbrenner, U. The experunental ecology of education. Educational researcher, 1976, 5, no. 9,
5-15.

Cronbach, L.J. & Snow, R.E. Aptitudes and instructional methods: a handbook for research on inter-
actions. New York: Irvington, 1977.

Hermans, H.J.M. Faalangst en begeleidingsprocedures in het onderwijs. Nederlands Tijdschrift voor de
Psychologie, 1969, 24, 350-373.

Hunt, D.E. & Sulhvan, E.V. Between psychology and education. Hinsdale, 111.: Dryden, 1974.

Snow, R.E. Research and aptitudes: a progress report. In L. Shulman (Ed), Review of research in
education. Vol. 4, Itasca, ILL: Peacock, 1977(a).

Snow, R.E. Individual differences and instructional theory. Educational researcher, 1977(b), 6, no. 10,
11-15.

Tobias, S. Sequence, Familiarity, and Aptitude Treatment Interactions in Programmed Instruction.
Journal of Educational Psychology, 1973, 64, 133-141.

OPMERKINGEN NAAR AANLEIDING VAN CROMBAG'S ARTIKEL: 'ATI: PERHAPS
NOT SUCH A GOOD IDEA AFTER ALL"

Crombag (elders in dit nummer) geeft op schetsmatige wijze een oordeel over Aptitude-
Treatment Interaction. Dat oordeel komt vrij negatief over. Het artikel biedt weinig
openingen voor verdere gedachtenwisseling. Deze aantekeningen zijn bedoeld om de dis-
cussie gaande te houden. Enkele belangrijke punten worden daarbij nog eens naar voren
gehaald:

Cronbach (1957) beschreef de 'ATI-methode' naast de experimentele en de correlationele
om de historische scheiding van de experimentele psychologie en de studie van de indi-
viduele verschillen te overbruggen. Mede door de publicaties van Cronbach zelf, is deze
methode van onderzoek door velen gezien als een geëigende methode voor onderwijs-
research. In onderwijssituaties zijn immers zowel verschillen tussen leerlingen (aptitudes)
als tegelijk variaties in onderwijsaanpak (treatments) bronnen van verschillen in onderwijs-
resultaten.

Er bestaan echter ook opvattingen over ATI die afwijken van die van Cronbach. Zo schreef
De Koning (1973):

Wel wordt de laatste jaren intensiever dan ooit gezocht naar mogelijkheden om de instructie aan
te passen aan mdividuele verschillen.

Grofweg is een tweetal benaderingen te onderscheiden. De eerste benadering staat bekend
onder de naam 'Aptitude Treatment Interaction (ATI) research', terwijl als representant van de
tweede benadering het onderzoeks- en ontwikkelingswerk rondom de 'learning for Mastery
Strategy' kan gelden (p. 66).

Evenals De Koning schaart Crombag zich niet achter de oorspronkelijke opvatting van
ATI door mastery learning een alternatief voor ATI te noemen. Men zal moeten erkennen
dat het ATI-type onderzoek zeer geschikt is om bouwstenen aan te dragen voor de
fundering van de mastery learning aanpak in het onderwijs. Het verschil tussen beide is
echter het verschil tussen een onderzoeks- en een onderwijsmethode.

Er zou overigens nog een ander verschil van mening kunnen bestaan over wat voor soort
'model' ATI eigenlijk is. Hunt and SulUvan (1974) signaleren dat discussiepunt in de
inleiding van hun boek (p. IV). Zij leggen uit dat hun B-P-E (Behavior-Person-Environ-
ment) approach in bepaalde zin wel hjkt op ATI, nl. in zoverre dat de persoon naast de
omgeving in de verklaring van het gedrag wordt betrokken. Maar verder vinden ze B-P-E

1. Geschreven in het kader van het Afstemmingsproject Wiskunde (SVO-0371).
Met dank aan Chris Michels, Gerrit Stemerdink en Sjef Stijnen voor hun commentaar.

eerder gebaseerd op een algemeen model dan op statistische resultaten alleen. Hun opvat-
ting houdt in dat het B-P-E-model neigt naar een conceptie van de (onderzoeks-) werke-
lijkheid, terwijl ATI een bepaalde onderzoeksmethode of mogelijk zelfs onderzoeksresul-
taat is binnen datzelfde werkelijklieidsgebied. Hunt (1975, p. 210) lijkt ervoor bevreesd
dat zijn B-P-E-benadering wordt opgevat als ATI in de volgende betekenis: 'er treedt geen
ATI op', hetgeen dan betekent: 'er treedt geen statistisch significante disordinale inter-
actie op'. (Wat dat is, wordt uitstekend uitgelegd door Plomp, 1977.)
Ter discussie hgt dus de vraag: Is ATI een opvatting van de (onderzoeks-) werkelijkheid,
een onderzoeksmethode naast de experimentele en de correlationele, of een onderwijs-
methode c.q. -strategie?

Crombag hjkt met het ontbreken van onderzoeksresultaten te willen aantonen dat het
ATI-onderzoeksmodel een slecht model is. Als je op die manier de relevantie van een
onderzoeksmethode zou mogen evalueren, zou ook het experimentele model in de onder-
wijsresearch het zwaar te verduren kunnen krijgen. Er zijn meer dan honderd studies met
betrekking tot 'teacher effectiveness', waarin de experimentele methode wordt gehan-
teerd, die samen geen profiel van 'the best teacher' hebben opgeleverd. Ook nu iedereen
erkent dat na een tiental jaren vrij intensief ATI-onderzoek geen duidelijke lijn in de
onderzoeksresultaten werd bereikt, moet de discussie over de vraag of de ATI-methode
een goede methode is, niet gevoerd worden middels een discussie over de som van de
onderzoeksresultaten.

ATI is een 'gevoelige' methode, gevoeliger dan de experimentele en de correlationele. Dat
betekent dat aan meer voorwaarden moet worden voldaan, voordat men goed ATI-onder-
zoek kan uitvoeren. Als consequentie hiervan heeft Snow (1977) geadviseerd het labora-
torium in te gaan als men uit de veldsituatie aanwijzingen voor het bestaan van mteracties
zou hebben. Blijft men zijn onderzoek in de veldsituatie voortzetten, dan wordt ATI-
onderzoek al gauw uitgebreid en daardoor vaak niet goedkoop. De voor- en nadelen van
laboratorium" ■ versus veldonderzoek zijn bekend. Toch moet men i.v.m. de validiteit
van de gedragsmetmgen en de generahseerbaarheid van de resultaten niet te snel het
laboratorium binnenvluchten, want in de school blijft ATI-onderzoek goed mogelijk. Men
leze bijvoorbeeld het verslag van het tamelijk kleme veldonderzoek van Radatz (1976) over
conceptueel tempo en wiskunde-onderwijs in het basis-onderwijs.
Met betrekking tot ATI, evenals met betrekking toï de experimentele en correlationele
methode, wisselen positieve en negatieve onderzoeksresultaten elkaar af. Vooral ATI
heeft op dit moment behoefte aan een Einstein om lijn in de resultaten te zien. Daarnaast
zijn methodologen nodig om ATI voor de veldsituatie verder uit te bouwen. Cronbach
and Snow (1977) kunnen in deze beter als een begin- dan een eindpunt beschouwd
worden.

In het kader van ATI-onderzoek zijn de aptitudes (leerlingkenmerken) waarschijnlijk,
vaker onderwerp van beschouwing geweest dan de treatments (onderwijsmethode, -aan-
pak, -strategie of -stijl). Men komt, uitgaande van aptitudes, vaak tot diverse wijze uit-

spraken, maar men vergeet daarbij meestal de treatments het gewicht te geven dat ze m
ATI-verband hebben.

In de onderwijsresearch hjkt het een juiste strategie van de treatments uit te gaan bij het
bestuderen van de aptitudes. Die treatments maken verschillen tussen personen (al dan
niet) manifest. Treatments maken bepaalde aptitudes relevant. Daarom geldt in veruit de
meeste gevallen: meet aptitudes bij treatments, niet andersom.

Volgt men deze strategie, dan zal er een grote behoefte blijken aan proces- en functietests
om de 'nieuwe' (Glaser, 1972) leerhngkenmerken te meten. Het blijkt dan dat er een
reeds afgebakend, maar onontgonnen gebied ligt voor psychologen die het functioneren
van de leerhng in het onderwijs als hun werkterrein beschouwen.

Concepten als 'instabiliteit' en 'veranderlijkheid' van leerhngkenmerken door deelname
aan het onderwijs moeten gevat worden in een omvattende instructietheorie. In dit kader
kunnen onder andere de opvattmgen van Salomon (1972) en Merrill (1974) ter sprake
worden gebracht als aanzetten tot een 'B-P-E-instructietheorie'. Salomon legt de nadruk
op treatmentkenmerken (zie Crombag), van waaruit bepaalde aptitudes relevantie krijgen.
Merrill kiest daarentegen een geheel andere weg. Hij legt de nadruk op de aptitudes,
omdat hij ze als zo veranderlijk ziet dat het onmogehjk lijkt om er treatments bij te kiezen.
Van deze veronderstelling uitgaande, stelt hij voor dat aan de leerlmg 'procedures' moeten
worden aangereikt 'which enables him to adapt the environment to himself. Doel van
deze procedures is dus de leerlmg treatments te laten kiezen van moment tot moment. Hij
noemt dit 'learner control'.

In 1974, ongeveer twintig jaar na de rede die de geboorte vormde van het ATl-onderzoek,
sprak Cronbach opnieuw voor de American Psychological Association (Cronbach, 1975).
Het handboek over ATI was toen ongeveer voltooid en men kan zeggen dat hij de feiten
over ATI in het hoofd had. Alleen het samenvattende hoofdstuk met enige theoretische
hoofdlijnen restte nog. Cronbach constateerde als één van de meest opvallende feiten in
de ATI-hteratuur de inconsistente onderzoeksresultaten, ook in die gevallen waarin bij
replicaties precies dezelfde treatments werden gebruikt.

Een interactie tussen aptitude en treatment blijkt te ontstaan (of niet te ontstaan) door
een nauwelijks m de hand te houden samenspel van veelal momentane treatment- en
persoonskenmerken (p. 119), waardoor men bij replicaties vaak andere onderzoeksresulta-
ten krijgt dan in het oorspronkelijke onderzoek. Interacties liggen m het grensgebied van
de onderzoeksmatige manipuleerbaarheid. Het zou weieens de zwakte van de ATl-onder-
zoeksmethode kunnen zijn, dat er vanuit gegaan wordt dat het niet-manipuleerbare
manipuleerbaar is. Daardoor worden onvoldoende consistente onderzoeksresultaten ver-
kregen, waardoor vervolgens een het onderzoek bevruchtende theorie niet van de grond
komt. Die theorievorming is op dit moment hard nodig in het interactie-onderzoek.
Zijn er oplossingen om uit dit slop te komen? Belangrijk is dat de methodologie van het
ATI-onderzoek verder verbeterd wordt. Dat er een beter inzicht komt m de werkzame
aspecten van de treatments. Dat daarbij de relevante leerhngkenmerken worden gemeten.
Dat er effectonderscheidende output-metmgen worden gebruikt. Hierdoor moeten de
grenzen van de manipuleerbaarheid van onderwijsrelevante interacties worden verlegd,
waarna waarschijnhjk grotere consistentie in de onderzoeksresultaten wordt bereikt.

Waarom dit na te streven? Omdat de ATI-onderzoeksmethode het beste Hjkt aan te slui-
ten bij het beeld dat velen van de (onderwijs-) werkelijkheid hebben: vele verschillende
leerlingen leren in een beperkt aantal omstandigheden naar eenzelfde onderwijsdoel.

Cronbach, L.J. The two disciplines of scientific psychology. American Psychologist, 1957, 12,
671-684.

Cronbach, L.J. Beyond the two disciplines of scientific psychology./Immcfl« ft^c/io/o^/sf, 1975,50,
116-127.

Cronbach, L.J. and Snow, R.E. Aptitudes and instructional methods. New York: Irvington, 1977.

Glaser, R. Individuals and learning: the new aptitudes. Educational Researcher, 1972, 1, no. 6, 5-13.

Hunt, D.E. Person-environment interaction: a challenge found wanting before it was tried./?eview o/
Educational Research, 1975,45, 209-230.

Hunt, D.E. and Sullivan, E.V. Between psychology and education. Hinsdale, 111.: Dryden Press, 1974.

Merrill, M.D. Learner control: beyond aptitude treatment interactions (draft copy). Paper presented at
the annual meeting of the Association for Educational Communications and Technology (Atlantic
City, New Jersey), March 1974 (ERIC Document 095 822).

Plomp, Tj. Enkele methodologische en statistische aspekten van ATI-onderzoek. In W.J. van der Lin-
den (ed.). Aptitude treatment interaction. Amsterdam: VOR-pubhkatie nr. 5, 1977.

Salomon, G. Heuristic models for the generation of aptitude-treatment interaction hypotheses. Review
of Educational Research, 1972, 42, 327-343.

Snow, R.E. Research on aptitudes for learning: a progress report. In L.S. Shulman (ed.). Review of
Research in Education nr. 4 (1976). Itasca, 111.: Peacock, 1977.

Instituut voor Onderzoek van het Wetenschappelijk Onderwijs, Katholieke Universiteit Nijmegen

De notitie 'Correctie voor raden en etiiiek' (Van Naerssen, 1979), gepubliceerd in dit
tijdschrift naar aanleiding van het door mij geschreven rapport 'Een empirisch onderzoek
naar het correctie voor raden scoringssysteem' (Borgesius, 1978), maakt een reactie nood-
zakelijk omdat een aantal opmerkingen van Van Naerssen, met name over het al dan niet
'ethisch verantwoord' zijn van enkele scoringssystemen, mijns inziens nogal onzorgvuldig
zijn.

Bij antwoordkeuzetoetsen kunnen verschillende scoringssystemen gebruikt worden: onder
scoringssysteem versta ik de scoringsregel plus de bijbehorende instructies. De bekendste
scoringssystemen zijn: het gedwongen raden scoringssysteem, de correctie voor raden
scoringssystemen en de zekerheidsscoringssystemen. Bij het evalueren van de bruikbaar-
heid van de verschillende scoringssystemen kunnen de volgende gezichtspunten gehan-
teerd worden:

2. billijkheid: bilhjkheid in de betekenis die De Groot (1970, 1972) er aan toekent in het
kader van de door hem aanbevolen acceptabihteitsanalyse.

Het gaat in deze notitie en die van Van Naerssen vooral om het billijkheidsgezichtspunt.
Het door mij gerapporteeerde onderzoek is een onderzoek naar het correctie voor raden
scoringssysteem met een negatieve itemscore voor een fout antwoord. De vraagstellingen
betreffen de niet-gegeven antwoorden, de betrouwbaarheid en de validiteit bij correctie
voor raden scoring in vergehjking met gedwongen raden scoring. Het onderzoek is uitge-
voerd bij een normaal meetellend tentamen (bestaande uit true-false items) van een stu-
dierichting waar dit scoringssysteem het standaardscoringssysteem is. De standaardinstruc-
tie komt op het volgende neer: altijd een antwoordalternatief kiezen tenzij alle alternatie-
ven je even waarschijnhjk voorkomen, dan openlaten. Het is mijns inziens (zie ook Lord,
1975) het enig bruikbare uitgangspunt voor de instructies bij correctie voor raden.
Vervolgens wil ik attenderen op eeii aantal verschillen tussen het onderhavige onderzoek
en onderzoek naar de correctie voor raden gepubliceerd voor 1976. Er is veel onderzoek
gepubliceerd, waarbij een inadequate instructie gehanteerd is of de gehanteerde instructie
niet of niet duideUjk vermeld is. Veel gepubliceerd onderzoek betreft een experimentele
toetsafname in plaats van een normaal meetellend tentamen of betreft proefpersonen, die
niet vooraf zijn voorgehcht over en die geen ervaring hebben met het scoringssysteem. Er
is wel onderzoek verricht naar het effect op de betrouwbaarheid, maar nauwelijks naar de
vaUditeit, terwijl een betrouwbaarheidsverschil op zich in dit verband volstrekt nietszeg-
gend is. In een aantal gevallen dat de vaUditeit wel onderzocht is, is het vaUditeitscrite-
rium van slechte kwaUteit en in vrijwel aUe gevaUen ontbreekt een significantietoetsing
van gevonden vahditeitsverschiUen. Men leze het artikel van Lord (1975), waarin op een
aantal van deze onderzoeksgebreken geattendeerd wordt.

Een van de vraagstellingen van het onderzoek luidde: zijn de bij het correctie voor raden
scoringssysteem onderdrukte antwoorden slechts blind geraden antwoorden? De conclusie
was: de antwoordresultaten bij gedwongen raden op de overgeslagen items verschillen van
de resultaten bij blind raden; studenten met lage scores (een derde deel van de groep)
behalen gemiddeld blmd raden resultaten, maar studenten met hogere scores behalen
gemiddeld betere resultaten dan bij blmd raden het geval zou zijn. Het is met name dit
gedeelte van de resultaten, waarop Van Naerssen commentaar heeft gegeven. Ik zelf heb
me in het rapport beperkt tot het weergeven van de resultaten en conclusies: com-
mentaar op de resultaten heb ik achterwege gelaten in verband met de researchovereen-
komst. Het rapport diende gegevens en conclusies op te leveren inzake een aantal speci-
fieke vraagstellingen; een standpuntbepaling diende te gescliieden in een studiecommissie
van de betreffende studierichtmg.
Het commentaar van Van Naerssen is als volgt:

'Mag de docent een studietoets afnemen met de instructie "altijd een antwoordaltematief kiezen tenzij
alle alternatieven je even waarschijnlijk voorkomen, dan openlaten" als hij wéét (en dat is ten over-
vloede door het onderhavige onderzoek weer eens bewezen) dat door deze instructie de scores gemid-
deld lager liggen dan bij de instructie "altijd een alternatief kiezen desnoods blind, anders benadeel je
jezelf'. Mag hij om een hogere betrouwbaarheid cn validiteit te bereiken een niet-optimale strategie
aanbevelen? Ik ben helemaal niet tegen misleiding van proefpersonen bij psychologische experimenten,
maar bij studietoetsen, die voor examens of tentamen gebruikt worden, liggen de kaarten toch wel
anders. Misschien zou de onderzoeker zich veel werk bespaard hebben wanneer hij aandachtiger
gelezen had wat ik eerder hierover schreef (in de Groot en van Naerssen 1975 p. 280 e.v.):'

(het citaat stelt dat de optimale strategie bij correctie voor raden scoring voorschrijft om
altijd een antwoordaltematief te kiezen en dat als alle studenten deze strategie volgen, de
scoringsformule overbodig is)

'Daarmee wil ik niet zeggen dat het onderzoek van geen nut is geweest.'Vermindermg van onzekerheid
- die eerder bleek uit tegenstrijdige opvattingen - is op zichzelf zinvol, ook al mogen we de verkregen
kennis niet zonder meer toepassen.
Ethisch wel verantwoord is de "zekeraanduidmg" ...'

De opmerking 'dat is ten overvloede door het onderhavige onderzoek weer eens bewezen'
wordt geponeerd zonder enige bewijsvoering (b.v. hteratuur). Ook in het handboek van
De Groot & Van Naerssen (1975) wordt geen empirisch onderzoek ter zake beschreven of
aangehaald. Gezien de eerder aangegeven verschillen tussen het onderhavige onderzoek en
eerder onderzoek hjkt de opmerking mij dan ook misplaatst. Hetzelfde geldt voor de
zinsnede dat ik mij misschien veel werk had kunnen besparen.

Van Naerssen kwahficeert het correctie voor raden scoringssysteem kennelijk als 'ethisch
niet verantwoord': het is echter onduidelijk op grond waarvan. Het betoog bestaat name-
hjk uit twee rethorische vragen plus de uitspraak dat hij tegen misleiding van studenten is
bij studietoetsen. Met de tweede rethorische vraag bedoelt Van Naerssen kennelijk dat de
gehanteerde instructie een niet-optimale strategie aanbeveelt. Mijns inziens een onjuiste
uitpsraak. Ik citeer de definitie van optimale strategie, zoals Van Naerssen (De Groot en
Van Naerssen, 1975, p. 280) die zelfheeft gegeven:

'De optimale strategie in verband met de scoringsformule luidt nu: "Kies de mogelijkheid met de
hoogste ly". Indien deze strategie bij elk item wordt toegepast, leidt dit op den duur tot de hoogst
mogelijke score'.

Het symbool ly staat voor 'verwachte itemscore': bij elk item is er een ly voor beantwoor-
den en een ly voor openlaten. De gehanteerde instructie hnpliceert de strategie 'altijd
beantwoorden indien ly (beantwoorden) groter is dan ly (openlaten), tenzij alle ant-
woordalternatieven even waarschijnhjk zijn, dus ly (beantwoorden) = ly (openlaten) = O,
dan openlaten'. Deze strategie is dus anders, maar even optimaal als de strategie 'altijd een
antwoordalternatief kiezen'. De tekst in het handboek van De Groot & van Naerssen
(1975, p. 280-281) is mijns inziens dan ook madequaat. De opmerking van Van Naerssen
dat ik me misschien veel werk bespaard zou hebben als ik deze tekst beter gelezen zou
hebben, is ook om deze reden misplaatst. Bhjft over de eerste rethorische vraag als basis
voor het als 'ethisch niet verantwoord' kwahfïceren van het correctie voor raden scormgs-
systeem: de vraag impliceert echter slechts een omschrijving van het eerder beschreven
onderzoeksresultaat. Het betreffende onderzoeksresultaat is dus kennelijk de grond, waar-
op de genoemde diskwahficatie berust. Mijns inziens is de uitspraak - het correctie voor
raden scoringssysteem is ethisch niet verantwoord — op zijn minst voorbarig. Om misver-
standen te vermijden: ik bedoel dat de uitspraak te zijner tijd juist zou kunnen blijken te
zijn; dat lijkt me heel wel mogehjk.

Bekeken vanuit het billijkheidsgezichtspunt betekent het onderzoeksresultaat op dit mo-
ment: sommige studenten benadelen zich of worden benadeeld bij het onderzochte cor-
rectie voor raden scoringssysteem (wanneer het gebruikt wordt bij true-false items). Voor
een gefundeerd oordeel over de billijkheid van het scoringssysteem is meer informatie
nodig. Het onderzoeksresuhaat kan omschreven worden als 'sommige studenten volgen de
mstructie niet op, zijn te voorzichtig', maar de extra-informatie die benodigd is voor een
gefundeerd oordeel betreft de vraag 'volgen die studenten de mstructie willens en wetens
niet op of kunnen ze de instructie niet opvolgen, zijn ze bewust te voorzichtig of kunnen
ze niet anders dan te voorzichtig zijn?'

Er is dus meer informatie nodig om te kunnen vaststellen of het gaat om eigen schuld
(zich benadelen) of onbillijkheid (benadeeld worden).

Niet alleen bij het correctie voor raden scormgssysteem, maar ook bij de andere scormgs-
systemen zijn er billijkheidsproblemen.

Wat betreft de billijkheid van het gedwongen raden scormgssysteem: een bekend pro-
bleem, hoewel over de omvang en de oorzaak weinig bekend is, is dat ondanks vermelding
van de scoringsregel en de bijbehorende instructie om altijd een antwoordalternatief te
kiezen er toch nog studenten bhjken te zijn die vragen openlaten (dus: zich benadelen of
benadeeld worden). Van Naerssen (De Groot & Van Naerssen, 1975, p. 278) stelt: 'maar
dan is het tenmmste hun 'eigen schuld' dat zij laag scoren.'

Wat betreft de bUhjkheid van de zekerheidsscormgssystemen: het is empirisch aangetoond
en theoretisch ook zeer verklaarbaar dat bij zekerheidsscormg sommige studenten zich
benadelen of benadeeld worden. Wat betreft de verklaarbaarheid het volgende: scormgs-
systemen verschillen in de ruimte die de respondent gelaten wordt voor zijn antwoord-
gedrag bij onzekerheid over het juiste antwoord. Bij gedwongen raden scoring is de ruhnte
voor verschillen in antwoordgedrag geminimaliseerd; als iedereen bij alle items een ant-
woordalternatief kiest is er geen ruimte voor gedragsverschillen. Correctie voor raden
scoring en zekerheidsscormg betalen hun potentiële voordeel — vermmderde fouten-
variantie - met een potentieel nadeel - ruimte voor verschiUen m antwoord-gedrag Bij
conectie voor raden scoring zit die ruimte m de keuze tussen beantwoorden en openlaten
(een student kan te voorzichtig zijn), bij zekerheidsscormg (b.v. de variant van Van

Naerssen & Van Beaumont, 1965) in de keuze tussen wel of niet zekerheid aangeven (een
student kan niet alleen te voorzichtig zijn, maar ook te onvoorzichtig). Tot zover de
verklaarbaarheid, nu de empirie.

Van Naerssen (De Groot & Van Naerssen, 1975, p. 286) schrijft: zekerheidsscoring heeft
'het nadeel dat de score enigszins afhankelijk is van de mate waarin de persoon zijn
zekerheid durft aan te geven. Sommige personen duiden te weinig items als zeker aan,
andere te veel.' Met andere woorden, evenals bij het onderzochte correctie voor raden
scoringssysteem: sommige studenten benadelen zich of worden benadeeld. Sandbergen
(1973) heeft aangetoond: 'Studenten kunnen dus - na vrij summiere instructie - leren
om beter met zekerheidsscoring om te gaan' (p. 113). Dus: studenten benadelen zich
minder of worden minder benadeeld na oefening. Maar tevens is gebleken, 'dat proefper-
sonen met relatief grote kennis van de stof iets voorzichtiger zijn en blijven dan proef-
personen met weinig kennis van de stof (p. 108, zie ook p. 145). Dus, ook na oefening
blijft gelden: sommige studenten benadelen zich of worden benadeeld bij zekerheids-
scoring. De uitspraken van Van Naerssen - correctie voor raden scoring is ethisch niet
verantwoord, zekerheidsscoring is ethisch wel verantwoord - zijn dus volstrekt incon-
sistent. Volgens de huidige stand van kennis zijn correctie voor raden scoring en zeker-
heidsscoring óf beide billijk óf beide onbilhjk.

Borgesius, T.G. Een empirisch onderzoek naar het correctie voor raden scoringssysteem. Instituut voor
Onderzoek van het Wetenschappelijk Onderwijs, K.U. Nijmegen, 1978.

Groot, A.D. de. Some badly needed non-statistical concepts in applied psychometrics. Nederlands
Tijdschrift voor de Psychologie, 1970,25, 360-376.

Groot, A.D. de. Selectie voor en in het hoger onderwijs: een probleemanalyse. Den Haag: Staatsuit-
geverij, 1972.

Groot, A.D. de & Naerssen, R.F. van. Studietoetsen: construeren, afnemen, analyseren. Den Haag:
Mouton, 2® dr., 1975.

Lord, F.M. Formula scoring and number right scoring. Journal of Educational Measurement, 1975,12,
7-11.

Naerssen, R.F. van & Beaumont, R.C. van. Ervaringen met een zekeraanduiding bij objectieve tenta-
mens. Nederlands Tijdschrift voor de Psychologie, 1965, 20, 308-315.

Naerssen, R.F. van. Conectie voor raden en ethiek. Tijdschrift voor Onderwijsresearch, 1979,4, 90-91.

Sandbergen, S. Zekerheidsaanduiding bij het meten van studieprestaties. Dissertatie, Universiteit van
Amsterdam, 1973.

De repliek van collega Borgesius op mijn korte opmerking over raden en ethiek slaat
helaas niet op het punt waar het om gaat. Mijn kritiek is niet gericht op de gebruikelijke

correctie voor raden (de bekende 'formula scoring') maar op de bijbehorende verbale
instructie. De docent kan kiezen tussen het advies 1) alle items beantwoorden en 2) alle
items beantwoorden tenzij de alternatieven u even waarschijnhjk voorkomen, dan open-
laten. Hij weet dat het eerste advies de student een hogere score oplevert. Mag hij dan het
tweede advies geven? Elk ethisch probleem heeft trouwens een praktische kant. Als wij
aan onze subfaculteit de 'formula scoring' zouden toepassen met het tweede advies dan
zou de studentenvereniging direct een tegenadvies laten circuleren met de boodschap
'Laat die docent maar leuteren en vul alle items in, dat is voordeliger voor jou'.
Anders zou het zijn wanneer het negatieve gewicht van de fouten iets groter zou zijn dan
volgens 'formula scoring'. Dan zou het tweede advies correct kunnen zijn. We komen zo
terecht bij een variant van de zekeraanduiding. Dit soort methoden is ethisch correct mits
ook hier de verbale instructie gegeven de scoringsformule de optimale strategie aanduidt.
Dat sommige studenten daarbij zichzelf benadelen door een te zekere of te onzekere
strategie toe te passen, dat is inderdaad hun eigen verantwoordelijkheid: de docent heeft
schone handen zolang hij de-voor de student optimale strategie duidelijk maakt en aanbe-
veeh.

Einwendung in der Unterrichtsforschung
Bern: Verlag Hans Huber, 1976 (ISBN 3-456-80187-4)

Als er van een boek, dat ruim twee jaar oud is, nog een bespreking verschijnt, moet dat een reden
hebben. Die reden is dat wij, nadat wij het met een groep geïnteresseerden aan de T.H. Twente hadden
gelezen en bediskussieerd, dit werk konden bestempelen als een duidelijke uiteenzetting over een
belangrijk stuk theorie. Belangrijk, omdat hier een mogelijke aanzet hgt tot een geformaliseerde en
exakte theorie van onderwijsleerprocessen, en toepassingsmogelijkheden op onderwijskundige proble-
men aanwezig zijn.

In een tweetal hoofdstukken geeft de schrijver uiteenzettingen over het deterministische denkmodel
van Scandura en het probabilistische automatenmodel van Suppes. In deze modellen wordt de ge-
dachte ingevoerd, dat opgaven uiteengelegd kunnen worden tot meer elementaire operaties en dat de
kans dat proefpersonen een opgave goed maken een funktie moet zijn van hun beheersingsniveau op de
operaties. Onbevredigend aan beide modellen is echter o.a. het feit, dat verschillen tussen proefper-
sonen niet in afzonderüjke parameters kunnen worden weergegeven. Aan dit bezwaar wordt tegemoet
gekomen in de logistische denkmodellen, waarvan de behandeling de hoofdmoot van het boek vormt.
Per proefpersoon wordt één beheersingsparameter ingevoerd, die moet gelden voor het gehele be-
schouwde komplex van operaties en opgaven. Hoewel dit een beperking is en men zich situaties in kan
denken waar de aanwezigheid van persoonsparameters voor de afzonderlijke operaties realistisch lijkt,
wordt hierdoor 'parameter-inflatie' - de aanwezigheid van teveel parameters zodat deze niet uit data
schatbaar zijn - voorkomen.

De in dit boek behandelde modellen vormen alle een verbijzondering van het RASCH-model, waardoor
ze een belangrijke eigenschap als specifieke objektiviteit bezitten.

Door Spada wordt aan modellen voor samengestelde opgaven de eis gesteld, dat de kans op sukses voor
een opgave multiplicatief samenhangt met de afzonderlijke kansen op sukses voor de samenstellende
operaties. Introduktie van het Rasch-model op operatieniveau leidt onder deze produktregel tot een
variant van Suppes' automatenmodel, namelijk het logistische automatenmodel. Een nadeel van dit
model is evenwel dat de parameters slechts schatbaar zijn indien empirische data voor de afzonderlijke
operaties aanwezig zijn. Deze beperking is niet aanwezig voor het lineair logistische model, waarvoor
schatting van de opcratieparameters mogelijk is met behulp van empirische data op opgavenniveau.
Volgens Spada is het een nadeel van dit model dat het niet voldoet aan de hiervoor geformuleerde
produktregel. Inplaats dat het de kans op sukses voor een opgave multiphkatief samenstelt uit de
kansen op suksesvolle hantering van de afzonderlijke operaties schrijft dit model de kans op sukses als
een funktie van onder andere een parameter voor opgavemoeilijkheid, die hneair is samengesteld uit
parameters voor de operaticmoeilijkheden. In een uitgebreide bespreking van het hneair logistische
model geeft Spada aan, dat alle parameters van het lineair logistische model via een konditionele-
mecst-aannemelijke-schattingsprocedure verkregen kunnen worden en hoe een modeltoets mogelijk is
met een aannemelijkheidsratiotest van Andersen. Vervolgens worden uitbreidingen van het lineair
logistische model geïntroduceerd die de verhoging van de sukseskans ten gevolge van leereffekten in
rekening brengen. Voor alle persoonsparameters wordt een gelijke toename van de waarde van de
persoonsparameter toegelaten, wat door Spada als globaal leren wordt aangeduid. Deze vorm wordt als
een toename, op tamelijk lange termijn, van de gemiddelde beheersing van het gehele leergebied
opgevat. Daarnaast wordt operatie-specifiek leren ingevoerd, een voor alle personen gelijke afname van
de waarden van de parameters voor de operaticmoeilijkheden, die afhankelijk wordt verondersteld van
het aantal malen dat een operatie in voorgaande opgaven voorkwam. Een derde vorm van leren,
waarbij de personen hun oplossingsalgoritmen veranderen, wordt door Spada wel als mogelijke vorm
van leren onderscheiden, maar niet in het model opgenomen.

Het laatste hoofdstuk geeft de resultaten van de toepassing van alle besproken modellen op empirische
gegevens uit een tweetal leerstofgebieden uit de technische mechanica. In een aantal gevallen wordt
een redelijk bruikbare doch niet perfekte modelpassing gevonden. Interessant is dat het logistische
automatenmodel in het ene voorbeeld een gelijke maar in het andere voorbeeld een veel betere passing
dan het lineair logistische model geeft.

Een sterk punt van het boek lijkt ons, dat enkele didaktische toepassingsmogelijkheden van de bespro-
ken modellen worden aangegeven. Zo bestaat de modelkontrole mede uit een check op de gepostu-
leerde opgavenstruktuur, wat de mogeUjkheid biedt, een taakanalyse van een leerstofgebied empirisch
te toetsen. De opgavenstruktuur geeft tevens een aanknopingspunt voor het formuleren van doelstel-
lingen bij komplexe vaardigheden.

Als het model goed past, kan men opgaven konstrueren met voorspelbare moeilijkheid. Hiermee kan
men tegemoet komen aan didaktische wensen naar opgaven met een bepaalde sukseskans. Zo is het
met de logistische modellen bijvoorbeeld mogelijk om beheersing van een leerstofgebied te toetsen via
de opgaven die een optimaal motiverende sukseskans bezitten.

De theorie over het leren van operaties zou een aanknopingspunt kunnen leveren voor het probleem
van de optimale oefenfrekwentie.

Dit laatste brengt ons echter wel op een bezwaar tegen het hneair logistische model voor operatie-spe-
cifiek leren, nl. dat de leereffekten op operaties afhankelijk Vörden verondersteld van de oefenfre-
kwentie, ongeacht het goed-of-fout uitvoeren van deze operaties. Didaktisch meer realistisch lijkt ons
de hypothese dat het leren alleen optreedt bij het goed uitvoeren van een operatie en onder terug-
melding van sukses. Deze hypothese is het vertrekpunt voor een dynamisch model van Kempf, dat in
het boek van Spada slechts zijdeüngs genoemd wordt. Een andere kanttekening die we bij het boek
willen plaatsen betreft de eerder besproken eis van de produktregel die Spada ten aanzien van proba-
bilistische modellen voor probleemoplossen stelt en die hem ertoe brengen het logistische automaten-
model te prefereren boven het lineair logistische model. Hoewel deze eis met klem gebracht wordt, is
nergens een duidelijke opgave te vinden van de overwegingen die Spada tot deze eis brengen: ze moet
de lezer wel gratuit lijken. Tenslotte zouden we willen wijzen op de methodologische bezwaren die aan
de assumptie van de homogene populatie kunnen kleven. Deze assumptie geldt voor alle in het boek
besproken modellen en luidt dat de populatie personen waarvoor het model bestemd is de opgaven
volgens hetzelfde algoritme oplossen. Hoewel deze assumptie juist en noodzakelijk is, kan ze
gemakkelijk leiden tot konventionalistische strategieën, waarmee men slechte modelpassing wegrede-
neert, door een inhomogene populatie aan te nemen en zodoende het model onschendbaar maakt.
Sporen hiervan zijn in het boek van Spada te vinden.

'Modelle des Denkens und Lernens' lljkt ons een boek dat van belang is voor degenen, die in een
research-setting werken aan onderwijskundige problemen bij leerstofgebieden met een algoritmisch-
probleemoplossend karakter. Toepassing van de gepresenteerde modellen vereist een geavanceerde
statistisch analyse van resultaten op grote aantaUen proefpersonen. Zij, die meer m de praktijk met
onderwijs werken kunnen misschien inspiratie putten uit de uitgebreide empirische toepassingen. Men
vindt in het boek van Spada in ieder geval een terminologie en een benaderingswijze die helpt bij het
uiteenleggen van komplexe cognitieve vaardigheden.

Van traditionele meisjespedagogiek tot roldoorbrekend onderwijs
Instituut voor toegepaste sociologie, Nijmegen, november 1978.

Deze hteratuurstudie van het Instituut voor toegepaste sociologie over onderwijs en de maatschappe-
lijke ongehjkheid tussen man en vrouw is eigenhjk een voorlopige publikatie, een 'werktekst'. Enkele
voor de deur staande ministeriële plannen en de grote belangstelling voor de voorlopige resultaten
rechtvaardigen deze tussentijdse publicatie. Dit is een juist besluit. Voordat wij ons in de euforie van
de onderwijsplannen voor vrouwenemancipatie van de huidige Minister van Onderwijs en Wetenschap-
pen storten en wellicht de zelfde onnodige desillusie oplopen als bij de compensatieprogramma's, is
bezinnmg op de positiekeuze van de school ten aanzien van de maatschappelijke ongelijkheid man-
vrouw nodig. Dit heeft de auteur ook voor ogen gestaan. Twee centrale vragen probeert hij te beant-
woorden: 'Welke verbanden worden in de hteratuur verondersteld of aangetoond tussen onderwijs en
de traditionele rolverdeling man-vrouw' en 'Welke suggesties doet de hteratuur of zijn er uit afleidbaar
om onderwijs een bijdrage te laten leveren aan de doorbreking van de traditionele rolverdeling man-
vrouw?'

Om deze vragen te beantwoorden volgt Jungbluth een bijzondere procedure. Hij begint niet met
theorieën en onderzoekresultaten rond de samenhang onderwijs-geslachtsongelijkheid omdat deze
meestal als een afzonderlijk probleemgebied worden opgevat dat nauwelijks m verband wordt gebracht
met theorieën en bevindngen uit andere deelgebieden van de onderwijswetenschappen. De auteur
begint daarom met een schets van de maatschappelijke functies van onderwijs voorzover die te maken
hebben met ongehjkheid. In het 1ste deel geeft hij een overzicht van sociologische theorieën rond
onderwijs en maatschappehjke ongehjkheid en met name de relatie tussen onderwijskansen, gezin en
sociaal milieu. Hij gaat met name in op de verhouding tussen schoolse en buitenschoolse socialisatie, de
betekenis van onderwijsinhouden, de onderwijsgevenden en de misplaatste bescheidenheid van de
school In het tweede deel worden deze sociologische theorieën als werkhypothesen analoog toegepast
op de samenhang tussen onderwijskansen en het geslacht van de leerlingen. Hij gaat daarbij in op de
mogehjkheden om de 'ongelijkheidsreproducerende' werking van het onderwijs te verminderen. In de
nabeschouwing behandelt Jungbluth tenslotte de vraag wat zijn beschouwingen over de onderwijs-
kansen van meisjes ons kunnen leren over de onderwijskansen van arbeiderskinderen.
Deze pendel tussen de miheu-specifieke en geslachtsspecifieke werking van het onderwijs is interessant,
omdat deze procedure voorkomt dat reeds verkregen inzichten ongebruikt bhjven liggen en dat de
onderwijsachterstand van vrouwen geïsoleerd en daardoor idealistisch behandeld wordt. Dit zijn twee
belangrijke voordelen. Toch heeft deze pendelprocedure tussen miheu en geslacht ook nadelige gevol-
gen.

Het eerste is dat de leesbaarheid van deze studie verkleind wordt. De in de geslachtsongelijkheid
geïnteresseerde lezers moeten zich eerst door een berg theorieën over onderwijsongelijkheid en sociaal
milieu heen-eten om vervolgens tot de ontdekkuig te komen dat een aantal van deze theorieën voor de
geslachtsonderwijsongelijkheid niet relevant zijn. Dit lijkt mij met name een bezwaar voor de geih-
teresseerde onderwijsgevenden, die volgens Jungbluth een belangrijk deel van de roldoorbreking voor

hun rekening zouden moeten nemen. Het tweede bezwaar van deze pendelprocedure is dat Jungbluth
onvoldoende aantoont dat de milieu- en geslachtsongelijkheid analoog behandeld kunnen worden. Hij
onderschat de eigen aard van de geslachtsongelijkheid. Milieu- en geslachtsongelijkheid zijn inderdaad
beide gebaseerd op historisch gegroeide en maatschappelijk geïnstitutionaliseerde arbeidsverdeling tus-
sen mensen en zijn via deze arbeidsverdeüng met elkaar verbonden. Maar de milieu-ongelijkheid is
primair verbonden met de arbeidsverdeling in de productieve sfeer, terwijl de geslachtsongelijkheid in
eerste instantie gekoppeld is aan de arbeidsverdeling in de reproductieve sfeer. Dit verschil in werkings-
sfeer brengt met zich mee dat men de ene ongelijkheid niet zomaar kan vergelijken met de andere
ongeUjkheid. Dit verschil is ook bv. door een aantal orthodoxe Marxistische auteurs verwaarloosd toen
zij stelden dat de opheffing van de klassenverschillen ook automatisch zou leiden tot opheffing van de
geslachtsverschillen. Jungbluths studie is daardoor eerder een studie geworden over de vraag in hoe-
verre de inzichten van de milieuspecifieke ongelijkheid toegepast kunnen worden op de geslachtsspeci-
fieke ongelijkheid in het onderwijs. Een gevolg van deze werkwijze is dat er leemten zijn in de
literatuurverkenning, met name op het terrein van geslachts-rollen (bv. Qason, 1977; Maccoby en
Jacklin, 1974; socialistisch-feministische literatuur). Zelfs in deze studie wreekt zich de traditionele
concentratie op de pedagogische provincie en op de zgn. onderwijswetenschappen. Een daarbij ko-
mend gebrek van deze studie is dat het ondanks de pendelprocedure naar verhouding weinig aandacht
besteed aan de onderwijssociologische publikaties over milieu-ongelijkheid van na 1970. Jungbluths
oppervlakkige behandeling van de OOMO-bundel 'Onderwijs, sociologie en ongelijkheid' compenseert
dit tekort niet. De onderwijssociologie is in haar analyse van de milieu-specifieke onderwijsongelijkheid
theoretisch verder dan in Jungbluths studie lijkt.

Er zouden meer kanttekeningen bij deze studie geplaatst kunnen worden, bv. bij Jungbluths politiek
gefundeerd maar nauwelijks verder onderbouwd optimisme over veranderingen in en door het onder-
wijs en bij zijn onvolledige behandeling van het maatschappelijk krachtenveld waarin een roldoorbre-
kende onderwijsgevende moet werken (schoolbestuur, schoolorganisatie, ouders, "vrijheid van onder-
wijs', maatschappeüjke tegenbewegingen). Ook zijn er vele positieve kanten van deze studie te signa-
leren, bv. het signaleren van twee emancipatieopvattingen (blz. 4), de vele onthutsende citaten over
meisjesonderwijs uit ons recente verleden. De belangrijkste verdienste van deze studie is echter dat het
een geslaagd startschot is voor de studie van de rol van het onderwijs voor de ongelijkheid man-vrouw
en de daaraan verbonden ideologie. Het is een goede bron voor ideeën en hypotheses.

Op 21 september, 5 oktober en 9 november 1979 wordt in het Nederlands Congresgebouw te Den

Het Nederlands Instituut van Psychologen kondigt de volgende postacademische cursussen aan:
Motivatie in het Onderwijs

Cursusleiding: Prof. dr. H.C.J. Duijker (vakgroep Gedragsleer UvA), Dr. HJ.M. Hermans (onderwijs-
groep van de vakgroep Persoonlijkheidsleer K.U. Nijmegen), Drs. E. Roede (RITP Amsterdam).
Tijd en plaats: Utrecht, Jaarbeurscongrescentrum, 3 oktober 1979.
Kosten: f 95,-.

Cursusleiding: Dr. H.J.M. Hermans, Drs. P. Bonke (beide werkzaam aan de onderwijsgroep Persoonlijk-
heidsleer K.U. Nijmegen), Drs. D. Brugman (vakgroep Onderwijskunde R.U. Leiden), S.Gipman
(leraar H.N.O.), Drs. E. Hermans-Jansen (sociaal agoge).

Tijd en plaats: Den Treek, Leusden/Rijksuniversiteit Leiden/Katholieke Universiteit Nijmegen.

Cursusleiding: Dr. E. Bol (vakgroep Onderwijspsychologie R.U. Utrecht), Dr. J.A.M. Carpay (vak-
groep Didaktiek V.U. Amsterdam), Drs. H.J. Kooreman (Sociaal Pedagogisch Centrum Enschede).
Tijd en plaats: 24, 25, 26 september 1979, Koningshof, Veldhoven.

Cursusleiding: Prof. dr. E. de Corte, Dr. J. Lowyck, Dr. G. Tistaert (allen werkzaam op de afdeling
Didaktiek en Psychopedagogiek van de K.U. Leuven), Drs. M.J.G. Nuy (Katholiek Pedagogisch
Centrum Den Bosch).

Cursusleiding: Prof. dr. L.F.W. de Klerk, Drs. J.G.L.C. Lodewijks, Drs. P.R.J. Simons (allen van de

Cursusleiding: Dr. J. Lowyck (afdeling Didaktiek en Psychopedagogiek K.U. Leuven), Prof. dr.
C.F. van Parreren (vakgroep Funktieleer R.U. Utrecht).
Tijd en plaats: 16, 17, 18 april 1980, Koningshof, Veldhoven.

Kosten: f 475,- per deel, inclusief logies en maaltijden of ƒ 1790,- voor de vier delen tezamen.

Nadere inlichtingen en inschrijving (voor alle cursussen): Nederlands Instituut voor Psychologen, Nico-
laas Maesstraat 122, 1071 RH Amsterdam, tel. 020-791526.

Interdisciplinaire Onderwijskunde: modellen voor een wetenschap, door W. Wardekker
Participerend Ieren, door M.A.J.M. Matthijssen

De leertheoretisch gefundeerde analytisch/synthetische systeemmethode voor het voorbereidend en
aanvankelijk lezen, door H.J. Kooreman

Kroniek: Een opmerkelijk geluid uit de U.S.A. door M. Santema
Jaargang 56, nr. 6, juni 1979

De eerste graads opleiding tot leraar en lerares maatschappijleer, door Th.F.M.C. Athmer van der
Kallen en C.A.C. Klaassen

Beschrijving van het onderzoek van Mahnquist naar de preventie van leesmoeilijkheden, door D. van
Dongen

Duijker, H.C.l. De problematische psychologie. Meppel: Boom, 1979.
Hoogstraten, J. De machteloze onderzoeker. Meppel: Boom, 1979.
''Kerlinger, P.N. Behavioral research: a conceptual approach. New York: Holt, Rinehart & Winston,
1979.

Mettes, C.T.C.W., Pilot, A. en Roossink, H.J. Het leren oplossen van problemen in de thermodyna-
mika. Onderwijskundig Centrum CDO/AVC, Technische Hogeschool Twente, no. 38, april 1979.
Miedema, J.P. Studentenbegeleiding in het universitaire onderwijs. Een empirisch onderzoek naar de
taak en positie van studentenbegeleiders bij vier universiteiten in Nederland. Groningen: Centrum
voor Onderzoek van het Wetenschappelijk Onderwijs, maart 1979.
Pugh, A.K. Silent Reading. An Introduction to its Study and Teaching. London: Heinemann Educa-
tional Books, 1978.

Roede, E. Een jaar OTG Motivatie in het Onderwijs. Amsterdam: R.LT.'P., januari 1979.
Tijdschrift voor Taalbeheersing,iaan^zng 1, nr. 1, januari 1979. Groningen: Wolters-Noordhoff.
Tillema, H. (red.). Diskussies rondom interne differentiatie. Een verslag van de op 7 maart 1979 in

Utrecht gehouden studiemiddag. Utrecht: R.U. Utrecht, vakgroep Onderwijskunde.
WesseUngh, A. (red.). School en ongelijkheid. Hoe het onderwijs bijdraagt aan het handhaven van
ongelijkheid in de maatschappij. Nijmegen: LINK, 1979.

In het kader van het 73ste lustrum der Rijksuniversiteit Groningen wordt er door de vakgroep onder-
wijskunde en de facultaire vakgroep mterdisciplinaire onderwijskunde een symposium georganiseerd
met als thema: 'Ontwikkeling van de Interdisciplinaire Onderwijskunde'.
Het symposium wordt gehouden op 20 en 21 september a.s.
Voor nadere inlichtingen kunt u zich wenden tot één der onderstaande personen:
dr. J.J. Peters - vakgroep onderwijskunde (050-115253)

drs. M. Heinmk - facultaire vakgroep interdisciplinaire onderwijskunde (050-117574)
E.Vos - student-assistent (050-115258)

Afdeling Didactiek en Psychopedagogiek Katholieke Universiteit Leuven
Objects, purposes and methodology of instructional psychology

Instructional psychology as a subdiscipline of psychology, has developed quickly during the
past decade. It has become an important part of the science of school education. In the present
article a global definition of this domain of research is given and afterwards some crucial
problems are discussed. First of all, attention is given to the key variables which are the object
of instructional psychology. Two influential approaches are concisely characterized: the
(American) information-processing approach and the (European) action-oriented approach.
Thereafter some methodological problems are considered: the tension between internal and
external validity of investigations, and the necessity of applying a great variety of research
techniques. Finally the relation between theory building and the tendency towards the im-
provement of educational practice is treated. A synthesis of both purposes is suggested within
the framework of instructional psychology as a science of design.

De onderwijspsychologie is een recent tot ontwikkeling gekomen deelgebied van de
psychologie, dat tevens een onderdeel van de onderwijskunde uitmaakt. In onderhavige
tekst wordt eerst een globale omschrijving van dit onderzoeksdomein gegeven. Daarna
wordt ingegaan op enkele cruciale problemen die betrekking hebben op de kernvariabelen
en de methodologie van de onderwijspsychologie en op de verhouding tussen het streven
naar theorievorming en naar optimalisering van de onderwijspraktijk.

Doordat de onderwijspsychologie pas recent tot ontwikkeUng gekomen is, heeft dit on-
derzoeksgebied zijn identiteit nog niet helemaal gevonden. Onderwijspsychologen zijn het
momenteel toch wel min of meer eens over de volgende globale omschrijving van het
studiegebied: het gaat om de systematische studie van onderwijsleerprocessen m.i.v. de
variabelen die erop van invloed zijn (De Klerk e.a., 1978; Van Parreren, 1978). Onderwijs-
leerprocessen zijn dan leerprocessen die zich voltrekken in onderwijsleersituaties. Het
onderzoek van deze processen is uitdrukkelijk gericht op het zoeken naar mogelijkheden
om het verloop en het resultaat ervan te verbeteren. Door dit optimaliseringsstandpunt
onderscheidt de onderwijspsychologie zich van de klassieke leerpsychologie.
De voorafgaande karakterisering van de onderwijspsychologie komt vrij goed overeen met
wat in het Angelsaksische taalgebied tegenwoordig 'instructional psychology' genoemd
wordt (Glaser, 1976; Wittrock & Lumsdaine, 1977) en ligt ook in de lijn van een onder-
zoeksdomein dat in de Sovjetunie reeds tot interessante resultaten geleid heeft, die even-
wel pas de laatste jaren meer en meer tot het Westen zijn doorgedrongen (Van Parreren &
Carpay, 1972).

Uit de verdere specificaties van het studiegebied die men aantreft in de geschriften van
een aantal onderwijspsychologen (De Klerk e.a., 1978; Van Parreren, 1978; Glaser, 1976),
blijkt dat volgende centrale onderwerpen aan bod moeten komen: het omschrijven van de
doelstellingen of de gewenste eindtoestand van onderwijsleerprocessen; het bepalen van
de begintoestand, d.w.z. de voor het onderwijsleerproces relevante kenmerken van de
lerende; het beschrijven van de processen zelf die zich in de onderwijssituatie voltrekken
en die tot het bereiken van de gewenste eindtoestand moeten leiden, m.n. het leren en het
onderwijzen; het evalueren van de effecten van onderwijsleerprocessen. Aan de interacties
tussen de hiervoor genoemde componenten wordt vanzelfsprekend ook aandacht besteed.
In dit verband is de laatste jaren heel wat onderzoek verricht over het probleem van de
interacties tussen leerhngenkarakteristieken en onderwijsprocedures (de z.g. 'aptitude-
treatment-interaction of ATI-research'). Wanneer men deze bondige opsomming van de
centrale thema's bekijkt, constateert men dat ze stuk voor stuk beantwoorden aan de
didactische kernvragen die in de didaxologie bestudeerd worden. Derhalve kan men stel-
len dat didaxologie en onderwijspsychologie als onderzoeksgebieden ehcaar zeer sterk zijn
gaan overlappen.

Een belangrijke ontwikkeling die zich de laatste tijd heeft voorgedaan in de Amerikaanse
'instructional psychology' is de verschuiving van de behavioristische naar de cognitivisti-
sche, procesgerichte benadering van het leren en het onderwijzen.

In de 'educational psychology' van behavioristische oorsprong was de aandacht vooral
gericht op uitwendig constateerbare leerresultaten bij de onderzochte subjecten, terwijl
het eigenlijke leergedrag en de interne processen die zich bij de leerlingen voltrekken,
weinig aan bod kwamen. Als beïnvloedende factoren van het leren werden vooral uitwen-
dige factoren bestudeerd, zoals contiguïteit, herhaling en reinforcement. Factoren in de
leerhngen zelf, inzonderheid de resultaten van het voorafgaande leren, werden meestal
over het hoofd gezien en zelfs experimenteel geëlimineerd.

In de cognitivistische benadering die thans hoe langer hoe meer het gehele domein van de
Amerikaanse psychologie doordringt (Wittrock & Lumsdaine, 1977, p. 417-418), wordt
de mens niet meer opgevat als een bundel 'responses' op stimuli uit de omgeving, maar
primair als een informatieverwerker. Zoals vaak het geval is met een opkomend studie-
domem is het, volgens Resnick (1976, p. 63-64), gemakkelijker voorbeelden van 'mforma-
tion-processing' onderzoek aan te halen dan een volledige en algemeen aanvaarde definitie
ervan te geven. Zeer globaal kan men wel stellen dat de 'information-processing research'
zich bezighoudt met het verklaren van prestaties op cognitieve taken in termen van het
verwerken ('processing') van gegevens ('information'); daarbij laat zij zich inspireren door
modeUen en door de taal van de computerprogrammering. Dit laatste wil nochtans niet
zeggen dat men de digitale computer als model neemt voor het menselijk brein (Hunt &
Lansman, 1975<.p. 86). Deze informatieverwerkings-benadering onderscheidt zich duide-
Ujk van de vroegere behavioristische studies, doordat men zich niet beperkt tot de studie
van uitwendig waarneembare gedragingen en prestaties, maar probeert door te dringen tot
de innerlijke, cognitieve processen bij het lerende subject. Zo gaat men bijvoorbeeld
onderwijsdoelen in meer procesmatige termen omschrijven en worden proces-analyses van
leeractiviteiten ondernomen. Daarbij wordt ook meer aandacht gegeven aan de invloed
van innerlijke variabelen in het subject, die het verloop en de resultaten van leerprocessen

in mindere of meerdere mate kunnen beïnvloeden. Als voorbeeld noemen we de structuur
en de inhoud van het lange-termijn geheugen.

Een a.h.w. parallelle stroming die voortkomt uit de Russische onderwijspsychologie, ver-
werpt eveneens een louter prestatiegerichte benadering en stelt het handelen van de
lerende persoon centraal. Hierbij wordt ervan uitgegaan dat om leerprocessen op gang te
brengen, men het handelen van de persoon moet beïnvloeden; door het uitvoeren van
handelingen ontstaan bij het subject gedragsmogelijkheden als leerresultaat. Deze visie is
in ons taalgebied vooral door Van Parreren (1978) geïntroduceerd. Onder een handeling
verstaat deze auteur een onderdeel van een activiteit (= een geheel van samenhangende
gedragingen) dat door het bewustzijn gestuurd of gecontroleerd wordt en dat men kan
beschrijven in termen van o.m. volgende aspecten: het geanticipeerde resultaat van de
handeling, de situatiegegevens die er relevant voor zijn, de sturingsvorm en de daaruit
voortvloeiende geleding van de handeling, en de functie van de handehng binnen de totale
activiteit. Een beschrijving van een handehng in termen van deze aspecten levert de
handelingsstructuur op (Van Parreren, 1979).

De 'information-processing approach' en de handelingspsychologische benadering van on-
derwijsleerprocessen hebben zich tot nog toe onafliankelijk van elkaar ontwikkeld. Het is
duidelijk dat ze nochtans een opvallende overeenkomst vertonen wat de kernvariabelen
betreft waarop ze gericht zijn, m.n. de inteme processen die zich voltrekken bij lerenden
en bij onderwijsgevenden; deze laatsten zijn evenwel tot nog toe in het onderzoek minder
aan bod gekomen. Door analyse van concrete onderzoekingen komt men trouwens tot
meer gedetailleerde punten van overeenkomst tussen beide stromingen (De Corte & Borre-
mans, 1978).

Anderzijds zijn er tussen de twee benaderingen ook een aantal belangrijke verschilpunten.
Zo verwijst de notie handelen naar een bredere verzameling gedragsvormen dan het cen-
trale concept cognitieve processen uit de Amerikaanse visie, in die zin dat er ook gedrags-
vormen onder thuishoren die niet cognitief geleid worden, zoals allerlei vormen van
automatismen. Als tweede voorbeeld kan gewezen worden op een typisch kenmerk van de
'information processing approach', m.n. het streven om de cognitieve processen te analy-
seren in termen van de opeenvolgende gebeurtenissen die zich bij het subject voordoen.
Dit komt in de handehngspsychologische benadering minder expliciet aan bod. Het resul-
teert in de z.g. stroomdiagrammen, die men in de betreffende literatuur zeer veel terug-
vindt en die duidelijk de verwantschap met computermodellen illustreren.

Ook op methodologisch vlak hebben zich binnen de onderwijspsychologie ontwikkelingen
voorgedaan, die overigens niet losstaan van de inhoudelijke verschuivingen waarvan hier-
voor sprake is.

De vaststeUing dat het leerpsychologisch onderzoek van de voorbije decennia weinig
bruikbare gegevens heeft opgeleverd voor de onderwijspraktijk, heeft tot een eerste be-
langrijke verandering geleid. De oorzaak van de geringe opbrengst van de nochtans indruk-
wekkende hoeveelheid studies over het leren werd vooral toegeschreven aan de grondige
verschihen tussen de laboratoriumsituaties uit deze onderzoekingen en de reële leer-
situaties in het onderwijs (Van Parreren, 1964; Hilgard, 1964). Om deze labo-situaties zo
goed mogelijk onder experimentele controle te hebben werd er inderdaad aan sterke
reductie van de reahteit gedaan. Thans is men het er vrij algemeen over eens dat de

onderwijspsychologie de beoogde doelstellingen slechts kan waarmaken, indien zij de
onderwijsleerprocessen bestudeert in reële onderwijsleersituaties. Dit betekent niet dat
men het streven naar interne vahditeit van de onderzoekingen - nodig voor de interpre-
teerbaarheid van de bevindingen - prijsgeeft, maar wel dat tenminste evenveel belang
gehecht wordt aan de externe validiteit. M.a.w. men wil onderzoek doen in situaties die
representatief zijn voor de werkelijke leersituaties in de klas, om aldus tot generaUseerbare
resultaten te komen (Snow, 1974; Bronfenbrenner, 1976; Kalmykova, 1970).
De grotere aandacht voor procesvariabelen naast produktvariabelen waarover we het in
het vorige punt hadden, heeft ertoe geleid dat men onderzoeksmethoden en -technieken
moet ontwikkelen en uitbouwen, waarmee men gegevens kan verkrijgen over deze inner-
hjke processen die zich bij lerenden en onderwijzenden voltrekken. In dit verband consta-
teert men bijvoorbeeld dat technieken zoals introspectie, hardop denken en analyse van
oplossingsprotocollen, thans aan herwaardering toe zijn. Daarnaast worden nieuwere
methoden van diverse aard ontworpen en uitgeprobeerd. Als voorbeelden vermelden we
het registreren van oogbewegingen als hulpmiddel voor het achterhalen van cognitieve
processen (Monty & Senders, 1976) en het ontwikkelen van technieken voor observatie
van leerhngen en leerkrachten tijdens onderwijsleerprocessen. Wat deze laatste categorie
betreft wordt recent meer en meer gebruik gemaakt van etnografische methoden waarin
de participerende observatie een belangrijke rol speelt (Lowyck, 1978).
De geschetste ontwikkelingen op methodologisch vlak kunnen aanleiding geven tot discus-
sies over pro en contra tussen degenen die de meer klassieke correlationele en experimen-
tele benadering verkiezen en de voorstanders van de zojuist genoemde nieuwe methoden
en teclmieken. Ons lijken zulke discussies steriel. We menen immers dat het meest belofte-
voUe standpunt ligt in een breedspectrum-visie, waarin diverse types van onderzoeksopzet
en alle methoden die relevante informatie over leer- en onderwij sgedrag kunnen opleve-
ren, aan bod kunnen komen. Concreet betekent dit dat er onderzoek nodig is langs het
gehele continuum van interne naar externe validiteit. D.w.z. dat naast studies in situaties
die de reële onderwijsleersituatie benaderen, er ook onderzoekingen moeten gebeuren die
halfweg het continuum te plaatsen zijn en zelfs studies die juist het accent leggen op de
interne vahditeit (zie ook Van Parreren, 1975). In verband met de studie van het pro-
bleemoplossingsgedrag kan men bijvoorbeeld in de reële klassituatie leergesprekken obser-
veren en registreren naar aanleiding van goed gekozen problemen, die de leerhngen vooraf
hebben opgelost. Daarnaast kan men evenwel ook leerhngen individueel problemen laten
oplossen en met behulp van hardop denken, introspectie en observatie zo goed mogehjk
zicht proberen te krijgen op de handelingsstructuren bij het oplossen. Tenslotte kan men
in goed gecontroleerde omstandigheden de oogbewegingen van leerhngen registreren bij
het oplossen van diverse types van taken, waarbij men aspecten van deze taken experi-
menteel kan manipuleren. De betekenis van dit laatste type van onderzoek in weliswaar
vaak sterk gereduceerde situaties ligt hierin, dat het kan bijdragen tot het verkrijgen van
inzicht in de basismechanismen en -wetmatigheden van bepaalde processen. Een gelijk-
aardige opvatting vindt men bij Snow (1976, p. 51) in verband met ATI-onderzoek. Deze
auteur wil in dit domein in de toekomst vooral het accent leggen op de polen van het
continuum.

Uit de voorbeelden over probleemoplossingsgedrag komt ook naar voren dat er een zeker
verband bestaat tussen het continuum exteme-interne vahditeit en de aard van de ge-
bruikte 'data-gathering' technieken. Toch lijkt dit verband ons niet al te dwingend, omdat
men ook in labo-achtige studies gebruik kan maken van 'zachtere' technieken en omge-
keerd.

Voor een optimaal rendement van het onderzoek lijkt het ons trouwens nodig studies op
te zetten waarin diverse technieken gecombineerd worden toegepast. Dit ziet men tegen-
woordig trouwens meer en meer gebeuren in het onderzoek binnen de cognitieve psy-
chologie. Zo worden bijvoorbeeld correlaties berekend tussen proceskenmerken vastge-
steld naar aanleiding van het oplossen van cognitieve taken enerzijds en meer klassieke
metingen van de intellectuele bekwaamheid anderzijds. Een voorbereidend stadium hier-
van dat nog meer kwahtatief van aard is, bestaat in het uitvoeren van z.g. contrastieve
analyses waarbij men bijvoorbeeld het oplossingsgedrag van goede en slechte oplossers bij
bepaalde taken vergelijkt.

Ons inziens bestaat er momenteel wel een grote behoefte aan adequate instrumenten
waarmee cognitieve processen en handehngsstructuren zo goed mogelijk achterhaald en
beschreven kunnen worden. Met het oog op de optimaliseringsgedachte die centraal staat
in de onderwijspsychologie, is dit zeker essentieel. Immers, prestatieverbetering, zowel bij
leerlingen als bij leerkrachten, zal uiteindelijk het best gerealiseerd kunnen worden via de
beïnvloeding van de eraan ten grondslag liggende processen.

Tenslotte zijn we van mening dat ook een adequate organisatie van het gebruik van de
breedspectrum-methodologie bijzonder belangrijk is voor een zo goed mogelijk rendement
van het onderzoek. De beste organisatievorm lijkt ons het tot stand brengen van teams
van onderzoekers, die binnen één project diverse types van onderzoeksopzet en een brede
scala van 'data-gathering' technieken toepassen cn die daarenboven als team in nauw
contact staan met de onderwijspraktijk. Op deze wijze kan men wellicht uit de situatie
geraken die door Atkinson & Paulson (1972, p. 61) als volgt werd gekarakteriseerd:

Educational researchers are concerned with experiments that cannot be readily interpreted in
terms of learning theoretic concepts, while psychologists continue to develop theories that seem
to be applicable only to the phenomena of the laboratory.

Deze uitspraak van Atkinson & Paulson houdt verband met een dilemma dat kan samen-
gevat worden in de tegenstelhng theorievorming versus streven naar optimalisering. Dit
dilemma ligt trouwens mede ten grondslag aan bepaalde andere tegenstellingen die in de
voorafgaande paragraaf ter sprake kwamen (bijv. exteme-interne validiteit). Ter illustratie
laten we de genoemde auteurs (Atkinson & Paulson, 1972, p. 60) nogmaals aan het
woord:

It has become fashionable in recent years to criticize learning theorists for ignoring the prescrip-
tive aspects of instruction, and some have argued that efforts devoted to the laboratory analysis
of learning should be redirected to the study of learning as it occurs in real-life situations. These
criticisms are not entirely unjustified for in practice psychologists have too narrowly defined
the field of learning, but to focus all effort on the study of complex instructional tasks would be a
mistake. Some successes might be achieved, but, in the long run, understanding complex learn-
ing situations must depend upon a detailed analysis of the elementary perceptual and cognitive
processes that make up the human information handling system. The trend to press for rele-
vance of learning theory is healthy, but if the surge in this direction goes too far, we will end up
with a massive set of prescriptive rules and no theory to integrate them.

Het lijkt er dus op dat de grondbedoeling van wetenschapsbeoefening, m.n. theorievor-
ming, in de onderwijspsychologie in het gedrang komt door de gerichtheid op verbetering

van het onderwijs, een intentie die zoals in het begin van deze bijdrage gezegd, centraal
staat in deze discipline.

De aangeduide tegenstelling wordt in de recente hteratuur ook nog met andere begrippen-
paren tot uitdrul king gebracht, bijv. conclusie- versus decisiegericht onderzoek, funda-
menteel versus toegepast onderzoek, descriptief versus prescriptief onderzoek, constate-
rend versus construerend (of formerend) onderzoek. Hoewel deze begrippenparen niet
allemaal zonder meer synoniemen zijn, vertonen ze toch duidelijke overeenkomsten. In
een opgemerkte 'presidential address' tot de AERA-meeting 1977 over de tegenstelhng
'basic versus applied research' heeft Kerlinger bijvoorbeeld eveneens een duidelijk stand-
punt ingenomen met betrekking tot het thema dat in bovenstaand citaat aan bod komt.
Volgende uittreksels uit zijn betoog karakteriseren zijn stellingname: '... basic research is
more important than apphed research in its potential effect on education'; 'Educational
research does not lead directly to improvement in educational practice'; 'Scientific re-
search never has the purpose of solving human or social problems, making decisions and
taking actions'; '... there should be judicious balance between basic and apphed research'.
In verband met een mogelijke oplossing van het dilemma theorievorming - optimahsering
willen we thans nader ingaan op het begrippenpaar constaterend versus construerend
onderzoek. Deze twee types van onderzoek worden sinds enige tijd onderscheiden in de
Russische onderwijspsychologie (Kalmykova, 1970, p. 128 e.v.). Bij constaterende onder-
zoekingen stelt men vast wat er zich onder bepaalde gegeven condities voordoet. Van
systematische beïnvloeding gericht op optimahsering van het leren is meestal geen sprake.
Zo kan men bijvoorbeeld nagaan op welke wijze leerlingen problemen oplossen onder
gegeven leercondities. Eigenlijk heeft men zich in de klassieke leerpsychologie vrijwel
uitsluitend met zulk onderzoek beziggehouden. Daartegenover staat het construerend
onderzoek, ook wel formerend onderzoek of systematisch onderwijsexperiment genoemd,
hl dergehjke studies wordt gepoogd zo optimaal mogelijke leercondities te creëren, daar-
bij steunend op verantwoorde hypothesen omtrent het optimale verloop van onderwijs-
leerprocessen; dergehjke hypothesen kunnen tot stand gekomen zijn op basis van systema-
tische observatie in voorstudies en theoretische reflectie over de verzamelde observatie-
gegevens. Op grond van deze hypothesen wordt een stuk onderwijs ontwikkeld waarvan
men verwacht dat het tot goede leerresultaten zal leiden. Via uitvoering van dit stuk
onderwijs kunnen de betreffende hypothesen over het optimale verioop van het onder-
wijsleerproces op hun houdbaarheid getoetst worden. Heel wat onderzoek dat uitgevoerd
werd door Gal'perin en zijn medewerkers behoort tot dit type. Gal'perin's leertheorie
beschrijft de optimale weg om bij leerhngen volwaardige, mentale handelingen tot stand
te brengen. Om de theorie te toetsen werden talrijke experimenten opgezet waarin leer-
hngen onderwijs kregen volgens de trapsgewijze procedure die in de theorie beschreven
wordt.

Deze visie van Russische oorsprong vertoont o.i. overeenkomst met egn methodologisch
standpunt dat Glaser recent heeft ingenomen in een artikel getiteld 'Components of a
psychology of instruction: towards a science of design' (Glaser, 1976). Glaser sluit aan bij
de ideeën van Shnon gepubliceerd in zijn boek 'The sciences of the artificial' (1969).
Daarin stelt Shnon dat het de traditionele taak is van de wetenschappehjke disciplines om
te beschrijven hoe de dingen zijn en hoe ze werken, terwijl het de taak is van de beroeps-
opleidingen om te onderwijzen hoe men dingen moet ontwerpen en maken.

Design, so construed is the core of all professional training; it is the principal mark that
distinguished the professions from the sciences. Schools of engineering, as well as schools of
architecture, business, education, law, and medicine, are all centrally concerned with the pro-
cess of design (Simon, 1969, p. 55-56).

Gezien de sleutelfunctie van het ontwerpen bij elke beroepsactivheit is het, volgens
Simon, ironisch te noemen dat de z.g. 'prescriptive design sciences' in de curricula van de
beroepsopleidingen minder aan bod komen dan men zou kunnen verwachten en verdron-
gen worden door de zuivere wetenschappen. Dit komt evenwel omdat volgens de geldende
normen de zuivere wetenschappen meer gewaardeerd worden. Glaser (1976, p. 6) schrijft
in dit verband:

Descriptive theory and analysis is intellectually tough and prestigiously teachable. Design and
application has generally appeared to be more intellectually soft, intuitive, and 'cookbooky'.
Tlris certainly seems to be the existing state of affairs with respect to the application of
psychology to the design of instruction.

hi een poging om de ontwerptheorie toe te passen op de onderwijspsychologie kan men,
volgens Glaser, aansluiten bij intellectueel rigoureuze werkwijzen uit andere disciphnes.
De kern van het ontwerpen bestaat in het bedenken van actieplannen gericht op het
verbeteren van een bestaande toestand. Zogenaamde optimaliseringsmethoden die betrek-
king hebben op het nemen van beslissingen over optimale actieplannen, werden reeds
ontwikkeld in de statistische besliskunde, de bedrijfskunde en de technische ontwerp-
kunde. In algemene termen komt de techniek hierop neer: gegeven een verzameling
alternatieve doelen of actiemogelijkheden, bepaalde vaste parameters en beperkende con-
dities, evenals een functie die de relaties tussen deze factoren beschrijft, vind een verzame-
ling handelingen die de beste middelen verschaffen om mogelijke resultaten te bereiken.
Een eerste poging om dergelijke optimaliseringsmethoden toe te passen bij het ontwerpen
van onderwijs vinden we bij Atkinson & Paulson (1972). Deze onderzoekers hebben
daarbij echter met zeer eenvoudige leertaken gewerkt en stellen zelf dat van daaruit geen
veralgemening mogelijk is naar complexe taken en onderwijsprocedures. Toch menen zij
dat hun werk in dat perspectief nuttig is:

By making a careful study of a few cases that can be understood in detail, it is possible to
develop prototypical procedures for analyzing more complex problems (Atkinson & Paulson,
1972, p. 60).

Een centraal probleem in verband met het toepassen van optimaliseringsmethoden bij
meer complexe leertaken en onderwijsprocedures, is het ontbreken van formele beschrij-
vingen van de functionele relaties tussen de belangrijke variabelen. Glaser (1976, p. 7)
schrijft in dit verband het volgende:

For progress now, on the basis of our current knowledge and abihty to model and describe the
learning process, new kinds of prescriptive methods are required. But still, descriptive theory of
some kind is a necessary prerequisite for prescriptive theory if the design procedures we will use
in the design of instruction are to be at all like the procedures used in other professions. Of
other significant interest is that instructional design - the development of instructional proce-
dures and methods - can also become a strong way of testing descriptive theory.

Zowel in de Russische onderwijspsychologie als in Glaser's opvatting over 'instructional
psychology as a science of design' wordt dus gepoogd om de tegenstelling theorievorming
- optimalisering of de tegensteUing descriptieve versus prescriptieve wetenschap op te
lossen in een synthese van beide polen. Daarin wordt gestreefd naar het ontwikkelen van
een beschrijvende theorie van het optimale verloop van onderwijsleerprocessen. Op grond
van zulke (voorlopige) beschrijving wordt vervolgens een 'onderwijsvoorschrift' opgesteld.
Het toepassen van dit voorschrift laat dan toe om de houdbaarheid van de beschrijvende
theorie te toetsen en zo nodig aan te passen en te wijzigen.

In hun recent onderzoek over probleemoplossingsgedrag bij leerhngen van de basisschool
hebben Resnick & Glaser (1976; zie ook De Corte & Borremans, 1978) dit methodolo-
gisch standpunt toegepast. Steunend op concepten en gegevens uit de gangbare 'informa-
tion-processing' theorieën, hebben zij als vertrekpunt een hypothetisch model van het
probleemoplossen opgesteld, dat via empirisch onderzoek geverifieerd en verfijnd kan
worden. Een kernpunt van hun methodologie daarbij bestaat erin: 'to use instruction in
the hypothesized processes as a means of verifying the reality of those processes'. Daar-
mee wordt niet beoogd de onderwijsbaarheid van de processen als zodanig na te gaan,
want men gaat van de onderstelling uit dat ze onderwijsbaar zijn. Indien het betreffende
onderwijs succes oplevert, in die zin dat de betrokken subjecten achteraf beter tot het
oplossen van problemen in staat zijn, dan wordt dit beschouwd als een aanduiding voor de
reahteit van de hypothetische processen uit het model.

In een recente bijdrage heeft Snow (1977) de opvatting van Glaser over onderwijspsy-
chologie als ontwerpwetenschap verder gepreciseerd vanuit de optiek van de studie van
individuele verschillen. In deze publikatie verwoordt de auteur tevens op een treffende
wijze dat theorievorming in de klassieke zin binnen de onderwijspsychologie toch proble-
matisch blijft. Volgens Snow (1977, p. 12) is uit het onderzoekswerk over 'aptitude-treat-
ment interactions' (ATI) duidehjk geworden, dat de interacties zowel tussen leerlingvari-
abelen onderhng als tussen deze variabelen en onderwijscondities zo complex zijn dat elke
vorm van generahsatie, en dus van theorievorming in de klassieke betekenis onmogelijk
wordt. Niettemin meent Snow dat theorievorming wel mogelijk blijft, maar het zal gaan
om een anderssoortige theorie dan deze waaraan we gewoonlijk denken. Om toe te lichten
van welke aard de theorie is die de auteur op het oog heeft, lijkt het ons best hem
uitvoerig zelf aan het woord te laten (Snow, 1977, p. 12).

ATI does not make theory impossible; it makes general theory impossible. Individual difference
variables operating in ATI show the essential importance of detailed description of both specific
instructional situations and specific groups of people. And information processing approaches
provide a means of analyzing both specific situation and specific person variables. But the kind
of theories that come out of this are quite specific, limited in both time and place. These are
theories that apply to the teaching of arithmetic in grades 1-2-3 in Washington and Lincoln
schools in Little City, but perhaps not to the two other elementary schools in that town; to a
course in economics in a particular private high school; or to a two-week social studies unit on
alienation in a Central City junior high school. The research that is done at this level is close to
what would ordinarily be called 'formative evaluation', and seems consistent with Cronbach's
(1975) emphasis on local description. But it isn't just that. It would include iterative attempts
at instructional development and information processing experiments designed to analyze learn-
ing tasks as well, all conducted on site. Conceivably, more general instructional theory might be
reached at some future time by categorizing a large n\imber of such specific instructional cases.
Clusters of cases might become apparent in which conditions and effects were similar enough to
support a within-cluster conclusion. Generalizations might emerge from experience in this way
just as the therapist or counselor might reach generalizations by sorting his cases. In other
words, the local theories are perhaps data points for more abstract notions. But there would
never be a general, top-down instructional theory, created in academia and applicable, or
inapplicable, in particular schools.

The conclusion, then, is that instructional theory may be possible - indeed it is well worth a
try - but it should concern itself only with narrowly circumscribed local instructional situa-
tions, relatively small chunks of curriculum for relatively small segments of the educational
population. Such theories would be intended to generalize more across time in one place than
across places, but they would be somewhat time bound as well. They would share concepts and
methodology but they would be very specific miniatures.

Het ontwikkelen van zulke nieuwsoortige theorieën binnen een visie op de onderwijspsy-
chologie als ontwerpwetenschap, vergt een type onderzoekingen waarin aan zo volledig
mogelijke beschrijving gedaan wordt van de relevant geachte variabelen, zowel subject-
variabelen als situatievariabelen. De breedspectrum-methodologie waarvoor we in de vo-
rige paragraaf gepleit hebben, biedt daartoe de nodige mogelijkheden. Het toepassen van
deze methodologie in het perspectief van specifieke theorieën van onderwijsleerprocessen,
moet aanleiding geven tot een veelheid van kwalitatief diepgaande studies op beperkte
steekproeven. Het is vanuit een veelheid van zulke onderzoekingen dat op langere termijn
meer algemene theorievorming mogelijk kan worden.

Atkinson, R.C. & Paulson, J.A. An approach to the psychology of instruction. Psychological Bulletin,
1972, 78, 49-61.

Bronfenbrenner, E. The experimental ecology of education. Educational Researcher, 1976, 5, no 9,
5-15.

Do Corte, E. & Borremans, Anne-Marie. Processen van probleemoplossen: vergelijking van een Ameri-
kaanse en een Europese visie. Pedagogische Studiën, 1979, 56, 163-175.
De Klerk, L.F.W., Lodewijks, J.G.L.C. & Van der Schoot, F.C.J.A. Onderwijspsychologie. Nederlands

Tijdschrift voor de Psychologie, 1978, 33, 63-83.
Glaser, R. Components of a psychology of instruction: towards a science of design. Review of Educa-
tional Research, 1976,46, 1-24.
Hilgard, E.R. A perspective on the relationship between learning theory and educational practices. In:
E.R. Hilgard (Ed.), Theories of learning and instruction. (63th Yearb. NSSE, Part I.) Chicago: Univ.
Chicago Press, 1964, p. 402-415.
Hunt, E. & Lansman, M. Cognitive theory appHed to individual differences. In: W.K. Estes (Ed.),
Handbook of learning and cognitive processes. Vol 1. Introduction to concepts and issues. Hills-
dale, New Jersey: Lawrence Erlbaum Associates, 1975, p. 81-110.
Kahnykova, Z.I. Methods of scientific research in the psychology of instruction. In: E. Stones (Ed.),
Readings in educational psychology. Learning and teaching. London: Methuen, 1970, p. 125-142.
Kerlinger, F.N. The influence of research on educational practice. Educational Researcher, 1911, 6,
no 8, 5-12.

Lowyck, J. Procesanalyse van het onderwijsgedrag. Studie van de cognitieve variabelen in het voorbe-
reidings- en uitvoeringsgedrag van ervaren leerkrachten. Literatuurstudie en descriptief-empirisch
onderzoek. Leuven, Faculteit der Psychologie en Pedagogische Wetenschappen, K.U. Leuven, niet
gepubliceerd doctoraatsproefschrift, 1978, Xli-248 pp.
Monty, R.A. & Senders, J.W. (Eds.). Eye movements and psychological processes. Hillsdale, New
Jersey: Erlbaum, 1976.

Resnick, Lauren B. Task analysis in instructional design: some cases from mathematics. In: D. Klahr
(Ed.), Cognition and instruction. Hillsdale, New Jersey: Lawrence Erlbaum Associates, 1976,
p. 51-80.

Resnick, Lauren B. & Glaser, R. Problem solving and intelligence. In: Lauren B. Resnick (Ed.), The

nature of intelligence. Hillsdale, New Jersey: Lawrence Erlbaum Associates, 1976, p. 205-230.
Simon, H. The sciences of the artificial. Cambridge, Mass.: MIT Press, 1969. (In het Nederlands

vertaald: Psychologie en systeemtheorie. (Aula, 569.) Utrecht/Antwerpen, Het Spectrum, 1976).
Snow, R.E. Individual differences and instructional theory. Educational Researcher, 1911, 6, no. 10,
11-15.

Snow, R.E. Representative and quasi-representative designs for research on teaching. Review of Educa-
tional Research. 1974, 44. 265-291.
Snow, R.E. Research on aptitude for learning: a progress report. In: L.S. Shulman (Ed.), Review of

research in education, vol. 4. Itasca, III.: F.E. Peacock Publ., 1976, 50-105.
Van Parreren, C.F. Didactiek en leerpsychologie. (Mededelingen van het Nutsseminarium voor Pedago-
giek, nr. 70.) Groningen: Wolters, 1964.

Van Paneren, C.F. (Ed.). Neerpelt 1975. Verslag van een Belgisch/Nederlandse studieconferentie ge-
wijd aan onderwijsproceskunde en didaxologie. Utrecht; Psychologisch Laboratorium, Rijksuniver-
siteit Utrecht, 1975.

Van Parreren, C.F. Onderwijspsychologie. In: H.C.J. Duijker (Ed.), Psychologie vandaag. Deventer:
Van Loghum Slaterus, 1978, p. 38-69.

Van Parreren, C.F. Het handelingsmodel in de leerpsychologie. (Openingsles Buitendlandse Francqui-
leerstoel. Vrije Universiteit Brussel, 1979.) Brussel, V.U.B., 1979.

Van Parreren, C.F. & Carpay, J.A.M. Sovjetpsychologen aan het woord. (Leerpsychologie en onder-
wijs, 2.) Groningen: Wolters-Noordhoff, 1972.

Wittrock, M.C. & Lumsdaine, A.A. Instructional psychology. Annual Review of Psychology, 1911,28,
417-459.

Een Peiling met behulp van Bechtel's
Scalair Productmodel voor de Analyse
van Voorkeuroordelen

Faculteit der Psychologie en Pedagogische Wetenschappen, Departement Psychologie, K. U. Leuven

Study motives and choice of study specialization: an application of Bechtel's scalar product
model for the analysis of preference judgments

First year students in the faculty of psychology and educational sciences were asked to indicate
which direction of specialization they intended to follow during their graduate studies. The
same students were scored on eight subscales of a questionnaire. These scales measured the
importance of eight study motives in their eariier choice to start undergraduate studies in
psychology or educational sciences. It is shown that by using Bechtel's muhidimensional scaling
model, more in particular his scalar product model for the analysis of preferences, a systematic
and detailed description can be given of the relationship between the importance students
attribute to study motives on the one hand and their choice for a future study specialization on
the other hand.

In het Centrum voor Psychodiagnostiek en Studie- en Beroepsoriëntering van de K.U.
Leuven wordt onder leiding van de tweede auteur o.m. onderzoek verricht inzake studie-
keuzebegeleiding van abituriënten (Janssen, 1978). Hierin zijn verschillende deelonderzoe-
kingen te situeren die betrekking hebben op studiekeuzemotivering. In één daarvan (Ja-
cobs, 1978) - werd ter replicatie van een voorafgaandelijke exploratie (Valkeneers, 1974)
- gepeild welke motieven zoal voorkomen bij eerstejaars psychologie en pedagogiek en
welk belang individuele eerstejaars daaraan toekennen in de eigen beslissing deze studies
aan te vatten.

Diezelfde studenten werd ook gevraagd welke afstudeerrichting zij dachten te kiezen na
het behalen van hun kandidaatsexamen. Dit werd gedaan uitgaande van de vraag of er een
verband bestaat tussen hun optie inzake de eigen verdere studieloopbaan en de motieven
die ze zelf verwoorden voor hun oorspronkelijke keuze om psychologie dan wel pedago-
giek te gaan studeren.

hl het onderzoek van Jacobs (1978) werd deze vraag grotendeels in positieve zin beant-
woord. Er werd vooreerst per afzonderlijk studiemotief een variantie-analyse uitgevoerd
om uit te maken of de psychologie- en pedagogiekstudenten, die verder nog onderschei-
den werden op grond van hun geslacht, significant van elkaar verschilden in het belang dat
ze toeschreven aan elk van deze bij de beslissing die ze genomen hadden om psychologie

of pedagogiek te studeren; dit leidde tot acht 2x2 designs. Binnen elke studierichting
konden de subjecten ook onderscheiden worden op grond van hun optie inzake hun
toekomstige studiespeciahsatie.

Aangezien er op het tijdstip van onderzoek in beide studierichtingen vier afstudeerrichtin-
gen bestonden, resulteerde dit per analyse in een 2 x 4 design. Deze analyses werden
immers afzonderlijk uitgevoerd voor de aspirant-psychologen en -pedagogen, zodat er in
totaal 16 variantie-analyses dienden uitgevoerd om een antwoord te krijgen op de vraag of
studenten met verschillende voorkeuren voor speciahsatie ook verschillen met betrekking
tot het belang dat ze aan de respectieve motieven hebben toegekend bij hun oorspronke-
hjke keuze om psychologie of pedagogiek te studeren. Nergens bleken er significante
interactie-effecten aanwezig te zijn; waar de hoofdeffecten wel significant waren, bleek
dit meestal het geval te zijn voor de specialisatiekeuzevariabele en in veel mindere mate
voor de geslachtsvariabele.

Terloops weze vermeld dat in het onderzoek van Jacobs (1978) eveneens aandacht werd
besteed aan mogehjke verbanden tussen deze studiekeuzemotieven enerzijds en anderzijds
aspecten van studeergedrag (inzet, zelfvertrouwen, studiekeuzezekerheid), enkele psycho-
metrisch geregistreerde persoonlijkheidseigenschappen (o.m. 'locus of control' en verstan-
delijke capaciteit) en op het einde van dit eerste jaar behaalde studieresultaten. In deze
bijdrage zullen wij ons echter beperken tot de in vorige alinea aangegeven vraagsteUing.
Meer bepaald wensen wij - het idee daartoe was afkomstig van eerstgenoemde auteur,
verbonden aan het Centrum voor Mathematische Psychologie en Psychologische Methodo-
logie - aan te tonen dat met een multidimensioneel schaalmodel, met name een scalair
productmodel voor de analyse van voorkeuroordelen, een summiere, maar tegelijkertijd
veelomvattende beschrijving kan gegeven worden van de verbanden tussen het belang dat
de studenten hechten aan bepaalde studiemotieven enerzijds en de studiekeuze die ze
maken anderzijds. Een dergelijke beschrijving kan tot inzichten leiden die anders niet zo
gemakkelijk verworven kunnen worden. Dit wensen wij te illustreren door dit schaal-
model toe te passen op dezelfde gegevens die door Jacobs werden verzameld en geanaly-
seerd.

In de volgende paragraaf geven we vooreerst nadere details omtrent deze data. Vervolgens
formuleren w.e een korte beschrijving van het gebruikte schaalmodel. Een meer technische
presentatie van de hand van eerstgenoemde auteur wordt in appendix geboden. Dan
wordt dit model toegepast op de concrete onderzoeksdata en worden de resultaten be-
sproken. Dit gebeurt vooreerst om de verschillen die er blijken te bestaan tussen de
psychologie- en pedagogiekstudenten te beschrijven. Vervolgens zullen wij het schaal-
model gebruiken om te peilen naar verschiUen tussen de subgroepen die op basis van de
geformuleerde optie inzake begin van specialisatie binnen deze twee studierichtingen
kunnen onderscheiden worden. Tot slot worden de aldus opgedane bevindingen samen-
gevat.

Tydens het academiejaar 1976-77 werd bij de eerstejaarsstudenten in de psychologie en
de pedagogiek van de K.U. Leuven een vragenlijst afgenomen waarbij hen werd gevraagd
voor 120 verschiUende motieven op een vijfpuntenschaal aan te duiden in welke mate elk
van deze een rol had gespeeld bij hun studiekeuze. Voor meer concrete gegevens over de
samenstelling van deze vragenlijst verwijzen we naar Jacobs (1978). Terzelfdertijd dienden

^ig. 1. Studieopbouw en studiemogelijkheden binnen de Faculteit der Psychologie en Pedagogische
Wetenschappen aan de K.U.Leuven in het academiejaar 1976-197T.

deze studenten aan te geven welke specialisatierichting zij zouden kiezen bij het begin van
hun eerste licentie. Ter verduidelijking wordt in figuur 1 de structuur van de studiemoge-
lijkheden geschetst, zoals die op het moment van de afname van de vragenlijst bestond'.
Op grond van factoranalytische argumenten konden binnen de gehanteerde motiveringen
acht verschillende verzamelingen worden onderscheiden, die nadien als subschalen modaal
een interne consistentie (KR-20) groter dan 0,80 vertoonden. Elk van deze subschalen
wordt vermeld m tabel 1 tezamen met het aantal items, de homogeniteitscoèfficiënt en de
motivering (het item) met de hoogste factorlading. Genoemde coëfficiënt had betrekking
op de subschaal zoals die resulteerde uit een itemselectie op basis van de uitkomsten van
een Gulhksen-itemanalyse ten overstaan van de betreffende subschaal-totaalscore (Ver-
helst & Vander Steene, 1972).

Gegeven het feh dat deze subschalen aldus voldoende homogeen bleken, kan elke afzon-
derhjke subschaal gelden als een steekproef uit een populatie van items met betrekking
tot een welbepaald subdomein uit de studiekeuzemotivatie. Voorzover elk aldus geselec-

1- Het licentieprogramma werd voor de studierichting Psychologie gewijzigd bij de aanvang van het
academiejaar 1978-79; 'Experimenteel en fundamenteel onderzoek' komt vanaf dan als afzonderlijke
afstudeerrichting te vervallen en wordt naar eigen keuze van de kandidaat parallel met 'gerichte
praktijkvoorbereiding' een binnen zowel A als B als C te leggen accent.

teerd item een ongeveer even goede representator is van dit subdomein, kunnen we per
individu de gemiddelde ratingscore voor die items gebruiken als belangrijkheidsscore van
dit subdomein voor dit subject. Door rangordening van die gemiddelde ratingscores ver-
krijgen we voor die subdomeinen per student een rangschikking naar belangrijkheid in
diens keuzemotivatie. Een bijkomend voordeel van deze verwerking der schaalscores is dat
we vergelijkingen maken binnen ieder subject afzonderlijk en niet tussen de subjecten. Op
die manier wordt de invloed van eventuele responstendenzen bij de gebruikte antwoord-
schaal - van 'absoluut geen invloed' (= 1) tot en met 'één van de allersterkste invloeden'
(= 5) - voor een groot deel bij de verdere verwerking geëlimineerd.
Met deze rangordeningen per subject kan voor onderscheiden subgroepen van subjecten
een proportiematrix worden opgesteld waarin voor elk paar van studiemotieven wordt
ingevuld voor welke proportie van subjecten uit deze subgroep het ene motief als belang-
rijker geldt dan het andere. Hier weze opgemerkt dat we'in de verdere tekst het begrip
'studiemotief laten samenvallen met de subschaal waarin het geoperationaliseerd werd.
De subgroepen die ons hier interesseren zijn samengesteld op grond van de keuze die de
subjecten maakten met betrekking tot hun specialisatierichting in de licentiejaren en
daarenboven opgesphtst m.b.t. geslacht. Gebruik makend van de codeletters in figuur 1
onderscheiden we aldus de volgende groepen (we geven tussen haakjes hun omvang aan en

duiden met een accent de vrouwelijke subgroepen aan): A(23), B(14), C(74), D(18),
A'(3), B'(10), C'(82), D'(13), a(16), b(4), c(20), d(31), a'(16), b'(12), c'(71), d'(35).
Gezien het geringe aantal subjecten in A' en b is er bij deze groepen uiteraard weinig
differentiatie in de proporties. Vandaar dat deze beide niet verder in de analyse worden
betrokken. Ook worden proportiematrices berekend voor beide totaalgroepen psycholo-
gie (Ps) en pedagogiek (Pe).

Wanneer men te doen heeft met voorkeuruitspraken van subjecten t.o.v. een aantal stimu-
li, of met gegevens als de onderhavige waar studiekeuzemotieven fungeren als stimuli en
de groepen als subjecten, kan men beroep doen op een externe of een interne analyse.
Men spreekt van een externe analyse wanneer men reeds vooraf kan stellen hoeveel en
welke voorkeurcriteria de subjecten gebruiken en wanneer terzelfdertijd bekend is hoe
deze criteria kunnen gedefinieerd worden in temien van de stimuluskarakteristieken. De
analyse op de voorkeuroordelen wordt dan enkel uitgevoerd om te bepalen hoe subjecten
of groepen van subjecten onderling verschillen in het belang dat ze toekennen aan deze
keuzecriteria. Bij een interne analyse daarentegen wordt eenzelfde dataset van voorkeur-
oordelen gebruikt om tegelijkertijd aantal, aard en gebruikswijze van de keuzecriteria te
bepalen. Dit onderscheid tussen externe en interne analyse werd uitvoerig besproken door
Carroll (1972).

Het spreekt vanzelf dat een externe analyse meer aangewezen is voor hypothesetoetsing
omtrent de preferentiestructuur die eigen is aan de voorkeuren van bepaalde groepen van
subjecten t.o.v. een bepaalde verzameling van stimuH. Bechtel (1976) gaat bij zijn formu-
lering van modellen voor interne, en vooral voor externe analyse, nader in op de statisti-
sche toetsbaarheid van hypothesen omtrent de preferentiestructuur. De interne of externe
analyse wordt bij hem echter nog voorafgegaan door een toetsing van het lineair utiliteits-
model. Dit model stelt dat de uitgesproken voorkeuren lineair zijn in de utiliteitswaarden
van de stimuh. Concreet komt dit in de context van ons eigen onderzoek op het volgende
neer:

waarin een index is die aangeeft in welke mate in de groep i het studiemotief / als
belangrijker wordt aanzien dan het studiemotief k. Het model stelt dan dat deze index
kan aanzien worden als een louter additieve combinatie van (1°) Vfj - nl. het verschil
in belangrijkheid of, in de terminologie van het model, in utiliteitswaarden van de motie-
ven ƒ en k voor de groep /; (2°) .een parameter die het gebrek aan schaalbaarheid van
het stimuluspaar weergeeft of die m.a.w. aanduidt in welke mate de index verklaard
moet worden door andere systematische invloeden buiten het verschil in utiliteitswaar-
den; en (3°) Cijk, zijnde de toevalsfout die mede de geobserveerde waarde van p^^
bepaalt.

Het is duidelijk dat de geobserveerde proportie waarmee een motief / als belangrijker
wordt aanzien dan k in groep i, zou kunnen fungeren als Pijk- Nochtans zullen we de
voorkeursterktes Pijk bepalen aan de hand van een transformatie op de oorspronkelijk
geobserveerde proporties:

waarbij de boogsinuswaarde wordt uitgedruict in radialen. Deze index varieert van 2,35
over nul naar -2,35 voor prop,yfc resp. gelijk aan 1, 1/2 en nul. Deze transformatie,
vergelijkbaar met de transformatie van proporties naar z-waarden onder de normale verde-
ling, biedt het bijkomend voordeel dat de transformatiefunctie niet asymptotisch is en dat
de steekproefverdelingen van deze indices, in tegenstehing tot de oorspronkelijke propor-
ties, dichter de normale verdehng benaderen. Uit de lineaire modelformulering 1 volgt dat
het model ook gemakkelijk op aangepastheid aan geobserveerde gegevens kan getoetst
worden. Bovendien is het mogelijk de nulhypothese te toetsen dat alle y,y-waarden gelijk
zijn aan elkaar, of dat er m.a.w. geen enkele systematische voorkeur bestaat voor een
studiemotief hoven een ander. Meer details over deze toetsingsprocedures worden ver-
strekt in de appendix (cf. de formules A.6 en A.7); ze zijn ook te vinden in de oorspron-
kelijke pubhkatie van Bechtel (1976).

Binnen het hneair utihteitsmodel fungeert het scalair productmodel als submodel. Dit
vinden we terug in de vergelijking:

waarin aangeeft in welke mate de groep i belang hecht aan het keuzecriterium r en bjr
betrekking heeft op de mate waarin het studiemotief j kan vereenzelvigd worden met het
keuzecriterium r. Bij de toepassing van het model is één van de uitgangspunten dat t, het
aantal keuzecriteria, kleiner is dan het aantal stimuli. In ons onderzoek betekent dit dat
we wihen nagaan of het aantal studiemotieven niet tot een kleiner aantal keuzecriteria
kan gereduceerd worden, zonder dat we daarbij veel aan nauwkeurigheid verhezen in de
beschrijving die we wensen te geven van de manier waarop de groepen van studenten
onderhng van elkaar verschillen in hun uitgedrukte keuzen. e,y is weerom een foutenpara-
meter.

Het scalair productmodel imphceert dus dat de groep i een studiemotief ƒ des te belang-
rijker zal vinden naargelang ƒ het keuzecriterium r beter representeert en naarmate i zelf
aan r meer belang hecht.

Het globale belang dat i hecht aan ƒ, of de utihteitswaarde u^y, wordt dan bepaald door
deze effecten te sommeren over de verschiUende keuzecriteria. In een geometrische mo-
delformulering komt dit erop neer dat zowel groepen als motieven kunnen worden voor-
gesteld als vectoren in een Euclidische ruimte. De dimensionaliteit van die ruimte is gelijk
aan het aantal keuzecriteria en de utihteitswaarde Vij aan het scalair product van de
vectoren i en /.

Bij een externe analyse worden de parameters bjy (/ = 1, ..., n\r = 1, ..., f,n = aantal
motieven) bekend verondersteld, zodat alleen de parameters fl,> (i = 1, ...,m;r= 1,..., r;
m = aantal groepen) moeten geschat worden. Deze bieden ons een systematische beschrij-
ving van de verschiUen tussen de groepen in hun - op een beperkt aantal keuzecriteria
gebaseerd - oordeel over het relatieve belang van studiekeuzemotieven.
Bij een externe analyse hebben we bij het scalair productmodel opnieuw te doen met een
additieve modelformulering, zodat ook hier weer verschiUende toetsingsgrootheden kun-
nen worden afgeleid. Benevens de toetsing op de aangepastheid van het model kunnen er
toetsingen worden verricht op (1°) de gelijkheid van de a-parameters per dimensie, het-
geen neerkomt op de vraag of we de nulhypothese kunnen aanhouden dat alle groepen

even veel belang hechten aan een bepaald keuzecriterium; en (2°) de gelijkheid van de
a-parameters per groep, hetgeen neerkomt op de vraag of we de nulhypothese kunnen
aanhouden dat een groep evenveel belang hecht aan aUe keuzecriteria. De toetsingen
vermeld onder 1° lopen parallel met de variantie-analyses uitgevoerd door Jacobs (1978).
Bij een interne analyse heeft men nog geen weet van de manier waarop de studiemotieven
zich situeren t.o.v. de meer fundamentele keuzecriteria. Dan tracht men in een enkele
analyse zowel de a- als de è-parameters te schatten. De zojuist vermelde toetsingsmogelijk-
heden komen dan echter te vervallen, omdat het scalair productmodel niet meer als een
eenvoudig lineair model kan worden aanzien.

Bij de toepassing van het model van Bechtel vragen wij ons vooreerst af in welke mate de
psychologiestudenten zich voor wat betreft hun studiekeuzemotiveringen onderscheiden
van de pedagogiekstudenten. De eerste stap in deze analyse bestaat er in de respectieve
proportiematrices om te zetten in matrices met de indices Pij^. (cf. vergelijkmg 2), die
kunnen geïnterpreteerd worden als voorkeursterktes. Uit deze matrices kunnen we voor
beide groepen vervolgens de voorkeurschaalwaarden der studiemotieven (in vergelijking
1) schatten. Deze zijn te vinden hi tabel 2. Voor de overzichtelijkheid van de tabel hebben
we de motieven binnen elke groep in volgorde van belangrijkheid van een rangnummer-
tussen-haakjes voorzien.

Grosso modo blijkt de volgorde dezelfde binnen de groepen; alleen voor dicht bij elkaar
aansluitende motieven doen zich verschuivingen voor van de ene groep tot de andere. Dit
is uiteraard niet zo verwonderlijk, aangezien we te doen hebben met twee groepen subjec-
ten uit studierichtingen die een grote verwantschap met elkaar vertonen. Mogen de klei-
nere verschuivingen die optreden als betekenisvol aangezien worden of niet? Om dit te
kunnen uitmaken moeten we uiteraard eerst de nulhypothese, weergegeven in formule
A.7, verifiëren, als zou er bij geen enkele groep een betekenisvolle voorkeur bestaan voor
een motief boven een ander. De toetsing van deze globale nulhypothese en van die voor
de afzonderlijke groepen vindt men in tabel 3.

2. Waar in het vervolg van deze tekst sprake is van 'psychologen' en van 'pedagogen' dient dit te
worden begrepen als eerstejaars binnen de betreffende studierichting.

Variantie-analyse der voorkeurindices bij eerstejaars psycho-
logie en pedagogiek

Alle F-waarden, ook die voor de systematische fouten, blijken zeer significant. De som
der kwadraten (SK) voor de systematische fouten, in vergelijking met de SK voor de
voorkeureffecten gering, laat vermoeden dat deze systematische fouten een relatief slechts
zeer kleine invloed hebben gehad op de antwoorden der subjecten. Dit vinden we beves-
tigd in de zeer hoge vahditeitsindex voor deze schalen: R.jj — 0,9876 {Rf — 0,9987). Er is
geen enkele inbreuk tegen de zwakke transitiviteit en er blijken zich slechts acht inbreu-
ken tegen de sterke transitiviteit te hebben voorgedaan^. Dit alles laat ons toe te besluiten
dat de voorkeurschalen inderdaad verwijzen naar bestaande verschillen in voorkeur voor
studiemotieven. We kunnen ons echter afvragen of deze voorkeuren voor studiemotieven
niet kunnen teruggebracht worden tot een kleiner aantal keuzedimensies. Deze vraag
kwam reeds aan de orde in het oorspronkelijk onderzoek van Jacobs (1978), die de
intercorrelaties berekende tussen de subschaaluitslagen van de subjecten en op deze corre-
latiematrix een hoofdcomponentenanalyse toepaste. Wij hebben ons op haar resultaten
geïnspireerd om een tweedimensionele voorkeurruimte voorop te stellen waarbij één di-
mensie de nadruk moet leggen op SOEN en de andere op INZI (zie Tabel 1 voor de ge-
bruikte codes). Daarenboven zorgen we ervoor dat de som der kruisproducten der projec-
ties op de twee dimensies gelijk is aan nul. Dit levert ons een orthogonale voorkeurstruc-
tuur op. De voorkeurruimte die daaraan beantwoordt staat afgebeeld in figuur 2.
De localisaties van de psychologie- en pedagogiekgroep, zoals geschat met formule A.10,
zijn eveneens afgebeeld in deze figuur. De foutenterm van het scalair productmodel is in
dit geval echter zeer hoog, nl. 4,91. Een toetsing van het model is hier strikt genomen niet
zinvol, omdat we de hypothetische voorkeurmatrix hebben afgeleid uit dezelfde gegevens
waarmee we het model willen toetsen; toch levert de uitvoering er van een belangrijke
informatie. Zelfs onder omstandigheden die onze hypothese systematisch begunstigen,
observeren we toch een significante afwijking van de gegevens t.o.v. het model (F(10,21)
= 48,75;p<0,01).

Het scalair productmodel slaagt er niet in de gegevens te verklaren, omdat we onze
hypothetische voorkeurmatrix hebben afgeleid uit een analyse van covarianties tussen
subschalen. Een dergelijke analyse zegt wel iets over de dimensionaliteit van de voorkeur-
ruimte, maar laat ons ontwetend over de mate waarin een motief meer wordt gekozen dan
een ander. Vooral om die reden schiet de externe analyse met de in figuur 2 vooropge-
stelde voorkeurstructuur tekort. Daarom voeren we een interne analyse uit waarbij de
projecties van de motieven en van de groepen tegelijkertijd worden geschat uit de voor-
keurmatrix in tabel 2. De resultaten zijn afgebeeld in figuur 3.

Bij zo'n interne analyse heeft statistische toetsing weinig zin. Ter illustratie kunnen we
hierbij verwijzen naar de foutenterm van het scalair productmodel die op triviale wijze
gelijk is aan nul, aangezien de rang van matrix V (in tabel 2) gelijk is aan 2 en we bij de
Eckart-Young decompositie van diezelfde matrix 2 dimensies hebben weerhouden. Het
spreekt vanzelf dat indien we de matrix B, zoals in figuur 3 uitgetekend, vooraf uit
onafhankelijk geobserveerde gegevens hadden kunnen vooropstellen, er dan geen statisti-
sche evidentie zou zijn om het model te verwerpen. Indien we in dit geval ook de
toetsingen zouden toepassen die Bechtel (1976, p. 54 en 55) vermeldt, dan zouden we
mogen besluiten dat voor beide dimensies het verschil in projecties tussen pedagogen en
psychologen significant is op het 0,01-niveau; ook binnen eenzelfde groep zou het verschil
in projecties op de beide dimensies significant verschillend blijken. De twee dimensies

3. Voor meer uitleg over deze indices ter controle op de schaalkwaliteiten verwijzen we naar de
appendix.

kunnen we interpreteren als: grootste belang gehecht aan (I) sociaal engagement en (II)
verwerving van inzicht. De volgorde van de projecties van de subschalen op de groepsvec-
toren (of hun verlengde door de oorsprong) ligt in de lijn van de gegeven interpretatie. Zo
zien we dat bij de psychologen studiegerichtheid belangrijker blijkt dan gehandicapten-
zorg, terwijl het bij de pedagogen andersom ligt.

De resultaten van de interne analyse zijn dus op een plausibele manier te interpreteren en
kunnen zeker dienstig zijn om bij een replicatiestudie als hypothese te fungeren. De
interne analyse louter descriptief gebruikend kunnen we dus zeggen, dat bij deze steek-
proef van subjecten pedagogen blijkbaar meer dan psychologen belang hechten aan het
sociaal engagementsmotief; het tegenovergestelde doet zich voor bij het inzichtsmotief.
Met deze vergehjking tussen de groepen dient men echter zeer voorzichtig te zijn, want
doordat wij de proportiematrices construeerden vooraleer het model toe te passen, staan
we met ipsatieve metingen. Dit bemoeilijkt de interpretatiemogelijkheden bij vergelijkin-
gen-achteraf tussen de groepen. De conclusies die we hier trekken, worden echter onder-
steund vanuit de afzonderlijke variantie-analyses die door Jacobs (1978) per subschaal wer-
den uitgevoerd (2x2 designs: geslacht en studierichtmg). AUe hoofdeffecten voor
studierichting waren significant, uitgenomen bij ZELF en STAT. Alle verschiUen, ook het
niet statistisch betekenisvol verschil voor STAT, gingen in de richting van wat men kan
verwachten op grond van de projecties der subschalen op de twee groepsvectoren in figuur

Binnen de afzonderlijke groepen komen we echter ook tot de bevinding dat de psycholo-
gen meer belang hechten aan het inzichtsmotief dan aan het sociaal engagementsmotief,
terwijl bij de pedagogen de volgorde van belangstehing andersom Ugt. Let wel dat deze
bevindingen niet automatisch volgen uit de voorgaande. Indien de groepsvectoren in

figuur 3 ongeveer 15° tegen het uurwerk in zouden geroteerd worden, dan zou hun stand
nog compatibel zijn met de in voorgaande alinea vermelde groepsverschillen; deze nieuwe
stand van vectoren zou er nochtans op wijzen dat de pedagogen ongeveer evenveel belang
hechten aan beide keuzedimensies, terwijl bij psychologen het relatieve belang van het
inzichtsmotief nog sterker zou doorwegen t.o.v. het sociaal engagementsmotief.

5. Analyse van voorkeuroordelen in groepen samengesteld op basis van geslacht en
vermoedelijke studiekeuze op licentieniveau"

In de door Jacobs (1978) doorgevoerde variantie-analyses bleken ook sommige geslachts-
effecten significant te zijn. Vandaar dat we in de hiernavolgende illustratie van de toepas-
sing van het model van Bechtel alle groepen die we kunnen onderscheiden op grond van
hun vermoedelijke specialisatierichting in de licentiejaren ook opsplitsen m.b.t. geslacht.
Aldus komen we tot 14 subgroepen (A' en b vallen weg zoals reeds in paragraaf 2 werd
vermeld). De voorkeurschalen voor deze groepen staan in tabel 4, terwijl de toetsing van
het model geboden wordt in tabel 5. Deze tabel leidt tot dezelfde bedenkingen als bij de
voorgaande analyse:

alle effecten zijn significant, ook de systematische fouten, waarvan we echter weerom het
relatief zeer geringe belang kunnen weerspiegeld zien in de geringe waarde van de gemid-
delde kwadratische fout. De betrouwbaarheids- en validiteitscoëfficiënten voor de oplos-
sing zijn resp. 0,98 en 0,97'. Alhoewel voor alle groepen de voorkeureffecten significant

zijn kunnen we uit de gemiddelde kwadraten afleiden dat deze effecten bij de ene groep
veel sterker aanwezig zijn dan bij de andere. Zo differentiëren de psychologen over het al-
gemeen meer in belangrijkheid van studiemotieven dan de pedagogen dit doen (cf. ook tabel
4), maar binnen deze laatste differentiëren de meisjesstudenten die orthopedagogiek kiezen
meer in studiemotieven dan dit het geval is bij diegenen die voor psychopedagogiek opteren.
Om_nu systematisch te beschrijven hoe groepen als deze onderling verschillen in het
belang dat ze toekennen aan studiemotieven, passen we het scalair productmodel toe.
Aangezien we bij de interne analyse met extractie van 4 keuzecriteria nog altijd een
foutenterm vinden van 11,01, zuUen we niet ingaan op oplossingen in lagere dimensionali-
teit en oplossingen verkregen met behulp van externe analyse®. Het verloop van de
eigenwaarden, ptrokken uit de matrix60; 8,13; 6,91; 1,59; 0,65; 0,46 en 0,27),
wijst er anderzijds op dat een oplossing met meer dan 4 dimensies weinig zinvol is.
De eerste twee eigenvectoren worden over een hoek van 45° geroteerd; het is deze
oplossing die terug te vinden is in tabel 6 en figuur 4. Ze komen overeen met de twee
keuzecriteria die we reeds aantroffen in figuur 3. Ook de groepsvectoren localiseren zich
m lijn met wat we reeds zagen in figuur 3: de vectoren A, B, B', C, C', D en D' verspreiden
zich rondom de vectorpositie van de globale psychologengroep; hetzelfde kan gezegd
worden van de overige vectoren m.b.t. de globale pedagogengroep. De twee groepen
vectoren overlappen elkaar niet, hetgeen wijst op een duidelijke differentiatie in de twee
studiegroepen op basis van hun studiemotieven. Anderzijds zien we wel dat de klinisch
psychologen en schoolpsychologen het dichtst aansluiten bij de psychopedagogen en

6. Uit dit voorbeeld blijkt trouwens dat de door Bechtel voorgestelde toetsingsprocedure zeer streng
uitvalt t.o.v. een vooropgestelde voorkeurstructuur.

sociaal pedagogen. De groepen kunnen gekarakteriseerd worden door het ongeveer ge-
lijke belang dat ze hechten aan het sociaal engagementsmotief en het inzichtsmotief. Het
eerste motief speelt echter wel sterker door bij de orthopedagogen en onderwijskundigen,
terwijl het inzichtsmotief het sterkst doorweegt bij die psychologen die opteren voor
wetenschappelijk onderzoek als afstudeerrichting.
Deze beschrijving kunnen we nog verder detailleren.

De studiekeuzemotieven blijken beter te discrimineren tussen de afstudeerrichtingen in de
hcenties dan tussen de geslachten. Zowel voor de orthopedagogen als voor de onderwijs-
kundigen is het sociaal engagementsmotief belangrijker dan het inzichtsmotief. Niettemin
hecht de eerste groep daar nog meer belang aan dan de tweede. De projecties van de
groepen a en a' op dimensie I zijn ünmers beduidend kleiner dan die van c ene'. Dit
houdt uiteraard verband met het kleiner zijn van de groepsvectoren a en a' in de ruimte
die door de twee voornoemde motivationele dimensies wordt omspannen. Dit "verschil
tussen de groepen a + a' en c + c' wordt nog verder genuanceerd door de derde dimensie
die geconstitueerd wordt door het verschil in belangstelling voor onderwijs en opvoeding
enerzijds en gehandicaptenzorg anderzijds; deze beide motieven liggen op de eerste en de
tweede dimensie tamelijk dicht bij elkaar. Zoals men kan verwachten laten de onderwijs-
kundigen zich veel meer leiden door hun belangstelling voor onderwijs en opvoeding,
terwijl de orthopedagogen zich meer richten op gehandicaptenzorg. Meteen is duidelijk

Figuur 4a. Grafische voorstelling van de vierdimensionale voorkeurstructuur /-ƒ/.

waarom deze derde dimensie niet te voorschijn kwam in de voorgaande analyse; ze dif-
ferentieert immers vooral verschillende subgroepen die tot eenzelfde globale groep, die
der pedagogen, behoren. De vierde dimensie is uitsluitend te wijten aan het speciaal
belang dat gehecht wordt aan het maatschappelijk engagementsmotief. Vooral de manne-
lijke sociaalpedagogen schenken daaraan meest, de vrouwelijke psychopedagogen daaren-
tegen minst aandacht. Deze vierde dimensie discrimineert echter reeds veel minder duide-
lijk dan de derde en het is twijfelachtig of ze nog als betekenisvol moet worden aangezien.
Globaal genomen kunnen we uit de spreiding der vectorprojecties op de twee laatste
dimensies afleiden dat de verschillende specialisatierichtingen in de psychologie zich min-
der duidelijk van elkaar differentiëren voor wat betreft studiekeuzemotieven van eerste-
jaars dan dit het geval is in de pedagogiek. Het zijn precies de vier speciahsatierichtingen
in de pedagogiek die de meest extreme projecties opleveren op de vier polen van deze
dimensies. Het valt buiten het bestek van deze bijdrage hiervoor een relevante verklaring
te formuleren.

Figuur 4b. Grafische voorstelling van de vierdimensionale voorkeurstructuur III-IV.

Toepassing van het scalair productmodel voor de interne analyse van voorkeurgegevens op
de data in de studie van Jacobs (1978) leidt tot volgende bevindingen:

1) De globale groepen eerstejaars in psychologie en pedagogiek laten zich differentiëren
door twee studiemotivatiedimensies: nl. sociaal engagement (1) en inzichtsverwerving (II):

2) De binnen beide studierichtingen bestaande afstudeerrichtingen, zoals gepercipieerd
door eerstejaars, laten zich onderling onderscheiden op basis van dezelfde dimensies.

3) De specialisatiegroepen in de pedagogiek differentiëren zich echter nog sterker dan in
de psychologie met betrekking tot een aantal specifieke motieven: gerichtheid op onder-
wijs en opvoeding, op gehandicaptenzorg of op maatschappijvernieuwing.

Appendix: Technische beschrijving van Bechtel's model voor externe en inteme analyse
van voorkeuroordelen

We zullen achtereenvolgens een samenvatting geven van het lineair utiliteitsmodel en van
de externe en interne analyse van de utiliteitswaarden met behulp van het scalair product-
model. Telkens gaan we ook in op de toetsbaarheid van deze modellen. In zijn monografie
behandelt Bechtel (1976) eveneens de afstandmodellen voor de externe en interne
analyse. We laten ze hier buiten beschouwing omdat we ze minder toepasselijk achten op
onze gegevens.

Wanneer m subjecten (of groepen subjecten) hun paarsgewijze voorkeur uitdrukken voor
n stimuli, dan kan de uitgedrukte voorkeursterkte van stimulus ƒ ten overstaan van stimu-
lus k bij het subject (of groep) i als volgt ontbonden worden:

Yjj^ = het gebrek aan schaalbaarheid van het stimuluspaar Q, k), of m.a.w. dit is
de systematische fout.

Cfjj^ = de toevalsfout.
Het is gemakkelijk aan te tonen dat onder de voorwaarden
(A.la) piy = 0 {i=\,...,m)
(A.lb) (j=\.....n)

met Ykj = - Yjk en Yjj = O, de parameterwaarden, geschat volgens het principe der
kleinste kwadraten, gelijk zijn aan

waaruit volgt dat de geschatte toevalsfout gehjk is aan
(A.2d) ê..^ = (Pijk - Vff + vik) - ^jk

(A.5) 2 2 2 p^,.,.. = 22 2 +«22 y^,.,. + m 2 2 f^.^
i j < k "" i i < k "" i / '' i < k '''

of we zien dat de totale som der kwadraten kan worden opgedeeld in (1) de som der
gekwadrateerde toevalsfouten, (2) m sommen van kwadraten (i = 7, ..., m) die voort-
vloeien uit de variabiliteit in geschatte utiliteitswaarden van de stimuli, en (3) de som der
gekwadrateerde systematische fouten.

Wanneer we verder veronderstellen dat de x = m (p fouten zich onafhankelijk
multivariaat normaal verdelen, nl. E^N^ (O, ah, dan kunnen hieruit verschillende
onafhankelijke F-toetsen worden afgeleid met betrel^ing tot verschillende hypothesen.

De nulhypothese voor subject (of groep) i
(A.6) //<'•):„,.,=.,., =.....= = O

komt neer op de aanname dat i onverschillig is voor de stimuli. Ze kan voor elk subject
(groep) afzonderlijk of voor alle subjecten (of groepen) tesamen getoetst worden:

De nulhypothese stelt dat alle stimulusparen perfect schaalbaar zijn; of m.a.w. dat er zich
geen systematische fouten, zoals responstendenzen, voordoen:

De toetsing der hypothesen kan best worden samengevat in een ANOVA-tabel zoals
weergegeven in tabel A.1.

De opdeling van de totale variabiliteit in de aangegeven componenten laat ook toe ver-
schillende andere indices te berekenen:

De interne betrouwbaarheid (i?^) der voorkeuroordelen wordt verkregen door de vier-
kantswortel te nemen van de verhouding tussen de ware en de totale variantie. Zelfs bij
hoge betrouwbaarheid kunnen de schaalwaarden weinig valied zijn. Dit zou het geval zijn
wanneer er veel systematische fouten voorkomen. De mate waarin dit het geval is wordt
nagegaan door de correlatie te berekenen tussen = vq - enerzijds en p^j^. ander-
zijds (;?„).

Een ordinale maat voor de validiteit van het utiliteitsmodel wordt verkregen door na te
gaan of de geobserveerde voorkeursterktes voldoen aan de transitiviteitsvoorwaarden.
Wanneer de geschatte schaalwaarden in volgorde van grootte worden genomen: y,-] > ü,-2

>.....> Vin, en wanneer p/y^ = Hij - vi^, dan volgt hieruit dat Pij^ > O voor ƒ < k.

Wanneer dan Pjji^ < O, vormt dit een inbreuk tegen de zwakke transitiviteit of schaaltran-
sitivite'it. Vanuit de rangorde der schaalwaarden kunnen we echter sterkere eisen opleggen
aan de geobserveerde data:

Inbreuken van de geobserveerde p-indices tegênover deze rangorde worden aangeduid als
inbreuken tegen de sterke transitiviteit. Om een valide schaal te bekomen neemt men als
minimale eis dat er slechts weinig inbreuken tegen de zwakke transitiviteit mogen voorko-
men.

Dit model -stelt dat de voorkeuruitspraken van een subject (of groep) gemedieerd worden
door het gebruik van een aantal keuzecriteria. Een stimulus zou des te meer verkozen
worden naargelang hij meer aan het keuzecriterium voldoet en naargelang het subject (of
groep) meer belang hecht aan dit criterium. In een geometrische modelformulering komt
dit er op neer dat subjecten (of groepen) én stimuli als vectoren in een EucUdische ruimte

kunnen worden voorgesteld. De dimensionaliteit van de ruimte wordt bepaald door het
aantal keuzecriteria en de voorkeur van een subject (of groep) voor een stimulus is gelijk
aan het scalair product van de desbetreffende vectoren.

Aan de hand van het lineair utihteitsmodel worden uit de voorkeursterktes Pij^ de
voorkeurschaalwaarden afgeleid. Bij een externe analyse neemt men nu aan dat men a
priori kan bepalen welke de gebruikte voorkeurcriteria zijn, en welke de posities zijn van
de stimuh ten overstaan van deze criteria. Deze onderstellingen kunnen vastgelegd worden
in een stimulusconfiguratie B. Gegeven de utiliteiten en de stimulusconfiguratie
wensen we een matrix met suojectprojecties (A) te bepalen zodanig dat

Uit (A.9) blijkt dat het scalair productmodel een lineair submodel is van het meer omvat-
tend lineair utiliteitsmodel. DU impliceert dat we de totale som der kwadraten in (A.5)
verder kunnen uitsplitsen om zodoende een toetsing te verrichten met betrekking tot dit
submodel. De uitsplitsing gebeurt m.b.t. de tweede term in (A.5). We kunnen deze term
als volgt herschrijven:

Vandaar dat de foutenterm voor de toetsing van het scalair productmodel, of m.a.w. voor
de toetsing van de hypothese''

Gezien (A.la) heftien we te doen met m{n-\) lineair onafhankelijke vergelijkingen in mt
onbekenden, waarbij t gelijk is aan het aantal keuzecriteria of dimensies. Als r = « -1 legt
het model geen restricties op aan F. Als r < a2 - 1 wordt het aantal hneair onafhankelijke
restricties die worden opgelegd gelijk aan m(n-l-r). Dit is m.a.w. gelijk aan het aantal
subjectgewichten die (a priori) gehjk gesteld worden aan nul in de matrix^ van de orde m
X («-1). Op die manier verkrijgen we het aantal vrijheidsgraden voor de toetsing van het
submodel. Deze toetsing wordt uitgevoerd door de verhouding te nemen van de twee
gemiddelde kwadratentermen.

Benevens de toetsing van het scalair productmodel is het ook mogehjk zowel a priori als a
posteriori toetsingen uit te voeren met betrekking tot de gelijkheid van de gewichten van
verschillende subjecten (of groepen) op eenzelfde dimensie of van eenzelfde subject (of
groep) op verschillende dimensies. Voor een overzicht hiervan verwijzen we naar Bechtel
(1976).

Wanneer men aan de hand van de voorkeurschaalwaarden in matrix F zowel de projecties
van de stimuli als van de subjecten op de voorkeurdimensies wil afleiden, dan heeft men
te doen met een interne analyse. Deze komt neer op een Eckart-Young decompositie van
de matrix V. Wanneer r dimensies worden weerhouden in de oplossing is de foutenterm
^ I

gelijk aan « £ ^ waarbij \ = de z-de eigenwaarde van FV; en / = de rang van F'K. Een

toetsing van het scalair productmodel is dan echter onmogehjk omdat het bij de gelijk-
tijdige schatting van subject- en stimulusparameters niet als een lineair model kan worden
aangezien.

Carroll, J.D. Individual differences and multidimensional scaling. In R.N. Shepard, A.K. Romney and
S.B. Nerlove (eds.), Multidimensional scaling: theory and applications in the behavioral sciences.
Vol. 1. New York: Seminar Press, 1972.

Jacobs, R. Motieven bij de studiekeuze psychologie en pedagogische wetenschappen: een replicatie-
onderzoek bij eerstejaars in het academiejaar 1976-77. Niet-gcpubliceerde licentiaatsverhandeling
K.U. Leuven, 1978.

Janssen, P.J. Tussen studiekeuze en studieresultaat; psychologisch onderzoek van componenten in het
studeergedrag van eerstejaars in onze faculteit. Leuvens Bulletin - L.A.P.P., 1978, 27, 15-27 en
52-67.

Valkeneers, G. Motieven in de studiekeuze psychologie en pedagogische wetenschappen; een explora-
tief onderzoek bij eerstejaars. Niet-gepubliceerde licentiaatsverhandeling K.U. Leuven, 1974.

Verhelst, N. and Vander Steene, G. A Gulliksen item-analysis program. Behav. Science, 1972, 17,
491-493.

7. De dubbele subscripten wijzen erop dat het gaat om de fouten tegen het submodel, dit in tegenstel-
hng tot Cyfc, waar het drievoudige subscript verwijst naar fouten tegen het algemeen hneair utihteits-
model.

The 'Eindtoets' is an achievement testing program which is widely used in the transition from
primary to secondary education. A review of the available Hterature indicates that the predic-
tive validity of the test in this context is reasonable. In the most recent study we found
multiple correlations between two subscales of the test and several school success criteria
ranging from .13 to .70.

Voor de toelating tot het vwo, havo of mavo is naast het advies van liet hoofd der
afleverende basisschool een onderzoek naar de schoolgeschiktheid vereist. Voor dit 'on-
derzoek' kan men uit de volgende vier middelen kiezen: een schoolvorderingentoets, een
psychologisch onderzoek, een proefklas of een toelajingsexamen. Momenteel is de school-
vorderingentoets het meest gebruikte 2e middel. Naast een groot aantal regionale toetsen
is er de Eindtoets Basisonderwijs van het Cito, waaraan per jaar een kleine 100.000
leerlingen deelnemen.

Uiteraard is de voorspellende waarde van de informatie die bij de toelating gebruikt wordt
van het grootste belang.

Het valt daarom te betreuren dat in Nederland zo weinig is gepubliceerd over de predic-
tieve validiteit van m.n. de schoolvorderingen toetsen. Dit artikel beoogt een inventarisa-
tie te geven van wat er bekend is over de predictieve validiteit van de Eindtoets Basis-
onderwijs.

De Eindtoets Basisonderwijs wordt afgenomen door de leerkrachten van het basisonder-
wijs op drie ochtenden in februari/maart. De toets bestaat uit de onderdelen taalgebruik
(2 subtoetsen), begrijpend lezen (2 subtoetsen), spelling (1 subtoets), rekenen (3 sub-
toetsen) en algemene kennis (1 subtoets). De toetsinhoud wordt ieder jaar geheel her-
nieuwd.

In de rapportage is sinds het ontstaan van de toets het een en ander veranderd. Momenteel
zijn er drie soorten rapporten: leerlingstrookjes voor iedere deelnemende leerling en

1. Huidig adres: Instituut voor Onderwijskunde, Westerhaven 16, 9718 AW Groningen.

school- en evaluatierapporten voor iedere deelnemende school. Laatstgenoemde wordt op
aanvraag geleverd.

Het aantal goed gemaakte opgaven voor elk bovengenoemd onderdeel, regionale percen-
tielscores per onderdeel en z.g. standaardscores voor drie onderdelen t.w. 'totaal taal',
'rekenen' en 'tot. taal en rekenen'.

De standaardscores zijn gebaseerd op het aantal goed gemaakte opgaven, omgerekend naar
een in 1976 ingevoerde standaardschaal die loopt van 501 tot 550. Voor nadere details
over de gevolgde 'equating'-procedures menen we te kunnen volstaan met een verwijzing
naar de handleiding van de Eindtoets Basisonderwijs.

Terwijl school- en evaluatierapporten bestemd zijn voor evaluatieve doeleinden, functio-
neert het leerhngrapport in de toelating tot het voortgezet onderwijs.
Hoe de scores gebruikt worden is een zaak van de toelatingscommissies. Het Cito brengt
geen adviezen uit, maar laat het vertalen van de toetsresuhaten naar schoolgeschiktheid
over aan de gebruikers.

De oudste studie houdt zich bezig met de predictieve vahditeit van de 1967 versie. De
studie werd uitgevoerd door Bossers en Bronkhorst (1970). Zij berekenden voor een
a-selecte steekproef van ongeveer 800 leerhngen uit de deelnemers aan de Eindtoets
Basisonderwijs 1967¹, uitgesphtst naar 4 schooltypen correlaties tussen de toetsscores
totaal rekenen, totaal taal en totaal rekenen + taal en een diehotoom schoolsucces crite-
rium, t.w. slagen-zakken na één jaar onderwijs in het v.o. De gevonden correlaties lagen
tussen de .14 en de .29. De auteurs concluderen hieruit dat de schooltoets 1967 'voorspel-
lende waarde' bezat. Hieraan kan men toevoegen dat deze echter wel teleurstellend laag
was. Een en ander kan het gevolg zijn geweest van de informele constructieprocedures die
bij de vroegere versies van de Eindtoets gangbaar waren. Het feit dat het hier ging om
punt-biserièie correlaties bij tamelijk scheef verdeelde criterium variabelen speelt ook een
rol.

Een tweede studie (van Bockel, 1971) betrof een kleine steekproef van 86 mavo leerlin-
gen afkomstig van drie mavo-scholen uit Haarlem. Voor deze groep werden correlaties
berekend tussen de subtoetsen van de 1969 versie en schoolcijfers verzameld aan het eind
van het Ie leerjaar. De correlaties waren eveneens positief en tamelijk laag, t.w. .18 tot
.41.

Jansen vond in een scholengemeenschap voor havo/vwo vahdatie coëfficiënten die varieer-
den van .20 tot .56 (Jansen, 1973). Het betrof hier de 1972 versie van de Eindtoets. Als
criteria werden o.a. gebruikt schoolcijfers verzameld in het Ie leeqaar. In 1973 werd door
het Cito een wat grootschahger validiteitsonderzoek opgezet (Jansen, 1977). Aan dit on-
derzoek namen 12 mavo- en 21 lbo-scholen uit de agglomoratie Arnhem deel.
Bij beide groepen scholen werden voor twee achtereenvolgende lichtingen van brugklas-
leerhngen scores op de Emdtoets (1972 resp. 1973 versies) en brugklas resultaten ver-
zameld, waaronder rapportcijfers voor de algemeen vormende vakken, exclusief de expres-
sievakken. Per school werden o.a. correlaties berekend tussen verschillende toetsonder-

delen en de schoolcijfers. Omdat gegevens over twee jaargroepen beschikbaar waren kon-
den er naast validatie ook kruisvalidatieberekeningen worden verricht. De resultaten zijn
elders uitvoeriger gepubliceerd (Jansen, 1977). Wij beperken ons hier tot het volgende: De
onderdelen van de toets vertoonden 'overall' een duidelijke positieve relatie met de
schoolcijfers. De hoogste correlaties vonden we tussen scores op onderdelen van de toets
en cijfers voor vakken die inhoudelijk verwant zijn, zoals het onderdeel totaal taal van de
toets en het vak Nederlands (mediane correlaties van .53 in 1972 en .50 in 1973 bij het
mavo en .45 in 1972 en .47 in 1973 bij het lbo), en het onderdeel rekenen en het vak
wiskunde (.40 en .50 resp. .51 en .58).

De coëfficiënten vertoonden grote schommelingen over de scholen, mede vanwege het
vaak kleine aantal observaties per school. De hoogste waarden vonden we bij lbo-scholen.

4. Recent onderzoek naar de predictieve validiteit van de Eindtoets Basisonderwijs

Het onderzoek strekt zich uit over alle scholen voor lbo, mavo, havo en vwo uit de
gemeente Breda, uitgezonderd één categorale vwo-school. De proefgroep bestond uit
leerhngen die tot deze scholen waren toegelaten voor het cursusjaar 1977-1978 en waar-
van toetsresultaten en schoolsuccesgegcvens voorhanden waren.

De proefgroep bevat zowel leerlingen afkomstig van g.l.o.-scholen uit de gemeente Breda
als leerhngen die in gemeenten buiten Breda op de lagere school hebben gezeten.

De te voorspellen variabelen werden gekozen in overleg met een commissie van onderwijs-
vertegenwoordigers te Breda. De keuze viel op de cijfers behaald op het kerstrapport 1977
voor een 4-tal vakcombinaties: talenvakken, zaakvakken, exacte vakken, alle a.v.o.-vak-
ken. De gekozen criterium variabelen zijn uiteraard niet geheel vergelijkbaar over de
schooltypen. Enerzijds omdat de cijfers niet op één schaal liggen (een 'lbo-zes' is géén
'mavo-zes'), anderzijds omdat de vakken waarvoor de cijfers worden gegeven, wat betreft
inhoud en niveau verschillen.

Als predictoren werden de standaardscores voor de onderdelen 'totaal taal' en 'rekenen'
van de Eindtoets Basisonderwijs 1977 gebruikt. Het toetsonderdeel 'algemene kennis'
bleef buiten beschouwing.

Aan het onderzoek namen in totaal 2261 leerhngen deel. Het aantal scholen bedroeg 23.
Deze werden ingedeeld in vier categorieën, scholen voor lager beroepsonderwijs (lbo),
scholen voor middelbaar algemeen voortgezet onderwijs (mavo), scholengemeenschappen
met een mavo element (mavo/havo/vwo) en scholengemeenschappen zonder mavo ele-
ment (havo/vwo).

De navolgende tabel geeft een indruk van de niveau verschillen, uitgedrukt in toetsscores,
tussen de leerlingen van de vier schooltypen. Deze verschillen blijken aanzienlijk. Bij de
scholengemeenschappen voor havo en v.w.o. nadert het gemiddelde het eind van de
schaal. Dientengevolge is ook de spreiding klein. Met andere woorden: bij de schooltypen
vanaf het mavo is sprake van een hoge mate van 'restriction of range' bij de predictoren.
Tabel 2, 3 en 4 bevatten de multiple correlaties tussen de predictoren en de vier school-
succescriteria per schooltype en per school. Zoals men in de tabellen kan zien, bhjken de
coëfficiënten zonder uitzondering positieve, matig hoge waarden te bereiken (.13 tot .70
met meer dan 50% hoger dan .40). Merkwaardigerwijze vinden we de laagste coëfficiënten
in de mavo-groep, de hoogste bij de lbo-groep en de scholengemeenschappen voor havo/
vwo. Enige uitschieters daargelaten zien we ook dat de coëfficiënten bij de verschillende
criteria nagenoeg dezelfde waarden hebben.

Bij de scholengemeenschappen zien we dat de correlaties berekend na 'pooling' over de
scholen wat gezakt zijn vergeleken met die berekend per school. Dit is vermoedehjk een
gevolg van het verschil in niveau op de predictoren van de havo/vwo scholen, vergeleken
met de mavo/havo/vwo scholen.

De Eindtoets Basisonderwijs blijkt een zekere voorspellende waarde te hebben. Dit geldt
in ieder geval voor de meest recente versies. Of zij beter of slechter voorspelt dan andere
in gebruik zijnde schoolvorderingen toetsen (zie b.v.: Bos, 1974; Groen, 1967 en Lutje
Spelberg & Rotteveel, 1978) is moeihjk uit te maken. In de genoemde onderzoeken
werden b.v. andere criteria voor schoolsucces gehanteerd. Eveneens is het de vraag of en
zo ja, m hoeverre de proefgroepen vergelijkbaar zijn.

Besluit VWO/HAVO/MAVO. Koninkli/k Besluit 22 juü 1965.
Bockel, C. van. Het Haarlems Brugklas onderzoek. Amsterdam: RITP, 1971.
Bos, D.J. Schoolkeuze adviezen, een resultaten controle na 5 jaar. Den Haag, Mouton, 1974.
Bossers, A. en Bronkhorst, H. De Amsterdamse Schooltoetsaftiame 1967; Verslag van een onderzoek
naar de predictieve validiteit. Amsterdam: Kohnstamm Instituut, 1970.

CITO-publicatie nr. 53. Eindtoets Basisonderwijs 1978: Handleiding. Arnhem: CITO, 1977.

Lutje Spelberg, H.C. & H.J. Rotteveel. De voorspellende waarde van de Groninger Schoolvorderingen-
toets. Tijdschrift voor Onderwijsresearch, 1978, /, 3-9.

Jansen, G.G.H. De predictieve validiteit van de schooltoets voor een school voor havo/vwo. CITO-
memo nr. 76. Arnhem: CITO, 1973.

Jansen, G.G.H. An Application of Bayesian Statistical Methods to a Problem in Educational Measure-
ment. Arnhem: CITO, 1977.

Piagetiaanse opvattingen over de cognitieve ontwikkeUng en de consequenties daarvan voor het onder-
wijs werden reeds in de dertiger jaren door de Sovjetpsycholoog Vygotskij bekritiseerd. Onafhankelijk
van Vygotskij formuleerde Kohnstamm sr. in Nederland gelijkluidende gedachten over de stimulerende
invloed die het onderwijs kan hebben op de cognitieve ontwikkeUng. Deze gedachte fungeerde als uit-
gangspunt voor dit boek. In het eerste deel worden de opvattingen van Russische ontwikkehngs- en
onderwijspsychologen geplaatst naast die van Kohnstamm sr.. Als naSer uitwerking hiervan worden de
ideeën van Davydov over de invloed van met name het rekenonderwijs op de cognitieve ontwikkeling
beschreven. Afgesloten wordt met een onderzoeksverslag dat betrekking heeft op het redactierekenen.
Dit boek sluit aan bij de tendensen in de onderwijsvernieuwing in Nederland enerzijds door een her-
waardering van het didactisch werk van Kohnstamm sr., anderzijds door de betekenis aan te geven van
Russische theorieën voor het Nederlandse onderwijssysteem.

180 pagina's, ing. ƒ 20,-. Te bestellen door overmaking van ƒ20,- op gironr. 2353982
t.n.v. M. Wolters, Utrecht.

Reaktie op K. van der Drift, De doelmatigheid van Computer-Ondersteund onderwijs, in
tor, 1979,2,49-61.

Het artikel van Van der Drift zet de lezer die geïnteresseerd is m meer dan alleen maar
zogenaamde harde cijfers voor een forse puzzel. Deze lezer verwacht immers dat de
schrijver inzicht zal geven in de doehnatigheid in de normale betekenis van het woord (=
geschiktheid voor het doel). Het artikel heeft echter zoals de schrijver op p. 50 stelt aUeen
betrekking op het bedrijfseconomische begrip doelmatigheid en dan nog slechts in de enge
zm van kosteneffektiviteit. Voor niet bij 'computer-ondersteund onderwijs' betrokkenen
zal het niet direct duidehjk zijn wat het problematische van dit artikel is. Zij zullen al snel
bereid zijn zich door de relatief lage kosten van bepaalde voorstehen te laten overtuigen.
Ik zal proberen het probleem te verduidehjken met een vergehjking.

Een konsumentenorganisatie vergelijkt de trein, de bus en de autoped en komt
daarbij tot de konklusie dat de kosten per 'vervoersuur' voor de autoped het laagst
zijn, daarna komt de bus en het duurst is de trein.

Een dergelijke kostenvergelijking is niet erg doehnatig. Het belangrijkste aspekt, de bruik-
baarheid voor het doel, dat bij een doehnatigheidsanalyse toch voorop moet staan, ont-
breekt volledig.

De doelmatigheidsanalyse van Van der Drift is iets soortgehjks. De kosten worden herleid
tot een gemiddelde per student-kontaktuur, terwijl er voor de baten van uitgegaan wordt
dat de effektiviteit van CAI/CM 1 vooralsnog niet overtuigend groter is dan die van andere
'onderwijsvormen'.

Dergehjke simplifikaties ontnemen aUe zin aan de analyse. Er is een overvloed van onder-
zoek waarin aangetoond wordt dat een bepaalde CAl/CMI-toepassing veel effektiever is
dan een andere reahsatie voor hetzelfde stuk onderwijs, terwijl tegengestelde bevmdingen
nagenoeg afwezig zijn. Een onderwijskundige zal echter uiterst voorzichtig zijn met ge-
nerahsaties, immers de effektiviteit is sterk afhankelijk van de specifieke toepassing. Leer-
stof, doelgroep, strategie, 'kwahteit' van de vergeleken programma's en efficientie van de
gebruikte media zijn allemaal faktoren die de effektiviteit van een bepaalde toepassing
mede bepalen.

Aan de kostenkant zijn de problemen niet minder groot. Het is algemeen bekend (d.w.z.
een ervarmgsfeit) dat op kleine CAI-systemen veel toepassingen niet gereahseerd kunnen
worden of niet op dezelfde wijze als op grote systemen. CMI bijvoorbeeld is praktisch
uitgesloten op stand-alone computers. Wat op kleine systemen wel gerealiseerd kan wor-
den gaat doorgaans ten koste van een aanzienhjk grotere investermg in ontwikkeltijd.

(Van der Drift stelt dat uit de literatuur niet is gebleken dat de omvang van o.a. de
kosten-veroorzakende faktor ontwikkeling van cursusmateriaal systeem-afhankelijk is. Er
is mij ook geen literatuur dienaangaande bekend. Logisch, het is immers zinloos om
kosten naast elkaar te zetten die op zeer verschillende toepassingsmogelijkheden betrek-
king hebben. Mijn ervaring is dat voorzover toepassingen vergelijkbaar zijn de benodigde
tijd voor ontwikkeling, inklusief programmering, sterk systeemafhankeUjk is.) Daarbij
komt dan nog de belangrijke doehnatigheidsoverweging dat overname of 'sharing' van
lessen en gezamenlijke ontwikkeUng bij gedecentraliseerde (kleine) systemen veel moei-
lijker te reahseren is, zowel met betrekking tot de motivatie als de kosten.
Als men bereid is om aan de bezwaren tegen deze analyse voorbij te gaan, kan men de
konklusie ondersteunen. Computer-ondersteund ondenvijs kan uit kosten/effektiviteits-
overwegingen nu al toegepast worden mits voldoende grote groepen studenten kunnen
worden gevormd. Op grond hiervan kan het artikel dan toch enige relevantie worden
toegekend, tenminste als men behoefte heeft aan een dergeUjke konklusie. Van der Drift
stelt in zijn inleiding dat die behoefte er is, op puur bedrijfseconomische gronden. Een
dergeUjke beschouwing lijkt mij meer geschikt voor een tijdschrift voor managers dan
voor TOR. Over de voor TOR veel belangrijker behoefte aan dergehjke toepassingen op
onderwijskundige gronden, als aanvullend, verdiepend etc. medium in plaats van docent-
vervangend, wordt niet gerept (daarvoor zijn de genoemde generahsaties dan ook onmoge-
lijk).

Tenslotte nog een ernstige waarschuwing voor lezers die wel geïnteresseerd zijn in de
harde cijfers en die zouden willen hanteren bij de keuze van facihteiten. De gehanteerde
cijfers zijn niet meer dan indikaties. Ze worden voor een belangrijk deel nog beïnvloed
door de toepassing, bijvoorbeeld de CPU-tijd bij uitvoering is veel hoger voor een simula-
tie dan voor een eenvoudige drUl, waardoor in het algemeen de responstijd aanzienhjk
groter zal zijn en daardoor de benodigde 'Ibg-on-tijd' (kontakttijd). Ze zijn verder aan
sterke schommehngen onderhevig, terwijl de gekozen voorbeelden volstrekt willekeurig
zijn. Ik geef hier een vergeUjking van de kosten per kontaktuur, benaderd afgelezen uit
figuur 2b, met een recente berekening van dezelfde auteur (In: Voorzieningen voor Com-
puterondersteuning van het Tertiair Onderwijs. Tüburg: Vereniging voor Onderwijs en
Computer, juh 1979 (ter perse)).

- een ernstige waarschuwing voor het hanteren van de kostencijfers bij de keuze tussen
systemen.

Aangezien het derde onderwerp het interessantste is, wil ik daarmee begmnen.
Wie zo nu en dan dagbladen leest, zal het niet ontgaan zijn dat de mstellmgen van
wetenschappelijk onderwijs de komende jaren geconfronteerd worden met een groei van
20 è 30% in de onderwijsvraag (hierbij zie ik maar even af van de tweefasenstructuur) en
met een gehjkbhjvend totaal aan fmanciêle middelen. Die constatering hnpliceert dat óf
het onderwijs doehnatiger zal moeten worden óf het onderzoeksbudget besnoeid wordt.
Aangezien het de TOR-lezers zijn, die aan universitaire mstanties en docenten adviseren
bij onderwijsveranderingen, kunnen juist zij niet bhnd zijn voor de kostenzijde van hun
adviezen. Wie de doelmatigheidsaspecten van onderwijsverandermgen negeert, laveert zijn
'cliënten' in financiële/personele problemen en riskeert afbraak van het onderzoek. Dat
dit laatste een reëel gevaar is hebben wij, TOR-lezers, op ons eigen vakgebied kunnen
constateren bij de behandehng van de Rijksbegroting O&W voor het jaar 1979.
Ten aanzien van de drie andere punten kan ik kort zijn. Nadat Van Hees eerst het
doehnatigheidsbegrip een andere betekenis geeft, levert hij op grond van zijn eigen defi-
nitie kritiek op mijn doelmatigheidsanalyse. Inderdaad hebben mijn conclusies geen be-
trekkmg op de 'geschiktheid voor het doel'; dat had de lezer die de moeite heeft willen
nemen om mijn termmologie te hanteren (uitvoerig behandeld m paragraaf 2) ook al
ontdekt. Mijn artikel behandelt hnmers de doehnatigheid (= de kosten gegeven de ge-
schiktheid voor het doel) van CAI vergeleken met andere onderwijsvormen. Daarmee zijn
tegehjk zijn tweede en vierde opmerkmg beantwoord: verschillen m prestaties of m kos-
ten zijn bij een keuze tussen systemen zeker van belang, maar niet in een artikel dat CAI
met andere vormen van onderwijs vergehjkt en wanneer bhjkt dat de alternatieven bij
toepassing op voldoende grote schaal tenderen naar een vergelijkbaar kostenniveau, name-
lijk 6 tot 12 gulden per uur (zie figuur 2 b m mijn artikel of het tabelletje aan het slot van
Van Hees' reactie). Wie overigens na mijn eigen relativerende opmerkmgen ten aanzien
van kosten aan het slot van appendix A nog zou menen, dat dit kostenniveau spijkerhard
en tot in lengte van jaren geldend zou zijn, heeft nu van Van Hees in ieder geval een
ernstige waarschuwing gekregen.

Ten aanzien van de door Van Hees gepresenteerde tabel wil ik nog opmerken, dat de
lijntjes tussen de kolommen volstrekt willekeurig zijn. Deze dienen na elke kolom te
staan, met uitzondermg van de IBM 5110 waarbij sprake is van gelijkwaardige alternatie-
ven. Slechts de kosten van 'P/UvA oud' zijn in mijn artikel onderschat. Zoals op pag. 59
vermeld staat, gmg het däär om een voorlopige berekenmg. De defmitieve bleek hoger uit
te vaUen ten aanzien van de post onderhoud. Bovendien is er bij 'P/UvA nieuw' sprake van

een geheel ander systeem (een Cyber 173-8 i.p.v. een 73-28). Maar dat alles zou Van Hees
toch moeten weten op grond van de hem ter beschikking staande mformatie.

Een sociologisch onderzoek naar de vrije schoolkeuze als legitimatieschema en als sociaal
proces.

Na het proefschrift van Van Kemenade (1968) cn het ITSWO-onderzoek in het christelijk onderwijs
(Flaman e.a., 1974) is de verzuildheid van het Nederlandse onderwijsstelsel en de legitimatie van het
schoolkeuzegedrag geen objekt meer geweest van empirisch onderzoek op landelijke schaal. (Zie voor
enkele beperkte vragen: Sociaal cn Cultureel Rapport 1974; Idem 1976.) Dit onderwerp heeft zijn
aktualiteit echter niet verloren. Er is, met name in d< eerste helft van de zeventiger jaren, een soms
vinnige diskussie gevoerd over de samenwerkingsschool, waarbij het overigens goeddeels aan empirische
gegevens ontbrak. Verder is gesteld, dat een konstruktieve onderwijspolitiek ook aandacht zou moeten
besteden aan vragen omtrent de verhouding tussen overheid cn levensbeschouwelijke groeperingen en
organisaties en hun gebruik van de vrijheid van onderwijs (Wetenschappelijke Raad voor het Regerings-
beleid, 1976; SISWO, 1977). Voor de relatieve stabiüteit van de verzuildheid in het algemeen is door
Van Doorn (1977) en Van Schendelen (1978) naar nieuwe verklaringen gezocht. Op onderwijsterrein
echter is ten aanzien van dit aspekt al met al weinig nieuwe research verricht.

De VQrkorte uitgave van het proefschrift van Billiet, onderwerp van deze bespreking, trok mede daarom
onze aandacht. De ondertitel duidt erop, dat de auteur de vrije schoolkeuze in Belgic vanuit twee
gezichtspunten beziet. Deze beide gezichtspunten zijn terug te vinden in de indeling van het boek. In
de hoofdstukken 1 en 2 wordt nagegaan hoe de betrokkenen in en om het onderwijs de onderwijs-
situatie interpreteren en onderwijsproblemen definiëren. Dit gebeurt door middel van een beschrijving
en analyse van de geschiedenis van de Belgische onderwijspolitiek en de daarbij optredende probleem-
definities. In de hoofdstukken 3 en 4 worden de gevonden legitimatieschemata rond het begrip Vrije
schoolkeuze' getoetst in een onderzoek onder ouders met kinderen in het eerste jaar van het sekundair
onderwijs in Mechelen. Een 'Algemeen Besluit' vormt het laatste hoofdstuk.

In hoofdstuk 1 wordt aan de hand van historisch voorwerk een overzicht gegeven van de onderwijswet-
geving en de ontwikkeling van het vrij (katholiek) en het officieel (openbaar neutraal) onderwijs van
1830 tot en met de pacificatie door middel van het Schoolpact in 1958. Aan de hand van een
uitvoerige analyse van primaire bronnen wordt vervolgens in hoofdstuk 2 weergegeven welke nieuwe
probleemdefmities na 1958 opkomen, hoe de konflikten worden opgelost en welke procedures, poli-
tieke middelen en legitimaties daarbij worden gebruikt.

Dit eerste deel van het boek is ccn gedegen exempel van historisch-sociologische analyse. Aangetoond
wordt dat 'vrije schoolkeuze' tegeUjkertijd een legitimatie vormt zowel voor die groeperingen, die de
handhaving van de bestaande schoolnetten' nastreven, als van degenen, die andere oplossingen als de
'pluralistische school' voorstaan. Op tal van punten dringt zich bij lezing een vergehjking op met de
Nederlandse situatie. Ook hier onttrekt de besluitvorming omtrent die aspekten van het nationale
onderwijsbeleid, die betrekking hebben op de 'richtingen', zich enigszins aan de parlementaire kon-
trole. De grotere niet-konfessionele partijen moeten op het onderhavige terrein hun streven temperen

1. Schoohiet: de scholen en onderwijsorganisaties behorend tot een bepaalde 'zuil'.

om andere idealen met hun konfessionele regeringspartner nog te kunnen realiseren. Twee opmerkin-
gen bij dit deel van het boek. De deelnamecijfers met betrekking tot het onderwijs zijn in een
afzonderlijke 'excursus' ondergebracht. Het was meer in overeenstemming geweest met het analyse-
model deze te gebruiken in de historisch-sociologische beschrijving zelf. (Vgl. Thurlings, 1977) Een
verklarende lijst van de vele afkortingen van namen van organisaties zou de Nederlandse lezer van nut
zijn geweest.

In het tweede deel van zijn boek wil BiUiet onderzoeken hoe de vrije schoolkeuze in de praktijk in zijn
werk gaat. In het conceptueel model in hoofdstuk 3 worden de referentiekaders onderscheiden, die bij
het keuzeproces voor een school in een van de schoolnetten een rol spelen, alsmede de vermoede
relaties daartussen. Billiet komt tot een beargumenteerde keuze voor de volgende vier referentiekaders:
kerkelijke integratie, verzuiüngsgraad, sociaal nivo en schoolnet van dc ouders. Bij Verzuiüngsgraad'
wordt vooral de nadruk gelegd op de patronen van primaire en sekundaire relaties van de gezinsleden.
Naast deze vier strukturele referentiekaders onderscheidt Bilüet als kultureel referentiekader Verschil-
len in levensstijl tussen ouders naar schoolnet'. De resultaten van het onderzoek onder de Mechelse
ouders worden gerapporteerd in hoofdstuk 4.

Zowel via klassieke elaboratie als via padanalyse bhjkt dat kerkehjke integratie en verzuilingsgraad
beide de schoolnetkeuze het meest bepalen. Het schoolnet van de ouders is minder bepalend en het
sociaal nivo heeft de minste direkte mvloed. Enkele verschillen m levensstijl worden als additioneel
gegeven geanalyseerd.

De bevindingen leiden tot de konklusie m het slothoofdstuk, dat bij de school(net)keuze expUciet-
levensbeschouweUjke motieven bij lange na niet de plaats innemen, die de politiek gehanteerde legiti-
maties suggereren. Ouders, kerks en onkerks, blijven in aanzicnhjke mate kiezen voor katholiek onder-
wijs, omdat dit in sfeer, opvoedingsstijl en disciplinaire aanpak aan hun verwachtingen beantwoordt;
het heeft over het algemeen een hogere status. Bilüet laat het ideologisch gehalte zien van de politieke
legitimaties.

Men mag uiteraard niet verwachten, dat de resultaten van BiUiets onderzoek zonder meer overdraag-
baar zijn naai de Nederlandse situatie. Wel zijn tal van conceptuele en methodologische elementen te
beschouwen als een verrijking van het onderzoek naar de institutionele ordening van het onderwijs.
Ofschoon aanzetten ertoe aanwezig zijn, moet een historisch-sociologische studie van de Nederlandse
naoorlogse onderwijspolitiek ten aanzien van de verzuilde institutionele ordening nog geschreven wor-
den. BiUiets studie kan daarbij ten voorbeeld gesteld worden.

Fakultair Instituut Alg. Onderwijskunde voor de
Lerarenopleiding, K. U. Nijmegen

Doom, J.A.A. van. De beheersbaarheid van de verzorgingsmaatschappij. Beleid en maatschappij, 1977,
4, 115-128.

Flaman, D.J., J. de Jonge & T. Westra. Waarom naar de christelijke school? Een toegepast sociaal-
wetenschappelijk onderzoek naar de motivatie voor het protestant christelijk onderwijs, ITSWO
Amsterdam, 1974.

Schendelen, M.P.C.M. van. VerzuUmg en restauratie in de Nederlandse pohtiek. Beleid en maatschap-
pij, 1978, 5, 42-54 en 76.

Thurüngs, J.M.G. De wetenschap der samenleving. Een drieluik van de sociologie. Alphen aan den
Rijn, 1977.

Wetenschappelijke raad voor het regeringsbeleid. Commentaar op de nota Contuouren van een toe-
komstig onderwijsbestel. Den Haag, 1976.

Het project Onderwijs en Sociaal Milieu. Een bundel artikelen opgedragen aan Dr. Jan
Grandia bij zijn afscheid als projectleider.
Tilburg: Zwijsen, 1978, 336 pp.

Dc bundel geeft een overzicht van de achtergronden en de stand van zaken van het omvangrijke project
Onderwijs cn Sociaal Milieu (O.S.M.) tc Rotterdam. Via dit afscheidscadeau aan Grandia, initiator en
leider van hot project cn tevens medeauteur, wil men het wetenschappelijk forum en overige geïnteres-
seerden in staat stellen kennis te nemen van de inhoud en de werkwijze van het project O.S.M. om
deze te bediscussiëren. Opgenomen zijn 23 zorgvuldig op elkaar afgestemde bijdragen, voor het over-
grote deel van dc hand van directe medewerkers aan O.S.M. Te zamen verschaffen zij een grondig
inzicht in de gang van zaken.

Verwacht mag worden dat dc bundel niet alleen van nut zal zijn voor O.S.M. zelf, maar ook een
belangrijk referentiepunt zal vormen bij de eventuele opzet en subsidiering van soortgelijke projecten
in de toekomst. Men doet in O.S.M. ervaring op met de ontwikkeling en invoering van een groot aantal
onderwijs- cn andere beïnvlocdingsprogramma's, in dit geval ter verbetering van de positie van kinde-
ren uit zogeheten kansarme milieus. Samenwerking is noodzakelijk tussen een groot aantal personen;
directe medewerkers, leerkrachten, kleuterleidsters, schoolbegeleiders, ouders, vertegenwoordigers van
subsidiërende overheden enz. De daaruit voortvloeiende organisatorische problemen moeten worden
opgelost. Dc auteurs realiseren zich dat de ontwikkeling van dergelijke programma's op zich geen
voldoende grond vormt voor hun definitieve invoering en verspreiding. Zij onderstrepen bij herhahng
de noodzaak van evaluatie via empirisch onderzoek. De definitieve invoering cn verspreiding worden
afliankelijk gesteld van de uitkomsten van een nog te effectueren summatieve evaluatie.
In het eerste hoofdstuk worden de uitgangspunten ten aanzien van de problematiek van sociale
ongelijkheid cn onderwijskansen uiteengezet. Vervolgens schetst Grandia de ontwikkeling van het
project in de jaren 1969-1974. In afwachting van rijkssubsidie werden in 1969 door de gemeente
Rotterdam gelden ter beschikking gesteld om in twee Rotterdamse volkswijken door middel van een
uitgewerkt en uitgetest (lees: geëvalueerd) programma(pakket) de onderwijskansen van leerlingen op
de kleuter- en lagere scholen tc verbeteren. Het uitblijven van rijkssubsidie en een aantal problemen
tussen het project en de directie van de Rotterdamse School Advies Dienst, waarbij het project was
ondergebracht, bemoeilijkten de voortgang. Door de verzelfstandiging van het project aan het begin
van 1974 en door de toekenning van rijkssubsidie via de Commissie Onderwijskundige Experimenten
en de Stichting voor Onderzoek van het Onderwijs met ingang van 1975 werden deze aanvangsmoci-
lijkheden overwonnen. Het aantal medewerkers kon worden uitgebreid tot 54. Hieronder zijn niet
begrepen drie wetenschappelijk adviseurs en vier externe adviseurs, welke laatste in 1977 speciaal zijn
aangetrokken om de opzet van de summatieve evaluatie kritisch te bekijken.

In de volgende hoofdstukken wordt het werkplan uiteengezet om tot het geëvalueerde programma-
pakket te komen, de werkwijze bij de ontwikkehng van nieuwe O.S.M.-pfogramma's, de organisatie-
structuur, planning van dc werkzaamheden en voortgangscontrole en de functie en opzet van de
summatieve evaluatie (enkele aspecten van de summatieve evaluatie worden in latere hoofdstukken
nader uitgewerkt). De rest van het boek is bijna geheel gewijd aan de theoretische uitgangspunten en
stand van zaken met betrekking tot het programmapakket. De beide O.S.M.-kleuterschoolprogramma's
(KWOWED: 'Kleuters willen ook wel eens denken', PROSON: 'Programma sociale ontwikkeling') zijn
de eerste die volgens de ontwikkelingsprincipes van O.S.M. tot stand kwamen. Voor de le klas van de
Lagere school kwam onder de naam 'Lezen, spellen, denken' een aanpassing gereed van de methode
'Zo/Veilig leren lezen' van Caesar (1970). In een vergevorderd stadium zijn de programma's 'Probleem-
gedrag op school', 'Probleemgedrag in het gezin' en 'Kinderontwikkeling en opvoeding', die met
behulp van operante gedragsmodificatie de behandeling en preventie beogen van probleemgedrag,
mede ter ondersteuning van de onderwijsprogramma's. Nog in voorbereiding zijn een taai-lees methode
voor de 2e t/m 6e klas en een methode wiskundig rekenen voor'de le t/m 6e klas. Een bijzondere
plaats nemen de ouderactivcringsprogramma's in, die nauw aansluiten bij de onderwijsprogramma's en
er in bepaalde gevallen ook feitelijk deel van uitmaken.

De auteurs zijn ervan overtuigd dat een speciale aanpak van kinderen uit kansarme milieus noodzake-
lijk is, ook in onderwijskundig opzicht. De reeds ontwikkelde en nog te ontwikkelen programma's
maken duidelijk, dat zij de thans beschikbare en elders in het basisonderwijs toegepaste programma's
niet afdoende achten, ook niet bij een meer intensieve uitvoering door bijvoorbeeld extra leerkrachten.
Met uitzondering van de methode Caesar wordt bovendien een aanpassing van bestaande programma's

aan de specifieke behoeften van leerlingen uit kansarme milieus afgewezen. In dit licht zou men met
name in de hoofdstukken over de kleuterschoolprogramma's cn over hot taal- cn rekenonderwijs meer
gedetailleerd geïnformeerd willen worden over dc vraag op welke konkrete punten verschillen optre-
den met representatieve programma's uit het huidige basisonderwijs en vooral hoe deze verschillen
aansluiten bij dc veronderstelde milicu-spccificke behoeften. Het doet in dit verband wat mager aan,
als bijvoorbeeld ter motivering van de aanpassing van dc methode Caesar nauwelijks meer specifieke
informatie wordt gegeven dan: ' "Zo/Vcilig leren lezen" kan op deze punten zeker nog enige aanvul-
ling gebruiken: dc Iccrstofomschrijving laat soms tc wensen over, evaluatie- cn tcrugkoppelingsmoge-
lijkhcdcn zijn niet expliciet ingebouwd' (p. 208).

Hen en ander heeft ook consequenties voor de formatieve cn summatievc evaluatie. Het lijkt niet
voldoende om aan tc tonen dat de nieuwe onderwijsprogramma's effect hebben, ook niet in vergehj-
king met andere bestaande programma's. Vanuit dc O.S.M.-opvattingcn zou men in ccn onderzoeks-
opzet waarbij verschillende programma's aan groepen kinderen uit verschillende milieus worden aange-
boden, naast ccn eventueel hoofd-effcct tevens een interactie-cffect verwachten: de kinderen uit het
kansarme milieu zouden extra profijt moeten hebben van het speciaal voor hen ontwikkelde program-
ma. Voortredenerend vanuit dc O.S.M.-doelstelling om tot ccn eerlijker verdeling in het gebruik en
profijt van onderwijsvoorzieningen te komen, lijkt zo'n intcractie-cffcct zelfs essentieel. Het zal im-
mers in een samenleving als de onze moeilijk zijn tegen tc gaan, dat de betere programma's eveneens
door de meer bevoorrechte milieus worden gebruikt. In ieder geval zou in een daarop afgestemde
onderzoeksopzet moeten worden aangetoond, dat het vaak gevonden interactie-effect ten gunste van
het hogere milieu uitblijft voor de O.S.M.-programma's.

Relatief veel aandacht voor milicu-specificke behoeften treft men aan in het hoofdstuk over ouder-
activcringsprogramma's. Hier wordt op overzichtelijke wijze cn aan de hand van recente onderzoeks-
resultaten een aantal concrete redenen opgesomd waarom de effecten van speciale onderwijsinterven-
ticprogramma's op het prcstaticgcdrag van kinderen uitdoven, wanneer er geen .sprake is van begelei-
dende oudcrintcrvcnticprogramma's. Uit onderzoek in de Verenigde Staten blijkt, dat vooral effect is
te vcrwachtcn van een rechtstreekse beïnvloeding van het ouderlijk opvoedingsgedrag, gericht op
ondersteuning door dc ouders van dc schoolactiviteiten van hun kinderen. Opvallend is, dat een
dergelijk cffcct zelfs zou optreden zonder dat dc ouders actief bij het lesgeven worden betrokken.
Geconcludeerd wordt, dat er voor Nederland op dit gebied nauwelijks onderzoeksgegevens voorhanden
zijn. Dit wordt geweten aan het feit dat weinig projecten toekomen aan een systematische evaluatie.
Onduidelijkheden bevat de voorgenomen opzet van de summatievc evaluatie. Hierin wordt geen plaats
ingeruimd voor ccn vergelijking met groepen die andere dan de O.S.M.-programma's krijgen aangebo-
den cn evenmin voor een vergelijking tussen milieu-groepen. Gesteld wordt: 'In feite zal het tc hante-
ren verklaringsmodel de formulering van vergelijkingsgroepen overbodig maken voor het verkrijgen van
dergelijke comparaticvc informatie' (p. 134). Bedoeld is een verklaringsmodel in termen van structu-
rele vergelijkingen, dat in dc econometrie vaak wordt toegepast en onder de naam padanalytisch model
in dc sociologie bekendheid heeft gekregen. Niet duidelijk wordt echter hoe aan de hand van zo'n
model programma-effecten vergelijkenderwijs geschat en getoetst kunnen worden anders dan door de
opname van (exogene) variabelen die onderscheid maken tussen groepen kinderen die het O.S.M.-pro-
gramma wel en (nog) niet gevolgd hebben. Ook wordt niet duidelijk hoe verschillen in effecten tussen
O.S.M.-programma's opgespoord kunnen worden zonder dat het tijdstip van invoering van bepaalde
programma's varieert voor verschillende groepen (scholen?). Terecht wordt gewezen op het vaak ook
vanuit methodologisch oogpunt ongewenste karakter van ingrijpende maatregelen als randomiscring
van leerlingen over programma-condities (bestaan dezelfde bezwaren tegen randomiscring van scho-
len?). Dat neemt echter de noodzaak niet weg om data te verzamelen bij zodanig onderscheiden
groepen, dat vergelijkende informatie met betrekking tot programma-effecten beschikbaar kan komen.
Evenmin als regressie- of variantie-analyse lijkt padanalyse in staat om dergelijke data te genereren.
Aan padanalyse wordt tevens een belangrijke rol toegekend in het kader van de formatieve evaluatie bij
het valideren van lecrstofscquenties. De pijlen van het paddiagram worden daarbij gebruikt om nood-
zakelijke voorwaarden aan te geven: het leerstofonderdeel of thema waar de pijl vertrekt, wordt als
noodzakelijke voorwaarde gezien voor het leerstofonderdeel of thema waar de pijl heenwijst. Padana-
lyse zou antwoord moeten geven op de vraag: 'Zijn er thema's overbodig, in de zin dat ze geen
noodzakelijke voorwaarden vormen voor enig navolgend thema?' (p. 185). Het probleem met de struc-
turele vergelijkingen in een padanalytisch model is echter, dat de onafliankelijke variabelen niet als
noodzakelijke voorwaarden zijn te interpreteren, evenmin trouwens als in een conventionele regressie-
vergelijking. In feite is de rol van de onafhankelijke variabelen uitwisselbaar: een lage waarde op de ene
onafhankelijke variabele kan worden gecompenseerd door een hoge waarde op de andere. De paden van

een padanalytisch gevalideerde leerstofsequentie geven dan ook eerder verschillende mogelijke wegen
aan waarlangs een leerling dc leerstof kan doorlopen om een gewenst eindpunt te bereiken, cn niet de
wegen die alle noodzakelijk gevolgd moeten zijn. Te overwegen valt of Iccrstofscqucntics in deze
laatste betekenis niet adequater gevalideerd worden via het principe van Guttman-ordeningen of door
de daar nauw op aansluitende 'item tree analysis' (Van Leeuwe, 1974).

Tot slot nog een samenvatting van de uitgangspunten die aan het project O.S.M. ten grondslag liggen,
gevolgd door enkele kanttekeningen. Kinderen uit arbeidersmilieus ondervinden meer problemen bij
het volgen van het onderwijs. Zij blijven meer zitten en stromen minder uit naar dc algemene vormen
van secundair onderwijs, hetgeen negatieve gevolgen heeft voor hun persoonlijke ontplooiing en maat-
schappelijke toekomst. De oorzaken zijn vooral de lage prestaties in de instrumentele vaardigheden
(taal en rekenen), die samenhangen met een achterstand in de ontwikkeling van dc representatieve
bekwaamheid (voor de inhoud van dit centrale begrip wordt verwezen naar Piaget, 1962) en met
problemen in de sociaal-emotionele ontwikkeling. Deze dieper liggende oorzaken hangen op hun beurt
samen met het opvoedingsgedrag van de ouders alsmede met het basisonderwijs, dat onder meer te
weinig expliciete aandacht besteedt aan de ontwikkeling van de representatieve bekwaamheid en aan
de sociaal-emotionele ontwikkeling. Het is dc taak van O.S.M. een programmapakket te ontwikkelen
en te evalueren, waarmee in deze causale keten kan worden ingegrepen.

Teleurstellend is dat bij de opstelling van de causale keten in het eerste hoofdstuk geen aandacht is
geschonken aan de in de Sociologische Gids gevoerde discussie tussen enerzijds van Kemenade en
Kropman en anderzijds van Heek en evenmin aan het proefschrift van Peschar en de daarop gevolgde
discussie in TOR. Misschien was dan wat meer nadruk komen liggen op sociaal milieu als determinant
van dc geringe doorstroom onafliankelijk van intelligentie, prestaties en genoten onderwijs. De vaak
kritische hteratuur met betrekking tot doelstellingen en effectiviteit van compcnsaticprogramma's had
meer gewicht kunnen krijgen, als bovendien minder gemakkelijk was heengestapt over de mogelijke rol
van intelligentie bij de tegenvallende prestaties. Voor dc conclusie dat '... weinig te zeggen valt over de
verklaringswaarde van genotypische intelligentie. Zeker niet, dat hij de belangrijkste determinant zou
zijn van het vermeende geringe succes van de compensatieprogramma's' (p. 50) wordt slechts als
argument aangevoerd, dat de schattingen van de erfelijkheidscoëfficient h' sterk variëren (is overigens
de laagste door Jaspers en de Leeuw berekende waarde van .45 gering tc noemen?). Meer aandacht had
men verder verwacht voor kritiek als in het geheel niet genoemde boek van Brands (1973) en voor van
Calcar en het Innovatieproject Amsterdam, waaraan slechts enkele regels worden gewijd. Het project
O.S.M. blijkt sterk gericht op programma-ontwikkeling en -evaluatie en dat was ook de opdracht.
Gezien de bestaande twijfels aan vorm en inhoud van dergelijke programma's zou men zich echter
kunnen voorstellen, dat in de summatieve evaluatie tevens maatregelen buiten dc directe programma-
sfeer werden betrokken om de effecten daarvan met die van de programma's te vergelijken. Te denken
valt bijvoorbeeld aan beïnvloeding van de onderwijzer bij zijn oordeel over de geschiktheid van de
lecrlirtg voor typen voortgezet onderwijs. Een belangrijk resultaat uit het onderzoek van Kropman en
Collaris (1974), waar in Onderwijs en Sociaal Miheu aan voorbijgegaan wordt, is namelijk dat dit
oordeel een zeer belangrijke determinant is voor de uiteindelijke keuze en dat de onderwijzer zich
daarbij bewust of onbewust mede laat leiden door het sociale milieu van de leerling, los van de
prestaties. Te denken valt verder aan positief discriminerende maatregelen als extra leerkrachten, beter
betaalde leerkrachten, betere gebouwen enz. Ondanks tekortkomingen moet overigens worden gecon-
stateerd, dat door O.S.M. in tegenstelling tot veel andere onderwijsprojecten een serieuze poging wordt
gedaan tot evaluatie. Men mag hopen, dat de gedetailleerde verantwoording van programma-ontwikke-
hng en -evaluatie in de toekomst ook door andere projecten zal worden gevolgd.

Brands, J. Kompensatieonderwijs, schooien milieu. Nijmegen: Link, 1.973.
Caesar, F.B. ZolVeilig leren lezen. Tilburg: Zwijsen, 1970.

Kropman, J.A. en Collaris, J.W.M. Van jaar tot jaar. Onderzoek naar de school- en beroepskarrière van
jongens en meisjes die in 1965 het lager onderwijs verlieten. Eerste fase. Nijmegen: Instituut voor
Toegepaste Sociologie, 1974.
Leeuwe, J.F.J. van. Item tree analysis. Nederlands Tijdschrift voor de Psychologie, 1974, 29, 475-484.
Piaget, J. Plays, dreams and imitations in childhood. New York: Norton, 1962.

Structural models of thinking and learning (Proceedings of the 7th IPN-Symposium on
FormaHzed Theories of Thinking and Learning and their Imphcations for Science In-
struction).

Een muziekrecensent moet van Vivaldi eens gezegd hebben dat deze niet 400 verschillende concerten
maar hetzelfde concert 400 maal verschillend geschreven heeft. Deze recensent had natuurlijk ongelijk.
Geheel in de stijl van zijn tijd gebruikte Vivaldi soms een oud tliema voor een nieuwe compositie of
bewerkte hij een stuk dat oorspronkelijk als concerto grosso geschreven was voor een solo-instrument.
Maar altijd is er dan wat nieuws, dat door het onverwachte aan de gehele compositie oorspronkelijke
waarde geeft. En ieder geval is het resultaat een plezier om naar te luisteren! Aan het voorafgaande
moet ik wel eens denken als ik een nieuwe publikatie van Fischer, Spada, Kempf of van een van hun
geestverwanten onder ogen krijg. Hun werk kenmerkt zich door een aantal markante thema's —
stochastische modelvorming, specifieke objectiviteit, conditionele meest aannemelijke schatting, para-
meters voor individuele verschillen, enz. - die zo regelmatig terugkeren dat de trouwe lezer zich soms
niet aan een hcht 'deja vu' kan onttrekken. Net als Vivaldi kan deze auteurs een vlotte pen en een
herkenbare stijl moeilijk ontzegd worden. Maar ook hier valt altijd wat nieuws te ontdekken: een
geraffineerde uitbreiding van een model, een interessante toepassing, een geheel andere interpretatie of
onvermoede theoretische inzichten. En iedere keer is het resultaat een plezier om te lezen!
Dit laatste is zeker het geval voor 'Structural models of thinking and learning' onder redaktie van
Spada en Kempf, dat, hoewel het in feite de proceedings vormt van het 7th IPN-Symposium on
Formalized Theories of Thinking and Learning and their Implications for Science Instruction, zich laat
lezen als een omvangrijke bundel met zelfstandige, afgeronde bijdragen. Wat dit boek zo interessant
maakt is dat het niet alleen bijdragen bevat van Fischer en zijn (oud)medewerkcrs - de 'Wiener Kreis'
van de psychometrie - maar eveneens bijdragen van Suppes over leer- en denkmodellen afkomstig uit
de theorie van de probabilistische automaten en rekenmachines, van Atkinson, Barr, Calfee, Groner en
Vorberg over de analyse van leerprocessen met behulp van de theorie van de Markovketens en van
Scandura, Hilke, Reulecke en Wulfeck over deterministische modellen voor structureel leren. Tussen
de invalshoeken van deze vier scholen bestaan geweldige verschillen en het is instructief om mee te
maken hoe dit tot verschillen in werkwijze en interpretatie leidt. Zo nemen Scandura en zijn medewer-
kers bijvoorbeeld een strikt deterministisch standpunt in, hebben hiervoor hun argumenten en richten
hun experimenten overeenkomstig in, terwijl alle andere auteurs geneigd zijn de waarde van stochasti-
sche modelvorming voor de analyse van leer- en de denkprocessen te onderstrepen. Het is boeiend om
dit boek mede onder het gezichtspunt van deze tegenstelling te lezen.

Aangezien 'Structural models of thinking and learning' uit 16 afzonderlijke bijdragen en een letterlijke
weergave van een discussie tussen de voornaamste symposiumdeelnemers bestaat, kunnen we slechts
een paar woorden aan iedere bijdrage wijden. We kiezen daarbij de volgorde waarin we ze in het boek
aantreffen.

De discussie draagt als titel 'A critical comparison of the models'. Niet iedere paperlezer heeft aan de
discussie deelgenomen, zo mis ik bijvoorbeeld Atkinson. Met name komt dit doordat de europese
deelnemers wel op de hoogte zijn van het werk van de amerikanen (Atkinson, Suppes, Scandura,
Calfee, Barr, e.a.), maar het omgekeerde niet gezegd kan worden. Daardoor ontstaat er te weinig
confrontatie en moet er teveel uitgelegd worden. Onderwerpen die aan de orde komen zijn de bete-
kenis van hogere orde regels (heuristics) voor modelvorming, de tegenstelling all-or-none versus incre-
mental learning, de noodzaak om bij modelvorming met individuele verschillen tussen personen reke-
ning te houden, de gei'dealiseerde condities uit Scandura's deterministische theorie en de toepasbaar-
heid van Markovmodellen. Omdat de discussie kennis van de Symposium bijdragen veronderstelt kan
de lezer dit hoofdstuk uit het boek beter voor het laatste bewaren.

In 'Learning theory for probabilistic automata and register machines, with application to educational
research' geeft Suppes een overzicht van zijn werk op het gebied van de leertheorie van probabilistische
automaten en register machines en laat hij zien dat classificatieproblemen die door een eindige
automaat opgelost kunnen worden afbeeldbaar zijn op een stimulus-response model met 'ja-nee' rein-
forcement. Een en ander wordt geïllustreerd aan de elementaire algoritmen voor het optellen van
getallen.

Barr cn Atkinson geven in hun 'Adaptive instructional strategies' ecn beschrijving van dric projecten op
iiet gebied van geïndividualiseerde instructie, in het eerste werden probabilistische Markovmodellen
gebruikt om de itempresentatie te sequentiërcn, wat tot een aanzienlijke leerwinst leidde. In het
tweede en derde project werden de itemsequenties opgesteld op meer intuïtieve basis. In de bijdrage
van Calfec worden drie klassen van mathematische Icermodellen onderscheiden cn besproken: "mini-
mum-assumptie', proces cn input-factor modellen. Zijn poging om dc parameters uit de Markovmodel-
len met behulp van een soort loghneair model te scheiden in student- en itemparameters wijst op
onbekendheid met het werk van Spada over het logistische automatenmodel.

De twee volgende bijdragen behandelen het gebruik van Markovmodellen bij de analyse van leer-
processen. Groner en Spada geven in hun 'Some Markovian models for structural learning' een heldere
mtroductic tot dit theoretische gebied, terwijl Vorberg in 'Markov learning models for concept identi-
fication' Markovmodellen gebruikt om experimentele gegevens te analyseren die dc hypothese van het
all-or-none learning bij conceptidentificatie moeten toetsen. Hoewel het tegendeel van deze hypothese
mij overtuigender voorkomt - all-or-none learning legt aan de leertaken de onrealistische eis van
Guttman karakteristieke curven op (van der Linden, 1978) -, moet ik toegeven dat de uitkomsten van
dit experiment haar op ecn valide manier lijken te ondersteunen.

Dc volgende zeven artikelen gaan alle over varianten van het Raschmodel en toepassingen daarvan.
Scheiblechner geeft in 'Psychological models based on conditional inference' een bespreking van drie
eigenschappen waarin de Raschmodcllen zich fundamenteel onderscheiden van andere psychometri-
sche modellen: het principe van de specifieke objectiviteit (persoonsvrije item- en itemvrije persoons-
vergelijkingen), de aanwezigheid van de incidentele parameters (er wordt rekening gehouden met
persoonsverschillcn) en de conditionele meest aannemelijke schatting van dc modelparameters. Door
de beknopte, hier en daar wat ontoegankelijke behandeling is dit artikel eerder ecn goede samenvatting
voor de lezer die met deze zaken bekend is dan een introductie voor degenen die er voor het eerst
kennis van nemen. Fischer cn Spada verzorgden twee artikelen waarvan de inhoud elders uitgebreider
aangetroffen kan worden. Het eerste is 'Linear logistic test models: theory and application' en vat op
een kernachtige wijze de eigenschappen van het hneair logistische testmodel (LLTM) en het lineair
logistische testmodel met verzwakte assumpties (LLRA) samen. Voor ccn uitgebreide behandeling van
deze specifiek gedragswetenschappelijke en uiterst veelbelovende analysemiddelen kan verwezen wor-
den naar hischer (1974). Het tweede is 'Logistic models of learning and thought' en vormt een
beknopte weergave van een duitstalig boek van Spada (1976), dat korte tijd na dit IPN-symposium
verschenen is. Voor een bespreking hiervan verwijzen we naar de Bruyn en van der Linden (1979).
Haüssler en Rop illustreren in 'Investigation of mathematical reasoning in science problems' respectie-
velijk 'The apphcations of a lineair logistic model describing the effects of pre-school curricula on
cognitive growth' een illustratieve toepassing van het lineair logistische model binnen onderzoek naar
dc capaciteit van leerlingen in het ontdekken van functionele relaties tussen experimenteel bepaalde
fysisclie grootheden en naar het effekt van verrijkingsprogramma's op kinderen in achterstandsituaties.
Kempf presenteert in 'A dynamic test model and its use in the microevaluation of instructional
material' zijn dynamisch testmodel, waarover op dit moment slechts interne publikaties van het IPN
bestonden, voor het eerst aan een ruimer publiek. Vrijwel gelijktijdig met de hier besproken bundel
zijn er twee verhandelingen over dit model gepubhceerd in Kempf en Repp (1977). De poging van
Kempf om tot een dynamische variant van het Raschmodel te komen, zodat rekenschap gegeven kan
worden van leer- en andere zich in de tijd afspelende processen, is een uiterst welkome uitbreiding van
het bestaande gedragswetenschappelijke analyse-instrumentarium. Problemen heb ik evenwel met zijn
begrip conditionele item karakteristieke curve, waaraan het dynamische testmodel een mathematische
vorm geeft. Dit begrip is inherent strijdig met de aanname van lokale stochastische onafhankelijkheid,
zoals dat in de latente trek theorie gebruikelijk is. Dit opent de mogelijkheid dat de items niet door
dezelfde eendimensionele ruimte opgespannen worden, ook al is de persoonsparameter eendimensio-
neel. De door Kempf geïntroduceerde transferparameter is daarom niet interpreteerbaar als een ver-
andering van de positie van de persoon op ecn en dezelfde latente trek. Scheiblechner hanteert in een
\vat stug geschreven maar diepgravende bijdrage, getiteld 'The relative merits of (positive and negative)
reinforment and information feedback', een lineair logistisch model om antwoord te krijgen op de
oude vraag of het nu de belonende of de informatie waarde is die feedback functioneel maakt.
In 'A deterministic theory of learning and teaching' geeft Scandura inzicht in zijn deterministische
theorie van het strukturele leren. Op grond van natuurwetenschapstheorethische argumenten en onder
verwijzing naar de experimentele natuurwetenschappelijke praktijk betoogt hij dat leerexperimenten
onder geïdealiseerde condities plaats moeten vinden. Wordt dit in acht genomen, dan volstaan deter-
ministische modellen om de experimentele uitkomsten te verklaren. Scandura's standpunt lijkt vooral

ingegeven door zijn afkeer van statistische experimentele kontrole en rapportage van resultaten in de
vorm van groepsstatistieken. Aan de mogelijkheid van stochastische modellen ter verklaring van indivi-
ducel gedrag, waarin de parameters geen populatiekenmerken karakteriseren maar staan voor konstan-
ten die het onderliggende proces karakteriseren, zoals sommigen van de andere auteurs die gebruiken,
gsat hij voorbij. Toch is zijn bijdrage door het orthodoxe karakter ervan, en niet in het minst doordat
hij zijn standpunt met referenties naar succesvolle empirische research weet te ondersteunen, een van
de boeiendste in deze bundel. Wulfeck II laat in 'A structural approach to instructional sequencing'
zien hoe Scandura's benadering op vruchtbare wijze gebruikt kan worden bij het sequentiërcn en
evalueren van leertaken op het gebied van meetkundige constructies.

Ruelccke's bijdrage 'A statistical analysis of deterministic theories' begint met een fraaie karakterise-
ring van de verschillen tussen stochastisch en deterministisch theoretiseren en bespreekt vervolgens een
experiment dat amper illustratief is voor de probleemstelling waarmee deze bijdrage opent. In de
laatste bijdrage 'Deterministic and probabilistic theorizing in structural learning' gaan Hilke, Kempf en
Scandura in op de argumenten pro en contra deterministische modelvorming. Ze eindigen met de
conclusie dat deterministische modellen aangevuld dienen te worden met stochastische meetmodellen,
maar stellen enigszins teleur doordat ze niet aangeven hoe de parameters uit beide modellen in
verhouding tot elkaar gebracht kunnen worden.

Zoals aan het begin van deze bespreking gezegd is is het onderhavige boek ccn boeiende verzameling
van verschillend georiënteerde bijdragen. De auteurs zijn bijna alle vooraanstaande gedragswetenschap-
pers die wetenschappelijke integriteit en orginaliteit paren aan een hartverwarmde bereidheid om
toepassingen te vinden en ermee te illustreren.

Het boek is in schrijfmachineschrift gedrukt. Dit hoeft geen nadeel te zijn, maar is het wel nu de
corrector zijn werk niet nauwgezet heeft gedaan. Zo zijn er bijvoorbeeld formules waarin een subscript
als factor staat genoteerd, wat elders weer gecompenseerd wordt door een factor als exponent te
schrijven. Volgens het voorwoord was dit alles nodig om de prijs laag te houden. Toch is de prijs (ruim
fl. 50,- voor 452 pagina's) voor deze uitvoering nogal hoog. Ik kan me best voorstellen dat sommigen
daardoor zullen aarzelen om 'Structural models of thinking and learning' aan te schaffen. Gezien de
waardevolle inhoud zou ik dat maar niet doen.

de Bruyn, I., & van der Linden, W.J. Boekbespreking van H. Spada, Modelle des Denkens und Lemens.

Tijdschrift voor Onderwijsresearch, 1979,4, 203-205.
Fischer, G.H. Einführung in die Theorie psychologischer Tests. Bern: Hans Huber Verlag, 1974.
Kempf, W.H., & Repp, B.H. (Eds.) Mathematical models for social psychology. Bern: Hans Huber
Pubhshers, 1977.

Van der Linden, W.J. Forgetting, guessing and mastery: the Macready and Dayton models revisited
and compared with a latent traitapproach. Journal of Educational Statistics, 1978, 3 (in druk).

'Interne Mededelingen' van het Instituut voor Onderwijskunde
KathoUeke Universiteit Nijmegen

De nieuwe reeks 'Interne MededeUngen' heeft ten doel waardevolle scripties, artikelen, verslagen van
onderzoek e.d. beter toegankelijk te maken voor een beperkte kring van vakgenoten en a.s. beoefena-
ren van de onderwijskunde. De reeks wordt geopend met de volgende drie publicaties:

1. 'Enkele aspecten van een interdisciphnaire onderwijskunde' door J.A. Bulte en H.H. Tillema.

2. Basisautomatismen in het vak rekenen. Een onderzoek naar de beheersing van basisautomatismen
in het vak rekenen in het tweede, derde en vierde leerjaar van de basisschool met behulp van een
auditief aangeboden toets' door de werkgroep 'Onderwijstoetscn' o.l.v. dr. M.J.C. Mommers.

3. 'Criteriumtoetsen en de hiërarchie van onderwijsdoelstelüngen. Een onderzoek m.b.t. het algoritme
voor vermenigvuldigen' door de werkgroep 'Criteriumtoetsen' o.l.v. dr. M.J.C. Mommers.

PubUcaties die in deze reeks verschijnen zijn, tegen kostprijs, te verkrijgen bij Mw. L.G.G.M. Willems,
Secretariaat van het Instituut voor Onderwijskunde, Erasmuslaan 40, Nijmegen. Telefoon:
080-512501.

Graaf, E. de. De WEK-Motivatie vragenlijst. Verslag van de constructie van een instrument voor het
meten van de 'motivatie om te leren' van cursisten van de Open School. Amsterdam: RITP, mei
1979.

Groencndaal, Han J. Vroegtijdige hulpverlening aan zwakfunktionerende kleuters. Verslag van een
onderzoek. Lisse: Swets en ZeitUnger, 1979 (= Sociaal-wetenschappelijke proefschriften relevant
voor de hulpverlening, no. 3).
Jaarverslag 1976, 19 77, 1978, Den Haag: Stichting voor Onderzoek van het Onderwijs, 1979.
Jungbluth, Paul. Van traditionele meisjespedagogiek tot roldoorbrekend onderwijs. Nijmegen: I.T.S.,
1978.

Leeuw, L. de. Leren probleemoplossen. Onderzoek naar het effekt van het aanleren van algorithmische
en heuristische oplossingsmethoden mede in verband met persoonskenmerken. Lisse: Swets en
Zeitlinger, 1979.

Neuwalil, Nitha M.E. Het IBO gevolgd. Een onderzoek naar het individueel beroepsonderwijs en zijn
leerlingen. Lisse: Swets en Zeitlinger, 1979 (= Sociaal-wetenschappeUjke proefschriften relevant
voor de hulpverlening, no. 1).
Tordoir, A. & Wesdorp, H. Grammatica in Nederland. Een researchoverzicht betreffende de effecten
van grammatica-onderwijs en een verslag van een onderzoek naar de praktijk van dit onderwijs in
Nederland. Amsterdam: RITP, 1 juH 1979 (Interim-rapport van SVO-projekt 0412).
Voortgezet Onderzoek Nieuwe Lerarenopleiding. Een samenvattend verslag. Nijmegen: Instituut voor

Toegepaste Sociologie, 1979.
Weeren, J.H.P. van e.a. Projekt Elektriciteit en magnetisme. Het oplossen van vakspecifieke problemen.

Onderwijskundig Centrum CDO/AVC, Technische Hogeschool Twente, mei 1979.
Zeeuw, J. dt. Algemene Psychodiagnostiek IL Testtheorie. Lisse: Swets en Zeitlinger, 1978.

Inhoudsopgave Pedagogische Studiën
Jaargang 56, nr. 7/8, juü/augustus 1979
Davydov, Piaget en de breuken, door L. Streefland

Beoordelen van docenten door studenten, door S.J.M. Blom en W.F. Langerak
Het nut van oudercursussen, door H. Cladder

Kroniek: Leerhierarchische validatie van taxonomieën, door H. Freudenthal. Mastery Learning, door

Study load and the 'typical student': Basic concepts of a theory-for-agreement
I The general model

In this article an attempt is made at pinning down, and objectifying, the notion of the 'typical
student' (or, 'standard student') to which educational administrators, planners, programmers,
curriculum and selection experts, as well as teachers, tend to attune their efforts. The resulting
working model is called a 'theory-for-agreement' since it is meant primarily to provide a general
basis for reaching agreements on educational contracts, including curriculum, examination, and
selection decisions. Accordingly, the description of reality expressed in the hypotheses of the
model pretends to be generally acceptable rather than empirically precise and detailed.
The set of requirements of any total examination program (T) is supposed to be partitioned
into the (minimal) requirements of learning tasks (t^), with corresponding, additive, standard
study load values (lN,k) expressed in standard time-on-task: formulae (1), and (2). Conse-
quently, the standard total study load (Ifj t) is equal to the product of the (full time) program
duration in years (C) and the standard yearly study load in hours (Ln): formula (3).
To an individual student (Sj), iN^k-values are objectively quantified learning achievements, or,
minimal requhements to be met by individual effort (individually needed time-on-task, 1; ^). As
in the theory of learning for mastery - and in other conceptualizations, mcludmg tliose of
common sense - 1; is assumed to be inversely proportional to the student's task ability
(task-specific learning rate or 'velocity', Vj^^): formulae (4), (4a), and (5).
In order to ensure the acceptabihty of the implied simple product model - learning achievement
equals abihty times effort: formulae (11) and (11a) - tasks (tk) are supposed to be defined in
such a way that each of them calls for a reasonably homogeneous type of abihty. For different
tasks (tk) abihties may be variously distributed in student populations. In most programs there
are a few 'critical tasks', i.e., tasks (tjj) characterized by a wide dispersion of vj ^-values, part of
which run the risk of being prohibitively low.

Tlie answer to the question of how 'prohibitively low' Vj ^-values must be defined, as well as to
the more general problem of defining a student's (un-)suitability for a study program, is shown
to depend:

first, on certain bio-sociaUy (and psychologically) determined upper hmits to the specific (tj^-)
and general (T-)loads a student can (be supposed to) carry: formuhe (12) through (14);
and second, on the maximal yearly study load a student can (be supposed to) carry, Li(max), in
combination with at least one (other) parameter of the study contract. In the Netherlands, and
in other continental systems, where the maximally allowed study duration, D, is substantially
longer than the course duration, C, the pertinent suitabiUty boundary is given in formula (10).
It wiU be seen that the 'typical student' in a given study program with a given course duration,
C, has been reduced to: the standard yearly study load, Ln, as a preset value of the contract
parameter for standard study effort, along with the set of Ij^ ^-values which determine (recipro-
cally) aU pertinent standard task-specific abilities. In the general model (this article) the impor-
tant question of how standard tk-abiUties (or, lN,k-values) must be determmed, i.e., located in
the distributions of empirical vj ^- (or, li^k-)values is left open; the answer is contingent on the
nature of the operative educational contract. For a given (national) educational system, or a
subsystem, where simUar contracts obtain, however, the convention is accepted of positionmg
the 'standard student' at one and the same percentile, pn, in all programs and in aU tk-ability
distributions.

1 VRAAGSTELLING, UITGANGSPUNTEN
I.l Gevraagd: een akkoord-theorie (of werk-model)

De opzet van dit dubbel-artikel is in hoofdzaak dezelfde als die van twee begin 1976
verschenen RITP-Memoranda (063 en 070): het eerste deel beschrijft het algemene
model, in het tweede (II Parameterkeuzen, toepassingen en Nederlandse problemen) ko-
men 'invullingen' aan de orde. De uitwerking is echter veel beknopter.' Weggelaten zijn
zijpaden en details — die desgewenst in die Memo's kunnen worden nageslagen — en al
wat niet meer actueel is.

Ook hoeft niet meer te worden uitgelegd wat met een akkoord theorie wordt bedoeld (zie
hiervoor De Groot, 1977, p. 419-420, en eventueel Baerends, Groen en De Groot, 1978,
p. 143). In dit geval gaat het - zo eenvoudig mogelijk gekenschetst - om de verduidelij-
king van een aantal begrippen, in de eerste plaats 'normstudent', waarvan de onmisbaar-
heid bij programmeringsactiviteiten de laatste jaren duidelijk is geworden; vergelijk bij
voorbeeld de formulering in het vijfde COIIO-rapport (Commissie Ontwikkeling Hoger
Onderwijs, 1975, p. 8): 'de normstudent in algemene zin' is: 'de fictieve student waarop
de programmering in samenhang met de cursusduur wordt afgestemd'.
Is de term 'normstudent' een betrekkehjk nieuwe aanwinst, de eraan ten grondslag lig-
gende gedachte is niet nieuw. Dat men zich bij het opzetten van onderwijsprogramma's,
evenals bij het geven van onderwijs, een voorstelling maakt van degenen voor wie dat
onderwijs bedoeld is, spreekt vanzelf; dat die voorstelhng gemeenlijk de vorm heeft van
een soort beeld van 'de' student of leerhng, waarnaar men zich richt, is bekend. Dat beeld
werkt dan als een 'inneriijke norm', waar de docent en/of leerplanontwerper van uitgaat
en waarop hij zijn leerstof en presentatiémethode, zijn doelstelhngen, eisen en beoorde-
hngsnormen (cijfers) afstemt. Uit de ervaring - introspectief — is het mechanisme van dit
soort afstemming aan iedereen bekend, die wel eens onderwijs voor (heterogene) groepen
heeft ontworpen of aan groepen heeft gegeven. Een bekend voorbeeld is dat van de 'Wet
van Posthumus' zoals die in het Nederlandse veldloop-systeem werkt(e) (Posthumus,
1940); de afstemming van het onderwijs op de middengroep en van de beoordeling op ca.
25% onvoldoendes is te beschrijven als afstemming op een normstudent. Bij de verduide-
lijking van dit nieuwe begrip gaat het dus ook om verscherping van een oud beeld.
Bij die verscherping - 'nomologisch', tot een akkoord-theorie of werk-model — is van
fundamenteel belang dat een bekend soort dubbelzinnigheid wordt weggewerkt: het door
elkaar lopen van statistische en ethische, Van beschrijvend en voorschrijvend bedoelde
normen. Niet alleen bij het geven van onderwijs, ook bij programmering spelen beide een
rol. Wie een onderwijs- en examenprogramma mricht, tracht dit zo te doen dat de doel-
populatie van geschikte studenten het aankan; dat vereist een zeker empirisch beeld van
de verdeling van het leervermogen en van kritische waarden in die verdelmg (statistische
normen). Hij moet echter ook wel uitgaan van zekere eisen, niet alleen prestatie-eisen
maar ook inspannmgseisen waaraan 'de' student geacht wbrdt te voldoen (ethische nor-
men). Die twee typen normen mogen in het denken niet interfereren. Zij moeten in het te
ontwerpen model goed onderscheiden, en onderscheidenlijk gelokaliseerd worden.

' Voor een weergave van de hoofdgedachten zonder formules, zie de bijlage bij het Vijfde Werkstuk
van de Commissie Voorbereidmg Herprogrammering Wetenschappehjk Onderwijs, 1976, p. 87-93; voor
een zeer korte behandehng zie ook De Groot, 1976.

Ook vele andere onderscheidingen en bijbehorende operationele of operationaliseer-
bare specificaties zullen nodig zijn - zoals in het volgende zal blijken. Met name zal het
begrip 'normstudent' van surplus-eigenschappen die het 'beeld' aankleven - en die misver-
standen genereren omdat iedereen dat beeld een beetje anders ziet — moeten worden
ontdaan. De normstudent zal niet 'een student' zijn, maar bestaan uit een gering aantal te
normeren kenmerken: parameterwaarden in het model.

Gezien uit een oogpunt van programmeringspraktijk is het begrip 'normstudent' een
middel, een instrument om met betrekking tot een bepaalde opleiding of cursus een
drietal voor een deel onbepaalde zaken op elkaar af te stemmen:

(1) de verdehng van studiekwahteiten in de doelpopulatie van geschikte studenten;

(2) de emdtermen (doelsteUingen en eisen), te specificeren in het totaal-examen-pro-
gramma;

(3) het onderwijsprogramma (curriculum, cursusduur - met bijbehorende inschrijvings-
duur).

Wil men echter precies definiëren wat onder een 'normstudent' te verstaan is, dan kan dat
alleen als men uitgaat van een situatie, waarin die onbepaalde zaken al grotendeels vastlig-
gen.

Wat (2) betreft, het zou irreëel zijn ervan uit te gaan dat de (normatieve) studiekwalitei-
ten vereist voor verschiUende opleidingen - programma's, eindtermen - dezelfde zouden
zijn. Dit geldt ook, zij het in mindere mate, voor verschillende onderdelen van één
opleidingsprogramma. De consequentie van deze overweging is duidelijk. In eerste instan-
tie zuUen wij moeten defmiëren: normstudent voor een bepaald programma- en examen-
onderdeel, en dat is dan een onderdeel - of leertaak (t^) - waarvan wordt aangenomen
dat het als een eenheid kan worden gezien voor wat betreft de (normatieve) studiekwah-
teiten die het vereist.

Wat (3) betreft is de enige redelijke aanname dat het onderwijsprogramma met betrekking
tot de leertaak, tk, in het kader van het gehele onderwijs- en examenprogramma, 'ade-
quaat' is opgezet. Die aanname is nodig om bij de behandeling van ons probleem -
definitie van 'normstudent' met het oog op programmering, studielast, cursusduur, etc. -
niet ook nog de hele problematiek van curriculumontwikkeling en onderwijsvernieuwing
(hever: onderwijs-verbetering) in huis te halen.
Wat punt (1) betreft, dit komt later apart aan de orde (zie Deel 11).

De te normeren kenmerken (1.1) kunnen tot een tweetal worden beperkt: begaafdheid en
inspanning. Per leertaak, tk, wordt dit dus: tk-begaafdheid en aan tk bestede inspanning.
Deze keuze is in de eerste plaats gebaseerd op ervaring. Wie een programma opstelt voor
een opleiding of onderdeel daarvan gaat in de praktijk altijd uit, eventueel stilzwijgend,
van twee soorten veronderstelhngen:

(1) hoe goed 'de' student zal zijn - qua leervermogen, inzicht, snelheid van begrip en
werktempo, kortom: (specifieke) tk-begaafdheid;

Van die twee zaken hangt immers, bij een 'concrete' student, af hoe de voortgang in de
studie zal zijn, en in het bijzonder: of de student de opleiding, en daarin met name
onderdeel t^, volgens het programma met succes zal kunnen voltooien. Tot deze twee
kenmerken van de doelpopulatie, en dus van de normstudent, beperken wij ons. Zij zijn in
ieder geval nodig; of zij ook voldoende zijn zal bij gebruik van het model blijken.
Dc keuze is echter ook gebaseerd op het desideratum dat 'kunnen' en 'moeten' (of
'willen') - en daarmee de twee soorten normen (1.1) - gescheiden moeten worden. Dit
gaat heel goed met deze twee kenmerken, 'tk-begaafdheid' is adequaat te definiëren als
ccn variabele in dc populatie, over versclüllende studenten, maar een vast gegeven voor
één student, 't^-inspanning' daarentegen is een gedragsvariabele, die voor één student —
als hij nog aan t^ moet beginnen — sterk verschillende waarden kan aannemen; hij is daar
zelf voor verantwoordelijk. Normen ten aanzien van de vereiste begaafdheid kunnen
nooit, normen ten aanzien van de gevraagde inspanning zeer wel een ethisch karakter
dragen.

Van groot belang voor een goed gebmik van dit basis-model is, dat er generlei samenhang
tussen de twee kenmerken noch met een of ander derde (surplus-)kenmerk wordt voor-
ondersteld. De tk-'normstudent' is niet 'een (type) student' - zie 1.1; het woord is helaas
misleidend, maar ingeburgerd - maar alleen dat tweetal kenmerken, onafhankelijk van
elkaar genormeerd. Die onafhankelijkheid is nodig om te verhinderen dat begaafdheids-
normen — op 'empirische gronden' die ten eerste niet ter zake doen en ten tweede
onzeker zijn — stilzwijgend door ethische desiderata zouden worden gecontamineerd.^

Volgens de tot zover ontwikkelde gedachtengang doet een (her-)programmecrder er goed
aan zijn voorstellen of beshssingen over het onderwijs- en examenprogramma en over de
cursusduur per leertaak (tk) af te stemmen op twee norm-waarden: een veronderstelde
tk-begaafdheid en een veronderstelde inspanning (inzake tk). Die twee waarden - over de
bepaling waarvan straks meer (1.5 en 1.6) — vormen de werkdefinitie (zonder surplus-
betekenis) van 'de tk-normstudent'. Maar wat is, en hoe gaat dan, dat 'afstemmen'?
De bedoeling is uiteraard, dat een student met een tk-begaafdheid gelijk aan die van de
normstudent met de tk-inspanning van dq normstudent kan volstaan om leertaak tk
'onder de knie' te krijgen, dus 'aan de eisen te voldoen'. De vraag waar het om gaat is hoe
'de eisen' moet worden gelezen; en het enige goed verdedigbare antwoord is: als de
minimum-eisen. Daarvoor zijn klemmende redenen. Alleen minimum-eisen (de caesuur
tussen voldoende en onvoldoende) zijn betrekkelijk 'hard' te maken; al het andere — een
7 of een 8? - is vrijblijvender, wiUekeuriger, moeilijker te objectiveren en te rechtvaardi-
gen. Verder veronderstelt een 'adequaat programma' (1.2) dat men minimum-eisen per t^
bepaald heeft; het kan niet zonder en 'ze zijn er' dus. Tenslotte kan men in rechte —
zonder een verkapte moralist te worden (1.3) — van geen student, en dus ook niet van 'de'
(norm-)student, eisen dat hij aan meer voldoet dan aan de minimum-eisen (per tk).

^ Eén voorbeeld van zo'n (helaas gangbare) denkfout: 'Als je zo (bovenmiddelmatig) begaafd bent als
de normstudent dan ben je "natuurUjk" geen zesjesklant; dan "wil je" (lees: "behoor je") zevens (te)
halen'.

'Studie-inspanning' is een variabele die men niet goed anders kan meten dan als studielast,
uitgedrukt in 'standaard-uren'. Dat betreft dan de tijd besteed, of te besteden 'aan de
studie' - in de vorm van verschillende soorten activiteiten. De vraag welke activiteiteix
daar wel of niet toe moeten worden gerekend is herhaaldelijk onderwerp van discussie
geweest (b.v. Holleman, 1975). Wij laten die echter rusten, in de veronderstelling dat
daarover via gewoon overleg overeenstemming te bereiken is.

Over een andere vraag moet echter iets meer worden gezegd, namelijk de vraag of de tijd
serieus en adequaat aan de studie besteed is; alleen als dat zo is, zijn het standaard-uren.
Tot dusverre is dit meestal stilzwijgend aangenomen; d.w.z. dat onnodig (grotendeels)
verdroomde, verprate of anderszins inadequaat bestede uren niet voor vol zouden worden
aangezien en gesteld.^ Het is echter van belang die stilzwijgende aanname exphciet naar
voren te brengen, want het gaat om een ervaringsbegrip en om een veronderstelde consen-
sus daarover, waarop alle studielast-berekeningen gebaseerd zijn. Sterker: het gaat niet om
één ervaringsbegrip, maar om een hele reeks; bij verschillende typen leertaken (tk) en
leersituaties (college lopen, practicumwerk, boekenstudie, werken in bibliotheek of
archief of aan de bewerking van empirisch materiaal, schrijven van een scriptie, etc.)
behoren verschillende soorten 'normale', 'serieuze en adequate' tijdbesteding, verschil-
lende soorten taak-standaarduren.

Ook op dit punt gaan wij ervan uit dat consensus bereikbaar is, indien wat meer aandacht
aan het probleem wordt besteed, bij voorbeeld met behulp van wat de theorie van het
beheersingsleren er over zegt. Voor de empirische specificatie van het begrip Ujkt voorals-
nog het beste, zo niet principieel het enige hanteerbare (operationaliseerbare) criterium
dat van de getuigenis van (tk-)studenten zelf te zijn: Meent een student, als eerste-hands-
beoordelaar, met recht te kunnen zeggen dat hij/zij een bepaald uur 'serieus en adequaat
aan tk besteed' heeft, dan was dat uur een standaarduur.

De in de titel van deze paragraaf weergegeven grondgedachte is niet nieuw (zie b.v.
Carroll, 1963, Bloom, 1971; en vele latere publikaties inzake 'mastery learning'). Er moet
echter wel iets over gezegd worden, met name over de 'produkt-wet' die aan de definitie
ten grondslag ligt.

In het algemeen geldt, per persoon: hoe meer (leer- of studie-) inspanning, des te meer, of
betere, lering: leereffect (indien geconstateerd: studieresultaten). Dit geldt a fortiori on-
der onze aannamen; namelijk, dat het onderwijsprogramma 'adequaat' geregeld is (1.1)
en dat de inspanning in standaarduren wordt gemeten (1.5). Men kan nog iets verder gaan.
Binnen zekere grenzen geldt dat, bij gegeven tk-begaafdheid, verdubbelde inspanning tot

' Men kan in principe werken met een variabele 'concentratie', c, die gelijk 1 is als een uur 'normaal'
besteed is aan datgene, dat de student geacht wordt tijdens dat uur te doen, maar kleiner dan 1 in geval
dat niet zo is. Dus bij voorbeeld: 1 = c.n; waarin 1 = studielast in standaarduren, c = gemiddelde
'concentratie' per uur, en n = aantal legitiem geregistreerde uren; waarbij dus Cn,ax = 1- Een dergelijke
'produkt-definitie' ligt voor de hand; waarschijnhjk wordt zij soms stilzwijgend gehanteerd door stu-
denten die enquêtes invullen en daarbij ook ietwat halfslachtig bestede studie-uren eerlijk willen
verantwoorden.

verdubbeling van het effect leidt. Er hjkt ook een duidelijk nulpunt te zijn: is de inspan-
ning gelijk nul, dan is het leereffect gelijk nul.

Deze overwegingen suggereren al een multiplicatief verband, een produkt-samenhang -
zoals men in de wandeling ook wel zegt: 'Wat je leert is het produkt van je aanleg en je
inspannmg'. Specifieker: Wat en hoeveel een student qua tk opsteekt is het produkt van
zijn tk-inspanning en zijn tk-begaafdheid.

Een dergehjke produkt-samenhang - dus leereffect = inspanning maal begaafdheid - is
bovendien zeer geschikt als (eenvoudigste) uitdrukking van de bekende mogehjkheid om
een germgere begaafdheid te compenseren door een grotere inspannmg. Een additieve
samenhang — leereffect = begaafdheid plus inspanning — presteert dit wehswaar ook; ook
dan kan eenzelfde leereffect worden bereikt met weinig begaafdheid en veel hispanning
als met veel begaafdheid en weinig inspanning. Het voordeel van de produkt-formule blijft
echter dat inspanning = O tot effect = O leidt; èn dat begaafdheid = O eveneens tot effect
= O leidt. Triviaal voorbeeld: de aanleg van de mens om als een vogel te vhegen = 0; onge-
acht de grootte van de inspanning blijft het effect = 0.

De klaarbhjkelijke voordelen van een 'produkt-wet' van bovenstaande strekking pleiten er
sterk voor om een dergehjke wet in de werktheorie voor de behandehng van het begrip
normstudent m te bouwen. De uitwerking m het volgende hoofdstuk is erop gebaseerd.

De gangbare veronderstellmgen inzake de normstudent hebben niet alleen te maken met
afzonderhjke leertaken maar ook, zoals we voor een deel al gezien hebben, met minimum-
eisen te stellen aan de te bereiken leereffecten, met de normatieve studielast per jaar, d.i.
de normatieve jaarlast, uit te drukken in standaarduren, en verder met de eindtermen van
een opleiding als geheel, en met de daarvoor gestelde cursusduur, m jaren. In deze para-
graaf wordt uitgewerkt hoe die begrippen in ons model gedefinieerd worden en samenhan-
gen.

Het begrip 'eindtermen' heeft verschillende aspecten. Men kan de emdtermen (T) van een
opleidmg opvatten als een verzameling van alle in die opleiding nagestreefde leerdoelen.
Vervolgens kan men zich die leerdoelen in twee richtingen gespecificeerd denken: in de
richting van 'didactische operationaUsati©' (leertaken), of in de richting van 'evaluatieve
operationahsatie' {leereffecten). Zoals het in een goede akkoord theorie behoort wordt
drieëriei 'volledige dekking' aangenomen (vgl. De Groot 1974,1976 en 1977). Ten eerste
corresponderen met alle leertaken bepaalde bijbehorende leereffecten. Worden die leer-
effecten als minimumeisen gedefinieerd - en daarvan wordt van hier af steeds uitgegaan
(zie 1.4) - dan behoren omgekeerd ook bij alle geëiste leereffecten (minhnum-)leertaken.
Ten tweede wordt gepostuleerd dat de (verzameling van) emdtermen qua leerdoelen de
(verzameling van) geëiste leereffecten volledig dekken; en ten derde dat de leerdoelen de,
standaarduren vragende, leertaken volledig dekken."*

Voorlopig is het niet nodig deze drie interpretaties van tk, en van T als verzamehng van

Deze bepalingen houden in dat in het model het verwarrende onderscheid dat in het (oude)
Academisch Statuut wordt gemaakt tussen 'onderdelen van het examen' en (eveneens studielast met
zich mee brengende) vervulling van 'voorwaarden voor toelating tot het examen' niet wordt gemaakt.

alle tk - leerdoelen; leertaken (onderwijsprogramma); leereffecten (examenprogramma:
minimum-eisen) - door gebruik van verschillende symbolen uit ehcaar te houden (zie
echter 2.3). We werken in het vervolg met (voor n leertaken):

Voor iedere leertaak, tk, is vastgesteld, of moet worden vastgesteld, een normatieve
taaklast, in standaarduren; aan te geven als Ipq^k ('N' voor normstudent). In overeenstem-
ming met de genoemde volledige dekking wordt aangenomen dat de som van alle n
normatieve taaklasten gehjk is aan de normatieve studielast (1n,t) die de eindtermen van
de opleiding (T) met zich meebrengen:

In overeenstemming met de gangbare denkwijze wordt verder aangenomen, dat de norm-
student — en dat wil nu zeggen: de fictieve student voor wie alle taaklast waarden gelijk
zijn aan de normatieve, LjM_k(k= l,2...n) - de studie voltooit in een tijd, die gelijk is aan
de cursusduur (in jaren), Cx, indien hij jaarlijks gemiddeld een aantal standaarduren
maakt, dat gelijk is aan de normatieve jaarlast, Lj^ j-. Overweegt men dat cursusduur en
normatieve jaarlast meestal als constanten worden opgevat die voor verschillende opleidin-
gen (T) gelden, dan kan men de T-index weglaten en schrijven:

Gaat men bij het programmeren bij voorbeeld uit van een cursusduur C = 4 (jaar) en een
normatieve jaarlast Ln = 1700 (standaarduren), dan moet de zwaarte van het studiepro-
gramma uitkomen op een normatieve studielast:
n

Zoals bekend, ging het bij de herprogrammeringsoperatie (1975-1977) andersom: C werd,
bij een gegeven Ln = 1700, afhankelijk gesteld van de uitkomsten voorlN,k(k= l,2...n)
zoals die bepaald werden voor de, geargumenteerd, vooropgestelde leertaken, tk, van de
eindtermen, T. Dat daarbij tevens opC = 4 zou worden gemikt was wel de bedoelmg van
de Minister, maar niet de praktijk.

Ongeacht de vraag hoe formule (3) wordt gebruikt moet, naast de vragen op welke
waarden men eventueel C en Ln fixeert (zie Deel 11), iets worden gezegd over de vraag
hoe men, bij inhoudehjk (en qua minimumeisen) gegeven leertaken, tk, komt tot reële en
aanvaardbare waarden voor de bijbehorende normatieve taaklasten, lN,k-
Het eerste antwoord is uiteraard: op basis van ervaringen met 'concrete' studenten. Aan-
gezien studenten verschillen in (tk-)begaafdheid en dus in de tijd die zij voor het volbren-
gen van een bepaalde leertaak nodig hebben, kan men deze vraag ook als volgt steUen:
Welke plaats neemt de tk-normstudent in, in de tk-begaafdheidsverdeling wan de, nader te
omschrijven (zie deel II, 3.5), populatie van T-studenten? Wil men niet in onnodige com-

plicaties terecht komen, dan is het wenselijk, en gebruikelijk geworden, om op deze vraag
steeds hetzelfde antwoord te geven, voor alle leertaken, tk, en voor de eindtermen, T, van
alle tertiaire studierichtingen. Dit betekent dat één normstudent-percetitiel, p^, moet
worden vastgesteld. De vraag welk percentiel dat moet zijn wordt in dit algemene model
nog niet beantwoord, evenmin als de keuzen voor Ln en C.

Schrijven we de doelpopulatie van studenten als {S,} dan is Si een willekeurige student uit
die populatie. Noemen we het aantal standaarduren dat Si nodig heeft om tk te volbren-
gen (te voldoen aan de minimumeisen) zijn^ individuele t/c-taaklast, Ij^k, dan is volgens de
produkt-wet de individuele tk-begaafdheid van die student, Vj^k (V' voor velocitas of
vlugheid), omgekeerd evenredig met Ij^k- Om te bereiken dat de tk-normstudent steeds
een tk-begaafdheid = 1 heeft, definiëren we de relatieve tk-begaafdheid van Si, Vi_k, als
volgt:

Of, geschreven in produkt-vorm - en bij voorbeeld als volgt te lezen: 'De als constante
beschouwde normatieve taaklast in standaarduren of: zwaarte, lN^k> een te volbren-
gen leertaak, tk, is voor iedere individuele student gelijk aan het produkt van zijn tk-
begaafdheid en zijn tk-taaklast':

Analoog aan formule (2) wordt de individuele studielast (li,T)> die het halen van de
(minimumeisen m.b.t. de) eindtermen van de opleiding (T) met zich meebrengt:

Gaan we nu uit van een student die de studie (T) voltooid heeft of kan voltooien — d.w.z.
Si behoort tot {sS,}, d.i. tot de deelpopulatie van de (potentieel) succesvolle studenten uit
de (nog niet nader omschreven) doelpopulatie {Si} - dan geldt voor hem een soortgelijk
verband als in formule (3) voor de normstudent is uitgedrukt. Schrijft men de gemiddelde
jaarlast van Si als: Li, en de feitelijke studieduur van Si als: Dj (preciezer, respectievelijk:
sLi en sDj j voor jSi — maar te veel indices schaden de duidelijkheid), dan geldt: li x =
Dj.Li of:

' Het bezittelijk voornaamwoord 'zijn' wordt in het vervolg steeds gebruikt voor: 'zijn of haar', en
'hij' voor: 'hij of zij'.

Is er een vastgestelde maximale inschrijvingsduur, D, dan betekent dit dat de student met
zijn Dj daar onder moet zien te blijven®:

E)e vraag hoe groot de tijdsdruk is, waaronder Si staat, hangt af van zijn tk-begaafdheids-
waarden (of, omgekeerd, zijn taaklasten, h^k) en van zijn inspanning, Li. Van bijzonder
belang is de vraag of de tijdsdruk niet tè zwaar is, d.i. of hij de studie aankan; en wel met
de, voor hem haalbare, maximale individuele jaarlast, Li(max). De vraag is of de voor Si
haalbare, minimale studieduur, Di(min) binnen de grens blijft:

We hebben hier te maken met een geschiktheidsvoorwaarde - er komt verderop (2.4) een
tweede bij - namelijk de voorwaarde dat de individuele studieduur bij maximale inspan-
ning niet groter dan de maximale inschrijvingsduur mag worden. Formule (8a) is te
herleiden tot een duidelijker sprekende vorm, en wel door over te gaan van lasten (1) naar
begaafdheden (v). Daartoe moet echter eerst individuele studiebegaafdheid, , ^naioog
aan Vi k - formule (4) - gedefinieerd worden"':

(e) verwissel teller en noemer en de richting van de ongelijkheid;
dan krijgen we de volgende formule voor geschiktheidsvoorwaarde I:

' Al deze formules gelden in de werkelijkheid - met al haar marges - alleen 'ten naaste bij'; daarmee
wordt hier echter geen rekening gehouden.

' Dit substitueren van k door T - d.i. de hele studie zien als één, quasi-homogene leertaak - leidt
natuurlijk wel tot een globaal begaafdheidsbegrip; maar de operatie is toch (globaal) verhelderend; zie
ook 2.6.

In deze formule zijn duidelijk de twee compensatiemogelijkheden voor een relatief ge-
ringe individuele studiebegaafdlieid (eerste factor) af te lezen: meer inspanning per jaar
(jaar-uren; tweede factor) en meer volledig gebruik van de maximale inschrijvingsduur
(derde factor). Beide zijn aan grenzen gebonden: de tweede factor aan de persoonlijk
haalbare maximale jaarlast, de derde aan de door het systeem gestelde D-grens, in het
bijzonder de verhouding tussen D en C. In een zuiver 'expeditiemodel' is de derde factor
gelijk aan 1; in een zuiver Veldloopmodel' — type: 'De tijd maakt allen arts' — is de
laatste factor groot, en onbepaald. Daar komt echter geschiktheidsvoorwaarde II aan bod
(zie 2.4) - die laat zien dat 'allen' overdreven is.

Voor sommige doeleinden hjkt het nuttig formule (10) iets eenvoudiger te schrijven.
Zoals Vn,t gehjk 1 is gesteld, zo kan men ook de normatieve jaariast, Ln, als eenheid van
inspanning beschouwen (dus Li(max) relatief meten) en schrijven:

Links staat dan: studiesnelheid maal maximale inspanning van Sj; en dat is, in een systeem
met een D-grens, te lezen als de bovengrens van Sj's geschiktheid. Rechts staat een
uitdrukking voor (een bepaald aspect van) de contractsterkte van het systeem - maxunaal
gehjk 1 en minimaal tot O naderend (als D onbepaald groot is).

Tot dusverre zijn wij uitgegaan van leertaken (tk) als vooraf gedefinieerde en ondeelbare
eenheden met bijbehorende 'zwaarte' (In.ic)- Men kan echter die zwaarte ook opvatten als
een uitdrukking van de grootte van een leereffect; immers hoe groter de normatieve
tk-last - d.i. de normatieve leertijd in standaarduren is - des te groter is het leereffect.
&hrijft men de grootte van het tk-leereffect als Ek, en stelt men die bij definitie gelijk
aan lN,k, dan is formule (4a) als volgt te lezen: 'Voor Si is de grootte van het door hem te
bereiken of bereikte (tk-)leereffect gelijk aan het produkt van zijn (tk-)begaafdheid en
zijn (tk-)inspanning'. In formule:

Dit is de in 1.6 bedoelde produktwet; gegeneraliseerd:
(11a) E = v.l (voor alle Sj en aUe soorten leertaken)

Aangezien 1 een tijdmaat is en v een (relatieve) snelheidsmaat ligt het voor de hand (11)
en (11a) te lezen naar analogie van de mechanica-formule voor de afgelegde weg bij een
eenparige beweging (s = v.t), als volgt:
voor iedere student geldt:

'Afgelegde leerweg (E) = leersnelheid maal bestede tijd'. Zo geformuleerd zou het een
'echte' (natuurwetenschappelijke) wet kunnen zijn; en de vraag rijst m hoeverre dit is vol
te houden.

Op grond van de dagelijkse ervaring en ons spraakgebruik is er wel iets voor te zeggen. De
idee van een af te leggen (leer-)'weg' ligt besloten in uitdrukkingen als: het 'doorlopen'
van een 'cursus', het maken van Vorderingen' of Voortgang', in een 'leergang'; de term

'curriculum' (Lat.) betekent 'het te doorlopen' (parcours); termen als 'veldloop-model'
en 'expeditie-model' etc. spreken onmiddellijk aan. Wij gaan er ook gewoonlijk van uit,
dat een leerling of student 'steeds meer leert' van een onderwerp of vak (een leertaak, t^)
'naarmate' hij er meer leer-tijd m steekt - dat is al, globaal, een veronderstelde evenredig-
heid. Ter wille van de duidelijkheid van onze akkoord-theorie zijn echter, minstens,
enkele kwalificaties nodig.

Zou de idee van een eenparige beweging langs een t^-leerweg — waarbij t^ nader te
bepalen is — perfect houdbaar zijn, dan zou E een continue functie van 1 zijn (1), waarvan
op ieder punt in de (verhoudings)schaal de waarde gedefinieerd is (2) en het differentiaal-
dE

quotiënt, —te bepalen is (3). Verder wordt verondersteld, dat men voor een adequate
dl

(akkoord-)theoretische beschrijving zou kunnen volstaan met één (begaafdheids)para-

meter, Vj (4), en tenslotte dat het eenparige voortgangsmodel, met constante — = Vj,

Het is duidelijk dat zij te veel vragen. Zo opgevat wordt het model onreahstisch. Wat

Tegen het postuleren van continuïteit van E als functie van 1 is, als theoretische bena-
dering, op zichzelf niet zo veel in te brengen.® Er zijn wel ervaringsfeiten die ertegen
pleiten - b.v. plotselinge inzichten en plotseling 'de hele draad kwijtraken' (dus: substan-
tiële positieve en negatieve leerwinsten, AEk, terwijl praktisch gesproken Al^ = O is) -
maar daar is wel een mouw aan te passen. De ad hoc-hypothesen zijn bekend: ook een
plotselmg mzicht is eerst 'gerijpt', en wat je plotselmg kwijt lijkt te zijn Cvergeten') 'weet
je eigenhjk nog wel'. Het wordt echter moeilijker als we (2) en (3) in de beschouwing
betrekken. Deze veronderstellingen zijn niet empirisch waar te maken; het is duidelijk dat
E niet op ieder willekeurig punt in de schaal te meten is, laat staan te differentiëren is.
Hoe het bij Si met E staat, ds hij 'onderweg' is naar een inzicht, in zijn leerproces, is zeer
vaak onbepaalbaar. In spreektaal: juist 'halve kennis', van een onderwerp of een vak, en
juist 'halve waarheden' zijn slecht te meten; wie die uitdrukkingen gebmikt bedoelt er -
merkwaardig genoeg - juist niet mee dat Sj 'op de helft' van zijn leerproces is. Waar hij
wel is, is 'halverwege' niet te bepalen. Kort: leren gaat bij brokken. Men kan weliswaar
grote brokken tot op zekere hoogte tot kleinere reduceren - van vak naar onderwerp,
naar afzonderlijke deelvaardigheden en kennisinhouden - maar er komt een punt waarop
dit ophoudt^, d.w.z. een punt waarop men wel de beheersing van een (deel-)vaardigheid,
kennis-mhoud of inzicht kan bepalen maar niet de 'halve' beheersmg daarvan, onderweg
in het leerproces. Dit alles geldt zeker m de (tertiaire) onderwijspraktijk. Alleen op zekere
discrete punten op de tk-leerweg, en wel op punten die bepaald worden door vak-inhou-
den, -samenhangen en kwalitatieve voorwaarden, kan men de mate van Si's ti^-beheersing,
en dus de grootte van E definiëren, en zmvol E-bepalmgen (en leerwmst-, dus AE-)bepa-
hngen verrichten.

® De behandeling hier is niet alleen korter, maar ook anders - hopelijk beter (en dan mede dankzij
kritische opmerkingen, met name van collega J. Muilwijk) - dan in de oorspronkehjke Normstudent-
Memo's; de praktische conclusies zijn echter dezelfde.

' De vraag hoe 'groot' op een bepaald leergebied een minimaal - of 'molair' - leerbrok is (b.v. 'een
inzicht') en de vraag hoe groot één leerbrok-eenheid maximaal kan zijn - vgl.: Hoe groot is een
chunki - verdienen in combinatie een nadere analyse; maar dit moet hier bhjven rusten.

Kan men voor een adequate beschrijving van een tk-leerproces, in het kader van het
normstudent- en studielastmodel, met één begaafdheidsparameter volstaan - nog onge-
acht de vraag of eenparige voortgang wordt aangenomen (4)? Ook dit is problematisch.
Dit postulaat moet echter worden vastgehouden. Dat is nodig om theoretische redenen
van economie en om praktische redenen van bruikbaarheid. Deze veronderstelling komt
erop neer dat een leertaak, t^, geacht wordt een betrekkelijk homogene eenheid te zijn;
homogeen in die zin, dat tk in zijn verschillende onderdelen in hoofdzaak een beroep doet
op eenzelfde begaafdheidsfactor.'® Voor de houdbaarheid van deze homogeniteitsver-
onderstelling pleiten twee argumenten. Ten eerste corresponderen de bestaande verdelin-
gen van eindtermen in onderdelen - verschillende vakken, praktische en theoretische
onderdelen, etc. - zelf al vrij aardig met verschillen in de begaafdheidsfactoren waarop zij
een beroep doen. Volgt men bij de definitie van tk-eenheden dus de bestaande indeling,
dan wordt het desideratum - relatieve homogeniteit binnen en heterogeniteit tussen
leertaken tk — al vrij goed vervuld. Ten tweede kan men, indien dat uit dit oogpunt
wenselijk is, de partitie van T in leertaken, tk, herzien. Zijn bepaalde onderdelen sterk
heterogeen, dan is het gewoonlijk ook om onderwijskundige redenen, die niet met het
studielast- en normstudent-model te maken hebben, wenselijk om te splitsen of te herver-
delen zo dat de homogeniteit per onderdeel (leertaak, tk) groter wordt.
Tenslotte de veronderstelde eenparigheid (5), de lineaire toename van E, de constante
leersnelheid van S,, per leertaak: is die eigenlijk wel te verdedigen? Er zijn nogal wat
empirische contra-argumenten. Bekend is de ervaring - en de onderzoeksbevinding - dat
leren soms goed, soms slecht 'opschiet'. Bekend is ook de 'plafond-ervaring': Verder dan
ik nu ben, kan ik (op dit leergebied) niet komen. Daarbij ligt het voor de hand aan te
nemen dat voor de leerder (Si) dit plafond de asymptoot van zijn leercurve zal zijn; d.w.z.
zijn leersnelheid is niet constant maar neemt af, tot 0. Bekend is uit onderzoek dat er in
leerprocessen 'plateaus' en vele andere compUcaties kunnen voorkomen - blokkeringen,
ook terugval - die in strijd zijn met vj = constant.

De argumenten om toch het eenvoudige produktmodel met constante begaafdheidspara-
meters te handhaven zijn:

(2) Het gaat om een theoretische achtergrond-variabele, E, waarvoor de meetpunten in
praktisch alle (tk-)gevallen schaars zijn; alleen een globaal benaderingsmodel is toets-
baar en bruikbaar — argument (1) wint daardoor aan kracht.

(3) Empirisch gevonden niet-lineaire leercurven vertonen zeer uiteenlopende structuren;
zij blijken leertaak-specifiek te zijn.

Conclusie: Het eenvoudigste produktmodel van de formules (11) en (11a) is vooreen
algemene, niet leertaak-specifieke akkoordtheorie de best mogelijke benadering - mits de
interpretatie rekening houdt met de hierboven aangegeven grenzen en kwalificaties. Voor
grafische voorstellingen van het leerproces betekent dit vooral dat er maar weinig (1,E)-
punten definieerbaar en empirisch bepaalbaar zijn, maar dat men daarvan wel kan aan-
nemen dat zij op de rechte E = v.1 hggen (11a).

In verband met het onderwerp van de vorige alinea's kan worden opgemerkt dat het bij een
niet-homogene leertaak, waarbij verschillende begaafdheidsfactoren in het spel zijn, uiterst moeilijk
wordt om tussenliggende meetpunten - tussen O en Ek - zo te organiseren dat men er 'dezelfde' E (of
AE) zou meten.

Gaat men uit van formule (11): Ek = vj^k-li.k en van het postulaat dat men met die ene
begaafdheidsparameter, Vj^k. kan volstaan, dan zou het kunnen lijken dat iedere leerling/
student, Sj, iedere gewenste grootte van Ek kan 'halen', als hij er maar voldoende tijd in
steekt. Is de consequentie van het model dus dat 'iedereen alles kan leren"]
Deze uitspraak is wel verdedigd, en zelfs niet aUeen als consequentie van een (vereenvou-
digend) theoretisch model, maar als ware het een - verrassende, en opbeurende - empi-
rische generahsatie van moderne bevindingen van onderwijskundig onderzoek. Dat de
bewering als zodanig onhoudbaar is behoeft nauwelijks betoog (zie echter De Groot
1973). Maar: betekent dit nu ook dat onze hele akkoordtheorie, en in het bijzonder
formule (11) onhoudbaar is?
Dit is niet het geval.

In de eerste plaats kan Vi_k = O zijn. Er bestaan leertaken waarvoor men die mogelijkheid
bepaald niet moet uitsluiten, bij voorbeeld op het gebied van (hogere) wiskunde. Niet zo
weinigen hebben daarvoor een aanleg (tk-begaafdheid) die kan worden vergeleken met die
van de mens om te-vhegen-als-een-vogel (zie 1.6); dus Vj^k = O-

ln de tweede plaats - en dat is een nog belangrijker argument - kan een wel positieve
maar relatief lage begaafdheid, Vj_k, alleen dan door een hoge tijdsinvestering. Ij k, gecom-
penseerd worden als die tijdsinvestering realiseerbaar is. Ook als er géén sprake is van een
systeem-beperking met bijbehorende geschiktheidsvoorwaarde (I) - zie 2.2, formules (10)
en (10a) - zijn er allerlei factoren die onbeperkt opvoeren van h^k onmogelijk maken.
Men kan ze kenschetsen als bio-sociale randvoorwaarden. Het hele leven is beperkt van
duur; de 'eeuwige' student die 'permanent' studeert bestaat natuurlijk niet. De werkdag is
kort; er is een veelheid van andere behoeften die ook vervuld en van andere praktische
zaken die ook behartigd moeten worden; er zijn ook andere, 'concurrerende' leertaken; er
zijn grenzen aan de studiebelangstelling, de volharding, de motivatie - zeker bij lage Vj k,
dus als het effect per tijdseenheid gering is. De grenzen die al deze factoren aan 'de
tijdsbesteding van S; stellen - wat hij aan last kan 'opbrengen', per taak (h^k), èn per jaar:
Lj (max) - kunnen relatief lage Vi^k-waarden prohibitief maken.

Deze overwegingen zijn te formuleren als een nieuwe geschiktheidsvoorwaarde, die in
tegenstelling tot de eerste - I, zie formules (10) en (10a) - niet van systeem-kenmerken
zoals cursus- en inschrijvingsduur (en wel met name C/D) afhankelijk is. De vraag waar het
in eerste instantie om gaat is, of de door een bepaalde student (Sj) voor een bepaalde
leertaak (tk), gegeven zijn matige begaafdheid (vi,k), op te brengen studielast (Ij^k) 'te
veel' wordt om voor hem 'reëel' te zijn. Is dit het geval dan is hij niet geschikt. Denken wij
(voorlopig) alleen aan één bepaalde taak - m.n. een moeilijke, 'kritische' leertaak (zie
2.5) - en aan een persoonlijke tijdbestedings-bovengrens van Sj voor tk, van de grootte
Xi,k — in die zin dat voor S; de tk-last 'de pan uit rijst' (onaanvaardbaar wordt) indien
deze groter dan X, k dreigt te worden, dan hebben we te doen met geschiktheidsvoor-
waarde II:

Vervolgens kan men aannemen dat er ook een algemene tijdbestedingsbovengrens voor t^
geldend als voorwaarde voor succes voor alle Si (ook de bijzonder taaie studeer-
ders). Dit leidt tot een algemenere vorm van geschiktheidsvoorwaarde II:

(13) < Xk (voor {sSi>, waarbij geldt: X^ > Xi_k)
of, als voorwaarde voor de grootte van Vj^k^

Tenslotte nog algemener: vat men de gehele opleiding als één leertaak op — vgl. 2.2,
formule (9) — dan geldt analoog, voor (jSi):

Wie, gegeven de algemene bio-sociale randvoorwaarden van 'studeren' - en niets meer dan
dat: ongeacht door het systeem gestelde grenzen - tè langzaam opschiet met zijn T4eer-
proces, is T-ongeschikt.

Vermoedehjk maken al deze overwegingen een nogal triviale (en de formules een infan-
tiele) indruk. Dat zijn ze echter niet. Het eenvoudige produktmodel is alleen houdbaar en
aanvaardbaar mèt de biosociale randvoorwaarden waar het hier om gaat — weglaten ervan
leidt tot dwaze conclusies zoals we al gezien hebben - en de eenvoudige vorm waarin zij
zijn gegoten m de formules (12) t.m. (14) zal in het volgende praktisch bruikbaar blijken.

Leertaken, tk, kunnen onderhng sterk verschillen niet alleen naar de grootte van de
bijbehorende normatieve taaklasten, In.k. maar ook naar aard en inhoud, en daarmee naar
het type tk-begaafdheden waarop zij een beroep doen. Deze laatste verschillen kunnen
zich in ons model alleen uitdmkken in verschillen tussen Vj^k-^erdelingen m de doelpopu-
latie, {S;}. Eén zo'n mogelijk verschil is in 2.4 al aangeduid: sommige leertaken zijn
'kritisch', andere niet. Bij een kritische leertaak (te onderscheiden door een asterisk), t^,
kari, bij definitie, geschiktheidsvoorwaarde II een belangrijke rol spelen. Dat wil zeggen
dat daarbij Vj^k-waarden in de populatie voorkomen die n/er voldoen aan (12) en/of (13);
en dat is weer aheen mogelijk voor leertaken die een relatief grote spreiding in leersnel-
heden te zien geven: b.v. 'zware' vakken, die weliswaar sommigen aanwaaien maar die
voor anderen te zwaar zijn (volgens het model: omdat hun t|^-leersnelheid, v,*k, te gering
is).

Is de doelpopulatie, (Sj}, en zijn bepaalde leertaken, tk, met bijbehorende behandelings-
wijze (beoordeling) eenmaal gedefinieerd, dan is de vraag naar de desbetreffende begaafd-
heidsverdelingen - of omgekeerd, naar de verdelingen van de individuele taaklasten, Ij ^ -
uiteraard een onderzoekbaar, empirisch probleem. Er is echter over dat probleem op
grond van kennis en ervaring, aangevuld met een paar definitorische bepalingen, wel iets
algemeens te zeggen. De volgende typologie van leertaken hjkt goed verdedigbaar en
bruikbaar.

1. Het (extreme) prototype van een niet-kritische leertaak - om daarmee te beginnen -
is dat van een taak met tijdlimiet (vgl. Kouwer, 1952), waarbij uitsluitend H-eisen worden
gesteld (zie COWO 3, 1972, p. 45 e.v.). D.w.z. iedere student moet bepaalde dingen doen
- handehngen (H) verrichten - en wel gedurende een vastgestelde en (ten naaste bij) voor
allen gehjke tijd; bij voorbeeld een verpUchte stage, een reeks praktische oefeningen,
waarvan men kan zeggen: 'Dat duurt drie weken', of 'Dat kost je twaalf middagen'. Wat

precies de bedoelde leereffecten zijn wordt nogal eens in het midden gelaten - vaak zijn
zij van het type 'rapporteerbaar inzicht' en 'communiceerbaar zelfinzicht' (vgl. De Groot,
1976) - maar men gaat er stilzwijgend van uit dat iedere student uit de populatie de
leertaak aankan, dus dat iedere Si aan de minimum-eisen voldoet mits hij de vastgestelde
tijd inzet: Ij^k = lN,k voor aUe i. De consequentie is dat ook de leersnelheid constant is;
voor alle Si geldt: Vi,k = VN,k = 1 - geen spreiding.

Hier toont ons werkmodel duidelijk het karakter van een akkoordtheorie - waarin de
conventie geldt dat begaafdheidsverschillen waarop qua voldoen aan de minimumeisen
niet gelet wordt, behandeld worden alsof zij niet bestaan. Voor een psychologische
theorie over begaafdheidsverschillen zou deze conventie - trouwens ook het niet letten
op (verschillen in) leereffecten — natuurlijk onaanvaardbaar zijn. In onze onderwijskun-
dige akkoordtheorie is de.ze werkwijze echter adequaat: aansluitend bij de beoordelings-
praktijk.

2. Tegenover type 1 staan taken met werklimiet, waarbij voor alle Si gelijke, scherp
omschreven P-eisen gelden (COWO 3, op. cit.): een prestatieniveau dat goed gemeten of
intersubjectief zeer betrouwbaar beoordeeld kan worden, en gehaald moet worden. De
Vi,k-spreiding kan groter of kleiner zijn.

Niet aUe type-2-taken zijn 'kritisch'; maar alleen die (tj^), waarvoor de Vi^k-spreiding groot
is en waarvoor zich m {Si} gevallen voordoen waarbij (12) en ook (13) niet vervuld zijn:
vf k EkAk voor sommige Si." Uit ervaring weten we dat zulke kritische onderdelen in
hét tertiaire onderwijs meestal'^ leertaken zijn gericht op het leereffect-type 'afvraagbare
kennis' (De Groot, 1976), met een abstract, dikwijls wiskundig karakter.

3. Het derde hier te onderscheiden type is een mengvorm (tussen tijd- en werklimiet),
die het beste te kenschetsen is door het type leereffect dat beoogd wordt: het gaat om
complexe 'demonstreerbare vaardigheden' (Jie Groot, 1976). Standaardvoorbeelden voor
dit type tk zijn het (kunnen) maken en schrijven van een scriptie of een onderzoeksver-
slag, of het (kunnen) voorbereiden en houden van een colloquium-voordracht.

Ctok hierbij treden m de werkelijkheid (maar daarom nog niet precies zo in de akkoord-
theorie) grote verschillen in begaafdheid op. In de beoordelingspraktijk worden die ver-
schillen niet met vaste maatstaven gemeten (zoals bij type 2) en ook niet geheel 'weg-
gewerkt' door een vaste tijdhmiet-afspraak (zoals bij type 1). Bij type 3 worden zij
getemperd door een zekere individualisering - aanpassing aan Si's begaafdheid - van de
eisen. Weliswaar moet de scriptie afgemaakt, of de voordracht gehouden worden, welis-
waar zijn er eisen waaraan het werk (c.q. het produkt) moet voldoen. Maar het antwoord
op de vraag hoe omvangrijk, hoe diepgaand, hoe moeilijk de door Si te verrichten of
verrichte taak in feite is, varieert in de praktijk sterk met wat hij. Si, geacht wordt of
blijkt aan te kunnen. De docent, juist de goede docent, houdt daarmee rekening; hij
verdeelt zijn taken en stelt zijn eisen mede 'naar draagkracht'. Daarmee verkleint hij de
spreidmg m de feitehjke taaÜasten (li^k) aanzienlijk. Houden wij nu vast aan de defini-
tie Vi_k = iN.k/li.k (4). dan bestaat de hier optredende 'vertekenmg' van de realiteit van
de begaafdheidsverschillen niet uit het verdwijnen van alle begaafdheidsspreiding (zoals bij
type 1) maar uit een substantiële vermindering van de Vi k-spreiding.

" Behalve van de grootte van de Vi^k-spreitl'ng hangt de vraag of een leertaak kritisch is ook van de
omvang ervan af ON.k)- Is deze klein d'an kan het niet veel kwaad als een student er vijf of tien keer zo
■ang als de normstudènt over doet.

" Kunst-, muziek- en theater-opleidingen, waar de nadruk valt op een hoog 'performance'-niveau,
moeten hier worden uitgezonderd (vgl. COWO, 1972, p. 79).

In de onderwijspraktijk vloeit die vermindering voort uit het feit dat de docent, voor wie
studenten bij voorbeeld een scriptie moeten maken, zowel met een norm voor de taak-
omvang werkt (tijdlimiet) als met een prestatie-norm, d.i. met een moeilijkheids- en/of
kwaliteitsnorm (werklimiet), en wel beide met een vrij grote tolerantie. Zou hij een scherp
gedefinieerde kwahteitsnorm hebben en alléén daarop letten (werklimiet), dan zou, bij
een veronderstelde normatieve last In^^ = 100 (standaarduren), een zeer goede student
(nr. 1) om die norm precies te halen misschien 40 uren nodig hebben (Ij^k = 40), een
zwakke student (nr. 2) daarentegen 250 uren (l2,k = 250); echter, door de individualise-
rende taakverzwaring respectievelijk verhchting — naar draagkracht — worden de wer-
keUjke studielast waarden bij voorbeeld: Ij^^ = 80 en li^k = 125. Dat betekent dat de
vj^k-verschillen 'getemperd' worden:

Vi ,k = 100/80 = 1,25 (in plaats van 2,5)
V2!k = 100/125 = 0,8 (in plaats van 0,4)

Aangezien de individuele tk-begaafdheid, Vj^k> ^^n snelheidsmaat is die in een verhou-
dingsschaal gemeten kan worden, kan men de grootte van de in {Si} optredende begaafd-
heidsverschillen, per tk, zinvol uitdrukken in een verhouding die aangeeft hoeveel maal zo
vlug als een 'tk-langzame' student een 'tk-vlugge' student is. Nemen we voor 'vlug' en
'langzaam', bij voorbeeld, respectievelijk het negende deciel, Vk(9), en het eerste deciel,
Vk(l), in de Vi,k-verdeling in de doelpopulatie, {Si}, dan is de spreidingsverhouding, gk,
in {Sj} te definiëren als:

Nemen we aan dat de in het voorbeeld zojuist genoemde getalswaarden een idee geven van
wat voor de drie tk-typen te verwachten is - gesteld dat Vj^k = Vk(9) en vj.k = Vk(l) -
dan vinden we gk-uitkomsten van de grootte-orde:

voor tk-type 1: gk = 1 (bij definitie)
voor tk-type 2: gk = 250/40 ~ 6
voor tk-type 3: gk = 125/80 ~ 1,5

Deze getallen dienen echter alleen om de gedachten te bepalen. Voor meer serieuze
gk-schattingen is - onder meer - een nadere bepaling van de doelpopulatie onmisbaar
(zie deel II, 3.5).

" In het algemeen is het effect van taak-individualisering - evenals van beheersingsleren - dat
individuele begaafdheidsverschillen er gedeeltelijk door gemaskeerd worden. Terwijl dit in het geval
van beheersingsleren voornamelijk gebeurt door verschillen in li^k ('l.k l2,k) van weinig belangte
verklaren, óók bij type 2-leertaken - o.i. ten oruechte (vgl. 2.4) - maskeren de, overal gebruikeUjke,
individualiseringsprocedures alleen, voor een deel, verschillen m.b.t. leertaken van type 3 (en 1). De
akkoordtheorie gaat hierin mee; dat lijkt ons reëel en onbezwaarlijk (type 2, met name tjj's bhjven
onverlet).

Tot besluit van de behandeling van het algemene model zijn nu een paar opmerkingen op
hun plaats over de wijze waarop de studiebegaafdheid, Vj.x - van beslissend belang voor
studiegeschiktheid, zie (10) en (14) - afhangt van de verschillende tk-begaafdheden Vi k
(k = l,2...n). Door toepassing van de formules (5) en (9) is dat verband als volgt te
schrijven:

Aangezien lN,k = Ek (zwaarte van tk) en In^x = Et (zwaarte van T), kunnen we, door
invoering van de relatieve t^-zwaarte, ek, gedefinieerd als:

formule (16), door deling van beide leden door 1n,t> omvormen tot:
(16a) — = S e^/vi.k

ln woorden: De totale studiebegaafdheid van Sj is het gewogen harmonisch gemiddelde
van zijn leertaak-begaafdheden - gewogen naar de relatieve normatieve leertaak-zwaarten.
Met deze formule valt wel te werken. Er volgt bij voorbeeld uit dat (voor alle i) vi_x ligt
tussen Vi,k(max) en Vi,k(min). Verder is onmiddellijk te zien, dat de Vj^x-uitkomst', dus:
Si's T-(studie-jbegaafdheid, sterk kan afhangen van één of meer termen met (relatief hoge
Ck en) een sterke Vi,k-spreiding, dus van! Si's tl-begaafdheden.

Toch is zo'n harmonisch gemiddelde wat ongemakkelijk; en dat leidt tot een - laatste -
propositie, die ook in ander verband wel eens verdedigd is, namelijk begaafdheden re-
ciprook te meten: leertraagheid in plaats van -snelheid, 'domheid' in plaats van 'slimheid',
en tijd-behoefte voor het volbrengen van een leertaak(-type), tk, in plaats van begaafd-
heid, vlugheid van begrip. Definiëren we de individuele relatieve t^-tifdbehoefte, ti_k, als:

en overeenkomstig: de individuele relatieve T-studietijdbehoefte, ti^x (substitueer T voor
k), dan wordt (16a) vereenvoudigd tot:

Hoewel deze formule alleen een omvorming is van (9) op grond van (5) en enkele nieuwe
symbool-definities, namelijk (11), (17) en (18), kan zij toch haar nut hebben. In tegen-
stelling'tot li k en h X - in principe: empirisch te bepalen tijden — verwijzen ti_k en ti^x>
als reciproken van de begaafdheden Vi^k en Vi,x, naar het kunnen van Si, relatief gemeten;
terwijl ek, in tegenstelling tot Ijsi^k - de geschatte normatieve leertijd behorende bij de
gegeven taak, tk - kan worden gelezen als de grootte van een leereffect (dat van tk, maar
eventueel ook als ACk; vgl. 2.3). Formule (16b) leent zich beter dan (9) tot generahsatie
en theorie-ontwikkeling. Wij laten dit nu echter rusten.

Ook kan het zinvol zijn (16b) te gebruiken om de geschiktheidsvoorwaarden I en II
anders te schrijven. We krijgen respectievelijk als ondergrens voor tj^x voor geschiktheids-
voorwaarde I:

en bij geschiktheidsvoorwaarde II formules van het type ti_k < een constante, respectieve-
lijk ti_x < een constante: grenzen aan de relatieve leertijdbehoeften van individuele Si
waarboven 'het niet meer gaat'. Dat is de meest concrete zijde van het geschiktheidspro-
bleem.

Baerends, G.P., e.a. Over welzijn. Criterium, onderzoeksobject, laeleidsdoel. Een interdisciplinaire ana-
lyse. Deventer: Van Loghum Slaterus, 1978.

Bloom, B.S. Handbook on formative and summative evaluation of student learning. New York:
McGraw-Hill, 1971.

Carroll, J.B. Language and thought. Englewood Cliffs, N.J.: Prentice-Hall, 1963.

Commissie Ontwikkeling Hoger Onderwijs. De invoering van een studiepuntenstelsel in het hoger
onderwijs. Publikatie nr. 5. Den Haag: Staatsuitgeverij, 1975.

Commissie Ontwikkeling Wetenschappelijk Onderwijs. Selectie voor en in het hoger onderwijs. Een
probleemanalyse. Publikatie nr. 3. Den Haag: Staatsuitgeverij, 1972.

Commissie Voorbereiding Herprogrammering Wetenschappelijk Onderwijs. Vijfde werkstuk: Naar een
nieuw Academisch Statuut. Den Haag: Academische Raad, 1976.

Groot, A.D. de. 'Ieder kan op den duur alles leren'; gaat u ook nooit iets boven uw pet? Onderzoek
van Onderwijs, 1973, 2, 3, 9-10.

Groot, A.D. de. Hoe stelt men eindtermen op? Universiteit en Hogeschool, 1974, 20, 5, 213-232.

Groot, A.D. de. Denkschema's voor herprogrammeerders. In: A.I. Vroeijenstijn en W.M. van Woerden
(red.). Onderwijsresearch en praktijk. Derde nationaal congres Onderzoek van wetenschappelijk
onderwijs. Dl. 2. Delft: Delftse Univ. Pers, 1976.

Groot, A.D. de. Strategieën voor Forum-convergentie. Ned. Tijdschr. Psychol, 1977, 32, 7, 397-421.

Holjeman, J.W. Lijnen trekken in de chaos. Onderzoek van Onderwijs, 1975,4,1,14-16.

Kouwer, B.J. Tests in de psychologische practijk. Utrecht: Bijleveld (1952) 1957.

Postliumus, K. Middelbaar onderwijs en schifting. In: A.G. Vroon en S.E.M. Everwijn (red.), Hand-
boek voorde onderwijspraktijk. Afl. 4, sept. 1978, 5.4, Pos. 1-16. Deventer: Van Loghum Slaterus.

Further Applications of Bayesian Statistical
Methods to the Prediction of Performance
in Secondary Education

This paper contains the preliminary results of an attempt to implement a central prediction
system usmg the Bayesian m-group regression method developed by Novick, et al.
The method was apphed to data from three separate groups of schools of secondary education.
Least-squares and Bayesian regression equations were estimated in a vahdation sample and
cross-vahdated in a second sample. The results indicated a modest superiority of the Bayesian
method.

In a previous publication Jansen (1977) described a Bayesian method developed by
Jackson, Novick and Thayer (1971) based on theoretical work by Lindley (Lindley, 1970
and Lindley and Smith, 1972) for the shnultaneous estimation of regressions m m
groups), where the groups are beheved to be shnilar on a priori grounds.
The method was apphed to two data sets from a testmg program, the 'Emdtoets Basis-
onderwijs' of the National Institute of Educational Measurement (CITO), which is cur-
rently used for admission to secondary education. The m groups were twelve schools of
General Intermediate Continued Education (mavo-schools) and twenty-one schools of
Elementary Vocational Education (l.b.o.-schools). In both groups regression equations
were obtained for a back-sample and cross-vahdated in a second sample.
The Bayesian predictions proved to be superior to the within-schools least-squares predic-
tions in both groups of schools. The results were essentially the same as those obtained m
the cross-validation study conducted by Novick, Jackson, Thayer and Cole (1972) m the
context of the admission to college.

The present study presents the first results of the experunental hnplementafion of a
central prediction system for the 'Eindtoets Basisonderwijs', which uses a Bayesian
model.

The validation sample used in this study consisted of roughly two thousand students who
were admitted to schools of secondary education in a large town m the southern part of
the Netheriands m the fall of 1977.

1. Present address: Instituut voor Onderwijskunde, R.U. Groningen, Westerhaven 16, 9718 AW Gro-
ningen.

• Schools offering both higher general education and pre-college education (havo/
v.w.o.).

Two schools were excluded from the study because they did not fit into the classifica-
tion. Both schools could not be considered exchangeable with schools from any one of
the types, nor with each other.

The students who participated in the study were tested in the spring of 1977 with the
'Eindtoets Basisonderwijs'. The predictors used consisted of two sub-scales, a language
and an arithmetic scale.

The criterion measures were collected after the completion of the first term in secondary
education. Two major criteria were applied in selecting these variables. First the local
educational authorities had to consider them relevant operationahzations of school suc-
cess.

Second the assumption of their predictability by the test scores we were using should be
reasonable. For that reason grades of vocational technical subjects were excluded. Finally,
four different combinations of school grades were chosen:

We will only give the results for the last of the four criterion variables; i.e General GPA

A full discussion of the theory of m group regression is given by Lindley and Smith
(1972). A detailed descripton of the method is given by Jackson, Novick and Thayer
(1971), Novick, Jackson, Thayer and Cole (1972) and Jones and Novick (1972) and will
therefore not be repeated here.

Bayesian estimates of the regression parameters may be obtained by the solution of the
so-called Lindley equations.

In the case of two predictor variables, Xj and X2, the Lindley equations written out in
full are:

Where yjj and x^jj are criterion and predictorscores, respectively, of tlie j-th student in
the i-th school for i = 1, ..., m schools,] = 1,..., nj students and h = 1, 2 tests. Tlie vector
|3ii, Pzu <Pi) contains die regression parameters of the ith school, where ai is the
intercept, jSn and are the regression weights and 0i is the residual variance.
The quantities X«, X^i and X^jj are related to prior beliefs about the population variances
of the intercept and slope parameters. The 7? is the geometric mean of the residual
variances, <pi, and 6 the harmonic mean. The constant k is introduced to prevent diver-
gence at the point where all 0i are equal.

The solution of the Lindley equations is accompUshed tlirough an iterative procedure in
which the within-schools least-squares estimates are used as starting values for the itera-
tions.

hi tables 1, 2 and 3 we give the resuhs of both the within-schools least-squares and the
Bayesian regression analysis of the three school types.

The symbol a refers to the intercepts, Pi and P2 to the regression weights corresponding
to the Language and Arithmetic scores. The columns labeled 0 contain the estimated
residual variances. The sample multiple correlations of Language and Arithmetic with
CPA are given in the columns with heading R.

The highest values for the coefficients are generally to be found with Ibo- and havo/vwo
schools. In the Ibo-group the correlations range between .33 and .70.
In the mavo-group we find somewhat lower values, ranging between .28 and .53. All these
values are fairly typical for vahdity coefficients in this context.

A striking feature of the tables is the similarity of the estimated regression parameters
within school types, although differences clearly exist, and on the other hand the dis-
similarily across the school types.

For the l.b.o.-group for example we find least-squares estimates of the intercepts varying
between values of approximately 30 and 60, while in the havo/v.w.o.-group we find
negative values centering around minus 25. One of the main reasons for this phenomenon
is the marked difference in mean performance level on the predictor variables between
schools of the three groups. Remarkable also is the presence of one negative value among
the least-squares estimates of the regression slopes.

Comparing the least-squares with the Bayesian estimates we see that the general effect has
been to moderate the extreme values throughout. This effect is not so strong for the
intercepts, but the slope parameters are substantially changed. In the l.b.o.-group the
regression weights of the language variable are even totally regressed to a common value
of 0.32, due to the very small value of the estimated population variance of the weights
of this variable.

Breda Data, nine L.b.o.-schools: Regression of General GPA on Language and Arithmetic Scores*
School Intercept Regression weights Res. Var.

Breda Data, four Havo/v.w.o.-schools: Regression of General GPA on Language and Arithmetic Scores
School Intercept Regression Weights Res. Var.

A comparison of least-squares and Bayesian Predictions of CPA. The 1978 Cross-Validation Sample-
L.b.o.

A comparison of least-squares and Bayesian Predictions of CPA. Tlie 1978 Cross-Vahdation Sample:
Mavo

A comparison of least-squares and Bayesian Predictions of CPA. The 1978 Cross-Vahdation Sample:
Havo/v.w.o.

Also we managed to get rid of the negative regression weight of l.b.o.-schools. In situations
like this, negative weights are a problem because it is unlikely that the true values are
negative.

Certainly, we would not recommend the use of regression equations containing negative
weights in practical guidance situations.

Although the Bayesian estimates are much more similar than the least-squares estimates
we still find substantial differences across schools of the same type, which supports our
claim that pooling would be sub-optimal.

The claim that Bayesian estimates do produce a meaningfull increase in predictive effi-
ciency needs the support of a cross-vahdation study. The Bayesian and least-squares
regression equations were cross-validated in a second sample, consisting of pupils who had
entered the same schools in the fall of 1978.

The predicted grades were compared with those actually obtained using four loss func-
tions criteria: The average of the absolute differences (AVE), the mean squared differ-
ences (MSE), the correlations (COR) and a Zero-One loss function (ZOL).
A difference between the predicted and observed grades of more than half the observed
standarddeviation was counted as one error. The number of errors was averaged. The
main results are given in table 4, 5 and 6. The results indicate that the Bayesian equations
perform somewhat better, especially according to the mean squared error criterion. The
reduction in M.S.E. comparing Bayesian and least-squares predictions is around 10 per-
cent in de the l.b.o.-group, 5 percent in the mavo-group and a mere 1 percent in the
havo/v.w.o.-group. It is not unhkely that the fact that sample sizes are largest in the last
group is related to these findings.

Another important issue conceming the predictions apart from the question which of the
two outperforms the other, is the overall quaHty of the predictions. Especially in the
mavo-group, the predictive efficiency is disappointingly low.

Jackson, P.H. Novick, M.R. & Thayer, D.T. Estimating regressions in m-groups. The British Journal of

Mathematical and Statistical Psychology, 1971,24, 129-153.
Jansen, G.G.H. An Application of Bayesian Statistical methods to a Problem in Educational Measure-
ment. (Thesis) Groningen, 1977.
Lindley, D.V. & Smith, A.F.M. Bayesian estimates for the Unear model. Journal of the Royal Statis-
tical Society (series B), 1972,34, Ml.
Novick, M.R. Jackson, P.H., Thayer, D.T. & Cole, N.S. Estimatuig multiple Regressions in m-groups: a
Cross-validation study. The British Journal of Mathematical and Statistical Psychology, 1972,25,
33-50.

Bayesiaanse Schatters voor de Correlatie-
coefficient in 'Restriction of Range', (Geval 1)'

Bayesian estimators of the correlation coefficient in restriction of range, (case 1)
In a small sample situation (N = 40) two Bayesian estimators are compared witli two classical
estimators of the population correlation coefficient p in restriction of range (case 1). It is
concluded that inclusion of prior mformation about p can substantially mcreasc tlie superiority
of the Bayesian estimators. Tlie Bayesian estimators, however, are not uniformly better tlian
the classical estimators.

Bij 'restriction of range' (geval 1) zijn scores bekend voor personen op een predictor-
variabele x, terwijl alleen voor personen met scores groter (of kleiner) dan Xq op de
predictor-variabele ook scores bekend zijn op een criterium-variabele y. Het probleem is
nu de populatie correlatiecoefficiënt p tussen x en y te schatten. In dit artikel worden
schatters voor de populatie correlatiecoefficiënt p onderzocht. Brouwer en Vijn (1978)
onderzochten twee gangbare (klassieke) schatters: de produkt moment correlatiecoeffi-
ciënt r, gebaseerd op alle complete waarnemingsparen, en r^, de correctieschatter van
Pearson (Gullickson en Hopkins, 1976). De conclusie van Brouwer en Vijn (1978) kon
samengevat worden in het volgende dilemma:

als p klein is dan is r de beste schatter;
als p groot is dan is r^ de beste schatter.

Het gevolg van dit dilemma is dat op grond van alleen steekproef gegevens geen aanbeve-
ling voor de beste schatter gedaan kan worden. Indien er op grond van de steekproef geen
keuze mogelijk is tussen r en r^, ligt het voor de hand andere schatters te zoeken waarvoor
die keuze wel mogelijk is. Indien de nieuwe schatters ook geen uitsluitsel geven, is de
consequentie dat de onderzoeker voorafgaand aan de steekproef moet beslissen of hij
meent dat p groot dan wel klein zal zijn.

Concreter: apriori informatie over p is dan nodig om de beste schatter te vinden. De vraag
is: hoe die apriori informatie gecombineerd moet worden met steekproefinformatie? Ee'n
mogelijkheid is dat de onderzoeker voor zich zelf uitmaakt dat: '... in deze context p vaak

' Ulbe Brouwer is werkzaam bij het Technisch Centrum van de faculteit der Sociale Wetenschappen
van de Universiteit van Amsterdam. Pieter Vijn is werkzaam bij het Psychologisch Laboratorium van
de Universiteit van Amsterdam.

klein, zeg O < p < .3, is', en dan kiest voor de steekproefcorrelatie r. Een andere
mogelijkheid is die apriori informatie te formaliseren, daarna te combineren met de
gegevens uit de steekproef, om dan (aposteriori) een schatter voor p te bepalen. Kiezen
we voor de laatste mogelijkheid dan biedt de Bayesiaanse statistiek grote perspectieven
Onze verwachting is dan dat het gebruik van apriori informatie over p tot betere schatters
(dan r en rc) zal leiden.

In dit artikel zullen twee Bayesiaanse schatters vergeleken worden met de klassieke schat-
ters r en r^. Allereerst wordt onderzocht of er Bayesiaanse schatters zijn, die uniform
(overal) beter zijn dan r en r^, zonder dat apriori informatie over p nodig is: de z.g.
niet-informatieve schatters. Daarna worden informatieve schatters onderzocht.

We gaan in dit artikel (en in Brouwer en Vijn, 1978) ervanuit dat de scoreparen bivariaat
normaal verdeeld zijn. Daartoe vatten we (x, y) samen in de rijvector z' = (x, y). De vector
z' is nu (bivariaat) normaal verdeeld met gemiddelde ^i'z = (Mx . My) en variantie-covariantie
matrix 2, met

waarin a^x. respectievelijk o^y, de variantie van x, respectievelijk y, is. Samenvattend:

Indien we alle parameters samenvatten in de rijvectorö' = i}ix,py,p, a^x. ^^^y) dan volgt
na toepassing van de regel van Bayes dat

waarin p(6) de apriori dichtheid (prior) is van 6, l(z lö) de aannemelijkheid ('likeh-
hood') van z gegeven 0 en p(0 I z) de aposteriori dichtheid (posterior) van 6 gegeven de
steekproefgegevens z. De 5-dimensionale posterior p(0 I z) moet ons de Bayesiaanse schat-
ters voor p leveren. Het hoofdprobleem is"de keuze van de prior p(0). Ten aanzien van
p(e) nemen we aan dat de elementen in 6 onafhankelijk van elkaar verdeeld zijn met
uniforme dichtheden voor /i/x, My > hi a^x en ln a^ y. De 'likelihood' l(z 16) kan gevonden
worden in Mehta en Swamy (1974).

Vanwege de leesbaarheid zal de precieze vorm van de expressies voor p(0), l(z | 0) en
p(0 Iz) achterwege blijven; voor technische details en exacte formuleringen zij verwezen
naar Brouwer en Vijn (1979). Het blijkt daarin dat (vii integratie over a^y) p(0 Iz)
allereerst gebracht kan worden tot

Aangezien we p willen schatten worden , Hy en k als ruisparameters beschouwd. We
moeten er nu voor zorgen dat deze ruisparameters verdwijnen. Dit geldt vooral voor fiy en
K, die alleen via gedeeltelijke steekproefinformatie geschat kunnen worden.
Vervolgens kan (4) nog geïntegreerd worden over jUy, wat leidt tot

De kansdichtheden in (4) en (5) zijn de basis voor de twee te onderzoeken Bayesiaanse
schatters rbi enrbj:

hl woorden: de simultane dichtheid in (4) wordt geconditioneerd op een schatter voor
(Xy,fXy = y, een schatter voor jUx, Px = x, een schatter voor K,K=k. Hierin zijn y en x de
gemiddelden van y en x en is k het quotiënt van de steekproef varianties van y respectie-
velijk X. De schatter rbi ontstaat door het maximum te bepalen van de condhionele
dichtlieid in (4). Ofwel: voor rbj geldt dat de kans dat p gelijk is aan rbi, maximaal is. De
schatter rbj ontstaat door (4) te integreren over Hy. Natuurlijk zou vervolgens (5) nume-
riek geïntegreerd kunnen worden over en k, om dan numeriek het maximum van
p(p I z) te bepalen, echter de expressie (Brouwer en Vijn, 1979) voor p(p, Mx. « I z) is vrij
gecompUceerd, wat een bivariate numerieke integratie en numerieke maximering tijd-
rovend en lastig maakt. Aangezien x het steekproefgemiddelde in de complete x-steek-
proef is, wat ons een goede schatter voor p leek, is alleen nog k numeriek uit-geïntegreerd.
De zo ontstane schatter voor p bleek echter alleen substantieel beter dan rbi voor I p I >
.65. We komen in de discussie hier op temg. Omdat het numeriek uitintegreren van k in
de simulatie zeer kostbaar (in computertijd) is, zullen we in het vervolg hoofdzakelijk
rbi en rbi onderzoeken.

Concluderend: ln een simulatie zullen de steekproefcorrelatie r en de correctieschatter r^
van Pearson, vergeleken worden met de twee Bayesiaanse schatters rbj en rbj.

De simulatieopzet is grotendeels idenriek aan die in Brouwer en Vijn (1978). In het kort:

1. Er worden a-select N paren (x, y) uit de bivariate standaard normale dichtheid (2)
getrokken.

2. Die y-waarden worden weggelaten, waarvoor geldt dat de bijbehorende x > Xq is. De
waarde voorxo wordt bepaald door de selectiegraad I-7, waarin 7 = Pr(x >Xo).

3. Voor 7 wordt .5 genomen; ofwel strenge selectie (50% 'missing'). Voor N nemen we
40. Het gaat ons dus om 'kleine steekproef resultaten. In de discussie worden enige
mdicaties gegeven voor grotere N. Voor elk simulatieresultaat worden S, met S = 500,
steekproeven getrokken.

4. Als maat voor de nauwkeurigheid van de diverse schatters gebmiken we de gemid-
delde absolute fout:

waarin de steekproef correlatie zonder ontbrekende waarnemingen in de i—steek-
proef is en fi de te onderzoeken schatters in de i-''^ steekproef (dus: n, r^i, rbü, rb2i).
We hebben in (8) niet gekozen voor de maat

omdat daarin zowel de variatie die ontstaat door het simuleren zelf als de variatie (onnauw-
keurigheid) ten opzichte van de betreffende schatter fj zit. Dit is duidelijk omdat

De afwijking lp - ïj I ontstaat door de simulatieprocedure. In (8) is als het ware deze
onnauwkeurigheid er uit 'gepartieerd'. Natuurlijk moet de simulatie procedure wel
betrouwbaar zijn; ofwel lp — rj I moet klein zijn. In de procedure was het verschil tussen
de gemiddelde correlatie in de totale steekproef en de populatie p minder dan 1%.
In navolging van GuUickson en Hopkins (1976) worden in de simulatieprocedure de
x-scores getrokken uit een N(0,1). Dit maakt het mogelijk om uit de selectiegraad 7 =
Pr(x>Xo) de grensscore Xq af te leiden. Kennis over xo zal in de praktijk gepaard gaan
met vooraf informatie over /u* en aJ. Wat betreft de simulatie stellen we ons conservatief
op door aan te nemen dat ii^ en a^ onbekend zijn. De Bayesiaanse schatters kunnen dan
bepaald worden gebruikmakend van de complete paren en de incomplete scores.

Zoals gesteld in de inleiding: ons eerste doel was een schatter voor p te vinden, die
uniform (voor aUe waarden van p) beter is dan r en r,., zonder dat vooraf informatie over
p nodig is. Daartoe nemen we aan dat de prior p(0) niet-informatief is (Brouwer en Vijn,
1979). In de volgende liguur wordt het gedrag getoond van de 4 schatters voor variërende
populatie p.

De intervalgrenzen moeten niet te precies, gehanteerd worden omdat in de simulatie p
gevarieerd is met stapgrootte van .2. De intervalgrenzen ontstaan uit de snijpunten van de
betreffende kronunen.

Overduidelijk bUjkt uit figuur 1 dat rbi en rbj niet uniform beter zijn dan r en r,.. Het
gevolg hiervan is dat er nog steeds apriori informatie over p nodig is om de beste schatter
te vinden. Toch is er met deze Bayesiaanse schatters wel wat gewonnen, want als p klein is
(p < .28) dan is rbi beter dan r en als p middelmatig is (^3 <p < .63) dan is rb^ beter
dan r en r^.. Bij grote correlatie (p ^ .63) is de correctieschatter van Pearson niet te
verslaan. Een opvaUend verschijnsel uit figuur 1 is dat rbi bij grote correlatie zeer slecht
wordt, terwijl rb2 een slechte schatter is bij lage correlatie. In (6) zagen we dat rbi
ontstond door p(p, py, k I z) ondermeer te conditioneren op de schatter voorPy : y.
Echter naarmate p toeneemt wordt y steeds beter voorspeld uit x. En voor p = 1 geldt dat
y = X (omdat z' = (x,y) uit een bivariate standaard normale verdeling getrokken wordt).

Maar, die y zijn aanwezig (geselecteerd) waarvoor geldt dat x <Xo. Dus voor p = 1 geldt
voor alle y-waarden dat y < Xg en dus ook dat y < Xq. Het gevolg is dan dat naarmate p
groter wordt y een steeds slechtere schatter voor het populatie gemiddelde /Uy wordt.
Voor p = O is er geen relatie tussen y en x zodat y geen enkele relatie heeft tot x <Xo.
Het gevolg is dat rbi voor toenemende p zeer slecht wordt. Een ander opvallend verschijn-
sel uit figuur 1 is dat (voor lage p) integratie over de (ruis)parameter Py niet tot betere
schatters leidt. Dit is verrassend, omdat integreren van ruis-parameters voor Bayesianen
voor de hand ligt. Deze procedure moet blijkbaar voorzichtig(er) gehanteerd worden (Box
en Tiao, 1973, p. 71).

In alle komende figuren zullen, we zien dat het gedrag van rbi en rb2 analoog is aan dat in
figuur 1.

We zullen nu gaan onderzoeken wat het effect is van het combineren van apriori infor-
matie (over p) en steekproefinformatie met betrekking tot de schatters rbi en rbj.

Laten we eens veronderstellen dat een onderzoeker voorafgaand aan de steekproef weet
dat, bijvoorbeeld: -.5 <p <-h.5,ofp > -.5,ofp >0, of 0<p < 1 zodanig dat een lage
correlatie (zeg p = .2) waarschijnlijker is dan een hoge correlatie (zeg p = .8). Met deze
laatste vorm van voorkennis zal zeker de steekproef correlatie r, of nog beter, rbi gekozen
worden. Een dichtheid die op flexibele wijze vooraf informatie over p kan verwerken, is
de volgende prior:

waarin p, en Pu vaste onder- en bovengrenzen zijn voor p. Voor a = b = 1 is p(p) uniform
op [pi, Pu], rnet pi = O en Pu = 1 is (9) de Beta-dichtheid met parameters a en b: |3(a,b).
In het laatste geval kunnen de waarden voor a en b mteractief bepaald worden met behulp
van het bekende Bayesiaanse CADA pakket (Novick en Jackson, 1974, p. 161). Indien a =
b dan is p(p) symmetrisch, als a < b dan is p(p) scheef naar links (een kleine p is
waarschijnlijker dan een hoge p), als a > b dan is p(p) scheef naar rechts (een grote p is
waarschijnlijker dan een lage p). We zullen nu twee gevallen onderzoeken:

Natuurlijk zijn andere combinaties denkbaar; we kiezen in (ii) voor een hcht informatieve,
prior ten opzichte van de steekproefgrootte (N = 40).

De vooraf kennis over p is nu zodanig dat de onderzoeker alleen maar weet dat p niet
negatief is: alle waarden tussen O en 1 worden even waarschijnlijk geacht. Het resultaat
van de simulatie is te zien in figuur 2.

We zien in figuur 2 dat rbj uniform beter is dan r (hoewel voor p = O het verschil
verwaarioosbaar is). Bovendien is rb2 voor O < p < .62 beter dan Tc. Het gebmik van
^1,1) op [0,1] geeft vooral verbetering van rbj ten opzichte van r^. Dit is het meest
duidelijk bij lage correlatie. De reden hiervoor is dat de mogelijke negatieve schattingen,
bij het gebmik van de niet-mformatieve prior, door de restrictie p > O op nul gezet
worden, wat een dalend effect heeft op de gemiddelde absolute fout ABS in (8) aangezien de

"rj minder sterk spreiden dan de f,. Indien een onderzoeker zich vooraf wil vastleggen op
de restrictie dat p niet negatief is en bovendien verwacht dat p niet groot zal zijn (p <
.62), dan is rbj een goed alternatief van r en r,,. De onderzoeker loopt hier echter een
risico: het kan zijn dat de apriori aanname O <p < 1 fout is, omdat in de onbekende
werkelijkheid p < O is. Indien bijvoorbeeld bhjkt dat r = —.2 dan lijkt het ons verstandig
en de apriori aanname over p en het proces wat de data gegenereerd heeft opnieuw te
bezien.

Indien een onderzoeker een informatieve prior )3(3,3) specificeert, dan gaat hij er vanuit
dat p = .5 de meest waarschijnlijke waarde is, met een standaarddeviatie (van p) van .19
(Novick en Jackson 1974, p. 113). Echter de waarden p = O en p = 1 treden op met een
kans nul, met het gevolg dat rbj en rb2 in de buurt van O en 1 slecht zullen zijn. Voor p
naderen tot O (of 1) is het gedrag van rbi en rbj interessant omdat dan de prior op [0,1]
totaal verkeerd gespecificeerd is. Voor p = O zal een ^(3,3) op, bijvoorbeeld, [-.5 +.5]
meer voor de hand liggen. Wat betreft de simulatieresultaten is dus het gedrag rond p = .5
belangrijk. De resultaten zijn vermeld in figuur 3.

We zien dat bij middelmatige p(.35 < p < .68) rbj drastisch beter is dan r en r^. Zo is bij
P = .45 de gemiddelde absolute fout voor rbj ongeveer .1 lager dan die van r. De winst
wordt (vanzelfsprekend) nog groter door in plaats van /3(3,3) de prior |3(5,5) te gebmiken.
Met de prior j3(3,3) is rb, beter dan r voor .06 <p < .56 en is rbz beter dan r voor .21 <
P < .87. Bovendien is rbi beter dan rc voor .04 <p < .54 en is rbj beter dan rc voor .07
< p < .67. Vergelijking van figuur 3 met figuur 2 geeft te zien dat het gebmik van /3(3,3)
een aanzienhjk betere schatter rbi oplevert rondom p = .5. Ofwel: rb^ is daar beter dan r

en Tc en de combinatie van vooraf kennis met de steekproefgegevens zorgt dus voor een
betere schatter. Echter, indien p < .07 dan zal de prior /3(3,3) tot slechtere schatters
leiden. Deze waarden voor p zijn in het licht van de prior )3(3,3) erg onwaarschijnlijk; ze
liggen zelfs buiten het 95% geloofwaardigheidsinterval. We kunnen stellen dat, indien
j3(3,3) de adequate vertahng is van de vooraf kennis over p, de kans op slechtere schatters
klein is.

1. In het voorgaande is er van uitgegaan dat een score paar z' = (x,y) uit een bivariate
normale verdeling komt. Dit impliceert dat (Novick en Jackson, 1974, p. 297)

Ofwel: de Bayesiaanse procedures kunnen gebruikt worden indien redelijkerwijs voldaan
is aan:

Deze eisen maken de Bayesiaanse schatters kwetsbaarder dan de correctie schatter r^,
omdat daarvoor alleen de eerste twee eisen gelden.

2. In de simulatie is steeds met een steekproefgrootte van N = 40 gewerkt. Een indicatie
bij een grotere N is gegeven in Tabel 1.

Gemiddelde absolute fout, bij 50% selectie, a = b = l,Pi=-l,Pu = +l,S = 500, N = 80.
Tussen haakjes is de gemiddelde absolute fout aangegeven voor N = 40.

Uit Tabel 1 volgt dat voor alle schatters de gemiddelde absolute fout bij N = 80 daalt ten
opzichte van N = 40. Bovendien verschuift het punt waar rb2 beter is dan r^. in de richting
van nul.

3. In de simulatie zijn r en r^ vergeleken met de Bayesiaanse schatter rbj en rbj. In
Tabel 2 zullen we de onderzochte schatters vergelijken met de schatter voor p die ontstaat
indien in (5) k uit-geïntegreerd wordt. Deze noemen we rbs.

Deze tabel kan alleen indicaties geven omdat, in tegensteUing met de voorgaande resulta-
ten, het aantal steekproeven 100 is. Ruwweg kan gesteld worden dat rbs beter is dan rbj
indien lp I > .65. Voor lp I <.65 bleek rb2 en rba niet substantieel te verschillen.
Bovendien geldt globaal dat rbs beter is dan r,, voor | p | < .85. Let wel, dit geldt onder
de aanname van een uniforme prior op [-1, -Hl]. Indien de onderzoeker wil kiezen tussen
rbj en r^, dan kan men stellen dat rbj te prefereren is boven r^ voor | p | < .85, terwijl
voor I p I > .85, rbs nagenoeg gelijk is aan r,..

4. In dit artikel hebben we ons bezig gehouden met puntschattingen voor p. Echter,
indien de aposteriori dichtheid p(p I z) afgeleid is, zijn er veel meer mogelijkheden.

Stel dat een onderzoeker geïnteresseerd is in de twee volgende interval hypothesen:

waarin Po een bekende grenswaarde voor p is. Bijvoorbeeld Po = .3, wat dan aangeeft dat
alle waarden voor p groter dan een 'medium effect' (Cohen 1969, p. 77) tot de alterna-
tieve hypothese behoren. Een beslissingsprocedure kan zich nu baseren op de volgende
verliestabel (zie tabel 3).

Die beslissing is nu optimaal welke het kleinste verwachte aposteriori veriies geeft. Bij-
voorbeeld: Stel dat li(p) en l^ip) constant zijn en stel dat een onderzoeker het maken van
de fout van de eerste soort 19 keer zo zwaar laat teUen als de fout van de tweede soort:
I2/I1 = 19, dan valt gemakkelijk na te gaan dat de hypothese H, : p < Po verworpen
wordt indien

Het behoeft geen betoog dat de bovenstaande mogehjkheid op geen enkele manier te
realiseren is met de klassieke schatters r en r^.

(i) Zonder voorkennis over p zijn de Bayesiaanse schatters niet overal beter dan de
klassieke schatters; wel zijn er gebieden waar de Bayesiaanse schatters superieur
zijn.

(ii) De Bayesiaanse schatter rb2 is overal beter dan de steekproefcorrelatie r, gebruik-
makend van de voorkennis dat p niet negatief is.

(iii) Bayesiaanse informatieve schatters kunnen aanzienlijk beter zijn dan de gebruike-
hjke klassieke schatters; de kans hierop is groot.

(iv) Indien de prior voor p totaal verkeerd gespecificeerd is zullen Bayesiaanse schatters
slechter zijn; de kans hierop is klein

Het gaat er nu om of onderzoekers de weddenschap met een grote kans op betere en een

Box, G.E.P. and Tiao, G.C. Bayesian inference in statistical analysis. Reading, Mass.: Addison-Wesley,
1973.

Brouwer, Ulbe en Vijn, Pieter. Het empirisch onderscheidingsvermogen van twee procedures in 'restric-
tion of range'. Tijdschrift voor Onderwijs Research, 1978,3,106-112.

Brouwer, Ulbe en Vijn, Pieter. Ontbrekende waarnemingen en Bayesiaanse schatters voor de correlatie-
coefficiënt. Intern rapport, Technisch Centrum van de faculteit der Sociale Wetenschappen, Univer-
siteit van Amsterdam, 1979.

Cohen, J. Statistical Power Analysis for the Behavioural Sciences. New York: Academic Press, 1969.

GuUickson, A. and Hopkins, K. Interval estimation of correlation coefficients corrected for restriction
^oi tangs. Educational and Psychological Measurement, 1976,5(5, 9-25.

Mehta, J.S. and Swamy, P. Bayesian analysis of a bivariate normal distribution where some observations
are missing. In: Studies in Bayesian econometrics and statistics. Editors S.E. Fienberg and A.
ZeUner. Amsterdam: North-Holland, 1974.

Novick, M.R. and Jackson, P.H. Statistical methods for educational and psychological research. New
York: McGraw-HiU, 1974.

In T.O.R. 4 (1979), nr.3, konstateert Warries dat meisjes minder deelnemen aan de
nederiandse onderwijsmogelijkheden dan jongens. Selektie door de onderwijsinstellingen
en zelfselektie leiden ertoe dat meisjes eerder uitvallen, minder vaak 'hogere' onderwijs-
vormen volgen; vakkenpakketten kiezen met een lagere status.

Warries veronderstelt dat de verschillen veroorzaakt worden door de kwahteit van de
instruktie in de klas, die immers zelfbeeld, belangstelhng, motivatie en prestatie kan
beïnvloeden, waardoor op hun beurt de differentiële selektiemechanismen in werking
treden.

Tenslotte geeft Warries maatregelen in overweging om 'het onderwijs m de klas zo in te
richten dat meisjes en jongens hetzelfde aan het genoten onderwijs kunnen overhouden in
termen van zelfbeeld, belangstelhng, motivatie en leerprestaties', (pag. 111).
Uit dit laatste maak ik op dat Warries die ongelijke participatie een ongewenste toestand
acht, die nodig veranderd moet worden. Het is waarschijnhjk zinvol om twee aspekten te
onderscheiden aan de door Warries gesignaleerde achterstand:

1) Voor wat betreft de hierarchische reeks MAVO-HAVO-VWO zitten meisjes wat lager
dan jongens. Op het MAVO zijn er 53% meisjes onder de geslaagden; op het VWO:
43% bij de geslaagden; bij het HAVO is de verhouding vrijwel fifty-fifty. Globaal
gezien dus een verschil in niveau.

2) Binnen de verschillende schooltypen kiezen meisjes overwegend de A en a richtingen,
jongens de B en /3 richtingen. En bovendien kiezen de meisjes andere vakkenpakketten
dan de jongens. Een verschil in richting dus.

Mijn eerste probleem met Warries' stuk is dat hij niet aangeeft welk doel, welke eindtoe-
stand hij nastreeft als hij beleidsmaatregelen voorstelt. Moet de verhouding jongens/
meisjes binnen elk schooltype: MAVO; HAVO; Athenaeum; Gymnasium overal precies
50-50 zijn? En moet de verdehng A/B en a/ß ook 50-50 zijn? En moet, tenslotte, elk
keuzepakket door evenveel jongens als meisjes gekozen worden? Zoals in veel pubhkaties
over dergehjke onderwerpen ontbreekt ook bij Warries een exphciet stellen van het eind-
doel. Men moet echter wel haast aannemen dat het bovengenoemde, tamelijk ongenuan-
ceerde nivelleringsideaal gebruikt wordt om de gedachten te bepalen.
Mijn tweede probleem met het stuk in T.O.R. is, dat, hoewel begrijpehjk gezien de
belangstelhng van de auteur, de aandacht m.i. ten onrechte exklusief gericht wordt op het
'emancipatorische klimaat in de klas' (waarover Warries overigens rijkehjk vaag bhjft),
terwijl andere maatschappelijke konteksten als aangrijpingspunt voor beleid aanzienhjk
méér voor de hand hggen.

Wanneer men bijv. zou willen peilen door welke faktoren het verschil in niveau tussen
jongens en meisjes wordt beïnvloed, dan lijken mij, vóór het door Warries genoemde
klasseklimaat, in aanmerking te komen: a) het ouderlijk gezin (aspiratieniveau; al dan niet
verschillend voor zoons of dochters); b) de groep van naaste vrienden en vriendinnen; c)
perceptie van de arbeidsmarktkansen.

Beperken we ons tot het laatste aspekt, en nemen we aan dat die perceptie tamelijk
reahstisch is, dan moeten we konstateren dat meisjes relatief grote kansen zien voor
zichzelf in beroepen die een scholingsgraad vragen van laag- of middenniveau (winkel-
meisje; fabriekarbeidster, lagere kantoorbanen; verpleging etc); beroepen waar de ratio
man/vrouw voor vrouwen zeer gunstig is. Gevoegd bij de thans vrij algemene twijfel over
een positieve samenhang tussen mate van scholing en kansen op de arbeidsmarkt, is het
voor vele meisjes alleen maar verstandig te noemen — ik geef toe, redenerend op de korte
termijn — om voor LBO, MAVO, hooguit HAVO te kiezen; althans geen inspannende
pogingen aan te wenden om nog verder te komen. Wanneer men er voor pleit om in die
situatie verandering te brengen, kan men

a) meisjes extra motiveren om onderwijs van hoger niveau te gaan volgen met een beroep
op bijv. de intrinsieke waarde van het studeren, teneinde de (realistische) perceptie van
de arbeidsmarktkansen te kompenseren;

b) de perceptie van de arbeidsmarktkansen beïnvloeden in niet-realistische richting (hier-
voor zal wel geen beleidsvoerder te vinden zijn);

c) de arbeidsmarkt veranderen, door bijv. in die beroepen die thans vnl. door vrouwen
worden vervuld, meer mannen op te nemen (waardoor de kansen voor de jongens
stijgen en die voor de meisjes dalen).

hl feite zijn de maatregelen die men ad a) zou kunnen treffen al een invulling of konkreti-
sering van wat Warries 'verbetering van het emancipatorisch klimaat van de klas' noemt.
Vanuit een oogpunt van effektiviteit en ook een gelijke benadering van meisjes en jongens
in de klas lijkt mij echter het nadenken over maatregelen om de arbeidsmarkt te verande-
ren preferabel.

Een eerste reaktie bij het lezen van Warries' opmerkingen hierover zou kunnen zijn:
rtiogen meisjes misschien er een andere belangstellingsrichting op na houden dan jon-
gens? Mogen ze misschien andere vakken leuker vinden?

Ik zie bijv. vooralsnog geen reden om het overwegen van meisjes op Athenaeum A en
gymnasium a, en van jongens op Athenaeum B en gymnasium ft als een kwalijke toestand
aan te merken waar onmiddellijk iets aan gedaan moet worden. Of wordt Warries' stand-
punt alleen ingegeven door het pragmatische argument dat 'meisjes veel minder vaak een
diploma halen dat toegang geeft tot hooggewaardeerde studierichtingen als medicijnen,
tandheelkunde en diergeneeskunde' en pleit hij voor min of meer geforceerde maatregelen
om meisjes, eventueel tegen hun voorkeur in, de 'hooggewaardeerde' richtingen te laten
kiezen? Op dit punt heeft men in sommige oosteuropese landen wat ervaring, maar het
komt mij voor dat die ons niet direkt tot navolging vermag te prikkelen.
Als Warries daarentegen meent, dat in de utopische situatie van volledige emancipatie de
verdeling meisjes/jongens 'automatisch' op fifty-fifty zal uitkomen, vraagt de lezer zich af
wat voor argumenten hij hiervoor heeft. Waarom zou 'optimale individuele ontplooiing'
persé tot een 50-50 verdehng leiden? Wie zal zeggen of meisjes zich uiteindehjk toch niet
méér bij de A (of: de B) vakken zullen thuisvoelen dan jongens? StedeUngen kiezen
minder vaak het vak diergeneeskunde dan plattelanders. Zijn stedelingen daarom onge-
emancipeerd; moet hier iets aan gedaan worden? Jongens die een oudere broer hebben

met een technische knobbel kiezen vaker voor een technisch vak dan jongens die zo'n
broer moeten ontberen. Moet laatstgenoemde groep daarom extra gestimuleerd wor-
den? Men kan een eindeloze rij van soortgelijke voorbeelden bedenken, waarvan de for-
mele struktuur steeds is, dat de ene sociale kategorie andere (puur statistische) kansen
heeft op een bepaalde studie of een bepaald beroep dan de andere. Kennelijk verschilt
onze appreciatie en mate van akseptatie van dergelijke verschillen al naar gelang de maat-
schappelijke kontekst en fase waarin we verkeren. Het lijkt mij echter zinvol om, alvorens
over achterstandsituaties te spreken en emancipatieijver ten toon te spreiden, te proberen
om na te gaan in welke situaties, opzettelijk of onbewust, diskrimmerend gedrag optreedt,
en waar onze aangrijpingspunten voor beïnvloedmg primair moeten liggen, en voor wat
het onderwerp in kwestie aangaat: in of buiten school.

Het is zeker niet uit te sluiten dat de niveau- en richtingkeuze van meisjes in de
school(klas) situatie m andere zm wordt beïnvloed dan die van jongens. Ik denk hier
vooral aan de mogelijkheid dat leraren in twijfelgevallen meisjes eerder een A-advies geven
en jongens eerder een B-advies. Als dat zo is, kan een op dit punt gerichte campagne
mogelijk verbetering brengen. Het is jammer dat Warries zijn gedachte dat de instruktie
méér op meisjes moet zijn afgestemd op geen enkele wijze konkretiseert. Zijn citaat 'Het
is onze overtuiging dat verschiUen in zelfbeeld, belangstelhng, leermotivatie en leerpresta-
ties mede gevormd worden door het emancipatorische klimaat van de school en door de
kwahteit van de instruktie' is op deze wijze, behalve kennelijk voor hemzelf, wemig
overtuigend. Waar, voor wat betreft school- en klasfaktoren, behoefte aan bestaat, is
konkrete informatie op dit punt (voornemelijk via observatie te verkrijgen). Het als uit-
gangspunt voor een betoog over dit onderwerp kiezen van ongelijke participatiecijfers is
m.i. een misgreep; men kan er mee niet aantonen dat de emancipatie niet voltooid is, en
ze bieden geen aangrijpmgspunt voor beleidsmaatregelen. Voor onderwijsresearchers is het
eerder zaak om de konkrete knelpunten en barrières in het onderwijs te vinden waarop
individuele ontplooiing en volwassenwording stuk loopt, of het nu om meisjes of om
jongens, om kmderen uit laag of uit hoog sociaal milieu gaat.

Dit is een incompleet maar toch wel erg serieus bedoeld commentaar naar aanleiding van
Swanborn's kritiek op mijn artikel over differentiële onderwijseffekten voor meisjes en
jongens. Zeker over het onderwerp in het laatste deel van mijn commentaar, de 'school-
hypothese', zou ik meer moeten zeggen of misschien een heel nieuw artikel moeten
schrijven. Verder heb ik hieronder op sommige beweringen van Swanborn helemaal niet
gereageerd, een enkele maal omdat ik het met hem eens was, maar dikwijls ook omdat ik
vond dat hij mij wat al te losjes van allerlei in de schoenen heeft geschoven, zelfs als
daarvoor in mijn artikel geen aanleiding te vinden was. Uit zijn kritiek heb ik drie vragen
gehaald die ik interessant en relevant vond. Die heb ik hieronder in mijn eigen woorden
weergegeven en daarna behandeld.

— Welke eindtoestand streef je eigenlijk na, als je geringe deelname aan het onderwijs
door meisjes als een probleem ziet?

— Waarom beschouw je geringe deelname aan het onderwijs als een indicatie voor onge-
lijke kansen?

— Is er niet veel te weinig bekend over de invloed van de school op differentiële leereffek-
ten om op grond daarvan veranderingen voor te stellen?

De eindtoestand'. 'Moeten we allemaal hetzelfde kunnen, hetzelfde weten, hetzelfde doen,
hetzelfde verdienen?' 'Dat is toch een afschuwelijke nivellering?' 'Dat is toch wat ze in
Oost-Europa willen?' Ik wist wel toen ik iets opschreef over de verschillen in onderwijs-
deelname, dat sommigen zich dit soort vragen zouden stellen. Maar ik had ook het idee
dat de meeste Nederlanders, en zeker de lezers van het T.O.R. wel een vage en gemeen-
schappelijke notie zouden hebben over wat ze bedoelen als ze over gelijke onderwijskan-
sen spreken. Ik vermoed dat als we spreken van gelijke onderwijskansen voor twee nage-
noeg even grote groepen in de bevolking, M en V, dat we dan zoiets bedoelen als 'de
totale hoeveelheid onderwijsprofijt van groep V is even groot als die van M'. Ik ben er
in mijn stuk maar stilzwijgend vanuit gegaan dat de toekomstige kans dezelfde is als de
laatst gemeten 'kans' of laatst gemeten relatieve deelname. Voorlopig neem ik aan dat
Swanborn geen problemen heeft met die aanname, maar dat hij graag exact zou willen
weten wat ik — en alle anderen die over gelijke kansen spreken — bedoelen met gelijke
kansen, of met die totale hoeveelheid onderwijsprofijt. Het is natuurlijk best een aardig
probleem wat daarmee gesteld is. Ik denk dat het probleem met een beetje moeite ook
best oplosbaar is, als we tenminste bereid zijn wat subjectieve oordelen te verzamelen over
de waarde van een paar kwalitatieve variabelen. Ik heb in mijn artikel namelijk niet alleen
gesproken over een 'kwantitatieve achterstand' maar ook van 'kwalitatieve of inhoudelijke
verschillen' daarmee doelend op de verschillende soorten scholen of programma's die
meisjes en jongens volgen. (Swanborn neemt deze onderscheiding over, althans her-intro-
duceer^t die, zij het dat hij helaas het beroepsonderwijs daarbij weglaat). Mijn veronderstel-
ling is dat we met enige inspanning wel in één score voor een individu zouden kunnen
aangeven hoe groot haar/zijn onderwijsprofijt (zowel kwantitatief als kwalitatief) is ge-
weest. De moeilijkheid zit natuurlijk in het scoren van de kwalitatieve aspekten van het
genoten onderwijs. Hoe weeg je die?

Ik dacht dat je met behulp van groepen deskundige beoordelaars een aardig eind zou
kunnen komen. Immers de waarde of de status (of welke ander typering van kwaliteit
ook) van onderwijsprogramma's is zeker wel vergelijkbaar. Denk aan vergehjkingen als de
volgenden: drie jaren l.t.s. tegenover drie jaren l.h.n.o., licht pakket v.w.o. tegenover
zwaar pakket v.w.o., P.A.-diploma tegenover H.T.S.-diploma, secretaressecursus tegenover
cursus boekhouder. Mijn veronderstelling is, dat we best, als we er de moeite voor over
hadden (en misschien is het al wel eens gedaan) per individu een gewogen profijtscore
zouden kunnen uitrekenen. En nu denk ik, dat we, als we over gelijke onderwijskansen
spreken, bedoelen dat de gemiddelde gewogen profijtscore van groep V net zo hoog is als
die van groep M. Als we dit als uitgangspunt nemen voor de hele populatie van opleidin-
gen en personen, kunnen we vervolgens in deelpopulaties eens voorzichtig naar de afwij-
kingen gaan kijken, zonodig signaleren dat er iets bijzonders aan de hand is, ons afvragen
of daaraan iets gedaan zou moeten worden, kijken hoe snel of het moet en of het de
kosten waard is... Kortom, we doen al die dingen die men doet als men een vaag ideaal
voor ogen heeft en vervolgens met de werkelijkheid te maken krijgt. Dat is eigenhjk alles.
En met die afschuwelijke nivellering zal het wel meevallen. Je mag zelfs de-nivellering
verwachten als je denkt aan al die jongens met mannelijke funkties die eigenhjk een
'vrouwelijk' beroep hadden willen kiezen als hen dat maar toegestaan was indertijd. Zulke
baasjes krijgen dan veel meer mogelijkheden. Wie weet hoeveel ongelukkige methodolo-
gische jongens eigenhjk kleuterleidster hadden moeten worden?

Ongelijke kansen of niet. Swanborn is er niet van overtuigd dat die verschillende partici-
patiecijfers duiden op ongelijke kansen. Hij gebruikt het gewone argument van de voor-
standers van bestendiging van de toestand zoals die is en waarin sommigen van ons minder
deel hebben aan vrijheid, welvaart of welzijn: 'ze vinden het immers leuk.' Maar wie heeft
er gezegd dat meisjes het in het onderwijs niet leuk zouden hebben? Ik niet, want daar-
over heb ik het niet. Ik beschouw de leukheid en de vrijheid om te kiezen als een
minimale voorwaarde in elke onderwijssituatie, of het nu gaat om de toestand m 1920 of
in 1990. Het ging er in mijn artikel in dit verband alleen maar om dat elke afwijking van
de man/vrouw-ratio van 1,00 er op duidt dat meisjes minder kansen op bepaalde beroepen
hebben. Het is precies zo eenvoudig als wanneer ik zeg dat de werknemers met een
nettoloon van 1000 gulden per maand kennelijk minder kunnen uitgeven dan die met
2000. Ook dan is de opmerking dat die persoon van 1000 toch zo tevreden is, niet aan de
orde.

De invloed van de school. Ik vind Swanborn niet geheel duidehjk op dit punt, maar als ik
hem goed begrijp, dan acht hij de invloed van de omgeving buiten de school op de door
mij gesignaleerde achterstand van groter belang dan de door mij genoemde school-invloe-
den: de opvattingen in de school en de instructie die de school te bieden heeft. Dit lijkt
mij een interessant punt omdat het naar mijn mening hier eigenlijk gaat om de vraag naar
de juistheid van één van twee hypothesen ter verklaring van de slechte leerresultaten van
achterbhjvende groepen in het algemeen. Waarom leren kinderen uit bepaalde sociale,
ethnische of economische groepen slechter en korter dan anderen? Is het de omgeving
buiten de school: de buurt, het gezin, de leeftijdgenoten en de reële beroeps-verwach-
tmg? Of is het de 'classroom environment': de gedragingen van de docenten, het leermate-
riaal, de vragen die gesteld worden tijdens de les, de feedback die wordt gegeven, de
atmosfeer in de klas? Naar mijn veronderstelling hangt Swanborn de omgevingshypothese
aan en meent hij dat ik de school-hypothese aanhang en dat dit laatste onverstandig is. Na

van deze veronderstelling te zijn uitgegaan, wil ik hieronder een aantal beweringen doen
om de plausibihteit van de school-hypothese te steunen.

1. Het meisjes-achterstandprobleem kan beschouwd worden als het probleem van elke
andere groep met een systematische achterstand in leerresultaten.

2. Onder leerresultaten kunnen worden begrepen cognitieve leerresultaten en affectieve
leerresultaten. Voorbeelden van de eerste soort zijn proefwerk- en rapportcijfers,
scores op toetsen voor wiskunde en moderne talen op 16-jarige leeftijd en het be-
haald hebben van een kandidaatsdiploma binnen de daartoe gestelde periode. Voor-
beelden van affectieve leerresultaten zijn: de meetbare interesse voor en attitude
tegenover de schoolvakken en het leren, de mate waarin iemand zichzelf ziet als een
goede leerling of student, de geneigdheid om verder te leren in een formele of
informele leeromgeving.

3. Er zijn ten minste drie hypothesen ter verklaring van de slechte leerresultaten van
achterblijvende groepen: de erfelijkheidshypothese, de schoolhypothese, de omge-
vingshypothese. De erfelijkheidshypothese is niet relevant in het bestek van mijn
betoog. De omgevingshypothese heb ik niet onderzocht. Overigens is de omgeving
van de school in mijn schema wel aanwezig, via de opvattingen in de school.

4. De schoolhypothese is in mijn artikel terug te vinden in de door mij veronderstelde
mvloed van de opvattingen in de school en de kwahteit van de instructie op vier door
mij genoemde leerresultaten of persoonlijke kenmerken: zelfbeeld, belangstelling,
motivatie, prestatie. De onder 2 hierboven genoemde leerresultaten zijn hierin dus
begrepen. Sommige leerresultaten zijn op korte termijn goed zichtbaar, bijv. door
proefwerkcijfers of getoonde interesse, andere leerresultaten zijn minder goed waar te
nemen en hebben maanden of jaren nodig voor ze zichtbaar worden, bijv. door de
uiteindelijke studiekeuze of door het getoonde zelfvertrouwen in de eigen mogehjk-
heden.

5. De kwaliteit van de instructie kan op verschillende manieren worden gedefinieerd. Ik
spreek van goede instructie in een klassikaal onderwijssysteem wanneer alle leerlingen
binnen de gestelde tijd tot de gestelde leerdoelen worden gevoerd. Als niet alle (of
bijna alle) leerhngen de vereiste cognitieve en affectieve leerdoelen hebben bereikt,
dan is de instructie niet goed (wat daarvan dan ook de oorzaak moge zijn).

6. Wij kunnen constateren dat de cognitieve en affectieve leerresultaten van meisjes als
groep achterblijven bij die van jongens.

7. We weten dat de opvattingen in de school over wat meisjes kunnen en moeten in
vergelijking met jongens ongunstig uitvallen voor meisjes.

8. We weten dat de houding van leerkrachten tegenover hun leerlmgen en de mening
over wat hun leerlingen kunnen van invloed is op de leerresultaten van die leerlingen.

9. Uit de voorgaande vier beweringen concludeer ik dat ik terecht mag spreken van de
invloed van de school op de slechtere leerresultaten van meisjes.

10. De schoolhypothese is door anderen verworpen omdat in Amerikaans onderzoek,
zoals dat van Coleman, geconstateerd zou zijn dat het voor de leer-effecten geen
verschil maakt hoe de school zijn instructie inricht. Ik kan het met deze constatering
om verschillende redenen niet eens zijn. Eén van de redenen is dat in veel Amerikaans
onderzoek de leerresultaten niet behoorlijk (in overeenstemmmg met de leerdoelen
van de school) zijn gemeten. Een ander bezwaar is dat de kwahteit van de instructie
vaker is gemeten aan leerkracht-karakteristieken dan aan wat er in de klas gebeurde.

11. Uit experimenteel onderzoek en uit nieuwe analyses van bestaand materiaal komen
de laatste jaren gegevens beschikbaar, die steun verlenen aan de stelling dat datgene
wat in de klas gebeurt van invloed is op het leerresultaat. Een stelling die menigeen
die de praktijk van het onderwijs kent met grote vanzelfsprekendheid zal ondersteu-
nen.

Een onderwijskundig onderzoek naar de haalbaarheid van een model voor interne
differentatie in het basisonderwijs, (dissertatie)
Den Haag: Staatsuitgeverij, 1978 (= SVO-reeks no.9)

Het proefschrift van Nijhof is gebaseerd op een onderzoek naar een combinatie van tempo en niveau-
differentiatie in twee opeenvolgende experimentele schooljaren (1969-1971) in de tweede klas van het
basisonderwijs. In het eerste jaar werd het voor dit doel ontwikkeld onderwijsleerpakket 'Samen Taal'
uitgeprobeerd en verbeterd en werden onderzoeksinstrumenten vervaardigd. Op basis van toetsresulta-
ten en het oordeel van de leerkracht werden drie prestatieniveaus onderscheiden, waarvoor drie paral-
lel-leergangen zijn geconstrueerd.

Centraal in deze studie staat de haaibaaiheid van interne differentiatie. Vastgesteld wordt of de
leerkrachten het volgens het didaktische model bedoelde gedrag kunnen vertonen en met welke belas-
ting deze differentiatievorm gepaard gaat. De leerkrachten ontvingen begeleiding die op drie niveaus
van intensiteit werd gevarieerd, gebruik makende van zowel individuele als groepsbegeleiding.
Schrijver komt tot de conclusie dat interne differentiatie voor Nederland haalbaar is, althans in het
basisonderwijs, maar dat nog vele problemen zijn op te lossen. De beschikbaarheid van gedifferen-
tieerde onderwijsleerpakketten en een affektieve en effektieve deelname van leerkrachten aan een
veranderingsproces blijken essentiële voorwaarden. De sterk gestruktureerde en gekombineerde aanpak
van beide bleek effektief. Een preciese uitspraak over het gewenste intensiteitsniveau van de begelei-
ding kon niet worden gedaan.

Leerkrachten besteedden evenveel tijd aan de drie prestatieniveaugroepen en in het algemeen op een
efficiënte manier. Overeenkomstig een one group time series design werd het effekt op de leerlingen-
prestatie vastgesteld, waarbij o.a. bleek dat bij lezen (vanwege een plafondeffekt in de toets) vooral
zwakke leerlingen bhjken te stijgen en helpers - dat zijn enkele leerhngen uit een hogere niveau-groep
die leerlingen uit een lagere groep helpen bij hun werk - geen voor- of nadeel van hun rol ondervinden.
Het werken in groepen waarvan intensief gebruik wordt gemaakt, blijkt niet zonder problemen; leerhn-
gen hjken niet meer plezier te hebben in groepswerk dan in individueel werk.

In het boek ontvangen de samenstelling van het onderwijsleerpakket, de analyse van de leergangen en
de begeleiding zeer ruime aandacht in verhouding tot de gedragsveranderingen van leerkracht en
leerling bij de gehanteerde interne differentiatie.

Het was m.i. realistisch, dat de differentiatie werd opgezet vanuit het jaarklassensysteem. Wel zal men
mogeüike gevo\gei\ van \\el 'jaaiWasseiYsysteem' scheip moeten ondeischeiden van mogelijke gevolgen
van de 'frontaal klassikale methode'.

De verschillende mogeüjkheden om binnen het jaarklassensysteem te differentiëren worden (histo-
risch) besproken en de keuze voor een kombinatie van niveau- en Jempodifferentiatie wordt uitgebreid
beargumenteerd (pag. 26 e.v.). Een benadering die uitgaat van de vraag 'welke differentiatiekriteria en
-modellen zijn denkbaar en welke daarvan passen in het te handhaven jaarklassensysteem' werd niet
gevolgd (op pag. 34 wordt een aantal relevante variabelen achteraf genoemd). Aanvullend zou een
dergelijke systematische benadering de beschreven oplossingen (IPI, IGE, rnastery learning) hebben
gerelativeerd en wellicht aangevuld. Immers: prestatieniveau en tempo zijn wel de op dit moment
hanteerbare individuele kenmerken, maar moeten worden gezien als het resultaat van andere 'dieper
liggende' individuele variaties. Waarschijnlijk wil Nijhof dit in het verlengde van de gekozen vorm van

interne differentiatie aanpakken. Maar eerst moet een aantal problemen bij interne differentiatie
worden opgelost, zoals het samenstellen van adequate leermiddelen en onderwijsleerpakketten, het
onderscheiden van minimum en differentiatiedoelen, een adequaat toets- en verwijzingssysteem, etc.
(pag. 35). Ook als men op andere wijze het onderwijs wil verbeteren zal men overigens dergehjke
problemen tegenkomen. En een gunstig bijeffekt is dan dikwijls dat een stuk leerstof grondig wordt
geanalyseerd hetgeen voordien meestal nog niet heeft plaatsgevonden. Een aantal problemen ten
gevolge van matige leerstofstrukturering wordt dan weggewerkt, wat vooral zwakke leerhngen ten
goede kan komen. Het vernieuwen is waarschijnlijk belangrijker dan de vernieuwing.

In de gehanteerde definitie van differentiatie wordt gesproken van 'rekening houden met' relevante
individuele verschillen. Elders wordt de term 'aansluiten bij' gebruikt. De üidruk is dat de eigen
leerdoelen (behoeften) van de leerUng als belangrijk individueel kenmerk waarmee interne differen-
tiatie rekening moet houden in deze studie nog weinig aan bod kan komen.

Hoewel individuahsering begripsmatig (82) naast sociaUsering wordt gezet bhjkt uit de opzet wel dat
het samenwerken in groepen (als socialiserende werkvorm) met het oog op de (via differentiatie te
bevorderen) individuahsering terecht een ruime plaats krijgt. Helaas is nog altijd de associatie van
'individuaUsering' met 'individueel werken' in de ogen van kritici van individuahsering sterk aanwezig.

De meest voor de hand liggende kritiek op deze studie is dat het empirische onderzoeksdeel nu 10 jaar
geleden is verricht. Dat was in een periode waarin de belangstelling voor differentiatie in het onderwijs
en onderzoek op dit terrein duidehjker vormen ging aannemen. In Utrecht was dit - zoals in het bock
zeer uitvoerig wordt vermeld, geïnitieerd en gecentreerd rond de aktiviteiten van Bijl. Het is de periode
waarin op landeUjk niveau een poging werd ondernomen om het onderzoek in het basisonderwijs,
gericht op vernieuwing - i.h.b. de differenfiatie - te programmeren en coördineren. Dat is zoals men
weet toen niet zo uit de verf gekomen.

Het is de verdienste van de Utrechtse groep - waarvan Nijhof deel uitmaakte - om in die periode het
meestal verbrokkelde en van toevalUg beschikbare mankracht afhankelijke leeronderzoek in de vak-
groep te verheffen tot een gepland en samenhangend onderzoek naar een complex thema met een
redeUjke duur (2 jaar), waarin bovendien kwantificering een voor die periode duidehjke plaats innam.
Een historisch interessante procesbeschrijving van de ontwikkeUng van de probleemstelling (die men
bij andere verslagen van onderzoek soms node mist) wordt op pag. 74 gegeven. De te hoge verwachtin-
gen die we aUen indertijd koesterden bij het verrichten van onderzoek in funktie van vernieuwing,
komt daarin naar voren; onderzoekers zijn inmiddels 'sadder and wiser'. Het zal nog enige tijd vragen
om ook het beleid te overtuigen van het feit dat onderzoek rond soortgeüjke wezenüjke vragen meer
tijd, mankracht en middelen kost om de generaUsatiewaarde van ons onderwijsonderzoek bij deze
vragen te vergroten.

Gezien de geplande vernieuwingen in het basisonderwijs op dit ogenbük is het werken aan interne
differentiatie, zeker als dit ook de haalbaarheid in het onderwijs centraal stelt een zeer beleidsrelevant
onderwerp. Het is waarschijnhjk dat de eerder verschenen deehapporten uit het onderzoek en dat
persoonlijke kommunikatie tot de gedachtenvorming omtrent uitgangspunten en vormgevingen van de
experimenten basisschool hebben bijgedragen. Als zodanig heeft dit onderzoek een voortrekkersfunk-
tie vervult.

Dat neemt niet weg dat de vraag moet worden gesteld naai de betekenis van het empiiiscVv onderzoek-
deel uit de Jaren 1969-1971 (!) voor het onderzoek anno 1979. Inmiddels is immers kennis over
differentiatie bij de leerkrachten toegenomen, meet bijpassende werkvormen en materialen worden
gebruikt, de vorm en intensiteit van voorUchting en begeleiding is gewijzigd; m.a.w. de context waarin
dergelijk onderzoek nu wordt uitgevoerd heeft t.o.v. 1970 wijzigingen ondergaan. Niet in het minst
betreft dit de aktieve, meebesüssende rol die onderwijsgevenden en andere participanten nu bij ver-
nieuwingsprojekten spelen. De reaktie van de scholen op de introduktie van een kant-en-klaar produkt,
waarvan hier sprake is, i.c. een nieuwe taalmethode, zou op dit moment minder 'passief zijn. Deze
veranderde context heeft gevolgen voor de reikwijdte van de konklusies die m.b.t. de begeleiding van
de leerkrachten kunnen worden getrokken evenals voor de wijze waarop onderzoek-in-innovatie moet
worden uitgevoerd.

'Innovatie van interne differentiatie binnen één leerjaar, binnen één school met één leerlcracht op één
vakgebied roept principieel dezelfde vragen op, maar op meer bescheiden schaal' wordt op pag. 84
gesteld.

Denkend aan de lopende experimenten en projekten basisschool vermoeden we dat er tenminste nog
andere aanvullende vragen opkomen indien op minder bescheiden schaal wordt gewerkt. En ook het
volgende kan verschillende vragen oproepen: de in de school geïsoleerde verandering (pag. 158),
beperkt tot één vak en één leerkracht, kan een 'reaktief effekt hebben (pag. 177). Daar komt nog bij
dat zeer intensieve begeleiding en de dubbelfunktie begeleider/ontwikkelaar (168,199) bij grootscha-
lige opzet in praktijk niet gauw zullen voorkomen. Dat neemt natuurhjk niet weg dat er over het
proces van begeleiding en ontwikkeling bij kleinschaUge opzet veel te leren valt. Vanuit een bepaalde
innovatiedoelstelUng en strategie kan men juist pleiten voor kleinschaUge evaluatie-studies: het gaat
dan om 'een zeer bepaalde populatie (Un. en Ikn.) bepaalde innovatie-doelstellingen te (doen) bereiken'
(pag. 192). Maar dan gaat het niet om de voorkeur voor kleinschaUgheid om redenen van onderzoeks-
efficiency.

In dit boek wordt aan de contextfaktoren veel aandacht besteed, vooral in signalerende zin. Het wordt
getypeerd als een 'exploratief deskriptief onderzoek met een besUssingsgericht karakter' (88). Een
pluspunt is de bestudering van het grote aantal faktoren dat bij dergeUjk complex onderzoek een rol
speelt; wie differentiatie-onderzoek start kan niet aan deze studie voorbij gaan. Een nadeel is echter
wel dat elke faktor in dit boek startpunt is voor een bespiegeling die het totaal teveel een leerboek-
karakter geeft, waar het verslag van onderzoek en ontwikkeUng bij een bepaalde vorm van interne
differentiatie wat onder bedolven dreigt te raken. De neiging steeds volledig te willen zijn, maakt de
studie soms wat zwaar te lezen en leidt ook tot enkele herhaUngen in de tekst. (Het verdient aanbeve-
hng het samenvattend hoofdstuk 11 (pag. 316-348) eerst te lezen). Een uitgave voor breder versprei-
ding - die zeker gewenst is - zou op dit punt een forse beperking kunnen ondergaan. Dat zou
tegelijk een goede gelegenheid zijn de storende dunne kleine letter en de weinig appetijtelijke lay-out
te vervangen. Dit werk verdient dat ruimschoots.

De eerste reaktie die bij me opkwam, toen ik het boek van Hoogstraten in handen kreeg, was: is dit
nog nodig na de uitgebreide publikaties van Rosenthal en de zijnen? Al lezende verminderde mijn
scepsis geleidelijk, al moet het me van het hart dat die niet in enthousiasme is overgeslagen.
Hoogstraten pretendeert een overzicht te geven van de 'voetangels en klemmen' die de sociale weten-
schapper zoal kan tegenkomen op zijn onderzoekspad, op grond van het sociale karakter van zijn
wetenschap. De presentatie van veel empirisch onderzoek staat daarbij centraal, alsmede suggesties
voor onderzoekstechnische mogelijkheden die toch nog ter beschikking staan om gerezen problemen
gedeeltelijk op te lossen.

Begonnen wordt met een hoofdstuk over de 'sociale psychologie van sociaal-wetenschappelijk onder-
zoek'. Het thema 'macht' staat daarbij centraal. Vanuit een aanvankelijke analyse waarin de macht van
de onderzoeker over de proefpersoon beschreven wordt, gaat de auteur geleidehjk over naar een
inperking van die macht door de proefpersoon die ook zo zijn ideeën heeft over het onderzoek en het
van hem verwachte gedrag. Dat leidt tot een presentatie van een systematische indehng van bronnen
van sociale kontaminatie. Het is jammer, dat Hoogstraten die indehng niet in de rest van zijn boek
konsekwent heeft aangehouden. Hij maakt daar wel meteen melding van in de tekst, maar dat is
natuurlijk geen ekskuus, als je dat niet beargumenteert. Wat resulteert is misschien het best te om-
schrijven als een verzameling artikelen over de belangrijkste kontaminatiebronnen die wat mij betreft
zonder al te veel problemen in willekeurige volgorde gelezen kunnen worden. Dat heeft natuurlijk ook
zijn voordelen als je snel wat wilt weten over een specifiek onderwerp. Het is mij echter niet goed
duidelijk voor wie het boek nu eigenlijk bedoeld is.

Gezien de inhoud zou ik geneigd zijn te zeggen: jongerejaars studenten in de sociale wetenschappen dan
wel beginnende onderzoekers die zo nog eens kort bij elkaar kunnen vinden hoe het mijnenveld op het
sociaal wetenschappelijk onderzoeksterrein gestruktureerd is. In beide gevallen had een meer koheren-
te presentatie de voorkeur verdiend.

De uitleiding 'Over de auteur' vermeldt dat het boek is voortgekomen uit het onderzoeksprogramma
'Het instrumentarium van de psycholoog', dat Hoogstraten samen met Van Heerden uitvoert in Am-
sterdam. Het blijkt dus in eerste instantie verslag van eigen verricht hteratuur- en empirisch onderzoek
te zijn. Dat is natuurlijk erg nuttig, maar bergt ook het risiko in zich dat de bestudeerde onderwerpen
als eerste leidraad voor de kompositie gaan fungeren ten koste van een systematische presentatie van
het probleemgebied. En dat lijkt hier enigszins gebeurd.

Niettemin moet het boek wel als nuttig gekwalificeerd worden. De behandehng van de verschillende
onderwerpen is met veel Nederlands onderzoeksmateriaal gelardeerd en zo hoor je ook nog eens wat er
hier te lande aan eksperimentele methodologie gedaan wordt. Een en ander is tevens in een verfrissen-
de stijl geschreven. Inhoudelijk komen achtereenvolgens aan de orde: een kritische beschouwing rond
de funktie van hteratuuronderzoek; de problemen rond 'voormetingen'; opdrachtvariabelen in de
onderzoekssituatie en karakteristieke manieren van reageren van de individuele proefpersoon; de proef-
persoon als 'terugpratend' (Kouwer) objekt; de niet altijd onbaatzuchtige onderzoeker; de proefleider
die ook geen standaardinstrument is. Tenslotte konkludeert Hoogstraten dan ook in navolging van Rip
('Wetenschap als mensenwerk'), dat onderzoek maar mensenwerk is.

Hier hgt de kern van mijn onbehagen met het boek. Onderzoek is mensenwerk, so what? De konstate-
ring alleen - zij het ook aan de hand van veel empirisch materiaal - brengt het, door mij vermoede,
geïntendeerde lezerspubliek (zie boven) niet zoveel verder. Toch doet Hoogstraten niet veel meer dan
konkluderen dat alles wat sociale wetenschappers doen tijdens onderzoek de geldigheid van hun
empirische uitspraken op losse schroeven kan zetten. Oppassen geblazen, is dan de boodschap en wees
vooral bescheiden in je konklusies, want wie weet stelt het wel nauwehjks iets voor. Een meer
fundamentele benadering van de problematiek had niet misstaan, en had het vele gepresenteerde
onderzoek waar evenzovele existentiebewijzen van artefakten door tegenstrijdige konklusies weerspro-
ken worden, voor de lezer in een kader kunnen plaatsen. Een goede aanzet daartoe wordt gegeven door
Hofstee in zijn artikel 'Limitations of methodological experiments' (Theory and Decision, 9, 1978,
77-92), dat Hoogstraten op pagina 125 wel aanhaalt, maar meteen langs een zijlijn parkeert als een

interessante behandeling van de problemen rond 'onderzoek van onderzoek' maar hier blijkbaar niet
verder relevant. Wat overblijft is een bekommentariëerde encyclopedie van methodologische experi-
menten, waarvan ik de invloed op de lezer niet durf te voorspellen. Of hij hanteert het als een nuttig
boek vol waarschuwingen waarop hij zijn kontroles aanpast, of hij doet alsof zijn neus bloedt, waar -
zoals de auteur signaleert - wel evidentie voor is, dan wel, moedeloos door zoveel aanslagen op zijn
professionele identiteit, geeft hij zijn onderzoekspijp aan Maarten. De laatste twee reakties kan ook
Hoogstraten niet bedoeld hebben.

Kortom, een nuttig boek voor de geïnteresseerde onderzoeker en student die genoeg met ambiguïteit
kunnen leven om niet over-scrupuleus te worden en de bereidheid hebben om ook in wat meer
fundamentele wetenschapstheoretische artikelen te neuzen.

Klerk, L.F.W. de. Inleiding in de Onderwijspsychologie. Deventer: van Loghum Slaterus, 1979.
Kwantiwijzer Instrumentarium. Handleiding (Eerste experimentele versie). Psychologisch Laborato-
rium, R.U. Utrecht, juni 1979.
Nijhof, W.J. (ttd.). Aspecten van curriculumontwikkeling. Groningen: Wolters-Noordhoff, 1979.
Onderzoeksmeerjarenplan van de Vakgroep Onderwijskunde, R.U. Utrecht, nov. 1978.
Welten, V.J. & Bergen, J.M.S. van. W.S.W.-jongeren in het vormingswerk. Samenvattend eindverslag,
konklusies en aanbevelingen. Nijmegen: Hoogveld Instituut, 1979.

De schooltoets na twaalf jaar. Deel I: Een evaluatie van de op de leerling gerichte functies: selectie
voor het V.O., advisering aan de ouders en opsporing van reserve aan intellect, door H. Blok en
H. Wesdorp.

Het ontstaan van schoolproblemen. Een longitudinaal onderzoek in kleuter- en lagere school, door
J. Hermanns

Operationahseringsproblemen bij onderzoek naar de affectieve relatie tussen ouders en kind, door

M.H. van IJzendoorn
Kroniek: Aanvankelijk lezen in Zweden: enkele impressies, door A. Schelfhout
Boekbesprekingen
Mededelingen

De schooltoets na twaalf jaar. Deel II: Een evaluatie van de op het onderwijs gerichte functies: analyse
van de stand van het onderwijs, concretisering van doelstellingen en beïnvloeding van het lager
onderwijs, door H. Blok en H. Wesdorp
Leerstoornissen en WISC- of WISC-R profielen, door K.P. van den Bos

Kroniek: Het AERA-Congres 1979, door C. Boonman, E. De Corte, N. Deen, P. Span, S.A.M. Veen-

Bij wijze van proef heeft de Stichting voor Onderzoek van het Onderwijs een brochure uitgegeven,
waarin in beknopte en gepopulariseerde vorm de voornaamste resultaten van een onderzoeksproject
worden uiteengezet. De brochure, getiteld 'Differentiëren bij het leren lezen', is toegezonden aan aUe
hoofden van scholen van basisonderwijs in Nederland. Middels een antwoordkaart kunnen de scholen
laten bUjken of ze prijs stellen op deze vorm van voorUchting.

De bedoeling van dit initiatief is volgens S.V.0. om te helpen de kloof te overbruggen die bestaat tus-
sen de verwachtingen over het nut van wetenschappeUjk onderzoek en de werkelijke opbrengsten daar-
van in de onderwijspraktijk.

De brochure heeft betrekking op het medio 1979 afgesloten D.A.L.-project (Differentiatie van het
AanvankeUjk Leesonderwijs) van het Schooladviescentrum in Utrecht en de Vakgroep Onderwijskunde
van de Rijksuniversiteit te Utrecht.

Een verslag van de evaluatie van dit project werd gepubliceerd in het boek 'Begeleide Onderwijsver-
nieuwing' door P. Appelhof (Tüburg: Zwijsen, 1979).

In 1970 fuseerden drie pedagogische centra in de sector van het openbaar en neutraal bijzonder onder-
wijs: het Algemeen Pedagogisch Centrum, het Onderwijskundig Studiecentrum en het Pedagogisch
Centrum voor het Algemeen Beroepsonderwijs. Men ging verder onder de naam ALGEMEEN PEDA-
GOGISCH STUDIECENTRUM. De eerste jaren stonden echter de letters 'in oprichting' achter de
naam van het APS.

In 1974 werd de Gemeenschappelijke Regehng van kracht, waarmee het APS een officiële status kreeg
en de letters i.o. verdwenen.

Het APS zal dit lustrum op 1 november naar buiten toe presenteren met de aanbieding van een onder-
wijskundig symposium voor circa 250 deelnemers, over het thema:

'De zichzelf veranderende school in het kader van landelijke ontwikkelingen en vernieuwingen.'
Waarom dit thema?

Opgemerkt kan worden dat het onderwijsbeleid van de Rijksoverheid zich karakteriseert als construc-
tief. Dit houdt onder meer in dat bij de door de overheid geïnitiëerde landelijke vernieuwings- en ont-
wikkelingsprojecten, voorwaarden geschapen moeten worden waardoor veranderingen kunnen plaats-
vinden.

Verspreiding van producten die via experimenteersituaties tot stand zijn gekomen blijkt niet het ge-
wenste resultaat te hebben; het is voor leerkrachten uiterst moeilijk om te werken met producten die
door anderen - in vaak moeilijk vergeüjkbare situaties - zijn ontwÜckeld.

Beter is het uit te gaan van 'schoolontwikkelingsmodellen'. Daarin kan de school gezien worden als
de kleinste organisatie-eenheid in het veranderingsproces. Veranderingen op schoohiiveau dienen sa-
men te gaan met veranderingen in het beleid, en omgekeerd.

Afstemming op elkaar kan het best bereikt worden door bij de besluitvorming inzake landeüjke ver-
anderingen het behoeftepatroon van de scholen te betrekken. Men zou regehnatig peilingen in de scho-
len dienen te houden.

Het bereiken van harmonie is echter geen nauwkeurig te definiëren moment in de tijd. Het systeem
'school' zélf is daarvoor te veel aan verandering onderhevig. Men moet het opvatten als een voortdu-
rend proces.

Onderwijsverandering op landelijk niveau maakt een voorwaardenscheppend beleid noodzakelijk.
Als de overheid als uitgangspunt hanteert dat de schoolteams zélf aan het veranderingsproces vorm
en inhoud moeten geven, op grond van een landeUjk actieplan met slechts globaal aangegeven activi-
teitsdoelen en tijdsplanning, wordt dan een bepaalde kennis en de aanwezigheid van veranderingsca-
paciteiten voorondersteld?

Is de toerusting en hulp die door de Rijksoverheid wordt geboden aan de ondersteuners, i.e. de verzor-
gingsstructuur, waaronder de pedagogische centra, daarmede in overeenstemming?

Deze vragen zullen op het symposium belicht worden vanuit drie verschillende optieken, n J. vanuit de
gezichtspunten van de wetgever, de verzorgingsstructuur en de scholen.

Inleiders zijn de Algemeen Directeur van het APS (presentatie van het onderwerp); Prof. Dr. L. van
Gelder (historisch perspectief); Prof. Dri R. Vandenberghe, hoogleraar bij de afd. Didactiek en Psycho-
pedagogiek aan de Universiteit van Leuven (gezichtspunt van de scholen); een medewerker van het
APS (gezichtspunt van de verzorgingsstructuur); drs. S.B. van Eijndhoven, plaatsvervangend Directeur-
Generaal Basisonderwijs (gezichtspunt van de wetgever).

In het tijdschrift van het APS, 'Onderwijs en Opvoeding', zal in het oktobernummer enige informatie
gegeven worden over de geschiedenis van het APS, terwijl in januari 1980 een dubbelnummer zal ver-
schijnen met het verslag van de conferentie en meer historische gegevens over het APS.
Het is mogelijk op deze speciale nummers in te tekenen. U kunt ze bestellen bij de redactie van O & O,
Buitenveldertselaan 106, postbus 7888, 1008 AB te Amsterdam-Buitenveldert, of telefonisch via
nr. 020441815.

SCORING 1
A	recall- instructie (n = 35)¹	m 7,97	sd 4,89	1 1 1 1 1 1
B	recognitie- instructie (n=41)*	9,73	4,69	1 Var. bron 1 Instructies 1 Within cells 1	df 2 91	MS 30.18 23.57	F 1.28	sign. n.s.
C	neutrale instructie (n= 18)	9,28	5,15	1 1 1 1 i 1
SCORING 11
A	recall- instructie (n = 35)	m 27,31	sd 7,27	1 1 1 1 1 ) 1
B	recognitie- instructie (n = 41)	29,05	6,45	1 Var. bron 1 Instructies 1 Within cells	df 2 90	MS 45.61 48.22	F .94	sign. n.s.
C	neutrale instructie (n= 17)²	29,82	7,33	1 1 1 1 1 1

item:	2	3	5	7	9	10	11
recall instructie (n = 36)	.97	1.17	1.28	.55	.150	.67	1.11
recognitie- instructie (n = 41)	.85	1.09	1.15	.85	1.20	.34	1.12
neutrale instructie (n = 20)	.85	1.45	1.05	.60	.95	.60	1.10

ï
-O	f_ Ï'
« {	(TTl
s s —O	QJ)
ïo — fi
ï"

Itemtypc	aantal	vervat in	Algoritme-conditie	N.algor.-cond.
Kennisitems	♦ 15	Voorrangstoetsen	12	9
	7	Krit. Voorr. "	2	9
Inzichtsitems	5	Krit. Voorr. "	11	3

Groep	A B	C	U	ANOVA enkelvoudig
M	29.9 28.9	28.2	30.1	F= 2.22**)
s	2.64 3.98	4.68	3.48	df : 3/156
n	33 37	42	48	p < .10
onderwijsconditie x		opl. M	opl. V	beroep V
	F	1.87	2.31	3.57
	df3/	146	144	132
„	P	n.s.	< .10	< .05
onderwijsconditie x		opl. M	opl. V	beroep V
(met SPM, klas 3 F		1.56	1.74	2.61
als covariate) df 3/		140	138	127
	P	n.s.	n.si	< .10
*) zie noot 2.
**) homogeniteit van variantie niet aanwezig.


Schr.nr.	N	y.	var (y)	a	a		f.		h	0	4>
1	48	5.8	0.77	2.61	2.56	-0.00	0.01	0.03	0.02	0.71	0.44
2	42	6.5	0.39	4.57	3.17	-0.00	0.01	0.02	0.02	0.36	0.43
3	34	6.4	0.60	4.06	2.95	-0.00	0.01	0.02	0.02	0.61	0.44
4	44	6.4	0.57	2.26	2.73	0.01	0.01	0.03	0.03	0.43	0.43
5	45	6.6	0.74	1.46	2.66	0.02	0.01	0.04	0.03	0.33	0.43
6	46	6.1	0.75	2.11	2.75	0.02	0.01	0.02	0.02	0.66	0.44
7	24	6.5	0.71	1.38	2.70	0.01	0.01	0.04	0.03	0.34	0.43
8	14	6.8	0.24	5.32	3.28	0.01	0.01	0.01	0.03	0.26	0.43
9	23	6.1	0.61	2.48	2.80	0.02	0.01	0.02	0.03	0.47	0.43
10	66	6.8	0.66	1.11	2.60	-0.01	0.01	0.05	0.03	0.44	0.43
11	45	6.1	0.45	4.06	2.89	0.00	0.01	0.02	0.02	0.45	0.43
12	40	6.4	0.68	3.51	3.13	0.02	0.01	0.01	0.03	0.54	0.44

Sch.nr.	N	Y.		MSE		COR		ZOL
Sch.nr.	N	Y.		LSQ	BAY.	LSQ	BAY.	LSQ	BAY.
1	68	6.2	0.88	0.90	0.80	0.47	0.52	0.74	0.69
2	35	5.6	0.93	1.59	1.47	0.50	0.54	0.69	0.71
3	46	6.1	0.80	0.56	0.52	0.61	0.65	0.57	0.54
4	56	6.2	0.77	0.47	0.47	0.49	0.50	0.61	0.57
5	57	6.6	0.64	0.37	0.36	0.44	0.40	0.53	0.49
6	42	6.5	0.77	0.61	0.58	0.57	0.62	0.60	0.55
7	31	6.4	0.76	0.68	0.60	0.17	0.18	0.78	0.72
8	10	6.9	1.30	1.16	0.68	0.89	0.87	0.60	0.60
9	19	6.5	0.68	0.35	0.34	0.52	0.53	0.58	0.58
10	94	7.0	0.75	0.89	0.65	0.30	0.38	0.64	0.67
11	46	6.5	0.72	0.66	0.64	0.45	0.47	0.76	0.65
12	36	6.4	0.86	0.54	0.55	0.52	0.51	0.56	0.58
				0.73	0.64	0.49	0.51	0.64	0.61

Sch.nr.	N	Y.		MSE		COR		ZOL
Sch.nr.	N	Y.		LSQ	BAY	LSQ	BAY	LSQ	BAY
1	56	6.3	0.79	0.49	0.53	0.50	0.49	0.59	0.61
2	47	6.8	0.45	0.12	0.13	0.62	0.62	0.53	0.47
3	31	6.8	0.83	0.66	0.56	0.78	0.78	0.68	0.61
4	29	5.7	1.00	0.65	0.79	0.68	0.58	0.59	0.69
5	104	6.1	0.72	0.39	0.40	0.63	0.63	0.63	0.60
6	64	6.9	0.68	0.30	0.27	0.61	0.66	0.56	0.59
7	85	6.1	0.87	0.39	0.36	0.74	0.75	0.54	0.47
8	87	6.9	0.73	0.43	0.40	0.56	0.58	0.67	0.63
9	69	6.5	0.73	0.47	0.48	0.37	0.37	0.57	0.58
10	22	6.1	0.80	0.64	0.59	0.41	0.42	0.68	0.73
11	74	6.7	0.78	0.48	0.45	0.46	0.50	0.73	0.70
12	28	6.3	0.61	0.31	0.20	0.68	0.68	0.50	0.39
13	27	6.7	0.84	0.78	0.62	0.42	0.46	0.74	0.56
14	46	6.9	1.10	0.82	0.70	0.72	0.84	0.57	0.46
15	37	6.7	1.38	1.08	1.26	0.70	0.69	0.60	0.60
16	43	6.4	0.79	0.52	0.54	0.58	0.54	0.54	0.63
17	34	6.1	0.54	0.54	0.57	0.18	0.23	0.71	0.74
18	42	6.4	0.87	0.69	0.66	0.56	0.56	0.52	0.60
19	60	6.1	0.92	0.81	0.75	0.53	0.55	0.67	0.68
20	55	6.5	0.86	0.31	0.31	0.78	0.78	0.42	0.51
21	22	6.5	0.63	1.10	0.62	0.62	0.65	0.82	0.68
				0.57	0.53	0.53	0.59	0.64	0.60

	de inhoud verwijst naar			bijbehorende thesaurus indien zelfstandige uitgave
	artikelen ''	rapporten	- boeken
naslagmateriaal periode	n d e f	n d e f	n d e f
3. systematische indexperiodieken
3.1.'Bibliographie 1966 - Pädagogik	o oo o o	- O - -	O oo o O	Thesaurus Pädagogik (Sträter, 1973)
3.2. British Education 1965 - Index /'66	oo - - oo -	- - - -	- - - ' -	-
3.3. Bulletin 1966 - 1968	- - - oo	- - - O	- - -	- '

Bron	SK	vg	GK	F
Voorkeurschalen	77,43	14	5,53	547,56
- Psychologie	43,41	7	6,20	614,04	**
- Pedagogiek	34,01	7	4,86	481,10	h*
Systematische fouten	1,75	21	0,08	8,26	**
Residu	0,21	21	0,01
Totaal	79,39	56

Tabel A.1
Variantie-analyse der voorkcursterktes
Bron	SK	VS	F
			GK^
Schaalwaarden	• i	m(n-l)	GK^
- Schaal 1
•
- Schaal i		n-1	^f^e
- Schaal m
Systematische fouten	SKY= S i; P -^ i <k	(112} (n-1) (n-2)	GKy GK,
Tocvalsfouten		(ll2) (m-1) (n-1) (n-2)
Totaal		(l/2)mn (n-1)

aantal	P/UVA		P/CDC	TERM		MINI
terminals	oud	nieuw	oud nieuw	oud nieuw	nieuw	oud	nieuw
				(IBM 5110)	(LSI-11/M2)	1BM34	DECAI
50	14	31	26 31	12 12	5,70	10	6
100	9	24	19 23	12 12	5,70	9	6
200	7	19	— 19	12 12	5,70	8	6

nr.	n	y.	a	a	/3,	(5.			0	0	R
1	154	65.9	50.1	48.7	0.27	0.32	0.24	0.24	37.2	38.2	0.53
2	35	65.6	43.3	48.3	0.34	0.32	0.45	0.27	30.4	38.1	0.70
3	38	63.2	56.8	48.6	0.08	0.32	0.17	0.23	21.1	37.9	0.35
4	50	66.4	41.8	45.7	0.29	0.32	0.43	0.29	25.7	37.7	0.60
5	58	64.1	38.6	44.7	0.44	0.32	0.39	0.31	53.3	39.3	0.55
6	58	63.1	29.2	39.5	0.59	0.32	0.36	0.34	58.0	39.7	0.51
7	30	72.7	62.2	58.1	0.37	0.32	0.04	0.14	37.3	38.4	0.33
8	54	65.7	51.7	50.0	0.32	0.32	0.16	0.23	41.1	38.5	0.45
9	116	67.6	43.8	48.0	0.44	0.32	0.30	0.28	49.9	39.7	0.53

p	r	ic	rb,	rb,
.0	.12 (.17)	.20 (.27)	.10 013)	.17 022)
.2	.13 019)	.18 027)	.14 017)	M6 023)
.4	.17 (.19)	.16 021)	.25 026)	.14 018)
.6	.20 (.21)	.11 015)	.35 036)	.12 016)

p	r	Tc	rb,	rb,	rb.
.6	.18	.14	.18	.12	.13
.7	.17	.11	.39	.12	.10
.8	.16	.08	.43	.12	.07
.9	.14	.03	.46	.13	.04

p	r	Tc	rb,	rb,	rb.
.6	.18	.14	.18	.12	.13
.7	.17	.11	.39	.12	.10
.8	.16	.08	.43	.12	.07
.9	.14	.03	.46	.13	.04

p	r	Tc	rb,	rb,	rb.
.6	.18	.14	.18	.12	.13
.7	.17	.11	.39	.12	.10
.8	.16	.08	.43	.12	.07
.9	.14	.03	.46	.13	.04