Een twee-maandelijks tijdschrift voor onderzoekers van onder-
wijs, gewijd aan theoretische, methodologische en profes-
sionele problemen in de onderwijsresearch.

Robert F. van Naerssen
Roland Vandenbcrghe
Mannus J.M. Voeten (se-
cretaris)
Peter Weeda
Wynand H.F.W. Wijnen

Tijdschritt voor Onderwijs-
research is een uitgave van
tie Vereniging voor Onder-
wijsresearch. De uitgave
wordt mede mogelijk go-
maakt door een subsidie,
verleend door de Stichting
voor Onderzoek van het
Onderwijs te's-Gravenhage.

Corte, Erik de. Beschouwingen met betrekking tot het onderzoek van onder-
wijsleerprocessen anno 1980 163
Dirkzwager, A.D. Multiple evaluatie in plaats van multiple choice 230
Gruijter, D.N.M. de. Schatting van de studietijd met matrix sampling 209
Holleman, J.W. Beheersing van de studieduur 257
Hoogstraten, Joh. & Jacobs, Martin. Publikatiegewoonten in Nederland. Deter-
minanten van de waardering van manuscripten; een experiment 66
Hoogstraten, Joh. & Koele, P. Cohen's foute berekeningen van de vergeten

Oud, J.H.L. Onderzoek van orthopedagogische cn onderwijskundige interven-
ties aan dc hand van tijdreeksen: Een MANOVA-procedure 267
Peeck, J. Bosch, A.J. van den, Kreupeling, W. Retention of response order
and the effects of feedback in a repeatedly administered multiple-choice
test 61
Tillema, Harm & Verloop, Nico. De invloed van verschillend gestructureerd
tekstmateriaal op dc cognitieve representatie van leerlingen, gerelateerd
aan verschillende informatieverwcrkingsslrategiecn 16
Tillema, I larm. Zie: Kok. Wil 182
Verloop, Nico. Zie: Tillema, I larm 16
Wouters, Luuk & Kop, Paul. Konkretiserende elaboraties en tekstbestudering 113

Gruijter, D.N.M. de&Crombag, 11.F.M. De empirische bepaling van dc norm-
tijd volgens Wiegersma

Hoogstraten, Joh. & Jacobs, Martin. Publikatiegewoonten in Nederland. Crite-
ria bij het beoordelen van manuscripten voorgelegd aan externe beoorde-
laars en lezers van T.O.R. 77
Hoogstraten, Joh. & Vorst, H.C.M. Het voorspellen van de eigen studiepresta-
ties; repliek 137
Hoogstraten, Joh. & Vorst, H.C.M. Het voorspellen van de eigen studiepresta-
ties; dupliek 145
Ho.x, J.J. & Soeteman, Th. Enige ervaringen met PLATO bij het prekandidaats-

Meer, A. van der. Kommentaar op Tillema & Verloop: 'De cognitieve repre-
sentatie van teksten" 292
Meerum Terwogt-Kouwenhoven, Kath. Het gebruik van vragenlijsten als eva-
luatiemiddel 83
Rooijen, Louis van. Zie: Vlaander, Gerrit P.J. 33
Soeteman, Th. Z/e.' llox.J.J. 130
Tillema, II. & Verloop, N. Het interpreteren van PASK; reactie op het com-
mentaar van A. van der Meer 296
Verloop, N.Z/e.- Tillema. 11. 296
Verstralen, Huub. Een commentaar op Niels Veldhuijzens 'Difficulties with

Hclièn, J. Bespreking van: Onderwijsmiddelen van de open universiteit: Funk-
ties en kosten, .Staatsuitgeverij. 1980 149
Creemers. li. Uespreking van: Zoekend naar een derde weg. Deel I en II door

Knapen, J. Bespreking van: Wat neemt de leerling mee van kunstzinnige vor-
ming? door Max van der Kamp
Linden, W.J. van der. Bespreking van: Criterion-referenced measurement:

The state of the art door R.A. Berk (Ed).
Lowyck, J. Bespreking van: De onderwijskundige voorbereiding van aanstaan-
de leraren. Een onderzoek naar opvattingen van docenten van lerarenoplei-
dingen, leraren in het voortgezet onderwijs en andere groeperingen door
A.J. Olgers & J. Riesenkamp
Molenaar, P.C.M. Bespreking van: Systeem-methodologie in sociaalweten-
schappelijk onderzoek door J.H.L. Oud
Roe, R.A. Bespreking van: Intelligentie door P.A. Vroon
Roe, R.A. Antwoord aan P. Vroon

door L.F.W. de Klerk
Slavenburg, Jan H. Bespreking van: De Curvo-strategie; Handboek voor leer-
gangontwikkeling door M. de Kok-Damave (red.)
Veldhuijzen, Niels H. Bespreking van: Psychometrics for educational debates
door Leo Th. van der Kamp, Willem F. Langerak & Dato N.M. de Gruyter
(eds.)

Vroon, P. Enkele kanttekeningen bij 'een sceptisch boek over het IQ' door
R.A. Roe

Dit tijdschrift heeft vijf jaargangen volgemaakt zonder ten onder te gaan door gebrek aan
kopij of abonnees. Weliswaar kan dit blad niet bestaan zonder een jaarlijkse subsidie van
de SVO, maar het aantal abonnees groeit nog steeds. Daarop en op het oordeel dat de
kwaliteit van de gepubliceerde artikelen acceptabel is, is de redactie trots.

Toch valt er over de aan de redactie aangeboden kopij nog wel iets te zeggen. Laat ons
eerst wat cijfers bekijken.

Uit bovenstaande tabel blijkt dat ter publicatie in de vijfde jaargang van het tijdschrift 22
artikelen werden aangeboden. Ter vergelijking staat rechts een overzicht van de aangebo-
den kopij voor de vier eerste jaargangen. Vergelijking van beide kolommen laat zien dat
tijdens de afgelopen jaargang het aanbod van methodologische artikelen verhoudmgs-
gewijze is teruggelopen en het aanbod van verslagen van empirisch onderzoek is toege-
nomen. Met dit laatste verschijnsel is de redactie tevreden, maar dat dit 'ten koste' van het
aanbod van methodologische bijdragen is gegaan, was nou ook weer niet de bedoeling.

Aangeboden kopij is nog geen gepubliceerde kopij. Weinig aangeboden artikelen kunnen
zonder meer geplaatst worden. Dat is op zichzelf geen probleem, de omvang van de
wijzigingen die nogal eens moeten worden aangebracht vormt wel een probleem. Te veel
auteurs bieden nog halfproducten aan. Dat bezorgt beoordelaars en redactieleden onno-
dig veel en oneigenlijk werk. Voorzover dit soort manuscripten tenslotte toch in het TOR
verschont, gebeurt dit zo lang na eerste aanbieding ervan, dat het ook voor auteurs erg
vervelend moet zijn. De redactie herhaalt daarom wat ook al in de redactionele hdeiding
bij de vorige jaargang werd gezegd: auteurs dienen hun manuscripten eerst in eigen kring
grondig te laten kritiseren, alvorens ze aan het TOR aan te bieden.

Methodologische en empirische bijdragen bepalen nog steeds het gezicht van het TOR.
Dat zal ook wel zo blijven en daar is volgens de redactie ook weinig tegen. Maar wat meer

variatie zou toch wel welkom zijn. De redactie is er in geslaagd van een aantal auteurs
toezeggingen voor het schrijven van overzichtsartikelen te verkrijgen. Zij hoopt dat de
eerste vruchten in deze jaargang zichtbaar zullen worden.

Nog steeds is de stroom van aangeboden kopij niet zo dik, dat de redactie meer dan
één of twee afleveringen vooruit kan zien. De redactie roept de lezers op daar verandering
in te brengen.

De rubriek die in de afgelopen jaargang het meest floreerde, was die van de boekbe-
sprekingen: het aantal daarvan was in de vijfde jaargang groter dan in enige eerdere jaar-
gang. Dat is een verheugende ontwikkeling. De redactie vindt het een taak van het TOR
alle in het nederiandse taalgebied in boekvorm verschijnende publicaties op het gebied
van de methodologie en onderwijsresearch van een vakkundige recensie te voorzien. Dat
kan als auteurs ervoor zorgen dat hun publicaties met dat doel aan de redactiesecretaris-
sen worden aangeboden. De redactie is doende richtlijnen voor recensenten op te stellen
om kleine ontsporingen, zoals die in het verleden wel zijn voorgekomen, in de toekomst
te voorkomen. Reacties van lezers die willen wijzen op onjuistheden in recensies, komen
in beginsel voor publicatie in aanmerking.

De redactie wijst erop, dat de rubriek Notities & Commentaren open staat voor lezers,
die willen reageren op gepubliceerde artikelen. Die rubriek mag best wat levendiger wor-
den. Een goede polemiek is nooit weg.

About the impact of the abudance of eductional research on educational practice and educa-
tional policy disappointment widely prevails.

In this paper the profound influence social scientific inquiry unmistakebly has excercised on
education for ahnost a century is pointed out. This influence, however, was of an indirect
nature.

It is argued that this is the very way scientific inquiry affects education lastingly. This is
understandable from the fact, that when applying research results in education, the last step is
couched in the acts of practitioners and administrators. This step contains a practical attribution
of meaning which is on the one side decisive and on the other side essentially unscientific.
It is not to be expected that new conceptions of science, new methodologies or new paradigms
will break the circle of disappointment. Certainly, our search in this respect must continue, but
it is an interminable discussion. The fact that as to that complete clarity has not been reached,
needs not stand in the way for research to be fruitful. What is needed now, is a revision of the
thoughtless expectations, the expectations taken for granted about the way social scientific
inquiry affects education, educational policy and, more broadly speaking, human action and
society.

In 1975 werden in ons land Sektor-Onderzoeks-Groepen (S.O.G.-en) in het leven geroe-
pen. Als taak ontvingen ze: op grond van wetenschappelijk onderzoek informatie ver-
schaffen aan 'het beleid' ten dienste van het streven naar vernieuwing van het onderwijs.
In eerste instantie werd aan de S.O.G.-en eigen bestuurlijke bevoegdheid toegedacht. De
onderzoekers werd de mogelijkheid geboden in hoge mate autonoom de hun toebedeelde
taak te vervullen (Van den Berg & Mens, 1975).

Nu - vijf jaar later - zijn deze S.O.G.-en verdwenen. Het onderzoek bleek niet op te
leveren wat men er zich van had voorgesteld. Pijnlijker is nog, dat degenen, die geacht
werden het beleid ten aanzien van zijn taak te kunnen informeren, zelf niet in staat
bleken op eigen terrein beleid te voeren. Het waren ambtelijke kringen, die orde op zaken
stelden. Ze deden dit op hun wijze en met hun middelen.

Deze ervaring staat niet op zich. Er aan vooraf gingen een aantal pogingen van de S.V.0.
om via landelijke programmering tot goed afgewogen en praktijk-relevant onderzoek van
het onderwijs te geraken. Ook deze pogingen verliepen weinig succesvol. Er na volgden
besprekingen, die moeten leiden tot een beperkt aantal goed funktionerende researchin-
stellingen, steunend op de S.V.0. en gelieerd aan universiteiten. Voor een definitief

1- Dit artikel is een bewerking van een inleiding gehouden op de V.U.L.O.N.-studiedag, 29 november
1979 te Nijmegen.

oordeel is het nog te vroeg. Van een moeizame start van deze nieuwe aanzet moet wel
gesproken worden. Initiatieven om tot voor de praktijk van het onderwijs waardevol
onderzoek te geraken en het falen ervan lijken elkaar haast wetmatig op te volgen met
tussenperioden van enkele jaren.

Specifiek voor de nederiandse situatie is deze gang van zaken niet. In alle landen, waar de
onderwijsresearch vaste voet kreeg, voltrok zich een soortgelijke ontwikkeling: in de
Verenigde Staten, Engeland, Duitsland en in de Scandinavische landen. Internationaal
heerst in onderzoekscentra een zekere malaise-stemming. De verhouding theorie/praktijk,
de 'impact van research' en de 'practice gap' werden in toenemende mate onderwerp van
diskussie en op hun beurt zelf objekt van onderzoek.

De vanzelfsprekendheid, waarmee tot voor kort werd aangenomen, dat sociaal-weten-
schappelijk onderzoek een belangrijke bijdrage levert tot de vernieuwing en verbetering van
het onderwijs wordt meer en meer in twijfel getrokken. Ervaren onderzoekers met oog
voor de werkelijkheid van het onderwijs gaan vaak voorop bij het signaleren van de
problematiek. Zo stelt Mahnquist de vraag, of niet met karrevrachten geld in het water is
gegooid. Velema spreekt van 'het fenomeen der lege handen'. Bij de voorbereiding van een
studiedag over de verhouding onderzoek/praktijk stelt een van de organisatoren de vraag
of het beeld van 'de kleren van de keizer' hier niet opgaat, of we in universitaire kringen
geen lippendienst bewijzen aan wat in feite niet meer is dan wat stoffig spinrag.
De onderzoekers zijn duidelijk in verlegenheid. In beleidskringen en in 'het veld' bleef de
ontwikkeling niet onopgemerkt. De belangstelling en de beschikbaar-gestelde middelen
namen af. De kritiek werd luider. Schamperheid en sarcasme zijn geen zeldzaamheid
meer.

De geschetste ontwikkeling is overigens slechts een aspekt van een algemene trend in het
sociaal-wetenschappelijk onderzoek. Fundamentele vragen zijn weer in hoge mate aktueel.
Met excuses voor de gemeenplaats: de sociale wetenschappen bevinden zeer weer eens in
een crisis.

Talrijk en divers zijn de voorstellen, die gericht zijn op verbetering van de situatie. Ze zijn
organisatorisch, methodologisch en wetenschapstheoretisch van aard. Men pleit voor gro-
tere methodologische strengheid en voor 'more loose methods', voor verdergaande forma-
lisering en mathematisering en voor kwaÜtatieve methoden (overigens van diverse en vaak
weinig doorzichtige makelij), voor pluralisme in de theorievorming en voor meer konver-
gentie, voor aktieonderzoek en voor meer aandacht voor de theorie, voor betere program-
mering en voor ruimte voor 'what happens', voor verbetering van de forumfunktie en voor
meer kontrole vanuit de samenleving, voor een pedagogische antropologie, die de resul-
taten van het empirisch onderzoek kan interpreteren en integreren en voor praktijk- en
beleidgerichtonderzoek, liefst volgens een eigen, overigens nog duister paradigma, en on-
getwijfeld voor nog vele andere.

Waarschijnlijk schuilt in al deze voorstellen iets waardevols. We zullen de aangeduide
wegen moeten begaan en daardoor ongetwijfeld verder komen. Intussen, tot overtuigende
resultaten heeft geen ervan nog geleid. Gezien de diversiteit van meningen en de zeker
ogenschijnlijke tegenstrijdigheid ervan, is dit op korte termijn ook niet te verwachten.
Kunnen we het probleem ook anders zien?

Kijken we vanuit een wat ander standpunt, dan is het onmiddellijk zonneklaar, dat
sociaal-wetenschappelijk onderzoek wel degelijk en in sterke mate het feitelijk onderwijs
beïnvloedt. Voorbeelden liggen voor het grijpen.

- Dat het intelligentie-onderzoek sinds Binet-Simon, sinds Herderschee en Luning-Prak
het denken en doen van onderwijzenden, ouders en beleidsUeden, de struktuur van het
onderwijs en het schoolleven van millioenen kinderen zeer ingrijpend heeft beïnvloed,
kan niemand ontkennen.

- Hetzelfde geldt voor het onderzoek naar het zitten-blijven, de waarde van examens,
tentamens en proefwerken, de kreativiteit, de rol van de taal in de relatie school/
milieu, het onderzoek met betrekking tot gehandicapten en 'anders-maatschappelij-
ken', enz. Wie het zou willen ontkennen, stuit op tastbaarheden als het Buitengewoon
Onderwijs, het C.I.T.O., onze multiple-choice tentamens, bestaande advies-, beslissings-
en hulpverleningspraktijken, enz.

- Men kan ook moeilijk ontkennen, dat wetenschappelijke stromingen als de gestaltpsy-
chologie, de denkpsychologie, de dieptepsychologie, de fenomenologische pedagogiek,
het empirisch onderzoek van het lezen, de sociologie van deviante groepen, de sociolin-
guïstiek, de russische leerpsychologie, enz. diepe voren hebben getrokken door het
feitelijk onderwijs en het onderling gesprek van de onderwijzenden.

Terecht stelt men telkens weer de vraag of deze fehelijke invloed van hec wetenschappe-
lijk onderzoek op de praktijk van het onderwijs steeds en in alle opzichten een invloed ten
goede is geweest. Dat het werk van onderzoekers geen uitwerking zou hebben, is echter
geen houdbare stelling. Deze uitwerking was tot nog toe omvangrijk en diepgaand. Er is
geen enkele reden om te verwachten, dat dit in de toekomst anders zal zijn.
We zien ons daarmee geplaatst voor een merkwaardige tegenspraak. De aktuele verlegen-
heid van de onderzoeker, het gevoel met lege handen te staan is onmiskenbaar. Tegelijk is
er de zekerheid, dat sociaal-wetenschappelijk onderzoek meer dan een halve eeuw het
onderwijs zeer intensief heeft beïnvloed. Op dergelijke situaties zijn de in het onderzoek
geijkte termen 'dissonantie' en 'anomie' van toepassing. Het zijn bij uitstek situaties
waarin geleerd wordt en waarin kollektieve opvattingen worden herzien.

Volgen we wat nauwkeuriger de wijze waarop wetenschappelijk onderzoek het feitelijk
onderwijs beïnvloedt, dan vallen enkele dingen op:

a- De invloed van een nieuw wetenschappelijk inzicht, met name op het spreken en
denken van de practici, is in het begin opvallend groot. Het lijkt soms bijna een obsessie.
Flanders sprak - in verband met zijn interaktie-analyse - indertijd van een 'disease'.
'Ganzheitliches lemen' en 'globaalmethode' waren in een bepaalde periode praktisch
synoniem met onderwijsvernieuwing. In de hoogtijdagen van de fenomenologie was het
'ontmoeten', 'appelleren', 'pedagogisch denken', en 'metabletica' wat de klok sloeg. De
tijd van de kompensatieprogramma's hebben we gekend. Didaktische analyse, leerplanont-
wikkeling, het formuleren van doelstellingen, toetskonstruktie en evaluatie lijken op het
ogenblik als brandpunten van aandacht over hun hoogtepunt heen. Voor sommigen
schijnt het ongelijkheidsprobleem het centrale probleem van het onderwijs te zijn. Wat

morgen de geesten gevangen zal houden is een vraag, maar dat het iets bepaalds zal zijn
mogen we verwachten.

b. De pogingen tot 'toepassing' van onderzoeksresuhaten in de onderwijspraktijk blijken
in eerste instantie doorgaans tot teleurstelling te leiden. Bekend is de uitspraak, dat
kinderen in de Verenigde Staten nooit slechter leerden rekenen, dan toen de leertheorie
van Thorndike werd toegepast. De aanvankelijke toepassing van de globaalmethode in het
leesonderwijs bracht kinderen en leerkrachten in grote moeilijkheden. De kompensatie-
programma's waren niet bepaald succesvol. Massale toepassing van geprogrammeerde in-
struktie en van multiple-choice-vragen riep niet voorziene problemen op. We gaan er aan
twijfelen of het onderbrengen van gehandicapten in afzonderlijke scholen wel onverdeeld
gunstig is. We vragen ons af of het streven naar individualisering niet zijn praktische en
didaktische grenzen heeft.

In een recent nummer van Reading Research Quarterly meent de redaktie - een groepe-
ring, waarvan men moeilijk kan beweren, dat ze in dit opzicht niet bij uitstek deskundig is
- uitdrukkelijk te moeten waarschuwen voor 'unexpected and undesirable results' bij
toepassing van researchresultaten in de praktijk. Ze geeft daarbij toe geen rationeel middel
aan te kunnen geven om dit bezwaar te ondervangen. 'In fact, curriculum designers in
reading have drawn so heavily upon resarch either to improve practice or to justify an
innovation that one wonders what precautions and guidelines should be established so
that we can encourage innovation and change while at the same time we make certain
that we protect the consumer' (Samuels & Pearson, 1980, p. 317).

c. Na de aanvankelijke hausse herneemt het leven zijn rechten. Andere ideeën en proble-
men vragen de aandacht. Ondanks dat laat het eenmaal geïntroduceerde resultaat van
wetenschappelijk onderzoek zijn sporen na in het feitelijk onderwijs. De situatie van vóór
het onderzoek naar de intelligentie komt niet terug. Hetzelfde kan gezegd worden van
Freud, Adler, het onderzoek naar examens, het zittenblijven, de verhouding school/
milieu, de rol van de taal, enz.

De wijze van spreken over onderwijs is er door veranderd, al raakten de wetenschappelijke
statements versleten en overdekt, en al worden de betrokken begrippen voortaan op een
triviale wijze gebruikt, ontdaan van hun wetenschappelijke pregnantie. De met zoveel
moeite verworven wetenschappelijke uitspraken worden niet langer gebruikt in expliciete
redeneringen. Onopgemerkt is er iets van blijven hangen in de achtergrond van vanzelf-
sprekendheden van waaruit ons spontane handelen mede wordt geleid. Niemand kan nog
uitmaken wat daar stamt uit het wetenschappelijk onderzoek, wat uit 'de geest van de
tijd', wat uit persoonlijke ervaringen, en wat uit een nog niet doordachte traditie. Goed en
minder goed, onkruid en koren groeien er samen verder en zijn door ons niet definitief
uiteen te leggen.

Uitgedrukt in uit meer wetenschappelijke konteksten stammende termen: de theorie is
opgenomen in een 'prevailing view of education' (Cronbach & Suppes, 1969, p. 125 e.V.),
'cultural diffusion' heeft plaats gevonden (Clifford, 1973, p. 25), de wetenschappelijke
verworvenheden zijn opgenomen in een gemeenschappelijke 'Lebenswelt' (Husserl), ze
maken voortaan deel uit van het 'anoniem subject' van 'Ie corps' (Merleau Ponty), 'inter-
nalization' (Berger en Luckmann, 1979, p. 147 e.v.) vond plaats, nieuwe 'personal con-
structs' (Kelly, 1955) kwamen tot stand.

Om bUjvend invloed te kunnen hebben op het onderwijzend handelen diénen onderzoeks-
resultaten büjkbaar nog een 'bewerking' te ondergaan. Ze worden als het ware omgesmol-
ten in een smeltkroes, die we als onderzoeker niet zelf 'in de tang' hebben. Een proces van

praktische zingeving voltrekt zich, dat principieel niet-wetenschappelijk van aard en toch
uiteindelijk beslissend is.

Dit brengt ons wat dichter bij de oplossing van de tegenspraak, die zojuist werd aange-
duid. Blijkbaar heeft wetenschappelijk onderzoek wel degelijk invloed op de onderwijs-
praktijk. Het heeft dit echter op een andere wijze dan wij op het ogenblik veelal verwach-
ten. Vandaar de teleurstelling in het veld en bij de beleidsvoerders. Vandaar het gevoel
met lege handen te staan bij veel van de onderzoekers.

^ij gaan er stilzwijgend vanuit, dat ons handelen volledig bepaald wordt vanuit heldere
expliciete redeneringen, waarin onze moeizaam verworven wetenschappelijke uitspraken
als premissen kunnen optreden. Dit is een misvatting. Feitelijk handelen, ook onderwijzen
en onderwijsbeleid voeren, vindt uiteindelijk plaats vanuit een onafzienbaar veld van
steeds slechts zeer ten dele geëxpHciteerde verwachtingen.

De genoemde misvatting leidt er toe, dat sociale wetenschappers niet zelden verwachten
pretenderen, dat vanuit hun onderzoeksresultaten onderwijzend handelen en onder-
wijsbeleid rechtstreeks en eenzinnig kan worden afgeleid. Een geliefde formulering is, dat
het door onderzoek 'onderbouwd', dat het er door 'gefundeerd' zou worden. Men stelt
onderzoeken zonder meer gelijk met adviseren of informeren in algemene zin. Men wekt
de verwachting een oplossing te kunnen bieden voor zich voordoende praktische proble-
men van alledag.

Naast het reeds gegeven voorbeeld van de onderzoekers uit de S.O.G.-en, die optimistisch
de taak op zich namen 'het veld' te informeren met betrekking tot de onderwijsvernieu-
wing, nog enkele andere:

a. In 1977 verscheen een werkdocument van de Sociaal Wetenschappelijke Raad als
resultaat van de werkzaamheden van een kommissie, die zich boog over het probleem
van de programmering van het onderzoek op het gebied van het onderwijs. De inleiding

'De Raad hoopt dat het werkdocument zal leiden tot een onderzoeksprogramma dat de grond-
slag kan leggen van een nationaal samenhangend beleid met betrekking tot het onderwijs' (De
Moor, 1977, p. 6).

Waar ter wereld werd iets dergelijks gerealiseerd? Hoeveel soortgelijke programma's -
voor zover ze in uitvoering werden genomen - werden niet in een voortijdig stadium
afgebroken of 'omgebogen'? Het bovengenoemde programma werd zelfs niet in uitvoe-
ring genomen.

b. In de afgelopen tijd heeft een interdepartementale studiegroep zich intensief beraden
over de vraag, welke rol onderzoeksafdelingen diende te worden toebedeeld bij het tot
stand komen van planning en beleid op departementaal niveau (Onderzoek..., 1978).
De meningen liepen ver uiteen. Sommigen verdedigden het standpunt dat wetenschap-
pelijk onderzoek de uitgangspunten levert, en dat planning en beleid hieruit dienen te
Worden afgeleid. Het waren met name sociaal-wetenschappelijk onderzoekers die dit
standpunt verdedigden.

c- Een werkgroep van docenten uit de universitaire lerarenopleidingen stelde een nota op

bestemd voor een kommissie van de Akademische Raad om ruimte te bepleiten voor
eigen onderzoek. Als eerste argument wordt genoemd:

'Onderzoek op het gebied van de lerarenopleiding is noodzakelijk om te garanderen dat het
gegeven onderwijs wetenschappelijk verantwoord is' (Werkgroep Onderzoek ARCULO, 1979).

In een argumentatie bestemd voor het hoogste beleidsniveau wordt blijkbaar als van-
zelfsprekend verondersteld dat wetenschappelijk verantwoord onderwijs mogelijk is en
dat onderzoek dit kan garanderen. Bestaat er echt wetenschappelijk verantwoord on-
derwijs of is dit denkbaar? Bestaat er niet hooguit onderwijs, dat mede vanuit weten-
schappelijke gegevens geïnspireerd is?

d. Rond 1968 formeert zich een groepering Psychonomen. Ze stelt zich tot taak, geleid
door gewetensvolle methodologische zuiverheid het reeds zo succesvol experimenteel
onderzoek van het menselijk gedrag gecoördineerd ter hand te nemen. Men is opti-
mistisch omtrent 'de mogelijkheden, die de psychonomie de maatschappij kan bieden'
(Michon et. al., 1976, p. 623), dit mede in een adviserende rol t.a.v. problemen uit het
dagelijks leven. Ook op het onderwijs werd de aandacht gericht. Tot heden werd dit
optimisme tenminste ten aanzien van het onderwijs weinig of niet door de feiten
gehonoreerd (Michon et al., 1976, p. 618-620; Wagenaar et al., 1978, p. 165-210; De
Klerk, 1977, p. 327).

e. De revolterende studenten waren bereid desnoods alle gevestigde regels van het weten-
schappelijk onderzoek opzij te schuiven. In één opzicht bleven ze de universiteit
trouw: in het geloof, dat het de taak van het sociaal-wetenschappelijk onderzoek zou
zijn de weg te wijzen naar een betere samenleving. Maatschappelijke relevantie werd bij
voorbaat van het onderzoek geeist. 'Onderzoeker-zijn' kon zelfs verworden tot een
strategisch argument in de strijd om een betere samenleving (zie bijv. Panhuysen en
Verbij, 1979).

Ook hier waren enkele jaren voldoende om de tegenstelling tussen wat werkelijkheid
geacht werd en werkelijkheid aan het licht te brengen. Het geëiste onderzoek kwam
niet tot stand. De maatschappij werd ook niet daardoor veranderd. Wel spreekt men
nu van de "vergruisde' universiteit.

f. Hoezeer de opvatting, dat beleid en praktijk rechtstreeks in het verlengde liggen van
onderzoek onder sociaal-wetenschappelijk onderzoekers van het onderwijs gemeen goed
is (geweest?) wordt treffend geillustreerd door een uitspraak van Sandbergen:

'Zelfs als we rekening houden met variaties tussen opvattingen van "scholen" lijkt het er
bijvoorbeeld op, dat het besef in de onderwijskunde gaat doorbreken dat beslissingen op grond
van resultaten van onderzoek door anderen dan de onderzoekers genomen moeten worden'
(1979, p. 214).

Wetenschappelijk onderzoek kan wel een bepaalde uitspraak afdoende (?) funderen. Ex-
pliciete uitspraken en expliciete overwegingen vormen echter steeds maar zeer ten dele de
grondslag van ons praktisch handelen, ook van onderwijzen, beleidvoeren, onderwijsver-
nieuwen, leermiddelen ontwerpen, enz.

Het doen van een uitspraak is zelf een handeling, een taalhandeling. Hoe zou dit handelen
al ons handelen - dus ook zichzelf — kunnen funderen?

Wetenschappelijk onderzoek kan ons praktisch handelen wel degelijk beïnvloeden; een
uiteindelijke grondslag er voor bieden kan het niet. Door blind te zijn voor het onvermij-

delijk aspektmatig karakter van het resuhaat van elk wetenschappelijk onderzoek hebben
de sociaal-wetenschappelijke onderzoekers zelf de verlegenheid opgeroepen waarin ze op
het ogenblik zijn geraakt. De tegenspraak, het gebrek aan eenstemmigheid, de dissonantie
is zonneklaar. We blijven er echter aan voorbij zien, zoals de regenmaker voorbij ziet aan
de vraag of zijn dans de regen werkelijk veroorzaakt. We handhaven de illusie dat onder-
zoek kan garanderen dat ons onderwijs verantwoord, en nog wel wetenschappelijk verant-
woord is. We handhaven een irrationeel geloof in de rationaliteit van de uiteindelijke
toepassing van wetenschappelijk onderzoek.

Kunnen we dit helder onder ogen krijgen. Wat verstaan we eigenlijk onder onderzoek?

Onderzoek is niet iets bijzonders. De politie onderzoekt een inbraak. De winkelier onder-
zoekt de klacht van een klant. De direkteur van een school onderzoekt een konflikt met
een leraar. Wie onderzoekt wil weten 'hoe iets zit'. Hij tracht doelgericht vanuit onzeker-
heid tot zekerheid te geraken.

Onderzoeken is iets algemeen menselijks. Reeds bij kleine kinderen treffen we het aan.
Wanneer de twijfel eenmaal is ontwaakt, gluurt Jantje naar loshangende flarden aan de
baard van Sinterklaas en naar een bekende broekspijp onder de rokken. Hij onderzoekt en
komt tot zekerheid.

In feite is al ons waarnemen reeds onderzoeken. Wie toeziet, luistert, aftast, proeft, een
lucht opsnuift of 'snuffelt', streeft naar zekerheid. Onuitgesproken is een struktuur van
vraag, twijfel, zoeken, aarzelen, antwoord en eventueel zekerheid in al ons waarnemen
aanwezig. Niet voor niets is het waarnemen de laatste bron waarnaar alle wetenschappelijk
onderzoek terugkeert.^ Het is de oervorm van onderzoek. Verder teruggaan kunnen we
niet. Iets beters hebben we ook niet.

Heeft Jantje eenmaal ontdekt dat Sinterklaas niet bestaat, dan is hij veranderd. 'Hij
gelooft er niet meer in.' Voortaan behoort hij definitief tot een andere kategorie kinde-
ren. Heeft de direkteur eenmaal vastgesteld dat een jongen ernstig gefraudeerd heeft, dan
ziet hij de jongen voortaan anders. Wat door 'onderzoek' in deze primaire zin eenmaal is
vastgesteld, blijft ons bij. Onze kijk op de dingen wijzigt zich en daardoor ook ons
handelen. Al onderzoekend vormen we een beeld van de wereld waarin we geloven, een
patroon van verwachtingen aan de hand waarvan we handelen. Door onderzoek wint dit
beeld en wint ons handelen aan genuanceerdheid en adekwaatheid.
Dit wereldbeeld is overigens maar zeer ten dele een persoonlijke verworvenheid. Jantje
heeft Sinterklaas niet zelfbedacht. Het is een laatste restant van een duizenden-jaren-oude
idee, die als een realiteit hele volkeren en kuituren in zijn ban heeft gehad en hun
handelen mee heeft bepaald. Ons opgroeien te midden van anderen brengt met zich dat
we een wereldbeeld voor een groot deel zonder meer overnemen, o.a. via het leren van
taal en ook via onderwijs. We gaan delen in de resultaten van 'onderzoek' van talloze
generaties vóór ons. Het ontwerp van waaruit wij handelen is voor een groot deel gemeen-
schappelijk, niet persoonlijk. Slechts voor een zeer klein deel hebben we het tot stand

2. Wanneet men bereid is (bijv. met Husserl) niet aUeen van zintuiglijk maar ook van immanent
Waarnemen te spreken, geldt deze uitspraak voor alle wetenschappen, bijvoorbeeld ook voor de wis-
kunde en de methodologie. Waarnemen kan dan omschreven worden als: het oorspronkelijk weetheb-
ben van iets individueels.

komen ervan zelf aktief mee voltrokken. We nemen het als voor ons geldend, als onont-
komelijk, vanzelfsprekend, als objektief geldend. Doorgaans komen we er ook goed mee
uit. AI handelend vinden we het ontwerp voortdurend bevestigd, soms stoten we op een
moeilijkheid, op een tegenspraak zoals Jantje bij Sinterklaas, of bij het toepassen van
resultaten van wetenschappelijk onderzoek in de praktijk, zoals hier ter sprake is.

Binnen een dergehjk kader van voor een groot deel niet persoonlijk gekozen vanzelfspre-
kendheid voltrekt zich ook ons onderwijzend handelen. We troffen het onderwijs aan.
Niemand van ons heeft het tot zijn fundament doordacht. Geen van ons beseft volledig
hoe het allemaal ook anders zou kunnen.

Om een weinig fynzinnig voorbeeld te kiezen: praktisch zolang er scholen bestaan, heeft de
plak, het rietje, de roede of de riem vanzelfsprekend behoord tot de 'leermiddelen'. Onderwij-
zers, ouders en ook kinderen hebben hchamelijk geweld bij de gezagsuitoefening in de school als
onontkomelijk aanvaard. In onze dagen hebben we ontdekt dat het ook zonder kan. Historisch
gezien is het iets uitzonderUjks. Nog steeds zijn er overigens beschaafde landen waar lichame-
lijke pijniging van de kant van de leerkrachten tot de vanzelfsprekendheden behoort.
Een voorbeeld dichter bij huis: het tuchtrecht aan een universiteit is pas onlangs uit de sfeer van
de vanzelfsprekendheid geraakt. Voor velen is de fase van onderzoek, de overgang van onzeker-
heid naar zekerheid, nog niet afgesloten. (In hoeverre komt de onderwijsresearch aan dit 'onder-
zoek' te pas?).

Op deze wijze gezien zijn en blijven 'alle betrokkenen' - leraren, ouders, beleidslieden en
leerlingen - onderzoekers van het onderwijs. Telkens kan de twijfel ontwaken aan dat-
gene, wat slechts ten dele doordacht als vanzelfsprekend en objektief geldend aanvaard
werd. Steeds blijft de mogelijkheid van zoeken naar nieuwe zekerheid. Elke korrektie die
we al 'onderzoekend' aanbrengen, blijft partieel. Een horizon van nog niet doordachte
vanzelfsprekendheden blijft aanwezig als achtergrond van waaruit ons praktisch handelen
mede bepaald wordt.

Wanneer onderzoek een zo alledaagse bezigheid is voor alle mensen, wat is dan het
specifieke van wetenschappelijk onderzoek?

Het specifieke van wetenschappelijk onderzoek is, dat het als aktiviteit op zich is gesteld,
dat het verzelfstandigd is tot een taak op zich.

In het dagelijks leven verloopt onderzoek — de uitbouw van het ontwerp van de wereld
van waaruit we handelen — op grond van toevallig zich voordoende problemen en moei-
lijkheden. Daar waar het beeld niet bhjkt te kloppen, waar het wringt of leemten ver-
toont, streven we naar nieuwe zekerheid. Het resultaat vertoont daardoor op zijn beurt de
kenmerken van deze toevalligheid. Het is niet vrij van leemten, van slakken uit het
verleden, van mnerlijke tegenspraak, enz.

Bij een wetenschappelijke toewending wachten we niet af tot moeilijkheden zich voor-
doen. Wetend dat ons ontwerp onvoltooid is en niet vrij van gebreken stellen we aktief de
vragen. Zonder dat er aanleiding is in hetgeen ons overkomt, trekken we Je wijze waarop
we samen vanuit onze gemeenschappelijke vanzelfsprekendheid de dingen zien en er over
spreken, in twijfel. Los van de noden van het ogenblik streven we naar een gemeenschap-
pelijk ontwerp van de' wereld, dat in de toekomst steeds weer bevestiging zal vinden en
houdbaar zal blijken.

Dit streven is een betrekkelijk late verworvenheid in onze westerse kuituur, historisch
gezien als een vorm van vrijetijdsbesteding. Nu treffen we het ook aan als beroep, als
professie. Het is wel als streven ontwaakt, maar is gericht op een doel dat oneindig ver
ligt.

Professionele wetenschappelijk- onderzoekers (van het onderwijs) zijn degenen, die door
de maatschappij zijn vrijgesteld om ten aanzien van het onderwijs en het onderwijzen deze

Is dit niet een erg ongebruikelijke en daarom te verwerpen omschrijving van wetenschap-
pelijk onderzoek?

Ongebruikelijk moge ze zijn. Een verdere bezinning erop leidt echter tot formuleringen
die volkomen traditioneel zijn. Ze voert tot uitspraken als:

- Wetenschappelijk onderzoek dient kritisch, systematisch en methodisch te werk te
gaan.

- Het dient radikaal te zijn in de zin van streven naar helderheid tot aan de wortel, d.i.
helderheid tot op het niveau van het waarnemen.

- Het resultaat dient helder verantwoord te zijn en te resulteren in geïntegreerde en
geëxpliciteerde - dit is in taal gevatte - kennis.

Alleen bij het laatste een korte opmerking. Wetenschappelijke kennis is noodzakelijk in
taal tot uitdrukking gebrachte kennis. Wat we als wetenschappelijk onderzoekers nastre-
ven is het vangen van de wereld waarin we leven en handelen in een systeem van enkele
tienduizenden woorden, overigens ongetwijfeld een systeem met een eigen bijzondere
vruchtbaarheid. Dan te weten, dat reeds het meest eenvoudige feitelijk onderwijsgebeuren
een onuitputtelijke bron van mogelijke wetenschappelijke thematiseringen is!

We hebben wetenschappelijk onderzoek leren zien als een verzelfstandigd streven naar
houdbare kennis, een streven dat - niet op zich gesteld - altijd reeds aanwezig was zolang
er mensen waren; in ons geval zolang er onderwijs was.

Wat zegt ons dit met betrekking tot het wetenschappelijk onderzoek van het onderwijs,
met name voor wat betreft de aktuele problematiek ervan?

a- Het historische feit dat onderwijskundig onderzoek bestaat, houdt niet in dat onder-
wijzenden, beleidslieden en ook leerlingen hebben opgehouden zelf het onderwijs te
onderzoeken. Zij blijven het patroon van vanzelfsprekendheden, van waaruit zij han-
delen, herzien en nuanceren. Ze doen dit ongetwijfeld op grond van toevallige situaties,
niet systematisch, verward en grillig. Dit neemt niet weg dat hun 'onderzoek' gewoon
voortgaat, dat het onderwijs zich vernieuwt uit eigen kracht, eventueel geheel onafhan-
kelijk van alle wetenschappelijk onderzoek,
b. Het bestaan van sociale wetenschappen als akademische struktuur en het bestaan van
professionele wetenschappelijke onderzoekers is op zich voor het onderwijs nog van
geen enkele betekenis. Van belang wordt een en ander pas, wanneer onderzoekers goed
gefundeerde uitspraken ter beschikking brengen die nieuw licht werpen op het onder-
wijs en het onderwijzen,
c- Deze uitspraken kunnen in eerste instantie gaan optreden in de gesprekken van de
praktici; ze kunnen opgenomen worden in 'leerboeken'; ze kunnen gaan funktioneren

als argument - als premisse - in expliciete redeneringen die leiden tot expliciete
beslissingen, b.v. de beslissing om de middenschool in te voeren, om de leerplicht uit te
breiden tot 20 jaar, om de 'new math' in te voeren, om een kind naar een b.l.o.-school
of l.o.m.-school te laten gaan, om een tentamen voor onvoldoende te verklaren, enz.
De uitspraken behouden echter onvermijdelijk het aspektmatig karakter van alle (we-
tenschappelijke) uitspraken. Vandaar een gevaar van eenzijdigheid, overtrokkenheid en
niet-leefhaarheid in dit stadium van 'toepassing'.

d. Aan de uitspraken op grond van wetenschappelijk onderzoek dient daarom nog een
uiteindelijke praktische zin te worden verleend. Zij die verantwoordelijkheid dragen
voor feitelijk onderwijs kunnen niet anders doen dan deze uitspraken 'onderzoeken' op
hun niet-wetenschappelijke wijze. Zij moeten ze wegen op hun waarde om ze al of niet
en in ieder geval op een bepaalde wijze te verdiskonteren in het patroon van verwach-
tingen - in het wereldbeeld - van waaruit hun zeker ten dele spontane handelen plaats
vindt.

Deze laatste stap waardoor de resultaten van onderwijskundig onderzoek werkelijk
praktische zin wordt verleend, is principieel niet-wetenschappelijk van aard. De onder-
zoeker als zodanig kan hem niet beheersen, kontroleren of ook maar volledig explici-
teren. Deze stap is wel zinnig, maar niet logisch in strikte zin. Handelen vindt plaats in
een waargenomen situatie. In de waarneming komt de synthese niet tot stand op grond
van een redenering. We besluiten niet tot het waargenomene. We vatten op gemotiveer-
de wijze in één greep iets op als een eenheid van zin.^ In deze greep kan ook een
wetenschappelijke uitspraak verdiskonteerd worden.

In het begin kwam de verlegenheid ter sprake waarin de onderzoekers van het onder-
wijs zijn geraakt. Nu kan gezegd worden:

De onderzoekers pretendeerden ten onrechte, dat het handelen in onderwijs en beleid
gefundeerd kan worden op resultaten van hun onderzoek. Zij zagen over het hoofd dat
onderwijzenden en beleidslieden wetenschappelijke uitspraken plaatsen in een kon-
tekst van kennis, die tegelijk ruimer en minder expliciet is, en waarbij een uiteindelijke
betekenisverlening plaats vindt.

e. Geldt voor het onderwijskundig onderzoek het beeld van de kleren van de keizer?

Het antwoord kan nu zijn: De keizer is niet naakt. Noodzakelijk is alleen dat hij de
grenzen van zijn rijk niet overschrijdt. Zijn rijk is: de gefundeerde taalhandeling. Bin-
nen die grens is hij niet alleen decent gekleed, hij is geharnast en hanteert een scherp
zwaard.

Minder bloemrijk gezegd: een goed en helder gefundeerde wetenschappelijke uitspraak
is een machtig wapen. Praktijk en beleid zullen er rekening mee moeten houden.
Overschrijdt de onderzoeker echter de grens, geeft hij beleidsadviezen, schrijft hij vóór
wat de prakticus dient te doen, begeeft hij zich - zonder zich van de rolwisseling
bewust te zijn — verder dan zijn geloofsbrieven hém toestaan in hulpverlening, in
aktie-onderzoek, in werken met basis-groepen, in emancipatorisch werk, in maatschap-
pelijke hervormingen, gaat hij zich te buiten in strategieën en manipulaties, enz. enz.
dan moet hij zich realiseren, dat hij dan onder de naam van wetenschappelijk onder-
zoek inbrengt wat niet wetenschappelijk gefundeerd is, wat behoort tot een slechts ten
dele geëxpliciteerd en verantwoord, persoonlijk of kollektief wereldbeeld. Zijn woord
is dan in principe niet meer waard dan dat van de eerste de beste orfderwijzer, leraar,

3. Voor de vorm van samenhang in de waarneming, die noch logisch beredeneerd noch causaal van

beleidvoerder of student. Tooit hij zich ook dan met het kleed van de wetenschappe-
lijk onderzoeker, dan mag het hem niet verbazen dat hij van het ene compromis tot het
andere wordt gedwongen, dat de keizer telkens weer in zijn hemd blijkt te staan,
f. De vraag moet worden gesteld, of we in onze universitaire sociaal-wetenschappelijke
opleidingen de studenten voldoende attent maken op deze grenzen van het sociaal-we-
tenschappelijk onderzoek. Suggereren we hun niet teveel dat onze onderzoeksmetho-
den hen in staat zullen stellen de praktische problemen van hen, die voor feitelijk
onderwijs de verantwoording op zich hebben genomen, op te lossen? Suggereren we
hun niet teveel dat ze als wetenschappelijk onderzoekers per defmhie en bij voorbaat
geroepen zijn informatie te verstrekken, onderwijs en onderwijsbeleid en onderwijsver-
nieuwing een fundament te verschaffen, mens en maatschappij te leiden en te hervor-
men? Moeten niet juist de besten onder hen, nadat wij hen hebben laten gaan, zelf in
een pijnlijk 'onderzoek van niet-wetenschappelijke aard" ontdekken hoezeer ze aange-
wezen zijn op wat ze persoonlijk — als dragers van een slechts zeer ten dele geëxplici-
teerd patroon van verwachtingen — waard zijn, wanneer de praktijk werkelijk een
beroep op hen doet? Trekken de onderzoekers, die uitwijken naar 'het beleid' de juiste
konklusie uit deze situatie? Wordt het tijd dat we aandacht gaan besteden aan het
'verborgen leerplan' van de universiteit in dit opzicht?
8- Men kan overigens ook de vraag stellen, wat een en ander betekent voor de opleiding
van onderwijsgevenden met name ook voor de rol van theoretische kennis en van
researchresultaten daarin."
h- In het voorgaande staat de verhouding onderzoek/praktijk centraal. Men kan zich
afvragen of de ontwikkelde zienswijze ook licht werpt op andere symptomen van de
krisis in de sociale wetenschappen, zoals: de verwarring rond de methoden van onder-
zoek, en de verlammende veelheid aan theorieën, modellen en begripssystemen. (De
overmaat' waar De Groot van spreekt).

Tot slot: Dit artikel handelt over wetenschap, maar het is zelf geen wetenschappelijk
betoog in strikte zin. Nergens gaat het systematisch tot de wortel. Het beroept zich
slechts op dagelijkse ervaringen met onderwijs en onderzoek, waarvan wordt aangenomen,
dat ze op het ogenbhk algemeen zijn. Gedachten uit de onderwijsresearch, de fenome-
nologie, het symbolisch interactionisme en het dialektisch denken werden met losse hand
bijeen geplaatst. Het is een 'niet-wetenschappelijk^ onderzoek.

Dit is niet als verontschuldiging bedoeld of als depreciatie. Uiteindelijk is het konsekwent
en onvermijdelijk. Het toepassen van wetenschap is zelf een handeling. Het bevat als
zodanig een praktisch probleem, dat tot buiten de wetenschap reikt. We lossen het op
onze wijze dagelijks reeds op. Nu we daarbij op moeilijkheden stuiten kunnen we niet
wachten tot het volledig op wetenschappelijke wijze tot klaarheid is gebracht (zo dit al

Dr. S. Veenman verbonden aan het Instituut voor Onderwijskunde van de Katholieke Universiteit
te Nijmegen wees mij in dit verband op de volgende publikaties: G.D. Fenstermacher: A philosophical
consideration of recent research on teacher effectiveness. In: L.S. Shulman (ed.): Review of Research
'1 Education 1979 p 157-185 0 D Fenstermachei: On learning to teach effectively from research
on teacher effectiveness, BTES newsletter, June 1979, p. 8-12. W. Doyle: Learning the classroom
environment: An ecological analysis. In: Journal of teachter education. Nov.-Dec. 1977, p. 51-55.

mogelijk is). Zoals bij het onderwijs en bij het onderwijsbeleid, ook hier is het werk reeds
lang begonnen.®

Wat aktueel nodig is om uit de cirkel van teleursteUing te geraken zijn niet: nieuwe
methoden van onderzoek, nieuwe paradigma's, nieuwe wetenschapsopvattingen, een peda-
gogische antropologie of iets dergehjks. Ook daaraan moeten we werken, maar het is een
taak zonder eind. (Het is ook een taak die blijft in de sfeer van de taalhandeling). Wat
onmiddellijk nodig is, is een herziening van de ondoordachte als vanzelfsprekend aan-
vaarde verwachtingen ten aanzien van wetenschappelijk onderzoek van hei onderwijs.
We moeten ons realiseren, dat het niet de taak kan zijn van wetenschappelijk onderzoek
het onderwijs en het onderwijsbeleid te funderen of te onderbouwen, practici voor te
schrijven hoe zij te handelen hebben, hun problemen op te lossen of hen te adviseren.
Onderwijskundig onderzoek vervult zijn taak goed, wanneer het af en toe iets weet te
zeggen dat hecht gefundeerd en helder geformuleerd is en dat practici en beleidslieden tot
nadenken brengt, omdat het hen attent maakt op leemten, en op gebrek aan eenstemmig-
heid en nuancering in het verwachtingspatroon van waaruit zij handelen. Het werk van
een lange reeks van onderzoekers van allerlei herkomst toont aan, dat dit niet alleen reëel
mogelijk, maar feitelijk reeds lang gaande is. De keizer is niet naakt.

5. Hiermee wordt uiteraard niets ten nadele gezegd van de reeds eeuwen op gang zijnde pogingen om
langs wijsgerige weg klaarheid te verkrijgen of van het sterk toenemend streven naar empirisch onder-
zoek van het onderzoek. Niet ontkend wordt ook, dat een empirische toetsing van allerlei beweringen
uit dit artikel gewenst is en zou kunnen nopen tot nuancering, korrektie, misschien tot annulering.
Dergelijk onderzoek is dan echter voor de onderzoekspraktijk op dezelfde wijze vruchtbaar als het
onderzoek van het onderwijs dit is voor de onderwijspraktijk. Het kan de practici — hier de onderzoe-
kers - niet ontslaan van een uiteindelijke interpretatie in het eigen onderzoekend handelen.
Een bijdrage tot de wetenschappelijke discussie hebben we getracht te leveren in: Leren bij Husserl,
Tilburg, 1978.

B®rg, A.H. van den, & Mens, A.J. Funktie en organisatie van onderzoek in landelijke innovatieprojek-
ten. Amsterdam-Nijmegen, 1975.

Berger, P. and Luckmann, Th. The social construction of reality. Peregrine Books, 1979.

^hfford, G.J. A history of the impact of research on teaching. In: R.M.W. Travers (ed.). Second
handbook of research on teaching. Chicago, 1973.

Cronbach, L.J., & Suppes, P. Research for tomorrow's schools: disciplined inquiry for education.
London, 1969.

Klerk, L.F.W. de. Leertheorie en onderwijspraktijk. Pedagogisch Tijdschrift, 1977,6, 327-340.

Michon, J.A., Eijkman, E.G.J. & Klerk, L.F.W. de. (red.) Handboek der Psychonomie. Deventer, 1976.

•"oor, R.A. de. De ontwikkeling van een onderwijsmodel. Een programma van onderzoek op het
gebied van het onderwijs. Amsterdam: Koninklijke Nederlandse Akademie van Wetenschappen.
Sociaal-wetenschappelijke Raad Werkdocument nr. 5,1977.
nderzoek, planning en beleid bij vier departementen en een dienst. Verkennende studie van een
informele werkgroep van rijksambtenaren, 's Gravenhage, december 1978.

•^anhuijsen, G. & Verbij, A. De volwassenwording van een onderzoeksprincipe - Aktieonderzoek in
Nederland. Psychologie en Maatschappij, okt. 1979, 7-31.

Samuels, S.J. & Pearson, P.D. Caution: Using research in applied settings. Reading Research Quarterly,
1980, J, 317-322.

zandbergen, S. Rationed of gerationaliseerd beleid, een zinvolle onderscheiding? In: Rede als richt-
snoer. Bijdragen over methoden van denken en werken in de gedragswetenschappen aangeboden
aan prof. dr. A.D. de Groot bij zijn afscheid van de Universiteit van Amsterdam, 's Gravenhage,
1979, 209-222.

agenaar, W.A., Vroon, P.A. & Janssen, W.H. Proeven op de som. Psychonomie in het dagelijkse leven.
Deventer, 1978.

Werkgroep Onderzoek ARCULO, Het onderzoek in de universitaire lerarenopleiding. Advies aan de
Commissie Universitaire Lerarenopleiding van de Academische Raad, juli, 1979.

De invloed van verschillend gestructureerd
tekstmateriaal op de cognitieve representatie
van leerlingen, gerelateerd aan verschillende
informatieverwerkingsstrategieën

The influence of differentially structured textmaterial on the cognitive representation of pupils,
related to different information processing strategies

52 pupils of primary schools participated in an experiment which varied the aptitude factor
'information processing strategy' (with the levels 'serialist' and "holisf) and the treatment-
factor 'text structure' (with the levels 'web-structure'and 'linear structure').
The purpose of the experiment was to investigate the influence of the treatment and aptitude
factors on the dimensional representation and network-representation of the text (posttest and
retentiontest). The data were analyzed with multivariate regression analyses, multivariate
analysis of covariance and multidimensional scaling. No differential effects of treatment and
aptitude factors were obtained.

A procedure is described to investigate different cognitive text representations.
1. Inleiding'

Tekstbegrip kan worden beschouwd als het structureren van de tekstinhoud en het con-
strueren van een adequate representatie van de tekst,

In dit proces wordt de tekststructuur als de kennisstructuur zoals die is vervat in de tekst
omgezet tot de cognitieve structuur van de lezer. In coherente teksten zijn in het alge-
meen voldoende aanwijzingen opgenomen die leiden tot een representatie van de tekst-
structuur. Een van die aanwijzingen is de sequentie waarmee begrippen binnen de tekst
aangeboden worden (topicstructuur). Verder hanteert de lezer verschillende tekstopera-
ties, zoals afleidingen, integraties, weglatingen, die behulpzaam zijn de tekststructuur te
achterhalen.

Eén van de centrale problemen binnen theorieën over tekstverwerking is het representeren
van de aangeboden informatie (bijv. in de vorm van een tekst) op zodanige wijze dat een
vergelijking kan worden gemaakt met de cognitieve structuur waarin deze informatie resul-
teert.

Voor dit probleem zijn verschillende oplossingen aangedragen (Anderson, 1977,Kintsch,
1977, Just en Carpenter, 1977). Nog los van de vraag in welke taal deze representatie is
gesteld (declaratief of procedureel) of de gehanteerde werkwijze van representatie (dimen-
sioneel of propositioneel) komt de vraag naar voren over de relatie (interface) tussen
'text' en 'cognition'. Deze relatie veronderstelt een theorie over de organisatie (-bouwste-
nen) van het geheugen of 'comprehension' die de vormkenmerken van de cognitieve re-
presentatie weergeeft. Nagegaan moet worden wat de vormgeving is die de lezer aanbrengt
hl de cognitieve inhoud van de tekst, die zelf al door middel van tekstsequentie en interne
coherentie (hechtheid) een vormgeving vertoont.

Toegespitst op tekstbegrip kan men wellicht twee theoretische aanzetten hiervoor onder-
scheiden, nl. het structuurgezichtspunt en het schemagezichtspunt. Beide gezichtspunten
behandelen de representatie van het tekstbegrip als bestaande uit semantisch complexe
gehelen waaraan verschiUende niveau's van abstractie te onderkennen zijn en waarop door
de lezer zowel tekstgebaseerde coherentie (bottom up analyse) als op voorkennis geba-
seerde inferentie (top down analyse) toegepast wordt. Hoewel beide gezichtspunten van-
"h gemeenschappelijke ideeën over informatieverwerking starten, verschillen ze in hun
opvatting over de 'format' van cognitieve representatie.

In de schematheorie worden schema's beschouwd als de organisatorische eenheden waar-
uit het geheugen bestaat en waaraan nieuwe informatie wordt verbonden. Schema's ont-
staan door een proces van generalisatie en specialisatie en worden gevormd door reeds be-
staande schema's die dienen als prototype. Schema's als 'prototypen' van informatie fa-
ciliteren de opname van verschillende soorten gerelateerde informatie (Norman, 1978,
1979; Anderson, 1977). Tekstverwerking bestaat dan uit een autonome collectie van ac-
tieve schema's die ieder afzonderlijk werken als een onafhankehjke 'processing' structuur
die de informatieverwerkende activiteiten stuurt.

Norman (1979) spreekt over een 'schema directed analysis' van informatie, die bestaat
uit een directe communicatie of interconnectie tussen schema's zodat het geheel van ge-
wenste informatie kan worden opgeroepen:

'A schema starts the process of analysis, it continually makes avaUable its partial resultants so that
other schemas can make use of its analysis even as it proceeds'.

Het structuurgezichtspunt (Meyer, 1975, Khitsch, 1974, Frederiksen, 1977) maakt niet
de aanname van aanwezige schema's in het geheugen en hun actieve rol bij de verwerkmg
van informatie. De theorieën waarin dit gezichtspunt wordt verdedigd richten zich op de
betekenis van structuurconstructie op grond van teksten of 'discourse' en hun actieve
reorganisatie op grond van 'information processing'.

Hoewel binnen deze theorieën onderling andere uitwerkingen gegeven worden aan de op-
bouw van een cognitieve representatie benadrukken ze alle de wijze waarop (procedurele)
voorkennis wordt gebruikt om een set van proposities te reduceren tot een kleinere set
van macro-proposities, die corresponderen met hogere geordende structuren (macro-
structuur, top-level-structuur). De verwerkingskarakteristieken hebben betrekkmg op (m-
ferentie) regels, tekstoperaties en strategieën die door de tekstverwerker worden gehan-
teerd.

Tekstbegrip wordt dan beschouwd als een proces waarbij coherente interne propositionele
structuren worden gegenereerd door middel van de strategieën die de lezer gebruikt.
Beide gezichtspunten doen verschillende aannamen over de betekenis van de tekststruc-
tuur. Het schemagezichtspunt zal nadruk leggen op de hechtheid en rijkdom aan begrip-

pen en relaties van de tekststructuur waarin de onderlinge verbanden tussen begrippen zo
sterk mogelijk worden geëxpliciteerd. Het structuurgezichtspunt wijst op het belang van
strategieën die de lezer hanteert en die resulteren in een zelf opgebouwde representatie
van de tekst en integratie van kennis.

Het idee van web-onderwijzen (Norman, 1973) is een directe consequentie van het sche-
ma-gezichtspunt voor de opbouw van de tekststructuur. In web-onderwijzen worden eerst
dié bestaande schema's onderling verbonden en geactualiseerd die als generieke structuur
kunnen dienen, terwijl in een later stadium specifieke kennis daarmee wordt verbonden.
In essentie is het een principe voor de sequentering van teksten. Rumelhart en Norman
(1978) modificeerden dit principe enigszins door de transformatie van schema's voor te
steUen als een proces van accretion (uitbreiding), tuning (verfijing) en restructuring (her-
ordening) van aangeboden informatie in teksten. Daarbij wordt de specialisatie en genera-
lisatie van schema's betrokken, zodat zoveel mogelijk dwarsverbindingen (web) de hecht-
heid van de representatie verhogen. Een dergelijke web-structuur in een tekst zou dus lei-
den tot een betere verwerking ervan dan een (normale) lineaire tekststructuur, waarin
topics afzonderlijk en achtereenvolgens behandeld worden.

Het structuurgezichtspunt geeft geen duidelijk tekst-sequentieprincipe voor de opbouw
van verbale instructie of teksten maar kent hoogstens algemene verhaal-structuren (top-
level-structuur, macro-structuur). Zij stelt niet zozeer dat de tekststructuur van invloed is
op de cognitieve representatie van de aangeboden informatie, veeleer wijst ze op het be-
lang van het hanteren van adequate strategieën door de informatieverwerker. Pask (1976)
identificeerde twee leerstrategieën bij verbale informatie die in zijn experimenten (1975)
de opbouw van cognitieve structuren beïnvloeden, doordat op verschillende wijze de ver-
banden in de tekst geëxpliciteerd worden:

'Serialisten' volgen een stap voor stap leerprocedure, concentreren zich op beperkte hoe-
veelheden informatie en relateren enkelvoudige proposities successief. 'Holisten' formeren
grotere hoeveelheden informatie tegelijk en relateren verschillende proposities onderling,
simultaan.

In deze onderscheiding wordt rekening gehouden met individuele verschillen in de organi-
satie van het geheugen (Hunt, 1976).

Concluderend kan men zeggen dat de twee assumpties nl. 'representatie bepaald door
door de lezer aangebrachte strategieën' (structuurgezichtspunt) en representatie bepaald
door de in de tekst aangebrachte structurering' (schemagezichtspunt) met elkaar concur-
reren en belangrijke consequenties hebben voor de aanbieding van informatie door middel
van teksten. Zij vormen dan ook de twee onafhankelijke variabelen in het hier gepresen-
teerde onderzoek.

Een belangrijk probleem bij de afhankelijke variabelen in het onderzoek naar deze as-
sumpties is dat een onderscheid gemaakt dient te worden in de aard van de representatie.
Men moet nl. enerzijds weten wat voor informatie personen representeren en welke be-
grippen en relaties onderling verbonden worden, waardoor men een indruk krijgt welke
informatie is geactualiseerd en hoe omvangrijk deze is. Anderzijds moet men weten hoe
hecht de verschillende cognitieve structuren van de lezer zijn door de sterkte van de rela-
tie tussen de begrippen te bepalen. Tot nu toe zijn er geen representatie-wijzen van cogni-
tieve structuren die beide kwaliteiten in zich verenigen. Ondermeer Hunt (1976) stelt dat
voor het eerste geval een netwerkrepresentatie moet worden gebruikt en voor het tweede
geval een dimensionele representatie als afhankelijke maten van cognitieve structuren. Een
netwerkrepresentatie is een structuur van begrippen en relaties die onderling worden

weergegeven als knooppunten verbonden met benoemde pijlen. Een dimensionele repre-
sentatie is een schaling van de sterkte van relaties tussen begrippen op een onderUggende
dimensie. In dit onderzoek worden als afhankelijke variabelen zowel de netwerkrepresenta-
tie als de dimensionale representatie gebruikt.

Daarbij wordt dus het differentieel effect nagegaan van verschillend opgebouwde teksten
(een webstructuur en een Imeaire structuur) en van verschillende informatieverwerkings-
strategieën (serialistisch en hoUstisch) op de cognitieve representaties van de aangeboden
informatie.

Er wordt van verschillende recall-taken gebruik gemaakt, waarbij zowel nameting als re-
tentiemetmg plaatsvindt. Omdat inhoudelijke voorkennis een sterk contammerende varia-
bele is (Chiesi e.a., 1979) worden teksten gebruikt waarover geen voorkennis aanwezig
is bij de onderzoeksgroep.

Verondersteld wordt dat de web-variant hogere resultaten oplevert dan de lineaire variant.
Dit geldt in het geval de assumpties van het schemagezichtspunt juist zijn.
Op grond van het structuurgezichtspunt zal eerder een differentieel effect verwacht wor-
den van de informatieverwerkmgsstrategieën dan van de tekstvarianten.

Aan dit onderzoek namen 52 leerlingen deel. Voorafgaande aan de eigenlijke treatment
werd van alle leerlingen vastgesteld of zij een overwegend 'holistische' of een overwegend
'serialistische' wijze van informatieverwerking hanteerden (in de betekenis die Pask daar-
aan geeft).

Van zowel de serialisten als de hoUsten kreeg de ene helft een serie teksten ter bestudering
die volgens een web-structuur was opgebouwd, de andere helft kreeg een serie teksten ter

bestudering die volgens een lineaire structuur was opgebouwd. Op deze wijze ontstonden
4 condities.

In het onderzoek werd nagegaan wat het effect was van deze onafhankelijke variabelen
('wijze van informatieverwerking' en 'type tekst') op de uiteindelijke cognitieve represen-
tatie van deze teksten door de leerlingen.

Cognitieve representatie werd op twee manieren opgevat: als netwerkstructuur en als di-
mensionele structuur; de eerste werd gemeten m.b.v. een free recalltoets, de tweede
m.b.v. een begrippenparen-toets.

De resuhaten hiervan werden vergeleken met een criterium-structuur (netwerkstructuur
en dimensionele structuur) die tevoren was geconstrueerd. Tevens werd nagegaan of de
treatment ook resulteerde in een toename van de kennis over het betreffende inhoudsge-
bied (staatsinrichting).

Omdat de vaardigheid in begrijpend lezen hier een contaminerend effect kan hebben werd
deze variabele als covariable ingevoerd. De afhankelijke variabelen (cognitieve representa-
ties en kennis) werden gemeten direkt na de treatment en 10 dagen later.
Zie figuur 1 voor een schematisch overzicht.

Bij de constructie van de netwerkstructuur werd gebruik gemaakt van een strategie voor
de constructie van leerstofstructuren (Tillema e.a., 1980). Dit netwerk diende vervolgens
als criterium-structuur waarmee de cognitieve structuur van de leerlingen (na de treat-
ment) kon worden vergeleken. Het ter beschikking hebben van een dergelijk netwerk
maakt het tevens mogelijk de essentiële begrippen (en de relaties daartussen) in het betref-
fende leerstofgebied aan te wijzen. Bij veel onderzoek op dit terrein wordt aan enkele ex-
perts gevraagd aan te geven wat zij als de essentiële begrippen in het leerstofgebied be-
schouwen. Het nadeel hiervan is dat het resultaat sterk afhankelijk is van de opvatting van
deze individuele experts.

De genoemde constructiestrategie bestaat uit een stapsgewijs uitgevoerde procedure voor
het analyseren van teksten. Begrippen uit deze teksten worden in een netwerk weerge-
geven en met elkaar in verband gebracht. Als inhoudsgebied is hier gekozen voor staatsin-
richting, voornamelijk omdat verwacht mocht worden dat de leerlingen hiermee nog niet
of nauwelijks bekend waren. Een 5-tal bestaande methodes of onderdelen van methodes
voor het vak staatsinrichting (van het niveau eind-basisschool en brugklas) werd verza-
meld. Dit materiaal was zodanig omvangrijk dat aangenomen mocht worden dat het ge-
hele, voor de basisschool in aanmerking komende, gebied van staatsinrichting erdoor werd
gedekt. Per onderwerp (zoals aangegeven in de betreffende methodes, bijv. 'rechtspraak')
werden de begrippen geselecteerd die inhoudelijk op het gebied 'staatsinrichting' betrek-
king hadden.

Deze begrippen werden genoteerd en de begrippen die in de tekst aan elkaar waren gerela-
teerd werden door middel van Ujnen met elkaar verbonden. Dit gebeurde ook wanneer
twee begrippen uit twee verschillende 'onderwerpen' in de tekst aan elkaar gerelateerd
waren. Aldus ontstond een totaal-overzicht van het inhoudsgebied, bestaande uit een aan-
tal clusters van onderling gerelateerde (middels lijnen met elkaar verbonden) begrippen,
terwijl daarnaast een aantal verbindingen tussen begrippen uit verschillende clusters te
zien was.

Een dergelijk compleet, zeer uitgebreid netwerk is te omvangrijk als treatment in het
onderzoek (die bestaat uit drie instructieteksten) en behoeft ook voor onderwijsdoelem-
den inperking.

De volgende stap was het selecteren van een beperkt aantal begrippen die essentieel ge-
acht kunnen worden binnen het te onderwijzen mhoudsgebied. Aangenomen is dat een
begrip binnen een inhoudsgebied essentieel is als het begrip in een groot aantal gevaUen
nodig is om andere begrippen uit het gebied te definiëren ofte verklaren. Een begrip is
dus essentiëler naarmate het met meer andere begrippen is verbonden. Verder is aangeno-
men dat een externe relatie (d.wi. een relatie met een begrip buiten het cluster waartoe
het begrip behoort) belangrijker is dan een interne relatie; bij een externe relatie is hn-
mers sprake van een web- of dwarsverbindingsfunctie door het mhoudsgebied heen.
Waar precies de grens tussen essentieel en niet-essentieel wordt gelegd is in feite arbitrair.
Hier spelen vooral overwegingen ten aanzien van de hanteerbaarheid van het aantal be-
grippen een rol. In dh onderzoek hebben we een begrip essentieel genoemd als dat begrip
met andere begrippen was verbonden door minstens 2 externe relaties of door 1 externe
en minstens 5 interne relaties.

Een 13-tal begrippen bleek aan deze eis te voldoen: democratie,wet, grondwet, rechten/
plichten, Raad van State, rechteriijke macht, Staten-generaal, wetgevende macht, pohtie-
ke partijen, verkiezingen, uitvoerende macht, kabinet en koningin (zie fig. 2).
Het netwerk van deze 13 begrippen (en de relaties daartussen) wordt dus opgevat als een
cherium-representatie van het gebied.

Deze begrippen werden in de rest van het onderzoek voortdurend gebruikt: ze werden
gebruikt bij de constructie van de dimensionele structuur (§ 3.1.2.) en bij de construc-
tie van de tekst-varianten (§ 3.2.2.). UiteindeUjk wordt ta.v. deze begrippen de cognitie-
ve netwerkrepresentatie van de leerlingen (§ 33.2.) vergeleken met de hier geconstrueer-
de criterium-representatie.

Ook de dimensionele structuur had als functie te fungeren als criteriumstructuur waarmee
de cognitieve structuur van de leerlingen (na de treatment) vergeleken kon worden. Bij
de constructie van de dimensionele structuur werd met expertoordelen gewerkt, waarbij
de experts de 13 eerder als essentieel gekwalificeerde begrippen (zie 3.1.1.) kregen voorge-
legd. Alle mogelijke begrippen-paren werden paarsgewijs gepresenteerd, waarbij de experts
werd gevraagd op een 5-puntsschaal de sterkte van de samenhang tussen de betreffende
begrippen aan te geven. Samenhang tussen de begrippen A en B werd omschreven als het
beter kunnen begrijpen of definiëren van begrip A als begrip B bekend is of omgekeerd.
Op deze wijze werden aUe 78 mogelijke combinaties van de 13 begrippen beoordeeld. Als
experts fungeerden 3 docenten geschiedenis van een middelbare school in Arnhem.
Uit de dimensionele schaalanalyse (INDSCAL, Caroll & Chang, 1970, Schönemann, 1972)
werd op grond van deze 13 begrippen een formele structuur geconstrueerd. De samengang
van de afzonderlijke experts met de uiteindelijke 'expert-structuur' was zodanig dat bij
de twee- en de drie-dimensionele oplossing resp. 67,5% en 76,6% van de variantie door de
oplossing werd verklaard.

Het blijkt dus dat de 13 begrippen in elk geval van dien aard zijn dat experts op het be-
treffende gebied ze op een vrij eenduidige wijze in een relatie tot elkaar kunnen plaatsen.

Uiteindelijk werden de dimensionele cognitieve representaties van de leerlingen (§3.3.3.)

Om het effect te kunnen bepalen van door de lezer gehanteerde informatieverwerkings-
strategieën (zie par. 1) werd gebruik gemaakt van een variabele die door Pask (1975) is
gedefmieerd als holistische versus serialistische wijze van informatieverwerking.
Aangenomen mag worden dat met name bij tekstverwerking deze variabele van essentiële
betekenis is voor de uiteindelijk resulterende cognitieve structuur.
Het gaat bij deze variabele om verschillende strategietypen waarmee onder vrije leercondi-
ties de informatieverwerking door de lerende wordt gestuurd. Serialisten lezen, onthou-
den en recapituleren mformatiegehelen als bloksgewijs aaneengeregen cognitieve structu-
ren waarin de afzonderlijke items met elkaar verbonden zijn door enkelvoudige gegevens,
(lage orde relaties). Omdat ze relatief grote hoeveelheden detailinformatie onthouden
doen ze een sterk beroep op de opslagcapaciteit van hun geheugen.
Holisten lezen, onthouden en recapituleren informatie als een geheel waarbij grote clus-
ters van informatie tegelijk verwerkt worden en waarbij gebruik gemaakt wordt van hoge
orde relaties. Ze maken relatief veel generalisaties omdat ze zoeken naar een rationele en
symmetrische structuur.

Door Pask werden verschillende karakteristieke kenmerken van serialisten en holisten on-
derzocht, voornamelijk door middel van vraagprocedures waarbij het mentale proces tij-
dens een leestaak werd geêxtemaliseerd. Het meest kenmerkende verschil tussen serialis-
ten en holisten bleek te bestaan in de complexiteit van hypothesen die, al lezende, werden
getoetst. Holisten toetsen relatief veel meervoudige proposities, serialisten relatief veel en-
kelvoudige proposities.

In het onderzoek kregen de leeriingen (klassikaal) de taak voorgelegd m.b.v. een aantal
kaartjes een taxonomie van fantasiedieren te construeren. Ze mochten daarmee zo lang
doorgaan als ze wilden, echter niet langer dan 1 lesuur (50 min.).

Vooraf kregen ze in verhaalvorm een beschrijving van de context van de taxonomie: die-
ren op de planeet Mars. De uiteindeUjke opdracht luidde te proberen erachter te komen
boe alle dieren op de planeet Mars eruit zien.

Het taxonomische systeem kon worden beschreven door middel van 4 categorieën van uit-
spraken waaruit informatie te halen was over de inhoud van de taxonomie. Elke catego-
rie was beschreven op een serie losse kaartjes van een bepaalde kleur. De leerlingen kregen
de 4 stapeltjes kaartjes voor zich. De eerste twee categorieën gaven zodanige informatie
^at daarmee enkelvoudige proposities (serialistisch) konden worden getoetst. De derde en
vierde categorie gaven zodanige informatie dat daarmee meervoudige proposities (holis-
tisch) konden worden getoetst. Het betrof de volgende categorieën:

op de achterkant staat zijn naam.
categorie 2: op de voorkant staat de naam van het dier,

op de achterkant staat hoe hij eruit ziet.
categorie 3: op de voorkant staan de namen van 2 dieren,

De leerlingen waren vrij in de keuze van de te gebruiken kaartjes en eveneens in het totaal
aantal malen dat zij de diverse kaartjes wilden omdraaien. Steeds mocht echter slechts
één kaartje tegelijk omgedraaid worden, waarbij eveneens het nummer van het betref-
fende kaartje op een apart blad diende te worden genoteerd. Dit laatste maakte het moge-
lijk achteraf na te gaan uit welke categorieën een bepaalde leerling voornamelijk infor-
matie had gehaald.

Leerlingen die meer dan 75% (de verwachting bij random trekking) uit de eerste twee
categorieën kaartjes getrokken bleken te hebben, werden beschouwd als serialisten, zij
die minder dan 75% uit de eerste twee categorieën hadden getrokken werden be-
schouwd als holist.

De scoring was gebaseerd op de aantallen van de door de leerling genoteerde kaartnum-
mers uit de twee eerste categorieën. 34 Leerlingen bleken als serialist te kunnen worden
aangemerkt, 18 als holist.

Om het effect te bepalen van de door de tekst aangebrachte structurering (zie par. 1)
werd gebruik gemaakt van twee varianten van een instructietekst over staatsinrichting:
een tekst-variant met een web-structuur en een tekstvariant met een lineaire structuur.
Bij de constructie van deze tekstvarianten werd uitgegaan van de netwerkstructuur (par.
3.1.1.), met name de 13 essentiële begrippen daarin. Deze 13 begrippen werden op een
bepaalde wijze in de 2 tekstvarianten verwerkt. Elke variant omvatte 3 leesteksten die op
3 achtereenvolgende dagen werden voorgelegd.

Bij de web-variant werd in de eerste les de hoofdstructuur van het inhoudsgebied weerge-
geven. Dit betekende dat in de eerste tekst alle 13 begrippen aan de orde kwamen, terwijl
in de volgende teksten uitwerkingen van deze begrippen werd gegeven. In de tweede tekst
werden de eerste 6 begrippen uit tekst 1 verder uitgewerkt. In de derde tekst werden de
resterende 7 begrippen uit tekst 1 verder uitgewerkt.

Bij de lineaire variant werden alle 13 begrippen over de drie teksten verdeeld. Daarbij
werden de informatie-elementen stapsgewijs met elkaar verbonden, zonder dat terugkop-
peling of vooruitkoppeling van informatie werd gemaakt.
•

tekst 2: koningin. Raad van State, wetgevende macht. Staten Generaal, politieke partijen,
tekst 3: verkiezingen, kabinet, uitvoerende macht, rechterlijke macht.

De informatieve inhoud en moeilijkheidsgraad van beide tekstvarianten was gelijk doordat
ze waren opgebouwd uit dezelfde tekstonderdelen (begrip en toelichting), alleen anders
geordend.

Iedere tekst omvatte ongeveer 900 woorden. De leerlingen kregen ruim de tijd om de
tekst enkele malen te kunnen lezen (30 minuten).

Elke leerling kreeg, afhankelijk van de treatment-condities, op drie achtereenvolgende da-
gen drie teksten voorgelegd van één van de beide tekstvarianten. Zij werden gein-

strueerd de tekst goed en aandachtig te lezen. Geen opmerkingen werden gemaakt over
eventuele latere toetsing.

Er werden drie toetsen gebruikt die, om leereffecten te vermijden in een bepaalde volgor-
de worden aangeboden, nl. free-recall toets, begrippenparentoets en kennistoets.

Om het effect van de treatment-condities op de puur inhoudelijke kennisverwerving te
bepalen werd vooraf, na de treatment en op de retentiemeting ook een kennistoets afge-
nomen. Deze variabele speelt verder geen rol in de hoofd-vraagsteüing van het onderzoek
(het effect van treatment en aptitude op de cognitieve representatie). Kenrüs wordt hier
opgevat als feitenkennis ten aanzien van het inhoudsgebied 'staatsinrichting'. In de toets-
vragen is dan ook aangesloten bij datgene wat traditioneel' bij dit onderdeel wordt onder-
wezen: 20 invulvragen werden gekozen die in alle door ons bekeken methodes voorkwa-
men. De 20 vragen werden driemaal in random volgorde geplaatst en deze drie versies
werden gebruikt op resp. voor-, na- en retentiemeting.

De leerlingen kregen voldoende tijd om alle vragen te kunnen beantwoorden. Scoring ge-
beurde op aantal juist beantwoorde vragen, waarbij rekening werd gehouden met syno-
niemen.

Een van de manieren om na te gaan wat het effect was van de verschillende treatment-
condities op de cognitieve representatie van de leerlingen is het vergelijken van de cri-
terium netwerkstructuur (par. 3.1.1.) met de netwerkstructuur van de leeriingen. Een ge-
schikte procedure om de cognitieve structuur in een voor dit doel bruikbare vorm te ach-
terhalen is door middel van free recall.

De leeriingen kregen een blanco vel papier en hun werd gevraagd alles op te schrijven wat
zij zich van de drie teksten konden herinneren die zij de afgelopen drie dagen hadden ge-
lezen.

De opstellen van de leerlingen varieerden in lengte van 1/2 tot li pagina. De scoring ge-
beurde door van elk leerling-opstel een netwerkstructuur te maken op de wijze zoals be-
schreven in par. 3.1.1. Dit netwerk werd beschouwd als de netwerk-weergave van de cog-
nitieve structuur van de betreffende leerling.

Vervolgens kon per leeriing worden geteld hoeveel staatsinrichting-begrippen (begrippen
die in het totaal-netwerk voorkomen, zie 3.1.1.) en hoeveel relaties (tussen deze begrip-
pen) in zijn structuur in totaal te vinden waren. Daarnaast werd ook nagegaan hoeveel van
«le 13 essentiële begrippen en essentiële relaties uit de criterium netwerk-structuur (zie
par. 3.1.1.) in het opstel waren terug te vinden.
Dit alles gebeurde zowel bij de nameting als bij dei retentiemeting.
Op deze wijze ontstonden van elke leerling acht scores (waarbij een score tot stand komt
door telling van het aantal):

I^EB = Recall op de Nameting van het aantal Essentiële Begrippen.
^B = Recall op de Nameting van het totaal aantal genoemde Begrippen.
RNER = Recall op de Nameting van het aantal Essentiële Relaties.

De recall-toetsen werden gescoord door 2 onafhankelijk werkende beoordelaars.
Het totaal aantal begrippen en relaties geeft daarbij een indicatie van de rijkheid en ge-
detailleerdheid van de cognitieve structuur.

Het aantal essentiële begrippen en relaties geeft een indicatie van de mate van overeen-
stemming met de criterium-structuur van het inhoudsgebied (zoals vooraf geconstrueerd,
zie par. 3.1.1.).

Na de treatment werd de cognitieve structuur van de leerling niet alleen gemeten in de
vorm van een netwerkstructuur die de omvang van de cognitieve structuur bepaalt, maar
ook in de vorm van een dimensionele structuur die de hechtheid van de cognitieve struc-
tuur aangeeft. De dimensionele structuur van de leeriing werd op dezelfde wijze in kaart
gebracht als bij de experts tijdens de constructie van de criterium-structuur (par. 3.1.2.).
De leerlingen kregen alle 78 mogelijke combinaties van de 13 essentiële begrippen voorge-
legd en hun werd gevraagd telkens de sterkte van de samenhang tussen de twee begrippen
op een 5-puntsschaal aan te geven. Samenhang werd omschreven als "veel met elkaar te
maken hebben'.

Vooraf werd klassikaal geoefend op bekende begrippen (koe - paard; koe - autobus e.d.)
tot het duidelijk was dat iedereen het principe begreep. De leerlingen kregen ruimschoots
de tijd om alle beoordelingen uit te voeren (30 minuten). Ook de begrippenparentoets
werd zowel op de nameting als op de retentiemeting afgenomen. Met behulp van multidi-
mensionele schaling werd van elke leerling de dimensionele structuur vergeleken met de
criteriumoplossing: de formele expertstructuur.

Het is duidelijk dat de resultaten van de verschillende treatmentcondities, behalve door
werkelijke verschillen op de treatment- en aptitude-variabele, ook beïnvloed kunnen wor-
den door verschillen in vaardigheid in het begrijpend lezen van de leerling.
Om deze variabele onder controle te houden werd hij als co-variabele ingevoerd. Er werd
gebruik gemaakt van een standaard-instrument voor begrijpend lezen: een onderdeel van
de C.I.T.O.-eindtoets 1979; afname gebeurde volgens de bij de eindtoets gebruikelijke
procedures.

De steekproef bestond uit 2 complete klassen van het 5e leerjaar van de basisschool en
omvatte 52 leerlingen. Voor selectie van deze klassen bestond geen bepaald criterium, be-
halve dat nog geen eiücel begrip uit de staatsinrichting was behandeld.
Alle treatments en toetsafnames vonden klassikaal plaats. Het uitreiken en laten lezen van
de teksten gebeurde door de klasseonderwijzer, de overige activiteiten door de experimen-
tatoren.

Bi] de analyse van de resultaten werd gebruik gemaakt van 3 soorten afhankelijke varia-
belen: gestuurde recall (kennistoetsen), vrije recall (recall toetsen) en reproductie van re-
laties (begrippenparentoetsen) op voor-, na- en retentiemetmg, met als covariabele 'be-
grijpend lezen'.

Een eerste analyse richtte zich op de mvloed van de covariabele op de kennistoetsen (door
middel van muhiple regressieanalyse), om de hoeveelheid verklaarde variantie van deze
variabele te bepalen. Bij een significante invloed kan de regressievergehjking worden ge-
bruikt in een univariate covariantie-analyse om het gecorrigeerde gemiddelde effect van de
treatment- en aptitudevariabele over de verschillende meetmomenten te bepalen bij de
kennistoetsen.

Een tweede analyse richtte zich op het gemiddelde treatment- en aptitude-effect over de
verschillende meetmomenten; dit werd gemeten m de vorm van verschUscores in de leer-
wmst, gecorrigeerd voor de covariabele en werd uhgevoerd d jn.v. een muhivariate varian-
tie-analyse op de kennistoetsen. Afhankeüjk van het optreden van effectverschillen tus-
sen meetmomenten kunnen verschillende analyses op de recall-toetsen worden uitgevoerd.
Als er geen significante verschillen zijn tussen meetmomenten kan een muhivariate va-
riantie-analyse op recall-toetsen over de verschillende meetmomenten gedaan worden,
eventueel gevolgd door èen univariate uitspUtsing per recall-score. Een dergelijke analyse
werd uitgevoerd om het overall-effect van de onafhankelijke variabelen over de verschil-
lende meetmomenten op de recall-scores te bepalen.

Een derde analyse richtte zich op de dimensionele structuur, waarbij het ging om het be-
Palen van de overeenstemming tussen de individuele leerlmgen en de criteriumoplossing:
de formele expertstructuur.

In het INDSCAL-programma is het mogehjk een bepaalde structuur (hier: de expertstruc-
tuur) te fixeren en nieuwe data m deze structuur te fitten. Nagegaan werd hi welke mate
elke individuele leerUng met de expertstructuur overeenstemde. De score van elke leerUng
bestond uit een correlatie-coëfficiënt voor de nameting en een voor de retentiemeting.

In de eerste analyse werd met behulp van muhiple regressie-analyse de invloed van de co-
variabele 'begrijpend lezen' nagegaan op kennisresuhaten bij voor-, na- en retentietoetsen.
Dh leidde tot de volgende resuhaten. Voortoets F (1;50) = 6,25 P < 0.01. Natoets F
(1 -^0) = 22,15; p < 0.001. Retentietoets F (1 ;50) = 18,26; p <0.001.
De R2 voor de verklaarde variantie van de co-variabele zijn op de voortoets, de natoets
en de retentietoets resp. .11, .37 en .27, (alle significant).

De regressiecoëfficiënten van de co-variabele werden vervolgens eerst m een univariate
co-variantie-analyse gebruikt om het gemiddelde gecorrigeerde effect van treatment en
aptitude te bepalen op de verschillende kennistoetsen.

Geen significante gemiddelde verschillen tussen de kennistoetsen onderling werden gevon-
den bij de aptitude variabele (F = .002, df = 1/48, p < .967). Dit was evennun het geval
voor de treatmentvariabele (F = .074, df = 1/48, p < .786). Het mteractie-effect bij een
univariate covariate-analyse op gemiddelde effecten was F = 2.62, df - 1/48, p < .117.
In tabel 1 worden de gemiddelden op de kennistoetsen gegeven, per conditie en voor de
totale groep.

Een analyse van de verschilscores van de voortoets-natoets en van de natoets-retentietoets
met behulp van multivariate variantie-analyse geeft aan dat de covariaat in beide gevallen
significant van invloed is, resp. F (1,48) = 15,172, p < .0001 en F (1,48) = 50,61, p <
.0001, de aptitude-variabele niet significant, resp. F (1,48) = 0,004, p < .953 en F (1,48)
= 1,56, p < .218, de treatment-variabele niet significant, resp. F 0.48) = 0,095, p <
.759 en F (1,48) = 0,79, p < .780, en de interactie niet significant, resp. F (1,48) =
0,341, p < .561 en F (1,48) = 0,002 p < .952.

Naast de analyse op kennisresuhaten werd een multivariate variantie-analyse op de recall-
scores (8 variabelen, zie par. 33.2.) uitgevoerd.

Een overzicht van de gemiddelde presentaties bij recall op de natoets en de retentietoets
wordt gegeven in Tabel 2.

Met behulp van multivariate variantie-analyse werd een test uitgevoerd op gelijkheid van
de gemiddelde vectoren van de recall-scores tussen de experimentele condities. Geen van
de hoofdeffecten bleek een significante multivariate F-ratio op te leveren: het aptitude-
effect was F (8,41) = .861, p < .591; het treatment-effect was F (8,41) = .820 p < .629;
het interactie-effect was F (8,41) = 1.206, p < .315. Deze effecten werden gemeten op de
8 toetsen tesamen, waarna niet meer is getoetst op univariate effecten bij de afzonderlijke
recall-scores.

Uit deze verschillende analyses blijken geen significante gemiddelde effecten van de apti-
Tabel 1

Gemiddelde correlaties per tekstvariant van leerlingenrepresentatie met expertoplossing
natoets

tudevariabele of de treatmentvariabele op te treden bij de verschillende afhankeUjke me-
tingen (12 variabelen), d.w.z. noch op de kennistoets noch op de recall-toetsen. Wel blijkt
daarop de covariabele van invloed te zijn. Om deze resultaten langs een andere weg te
kunnen interpreteren werd vervolgens met behulp van een multidimensionele schaaltech-
niek (INDSCAL) een analyse uitgevoerd om een dimensionele representatie van de kennis-
structuren bij de verschillende experimentele condities te achterhalen,
ïn figuur 3 is de tweedimensionele oplossing (INDSCAL) weergegeven, (Zie pag. 21).
In deze analyse werd nagegaan in hoeverre de leerling-uitkomsten uit de expermientele
condities overeenkwamen met de vastgelegde criteriumstructuur, verkregen door middel
van experts.

Resultaten van de mate van overeenstemming per tekstvariant zijn weergegeven m Tabel 3.
Tabel 4

Gemiddelde correlatie per conditie van leerlingenrepresentatie met expertoplossing

In tabel 4 worden de oplossingen opgesplitst tussen de aptitude-variabele en treatment-
variabele.

Een lichte interactie treedt hieruit naar voren tussen aptitude en moment van toetsing:
holisten vertonen op de natoets gemiddeld een grotere overeenstemming met de experts-
structuur (.46); 3-dim en .41; 2-dim) dan serialisten (resp. .41 en 38) terwijl serialisten
een grotere overeenstemming vertonen op retentietoets (.40; 3-dim en 35; 2-dim) dan ho-
listen (resp. 38 en 33).

Het grootst voorkomende verschil, nl. tussen holisten en serialisten op de driedimensione-
le oplossing op de natoets, is hier nog juist significant (Mann Whitney: z = - 1,92, p =
0,05).

Voordat overgegaan kan worden tot de bespreking van sommige nog niet opgeloste pro-
blemen met betrekking tot de verschillende wijzen van structurering van tekstinformatie
en de relatie met strategieën over informatieverwerking wordt eerst meer m detail inge-
gaan op de verkregen resultaten.

De resultaten van dit experiment laten duidelijk zien dat geen verschillen tussen soorten
tekstvarianten en gehanteerde informatieverwerkingsstrategieën of zelfs interacties tussen
treatment en aptitude zijn opgetreden. Dit geldt voor zowel de meetmomenten afzonder-
lijk (voor-, na-, en retentiemeting) als voor de verschilscores tussen de meetmomenten
(zie ook tabel 1). Dit resultaat werd verkregen op de verschillende kennistoetsen (produk-
ten van de cognitieve structuur) maar ook op de free recall toetsen. Uit deze toetsen wer-
den verschillende recall-scores verkregen, die moesten laten zien hoe leerlingen in verschil-
lende condities semantische informatie representeerden (zie tabel 2).
Voor wat de kennistoetsen betreft zou dit resultaat theoretisch geen consequenties behoe-
ven te hebben, omdat, gelet op de ecologische validiteit, deze variabelen verder afliggen
van de in het experiment gemanipuleerde representaties.

Voor wat betreft de recall-scores zijn de gevonden resultaten des te meer tekenend. Op
grond van deze variabele werd nl. een netwerkrepresentatie gemaakt van de door de leer-
lingen genoemde begrippen en relaties en gescoord op de mate van rijkdom van de repre-
sentatie (aantallen en soorten begrippen en relaties).

Er werden hier geen relevante verschillen gevonden waarop de door de lezer gehanteerde
strategie of de verschillend gestructureerde tekst van invloed is geweest.
Dat geen verschillen tussen de experimentele condities zijn opgetreden wordt voor een be-
langrijk deel verklaard door de lage scores op de kennistoetsen (voortoets, gem. 5,16; na-
toets, gem. 631; retentietoets, gem. 6,73; zie tabel 1). Ook de gemiddelde scores op de
free recall taak waren laag (zie tabel 2). De lage voortoetsscore bevestigt het vermoeden
dat geen inhoudelijke voorkennis aanwezig was.

De lage scoring op de na- en retentietoets doet vermoeden, dat de leerlingen tijdens de
treatmentperiode zeer weinig hebben geleerd; dit werd misschien veroorzaakt door het
feit dat het onderwerp, zonder relevante voorkennis, te moeilijk voor deze leerlingen was.
Hoewel de procedurele voorkennis (in de vorm van leesvaardigheid) bij alle metingen van
significante invloed was, kan toch op grond van de lage verklaarde variantie ervan de in-
vloed verwaarloosd worden.

De cognitieve representaties van semantische informatie door middel van netwerkstructu-
ren en dimensionele structuren zijn onderling vergelijkbaar op de mate van overeenstem-
ming met de criteriumóplossing.

In het eerste geval gaat het om het door de strategie voor leerstofstructuren opgeleverde
netwerk (gemiddelde proportie 36) en in het tweede geval gaat het om de dimensionele
structuur van de experts (gemiddelde correlaties drie-dimensioneel .41 en twee-dimensio-
neel 37, zie tabel 3 en 4). Hiermee heeft men een indicatie van de hechtheid en de om-
vang van de representaties van de leerlingen ten opzichte van een criterium of standaard-
representatie.

Uit verschillende netwerkanalyses blijkt dat, in verhoudmg tot het totale aantal begrip-
pen, slechts in beperkte mate het aantal essentiële begrippen en essentiële relaties wordt
gerepresenteerd (zie tabel 2). Dit is een niet erg bemoedigend resuhaat. Het betekent dat
lezers in hun cognitieve structuur weinig begrippen en relaties hebben opgenomen die de
structurering van mformatie zouden moeten bevorderen.

Van deze essentiële begrippen worden in de dimensionele representatie in beperkte mate
overeenstemmingen gevonden met de expertstructuur, hetgeen een indicatie oplevert over
de mate van juistheid van de representatie van de leerlingen.

Wat de consequenties zijn van de gevonden resuhaten moet nu nader toegeUcht worden.
In het onderzoek naar tekstverwerking heeft men paradigmatisch te maken met tenmin-
ste vier factoren:

1) subjectvariabelen (leerstrategieën werden in het onderzoek gemanipuleerd; voorkennis
constant gehouden).

3) tekstmateriaalvariabelen (tekstsequenties en tekstopbouw werden in dit onderzoek ge-
manipuleerd).

4) toetsvariabelen (verschillende effectmetingen werden in dit onderzoek gehanteerd).

Met de gevonden onderzoeksgegevens konden de relaties tussen de factoren niet nader
gespecificeerd worden. In het bijzonder is geen uhspraak mogehjk over de aannames van
het in de inleiding genoemde structuurgezichtspunt en het schemagezichtspunt.
Dh kan enerzijds wijzen op de noodzaak van selectie van micro- en tekst-gebaseerde stra-
tegieën van mformatieverwerking zoals Kintsch en Van Dijk (1978) dit voorsteUen, in
plaats van algemene leerstrategieën van Pask. Met name de 'leading edge'-strategie, waarbij
gelet wordt op de hiërarchisch hoog geplaatste proposities en op de meest recente propo-
sities in het proces van mformatieverwerking, lijkt daarbij perspectieven te bieden.
Anderzijds zuUen de criteria voor opbouw van teksten volgens web-onderwijzen (Norman,
^973) verder gespecificeerd moeten worden. In het bijzonder zal daarbij duidelijker moe-
ten worden wat het karakter is van schema's die op verschillende niveau's van speciahsatie
en generalisatie worden gevormd.

Voor dit soort onderzoek kan het van belang zijn meer nadruk te leggen op mhoudelijke
voorkennis als covariabele (vgl. Chiesi e.a., 1979). Dit onderzoek was tevens gericht op
liet ontwikkelen en testen van een procedure voor de bestudering van de cognitieve repre-
sentatie van semantische informatie, toegepast op het geval van verschfllend gestructureer-
de teksten die over verschillende lessen gesequenteerd zijn. Een belangrijk probleem daar-
bij is dat een manier (instrument) moet worden gevonden om teksten en cognitieve struc-
turen adequaat weer te geven en te vergehjken. Een bijkomende moeilijkheid is, dat dit
moet gebeuren voor vrij omvattende informatiegehelen, (representatiewijzen van korte
teksten zijn hiervoor niet geschikt of onoverzichteUjk).

De in dit onderzoek gehanteerde instrumenten lijken hieraan te voldoen. De dimensionele
representatie maakt het mogelijk expert-representaties te vergelijken op de mate van over-
eenstemming met leerling-representaties, w^aarbij wordt aangegeven wat de sterkte van het
verband tussen de begrippen is. De netwerkrepresentaties geven meer inzicht in de ver-
schillend opgebouwde structuren van leerlingen en hun omvang aan begrippen en relaties.
Beide representaties zijn elkaar wederzijds aanvullend.

Concluderend kan gezegd worden, dat het onderzoek niet in staat was aan te tonen dat
verschillende sequenties van informatie van invloed zijn op cognitieve representaties van
leerlingen, noch dat als aptitudes te beschouwen informatieverwerkingsstrategieën van
leerlmgen differentiëren.

Anderson, R.C. The notion of schemata and the educational enterprise. In: R.C. Anderson, J.F. Spiro,

W.E. Montague (eds.) Schooling and the acquisition of knowledge. Hillsdale, New Jersey, 1977.
Anderson, R.C. Schema directed processes in language comprehension. In: A.M. Lesgold, J.W. Pellegri-

no, S.P. Fokkema, R. Glaser (eds.). Cognitive psychology and instruction. New York, 1978.
Caroll, J.D. and Chang, J.J. Analysis of individual differences in multidimenscaling via an n-way ge-
neralization 'Eckart-Young' decomposition.ftj'c/zomefri^a, 1970, ii, 283-319.
Chiesi, H.L., Spilich, G.J., Voss, J.F. Acquisition of domain related informattion in relation to high

and low knowledge./ourna/o/ verbal learning and verbal behavior, 1919,18, 257-275.
Frederiksen, C.H. Semantic processing units in understanding text. In: R.0. Freedle (ed.). Discourse

production and comprehension. Vol. 1. Norwood, New Jersey, 1977.
Hunt, E. Varieties of cognitive power. In: L.B. Resnick (ed.). The nature of intelligence. Hillsdale,
New Jersey, 1976.

Just, M.A. and Carpenter, P.A. Cognitive processes in comprehension. HiUsdale, New Jersey, 1977.
Kintsch, W. The representation of meaning in memory. Hillsdale, New Jersey, 1974.
Kintsch, W. On comprehending stories. In: M.A. Just, P.A. Carpenter. Cognitive processes in com-
prehension. Hillsdale, New Jersey, 1977.
Kintsch, W. and Dijk van, T. Toward a model of text comprehension and production. Psychological

Review, 1978,55,363-394.
Meyer, B.J.F. The organization of prose and its effect on memory. Amsterdam, 1975.
Norman, D.A. Memory knowledge and the answering of questions. In: R. Solso (ed.). Comtemporary

issues in cognitive psychology. Winston, 1973.
Norman, D.A. Notes towards a theory of complex learning. In: A.M. Lesgold, J.W. Pellegrino, S.D.

Fokkema, R. Glaser (eds.). Cognitive psychology and instruction. New York, 1978.
Norman, D.A. Perception memory and verbal processes. In: L.G. NiUson (ed.). Perception and mem-
ory research. Hillsdale, New Jersey, 1979.
Pask, G. Conversation, cognition and learning. Amsterdam, 1975.

Pask, G. Conversation theory, applications in education and epistomology. Amsterdam, 1976.
Rumelhart, D.C., Norman, D.A. Accretion, tuning and restructuring. Three models of learning. In:

U. Klatsky and D. Cotton (eds.). Semantic factors in cognition. Hillsdale, New Jersey, 1978.
Schönemann, P. An algabraic solution for a class of subjectieve metrics moAsXs. Psychometrika, 1972,
J7,44M51.

Tillema, H., Kok, W., Boonman, C., Strategieën voor de planning van informatief onderwijs. Vakgroep
Onderwijskunde, Utrecht, 1980.

In het begin van de zestiger jaren ontwikkelde Crombag (1968) een vragenlijst om te

bepalen in welke mate studenten aangepast zijn aan het universitaire müieu. De vragenlijst

bestaat uit 18 uitspraken waarvan de respondent op een zevenpuntsschaal aangeeft in

hoeverre zij op hem of haar van toepassing zijn (zie Bijlage 1). De uitspraken betreffen de

mate waarin iemand zich op zijn plaats voelt aan de onderwijsinstelling, de appreciatie van

het leven als student, van het studieverloop en van de sociale contacten. Uit de reacties op
de

afzonderlijke items wordt een totaalscore berekend door de itemscores te sommeren,
na spiegeling van de scores op tien uitspraken die een gebrekkige aanpassing inhouden.
Deze AanpassingsvragenUjst is in een aantal onderwijskundige experimenten gebruikt.
Onder meer bleek, dat de mate van aanpassing aan het universitaire milieu het studiever-
loop beïnvloedde (van Rooijen, 1965), dat studiebegeleiding geen invloed had op de
aanpassing aan het universitaire milieu (Meuwese & van Rooijen, 1966; Klip, 1970) en dat
aanpassingsscores van de leden van studentengezelligheidsverenigingen overeenkwamen
met die van niet-leden (Crombag, 1968).

'^an de Aanpassingsvragenlijst zijn nauwelijks psychometrische gegevens bekend gemaakt,
noch gegevens omtrent de samenhang met biografische en demografische variabelen. Deze
notitie tracht in deze lacune te voorzien. Bij een groep studenten in de sociale weten-
schappen aan de Vrije Universiteit is de samenhang nagegaan tussen de aanpassing aan het

universitaire milieu, depressie-verschijnselen en de mate van sociaal wenselijke beantwoor-
ding.

Tevens is onderzocht, voor de totaalscore en voor de afzonderlijke items, of er
verschillen in aanpassing optreden tussen groepen studenten die in enkele demografische
kenmerken van elkaar afwijken. Bovendien is de interne structuur van de Aanpassingsvra-
genlijst geanalyseerd.

I^e respondenten waren 61 tweedejaarsstudenten in de pedagogische en andragogische
wetenschappen (PAW) en 44 derdejaarsstudenten in de psychologie aan de Vrije Universi-
teit. Aan het onderzoek namen meer vrouwen (64%) dan mannen deel; 82% der respon-

' Een meer uitgebreid rapport is verkrijgbaar bij de auteurs. Vrije Universiteit, Vakgroep Sociale
»Psychologie, De Boelelaan 1081,1081 HV Amsterdam.

denten was jonger dan 24 jaar en 75% van de onderzoeksgroep was ongehuwd. De deel-
nemers verleenden hun medewerking in het kader van enkele colleges in de sociale
psychologie in het najaar van 1978.

1 De Aanpassingsvragenlijst (Crombag 1968). In de oorspronkelijke uitspraken werden
de woorden 'TH' en 'Eindhoven' vervangen door 'VU' en 'hier'.

2 Een Sociale Wenselijkheidsschaal: een door van Rooijen bewerkte versie (20 items) van
de Social Desirability Scale (Crowne & Marlowe, 1964).

3 Een beknopte versie van de Zung-depressielijst (14 items) die het durende depressie-
syndroom meet (Zung, 1965).

De ene helft van de groep respondenten (volgens toeval bepaald) vulde de momentane
versie van de VROPSOM-0 in, terwijl de momentane versie van de VROPSOM-M door de
andere helft werd ingevuld. Deze VROPSOM-lijsten zijn parallelle woordaanstreeplijsten
ter bepaling van de (momentane) depressieve gemoedsgesteldheid (van Rooijen, 1980).

De totaalscore op de Aanpassingsvragenlijst vertoonde een één-toppige, lichtelijk negatief-
scheve verdeling. De gemiddelde totaalscore was 92,2 (SD = 12,1). De interne consisten-
tie van de Aanpassingsindex was redelijk goed (a = .77); de gemiddelde inter-item corre-
latie bedroeg .16.

De samenhang tussen de verschillende variabelen werd vastgesteld door de produkt-mo-
mentcorrelaties te berekenen. De aanpassingsscore bleek niet significant met een tenden-
tie tot sociaal wenselijke beantwoording samen te hangen (r = .12). De aanpassing hield
wel significant verband met het durende depressiesyndroom (Zung: r = — .34, p < .01) en
met het momentane depressieve affect (VROPSOM-M: r = - .42, p < .01; VROPSOM-0:
r = — .29, p < .05). Hoe minder aangepast de respondenten waren aan het universitaire
milieu, hoe meer.zij verschijnselen van depressie tot uiting brachten.

Met eenwegsvariantieanalyses werd nagegaan of verschillen in sexe, studierichting, woon-
situatie of burgerlijke staat samengingen met verschillen in de aanpassingsscores. Dit bleek
niet het geval te zijn. Ook de leeftijd hield geen verband met de aanpassingsindex (r = -
.09).

De Aanpassingsvragenlijst is in verschillende onderzoeksprojecten aan de Technische Ho-
geschool te Eindhoven afgenomen bij verschillende lichtingen van eerstejaarsstudenten in
de technische wetenschappen. De door van Rooijen (1965), Crombag (1968) en Klip
(1970) gerapporteerde onderzoeksresultaten maken het mogelijk om de aanpassingsscores

van de studenten in de sociale wetenscliappen aan de VU te contrasteren met die van de
THE-studenten. Met de Moets voor ongecorreleerde steekproeven werd de gemiddelde
aanpassingsscore van de huidige respondenten vergeleken met die van de diverse groepen
technische studenten. De resuhaten hiervan staan in Tabel 1.

Hoewel de verschillen niet groot bleken, hadden de eerstejaarsgroepen aan de THE con-
sistent hogere gemiddelde aanpassingsscores dan de VU-groep.

^^etnografische effecten. Voor elk item van de Aanpassingsvragenlijst werd met eenwegs-
variantieanalyse getoetst of de scores verschilden tussen mannen en vrouwen; tussen
gehuwden, ongehuwden en samenwonenden; tussen de twee studierichtingen en tussen de
respondenten met een verschillende woonsituatie. De woonsituatie bleek bij geen enkel
item significante verschillen in beantwoording op te leveren. Dit was eveneens (met uit-
zondering van slechts een item) het geval voor de studierichtingen.
De mannen verschilden significant van de vrouwen in hun reacties op drie items. De
mannen stemden vaker dan de vrouwen in met de uitspraken: 'Soms weet ik met mijn tijd
geen raad', F (1,103) = 4,1, p < .05; 'Ik kan maar moeilijk aan het leven wennen hier', F
(1> 103) = 4,3,'p < .05; 'Ik vind het erg moeilijk mij aam het studentenleven aan te
passen',F(l, 103) = 7,2,p < .01.

De gehuwde, ongehuwde en in concubinaat levende studenten verschilden sigmticant van
elkaar op 7 items (nrs. 1, 3, 6, 7, 10, 17 en 18). In het algemeen bleek hieruit dat de
gehuwden het studentenbestaan op enkele punten wat problematischer beleefden dan de

^'^terne structuur van de Aanpassingsvragenlijst. Voor elk item van de Aanpassingsvragen-
lijst werd de item-restcorrelatie berekend. Deze waren voor alle items positief, met waar-
den tussen .18 {p < .05) en .55. Een hoge r^ hadden de items: 'Ik voel me hier best thuis'
'Ik ben blij dat ik hier ben gaan studeren'. De laagste n, hadden de hems 'Ik verveel me
hier nooit' en 'Soms weet ik met mijn tijd geen raad'. Door verwijdering van deze laatste

twee items zou de interne consistentie van de totale aanpassingsscore toe- noch afnemen
(a was .76 voor de index bestaande uit 16 items).

Om nader inzicht te verkrijgen in de interne structuur van de Aanpassingsvragenlijst werd
een clusteranalyse uitgevoerd, volgens een modus-analyse-techniek ontworpen door
Wishart (1978). Het computerprogramma CLUSTAN-IC werd gebruikt met de aanbevolen
standaardwaarden voor de verschillende parameters. De oplossing met twee clusters was
het beste te interpreteren. Cluster II bestond uit de items: nrs. 9, 11, 12, 14 en 16.
Cluster I bevatte de overige items. De interne consistentie van Cluster I was net zo hoog
als die van de voltallige verzameling items, a = .77. De interne consistentie van Cluster II
was .58. De produktmomentcorrelatie tussen beide clusters was .28 (p < .01). De clusters
waren dus niet strikt onafhankelijk van elkaar, zij het dan dat de samenhang tussen beide
beperkt was.

Op grond van de inhoud van de uitspraken in ieder cluster en de sterkte van de samenhang
met de overige items daarin werden de clusters geïnterpreteerd. Cluster I leek te verwijzen
naar de aanpassing van de student aan het universitake milieu in engere zin met een
duidelijk satisfactie-karakter. De items met de hoogste item-restcorrelaties (> .50) in
Cluster I waren: Tk ben blij dat ik hier ben gaan studeren', Tk voel me hier best thuis' en
'Ik ben erg tevreden over het verloop van mijn studie'. Het andere cluster leek vooral
eenzaamheidsproblematiek in te houden, waaraan depressiegevoelens zijn gekoppeld. De
items met de hoogste item-restcorrelaties (> .42) in Cluster II waren: 'Soms voel ik me
nogal eenzaam' en 'Wat ik hier mis is iemand om van tijd tot tijd eens ronduit mee te
praten'.

Deze interpretaties hebben echter een voorlopige status. Voortgezet onderzoek zou nader
uitsluitsel kunnen verschaffen over de betekenisstructuur van de Aanpassingsvragenlijst.

Uit dit onderzoek blijkt dat de Aanpassingsvragenlijst een redelijk betrouwbaar instru-
ment is, dat bij de onderhavige respondenten niet gevoelig was voor sociaal wenselijke
beantwoording. Een duidelijk argument voor de constructvahditeit van de aanpassingsin-
dex leveren de gevonden negatieve verbanden met de meer durende depressie-symptoma-
tiek en de momentane depressieve gemoedsgesteldheid. Hoe meer aangepast de studenten,
hoe minder depressiesymptomen zij ervaren en hoe prettiger zij zich voelen.
De tweede- en derdejaars in de sociale wetenschappen aan de Vrije Universheit hadden
wat lagere aanpassingsscores dan de eerstejaars in de technische wetenschappen aan de
hogeschool te Eindhoven in het najaar van 1964 en de voorzomer van 1968. De betekenis
van dit resultaat is echter niet duidelijk. Het zou kunnen zijn dat de huidige respondenten
inderdaad minder aangepast waren aan hun universitaire milieu dan hun Eindhovense
collega's 10 ä 14 jaar eerder. Maar de mogelijkheid is niet uitgesloten dat responsetenden-
ties in verschillende mate hebben meegespeeld of dat verschillen in inschrijvingsduur,
studentengeneratie, universitaire tijdgeest of sociaal-culturele omgeving (VU vs THE, tech-
nische VS sociale faculteit) van invloed zijn geweest. Nader onderzoek kan hieromtrent
opheldering geven. Het lopende onderzoek naar belangrijke componenten van het welbe-
vinden (b.v. het waargenomen studieklimaat of stressverschijnselen) van .VU-studenten in
uiteenlopende facuheiten zal meer specifieke gegevens opleveren over de begripsvaliditeit
van de Aanpassingsvragenlijst.

Crombag, H.F.M. Studiemotivatie en studieattitude. Een onderzoek naar de invloed van verenigingslid-
maatschap op studiemotivatie en studieattitude, en de rol die deze factoren spelen in de studie van
eerstejaarsstudenten. Groningen: Wolters, 1968.
Crowne, D.P. & Marlowe, D. The approval motive. Studies in evaluative dependence. New York:
WUey, 1964.

Klip, E.g. Studiebegeleiding aan eerstejaarsstudenten. Groningen: Wolters-Noordhoff, 1970.
Meuwese, W. & van Rooijen, L. Effecten van begeleiding van eerstejaarsstudenten door ouderejaarstu-

toren (Rapport nr. 11). Eindhoven: Teehnisehe Hogeschool, Groep Onderwijsresearch, 1966.
van Rooijen, L. Begeleiding van de studie van eerstejaarsstudenten door ouderejaarstutoren (Doctoraal-
scriptie). Nijmegen: Katholieke Universiteit, Psychologisch Laboratorium, 1965.
van Rooijen, L. Depressiegevoelens van sociale oorsprong. Deventer: Van Loghum Slaterus, 1980.
Wishart, D. CLUSTAN User Manual (Third edition) (Report no. 47). Edinburgh: Inter-university

Research Councils Series, 1978.
^"ng, W.W.K. A self-rating depression scale. Archives of General Psychiatry, 1965,12, 63-70.

^ 2. Ik ben erg tevreden over het verloop van mijn studie
^ 3- Ik héb soms zin om alles erbij neer te gooien
^ 4. Ik vraag mij dikwijls af wat ik hier eigenlijk doe

5- Ik zou liever ergens anders gaan studeren
^ Ik heb hier veel vrienden gemaakt

7- Ik voel mij bij de T.H. niet erg op mijn plaats
^ 8. Ik verveel me hier nooit

9- Soms voel ik me erg moedeloos
^JO' Ik vind het leven als student heel prettig
^ J1 ■ Soms voel ik me nogal eenzaam

Wat ik hier mis is iemand om van tijd tot tijd eens ronduit mee te praten
15. Ik ben erg tevreden met mijn wijze van leven

EEN COMMENTAAR OP NIELS VELDHUIJZENS 'DIFFICULTIES WITH DIFFI-
CULTIES: ON THE BETA-BINOMIAL MODEL'

Het artikel van Niels Veldhuijzen geeft een korte inleiding in het Beta-Binomiale model
(verder B.-B. model genoemd), het begrip uitv/isselbaarheid en de stelling van De Finetti.
Aan het begm van het artikel wordt opgemerkt dat de eis van gelijke item-moeilijkheden
een groot nadeel is van het B.-B. model. Het hoofdpunt van het artikel is de bewering dat
deze eis verzwakt kan worden tot de eis dat de items uitwisselbaar zijn.
Als startpunt van het bewijs van deze bewering wordt een Pólya (n, a, P) verdeling geno-
men als uitdrukking van mijn subjectieve kansen P (X = x) op een ruwe score x op een
toets met n willekeurige items uit een oneindig itemdomein D, van een willekeurig per-
soon k uit een populatie P. De keuze van een Pólya (n, a, 0) verdeling is in verband met
het B.-B. model een handige keuze. Immers De Finetti heeft het bestaan van een F (0)
bij een P (X = x) voor een oneindige rij uitwisselbare variabelen bewezen, zodat

en van Keats en Lord (1962 weten we dat (1) bij bovenstaande keuze voor P (X = x) in
een gelijkheid overgaat, als we voor dF(0) een beta (0|a, |3) verdeling kiezen. Hieruit
wordt geconcludeerd dat het voldoende is om de items uitwisselbaar te beschouwen bij
toepassing van het B.-B. model.

Mijn bezwaar tegen dit bewijs is, dat impliciet tevens de personen uitwisselbaar worden
beschouwd, zonder dat deze beperking in het artikel wordt genoemd. Dit kunnen we als
volgt toelichten.

Heath en Sudderth (1976) stellen dat we F (0) mogen beschouwen als een prior voor de
random variabele (0), dat wil zeggen een verdeling die ons geloof in 0 uitdrukt. Nemen we
nu een persoon k uit P en drukken we ons geloof in de kans' 0 dat k een item uit D goed
maakt uit met F (0). We kunnen dit doen als we alle items uit D voor k uitwisselbaar
willen beschouwen. Met formule (1) verkrijgen we voor iedere willekeurige (n, x) (n =
1, ..., «., X = O, ..., n) onze subjectieve kans P (X = x) ten aanzien van de prestaties van k
op een n-item toets uit D.

1. De kans 0 dat persoon k een item i uit D goed maakt bestaat niet, immers k zal i goed of fout ma-
ken. Mijn geloof in 0 bestaat echter wel. Als de items uitwisselbaar zijn is mijn geloof voor alle items
gelijk. Het toekennen van een kans $ aan een gebeurtenis, moet worden beschouwd als een projectie
van onze gedachten op dé werkelijkheid en derhalve als onwetenschappelijk.

Nemen we vervolgens een ander persoon 1 uit P. Wanneer we ook voor 1, alle items uit D
uitwisselbaar wiUen achten, kan ik mijn geloof in de kans 6 dat 1 een item uit D goed-
maakt de vorm geven van een verdeling Fi (0). Wanneer we tevens 1 en k uitwisselbaar
wiUen beschouwen is Fj (0) = Fk (0) = F (0). Als we aUe personen uit P uitwisselbaar ach-
ten is Fl (0) = F (0) voor alle 1 uit P en kunnen we formule (1) gebruiken voor een wille-
keurig persoon uit P.

Dit verandert echter zodra we over een persoon 1 en een persoon k uit P verschillende ge-
gevens hebben die wij relevant achten voor hun te verwachten prestaties op items uit D.
Dan geldt F^ (0) Fi (0). Wanneer we immers onze informatie over k en 1 serieus willen
nemen verschilt ons geloof in hun kansen op items uit D.

Wanneer we bereid zijn om ons geloof in de prestaties op D van iedere persoon 1 uit P de
vorm te geven van een beta (0, a, ß) verdeling, dan kunnen we het niet uitwisselbaar zijn
Van personen tot uitdrukking brengen door voor hen verschillende (a, ß) te kiezen. Zo
voortgaand verkrijgen we een verdeling G (a, ß) die de verdeling van (a, ß)inP beschrijft.
Wanneer we onze subjectieve kansen P (X = x) van een willekeurig persoon uit P bepalen
dan heeft dit de vorm

Het feit echter, dat we bereid zijn om de P (X = x) van een willekeurig persoon uit P te ge-
ven, impliceert dat we de personen uit P uitwisselbaar willen beschouwen.

Wanneer ik dat niet wil, zou ik immers vragen: "Wie is het?' of "Wat was zijn score op de
Vorige toets(en)?' etc.

Men kan uiteraard van deze kennis afzien en slechts gebruik maken van de wetenschap dat
persoon uit P komt. Met (2) kunnen dan de P (X = x) berekend worden. Uitgaande van
deze P pc = x) garandeert de stelling van De Finetti ons dat we (2) kunnen schrijven als
(!)• Als we voor P (X = x) een Pólya (n, a, ß) verdeling nemen, kunnen we voor F (0)
een beta (0 a, ß) verdeling kiezen.

Zowel ten aanzien van de uitwisselbaarheid van de personen als van de items, valt nu het
volgende op te merken.

Wanneer we in formule (1), n = 1 en x = 1 nemen, dan zien we dat onze subjectieve kan-

dat een persoon 1 een item i goed maakt, voor alle paren O, i) gelijk zijn.
^ het frequentistische B.-B.-model hebben we in het algemeen personen met verschÜ-
lende vaardigheden en items van gelijke moeiHjkheidsgraad. Vanuit Bayesiaans gezichts-
punt büjkt dezelfde formule gehanteerd te kunnen worden, wanneer we zowel de items
onderling uitwisselbaar als de personen onderling uitwisselbaar willen beschouwen.

Veldhuijzen, Niels, H. Difficulties with Difficulties; On The Beta-Binomial Model. Tijdschrift voor

Hoe moeilijk het is een boek van een goede titel te voorzien, blijkt bij Vroon's jongste werkstuk, dat
als titel draagt 'Intelligentie, over het meten van een mythe en de politieke, sociale en onderwijskun-
dige gevolgen', doch handelt over 'algemene intelligentie' en de erfelijkheid daarvan. De bedoeling van
de schrijver is 'een aantal zaken in heden en verleden op een rijtje te zetten' zonder 'nog eens een extra
mening en interpretatie te verschaffen' (plO). Ik zal kort aangeven hoe hij deze opgave tracht te vol-
brengen en daarna een aantal (kritische) kanttekeningen plaatsen.

De boodschap van het boek is eenvoudig samen te vatten: ondanks alles wat erover gezegd en geschre-
ven is, kan de vraag naar de erfehjkheid van 'algemene intelligentie' (of het IQ) nog niet beantwoord
worden, omdat de betrokken diskussianten en onderzoekers niet goed gedefmieerd hebben wat onder
intelligentie, erfelijkheid en omgeving moet worden verstaan en omdat zij verstrikt zijn geraakt in al-
lerhande logische en methodologische voetangels en klemmen. Vroon heeft zijn betoog opgebouwd
uit een negental stappen (waarvan overigens de eerste reeds voldoende is om voornoemde boodschap
op te pikken): na een historische inleiding wordt kritiek geleverd op het begrip intelligentie en op tests
en vervolgens wordt het IQ-debat samengevat met bijbehorende theorieën en onderzoeksgegevens. In
dat kader komen ook kompensatieprogramma's, het onderwerp 'intellektuele reserve', e.d. aan de
orde. De voetangels en klemmen worden in het voorbijgaan behandeld.

Opmerkelijk en niet onbelangrijk is, dat Vroon 'intelligentie' en 'algemene intelligentie' aan elkaar ge-
lijk stelt en nauwelijks rept over specifieke intellektuele kapaciteiten (of intelligentiefaktoren). Deze
beperking tot het theoretisch meest miserabele deel van het veld zij de schrijver vergund, jammer is wel
dat de lezer er niet op geattendeerd wordt. Het onderscheid wordt niet eens genoemd; het blijft bij
stelling dat al het 'gefaktor-analyseer' niets heeft opgeleverd. Begripsmatig wordt trouwens geen enkele
poging tot ordening gedaan. Van meet af aan worden termen als intelligentie, intellect en IQ door el-
kaar gebruikt, alsof de dertiger jaren nog maar net achter ons liggen.

De historische inleiding, waarin Vroon de voorgangers van de hedendaagse IQ-debaters de revu laat
passeren is bepaald intrigerend, niet alleen vanwege de bizarre zienswijzen die bijeen zijn gebracht, maar
ook door de niet minder bizarre manier waarop dit is gebeurd. Uitknippen van beweringen van vroe-
gere denkers, op twee stapels leggen en etiketten plakken resulteert in een 'tegenstelling' tussen empi-
rische, experimentele, egalitaire en in omgeving, veranderlijkheid en leren geïnteresseerde heden aan de
ene kant en een gezelschap van rationale, korrelationele, psychometrische, elitaue en bij erfehjkheid,
onveranderlijkheid, e.d. zwerende personages aan de andere kant. Gelukkig heeft de schrijver zich be-
perkt, anders waren links-rechts en tendermindedness-toughmindedness misschien ook wel weer op de
proppen gekomen.

Het begrip (algemene) intelligentie wordt in de hteratuur niejt goed gedefmieerd, aldus Vroon. De
gangbare definities lopen uiteen van tautologieën tot operationele definities in de trant van 'wat deze
test meet'. Over operationele definities doet Vroon nogal smalend. Beter dan zich in te laten met deze
werkwijze, die de achttiende eeuwse natuurkundigen ook al zand in de ogen strooide, ware het met
theoretisch gedefinieerde begrippen te werken, zo stelt hij. Of theoretische begrippen zoveel betere
resultaten zouden geven dan empirische begrippen, valt mijns inziens te betwijfelen. Daarover kan men
immers ook naar hartelust van mening verschillen. Als er £d een eenduidige omschrijving voorhanden is
die door verschillende onderzoekers geaksepteerd wordt, dan moeten de vakbroeders het nog eens
worden over de operationalisatie. Weliswaar is dat een goeddeels empirische kwestie, maar voordat de
feiten kompleet zijn en een ieder tot gelijke gedachten hebben gestemd is men toch ook gauw enkele
decaden verder. Voor empirische begrippen ligt de zaak niet zoveel anders; die moeten ook eenduidig
gedefinieerd zijn en in brede kring aanvaard worden. En zelfs zonder dat aan die voorwaarden is vol-

aan, kunnen zij tot kennisverwerving bijdragen, al is het alleen al omdat zij materiaal helpen bijeen-
rengen dat later de basis voor theoretische begrippen vormt.

en interessante vraag is waarom dit laatste bij 'algemene intelligentie' niet gebeurd is en waarom er
verschillen zijn blijven bestaan. Ofschoon Vroon deze vraag heeft laten üggen, verschaft hij toch de
sleutel tot een antwoord, namelijk in de passage over de geschiedenis van de IQ-test. De Binet-Simon-
est en de daarop geïnspireerde tests hebben het karakter van een 'work sample', of Uever van een 'al-
gemeen proefwerk': het gaat om een steekproef van opgaven zoals die in een bepaald soort onderwijs
Voorkomen. En aangezien in dat onderwijs niet één gedragsvorm aan de orde is, maar een mengseltje
Van Wat men vindt dat kinderen moeten leren, kan die steekproef ook moeihjk één psychologisch be-
pip weerspiegelen. IQ-tests zijn 'per definitie' heterogeen; de inhoud brengt tot uitdrukking wat men
anno 1900-1910 voor het lager onderwijs van belang achtte. Hierbij gevoegd moeten dan de persoon-
"Jke Variaties die door latere testkonstrukteurs zijn aangebracht. Had Vroon de faktortheorieën erbij
gehaald, dan had dit gemakkelijk kunnen bUjken: in het Sl-model van GuUford bestrijken de IQ-tests
Rechts een beperkt en vrij willekeurig deel van de kubus,
oor het gebruik van IQ-tests ziet Vroon slechts weinig mogelijkheden. 'De moraal van het testen op
e lagere school terwille van selectie Ujkt dus nogal zoek en we hebben geen aanvidjzingen dat in ander
verband de IQ-test wel belangrijke diensten levert', zo stelt hij (p80). Gelet op de literatuurlijst bij het
etreffende hoofdstuk is deze konklusie wel te begrijpen; het gebied van de toegepaste psychologie is
er hoegenaamd niet in vertegenwoordigd. Toch kan bijv. bij school- en beroepskeuze, of bij het zoeken
naar de oorzaken van leermoeilijkheden een IQ best een informatief gegeven zijn. Om te kunnen dif-
erentiëren tussen gevallen waarin een IQ wel en niet bruikbaar is, had weer het beste naar de inhoud
^ an de IQ-test gekeken kunnen worden (en natuurlijk naar de kosten). Strikt genomen dient een
Work-sample'-test om te generaliseren naar het domein waaruit de steekproef van opgaven afkomstig
s; het IQ zou dus kunnen dienen om schoolsukses te voorspellen net als dat met een proefwerk of het
°ordeel van het Hoofd-der-SchooI kan gebeuren. Men kan het IQ echter ook als een heterogene maat
an een aantal kapaciteiten zien (iets wat bij proefwerken of het oordeel-HdS niet zo gebruikeüjk is),
en daar redelijk valide voorspellingen mee doen, althans wanneer het kriterium een soortgelijke mix
kapaciteiten veronderstelt,
at het IQ, zoals Vroon opmerkt, een minder goede maat is voor het voorspellen van sukses in ver-
sehillende beroepen en funkties, behoeft in dit licht geen verbazing te wekken (nog afgezien van voor-
^elektie-effekten). Men behaalt daar betere resultaten met meer homogene kapaciteitentests, die kor-
esponderen met de specifieke kriteria die voor die beroepen of funkties gelden. Waar Vroon zijn ken-
nis Vandaan haalt dat de IQ-test bij sollicitaties vaak een belangrijke rol speelt en voor menige soUici-
ant een struikelblok vormt (pl64) geeft hij jammer genoeg niet aan. Als de selektie goed gebeurt ge-
"»ikt men (zie hierboven) meestal geen IQ-test, zeker niet in het geval van de 'naaldeninspecteur' die
'1 ten tonele voert. Geschiedt de selektie minder goed, dan vallen de meeste ICJ-tests af, omdat ze te

y de behandeling van de IQ-test besteedt Vroon nogal wat woorden aan de normale verdeüng van de
^ ores, die geen 'fact of nature' is, maar een 'artefact' van een bepaalde werkwijze van de testkonstruk-
^eur. In strikte zin is deze bewering juist, maar toch is zij misleidend. In elk geval blijkt niet dat het de
estkonstrukteur nogal wat moeite zou kosten om met behoud van het heterogene karakter van de
ems een test te konstrueren die in niet-geselekteerde groepen een duidelijk niet-normale verdeling van
^ we skores zou opleveren (als men, zoals in het tegenvoorbeeld op pag. 65, eist dat r;, = 1 moet zijn,
an zal niet zo'n vreselijk groot domein bestreken kunnen worden). Dit geldt temeer als men de voor-
^rde stelt dat de test, om in verschillende leeftijdsgroepen bruikbaar te zijn, bovendien items van
«eenlopende moeilijkheidsgraad moet bevatten. In deze zin is er dus toch sprake van een 'fact of na-
«te'. De tegenstelling doet ook wat sofistisch aan. Kunnen de natuurlijke feiten überhaupt blijken
Onder gebruik van een meetprocedure?; zijn zij niet altijd afhankelijk van de keuze van de konstruk-
eut en kunnen zij dan nog wel 'bestaan'?

roon heeft zijn boek gelardeerd met de bewering dat werkelijk goede theorieën over intelligentie
Wesp. erfelijkheid en omgeving) niet bestaan. Erg overtuigend doet deze bewering niet aan, omdat po-
fnigen tot theorievorming genegeerd of gediskwalificeerd worden. Zinspelingen op eisen waaraan een
Soede' theorie moet voldoen moeten dienen om dit te legitimeren, maar die eisen worden niet ge-
Penbaard. Er wordt wel opgemerkt dat een theorie met 'hoe' en 'waarom' duidelijk moet maken, 'in-
. . t' moet geven, enz., maar wat deze verlangens wetenschapsfilosofisch waard zijn, is allesbehalve
I "'.lelijk. Zij lijken op het eerste gezicht niet geschikt om, zoals Vroon probeert, differentieel-psycho-
ogische intelligentietheorie buiten de deur te houden, omdat ook die hoe- en waarom-vragen kan be-
ntwoorden. (Wetenschapsfilosofisch zijn er meer onduidelijkheden; zo doet het nogal wonderlijk aan

dat het voorspellen als exklusieve aktiviteit van psychometrici en aanverwante lieden wordt afgeschil-
derd en tegenover verklaren wordt geplaatst.) Erg vruchtbaar üjkt mij Vroon's opstelling niet. Immers
goede theorieën komen niet uit de lucht vallen, doch ontstaan in een proces van zoeken, tasten en ge-
luk hebben, dat vaak begint met beschrijven, inventariseren, enz. aan de hand van vage en operationele
begrippen. Of men ooit aan goede theorie toekomt als men weigert deze fase te aanschouwen en van
meet af aan de hoogste eisen stelt, is zeer de vraag.

Ongetwijfeld het beste deel van het boek wordt gevormd door de passages die handelen over (metho-
do)logische problemen bij het onderzoek naar de erfelijkheid van 'algemene intelligentie'. De misver-
standen over h', regressie naar het gemiddelde, binnen- vs. tussenvariantie van populaties, e.d. komen
goed uit de verf, zij het dat op een enkel punt de uiteenzetting wat te technisch wordt (d.w.z. onvol-
doende wordt toegelicht).

Het eigenlijke IQ-debat, de diskussie over de bepaaldheid van 'algemene intelligentie' door erfelijke
faktoren en omstandigheden wordt in nogal gekomprimeerde vorm behandeld. De belangrijkste visies
worden wel genoemd en met noten gedokumenteerd, maar de uiteenzetting gaat weinig diep. Eigenlijk
krijgt men meer een opsomming van wat er fout is aan onderzoekingen en zienswijzen dan een afgewo-
gen beschrijving daarvan. Hetzelfde geldt voor het hoofdstuk over kompensatieprogramma's. Wat het
laatste betreft is opmerkelijk dat Vroon de indruk wekt alsof vooral het opkrikken van lage IQ's cen-
traal zou hebben gestaan, terwijl in nogal wat gevallen sprake is geweest van onderzoek naar de effek-
ten van hele pakketten van vrij willekeurig gekozen ingrepen op allerhande facetten van de individuele
ontwikkeling. De relevantie voor het IQ-debat is dan ook geenszins vanzelfsprekend.

Een vraag die ik niet heb kunnen beantwoorden, is voor wie het boek bedoeld is. De Nederlandse psy-
choloog zal er, afgezien van de (methodo)logische reminders, weinig uit kunnen leren, vooral omdat de
informatie veel te beknopt is. Slechts een enkel onderzoek dat de schrijver kennelijk interesseert wordt
min of meer uitvoerig beschreven. (Bij het bladeren in de noten valt overigens op dat de Nederlandse
literatuur niet oververtegenwoordigd is. Bij de eugenetici had bijv. Van der Heyden geen gek figuur ge-
slagen; over schoolsukses, beroepskeuze, kompensatieprogramma's, intellektuele reserve is ook wel
meer te vermelden.) De leek zal, lijkt mij, weinig aan het boek hebben, omdat er over intelligentie en
het IQ-debat te weinig wordt uitgelegd en teveel en te snel op oordelen (over alles wat er fout is) wordt
aangestuurd. Voor hem zijn andere boeken (bijv. Willerman's, The psychology of individual and group
differences, Freeman, 1979) aan te bevelen. Het meest geschikt lijkt het boek voor mensen die de ho-
cus pocus van de testpsycholoog niet vertrouwen en voedsel zoeken voor hun twijfel.
Dit brengt mij op de geheel eigen schrijftstijl van Vroon. Puntig, in huis-tuin-en-keuken-termen samen-
vatten heeft voordelen: het prikkelt niet alleen de aandacht van de lezer, het geeft soms de zaken ook
in hun ware gedaante weer, los van wetenschappelijke franje en gewichtdoenerij. Er zijn echter ook na-
delen. Er gaat veel informatie verloren en er wordt gemakkelijk een onkritisch oordeel uitgelokt. Vaak
zijn het scherp getekende karikaturen in plaats van scherpe argumenten die de lezer tot een oordeel
moeten verleiden. Men zou kunnen stellen dat deze werkwijze bij de behandeling van het IQ-debat
weinig kwaad kan, omdat daar grote verwarring heerst en veel onzin wordt verkocht. Maar eerlijk-
heidshalve moet daar wel aan worden toegevoegd dat dezelfde werkwijze op elk ander gebied van we-
tenschap toegepast ook tot povere resultaten zou leiden. Mede gelet op het gebrek aan wetenschapsfi-
losofische precisie zou men ook kunnen stellen, dat in dit boek scepsis, eerder dan kritiek, de boven-
toon voert en dat is vanuit de wetenschap bekeken geen kompliment.

Afgezien van dit laatste heb ik twee problemen met het boek. In de eerste plaats, al even genoemd, de
suggestie dat het niet nodig is aandacht te schenken aan intellektuele kapaciteiten die niet onder de
noemer van 'algemene intelligentie' gerangschikt kunnen worden. Vroon gaat mijns inziens veel te
gemakkelijk voorbij aan het vele onderzoek en de theorievorming die op dit gebied hebben plaatsgevon-
den, waarbij vooral de pogingen interessant zijn een brug te leggen naar proces-onderzoek, mogelijk
gemaakt doordat specifieke faktoren met karakteristieke item-soorten verbonden zijn welke als cogni-
tieve taken opgevat kunnen worden. Door de wijze waarop het nu aan de orde wordt gesteld, namelijk
als aanhangsel van het IQ-onderzoek, wordt het werk van mensen als R.C. Atkinson, J.B. CarroU, J.J.
Elshout, J.P. Guilford, E.B. Hunt en J.W. Pellegrino volkomen ten onrechte met het IQ onder de mat
geveegd.

Het tweede punt is , dat op verschillende plaatsen in het boek, doch het duidelijkst aan het eind, ge-
suggereerd wordt dat de gehele differentieel-psychologische benadering vruchteloos is en plaats zou
moeten maken voor een algemeen-psychologische (experimenteel-psychologische) benadering. Terwijl
Vroon in het IQ-debat redelijk op een afstand blijft (beduidend verder overigens van de 'aanleggers'
dan van de 'omgevingsgezinden'), kiest hij zonder veel aarzeling partij in een minstens even oud, 'ideo-
logisch' en heilloos debat over paradigma's in de psychologie. Vanzelfsprekend is hij vrij in het maken

Van deze keus, maar de suggestie dat de uitkomsten van al het gedoe over intelligentie er een recht-
vaardiging voor zouden kunnen vormen lijkt mij volstrekt ongefundeerd. Ik ben benieuwd wat er in
Vroon's cognitieve boekenkast overblijft na verwijdering van alle banden met vage en operationele be-
etippen, slecht geformuleerde hypothesen, e.d. En ook wat daar voor praktisch bruikbare kennis aan te
ontlenen zou zijn. Persoonüjk houd ik het erop dat de kombinatie van de differentieel-psychologische
en de algemeen-psychologische benadering, zoals aanwezig in het werk van de zojuist genoemde onder-
^pekers, meer te bieden heeft, niet alleen voor de toekomst van de psychologische theorie, maar uit-
eindelijk ook voor de praktijk van het onderwijs.

kunnen worden. Dat is wel juist, maar ik heb hier helemaal niets over gezegd. De discussie over het na-
tuurlijk feit diende uitsluitend om een analogie-redenering aan te vechten. Deze luidt dat het IQ ge-
netisch bepaald is omdat de verdeling gelijkenis vertoont met die van erfelijk bepaalde lichaamsleng-
te (zie pag. 66 en 110).

10. Bijzonder belangrijk is Roe's zinsnede dat ik het werk van Carroll, Elshout, e.v.a. mèt het IQ on-
der tafel zou hebben geveegd. Ik trek me deze opmerking nogal aan, want op pag. 53-55 valt te lezen
dat deze onderzoekers nu juist niet met de traditionele psychometrie vereenzelvigd mogen worden
(werk van Resnick).

11. Roe stelt dat ik dichter bij de 'omgevingsgezinden' sta dan bij de 'aanleggers'. Ook dit herken ik
niet. De conclusie van het hoofdstuk over de omgevingstheorie luidt dat de gegevens tot dusver niet in-
drukwekkend pleiten voor de 'tegenvoeter van de aanlegtheorie' (pag. 160-161).

Naar aanleiding van de kanttekeningen die Vroon geplaatst heeft bij mijn boekbespreking over 'Intel-
ügentie, enz.' zou ik het volgende willen opmerken.

1. Vroon vermeldt in het boek dat faktor-analyse is toegepast: hij somt namen van bekende onderzoe-
kers en bijbehorende aantallen faktoren op. De resultaten worden niet inhoudelijk besproken, zodat
overeenkomsten en verwantschappen (bijv. op PMA-niveau) voor de lezer verborgen blijven. Na de
konstatering dat het onderzoek 'geen consensus' heeft opgeleverd (p. 51) en dat we kunnen 'blijven
faktoranalyseren tot we een ons wegen' (p. 52) wordt verder slechts over het IQ gesproken. Niet ge-
noemd is, dat er twee manieren zijn om naar intelligentie te kijken (IQ en faktoren) en dat het boek
slechts over de eerste - en minst verstandige - manier van kijken handelt.

2. Ik heb Vroon geen verwijt willen maken voor zijn historisch rariteitenkabinet; zijn plakwerk ver-
dient eerder een kompliment. De kernvragen zijn natuuriijk deze: horen de bij elkaar geplaatste visies
inderdaad bij elkaar en sluiten visies in de twee kategorieën elkaar uit? Geloven psychometrici van na-
ture in een overheersende rol van erfelijkheid? Zijn zij blind voor het verschil tussen erfelijkheid en on-
veranderlijkheid? Zijn zij elitair? En zijn experimentalisten egalitair? En niet rationeel? Etcetera.

3. De termen 'empirisch' en theoretisch begrip' zijn door mij op Vroon's uiteenzetting toegepast (zij
verwijzen naar een bekend onderscheid, dat men o.a. bij De Groot, 1961 behandeld vindt). De kwestie
is niet dat theoretische begrippen empirisch 'leeg' zouden zijn, doch dat zij in de ontwikkeling van we-
tenschap uit empirische begrippen plegen te ontstaan (bijv. Kaplan, 1964). Een korter of langer du-
rend stadium van operationele definiëring is om zo te zeggen onvermijdelijk; het te willen overslaan is
weinig realistisch. '

4. De vraag die is blijven liggen (ook in hoofdstuk 1) is, waarom uit het empirisch intelligentie-begrip
geen bijpassend theoretisch begrip is voortgekomen.

5. Ik konstateer dat Vroon het met mij eens is over het mogelijke nut van het IQ bij school- en be-
roepskeuze en daarmee zijn door mij geciteerde uitspraak op p. 80 kennelijk terugneemt. Over het an-
dere voorbeeld dit: ik zou niet willen beweren dat een testskore de oorzaak van leermoeilijkheden aan-
wijst, wel dat het bij het zoeken naar oorzaken uitmaakt of de pp. een IQ van 60 of 140 heeft.

6. Bij herlezing blijkt dat ik het voorbeeld van de 'naaldeninspekteur' verkeerd heb opgevat. Ik stel
vast, dat doorhaling van de betreffende bijzin, de strekking van mijn kritiek onverlet laat.

7. Ik heb gesteld dat pogingen tot theorievorming genegeerd öf gediskwalificeerd worden. Eenmaal
sprekend over de wijze waarop hij de theorievorming ten aanzien van omgeving behandelt, kan Vroon
beter zijn zinnen afmaken. Ik citeer: 'Een en ander werd met het IQ gekorreleerd bij 26.751 kinderen,
keurig verdeeld in blank en zwart, jongens en meisjes. De gekombineerde 65 (omgevings)variabelen ble-
ken 20 pet variantie van het IQ voor hun rekening te nemen, waarbij de auteurs bezorgd konkluderen
dat hersenbeschadiging en intelligentie iets met elkaar te maken hebben, maar dat dit niet geldt voor
negermeisjes. Ontevredenheid met de resultaten leidde ertoe dat men het nog eens over deed met 169
variabelen en 26.760 kinderen. In hun angst om iets te vergeten voegden zij toe de lengte van de men-
struatiecyclus, de bloedgroep, het aantal pogingen dat in het werk was gesteld om zwanger te worden

koorts tijdens de zwangerschap, ... Het resultaat bracht nauwelijks meer aan het licht. Toch biedt
eze benadering perspektieven. Wat belet ons immers om met behulp van werkloze psychologen een
®nktank op te trekken die duizend van dergelijke variabelen bedenkt, getoetst op een miljoen kinde-
De computers zijn groot en snel genoeg. Als dan de luchtdruk van belang lijkt, kan men de moe-
^er^tijd nog tijdig opdragen deze te veranderen, (p. 150).'

■ t-en Van de punten waarop de analogie-redenering wordt bestreden is het niet normaal verdeeld zijn
^ het IQ. 'De essentie is in ieder geval dat een aantal ingrepen van de testconstructeur nodig is om de
^ ®"ng van intelligentie aan de normale verdeling te laten gehoorzamen. Dit is belangrijk voor het
^ervolg, want sommige theorieën over de herkomst van verschillen tussen mensen zeggen dat intelligen-
'e en de verdeling daarvan evenals lengte een fact of nature is, waaruit de nodige conclusies getrokken
orden. Het gaat echter wel wat ver om het rijke gedachtenleven van de psycholoog een natuurlijk feit
noemen, (p. 66)'. Als men bedenkt, zoals ik schreef, dat er nauwelijks ingrepen te bedenken zijn die
j een paar voorwaarden) tot een duidelijk niet-normale verdeling zouden leiden, dan wordt de

^eü^ering op dit punt sofistisch, ook al noemt Vroon dat niet zelf zo.
• Hoever Vroon van de aanleggers en omgevingsgezinden verwijderd is kan hij natuurlijk het beste
jj . aangeven. Ik heb mijn indruk als lezer weergegeven, gebaseerd op het aantal woorden dat aan
®ide wordt gewijd en op de toonzetting.

Achteraf geloof ik, dat de belangrijkste vraag is, wat te verstaan onder Intelligentie' en "psychome-
Kh'. Vroon kiest, zonder de lezer via definities te waarschuwen, voor een nogal enge betekenis van
eide (Over intelligentie heb ik het gehad. Als Vroon het - zie zijn punt 2 - over de psychometrische
jaditie heeft, waar moet dan de grens liggen? Waarom vallen — zie zijn punt 9 — Atkinson, CarroU, Els-
j?"' e.a. erbuiten?). Die keuze voor een beperking van het onderwerp is op zichzelf aanvaardbaar,
äar het is op zijn minst onzorgvuldig de indruk te wekken dat het met intelligentie en tests 'foute

e Groot, A.H. Methodologie. Den Haag, Mouton, 1961.
'Kaplan, A. The conduct of inquiry. San Francisco, Chandler, 1964.

^het maart-nummer van dit tijdschrift (1980, p. 94 en 95) geeft Dr. J.M.F. ten Berge een bespreking
mijn boek Algemene Psychodiagnostiek II: Testtheorie. Amsterdam 1978. Na een opsomming die
tot" ^^ errata kan noemen, wordt opgemerkt dat de recensent zich grotendeels heeft beperkt

uitspraken waarover de lezer ook zonder het boek erbij te hebben zich een oordeel kan vormen,
b u .''f'^gelijke opvatting verplicht tot een zorgvuldige weergave van de inhoud en de bedoeling van de
g..'j*'seerde passages. Hierover valt bij enkele punten wel wat op te merken. Dit wordt hieronder toe-
dat h waarbij we, evenals de beoordelaar, de desbetreffende bladzijden van het boek vermelden, zo-
In ri S®Interesseerde lezer het opgemerkte op beide plaatsen kan controleren.
2 kritiek betreffende de gelijkstelling op p. 544 (3e regel v. onderen) wordt het eerste lid daarvan,
jjg'?®^ punt, weggelaten. Maar daarop komt het hier juist aan. Door die weglating kan in de kritiek ge-
oorbij worden gegaan aan het feit, dat er in dezelfde zin tevoren is verwezen naar een eerder (p.
gemaakte afspraak aangaande een technische vereenvoudiging van de notatie. Zo komt er in de
^ "ek een zinloze uitdrukking tot stand die niets heeft te maken met hetgeen er in de tekst staat. Is
^.en het niet eens met de notatie-wijze (is-gelijk-teken), dan dient men daarop de kritiek te richten;
en volledige tekstweergave. De gegeven kritiek doet door willekeurige weglating de inhoud

oedoeUng van de tekst geweld aan.
en summier weergegeven kritiek betreffende de covarianties op p. 532, met verwijzing naar p. 604
o05, moet wel de gedachte wekken dat er op de twee laatst genoemde bladzijden een fout is ge-
bakt. In de eerste plaats kan erop worden gewezen dat de definitie van covariantie reeds is gegeven
Pp. 129 (formule 2.3.17). Vervolgens kan worden opgemerkt dat de kritiek niet vermeldt dat het op

p. 604 en 605 gaat om een tweetal rekenvoorbeelden in het matrixalgebrai'sche hoofdstuk en wel be-
treffende de bruto covariantie (raw covariance; Horst, 1966, p. 88), hetgeen blijkt uit de titel van sub-
paragraaf 3 en de formule (8.4.7), waarbij in beide gevallen de indexering van C (covariantie) met de
hoofdletters X en Y is gegeven. Dit ter onderscheiding van het tweede rekenvoorbeeld, waarbij in over-
eenstemming met p. 129 de indexering in kleine letters x en y is gegeven. De bruto covariantie is niet
hetzelfde als de covariantie der bruto scores (p. 532). Dat de bruto covariantie geen handige en daarom
geen gebruikelijke maat is, doet niet ter zake, want het gaat ter plaatse slechts om het geven van een
rekenvoorbeeld met bruto scores. Er is geen fout gemaakt, noch is er begripsverwarring. Tenslotte, en
wellicht ten overvloede, op p. 532 gaat het niet over drie 'soorten' covarianties, zoals de kritiek aan-
neemt, maar over twee, hetgeen blijkt uit de interpunctie (bijstellende zin tussen komma's) en uit de
voorafgaande definiëring op p. 129, welke dat impliceert.

Wat betreft de aanmerking over het dubbel-standaardiseren in verband met de Q-techniek (p. 517), kan
worden opgemerkt dat het hier gaat om een benaderingsprocedure. Doordat de kritiek het zinsgedeel-
te '... uiteraard in twee Z-matrices' (p. 517, zelfde zin) geheel negeert, kan worden gesuggereerd dat de
auteur een praktische onmogelijkheid debiteert, namelijk een exacte procedure. Rummel (1970, p.
291) schrijft: 'Doubly standardizing a matrix is an iterative process'. En wel a.h.w. heen en weer gaan-
de tussen twee Z-matrices, daar de standaardisering van de rijen die der kolommen telkens verstoort
en omgekeerd. Zie ook Cattell (1966, p. 118 en 228). Had de kritiek geluid dat, aangezien de auteur
op dit zeer speciale geval blijkbaar niet nader wilde ingaan,hier een literatuurverwijzing op zijn plaats
was geweest, dan was dat acceptabel; nu is de tekst door onvolledige weergave ervan onrecht aange-
daan.

De kritiek aangaande p. 324 ontkent de mogelijkheid de attenuatiecorrectie toe te passen bij de bepa-
ling van de theoretisch maximale betrouwbaarheid van tests, zoals de tekst beweert. Deze mogelijk-
heid berust op het feit dat volkomen parallellie in de praktijk niet voorkomt (p. 168). Paralleltests
hebben daardoor in de praktijk, afzonderlijk genomen, ongelijke betrouwbaarheden. Dit doet zich,
kort weergegeven, voor als men van twee paralleltests de hertestcoëfficiënten kent en hun intercorrela-
tie (of als men vier paralleltests in twee paren verdeelt, enz.). Door toepassing van de formule der at-
tenuatiecorrectie met de hertest- (of de desbetreffende paralleltest-) coëfficiënten in de noemer, ver-
krijgt men de benadering van de bovengrensschatting, welke laatste berust op de correlatie tussen geob-
serveerde scores. In de tekst wordt er nog op gewezen dat men deze (theoretische) betrouwbaarheids-
coefficiënt niet mag opgeven als de betrouwbaarheid van een test (p. 324).

Op p. 219ff zou het begrip verwachte waarde als een ander woord voor gemiddelde en niet als een an-
der begrip worden gebruikt. Hierbij valt op te merken dat het begrip verwachte waarde reeds op p. 212
is gedefinieerd en tot het begrip gemiddelde in relatie gesteld. Op p. 219 gaat het in feite om discrete
stochastische (test)viariabelen.

Volgens de kritiek zou er zijn beweerd dat systematische fouten die niet voor alle onderzochten gelijk
zijn, geen invloed op de testbetrouwbaarheid hebben (p. 155). In feite staat er: 'Het doet daarbij niet
ter zake of deze invloed voor alle onderzochten gelijk is (de één heeft meer last van koude dan de an-
der), maar wel of deze invloed voor één en dezelfde onderzochte gelijk blijft voor de duur en de tijd-
stippen van het testbetrouwbaarheidsonderzoek.' De kritiek negeert deze uitdrukkelijke beperking tot
een individueel-typische constante. Als gevolg van die constantie verkrijgt men bij testherhalingen in
een personensteekproef dezelfde ware testvarianties, zodat de intra-individuele verschillen tussen de
bruto scores der (parallelle) testherhalingen voor rekenmg van de toevalsfouten komen. De ware va-
riantie heeft in dit geval aJi.w. twee componenten. Zie de modellen die zijn besproken op p. 224,
Ook daar, waar de aanmerking terecht is, zijn de bewoordingen of is de teneur van de kritiek in enkele
gevallen zó, dat men een inadequate indruk van de tekst krijgt. Zo is de conclusie in de kririek (p. 608)
betreffende de identiteit van de begrippen basis en onafhankelijk lineair stelsel formeel juist. Deze
identiteit is echter niet in de tekst bedoeld. Gaat men na op grond waarvan deze conclusie getrokken
kan worden, dan blijkt dat in de tekst (blijkbaar ten onrechte) is aangenomen dat elke lezer het gege-
ven voorbeeld betreffende het lineair onafhankelijke stelsel (a, b, c) zal opvatten als alleen betrekking
hebbend op het 3-dimensionele geval. De kritiek suggereert a.h.w. een ernstiger fout.
Het is usance in besprekingen om fouten te relativeren als zij, gezien de overige tekst, als 'slip of the
pen' kunnen woorden beschouwd. (De kritiek kent deze term ook, maar gebruikt die in negatieve zin).
Dit geldt voor de kritiek op p. 220 (dichtheidsfunctie) en voor p. 552 (eigenwaarde in tabel 7.3.7.).
Beide begrippen zijn duidelijk in het boek gedefinieerd; resp. op p. 207 en p. 600. De lezer moet uit de
kritiek echter wel concluderen dat er een ernstige definitorische fout is gemaakt. Door de bewoordin-
gen van de kritiek ontstaat er a.h.w. een fouten-inflatie. Zo ook voor p. 497, waar geen bewijs wordt

geleverd, zoals in de kritiek staat, maar waar slechts de invariantie der communaliteiten per illustratie
m^ wordt aangetoond. Men mag zo'n illustratieve verklaring onvoldoende vinden, maar men

We? ri "og een algemene opmerking. De beoordeling is volgens het kopje een boekbespreking. Hoe-
ho ë®®n standaards zijn, heeft de lezer recht op een meer afgewogen overzicht van de in-

"Q, dan hier is geboden. Ook in dit opzicht lijkt de tekst onvoldoende recht gedaan.

Ri.m'' ^-^^chological measurement and prediction. Belmont, Calif., 1966.
Applied factor armly sis. Evanston, 1970.

''ostaeademische Cursus: Actuele ontwikkelingen in Onderwijsbestel en Onderwijsbeleid

^^^ Faculteit der Sociale Wetenschappen van de Erasmusuniversiteit te Rotterdam organiseert in het
^ijsber j'^" 1981 een postacademische cursus 'Actuele ontwikkelmgen in onderwijsbestel en onder-

De omvat zes bijeenkomsten in de namiddag en vooravond,
j- ^rsus is bedoeld voor degenen, die in hun werk met dit thema bezig zijn.
/JP'?"jving tot uiterlijk 15 februari 1980.

fc" eerste aanzet voor een meerjarenplan. Arnhem: CITO, september 1980.
epsopJeiding. Informatiebulletin van het Europees Centrum voor de Ontwikkeling van de Be-
B^J^^Psopleiding, nr. 3, 1980 (Opleiding, werkgelegenheid en regionale ontwikkeling).

nman, C. & Zwarts, J. (red.). Tekstbestudering, Bijdragen tot de Onderwijsresearchdagen 1980,
Can, "r'^^^nhage: Staatsuitgeverij, 1980 (= SVO-reeks no. 35).
Qjjg' B- Leren en onderwijzen met de computer. Leiden: Stenfert Kroese, 1980.

Moderne vreemde talen uit balans. Een onderzoek naar behoeften aan moderne
alen in relatie tot het vreemde-talen onderwijs. 's-<3ravenhage: Staatsuitgeverij, 1980 (= SVO-
j,. reeks, no. 38).

• L.H.F.J. van. Prestatiemotivatie en geslachtsgebonden verschillen in het onderwijs. Nijmegen:
voor Onderwijskunde, K.U. Nijmegen, 1980 (= Interne mededelingen, nr. 4).
^^^nd Berufsbildung. Auswahlbibliographie. Berlin: Europäisches Zentrum für die Förderung
GroQ' ®®fufsbildung, 1980.

jg^^-D. de & Traas, J.C. Onderwijs van binnen en van buiten. Deventer: Van Loghum Slaterus,

over 1979 van de Onderzoeksgroep I & E (Instrumentenconstructie en Evaluatie-onder-
Stichting Research Instituut voor de Toegepaste Psychologie aan de Universiteit van Amster-
de ^ oktober 1980.

„ ok-Damave, M. (red.). De Curvo-strategie: Handboek voor leergangontwikkeling. 's-Gravenhage:

Samenwijs. Informatieblad opleiding, onderwijs en vorming minderheden, Ie jaargang, nr. 1, juni
1980 (Uitgave van de Stichting Activering Minderheden Educatie Nederland 'Samen', Rotterdam)
Stroomberg, H.P. (red.). Volwassenen-educatie: Problemen en perspectieven. Bijdragen tot de Onder

wijsresearchdagen 1980. 's-Gravenhage: Staatsuitgeverij, 1980 (= SVO-reeks no. 33).
Toetsen voor het basisonderwijs. Informatieblad voor leerkrachten. Arnhem: CITO, september 1980
Veenman, S.A.M. & Kok, J.J.M. (red.). Opleiding van onderwijsgevenden. Bijdragen tot de Onderwijs

researchdagen 1980, 's-Gravenhage: Staatsuitgeverij, 1980 (= SVO-reeks, no. 34).
Voort, T.H.A. van der (red.). Afstandsonderwijs. Bijdragen tot de onderwijsresearchdagen 1980

's-Gravenhage: Staatsuitgeverij, 1980 (= SVO-reeks, no. 36).
Wolters, B.J.M. Studies over creativiteit. In het bijzonder over het creatieve denkproces. 's-Gravenhage
Staatsuitgeverij, 1980 (= SVO-reeks, no. 37).

Ter bevordering van onderwijs en onderzoek op het terrein van de didactiek van het moedertaalonder-
wijs is de in de titel genoemde vereniging opgericht. De vereniging wil trachten haar doel te bereiken
door het bijeenroepen van algemene vergaderingen, het formeren van ad hoe commissies, het instellen
van werkgroepen, het organiseren van studiedagen en -conferenties en vertegenwoordiging in lichamen
waarin de belangen van de moedertaaldidactiek behartigd moeten/kunnen worden. Leden van deze
vereniging kunnen zij zijn die krachtens hun aanstelling op dit terrein werkzaam zijn, alsmede zij die
daarvoor door de aard van hun werkzaamheden in aanmerking komen. De voorzitter van het bestuur
is J.3. Sturm; secretaris: Dr. J. Griffioen, Middelstumerweg 5, 9959 TC Onderdendam, 05900-92 91.
Nadere inlichtingen kunnen bij het secretariaat ingewonnen worden.

Een overzicht van de belangrijkste bibliografische publicaties en databases op het gebied van onder-
wijsonderzoek en aanverwante terreinen in de sociale wetenschappen in 53 landen. Ingedeeld in 3
hoofdstukken:

bevat registers van onderwijsonderzoek, registers van sociaal-wetenschappelijk onderzoek, registers
van proefschriften/dissertaties, referaat- en indextijdschriften/bibliografïeën, adresboeken van do-
cumentatie- en onderzoeksinstellingen.

een overzicht van de geraadpleegde literatuur
Een nuttig instrument voor onderwijsonderzoekers, bibliotheken en documentatieinstellingen.
Verkrijgbaar door ƒ 10,- over te maken op giro 2903827, t.n.v. SVO, Afdeling Documentatie, Postbus
1950, 2500 CB DEN HAAG, onder vermelding van: 'Directory of Educational Research Information
Sources'.

De onlangs onverwacht en te vroeg overleden Cor Vervoort, mag zonder twijfel als de
grondlegger van de onderwijssociologie in Nederland worden beschouwd, zoals Leune nog
slechts enkele weken geleden terecht in zijn oratie stelde. Vervoort vervulde als eerste een
onderwijsopdracht in de sociologie van onderwijs en opvoeding, nl. sinds 1963 in Leiden.
Hij was bovendien tot voor kort de enige hoogleraar onderwijssociologie in ons land.
Maar vooral heeft hij door zijn publicaties, zijn onderzoek en zijn onderwijs en door tal-
loze activiteiten als adviseur bij projecten, als redacteur van wetenschappelijke tijdschrif-
ten en bestuurslid van vele sociaal-wetenschappelijke organisaties, de sociologische bena-
dering van het onderwijs in hoge mate gesthnuleerd en bevorderd.
Hij was dan ook bij uitstek de man die in staat was al in 1969 de historie, de achtergrond
en de ontwikkelingsperspectieven te schetsen van de onderwijssociologie in ons land, in
zijn nog steeds zeer lezenswaardige artikel in de Sociologische Gids: 'Signalement en sig-
natuur van de Nederlandse onderwijssociologie'.

Dat signalement en die signatuur had hij immers voor een belangrijk deel zelf bepaald;
onder andere doorzijn onderzoek en zijn publicaties op het terrein van het studentenleven
en de universitaire wereld en door zijn wetenschappelijke belangstelling voor de problema-
tiek van de verhouding tussen onderwijs en soci^e ongelijkheid, zoals die met name in
^ijn rol m.b.t. het z.g. Talentenproject, in zijn proefschrift 'Gezin en schoolkeuze bij
handarbeiders (1968)' en in zijn boek Onderwijs en Maatschappij (1977) tot uitdrukking
komt.

Vervoort had niet alleen aandacht voor de theorie en de theorie-ontwikkeling op zijn vak-
Sebied, maar hield zich ook nadrukkelijk bezig met de beleidsconsequenties van zijn
Wetenschappelijke activiteiten, zoals b.v. blijkt uit artikelen als 'Heroriëntatie in de stu-
dentenwereld' in Socialisme en Democratie (1965), 'Participatie in het onderwijs' in
Gelijkheid en Ongelijkheid in Nederland (1975) en 'Dilemma's van een progressief onder-
wijsbeleid' in Jeugd en Samenleving (1977) en met in het minst uit zijn oratie getiteld
Een geur van hoger honing', gehouden in 1975 bij de aanvaarding van het ambt van
gewoon hoogleraar in de empirische sociologie te Leiden, die expliciet handelt over de
tnaatschappeUjke betekenis van sociologie en sociaal onderzoek.

Vervoort was bovendien een overtuigd empiricus. Weliswaar en wellicht als geen ander
niet oog voor de beperkingen van het empirisch sociaal onderzoek, voor de noodzaak om
het binnen en vanuit een theoretisch kader te verrichten teneinde de feiten zinvol te kun-
nen interpreteren en met oog voor het misbruik dat soms van dergelijk onderzoek kan
Worden gemaakt, maar daarom niet minder overtuigd van de noodzaak om de feiten op
systematische wijze te leren kennen en te ordenen.

Dat blijkt duidelijk uit zijn eerder vermelde oratie en uit vele van zijn publicaties, maar
het blijkt vooral ook uit zijn concrete betrokkenheid bij het onderzoek zelf reeds vanaf de
^yftiger jaren.

^ vrij kort na zijn afstuderen in 1956 verrichtte Vervoort in opdracht van de Stichting
^to Civitate te Leiden een onderzoek onder de Leidse studenten, dat in 1960 werd afge-
goten en gepubliceerd m een rapport getiteld: 'Het nihilisme onder de Leidse studenten'.
Daarna was hij van 1962 tot 1967 belast met de dagelijkse leiding van het zeer omvang-

rijke en multi-disciplinaire onderzoek, dat bekend staat als het Talentenproject, waarvan
hij verschillende deelstudies zelf schreef en een belangrijk aandeel had in het eindrapport
dat als een boek getiteld 'Het verborgen Talent', onder de eindredactie van Prof. van Heek
in 1968 verscheen.

Ook zijn proefschrift, 'Gezin en schoolkeuze bij handarbeiders' is op dit onderzoek geba-
seerd en gaf een voor Nederland indringende en uitvoerige analyse van de sociale ongelijk-
heid in de schoolkeuze bij de overgang van het lager naar het voortgezet onderwijs.
Door deze nauwe betrokkenheid gedurende ruim 10 jaar bij het sociaal onderzoek op het
terrein van het onderwijs was hij zeer vertrouwd met de mogelijkheden en de beperkingen
van het onderzoek voor de theorievorming en het beleid en met het werken in inter- of
multidisciplinair verband.

Die, helaas niet zo veel voorkomende ervaring en deskundigheid heeft hij in de zeventiger
jaren vooral uitgedragen en verdiept in zijn onderwijs, in zijn vele artikelen en publicaties
en in zijn betrokkenheid als adviseur bij verschillende grote onderwijsresearchprojecten.
Zo herinner ik mij, naast onze vele andere contacten, nauw met Cor Vervoort te hebben
samengewerkt bij de opzet en de eerste uitwerking van het onderzoek 'Van jaar tot jaar'
dat door het ITS is en wordt verricht en waarvan inmiddels reeds vele rapportafleveringen
zijn verschenen.

Cor Vervoort was dan de rustige gedegen begeleider, die de onderzoekers veel vrijheid liet,
maar hen wel confronteerde met zijn inzichten en suggesties en met zijn gevoel voor rela-
tiviteit.

Cor Vervoort was ook hier, zoals in de vele posities die hij in de sociaal-wetenschappelijke
wereld heeft bekleed, niet alleen de wetenschapper, de adviseur, de auteur of de hoo^e-
raar. Hij was voor mij en voor velen ook een collega en een vriend, die ondanks zijn grote
kennis en ervaring en intellectuele gaven altijd bereid was om samen te werken en mee te
denken, zonder een spoor van vooringenomenheid of behoefte aan competitie.
Cor Vervoort is te vroeg uit ons midden verdwenen. Te vroeg omdat hij nog zoveel had
kunnen betekenen voor de onderwijssociologie, de onderwijskunde en het onderwijsbeleid.
Te vroeg ook omdat we zijn rustige degelijkheid en zijn sympathieke persoonlijkheid zul-
len missen.

Moge zijn vrouw en zijn dochter troost putten uit onze dankbaarheid voor het zeer vele
dat Cor Vervoort tijdens zijn leven heeft betekend voor de mensen om hem heen, voor de
sociologie en voor het onderwijs in dit land.

Dutch pupils in their first year of secondary education from three successive schoolyears were
classified on the following variables: type of secondary education, testscores obtained on a well
known achievement test while still in primary school, advice concerning the most suitable type
of secondary education provided by the primary school, and sex. This resulted in three four-
way contingency tables which were analysed using various loglinear models. The sex variable
proved to affect all other variables though not very strongly. Sex differences on the test scores
were most pronounced in the 1979 group, and in an obvious direction. Differences in advice
and admission were largest in the 1978 group. Sex differences on the test were paralleled by
differences in schoolgrades obtained in primary school: girls received higher grades in language
subjects while boys were better in arithmetic.

Further analysis of the three way tables obtained by collapsing over the sex variable indicated
the strong association between respectivily test scores and admission and advice and admission
to secondary school.

Jaarlijks verlaten naar schatting een kwart miljoen zesde klassers het lager onderwijs om
hun schoolloopbaan voort te zetten in een school voor voortgezet onderwijs. Dit breek-
punt in het Nederlandse onderwijssysteem is om verschiöende redenen belangrijk en in-
teressant. Voor de meeste leerlingen geldt, dat ze een keuze moeten maken die hun ver-
dere school - en beroepscarrière in belangrijke mate vastlegt. Sommige leerlingen kunnen
ueze keuze nog wat uitsteUen door naar een scholengemeenschap te gaan met een hetero-
gene brugklas, maar vele leerlingen komen terecht in een categorale school voor voort-
gezet onderwijs. Kiest een kind voor een categorale school, dan is doorstroming naar
®ndere schooltypen daarmee natuurlijk niet onmogelijk maar wel problematisch gewor-
den. Bij de overgang van lager naar voortgezet onderwijs zijn verschillende categorieën
Van betrokkenen te onderscheiden, de leerling en zijn ouders, het hoofd van de lagere
School en de toelatingscommissie van de voortgezet onderwijs (v.o.) school. Hoe de fei-
telijke toelating tot het v.o. in zijn werk gaat is niet bekend. Van een vaststaande van
^hool tot school uniforme procedure is géén sprake.

I^oelatingscommissies van v.o. scholen kunnen en zullen een eigen beleid voeren bij de
toelating.

1 ®uteur is dank verschuldigd aan dr C. Lewis voor het kritisch doorlezen van het manuscript.
Sinds 1 april 1979 Instituut voor Onderwijskunde, R.U. Groningen, Westerhaven 16, 9718 AW
Groningen.

In het onderstaande wordt nagegaan wat de relatie is van de variabele sekse, met twee
criteria voor schoolgeschiktheid die vermoedelijk een belangrijke rol spelen bij de toe-
lating, t.w. het advies van het hoofd van de lagere school en de toetsresuhaten. Voorts
zullen we kijken naar sekse verschillen op het gebied van schoolcijfers behaald aan het
eind van de 6e klas van de lagere school. Dit zal gebeuren aan de hand van secundaire
analyses op materiaal dat werd verzameld voor een ander doel, te weten de bestudering
van de voorspellende waarde van de Eindtoets Basisonderwijs.

De in dit onderzoek gebruikte gegevens zijn afkomstig uit een onderzoek dat primair
was opgezet ten behoeve van de bestudering van de predictieve validiteit van de Eind-
toetsen Basisonderwijs van het CITO. De gegevens betreffen drie 'jaargangen' zesde
klassers die in Breda tot een school voor v.o. werden toegelaten. Deze drie groepen
zijn onderling niet volledig vergelijkbaar. De eerste groep (de 1977-jaargang) bestond
uit leeriingen die afkomstig waren van lagere scholen uit Breda, de tweede en derde
groep bestonden uit alle leerlingen die tot het v.o. te Breda waren toegelaten, dus ook
die leerlingen die op een lagere school uit een andere gemeente hadden gezeten. Behalve
wat de samenstelling betreft waren er ook verschillen in de dataverzamelingsprocedure.
Bij de 1977-jaargang werden de schoolgeschiktheidsadviezen en beoordelingen van de la-
gere schoolprestaties rechtstreeks bij het hoofd van de lagere school opgevraagd. Bij de
1978 en 1979 jaargangen werden deze gegevens via de administraties van de opnemende
v.o. scholen verkregen.

Om tot een school voor mavo, havo of vwo te kunnen worden toegelaten, moet een
leerling twee gegevens kunnen overleggen, t.w. een advies over de schoolgeschiktheid
van het hoofd van de afleverende lagere school en het resultaat van een 'onderzoek'
naar de schoolgeschiktheid. Dit onderzoek kan bestaan uit een psychologisch onder-
zoek, een schoolvorderingentest, een proefklas of een toelatingsexamen. Voor toe-
lating tot het lager beroepsonderwijs is het advies van het hoofd der school voldoende.
Deze gegevens worden door de lagere school aan de school voor voortgezet onderwijs
waar de leerling zich heeft aangemeld, doorgegeven tesamen met nog andere gegevens
zoals beoordehngen op het gebied van de schoolvorderingen, gezondheid enz.
In Breda wordt in de behoeft aan een 'tweede middel' voorzien door de Eindtoets Basis-
onderwijs van het CITO. Deze wordt afgenomen aan alle leerlingen uit de 6e klas van de
lagere school, dus ook aan toekomstige lbo-leerlingen. Het advies is onafhankeUjk van de
toets in die zin, dat het moet worden uitgebracht alvorens de toetsuitslagen bekend zijn.
Deze gang van zaken wijkt af van de procedure in sommige andere Eindtoetsregio's, waar
de toetsresuhaten wèl worden gebruikt bij het formuleren van het advies. Beide gegevens
spelen een rol bij de toelating tot het voortgezet onderwijs. Soms worden ook nog andere
gegevens zoals de uitkomsten van een psychologisch onderzoek bij de beslissing betrok-
ken. Hoe al deze gegevens worden 'gewogen' en hoe de beslissingen tot stand komen is
een zaak die de school zelf uitmaakt en hierover is weinig bekend.

de advisering wordt in Breda gebruik gemaakt van een zeer gedetailleerd categorieën
^steem. Niet alleen kan er uit elf schooltypen worden gekozen, maar er is ook nog ruün-
te voor vier gradaties van (on)zekerheid. Bij het opvragen van gegevens voor het onder-
zoek werd door ons verzocht om aan te geven voor welk schooltype de leerling het meest
Seschikt werd geacht door het hoofd van de lagere school.

In tabel I is een overzicht opgenomen van de schoolgeschiktheidsadviezen. Hier zijn de elf
fategorieën tot vier categorieën teruggebracht, door alle adviezen zoals ihno, Ihno, Ito etc.
in één categorie: lbo Oager beroeps onderwijs), samen te brengen.
Zoals al eerder opgemerkt zijn de drie jaargroepen niet geheel vergelijkbaar omdat in 1977
een andere procedure werd gevolgd dan in 1978 en 1979 voor het verkrijgen van o.a. de
adviezen. Dit zou een plausibele verklaring kunnen zijn voor het relatief hoge percentage
vwo (voorbereidend wetenschappelijk onderwijs) adviezen in 1977 vergeleken met 1978
®n 1979. Al kan het natuurlijk ook zijn dat het verschil voortvloeit uit de samenstelling
van de groepen; in 1977 ontbraken leerlingen uit de randgemeenten. Het sekse verschil is

in 1977 niet significant, maar in 1978 en 1979 wel. De tendens is alle drie de jaren in
dezelfde richting. Jongens krijgen relatief wat vaker lbo adviezen dan meisjes. Hetzelfde
geldt voor vwo adviezen. Bij havo (hoger algemeen vormend onderwijs) en mavo (mid-
delbaar algemeen vormend onderwijs) ligt het andersom, tenminste in 1978 en 1979. In
tabel 2 en 3 vinden we een overzicht van de schoolvorderingen in het gewoon lager onder-
wijs (g.1.0.) van de leerlingen in termen van toetsscores en van beoordeÜngen van het
hoofd der school op het gebied van Nederlandse taal en rekenen. Bij de toets onderschei-
den we drie schalen: totaal taal, rekenen en totaal taal + rekenen.

De sekse verschillen zijn afhankelijk van toetsonderdeel zowel als jaarversie. Jongens
presteren beter op het rekengedeelte van de toets dan meisjes. Bij taal is het andersom. Bij
de scores voor totaal taal + rekenen is er nog slechts een klein verschil, ten gunste van de
jongens in 1977 en 1979. Opvallend is dat de toets een heel duidelijk 'plafond' heeft. De
schaal loopt weUswaar van 501 tot 550, maar alle gemiddelden liggen dicht bij 540 en
scores onder de 510 komen alleen bij uitzondering voor.

In tabel 3 zijn de beoordelingen opgenomen die door het hoofd der school van de lagere
school werden gegeven op het gebied van Nederlandse taal en rekenen. Aangezien de ge-
gevens over 1978 en 1979 tameUjk incompleet waren zijn alleen die van 1977 vermeld.
Opvallend is allereerst de parallel met de Euidtoets Basisonderwijs: over het algemeen
zijn meisjes naar de mening van de lagere school onderwijzers beter in taal dan jongens
en jongens beter in rekenen dan meisjes. De grootste verschillen vinden we bij spelling
en hoofdrekenen. Bij cijferen vinden we geen verschil.

Tabel 4 bevat gegevens over de toelatmg uitgesplitst naar sekse. Er werden vier toelathigs-
categorieën onderscheiden. De eerste, lbo, omvat scholen voor lager technisch onderwijs,
lager huishoud en nijverheidsonderwijs, lager land- en tumbouwonderwijs en lager econo-
misch en administratief onderwijs. Sommige van deze scholen zijn coëducatief, andere
niet. Deze categorie is, vergeleken met de andere drie, erg heterogeen. De tweede cate-
gorie bestaat uit categorale mavo-scholen, de derde (in de tabellen 4 en 5 aangeduid als
mJi.v.) en de vierde bestaan uit scholengemeenschappen respectievelijk met en zonder

een mavo-element. De enige school voor categoraal vwo onderwijs is bij de laatste cate-
gorie ingedeeld. Ook hier treffen we weer (kleine) verschillen aan in de distributie van de
leerlingen over de schooltypen naar sekse. Het meest opvallend is de oververtegenwoor-
<liging van meisjes in het mavo en van jongens in het lbo.

de onderlinge samenhang tussen advies, toetsprestatie, plaatsing en sekse te kunnen
nagaan, werden drie vierdimensionale kruistabellen geconstrueerd. Bij de variabelen
toelating, sekse en advies werden dezelfde categorieën aangehouden als in paragraaf drie.
De variabele 'toetsprestaties' werd gerepresenteerd door de standaardscores van het toets-
onderdeel totaal taal + rekenen. We onderscheiden hier vier niveau's: 'laag' (scores van
501 t/m 535), 'gemiddeld' (536 t/m 540), 'hoog' (541 t/m 545) en 'zeer hoog' (546 t/m
550). Deze indeling is uiteraard arbitrair en voornamelijk ingegeven door de neiging om
de leeriingen enigszins gelijkelijk over de categoriën te spreiden. In navolging van de door
Hoogstraten en Mellenbergh (1978) gebruikte notatie benoemen wij deze tabellen als
T 1234.

Tl 234 bevat alle uit het onderzoek verkregen informatie, voor zover het de nu als no-
"linaal opgevatte variabelen toelating, sekse, toetsresultaat en schoolgeschiktheidsadvies
betreft. Door samen te klappen over één of meer van de variabelen ontstaan uit Tl234
nieuwe tabellen die weliswaar minder informatie bevatten dan de oorspronkelijke tabel,
niaar wel eenvoudiger zijn te interpreteren. In feite hebben we al iets dergelijks gedaan in
de vorige paragraaf. Door bijvoorbeeld samen te klappen over toelating en toetsresultaat
ontstaat T34, de tabel die de relatie weergeeft tussen sekse en advies. Door nogmaals sa-
jnen te klappen over advies ontstaat 14.

Bij analyse van Tl234 met het loglineaire model stelt men zich als het ware de vraag met
^elke samengeklapte tabellen er nog voldoende informatie aanwezig is om de geobserveer-
de frequenties in de cellen van T1234 op adequate wijze te kunnen reproduceren. De ana-
lyse werd begonnen met model I, dat wil zeggen met de combinatie van Tl23 die geen in-
formatie bevat over sekse en T4, die de verhouding tussen de seksen in de totale steek-

Leerlingen uit drie achtereenvolgende schooljaren gecategoriseerd naar sekse, toetsresultaten, school-
geschiktheidsadviezen en school van toelating.

proef weergeeft. Tabel 5 bevat de geobserveerde frequenties van Tl234 en de op grond
van model I geschatte frequenties (de getallen tussen haakjes).

Toetsing van de passing van de verschillende modellen vindt plaats door het berekenen
van de aannemelijkheidsratio G^ die onder de model aannamen asymptotisch chi-kwa-
draat verdeeld is. Is de rechteroverschrijdingskans groot, dan kan men het model aanvaar-
den als een goede beschrijving van de gegevens. De berekeningen werden uitgevoerd met
behulp van het programma BMDP3F. Vanwege de aanwezigheid van nullen in de marginalen
werden alle frequenties in de cellen van de oorspronkelijke tabel met 0.5 opgehoogd.

Leerlingen uit drie achtereenvolgende schooljaren gecategoriseerd naai sekse, toetsresultaten, school-
êeschiktheidsadviezen en school van toelating.

Om chi-kwadraten voor verschillende jaren te kunnen vergelijken moeten we rekenmg
houden met de verschillen in steekproefgrootte, aangezien bij het fitten van een model
dat niet het ware model is de chi-kwadraatwaarden stagen bij toenemende steekproef-
grootte. Als we naar de 'overall' passmg kijken, dan blijkt uit tabel 6 dat model I al een
redelijke passing oplevert. In de 1977 groep is de passing misschien zelfs wat al te goed ge-
zien het feit dat G^ lager uitvalt dan de met het model geassocieerde aantal vrijheidsgra-
den. De redelijke 'fit' van model I blijkt ook als we de m tabel 5, opgenomen geschatte fre-
quenties vergelijken met de feiteUjk geobserveerde frequenties.

In de 1977 groep leidt toevoeging van de twee-factor term sekse-toets echter nog wel tot
een verbetering maar deze is niet significant op 5 procents-niveau. Het verschil in G^
van model I en model III bedraagt 7.77 (met df = 3 is de rechter overschrijdingskans P
= 0.051). In de 1978 groep leidt de toevoeging van de twee-faktorterm sekse-toelating
tot een significant verschil in passing.

De G^ van model II bedraagt 39.97, wat een daling betekent vergeleken met model I
van 27.49 (df = 3, P = 0.00). Verdere toevoeging van twee-faktortermen loont niet de
moeite.

In de 1979 groep biedt uitbreiding van model I met sekse-advies component (model IV)
de meeste perspektieven. Het verschil in G^ bedraagt 9.14 (df = 3, P = 0.03). Hier zou
men eventueel de toevoeging van een tweede twee-faktor term, b.v. sekse-toets nog kun-
nen overwegen (model VII). Het verschil in passing tussen model IV en VII is echter niet
significant.

Een en ander loopt parallel met de bevindingen uit paragraaf 3. Niettemin lijkt ons de
konklusie gewettigd dat we over de seksevariabele kunnen samenklappen zonder al te
groot verlies aan informatie. Het wordt dan wel interessant om te zoeken naar een nog
eenvoudiger model dat een adequate reproductie geeft van de celfrequenties van Tabel
T 1 2 3, die ontstaat door te sommeren over sekse. Dan blijkt model IX een goede pas-
sing op te leveren. Verdere vereenvoudigingen leiden tot een, in sommige gevallen zelfs
dramatische, stijging van de G^. Dit geldt vooral voor het weglaten van de interactie tus-
sen toelating en advies.
Model IX kan men als volgt weergeven:

Schattingen van de gestandaardiseerde log-lineaire parameters gebaseerd op model IX.

Schattingen voor de gestandaardiseerde U-termen uit dit model zijn te vinden in tabel 7

Van de twee-factor termen zijn met name de gestandaardiseerde schattingen voor U13
groot, wat ook weer wijst op de belangrijke associatie tussen advies en toelating. Zie ook
tabel 6.

Op grond van de resultaten kan men stellen dat er sprake is van een duidelijke samenliang
tussen toelating en respectievelijk toetsresultaten en schoolgeschiktheidsadviezen, waarbij
het er naar uitziet dat het advies van groter belang is dan de toets. Sekse speelt een zekere
rol, maar deze is niet van doorslaggevende betekenis en evenmin erg constant.
Hierbij moeten we echter wel bedenken dat onze beschrijving een sterk vereenvoudigde
Weergave van de situatie is. We zijn er bijvoorbeeld van uit gegaan dat de toelatingsmoge-

lijkheden voor beide sekse hetzelfde zijn. Dit is hoogst waarschijnlijk niet het geval. Zeker
binnen het lager beroepsonderwijs geldt dat de diverse scholingsmogelijkheden niet ge-
lijk(waardig) zijn (Bosman e.a., 1980), vooral waar het onderwijstypen betreft die alleen
door meisjes óf jongens worden gevolgd.

Mutatis mutandis kan men daar ook uit afleiden dat het advies lbo óók iets anders bete-
kent als het aan een jongen dan wel aan een meisje wordt gegeven.
Uit de analyse blijkt tevens het grote belang van het schoolgeschiktheidsadvies voor de
toelating. Anders dan door veel betrokkenen bij de toelating wordt beweerd is er een veel
duidelijkere associatie tussen advies en toelating dan tussen toetsuitslag en toelating.
Een tekortkoming van de door ons gebruikte analyse methode is, dat er geen gebruik is
gemaakt van de ordinale (in geval van de toets zelfs misschien interval) eigenschappen van
de schalen, waarop sommige van de gebruikte variabelen zijn gemeten. Een tweede pro-
bleem is de behandeling van de lege cellen in de geanalyseerde kruistabellen. Allereerst
moet de onderzoeker uitmaken of deze nullen struktureel van aard zijn, danwel het gevolg
zijn van steekproeffluctuaties. De door ons gekozen oplossing houdt in dat we uitgingen
van het laatste.

De in dat geval algemeen aanvaarde procedure bestaat dan uit het toevoegen van 0.5 aan
alle geobserveerde frequenties.¹ Deze methode is echter intuïtief onbevredigend. Gezien
het feit dat op apriori gronden sommige nullen 'klemer' zijn dan andere. Bishop et al.
(1975) beschouwen o.a. een aantal pseudo-Baysiaanse schatters voor de celfrequenties in
kruistabellen die betere statistische eigenschappen hebben dan de gebruikelijke schatters.
Deze pseudo-Bayesiaanse schatters hebben als hoofddoel betere schatters voor de met
de cellen geassocieerde kansen op te leveren dan de ruwe celproporties. Daarnaast leveren
zij als bijprodukt een methode voor het verwijderen van nullen in de geobserveerde fre-
quenties van de kruistabel. (Bishop et al., 1975, pagina 401 e.v.). De keuze van 0.5 is
gebaseerd op een speciaal geval van zo'n pseudo-Bayesiaans model. Ook een volledig
Bayesiaanse aanpak is in principe mogelijk.

Bishop, Y.M.M., Fienberg S.E. & lloüand,?.y/.Discrete multivariate analysis. Cambridge,Massachusetts;
MIT Press, 1975.

Bosman, Rie; Louwes, Wiepke en van der Meer, Anneke. Sexe, school, beroep. Doktoraal skriptie,

onderwijskunde/sociologie. Groningen, 1980.
Hoogstraten, Joh., Mellenbergh, G.J. Relevante variabelen bij het doorverwijzen na de lagere school;

Een experiment. Tijdschrift voor Onderwijsresearch, 1978,3,161-172.
Jansen, Margo, G.H. De voorspellende waarde van de Eindtoets'Basisonderwijs. Tijdschrift voor Onder-
wijsresearch, 1979,4, 239-244.

1 Het gebruikte computerprogramma Iaat het ook toe om kleinere waarden zoals bijvoorbeeld 0.1 te
specificeren. Dit leverde geen opmerkelijk verschillende resultaten op.

Retention of Response Order and the Effect
of Feedback in a Repeatedly Administered
Multiple-Choice test

J- Peeck, A.J . van den Bosch and W. Kreupeling
Psychologisch Laborstorium, Rijksuniversiteit Utrecht

Twenty-seven fifth graders studied a 900-word text followed by a multiple-choice test consisting
of factual and guess questions, and received feedback immediately after taking the test. One
week later they were retested. For each question they attempted (a) to identify the original
order of response-alternatives; (b) to indicate the correct response; (c) to indicate their initial
response. Results showed a significant retention of response order, but it seems unlikely that
this strongly affected their responding behavior at the delayed test.

Investigations of the effects of feedback on meaningful verbal learning and retention
usually involve repeated administration of multiple-choice tests. Thus, when studying
how retention is affected by feedback-delay investigators generally present subjects with
a multiple-choice test (Tl), supply feedback (F) after varying intervals of delay, and,
after a retention interval of some time, test retention by a second presentation of the test

In this paradigm the multiple-choice items in Tl and F are presented in the same order.
In T2 investigators generally present the items in a different -random- order, presumably
to rule out the possibility that the position of the items on the Tl - and F-form would
affect performance on T2. Of sixteen recent studies involving feedback-delay with
meaningful verbal material, only one (Sturges, 1969) applied the same random order for
Tl, F and T2 presentations.

As for the position of the alternatives within each multiple-choice item, there is less
uniformity in experimental procedure. Some researchers change the position of alter-
natives from Tl/F to T2, presumably because they suspect that memory of position of
altematives might affect subjects' responding behavior during T2. This procedure was
used in seven of the sixteen studies mentioned above (More, 1969; Newman et al., 1974;
Phye & Bailer, 1970; Sassenrath, 1972; Spantz & Sassenrath, 1972; Sturges, 1972a, b).
In the remaining nine studies (Kippel, 1974; De Klerk, 1977; Kulhavy & Anderson,
1972; Kulhavy, Yekovich & Dyer, 1976; Peeck & Tillema, 1979; Sassenrath & Yonge,
1968; Sassenrath & Yonge, 1969, Sturges, 1969; Surber & Anderson, 1975), the investi-
gators did not change the order of alternatives from Tl/F to T2, presumably because
they assumed subjects to be unable to remember the position of alternatives during T2
after the, often considerable, retention interval.

As there do not seem to be research data available to decide on the correctness of this
assumption, the present study was conducted to ascertain to what extent subjects are
capable of identifying the initial order of the alternatives of multiple-choice items re-ad-

ministered seven days after initial presentation and feedback. Also, an attempt was made
to investigate how response-order recall affects responding behavior at the delayed test.
Subjects were fifth graders who took the initial test after studying a text. Since in a num-
ber of recent experiments subjects were required to answer initial test questions without
relevant prior instruction, in the present study two types of test questions were used:
Factual questions, requiring the recall of specific factual information from the text, and
guess questions that could not be answered on the basis of information derived from the
text. The latter were included to simulate experimental procedures not involving
exposure to instruction prior to the initial test.

At the delayed test the subjects were asked, m addition to identifying the initial response
order, to indicate their original response and, of course, the correct altemative.

Materials. The learning material was an approximately 900-word text, originally designed
as a silent reading test. The text, 'Avontuur bij nacht' (Adventure by night) told the story
of two boys at a camping site. For this text, two sets of 12 multiple-choice questions (4
altematives) were constructed. One set (Factual questions) required the recall of specific
factual information. The other set (Guess questions) consisted of questions which dealt
with elements from the story, but could not be answered on the basis of information
derived from the text; in answering these questions subjects thus had to resort to guessmg.
For instance, one guess question dealt with the age of the owner of the camping site
whose name was mentioned in the test. Guess questions differed from factual questions
in that they contained the phrase 'do you think', e.g. 'How old do you think the owner
of the camping site was?'.

The factual and guess questions were combined in random order to form the immediate
test (Tl). The form of the feedback sheet was identical to the T1 form, except that the
correct altematives were circled.

The text questions were randomly reordered for the delayed retention test (T2). On this
test the altematives of each question were presented m four orders: the origmal version
and three other' versions constructed in such a way that each altemative occurred only
once in every position. In each case, the stem of the question was given, followed, in
random order, by the four response orders indicated above. In each version the altematives
were preceded by a letter (a, b, c, d).

Subjects. Subjects were 27 children of approximately 11 years old in the fifth grade of
an elementary school.

Procedure. TTie children were tested simultaneously in their regular classroom. On the
first day, they were given the text and instructed to read it carefully m anticipation of
a test that would follow the reading. After they had studied the text for 15 minutes and
the booklets had been collected, the subjects were given the mitial-test sheets. In the
instruction for this test, special reference was made to the guess questions; the children
were told that these could not be answered on the basis of the text, but they were asked
to try their best all the same. After all children had finished the test and the test forms
had been collected, the feedback forms were handed to the children, and they were told
to look over the questions and correct altematives carefully. They were allowed five
minutes for this.

One week later all chUdren were given the delayed retention test, which because of its
complexity, was split mto three sub tasks. First the response-order identification: The
children we're asked to indicate for each question, with a cross, which of four alternative
versions of the answer-order had been presented in the mitial test. After completing
this task, they were asked to select the correct answer to each question by circling the
letter precedmg it; any of the four response-order versions, they were told, could be used
for this purpose. Finally, they were instructed to indicate, by underlining, which alter-
native they had originally selected on the initial test.

Scoring. To enable the scoring of guess questions, one of the altematives to each question
Was randomly assigned to be the correct answer. Feedback was provided accordingly.

The mam results of the initial and delayed test are shown in Table 1.
As Table 1 indicates, response-order identification was somewhat higher for factual than
for guess questions, though the difference was not significant, t (26) = 1.35,p < .20. In
order to test whether the obtained distribution of response-order identification signifi-
cantly differed from the theoretical distribution (p= 1/4, n = 12 for factual and guess
questions, and p= 1/4, n = 24 for the test as a whole), the Kolmogorov-Smirnov one
sample test (Siegel, 1956) was applied. It showed that for both types of questions as well
2s for the test as a whole, significantly different distributions had been obtained (for
factual-, guess questions, and all questions combmed,D= .472, .324, and .583, respec-
tively; in each case p < .005). Further analysis showed that for factual and guess ques-
f'ons, respectively, six and five subjects scored beyond the .05 chance level of 7 or more
items correct. For'the test as a whole there were thirteen subjects who scored beyond the
•05 chance level of 11 or more items correct.

Similar to the outcome of other recent experiments (e.g. Peeck, 1979, Peeck & Tillema,
1979), there was an unpressive retention of Tl responses; as Table 1 shows, Tl responses
°n factual questions were more readily remembered than mitial responses on guess

Finally, it should be noted that the facilitatmg effect of feedback on T2 performance
^as confined to guess questions. The failure to raise the factual-question score on T2 is
probably due to a ceiling effect.

In order to explore how retention of response-order was related to responding behavior
at the delayed rest, a few additional calculations were carried out. First, correlation
coefficients were computed between the response-order identification scores and per-
formance on the second test. Following the recommendation of Surber and Anderson
(1975), for this purpose two performance variables were used instead of simply the
number of items correct on the delayed test. The first variable was the conditional
probabihty of being right on the second test, given a correct response on the first, P(R2/R1).
The second variable was the probability of being right on the second test, given a wrong
response on the first test, P(R2/W1). Also, to obtain a more substantial number of cases,
in these calculations the results for factual and guess questions were pooled. The correla-
tion coefficients between the response order scores on the one hand, and the arc sin
transformations of P(R2/R1) and P(R2/W1) on the other, were .260 and .397 (p < .05),
respectively. Since feedback is primarily important to help people correct their mistakes
(cf. Kulhavy and Anderson, 1972), the latter in particular is of interest: there appears
to be a significant, though not very substantial, relation between profiting from feed-
back and retaining response orders.

Next, the results of the thirteen subjects with high response-order identification scores
were compared with those of the remaining subjects. On both conditional probability
measures, subjects with high response-order identification scores did better than the
others. The mean values were for P(R2/R1) .90 and .80, and for P(R2/W1) .69 and
.60, respectively. T-tests on the arc sin transformations of P(R2/R1) and P(R2/W1),
however, showed that only the difference on P(R2/R1) reached significance, t (25) =
1.79 (p < .05, onesided); for P(R2/W1), the t-value was 1.17 (p < .10, onesided).

The results of this study showed that, seven days after first administration, there was a
significant retention of the order of response-alternatives of the multiple-choice items
that made up the initial test. This indicates that, following feedback, subjects may have
retained not only the content of the correct alternatives, but also, generdly to a limited
extent, the position of the correct alternatives. In this respect, two qualifying remarks
should be made. First, it should be noted that retention of response order does not
necessarily imply retention of the correct alternative. Second, since response orders of
Tl and F were identical, the locus of response-order acquisition could be the initial test
rather than the feedback event.

Further analysis of the present results indicated that response order identification may
have affected - though not very substantially - the process of answering test items at
the delayed test. The obtained relationship may, however, also be explained by other
factors such as consistency in subjects' motivation and effort in the successive experi-
mental sessions: careful consideration of the items on the intial test- and feedback
forms probably leads to both retention of response order and correction of initial errors.
Though retention of response order thus, at best, constitutes probably only a minor
factor in response behavior at the delayed test, the decision of researchers to change
the order of alternatives in repeated administration of a multiple-choice test seems
to have been a wise one — assuming of course these experimenters were interested in
retention of content rather than position of correct alternatives.

Kippel, G.M., Information feedback schedules, interpolated activities and retention./ouwa/ of Psy-
chology, 1974,57, 245-251.

Klerk, de, L.F.W., De invloed van feedback op het onderwijsleerproces. Pedagogische Studiën, 1977,
^4,8-13.

Kulhavy, R.W., & Anderson, R.C., Delay retention effect with multiple-choice tests. Journal of Educa-
tional Psychology, 1972,63,505-512.

Kulhavy, R.W., Yekovich, F.R., & Dyer, J.W., Feedback and response confidence. Journal ofEduca-
tional Psychology, 1976,522-528.

More, A.J., Delay of feedback and the acquisition of verbal materials in the classroom. Journal of
Educational Psychology, 1969,60, 339-342.

Newman, M.I., Williams, R.G. & Hiller, J.H., Delay of information feedback in an applied setting:
Effects on'initially learned and unlearned items. Journal of Experimental Education, 1974, 42,
55-59.

I'eeck, J., Effects of differential feedback on the answering of two types of questions by fifth and
sixth-graders. British Journal of Educational Psychology, 1919,49, 87-92.

Peeck, J., & TiUema, H.H., Delay of feedback and retention of correct and mcorrect responses. Journal
of Experimental Education, 1979,47,171-181.

Phye, G., & Bailer, W., Verbal retention as a function of the informativeness and delay of information
feedback: A replication. Journal of Educational Psychology, 1970, 61, 380-381.

Sassenrath, J.M., Effects of delay of feedback and length of post-feedback interval on retention of
prose material. Psychology in the Schools, 1972, 9,194-197.

Sassenrath, J.M., & Yonge, G.D., Delayed information feedback, feedback cues, retention set and
delayed retention. Journal of Educational Psychology, 1968,59,68-7 3.

Sassenrath, J.M., & Yonge, G.D., Effects of delayed information feedback and feedback cues in
learning on delayed retention./out-tjö/ of Educational Psychology, 1969,60,174-177.

Siegel, %.,Nonparametric statistics for the behavioral sciences. New York: McGraw-HUl, 1956.

Spartz, L.R., & Sassenrath, J.M., Retention of reading materials as a function of feedback time and
testing. California Journal of Educational Research, 1972,23,182-187.

Sturges, P.T., Verbal retention as a function of the informativeness and delay of informative feed-
back. Journal of Educational Psychology, 1969,60,11-14.

Sturges, P.T., Information delay and retention: Effect of information in feedback and tests. Journal
of Educational Psychology, 1972,63, 32-43 (a).

Sturges, P.T., Effects of instructions and form of informative feedback on retention of meaningful
material. Journal of Educational Psychology, 1972,63,99-102 (b).

Surber, J.R., & Anderson, R.C., Delay-retention effect in natural classroom settings./oMrna/ of Educa-
tional Psychology, 1975,67,170-173.

Publikatiegewoonten in Nederland
Determinanten van de Waardering van
Manuscripten; Een Experiment

Publication habits in the Netherlands. Determinants of quality judgment of manuscripts; an
experiment

Subscribers to the Dutch Journal of Educational Research (Tijdschrift voor Onderwijsresearch)
were asked to judge the quality of one of two versions of a research report. The response rate
was 43.8%. The manuscript version stressing methodological aspects was appreciated more and
found acceptable for publication more often than a version stressing theoretical aspects. In
addition, the written request that went with the manuscript suggested that the editorial board
had already decided to accept or reject the manuscript or had not yet reached a decision. This
suggestion clearly distorted subject's quality judgments. Subjects receiving a positive suggestion
rated the manuscript more favourably than subjects receiving either a negative or neutral sugges-
tion. Likewise, a negative suggestion resulted in lower appreciation and less recommendation
for publication than a neutral suggestion. Interaction effects were absent. It is concluded that
the publication review process would gain if manuscript characteristics irrelevant to the review
process are eliminated, and by blind review and multiple reviewers.

Het beoordelen van manuscripten, ter pubÜkatie aangeboden aan een wetenschappelijk
tijdschrift, is een complexe en ondoorzichtige aangelegenheid. Een recente analyse van
het redactionele beleid van acht tijdschriften waarin Nederlandse onderzoekers doorgaans
publiceren bracht aan het licht dat redacties zich dit probleem zeer wel bewust zijn (zie
Buiter en Hoogstraten, 1979). Ontvangen teksten tracht men serieus en redehjk zorgvul-
dig op publiceerbaarheid te beoordelen.

Onderzoek naar de vraag welke criteria bij het beoordelen van de publiceerbaarheid van
manuscripten van belang zijn is tamelijk schaars. Jolles (1978) informeerde bij de redac-
ties van een groot aantal sociaal-wetenschappelijke tijdschriften naar de voorwaarden
waaronder tot publikatie van een manuscript wordt besloten. Hij categoriseerde de
reacties in twintig klassen, waaronder:

1 Dit artikel is een bewerking van een deel van het afstudeer-onderzoek van drs. M. Jacobs. De
supervisie berustte bij Joh. Hoogstraten. Adres: Weesperplein 8,1018 XA Amsterdam.

ßuiter en Hoogstraten (1979) vroegen de aangeschreven tijdschriftredacties eveneens
opgave te doen van de criteria op grond waarvan over de publiceerbaarheid van teicsten
Wordt beslist. Dat leverde het navolgende op (p. 463/464):

2- De Psycholoog: Helderheid; leesbaarheid; relevantie; gedegenheid; informatiewaarde;
soepele stijl. Overigens geen vaste criteria.

Kennis en Methode: Duidelijkheid probleemstelling; relevantie; Uteratuurkennis;
efficiëntie; stijl.

Tijdschrift voor Onderwijsresearch: Kwaliteit en originaliteit. Kwaliteit wordt verder

gespecificeerd in 1) belangrijkheid; 2) stijl, helderheid, leesbaarheid; 3) aansluiting

bij bestaande literatuur; 4) theoretische aspecten; 5) beschrijving van procedures;

Tijdschrift voor Psychotherapie: efficiëntie; duidelijkheid; stijl; Nederlandstalig;

Nederlands Tijdschrift voor de Psychologie: Intrinsieke kwaliteiten; wetenschappelijke
waarde;algemeenheid;leesbaarheid;presentatie (opbouw, taal, stijl).
Pedagogische Studiën: Nieuwheid; systematiek en consistentie; verantwoorde conclu-
sies en interpretatie; literatuurkennis; duidelijkheid en zorgvuldigheid; omvang; vak-
gebied.

Een andere benadering werd door Gottfredson (1978) gevolgd. Deskundigen waardeerden
°3 uitspraken, 'intended to represent "simple" characteristics of articles', op hun belang,
^actor-analyse resuUeerde in negen factoren:

I- Don't's; fouten die een auteur moet zien te vermijden,
n. Substantive do's; vereisten van wetenschappelijke of inhoudelijke aard.
III- Styhstic/compositional do's; vereisten ten aanzien van het taalgebruik en de lay-
out.

VI. Where do we go from here?; er moeten aanwijzingen worden gegeven voor ver-
volgonderzoek en een aanzet tot wetenschappelijke vooruitgang.
^11. Data grinders; de onderzoekgegevens moeten niet al te zeer benadmkt worden.
vIII. Ho-hum research; herkauwen van wat al bekend is moet vermeden worden.
IX. Magnitude of problem/interest; het onderzochte probleem mag niet te beperkt
zijn.

Rowney en Zenisek (1980) gingen weer anders te werk. Zij presenteerden 37 karakter-
jstieken van een fictief manuscript aan beoordelaars betrokken bij enkele Canadese
'jdschriften. Van elk kenmerk moesten de respondenten aangeven of dit de kans op een
aanbeveling tot publiceren zou verhogen of verlagen. Aspecten waarvan blijkens de
reacties de grootste positieve invloed uitging hadden onder meer betrekking op de oor-
spronkelijkheid van de theorie en de eigen bijdrage daarin van de auteur, de reputatie
Van de auteur op het gebied van onderzoek, en, enigszins verrassend, de lengte van de
^ekst. Een manuscript dat half zo lang is als gebruikelijk zou de kans op een positief
I vies vergroten. Een negatieve invloed zou daarentegen vooral uitgaan van aspecten
^s: het onderzoek is een experiment, maar bevat geen controle-groep; het verscheen

al eerder in de 'proceedings' van een congres; het is een directe replicatie van een recent
gepubliceerd onderzoek en voegt daaraan niets toe; de auteur heeft ordinale gegevens
maar toetst parametrisch.

Uit deze en andere voorbeelden van inventariserend-descriptief onderzoek valt op te
maken dat doorgaans drie dimensies relevant worden geacht. Ten eerste gaan redacties,
en beoordelaars, na of de tekst wel betrekking heeft op het specialisme dat bestreken
wordt door het tijdschrift. Ten tweede wordt de wetenschappelijke waarde essentieel
geacht. Steeds worden criteria genoemd die refereren aan onderzoekstechnische en
statistische merites en de kans op wetenschappelijke progressie. En ten derde hecht men
eraan een aantal vormvereisten te stellen qua taalgebruik, helderheid en layout.
Er zijn echter aanwijzingen dat de mate waarin men een manuscript waardeert ook
afhankelijk is van minder relevant te achten, zelfs ongewenste factoren. Zo is inmiddels
genoegzaam bekend dat positieve, significante onderzoeksresultaten vergeleken met nega-
tieve, niet-significante resultaten de waardering van en belangstelling voor manuscripten,
alsmede de kans op publiceren doen toenemen (Baken, 1966;Mahoney, 1976; Van Heer-
den en Hoogstraten, 1978, 1979). Ook Rowney en Zenisek constateerden dat onderzoek
waaruit geen significante bevindingen voortkomen minder kans maakt op een positieve
publika tie-aanbeveling, zelfs wanneer de getoetste theorie oorspronkelijk is en ontworpen
door de auteur zelf En wat moet men denken van de al vermelde bevinding van dezelfde
onderzoekers dat de reputatie van een auteur beoordelaars er niet zelden toe brengt zich
positief uit te laten over de publiceerbaarheid van een manuscript. Uit een nog ongepu-
bliceerd experiment bleek ons eveneens dat een overigens identiek manuscript meer
appreciatie opriep wanneer de onderzoeker/auteur hoogleraar was dan wanneer het een
student betrof Eerder al stelde Crane (1967) vast dat ook het prestige van de instelling
waaraan een auteur verbonden is mede bepalend kan zijn voor de waardering van een
manuscript.

Resumerend zou men kunnen stellen dat beoordelaars zich in een positie bevinden die
vergelijkbaar is met die van een docent die voor de taak staat antwoorden op essay-vragen
te beoordelen: in feite ziet en weet men te veel om in staat te worden geacht een objectief
oordeel te vellen over hetgeen men wil beoordelen. Het mag dan ook geen verbazing wek-
ken dat onderzoek ter vergeUjking van het oordeel van twee (of meer) beoordelaars van
manuscripten weinig hoopvolle uitkomsten laat zien. Scott (1974), Hendrick (1977) en
Under (1977) maken melding van interbeoordelaars-betrouwbaarheden van ongeveer
.30 ten aanzien van het al dan niet publicabel zijn van een manuscript door telkens twee
beoordelaars. Gottfredson (1978) rapporteert betrouwbaarheden van .35 en .41 voor wat
betreft respectievelijk het oordeel over de algehele kwaliteit en het wetenschappelijk
belang van artikelen.

Ook in het onderhavige experiment stond de beïnvloedbaarheid van de waardering van
onderzoeksverslagen centraal. Aanvankelijk lag het in de bedoeling de lezers van Pedago-
gische Studiën en T.O.R. vergelijkenderwijs in het onderzoek te betrekken. Ons vertrek-
punt was dat de lezers van P.S. en T.O.R. door een wat anders gerichte interesse, aanslui-
tend op het redactionele beleid, manuscripten met omschreven kenmerken niet dezelfde
waardering zouden toekennen. Verwacht werd onder meer dat de lezers van P.S. theore-
tische aspecten boven methodologische zouden appreciëren en dat onder de lezers van
T.O.R. het omgekeerde het geval zou zijn. Hier niet ter zake doende redenen deden ons
alsnog besluiten alleen T.O.R.-lezers in het onderzoek te betrekken. Bij hen werd nu nage-
gaan of de veronderstelde voorkeur voor methodologische aspecten boven theoretische

aantoonbaar was. Als tweede punt van onderzoek werd besloten de voorinformatie over
de publiceerbaarheid van het manuscript te variëren. Het ging daarbij om de vraag of
lezers van T.O.R. zich in hun oordeelsvorming over de merites van een onderzoeksverslag
gevoelig zouden betonen voor positieve, negatieve of neutrale voorinformatie.

Het manuscript dat ter beoordelmg aan de T.O.R.-lezers zou worden voorgelegd diende
aan enkele voorwaarden te voldoen. Het moest vergelijkbaar zijn met artikelen die
normaliter verschijnen in T.O.R. (en in een eerder stadium van het onderzoek ook: in P.S.)
en voorts moest het nieuw zijn voor de proefpersonen. Na ampele overweging viel de keus
op een artikel verschenen in het Amerikaanse 'Journal of Experimental Education' van de
hand van Lawton en Powell (1978): 'Effects of Advance Organizers on Preschool
Children's Learning of Math Concepts'. Om een indruk te geven van het artikel volgt hier
de vertaalde en aangepaste samenvatting.

In een onderzoek bij leerlingen van de eerste klas van de basisschool werd een onderwijsprogramma
van twee weken aangeboden, waarbij voorafgaande aan de eigenlijke leerstof (voorbereidend rekenen)
een korte voorbereiding werd gegeven. Deze voorbereiding was gebaseerd op de theorie van Ausubel
en kan worden aangeduid als 'advance organizer'. Nagegaan werd of een onderwijsprogramma met
advance organizers leidt tot een beter leerresultaat dan een 'normaal' programma. De onderzoeks-
resultaten wijzen uit dat de prestaties van leerlingen die het experimentele programma volgden opval-
lend me'ér vooruitgang tonen dan die van de overige leerlingen.

Het artikel werd vertaald en bewerkt zodat twee versies ontstonden, waardoor de eerste
onafhankelijke variabele, de methodologische nadruk, gestahe kreeg. In één van de twee
versies wordt uitgebreid ingegaan op de theorie waarop het beschreven onderzoek is geba-
kerd, namehjk de 'subsumptie theorie' van Ausubel, terwijl de methodologie in het
manuscript slechts minhnale aandacht krijgt. De andere versie kenmerkt zich door het

omgekeerde; de theorie is zeer summier beschreven, de methodologie is meer 'sophisticated'

behandeld. In het vervolg worden beide versies aangeduid als 'theoretisch' en "methodolo-
gisch'.

Het aan de proefpersonen gepresenteerde manuscript besloeg tien bladzijden tekst (papier-
formaat A4, anderhalve regelafstand), éénzijdig afgedrukt. In de theoretische versie nam
de bespreking van de theorie van Ausubel ruim drie bladzijden in beslag, in de methodolo-
gische versie anderhalve. Vervolgens werd het onderzoek in beide versies op drie en een
halve bladzijde beschreven. Aan de paragraaf getiteld 'De onderzoeksopzet' was m de
methodologische versie een stuk van anderhalve bladzijde toegevoegd waarin werd inge-
gaan op de interne validiteit en de generaliseerbaarheid van onderzoek en resultaten
(volgens het gebruikte design). In de theoretische versie ontbrak deze toevoeging.
Tenslotte werd in de methodologische versie in de paragraaf 'Resultaten en conclusies'
het onderscheidmgsvermogen van de m het onderzoek gebruikte t-toets besproken; in de
theoretische versie is ook deze toevoeging achterwege gelaten.

Om vast te stellen of deze manipulatie inderdaad resulteerde in een methodologische
dan wel theoretische variant, werden beide versies voorgelegd aan een zestal vergevorderde
doctoraalstudenten, met de vraag of zij de verschillen in eigen woorden wilden aangeven.
Uit hun commentaren - variërend van Weel statistisch en methodologisch geprietpraat'
tot Veel nadruk op de theorie' - kon worden geconcludeerd dat de manipulatie het
bedoelde effect had.

Wat betreft de tweede onafhankelijke vansiheh, het redactionele oordeel over het manus-
cript, zijn drie condities onderscheiden. Door terzake doende opmerkingen in de begelei-
dende brief werden de aangeschrevenen uitgenodigd'... mee te werken aan een onderzoek
ter bestudering van de oordeelsvorming van de lezers/abonnees van het T.O.R. over een
tijdschriftartiker. Vervolgens werd gesuggereerd dat het manuscript was aangeboden aan
de redactie van T.O.R. en dat deze één van de volgende posities had ingenomen.

a. Een externe beoordelaar en de redactie hebben het manuscript reeds beoordeeld en
voor publikatie geschikt geacht. In de brief luidde de tekst:

'Onlangs werd een manuscript ter publikatie aan de redactie aangeboden. De gebruikelijke procedure
volgend is dit manuscript ter beoordeling voorgelegd aan een externe, d.w.z. niet in de redactie zitting
hebbende, beoordelaar. Deze beoordelaar oordeelde positief, hij acht het manuscript geschikt voor
publikatie in het T.O.R.; de redactie heeft dit standpunt overgenomen.

Zowel de auteur als de beoordelaar stemden in met mijn verzoek het manuscript te mogen gebruiken
voor een onderzoek. Daarbij wordt het manuscript vóór publikatie nog eens beoordeeld door een
poep lezers/abonnees van T.O.R.'

b. Een externe beoordelaar en de redactie hebben het manuscript reeds beoordeeld en het
niet voor publikatie geschikt geacht. In deze conditie werd onder meer gesteld:

'De beoordelaar oordeelde negatief, hij achtte het manuscript in deze vorm niet geschikt voor pubUka-
tie in het T.O.R.; de redactie heeft dit standpunt overgenomen'.

c. De redactie heeft het manuscript nog niet aan een externe beoordelaar voorgelegd. In
dit geval luidde äe cruciale passage:

'In afwijking van de gebruikelijke procedure, waarbij het manuscript ter beoordeling wordt voorgelegd
aan een externe, d.w.z. niet in de redactie zitting hebbende, beoordelaar, heb ik de auteur benaderd
met het verzoek het manuscript voor een onderzoek ter beschikking te stellen.
De auteur stemde hiermee in.

Dit betekent dat het manuscript behalve aan de externe beoordelaar ook aan een groep lezers/abonnees
van het T.O.R. wordt voorgelegd'.

In het vervolg worden de onder a, b en c verwoorde standpunten aangeduid als resp.
positief, negatief en neutraal.

Afhankelijke variabele in dit onderzoek is de waardering die de proefpersonen opbrengen
voor het manuscript. Drie operationalisaties werden gehanteerd:

'^d- 1. De algehele waardering voor het manuscript wordt vastgesteld door de vraag:
'Wat is Uw algehele waardering voor het manuscript?'.

Hierbij werden zeven antwoord-mogelijkheden gegeven, van 'zeer goed' (7) tot 'zeer

"d. 2. Voor de gedetailleerde waardering is gebruik gemaakt van de 23 uitspraken welke
ook voor een ander doel werden geformuleerd, (zie Hoogstraten en Jacobs, 1981, elders
dit nummer). De proefpersonen werd gevraagd aan te geven - op zevenpunts schalen -
ln hoeverre elke uitspraak van toepassing was op het manuscript. Daartoe werden de uit-
spraken in een constaterende vorm aangeboden. Bij voorbeeld: 'Het onderzoek heeft een

exploratief karakter' en 'In het artikel wordt verantwoord waarom het onderzoek is opge-
zet'.

De schalen liepen bij ongeveer de helft van de uitspraken van positief (geheel van toepas-
sing) naar negatief (in het geheel niet van toepassing), bij de rest andersom, om antwoord-
tendenties zo weinig mogelijk kans te geven. Over alle uitspraken werd een som-score
berekend.

3. De waardering op pubUceerbaarheid werd, als bij de algehele waardermg, met één
Vraag vastgesteld. Hier luidde de vraag: "Wanneer U zou moeten beoordelen of dit manus-
cript voor publikatie in het Tijdschrift voor Onderwijsresearch in aanmerking komt, hoe
zou Uw beslissing dan luiden?'. De respondenten konden een keuze doen uit vier
äntwoordaltematieven:

B- Onder voorbehoud geschikt voor publikatie; er dienen aanzienlijke wijzigingen te wor-
den aangebracht.

C. Niet geschikt voor publikatie; wanneer het manuscript echter geheel herschreven wordt,
komt het voor een nieuwe beoordeUng in aanmerking.

De proefpersonen werden gerecruteerd uit de ongeveer 400 lezers/abonnees die niet bij
liet andere deel van het onderzoek werden ingeschakeld (zie Hoogstraten en Jacobs,
1^81, elders in dit nummer). Het onderzoeksontwerp (2x3 factorieel) telde zes condities.
Per conditie werden 48 lezers/abonnees aselect gekozen en aangeschreven. Aan dit aantal
lag de overweging ten grondslag dat een acceptabel onderscheidmgsvermogen ('power')
Pas bij ongeveer 25 proefpersonen per cel gerealiseerd zou worden, bij alpha = .05 en een
^iddehnatige effect-grootte. Uitgaande van een responspercentage van 50 - niet geheel
een slag in de lucht, zie bij voorbeeld Voeten, 1979 - werden 6 x48 = 288 personen
benaderd. Het onderzoeksmateriaal werd op 29 januari 1980 verzonden. Vrij snel daarna
^^ad aan het Ucht dat hier en daar onduidelijkheid bestond over de status van het
onderzoek. Op 8 februari 1980 werd daarom een brief verzonden met nadere toelichting.
Deze brief werd tevens gebruikt om de aangeschrevenen nogmaals tot antwoordbereidheid
op te wekken.

I. De waardering zal hoger zijn voor de methodologische versie dan voor de theore-
tische versie.

II. De waardering zal hoger zijn in het geval van een positief redactioneel oordeel
dan bij een negatief redactioneel oordeel.

III. De waardering zal hoger zijn bij een positief redactioneel oordeel dan bij een
neutraal oordeel.

IV. De waardering zal hoger zijn bij een neutraal redactioneel oordeel dan bij een
negatief oordeel.

Er was oi. geen reden een interactie tussen de methodologische dan wel theoretische
versie van het manuscript en het redactioneel oordeel te voorspellen.

Zes weken na de verzending van het onderzoeksmateriaal waren 143 reacties binnen. Dit
is 49.7% van 288. Zeventien reacties bleken om uiteenlopende redenen niet bruikbaar,
zodat 126 reacties resteerden. In tabel 1 is de antwoordbereidheid per conditie vermeld.
Er is een tendens dat de aangeschrevenen in de 'negatieve' condities in mindere mate
reageerden dan de aangeschrevenen behorend tot de andere condities. De verschillen
tussen de condities zijn echter in statistisch opzicht gering (chi-kwadraat = 5.33, df = 5,
n.s.).

De gegevens betrekking hebbend op de waardering die de respondenten voor het manus-
cript uitspraken zijn samengevat in de tabellen 2,3 en 4.

Vergelijking van de gemiddelden en — voor de waardering op publiceerbaarheid - van de
antwoordfrequenties per conditie laat de conclusie toe dat de resultaten niet strijdig zijn
met het in de hypothesen gestelde. De statistische bewerking verliep als volgt. Eerst werd

Niet geschikt voor publikatie, eventueel na herziening.
Niet geschikt voor publikatie.

een muhivariate variantie-analyse uitgevoerd om na te gaan of zich een interactie-effect
had voorgedaan tussen beide onafhankehjke variabelen. De afhankehjke variabelen waren
in dit geval de algehele waardering (zie tabel 2) en de gedetailleerde waardering (zie tabel
3). Van enig interactie-effect is geen sprake (F= 1.82,p < .15). Wat betreft hypothese 1
bleek vervolgens uit een tweetal eenzijdige t-toetsen dat zowel op de algehele waardering
(r= 1.95,df= 124,p= .027) als op de gedetailleerde waardering (t = 2.76,df= 124,p =
.004) de methodologische versie meer werd geapprecieerd dan de theoretische. Aan
hypothese 1 werd derhalve steun verleend. Met betrekking tot de overige hypothesen
waren enkele meer specifieke vergelijkingen nodig omdat de factor redactioneel oordeel
drie niveau's telde. Een gesuggereerd positief redactioneel oordeel bracht de proefperso-
nen ertoe meer waardering voor het manuscript uit te spreken dan een negatief redactio-
neel oordeel (algeheel: t = 4.28, df= 11, p< .001; gedetailleerd: t = 5.42, df= 11, p <
.001). Hypothese II is daarmee steun verleend. Hypothese III werd eveneens, zij het
minder evident, door de resultaten geschraagd: meer waardering bij een positief oordeel
dan bij een neutraal oordeel (algeheel: 1.54,df=?i9,p= .063;gedetailleerd: t= 1.86,
df = 89, p= .033). De resultaten bleken ook in overeenstemming met de in hypothese IV
verwoorde stelling: een grotere appreciatie bij een neutraal dan bij een negatief redactio-
neel oordeel (algeheel: t = 2.92, df= 80, p<.001; gedetaiUeerd: f=3.56, df=80,
p < .001). Voor de derde afhankelijke variabele, pubhceerbaarheid, lopen de uhkomsten
van de statistische analyse geheel in de pas met het bovenstaande (hypothese 1: x^ ~
12.83, p = .005, hypothese II: x'=2132, p<.001; hypothese III: x^ = 6.47, p =
.09;hypothese IV: x^ = 8.51 ,p = .037).

Uit de hier gepresenteerde gegevens kan worden afgeleid dat de opvattingen omtrent
de kwalheit en pubhceerbaarheid van een onderzoeksverslag gevoelig zijn voor additionele
informatie aangaande de te beoordelen tekst. Kan men van de voorkeur bij de lezers van
T.O.R. voor een methodologische nadruk boven een theoretische nog opmerken dat daar-
mee slechts eén aanvaardbaar professioneel oordeel tot uitdrukking wordt gebracht, dat
ook de suggestie inzake een eerder uhgebracht redactioneel oordeel de waardering beïn-
vloedt stemt zorgelijk. De omstandigheid dat de grootte van de experimentele effecten
soms bepaald gering was - omega kwadraat varieerde van .02 tot .26 - doet aan deze
constatering niets af. De objectieve vaststelbaarheid yan de waarde van een manuscript
is opnieuw discutabel gebleken.

Het is niet waarschijnlijk dat de resultaten voorbehouden zijn aan het manuscript dat
voorwerp van beoordeling was. Hoewel gekozen en bewerkt met het oog op een vergelij-
king van het oordeel van lezers van Pedagogische Studiën en dit blad (zie Inleiding)
behoort het zonder meer tot het type teksten dat men in T.O.R. aantreft. Zoals blijkend
op elk van de drie waardermgsmaten schreven de lezers het een redelijke kwaliteit toe.
Uit de gegevens vermeld in tabel 2 blijkt dat slechts 15 proefpersonen zich in negatieve
zin uitspreken over de algehele kwalheit (schaalpunten 3,2 en 1 tezamen). De gemiddelde
waarderingsscore is echter positief. Hetzelfde geldt voor de gedetailleerde waardering (zie
tabel 3). Wat opvalt is de lage gemiddelde waarderingsscore binnen ée'n conditie: de
theoretische versie met een gesuggereerd negatief redactioneel oordeel wordt ook in ab-
solute zin weinig op prijs gesteld. Op het derde beoordelingscriterium komt dit eveneens

naar voren. Vijftien lezers delen mee de tekst niet of eventueel pas na revisie voor publi-
^oel te houden, tien van deze lezers behoren tot de conditie Tneg (zie tabel 3). Het
ëeneel overziend heeft het manuscript aan zijn doel beantwoord. Men vond de kwaliteit
ehoorlijk zonder dat zich een plafondeffect voordeed, daarvoor bevatte het naar uit
commentaar van lezers bleek, te veel aanknopmgspunten voor (milde) kritiek. Daarnaar
gevraagd deelden de respondenten in overgrote meerderheid mee zich tot oordelen
. ®^egd te achten. De daartoe strekkende vraag bestond uit een 7-punts schaal lopend van
zeker niet' tot 'zeker wel' deskundig.

echts 17.5% gaf te kennen zeker niet of niet geheel voldoende deskundig te zijn (schaal-
Punten 1, 2 en 3), ruim 80% beschikte naar eigen zeggen wel over de vereiste deskundig-
eid (schaalpunten 4 t/m 7). Per conditie werd nog een gemiddelde deskundigheidsscore
erekend. De verschillen tussen de condities bleken zeer gering; het hoogste gemiddelde
Dedroeg 5.29, het laagste 4.65.
it het voorgaande blijkt al dat de resultaten vrijwel gelijkluidend zijn voor de drie beoor-
®'ingscriteria afzonderlijk. Toch zijn er ook verschillen. Per conditie werden de inter-
correlaties berekend. Na transformatie tot Fisher z-scores vond middeling plaats. De
orrelaties tussen de algehele en gedetailleerde waarderingsscores bedraagd .66, die tussen
eze beide maten en het publiceerbaarheidscriterium - met schaalpunten A, B, C en D
e^angen door 4, 3, 2 en 1 - respectievelijk .70 en .51. Kennelijk is waardering-van-
°nderzoek een samengesteld begrip en past bij het beoordelen van manuscripten een
j^^^®"gestelde operationalisatie: de drie criteria zijn onderiing niet verwisselbaar maar
® ben aan de andere kant voldoende gemeenschappelijks om gezamenlijk gebruik te

^P de gedetailleerde beoordelingsschaal, 23 items, werd nog een item-analyse uitgevoerd.

Item-rest correlaties waren bevredigend, ze varieerden van .210 tot .584 met twee
«zonderingen. De item-rest correlatie van item 1 bedraagt - .044, die van item 9 -
l9Si l'lccl^ uit een apart gepubliceerd onderzoek (zie Hoogstraten en Jacobs,

^ elders in dit nummer) dat item 19 (itemrest .303) minder goed bruikbaar is. Wan-
j^^er de hypothese-toetsing nu wordt uitgevoerd over de resterende 20 items levert dat uit-
nisten op die geheel vergelijkbaar zijn met de reeds vermelde.

s steeds bij schriftelijke onderzoeksprocedures werden wij ook hier met een non-
spondentenprobleem geconfronteerd. Hoewel niet onverwacht is een respons-percen-
ge van iets minder dan 50 natuuriijk weinig verheffend. Over de oorzaken en de gevol-
n Valt slechts te speculeren. Denkbaar, ofschoon niet waarschijnüjk, is dat de onder-
e^sresultaten voortvloeien uit een interactie-effect tussen condities en de respons-
nrespons variabele. Bij voorbeeld: in bepaalde condities werd overwegend gereageerd
Or proefpersonen geneigd tot een positief waardeoordeel, in andere juist door proef-
tsonen met negatievere opvattingen. De redenen genoemd door respondenten die niet
sten mee te werken geven aan dat hün weigering vooral gebaseerd was op overwegin-
n ^s tijdgebrek, twijfel aan de status en relevantie van het onderzoek, of onbekendheid
het thema waarover de tekst handelt.

I^oewel het hiervoor gestelde een zeker voorbehoud onvermijdelijk maakt verienen de
"Itaten, nogmaals, steun aan de stelling dat beoordelaars van onderzoeksverslagen
^"gevoelig zijn voor de wijze waarop het manuscript bij hen wordt geïntroduceerd,
me is de praktijk bij tijdschriften anders dan in onze experimentele situatie, maar
" kan toch wel stellen dat de toegepaste suggestie er e'én is uit een veel grotere verza-

meling van storende invloeden. Bovendien, wanneer redacties in de toekomst zouden
besluiten hun lezers (achteraf) te betrekken bij (een evaluatie van) het redactionele
beleid kan aan de hier geconstateerde feilbaarheid van de oordeelsvorming niet worden
voorbij gegaan. Men kan op verschillende manieren proberen dit probleem het hoofd
te bieden. Zo zou men ernaar kunnen streven het manuscript te ontdoen van irrelevante
karakteristieken en de beoordelaar onwetend te laten over de auteur en diens anteceden-
ten. Ook de inschakeling van meerdere beoordelaars kan een gedeeltelijke oplossing zijn,
zoals bij T.O.R. en enkele andere bladen reeds het geval is. Het zou echter naïef zijn er
van uit te gaan dat omtrent de kwaliteit van manuscripten wel eenstemmigheid te
bereiken is. Waarschijnlijker is dat hier sprake is van een beoordelingsituatie waar
divergentie van opvattingen onontkoombaar is, zoals ook de ethische aanvaardbaarheid
van onderzoeksprocedures een kwestie is van smaak en gevoel voor verhoudingen.

Bakan, D. The test of significance in psychological research. Psychological Bulletin, 1966,66,423-437.
Buiter, R.K. en Joh. Hoogstraten. De poortwachtersfunctie van tijdschriftredacties. Een analyse van het

redactionele beleid van acht tijdschriften. /'s^'c^o/oo^, 1979,74,457464.
Crane, D. The gatekeepers of science. Some factors affecting the selection of articles for scientific

journals./4wie«can Sociologist, 1967,2,1-20.
Gottfredson, S.D. Evaluating psychological research reports: Dimensions, reliability, and correlates of

quality judgments./tmencan Psychologist, 1978, JJ, 920-933.
Heerden, van J. en Joh. Hoogstraten. Significance as a determinant of interest in scientific research.

European Journal of Social Psychology, 1978,8, 141-143.
Heerden, van J. en Joh. Hoogstraten. Responsiebereidheid en de belangstelling voor onderzoek. A'ede/'-

lands Tijdschrift voor de Psychologie, 1979,34, 319-329.
Hendrick, C. Editorial Comment. Persona/!f>' and Social Psychology Bulletin, 1911,3,1-2.
Hoogstraten, Joh. en M. Jacobs. Publikatiegewoonten in Nederland. Criteria bij het beoordelen van
manuscripten voorgelegd aan beoordelaars en lezers van T.O.R. Tijdschrift voor Onderwijsresearch,
1981,6,77-82.

Jolles, H. M. Het hinderlijk ambacht. Sociologische studies over kritiek, in het bijzonder wetenschap-
pelijke kritiek. Alphen a.d. Rijn: Samson, 1978.
Lawton, J.T. en N. Fowell. Effects of advance organizers on preschool children's learning of math.

concepts. Journal of Experimental Education, 1978,47,76-81.
Under, D.E. Evaluations of the Personality and Social Psychology Bulletin by its readers and authors.

Personality and Social Psychology Bulletin, 1911,3, 583-591.
Mahoney, M.J. Scientist as subject: the psychological imperative. Cambridge, Mass.: Ballinger, 1976.
Rowney, J.A. en T.J. Zenisek. Manuscript characteristics influencing reviewers' decisons. Canadian

Psychology, 1980, 2/, 17-21.
Scott, W.A. Interreferee agreement on some characteristics of manuscripts submitted to the Journal

of Personality and Social Psychology./Imencan Psychologist, 191 A, 29, 698-702.
Voeten, M.J.M. Een evaluatie van drie jaar T.O.R. Tijdschrift voor Onderwijsresearch, 1979,4,1-7.

CRITERIA BIJ HET BEOORDELEN VAN MANUSCRIPTEN VOORGELEGD AAN
EXTERNE BEOORDELAARS EN LEZERS VAN T.O.R.

Wanneer redacties van wetenschappeUjke tijdschriften een 'poortwachtersfunctie' wordt
toegedicht (Crane, 1967; Buiter en Hoogstraten, 1979), denkt men met name aan de
belangrijke rol die redacties spelen bij de verspreiding van wetenschappehjke mformatie.
Het zijn immers deze redacties die uiteindehjk bepalen welke van de aangeboden manus-
'^ripten wel en welke niet aan de lezers worden gepresenteerd. Het bewaken van de kwali-
is daarbij wezenlijk. Dat men hierin niet altijd slaagt, moge bhjkeii uit het feit 'dat,
naar in het verleden herhaaldeUjk werd vastgesteld, veel van het gepubhceerde werk min
meer ernstige gebreken vertoont' (Buiter en Hoogstraten, 1979, p. 463; zie ook Hoog-
straten, Koele en Van der Ploeg, 1980). Veelal wordt getracht aan dit probleem het hoofd
t® bieden middels een passende beoordelingsprocedure door de redactie, daarbij

rgaans bijgestaan door niet tot de redactie behorende deskundigen. Van redacties kan
et verwacht worden alle voorkomende specialisaties zelf te vertegenwoordigen. De
Vlezen van de externe beoordelaars terzake van de publiceerbaarheid van manuscripten
jn daarom niet zelden doorslaggevend. De gang van zaken bij dit tijdschrift vormt daarop
j^^en uitzondering. Gebruikelijk is dat elk binnenkomend manuscript aan twee externe
jj °°'"delaars wordt voorgelegd en dat hun mening zwaar weegt in de besUssing welke ten-
te door de redactie wordt genomen. De vraag is: waarop baseren deze externe beoorde-
g®"hun oordeel?

te externe beoordelaars zullen uiteraard ook de lezers (gepubhceerde) manuscrip-
n beoordelen, zij het minder formeel en expliciet. Tijdschriftredacties dienen zich af te
leH^^" of de kwaliteitscriteria zoals gehanteerd door externe beoordelaars en redactie-
en zelf wel in voldoende mate aansluiten bij de opvattingen van het lezerspubhek dat
en bedient. Ontbreekt deze overeenstemming dan hgt bezinning op het redactionele
j®^®^ voor de hand.

net hier beschreven onderzoek wordt een aantal beoordelingscriteria nader gespecifi-
eerd en wordt geprobeerd te achterhalen hoe belangrijk externe beoordelaars en lezers
te T T'^-I^- deze achten. Aan dh type onderzoek bestaat in Nederland zeker behoef-
• Uit een eerdere analyse van het redactionele beleid van acht tijdschriften op het gebied

be?®^® notitie is een bewerking van een deel van het afstudeer-onderzoek van M. Jacobs. De supervisie
fustte bij Joh. Hoogstraten.

van de psychologie volgde onder meer de conclusie dat '.... omtrent de criteria waarop
de beoordeling van manuscripten in feite stoelt grote onduidelijkheid heerst. De
gehanteerde criteria (....) kenmerken zich door vaagheid en algemeenheid' (Buiter en
Hoogstraten, 1979, p. 463).

Om vast te stellen welke aspecten door externe beoordelaars en lezers belangrijk worden
geacht, werd een lijst met criteria samengesteld. De lijst bestond uit een aantal uitspraken
waarin de wetenschappelijke waarde van manuscripten en enige vormvereisten tot uitdruk-
king zijn gebracht. Als uitgangspunt fungeerden de criteria die door o.a. Gottfredson
(1978), Jolles (1978) en Buiter en Hoogstraten (1979) zijn genoemd en de 'cyclus van De
Groot' (De Groot, 1971). Dit resulteerde in 23 uitspraken, als imperatieven geformuleerd
en alle met een positieve stam. Zij zijn weergegeven in tabel 1. Ter bepaling van het belang
van de criteria werden deze op kaartjes gedrukt en voorgelegd aan de proefpersonen. Ons
verzoek was ze te sorteren op volgorde van belangrijkheid bij het beoordelen van een ver-
slag van een empirisch onderzoek van het onderwijs. Vervolgens werden de proefpersonen
in de gelegenheid gesteld de volgorde verder te specificeren door de uitspraken te plaatsen
op een schaal lopend van 'tamelijk belangrijk' tot 'zeer belangrijk', met daarnaast de
mogelijkheid niet belangrijk geachte criteria eventueel buiten de schaling te houden.
Het onderzoeksmateriaal werd toegezonden aan alle 49 externe beoordelaars die in de
jaargangen 1977, 1978 of 1979 aan T.O.R. hun medewerking verleenden en aan 50
aselect gekozen lezers van T.O.R. We voegen daaraan toe dat niet is vast te stellen of de
proefpersonen de taak op bedoelde wijze hebben uitgevoerd, een handicap die zich vrij-
wel steeds zal voordoen wanneer men - zoals hier - een schriftelijke procedure volgt.

Zes weken na verzending van het onderzoeksmateriaal waren reacties ontvangen van 38
externe beoordelaars en 27 lezers. De reacties van twee lezers bleken niet bruikbaar. De
beoogde specificering van de volgorde van de criteria bleek niet adequaat omdat onze
veronderstelling dat de aangeboden criteria dechts bij hoge uitzondering onbelangrijk
zouden worden geacht geen bevestiging vond. De analyse werd daarom uitgevoerd op de
rangorde van de criteria. Voor externe beoordelaars en lezers is de rangorde, gemiddeld
over de proefpersonen, weergegeven in tabel 1. Het meest belangrijk geachte criterium
is aangegeven met rangnummer 1, het op één na belangrijkste met 2, enz.
Alvorens in te gaan op het belang dat aan de afzonderlijke criteria wordt gehecht iets over
de overeenstemming binnen de groepen. Kendall's concordantie-coëfficiënt W is hiervoor
een maat. Voor de beoordelaars is W .52; zij zijn het onderling redelijk eens over het
belang van de uitspraken. Meer inzicht verschaft wellicht de over alle mogelijke paren
gemiddelde rangcorrelatie die direct berekend kan worden uit de waarde van W (rj = .51).
Voor de groep lezers zijn Kendall's W en de gemiddelde rangcorrelatie beduidend lager
dan bij de beoordelaars (W = .29; rj = .26). De lezers vertonen onderling meer variatie
in het belang dat zij aan de criteria hechten. Wanneer de twee rangordeningen worden ver-
geleken blijken beoordelaars en lezers in hoge mate overeen te stemmen (rj = .75).

(1)	23	23
(2)	9	13
(3)	20	19
(4)	14	10
(5)	5	3
(6)	12	5
(7)	17	15
(8)	6	16
(9)	16	6
(10)	8	12
(11)	19	18
(12)	21	20
(13)	11	14
(14)	13	8
(15)	18	21
(16)	15	9
(17)	10	17
(18)	3	7
(19)	22	22
(20)	1	2
(21)	4	11
(22)	7	4
(23)	2	1

De onderzoeksgegevens moeten duidelijk - in tekst, tabellen of
figuren - zijn weergegeven

De auteur moet de consequenties van de resultaten voor (de
verdere ontwikkeling van) de theorie waarop het onderzoek
gebaseerd is aangeven
5 • In het artikel moet het verband tussen de probleemstelling
en de theoretische achtergrond worden aangegeven
In het artikel moet verantwoord worden waarom het
onderzoek is opgezet

De onderzoeksprocedure moet zo duidelijk zijn beschreven,
dat replicatie van het onderzoek mogelijk is
De theoretische interpretaties moeten uitstijgen boven het
niveau van de concrete onderzoeksbevindingen
De statistische verwerking van de gegevens moet op con-
troleerbaar juiste wijze hebben plaats gevonden
In de discussie moeten aanwijzingen zijn gegeven voor
vervolgonderzoek

De verwachtingen van de onderzoeker (de hypothesen)
moeten expliciet zijn geformuleerd
De lay-out van tekst, tabellen en figuren moet prettig
verzorgd zijn

De auteur moet aangeven naar welke populatie de resultaten
. en interpretaties generaliseerbaar zijn
'Uit het artikel moet blijken dat de auteur op de hoogte is
Van de voor het onderzoek relevante literatuur
De beschrijving van de onderzoeksprocedure moet duidelijk
en volledig zijn
2n onderzoek moet hypothese-toetsend zijn

De onderzoeksopzet (het design) moet een antwoord op
2 de vraagstelling mogelijk maken

Het artikel moet helder en goed geschreven zijn
In het artikel moet het theoretisch kader beschreven
Worden waarbinnen het onderzoek plaats vindt
^ • pe piobleemstelling moet op juiste wijze zijn vertaald
in een onderzoekbare vraagstelling

Op het niveau van de afzonderlijke criteria valt op dat in beide groepen de nummers
1, 3, 11, 12, 15 en 19 van relatief gering belang worden geacht. Voor de uitspraken 1 en
19 (het onderzoek moet exploratief respectievelijk hypothese-toetsend zijn) is dit niet
verwonderlijk, beide zijn vooral constaterend van aard en de kwaliteit van een manuscript
is hiervan onafhankelijk. De rangcorrelatie tussen beide groepen werd daarom nogmaals
berekend maar nu zonder de criteria 1 en 19. Spearman's wordt dan wat lager: .67. Het
geringe belang van de criteria 3 en 12 (onderzoek aansluitend bij en toepasbaar in de prak-
tijk) duidt erop dat de praktijkgerichtheid van gerapporteerd onderzoek door externe
beoordelaars en lezers van T.O.R. niet bepalend wordt geacht voor de kwaliteit.
De criteria die van relatief groot belang worden geacht (20, 23, 18 en 5) hebben vooral
betrekking op de juistheid van beschreven onderzoek, onderzoekstechnisch mag er niets
aan mankeren. De criteria waarvan de rangnummers in de twee groepen het meest
verschillen zijn in twee categorieën te onderscheiden:

a. criteria die door de externe beoordelaars belangrijker worden geacht dan door de lezers,
en

criterium 8: De onderzoeksprocedure moet zo duidelijk zijn beschreven dat replicatie

van het onderzoek mogelijk is. (rangeb : 6, rang j: 16)
criterium 17: Uit het artikel moet blijken dat de auteur op de hoogte is van de voor het

onderzoek relevante literatuur, (rangeb: 10,rang|: 17)
criterium 21 : Het artikel moet helder en goed geschreven zijn. (rangeb ^ 4, rangp 11)
De tweede categorie bestaat uit:

criterium 6: ln het artikel moet verantwoord worden waarom het onderzoek is opgezet,
(rangeb: 12, rang,: 5)

criterium 9: De theoretische interpretaties moeten uitstijgen boven het niveau van de

concrete onderzoeksbevindingen, (rangeb: 16,rangi: 6)
criterium 16: De auteur moet aangeven naar welke populatie de resultaten en interpreta-
ties generaUseerbaar zijn. (rangeb • 15, rangj: 9).
Dit wijst erop dat lezers, meer dan externe beoordelaars, waarde hechten aan het generali-
satiebereik van de resultaten, op zowel theoretisch als empirisch niveau. De beoordelaars
hechten meer belang aan de aandacht die een auteur besteedt aan de precieze uitwerking
van een artikel en aan vormvereisten.

Van de respondenten werden ook nog enkele achtergrondgegevens verkregen. We volstaan
met een aperçu. De gemiddelde leeftijd van de beoordelaars was ongeveer 41 jaar, die van
de lezers ongeveer 35 jaar. Bij de beoordelaars troffen we uitsluitend mannen aan, bij de
lezers 20 mannen en 5 vrouwen. Onder de beoordelaars telden we meer hoogleraren en
wetenschappelijke (hoofd)medewerkers dan onder de lezers; een vanzelfsprekendheid
wanneer wordt bedacht dat beoordelaars juist op hun deskundigheid en ervaring geselec-
teerd worden. In dit verband is vooral van belang dat deze verschillen tussen beide
groepen respondenten een mogelijke verklaring opleveren voor de geconstateerde verschil-
len waar het de beoordelingscriteria betreft.

Drie conclusies liggen na het voorgaande voor de hand. Ten eerste kan worden vastgesteld
dat onder de externe beoordelaars van T.O.R. sprake is van een zekere consensus met be-
trekking tot het belang van de beoordehngscriteria. Met name worden van belang geacht
criteria die refereren aan de wetenschappelijke kwaliteit van onderzoeksrapportages, zoals
een juiste afleidmg van onderzoekbare vraagstelhngen en de adequaatheid van onderzoeks-
en analysemethoden. Ook vormvereisten als stijl en helderheid houdt men voor belangrijk.
Ten tweede geldt dat de lezers van T.O.R. het onderling bepaald minder eens zijn dan de
beoordelaars. Ten derde kan met enige voorzichtigheid gesteld worden dat de lezers
relatief meer belang hechten aan de - theoretische of empirische - toepasbaarheid van
gepubhceerde onderzoeksresultaten. Geheel onverwacht is dit verschil tussen lezers en
beoordelaars niet. Lezers van een wetenschappelijk tijdschrift beoordelen pubhkaties
uheraard met het oog op de bruikbaarheid voor eigen doeleinden, beoordelaars verrichten
Voorbereidend redactioneel werk. Onvermeld mag in dit verband niet blijven dat in ons
verzoek aan de externe beoordelaars nadrukkeüjk werd gerefereerd aan hun in het
Verleden voor T.O.R. verrichte beoordelingswerk. Dat wil zeggen, ook in dit onderzoek
Werden zij in de hoedanigheid van beoordelaar aangesproken. De vraag rijst in hoeverre
het verschil m benaderingswijze de resuhaten gekleurd heeft. In dit verband moet nog
Worden verwezen naar het beoordehngsformuher dat, tezamen met een manuscript, door
de redactie van T.O.R. aan beoordelaars wordt gezonden. Welhcht worden beoordelaars
hierdoor gedwongen hun ideeën over wat zij belangrijk achten en wat niet, op een rijtje
te zetten en heeft dit de genoemde homogenisering tot gevolg. Lezers missen deze

Een beperking van dit onderzoek is uiteraard dat niet alle aangeschrevenen reageerden -
en dan met name voor wat betreft de lezers - en dat er slechts één tijdschrift bij was
betrokken. Niet zeker is dat het beeld er bij andere tijdschriften overeenkomstig uit ziet.
Het lezerspubhek van T.O.R. is vermoedehjk wat homogener samengesteld qua profes-
sionele belangstelhng dan dat dit bij meer algemene bladen het geval is. Het grootste deel
van het abonneebestand is immers ook lid van de Vereniging voor Onderwijsresearch.
Wellicht lopen de opvattingen elders nog meer uheen dan onder de lezers van T.O.R.
Een tweede beperking betreft het al gememoreerde gegeven dat de gegevens slechts op
ordinaal niveau geanalyseerd konden worden. En tenslotte leverden enkele beoorde-
laars - hoe zou het anders kunnen - ook op dit onderzoek houtsnijdende kritiek. Som-
migen attendeerden ons op de mogelijke invloed van de in de instructie gebezigde term
'een emphisch onderzoek van het onderwijs'. Van sommige aspecten hangt het belang
nauw samen met de aard van het te beoordelen manuscript. De door ons beoogde toe-
spitsing van het referentiekader van de proefpersonen laat een zekere interpretatievrij-
heid. Tot de categorie 'emphisch onderzoek van het onderwijs' kunnen immers zeer ver-
schillende onderzoeken gerekend worden. Door enkele andere beoordelaars werden wij
op nog een tekortkoming van de gevolgde procedure gewezen. Zij stelden dat bij het
beoordelen van manuscripten tenminste twee dhnensies onderscheidbaar zijn. Ener-
zijds zijn er criteria waaraan altijd moet zijn voldaan, wil een manuscript voor publikatie
geschikt zijn. Met name werden in dit verband criteria genoemd betreffende de leesbaar-
heid en stijl, de verantwoording waarom een onderzoek is opgezet en de adequaatheid
v^ de onderzoeksopzet. De overige criteria zijn secundair, d.w^. niet onbelangrijk, maar
zij beïnvloeden het oordeel over een manuscript pas nadat aan de criteria uit de eerste

categorie blijkt te zijn voldaan. In de hier gevolgde onderzoeksprocedure was het niet mo-
gelijk tussen beide dimensies onderscheid aan te brengen. Daartoe zou een getrapte proce-
dure nodig zijn. Weer andere beoordelaars beschreven hun werkwijze als volgt. Na eerste
lezing wordt een globaal en voorlopig oordeel gevormd in termen van: is dit geschikt,
kunnen tekortkomingen gerestaureerd worden, etc. Pas daarna volgt de gedetailleerde
analyse. Eventueel herhaalt een en ander zich wanneer de redactie een herziene versie
opnieuw aan beoordelaars voorlegt. Eens te meer mag uit dit ongevraagde commentaar
van de beoordelaars worden afgeleid dat nader onderzoek op dit gebied geboden is.

Buiter, R.K. en Joh. Hoogstraten. De poortwachtersfunctie van tijdschriftredacties. Een analyse van het

redactionele beleid van acht tijdschriften. De Psycholoog, 1979,14,457464.
Crane, D. The gatekeepers of science: Some factors affecting the selection of articles for scientific

journals. American Sociologist, 1967,52, 1-20.
Gottfredson, S.D. Evaluating psychological research reports. Dimensions, reliability and correlates of

quality judgments./Imencfl« Psychologist, 191^,34, 920-934.
Groot, de A.D.Methodologie. Den Haag; Mouton, 1971.

Hoogstraten, Joh., P. Koele en D.A. van der Ploeg. Publikatiegewoonten in Nederland. Een analyse

van onderzoeksverslagen uit drie tijdschriften. Tijdschrift voor Onderwijsresearch, 1980,5, 3-8.
Jolles, H.M. Het hinderlijk ambacht. Sociologische studies over kritiek, in het bijzonder wetenschappe-
lijke kritiek. Alphen a/d Rijn: Samson, 1978.

l^ath. Meerum Terwogt-Kouwenhoven
'Universiteit van Amsterdam, Subfaculteit Psychologie

Aan de subfaculteit psychologie van de Universiteit van Amsterdam werd in het cursusjaar
'^9/80 een nieuw propedeuse-programma geïntroduceerd. Op verschillende manieren werd
nagegaan wat de resultaten van dit nieuwe programma waren. Om te bepalen of de
beoogde doestellingen werden gerealiseerd en hoe bepaalde maatregelen werden gewaar-
deerd werd twee maanden na aanvang van de cursus een vragenlijst afgenomen. Deze vra-
genlijst was als volgt samengesteld:

Over drie globale onderwerpen, de introduktieweek, het college- en tentamenrooster en
list programma als geheel, werden per onderwerp tien vragen geformuleerd. Aan de intro-
duktieweek hadden vrijwel alle eerstejaars deelgenomen, met het rooster werden zij dage-
lijks geconfronteerd en hoewel zij het programma tot dan toe nog slechts gedeehelijk
badden doorlopen konden zij hiervan wel een indruk hebben op grond van de informatie
^n de studiegids.

Wanneer aspecten van deze onderwerpen ter sprake kwamen waarvan kon worden veron-
dersteld dat zij voor de eerstejaars (nog) van weinig betekenis zouden zijn (b.v. de doel-
stelling: het programma is representatief voor de rest van de studie) werden er meerdere
Vragen over gemaakt. De vragen werden geformuleerd in de vorm van, doorgaans persoon-
lijke, uitspraken (b.v^.: 'In de introduktieweek is mij veel duidelijk geworden over de aard
Van het vak Psychologie'), elk voorzien van een vijf-puntsschaal, lopend van 'zeer mee
®ens' tot 'zeer mee oneens'. Omdat dergelijke vragen een duidelijk standpunt verwoorden
®n om gewapend te zijn tegen het optreden van een algemeen instemmende reactie,
berden alle 30 uitspraken in een positieve en een negatieve vorm geformuleerd,
^an het totaal van 60 uitspraken werden twee versies van de vragenlijst samengesteld,
®lk van 30 vragen, 10 vragen per onderwerp. Wanneer een uitspraak in de ene versie in
de positieve vorm werd aangeboden, werd hij in de andere versie in de negatieve vorm aan-
geboden.

'Tijdens de introduktieweek is mij wel duidelijk geworden wat er allemaal van je verwacht
yordt tijdens de propedeuse' (versie A).

'Tijdens de introduktieweek is mij niet duidelijk geworden wat er nu eigenlijk van je
Verwacht wordt tijdens de propedeuse' (versie B).

'Door het gepresenteerde college- en tentamenrooster kun je je studieaktiviteiten goed
plannen' (versie B).

'Door het gepresenteerde college- en tentamenrooster kun je je studieaktiviteiten nauwe-
lijks plannen' (versie A).

De 30 vragen werden in beide versies in verschillende, maar willekeurige, volgorde

Van elke uitspraak werden van beide vraagversies frequentieverdelingen gemaakt. Van
elke verdeling werd het gemiddelde en de standaard deviatie berekend. Een overzicht
is vermeld m tabel 1.

Een antwoordtendentie in de zin van een algemene neigmg tot instemming (voorkeur voor
de schaalwaarden 1 en 2) kon niet worden aangetoond. Door het vergeUjken van de
gemiddelden van beide versies van een vraag werd nagegaan of de beantwoording van de
verschillende vraagvormen aanleiding gaf tot dezelfde interpretatie. Een gemiddelde
beneden 2.70 w^rd opgevat als een algemeen instemmende reactie, een gemiddelde tussen

Frequenties, gemiddelden en standaard deviaties van beide versies van de 30 vragen.

Overzicht van reactiemogelijkheden en aantal vragen die dit reactiepatroon vertonen.

Voor evaluatiedoeleinden is de constructie bijna altijd ad hoe en het gebruik van de
vragenlijsten vaak eenmalig.

Wanneer, zoals in ons geval, een vraag op twee manieren geformuleerd wordt en de
reactiepatronen verschillen rijst de vraag of men heeft gereageerd op het verschil in vorm
of dat in feite sprake is van twee verscliillende vragen met verschillende betekenis. De
veronderstelhng dat twee vormen van een vraag gelijkwaardige operationahsaties vormen
van hetzelfde begrip is niet zonder meer gerechtvaardigd.

Bovendien is in het algemeen de relatie tussen vraag en antwoord een gecompliceerde en
dit wordt niet altijd erkend.

Middelen om de hiervan afhankelijke validiteit en betrouwbaarheid van vragenhjsten
vast te steUen zijn er eigenlijk niet.

De validiteit is praktisch geheel afhankelijk van de vaardigheid en inzichten van de con-
structeur; de betrouwbaarheid is afhankelijk van de relatie tussen vraag en antwoord
en deze relatie kan op velerlei wijze vertroebeld worden. Om enkele voorbeelden te noe-
men, de reacties van respondenten kunnen beïnvloed worden door:

- de gretigheid van respondenten om überhaupt te antwoorden, zelfs als er geen vragen
zijn (Van Heerden en Hoogstraten, 1979);

- een vast antwoord patroon, afhankelijk van de wijze waarop de antwoorden gegeven
moeten worden, maar onafhankelijk van de inhoud van de vragen (idem);

- de manier waarop het onderwerp in de vragenlijst als geheel wordt gepresenteerd, b.v.
globaal of gedetailleerd (Cantril, 1947);

- onduidehjke of vage formulering of gebruik van onbekende of technische begrippen
of begrippen die voor een deel van de ondervraagden betekenisloos zijn (idem);

- vragen waarin een uitgesproken standpunt naar voren komt of waarin het onderwerp
slechts van één kant behcht wordt (idem);

- vragen waarin woorden gebruikt worden die ogenschijnlijk een tegengestelde betekenis
hebben, b.v. 'allow' vs 'forbid' (Schuman en Presser, 1978);

- eigenschappen van de ondervraagden, zoals het al of niet hebben van een uitgekristal-
liseerde mening over het onderwerp in kwestie (Cantril, 1947) of het opleidingsniveau
(Schuman en Presser, 1978).

Dit komt er op neer dat de relatie tussen vraag en antwoord afhankelijk is van 'aan wie
wat hoe gevraagd wordt en hoe het antwoord geformuleerd moet worden'. Meer syste-
matisch onderzoek op dit gebied zou daarom niet misstaan en is recentelijk ook geënta-
meerd door bovengenoemde Schuman en Presser (1978). Het gebruik van deze feilbare
instrumenten kan ondertussen slechts met de grootste voorzichtigheid gebeuren. Voor de
onderwijsevaluatie, waar het gebruik van vragenlijsten niet te vermijden is, kunnen een
aantal aanbevelingen worden geformuleerd.

In de eerste plaats is een duidehjke afbakening van het domein nodig waarover vragen
gesteld zullen worden, een heldere structuur in de samenstelhng en zo mogelijk het
gebruik van meerdere formuleringen van eenzelfde vraag.

In de tweede plaats zou gestreefd moeten worden naar het ontwikkelen van vragen-
lijsten die in meerdere situaties toepasbaar zijn, gebonden aan een bepaald onderwerp,
zoals b.v. motivatie, studieattituden, waardering van onderwijsvormen, zodat niet
iedereen die in vergelijkbare situaties verkeert zijn eigen vragenlijst hoeft te construeren.
In de derde plaats is het verstandig om waar mogelijk meerdere versies van dezelfde
vragenlijst af te nemen.

In de vierde plaats kunnen, wanneer in een bepaalde onderwijssituatie evaluatie tot een
Vaste routine gaat behoren, standaard vragenlijsten worden ontwikkeld en op hun merites
getoetst worden.

In de vijfde plaats zou gedacht kunnen worden aan een procedure van kruis-validatie door
afname aan groepen met verschillende eigenschappen. Ten allen tijde verdient het natuur-
lijk aanbeveling om ondersteuning van de informatie te zoeken met behulp van andere
middelen.

Van Heerden, J. en Hoogstraten, Joh. Response tendency in a questionnaire without questions. Applied

Psychological Measurement, 1979,5,117-121.
Cantril, H. Gauging Public öp/n/o/J. Princeton: Princeton Univ. Press, 1947.

Schuman, H. en Presser, S. Question wording as an independant variable in survey analysis, in: Alwin.
B.F. (ed.) Survey design and Analysis, London: Sage Publications, 1978.

In 1977 vond in Leiden het derde 'International Symposium on Educational Testing' plaats. De
Invited papers' daarvan zijn in dit boek gebundeld; de andere bijdragen zijn achter in het boek samen-
gevat.

Voor wie is een dergelijk boek bestemd? De omslag spreekt van psychologen, onderwijskundigen,
statistici en - met het oog op het eerste deel - sociologen en genetici. Deze doelgroep is tamelijk ruim
bemeten. Zonder een behoorlijke kennis van de hedendaagse psychometrie komt men m het boek niet
ver. Voor de meetspecialisten uit de verschillende wetenschappen geldt dat een aantal bijdragen al
bekend is uit de vakliteratuur.

Zo beschouwd lijkt het wel of er geen kopers voor het boek zullen zijn. Toch zijn die er wel. Te
denken valt aan bibliotheken en bibliotheekjes, waar een overzicht van de stand van zaken in de
psychometrie van waarde kan zijn. Daar zal het boek voor velen de tol van 'blikopener' kunnen
vervullen. Temeer omdat elke bijdrage is voorzien van een flinke literatuurlijst.

Het boek is keurig uitgevoerd. Drukfouten komen vrijwel niet voor. De enige storende schoonheids-
fout is te vinden op bladzijde 256. De daar weergegeven patroon-matrices van het ACOVS-model zijn
niet van elkaar te onderscheiden vanwege een gebrek aan interlinie.
We geven nu een korte beschrijving van wat er zoal in het boek ter sprake komt.

Bij deze titel past eigenlijk alleen de bijdrage van Bereiter. De andere twee, van Eysenck en van Jaspars
en De Leeuw, zijn veel technischer, en bepalen zich tot het aanlegmodel.

Bereiter verdedigt de stelling dat men het bestaan van genetische factoren niet kan ontkennen, ook al
kan het onderwijs daar geen invloed op uitoefenen. Het is de taak van het onderwijs, omstandigheden
te scheppen waarin de aanleg zo goed mogelijk kan gedijen.

Eysenck geeft een uitgebreide beschrijving van het zgn. genetische model. Dit variantiecomponenten-
model leidt tot de vermaarde erfelijkheidscoëffïciënt h^. De verschillende vaiiantiecomponenten lijken
voor niet-ingewijden moeilijk te interpreteren: wie begrijpt het verschil tussen de interactie van geno-
type en omgeving enerzijds, en de covariantie van deze variabelen anderzijds?

Jaspars en De Leeuw gebruiken ook het genetische model. Zij specificeren een veelheid aan causale
modellen die te toetsen zijn. Eén van hun voornaamste conclusies is dat het hoog tijd wordt om
aandacht te schenken aan het kwantificeren van omgevingsfactoren.

Praktisch alle bijdragen uit dit deel van het boek gaan over beide onderwerpen. Het blijkt echter dat
die onderwerpen toch niet zo erg veel met elkaar te maken hebben. De 'eerlijke selectie' betreft de
invloed van moderatorvariabelen op predictoren, waardoor een procedure oneerlijk wordt. Men gaat er
dan van uit dat de gehanteerde meetinstrumenten zelf wel zuiver zijn. Bij 'zuivere items' staat het
meetinstrument zelf ter discussie. Er kunnen items zijn die aan moderatoreffecten onderhevig zijn.
Een uitstekend overzicht van gangbare selectiemodellen geeft Petersen. Elke definitie van 'eerlijkheid'
sluit een vorm van oneerlijkheid in. Bij uitstek lijkt het onmogelijk om tegelijkertijd eerlijk te zijn voor

groepen en voor individuen. Een objectieve definitie van eerlijkheid blijkt niet mogelijk. Men ontkomt
niet aan, dat waardeoordelen een rol spelen. De dedsietheoretische benadering kan deze via een
"tiliteitsfunctie in de procedure verdisconteren. Van de Flier en Drenth, maar vooral ook Novick,
pleiten ervoor, op zoek te gaan naar wezenlijke moderatorvariabelen. Variabelen als 'sexe' of 'ras' zijn
^ grof, want zij staan voor een complex van variabelen.

^iid en Dwyer geven een overzicht van de literatuur over 'sex bias'. Zij maken er bezwaar tegen, dat
"len doorgaans het criterium zuiver acht. Zij beoordelen het meest gangbare criterium, GPA, op zijn
^iverheid; hun bevindingen zijn negatief. Tenslotte schetsen zij een procedure om criteria te evalue-
ren.

Om onzuivere items op te sporen zijn er verscheidene methoden voorgesteld. Scheuneman noemt ze
eventjes, en beschrijft dan de door haarzelf ontwikkelde procedure. Deze maakt gebruik van empiri-
^he ICC's, regressies van items op totaalscores. Deze procedure wordt, evenals de andere, door
Petersen becritiseerd. Volgens haar kunnen alleen op item-response-modeUen geënte procedures goed
^erk doen.

Wet is niet efficiënt om iemand een grote toets voor te leggen. Veel opgaven daaruit zijn zo gemakke-
"Jk of zo moeilijk, dat zij geen enkele informatie over de kandidaat verschaffen. Bij toetsen naar maat
^feeft men er naar, zo snel mogelijk af te stevenen op de wel informatieve opgaven.
iJaartoe moet men over twee zaken beschikken. Ten eerste een grote verzameling gecalibreerde opga-
ren, en ten tweede een iiuichting om de opgaven aan de kandidaat aan te bieden. Daarvoor maakt men
doorgaans gebruik van een computereindstation en een interactief programma.

'-ord geeft enige praktische wenken voor het toetsen naar maat. Zo beveelt hij aan om pathologisch
"«gevallen parameterschattingen te vervangen door "redelijke' getallen, getallen die de aannemelijk-
heidsfunctie groter maken. Met opzet overgeslagen items vervangt hij tijdens de schattingsprocedure
door willekeurig gekozen antwoorden. Dit omdat het overslaan van een item ook informatie bevat.
/Oor de keuze van het volgende voor te leggen item maakt hij gebruik van de informatiefunctie van de
«ems, waai zowel moeilijkheidsgraad als discriminatievermogen Ih verdisconteerd zijn.
^'scher en Pendl geven een procedure om zonder computer te toetsen naar maat. Een eerste toets deelt
eerlingen grofweg in in een klein aantal geordende categorieën van vaardigheidsniveau. Bij elk van deze
'^tegorieën behoort een vervolgtoets. Aan de hand van een tabel kan de docent direct bepalen welke
^ivolgtoetsen hij een leerling moet aanbieden.

J^e te gebruiken opgaven zijn zo geconstrueerd dat ze goed passen bij een gespecificeerd meetmodel.
l^e schrijvers getuigen (opnieuw) van hun opvatting dat een model een afbeelding is van een psycholo-
Ssche theorie, en dat die theorie voorschrijft hoe men de opgaven moet construeren.
"f Gruijter beschrijft ook een tweestaptoetsprocedure. Hij staat toe dat er in de vervolgtoets ook
j^et-gecalibreerde items zitten.

"e bijdrage van Wood en Wilson lijkt misplaatst in de sectie over toetsen naar maat. Hij gaat over het
probleem, leerlmgen te ordenen op grond van multivariate data. Die data kunnen onvolledig zijn, en
Ook incommensurabel. Een voorbeeld daarvan is het engelse eindexamen. Dat bevat allerlei soorten
Opgaven. Voor een deel kan de kandidaat zelf bepalen welke opgaven hij wil maken. Dit is meer
petsen naar smaak dan toetsen naar maat.

Het probleem zelf is echter zeer interessant. Als variabelen zich op verschillend meetniveau bevinden,
en er op onsystematische wijze gaten in de datamatrix zitten, is het onmogelijk om op simpele wijze
een score te bepalen. De schrijvers stellen een procedure voor die 'while not flawless, does at least have
the virtue that it is easy to imderstand, is conceptually attractive, does not rest on too many assum-
tions, is flexible enough to handle any mixture of data, and faces squarely, in a way that other
">ethods do not, the question of what is being rewarded when a set of multiple measures is resolved in
a single score or rank' (bladz. 221). De procedure is gebaseerd op het Bradley-Terry-Fordmodel voor
Paarsgewijze vergelijkingen. De data bestaan uit een matrix die aangeeft hoevaak de ene leerling bij
door twee leerlingen gemaakte opgaven beter uit de bus is gekomen dan de andere leerling.
Het spreekt vanzelf dat grote leerlingaantallen tot rekentechnische problemen leiden. De schrijvers
Opperen de mogelijkheid om leerlingen in groepen te verdelen, eUc der groepen apait te schalen en dan
Op zoek te gaan naar 'ankerleerlingen'.

Het gebruik van open vragen is nog steeds een open viaag. Men schijnt er niet buiten te kunnen; ja, 'the
high days of the multiple-choice examination seem to be over' zegt Crombag in zijn voorwoord tot het
boek (bladz. vi).

De psychometrische problemen zijn vooral gelegen in de onbetrouwbaarheid van beoordelaars en die
van antwoordmodellen. De Gruijter gaat kort op beide problemen in. Beoordelaars stemmen nog al
eens weinig met elkaar overeen, en ook is niet elke beoordelaar consistent in de door hem gegeven
beoordelingen. Men poogt wel dit te ondervangen door een gedetailleerd beoordelingsschema op te
stellen. Zo'n schema dwingt beoordelaars om op met name genoemde aspecten van een antwoord te
letten. Een voorbeeld van zo'n analytisch beoordelingsschema geven Spada en Lucht-Wraage. Zij
construeerden een schema op basis van het Raschmodel. Dit betekent dat scores afgeleid worden uit de
aan het model ten grondslag liggende theorie. Dit is in tegenstelling tot de 'klassieke' benadering, waar
de score het uitgangspunt is. In dat kader maakt men veel gebruik van de generaliseerbaarheidstheorie.
Een inleiding daarin geeft De Gruijter. De generaliseerbaarheidstheorie maakt gebruik van het varian-
tiecomponentenmodel. Voor open vragen heeft men doorgaans vragen en beoordelaars als facetten.
Men kan op grond van de schattingen van de variantiecomponenten een betere meetprocedure ontwik-
kelen.

Wall vindt dat het niet vol te houden is dat scores bij open vragen op een intervalschaal liggen. Hij geeft
een aantal methoden om scores te analyseren met zwakkere assumpties over het schaalniveau. De
procedures zijn echter hypothesetoetsingen en geen schattingsprocedures. Zij lijken dan ook minder
geschikt om meetprocedures te evalueren en te modificeren.

Zoals men ziet, is het boek gevarieerd genoeg. Wat men mist is een inleiding tot de 'educational
debates' uit de titel. Een verhaal waarin het probleem gesteld wordt, met zijn betekenis voor het
onderwijs, had in elk deel niet mogen ontbreken. Nu ontbreekt dikwijls de samenhang tussen verschil-
lende bijdragen, of moet men die er zelfbij bedenken. Zodoende is het boek een aardige opstellenbun-
del geworden; het kader waarin men de opstellen moet lezen, dient men zelf aan te dragen.

Systeemmethodologie in sociaal-wetenschappelijk onderzoek
Alfa, Nijmegen, 1978,456 pag.

Bij de beschouwing van deze studie zullen een tweetal opmerkingen uit het voorwoord ervan als
leidraad dienen. De eerste opmerking betreft de ruime aandacht welke, vergeleken met de gangbare
sociaal-wetenschappelijke onderzoeksmethodologie, zal worden besteed aan het dynamische karakter
van systeemmodellen. De tweede opmerking betreft de relatie welke gelegd zal worden tussen de ma-
thematische systeemleer enerzijds en de strukturele modellen waarvan in de sociale wetenschappen
sprake is anderzijds. Met betrekking tot deze relatie wordt gesteld dat 'een tweetal terreinen met elkaar
in verband (worden) gebracht, die tot nu toe betrekkelijk gei'soleerd waren', (p. XII).
Deze beschouwing bestaat achtereenvolgens uit een kort overzicht van de in deze ^studie behandelde
onderwerpen, gevolgd door een kritische evaluatie in het licht van beide bovengenoemde opmerkingen,
waarna besloten wordt met de bespreking van enige details.

In het eerste hoofdstuk wordt een ongedwongen beschrijving gegeven van de systeemleer, welke daar-
bij in een historisch perspektief wordt geplaatst. Het tweede hoofdstuk begint met het onderscheid
tussen abstraktiemodel, d.w.z. de wijze waarop de verzameling van te beschouwen eigenschappen
wordt gekozen, en representatiemodel, dat is opgebouwd uit verklaringsrelaties voor een abstraktie-

""odel. Met betrekking tot een abstraktiemodel wordt een formalisme voor veranderlijke eigenschap-
Pen gegeven. De verklaringsrelaties in een representatiemodel worden hierop aansluitend opgevat als
«ferentiaalvergelijkingen of als (stochastische) differentievergelijkingen. Voor zowel representatiemo-
ellen als voor verklaringsrelaties wordt een typologie beschreven. Tenslotte wordt ingegaan op de
^entifikatig van tijdsinvariante coëfficiënten in verklaringsrelaties bij cross-sectioneel, panel- en tijd-
^rieonderzoek. Het derde hoofdstuk begint met de beschrijving van deterministische toestand-ruimte
"Modellen waarvan voornoemde verklaringsrelaties bijzondere gevallen zijn. Hierbij wordt ingegaan op
® stabiliteit van dergelijke modellen, alsmede de minimale realisatie ervan. De deterministische en
^'Ochastische versies van het diskrete toestand-ruimte model worden herschreven tot strukturele mo-
eUen. Het stochastische strukturele model vormt het uitgangspunt voor de bespreking van een aantal
^Wattingsmethoden welke hier worden samengevat onder de noemer regressie-methoden. Tenslotte
borden de variabelen in een struktureel model opgevat als latente variabelen waarvoor een meetmodel
Wordt geïntroduceerd. De LISREL-benadering omvat hierop aansluitend een maximum likelihood
Ijnatter voor de coëfficiënten in het latente strukturele model en het meetmodel.
^et vierde hoofdstuk bestaat uit een toepassing van zowel de regressie-methoden als de LISREL-bena-
ering voor de schatting van de parameters in een tot struktureel model herschreven toestand-ruimte
"'odel voor een empirische dataset.

■J de sociale wetenschappen zijn die toestand-ruimte modellen welke zijn afgeleid van stochastische
"ferentie-vergelijkingen het belangrijkste. Een algemene expressie voor een stochastische differentie-
vergelijking is

daarin g (t) en u (t) respektievelijk een 1, -variaat endogeen en een Ij -variaat exogeen stochastisch pro-
zijn, e (t) een 1,-variaat onafhankelijk en identiek verdeeld stochastisch error proces is, «I» (t) een
3-Variate vektor van deterministische trend-funkties is en F (k), G (k), K (k) en H coëfficient-matrices
"'et geëigende dimensies zijn. Aan deze expressie zijn een aantal nevenvoorwaarden opgelegd teneinde
^watters voor de coëfficiënt matrices af te kunnen leiden (cf. Kashyap & Rao, 1976).
^'s er geen sprake is van exogene invloeden (m, = 0) noch van deterministische trends (1, = 0) dan
"Ordt het aan (1) equivalente toestand-ruimte model gegeven door

^^in de dimensie van de toestandsvektor x (t) is gerelateerd aan m, en m3 (Akaike, 1974).
J^it model zal verderop ter sprake komen.

"e konstruktie van een stochastische differentievergelijking voor een empirische dataset zal doorgaans
als volgt verlopen.

Model selektie; omdat er weinig of geen a priori informatie is omtrent het te selekteren model uit
de klasse van mogelijke modellen waartoe (1) aanleiding geeft. Daartoe wordt een selektieprocedu-
re gespecificeerd op grond waarvan de minimale waarden voor m,, m^ en mj worden gekozen, en
de beslissing kan worden genomen omtrent de opname van deterministische trends in het model.
Parameter schatting van de coëfficiënten in het geselekteerde model.

Validatie van het geselekteerde model, waarbij de toetsing van de houdbaarheid van de nevenvoor-
Waarden bij het model van belang is, evenals de wijze waarop belangrijke statistische karakteristie-
ken van de dataset (bijv. het spektrum) door het model adekwaat worden gegenereerd.

^et valt nu op dat de auteur volledig voorbijgaat aan de model selektie. Steeds wordt ervan uitgegaan
^at m, = 1, mj = 1 en m, = 0. Deze ad hoe beperking wordt overigens niet toegelicht,
•^et name het sociaal-wetenschappelijk onderzoek wordt gewoonlijk gekenmerkt door weinig gediffe-
rentieerde a priori inzichten omtrent de konstruktie van dynamische modellen. Het is daarom van
Êroot belang om de klasse van mogelijke modellen welke bij een toepassing worden beschouwd niet op

arbitraire gronden te beperken en om daarbij een geëigende selektie-procedure te lianteren teneinde
het best passende model te kiezen.

In aansluiting hierop wordt vooral in het recente onderzoek van stochastische differentie vergehjkingen
ruime aandacht besteed aan de model-selektie (cf. Kashyap & Rao, 1976; Hannan, 1975). Indien
wordt uitgegaan van een toestand-ruimte model dan speelt bij de model-selektie de bepaling van de mi-
nimale dimensie van de toestandsvektor een overwegende rol.

Met betrekking tot (2) is hiertoe door Akaike een op kanonieke korrelatie analyse en informatie-theo-
retische overwegingen gebaseerde selektieprocedure ontwikkeld (cf. Akaike, 1976).

De klasse van stochastische differentie vergelijkingen welke door de auteur wordt beschouwd kan wor-
den weergegeven door

(3) p (t) = F £ (t-1) + G u (t-1) + H 'I' (t-1) + e (t)
Dit geeft aanleiding tot het toestand-ruimte model

waarbij (aansluitend op de notatie van de auteur) A = F, B = G, C = I, de 1, X1, eenheidsmatrix, en
ex (t)=i(t)

Aangezien ook gelijktijdige exogene invloeden worden toegestaan, resulteert het model

X (t + 1) = A X (t)B u (t) + ex (t + 1)
y (t + 1) = C X (t + 1) + D u (t + 1) (t + 1)

waarbij y (t) = p (t), terwijl de toevoeging van het stochastische error proces ey (t) aangeeft dat de
waargenomen endogene variabelen onderhevig zijn aan meetfouten. Ten aanzien van dit model worden
verderop een aantal detailopmerkingen gemaakt, waarbij onder meer zal worden ingegaan op de behan-
deling van de vektor met deterministische trends 'I' (t).

Het toestand-ruimte model (5) wordt vervolgens herschreven tot een hieraan equivalent struktureel
model:

Van groot belang is nu de konstatering dat de auteur zich beperkt tot de afleiding van een struktureel
model voor slechts twee opeenvolgende tijdstippen (t-1) en (t). Deze onnodige beperking tot een test-
hertest design heeft een aantal ongewenste gevolgen.

Daarvoor zijn tenminste drie opeenvolgende metingen nodig. Bmnen een test-hertest design kan bij-
voorbeeld de veronderstelling dat de coëfficiënt matrices in (5) tijdsonafhankelijk zijn niet worden
getoetst.

- Ook voor empirische tijdseries kan een toestandruimte model worden herschreven tot een struktu-
reel model. Het dientjduidelijk te worden vastgesteld dat dit eveneens het geval is als wordt uitge-
gaan van een stochastische differentie-vergelijking waarin de variabelen latent zijn. Dan resulteert
een latent struktureel model voor empirische tijdseries waarbij de LISREL-benadering van toepas-
sing is.

De wijze waarop dergelijke (latente) strukturele modellen voor empirische tijdseries worden afge-
leid uit het bijbehorende toestandruimte model wijkt evenwel af van die, welke bij een test-hertest
design van toepassing is.

j^W de beide opmerkingen uit het voorwoord van de studie, welke bij deze kritische evaluatie als
®'draad zijn genomen, is een onvoldoende uitwerking gegeven. De auteur heeft onnodige beperkingen
opgelegd aan het dynamische karakter van de door hem beschouwde modellen. De aan deze modellen
®*luivalente strukturele modellen zijn alleen afgeleid voor een test-hertest design. Deze beperking is
Zwaarwegend, omdat empirische tijdseries een onvervangbaar uitgangspunt vormen voor de konstruk-
•e van dynamische modellen.

De introduktie van het error-proces Cy (t) komt aan de orde als de waargenomen endogene varia-
belen worden gekenmerkt door meetfouten. Dan is het van belang dat €y (t) en_ex (t) onderling
ongekorreleerde processen zijn. Indien dit niet het geval is dan levert dit moeilijkheden op bij de
konstruktie van schatters voor de coëfficiënten in een dergelijk model (cf. Jazwinski, 1970, voor
een indikatie van deze moeilijkheden).

De error processen in een toestand-ruimte model worden gekenmerkt door een stationaire korre-
latie funktie. Dit ligt mede ten grondslag aan het prediktie onderzoek, zoals beschreven in deze
studie. Uit het stationaire karakter kan (in de notatie van de auteur) met betrekking tot het LIS-
REL model (3.3.100, pag. 254) worden afgeleid dat

Dergelijke relaties spelen een belangrijke rol bij de afleiding van strukturele modellen voor empiri-
sche tijdseries.

Men kan de coëfficiënten in een stochastische differentie vergelijking (1) met behulp van regressie-
methoden schatten. Het verdient aanbeveling om daarbij de deterministische komponent 'I' (t) te
onderscheiden van de stochastische exogene komponent u (t), mede gezien het verschil in neven-
voorwaarden dat aan elk is opgelegd (Kashyap & Rao, 1976). De auteur, werkend binnen een test-
hertest design, doet dit onvoldoende aangezien de deterministische komponent in (5) niet expliciet
Voorkomt, maar is opgenomen in de vektor van exogene invloeden. Deze vektor wordt vervolgens
Opgevat als een fixed realisatie, waarna de regressie-methoden worden toegepast.
Met betrekking tot de LISREL-benadering wordt gesteld dat de deterministische komponent bui-
ten beschouwing dient te worden gelaten. Indien echter wordt uitgegaan van een empirische tijd-
serie en de deterministische komponent voldoet aan de z.g. Grenander-kondities (cf. Hannan,
1970), dan is het mogelijk om het effekt ervan op de geobserveerde kovariantie funktie van het en-
dogene proces te beschouwen. Dit resulteert in een latent struktureel model waarin sprake is van
een deterministische trend.

tot de in hoofdstuk 4 beschreven toepassing zijn er enige onduidelijkheden omtrent
dichotoom geskoorde variabelen O,, O, en O3 welke aangeven tot welke van de vier onderzochte
'uideninstituten een proefpersoon behoort.
Aangezien het hier gaat om dichotome variabelen rijst de vraag op welke wijze de diverse korrela-
tie coëfficiënten zijn bepaald welke het uitgangspunt vormen voor de LISREL-benadering. Daarbij
dient er overigens rekening mee te worden gehouden dat de afhankelijkheid tussen O,, O, en O,
is terug te voeren op de wijze waarop ze worden geskoord.

Op pag. 356 is er sprake van een standaard-deviatie kind dat tot het O, = O, = O, = O geskoorde
instituut behoort. Aan dit kind worden vervolgens de waarden O, = -.38, Oj = -.18 en Oj = -.25
toegekend. Niet alleen wordt hier afgeweken van het dichotome karakter van deze variabelen, het
is nu ook onduidelijk welk instituut wordt bedoeld.

Op pag. 355 wordt voor bedoelde variabelen plotseling de notatie O, (t), Oj (t) en O, (t) inge-
voerd. Het is onduidelijk of, en zo ja welke, dichtome stochastische processen hier worden be-
doeld. Temeer daar het lidmaatschap van een instituut als een konstante eigenschap wordt opge-
vat.

Hoewel het beschouwde toestand-ruimte model tenminste bounded-input bounded-output stabiel
js, geeft tabel 4.2.4 voor bovengenoemd standaard-deviatie kind de indruk dat dit niet het geval
is. Wellicht zijn de aan O,, Oj en O, toegekende waarden hier mede debet aan.

Zoals de auteur op pag. 208 opmerkt is men in de sociale wetenschappen voornamelijk aangewezen op
stochastische modellen. Nochtans is een niet onbelangrijk deel van de studie gewijd aan deterministi-
sche modellen. Het zou voldoende zijn geweest indien was verwezen naar bestaande publikaties om-
trent de relatie tussen differentiaalvergelijkingen, frequentie-domein representaties en toestand-ruimte
modellen (bijv. Wolovich, 1974). Hetzelfde geldt met betrekking tot de approximatie van differen-
tiaalvergelijkingen door differentie-vergelijkingen. De sociale wetenschappen worden niet gekenmerkt
door een overmaat aan a priori op te stellen verklaringsrelaties. Veeleer is er sprake van dat wordt ge-
zocht naar een beschrijvend model van minimale kompleksiteit dat bepaalde aspekten van een empiri"
sehe dataset zo adekwaat mogelijk weergeeft en dat wordt gehanteerd met betrekking tot de analyse
van een globale vraagstelling. Hierbij spelen stochastische differentie-vergelijkingen een zelfstandige
rol en is het niet nodig om ze uitvoerig te relateren aan deterministische differentiaal- of differentie-
vergelijkingen, al dan niet opgevat als verklaringsrelaties. De dan vrijgekomen ruimte had bijvoorbeeld
kunnen worden besteed aan de analyse van stochastische modellen in het frequentie-domein. Een Fou-
rier getransformeerde stochastische differentie-vergelijking geeft voor een gegeven frequentie aanlei-
ding tot een struktureel model waarvoor standaard multivariate technieken van toepassing zijn (cf^
Brillinger, 1975). Dit zou een belangrijke aanvulUng op de door de auteur gegeven benadering hebben
betekend.

De wijze waarop diverse onderwerpen in deze studie worden gepresenteerd is niet optimaal. Hoofdza-
ken worden soms onvoldoende uitgewerkt (bijv. de wijze waarop output variabelen op grond van een
struktureel model worden geïdentificeerd, pag. 197). Voorbeelden zijn niet altijd inzichtelijk (bijv. die
in par. 3.2). Soms is de tekst ronduit duister (zie bijv. pag. 242 onderaan). De notatie is dermate inge-
wikkeld dat de auteur soms zelf het spoor bijster lijkt te raken. Zo wordt op pag. 241 gemeld: 'De T
variabelen spelen in het schattingsproces dan ook geen rol, tenzij men aan de hand van de geschatte
waarden de hypothese van o-waarden wil toetsen.'

Dit betekent niet dat in een test-hertest design de realisatie van het endogene proces op de voormeting
niet in het schattingsproces wordt betrokken, maar dat deze realisatie wordt gedefinieerd als een toe-
standsvektor. Het is evenwel ongebruikelijk om een hypothese met betrekking tot een niet gedefi-
nieerde variabele (in dit geval y) te toetsen.

Ten aanzien van het belang van deze studie kan het volgende worden opgemerkt. De kern ervan bestaat
uit een aantal aanzetten tot de wijze waarop stochastische toestand-ruimte modellen kunnen worden
herschreven tot strukturele modellen waarvoor standaard multivariate technieken van toepassing zijn.
Deze aanzetten kunnen een bruikbaar uitgangspunt vormen voor een uitwerking welke aan de moge-
lijkheden van deze benadering meer recht doet.

Akaike, H. Markovian Representation of Stochastic Processes and its Application to the Analysis of

Autoregressive Moving Average Processes.^nn. Inst. Stat. Math., 1974,26, 363-387.
Akaike, H. Canonical Correlation Analysis of Time Series and the Use of an Information Criterion.
In: Mehra, R.K., and Lianiotis, D.G. (eds.). System Identification. New York. Academic Press,
1976.

Brillinger, D.R. Time Series, data analysis and theory, New York. Holt, Rinehart and Winston, 1975.

Jazwinski, A.H. Stochastic Processes and Filtering Theory. New York: Academic Press, 1970.

Kashyap, R.L. and Ramachandra Rao, A. Dynamic Stochastic Models firom Empirical Data. New

York: Academic Press, 1976.
Wolovich, W.A. Linear Multivariable Systems. New York. Springer-Verlag, 1974.

het kader van de komende wet op het basisonderwijs heeft de minister van Onderwijs en Weten-
schappen het Informatiepunt Basisonderwijs ingesteld. Taak van het Informatiepunt Basisonderwijs is
"ft zorgdragen voor het verzamelen en op aanvraag verstrekken van onderwijskundige informatie, die
<l'enstbaaT kan zijn aan het tot stand komen van de nieuwe basisschool (integratie kleuteronderwijs en
Kewoon lager onderwijs).

'l''''ei:Buitenveldertselaan 106,1081 AB Amsterdam,
Postbus 7888,1008 AB Amsterdam.
Tel.: 020441815

lloe speciaal wordt het buitengewoon onderwijs? Het buitengewoon onderwijs in ontwikkeling: achter-
„ gronden en de stand van zaken, door J. Rispens

''tudievaardigheden voor de Basisschool: Leren omgaan met teksten (II) door W. Kok, C. Boonman
en G. Beukhof

"EON: Ervaringen met en evaluatiegegevens over de programmaonderdelen, door A.K. de Vries,
^ M.H. Kramer-van Walderveen, K.M. Stokking en L.C. Thierens

"^'oniek: Het AERA-Congres 1980, door G. Beukhof, E. De Corte, J. Van Damme, P. Span en J.
Terwei

^oniek: Symposium van de onderzoeksthemagroep 'Onderwijsleerprocessen', door G. Beukhof

onderzoek naar de sociale herkomst van de onderwijzer in de gemeente Leiden 1850-1900, door
M. du Bois-Reymond, J. Lamboo en M. Smits
Een onderzoek naar attitude-veranderingen bij leerkrachten, door J.R.M. Gerris en J. Schoeber
^EON: Summatieve evaluatie ((I),door KJl. Stokking

•kroniek: Het instituut voor onderwijs-onderzoek in Moskou, door J. de Reus en W.M. Zeelenberg

^Pellingsproblematiek bij werkwoordsvormen. Een onderwijspsychologische analyse, door E.M.H.

l'ysieke aantrekkelijkheid van kleuters. Effecten op populariteit, sociaal gedrag en sociale vaardigheden,

door W. Koomen en H.C. Heidens
^EON: Summatieve evaluatie (II),door K>1. Stokking

Kroniek: Een studiereis naar Moskou en Oost-Berlijn, door J.M.C. Nelissen, W.S. Klukhuhn en A.C.
Vuurmans

de bibliotheek van het Ministerie van Onderwijs en Wetenschappen bestaat de ERIC-Fiche Informa-
tiedienst (EFI). Deze dienst heeft in haar bezit de volledige collectie ERIC microfiches vanaf ED-
""mmer 095254, dat wU zeggen vanaf januari 1975.

De fiches kunnen ter plaatse in de bibliotheek geraadpleegd worden. Duplicaten van microfiches en
hardcopies kunnen besteld worden bij het Ministerie (Afdeling Bibliotheek) of bij Mikroff b.v. (Hoge-
landseweg 101, 6545 AB Nijmegen, tel. 080-782781).

Voor nadere informatie over de bestelprocedure zie Metodoc 64 van het Ministerie (verkrijgbaar bij
dhr. J.B.J. van de Beid, hoofd onderafdeling Uitleen en Inlichtingen van de bibliotheek. Postbus 2055l>
's- Gravenhage, tel. 070-742742).

Op 26 en 27 november 1981 zal in de Blije Werelt te Lunteren de vijfde onderwijssociologische confe-
rentie plaatsvinden. De conferentie wordt georganiseerd door SISWO, onder auspiciën van de Stuur-
groep Onderwijssociologie, het interuniversitaire samenwerkingsverband van onderwijssociologen. Het
thema van de conferentie is 'Jeugdcultuur en Onderwijs'. Vanuit een onderwijssociologisch perspectief
zullen relaties tussen jeugdculturen en onderwijs gelegd worden. Daarbij komt het alledaagse gedrag
van leerlingen (en leraren) in beeld. Door de uitwerking van dit thema kurmen verdere aanzetten vooi
een nieuwe benadering van het ongelijkheidsdebat in de onderwijssociologie gegeven worden.
Onderzoek(st)ers die met een paper een bijdrage willen leveren aan deze conferentie kunnen eefl
brochure opvragen.

Voor verder inlichtingen en.aanmeldingsformulieren kan men bij het secretariaat terecht:
SISWO, t.a.v. E. Diekerhof, O.Z. Achterburgwal 128,1012 DT AMSTERDAM, tel.: 020-240075.
Ontvangen publicaties

Borgesius, T.G. Beoordelen van practicum-werkstukken. Evaluatie van tandheelkundig onderwijs-

blok 164, Nijmegen: Instituut voor Onderzoek van het Wetenschappelijk Onderwijs, 1980.
Camstra, B., Leeman, Y. & Houtkoop, W. Nederlands leren met de computer. Een onderzoek naat
de mogelijkheden van de computer ten behoeve van het leren van de Nederlandse taal door anders-
taligen. West-Beemster: Bureau voor Toegepaste Onderwijskunde, september 1980.
Drift, K. van der, Langerak, W.F., Moonen, J.M. & Vos, P. Eindrapport van het proefproject computer-
gestuurd onderwijs. Bureau Onderzoek van Onderwijs, R.U. Leiden, oktober 1980.
Hoog, R. de, Stroomberg, H. & Zee, H. van der (red.). Veranderen door onderzoek. Bedragen uit

andragologie. Meppel: Boom, 1980.
Kemenade, J.A. van (red.) Onderwijs: Bestel en beleid. Groningen: Wolters-Noordhoff, 1981.
Tillema, H. & Jong, J.A. de. Plannen van informatief onderwijs. Eindverslag over de werkzaamheden
van het projekt Procesgerichte Differentiatie (SVO- projekt BS 445). Vakgroep Onderwijskunde,
IPAW, R.U. Utrecht, december 1980.
Toetsen aanvankelijk lezen en spellen. Informatieblad voor de leerkrachten. Arnhem: CITO, decem-
ber 1980.

The PLATO Project Amsterdam was an innovative experiment with the sophisticated PLATO
system for computer assisted instruction. Its objective was to explore the potential applicability
of computer assisted instruction (PLATO, in particular) within the curricula at the University
of Amsterdam. This was done by means of a number of small-scale experiments in a variety of
disciplines (the 'in-depth' approach) ans by a fairly overall assessment of the potential useful-
ness of PLATO lessons that have been developed elsewhere (the 'breadth approach').
As main findings can be summarized, that PLATO appears to be a system very well suited for
computer assisted instruction, that for unit-oriented learning tasks such a system can be both
very effective and very efficient, that the applicability of courseware that is developed else-
where is definitely limited, and that the students involved tend to find the system an acceptable
medium.

^eer dan in het verleden worden de universiteiten geconfronteerd met problemen die
Samenhangen met de spanning tussen de beschikbare middelen enerzijds en de verwach-
tingen en eisen m.b.t. de taakvervullmg anderzijds. Voorbeelden van deze problemen
^ijn de toenemende heterogeniteit van het intreegedrag van studenten, het bestaan van
pote formele en informele deficiënties, het grote percentage werkstudenten (aan de
Universiteit van Amsterdam 40%, Bekkers & van Berkel, 1978), de op handen zijnde be-
perking van de inschrijvingsduur die studieversnellmg nodig zal maken, de bezuinigingen
die een grotere efficiëntie van het onderwijs vergen, de toenemende onderwijsbehoefte
Ijjist bij groepen buiten de gehomogeniseerde groep van VWO-abituriënten.
"et is voorstelbaar dat men voor de oplossing van sómmige van deze problemen gebruik
Saat maken van computergestuurd onderwijs. Dit is een onderwijsvorm die de kinder-
schoenen aan het ontgroeien is. Bij computergestuurd onderwijs communiceert een leer-
i'ng of student met een computerprogramma dat is ingericht om een leerzame dialoog
stand te brengen en gaande te houden. Daarbij wordt in het algemeen gebruik ge-
J^aakt van computerterminals, voorzien van een beeldscherm en een toetsenbord. Via
net scherm wordt de student geconfronteerd met tekst, schema's, figuren en vooral met
dragen, opdrachten en problemen. Een goed programma brengt de student daarmee tot
Cognitieve activiteit. Het resuhaat daarvan wordt door de student aan het programma
teruggemeld' door het m.b.v. zijn toetsenbord te formuleren, in getallen of in natuur-
lijke taal, of bv. door een bepaalde plaats op het scherm aan te wijzen. Kenmerkend voor
computergestuurd leren is het interactieve karakter: het leerproces verloopt (als het goed
^s) in een voortdurende (flitsende) dialoog tussen student en programma die op eikaars
■reacties 'begrijpend' en adequaat reageren.

Als een van de belangrijkste argumenten voor het gebruik van de computer als medium in
het leerproces wordt vaak naar voren gebracht dat het in zeer vergaande mate individua-
lisering van het leerproces mogelijk maakt. Het is bij deze vorm van onderwijsinrichting
mogelijk tegemoet te komen aan heterogene voorkennis, aan uiteenlopende studietem-
po's, aan een behoefte aan inhoudelijke differentiatie, aan de wens dat de student zelf
de touwtjes van zijn leerproces in handen houdt, en zelfs in zekere mate aan verschillen-
de leerstijlen en -strategieën. Een tweede veelvuldig geponeerd argument is dat computer-
gestuurd onderwijs het leerproces in belangrijke mate kan intensiveren, waardoor mogelij-
kerwijs een belangrijke winst in efficiëntie kan worden bereikt. Daarnaast vertoont het
computergestuurd onderwijs een veelheid van andere kenmerken: het is in principe onaf-
hankelijk van tijd en plaats en kan dus ook op minder gebruikelijke tijdstippen genoten
worden, terwijl het ook mogelijk is het onderwijs naar de student toe te brengen in plaats
van andersom; het kan gebruikt worden voor het simuleren van een veelheid van werke-
lijkheidsprocessen die voor een student in het echt wellicht niet eenvoudig toegankelijk
zijn; het leren omgaan met dergelijke simulaties kan voor een student een nuttige voor-
bereiding vormen voor het leren omgaan met het betreffende proces in de werkelijkheid;
enz.

Uitgaande van de behoefte om op problemen als hierboven vermeld voorbereid te zijn en
alles te onderzoeken waarmee deze potentieel het hoofd geboden zouden kunnen worden,
besloot het bestuur van de Universiteit van Amsterdam (UvA) in 1977 middelen ter be-
schikking te stellen waarmee de potentiële waarde van een systeem voor computergestuurd
onderwijs voor het onderwijs aan de UvA kon worden onderzocht. Dit heeft geresulteerd
in het PLATO Proefproject Amsterdam, dat van 1977 tot 1979 is uitgevoerd door het
Centrum voor Onderzoek van het Wetenschappelijk Onderwijs (COWO) van de UvA, in
samenwerking met een groot aantal medewerkers en studenten van diverse studierichtin-
gen. In het project is een groot aantal bevindingen opgedaan die zijn vastgelegd in een
Eindrapport (Camstra et al., 1979). In dit artikel worden die bevindingen in kort bestek
samengevat. Daarbij wordt de nadmk gelegd op de bevindingen zelf. Hoe die tot stand
gekomen zijn wordt waar mogelijk toegelicht, maar vaak is het kortheidshalve nodig daar-
voor naar het Eindrapport te verwijzen.

Aan de Universiteit van Amsterdam zijn vanaf 1972 op zeer geringe schaal experimenten
uitgevoerd met computergestuurd onderwijs. Daarbij werd op uiteenlopende manieren
gebruik gemaakt van het computersysteem van het universitaire rekencentrum SARA-
De ervaringen hiermee hadden tegen 1976 geleid tot de conclusie dat een dergelijk 'general-
purpose' computersysteem geen geschikte omgeving bood voor de toepassing computer-
gestuurd onderwijs. Ongeveer gelijktijdig met deze vaststelling kwam PLATO, een zeer
geavanceerd systeem voor computergestuurd onderwijs, in Europa voor het eerst be-
schikbaar. Deze twee samenvallende ontwikkelingen vormden de aanleiding voor het
PLATO Proefproject Amsterdam. De doelstelling van het project werd (kort samengevat):
'te onderzoeken wat de potentiële betekenis van computergestuurd onderwijs (in het bij-
zonder het PLATO-systeem) was voor de totaliteit van het onderwijs aan de UvA'. Deze
doelstelling laat zien dat het project geacht werd een exploratief karakter te hebben. De
twee hoofdelementen van het project zouden zijn een dieptebenadering en een breedtebe-

nadering. De dieptebenadering zou bestaan uit een aantal experimenten in een aantal stu-
dierichtingen die zodanig waren geselecteerd dat een variëteit van leertaken en een varië-
teit van disciplines in het onderzoek kon worden betrokken. In deze experimenten zou
®en aantal kwalitatieve onderwijskundige vraagstellingen (geformuleerd in Camstra, 1977)
l^orden onderzocht. De breedtebenadering zou inhouden een inventarisatie en beoorde-
'ing op bruikbaarheid van de in het PLATO-systeem aanwezige bestaande lessen op zoveel
jnogelijk aan de UvA gedoceerde vakgebieden.

De voor het Project beschikbare middelen bestonden uit een viertal zg. 'abonnementen'
°P het PLATO-systeem. Een abonnement houdt in dat men een PLATO-terminal in huis
^rijgt, met ongelimiteerde toegang tot en gebruik van de centrale PLATO-computer.
Daarnaast krijgt men een stuk schijfruimte ter beschikking om zelf lessen te ontwikkelen,
^ toegang tot de in het PLATO-systeem aanwezige, door anderen ontwikkelde lessen.
Het is hier niet de plaats het PLATO-systeem en de PLATO-terminal uitgebreid te be-
schrijven; dat is al op vele plaatsen elders gedaan (bv. Camstra, 1980). Het is het verst ont-
wikkelde en meest verbreide systeem voor computergestuurd onderwijs (Crombag et al.,
1^79) en wordt vrij algemeen als het meest geavanceerde systeem gezien. Er bestaat me-
dio 1980 een netwerk van ongeveer 10 PLATO-systemen aan elk waarvan tussen de 50 en
de 1000 terminals verbonden zijn. In totaal zijn er in de wereld ongeveer 3000 terminals
aan dit netwerk verbonden. Eén kenmerk verdient apart vermelding, en wel dat er geduren-
de de ongeveer 20 jaar dat het systeem in ontwikkeling is, vele duizenden uren lesmateriaal
\ courseware') zijn ontwikkeld, door vele, voomamehjk Amerikaanse, docenten. Het was
'n.n. de potentiële beschikbaarheid van ± 6000 uur bestaande courseware die aaideiding
pf tot de breedtebenadering. Aangezien de ontwikkeling van lessen een van de grootste
•kostenposten vormt bij computergestuurd onderwijs, kan het een belangrijke lastenverla-
ging betekenen als het mogehjk zou blijken grote hoeveelheden bestaande lessen zonder
J^eer aan de UvA te gebruiken.

Het project zou de periode van sept. 1977 tot sept. 1978 bestrijken. Het ging eind okt.
^977 daadwerkelijk van start. In het vroege voorjaar van 1978 werd een aantal proble-
men ontmoet die m.n. betrekking hadden op de toegang tot bestaande courseware. Hier-
door was het onmogehjk om de geplande activheiten nog m het cursusjaar 77/78 uit te
Voeren en werd het noodzakelijk het project te verlengen, tot juh 1979.
I^a enige proefexperimentatie en andere voorbereidingen gedurende de tweede helft van
net cursusjaar 77/78, werden hi het kader van de dieptebenadering gedurende het cur-
^sjaar 78/79 een aantal experimenten uitgevoerd, waarbij in de studierichtingen Frans,
Opvoedkunde, Natuurkunde en Muziekwetenschap kleine stukjes onderwijs door middel
PLATO-lessen werden verzorgd. Ook deze experimenten waren nadruÜcelijk explora-
tief; gezien de doelstelling van het Proefproject en de omstandigheden waaronder de ex-
perimenten moesten worden uitgevoerd, was het noch de bedoeling noch mogelijk tot
narde uhspraken over 'de' effectiviteit van PLATO of iets dergehjks te komen. Aan deze
®*Perimenten hebben in totaal ongeveer 200 studenten deelgenomen,
^ok werd in dit cursusjaar, gedeeltelijk ten behoeve van de experimenten, ervaring opge-
daan met het ontwikkelen van eigen courseware. In totaal werden ruim 60 uren lesmate-
^aal ontwikkeld in Frans, Itahaans, wiskunde, statistiek, informatica. In de tweede helft
van 1979 werd het PLATO Proefproject afgerond en gerapporteerd. Op het vervolg ervan
^ordt aan het slot van dh artikel kort ingegaan.

Zoals gesteld is een aantal onderwijskundige vraagstellingen onderzocht door middel van
experimenten (meer in de betekenis van 'try-out' dan van gecontroleerd experiment)
in een aantal studierichtingen. Niet alle experimenten worden hier gepresenteerd; enkele
dienden als vóóronderzoek, sommige hadden uitsluitend lokale pretenties. Voor een ver-
slag van de experimenten in het kader van het primaire deelproject Opvoedkunde, wordt
verwezen naar de notitie van de hand van Hox en Soeteman in dit zelfde nummer. Eén
deelproject had een doelstelling die buiten het bestek van dit artikel ligt. Dit betreft het
deelproject Italiaans, in het kader waarvan een zgn. 'intelligent' onderwijzend auteurs-
systeem werd ontwikkeld op basis van noties uit de kunstmatige intelligentie en de cog-
nitieve psychologie (zie bijv. Cerri & Breuker, 1980).

In het eerste studiejaar van het studieprogramma Frans is een aantal studieonderdelen op-
genomen waarvan velen menen dat ze op universitair niveau niet meer nodig zouden moe-
ten zijn, maar die desondanks problemen opleveren. Twee hiervan werden in het experi-
ment betrokken, nl. 'Français Fondamental' en 'Verbes Irréguliers'. 'Français Fondamen-
tal' betreft het kennen en in de context van een zin kunnen gebruiken van de 3300 meest
frequente woorden van de Franse taal. De meeste daarvan leveren geen problemen op, en
de aandacht gaat in het studieonderdeel dan ook uit naar een subset van een paar honderd
moeilijkste woorden. 'Verbes Irréguliers' betreft het kennen van een aantal specifiek
moeilijke vormen van 220 Franse onregelmatige werkwoorden. Hoewel aan deze leertaken
in colleges wel enige aandacht wordt geschonken dienen de studenten zich de stof in prin-
cipe op eigen houtje eigen te maken, met behulp van lijsten, boekjes en oefencahiers. De
resultaten zijn veelal bedroevend en slaagpercentages lager dan 50%zijn schering en inslag.
Voor beide studieonderdelen werden PLATO-lessen ontwikkeld met een zgn. 'drill-and-
practice' karakter, een voorbeeld van het gebruik van de computer als oefenmachine (cf.
Camstra, 1980). In het vocabulaireprogramma wordt de student geconfronteerd met een
Franse zin met een 'gat' erin; ook wordt het Nederlandse equivalent gegeven, en de taak
van de student is de Franse vertaling te geven van dat woord in de context van die zin.
Op het antwoord wordt een spellingsanalyse uitgevoerd, en als het fout is wordt soms
woordspecifieke feedback gegeven. Als de student driemaal achtereen een fout antwoord
geeft, wordt het juiste antwoord hem verstrekt, maar komt de oefening aan het eind van
de serie weer terug, net zolang tot de student het zonder hulp goed doet. In het program-
ma voor de onregelmatige werkwoorden wordt de student gevraagd een bepaalde vorm
van het werkwoord te geven. Hierbij wordt hetzelfde model gehanteerd. Het zijn beide
simpele programma's waarin op een aantal kenmerken van computergestuurd onderwijs
wordt gekapitaliseerd, terwijl andere niet aan de orde komen. In beide gevallen vormt de
leertaak een volledige parallel met de manier waarop het tentamen wordt afgenomen. In
het vocabulaire-programma worden de 400 moeilijkste woorden geoefend, in het pro-

gramma onregelmatige werkwoorden ongeveer 3 moeilijke vormen van 220 werkwoorden.
Een voor het onderzoek aantrekkelijke omstandigheid was dat de studenten geacht
Worden gedurende het eerste studiejaar deze tentamens twee keer met goed gevolg af te
'®ggen met minimaal twee maanden tussentijd. Hierdoor was het mogeUjk om ook de
retentie van hetgeen met PLATO werd geleerd, na te gaan. Hiertoe werd de studenten na-
•lat ze voor de eerste keer geslaagd waren gedurende twee maanden de toegang tot de ter-
"linal ontzegd, terwijl hen ook op het hart werd gedmkt om ook anderszins niet te oefe-
■^en (iets waaraan de studenten graag gevolg gaven!). Na twee maanden werd hen gevraagd
®en voortoets te maken aan de terminal, die als tentamen geldig zou zijn indien hij vol-
doende werd gemaakt.

^Is proefpersonen fungeerden in totaal 42 eerstejaars op basis van vrijwilligheid. Als con-
trolegroep fungeerden de overige eerstejaars. Een analyse van andere tentamens liet geen
significante verschillen zien tussen de PLATO- en niet-PLATO-studenten, maar suggereer-
'ie Wel dat de PLATO-studenten de 'iets betere' studenten waren.

De PLATO-studenten hebben aan elk der programma's gemiddeld 15 uur gewerkt. Op
grond van gesprekken met de niet-PLATO studenten schatte de docente dat die zich even-
eens 15 uur hadden voorbereid op de eerste tentamengelegenheid. Uit de resultaten blijkt
veel meer PLATO-studenten dan niet-PLATO-studenten meteen de eerste keer slagen,
"^et een aanmerkelijk hoger cijfer. Omdat er vier tentamengelegenheden door het jaar heen

zijn, komen de meeste niet-PLATO-studenten geleidelijk aan weer bij. Toch blijft het uit-
eindelijk slaagpercentage van de PLATO-studenten hoger, evenals het gemiddelde cijfer
van de geslaagden. De PLATO-studenten hebben aan één tentamengelegenheid genoeg, de
niet-PLATO-studenten hebben gemiddeld ongeveer twee gelegenheden nodig. Aangeno-
men kan worden dat ze zich op die tweede gelegenheid opnieuw hebben voorbereid, zo-
dat ze naar alle waarschijnlijkheid in het totaal beduidend méér tijd aan deze studieonder-
delen hebben besteed.

Uit de retentiemeting bhjkt dat het met de PLATO-lessen geleerde nagenoeg voor de volle
100% beklijft gedurende een periode van ruim 2 maanden. Met betrekking tot het onder-
deel Français Fondamental moet enig voorbehoud worden gemaakt: de PLATO-studenten
beperkten hun studie tot de 400 moeilijkste woorden, waaruit ook altijd het tentamen
werd geput; aan de niet-PLATO-studenten was (o.i. ten onrechte) niet bekend gemaakt uit
welke 400 woorden altijd het tentamen werd geput. Het is dus mogelijk dat de niet-PLA-
TO-studenten aan deze 400 minder tijd hebben besteed dan de PLATO-studenten. Bij
Verbes Irréguliers is evenwel geen sprake van een dergelijk artefact, en daar zijn de resul-
taten volstrekt identiek. De conclusie luidt dat bij leertaken als de onderhavige een een-
voudige computergestuurde les van het 'drill-and-practice'-type de studenten tot vrijwel
volledige beheersing kan brengen en dat de aldus verworven kennis langdurig beklijft.

Een omvangrijk en belangrijk bestanddeel van het eerstejaars studieprogramma-Muziek-
wetenschap wordt gevormd door het studieonderdeel 'gehoortraining'. Dit houdt in dat
de student intervallen, akkoorden, harmoniën, melodieën en ritmen moet leren onder-
scheiden, herkennen, reproduceren en noteren. Van oudsher wordt dit onderwezen door
een docent die de betreffende muzikale eenheden op een piano voorspeelt aan één of en-
kele studenten. Toen het aantal studenten muziekwetenschap zodanig toenam dat dit niet
meer mogelijk was, is een systeem met banden in gebruik genomen, waarmee de studen-
ten individueel konden werken in een talenpraktikum. Nadelen van dit systeem zijn het
gebrek aan flexibiliteit, de vaste aanbiedingsvolgorde, het gebrek aan terugkoppeling, enz.
Aan de University of Delaware, waar men voor hetzelfde probleem kwai.i te staan, heeft
men een uitgebreid pakket oefenlessen ontwikkeld voor het PLATO-systeem, GUIDO ge-
heten. Daarbij wordt gebruik gemaakt van de zgn. Gooch music-box, een vierstenunige
muzieksynthesizer. Aangezien het GUIDO-pakket nagenoeg alle elementen bevatte die in
het studieonderdeel gehoortraining aan de orde dienen te komen, werd besloten er een
proef mee te nemen.

In het studieprogramma is 4 uur per week voor de gehoortraining uitgetrokken, dit is 160
uur per jaar. In de praktijk besteden de studenten er ongeveer 100 uur aan. Gegeven het
feit dat er maar één terminal voor deze proef beschikbaar was en elke deelnemende
student daaraan 4 uur diende door te brengen, konden slechts 10 studenten aan het expe-
riment deelnemen. Van de 60 eerstejaars meldden 26 zich aan voor vrijwillige deelname
aan het experiment. Hiervan zijn er 10 aselect aan de PLATO-groep toegekend. Deze be-
gonnen op 26 sept. 1978; gelijktijdig begonnen de overige studenten met de banden-
methode.

Tot ieders verrassing bleek een groot deel van deze 10 studenten al vóór Kerstmis met het
gehele jaarprogramma klaar te zijn. Vijf studenten waren helemaal klaar, nog eens drie
ïna, één student stopte rond Kerstmis met de studie en één student was in juni 1979
•^og op 70% van het programma. De 8 studenten die het hele programma afwerkten, be-
steedden er tussen de 26.7 en 44.3 uur aan, met een gemiddelde van 35.3 uur. Deze gege-
vens kunnen worden vergeleken met de voortgang van de banden-studenten, die rond
'kerstmis werd vastgesteld: van de 50 studenten hadden er 21 nog geen enkele test ge-
"^aakt, 18 hadden een paar testjes gemaakt, 8 studenten waren halverwege of verder,
^as bijna klaar en 2 waren helemaal klaar. Van de 21 studenten kan worden aangeno-
"len dat ze nog in het geheel geen aandacht aan de gehoortraining hadden besteed of
™et de studie waren gestopt; de andere 29 studenten hadden met Kerstmis ongeveer
° Uur aan de gehoortraining besteed.

Door het hoge tempo waarin de GUlDO-studenten het gehoortrainingsprogramma af-
. erkten ontstond er onverwacht weer capaciteit op de muziekterminal. Daarom werd in
januari 1979 nog een groep van 14 studenten, die met het bandensysteem geringe, maar
enminste enige vorderingen hadden gemaakt, in de gelegenheid gesteld de gehoortraining
°P PLATO af te maken. Deze hebben aan gemiddeld 50% van het GUlDO-programma
gemiddeld 20.8 uur gewerkt. De meesten waren in maart klaar, enkele in mei, één student
opte met de studie en één was in juni nog niet helemaal klaar. Van de oorspronkelijke
bandenstudenten waren er rond Kerstmis ongeveer 20 met de studie gestopt, 3 waren
.aar met het programma; van de overblijvende 27 stapten er 14 over naar PLATO en
^ngen er 13 door met de banden. Van deze 13 waren er in juni 3 klaar en 10 nog niet

^e uitval- en tijdsbestedingsgegevens zijn tamehjk eenduidig. Van de oorspronkelijke
LATO-groep viel 1 student uit (10%), van de banden-studenten waren er met Kerstmis
°ngeveer 20 gestopt (40%); van de tweede PLATO-groep viel er wederom 1 uit (7%),
an de 13 resterende banden-studenten namen er 5 niet eens deel aan de afsluitende
(zie onder), hen als uitvallers beschouwen levert een waarschijnlijke ondergrens voor
j.® uitval in deze groep op (38%). De PLATO-studenten die het gehele programma door-
pen besteedden daar gemiddeld 35 a 40 uur aan, de bandenstudenten naar schatting
sussende 60 en de 100uur.

Dpze gegevens zeggen natuurlijk niet alles. Sommige onderdelen van het GUIDO-pakket
, yn 'competency-based', hetgeen betekent dat ze pas worden afgesloten als het criterium
s bereikt, waardoor het leereffect min of meer is gegarandeerd. Voor een belangrijk aan-
^ andere onderdelen geldt dat echter niet. Bij het doorlopen daarvan kon een aantal
^rucjes worden gebruikt (zie Camstra et al., 1979, pp. 91-92) die de progressie versnel-
niaar niet noodzakelijkerwijs bevorderlijk waren voor het leereffect. Er kon slechts
1;. ^'^'lotisch inzicht verworven worden in de mate waarin die trucjes ook daadwerke-

nen enige twijfel aan de effectiviteit van het GUIDO-pakket. Daarom werd aan het eind
van het jaar een afsluitende test gelast welke daarover uitsluitsel diende te verschaffen.
Hieraan kleefden naar de mening van het Projectteam een groot aantal procedurele en
onderzoeksmatige manco's (op. ch., p. 88-89), en de cijfermatige resultaten zijn o.i.
nauweUjks interpreteerbaar. Vijftien studenten namen deel, vier behaalden een voldoende
resultaat. Gegevens en omstandigheden in aanmerking genomen, lijken ons de conclusies
gerechtvaardigd dat het gehoortramingsprogramma in zijn totaliteh slecht aan zijn doel-
stellingen beantwoordt, en dat het met PLATO niet beter of slechter is gegaan, maar wel
twee keer zo snel. Een aantal van de problemen die tot een suboptimaal functioneren van
het GUIDO-pakket hebben geleid, zijn overigens van technische en organisatorische aard
en eenvoudig oplosbaar (op cit., pp. 89-93).

Aan de inventarisatie en beoordeling van de bestaande courseware zitten tenminste drie
mteressante vragen vast:

1. welk gedeelte van de (toen) 6000 uur courseware komt voor beoordeling op bruikbaar-
heid voor de UvA überhaupt in aanmerking, en op welke vakken hebben die lessen be-
trekking?

De 6000 uur courseware waarvan de zgn. X41 catalogus van het CERL (Lyman, 1977)
melding maakt, bestrijken alle mogelijke niveaus van het onderwijs, van Üeuterschool
tot postacademisch, van logica tot autoreparatie. Bij beschouwing van de beschrijvingen
moet worden geconstateerd dat lessen op universitair niveau hiervan maar een tamelijk
klein deel uitmaken. Als belangrijkste reden hiervoor kan worden aangevoerd dat rela-
tief veel lessen op universitair niveau werden ontwikkeld voor de eerste jaren van de stu-
die, en vergelijking daarvan wijst uit dat die onderwerpen in Nederland veelal m de laat-
ste jaren van het VWO aan de orde komen. Naar schatting wordt ongeveer 30% van het
totale bestand aan courseware betiteld als 'Amerikaans universitair niveau' (2000 uur).
De ongehjkwaardigheid, hierboven aangeduid, leidt ertoe dat hiervan naar schatting
slechts ongeveer 40% kan worden aangemerkt als 'Nederlands universitair niveau' (800
uur). Deze 800 uur komt derhalve voor beoordeling in aanmerking. Deze lessen bestrij-
ken vakgebieden als medicijnen, biochemie, organische chemie, microbiologie, diverse ta-
len (Russisch, Frans, Latijn, Spaans), muziek, informatica, farmacologie, diergeneeskun-
de, economie en bedrijfskunde.

De bovengenoemde 6000 uren courseware zijn voor het merendeel gemaakt door docen-
ten en studenten van de University of Illinois at Urbana-Champaign en bevinden zich op
het PLATO-systeem van die universiteit, het zgn. CERL-systeem. Een klein gedeelte daar-
van is door CDC, de computerfabrikant die PLATO op de markt brengt en met wiens

ßrusselse PLATO-systeem in het Proefproject werd gewerlct, gepubhceerd en is op alle be-
staande PLATO-systemen zonder meer toegankelijk. Medio 1979 was er ongeveer 800 uur
courseware gepubliceerd. Hiervan kan ongeveer 250 uur worden betiteld als 'Nederlands
Universitair niveau'. Andere potentieel te beoordelen lessen moeten eerst van het CERL-
systeem naar het Brusselse systeem worden overgezet. Dit bleek in de loop van het Proef-
project een veel minder eenvoudige zaak dan was voorzien. In de praktijk bleek dat hier-
aan zoveel bureaucratische, administratieve, juridische en technische haken en ogen zaten,
dat het beschikbaar krijgen van lessen van het CERL-systeem een zeer moeizame zaak
^as. Na de aanloopperiode is 31 maal een gespecificeerd pakket lessen opgevraagd. In 13
gevallen lukte het deze beschikbaar te krijgen, in 5 gevallen werden ze ondertussen gepu-
"ceerd, en in 13 gevallen bleef het verzoek om een veelheid van redenen zonder resul-
aat. De geslaagde transfers duurden gemiddeld 3 maanden, en in bepaalde gevallen was de
Seinteresseerde docent dan al niet meer geihteresseerd.

lessen in de vakken waarop de primaire deelprojecten betrekking hadden, zijn uiter-
aard nagenoeg alle beoordeeld. Daarnaast hebben een kleine 100 docenten en gevorder-
e studenten lessen beoordeeld met behulp van het zgn. Minilesbeoordelingsformulier.
IJ de naar schatting in totaal 250 beoordeelde lessen zijn om diverse redenen lessen op de
gebieden medicijnen, scheikunde, Russisch, Latijn en farmacologie ondervertegenwoor-
'gd. In totaal werden ongeveer 200 ä 250 uren courseware als bruikbaar beoordeeld,
lierbij zitten vrij omvangrijke pakketten muziek, Frans, informatica en bedrijfskunde/
"management. Vermoedelijk zitten er onder de onvoldoende aan bod gekomen vakken nog
aanzienlijke pakketten bruikbare lessen, m.n. op de gebieden medicijnen, scheikunde en

De conclusie moet luiden dat van de 6000 uren courseware die op PLATO-systemen ge-
acht worden te bestaan, enige honderden uren in Nederlandse universitaire curricula kun-
nen worden gebruikt. Hierbij moet in acht worden genomen dat dit onderzoek een mo-
nientopname vertegenwoordigt en wel de stand van zaken omstreeks 1978/1979. De hoe-
veelheid courseware breidt zich gestaag uit en de schattingen medio 1980 liggen in de
van de 10.000 ä 12.000 uren. Desondanks kan uit de beoordeling de duidelijke con-
clusie worden getrokken dat één van de veronderstelde voordelen van PLATO boven even-
tuele andere CAI-systemen, nl. dat er voor PLATO zo gigantisch veel bestaande course-
ware is, voor universitaire toepassing veel minder gewicht in de schaal legt dan voor het
roefproject werd aangenomen.

t ot zover de bespreking van een aantal krenten uit de pap van het PLATO Proefproject,
^aast het bovenstaande zijn er nog véél meer activiteiten uitgevoerd door de ongeveer 330
betrokkenen, die tussen oktober 1977 en eind 1979 niet minder dan 20.000 uren aan de
^ATO-terminal doorbrachten. Voor al die andere dingen is hier geen plaats; men zij nog-
'Vaals verwezen naar het Eindrapport. De rest van het artikel besteden we aan de conclu-
des die op grond van deze activiteiten en hetgeen hierboven gerapporteerd is, kunnen
borden getrokken.

Vooraf: computergestuurd onderwijs wordt nog wel eens ten onrechte aangezien voor een
onderwijsmer/zode. Dat is een onjuiste voorstelling van zaken: de computer moet worden
bezien als een onderwijsmec?/«/«, waarmee via verschillende methoden onderwijs kan wor-
den gerealiseerd. De vraag naar de kwaliteit van een systeem voor computergestuurd on-
derwijs is dan ook de vraag naar de mate waarin dat systeem het realiseren van een opti-
male onderwijs/leersituatie faciliteert. Een goed systeem voor computergestuurd onder-
wijs garandeert dus geen goed onderwijs, maar levert de faciliteiten waarmee een docent/
auteur goed onderwijs kan creëren. We zullen daarom de mate waarin PLATO die facili-
teiten blijkt te bieden (de onderwijskundige potentie) bespreken los van de mate waarin
daarmee feitelijk onderwijs blijkt te worden verzorgd (de onderwijskundige actualiteit).

Het PLATO-systeem is in de praktijk een uitermate geschikt systeem voor computerge-
stuurd onderwijs gebleken. Het systeem pretendeert nogal wat, maar blijkt die pretenties
ook waar te maken. Het beschikt over een groot aantal hardware- en softwarefaciliteiten
om de interactie tussen student en programma te vergemakkelijken. Het scherm heeft
een hoog oplossend vermogen, waardoor een grote beeldscherpte en een hoge mate van
detaillering mogelijk is; het beschikt over volledige grafische mogelijkheden; animaties
(bewegende beelden) zijn mogelijk; de programmeerbare karakterverzameUng biedt zeer
veel mogelijkheden. Al deze faciliteiten om de boodschap naar de student toe vorm te
geven, blijken in de praktijk zeer goed hanteerbaar. Hetzelfde geldt voor het zgn. 'touch
screen', waarbij de student op natuurlijker wijze met het door de computer gegenereerde
beeld kan bezig zijn, door een bepaalde plaats aan te wijzen, dan via een 'vertahng' naar
het toetsenbord mogelijk is. Deze faciliteit wordt veel gebruikt en wordt hogelijk gewaar-
deerd.

Een ander facet van de onderwijskundige potentie bestaat uit de faciliteiten om het leer-
proces van de studenten te begeleiden. PLATO beschikt daartoe over een programmapak-
ket voor 'computer managed instruction' (CMI), PLATO Learning Management (PLM) ge-
heten. Met dit pakket kunnen voor studenten individuele leerpaden worden uitgestippeld
door een curriculum, dat niet alleen uit computergestuurde lessen behoeft te bestaan.
Met dit PLM-pakket is in het Proefproject niet geëxperimenteerd, m.n. omdat het gehan-
teerde begrippenapparaat en de terminologie ('units', 'objectives', 'modules', etc.) voor de
gemiddelde Amsterdamse docent nogal ontoegankelijk was en daardoor niet erg tot expe-
rimenteren uitnodigde, en omdat het enige tijd en energie vergde om je in het pakket in
te werken. Met een ander niveau van begeleidmg van het leerproces is wel ervaring opge-
daan, nl. de mogelijkheid om vanuit lessen gegevens over de doorloop van de student bij
te houden en te bewaren. De programmeertaal van het PLATO-systeem, TUTOR, blijkt
daartoe over zeer bruikbare mogelijkheden te beschikken.

Een derde facet dat ertoe kan bijdragen dat de onderwijskundige potentie in ondenvijs-
kundige actualiteit wordt omgezet, is gelegen in het feit dat het PLATO-systeem een ui-
termate rijk milieu voor lesontwikkeling biedt. Hierin spelen drie onderdelen een rol. De
eerste is de aanwezigheid en toegankelijkheid van een zeer groot aantal lessen op een
groot aantal vakgebieden, die van een grote variëteit van onderwijskundige benaderingen

instructiestrategieèn gebruik maken. Hiervan gaat een belangrijke voorbeeldwerking
"it. Het tweede onderdeel bestaat uit de veelheid van hulpmiddelen die de docent/auteur/
programmeur ter beschikking staan; editors, speciale grafische editors, bibliotheken van
l^arakterverzamelingen, en vooral de 'on-line' documentatie van de programmeertaal,
vomigegeven als een omvangrijk pakket PLATO-lessen, AIDS. En als deze onderdelen de
esontwikkelaar nog niet voldoende kunnen steunen in zijn problemen, dan is er nog het
®rde onderdeel: de onderiinge steun en het leereffect dat uitgaat van het wereldwijde
communicatienetwerk tussen de duizenden PLATO-terminals. Via dit netwerk blijkt bij-
U® elk lesontwikkelings- of programmeerprobleem, in samenwerking met een gelijkgestem-
de ziel ergens ter wereld, oplosbaar.

Het laatste te behandelen facet wordt gevormd door het technisch functioneren van het
^ysteem dat de leermteractie mogelijk maakt. De twee belangrijkste kenmerken zijn hier
® Zgn. responstijd en de betrouwbaarheid. M.b.t. beide kenmerken kan worden gesteld
at het PLATO-systeem van Brussel zeer bevredigend heeft gefunctioneerd. De respons-
ijd Was in alle gevallen probleemloos (korter dan een halve seconde). De betrouwbaar-
eid van het systeem kan als ruün voldoende worden betiteld voor computergestuurd on-
derwijs in de praktijk.

^at komt er van de, naar in het Proefproject is vastgesteld, aanzienlijke onderwijskundige
potentie, m de praktijk terecht? We zullen dit differentiëren naar de aard van de leertaak,
"^et de bijbehorende onderwijskundige benadering. In het Proefproject is veel ervaring op-
gedaan met leertaken die betrekking hebben op de herkenning en reproduktie van eenhe-
^«-kennis, en minder op de verwerving van kenniscomplexen en de toepassing daarvan.

oor leertaken van het eerste type (zoals bij Frans en muziek) is het 'drill-and-practice'
''^odel adequaat, voor leertaken van het andere type komen onderwijs-dialogen, simulaties
^ Problem-solving programma's meer in aanmerking (Camstra, 1980).
^et betrekking tot leertaken die met drill-and-practice lessen kunnen worden benaderd,

PLATO, en waarschijnüjk computergestuurd onderwijs in het algemeen, als een zeer
® [cctief en efficiënt medium worden betiteld. De ervaringen bij Frans suggereren dat der-
Sehjke eenhedenkennis tot op een zeer hoog niveau van beheersmg kan worden verworven
cii tevens een goede retentie met zich meebrengt. De ervaringen bij Frans en Muziekwe-
tenschap suggereren tevens dat dat gebeurt in ruwweg de helft van de tijd, die andere,
conventionele' wijzen van verwerving vergen. Als dit een generaÜseerbaar gegeven is, kan
et de claim van intensivering van het leerproces ondersteunen,
'^et betrekking tot anderssoortige leertaken is in het Proefproject te weinig ervaring op-
gedaan om dergelijke uitspraken te rechtvaardigen. De min of meer anekdotische ervarin-
pn lopen uiteen van zeer positief (een uitgebreide cursus in COMPASS, de assembleer-
taal van CDC-computers) via gematigd positief (bv. FORTRAN-lessen) tot gematigd ne-
gatief (bv. bij het wiskunde-experiment van Opvoedkunde, zie de notitie van Hox en Soe-
^nian, elders in dit nummer).

el is in het algemeen duideüjk geworden dat de meest positieve ervaringen daar worden
Opgedaan waar wordt gebruik gemaakt van lessen die in vergaande mate zijn toegespitst
Op de lokale onderwijssituatie. Dit is geen triviale bevindmg en heeft belangrijke conse-
qtienties: de conclusie uit het Proefproject luidt '... dat het (behoudens in uitzonderiijke

situaties) onwaarschijnlijk moet worden geacht dat je uitsluitend op basis van elders ont-
wikkelde lessen optimaal met PLATO kunt onderwijzen en leren. Het is mogelijk geble-
ken met PLATO een onderwijssituatie te creëren die in effectiviteit en/of efficiëntie an-
dere verre overtreft, maar dat vergt tenminste grondige lokale aanpassing en soms ge-
woon: zelf ontwikkelde lessen.' (Camstra et al., 1979, p. 118).

Deze conclusie wordt uiteraard mede ingegeven door de bevindingen in de breedtebenade-
ring, m.b.t. de potentiële bruikbaarheid van de bestaande courseware. Samengevat kan
worden geconcludeerd dat één van de beweerde voordelen van PLATO boven andere mo-
gelijke computersystemen voor CAI, nl. de beschikbaarheid van grote hoeveelheden be-
staande lessen, door de ervaringen in het Proefproject is ontmaskerd: dat argument gaat
in zijn algemeenheid voor Nederlandse universitaire instellingen niet op.

ln het kader van het Proefproject zijn er in totaal naar schatting 62 uren eigen lessen ont-
wikkeld (Frans, Italiaans, remedial wiskunde, statistiek en een cursus SPSS-gebruik). De
programmeertaal TUTOR, waarin dat is gebeurd, is een betrekkelijk normale hogere orde
programmeertaal, waarin een groot aantal voor computergestuurd onderwijs nuttige func-
ties en routines is ingebouwd. De taal dringt geen bepaald onderwijskundig model op en
laat zich voor allerlei mogelijke onderwijskundige vormgevingen gebruiken. Hij kan even-
wel, door de omvang die hij heeft aangenomen (waardoor hij medio 1980 bestaat uit naar
schatting 400 commando's, routinenamen, systeemvariabelen, etc.) geen eenvoudige taal
meer worden genoemd. De ervaringen opgedaan in het Proefproject wijzen uit dat met
een leertijd van rond de 500 uur moet worden rekening gehouden voordat een gemid-
delde auteur/programmeur de taal geheel en tot in details beheerst. Daarnaast vergt de
kennis van TUTOR een zekere mate van onderhoud. Deze twee gegevens tezamen hebben
in het Proefproject geleid tot de aanbeveling om voor lesontwikkeling gebruik te maken
van min of meer professionele programmeurs (eventueel gevorderde studenten) en die
liefst niet minder dan halftime in te zetten. Lesontwerp en -ontwikkeling dienen uiter-
aard door vakinhoudelijk onderlegde docenten te gebeuren, maar in het algemeen moet
worden afgeraden dat die ook de programmering verzorgen.

Ook m.b.t. de ontwikkelingstijd die het maken van eigen lessen vergt, moet worden gedif-
ferentieerd naar het soort les. De ontwikkeling van de (zeer effectief) gebleken Franse
drill-and-practice lessen heeft in zijn totaliteit ongeveer'10 ä 15 uur ontwikkelingstijd per
uur instructie gevergd. Nu de skeletten van deze lessen bestaan en uitgetest zijn, kunnen
analoge lessen voor andere talen zelfs met nog véél minder tijd gemaakt worden, bv. 5 uur
per uur. Dit zijn uitzonderlijk lage getallen. De ontwikkelingsratio (ontwikkelingstijd per
uur instructie) ligt voor de andere lessen naar schatting tussen de 1:80 en de 1:120, en
die getallen komen overeen met welke gemeenlijk in de literatuur gerapporteerd worden
(bv. Avner, 1979). De benodigde ontwikkeUngstijd hangt dus in zeer vergaande mate af
van de onderwijskundige vormgeving van de les.

Het individualiseringskenmerk van computergestuurd onderwijs heeft in het Proefproject
minder accent kunnen krijgen dan misschien wenseUjk was. Van een aantal individualise-

"ngsmogelijkheden is uiteraard voortdurend gebruik gemaakt, m.n. de individualisering
"aar leertempo en naar hoeveelheid oefening, welke beide door de studenten dan ook zeer
berden gewaardeerd. Een serie niet geheel adequate lessen is ingezet in een poging tege-
moet te komen aan heterogene manco's in voorkennis, bij het remedial wiskunde experi-
nient van het deelproject Opvoedkunde (zie Hox en Soeteman, elders in dit nummer),
met matig resultaat. Voor één van de drie groepen daarin, de 'restgroep', functioneerden
e PLATO-lessen primair als remedial teaching, ter opfrissing van ooit al eens verworven
ennis. Op vergelijkbare wijze werd PLATO gebruikt bij het deelproject Natuurkunde,
daarin studenten naar de terminal werden gestuurd als ze een element van de program-
meertaal FORTRAN vergeten waren. Daar haalden ze die kennis dan op met een korte
Deze gebruikswijze, die betrekkelijk vrije terminalbeschikbaarheid veronderstelt,
'eek zich organisatorisch slecht te verhouden met de vergaande roostering die de andere'
eelprojecten zich moesten getroosten. Gebruik van computergestuurd onderwijs als re-
medial teaching medium lijkt dus in principe goed mogelijk, maar stelt geheel eigen organi-
satorische eisen. Ook lijkt het mogelijk met computergestuurd onderwijs tegemoet te ko-
'^en aan individuele verschillen in deficiënties in voorkennis, maar de ervaringen suggere-
l'en dat men er goed aan doet daarop in sterke mate toegespitste lessen te gebruiken en
et computergestuurd onderwijs in te kaderen in een meeromvattend curriculum, waarin
Ook anderssoortige leeractiviteiten en contact met docenten figureren.

Uiteraard is één van de belangrijkste factoren voor het slagen van computergestuurd on-
erwijs in de praktijk de mate waarin het medium voor de betrokkenen acceptabel is, en
e opvattingen van de studenten leggen daarbij een groot gewicht in de schaal. Aan alle
^ 25) studenten die aan een van de experimenten in de deelprojecten hebben deelgeno-
en, is daarom gevraagd een vragenlijst m te vuUen die was ontwikkeld om op die mate
an acceptatie licht te werpen. Van 86 studenten is een ingevulde vragenlijst ontvangen,
en deze vormen volgens de betrokken docenten een representatieve groep. De vragen-
ijst bestond uit drie gedeelten. In het eerste deel werd m.b.t. 21 meningen over compu-
ergestuurd onderwijs gevraagd aan te geven in welke mate de student het met die mening
eens was. De 21 meningen werden samengenomen tot 4 clusters die als volgt werden be-
noemd: 'algemene acceptatie', 'acceptatie van de culturele aspecten van de vormge-
"ig , 'onderwijskundige kwaliteit' en 'technische kwaliteit'. Algemene acceptatie was de
eombinatie van vier items (positief voorbeeld: 'ik zou PLATO zeker aan mijn collega-
ndenten aanbevelen', negatief voorbeeld: 'ik ben niet voor deze vorm van onderwijs
®mdat het een stap is op weg naar ontmenselijkt onderwijs'); acceptatie van de culturele
i..P®eten van de vormgeving eveneens vier (positief voorbeeld: 'ik vindt het niet bezwaar-
JK dat de lessen sterk Amerikaans georiënteerd zijn'; negatief voorbeeld: 'de lessen be-
p^ndelen je vaak nogal kinderachtig'); de mening over de onderwijskundige kwaliteit van
Q werd gebaseerd op vijf vragen (positief voorbeeld: 'met PLATO je leerstof prima
etenen'; negatief voorbeeld: 'het is bij PLATO moeilijk de grote lijn te pakken te krij-
^ n ); en de mening over de technische kwaliteit werd bepaald door samenneming van vier
sch^^" (poshief voorbeeld: 'tijdens het gebruik van PLATO had ik weinig last van techni-
, storingen'; negatief voorbeeld: 'het bedienen van de terminal leidde me af van het le-
" De scores werden getransformeerd naar een schaal van O tot 100, waarbij 100 de

houding van 'zéér positief t.o.v. PLATO' vertegenwoordigt, 50 een neutrale houding (niet
voor, niet tegen) en O een zéér negatieve houding. De resultaten van dit deel van de vra-
genlijst zijn samengevat in Tabel 2.

Hieruit kan als belangrijkste conclusie worden getrokken dat computergestuurd onderwijs
i.e. PLATO vóór deze studenten een acceptabel medium is. Dit stemt overeen met de in-
formele maar frequente observatie dat de studenten een volstrekt zakelijke houding ten
toon spreiden t.o.v. de computer als leermedium. Deze houding werd gekenmerkt door

iets als 'als het werkt, is het OK'; véél minder dan verwacht was er sprake van sterke a
priori oordelen, en een stelling als 'ik ben niet voor deze vorm van onderwijs omdat het
een stap is op weg naar ontmenselijkt onderwijs', werd alleen door de Opvoedkundestu-
denten in zeer lichte mate beaamd, door de andere groepen ontkend. Een tweede conclu-
sie is dat er sprake is van vrij consistente verschillen tussen groepen, en bij nadere analyse
Wijken die verschillen nagenoeg parallel te lopen met de mate waarin het PLATO-onder-
v^'ijs was toegespitst tot de lokale onderwijssituatie.

Het tweede deel van de vragenlijst beoogde enig licht te werpen op de vraag hoe de stu-
denten het medium PLATO waarderen t.o.v. andere hen bekende onderwijsvormen. Deze
Waren: hoorcoUege, werkcollege, discussiegroep, (talen-) practicum en zelfstudie. Gegeven
^e aard van de leertaak zijn niet alle vergelijkingen voor alle groepen zinvol. We zullen ons
hier beperken tot de conclusies m.b.t. de zinvolle vergelijkingen. (Zie pag. 110)
De voorkeur van de Opvoedkundestudenten gaat gemiddeld enigermate uit naar de werk-
collegevorm, maar voor de rest gooit PLATO in vergelijking met andere onderwijsvormen
|\oge ogen.

Het derde deel van de vragenlijst bestond uit de open vragen 'wat de student ^oeJ en wat
hij slecht vond aan het leren met PLATO'. Vrijwel alle studenten hebben deze vragen,
soms zeer uitgebreid, beantwoord, in hun eigen bewoordingen. Tenminste 10 studenten
gaven de volgende antwoorden:

eigen tempo	36 X
herhalings- en oefenmogelijkheden	21 x
leuk, spelenderwijs leren	17x
efficiënt tijdgebruik	15x
eigen tijd kiezen	14x
concentratiebevorderend	12 X
steeds weer overhoren	12x
individueel leerproces	10 X
goede opzet, opbouw	lOx
lijnstoringen	19 X
te weinig hulp	18x
te weinig terminals	12x
onpersoonlijk	11 X
te veel opgaven	lOx
kunnen afleiden dat de studenten in vele gevallen de hoofdmo-

zekere mate in het hoge onderwijs ingevoerd zou kunnen worden. Het heeft evenwel óók
laten zien dat daaraan nog heel wat haken en ogen zitten. In de meeste gevallen zal invoe-
ring moeten worden gebaseerd op eigen, nog te ontwikkelen, op de eisen van de lokale on-
derwijssituatie toegespitste, lessen. Ook is er nog onvoldoende zicht op de vraag hoe com-
putergestuurd onderwijs moet worden ingericht voor andere kennis en vaardigheden dan
welke met drill-and-practice kunnen worden verworven. Last but not least moet worden
vastgesteld dat computergestuurd onderwijs, op de kleine schaal als in het Proefproject,
nog steeds onaanvaardbaar duur is. Op kleme schaal gebmikt kost een student-contact-
uur met PLATO ongeveer ƒ30,—. Opdat deze kosten naar een acceptabel niveau zakken
(en men dient daarbij o.i. ƒ 10,— per uur als bovengrens aan te houden), dient een schaal-
vergroting naar minimaal enige honderden terminals op te treden (van der Drift, 1979),
zo mogelijk te realiseren in een landelijke samenwerking tussen instellingen van hoger
onderwijs. Hoewel pogingen ondernomen zijn tot een dergelijke samenwerkmg te komen
(zie Camstra et al., 1979; Stuurgroep PLATO, 1979) en ook aan de Commissie Voorberei-
ding Open Universiteit is geadviseerd PLATO te incorporeren in het onderwijssysteem
van de Open Universiteit (Crombag et al., 1979, p. 151) is dat schaalvergrotmgsperspec-
tief niet onmiddellijk in zicht. Op grond daarvan heeft de Universiteitsraad van de UvA in
maart 1980 besloten dat verder experimenteren met PLATO in de gegeven omstandig-
heden niet verantwoord was. Op het moment wordt er door het COWO in samenwerking
met een aantal geïnteresseerde (sub)faculteiten gewerkt aan een diversificatiebeleid, waar-
m getracht wordt te komen tot specifieke toepassmgen van computergestuurd onderwijs
met gebruikmaking of ontwikkeling van systemen die in onderwijskundige mogelijkheden
liefst niet te veel, maar in kosten zeker onderdoen voor PLATO.

Avoird, W. van der en Camstra, B. Droogtrainen in het doen van onderzoek. Universiteit van Amster-
dam: COWO, 1976.

Avner, R.A. Production of Computer-Based Instructional Materials. In H. 0'Neil (ed.). Issues in

Instructional Systems Development, New York: Academic Press, 1979.
Bekkers, B. en Berkel, H. van. Werkstudenten en hun problemen: een literatuurstudie. Universiteit

van Amsterdam: COWO, 1978.
Camstra, B. Uitgewerkte evaluatievraagstcllingen PLATO Proefproject. Universiteit van Amsterdam:
COWO, 1977.

Camstra, B. Leren en Onderwijzen met de Computer, Leiden: Stenfert Kroese Uitgevers, 1980.
Camstra, B., Dijk, T.A. van, Avoird, W. van der et al. Leren met de Computer: Eindrapport van het

PLATO Proefproject. Universiteit van Amsterdam: COWO, 1979.
Cerri, S.A. en Breuker, J.A. A rather intelligent language teacher. In: Proceedings AISB'80, Society

for the Study of Artificial Intelligence and the Simulation of Behaviour, 1980.
Crombag, H.F.M., Chang, T.M., Drift, K.D.J.M. van der & Moonen, J.M. Onderwijsmiddelen van de

Open Universiteit: Functies en Kosten, Den Haag: Staatsuitgeverij, 1979.
Drift, K.D.J.M. van der. De doelmatigheid van computer-ondersteund onderwijs. Tijdschrift voor

On derwijsresearch, 1979,4,49-61.
Hoogstraten, Joh. Alleen of met z'n tweeën. Academisch proefschrift. Universiteit van Amsterdam,
1976.

Hox, J.J. & Soeteman, Th. Enige ervaringen met PLATO bij het prekandidaatsonderwijs wiskunde en

statistiek. Tijdschrift voor Onderwijsresearch, 1981,6,130-135.
Lyman, E.R. PLATO Curricular Materials. University of Illinois: CERL, 6tli edition, 1977.
Stuurgroep PLATO. Samenwerkingsnota. Universiteit van Amsterdam, 1979.

Based on a reader in social psychology, a text was written on 'bystander apathy', 1600 words in
length. Three more versions were composed by dividing this text into ten parts, to each of
which one of three different adjunct aids was added:
1- experimenter provided examples,

3. assignments to answer questions about concrete situations, in accordance with general in-
formation from the text.

They were meant to stimulate the reader to elaborate on general principles and definitions, by
thinking of instances and examples.

Four groups of freshman psychology students (n = 66), studied these different versions. In
accordance with a transfer approriate processing view and contrary to an elaborative proces-
sing view, the main hypothesis stipulated that knowledge reproduction would not be affected
by these aids, but that answering application questions would be enhanced. According to Witt-
rock's generative model of learning it was hypothesized that experimenter provided examples
would be least effective. Results gave modest support to the main hypothesis, and contradicted
the second one.

laatste 10 jaar is veel onderzoek gedaan naar tekstbestudering. Theorieën, op grond
aarvan men bestuderingsprocessen kan sturen, heeft dit onderzoek echter nauwehjks
opgeleverd.

jan Hout-Wolters (1980) bestudeerde een 50-tal artikelen, die na 1970 op dit gebied wer-
n gepubliceerd. Zij konkludeert dat het weinig voorkomt dat onderzoek is opgezet van-
,' een duidelijk geëxphciteerd theoretisch kader. Voor zover daar wel sprake van is, gaat
enerzijds om meer formele theorieën, waarin het aksent ligt op proposities, schema's
" scripts (van Dijk, 1977; Kintsch, 1974; Meyer, 1975; Rumelhart, 1975; Schank &
j^Delson, 1977; en Thorndyke, 1977). Hoewel deze theorieën verduidehjken hoe mensen
Va begrijpend lezen, bieden zij geen direkte aanknopingspunten voor sturing

oestuderingsprocessen, door tekstwijzighigen of verwerkingsopdrachten. Anderzijds
Cr naast deze struktuurtheorieën een stroming waarin de nadruk ligt op de aktiviteiten
^^n de lezer. Dat biedt volgens ons (Wouters, 1977) meer perspektief. Wat mensen van de
estudering van een tekst leren is afhankelijk van hun cognitieve verwerkingsaktiviteiten.

In de 'levels of processing' benadering (Craik & Lockhart, 1972) en ook, zij het in
mindere mate, in de 'spread of encoding' aanvulling hierop (Craik & Tulving, 1975), is
geïmpUceerd dat er een continuum van verwerkingsaktiviteiten is op te stellen, lopend vafl
oppervlakkige sensorische analyses tot diepgaande semantische verwerking, waarbij
aktiviteiten op zogenaamde diepere nivo's ahijd gunstiger leerresultaten zouden opleveren-
In onderzoek typerend voor deze benadering wordt de verwerkingsdiepte gemanipuleerd
door verschillende taken te geven bij een lijstje met woorden. Ppn die een zogenaamde
oppervlakkige taak krijgen, zoals 'streep alle letters 'e' door' of 'let op de stand van je
lippen als je het woord uitspreekt', bUjken inderdaad minder woorden te herinneren of te
herkennen dan ppn met een diepere taak, waarbij de betekenis van de woorden een
grotere rol speelt, -bijvoorbeeld: 'geef van elk woord aan of het om een vervoermiddel
gaat'.

Volgens Anderson's elaboratietheorie (Anderson, 1976; Anderson & Reder, 1979)
worden deze betere leerprestaties echter niet verklaard door verschillen in verwerkings-
diepte, maar doordat de taken in verschillende mate tot elaboratie leiden. Door ervaring
hebben we bepaalde produkties klaarliggen, die een bepaald aktief mformatiepatroon
verrijken met elaboraties. Naarmate er meer elaboraties zijn, wordt de informatie beter
onthouden, omdat het materiaal langs meer wegen toegankehjk is: elaboraties leiden tot
'multiple redundant retrieval paths'. Omdat we meer ervaring hebben met zogenaamde
'diepere' semantische verwerkingstaken, leiden deze tot meer elaboraties, en dus tot meer
retentie.

Zowel de 'levels' benadering als de elaboratietheorie voorspellen betere leerresultaten,
al naargelang de taak tot grotere verwerkingsdiepte dan wel meer elaboraties leidt.
Volgens aanhangers van de 'transfer appropriate processing' benadering (Morris et al-,
1977; Bransford et al., 1979) dient men de aard van de toets in de overwegingen te be-
trekken. Zij betogen dat semantische taken beter dan de oppervlakkige taken, voorberei-
den op toetsen, die herinnering of herkenning van de gebmikte woorden vereisen; maar
dat juist die oppervlakkige taken tot betere prestaties leiden wanneer de toets däär beter
op aansluit. In de experimenten die zij bespreken, werd dit overtuigend aangetoond.
Volgens deze benadering gaat het dus niet zozeer om de kwantitatieve relatie tussen hoe-
veelheid retentie en aantal elaboraties of diepte van de verwerking, maar om de kwalita-
tieve relatie tussen aard van verwerkingsaktiviteiten en de aard van de leerresultaten.
Hoewel men zich in het algemeen kan afvragen of bevindingen met eenvoudig leermate-
riaal als woordenlijsten geëxtrapoleerd kunnen worden naar complexe leertaken (zie bij-
voorbeeld Jenkins (1974) over 'contextualism'), sluiten wij ons aan bij deze transfer
appropriate processing' benadering en ontlenen daaraan voor onderzoek en theorievor-
ming over tekstbestudering de eis dat expliciete relaties moeten worden gelegd tussen de
aard van behaalde leerresultaten, de verwerkingsaktiviteiten die daarvoor nodig zijn, en
tekstaanpassingen en verwerkingsopdrachten, die bedoeld zijn om tot deze aktiviteiten
te stimuleren. Alleen dan kan men tekstaanpassingen en verwerkingsbpdrachten zó kie-
zen dat de bestudering beïnvloed wordt in een richting, die in overeenstemming is
met het leerdoel dat men in konkrete situaties beoogt.

Vanuit dit uitgangspunt werd gezocht naar verwerkingsaktiviteiten, die tekstbestudering
zouden sturen in een richting die het kunnen reproduceren van kennis overstijgt; want
hoewel fehenproduktie een relatief makkelijk te hanteren onderwijsdoelstelling is, is ze
zeker niet de belangrijkste en velen hebben ernstige bezwaren tegen een ongenuanceerd
stimuleren van deze vorm van leren. (Ausubel, 1968; Bruner, 1959; HoU, 1969; Ormell,

Een bruikbaar kader werd gevonden bij Smimov (1973). Evenals Bartlett (1932) stelt
Smimov zich op het standpunt dat lezen en bestuderen een aktief reorganiserend en
reconstruerend proces is. Door reorganisatie tijdens de bestudering en 'reflectieve aktivi-
teiten' na de bestudering treden zinvolle vervormingen op in de bestudeerde informatie,
zoals bijvoorbeeld generalisatie van wat specifiek gegeven was, of konkretisering en detail-
lering van wat meer algemeen gegeven was. Ons gaat het uiteraard om de reorganisatie
tijdens de bestudering. De zinvolle vervormingen kan men beschouwen als het gevolg
van specifieke cognitieve aktiviteiten; bijvoorbeeld konkretisering en detaillering als
gevolg van 'informatie in verband brengen met bestaande kennis', het 'je ergens dingen
^ voorstellen' en 'informatie uit de tekst omzetten in eigen taal'. DergeHjke aktiviteiten
zijn op te vatten als konkretiserende elaboraties: door de leerling mentaal uitgevoerde
uitwerkingen en verfraaiingen van algemene principes en begrippen met konkrete voor-
l'eelden en details Daarbij doet het voor ons niet ter zake of die mentale aktiviteit
het gevolg is van in de tekst geboden detaillering of door de lezer wordt geïnitieerd,
zoals Smimov bedoelt. In dit onderzoek beperken we ons tot de rol van deze konkretise-
rende elaboraties.

yolgens Anderson's elaboratietheorie leiden konkretiserende elaboraties tot een toename
het onthouden van kennis; volgens een 'transfer appropriate processing' benadering
^ordt een specifiek leereffekt verondersteld. We sluiten ons aan bij deze laatste benade-
ring en verwachten, mede in overeenstemming met de assimilatietheorie van Mayer (1977,
t979a, 1979b), dat konkretiserende elaboraties ertoe leiden dat nieuwe informatie wordt
jngebed in reeds eigen gemaakte kennis en ervaringen, zodat men algemene principes en
^egrippen in nieuwe situaties beter kan toepassen.

tn dit onderzoek proberen wij op verschillende manieren te stimuleren tot konkretise-
rende elaboraties. Enerzijds door in de tekst kant-en-klare konkretiseringen - voorbeel-
^ en - aan te bieden, anderzijds door de lezer konkretiserende opdrachten te geven. Het
generative model of learning' (Wittrock, 1974, 1979, 1981; Wittrock & Lumsdaine,
^977) is daarom belangrijk.

De nadruk op assimilatie heeft het model gemeen met Ausubel (1968) en Mayer (1977,
979a, 1979b); meer kenmerkend en voor ons relevant is het belang dat gehecht wordt
de idiosyncratische component van de assimilerende aktiviteit. Rickards & August
}1975) introduceerden in dit verband het onderscheid 'experimenter provided' versus
subject generated' aktiviteiten (EPA versus SGA), Wanneer men de leerling taakinstruk-
les geeft die hem/haar stimuleren zelf connecties tussen de leerstof en eigen ervaringen
e leggen (episodisch geheugen), spreekt men van SGA; wanneer men in de tekst zodanige
Voorzieningen treft dat recrutering van relevante voorkennis (semantisch geheugen) be-
vorderd wordt, spreekt men van EPA. Men kan in navolging van van Hout-Wolters (1980)
spreken over docentbewerkingen versus studentbewerkingen. Wij gebruiken verder de
«Kortingen SGA en EPA.

Volgens het model zou SGA tot betere retentie leiden dan EPA. Voor een aantal aktivi-
eren is dat ook aangetoond. Zo bleken bijvoorbeeld de opdrachten om zelf een organizer
e schrijven (Wittrock, 1974) of om zelf per tekstsegment de belangrijkste zin te onder-
^repen (Rickards & August, 1975) of een samenvattende zin te schrijven (Doctorow

et al., 1978), effektiever dan het in de tekst aanbieden van respectievelijk de organizer,
onderstrepingen of samenvattende zinnen. Volgens dit model hebben opdrachten om zelf
konkretiserende elaboraties te genereren dus een gunstiger effekt op het leerresultaat
dan in de tekst verstrekte konkretiseringen, tenminste voor zover leerHngen bereid en
in staat zijn om deze opdrachten uit te voeren (zie Wittrock, 1979,1981).
We formuleren de volgende hypothesen:

1. Bevordering van konkretiserende elaboraties tijdens tekstbestudering leidt tot het beter
verrichten van taken waarbij het bestudeerde in nieuwe situaties moet worden toege-
past, maar niet tot een betere retentie van feitelijke informatie.

2. Wanneer dergelijke konkretiserende elaboraties door de leerling worden gegenereerd
is het gunstig effekt sterker.

Gebaseerd op artikelen uit een bundel over sociale psychologie (Brigham, 1977) werd een
tekst gekonstrueerd over het uitblijven van hulp m noodsituaties ('bystander apathy').
Het gaat hier om een verklarende tekst: ze is ruimschoots voorzien van definities en
begrippen om een zestal min of meer empirisch gefundeerde theoretische opvattingen te
bespreken. Er is naar gestreefd deze tekst duidelijk en overzichtelijk te maken; ze moest
dienen voor bestudering zonder dat van een extra bevordering van konkretiserende elabo-
raties sprake was, en dient dus als kontrole voor de experimentele kondities. Deze kon-
trolekonditie wordt verder aangeduid met ZOVO, afkorting voor 'zonder voorbeelden'.
Uitgaande van deze basistekst werden drie andere kondities gevormd. De tekst werd
steeds op dezelfde 10 plaatsen onderbroken voor de konditiespecifieke manipulaties.
NL:

1. telkens met voorbeelden, afgekort MEVO; hier werd de basistekst telkens onderbro-
ken door kant en klare konkretiseringen (EPA)

2. telkens mef de opdracht zelf een voorbeeld te bedenken, afgekort BEZEVO; bevor-
dering van 'subject generated' konkretiserende elaboraties. Omdat ernstige twijfel
ontstond of dit soort opdrachten de ppn wel voldoende houvast zou bieden (kunnen
ze dat wel?) werd besloten om een tweede SGA-konditie te kreëren, met zodanig ge-
struktureerde opdrachten dat kwa uitvoering weinig jnis kon gaan.

3. telkens een opdracht, waarbij dezelfde konkrete situatie als in de MEVO-konditie
werd geschetst; in deze konditie werd van deze situatie echter geen kant en klaar
voorbeeld gemaakt, maar werd aan de ppn een konkrete vraag gesteld, die vanuit
de behandelde algemene principes kon worden beantwoord.

(5 van de 10 opdrachten hadden een multiple-choice karakter; bij de andere opdrach-
ten moesten de ppn zelf hun antwoord formuleren). Deze konditie noemden we op-
drachten met voorbeelden, OPMEVO.
Om te verduidelijken wat precies bedoeld wordt, geven we hier de 3 konditiespecifieke
passages die na hetzelfde stuk uit de basistekst kwamen.

Zo werd in de basistekst de omschrijving van een bepaald sociaal proces beëindigd met:...
Dit proces wordt 'diffusion of responsability' genoemd.
In de MEVO-konditie volgde dan:

Een auto ligt op zijn kant, totaal in puin en nog narokend, in de berm van een drukke weg. De wielen
draaien nog. Auto's die voorbijgaan minderen vaart en rijden dan weer verder; men voelt zich kennelijk
niet aangesproken om in te grijpen...

Opdracht 5: Beschrijf eens een konkreet voorval, waarbij sprake is van 'diffusion of responsabiUty'.
In de OPMEVO-konditie volgde:
Opdracht 5: Stel bijv. het volgende:

Een auto ligt op zijn kant, totaal in puin en nog narokend, in de berm van de weg. De wielen draaien
nog.

Diffusion of responsabiUty zal waarschijnüjk eerder optreden, wanneer dit zich afspeelt op een

pe konditiespecifieke ingrepen daargelaten zijn de 4 versies letterlijk hetzelfde. Door deze
ingrepen verschillen de experimentele teksten nogal in lengte: ZOVO-, MEVO-, OPMEVO-
en BEZEVO-tekstversies bestaan respectievelijk uit: 1600,2150,2180 en 1760 woorden.
Mede op grond daarvan werd besloten de studeertijd vrij te laten; we komen daar nog op
temg.

De belangrijkste afhankeÜjke variabelen bestaan uit de mate waarin de lezer algemene
principes en begrippen uit de tekst kan toepassen in konkrete situaties én de mate waar-
in de lezer informatie uit de tekst kan reproduceren. Er werd voor beide variabelen een
^erzamehng vragen opgesteld, verder aangeduid met kennisvragen en toepassingsvragen.
Het betrof kort antwoord vragen over de informatie uit de basistekst. Om de effekten van
experimentele manipulaties ook op de wat langere termijn na te kunnen gaan, werden
hiemit twee toetsen samengesteld, elk bestaande uit beide typen vragen, één voor afname
onmiddellijk na bestudering van de tekst, en één voor afname een week later.
Omdat de resultaten op deze toetsen gebruikt zullen worden om de gestelde hypothesen
toetsen, is de kwaliteit van deze toetsen van doorslaggevende betekenis. Aan een twee-
problemen werd extra aandacht besteed.
Onidat het gaat om open vragen, die erg gevoelig zijn voor scoringsonbetrouwbaarheid,
^erd aan een 7-tal leden van een onderzoekswerkgroep medewerking gevraagd. Zij kregen
<Ie tekst ter bestudering en beantwoordden daarna de verzameling vragen, voorzover die
Op dat moment was samengesteld. (30 van de 48 uiteindelijke vragen). Mede op grond
^^ de beantwoording in deze groep werd een scoringsvoorschrift opgesteld, waarbij elke
^•■aag een score oplevert, variërend van O tot 10. Na afname van de vragen in het onder-
hoek, werd eerst de kwaliteit van dit scoringsvoorschrift beproefd. Twee beoordelaars
boorden alle 48 toetsvragen voor een gedeelte der ppn (n = 34).

Zo werd het mogelijk een interbeoordelaarsbetrouwbaarheid te berekenen voor de toets-
vragen. De gebruikte betrouwbaarheidsmaat is Cohen's gewogen kappa (Cohen, 1968).
Deze maat geeft aan in hoeverre de beoordehngen toegekend door beoordelaar A over-
eenkomen met die van beoordelaar B. Voor alle 48 items werd per item een matrbc
opgesteld van de scoringskategorieën O t/m 10. De randfrekwenties van de matrix geven
de verdelingen van beoordehngen van beoordelaar A en B aan. De frekwenties in de diago-
nale cellen geven de overeenstemming aan tussen de beoordelaars en die in de niet-
diagonale de niet-overeenstemming. Daarbij geldt: hoe verder verwijderd van de
diagonaal, des te groter het verschil tussen de beide beoordelaars. Het gebruik van gewo-
gen kappa (K^v) vereist toekenning van gewichten, zodanig dat een grotere afwijking
een groter gewicht krijgt. Het hier gebruikte gewicht is het verschil in scoring tussen
beoordelaar A en B. De overeenstemming tussen beide beoordelaars bleek hoog. Voor
ruim 80% der vragen (40 van de 48) was de gewogen kappa .80 of hoger; slechts één
kappa was lager dan .60, nl. .58.

Een tweede probleem betreft het onderscheid tussen toepassings-en kennisvragen. Dezelfde
7 leden van de onderzoeksgroep, gaven bij de beantwoording van de vragen ook telkens
aan, of het naar hun oordeel om een toepassüigs- dan wel loutere reproduktievraag ging.
Voor 27 van de 30 zo beoordeelde vragen was het oordeel eensluidend. Ter illustratie
wordt hier een kennis- en een toepassingsvraag gegeven. Zoals bij het voorbeeld voor de
konditiespecifleke mgrepen, gaat het hier ook om 'diffusion of responsibihty'.

Kennisvraag: 'Geef een omschrijving van de sociale processen, die er de oorzaak van zijn dat hulp in
noodsituaties vaak achterwege blijft'.

'Er werd een experiment opgezet, waarbij proefpersonen gekonfronteerd werden met iemand die een
epileptische aanval kreeg.

De opzet was zodanig dat men het slachtoffer alleen kon horen, maar niet kon zien.
Anonimiteit was gewaarborgd.

Elke proefpersoon was in feite alleen. Maar in 3 verschillende situaties werden zij zo gemanipuleerd
dat zij de indruk kregen dat:

Welk theoretisch principe dat in de tekst staat behandeld, wordt hier onderzocht?
In welke situatie zou men er het snelst toe overgaan hulp te halen? Waarom?

Nadat de vragen waren bijgeschaafd en uitgebreid, en in het onderzoek waren afgenomen,
werden itemanalyses verricht, waarbij de gegevens van alle ppn werden betrokken, onge-
acht de bestudeerde tekstversie. Vragen die de homogeniteit van de verschillende subscores
duidehjk verlaagden, werden verwijderd. Als index daarvoor werd de f van van Naerssen
(1967) gebruikt. Hernieuwde analyses gaven geen aanleiding tot het verwijderen van
nog meer vragen. De in het onderzoek gebruikte toetsscores zijn gebaseerd op de
resterende vragen.

toepassing-onmiddellijk, 9 vragen, coëfficiënt alpha: .67 (n = 71)
toepassing-na één week, 10 vragen, coëfficiënt alpha: .79 (n = 69)
kennis-onmiddellijk, 13 vragen, coëfficiënt alpha: .87 (n = 71)
kennis - na één week, 11 vragen, coëfficiënt alpha: .61 (n = 69)

De genoemde waarden zijn berekend op de gegevens van ppn uit alle kondities. Even-
tuele verschillen tussen deze kondities hebben daardoor een gunstige invloed op de ge-
vonden waarden. Volgens Subkoviak en Levin (1977) wordt de waarde van het meetin-
strument op deze wijze overschat; daarmee kunnen zij alleen de waarde van het instru-
ment buiten de kontekst van het onderzoek bedoelen. Daarin zijn we niet geïnteresseerd,
voorzover de door ons gebruikte instrumenten diskrimineren tussen de personen in dit
Onderzoek, voldoen zij aan onze doelstelling; indien deze betrouwbaarheid wordt opge-
voerd doordat de ingrepen in de experimentele kondities de ware variantie vergroten, is
dat voor ons geen bezwaar. (Wellicht is het poolen van de verschillende betrouwbaarheids-
eoëfficiënten per konditie, wel nodig, wanneer men bij het berekenen van het onder-
scheidingsvermogen van een statistische toets, rekening wil houden met de onbetrouw-
baarheid van het gebruikte meetinstrument; zie daarover bv. Levin & Subkoviak (1977)).
"e correlaties tussen de onmiddellijke en de uitgestelde toets zijn voor kennis .61 en
Voor toepassing .39.^

"oor Hamaker (1979) werd een tekstbeoordelings-vragenUjst gekonstrueerd, gebaseerd
op het werk van Langer et al. (1974). Ppn geven op 20 zevenpuntsschalen oordelen over
^ dimensies van tekstbegrijpelijkheid: leesbaarheid, helderheid van struktuur, beknopt-
heid en levendigheid. De vragenlijst verkeert nog in een experimenteel stadium. Er zal
nader over worden gerapporteerd in Wouters & Hamaker (1981). Wij legden de lijst aan
e ppn voor na bestudering van de tekst, om een indruk te krijgen van de invloed van de
ekstmanipulaties op het oordeel van de ppn over de^e begrijpelijkheidsaspekten.

Zoals we zagen verschilden de versies van de tekst nogal in lengte; bovendien wordt in
Wee kondities van de ppn verwacht dat ze opdrachten uitvoeren; dat kost waarschijn-
njk extra tijd. Daarmee stuitten we op een probleem, dat bij onderzoek naar tekstbestu-
^cring nogal eens voorkomt. Laten we de studeertijd vrij, dan kan dit met zich mee-
''engen, dat betere leerresuUaten eventueel niet aan een direkte gunstige werking van de
®^Perimentele manipulaties kunnen worden toegeschreven, maar via een langere studietijd

Deze waaiden worden gedrukt door onbetrouwbaarheid van de toetsen. Korrektie daarvoor levert
yoor kennis .84 en voor toepassing .54. Verder zijn de correlaties mogelijk verlaagd, doordat ppn
m verschillende mate vergeten, waardoor de stabiliteit vermindert. Voor ons onderzoek zijn deze
correlaties niet zo belangrijk. We willen het effekt van konkretiserende elaboraties nagaan, zowel
°ij onmiddellijke meting als bij meting na een week. Daarbij worden geen vergelijkingen gemaakt
tussen toetsresultaten op de verschillende tijdstippen.

tot Stand kwamen. Dat vormt dan vooral een bedreiging voor de theoretische implikaties
van het onderzoek. Van de andere kant is de oplossing die vaak gekozen wordt - het op-
leggen van een vaste studeertijd - volgens ons een schijn-oplossing. Ten eerste omdat zo
verkregen resultaten moeilijker gegeneraliseerd kunnen worden naar de meer gebruike-
lijke situatie, waarin mensen hun eigen studeertijd indelen; en ten tweede omdat een
vaste tijd niet impliceert dat de werkelijk bestede tijd per konditie gelijk is. Ppn die naar
eigen oordeel binnen de tijd met studeren klaar zijn, kan men wel dwingen de resterende
tijd uit te zitten, maar niet tot het doorgaan met studeren. (Zie voor een uitstekende
analyse van studeertijdproblemen en de voor- en nadelen van verschillende oplossingen:
Simons, 1980). Wij kozen voor een vrije studietijd, waarbij per pp de werkelijk bestede
tijd werd vastgelegd. Wanneer blijkt dat kondities verschillen in benodigde studietijd, dan
moet dit gegeven worden betrokken bij de interpretatie van eventuele verschillen in toets-
prestaties.

Op een eerste zitting kregen de ppn de instruktie dat zij in het kader van een onderzoek
over tekstkenmerken en leerprocessen een stuk tekst zo goed mogelijk moesten bestude-
ren en dat daarna wat vragenlijsten en een toets zouden volgen. Op een tweede zitting,
een week later, kregen zij de tweede toets, en nog wat algemene vragen.
Bij de eerste zitting kon de pp op een teken van de pi beginnen met het bestuderen van
de tekst. Was hij/zij daarmee klaar, dan stopte hij/zij de tekst en kladpapier in een
envelop en kreeg in ruil daarvoor van de pl een tweede envelop met instrukties, vragen-
lijsten en toets.

Op deze manier kon ieder in eigen tempo werken, werden de zittingen niet door instruk-
ties onderbroken en kon de proefleider per pp de gebruikte studietijd noteren.
Bij de tweede zitting kon men op een teken van de pl een gereedliggende envelop openen
en beginnen met de daarin gesloten instrukties en toets.

De proefpersonen' die tijdens de tekstbestudering opdrachten moesten uitvoeren, werden
daartoe geïnstrueerd; zij moesten telkens een stuk tekst bestuderen, tot zij een opdracht
tegenkwamen, deze uitvoeren (schriftelijk) en dan weer verder gaan. Om te voorkomen
dat deze ppn, die volgens ons extra tijd nodig zouden hebben, zich zouden laten opjagen
door ppn uit de andere kondities, werd de eerste zitting éénmaal gehouden voor ppn uit
Bezevo en Opmevo gezamelijk, en éénmaal voor ppn uit Mevo en Zovo gezameUjk. De
tweede zitting werd door alle ppn samen gedaan.

In het kader van een studieverplichting deden 73 eerstejaars psychologiestudenten aan
dit onderzoek mee. Zij gaven door intekening op een lijst te kennen bereid te zijn twee-
maal te verschijnen. Omdat de eerste zitting apart moest worden gehouden voor enerzijds
de Zovo en Mevo, en anderzijds voor de Opmevo en Bezevo kondities, waren er twee lijs-
ten, met elk ruimte voor 40 ppn. De paren kondities werden aselekt aan de lijsten, en de
ppn binnen de lijst werden aselekt aan een van de kondities van dat paar toegewezen.
Van de 73 ppn bleken er 3 reeds volledig of in grote trekken bekend met de bestudeerde
informatie; twee ppn bleken de nederiandse taal onvoldoende te beheersen; en ten-

slotte waren twee ppn niet aanwezig bij de tweede zitting. Van deze 7 ppn werden de data
niet gebruikt. De verdeling over de kondities zag er als volgt uit: Zovo: 16 ppn; Mevo:
20 ppn; Opmevo: 16 ppn; en Bezevo: 14 ppn. Bij een dergelijk gering aantal ppn kunnen
er, zeker nu de toewijzing van ppn aan de kondities niet geheel aselekt is, systematische
verschillen tussen de kondities optreden, m.b.t. variabelen die waarschijnlijk van invloed
zijn op het bestuderen van deze tekst. Om dit althans voor een aantal variabelen te
kunnen kontroleren, werden aan de ppn vragen voorgelegd over:

- de mate van bekendheid met het te bestuderen materiaal (vierpuntsschaal: 1 = volle-
dig bekend; 4 = onbekend; 3 ppn met skore 1 of 2 werden verwijderd)

- het nivo van de eindexamenresultaten (vierpuntsschaal: 1 = gemiddeld 8 of hoger; 4 =
gemiddeld voldoende)

- de werkhouding in dit onderzoek, zowel bij de eerste als bij de tweede zitting (drie-
puntsschaal: 1 = niet mijn best gedaan; 3 = mijn uiterste best gedaan): ijver-1 en ijver-
2.

- meer specifiek de werkhouding bij de toets bij beide zittingen (driepuntsschaal: 1 =
bij alle vragen zomaar wat mgevuld; 3 = bij geen enkele vraag zomaar wat ingevuld):
toets-1 en toets-2.

Met variantie-analyse, respektievelijk Chi-kwadraat toets werd voor geen van deze varia-
belen een verschil tussen de kondities aangetoond (alpha .10).
Zie tabel 1 voor uitvoeriger gegevens

Met betrekking tot het effekt van konkretiserende elaboraties op het leerresultaat zijn
er onderUng strijdige hypothesen genoemd. Volgens de elaboratie-theorie van Anderson,
die in het algemeen een betere retrieval voorspelt, zouden konkretiserende elaboraties
vooral tot betere kennisscores moeten leiden; aansluhing bij een transfer-appropriate-
processing benadering voorspelt daarentegen juist een gunstig effekt op toepassings^ores.
Wij hebben een voorkeur voor deze laatste hypothese en voorspeUen:
Bij vergelijking van elk der experimentele kondities (Mevo, Opmevo en Bezevo) met de
kontrole-konditie (Zovo) zal telkens de experimentele konditie hoger skoren op beide
toepassingstoetsen (zowel onmiddelhjk na bestudering van de tekst als één week later).
Voor beide kennistoetsen zullen geen verschillen optreden tussen experimentele
kondities en kontrole-konditie.

We kozen voor aparte vergehjkingen van elk der experimentele kondities met de kontrole-
konditie omdat één vergelijking van de experimentele kondities samen tegenover de kon-
trole-konditie geen recht doet aan onze twijfel over de geschiktheid van de Bezevo-konditie.
Bovendien kiezen we voor aparte t-toetsen, omdat we gerichte hypothesen hebben over
de invloed van de experimentele manipulaties; in dat geval verdienen gerichte toetsen de
voorkeur boven variantie-analyse, omdat zo aanzienlijk in onderscheidingsvermogen ge-
wonnen wordt (Molenaar, 1978).

Tenslotte kiezen we voor een signifikantie-nivo van 10%. Wij zijn nl. van mening dat het
effekt van de onderzochte manipulaties relatief gering zal zijn, en bij het bescheiden aan-
tal ppn moeihjk aantoonbaar. Verhoging van het onderscheidingsvermogen door meer ppn
op te nemen was praktisch niet uitvoerbaar.

Bij de toepassmgsskores toetsen we éénzijdig, bij de kennisskores tweezijdig.
De tweede hypothese, ontleend aan Wittrock's generative model of learning, hield in dat
'subject generated' aktiviteiten (S.G.A.) tot betere leerresuhaten leiden dan 'experi-
menter provided' konkretiseringen. Dat leidt tot de volgende voorspelhng:
Zowel de Bezevo als de Opmevo kondhie zullen op beide toepassingstoetsen gemiddeld
hogere skores halen dan de Mevo konditie.

We doen deze voorspelling echter met enige reserve, omdat mogehjk geen van beide
kondities tot werkehjke S.G.A. leidt. De Bezevo konditie niet, omdat ze eventueel te
moeihjk is; en t.a.v. de Opmevo konditie, waarin geprobeerd werd dit bezwaar te
ondervangen door de opdrachten duidehjker te struktureren, kan men zich afvragen of
opdrachten met een dergelijk gesloten karakter tot aktiviteiten leiden die men S.G.A.
zou mogen noemen.

Daarmee is aangegeven dat de tweede hypothese in dit onderzoek nauwehjks risiko loopt
weerlegd te worden, terwijl een poshieve steun in principe wel mogehjk is. De
konfmnatiewaarde van de bij deze hypothese horende toetsingsuitkomsten is dan ook
betrekkehjk gering (zie De Groot, 1966).

Zoals bij de eerste hypothese, kiezen we voor aparte vergehjkingen, nu van Opmevo en
Bezevo met Mevo; we doen dat weer met eenzijdige t-toetsen bij een signifikantienivo
van 10%.

Met betrekking tot de door de lezer beoordeelde begrijpehjkheidsaspekten hebben we
geen hypothesen opgesteld. We zuUen een exploratie verrichten naar het effekt van de
experimentele manipulaties op deze beoordelingen en doen dat met 4 variantie-analyses.

met als afhankelijke variabelen de 4 begrijpelijkheidsaspekten; eventueel gevolgd door
Scheffé tests.

Verschillen in gebruikte studeertijd vormt een mogelijke alternatieve verklaring voor
eventuele verschillen in studieresultaten. De uitslag van toetsingen m.b.t. kennis- en toe-
Passingsskores moet dan ook worden bezien tegen de achtergrond van eventuele verschil-
len in studeertijd. Voorafgaand aan de aangegeven dataverwerking zal daarom met een
Variantie-analyse worden nagegaan of er verschillen zijn tussen de kondities op dit punt;

dat het geval is, zal met t-toetsen (alpha = .10) worden nagegaan hoe die verschillen
liggen. Scheffé toetsen lijken in dit geval te konservatief.

In tabel 2 staat het aantal ppn, gemiddelde studeertijd en standaarddeviatie per konditie
Weergegeven.

Per konditie het aantal ppn (n), gemiddelde (m) en standaarddeviatie (s) van de gebruikte studeertijd (in
"linuten).

l^ij variantieanalyse blijkt F = 26.97 (p < .005). Volgens éénzijdige t-toetsen (alpha = .10)
verschüt ZOVO niet van MEVO.

In tabel 3 staan per konditie gemiddelden en standaarddeviaties van beide toepassings-
en kennistoetsen.

Per konditie gemiddelde (m) en standaarddeviaties (s) van de toepassingsskores (T) en kennisskores
onmiddellijk na bestudering (I) en een week daarna (II).
skores zijn uitgedrukt in percentages van de maximaal haalbare skore)

45.75(18.09) 60.25(14.21) 53.00(16.46) 47.21(19.64)
41.81(19.89) 53.45(17.18) 51.75(15.14) 47.00(17.38)
^ 64.44(19.69) 58.30(20.88) 54.31(19.57) 52.79(23.07)

De voorspellingen m.b.t. de toetsskores werden getoetst met t-toetsen. In tabel 4 staan de
resultaten daarvan voor de toepassingsskores.

Op beide toepassingstoetsen blijken de ppn in de MEVO-konditie signifikant hoger te
skoren dan de ppn in de kontrolekonditie. Tussen de 2 andere experimentele kondities en
de kontrolekonditie werden op tijdstip I geen signifikante verschillen aangetoond. De ge-
middelden zijn echter wel in de verwachte richting. Op tijdstip II bleek ook de konditie
met gestruktureerde opdrachten signifikant hoger te skoren dan de kontrolekonditie.
Het verschil tussen de BEZEVO-konditie en de ZOVO konditie was weer in de verwachte
richting, maar niet signifikant.

Resultaten van tweezijdige t-toetsingen van verschillen in kennisskores, onmiddellijk na bestudering
(KI) en een week later (Kll).

De geobserveerde t-waarden vielen alle binnen de kritieke grenzen. Invloed op de prestaties
op de kennistoets is voor geen der experimentele manipulaties aangetoond.
M.b.t. de voorspelling dat men zowel in de OPMEVO als in de BEZEVO-konditie hogere
toepassingsskores zou behalen dan in de MEVO-konditiè, is een toetsing overbodig: de
gemiddelde toepassingsskores in deze kondities zijn beslist niet hoger. Wanneer we deze
resultaten bezien tegen de achtergrond van de gebruikte studeertijd, dan valt op dat de
konditie die het duidelijkst tot een verhoging van toepassingsskores leidde, geen signifi-
kante verienging van de spontane studietijd te zien gaf

(Een aanzienlijke verlenging van de tekst van 1600 tot 2150 woorden leidde tot een
studietijdverlenging van 33.44 minuten tot 36.25 minuten.)

De kondities die niet of pas in tweede instantie tot verhoging van toepassingsskores leid-
den, gaven echter juist wel een aanzienlijke toename in studietijd te zien: bijna een verdub-
beling.

I^e gegevens m.b.t. de oordelen van de ppn over de 4 begrijpelijkheidsaspekten in de ver-
schillende kondities staan weergegeven in tabel 6.

Variantieanalyses leverden achtereenvolgens voor de dimensies leesbaarheid, struktuur,
beknoptheid en levendigheid de volgende F-waarden op: 2.16; 1.09; 1.18 en 8.87. De
kritische F« 52) is voor toetsing op 5- en 10% nivo respektievelijk: 2.76 en 2.18.
Een muhivariate toetsing zou hier eigenlijk meer op zijn plaats zijn geweest; toepassing
van de Bonferroni ongelijkheid laat zien dat in dit geval eenzelfde toetsingsuitslag zou zijn
verkregen, (zie Mellenbergh, 1976). ^ , , ,

Het blijkt dat de kondities alleen verschülen m.b.t. het oordeel over de levendigheid van
de tekst. Volgens Scheffé tests is dit verschil uitsluUend toe te schrijven aan de uitzonder-
hjke positie die de BEZEVO-konditie inneemt: deze konditie leidde tot negatiever oorde-
len dan de OPMEVO en MEVO-kondities (p < .05) en de ZOVO-konditie (p < .10). Alle
andere verschillen zijn niet signifikant.

Het geven van voorbeelden bij de algemene principes en definities in deze tekst heeft
®en gunstig effekt gehad op het kunnen beantwoorden van vragen waarbij het geleerde
m nieuwe situaties moest worden toegepast. Dit effekt is niet alleen direkt na bestudering
"merkbaar, maar manifesteert zich ook nog een week later. Dh gunstige resultaat werd
bereikt ook al nam de spontane studeertijd niet toe. De uitwerkhig van de andere twee ex-
perimentele kondities op de toepassingstoetsen verschüt in eerste instantie niet signifikant
^an de kontrolekonditie. Wel zijn de verschillen in de verwachte richting. Een week na
bestudering is ook de konditie met gestruktureerde opdrachten beter in toepassing van
het geleerde dan de kontrolekondhie. Wel bedraagt de spontane studeertijd m deze kondi-
ties ongeveer het dubbele van die in de kontrolekondhie.

Ten aanzien van de beide kennistoetsen werden konform onze verwachtingen geen sig-
nifikante verschiUen aangetoond tussen elk der experunentele kondities enerzijds en de
•controle anderzijds. Voor zover er op de kennistoetsen verschillen tussen de kondities
^ijn, is de richting daarvan zelfs strijdig met Anderson's elaboratietheorie, en meer in
overeenstemming met een parallel van de wet van behoud van energie: verbetering van het
®"e soort leerresuhaat kan slechts ten koste gaan van het andere. Statistisch gezien is er
^'^hter geen verschü.

Waarom üe gunstige invloed op het uitvoeren van toepassingstaken in de Opmevo-konditie
pas bij uitgestelde meting optreedt, is niet duidelijk. Bij nader inzien lijken de ingrepen
in deze konditie echter veel op toegevoegde vragen van het toepassingstype. Andre
(1979) en Andre et. al. (1980a) geven een overzicht van onderzoek op dat terrein. Zij
konkluderen dat er geen konsistentie in de resultaten valt te ontdekken, mogelijk omdat
een gunstig effekt van toegevoegde toepassingsvragen pas na enige tijd optreedt. Resulta-
ten van door hen uitgevoerd onderzoek (Andre & Harris, 1980; Andre et al., 1980b) en
ook onze resultaten steunen deze veronderstelling.

In de BEZEVO-konditie werd ook bij uitgestelde meting geen signifikant gunstige invloed
op de toepassingstoets aangetoond. Mogelijk stelde deze konditie inderdaad te hoge eisen
aan de ppn; hun oordeel over de levendigheid van de tekst was althans aanzienhjk ongun-
stiger dan dat van de andere ppn. Ook de kwaUteit, waarmee de opdrachten werden uitge-
voerd, liet naar ons oordeel nogal te wensen over.

Deze gezamelijke resultaten bieden meer steun aan onze hypothese, konform een 'transfer
appropriate processing' benadering, dan aan Anderson's elaboratietheorie. Ook ander
onderzoek, dat ons pas recent onder ogen kwam, wijst direkt of indirekt in dezelfde
richting. Reder en Anderson (1980) ontdeden een tekst van zijn detailleringen en konkre-
tiseringen: zij vergeleken dus een studietekst met de samenvatting ervan. In een serie
deelonderzoeken bleek steeds de samenvatting in het voordeel, zelfs bij opvoering van de
retentieperiode tot een jaar. Eén van de redenen die de auteurs aanvoeren voor het uit-
blijven van resultaten konform hun verwachtingen 'pertains to the nature of the dependent
measure employed. Conceivably a recognition test — (vragen van het waar/onwaar-type)
— is not a sensitive enough measure to demonstrate the advantages of a rich elaborated
structure like the text form of the study material.' Dee Lucas & DiVesta (1980) konklu-
deren dat de resultaten van hun onderzoek naar het effekt van verschillende soorten 'sub-
ject generated activities': '...varied in terms of the type of information recalled and the
type of task for which performance was maximized, an observation implying a process
shnilar to transfer appropriate processing.' Mayer (1979c) onderzocht 'the learning
strategy hypothesis': — 'the idea that how the learner encodes the material influences
what is learned'. In een serie van 5 experimenten, — '...elaboration techniques consistently
produced a pattern of superior performance on applying leamed knowledge to novel
problems (or recalling conceptual information) but not on performance of simple
problems (or factual recall)'...

Hoewel onze hypothese over het effekt van konkretiserende elaboraties de toets aan de
werkelijkheid van de onderzoeksgegevens beter doorstaat dan Anderson's elaboratie-
hypothese, althans binnen het komplexe domein van realistische onderwijsteksten, is
ook daar nogal wat kritiek op mogelijk. Zelfs wanneer we alleen naar de duidelijk positieve
invloed kijken van het geven van voorbeelden op het kunnen toepassen van het geleerde,
blijft de vraag of dit effekt werkelijk het gevolg is van de door ons veronderstelde inter-
mediërende konkretiserende elaboraties. Ook is nog niet duidelijk wat we nu precies
onder konkretiserende elaboraties moeten verstaan. Om dergelijke vragen te kunnen
beantwoorden moet meer direkt inzicht verkregen worden in de feitelijk uitgevoerde
bestuderingsprocessen. In dat kader vindt momenteel, onder leiding van de eerste auteur,
onderzoek plaats naar de mogelijkheid een protokolanalytische methode voor dit doel aan
te passen, zoals Olshavsky (1976) dat deed in haar onderzoek naar strategieën bij begrij-
pend lezen.

Een andere vraag die nader onderzoclit dient te worden heeft betrekking op eventuele
Verschillen in de mate waarin personen uit zichzelf ertoe neigen konkretiserend elabore-
rend te werk te gaan bij het bestuderen van een tekst. Belangrijk werk over 'elaboration
skills en andere kognitieve strategieën wordt verricht door Weinstein en Dansereau; zie
bijvoorbeeld hun bijdragen in de bundel van 0'Neil (1978). Dergelijke vaardigheden en
strategieën hebben waarschijnlijk een modificerende invloed op het effekt van middelen
die bedoeld zijn om te stimuleren tot konkretiserende elaboraties. Mayer (1979c) vond
bijvoorbeeld dat het gunstige effekt van elaboratietechnieken bij bestudering van een pro-
p^meertaal vooral sterk was bij leeriüigen met een relatief geringe wiskundige vaardig-
heid. Andre (1979) suggereert m.b.t. tekstbestuderingsonderzoek in het algemeen, dat in-
consistenties in resultaten wellicht in belangrijke mate kunnen worden toegeschreven aan
het feit dat de invloed van individuele verschillen vaak wordt genegeerd.
Ook is niet zonder meer duidelijk wat de reikwijdte is van de gestelde hypothese. Voor
Welk type geldt dit gesignaleerde effekt? Hoe specifiek is het? Blijft het beperkt tot de
informatie waarbij voorbeelden of opdrachten worden gegeven en is er sprake van selek-
'ieve aandacht, zoals bijvoorbeeld Andre (1979) veronderstelt met betrekking tot toege-
voegde vragen óf wordt er (ook) een elaborerende strategie opgeroepen, die zich uitstrekt
tot andere informatie in de tekst? Hoe zit het met andere typen elaboraties? Bijvoorbeeld
generaliserende elaboraties, die zouden leiden tot een van de andere door Smirnov (1973)
onderscheiden vervormingen van de oorspronkelijke informatie: generalisatie van wat
specifiek gegeven was. Deze en andere vragen verdienen nader onderzoek.
We gaan over tot een bespreking van onze tweede hypothese. Overeenkomstig Wittrock's
model werd verondersteld dat de beide opdrachtkondities Opmevo en Bezevo tot betere
resultaten zouden leiden dan het aanbieden van kant en klare konkretiseringen. De
gegevens waren daarmee in strijd. Een verklaring daarvoor kan zijn dat ppn hun konkreti-
serende elaboraties schriftelijk moesten vastleggen; mogelijk vormt dat een onnatuurlijke
onderbreking, die de bestuderingsprocessen belemmert. Zoals Wittrock (1979, 1981)
aangeeft, kan het ook zijn dat ppn niet voldoende in staat of bereid zijn om de betreffende
opdrachten uit te voeren.

(De Icwaliteit waarmee de opdrachten waren uitgevoerd, leek ons bij een kontrole inderdaad betrekke-
'Jk gering. Ook werd in een ad hoe analyse een positief verband gevonden tussen enerzijds skores, die
® relatieve kwaliteit aangaven, waarmee de verschillende ppn de opdrachten uitvoerden, en ander-
'Jds de toetsresultaten. (Voor onmiddellijke en uitgestelde toets waren de korrelaties voor toepassing:
en .09, en voor kennis: .34 en .43 respektievelijk). Toch kan aan deze gegevens geen enkele steun
oor onze hypothese worden ontleend. Zo bleek ook de hoogte van de eindexamencijfers gekorreleerd
^et de kwaliteit van opdrachtuitvoering (.35) en ligt het voor de hand te veronderstellen, dat niet-
B^meten variabelen (bijvoorbeeld verschillende intelligentie- komponenten) bepalend zijn geweest
oor opdrachtuitvoering, nivo van eindexamenresultaten en toetsprestaties. De mate waarin men
ereid en in staat is te voldoen aan de extra eisen, die het zelf genereren van konkretiserende elabora-
'es stelt, kan de invloed van verwerkingsopdrachten op toetsprestaties wijzigen. Onze onderzoeksge-
j.?vens zijn niet geschikt om dergelijke hypothesen aan te toetsen. Daarvoor is het nodig onafhanke-
'Jk vast te stellen in welke mate men een dergelijke vaardigheid en bereidheid bezit, waarna ppn vol-
gens een gestratificeerde random procedure, worden toegewezen aan kondities.)

Hoewel de gestelde hypothese niet ernstig ontkracht wordt, gezien strikt genomen niet
aan de toetsingsvoorwaarden is voldaan, is duidelijk dat toepassing van Wittrock's
^nerative model of leaming niet eenvoudigweg kan gebeuren door opdrachten te geven,
ergelijke opdrachten dienen met zorg gekozen te worden. Als het model al juist is.

dan in ieder geval met meer zorg dan in dit onderzoek. Welke opdracht-parameters vooral
onze zorg behoeven, dient onderzocht te worden. Vooralsnog lijken voorbeelden eenvou-
diger toepasbaar dan opdrachten en verdient verder onderzoek in deze richting volgens
ons de voorkeur. Volgens onze resultaten immers leidt het geven van opdrachten tot een
drastische verhoging van de bestede studietijd, terwijl dat niet of nauwelijks tot uiting
komt in de studieresuhaten; voorbeelden daarentegen leiden tot een toename in de mate
waarin men de bestudeerde informatie in nieuwe situaties kan toepassen, zonder dat daar-
voor een langere studeertijd nodig is.

Anderson, J. R. Language, Memory and Thought Hillsdale, N.J.: Lawrence Etlbaum Associates, 1976.

Anderson, J. R. & Reder, L. M. An elaborative processing explanation of depth of processing. In:
L. S. Cermak & F. I. M. Craik (eds.) Levels of processing in human memory. Hillsdale, N.J.: Law-
rence Erlbaum Associates, 1979.

Andre, T., 'Does answering higher-level questions while reading facilitate productive learning?'. Review
of Educational Research, 1919,49, 280-318.

Andre, T. & Harris, S. Memory ability, delayed testing and type of adjunct question. Paper presented
at the annual meeting of the American Educational Research Association, Boston, 1980.

Andre, T., Mueller, C., Womack, S., Smid, K. & Tuttle, M., Adjunct application questions faciUtate
later application or do they"! Journal of Educational Psychology, 1980, 72, 533-543 (a).

Andre, T., Woods A., Engel, J., Harris, S. & Bender, T. Level of adjunct question, type of feedback
and learnmg concepts by reading. Paper presented at the annual meeting of the American Educatio-
nal Research Association, Boston, 1980 (b).

Ausubel, D. P. Educational Psychology. A cognitive view. New York: Holt, Rinehart & Winston, 1968.

Bransford, J. D., Franks, J. J., Morris, C. D. & Stein, B. S. Some general constraints on Learning and
memory research. In: L. S. Cermak & F. I. M. Craik (eds.) Levels of processing in human memory.
Hillsdale, N.J.: Lawrence Erlbaum Associates, 1979.

Brigham, J. C. (ed.) Contemporary Issues in Social Psychology. Wrightsman L. S., 1977.

Bruner, J. S. Learning and Thinking. Harvard Educational Review, 1959,29,184-188.

Cohen, J. Weighted Kappa: nominal scale agreement with provision for scaled agreement or partial
ctedH. Psychological Bulletin, 1968, 70,213-219.

Craik, F. I.M. & Lockhart, R. S. Levels of processing: a framework for memory research, youma/
of Verbal Learning and Verbal Behavior, 1972,11, 671-684.

Craik, F. I. M. & Tulvmg, E. Depth of processing and the retention of words in episodic memory.
Journal of Experimental Psychology: General, 1915,104, 268-294.

Dee-Lucas, D. & DiVesta, F. J. Learner Generated Organizational Aids: Effects on learning from text.
Journal of Educational Psychology, 1980 , 72, 304 -311.

Dijk, T. A. van. Semantic macro-structure and knowledge frame in discourse comprehension. In: M. A.
Just & P. A. Carpenter (eds.) Cognitive processes in comprehension. Hillsdale, N.J.: Lawrence
Erlbaum Associates, 1977.

Doctorow, M., Wittrock, M. C. & Marks, C. Generative processes in reading comprehension. Journal
of Educational Psychology, 1978, 70, 67-71.

Hamaker, C. Methodische problemen bij experimenteel tekstkenmerkenonderzoek..7'i;dsc/!ri/? voor
taal beheersing, 1919,1,130-145.

Hout-Wolters, B. van. Verbetering van tekstbestudering. Een analyse van onderzoeksartikelen. In: C.
Boonman & J. Zwarts (eds.) Tekstbestudering. Den Haag, SVO-reeks, 1980.

Jenkins, J.J. Remember that old theory of memory? Well, forget it! American Psychologist, 1974,
29,785-795.

Kintsch, W. The representation of meaning in memory. Hillsdale, N.J.: Lawrence Erlbaum Associates,
1974.

Langer, J. L., Schultz von Tun, F. & von Tausch, R. Verständlichkeit. München: Ernst Reinhardt
Verlag, 1974.

Levin, J. R. & Subkoviak, M. J. Planning an experiment in the company of measurement error. Ap-

plied Psychological Measurement, 1977, i, 331-338.
Wäyer, R. E. The sequencing of instruction and the concept of assimilation-to-schema. Instructional

Science, 1977, 6, 369-388.
Wäyer, R. E. Can advance organizers influence meaningful learning? Review of Educational Research
1979,49,371-383 (a).

^ayer, R. E. Twenty years of research on advance otgmizsK. Instructional Science, 1979 8 133-

'^ayer, R. E. Elaboration techniques for technical text: an experimental test of the learning strategy
hypothesis" (Technical Report 79—3). Santa Barbara: University of California, Department of
Psychology, 1979 (c).

Mellenbergh, G. J. Bekend, maar onbemind (deel I) Amsterdam: vakgroep Methodenleer, Universiteit
van Amsterdam, 1976.

Meyer, B. J. F. The organization of prose and its effect on recall. Amsterdam: North Holland Publishers

Molenaar, I. W. Test expectancy and test performance... and test choice. Tijdschrift voor Onderwijs-

research, 191%, 5, -200.
Morris, C. D., Bransford, J. D. & Franks, J. J. Levels of processing versus transfer appropriate proces-
sing./ouma/o/Kerèa/iearmn^ anrf Verbal Behavior, 1977, 519-533.
Naerssen, R. F. van. Itemselectie bij studietoetsen: een nieuwe htna&tiing.Nederlands Tijdschrift voor

de Psychologie en haar grensgebieden, 1967,22, 345-359.
Olshavsky, J. E. Reading as problem solving: an investigation of strategies. Reading Research Quarterly

1976, 654-674.
0'Neil, H. F. Jr. (Ed.). Learning Strategies. New York: Academic Press, 1978.
Ormell, C. P. The problem of analysing unAtistméing. Educational Research, 1979, 22, 32-38.
•^eder, L. H. & Anderson, J. R. A comparison of texts and their summaries: memorial consequences

Journal of Verbal Learning and Verbal Behavior, 1980,79,121-134.
"^ckards, J. P. & August, G. J. Generative underlining strategies in prose recall.'7ot//7!fl/ of Educational

Psychology. 1975, 67, 860-865.
'Rumelhart, D. E. Notes on a schema for stories. In: D. G. Bobrow & A. M. Collins (eds.), Representa-

tion and Understanding: Studies in cognitive science. New York: Academic Press, 1975.
^chank, R.C. & Abelson, R. Scripts, Plans, Goals and Understanding. Hillsdale, N.J.; Erlbaum Asso-
crates, 1977.

Simons, P. R. J. Vergelijkenderwijs; onderzoek naar de invloed van metaforen op het leren. Dissertatie.

Tilburg: Van Spaendonck, 1980.
^mirnov, A. A. Problems of the psychology of memory. New York: Plenum, 1973.
Subkoviak, M. J. & Levin, J. R. Fallibiüty of measurement and the power of a statistical te^i.'Journal
of Educational Measurement, 1977,14,47-52.
norndyke, P. W. Cognitive structures in comprehension and memory of narrative discourse. Cognitive
Psychology, 1977, 9, 77-110.
Wittrock, M. C. Learning as a generative process. Educational Psychologist, 1974,11, 87-95.
"ittrock, M. C. & Lumsdaine, A. A. Instructional Psychology. Annual Review of Psychology, 1977
25,417-459.

Wittrock, M. C. The cognitive movement in instruction. Educational Research, 1979, <S, 5-11.
^"trock, M.C. Learning and memory. In: F. Farley & N. Gordon (Eds.) Educational Psychology.
National Society for the Study of Education, in press (1981).
outers, L. Het leren uit geschreven teksten: onderzoeksmogelijkheden vanuit een aktiviteitsgezichts-
Punt. Interne notitie no. 6, Tekstkenmerken en Leerprocessen, Vakgroep Onderwijspsychologie,
Universiteit van Amsterdam, 1977.
outers, L. & Hamaker, C. De constructie van een tekstbeoordelingsvragenlijst voorlopige werktitel
in voorbereiding (1981).

ENIGE ERVARINGEN MET PLATO BIJ HET PREKANDIDAATSONDERWIJS
WISKUNDE EN STATISTIEK'

In het kader van het PLATO-proefproject Amsterdam (zie het artikel van Camstra in dit
nummer), zijn op de Subfaculteit Opvoedkunde van de Universiteit van Amsterdam in
1978 twee kleine onderzoekjes uitgevoerd met als doel PLATO te testen op zijn practi-
sche bruikbaarheid.

Bij het onderzoeken van de mogelijke rol van een nieuw medium in het onderwijs kan
men globaal op twee manieren te werk gaan: men kan onderzoeken of de opzet van het
aangeboden leermiddel onderwijskundig verantwoord is, maar men kan ook de vraag pro-
beren te beantwoorden, of het leermiddel zoals het is, gebruikt kan worden in een gegeven
onderwijssituatie. Boorsma (1979) noemt deze twee benaderingen 'design-georiënteerd'
en 'management-georiênteerd'. De vraagstelling van het onderzoek op de Subfaculteit
Opvoedkunde is 'management-georiênteerd' geweest. Bij een vergelijking van verschillende
systemen voor computerondersteund onderwijs wordt vaak als argument vóór het PLATO-
systeem aangevoerd, dat op PLATO een groot aantal lessen reeds beschikbaar is (bijv.
Camstra et al, 1979).

De vraag is echter of de aanwezige, meestal Engelstalige, lessen zonder meer inzetbaar
zijn in de universitaire onderwijssituatie in Nederland (vgl. Van der Drift, 1979, blz. 52).
Met andere woorden: de vraag is of PLATO eenvoudig te hanteren is, of het leren-per-
computer acceptabel is voor de studenten en of het leerresultaat bij de aanwezige PLATO-
lessen vergelijkbaar is met andere werkvormen.
Hiertoe zijn twee oriënterende onderzoeken uitgevoerd.

In het eerste onderzoek is onderzocht of het leren-per-computer acceptabel is voor
opvoedkundestudenten (die in het algemeen weinig affiniteit voor computers vertonen)
en of PLATO eenvoudig genoeg is om door volledig computer-naïeve studenten gebruikt
te worden.

1. Deze notitie is gebaseerd op twee onderzoeken waarover uitvoerig gerapporteerd is (Hox, 1979 en
Hox & Soeteman, 1979) Beide rapporten zijn verkrijgbaar bij de eerste auteur.
Adres: Prinsengracht 227,1015 DT Amsterdam.

Of PLATO eenvoudig is, is gemakkelijk te meten. PLATO is eenvoudig als iedereen
Zonder problemen met de terminal om kan gaan. Of PLATO acceptabel is, is gemeten aan
de hand van het aantal uitvallers en de tevredenheid met betrekking tot PLATO in verge-
hjking met andere onderwijsvormen.

Het eerste onderzoek is uitgevoerd bij het eerstejaarsonderwijs statistiek in mei 1978, na
de colleges (beschrijvende) statistiek, maar vóór het bijbehorende tentamen. Aan alle
eerstejaarsstudenten is gevraagd of zij mee wilden doen aan een onderwijsexperiment. Van
de studenten die zich opgaven zijn er 40 in groepen van twee aan de PLATO-terminal
gezet om een -niet erg compleet en niet erg goed- statistiekprogramma te volgen. Vóór
en na de cursus hebben alle studenten een groot aantal vragenlijsten ingevuld. Voor de
details verwijzen wij naar Hox (1979). PLATO bleek eenvoudig in het gebruik te zijn:
de enige informatie die de studenten nodig hadden om aan de slag te kunnen, was de
informatie hoe ze het systeem 'aan de praat' moesten krijgen: vanaf dat punt was PLATO
zelf heel goed in staat om de studenten het gebruik van PLATO uit te leggen. PLATO
bleek ook acceptabel te zijn: van de 40 studenten in de PLATO-groep zijn er slechts
vier afgevallen. De studenten die PLATO-onderwijs genoten hadden bleken daar wat min-
der tevreden over te zijn dan de werkgroepstudenten over het werkgroeponderwijs:
op een vijf-punts schaal scoorde PLATO gemiddeld één punt lager dan een werkgroep.

Om na te gaan of het zinvol is PLATO te gebruiken in de zin dat het werken ermee
een bevredigend leerresultaat oplevert is in het eerste semester van het studiejaar 1978-
1979 een experiment uitgevoerd in het kader van de facultatieve cursus wiskunde die ge-
geven wordt met het oog op de statistiekcolleges. Het wiskundeonderzoek is er primair op
gericht geweest om te onderzoeken of het wiskundeonderwijs voor iedereen (dus ook de
zwaksten met de grootste 'computervrees') via PLATO zou kunnen verlopen. De vraag is
of deze studenten met het aanwezige pakket PLATO-lessen evenveel kunnen leren als met
behulp van het reguliere werkgroeponderwijs.

Het PLATO-curriculum is hiertoe vergeleken met een werkgroep aan de hand van het
criterium leerresultaat. Om voor deze speciale groep studenten ook te onderzoeken
of PLATO acceptabel is, is ook een tevredenheidsvragenlijst voorgelegd. In het wiskunde-
experiment bestond het PLATO-curriculum uit lessen, die, hoewel niet bijzonder goed,
door de docent wel bruikbaar geacht werden^.

De studenten die zich ingeschreven hadden voor de cursus wiskunde hebben een wis-
kundetoets gemaakt en hen werd gevraagd of zij voorkeur hadden voor PLATO- dan
Wel werkgroeponderwijs. Uit de 62 studenten die zich hebben ingeschreven zijn 30
studenten met de laagste scores die géén voorkeur hadden voor PLATO-onderwijs afge-
zonderd.

Uit deze 30 studenten is aselect een werkgroep en een PLATO-groep samengesteld, ieder
bestaande uit 15 studenten.Het PLATO-curriculum is vergeleken met werkgroeponderwijs
in de vorm van negen werkgroepbijeenkomsten. Aan het eind van de cursus is weer een
wiskundetoets afgenomen. Beide wiskundetoetsen bestaan uit negen items.

Van de 15 studenten die in de werkgroep geplaatst zijn, zijn er drie uitgevallen. Van de
15 studenten die in de PLATO-groep geplaatst zijn, zijn er zes uitgevallen.
Het uitvallen uit de werkgroep of PLATO blijkt niet samen te hangen met de voortoets.
De gemiddelden van de twee groepen op de voor- en de natoets zijn vermeld in tabel 1.

De werkgroep scoort op de voortoets iets lager dan de PLATO-groep en op de natoets
iets hoger. Vanwege het kleine aantal proefpersonen in het onderzoek is afgezien van
statistische toetsing.

De werkgroep en de PLATO-groep zijn geselecteerd op een lage score op de voortoets.
Het feit dat deze groepen op de natoets hoger scoren heeft dus niet te betekenen dat er
inderdaad iets geleerd is: dit verschil zou ook aan een regressie-effect te wijten zijn.
Het verschil tussen de vóór en natoets voor de hele proefgroep (de resterende 32 studen-
ten kregen ook het PLATO-curriculum aangeboden), is vrij van een dergelijk regressie-
effect. Voor de hele groep is het verschil positief, maar practisch gezien wel erg klein.

De claims die voor PLATO gemaakt worden op het punt van eenvoud van werken zijn
zonder meer terecht gebleken. Wat betreft de acceptatie zijn de resultaten niet zo duide-
lijk. Bij het eerste onderzoek maken 36 van de 40 studenten van PLATO-uren vol, maar
bij het tweede onderzoek zijn in de PLATO-groep wat meer uitvallers. Merkwaardig
genoeg zijn de studenten bij het tweede onderzoek tevredener over PLATO dan de stu-
denten bij het eerste onderzoek (een score van 3.2 versus 2.6 op een vijf-punts tevreden-
heidschaal).

Het zou kunnen dat de problemen wat betreft de uhvallers niet zozeer bij het PLATO-
systeem gezocht moeten worden, maar bij de gekozen opzet van het computergestuurde
onderwijs: er is geen enkele controle (behalve achteraf) op het werken op PLATO en er
is geen voortdurende stimulans van buitenaf om vol te houden. Dit zijn gebreken die door
een andere opzet van de cursus verbeterd zouden moeten worden. Wat betreft het leer-
resultaat zijn de resuhaten niet zo duidehjk; weliswaar heeft de werkgroep iets meer
geleerd dan de PLATO-groep, maar zij hebben er ook meer tijd aan besteed.
Afgaande op de schriftelijke commentaren van de studenten moet geconcludeerd worden
dat de uitleg in de werkgroep wel beter aanslaat dan die van bijv. PLATO, doch dat de
studenten slechts van een deel van het werkgroepprogramma iets opstaken. Een gedeelte
van de tijd zitten studenten bij wijze van spreken te wachten totdat voor hen relevante
onderwerpen behandeld worden. De niet-relevante onderwerpen zijn dan onderwerpen
die al bekend zijn of waar studenten nog niet aan toe zijn.

Indien bovenstaande redenering juist is zou met betere (en meer Nederiandstalige)
PLATO-lessen in minder tijd een beter studieresultaat bereikt kunnen worden.
Het aanbod van bruikbare lessen op PLATO is tegengevallen. Ter illustratie: de laatste
CDC-catalogus van beschikbare lessen (CDC, 1978) geeft een lijst statistieklessen goed
Voor + 20 uur onderwijs. Ruim de helft van deze lessen zijn echter afkomstig van één
auteur, waarbij de kwaliteit van de meeste lessen en de onderlinge samenhang ervan
niet erg goed is. Op wiskundegebied is de situatie iets rooskleuriger: de lessen zijn wat
beter van kwaliteit en het lukt nog wel om een bruikbaar curriculum samen te stellen.
Deze bevinding geldt niet alleen voor het deelproject opvoedkunde: over de hele linie
is het aantal lessen dat bruikbaar lijkt voor universitair onderwijs tegengevallen (zie ook
Camstra et al., 1979).

Het feit dat de lessen in het Amerikaans geschreven zijn is geen onoverkomelijke bezwaar
gebleken, maar het is soms wèl hinderlijk, vooral waar in de lessen nog al eens gebruik
Wordt gemaakt van Amerikaans 'slang'-uitdrukkingen.

Ook het feit dat de rekenlessen duidelijk voor kinderen zijn bedoeld geeft problemen:
het simplistische commentaar is in deze gevallen uiteraard niet adequaat. De conclusie
niet betrekking tot de lessen luidt dat er wat betreft statistiek en wiskunde niet te ontko-
nien valt aan het ontwikkelen van nieuw lesmateriaal en aan het vertalen van de lessen
die er zijn. De communicatiefaciliteiten van PLATO blijken in de onderwijssituatie zéér
bruikbaar te zijn: verschillende malen zijn studenten die door de lage kwaliteit van de
lessen in de knoei waren gekomen door de docent via PLATO verder geholpen.

Boorsma, J.P. Rol en functie van de schoolradio, een onderwijskundige analyse van een educatief
massamedium. Amsterdam: J. v. Campen B.V., 1979.

Camstra, B. Ervaringen van het PLATO proefproject Amsterdam. Tijdschrift voor Onderwijsresearch,
1981,6,97-112.

Camstra, B., Dijk, T. van, Avoird, W. v.d., e.a.: Leren met de computer, eindrapport van het PLATO-
proefproject. Amsterdam: J. v. Campen B.V., 1979.

^tift, K.D.J.M. van der. De doelmatigheid van computerondersteund onderwijs. Tijdschrift voor
Onderwijsresearch ,1979,4,49-61.

Hox, J.J. Een oriënterend onderzoek met PLATO op de Subfakulteit Opvoedkunde. Universiteit van
Amsterdam, COWO, 1979.

Hox, J.J. & Soeteman, Th. Evaluatie van het PLATO-systeem voor computergestuurd onderwijs
wiskunde en statistiek op de Subfaculteit Opvoedkunde. Universiteit van Amsterdam, Subfaculteit
Opvoedkunde, 1979.

Hoogstraten en Vorst (1980) onderzochten of eerstejaars studenten psychologie in staat
zijn hun eigen studieprestaties te voorspellen. Hun conclusie is somber. Ooit was ik proef-
persoon in hun onderzoek. Ik meen dat mijn medestudenten en ik het beter deden dan
zij denken. Door hun onderzoeksresultaten a priori te voorspellen uit hun onderzoeks-
opzet en wijze van databewerking zal ik dat duidelijk trachten te maken.

1. De vraag bij de Voorspelling Vooraf van het tentamenresultaat luidde als volgt:

"Geef een schatting van de beoordeling die U verwacht te zullen behalen voor dit tentamen (kruis
aan hetgeen het meest van toepassing is)".
A = goed/uitstekend
B = (ruim) voldoende

C = (matig) voldoende resp. (juist) voldoende
D = (juist) onvoldoende
E = slecht

De onderzoekers relateerden de vijf beoordelmgscategorieën als volgt aan de te beha-
len tentamenscores: voorspellingscategorie A komt overeen met 90-100% van de
antwoorden goed, B met 80-89%, C met 70-79%, D met 55-69% en E met 54% en
minder. Dit is geheel in overeenstemming met de propedeutische tentamenregeling,
die echter niet als zodanig bij de studenten bekend bleek te zijn (Hoogstraten en
Vorst, 1980, p. 220). Bij deze tentamenregeling werd gecorrigeerd voor raden zodat
bijvoorbeeld dé D, (juist) onvoldoende, correspondeert met 55—69% goed. De studen-
ten, zojuist afkomstig uit het VWO, interpreteren de categorieën A tot en met E abso-
luut. Ze denken niet aan raden. Onder de categorie D zullen ze bijvoorbeeld verstaan
50-60% goed. De onderzoekers brengen de raadcorrectie op de Voorspelling Vooraf
zelf aan door over te gaan op categorieën 90-100%, 80-89%, 70-79%, 55-69% en
54% en minder. Dit is geheel correct, want ze vergelijken de Voorspelling Vooraf met
de behaalde tentamenscore die ook een raadcomponent bevat. De Voorspelling Voor-
af, zoals gecategoriseerd door de onderzoekers, is dus een maat die op zinvolle wijze
met de tentamenscore kan worden vergeleken.

Bij de Voorspelling Achteraf ligt dit echter anders. Men vroeg hier: 'Geef een schat-
ting van het aantal goed ingevulde items dat u denkt behaald te hebben'. Er wordt
niet naar de score gevraagd maar naar het aantal goed ingevulde items. Wie bij een
item raadt zal niet kunnen melden dat hij hei goed heeft ingevuld. Men vraagt naar de
ware score. Welk deel van de respondenten op grond van deze vraag zijn ware score
schat en welk deel zijn tentamenscore valt niet uit de data op te maken. Ik vermoed dat
een aanzienlijk deel de ware score schat. De onderzoekers hebben deze schattingen
zonder meer vergeleken met de behaalde tentamenscore die in ieder geval een raad-
component bevat. Op grond van het feit dat de Voorspellingen Vooraf en de behaal-

de tentamenscores een raadcomponent bevatten en een deel van de Voorspellingen
Achteraf deze niet bevat, vallen nu de volgende onderzoeksresultaten a priori te voor-
spellen:

- De Voorspelling Achteraf zal vaker een onderschatting te zien geven van de werke-
hjk behaalde tentamenscore dan de Voorspelling Vooraf. Dat deze voorspelhng
ook uitkomt kan men zien in Hoogstraten en Vorst, 1980, figuur 1.

- De Voorspelling Vooraf zal vaker de juiste uitslag representeren dan de Voor-
spelhng Achteraf. Dit kan men verifiëren in Hoogstraten en Vorst, 1980, tabel
1. Slechts de kolommen (6) en (9) zijn vergehjkbaar omdat ze beide een indehng
m drie categorieën betreffen. Het percentage juist schattingen vooraf is elf keer ho-
ger en 6 keer lager dan het percentage juiste schattingen achteraf

- Een vergelijking tussen de Voorspelhng Vooraf en de Voorspelhng Achteraf leidt
tot lagere Voorspellingen Achteraf dan Vooraf Dit effect vindt men duidehjk in
Hoogstraten en Vorst, 1980, tabel 2. Onder de diagonaal staan aanzienlijk hogere
percentages dan erboven. De hier geleverde verklaring van dit fenomeen lijkt mij
aannemehjker dan de door Hoogstraten en Vorst, 1980, p. 218 genoemde terug-
houdendheid bij de Voorspelling Achteraf

2- De percentages onderschattingen, juist schattingen en overschattingen hangen af van
het aantal gebruikte categorieën. Nadat de voorspellingen zijn gedaan, is het aantal
juiste voorspellingen een monotoon dalende functie van het aantal categorieën waarin
deze voorspellingen worden ingedeeld. Gebruikt men één categorie dan zijn alle
voorspellingen correct, gebruikt men een continue schaal dan zijn er geen juiste voor-
spelhngen meer mogelijk. De onderzoekers gebruiken indelingen m 3, 5 en 9 catego-
rieën. Naarmate ze meer categorieën gebruiken zullen meer studenten die vrijwel
correct voorspellen als onder- of overschatters aangemerkt worden. Dit probleem
is slechts oplosbaar door een afstandsmaat te definiëren. Vergelijking met wat men op
grond van het toeval zou verwachten helpt bij de oplossing van dit probleem niet. Op
grond van het wisselend aantal gebruikte categorieën vah te voorspellen: hoe meer
categorieën, hoe minder juiste schattingen. Dit vindt men in tabel 1 dan ook terug.
Het opvatten van de percentages juiste schattingen als een maat voor het kunnen voor-
spellen van de eigen studieprestatie is niet goed mogehjk. Bovendien zijn de kolom-
men in tabel 1 waarbij verschillende aantallen categorieën worden gebruikt onderling
niet vergelijkbaar. Ook niet als men op het toeval let.

3. Op grond van een tweetal overwegingen valt a priori te voorspellen dat de na het ten-
tamen voorspelde score hoger zal correleren met de behaalde tentamenscore dan de
Voorspelde score Vooraf. In de eerste plaats wordt Tj vooraf berekend op in vijf
categorieën ingedeelde data en rj achteraf op grond van een indehng in negen catego-
rieën. Bij een indeling in vijf categorieën krijgt men veel meer ties dan bij een indehng
in negen categorieën. Dit leidt tot een lagere waarde van rj. In de tweede plaats kent
men na afloop de moeilijkheidsgraad van het tentamen. De correlatie tussen de Voor-
spelhng Achteraf en de tentamenscore zal hierdoor groter worden. In tabel 1 vindt
men dit ook terug.

Leer je van ervaring? Daar wordt wisselend over gedacht maar een goede terugkop-
pehng tussen voorspelde en behaalde score is een noodzakehjke voorwaarde. Men zou

de studenten naast de tentamenuitslag ook steeds zijn beide voorspellingen toe moeten
sturen. Een student die na afloop van het tentamen zelf zijn voorlopige uitslag bepaalt
is waarschijnlijk zijn voorspellingen reeds vergeten. Aangezien de terugkoppeling onvol-
doende verzorgd is, valt te voorspellen dat de respondenten waarschijnlijk niet leren
van hun ervaring. Dit is ook gevonden.

Samenvattend valt te zeggen dat slechts kolom 2 in figuur 1 (3 categorieën, Voorspelling
Vooraf) een redeUjk betrouwbaar beeld van de prestaties van de studenten geeft. In deze
situatie voorspelt 59% vooraf de juiste uitslag. Omdat geen afstandsmaat gebruikt is, kan
de schatting als conservatief aangemerkt worden. Dit lijkt geen slecht resultaat en strijdig
met de conclusie van Hoogstraten en Vorst. Het is in de onderwijskunde van groot belang
dat studenten, juist vooraf, zich een redelijk beeld Weten te vormen van het beheersings-
niveau dat ze bereikt hebben. Het onderzoek van Hoogstraten en Vorst toont mijns inziens
aan dat dit het geval is.

Een gedeeltelijke heranalyse van de data is mogehjk. De vraag is echter of dit zinvol is in
het licht van de problemen die bij dit type onderzoek kunnen optreden. Hoogstraten en
Vorst noemen enkele van deze problemen in hun slotopmerkingen. Ik zou daar nog het
volgende probleem aan toe willen voegen: zal een deel van de respondenten niet eerst het
tentamen maken en pas daarna de vragenlijsten invullen en dus zowel de Voorspelling
Vooraf als de Voorspelling Achteraf achteraf geven?
Beter lijkt het om het onderzoek met de nodige veranderingen te repliceren.

Hoogstraten, Joh. & Vorst, H. C. M. Het voorspellen van de eigen studieprestaties. Tijdschrift voor
Onderwijsresearch, 1980,5, 211 -220.

Het commentaar van Van den Brink (1981) op een eerder door ons gepubliceerd artikel
(Hoogstraten & Vorst, 1980) bevat naast een aantal elaboraties en parafrases van ons
betoog tenminste een waardevolle suggestie. Verder introduceert hij een onzekere aan-
name inzake de voorspelUngsstrategie van studenten en doet hij tenslotte enkele weinig
elegante pogingen deze aanname een schijn van aannemeUjkheid te verlenen.
*an den Brink heeft gelijk dat de terugkoppeUng tussen voorspelde en behaalde score
wel wat gecontroleerder had kunnen plaatsvinden. Zoals door ons vermeld waren welis-
waar 'De condities (...) aanwezig dat studenten nauwkeurig konden leren schatten'
iPag. 216) maar het ware verstandiger geweest op dit punt een grotere mate van experi-
mentele controle uit te oefenen. Van den Brink's daartoe strekkende aanbeveling lijkt
°ns in dit verband adequaat.

Op enkele andere plaatsen doet Van den Brink weinig meer dan nodeloos parafraseren
^an het door ons gestelde. Wanneer hij stipuleert, onder pt. 3, dat de correlatie tussen
"oorspelling Achteraf en tentamenscore groter wordt dan tussen Voorspelling Vooraf en
tentamenscore vanwege de omstandigheid dat studenten in het eerste geval bekend zijn
"iet de moeilijkheidsgraad van het tentamen, dan wordt daarmee iets geëxpliciteerd
Waarvan in redelijkheid niet valt aan te nemen dat het de lezer is ontgaan. De lezer moet
^ m de context van ons artikel en door het frequent hanteren van de termen "vooraf
en 'achteraf' - in staat worden geacht te achterheen dat tussen de twee voorspeUingen
net tentamen plaatsvond. Het zal evenmin aan de aandacht van de lezer zijn ontsnapt dat
student een indruk had opgedaan van de zwaarte van het tentamen alvorens de Voor-
spelling Achteraf te doen. Was het nu echt nodig dat nog eens nadrukkelijk te vermelden
O' Zou de lezer dat slechts als 'stressing the obvious' hebben ervaren? Overigens ontgaat
net ons waar het gesignaleerde verschil in samenhang anders aan moet worden toegeschre-
ven dan aan de tussenliggende ervaring. Zeker niet, zoals nog zal blijken, aan een
Wisselend aantal categorieën van de gegevens.

Ook onder pt. 2 verwoordt Van den Brink een standpunt waarop wij wemig hebben aan
e merken omdat het, ondanks de suggestie van het tegendeel, niet strijdig is met ons ar-
•kel. Illustratief is deze passage uit Van den Brink's commentaar: 'Op grond van het wis-
^lend aantal gebruikte categorieën valt te voorspellen: hoe meer categorieën, hoe minder
Jtiiste schattingen'. Hier wordt precies de reden verwoord waarom wij figuur 1 in deze
orm presenteerden: om te laten zien dat het aantal categorieën er iets toe doet. In dit
Verband vraagt nog een ander punt enige aandacht. Van den Brink schrijft: 'Bij een inde-
ng in vijf categorieën krijgt men veel meer ties dan bij een indeling in negen
categorieën. Dit leidt tot een lagere waarde van rg'. Bij het schrijven van ons artikel
tonden ons uiteraard veel meer gegevens ter beschikking dan uiteindelijk in de gepubli-
ceerde versie opgenomen. Voor de goede orde hchten wij uit de beschikbare gegevens

een aanvullend overzicht. Wij roepen hier in herinnering dat de studenten gedurende
het eerste onderzoeksjaar (71/72, zeven tentamens) bij hun Voorspelling Achteraf
de keus hadden uit 30 antwoordmogelijkheden. Dat stelde ons in de gelegenheid de
correlatie tussen tentamenscore en Voorspelling Achteraf te berekenen met resp. 30,
9, 5 en 3 categorieën per variabele. Het resultaat is vermeld in tabel 1. Men kan aan
deze gegevens wel enige steun ontlenen voor de stelUng dat de correlatie een functie
is van het aantal categorieën maar tegelijkertijd moet men constateren dat de verschil-
len gering zijn. Of men nu uitgaat van product-moment-correlatiecoêfficiênten of rang-
correlatiecoëfficiënten, of van 30, 9 of 5 categorieën doet nauwelijks terzake. Ook de
terugval bij hercodering tot 3 categorieën is weinig spectaculair.

Aan het slot van zijn commentaar werpt Van den Brink nog de vraag op of sommige
studenten niet eerst het tentamen deden en pas daarna de Voorspelling Vooraf en
Achteraf. Wij delen zijn zorg niet. Gedurende het eerste, onderzoeksjaar werd door ons
intensief gesurveilleerd en ook later zagen wij er incidenteel op toe dat de gang van zaken
verliep zoals wij wensten. Voorzover een enkele student zo te werk is gegaan als gesugge-
reerd door Van den Brink zullen de resultaten daar onbeduidende sporen van vertonen.
Het bovenstaande raakt evenwel niet de kern van Van den Brink's commentaar. Dat is zijn
onder pt. 1 verwoorde overtuiging dat onze formulering van de instructie bij de Voorspel-
ling Achteraf een onderschatting min of meer uitlokte. Van den Brink: 'Ze (de studen-
ten) denken niet aan raden.'..... 'Er wordt niet naar de score gevraagd maar naar het

aantal goed ingevulde items. Wie bij een item raadt zal niet kunnen melden dat hij het
goed heeft ingevuld. Men vraagt naar de ware score.' Met andere woorden, omdat de
behaalde tentamenscore wel en een aanzienlijk deel van de Voorspelling Achteraf niet
een raadcomponent omvat en de instructie daar niet op inspeelde kan, aldus Van den
Brink, de geconstateerde onderschatting eenvoudig verklaard worden uit onze onderzoeks-
opzet. Op de houdbaarheid van deze aanname zelf komen wij nog terug, omdat aan dit

probleem een apart experiment werd gewijd. Hier gaat het ons om de aanvechtbare wijze
Waarop Van den Brink prematuur en geforceerd tracht zijn stelling aannemelijkheid
te verschaffen. Hij voert, ter afsluiting van pt. 1, drie argumenten aan. Van geen daarvan
Valt in te zien dat daarmee op passende wijze steun wordt verleend aan zijn opvatting.
Ten eerste voorspelt hij, 'a priori'(?), dat onze resuhaten er uit zien zoals ze er uit zien.
Die voorspelling komt uit en daaraan ontleent Van den Brink een eerste argument voor
de juistheid van zijn verklaring. Met zijn derde voorspelling is het al niet anders. Opnieuw
Wordt 'a priori' de inhoud van een door ons vermelde tabel voorspeld in de kennelijke
Verwachting dat dit het vertrouwen in de juistheid van juist zijn hypothese inzake de voor-
spellingsstrategie van studenten zal vergroten. Vooralsnog houden wij echter nog even vast
aan de opvatting dat studenten zich om psychologische redenen bij de Voorspelling
Achteraf enigszins terughoudend betoonden, al nemen wij er kennis van dat niet ieder-

die mogelijkheid voor waarschijnlijk houdt.
De tweede voorspelling (De Voorspelling Vooraf zal vaker de juiste uitslag representeren
dan de VoorspelUng Achteraf) kan men inderdaad, zoals Van den Brink vermeldt, verifi-
ëren in onze tabel 1. En dan blijkt inderdaad, zoals Van den Brink constateert, dat het
Percentage juiste schattingen vooraf elf keer hoger en 6 keer lager is dan achteraf. En
aldus, zoals Van den Brink niet opmerkt, is ook deze voorspelling te broos gebleken
JSiegel, 1956,p.68e.v.).

Wat rest is Van den Brink's stelling dat de onderschatting achteraf verklaard moet worden
Uit onze formulering van de instructie: mogelijk hebben studenten, gevraagd een schat-
ting te doen van het aantal goed ingevulde items, geen rekening (kunnen) houden met een
raadcomponent en als gevolg daarvan de tentamenprestatie onderschat. Terwille van Van
den Brink voerden wij een bescheiden experiment uit om te zien of zijn stelling een
houdbare is.

Op 7 november 1980 namen, verspreid over drie zalen, 247 studenten deel aan het
tentamen Statistiek A dat onderdeel is van de propedeuse psychologie aan de Universi-
Jeit van Amsterdam. Om organisatorische redenen werd een zaal van deelname uitgesloten.
De studenten ontvingen van te voren schriftelijk het verzoek aan een onderzoek naar ver-
Wachtingen omtrent het tentamen mee te werken. In overeenstemming met de subfacultaire
•^egel dat tentamens en onderzoek niet vermengd mogen worden vond dit voorspelhngs-
onderzoek in een andere zaal plaats dan het tentamen. Men werd uitgenodigd zich een
half uur voor het begin van het tentamen bij deze zaal te melden. De deehiemers werden
yerzocht de voorspelling vooraf te doen, zij werden daartoe individueel geïnstrueerd. Bij
mievering van deze voorspelling ontvingen de studenten een bewijs van deebiame waar-
°P het verzoek stond direct na het tentamen terug te keren naar dezelfde zaal voor de
•■est van het onderzoek. De studenten wisten dat zij (na de Voorspelling Achteraf) de
_eutel van het tentamen zouden ontvangen en zo in de gelegenheid waren de voorlopige
Uitslag vast te steUen.

^ gaat straks deelnemen aan het tentamen Statistiek A dat zoals u weet bestaat uit 30 drie-keuze

A's u 21 of meer vragen goed beantwoordt dan bent u met tenminste een voldoende geslaagd. Hebt u

19 of 20 vragen goed dan bent u nog net geslaagd, maai moet u de onvoldoende goed maken door
tenminste een zeven te halen op het B-tentamen. Indien u 18 of minder vragen goed hebt bent u
voor het tentamen gezakt.

Dus 0-18 vragen goed betekent: gezakt - onvoldoende
19-20 vragen goed betekent: geslaagd - onvoldoende
21-30 vragen goed betekent: geslaagd - voldoende
Beantwoord a.u.b. nu onderstaande vraag en lever het papiertje in, dan ontvangt u een bewijs van
deelname'.

Vervolgens kreeg iedere student een van de volgende drie vragen voorgelegd, tussen haak-
jes is de formulering vermeld geldend voor de Voorspelling Achteraf.

Instructie 1: Geef een schatting van de score - inclusief goed gerade items - die U verwacht te zullen
behalen (denkt behaald te hebben) voor dit tentamen Statistiek A.

Instructie 2: Geef een schatting van de score die U verwacht te zullen behalen (denkt behaald te heb-
ben) voor dit tentamen Statistiek A.

Instructie 3: Geef een schatting van het aantal goed ingevulde items dat U verwacht te zullen beha-
len (denkt behaald te hebben) voor dit tentamen Statistiek A.

Men werd verzocht de schatting te actualiseren door het omcirkelen van het desbetref-
fende getal, dat kon variëren van 1 tot 30. Instructie 3 bevat de formulering zoals steeds
door ons gebruikt. Instructie 1 representeert Van den Brink's opvatting, de formulering
is dan ook van zijn hand. Instructie 2 werd door ons toegevoegd omdat alleen zo het
effect van de toevoeging — inclusief goed geraden items - apart kon worden achter-
haald.

Wij merken volledigheidshalve nog op dat dit experiment in een aantal opzichten afwijkt
van het onderzoek waarvan wij eerder verslag deden. Dit geldt met name het soort ten-
tamen (statistiek versus psychologie), de werving van de deelnemers, en de gang van zaken
bij het verzamelen van de gegevens.

Het aantal studenten dat inging op ons verzoek vóór het tentamen een voorspelling te
doen was om voor de hand liggende redenen (laatkomers) wat kleiner dan het aantal dat
daartoe achteraf bereid bleek (n vooraf = 123; n achteraf = 162). Omwille van de ver-
gelijkbaarheid met ons eerdere onderzoek werd besloten,de analyse te beperken tot die
studenten die beide voorspellingen deden. Dat resulteerde in aantallen proefpersonen van
resp. 30 (instructie 1), 63 (instructie 2¹) en 30 (instructie 3). De resuhaten zijn samen-
gevat m drie tabellen. Tabel 2 geeft de gemiddelden en standaard deviaties, tabel 3 de
absolute verschilscores tussen tentamenscore en voorspeUingen, en tabel 4 Spearman's
rangcorrelatiecoëffïciënten tussen de tentamenscore en de tweede voorspelling.
Opnieuw wordt bevestigd dat studenten een neiging vertonen hun tentamepscore te onder-
schatten. Vooraf èn achteraf blijven de voorspelhngen gemiddeld ten achter bij de in
werkelijkheid behaalde scores. Vergehjking van de drie varianten van de instructie laat
niet de conclusie toe dat de voorspeUingen daar een functie van zijn. Uit tabel 4 blijkt wel
een opvallend groot verschil tussen mstructie 1 en 3 qua correlatie tussen score en Voor-

1 De groep die volgens instructie 2 te werk ging participeerde na het voorspellingsonderzoek nog in
een ander onderzoek. Vandaar dat deze groep meer deelnemers moest tellen dan de overige twee.

Spelling Achteraf. Een verklaring hebben wij niet voorhanden. Aan de lezer terbeoorde-
"ig of uit dit alles mag worden afgeleid dat er voor Van den Brink's opvatting iets te zes-
gen Vah.

^nze indruk op dit moment is dat zowel Van den Brink als wij in ons eerdere artikel te
Achteloos voorbij zijn gegaan aan de mogelijkheid dat studenten hun voorspelhngen minder
Weloverwogen en rationeel concretiseren dan door ons aangenomen. Welhcht is het
'^edelijker bij de studenten een zekere gedachteloosheid te veronderstellen, gepreoccu-
peerd als zij zijn met de tentamenprestatie, en doet het vanuit die geestesgesteldheid
niet ter zake hoe de instructie precies luidt. Een terloopse aansporing als 'En, wat
^rwacht je?' levert vermoedelijk geen andere voorspelhngen op.

oorts verdient de hypothese aandacht dat (een deel van de) studenten het zich wat
eenvoudiger maken dan geïmpliceerd door onze instructie(s). Mogelijk gaan zij niet
na hoeveel vragen goed zijn beantwoord maar bepalen zij zich tot het veel geringere
^äntal dat vermoedelijk fout werd beantwoord.

7 Studenten uitgenodigd individueel te komen praten over hun voorspellmgsstrategie.
Deze nagesprekken vonden 5 weken na het tentamen plaats, op 15 december 1980. Wij
vroegen deze studenten allereerst te noteren hoe volgens hen de precieze formulering
van onze schattingsvraag luidde. Geen van de studenten bleek daartoe in staat. De
centrale termen uit de onderscheiden instructies (score, score inclusief goed geraden,
en aantal goed) kon men niet reproduceren. Wel gebruikt werden de termen resultaat,
resultaten, items/vragen goed, en cijfer. Geconfronteerd met de instructie-varianten
zelf wezen bovendien 2 studenten een andere instructie aan dan die welke hen 5 weken
eerder was voorgelegd. Een en ander pleit in ieder geval niet tegen de veronderstelling
dat althans een deel van de studenten zich minder aan de precieze bewoordingen van
de schattingsvraag gelegen laat liggen dan in een vroeger stadium door ons aangenomen.
Gevraagd naar de wijze waarop zij te werk gingen bij de voorspelling vooraf resp. achter-
af ('hoe ging dat?'), deelden de studenten ons het volgende mee. Bepalend voor de voor-
spelling vooraf is de eigen schatting van het bereikte beheersingsniveau. Soms baseert
men zich daarbij op de hoeveelheid stof die men heeft bestudeerd en de intensiteit
waarmee dat is geschied, in andere gevallen vertaalt men de vroegere leer- en toetser-
varingen in een passende schatting of ontleent men een indruk van de eigen vermogens
aan de behaalde score op een eerder (zelf-) afgenomen proeftentamen. Maar uit de ant-
woorden moet ook worden geconcludeerd dat studenten niet zelden hun persoonlijke
aspnaties in de gegeven voorspelling laten doorklinken. Twee studenten gaven te kennen
tegen beter weten in een te hoge voorspelling te hebben gegeven ('gaf me wat meer zelf-
vertrouwen', 'ik dacht, laat ik maar hopen op....'). Een ander daarentegen onderschatte
de tentamenscore juist willens en wetens ('ik wÜde niet te optimistisch zijn...').
De strategie die studenten achteraf volgden lijkt in niets op die welke vooraf werd gehan-
teerd. Het eigen, zelfgeschatte competentieniveau speelt nu geen enkele rol meer, de
daadwerkelijke ervaring met het tentamen is allesbepalend. Een simpele optelsom van
vermeend goede of foute antwoorden aangevuld met een percentage van de antwoorden
waarover men onzeker is, resuheert in de voorspelling achteraf Vier studenten zeiden
eerst het aantal .foute antwoorden te schatten, 2 andere telden het aantal goede antwoor-
den. Alle studenten op één na deelden mee rekening te houden met een zekere raadin-
vloed. Of men ging er van uit dat van de vermoedelijk foute antwoorden enkele wel goed
gegokt zouden zijn, of men veronderstelde van die antwoorden waarvan de juistheid
onzeker was toch een aantal goed te hebben. Ons verzoek een voorspelling achteraf te
geven stelde deze studenten eigenlijk niet voor een ongebruikelijk probleem: zoals steeds
na een tentamen maakte men op geheel eigen wijze een voorlopige taxatie van de uitslag-
Op geen enkele manier maken de door ons gevoerde gesprekken aannemelijk dat de eigen-
aardigheden van de schattingsvraag van invloed zijn op dit taxatieproces en de afloop
ervan. Aan subtiele schriftelijke aansporingen wel of niet rekening te houden met een
raadkans gaat men eenvoudig voorbij. Overzien we het bovenstaande dan overheerst de
indruk dat de reacties weinig eenstemmigheid vertonen: vooraf èn achteraf is een zeer
gevarieerde serie strategieën aanwijsbaar die in van elkaar verschillende, of juist
overeenkomstige schattingen kunnen uitmonden. In hoeverre dit een observatie is met
consequenties voor onderwijskundig/psychometrische modellen onttrekt zich aan onze
beoordeling.

Tenslotte mag het volgende niet ongecorrigeerd blijven. Van den Brink stelt: 'Het is in de
onderwijskunde van groot belang dat studenten, juist vooraf, zich een redelijk beeld vor-
men van het beheersingsniveau dat ze bereikt hebben. Het onderzoek van Hoogstraten en

Vorst toont mijns inziens aan dat dit het geval is.' Hij komt tot deze uitspraak op basis
Van onze bevinding dat gemiddeld 59% vooraf de juiste uitslag voorspelt, wanneer wordt
uitgegaan van 3 categorieën (geslaagd, compenseerbaar onvoldoende, gezakt). Deze con-
clusie berust ons mziens op een ernstige misvatting. Vier van elke 10 studenten blijkt niet
in staat de eigen tentamenprestatie goed te voorspellen. Met andere woorden, iets minder
dan de helft van de studenten begint aan het tentamen zonder zich een adequaat beeld
te hebben gevormd van het bereikte beheersingsniveau. Onderwijskundigen èn psycho-
nietrici kunnen daaraan niet voorbij gaan als betrof het een aangelegenheid die zich bij
meerderheid van stemmen laat beslechten.

®rink, van den, W. P. Het voorspellen van onderzoeksresultaten. Tijdschrift voor Onderwijsresearch,
1981,07,134-136.

Hoogstraten, Joh. & Vorst, H. C. M. Het voorspellen van de eigen studieprestaties. Tijdschrift voor

Onderwijsresearch, 1980,5,211-220.
Siegel, S. Non-parametric statistics. New York: McGraw-Hill, 1956.

iJit de repliek van Hoogstraten en Vorst (1981) blijkt dat ik in mijn reactie niet helder
genoeg geweest ben. Ik zal daarom nog eens proberen duidelijk te maken waar mijns
inziens het probleem in de studie van Hoogstraten en Vorst (1980) ligt. Ook zal ik enkele
Opmerkingen maken bij het nieuwe onderzoek dat zij in hun rephek presenteren.
Een student die zijn prestatie op een meerkeuzetoets moet schatten kan twee dingen
•ioen. Hij zal een schatting geven van zijn ware óf van zijn ruwe score. Deze laatste score
bestaat uit de ware score vermeerderd met een deel van de vragen over de stof die hij niet
beheerst maar door raden goed beantwoordt. Het experiment had hiervoor gecontroleerd
"moeten worden. Aangezien de vraag naar de Voorspelling Vooraf wezenlijk anders was
^an de vraag naar de Voorspelling Achteraf is het tegendeel gebeurd.
Et zijn vier mogelijke antwoordpatronen voor de Voorspellingen Vooraf en Achteraf:
•^w-ruw, ruw-waar, waar-ruw, waar-waar. Hoogstraten en Vorst hebben bij de bewerking
Van de data aangenomen dat alle studenten het derde patroon volgden: vooraf waar,
Achteraf ruw. Zij hebben immers alle Voorspellingen Vooraf verhoogd met de klassieke
Correctie voor raden zoals gebruikelijk bij vierkeuze items.

Kruist een student de categorie C = voldoende aan dan kwantificeren ze dit niet als 60-
69% maar als 70—79%goed. De Voorspellingen Achteraf werden niet door de onder-
zoekers met een raadcomponent verhoogd. Ze werden zonder meer vergeleken met de
behaalde tentamenscores en de wel verhoogde Voorspellingen Vooraf. Deze vergelijking
is slechts zinvol indien de studenten achteraf een schatting van hun ruwe score gegeven
hebben.

Er zijn nu twee mogelijke bronnen van fouten. In de eerste plaats kan een deel van de
studenten vooraf een ruw score geschat hebben. Bijvoorbeeld als volgt: ik beheers zo onge-
veer 45% van de stof; daar komt nog ongeveer een kwart van de rest bij door raden; dat
levert ongeveer 60% goed; dat is voldoende; ik streep de C aan. Een dergelijke voorspelling
wordt ten onrechte gekwantificeerd als 70—79% goed. In de tweede plaats zal een deel
van de studenten achteraf mogelijk een ware score geschat hebben. Deze scores worden
ten onrechte niet voor raden gecorrigeerd door de onderzoekers. Vergelijking van Voor-
spellingen Vooraf, Achteraf en tentamenscores wordt een hachelijke zaak door het feit
dat de beide soorten fouten niet onder controle zijn. In mijn eerste reactie nam ik aan dat
de onderzoekers terecht veronderstelden dat de studenten vooraf een ware score schat-
ten. Achteraf bezien lijkt dit zowel van de onderzpekers als van mij een slag in de lucht.
In hun repliek schrijven Hoogstraten en Vorst:

'De tweede voorspelling (De Voorspelling Vooraf zal vaker de juiste uitslag representeren dan de Voor-
spelling Acliteraf) kan men inderdaad, zoals Van den Brink vermeldt, verifiëren in onze tabel 1. En
dan blijkt inderdaad, zoals Van den Brink constateert, dat het percentage juiste schattingen vooraf
elf keer hoger en 6 keer lager is dan achteraf. En aldus, zoals Van den Brink niet opmerkt, is ook deze
voorspelling te broos gebleken (Siegel, 1956, p. 68, e.v.)'.

Dit citaat wil ik gaarne wat relativeren. In mijn eerste reactie wilde ik niet te breedsprakig
zijn. Maar misschien is het toch verhelderend om op te merken dat het jaar 1971-72 niet
vergelijkbaar is met de overige jaren. In 1971—72 bestond er een andere tentamenregeling
maar bovenal was de vraag naar de Voorspelling Achteraf anders geformuleerd dan in de
volgende jaren (Hoogstraten en Vorst 1980, p. 212). Dat dit effect heeft gehad blijkt uit
de genoemde tabel 1. In 1971-72 was het percentage juiste schattingen van de uitslag
vooraf twee keer hoger en vier keer lager dan achteraf. In de jaren 1972-76 waren deze
getallen negen resp. twee. Een tabel van de binomiale verdeling levert: P(B<2 |p =
'/i; n = 11) = 0,0327. De lezer oordele zelf.

Het bescheiden experiment dat Hoogstraten en Vorst uitgevoerd hebben om mij van re-
pliek te dienen is in vele opzichten onvergelijkbaar met Hoogstraten en Vorst (1980).
De instructies vooraf en acliteraf verschillen nu niet. De Voorspelling Vooraf wordt nu
niet door de onderzoekers voor raden gecorrigeerd. De voornaamste problemen zijn ver-
dwenen. Wel blijkt uit tabel 3 dat het de voorkeur verdient instructie 1: 'score -H kans' te
gebruiken in een dergelijk experiment. De Voorspelling Vooraf, die gegeven moet worden
voordat men het tentamen heeft gemaakt, zet de student voor een slécht gedefinieerd
probleem. De een zal zijn ware beheersing van de stof schatten, de ander mogelijk zijn
verwachte tentamenscore. Men moet via de instructie goed duidelijk maken wat de bedoe-
ling is. Instructie 1 (score + kans) leidt tot een gemiddeld absoluut verschil tussen Voor-
spelling Vooraf en tentamenscore van 1,93 met standaardafwijking 1,82, instructie 3
(aantal goed) tot x = 3,57 met s = 3,20. Het 95% betrouwbaarheidsinterval voor x is
[1,25; 2,61] resp. [2,38; 4,76]. De lezer oordelen wederom zelf. Bij de Voorspellmg Ach-

teraf maakt de vorm van de instructie kennelijk minder uit (Hoogstraten en Vorst, 1981,
tabel 2 en 3). Na het maken van het tentamen geeft men een schatting die niet langer erg
gevoelig lijkt voor de vorm van de instructie. Wel blijkt uit tabel 4 dat men onder instruc-
tie 1 veel consistenter voorspelt dan onder instructie 3.

Samenvattend: Hoogstraten en Vorst tonen aan dat instructie 1 te prefereren valt boven
instructie 3 en opnieuw blijkt uit de tabellen 2, 3 en 4 dat de studenten hun tentamen-
Prestatie redelijk goed weten te schatten.

Hoogstraten, Joh. & Vorst, H.C.M. Het voorspellen van de eigen studieprestaties. Tijdschrift voor

Onderwijsresearch, 1980,5,211-220.
Hoogstraten, Joh. & Vorst, H. C. M. Het voorspellen van de eigen studieprestaties; repliek. Tijdschrift
Voor Onderwijsresearch, 1981,5, 137-143.

Zijn jongste commentaar volhardt Van den Brink (1981b) in de bewering dat wij
'•••alle Voorspellingen Vooraf verhoogd (hebben) met de klassieke correctie voor raden
zoals gebruikelijk bij vierkeuze items'. Niets is minder waar. De tentamenregeling aan
onze subfaculteit houdt in dat studenten pas op een voldoende aanspraak kunnen maken
^ij een tentamenscore > 69%. Een tentamenscore < 69% wordt opgevat als (compenseer-
baar) onvoldoende. Wie dus verwacht 60% goed te hebben en bekend is met de propedeu-
seregehng kruist niet een C maar een D aan. Nu schreven wij aan het slot van ons artikel
dat uit vervolgonderzoek bleek dat de beoordelingscategorieën A t/m E geen eenduidige
reactie bij studenten teweeg brachten:

'Ondanks het feit dat de officiële beoordelingscijfers en bijbehorende scores in de propedeuseregeling
^aren opgenomen, bleken deze niet als zodanig bij de studenten bekend te zijn. De omzetting van deze
categorieën in tentamenscores is, zoals gezegd, daarom niet zonder enige willekeur' (p. 220).

Maar aan deze constatering mag niet de conclusie worden verbonden dat dûs een deel
^an de studenten te werk is gegaan op de door Van den Brink gesuggereerde wijze (van
via raden naar 60% en een C). En wel om twee redenen. Ten eerste houden wij het
Voor uiterst onwaarschijnlijk dat studenten vlak voordat het tentamen begmt een afge-

wogen voorspelling doen in termen van ruwe, ware en raadscores, zo ze daar op rustiger
momenten al toe in staat moeten worden geacht. En ten tweede blijkt uit onze nage-
sprekken dat men de voorspellingsvragen doorgaans op zeer persoonlijke wijze beant-
woordt, zonder zich veel gelegen te laten liggen aan onze precieze intenties. Alleen al om
deze reden doet Van den Brink de werkelijkheid geweld aan met zijn mededeling dat
de student slechts twee dingen kan doen: of een schatting geven van zijn ware of van zijn
ruwe score. Naar uit onze nagesprekken bleek, hebben studenten daar zo hun eigen
gedachten over, resuherend in niet vier maar talloze potentiële antwoordpatronen voor de
Voorspelling Vooraf en Achteraf. Drie opmerkingen tot besluit.

1. Het gaat niet aan in tweede instantie een deel van ons onderzoeksmateriaal onbruik-
baar te verklaren teneinde alsnog een verschil van enige betekenis te construeren.

2. Als Van den Brink herhaalt "...dat de studenten hun prestaties redelijk goed weten
te schatten", dan is deze conclusie niet in overeenstemming te brengen met de fei-
ten. Over 17 tentamens bekeken (zie Hoogstraten en Vorst, 1980, tabel 1, kolom-
men 6 en 9), voorspelt 14-61% de uitslag Vooraf niet juist en Achteraf 15-68%.

3. Er valt o.i. geen argument aan te voeren op grond waarvan een voorkeur voor één van
de drie instructies, zoals onderzocht is ons aanvullende experiment, verantwoord is.
De totaalindruk van de gegevens vermeld in de tabellen 2, 3 en 4 en van de gesprek-
ken met studenten is dat, althans in deze onderzoeksopzet, geen differentieel effect
van de instructievarianten is uitgegaan. De omstandigheden dat de door Van den Brink
gegeven betrouwbaarheidsintervallen van de gemiddelde absolute verschilscores niet
zonder overiap zijn, kan slechts als ondersteuning van deze conclusie worden opgevat.

Hoogstraten, Joh. en Vorst, H. C. M. Het voorspellen van de eigen studieprestaties. Tijdschrift voor

Onderwijsresearch, 1980,5, 211-220.
Brink, van den, W.P. Het voorspellen van onderzoeksresultaten; nogmaals. Tijdschrift voor Onder-
wijsresearch, 1981,6,143-145.
•

In de SVO-reeks is als nummer 29 de tekst opgenomen van de dissertatie waarop de auteur op 1 febru-
1980 promoveerde bij prof. dr. A.D. de Groot.
® tekst betreft het verslag van werkzaamheden die zijn verricht binnen het onderzoeksproject dat be-
^pnd is geworden onder de naam DOE-project (Doelstellingen Onderzoek Expressievakken). Binnen
't project is geprobeerd 'mogelijke doelen en leereffecten van handenarbeid, muziek, tekenen en tex-
uele werkvormen in het mavo en havo op te sporen, teneinde een helderder beeldvorming over de na
e streven doelen - in relatie tot leerplanontwikkeling en evaluatie - mogelijk te maken.' Het onder-
oeksproject vindt zijn wortels in de voor het schooljaar 1971-1972 geschapen mogelijkheid voor
^avo- en havoleerlingen om examen te doen in één van de kunstzinnige vakken. Vanuit de begelei-
dingscommissie 'Experiment Eindexamens Handenarbeid, Muziek, Tekenen en Textiele Werkvormen'
aan het Kohnstamm Instituut verzocht, door middel van onderwijskundig onderzoek een bijdrage te
everen tot de oplossing van problemen waar men zich binnen het Experiment voor geplaatst zag. Dit
®eft uiteindelijk geresulteerd in een subsidietoekenning door de SVO en een van start gaan van het
onderzoekin 1975.

'nnen het gehele onderzoeksproject, waarvan de uitkomsten in deze publicatie zijn terug te vinden,
'Jn de volgende deelonderzoeken uitgevoerd:

'1. een literatuuroriëntatie, waarbij werd nagegaan welke algemene doelen in de vaklitera-
tuur aan kunstzinnige vorming worden toegeschreven;

2. een veldverkenning, waarbij bij het Experiment betrokken inspecteurs, begeleiders, do-
centen en anderen werden geïnterviewd over doelen van handenarbeid, tekenen, textie-
le werkvormen en muziek in het mavo en havo;

3. een deelonderzoek 'leerlingen aan het woord' waarbij leereffecten (c.q. kennis-en-vaardig-
heden) van de kunstzinnige vakken werden opgespoord door middel van een analyse van
leamer reports van oud-Ieerlingen die - op verschillende tijdstippen - over hun leerer-
varingen rapporteerden;

4. een exploratief deelonderzoek 'leerlingen aan het werk' waarbij door middel van een ana-
lyse van hardopdenkprotocollen werd nagegaan over welke leereffecten (c.q. kennis-en
vaardigheden) leeriingen beschikken bij het oplossen van relevant geachte problemen in

' verslaggeving in de publicatie is de nadruk voornamelijk komen te liggen op de laatste twee deel-
onderzoeken.

^P basis van de literatuuroriëntatie en de veldverkenning concludeert Van der Kamp dat er in de lite-
tatuur zeer veel en zeer uiteenlopende doelen aan kunstzinnige vorming worden toegeschreven, dat
'n het mavo en havo actueel geldende en feitelijk nagestreefde (vaag geformuleerde) doelen conver-
geren naar een grootste gemene deler van opvattingen met het accent op persoonlijkheidsontplooiing
dat het centraal schriftelijk examen (veel meer dan het tamelijk autonome schoolonderzoek) een
[«'lactie van doelen bewerkstelligt, die niet door iedereen op prijs wordt gesteld.

® beschrijving van de resultaten van de eerste twee deelonderzoeken laat de auteur in de publicatie
Voorafgaan door een bespreking van de achtergronden en vooronderstellingen van het algemeen doel-
'tellingenvraagstuk. Hij komt daarbij tot de stelling dat de doelstellingenproblematiek in de kunstzin-
"jge vorming in een bredere context bestudeerd dient te worden, '...minder pretentieus dan in de

h benadering, minder gericht op opinies over wat leeriingen zouden moeten Ieren dan op ver-

j^®'dering van wat leerlingen in feite leren, alert op belangstellingen bij de besluitvorming over het
jj^iplan en uitgaande van een minder behavioristische opvatting van het begrip 'onderwijsdoelstelling'.'
Zo t" stelling aangegeven richting voor een strategisch-methodologische conceptie van het onder-
Zoekt de auteur te concretiseren met behulp van de ideeën die A.D. de Groot met betrekking tot
doelstellingenvraagstuk heeft uitgewerkt. De idee van het 'leamer report' haalt de auteur daarbij

als een vruchtbaar uitgangspunt naar voren, om greep te krijgen op leereffecten van kunstzinnige vor-
ming.

De wijze waarop de idee over het learner report is uitgewerkt tot een bruikbaar onderzoeksinstrument
wordt door de auteur niet uitgebreid beschreven. Hiervoor wordt verwezen naar een eerder versche-
nen interimrapport (Haanstra en Van der Kamp, 1976).

Het uiteindelijke onderzoeksinstrument binnen het deelonderzoek 'leerlingen aan het woord' bestaat
uit een vierdelige vragenlijst waarin in de eerste twee delen de idee van het learner report volgens De
Groot is uitgewerkt. De volgende vier delen zijn onderscheiden: (1) een 'open' versie van het leerlin-
genverslag waarbij de leerlingen gevraagd wordt zoveel mogelijk leerervaringen op te schrijven in de
vorm 'Ik heb geleerd dat...' of 'Ik heb geleerd dat ik...' etc., (2) een dertigtal voorgestructureerde leer-
ervaringen waarbij de leerling op een driepuntschaal kan aangeven in hoeverre hij een bepaalde leerer-
varing bij zichzelf van toepassing acht, (3) een aantal open vragen over de relatie leerling - kunstzinni-
ge vorming en tenslotte (4) enkele vragen naar relevante persoonsgegevens.

De auteur plaatst bij de vier delen van de vragenlijst diverse methodologische kanttekeningen, waarbij
hij echter samenvattend meent te kunnen stellen dat het learner report in de vorm van voorgestruc-
tureerde leerervaringen tot bemoedigende psychometrische resultaten heeft geleid terwijl de meer open
vorm nogal data-analytische problemen met zich mee brengt.

Met behulp van de vragenlijst is, tijdens de vacantieperiode volgend op het eindexamen, informatie

Na Ij jaar is aan 160 oud-leerlingen uit de eerste steekproef opnieuw een kort vragenformulier toege-
zonden met vragen over wat ze op dat moment deden, wat ze aan kunstzinnige vorming hadden ge-
102

Doordat de gegevens door de onderzoeker niet zijn verzameld ten behoeve van een strikt statistische
hypothesetoetsing maar meer ten behoeve van exploratieve doeleinden zijn de uitkomsten van het
derde deelonderzoek, zeker wat betreft de inhoudelijke aspecten, niet gemakkelijk kernachtig en
beknopt weer te geven. Vandaar dat de auteur naast een kwantitatieve verslaggeving zijn toevluct
neemt tot wat hij noemt 'een bloemlezing van leerervaringen'.

De auteur vat zelf de belangrijkste resultaten van het derde deelonderzoek als volgt samen:

De groep leerlingen die kunstzinnige vakken in het vakkenpakket kiest is niet in alle op-
zichten representatief voor de mavo- en havo-leerlingen.

- De leerlingen hebben door het kunstzinnig vak vooral meer waardering en begrip voor
kunst gekregen. Het 'beter leren kijken' krijgt daarbij veel nadruk.

- Sociale vaardigheden worden meer van muziek dan van de beeldende vakken opgestoken,
zelfinzicht wordt in geringe mate als leereffect gerapporteerd.

- 2j Jaar na het examen vinden zes van de zeven oud-leerlingen uit ons onderzoek dat zij
iets aan het kunstzinnige vak hebben gehad. Met name blijkt het vak nuttig voor oplei-
dingen voor onderwijsgevenden en als vrijetijdsbesteding. Dit beeld is voor mavo minder
gunstig dan voor het havo. ■•

- Meer dan 90 procent van de oud-leerlingen uit ons onderzoek beweert dat het ofwel zelf
kunstzinnige activiteiten ontplooit, ofwel gebruik maakt van culturele voorzieningen of
beide'.

Teneinde een aanzet te geven tot het verkrijgen van inzicht in de specifieke aard van 'kennis-en-vaardig-
heden' waarover de leerlingen beschikken bij het oplossen van kunstzinnige problemen heeft de auteur
bij een kleine groep leeriingen hardopdenkprotocollen geanalyseerd.

Drie soorten opdrachten werden onderzocht: (1) 'een opdracht uit de kunstbeschoujving, namelijk het
laten bespreken van reproducties van kunstwerken', (2) 'een opdracht betreffende het improviseren in
de muziek, namelijk het afmaken van een muziekzin', (3) 'enkele opdrachten uit de productieve beel-
dende vorming, onder andere het maken van een werkstuk in klei'.

Het geringe aantal protocollen dat is verzameld en geanalyseerd brengt met zich mee dat de uitspraken
die de auteur n.a.v. dit deelonderzoek doet als tentatief beschouwd moeten worden, hetgeen de auteur
zelf ook aangeeft. De auteur meent echter wel te kunnen stellen dat de hardopdenkprotocollen bruik-
baar zijn gebleken om informatie te verzamelen over kunstzinnige processen van 'leerlingen aan het
werk'.

Wanneer we de publicatie in zijn geheel overzien moeten we vast stellen dat de auteur een zeer breed
*®rrein (mogelijk te breed?) heeft proberen te bestrijken.

De wijze waarop de auteur het onderwerp heeft benaderd teneinde een bijdrage te leveren aan het ver-
schaffen van inzicht in het omvangrijke en nauwelijks ontgonnen terrein verdient echter alle waarde-
ring.

Vanuit meerdere invalshoeken bezien biedt het werk interessante aanzetten voor een verdere discussie
verdieping van onderzoek.

naar aanleiding van 'Onderwijsmiddelen van de Open Universiteit: Funkties en kosten'
^DenHaag: Staatsuitgeverij, 1979)

nota 'Onderwijsmiddelen van de Open Universiteit: functies en kosten' is alweer een aantal
aanden oud. Zij werd geschreven door het Bureau Onderzoek van Onderwijs van de Rijksuniversiteit
'den, op verzoek van de Commissie Voorbereiding Open Universiteit. Deze commissie beveelt de
ota als belangwekkend rapport aan aan de staf van de bestaande onderwijsinstellingen,
belangrijkste conclusies zijn dat

een combinatie van schriftelijke instructie en computer-gestuurd onderwijs het leeuwendeel van de
didaktische functies in de Open Universiteit zal vervullen;
^ audio-visuele media en contactonderwijs alleen een aanvullende functie zullen hebben, zeker

Wanneer de Open Universiteit haar aanbod beperkt tot alpha- en gammavakken en, voor wat de
In betreft, tot algemene en theoretische varianten.

^ de navolgende bespreking wordt met waardering gesproken over de gedegen studie die aan het
PPort ten grondslag ligt, maar kritiek geuit op de louter op de aard van de leerstof gebaseerde con-
ciusies.

^Het speelt zich allemaal in die koppen af, daar kan ik toch geen televisie van maken!', zei de televisie-
0 ®^seur. We zouden een 25 minuten uitzending* maken over de functie van doelstellingen in het
y derwijs. Het idee een presentator, terwijl hij zijn verhaal vertelde, in een fors uitgevallen 'model van
zrf ^eli^er' te laten rondwandelen, hadden we al laten vallen: het zou niets toevoegen aan de toege-
j^^Jden schriftelijke informatie.

jj ' uiteindelijke product was onverteerbaar: een paar mensen rond een tafel, pratend over doelstel-
ö/®" keuzebepalende rol ervan.

y, J^iscussies rond dit en andere programma's spitsten zich vaak toe op de kwesties van herkenbaar-
(oh leraren en hun vermogen (en wil) tot abstraheren van concrete situaties naar algemene
^ nderwijskundige) principes. In hoge mate werd in twijfel getrokken dat een wiskundeleraar, kijkend
Zal^' zich afspeelt in een Franse les, dit naar een conceptueel niveau zou kunnen tillen. Anderzijds
Q leraar kunnen bevestigen dat het heel wat moeite kost de verbaal-abstracte informatie van
"®rwijskundigen met concrete beelden aan te vullen.

ro^" ^^ ^ t.v.-programma's die onderdeel waren van de multi-mediale cursus Aanvullende Be-
®Psvorming van Leraren; gedistribueerd en uitgezonden 1977-1978. (Vrije Universiteit-N.C.R.V.)

In de eerder genoemde nota vind ik een bevestiging van de woorden van onze regisseur: audio-visuele
producties hebben weinig of niets toe te voegen aan het leerproces, voor zover het gaat om operaties
op kennis (interpreteren e.d. van aanwezige kennis) en wanneer het gaat om operaties mèt kennis in
de wereld van cognitieve representaties (de wereld van talen, wiskunde, logica, methodologie etc.):
'Het speelt zich allemaal afin de koppen'.

De audio-visuele instructie-middelen wordt in het rapport een bescheiden functie toegekend.
De nota leidt onontkoombaar tot de conclusie dat in principe schriftelijk onderwijs (inclusief vriende-
lijke denkprocessen - corrigerende leraren) kan volstaan. De meeste kennis, alle operaties öp kennis
en al die operaties mèt kennis die betrekking hebben op een symbolische of fictieve werkelijkheid,
kunnen zo worden geleerd.

Die leraren zijn evenwel, behalve vriendelijk, ook duur en traag. De computer kan een heleboel van die
problemen aanbieden waarop studenten hun vaardigheid ln ordenen, analyseren en combineren van
kennis kunnen oefenen. De computer kan de wijze(n) waarop de student de denk-operatie verricht
met volharding controleren en corrigeren. Het moet dan wel om vraagstukken gaan die langs een
of meerdere vaststaande wegen tot een oplossing te brengen zijn. De nota spreekt van 'algorithmeer-
bare denkrepertoires' (pag. 95,102 e.v.).

De beperkingen van de computer worden ook vermeld: wanneer de wijze van denken ook door
geoefenden niet te expliciteren is moeten instructievormen die de student tot identificatie en imitatie
prikkelen het werk doen {paradigmatische instructievormen]) (pag. 83).

Uit eigen aanschouwing is mij de aantrekkelijkheid van computer-gesimuleerde modellen, die reageren
op ingrijpen van buitenaf, bekend. Waarmee ik maar wil zeggen dat het geen irrationele angst voor de
computer is die in mij, lezende in de nota, een zekere weerstand oproept. Hoe komt 't dat mij, naast
bewondering voor deze analyse van onderwijsvormen en -middelen, tegelijkertijd een zekere kilheid
bevangt?

Waarom kan ik niet anders dan grotendeels de beschouwingen, de literatuursyntheses en de conclusies
ten aanzien van schriftelijke instructie, audio-visuele instructie-middelen en computer-gestuurd
onderwijs aanvaarden, terwijl ik me blijf afvragen waar ik in een hinderlaag gelokt ben.

De studerende ontbreekt, realiseer je je dan plotseling. De beoordeling van instructie-methoden en
-middelen wordt vrijwel uitsluitend beredeneerd vanuit de aard en structuur van de leerstof. Mogelij''
hebben de auteurs van de nota het niet als hun opdracht beschouwd zich in een profiel van de Open
Universiteit-student te verdiepen. Veel meer dan een verondersteld geringere 'geletterdheid' (pag.
en 102) kan ik niet uit de nota destilleren. Een uitspraak als 'het onderwijs mag niet zo demotiverend
zijn dat dit leidt tot onnodige studievertraging of staken van de studie' (pag. 100) lijkt haast provoce-
rend bedoeld.

Ook zonder model van Van Gelder valt in te zien dat èn doelstelling èn beginsituatie van de student
van eminent belang zijn voor de keuze van de onderwijsleersituaties. Mij dunkt dat die, zeker in het
onderwijs van de Open Universiteit, heel sterk worden bepaald door de gekozen media en het gebruik
dat daarvan wordt gemaakt. Is er niet een enorm verschil tussen iemand die studeert in het belang van
- en in relatie tot zijn beroepsuitoefening en iemand die, los van zijn (of zonder) werk een studie
volgt? Zou de een er voorkeur aan geven in vrij frequent bijeenkomende onderwijsgroepen concrete
werkproblemen als uitgangspunt te nemen voor zijn studie of juist een recht-toe-recht-aan 'gealgorith-
meerde' informatiestroom prefereren? Zou de ander niet in hoge mate gebaat zijn bij een aantal, naai
de criteria van de nota, volstrekt overbodige programma's op het open net die hem/haar het gevoel
geven dat hij/zij samen met anderen bezig is?

De nota ademt een zekere technologische sfeer: de beperkte betekenis van audio-visueel informatie'
aanbod wordt voornamelijk onderbouwd vanuit een, in empirisch onderzoek aangetoonde, afwezig'
heid van extra leereffect.

Menige goed gemotiveerde Open Universiteit-student zal zich wel voelen bij een zakelijk sober®
aanpak. Het zou jammer zijn als anderen het gevoel krijgen te studeren op een ijsschots.....die afdrijft-

De schrijvers van de nota kregen bij de aanvang van hun studie de boodschap mee dat schriftelijk
Materiaal het belangrijkste instructie-middel zou gaan vormen. Dat zij, los van deze voorafgestelde
beperking, tot de conclusie komen dat schriftelijk materiaal de belangrijkste drager van de
informatie kan zijn stemt hen tot tevredenheid. De uitputtende behandeling van de mogelijkheden
Van schriftelijk cursusmateriaal en computergestuurd onderwijs doet vermoeden dat men, in de leer-
planontwikkeling voor de verschillende studierichtingen in de Open Universiteit, straks uit is op een
uitgekookte, strakgeprogrammeerde sequentie van infoimatK^erstrekking, omgang met - en handelen
■net behulp van die informatie. De enige vrijheid die de student gelaten wordt lijkt het tempo waarin
•i'j studeert. Men mag aannemen dat een fors deel van de O.U.-studenten maar al te graag, met het oog
op het gestelde doel, aan deze leiband zal willen lopen. Vanuit een bepaalde optiek kan men ook be-
geren dat de inrichters van het onderwijs de studenten die duidelijkheid (wat moet ik doen, hoe goed
"Joet ik het 'kennen') moeten verschaffen.

De nota rept zelf van 'het zeer aanzienlijke risico straks een ongewenst soort academicus te
Produceren: rijk aan kennis, maar arm aan mogelijkheden deze kennis zinnig aan te wenden' (pag. 97),
bij het louter verschaffen van schriftelijk leermateriaal.

Het gevaar is niet denkbeeldig dat de nota, door de gesuggereerde keuze-mogelijkheden en de daaraan
gewijde aandacht, dit risico zelf oproept: schriftelijk materiaal en computergestuurd onderwijs worden
^ó centraal gesteld, a.v.-middelen en leercentra worden zó als complementair voorgesteld dat zich aan
de lezer een, impliciete, conclusie geleidelijk opdringt.

Met name de mogelijkheden van probleemgerichte werkgroepen (pag. 107) en leercentra (pag. 109)
blijven wel erg onderbelicht. De studenten van de O.U. zullen geen onbeschreven blad zijn: voor velen
^an hen zal een volgorde (pag. 81) van
~~ informatieverstrekking
informatieverwerking
voortgangsbeoordeling en terugkoppeling
compensatie
eindbeoordeling

onvoldoende recht doen aan hun individuele leer- en ontwikkelingsbehoeften. Zeker zal dit gelden
Voor hen die studeren in relatie met hun actuele werkkring.

ï^en probleemgerichte en probleemgestuurde (problemen als uitgangspunt en niet louter als toepassing)
Werkwijze in werkgroepen zal meer aansluiten bij hun persoonlijke mogelijkheden en motieven:
actualisering van eigen kennis/informatie
formulering van informatie-behoefte
- zelfstandige informatieverwerving en -verwerking
~ voortgangsbeoordeling en terugkoppeling

^e opstellers van de nota verdienen respect voor de grondigheid van hun studie. Er rijst twijfel bij de
vtaag of zij zich voldoende hebben weten los te maken van de door de C.V.O.U. meegegeven uitgangs-
punten. De indruk is dat zij daardoor de media en bepaalde vormen van contact-onderwijs onvoldoende
^^bben beschouwd in relatie met de studerenden.

^rkend dient te worden dat zij voor het overige vrijwel alle aspecten, argumenten pro en contra, aan
orde stellen. Feit is dat de rangschikking van de (boeiende) gegevens en de aandacht die zij krijgen,
een vertekening veroorzaken die, ongewild, tot verkeerde conclusies leiden kan.
gerecht wordt het geloof in a.v-media óm de a.v.-media stevig ondermijnd.

lijkt een vanzelfsprekend uitgangspunt dat een hoge frequentie van contact-onderwijs e.d. en
afstandsonderwijs elkaar uitsluiten. Maar zou er niet een pheel andere nota geschreven zijn wanneer
•"en begonnen was bij de vraag: hoeveel contact (-onderwijs) hebben welke studenten in welke soorten
studies nodig? En onder contact-onderwijs wordt dan hier niet een "paradigmatisch college' (pag. 26)

Zoekend naar een derde weg, dat ook als dissertatie is verschenen, bestaat uit drie delen:

1. Zoekend naar een derde weg: Studies met betrekking tot de betekenis van wetenschappelijk
onderzoek voor onderwijspraktijk.

De bespreking beperkt zich tot de twee eerste delen van het proefschrift, die vanuit het oogpunt
van onderwijsonderzoek het meest van belang zijn. Over Leren bij Husserl is in het Algemeen
Nederlands Tijdschrift voor Wijsbegeerte een bespreking verschenen, van de hand van C.F. van Parre-
ren(1980, 72, p. 49-51).

Deel I van 'Zoekend naar een derde weg'' is een bundeling van artikelen die reeds eerder versche-
nen zijn. Ook 'Didactiek ruiar menselijke maat\ is reeds eerder verschenen en is op zich een bewer-
king van een reeks artikelen in het voormalige Tijdschrift voor Opvoeding en Onderwijs en Ge-
zondheidszorg.

Men zou de vraag kunnen stellen of het zinvol is boeken, c.q. artikelen te bespreken die reeds lange
tijd geleden zijn verschenen en die reeds aanleiding tot discussie hebben gegeven. We zouden deze
vraag bevestigend willen beantwoorden, gezien de actualiteit van de probleemstelling en de gedach-
tengang die in de loop van de tijd in diverse studies als antwoord op deze probleemstelling is ver-
woord.

Brus bouwt telkens verder op voorgaande stellingnames, ontwikkelt zijn ideeën, ontvouwt ze e"
komt tot verscherpingen. Het is dan ook nodig om het geheel te volgen, omdat Brus wel nauwkeurig,
in fraai nederlands schrijft, maar op zoek is en, conform de in het artikel over de taal bij Merleau-
Ponty ontwikkelde gedachte, niet de oplossing vat in woorden maar benaderingen ervan geeft. Daarom
is ook als laatste benadering de studie 'Kleren voor een keizer' (Tijdschrift voor Onderwijsresearch
1981,6,3-15) in de beschouwing betrokken.
Het vertrekpunt van de studie is:

'Op welke wijze kunnen wetenschappelijke inspanningen ten aanzien van onderwijs en opvoe-
ding reëel van betekenis zijn voor het feitelijk opvoedings- en onderwijsgebeuren' (Zoekend
naar een derde weg, pag. 5).

In het aangeven van de plaats van wetenschappelijke inspanningen, vooral het onderzoek in pedago-
giek en onderwijskunde, treedt Brus in discussie met een aantal opvattingen omtrent pedagogiek en
onderwijskunde.

In 'Didactiek naar menselijke maat' wordt een van deze opvattingen, namelijk die van de autonome
pedagogiek, geanalyseerd. Deze autonome pedagogiek stelt het primaat van de opvoedkunde nie'
alleen boven andere wetenschappelijke benaderingen van de Opvoedingspraktijk, maar ook boven de
opvoedingspraktijk zelf.

De opvoedkunde moet de opvoeding mogelijk maken. In zijn analyse toont Brus aan, dat deze opvatting
geen recht kan doen gelden op de zogenaamde fenomenologische benadering van de opvoeding.
f^eite is ze onfenomenologisch. Ze maakt wetenschappelijke ontwikkeling onmogelijk, is tegen onder-
zoek gericht, distantieert zich van andere wetenschappen.

Deze opvatting is de oorzaak van irreële verwachtingen bij practici en ongefundeerde aanspraken e"
pretenties van de zijde van theoretici op grond van scholing in het zogenaamde-pedagogisch denkei^
ten opzichte van de opvoedingswerkelijkheid. Een dergelijke wetenschap biedt geen perspectief.
geconstateerd te hebben dat ook Litt in 'Das Wesen des Pädagogischen Denkens' dit perspectief niet
kan bieden, omdat denken, handelen, wetenschap en de relaties daartussen onduidelijk blijven, c.'l-
niet aanwezig zijn, probeert Brus een uitweg uit de situatie te formuleren. Denken wordt gezie"
als een vorm van handelen. Wetenschap beoefenen, didactiek, pedagogiek is niet denken zonder meer,
maar het is een doelbewust streven naar een geïntegreerd geheel van intersubjectief tot gelding
gebrachte uitspraken. Deze uitspraken kunnen een motief vormen voor het handelen van de practicu'
in een situatie die omvangrijker is en niet volledig door de wetenschap onder woorden is gebracht en
begrepen kan worden. Daarmee hebben theorie en praktijk ieder hun eigen perspectief, hun eige"

'ntentie; zijn echter niet zo in elkaar verwikkeld als het pedagogisch denken, c.q. de autonome pedago-
^ek stelt.

'n een dergelijke relatie tussen theorie en praktijk is theorieontwikkeling noodzakelijk met inbegrip
^an empirisch onderzoek. Het voert ons telkens iets verder, terwijl toch nooit een eind- of zelfs rust-
Punt wordt bereikt.

'Vanuit de praktijk gezien is de belangrijkste taak van het empirische onderzoek: het verschaf-
fen van feitelijke informatie en het aanwijzen van vooroordelen, het uitnodigen tot een zichzelf
herzien. Op welke wijze praktijk en practici zich dienen te herzien, kan echter uiteindelijk door
geen enkel empirisch onderzoek dwingend worden aangegeven' (Didactiek naar menselijke
maat, pag. 112).

Jerwijl het fenomenologische denken binnen de autonome pedagogiek onmogelijk was, is binnen een
"'uactiek naar menselijke maat een antropologie tot ontwikkeling gekomen, gericht op een verdere
Verduidelijking van de fundamentele categorieën van het opvoeden, op een beklemtoning van de re-
latieve waarde van wetenschappelijke uitspraken en op het naar voren treden van het probleemgebied
^anuit voorwetenschappelijk kennen.

^ok de verhouding tot andere wetenschappen in een dergelijk theonebegnp is er meer een op voet
gelijkheid en daardoor vruchtbaarder.

het eerste deel van de dissertatie wordt een aantal artikelen gebundeld. In de inleiding hiervoor,
^aarin Brus tevens het kader van de gehele dissertatie schetst, wordt ook de andere weg beschreven;
J'e Van het absoluut stellen van de resultaten van een op zich gestelde-empiiische-vorm van onderzoek.

deze visie stelt men de rol van de wetenschap die streeft naar causale wetmatigheden ten opzichte
^^ de praktijk absoluut. Deze deflnitiefheid blijkt echter niet aanwezig wanneer men wetenschappe-
"jke resultaten van diverse herkomst met elkaar confronteert of deze resultaten vruchtbaar tracht te
ÏJaken voor de praktijk.

is, dat voor ogen wordt gehouden, dat wetenschappelijk werk wel kan leiden tot zeer helder,
?®.er breed en zeer diepgaand gefundeerde uitspraken, dat deze fundering echter nooit alomvattend
f®- Steeds is er een context die (nog) niet is opgehelderd. Deze context wordt onvermijdelijk in het spel
getrokken, zodra men wetenschappelijke uitspraken tot gelding wenst te brengen in het praktisch han-
®'en (Zoekend naar een derde weg, pag. 19).

Jn de daarop volgende artikelen wordt deze derde weg, die met de context betrokkenheid is aangeduid,
°innen opvoeding en onderwijs verder ontwikkeld en toegelicht. De bundel opent met een boeiend
Artikel over de taal bij Merieau-Ponty waarin niet alleen een analyse van het werk van Merleau-Ponty
^ordt gegeven, maar ook de opvattingen van Brus omtrent denken, wetenschap en het voertuig daar-
""inen, de taal, naar voren komen. Zo wordt in deze studie duidelijk gemaakt, dat behalve datgene
gezegd wordt er ook zaken zijn die nog niet kunnen worden uitgesproken, dat er een veelheid
® Waarin datgene wat door wetenschappelijke taal wordt aangereikt slechts één aspect, één motief is.
laatste woord is principieel onbereikbaar (Zoekend naar een derde weg, pag. 78).
diverse artikelen die in de loop der jaren zijn verschenen over de bijdragen van onderwijsresearch tot
onderwijspraktijk, heeft Brus deze gedachte voor het onderwijsonderzoek nader uitgewerkt. Er is
bijdrage van onderwijsonderzoek tot wetenschappeUjke theorievorming; onderwijsonderzoek heeft
®n bijdrage geleverd tot oplossing van een aantal problemen in de onderwijspraktijk, echter het laatste

wordt door onderwijsonderzoek en de resultaten ervan niet gezegd,
y Vormen motieven voor het handelen in de praktijk,
^nderwijsbeleid dat zichzelf serieus neemt, ook de practicus die zichzelf serieus neemt, slaat acht op
resultaten van onderwijsonderzoek. Het aangeven hoe daarop acht geslagen dient te worden is
enter niet de taak van onderwijsonderzoek. Er is een relativering van de resultaten van onderzoek in
® onderwijspraktijk omdat de fundering van de praktijk nooit alomvattend is en in de context vele
^aken zijn die nog niet zijn opgehelderd. Deze context is echter wel altijd in het spel betrokken, zodra
^en wetenschappelijk uitspraken tot gelding wil brengen in praktisch handelen. Daar zijn deze uitspra-
ken Werkzaam als motief. Deze basishouding werkt Brus steeds weer uit voor beleid, onderwijspraktijk,
ontourennota en laatstelijk ten aanzien van de lerarenopleiding,
'leze studie pleit Brus voor een nuchtere opvatting omtrent de taak en functie van wetenschap,
bij de 'afnemers' wat de verwachtingen van onderwijsonderzoek betreft, als bij onderwijsonder-
°eker zelf om niet te veel hooi op de vork te nemen waardoor alleen maar verder teleurstellingen in

de hand worden gewerkt. Bij een reëel begrip voor onderwijsonderzoek is er vooruitgang aan te wijzen
en is er ook in de toekomst veel mogeUjk.

De relarie wetenschap-praktijk is een spanningsrelatie in sociale wetenschappen zoals onderwijskunde,
die gericht zijn op een dubbele output (namelijk bijdragen tot theorie en tot oplossing van praktijk-
problemen), zodat zij voortdurend een discussie-onderwerp blijft waarin diverse posities worden
ingenomen.

De stellingname van Brus is in deze discussie belangrijk. Daarvoor is echter wel een nadere omschrijving
van de derde weg nodig. Brus komt in zijn publicatie herhaaldelijk op de derde weg terug. Hij geeft
telkens aanzetten tot een verdere descriptie, maar een concreet beeld ervan, wat het inhoudt, welke
operaties daarbij voltrokken worden en wat de resultaten ervan zijn komen niet naar voren. Vragen
die hierbij onder andere beantwoord moeten worden zijn:

- Wat is het gehalte van de wetenschappelijke uitspraken die als motief gelden, zijn er transformaties
in handelingstermen voor nodig, of is het louter toepassing van wetenschappelijke kennis?

- Zijn er wetenschappelijke uitspraken die meer kans maken als motief te kunnen dienen dan andere
en wat zijn hiervoor de redenen?

Wanneer de derde weg betekent dat onderzoeksresultaten een motief vormen in een praktijkcontext,
die nooit volledig gekend wordt en dat het gebruik van deze resuhaten en de wijze waarop zij wor-
den gebruikt, in handen van anderen dan de onderzoekers ligt, dan kan men dit beschouwen, ook al
is het wellicht niet zo bedoeld door Brus, als een afschuiven van bepaalde verantwoordelijkheden van
de onderzoeker naar anderen, namelijk naar de practici en met name naar het beleid.
Wetenschap en onderzoek zouden zich onttrekken aan de praktijk en nog steeds autonoom hun eigen
programma kunnen opstellen en zich verder ontwikkelen. Een consequentie van de derde weg kan zijn,
dat de wetenschap zich in haar eigen bastion terugtrekt en verder geen aandacht besteedt aan be-
leidsproblemen. De derde weg kan een argument vormen om de maatschappehjke relevantie, c.q. bij-
drage van onderwijsonderzoek tot de oplossing van problemen in de onderwijspraktijk buiten te slui-
ten. Dit wordt overigens niet door Brus nagestreefd zoals blijkt uit zijn studie over de bijdrage van
onderwijsonderzoek aan de contourennota, hoewel in de discussie niet helder wordt wat die bijdrage
zou kunnen zijn.

Samenvattend: de dissertatie van Brus bevat een aantal scherpzinnige analyses van verschillende stelling-
names over de relatie wetenschap-praktijk binnen opvoeding en onderwijs.

De stellingname die Brus ontwikkelt lijkt mij echter discutabel in haar consequenties. Deze consequenties
zullen echter beter te beoordelen zijn na een verdere ontwikkeling van wat de derde weg precies
inhoudt.

In 1977 verscheen in het zg. Crisisnummer van het Nederlands Tijdschrift voor de Psychologie een arti-
kel van Hofstee, waarin hij een soort weddenschapsmodel als onderzoeksmetho'de voorstelde. Wie
(zoals de schrijver van deze boekbespreking) indertijd veronderstelde slechts van doen te hebben met
een lucide maar niet geheel serieus te nemen essay, heeft zich pijnlijk vergist. Hofstee's nieuwste boek
is een ruim 200 pagina's tellende nadere verantwoording, uitwerking en verbetering van het oorspronke-
lijke idee. De stijl is nog steeds lucide (gelukkig), maar ook strijdlustig en bondig; een boek dat serieus
genomen moet worden.

Waar het Hofstee vooral om gaat is een onderzoekstheorie te ontwikkelen die duidelijke criteria biedt
waaraan sociaal-wetenschappelijke uitspraken kunnen worden getoetst. Hij omschrijft sociale weten-
schap als 'het uitspreken van probabilistische voorspellingen over menselijk gedrag' (p. 15), en gaat dan
op zoek naar een criterium dat uit kan maken of een uitspraak al dan niet wetenschappelijk is (type I

enteiium), en naar een criterium waaraan de houdbaarheid van een uitspraak kan worden afgemeten
t'ype II criterium). Als type I criterium passeren falsifieerbaaiheid en statistische toetsbaarheid de
'evue. Beide vindt Hofstee niet deugen, en dan vooral niet omdat ze singuliere kansuitspraken ('Marie
^eeft een kans van .80 om...') uitsluiten en dat is, aldus Hofstee, 'uiterst onzedelijk' (p. 40, zie ook
"ofstee, 1979). Hij stelt dan wedbaarheid als demarcatiecriterium voor, 'de vraag of op een uitspraak
een weddenschap kan worden afgesloten' (p. 40). Hofstee noemt enkele belangrijke consequenties
an aanvaarding van dit wedbaarheidscriterium, waaronder; 1) in de wetenschappelijke discussie blij-
den alleen die uitspraken over waarin de onderzoekers zelf geloven; 2) er moet niet alleen een onder-
zoeker zijn, maar ook iemand met wie gewed wordt, een tegenspreker; 3) er moet risico zijn voor on-
erzoeker en tegenspreker, er moet dus om Iets' (b.v. wetenschappelijke reputatie) gewed worden,
en ander benadrukt het sociale karakter van de onderzoekstheorie zoals Hofstee die voor zich

Als type II criterium bespreekt Hofstee de statistische significantie die nulhypothesetoetsingsprocedures
runnen opleveren, en de coherentie die de Bayesiaanse statistiek kan verschaffen. Ook over deze
"^nteria is Hofstee niet tevreden. Wat hem in de 'klassieke' statistiek met name tegenstaat zijn de vele
^ogelijkheden die de onderzoeker heeft om op dubieuze wijze significante resultaten te bereiken. Bij
e Bayesiaanse statistiek ziet Hofstee onoplosbare problemen ten aanzien van de arbitraire manier
}vaarop apriori verdelingen kunnen worden geformuleerd. Hofstee's voorstel voor een type II criterium
's een scoringsregel, d.wj.. een regel die een bepaald getal toekent aan de onderzoeker, afhankelijk
de mate waarin de uitkomst van het experiment door hem of haar verwacht werd. Men moet zich
jj'erbij voorstellen dat de onderzoeker van te voren een inzet van 1 verdeeh over de mogelijke uit-
j^omsten van het onderzoek. Het getal dat Hofstee de onderzoeker wil toekennen is nu de logarithme
'^''let als grondgetal het aantal mogelijke uitkomsten) van de inzet die correspondeert met de feitelijke
onderzoeksuitkomst, plus één. Dat getal is dan de mate van Gelijk die het onderzoek de onderzoeker
Plevert. Deze logarithmische scroringsregel is volgens Hofstee de meest bevredigende,
^e combinatie van de door Hofstee voorgestelde type I en II criteria levert een onderzoeksprocedure
Op die in de volgende stappen beschreven kan worden.

Er worden twee partijen geïdentificeerd die bereid zijn om een bepaalde voorspelling te wedden.

■ Er wordt bekeken of de onderzoekskosten opwegen tegen de subjectief verwachte opbrengst van
het experiment.

• Het experiment wordt uitgevoerd, en de partij met het grootste Gelijk krijgt gelijk.

e ontwikkeling van deze procedure neemt de eerste zes hoofdstukken van het boek in beslag. De
esterende drie hoofdstukken gaan over de consequenties van het voorgestelde Model (de hoofdletter
^ Van Hofstee) voor het onderzoeksbeleid. In hoofdstuk 7 wordt beargumenteerd dat het criterium
Oor de keuze van onderzoeksonderwerpen subjectieve lucrativiteit moet zijn. Hoofdstuk 8 behandelt
e inrichting van experimenten, met speciale aandacht voor operationalisering, artefacten en steek-
proeftrekking. Hoofdstuk 9 tenslotte gaat over de paradoxaliteit van sociaal-wetenschappelijke uit-
Praken, waarmee wordt bedoeld dat zo'n uitspraak betrekking heeft op personen die, wanneer zij
ennis nemen van de uitspraak, daardoor in principe kunnen veranderen en dus de uitspraak ongel-
^'g maken.

ot zover de mhoud van het boek. Het is een bijzonder helder boek. Hofstee maakt van meet af aan
Precies duidelijk waar hij het wel en waar hij het niet over wil hebben, en hij beargumenteert zijn
•keuzes voortdurend. Aangezien veel van die keuzes een kwestie van smaak zijn, is het weinig zinvol
e ter discussie te stellen, of om als boekbespreker te gaan vertellen dat je andere keuzes gedaan zou
^ebben. 'Een onderzoekstheorie is een probeersel' (p. 30) stelt Hofstee zelf al relativerend in het begin
an het boek vast, dus men kan weinig anders doen dan eens proeven en zeggen hoe het bevalt.

dat kader volgt eerst een opmerking over de logarithmische scoringsregel. Daarna wordt aandacht
esteed aan Hofstee's nogal idiosyncratische wetenschapsopvatting, en tenslotte worden een paar
aannames in het Model ter sprake gebracht.

. ^'reffende de scoringsregel het volgende. Een consequentie van deze logarithmische regel is dat
'eniand die een inzet van nul heeft toegekend aan een een uitkomst die optreedt failhet gaat. Prima,
egt Hofstee, mensen die zich zo zeker voelen horen ook niet thuis in de empirische discussie. Hij
•et daarbij over het hoofd dat iemand die een inzet van één heeft toegekend aan een uitkomst
■e optreedt wel mag blijven meedoen aan de empirische discussie. Subjectieve zekerheid wordt dus

alleen bestraft met uitstoting wanneer zij gepaard gaat met Ongelijk krijgen. Gegeven Hofstee's afwij-
zing van subjectieve zekerheid als wetenschappelijke houding lijkt me dit eerder een wat onrechtvaar-
dige consequntie dan een plezierige eigenschap van de logarithmische scoringsregel.
Hofstee kiest nadrukkelijk en uitsluitend voor een procedureopvatting van wetenschap; wetenschap
is voor hem een stelsel van methodes om meningsverschillen te beslechten. Nu zijn dit bij Hofstee
meningsverschillen over het al dan niet uitkomen van specifieke voorspellingen, zodat we büjven
zitten met de vraag: Wat betekent het al dan niet uitkomen van zo'n voorspelling voor de hypothese
of theorie die iemand er op na houdt? Hofstee weigert expliciet en met grote consequentie zich over
deze vraag uit te spreken, met als argument dat wetenschappelijke kennis alleen met behulp van
metafysica te definiëren valt, en kennisgroei een te subjectief proces is om onderwerp te kunnen zijn
van een onderzoekstheorie. Wat een onderzoeker aan kennis op een bepaald gebied meent verwor-
ven te hebben is dan ook iets dat, zodra het zich in de vorm van voorspellingen aan de buitenwereld
meedeelt, terstond door anderen in twijfel getrokken en onderwerp van een weddenschap gemaakt
kan worden. Hofstee schrijft dat zijn procedure 'onvervalst darwinistisch' (p. 27) is - het is een
kwestie van 'fitness' of een onderzoeker de procedure overleeft. Ik denk dat Hofstee daar volko-
men gelijk (zonder hoofdletter deze keer) in heeft, maar het lijkt me ook een nogal bedenkelijke eigen-
schap van zijn procedure. De onderzoekers die overleven zijn de onderzoekers die zich het best hebben
aangepast aan de procedure; die aanpassing kan op veel manieren verlopen, maar er is geen enkele
aanleiding of noodzaak om te veronderstellen dat de onderzoekers die overleven ook de onderzoekers
zijn die het grootste gelijk hebben - ze hebben meer Gelijk dan Ongelijk gekregen, maar dat is heel
wat anders. Hofstee stelt (p. 13) dat een onderzoekssysteem kan rammelen, de verkeerde richting inge-
stuurd kan worden, of zich rammelend in verkeerde richting kan bewegen. Het zou mogelijk kunnen
zijn dat zijn Model minder rammelt dan andere onderzoeksprocedures. Maar door de relatie tussen
theorie en empirie (inductief èn deductief) zo totaal buiten zijn betoog te houden biedt Hofstee de
onderzoeker iets waarvan absoluut niet duidelijk is in welke richting het zich beweegt of laat sturen.
Hofstee's Model bevat een aantal aannames omtrent menselijk gedrag, b.v. de aanname dat de manier
waarop een onderzoeker haar of zijn inzet verdeelt over de mogelijke onderzoeksuitkomsten exact col-
respondeert met de waarschijnlijkheden die zij/hij aan deze uitkomsten toekent (eis E3, p. 90)-
Hofstee onderkent wel degelijk dat hier sprake is van een problematische aanname, maar laat het bij
die constatering en vervolgt zijn betoog. Toch gaat het hier om een uitermate belangrijk punt. In de
besliskunde heeft men moeten constateren dat het subjectieve verwachtingswaardemodel menselijk
gedrag niet zo adequaat kan beschrijven, of iets anders geformuleerd, dat niet alle mensen in alle geval-
len in staat of bereid zijn zich volgens zo'n model te gedragen. Door dit model (via de scoringsregel)
een centrale plaats in zijn Model te geven loopt Hofstee het opzichtige risico een wetenschappelijke
procedure voor te stellen, waarvan het onzeker is onder welke omstandigheden, dan wel door welke
personen ze te hanteren is. Dit invalideert het Model uiteraard niet bij voorbaat, maar het betekent
wel dat er nogal wat onderzoek verricht zal moeten worden voordat uitgemaakt is of het Model
hanteerbaar is.

Een tweede opmerking op empirisch niveau betreft de door Hofstee geschetste situatie nadat het
Model als onderzoekstheorie is geaccepteerd. Hij doet een aantal uitspraken over het soort onder-
zoek dat dan juist wel en niet meer gedaan wordt, en over de manier waarop onderzoek ingericht
zal zijn. Om één van de meest tegendraadse uitspraken bij de kop te nemen: Hofstee vindt het niet
nodig om in een onderzoek te controleren voor 'plausibele' artefacten, artefacten die 'gevestigd'
zijn, zoals b.v. het voormetingseffect. Wat hem voor ogen staat is dat je het storend effect van zo'n
artefact gewoon aftrekt van het aangetroffen experimentele effect; iemand die het niet met die
procedure eens is moet maar een weddenschap met je aangaan. Dit idee lijkt me gebaseerd te
zijn op een wat al te optimistische visie op het kennisbestand van de psychologie. De procedure gaat
er immers van uit dat het optreden van een artefact aan een strikte en bekende wetmatigheid is
onderworpen - een nogal onbegrijpelijke en weinig consistente gedachte van iemand die (terecht)
het probabilistische karakter van de sociale wetenschappen benadrukt, en die (terecht) stelt dat de
sociale wetenschappen het niet primair van hun 'body of knowledge' moeten hebben. Hoe het ook zij,
het lijkt me dat Hofstee zowel ten aanzien van de hanteerbaarheid als de consequenties van zijn
Model een aantal van zijn uitspraken steviger in de empirie zal moeten funderen. Of om in zijn eigen
termen te spreken: zijn redeneringen zijn niet alle even overtuigend omdat hij niet voldoende Gelijk
heeft weten te verzamelen.

Ik wil er overigens geen twijfel over laten bestaan dat ik Hofstee's boek een goed boek vind. Er wordt
een uiterst belangrijk onderwerp in aangesneden, veel problemen worden genoemd en geëxpliciteerd,

fn het Model is een ingenieuze creatie van wetenschapstheoretisciie en psychometrische bestanddelen.
Het is daarnaast (en ook dat vind ik een kwaliteit) een boek dat veel mensen zal irriteren. De weten-
^t^hapstheoretici omdat ze zo plotseling en ruwweg van de empirische discussie worden uitgesloten;
d® statistici omdat hen een nogal perifere plaats wordt toebedeeld; de Berlijnse delegatie omdat ze
"lin of meer als 'running gag' in het boek figureert; en de modale onderzoeker omdat De Groot hem en
Ijaar toch iets heel anders had geleerd.

"ät onverblijft van Hofstee's voorstel, na aftrek van speculatie en overdrijving, is een pleidooi voor
Wetenschap als een goed gesprek tussen twee onderzoekers. Dat zo'n gesprek in principe de kwaliteit
Van onderzoek ten goede kan komen is evident. De mogelijkheid dat het leidt tot een folie ä deux is
®ehter ook niet uit te sluiten.

'hofstee, W.K.B. De weddenschap als methodologisch model. Nederlands Tijdschrift voor de Psvcho
'0^, 1977,52,203-217.

°fttee, W.K.B. 'Jan heeft een kans van .70': drogredenen met betrekking tot individuele kansuitspra-
ken. Kennis en Methode, 1979,3,433^45;

"en Haag: Stichting voor Onderzoek van het Onderwijs, 1980 (= SVO-reeks, no. 32),
+XI pagina's.

project 'Curriculum Voorbereiding en Onderzoek' afgekort tot Curvo, is in 1973 met zijn werk-
zaamheden gestart. Het wordt gesubsidieerd door de Stichting voor Onderzoek van het Onderwijs en
is ondergebracht bij de afdeling Onderzoek van de vakgroep Onderwijskunde (Rijksuniversiteit,

® bedoeling van het Curvoprojekt is een strategie te onwikkelen die ertoe moet leiden dat de
instructie van leergangen verbeterd wordt. Van deze 'Curvo'-strategie is een eerste versie vervaardigd,
j^'tgeprobeerd en daarna herzien. De herziene versie is nu ih de vorm van het hier te bespreken Hand-
gepubliceerd en zal ook weer onderwerp van studie worden: in het z.g. Curvo-2-projekt.
® samenstellers van de Curvo-strategie bespreken uitvoerig voor wie en onder welke condities hun
^trategie, al dan niet in aangepaste vorm, bruikbaar is. De strategie is vooral bruikbaar voor meer om-
/"grijke leergangen die op grotere schaal verspreid moeten worden en die ten opzichte van bestaan-
® leergangen min of meet belangrijke vernieuwende elementen in zich moeten bergen. Verder
er een of andere ontwikkelingsgroep aanwezig te zijn die de feitelijke leergangconstructie
"'tvoert.

strategie probeert een integratie van handelingsvoorschriften voor deze ontwikkelingsgroep te geven
P inhoudelijk zowel als op organisatorisch niveau: het ontwikkelen van leergangen vereist een grote
oeveelheid organisatie naast uitgebreide inhoudelijke kennis van uiteenlopende aard. Het is zeker een
'JZonderheid te noemen dat aan de organisatorische aspecten van het ontwikkelen van leergangen
andacht geschonken wordt.

inhoudelijke aspecten van de strategie betreffen vooral het schrijven, verantwoorden, en herzien
^^ een raamwerk van de leergang, vervolgens het herhaaldelijk uitproberen, formatief evalueren en
^^Viseren van de leergang en tenslotte de summatieve evaluatie ervan (hoewel men eigenlijk vindt dat
'e niet tot het ontwikkelen van leergangen gerekend kan worden). De organisatorische aspecten be-
®"en zaken als: het verkrijgen van subsidie, het maken van vergaderafspraken, notuleren, archiveren,
j) '®urs-rechtelijke kwesties, tijdsplanning, het leiden van gesprekken etc.

® samenstellers hebben ten aanzien van beide soorten aspecten een vracht aan nuttige adviezen,
'^faktische wenken, theoretische beschouwingen en handelingsvoorschriften verzameld. Soms zoveel

dat de argeloze lezer door de bomen het bos niet meer ziet: het Handboek is bepaald niet eenvoudig
te lezen. De vele doorverwijzingen vereisen veel geblader en daardoor een voortdurend onderbreke"
van het 'leesgenot'. Ondanks de verschillende kleuren papier die voor de diverse onderwerpen gebruik'
zijn, is het een heel geworstel om het Handboek door te komen. Maar dit geworstel loont beslist d«
moeite: de Curvo-strategie is ongetwijfeld een bruikbaar instrument voor het ontwikkelen van curricula>
juist ook door de al genoemde nuttige adviezen en praktische wenken. Of de gemiddelde ontwikk«'
lingsgroep (vaak grotendeels bestaande uit non-professionals) daarvoor al dit 'geworstel' over heeft, 'S
een punt waarover ik enige twijfel koester.

Ik denk dat ondanks alle goede kwaliteiten die het Handboek bezit, er toch ook enige kritiek oP
mogelijk is. Als deze kritiek ter harte genomen wordt, zal - vrees ik - het aantal bomen m het boS
niet verminderen: ik wil namelijk pleiten voor uitbreiding van het Handboek, waarbij ik overigens gee"
oplossing heb voor het bomenprobleem.

In het Handboek worden in de diverse fasen van de leergangontwikkeling steeds allerlei suggestie®
gedaan over hoe bepaalde daarin aan de orde zijnde ontwikkelingsactiviteiten aangepakt kunnen wol'
den. Vaak worden voor- en nadelen van de suggesties aangegeven. Er wordt meestal niet voor ee"
bepaalde suggestie gekozen (bijv. op basis van empirische gegevens daarover): dat wordt veelal aan d«
ontwikkelingsgroep zelf overgelaten (dit in tegenstelling tot wat bijv. Gagné en Briggs doen in hun p"'
blicaties over leergangontwikkeling: zij schrijven vrij nauwgezet voor hoe zo'n ontwikkeling dient t®
verlopen). In het Handboek wordt gekozen voor het geven van uiteenlopende suggesties. Zo'n keuz®
impliceert mijns inziens dat veel meer suggesties gegeven moeten worden dan nu het geval is. Oi"
enkele voorbeelden te noemen: principes voor leerstofsequentiëring komen nauwelijks aan de oide'
de problematiek van de keuze van de didactische werkvormen ook niet. Er wordt op een te hoog
abstractienniveau gedacht door de Curvogroep: er moeten wel didactische werkvormen gekoze"
worden, maar welke er precies bestaan (en op basis van welke criteria daaruit gekozen moet worden-
dat zijn zaken die buiten beschouwing blijven). Er is wel een discussie over open of gesloten leergan*
gen, niet over de relatie daarvan tot 'actionresearch'. De suggesties voor revisiebeslissingen ingeval ef
stukje leergang niet doeleffectief blijkt te zijn, zijn minimaal. Er is wel aandacht voor doeleffectiviteits
en leergangvergelijkende evaluatievormen in het kader van summatieve evaluatie, maar niet voor d®
andere vormen die nog mogelijk zijn; bijv. adversary, illuminative, modus operandi etc.. Ik denk da'
het vergroten van het aantal suggesties op vrijwel alle inhoudelijke gebieden van het Handboek, d®
waarde van de daarin beschreven strategie nog aanmerkelijk zal verhogen; bovendien zouden dez®
suggesties veel concreter in handelingsvoorschriften omgezet moeten worden dan nu veelal het geval iS'
Hetzelfde als ik. zojuist voor het inhoudelijke gebied heb gezegd, geldt eigenlijk voor de informativ
over de organisatorische aspecten van de leergangconstructie: wel enige informatie over auteursrecht'
problematiek voor de leden van een ontwikkelingsgroep zelf, niets over die problematiek van voor di®
groep werkende derden (ontwerpers, fotografen etc.).'Wel informatie over tijdschattingen, niets ovej
planningstechnieken, het opvangen van uitgelopen werkzaamheden (een zeer veelvuldig voorkomen"
verschijnsel). Kortom: op velerlei terrein kunnen nog suggesties toegevoegd worden. Suggesties di®
bovendien njn.m. nog veel concreter geformuleerd moeten worden dan nu veelal het geval is.
Ondanks deze kritiek vind ik dit Handboek een belangrijke stap op de weg naar een verantwoord®
wijze van leergangconstructie.

fe^'et maart 1981-nunimer staat op de pagina's 67, 69, 71, 73, 75, 79 en 81 als paginakopje abusieve-
JK Hoogstraten & Vorst. Dit moet zijn Hoogstraten & Jacobs.

Alternerende opleiding van jeugdigen in de Europese gemeenschap, Beroepsopleiding, Informatie-

bulletin van het Europese Centrum voorde Ontwikkeling van de Beroepsopleiding, 1980, nr. 4.
^ den Berg, W., van Eerde, D. & Verhoef, L. Kwantiwijzer. Temaboek (tweede experimentele
Be ^VO project Kwantiwijzer, Psychologisch Laboratorium, R.U. Utrecht, februari, 1981.

Be^v Donselaar, G. van & Tavecchio, L.,Die verdraaide werkelijkheid, Baarn: Ambo, 1980.

"ttof, G., Verslag van een studiereis naar het AERA-kongres te Boston en de John Hopkins Univer-
®ty te Baltimore in de Verenigde Staten van Amerika van 6-17 april 1980. Enschede: OTG Onder-
j, ^ijsleerprocessen, februari 1981.
^"rtaalschrift voor directieve therapie en hypnose, jrg. 1, no. 1 febr. 1981, Deventer: Van Loghum
Slaterus.

PPets, A. C. A. Volgen op een afstand. Een cross-sectionele en semi-longitudinale studie naar de cog-
mtieve ontwikkeling van moeilijk-lerende in puberteit en jong-volwassenheid. Lisse: Swets &

. Applications of item response theory to practical testing problems, Hillsdale, N.J.: Law-
(, fence Erlbaum Ass., 1980.

■^mans, A. H. W. Scholen met een samenwerkingskarakter. Eindrapport 1 van het Vooronderzoek
Samenwerkingsscholen 's-Gravenhage: Staatsuitgeverij, 1981 (= SVO reeks, no. 39).
^ts, A. & d'Ydewalle, G. Motivational variables in knowledge acquisition: Test expectancies.
^Psychological Reports, no. 26 Laboratorium of Experimental Psychology, University of Leuven
^.november 1980.

oewalle, G., Swerts, A. & De Corte, E. Study time and test performance as a function of test
expectations. Psychological Reports, nr. 24, Laboratorium of Experimental Psychology, University
Of Leuven, september 19 80.

KS^vL 1 t/m 4 september 1981 geeft Dr. D. Wishart (Edinburgh) de cursus Qusteranalyse. De
^kidingen w^den ^ mfrgens gegeven. De middagen zijn gereserveerd voor practische oefenmgen met
^LUstIn. Meer inMe en inschrijfformulieren zijn verkr«gbaar ''«i ^et secret^ia^v^ de vak-
f°ep Statistiek en Meettheorie, FSW, mw. G. Winkel, Oude Boteringestr. 23, 9712 GC Gronmgen,
(050) 118436.

Memoriam Prof. Dr. C. E. Vervoort, door J. A. van Kemenade
^structional Psychology: Past, Present, and Future, door R. Glaser

Kronieken: Een beschouwing naar aanleiding van het 23ste internationale congres van Psychologie
te Leipzig, 1980, door E. Bol

Vakdidactiek als onmisbare interdiscipline, door H. J. Hooymayers en P. L. Lijnse
Verslaggeving van empirisch onderzoek ten onzent, door H. Freudenthal
SLO-manifestatie 1980, door T. J. Out
Boekbesprekingen
Mededelingen

Methoden voor aanvankelijk lezen: een vergelijking van leerresultaten na één jaar, door P. Reitsma, N-
Komen en T. Kapinga

Economische expansie en het lager onderwijs in België (1905-1910), door A. Hermans-Bosmans
Kronieken: Verslag van de Pools-Nederlandse studiedagen over de bijdrage van onderwijsssystemen aa"
sociale gelijkheid, georganiseerd door de Nederlandse Nationale UNESCO Commissie, dooi
W. J. G. Cremers en Z. Cremers-Nakielska

Het IVde Wereldcongres van de verenigingen voor Vergelijkende Onderwijskunde (World
Council of Comparative Education Societies) van 7 t/m 10 juli te Tokyo, door E. Velema

International Symposium on LSP (Language for Special Purposes); Eindhoven (Holland), 2, 3 &
August 1982

The main psycholinguistic issue is: How is the reading skill which one has acquired for professional
texts in one's native language transferred to the reading of a professional text in a second/foreig"!
language?

1. transfer processes between first and second/foreign language reading for professional purposes;

2. first language reading for professional purposes, with a specific claim of generalizability to second/
foreign language reading for professional purposes;

3. differences and similarities between fust and secona/foreign language reading for professional put'
poses, holding the language constant (for instance: English read by American and Arab engineers);

4. quantitative linguistic research with potential application to reading professional texts in a second/
foreign language;

5. the learning and teaching of reading a second/foreign language in connection with the above points-

Our preference is for hypothesis-testing research, although exploratory and replication studies are no'
excluded. Papers on published experimental research will also be considered. Presentations are limit®®
to 30 minutes, and will be followed by a 15 minute discussion period. Abstracts should be postmarked
no later than 31 December 1981. Abstracts to be sent to: J.M. Ulijn, Dept.'of Applied Linguistics,
T.H. Eindhoven, HG 8.25, P.O. Box 513, 5600 MB Eindhoven (Tel. 040-472741)

Velen zal het overlijden van Leon van Gelder, zo spoedig na zijn afscheid als hoogleraar
Onderwijskunde aan de Rijksuniversiteit Groningen, bijzonder getroffen hebben.
■Jn vrienden en collega's hadden hem graag nog vele jaren toegewenst waarin hij uitvoe-
l^mg had kunnen geven aan datgene waarmee hij in zijn afscheidscollege (Ervaring en Op-
facht) een begin had gemaakt, namelijk de beschrijving van zijn leven tegen de achter-
Srond van de maatschappelijke ontwikkelingen en de ontwikkeling van het onderwijs
^^ de onderwijskunde daarbinnen. Het heeft echter zo niet mogen zijn. Met Leon van Gel-
r IS een van de grondleggers van de nederiandse onderwijskunde heengegaan. Hij was
n van de eerste hoogleraren in de schoolpedagogiek en later, toen mede door zijn
emoeienis de interdisciplinaire onderwijskunde tot ontwikkeling kwam, hoogleraar in de
"derwijskunde. Ook heeft hij door talloze publikaties, funkties die hij binnen het onder-
de onderwijskunde, het onderwijsbeleid heeft bekleed, grote bekendheid verworven,
^yn afscheidscollege in Groningen (Ervaring en opdracht, 1981), de bijdrage van Han van
in h aan de afscheidsbundel 'Tussen Praktijk en Wetenschap', de periode 1956-1964
het leven van Leon van Gelder en de andere publikaties bij zijn afscheid als hoogleraar
nderwijskunde, geven een beeld van het werk van Leon van Gelder ten dienste van de
nderwijspraktijk en onderwijswetenschap.

on van Gelder werd geboren in 1913 in een Joods arbeidersgezin. Deze afkomst is in
" aantal essentiële zaken bepalend geweest in zijn leven. Uit beschrijvingen komt het
Zin naar voren als warm en stimulerend ten aanzien van persoonlijke en intellectuele
jj^twikkeling.

n 1928 ging hij naar de kweekschool, een in die periode gebruikelijke opstap voor de ont-
yJging aan de arbeidersklasse.

n^ri grote invloed zijn behalve de kweekschool ook de arbeidersjeugdcentrale (AJC), de
AP en de culturele contacten met uit Duitsland vluchtende kunstenaars geweest,
a de kweekschool kon hij alleen als kwekeling zonder akte werk krijgen, later, na een
riode van fabrieksarbeid, met een vaste aanstelling, die opnieuw onderbroken werd
j^or de tweede wereldoorlog.

van Gelder bleef studeren, eerst wiskunde, later vanaf 1944 pedagogiek; na zijn MO-
A w^'^l'ologie, gecombineerd met een drukke baan in het onderwijs aan de IVO-school en

O-lessen op de huishoudschool en de gebruikelijke politieke aktiviteiten.
j^® Zijn afstuderen in 1950 werkte hij als schoolpsycholoog bij onder andere het Goois
In periode bereidde hij zijn proefschrift voor. In 1953 volgde de promotie,

tot ^^ periode begon ook de stroom van publikaties die in 1974 gegroeid was tot een
j^taal van 14 boeken en 335 artikelen.

^a Van I954 tot 1956 directeur te zijn geweest van de Stichting Sociaal Cultureel
p ^'^'^ingswerk in Rotterdam werd Leon van Gelder wetenschappelijk medewerker bij het
Agogisch Instituut. Daarnaast was Leon van Gelder wetenschappelijk adviseur van het
aktief in de Werkgemeenschap voor Vernieuwing van Opvoeding en onderwijs

lajvolgde zijn benoeming als hoogleraar in Groningen; eerst in de pedagogiek, be-
Q , "met het doceren van de algemene vergelijkende opvoedkunde met betrekking tot het
erwijs, later, na de totstandkoming van de interdicisplinaire onderwijskunde, hoogle-

raar onderwijskunde, in het bijzonder de theoretische onderwijskunde inclusief de vergS'
lijkende onderwijskunde.

Ook in deze periode bleef Leon van Gelder betrokken bij de onderwijspraktijk, zowel bij
het Algemeen Pedagogisch Studiecentnim,het NOV, later het ABOP en het NVV.
Zoals hij in zijn intreerede 'Deelname en Distantie' (1964) had aangegeven is een ontwik'
keling van de onderwijskunde en de verbinding van die onderwijskunde met de maat-
schappelijke ontwikkelingen,in het bijzonder de onderwijspraktijk en het onderwijsbeleid,
voortgezet.

Dit kwam onder meer tot uitdrukking in nieuwe taken, zoals deelname aan het totstand'
komen van het rapport dat de aanzet heeft gegeven tot oprichting van de Stichting voo'
Leerplanontwikkehng (SLO) en naderhand tot bestuursfuncties in deze stichting, de be*
stuursfunktie binnen de Stichting voor Onderzoek van het Onderwijs (SVO), e.d.
Zeker in de beginperiode hield Leon van Gelder zich met alle gebieden binnen de onder
wijskunde bezig. In publikaties heeft hij als het ware de basis gelegd voor het werk va"
medewerkers en anderen binnen de onderwijskunde. Zo was zijn dissertatie (Ontsporing
en Correctie, 1953) een basiswerk voor onderzoek en behandeling van kinderen met leef
moeihjkheden in het onderwijs, waarop later in de ontwikkeling van de pedologie*
khnische onderwijskunde voorgebouwd kon worden.

Wat de curriculumontwikkehng en de didaxologie betreft zijn zijn publikaties op he'
terrein van modelontwikkeling, leerplanontwikkehng van belang geweest. Voor de ondef
wijspraktijk is daaruit voortgekomen de methode Didactische Analyse welke van belang
is geweest voor inhoudelijke vernieuwing van het onderwijs aan pedagogische academies.
Over de noodzaak van onderwijsresearch en de plaats van onderzoek binnen de onderwijs*
kunde, die mede tot doel had de onderwijspraktijk te optimaliseren heeft hij diverse
publikaties doen verschijnen, waarin hij tevens zijn wetenschapstheoretische stellingnani^
ten aanzien van onderwijskunde en onderwijszonderzoek heeft uiteengezet.
Van bijzonder belang, niet alleen voor de onderwijskunde, maar ook voor onderwijsbe'
leid en -praktijk, is het rapport 'Nieuwe onderwijsvormen voor 13 ä 14 jarigen' geweest
dat onder ^ijn leiding tot stand kwam. Later zijn pubÜkaties ten aanzien van de midden-
school.

In Groningen heeft Leon van Gelder zijn opvattingen ten aanzien van onderwijs en on-
derwijskunde gestalte kunnen geven in de ontwikkeling van een vakgroep onderwijskunde
met een omvangrijk onderwijs- en onderzoeksprogramma. Zijn bemoeienis met onderwijs*
onderzoek kwam tevens tot uitdrukking in de oprichting van het Research Instituut voof
het Onderwijs in het Noorden waarvan hij tot het laatst voorzitter van het bestuur is gß'
weest. Op een groot aantal terreinen werd zowel door de vakgroep als door het R.I.O.N'
mede op zijn indicatie, onderzoek verricht en werd geëxperimenteerd met vormen vaU
onderzoek waarin de bijdrage tot onderwijsbeleid en -praktijk beter tot zijn recht zof
kunnen komen.

Zijn vele oud-leerlingen, waaronder veel onderwijsonderzoekers zullen nog veel tijd nodi?
hebben om zijn aanzetten en ideeën - soms controversieel van aard, maar steeds stimuli'
rend tot verder denken — uit te werken binnen onderwijskunde en onderwijsonderzoek.
Zo zal hij ook in de toekomst zijn invloed doen gelden in de verdere ontwikkehng vaf
onderwijsonderzoek en onderwijskunde in Nederland. Mag dit een troost zijn voor de
velen die hem zullen missen.

Beschouwingen met Betrekking tot het
Onderzoek van Onderwijsleerprocessen
Anno 1980*

After a short historical note concerning the relationship between scientific psychology and edu-
cation, a plea is made for a broad conceptualization of the field of instructional psychology:
processes of learning and teaching with respect to different aspects of the learners' personality
(cognitive, affective, psychomotor) should be studied; different units of analysis should be em-
ployed; and there should be an interest in general laws of learning and teaching as well as in
individual differences and developmental trends. A broad spectrum view is also advocated with
regard to research designs and techniques. Concerning the choice of research topics two criteria are
suggested: the topics should relate to real problems in educational practice in the broadest
sense on the one hand, and offer possibihties for theory-construction on the other. This
position derives from an endeavour toward research in which theory-building and practical
relevance are integrated. As an illustration of this standpoint some recent research on problem-
solving in elementary school children is concisely discussed.

J'jdens een lezing die hij in mei 1980 te Leuven hield, heeft Glaser er nog eens op gewe-
dat tijdens de aanvangsperiode van de wetenschappelijke psychologie in het begin van
ze eeuw in de V.S. er een zeer actieve wisselwerking bestond tussen de psychologie
erzijds en de studie en de praktijk van het onderwijs anderzijds. Illustratief daarvoor is
le^ j^erk van topfiguren als Thorndike en Dewey, ook al hadden beiden een zeer verschil-
^ nde visie over de optimale vorm van deze interactie tussen psychologische theorie en
^ studie van het onderwijs. Met de pioniers verdween ook grotendeels de sterke wissel-
hü tussen de psychologie en de studie van het onderwijs. Beide gingen grotendeels
^ n eigen weg en het is pas tijdens het voorbije decennium dat, met de opkomst van de
gnitieve psychologie in de V.S., de oorspronkelijke verbondenheid tussen beide domei-
en zich geleidelijk weer hersteld heeft.

j^®izou kunnen stellen dat er zich ten onzent een analoge ontwikkeling heeft voorgedaan.
Werk van Buyse in België onder het motto tayloriser l'instruction pour valoriser
ducation' en van Kohnstamm in Nederland, zijn representatief voor de aanvankelijke
jg erlinge betrokkenheid van psychologie en studie van het onderwijs; maar ook hier ging
goede verhouding teloor. Zich spiegelend aan hun Amerikaanse collega's, legden de
^^ychologen er zich naderhand vooral op toe een z.g. 'harde' wetenschap op te bouwen;
nulden zich in witte jassen en verdwenen in hun labo's. De pedagogen daarentegen
"gen zich meer bezighouden met theoretische opvoedkunde of ze werden, mede door

Vplrfif'"® gehouden op het eerste symposium van de Onderzoeksthemagroep 'Onderwijsleerprocessen'

■ahovcn (N.B.), 19 en 20 juni 1980.
d Faculteit der Psychologie en Pedagogische Wetenschappen, Afdeling Didactiek en Psychope-
sogiek, Vesaliusstraat 2, B-3000 Leuven, België.

de massale aangroei van de schoolbevolking, meer op praktische problemen gericht. De
opkomst van de onderwijskunde en dc ontdekking van de Sovjetpsychologie hebben
ook in het Nederlandse taalgebied aanleiding gegeven tot het herstel van de actieve wissel-
werking tussen psychologie en onderwijs. Het ontstaan van de onderwijspsychologie
daarvan een concrete uiting; blijkens het voorafgaande is het domein misschien minder
nieuw dan het zich soms aandient.

Een gangbare visie op de onderwijspsychologie in Nederland is dat het gaat om de syste-
matische studie van onderwijsleerprocessen. Onderwijsleerprocessen worden dan omschre-
ven als leerprocessen die zich voltrekken in onderwijsleersituaties (De Corte, 1979).
Ik heb sinds meerdere jaren de indruk dat deze opvatting leidt tot een verenging: de
klemtoon komt vrij eenzijdig te liggen op de /cerprocessen, m.a.w. op de leerling-kant van
het gebeuren. De wetenschappelijke achtergrond van de meeste toonaangevende onderwijs'
psychologen is daaraan ongetwijfeld niet vreemd. Naar mijn mening zijn voor de
«/ïJcnw/.ïpsychologie evenwel ook de onderwijsprocessen, d.w.z. de kant van de onder-
wijsgevende van grote betekenis. Ook Span (1980) heeft daarop gewezen tijdens de in
maart 1980 gehouden studiedag van de Organisatie voor Onderwijspsychologisch Onder-
zoek. Hij vroeg daarbij vooral aandacht voor het aspect interactie tussen leerkracht en
leerlingen. Zelf zou ik het nog breder willen stellen; naast de interactieve moet ook de
pre-interactieve fase van het onderwijzen, waarin het plannen of ontwerpen van onder-
wijsleersituaties centraal staat, in het onderzoek meer aan bod komen.
Als gevolg van de dominerende invloed van de cognitieve psychologie in het algemeen
doet er zich bovendien nog een andere eenzijdigheid voor, waarop Span eveneens gewezen
heeft, m.n. het onderzoek houdt zich overwegend bezig met cognitieve processen en
variabelen. Naar mijn mening is het wenseUjk om in de nabije toekomst naar meer even-
wicht te streven, omdat het zonder meer duidelijk is, dat ook andere aspecten van de per-
soonlijkheid expUciet of imphciet het voorwerp zijn van onderwijsbeïnvloeding. In de
laatste jaren is er wel enige aandacht besteed aan het motorische (Pijning, 1978;De Klerk,
1980), maar vooral het dynamisch-affectieve is weinig aan bod gekomen. AlUcht zullen
sommigen in dit verband verwijzen naar het bestaan van een O.T.G. 'Motivatie in het
onderwijs'. Maar nog afgezien van de leefbaarheid anno 1980 van zo'n O.T.G., verontrust
het mij enigszins dat ecn zo belangrijke deelproblematiek die m.i. binnen de onderwijs-
psychologie thuishoort, nu reeds geïsoleerd wordt in een soort 'Special Interest Group'-
Tenslotte heb ik nog een laatste bedenking die in de sfeer van verenging en eenzijdigheid
ligt. Het gaat m.n. om de vraag in hoever het wenselijk is de onderwijspsychologie los te
maken van het bredere terrein van de psychologie van opvoeding en onderwijs. Hiermee
geeft men wellicht al te gemakkelijk een typische Europese traditie prijs. Zo schrijven
Weinert e.a. (1979, p. 236) in een recent overzicht van de Duitse 'pädagogische Psycho-
logie':

'Hducational psychology is given a far wider definition in German speaking countries than is usually
the case in Anglo-American countries. It comprises the development and application of empirically
founded theories that describe, explain, predict and optimize socializatibn, educational and instruc-
tional processes.'

t^eze gedachte zal ik niet verder ontwikkelen, alleen al omdat ik daardoor wellicht de
êfenzen van de mij toebedeelde opdracht zou overschrijden. Wel wil ik het punt graag
er verdere overdenking aanbevelen.

erugkerend naar het onderzoek van onderwijsleerprocessen, wil ik, rekening houdend
IJiet de voorafgaande opmerkingen, pleiten voor een bredere conceptualisering van het
Omein, uitgaande van de volgende globale karakterisering: het gaat om de studie van het
l^erloop en de resultaten van onderwijs- en leerprocessen in didactische situaties, en van de
actoren die deze processen beïnvloeden. Bij het meer analytisch in kaart brengen hier-
aan zijn er diverse invalshoeken mogelijk.

- De processen (en ook een aantal beïnvloedende factoren van het onderwijzen en leren)
kunnen op verschillende persoonlijkheidsaspecten betrekking hebben:

- cognitief: leren probleemoplossen;het voorbereidingsgedrag van de onderwijzer;

- dynamisch-affectief: invloed van de motivatie op het leren; de wijze waarop de
onderwijzer interne conflicten of kortsluitingen waarmee hij in de onderwijsleer-
situatie geconfronteerd wordt, benadert (Wagner e.a., 1980);

~ psychomotorisch: het leren van psychomotorische vaardigheden;non-verbale,expres-
sieve aspecten van het onderwijsgedrag.
In een onderzoek kan men het accent leggen op diverse eenheden van analyse:
~ processen en variabelen bij de individuele leerling;
~ processen en variabelen bij de leergroep;

'^an dit rijtje kan men ongetwijfeld nog andere indelingen toevoegen. Belangrijk is vooral
dat in de praktijk van het onderzoek deze indelingen op elkaar betrokken worden en
^at binnen elke rubriek bepaalde categorieën gecombineerd kunnen worden. Ik noem een
Voorbeeld: het is wenselijk om bij de studie van een bepaalde vorm van leren zowel aan-
hebt te hebben voor individuele als voor ontwikkelingspsychologische verschillen.
Wat de methodologie van het onderzoeksgebied betreft, ben ik voorstander van wat ik in
een vroegere publikatie een breedspectrumvisie genoemd heb (De Corte, 1979), d.w.z.
"lat gebruik gemaakt wordt van diverse types van onderzoeksopzet en van alle methoden
en technieken die relevante informatie over leer- en onderwijsprocessen kunnen opleveren,
po meen ik dat het vaak wenselijk is om over een bepaald onderwerp onderzoek te doen
'angs het gehele continuum van interne naar externe vahditeit: labo-studies, onderzoekin-
gen in modelsituaties en studies in gewone klassituaties. Te Leuven loopt momenteel een
project van deze aard over het leren in functie van specifieke leerintenties (d'Ydewalle
p De Corte, 1979).

'nzake onderzoeksstrategie is het m.i. ook aan te bevelen om constaterende studies en
Systematische onderwijsexperimenten of construerende onderzoekingen, naast elkaar

te verrichten. Op de betekenis van dit laatste type studie kom ik verder nog even terug.
Ter afsluiting van deze algemene conceptie wijs ik er nog op dat keuzen die men doet
zowel met betrekking tot de inhoudelijke indelingen als inzake methodologische benade-
ring veelal ook medebepaald zijn door criteria die niet-onderwijspsychologisch van aard
zijn, maar die te maken hebben met bijv. ideologische standpunten. Zo biedt de Sovjet-
visie waarin de psychische ontwikkeling zeer sterk maatschappelijk bepaald is, een
verklaring voor bepaalde verschillen tussen de Oosteuropese en de Westerse onderwijspsy-
chologie.

Afgezien van de mogelijke invloed van een mens- en maatschappijvisie op de keuze vao
onderzoeksthema's, meen ik dat de volgende criteria bewust gehanteerd zouden moeten
worden.

1. De thema's moeten aansluiten bij reële problemen die zich in de onderwijspraktijk
in brede zin stellen. Dit criterium houdt verband met de nu vrij gangbare optimalise-
ringsgedachte.

2. De thema's moeten mogelijkheden bieden om tot theorievorming over onderwijs-
en leerprocessen te komen. Dit criterium vloeit voort uit een achterliggende weten-
schapsopvatting.

Deze globale stellingname is uitdrukkelijk gericht op het overbruggen van de bekende
kloof tussen z.g. fundamenteel en toegepast onderzoek. De bedoeling is te komen tot
onderzoek waarin theorievorming en praktijkrelevantie geïntegreerd worden. Ik meen
dat thans anno 1980 het klimaat daarvoor vrij gunstig is.

AUereerst hebben wij in West-Europa een stukje traditie in deze richting, waarop ik in het
begin van deze bijdrage heb gewezen. Bovendien vertonen de Russische en momenteel
ook de Amerikaanse onderwijspsychologie die ons beide sterk beïnvloeden, duidelijl'
zo'n integratief karakter.

Voor de So\yet-onderwijspsychologie is dit, zoals wellicht voldoende bekend is in Neder-
land, vanzelfsprekend (Van Parreren en Carpay, 1980). Aldaar geldt nog de uitspraak van
Cole en Scribner (1978, p. 9) over Vygotskij's werk: 'The need to carry on theoretical
work in an applied context posed no contradiction whatsoever.'

Maar dus ook in de U.S.A. is een integratieve tendens merkbaar. Zo zei Greeno (1978b, p-
12), van huize uit een zuiver experimentalist, op het AERA-congres van 1978 het
volgende:

'I believe that good fundamental cognitive science - science that increases our understanding of th"
processes of understanding, learning, and thinking - cannot help but have important implications
for the conduct of instruction. 1 also believe that good applied research - research that inform«
us about the reasons why something works in the classroom - cannot help but give us important
new insight into the nature of cognhive processes that are the concern of our theories.'

In de Verenigde Staten heeft deze ontwikkeling te maken met de verschuiving van de
behavioristische naar de cognhieve procesgerichte benadering van het leren en onderwij'
zen (De Corte, 1980). Onder invloed van de cognitieve psychologie heeft er zich inder-
daad een aanzienlijke inhoudelijke heroriëntatie van het psychologisch onderzoek voor-

pdaan, in deze zin dat de menselijke cognitieve structuren en de interne processen van
ntormatiewerking centraal zijn komen te staan. Dit gaat gepaard met een grondig
gewijzigde visie op de menselijke cognitie, mji. een verschuiving van het vroegere
omistische standpunt naar een opvatting die de organisatie van informatie als de
entrale karkateristiek van de cognitie beschouwt. Dit heeft op zijn beurt weer implicaties
Oor het soort taken die men in het onderzoek zal gebruiken. We citeren nogmaals Greeno
10):

tasw"^^ "lajor issue about cognition is how people organize information, we need to study people in
On ^ the information they work on is complicated enough to make their organizational processes
Perate in an interesting way.'

Door het aldus centraal stellen van informatieverwerkingsprocessen bij min of meer com-
P exe taken, krijgen schoolrelevante taken en problemen uit z.g. semantisch rijke gebieden
reële kans om in het onderzoek aan bod te komen. Dit schept meteen een gunstig kli-
aat voor de integratie van fundamenteel en toegepast onderzoek binnen de onderwijs-
P ychologie en het biedt tevens interessante perspectieven voor de wetenschappelijk
j^®rantwoorde uitbouw van de vakdidactieken.

tendens naar integratie van 'basic' en 'applied' research is in de U.S.A. bovendien in
e hand gewerkt, doordat ook bij de 'instructional psychologists' in de U.S.A. de optima-
eringsgedachte meer en meer veld wint. In zijn eerder vermelde lezing te Leuven stelde
j^^ser bijvoorbeeld als één der oriënterende principes voor de 'instructional psychology'
jj^ de nabije toekomst: 'a normative, prescriptive theoretical approach'.
. Wil thans nog even terugkeren naar een aspect van het tweede hiervoor gegeven
'terium in verband met de keuze van onderzoeksthema's, m.n. de gerichtheid op
^ eorievorming over onderwijs- en leerprocessen. Deze procesoriëntering heeft belang-
^'Jke consequenties op het vlak van de onderzoeksmethoden (De Corte, 1980). Ik hoef
te^K breedvoerig op in te gaan; deze consequenties zijn immers bekend: men moet
ehnieken toepassen en ontwikkelen waarmee men informatie kan verkrijgen over deze
. ^ssen, bijv. over de psychische activiteiten en handelingen die zich bij leedingen vol-
Ond bij het oplossen van een probleem of bij leraren tijdens het ontwerpen van hun
tie verwonderiijk dat technieken als hardop denken, retrospec-

l^j en individueel interview ~ tot voor kort nog wetenschappelijk taboe - thans welig
^^oeien. Daarnaast worden ook andere methoden ontwikkeld en/of toegepast, zoals
servatie van de leeriing of de leerkracht, diagnostische foutenanalyse (soms met behulp
Q " 'Ie computer), registratie van oogbewegingen , meten van antwoordlijden. Naast deze
j^ , Wikkelingen op het gebied van de technieken voor het verzamelen van gegevens,
stuH- " veranderingen voorgedaan inzake opzet van de onderzoekingen. Vele

iyse die erin bestaat het handelen van experts en beginners te vergelijken bij het uit-
het*^^" van taken; het gebruik van zowel rationele als empirische analyses van taken;
^ toepassen van onderwijsexperimenten of construerende onderzoekingen.

deze onderwijsexperimenten betreft, wens ik hier uitdrukkelijk te stellen dat ze m.i.
belangrijke betekenis kunnen hebben in verband juist met de theorievorming,
ermee wil ik ingaan tegen een mogelijke misvatting waarbij construerende onderzoe-
den^^*^' steunend op de optimaliseringsgedachte, in feite een soort actie-onderzoek wor-
soms met veel actie en weinig onderzoek. M.i. ligt de rol van onderwijsexperimen-

ten in de eerste plaats op het vlak van de theorievorming. Zo'n experiment gaat uit van
een theorie of een hypothese over het optimale verloop van een bepaald onderwijsleer-
proces, verkregen als resultaat van voorafgaand speurwerk. Op basis van de theorie wordt
een onderwijsvoorschrift ontworpen. Door toepassing van dit voorschrift kan men dan de
houdbaarheid en tevens de bruikbaarheid van de theorie toetsen. Indien het gegeven onder-
wijs positieve resultaten oplevert, bijv. in die zin dat de leerlingen achteraf beter bepaalde
taken kunnen uitvoeren dan voordien, dan wordt dit beschouwd als confirmatie voorde
onderliggende theorie of hypothese, m.a.w. als een aanduiding voor de realiteit van de
hypothetische processen uit de theorie.

Een belangrijke vraag is vanzelfsprekend of de hiervoor omschreven opvatting in de prak-
tijk van het onderzoek haalbaar is? M.a.w. is het mogelijk praktijkrelevant onderzoek te
doen dat tevens theorievormende waarde heeft? Mijn antwoord hierop is zonder voorbe-
houd: ja! Om dit te staven wil ik verwijzen naar het domein van onderzoek waar ik me de
laatste jaren nogal heb mee beziggehouden, m.n. het probleemoplossend denken bij
kinderen van de basisschool.

In het traditionele Angelsaksische speurwerk over probleemoplossen was het gebruikelijk
om in goed gecontroleerde laboratoriumsituaties vrij eenvoudige, veelal erg kunstmatige
en alleszins goed afgebakende problemen te bestuderen (bijv. de toren van Hanoï, het
kannibalen-missionarissen probleem). De bekommernis om intern vahde studies te doen
primeerde hier duidelijk. Daarbij hoopte men, vaak impliciet, vanuit deze goed contro-
leerbare situaties te kunnen opstijgen naar meer complexe taken. De 'bottom up approach'
is evenwel a.h.w. niet boven de toren van Hanoi' uitgestegen. Onder invloed van de daar-
even vermelde, grotendeels aan de vroegere Europese Gestaltpsychologie ontleende visie
op de menselijke cognitie, schrikt men er thans ook in de V.S. niet meer voor terug om de
omgekeerde, z.g. 'top down' weg te bewandelen en dus vrij complexe problemen en taken
te nemen als objecten van theoretische en empirische analyse. Enkele typische voorbeel-
den hiervan hebben we elders bondig geschreven (De Corte, 1980). Dat dit ook geldt voof
het Oosteuropese onderzoek is allicht bekend. Als concrete illustratie willen we hier enig
recent werk over het oplossen van elementaire rekenproblemen bij kinderen van de basis-
school beknopt bespreken.

Samen met Lieven Verschaffel hebben we ons de laatste jaren met dit thema beziggehou-
den. De keuze van de problematiek is mede geïnspireerd door contacten met mensen uit
de praktijk, waaruit steeds weer blijkt dat vooral het onderwijzen en leren van z.g-
indirecte opgaven of puntsommen nogal wat problemen stelt.

Het was de bedoeling via onderzoek daar zo mogelijk aan te verhelpen, maar tevens wil-
den we langs deze studie betere kennis verwerven over het probleemoplossingsgedrag
van jonge kinderen en over de mogelijkheid om hun probleemoplossingsvaardigheid te
bevorderen.

Het verrichte onderzoek waarover elders meer uhvoerig gerapporteerd wordt (De Corte
en Verschaffel, 1980 a en b), omvat twee delen: een constaterend en een construerend
onderzoek.

In het constaterend gedeelte werden rekentoetsen collectief afgenomen van 176 eerste- en

tweedeklassers; elke toets bestond uit 24 optel- en aftrekitems (bijv.:. = 3 + 7; .-7 = 5;

t^e antwoorden werden zowel kwantitatief als kwalitatief geanalyseerd. Om zo goed mo-
gelijk te kunnen doordringen naar de mentale handelingen tijdens het oplossen werden
12 kinderen individueel getoetst, waarbij hardop denken en retrospectie werden
toegepast. Op grond van de informatie en de ervaring opgedaan tijdens dit constaterend
Onderzoek werd dan een onderwijsexperiment opgezet, waarin een stukje experimenteel
onderwijs bestaande uit 5 onderwijsleereenheden (10 lestijden) werd ontwikkeld en
daarna toegepast in een tweede leerjaar (gespreid over 2 weken in het begin van het
Schooljaar). De efficiëntie van het programma en de onderliggende hypothese betreffende
"et probleemoplossingsproces werd getoetst volgens de voortoets - natoets opzet met
controlegroep (Cambell en Stanley, 1963).

^'et constaterend onderzoek leidde tot een reeks interessante bevindingen waaruit we hier
een exemplarische greep doen.

Van de 1633 geobserveerde fouten, konden er 78% als denkfout geïdentificeerd wor-
den, d.wj;. fouten te wijten aan het kiezen of uitvoeren van een verkeerde bewerking.
(En dus niet aan het verkeerd uitvoeren van een bewerking).
2- Bij bepaalde typen van elementaire opgaven worden duidelijk meer fouten gemaakt
dan bij andere typen. Volgende typen van opgaven werden onderscheiden:
Type 1 : a ± b = .
Type II : . = a ± b
Type III : a ± . = b
Type IV :.± a = b

Er werden verrassend veel fouten gemaakt bij type II opgave en bij type IV aftrekkin-
gen.

De fouten van kinderen vertonen veel meer systematiek dan men vaak geneigd is aan te
nemen.

De kinderen gaan hier zeer systematisch te werk; alleen voeren ze in feite niet de be-
werkingen uit die er staan, maar resp. 4 + 3 = 7;2+4 = 6;20-12 = 8.
Kinderen vertonen specifieke lacunes in hun kennis en denkwijze; bijv. een zeer
gebrekkige kennis van het = teken, het zeer snel willen geven van een antwoord zonder
over de opgave na te denken.

Verstandige kinderen proberen vaak een onvertrouwde opgave op te lossen door de ge-
tallen a.h.w. in een zinvolle, verbale contekst in te kleden; m.a.w. ze gebruiken een se-
mantische oplossingswijze en gaan niet zuiver syntactisch te werk.
Het constaterend onderzoek gaf aanleiding tot de volgende interpretatie. De vastgestelde,
^equent voorkomende fouten zijn te wijten aan het feit dat de kinderen een adequate
Oriënteringsbasis missen om min of meer nieuwe en onvertrouwde elementaire reken-
°Pgaven efficiënt en systematisch aan te pakken. Volgens onze visie op het probleem-
oplossingsproces zou zo'n oriënteringsbasis erin bestaan dat kinderen uitgerust worden
niet twee complementaire types van handelingen:

i • handelingen die erop neer komen conceptuele kennis (begrippen en principes) passend
te kunnen gebruiken;

Deze globale visie is trouwens thans vrij algemeen gangbaar (zie bijv. Van Parreren,

In onderhavige studie werd ze als volgt geconcretiseerd. Wat denkmethoden betreft
moeten kinderen beschikken over de attitude en de vaardigheid om een opgave te
analyseren en dc relaties tussen de getallen te representeren vooraleer over te gaa"
tot het uitvoeren van bewerkingen. Daarnaast moet hen ook geleerd worden het
resultaat van hun oplossingsproces te controleren. Inzake conceptuele kennis meenden wc
dat een volwaardig begrip van gelijkheid essentieel is en dat beheersing van het deel-
geheel schema een nuttig hulpmiddel is om de gegevens uit een opgave te representeren
en er dc juiste rekenbewerking uit af te leiden. Met construerend onderzoek was erop
gericht deze vrij complexe hypothese te toetsen. In het experimenteel programma werd
aan de kinderen onderwijs gegeven over het = teken, over de deel-geheel relatie en over het
uitvoeren van controlehandelingen. In de toegepaste natoetsen bleek dat de kinderen
van de experimentele groep een beduidende stabiele vooruitgang boekten, terwijl de
resultaten van de controlegroep ongeveer gelijk waren als in de voortoets.
M.i. kan dit onderzoek gezien worden als een voorbeeld van een studie waarin theorie-
vorming en praktijkrelevantie hand in hand gaan. Immers, aan de ene kant heeft dit
onderzoek ons heel wat informatie opgeleverd, die bijdraagt tot een beter inzicht in de
cognitieve processen die zich bij kinderen voordoen tijdens het oplossen van elementaire
optellingen en aftrekkingen. Aan dc andere kant bevatten de resultaten en het experimen-
teel programma enige gegevens die vrij rechtstreeks nut hebben voor het ontwerpen van
het rekenonderwijs, iets wat momenteel beaamd wordt door onderwijspractici die over
de studie geïnformeerd worden.

Wat de theorievorming betreft, zou ik nochtans meteen willen relativeren. Het theoretisch
kader waarvan vertrokken werd, was vrij ruw en globaal, en moet nog aanzienlijk uitge-
bouwd en verfijnd worden, mede op grond van de resultaten van het onderzoek. Ook zoU
ik me willen hoeden voor voorbarig generaliseren; daarom was het onderzoek te beperkt
en had het te zeer een exploratief karakter.

Ter afsluiting van deze illustratie van het tevoren ingenomen standpunt, wens ik nog een
meer algemene bedenking te formuleren met betrekking tot de betekenis van construerend
onderzoek voor de theorievorming. Het is trouwens een bedenking van Resnick, gegeven
naar aanleiding van de voorstelling van onderhavig onderzoek op het AERA-congres van
april 1980 te Boston. Tijdens dit congres pleitte Resnick voor wat ze noemde een 'glass-
box theory of learning', in tegenstelling tot de vroegere 'blackbox theory'. Volgens haar
kunnen onderwijsexperimenten wel een bijdrage leveren tot de uitbouw van zo'n 'door-
kijk-kast' leertheorie, maar in dat opzicht hebben 'classroom teaching experiments' zoals
in ons onderzoek toegepast niet de sterkste theorievormende waarde. Daartoe zijn z.g-
'clinical teaching experiments' waarin het leren van kinderen individueel begeleid en
beïnvloed wordt meer aangewezen, omdat ze betere mogelijkheden bieden om de effec-
ten van diverse interventies op het procesverloop nauwkeurig te observeren en te regis-
treren. Overigens impliceert dit niet dat 'classroom teaching experiments' geen waarde
of betekenis zouden hebben; ze zijn o.m. van belang bij de verdere vertaling van de
theorie naar de praktijk.

We gaan nog even in op een tweede voorbeeld uit hetzelfde onderzoeksdomein dat even-
eens de mogelijkheid illustreert onderzoek te verrichten dat zowel in theoretisch als in
praktisch opzicht relevant is.

U't recente studies (Carpenter, 1980; Moser, 1980) blijkt dat jonge kinderen, vooraleer
fonneel onderwijs gekregen hebben, er vrij behoorlijk in slagen om eenvoudige redac-
he-opgaven of vraagstukjes over optellen en aftrekken op te lossen. Bijv.: Jan heeft 5
^nikkers. Hij verliest 2 knikkers. Hoeveel knikkers houdt hij nog over?

het oplossen van dergelijke probleempjes gebmiken deze kinderen diverse strate-
8'eên. De gegevens die men daarover heeft verzameld zijn zeer verrijkend voor de kennis
°ver liet oplossingshandelen en over de cognitieve activiteit van de betreffende groep kin-
deren.

I^ekijkt men nu de onderwijspraktijk dan stelt men vast dat het formeel onderricht over
Optellen en aftrekken helemaal los van redactie-opgaven gegeven wordt. Er wordt aanvan-
kelijk wel met concreet materiaal gewerkt en in een volgende fase wordt veel geoefend,
Zonder materiaal, aan de hand van formule-opgaven. Pas later krijgen de leerlingen vraag-
stukjes, zogenaamd om de geleerde kennis over de basisbewerkingen te leren toepassen.
•Jcze gang van zaken toont aan dat het fonneel onderwijs helemaal losgemaakt wordt van
de oplossingsbekwaamheid waarover de kinderen eigenlijk beschikken en waarbij ze vaak
°lijk geven in sterke mate uit te gaan van de semantische inhoud van de vraagstukjes. .Men
'jeeft trouwens ook al indicaties dat het formeel onderwijs op deze bekwaamheid een eer-
der negatieve invloed uhoefent. Immers, na het gegeven onderricht gaan de kinderen
anders te werk; ze oriënteren zich dan zeer dikwijls aan oppervlakkige kenmerken van de
Probleemsituatie om zo vlug mogelijk uit te maken: is het bijdoen of wegnemen? Dit be-
fekent duidelijk een verarming van hun vaardigheid in het probleemoplossen. Bovendien
"'ustreert het de geringe diepgang van hun begripsvorming over optellen en aftrekken,
Verworven via het onderwijs.

"it soort onderzoek draagt derhalve niet alleen bij tot de thorievorming over cognitieve pro-
cessen van jonge kinderen bij het begrijpen van kwantitatieve relaties en bij het oplossen van
rekenvraagstukjes, maar het heeft tevens vrij rechtstreeks betekenis voor de praktijk, in dit
Seval met betrekking tot het curriculum en met name in verband met de sequentie van het leer-
programma. De vermelde gegevens leiden inderdaad tot de vraag of het niet wenselijkisombij
net aanvankelijk rekenen van meet af aan redactie-opgaven in te schakelen, in plaats van er-
"lee te wachten tot de kinderen de z.g. basisbewerkingen beheersen en vraagstukjes pas dan
als toepassing te geven. Van bij het begin redactie-opgaven inlassen zou bUjkbaar beter bij de
beginstituatie van de kinderen aansluiten en de vraagstukjes zouden op die wijze een gans an-
Jiere functie kunnen krijgen in het rekenonderwijs, nl. niet meer als toepassing van eerder ge-
'eerde bewerkingsschema's, maar als een essentieel middel 1. om tot volwaardige begripsvor-
jning over optellen en aftrekken te komen, en 2. om de probleemoplossingsvaardigheid die
'j de kinderen aanwezig is, en die gebaseerd is op het semantisch verwerken van de
Probleeminhoud, verder te ontwikkelen via het systematisch analyseren van redactie-
opgaven. Vanzelfsprekend is hier ook nog voortgezet onderzoek nodig. Maar niettemin
tonen de besproken voorbeelden, samen met andere verwante studies, m.i. aan dat er
momenteel speurwerk aan de gang is dat gunstige perspectieven biedt voor de theorie-
vorming over het leren rekenen, en dat tevens kan leiden tot het psychologisch onder-
bouwen van het curriculum en de onderwijspraktijk op gebied van het aanvankelijk
rekenen. Voor zover mij uit de literatuur bekend is, geldt dit trouwens ook in mindere
of meerdere mate voor andere domeinen, of is men althans in die richting op weg; ik denk
bijvoorbeeld aan het belangrijke domein van het leren lezen.

Wat de rol van de O.T.G. 'Onderwijsleerprocessen' betreft, wens ik - als niet Nederlander
— de zaak uitsluitend te bekijken vanuit het standpunt van de betekenis voor de weten-
schappelijke ontwikkeling van het studiegebied.

In de eerste plaats zou de O.T.G. dan een georganiseerd forum moeten zijn voor commu-
nicatie over onderzoek van onderwijsleerprocessen, in zekere mate te vergelijken met wat
men in de U.S.A. een 'invisible college' noemt of met een 'Special Interest Group' (SIG)
binnen de 'American Educational Research Association' (al hebben de SIG's doorgaans
een beperkter themagebied). Deze forumfunctie zou er moeten toe bijdragen het onder-
zoeksdomein duidelijk af te bakenen en in kaart te brengen. Concrete activiteiten die kun-
nen opgezet worden zijn: organiseren van symposia, conferenties, studiedagen; uitgeven
van een nieuwsbrief; inventariseren van lopend en gepland onderzoek; etc.
Een tweede belangrijke taak houdt verband met het coördineren van onderzoek dat be-
trekking heeft op gelijkaardige onderwerpen en op halflange termijn het uittekenen van
een onderzoeksbeleid op basis van overleg met alle betrokkenen bij de O.T.G. In verband
met dit laatste is evenwel het waarborgen van dc vrijheid van de onderzoekers een belang-
rijk punt. Toch mag het niet a priori uitgesloten worden om via het overleg te komen tot
een soort eenheid van criteria inzake prioriteiten voor onderzoek, die niettemin kan lei-
den tot een verscheidenheid van concrete researchprojecten. Deze diversiteit zal trouwens
nodig zijn om het domein in voldoende mate in het speurwerk te representeren.
Gezien de relatieve praktijkbetrokkenheid van het onderzoeksgebied zou ik persoonlijk
de O.T.G. in dat opzicht ook een taak willen toebedelen, zonder daar nu evenwel een con-
creet voorstel voor te hebben. Wel denk ik aan twee aspecten:

1. het stimuleren van het vertalen van onderzoeksgegevensnaar de praktijk toe, wat o.m-
kan gebeuren door het schrijven van rapporten die voor denkende practici toeganke-
lijk zijn;

2. het zoeken naar mogelijkheden om deze denkende practici op één of andere wijze
bij de O.T.G. betrekken.

Tenslotte een waarschuwing. Het creëren van O.T.G.'s kan naast voordelen ook negatieve
effecten hebben, o.m. het gevaar voor geïsoleerd raken van de deelverzameling onderwijs-
psychologie binnen de moederverzameling onderwijskunde. Systeemscheiding kan hier al
even nefast werken als op het vlak van de geheugenorganisatie Men zal hier oog moeten
hebben voor de noodzaak van infusie en ervoor zorgen dat zulke systeemdoorbrekingen
tot stand komen. Maar dit overstijgt het specifieke domein van deze O.T.G.; meteen een
goede gelegenheid om dit verhaal af te sluiten.

Campbell, D.T. en Stanley, J.C. Experimental and quasi-experimental designs for research on teaching-
In: N.L. Gage (.Ed.),Handbook for research on teaching. Chicago, Rand McNally, 1963.

Carpenter, Tli.P. The effect of instruction on first-grade children's initial solution processes for basic
addition and subtraction problems. Paper presented at the Annual Meeting of the American Educa-
tional Research Association, Boston, April 1980.

Cole, M. cn Scribner, S. Introduction. In: L.S. Vygotskij,Mnc/i>i socief^'. Tlie development of higher
psychological processes, (edited by M. Cole, V. John-Steincr, S. Scribner en E. Soubcrman.) Cam-
bridge, Mass.: Harvard University Press, 1978.

Corte, E. Cognitieve psychologie en onderzoek van onderwijsleerprocessen in de Verenigde Staten,
jn: Gedrag, dynamische relatie en betekeniswereld. Uber Amicorum Prof. Dr. J.R. Nuttin. Leuven,
Universitaire Pers Leuven, 1980.
® Corte, E. Objecten, doelen en methodologie van de onderwijspsychologie. Tijdschrift Onderwijs-

'•«earc/i, 1979,4,209-218.
® Corte E. en Verschaffe!, L. Kwalitatief-psychologische analyse van het oplossen van aanvankelijke

rekenopgaven bij 6 ä 8 jarige hzsisschooWcetlmgen. Pedagogische Studiën, 1980 57, 383-396 (a).
® Corte, E. en Verschaffel, L. Een exploratief onderwijsexperiment met aanvankelijke rekenopgaven
jj •'ij 6 ä 8 jarige V.mAetcT\. Pedagogische Studiën, 1980,57,433448 (b).
® Klerk, L.F.W. Het leren van psychomotorische vaardigheden. Een onderwijspsychologische benade-

(Psychologische monografieën) Deventer: Van Loghum Slaterus, 1980.
'dewalle, G. en De Corte, E. Leren in functie van specifieke leerintenties: voorstelling van een
onderzoeksproject. Leuvens ßu/ZeftnA^^P, 1978,27,454465.
'aser, R. Instructional psychology: past, present, and future. Lezing gehouden te Leuven n.a.v. de
toekenning van het Doctoraat honoris causa van de Katholieke Universiteit Leuven, mei 1980.
(verschenen in: Pedagogische Studiën, 1981,55,111-122).
'eeno, J.G. A study of problem solving. In: R. Glaser (Ed.), Advances in instructional psychology

(VolumeI.)HiIlsdale,N.J. Lawrence Erlbaum Ass., 1978 (a).
'eeno, J.G., Significant basic research questions and si^ificant applied research questions are the
Same questions. Paper presented at the Annual Meeting of the American Educational Research
Association, Toronto, Canada, maart 1978 (b).

J. A longitudinal study of the effect of number size and presence of manipulative materials
on children's processes in solving addition and subtraction verbal problems. Paper presented at the
Annual Meeting of the American Educational Research Association, Boston, april 1980.
'jning, H.F. Motoriek en leren. (Leerpsychologie en onderwijs, 3) Groningen, Wolters-Noordhoff
1978.

Pan, P. Kommentaar op 'Onderwijspsychologie en onderwijsleerprocessen'. Bestuursnota van de
Organisatie voor Onderwijspsychologisch Onderzoek. Lezing gehouden op de Studiedag van de
^ Organisatie voor Onderwijspsychologisch Onderzoek gehouden te Amsterdam, 19 maart 1980.
an Parreren, C.F., Leren denken: een analyse van het leerresultaat. Tijdschrift voor Opvoedkunde
1974-1975,20,100-114.

an Parreren, C.F. en Carpay, J.A.M. Sovjetpsychologen aan het woord. (Leerpsychologie en onder-
wijs, 2). Groningen, Wolters-Noordhoff, 1980 (tweede, grondig bewerkte druk),
^agner, A. e.a. Kognitive Verwirrungen bei Lehrern und Schülern im Unterricht. Papier vorgelegt
auf dem internationalen Symposium 'Strategien des Lehrens, kognitieve Variablen in den Handlun-
gen der Lehrenden'. Köln, 5-7 juni 1980.
Wienert, F.E., Treiber, B. en Schneider, W. Educational psychology. The German Journal ofPsycho-
logy, 1919,2,236-266.

In the second edition of his book on statistical power analysis, Cohen (1977) mentions an error
in his original (1969) treatment of power and sample size calculations in analysis of variance.
In this paper the nature of the error is analyzed. It is shown that the corrected procedure is
still essentially at fault in factorial designs, due to Cohen's idiosyncratic definition of the
non-centrality parameter of noncentral F distributions. Tliis results in an underestimation
of power and an overestimation of sample size.

Finally, the need for tables Uke Cohen's in the pkinning of experiments in questioned; since
it is relatively easy to do power and sample size calculations to one's own specifications on
an electronic desk calculator.

Onderzoek waarbij van nulhypothese toetsingsprocedures gebruik wordt gemaakt staat
zoals bekend aan twee typen fouten bloot. Een juiste nulhypothese kan ten onrechte
worden verworpen — een fout van de eerste soort-, en een onjuiste nulhypothese kan ten
onrechte niet worden verworpen — een fout van de tweede soort. De praktijk van sociaal-
wetenschappelijk onderzoek laat zien dat de mogelijkheid van de laatstgenoemde fout
doorgaans niet doorwerkt in de opzet van onderzoek, noch een passende plaats wordt
toegekend bij de interpretatie van onderzoeksresultaten. Terecht spreken Elstrodt en
Mellenbergh (1978) van 'de vergeten fout'.

De kans op een fout van de tweede soort, ook wel aangeduid als type II of /3-fout, is de
resultante van drie parameters: de grootte van de kans op een fout van de eerste soort (a),
de steekproefgrootte, en de effectgrootte. Het laatste vat men in de regel op als het
verschil tussen hetgeen onder de nuUiypothese wordt gesteld omtrent de waarde van een
populatieparameter en de onder de alternatieve hypothese veronderstelde waarde van die
parameter. In het verleden was het voor niet-technisch geschoolde onderzoekers moeilijk
in voorkomende gevallen de benodigde berekeningen zelfstandig uit te voeren. Na de
publikatie van Cohen's Statistical power analysis for the behavioral sciences (1969) kan
een gebrek van wiskundige kennis echter niet meer worden erkend als excuus voor het
voorbijgaan aan de (3-fout. Cohen's boek bevat'voor een aantal gangbare statistische
toetsen (/, F, x^, r, de proportie-toets en de teken-toets) handzame overzichtstabellen
ter bepaling van het onderscheidingsvermogen (l-(3) of de vereiste steekproefgrootte voor
een aantal niveaus van a en effectgrootte. In 1977 verscheen een gereviseerde versie van
dit boek. Het voorwoord bevat onder meer de volgende passage: 'The original treatment
of power analysis and sample size determination for the factorial design analysis of variance
(Chapter 8) was approximate and faulty, yielding unacceptablylarge overestimation of

1. De auteurs zijn dank verschuldigd aan W.P. van den Brink en P. Vijn voor hun nuttige commentaar
bij een eerdere versie van dit artikel.

power for main effects and underestimation for interactions' (p. xi). Onze nieuwsgierig-
heid was daarmee gewelct.

"'t artiiccl stelt zich twee zaken ten doel. Ten eerste zal na een korte theoretische uit-
eenzetting aan de hand van enkele voorbeelden worden aangegeven hoe ernstig men Co-
lien's corrigerende mededeling moet nemen. Ten tweede wordt - opnieuw op theore-
tisch èn praktisch niveau - uiteengezet waarom ook Cohen's herziene aanpak aan princi-
P'ële tekortkomingen laboreert. Elders deden wij dat al in extenso (Koele en Hoogstraten,
1980; Koele, 1980), hier volstaan wij met een globaler exposé en worden met name de
implicaties belicht voor de praktijk van onderzoek.

ln het gefixeerde model van variantie-analyse (VA) heeft de toetsingsgrootheid Feen ver-
delingsvorm die door drie parameters wordt bepaald: het aantal vrijheidsgraden u, en Uj
^an teller en noemer van F en de zg. nietcentraliteitsparameter X. Wanneer de VA-nul-
hypothese waar is, en dus geen verschillen bestaan tussen de populatiegemiddelden, heeft
^ de waarde nul. Wanneer de nulhypothese niet waar is heeft X een waarde groter dan nul.
In het algemeen geldt dat X groter is naarmate de verschillen tussen de populatiegemiddel-
^en groter zijn. Het onderscheidingsvermogen van de F-toets wordt nu bepaald door de
Waarden van deze drie parameters èn de kans a op een fout van de eerste soort. Tabellen
die het onderscheidingsvermogen van de F-toets geven zouden dus deze vier parameters
als ingangen moeten hebben. Cohen (1969) echter wilde het de gebmikers van zijn tabel-
len kennelijk gemakkelijk maken, en gebruikte daarom niet Xals ingang maar zijn index
Voor de effectgrootte ƒ, en niet V2 maar het aantal waarnemingen m per niveau van de on-
afhankelijke variabele. Op zich zou daar niets op tegen zijn, zolang de relaties tussen/en
^ en 77? en v^ tenminste correct en eenduidig zijn geformuleerd. En dat nu blijkt bij Cohen
niet het geval te zijn.

bekijken we eerst de relatie tussen m en V2. Cohen (1969, p. 405) definieert die als
(1) =(z;,+l)(m-l).

Helaas is (1) uitsluitend correct in éénfactor-experimenten. Dat wil zeggen: Wanneer men
bij meerfactor-experimenten een tabel van Cohen bij een bepaalde m-waarde binnengaat
vindt men waarden voor het onderscheidingsvermogen van een andere toets (nl. een toets
niet een andere V2) dan de toets die men in feite zal uitvoeren. Beschouw bij voorbeeld
een 2 X 3 experiment, met 10 waarnemingen per cel. Er geldt nu voor de drie F-toetsen
dat = 2 X 3 X 10 - 2 X 3 = 54. Wil men uit de tabellen van Cohen het onderscheidings-
vermogen aflezen voor de toets op hoofdeffecten van de eerste factor {Vi = 1), dan moet
nien de tabel binnengaan met w = 3xl0 = 30.Het door Cohen berekende onderscheidings-
vermogen is dan dat van een toets met, volgens (1), = (1 + 1) (30 - 1) = 58. Deze V2-
Waarde is groter dan de i^z-waarde 54 waarmee de toets in feite wordt uitgevoerd, en
daardoor geeft Cohen's tabel een onderscheidingsvermogen dat (iets) groter is dan het

feitelijke onderscheidingsvermogen. Voor de toets op interactie-effecten {Vi = (2 - O
(3 - 1) = 2) moet men de tabel binnengaan met w = 10. Het af te lezen onderscheidings-
vermogen is dan berekend voor een toets met (nog steeds volgens (1)) Uj = (2 + 1) (10
1) = 27, en dat is aanzienlijk veel kleiner dan de V2 = 54 van de feitehjke F-toets; het uit
de tabel afgelezen onderscheidingsvermogen is dus (veel) kleiner dan het feitelijke onder-
scheidingsvermogen. Algemener geformuleerd kan gesteld worden dat Cohen's (1969)
procedure ten aanzien van toetsen op hoofdeffecten leidt tot (kleine) overschattingen van
het onderscheidingsvermogen, en ten aanzien van toetsen op interactie-effecten tot
(grote) onderschattingen van het onderscheidingsvermogen.

In de 1977 editie van zijn boek corrigeert Cohen deze fout. In meerfactor-experimenten
moet de tabel nu niet meer worden binnengegaan bij de feitelijke waarde van m, maar
bij

Deze procedure leidt er toe dat men inderdaad het onderscheidingsvermogen vindt voor
toetsen met de juiste v^. Al met al had Cohen dus beter onmiddelUjk die v^ als ingang
kunnen gebruiken.

Aan de hand van een voorbeeld zullen we nu laten zien in welke orde van grootte de
fouten liggen die Cohen's 1969 procedure opleverde.

Stel een onderzoeker ontwerpt een eenvoudig experiment volgens een factorièle 2x2
proefopzet met gefixeerde effecten. Bij voorbeeld, van twee instructievarianten en twee
leermethoden wordt de invloed nagegaan op leerprestaties. Uitgaande van a = .05 en
gebruik makend van Cohen's procedures uit 1969 en 1977 resulteert bepaling van het on-
derscheidingsvermogen van de F-toets voor kleine, middelmatige en grote effecten in de
waarden zoals vermeld in tabel 1.

Tabel 1. Onderscheidingsvermogen van F-toetsen in een 2 x 2 design, volgens Cohen (1969) en Cohen
(1977), bij c«= .05

Duidelijk is allereerst dat Cohen's mededeling onjuist is als zou in 1969 sprake zijn ge-
weest van "...large overestimation of power for main effects...". De overschatting van het
onderscheidingsvermogen van de F-toets voor de hoofdeffecten is voor zover aanwezig
minimaal. Verder valt op dat de onderschatting van het onderscheidingsvermogen van het
'nteractie-effect in 1969 aanzienlijk was, met name voor middelmatige en grote effecten.
Uit de gegevens gebaseerd op Cohen's herziene procedure blijkt dat het onderscheidings-
vermogen van de F-toets voor een interactie-effect gelijk is aan het onderscheidingsver-
mogen van dat hoofdeffect dat evenwel vrijheidsgraden in de teller heeft als het interactie-
effect. Met andere woorden, de veel gehoorde opvatting dat interactie-effecten pas aan-
toonbaar zouden zijn wanneer veel meer proefpersonen worden ingeschakeld dan nodig
Om hoofdeffecten aan te tonen, behoeft herziening.

Overigens zal het veelal zo zijn dat het aantal vrijheidsgraden behorend bij een interactie-
effect groter is dan het aantal vrijheidsgraden dat hoort bij een hoofdeffect. In die situatie
•leeft de toets op interactie-effecten een lager onderscheidingsvermogen dan die op hoofd-
effecten, omdat bij eenzelfde aantal vrijheidsgraden voor de noemer de F-toets met het
•kleinste aantal vrijheidsgraden in de teller het grootste onderscheidingsvermogen heeft,
^ij dit alles passen twee aanvullende opmerkingen. Wanneer men a kleiner of groter l: .;st
.05 tast dat de teneur van het bovenstaande niet aan. Bovendien geldt het boven-
staande uitsluitend proefopzetten met gefixeerde effecten (model I). Proefopzetten met
random effecten (model II) leveren een drastische reductie van het onderscheidingsver-
mogen op. Tabel 2 geeft daarvan een voorbeeld (voor een nadere uiteenzetting zie Koele,

Tabel 2. Onderscheidingsvermogen van F-toetsen in een 3 x 4 factorieel design, voor model I en II, bij
.05,w= 10en/= .22.

De relatie tussen X en v^ definieerde Cohen in 1969 (p. 405) als
(3) X = mf(z;i-H).

Hoewel op deze definiëring het één en ander aan te merken valt is ze niet per se fout (zie
l^oele en Hoogstraten, 1980). Er ontstaat echter in ieder geval een probleem bij toepassing
Van Cohen's gecorrigeerde 1977 procedure. Immers, in een bepaalde situatie heeft X de
feitelijke waarde als gegeven door (3). Het onderscheidingsvermogen moet echter opge-
zocht worden bij een w-waarde die gegeven wordt door (2), en dat onderscheidingsver-
mogen heeft dus betrekking op een toets met

In meerfactor-expcrimenten levert (4) een lagere waarde op dan (3), en dat betekent dat
Coiien's 1977 procedure in principe een onderschatting geeft van het feitelijke onderschei-
dingsvermogen. Ook nu is het mogelijk met behulp van een correctieformule deze onder-
schatting te corrigeren. Om het correcte onderscheidingsvermogen bij een bepaalde effect-
grootte ƒ te bepalen zal men Cohen's tabellen moeten binnengaan bij een /-waarde die
wordt gegeven door

waarbij n het totale aantal waarnemingen in het experiment is (Koele en Hoogstraten,
1980, p. 9). Dc via (5) verkregen waarde zal slechts bij uitzondering een door Cohen
getabeileerde waarde zijn: interpolatie is dus veelal noodzakelijk. Uit (5) wordt duidelijk
dat het onderscheidingsvermogen het sterkst wordt onderschat wanneer ƒ groot is, en
wanneer n relatief veel groter is dan Vi + rj + 1, dat wil zeggen in factoriële opzetten met
weinig waarnemingen en met veel factoren en/of niveaus per factor. Dc grootte van de
onderschatting wordt geïllustreerd in tabel 3.

Tabel 3. Onderscheidingsvermogen van F-toetsen in een 2 x 2 x 3 design, volgens Cohen (1977) en cor-
rect berekend, bij a = .05

Analyse van het onderscheidingsvermogen van statistische toetsen is in meerdere opzich-
ten uiterst zinvol. Dat wordt met name duidelijk in de voorbereidende fase van onderzoek.
Dan immers rijzen praktische vragen als: uit hoeveel personen moeten de onderscheiden
onderzoeksgroepen bestaan, of wat is, gegeven een beschikbaar aantal proefpersonen, het
Onderscheidingsvermogen van de toe te passsen statistische toetsen. Wie in het verleden
'er beantwoording van deze vragen te rade ging bij Cohen trof daar voorzover het de F-
toets betreft niet de correcte antwoorden aan. Opvallend is natuurlijk vooral de aanzien-
lijke onderschatting van het onderscheidingsvermogen van interactie effecten in 1969. Men
kan zich afvragen hoe vaak onderzoekers het uitblijven van een verondersteld interactie
effect toeschreven aan een vermeend tekort aan onderscheidingsvermogen of hun belang
stelling voor interactie-effecten in een vroegtijdig stadium ten onrechte verloren na con
statering van de geringe kans op het aantonen ervan.

2oals gezegd bevatten Cohen's herziene tabellen en procedures waar het de F-toets be
treft nog steeds storende onvolkomenheden, resulterend in overschatting van de steekproef-
ërootte en onderschatting van het onderscheidingsvermogen. Maar in feite is aan Cohen'?
tabellen bij de opzet van onderzoek nauwelijks nog behoefte nu geavanceerde zakreken
machines ter beschikking staan. De juiste waarden van het onderscheidingsvermogen in
tabel 3 zijn berekend met behulp van de derde machtswortel standaard-normale benade-
ring van niet-centrale F-verdelingen (Severo and Zelen, 1960). Deze benadering is als volgt
^it te voeren. Ingevoerd moeten worden Vi, ZJj, X en F^, de kritische F-waarde onder de
nulhypothese. Zij n het totaal aantal waarnemingen in het experiment, en ƒ de index voor
^e effect grootte zoals gedefinieerd door Cohen (1977), dan wordt X gegeven door

Het onderscheidingsvermogen is dan het oppervlak onder de standaardnormale verdeling
links van de Z-waarde die de benadering oplevert. Een voorbeeld. We berekenen het
Onderscheidingsvermogen van één van de toetsen uit tabel 3, en wel die met Vi = l,n =
en voor een middelmatige effectgrootte (ƒ= .25). Er geldt dan dus X = 48 x(.25)^ =
3, Dj = 48 _ 2 X 2 x 3 = 36 en F,, = 4,12 (bij a = .05, lineair geïnterpoleerd tussen v^ =
30 en Vi = 40). Z wordt gegeven door

A heeft hier de waarde .097 cn li de waarde 1.030, dus Z = -.31, en liet oppervlak links
ervan, liet onderscheidingsvermogen van de F-toets, is gelijk aan .38, zoals ook in tabel
3 is terug te vinden.

Tiku (1966) heeft onderzocht hoe goed deze standaard-normale benadering (en een
viertal andere) is. Uit zijn resultaten blijkt dat de benadering correct is tot in twee decima-
len, behalve bij extreem lage waarde van v^, bij a = .01. Daarbij is de benadering van
Severo en Zelen zeker de eenvoudigste wat rekenwerk betreft.

Analyse van het onderscheidingsvermogen is uiteraard ook nuttig ter bepaling van de
mérites van reeds uitgevoerd en gepubliceerd onderzoek. Verwezen kan worden naar
studies als van Brewer (1972), Brewer en Owen (1973) en Chase en Chase (1976). Neder-
landse bijdragen op dit gebied leverden Hoogstraten, Koele en van der Ploeg (1980) en
vooral Elstrodt en Mellenbergh (1978). In al deze gevallen werden Cohen's tabellen en
procedures uit 1969 als vertrekpunt genomen. Voorzover de resultaten betrekking hebben
op de /'-toets is tenminste één correctie vereist. Chase en Chase (1976) verwoorden de
stand van zaken inzake interactie-effecten als volgt: "...insufficient power in tests for
interactions is common in behavioral research (...) and may prevent the investigator from
detecting significant interaction effects' (p. 235). Naar uit het voorgaande bleek is deze
stelling aan evidente herziening toe.

Er kleven overigens nog wel wat bezwaren aan Cohen's aanpak. Dat geldt bij voorbeeld
zijn suggestie te kiezen voor a = .05 en j3 = .20. Cohen veronderstelt kennelijk dat een
type 1 fout vier maal zo zwaar weegt als een type II fout en is bovendien de mening
toegedaan dat lagere (3 waarden steekproefgroottes impUceren die niet reahstisch zijn-
Zoals door een van ons al eerder werd beargumenteerd is deze stellingname vatbaar
voor kritiek (Koele, 1977) en is er veel voor te zeggen a en /3 beide op .10 of .15 te
stellen. Een ander punt van kritiek raakt Cohen's beperking tot de alpha niveaus 1,5 en
10%. Er zijn situaties denkbaar waarin een groter alpha niveau op zijn plaats is. Bij voor-
beeld wanneer slechts een beperkt aantal proefpersonen beschikbaar is of het de onder-
zoeker er nadrukkelijk niet om te doen is te komen tot verwerping van de nulhypothese-
Een laatste bezwaar tegen Cohen's benadering betreft de omstandigheid dat er soms rede-
nen zijn niet de gebruikelijke nulhypothese tegen een alternatieve hypothese te toetsen
maar een hypothese van een klein effect tegen een hypothese van een groot effect (zie
ook Gucnther, 1979). In dat geval zijn Cohen's tabellen zonder meer onbruikbaar.
De conclusie moet dus luiden dat enerzijds, waar het het inrichten van experimenten
betreft, behoefte is aan meer dan wat Cohen's tabellen bieden, en dat anderzijds in
Cohen's procedures enkele onvolkomenheden aanwijsbaar zijn die voorzichtigheid bij het
gebruik noodzakelijk maken.

Brewer, J.K. On the power of statistical tests in the American Educational Research ioumaX. American

Educational Research Journal, 1972, 9, 39 MOl.
Brewer, J.K. & Owen, P.W. A note on the power of statistical tests in the Journal of Educational

Measurement. Journal of Educational Measurement, 1973,70, 71-74.
Chase, L.J. & Chase, R.B. A statistical power analysis of applied psychological tesemch. Journal of

Applied Psychology, 1976,67, 234-237.
Cohen, J. Statistical Power Analysis for the Behavioral Sciences. New York: Academic Press, 1969
(Rev. Ed.: 1977^.

Elstrodt, M. en Mellenbergh, G.J. Ee'n minus de vergeten fout. Ned. Tijdschr. voor de Psychologie

"enther, W.C. Tlie use of noncentral F approximations for calculations of power and sample size.
The American Statistician,\919,33,2m-2\Q.
"Oogstraten, Joh., Koele, P. en van der Ploeg, D.A. Publikatiegewoonten in Nederland. Een analyse
van onderzoeksverslagen uit drie tijdschriften. Tijdschrift voor Onderwijsresearch, 1980,5, 3-8.
°ele, P. Over foute beslissingen bij nulhypothesetoetsing. Tijdschrift voor Onderwijsresearch, 1977
. 2,185-188.

oelc, P. Calculating power in analysis of variance. Amsterdam: Psychologisch Laboratorium, 1980.
°®le, P. en Hoogstraten, Joh. Power and sample size calculations in analysis of variance. Reve'sz-
berichten nr. 12. Amsterdam: Psychologisch Laboratorium, 1980.
^"ero, N.C. & Zelen, M. Normal approximation to the chi-square and noncentral F probability

functions. Biometrika, 1960,47,411416.
'^u, m.L. a note on approximating to the non-central F distribution. Biometrika, 1966, S3, 606-
610.

The construct of subject matter structure and commonly used techniques for representing
subject matter organisation arc briefly reviewed. A technique is proposed for the analysis
of subject matter structure or knowledges structures embodied in a discipline in the form o'
network representation. This technique can be used by a course planner intending to represent
contcnt and instructional text.

Several problems in knowledge representation are identified and attention is given to the inpu'
and output considerations of the proposed technique.

Also a pilotstudy is presented in which the reliability of the technique is tested. Suggestions are
made for the use and interpretation of results from this instrument.

Het in overeenstemming brengen van de cognitieve structuur van leerlingen met de kennis-
structuur van een discipHne kan als een belangrijke taak voor het ontwerpen van onder-
wijsleersituaties aangemerkt worden. Deze aanname en vergehjking was al aanwezig in het
werk van Ausubel (1963) en komt voort uit het idee dat de conceptuele organisatie van
kennis, zoals neergelegd in structuren van de leerstof, in vergehjking kan worden gebracht
met de cognitieve structuur na een leerproces. Dit betekent dat de conceptuele kenmerken
van leerstof en de representatie van de leerstof in de cognitieve structuur met één analyse-
instrumentarium te beschrijven zouden moeten zijn.

'A view ot'cognitive structure capable of making sense of various cognitive operations must treat cog-
nitive structure as a representation or embodiment of the conceptual features of the subject matter'
(Strike, Posner 1976, p. 129)

Een dergelijk gezichtspunt houdt het voor mogeUjk om op grond van kennis wat geleerd
moet worden (leerstof) te achterhalen wat er is geleerd (cognitieve structuur) en hoe het
is geleerd (proces). Het analyseren en het representeren van de leerstofstructuur als struc-
tuur van die infonnatie uit een kennisdomein (vakdiscipline) die men wil onderwijzen,
legt de omvang van de infomiatie die wordt overgedragen vast en heeft imphcaties voor de
sequentie (volgorde) en organisatie (interrelatie) van leerstofonderdelen.
Behalve een representatie van leerstofonderdelen imphceren de instrumenten voor leer-
stofstructurering tevens een weergave van de optimale verwerking"van de leerstof.
Verschillende technieken (Scandura 1977) zijn voorgesteld voor de analyse van leerstof-
structuren. Een van de meest bekende instrumenten is de taakanalyse (Gagne, Briggs

'974), die een speciaal soort leerstofstructuur oplevert nl. de leerhiërarchie.
Taakanalyse is een instrument om leerstofonderdelen (mji. intellectuele vaardigheden)
onderling te rangschikken in voorwaardelijke relaties, waardoor een hiërarchie van onder-
en bovengeschikte leertaken wordt verkregen.

Centraal in de verschillende instrumenten voor de analyse van leerstof staat de vraag hoe
de conceptuele organisatie van leerstof voorgesteld moet worden, waarbij rekening wordt
gehouden met de diversiteit aan verbindingen tussen leerstofelementen. Organisatie en
^quentie van leerstofonderdelen kan nl. zowel plaats vinden op basis van didactische
criteria als bekendheid, moeilijkheid, interesse, als op basis van de logische of psycho-
logische kenmerken van leerstof (vgl. Posner, Strike 1976). In toenemende mate wordt
betwijfeld (Scandura 1977, Resnick 1976, Greeno 1976, Reigeluth ea. 1978) of met
behulp van één soort relatering van leerstofonderdelen (zoals bij Gagne) zowel uitspra-
ken gedaan kunnen worden over psychologische verwerking van leerstof als over de struc-
tuur van leerstof. Steeds meer wordt beklemtoond (Posner 1978, Norman 1979, Reige-
luth 1978) dat leerstof geanalyseerd moet worden als netwerken van concepten die
onderling verbonden zijn door een groot aantal en verschillend geaarde relaties en dat
deze relaties in een overzichtelijke structuur (in de vorm van een netwerk) gerepresenteerd
dienen te worden.

Ook is sterk in discussie (Resnick 1976) of de leerstofstructuur voldoende aanwijzingen
geeft voor de optimale psychologische verwerking van de kennisinhouden tot cognitieve
structuur.

Het bepalen van de psychologische validiteit van leerstofstructuren is daarbij een com-
plex probleem. Om dit op te lossen zijn aparte procesanalyses van optimale expert verwer-
king van leerstof voorgesteld (Resnick 1976 spreekt hier van rationale taakanalyses), maar
Ook representatie methoden die aangeven hoe feitelijk de informatie begrepen en verwerkt
Wordt in leersprocessen, waarbij aanwezige voorkennis en cognitieve structuren van degene
die leert een rol spelen; de zg. empirische taakanalyse. (Ausubel 1963, Anderson ea
1977, Bransford, Franks 1976).

Een ander punt van discussie is, of met één instrument verschillende soorten leerstof
geanalyseerd en gerepresenteerd kunnen worden.

^agne (1970) gaf al aan dat het waarschijnlijk noodzakelijk is te werken naar een psycho-
logisch relevante indeling van leerstof, die niet identiek hoeft te zijn met een vakindeling,
maar zich richt op gemeenschappelijke taak- en verwerkingsvariabelen in de leerstof en
Waarvoor verschillende instrumenten voor leerstofstructurering noodzakelijk zijn. (Zie
ook Reigeluth e.a. 1978.)

In dit artikel wordt een instrument voor de analyse en representatie van de structuur
Van leerstof gepresenteerd dat aangrijpt op deze discussie. Dit instrument is bedoeld
Voor de analyse van georganiseerde kennisgehelen (teksten, verbale instructie), bestaande
nit concepten en relaties weergegeven in de vorm van netwerken, die de leerstofstructuur
representeren. Onder leerstofstructuur wordt verstaan: het geheel van geïnterrelateerde
concepten die dat deel van de kennisstructuur representeren, dat men in het onderwijs
Wil overdragen.

Netwerkrepresentaties van kennis kunnen op drie soorten structuren aangrijpen:
1 • Allereerst op de cognitieve structuur als het verworven kennis geheel van de leerling.

2. verder op de inhoudsstructuur, te meten in de vorm van onderwijsmateriaal als tek-
sten, cursusboeken;

3. tenslotte op de kennisstructuur als de kennis vervat in de vakdiscipline, genieten door
bevraging van experts.

De eerste representatie nl. die van de cognitieve structuur vooronderstelt gegeven onder-
wijs en levert daardoor geen relevant instrument voor het ontwerp van een leerstofstruc-
tuur. liet kan daarom beter beschouwd worden als afliankelijke maat van gegeven onder-
wijs die kan leiden tot bijstelling van de leerstofstructuur (zie Resnick 1976). De andere
beide representaties kunnen op zichzelf geen uitspraken doen over de psychologische
validiteit van de leerstofstructuur, maar alleen over wat Posner (1978) noemt, de episte-
mologische validiteit.

Beide representaties verschillen van elkaar wat de input voor analyse van concepten vormt. De
één selecteert teksten cn instructiematerialen, de ander het oordeel van experts. Welhcht
omdat de oordelen van experts over de epistemologische waarde van concepten in een
kennisstructuur beter geschikt zijn voor het bepalen van dc congruentie met gemaakte
leerstofstructuren, is deze vorm van analyse het minst gebruikt. Met name Fenker (1975)
maakt gebruik van experts ter bepaling van concepten uit een kennisgeheel (zie ook
Lodewijks 1978). Daarvoor is meestal een lijst van concepten a priori geselecteerd door de
experimentator, die ze ter beoordeling aan experts voorlegt om later, meestal met multi-
dimensionale schaaltechnieken, op hun onderhnge relatering onderzocht te worden.
De meeste instrumenten richten zich echter op de analyse van leerlingtekstboeken of vak-
discipline-teksten (Witte 1974, Geeslin,Shavelson 1975, Johnson 1967, Shavelson 1972).
Een belangrijk probleem bij deze instrumenten is de selectie van concepten ofwel het
bepalen van de relatieve belangrijkheid van concepten, om deze deel uit te laten maken
van de leerstofstmctuur. Hiermee is verbonden het probleem hoe omvangrijk c.q. gedetail-
leerd de leerstofstmctuur dient te zijn. Verschillende min of meer geslaagde procedures
werden hiervoor aangedragen. Witte (1974) selecteert alleen begrippen als daartussen een
causale relatie bestaat. Hier wordt dus de belangrijkheid van een concept afliankelijk
gesteld van, in dit geval, één soort relatie. Johnson (1967) selecteert concepten door
frequentie-telling van woorden in leerlingteksten. Deze methode wordt meestal kwanti-
tatieve inhoudsanalyse genoemd en heeft het nadeel dat geen rekening wordt gehouden
met de complexiteit (relevanrie) van begrippen.

Een aantal instrumenten (Shavelson 1972, Geeslin 1973) (zie ook Mirande e.a. 1977)
identificeren concepten door criteria op te stellen voor de relevantie van begrippen binnen
de leerstofstmctuur. Soms zijn dit door de experimentator bepaalde criteria, soms wordt
de beoordeling van de expert als criterium gehanteerd.
Enkele criteria zijn:

- Concepten die als nieuw worden ingevoerd en toegelicht en reeds bekende concepten
die nader gespecificeerd worden (Mirande e.a. 1977);

- concepten die in het leerstofgeheel een definiëring krijgen en specifiek zijn voor het
leerstofgeheel (Lodewijks 1978);

- concepten die een specifieke relatie met andere concepten in het leerstofgeheel bezit-
ten (Witte 1974).

"et vaststellen van criteria voor selectie van concepten is een probleem, maar liet vast-
stellen van de interrelatie van concepten is, zo lijkt het, nog een groter probleem. Meestal
^ordt de leerstofstructuur opgespannen met behulp van ée'n soort relatie en wel: deel-
geheel relaties of voorwaardelijke relaties. Norman en Rumelhart (1975) en Greeno (1976)
■jebben aangetoond dat er diverse relaties mogelijk en benoembaar zijn tussen concepten,
jl'e vaak de vorm aannemen van regels die de concepten met elkaar verbinden. Dit'
"'etekent dat er geen eenduidige en enkelvoudige relaties tussen begrippen aanwijsbaar
h'Jn, of dat niet duidelijk wordt welke relaties noodzakelijk en voldoende zijn, om de
plaats van de begrippen in een leerstofstructuur te bepalen. Echter, de meeste instrumen-
en Voor leerstofstructurering zijn gebaseerd op de specificatie van leerstof volgens één
^'atie, zoals duidelijk wordt uit de indehng van Reigeluth e.a. (1978).
^an de instmnienten die niet a priori één soort relatie selecteren voor de analyse en repre-
^ntatie van leerstof en bovendien geen gebruik maken van de propositionele grammatica
Voor de specificatie van verschillend geaarde relaties is de digraph methode van Shavelson
^e meest bekende. Shavelson (1972) en Geeslin, Shavelson (1975) gaan kortweg als volgt
te werk: elke zin en elke vergelijking in een tekst waarin twee of meer a priori geselec-
teerde concepten voorkomen, worden in een matrix geplaatst, waarbij de afstand tussen
begrippen (bepaald door de hoeveelheid tussenliggende concepten) wordt vastgesteld,
yaarmee wordt de aard van de relatie niet inhoudelijk bepaald, enkel het associatieve ver-
band. Op deze manier wordt allerminst duidehjk welk conceptueel verband er tussen
delen van de leerstof wordt gelegd.

Semantische netwerken als instrumenten voor leerstofstructurering maken gebruik van
Prepositionele grammatica, om inhoudelijk de aard van de relaties te bepalen. Relaties
Worden weergegeven als benoemde, directe lijnen tussen concepten (knopen in het net-
jverk) (Greeno 1976, Rumelhart, Ortony 1977).

"eestal worden relaties niet uitputtend behandeld, maar beperkt tot een standaard lijst
Van mogelijke relaties (bijv. IS-relatie - identiteits-kenmerk, ISA-relatie - taxonomisch
■kenmerk, HAS-relatie - eigenschapskenmerk, DOES-relatie - aktiviteitskenmerk,CAUSE-
relatie - oorzakelijkheidskenmerk). Een nadeel van deze analyse is dat ze te vereenvoudi-
gend werkt en niet de regels of principes die de begrippen op meervoudige wijze verbin-
den weergeeft, zodat de representatie statisch wordt. Echter netwerken zijn op dit
"■oment de meest sterke representatiewijzen van de conceptuele structuur van leerstof
Vooral door hun overzichtelijke weergave van coherentie, explicitering en hechtheid van
de leerstof.

^oel van het door ons ontwikkelde instrument leerstofstnicturering is:
a* Vaststellen welke concepten deel uitmaken van de leerstofstructuur;
• de relaties bepalen tussen deze concepten:
C- het visueel representeren van deze geïnterrelateerde concepten.

2.1. De input van het instrument leerstofstructurering
Het begrip leerstofstriicturering hebben wij omsciireven als:

'dat deel van het kennisdomein dat men in het onderwijs wil overdragen'. In de omschrij-
ving dringt zich onmiddellijk de vraag naar dc input van iict instrument naar voren. Eén
opvatting is dat als de leerstofstructuur een te onderscheiden deel is van een kennisstruc-
tuur, dan zou de kennisstructuur, zoals bijvoorbeeld vervat in een disciphne,de input die-
nen te vormen van waaruit de lecrstofstructuur wordt vastgesteld.

Vakexperts als 'houders' van de kennisstructuur vonnen dc bron van waaruit kan worden
geput om dc lecrstofstructuur te bepalen. Dit kan op verschillende manieren plaatsvinden.
Men kan een expert zelf aan het woord laten (bevraging) of men kan vakliteratuur raad-
plegen.

'This structure is communicated through the scientists' writings in journals and advanced textbooks a'
well as through informal communication channels.' (Shavelson, 1974).

Er zijn een aantal redenen aan te voeren die pleiten tégen het direct gebruik van experts
ter bepaling van de geïnterrelateerde concepten van dc leerstofstructuur. De voornaamste
is wel dat experts veelal op een dusdanig niveau denken en werken dat (te)veel basiscon-
cepten en veronderstellingen onproblematisch zijn geworden, (zie ook 1.1.)
Vakhteratuur daarentegen kan worden beschouwd als de schriftelijke neerslag van een
kennisstnictuur. Het is een verwoording van aanwezige vakkennis van het afgebakende
onderwerp. Door een analyse van (de) vakliteratuur met betrekking tot het gekozen
onderwerp kunnen de geïnterrelateerde concepten worden vastgesteld die deel uitmaken
van de leerstofstructuur.

Ecn andere opvatting is dat het bepalen van de geïnterrelateerde concepten in de leerstof-
structuur ook kan plaatsvinden door een analyse van de leerstof zelf, zoals die is vast-
gelegd in bijvoorbeeld instructieteksten. Hieraan kleven echter een aantal bezwaren.
Figuur 1 geeft een beeld van het verloop van het communiceren van een kennisstructuur
naar de leerling in het onderwijsleerproces.

Uit deze figuur wordt duidelijk dat de kennisstructuur een tweetal 'filters' is gepasseerd,
voordat de instructietekst tot stand komt (students' textbook): het 'filter' van 'teachers'
apthudes for learning' en het 'fiUer' van 'teachers' aptitudes for teaching'.
Als 'teacher' dient ook de schrijver van de instructietekst te worden verstaan.

•^oor nu de instructietekst als analyse-een iieid, als input voor liet instrument leerstof-
structurering te nemen wordt de output, de leerstofstructimr afliankelijk gemaakt
^an al of niet aanwezige, correcte kennis van de schrijver, of van eigenscliappen van de
instructietekst zelf, die op zich weer een afgeleide is van de kennisstructuur,
f^en ander probleem rond het gebruik van instructieteksten als input voor liet instrument
's het feit dat bij het samenstellen van instructiematerialen andere dan inlioudelijke over-
wegingen, met name didactische en leerpsychologische overwegingen, een rol gespeeld
'lebben bij het structureren of organiseren van de leerstof in deze instructieteksten. Hier-
door zal de expliciete inhoudelijke structuur van de leerstof veelal niet duidelijk in beeld
komen.

Concluderend kan worden gesteld dat vakliteratuur (in het door ons ontwikkelde instru-
ment wordt gesproken van 'informatieve teksten') beter geschikt is om als input te fun-
geren voor leerstofstructurering.

Een probleem dat zich liicrbij voordoet heeft betrekking op het aantal teksten dat als
input wordt gebruikt. Er is geen objectief criterium aan te geven op grond waarvan men
•kan beslissen of men met één tekst kan volstaan of dat meerdere teksten noodzakelijk
zijn.

i^e leerstofstructuur moet een bedoeld totaalbeeld geven van dié geïnterrelateerde
concepten, die men in het onderwijs wil overdragen. Dit betekent dat men zó lang door
moet gaan het het analyseren van teksten tot het bedoelde beeld totaal is, met andere
Woorden tot de leerstofstructuur compleet is. Het lijkt nauwehjks mogelijk om in
algemene zin aan te geven wanneer dh het geval zal zijn. Het is zelfs de vraag óf er een
'natuurlijke' grens is, waarna nieuwe informatiebronnen geen nieuwe concepten of nieuwe
relaties tussen reeds aanwezige concepten meer opleveren. Noodzakelijk is dan een af-
f^i'eekcriteriitm, op grond waarvan men kan beslissen dat de leerstofstructuur als
compleet wordt aangemerkt. De hoeveelheid teksten die als input voor de analyse
fungeren wordt dan mede bepaald door een dergelijk albreekcriterium. Gegeven het feit
dat de leerstofstructuur een totaalbeeld moet geven zou er maar één criterium gehanteerd
mogen worden als afbreekcriterium: het volledigheidscriterium of redundantiecriterium.
Het redundantiecriterium houdt in dat men stopt met het verzamelen van informatie als
nieuwe infonnatiebronnen alleen nog maar redundante informatie opleveren. Naar de
leerstofstructuur toe betekent dit dat nieuwe informatiebronnen geen nieuwe concep-
ten of nieuwe relaties tussen reeds aanwezige concepten opleveren.
Hoewel theoretisch gezien dit redundantiecriterium het enige legitieme afbreekcriterium
is, moeten in de practische toepassing van dit criterium een aantal problemen worden
Verwacht:

- door steeds dieper in te gaan op de leerstof, met andere woorden door een steeds
verder gaande specificatie van concepten in de leerstofstructuur wordt het redundan-
tiecriterium steeds uitgesteld;

het redundantiecriterium betekent in praktijk nauwelijks een beperking of afgrenzing
van het aantal teksten dat men als input gebruikt; immers, uit het kunnen aanmerken
van de informatie uit tekst x als redundant volgt niet dat de informatie uit tekst y of
z ook redundant zal zijn.
Het theoretisch redundantiecriterium als afbreekcriterium behoeft duidelijk aanvulling
met andere criteria. Het eerstgenoemde probleem met het redundantiecriterium: de steeds
Verder gaande specificatie van concepten in de leerstofstructuur kan worden beperkt door
een doelstellingencriterium: door een nauwkeurige bepaling en afgrenzing van het

leerstofgcheel in een tliema van beperkte omvang, aangevuld met het bepalen van het
niveau waarop de kennisoverdracht zal plaatsvinden en de doelstellingen die hierbij
gehanteerd worden, zal de omvang van de leerstofstructuur en het niveau van specificatie
begrensd worden.

liet tweede probleem met het redundantiecriterium: de beperking van het aantal teksten
als input, is niet via enig algemeen geldend criterium op te lossen. In het practische
gebruik van het instrument zullen hier a priori oplossingen gevonden moeten worden.
Vaak zal het aantal teksten worden beperkt door dc beschikbaarheid van deze teksten
voor de instrumentengebruiker.

Deze criteria vormen ingang condities voor het instrument.
2.2. Dc output van het instrument leerstofstructurering

liet instrument leeritofstructurering moet de geïnterrelateerde concepten, die deel uitma-
ken van de leerstofstructuur, visueel representeren, waarmee een overzicht wordt gegeven
van de structuur van de inhoud van het leerstofgeheel, om van daaruit het onderwijs te
organiseren.

De vraag naar de output is dan: hoe wordt de leerstofstructuur in beeld gebracht?
De meest gebruikte methoden om een leerstofstructuur in beeld te brengen zijn:

de concepten worden hier weergegeven als punten in een meer-dimensionele ruimte,
waarbij de plaats van deze punten en de afstand tussen punten bepaald wordt op grond
van relationele gegevens;

een netwerk bestaat uit concepten, die als knopen worden weergegeven en uit beteke-
nisvolle verbindingen tussen concepten, die als relaties worden weergegeven;
een specifieke vorm van de netwerk-representatie is het semantisch netwerk, proposi-
tioned of conceptueel (vgl. 1.1.).
Minder gebruikelijke representatiemethoden zijn:

dit is een soort netwerk-representatie waarbij de gerepresenteerde relaties echter op
grond van bepaalde criteria (Vorlaüfer-Nachfolger System') beperkt zijn tot causale
relaties;

deze is Uitsluitend geschikt voor hiërarchische stnicturen of taxonomieën.
Bij de keuze van een methode van representatie is de belangrijkste overweging de functie
van de gevisualiseerde leerstofstmctuur. De representatie dient:

Het 'Kohärenzstrukturdiagram' en de 'nested set' representatie bleken niet geschikt
voor het in beeld brengen van een leerstofstmctuur.

Door de aard van de gerepresenteerde relatie te beperken tot de causale relatie (Witte)
of tot de taxonomische relatie (Johnson) worden andere voorkomende relaties (en
mogelijk daardoor ook concepten) weggelaten. Bovendien is het niet mogelijk om alle
leerstof te beschrijven in causale of taxonomische systemen.

Representatie in een meer-dimensionele mimte levert veelal een aantal technische proble-
men op. Hiervoor zijn geavanceerde statistische analysetechnieken noodzakelijk, waar-

Voor weliswaar computerprogramma's (INDSCAL en ALSCAL) ontwikkeld zijn, maar
die desondanks grote eisen stellen aan specialistische kennis van de gebruiker.
Wezenlijker nog is het probleem van de interpretatie van deze representatiewijze. Met
laine het benoemen van de gevonden dimensies, essentieel voor de interpretatie, is een
Veelal onopgelost probleem.

Door dit interpretatieprobleem voldoet deze representatiewijze niet aan het doel dat de
output heeft: een overzicht geven van de structuur van de inhoud van een leerstofgeheel
Om van daar uit het onderwijs te organiseren.

'n een semantisch netwerk is de aard van de relaties binnen het netwerk gespecificeerd.

naar gelang er relaties worden gelegd tussen proposities of de relatie tussen concepten
Worden afgebeeld spreekt men van propositionele dan wel conceptuele netwerken,
l^e relatie tussen de concepten kan van velerlei aard zijn. Voor de leerstofstructuur is al-
'een het bestaan van een relatie tussen concepten van belang.

Het visueel representeren van de geïnterrelateerde concepten, die deel uitmaken van
de leerstofstructuur, vindt in het instrument 'leerstofstructurering' plaats door middel
Van een netwerkrepresentatie, waarin de aard van de relaties tussen de concepten niet is
Êespecificeerd.

Deze vorm van netwerkrepresentatie wordt door het hele instrument heen gehanteerd,
•net name ook voor het representeren van de analyse van de informatieve teksten (vakhte-
ratuur) en van de instructieteksten.

Eerder (1.2) is gesteld dat instructieteksten niet als input kunnen fungeren bij het vast-
stellen van de leerstofstructuur. Toch kan analyse van een instructietekst, juist vanwege
diens specifieke didactische aard, een belangrijke aanvulling vormen op de analyse van de
informatieve teksten. Het is immers niet ondenkbaar dat in vakliteratuur een aantal basis-
concepten en basisrelaties ontbreken, omdat deze als voorkennis worden verondersteld.
Daarnaast kan de analyse van een instructietekst tot doel hebben, deze tekst te controle-
ren op adekwaatheid (bijvoorbeeld op volledigheid en coherentie) aan de hand van de
analyses van de informatieve teksten. Daarmee kan deze instructietekst beoordeeld
Worden op zijn bruikbaarheid in de onderwijsleersituatie.

l^adat in een analyse van de informatieve teksten en van de instructietekst bepaald is
Welke samenhangende concepten deel uit kunnen maken van de leerstofstructuur kan
deze leerstofstructuur worden geconstrueerd. Omdat de leerstofstructuur betrekking
heeft op een specifieke leerinhoud zullen ook een aantal condities die daarvoor gelden,
niedebepalend zijn voor de leerstofstructuur.
De belangrijkste condities die hier gelden zijn:
a. de beginsituatie van de leerlingen;
b- de doelstelhngen;

Het instrument dat in het navolgende uiteengezet wordt is bedoeld om de 'declaratieve'
kennis (informatieinlioud of concepten) binnen een leerstofgebied weer te geven; dat in
tegenstelling tot leerstofanalyses die zich richten op de uit te voeren handehngen of
procedures aan de leerstof om deze te Ieren beheersen — een dergelijke analyse van
leerstof vinden we bijvoorbeeld bij Jochems (1980).

Het instrument beoogt in de eerste plaats een analyse en representatie van leerstof te
geven cn niet zozeer een procedure voor het ontwerp (vgl. Jochems, 1980) en opbouw van
leerstof Dc bruikbaarheid van liet instrument voor verschillende soorten leerstof is inge-
perkt doordat het uitsluitend betrekking heeft op het aanleren van georganiseerde kennis-
gehelen ofwel van een stnictuur van begrippen en is daardoor niet geschikt voor het in
kaart brengen van leerstof waarin probleemoplossen, routines, attituden etc. een rol
spelen, m.a.w. het instrument is leerstofafliankelijk — een eis die in het algemeen gesteld
wordt aan dergelijke instrumenten (vgl. Greeno 1976 en Resnick 1976).
Binnen deze inperking pretendeert het instrument een systematische heuristiek te zijn die
via het doorlopen van een aantal verschillende stappen in hun juiste volgorde een volledige
representatie van de leerstof oplevert, althans bij het gelijkblijven van een aantal extern
beïnvloedende factoren. De opbrengst van het instrument is nl. afliankelijk van een aantal
ingangscondities (bijv. hoe omvangrijk bepaalt men het leerstofgebied, hoeveel achter-
grondliteratuur betrekt men in de analyse) en is afliankelijk van een aantal beslissingen
tc nemen tijdens de analyse (bijv. de mate van specificatie van begrippen). Het instmnient
geeft overigens twee keuzemomenten aan en laat daardoor variatie in leerstofrepresentaties
toe, dit geldt alleen voor de mate van uitgebreidheid en specificatie, niet voor de structuur
van begrippen. Gegeven de inperkingen kan het instrument gehanteerd worden door ont-
werpers/ontwikkelaars die a) bestaande leerstofonderdelen of informatie-aanbod willen
analyseren door als input voor het instmnient bijv. instructieteksten te nemen; b) een
'nieuw' leerstofonderdeel willen representeren door als input daartoe geselecteerde achter-
grondinfomiatie te nemen.

In beide gevallen krijgt men de beschikking over een leerstofstructuur die bijv. in het
proces van ontwerp van onderwijsleersituaties of als onderdeel van leerplanontwikkeling
van invloed is op de opbouw van leerstof, op het vaststellen van evaluatie op de analyse
van bekende en onbekende begrippen voor leerhngen (zie Posner 1978).

3. Presentatie van het instrument leerstofstructurering
1. ANALYSE VAN INFORMATIEVE TEKSTEN

Onder informatieve teksten wordt verstaan teksten die liet thema beschrijven op (populair-)weten-
schappelijkc wijze.

teksten die het totale thema zo breed mogelijk beschrijven en dus een algemeen overzicht geven aan
het topic;

teksten die ingaan op deeltopics en daarover mogelijk detaillistischer of specifiekere informatie
Verschaffen.

lm": stappen 1.3.2. t/m 1.4.4. verlopen parallel, d.w.z. zij vinden min of meer gelijktijdig plaats.
J^^end door de tekst stelt men dc deeltopics vast.

^en bepaalt de relevantie van een begrip (zie hiervoor de relevantie-criteria, 1.4.1.).

J^^ een begrip relevant, dan bepaalt men in welk deeltopic het begrip thuishoort en dan zoekt men naar

(relevante) begrip, waarmee dit tekstueel verbonden is.
['et aldus gevonden begrippenpaar wordt genoteerd op een kaartje. Het verdient voorkeur om op het
kaartje eveneens aantekening te maken over de aard van de gevonden relatie(s), die tussen het begrip-
Penpaar bestaat.

"et bepalen van de deeltopics is een min of meer intuïtief proces, deels berustend op voorkennis (cog-
nitieve structuur) van de strategiehanteerder, deels tot stand komend tijdens het leesproces ten gevol-
Van informatieverwerkingsprocessen. Een belangrijke steun bij het bepalen van de deeltopics geeft
^ formele structuur van de teksten, met andere woorden, dc titels van hoofdstukken, kopjes, e.d..
^et opzet is de meervoudsvorm 'teksten'gebruikt.

Vaak is het mogelijk om de inhoud van een kennisgeheel op meerdere manieren te clusteren, afhanke-
'jjk Van dc invalshoek die de schrijver hanteert.

"oor zo mogelijk te generaliseren over verschillende teksten, ook ten aanzien van clustering, wordt
•"en minder afhankelijk van een bepaald indelingscriterium.

Criteria voor de bepaling van de relevantie van begrippen.
Begrippen zijn relevant als zij voldoen aan de volgende voorwaarden:

Zij zijn leerstofgeheel-specifiek d.w.z.: zij ontlenen hun betekenis aan dit leerstofgeheel óf zij krij-
gen binnen het leerstofgeheel een specifieke betekenis óf zij vervullen binnen het leerstofgeheel een
specifieke functie, doordat zij in een voor het leerstofgeheel specifieke relatie staan tot andere
begrippen binnen het geheel.

Zij hebben een relatie met andere relevante begrippen.
Zij vallen binnen het afgebakende thema.

Begrippen die buiten het tliema vallen, maar een directe relatie onderhouden met begrippen binnen
het thema, worden als relevant aangemerkt, mits dit begrip buiten het thema gerelateerd is, ook
gerelateerd is aan een of meer andere begrippen binnen het thema.

1-4.3. Vorming van begrippenparen door bepaling van samenhang tussen relevante begrip-
Pen.

t^e samenhang tussen twee geselecteerde begrippen moet tekstueel gegeven zijn. Bij het bepalen van de
relatie gelden de volgende regels:

De samenhang wordt bepaald op propositieniveau.
Een voorbeeld (ontleend aan het topic 'staatsinrichting'):

'De Eerste Kamer telt 75 leden. Deze worden voor 6 jaar gekozen door de Provinciale Staten.'
Begrippen: Aard relatie:

2. Ken gevonden relatie tussen twee begrippen, die eerder of later in de tekst (of in volgende teksten)
gespecificeerd wordt door een mediërend begrip, wordt alleen gespecificeerd opgenomen.

'De Eerste Kamer wordt gekozen door de Provinciale Staten.'
Begrippenparen: Aard relatie:

'De Eerste Kamer telt 75 leden. Deze worden gekozen door Provinciale Staten.'
Begrippenparen: Aard relatie:

De gespecificeerde relatie van tekst 2 wordt opgenomen. Het begrippenpaar uit tekst I valt hief
tegen weg. Dit is het principe van dc open clustering. (Hierbij is natuurlijk verondersteld dat he'
begrip '75 leden' als relevant is aangemerkt. Is dit niet het geval, dan wordt '75 leden' niet opgen"'
men en is er geen verschil tussen Tekst I en Tekst 2).

1.4.4.1. Begrippenparen, waarvan beide begrippen binnen één cluster vallen, verzamelen-
Deze geven de relaties aan binnen een cluster.

1.4.4.2. Begrippenparen, waarvan de begrippen in verschillende clusters thuishoren, apart
leggen. Deze geven de relaties aan tussen verschillende clusters.

1.4.5. Screenen van de verzameling van begrippenparen op synoniemen of substituten.

Vaak worden voor hetzelfde begrip verschillende woorden als synoniemen of substituten gebruikt. He'
screenen van de verzameling van begrippenparen is bedoeld om de synomiemen of substituten terug 'e
brengen tot het basisbegrip.

De stappen 1.5.1. t/m 1.5.4. veriopen parallel. Zie toelichting 1.3.2. t/m 1.4.4.

Onder nieuwe relevante begrippen worden verstaan die relevante begrippen, die nog niet in de lijst van
begrippenparen (1.4.4) voorkomen.

- samenhang tussen een in 1.4.4. voorkomend begrip en een nieuw relevant begrip;

- een nog niet voorkomende relatie tussen begrippen die in 1.4.4. voorkomen.
Zie ook toelichting 1.4.3.

"e< rcdundatie-afbreekcriterium houdt in dat men het analyseren van teksten afbreekt als nieuwe
'aksten slechts redundante informatie leveren. In dc strategie betekent dit, dat nieuwe teksten geen
i'euwe begrippenparen opleveren.

ten netwerk bestaat uit begrippen, met elkaar verbonden door lijnen. De samenhang van de begrippen
Wordt door de verbindende lijn gesymboliseerd. Aan een netwerk liggen de volgende regels ten grond-
slag:

i-7.1. De verzamelde begrippenparen, die als paar binnen een cluster vallen, afbeelden
'n deel-netwerken.

1-7.2. Aan de hand van de begrippenparen, waarvan de begrippen in versclüllende deel-
topics of clusters thuishoren (zie 1.4.4.2.) een netwerk construeren van de meer centrale
begrippen.

ANALYSE VAN DE INSTRUCTIETEKST
Selectie van relevante begrippen
Clustering van begrippen naar deeltopics (zie 1.3.2.)

2.4.1. Begrippenparen, waarvan beide begrippen binnen één cluster vallen, verzamelen,
l^eze geven de relaties aan binnen een cluster.

2-4.2. Begrippenparen, waarvan de begrippen in verschillende clusters thuishoren, apart
leggen. Deze geven de relaties aan tussen verschillende clusters.

Screenen van de verzameling begrippenparen op synoniemen of substituten
2-6. Netwerk construeren

2-6.1. De verzamelde begrippenparen, die als paar binnen een cluster vallen, afbeelden
'n deelnetwerken

2-6.2. Aan de hand van begrippenparen, waarvan de begrippen in verschillende deeltopics
of clusters thuishoren (zie 1.4.4.2.) een netwerk construeren van de meer centrale begrip-
Pen

3.1.3. Schrijf hierop het instructienetwcrk zodanig, dat de begrippen die in beide netwer-
ken voorkomen elkaar bedekken

3.2. Beoordelen van de verschillen tussen beide netwerken op hun inhoudelijke relevantie
Verschillen in begrippen cn relaties zijn inhoudelijk relevant als:

- in het instructie-netwerk begrippen ontbreken, die in het informatienetwerk min of meer centraal
staan. Ken indicatie voor 'centraal staan' van ecn begrip is het aantal andere begrippen, waaraan dit
begrip gerelateerd is. Lcn begrip dat gerelateerd is aan vijf andere begrippen is centraler dan oen be-
grip, dat slechts aan twee andere gerelateerd is. Lcn begrip dat aan niet meer dan een ander bcgnP
is gerelateerd, is veelal perifeer

- in het instructienetwcrk relaties tussen min of meer centrale begrippen ontbreken, die wèl gelegd
zijn in het informatienetwerk.

3.3. Beoordelen van de verschillen tussen beide netwerken op hun didactische relevantie

Verschillen in begrippen en relaties zijn didactisch relevant als in het instructienetwcrk gerelateerde
begrippen ontbreken die wel in het informatienetwerk voorkomen en waarbij:

- kennis van het ontbrekende begrip noodzakelijk is om aanwezige begrippen te kunnen begrijpen;

- kennis van het ontbrekende begrip noodzakelijk is om het andere begrip te kunnen (toepassen);

- kennis van het ontbrekende begrip noodzakelijk is om andere begrippen te definiëren.

3.5. Reduceren van het gecombineerde informatie-jinstructienetwerk tot een netwerk
dat de leerstof structuur representeert.

In aansluiting op de constructie van het instrument 'leerstofstructurering' is de eendui-
digheid van de in het instrument gevolgde procedures van de analyse en representatie
van leerstofstructuren in een pilotstudie nagegaan..

Uitgangspunt bij de constructie was onder meer de procedures uit het instrument zodanig
te omschrijven dat zij eenduidig zijn, zodat verschillende personen de procedures op
dezelfde wijze interpreteren en uitvoeren en tot een vergelijkbaar produkt komen.
Als indicator voor deze betrouwbaarheid is dan ook gebruikt: de mate van overeenstem-
ming tussen verschillende personen bij de keuze van concepten en relaties in een netwerk-
representatie van een leerstofgeheel.

De vraagstelling in deze studie was of verschillende personen, gebruik makend van het
instrument 'leerstofstructurering', vergelijkbare netwerken van de leerstofstructuur gene-
reren, onder gelijke ingangscondities.

j^e eerste stap van het instrument, die bepaald wordt door een der ingangscondities, nl. de
euze van de te analyseren literatuur, werd in dit onderzoek noodzakelijkerwijze al inge-
^uld. Het tekstmateriaal werd voor alle personen gelijk gehouden en bestond uit vijf infor-
matieve teksten en een instructietekst. Een tweede ingangsconditie omvat de nauwkeurige
'nakening en omschrijving van het leerstofgebied in een thema van beperkte omvang
(^gl. ook 2.1). Deze ingangsconditie werd gecontroleerd door in de instructie aan de
proefpersonen het thema vast te stellen als: klimaat, bepalende factoren, soorten, kenmer-
en. Daar het instmment in de eerste plaats is bedoeld om gehanteerd te worden door on-
erwijskundigen/ontwikkelaars, werden vijf onderwijskundigen gevraagd het instrument
te passen. Als opdracht werd meegegeven om aan de hand van het instrument
eerstofstructurering' een netwerk van het leerstofgeheel 'klimaat' te maken.

r zijn geen kwantitatieve methoden ter beschikking om netwerken te toetsen op hun
late van overeenstemming (Hunt 1976). Om de vijf netwerken van de verschillende
proefpersonen te vergelijken werd gekeken naar:

de keuze van concepten — in hoeverre zijn door de personen dezelfde concepten ge-
^ kozen;

■ de relatie tussen concepten — in hoeverre zijn dezelfde conceptenparen gevormd.
J^aarbij werd de volgende maat van overeenstemming gehanteerd: Ov = i;ii/ni, waarbij
' ~ Index = geobserveerde frequentie gedeeld door maximale frequentie per concept
relatie, nj = het aantal indexen. Gescoord werd op het voorkomen van concepten en
relaties waarbij de netwerken werden gecorrigeerd voor synoniemen.

In de vijf netwerken kwamen in totaal 37 verschillende concepten voor. Het gemiddeld
aantal concepten per netwerk bedroeg 17,8 met een standaarddeviatie van 1,72.
In figuur 2. is een totaal netwerk van de vijf opgeleverde netwerken weergegeven met de
geobserveerde frequentie van de concepten.

In het instniment is het specificatieniveau voor selectie van concepten niet gefixeerd,
maar afliankelijk gesteld van een nauwkeurige bepaling en afgrenzing van het leerstofge-
heel in een thema van beperkte omvang.

Voor de verdere analyses worden dan ook alleen die concepten opgenomen die een geob-
serveerde frequentie groter dan 1 hebben, om zodoende het specificatieniveau buiten de
analyses te kunnen laten. 16 concepten voldeden aan dit criterium (zie figuur 2, het niet
gearceerd» gebied).

Tabel 1 geeft een overzicht van de geobserveerde frequenties en de berekende indexen
I van elk der concepten.

Over de keuze van de 16 concepten is de overeenstemmingsmaat Oy berekend: Oy = Slj/ni -
13,0/16 = 0,81.

Van de 120 mogelijke paren van de 16 concepten die in de analyses zijn opgenomen kun-
nen er 114 daadwerkelijk voorkomen, gegeven de individuele keuze van concepten (met
fo > 1). De keuze van een concept door een proefpersoon is bepalend voor het al of niet
kunnen voorkomen van een conceptpaar bij deze proefpersoon.

De maximale frequentie in de overeenstemmingsmaat Oy is dan ook afhankelijk van de
hoeveelheid personen bij wie het betreffende conceptenpaar kan voorkomen. Hier zijn
conceptenparen met een maximale frequentie van 1 buiten de verdere analyses gelaten

Omdat deze geen betekenis hebben in het berekenen van de overeenstemming tussen de
vijf personen. Door de vijf proefpersonen zijn 25 conceptenparen gevormd met een
maximale frequentie > 1.
De overeenstemmingsmaat Oy = 16,96/25 = 0,68.

De ad hoe maat Oy is een proportie die in hoge mate gevoehg is voor steekproefgrootte
en frequenties. Zij is niet genormeerd, omdat de variantie-term onbekend is. De verwachte
Waarde van Oy kan welhcht eerst worden geschat na herhaald onderzoek. Desondanks
kan nu worden gesteld dat de overeenstemming tussen beoordelaars (hier: de proefper-
sonen) groter is naarmate Oy de waarde 1.0 dichter benadert.

Zowel uit een visuele analyse van het totaalnetwerk dat is samengesteld uit de netwerken
Van de vijf proefpersonen (fig. 2) als uit de overeenstemmingsscores, die in de richting
Van de waarde 1.0 lijken te gaan, kan worden gekonkludeerd:

a) de vijf netwerken zijn vergehjkbaar ten aanzien van 16 meer centrale concepten en
hun relaties;

b) de overeenstemming ten aanzien van de keuze van concepten is groter dan ten aanzien
van de relaties (Oy = 0,81 resp. Oy = 0,68);

c) dc 21 conccptcn die met een frequentie van slechts 1 voorkomen (figuur 2, gearceerde
gedeelte) kunnen worden toegeschreven aan een verschil in specificatieniveau, dat in
het instrument 'leerstofstructurering' wordt opengelaten.
Rekening houdend niet een aantal onderwijskundige beslissingen, die niet door het instru-
ment worden gespecificeerd, zoals de beginsituatie, doelstellingen en didaktische kriteria,
en het specificatieniveau van de leerstofstmctuur, lijken de in het instrument gevolgde
procedures redelijk eenduidig interpreteerbaar en uitvoerbaar te zijn.
Wel moet vermeld worden dat het instrument open laat hoe de gebruiker de beshssingen
verder invult, hetgeen duidelijk consequenties heeft voor de omvang van de op te leveren
leerstofstructuur.

In tegenstelling tot de meeste in de inleiding genoemde instrumenten voor de analyse van
Iccrstofstructuren wordt niet verondersteld dat slechts één oplossing voor representatie
van leerstof mogelijk is. Het blijft nl. steeds mogelijk nieuwe informatie aan de leerstof-
stmctuur in te voegen of nieuwe (inperkende) beslissingen te nemen op grond van doel-
stellingen, beginsituatie etc.

Dit heeft als voordeel dat het instrument 'leerstofstmcturering' behulpzaam kan zijn
zowel bij het analyseren van informatieve teksten, als bij het beoordelen van instructie-
teksten op hun adequaatheid en volledigheid, en bij het analyseren van leerstofgehelen
op hun omvang en mate van interne consistentie.

Anderson, R.C., Spiro, J.F., & Montague, W.E. Schooling and the acquisition of knowledge, NeW
York, 1977.

Bransford, J.D., & Franks, J.J. Toward a framework for understanding learning. In: G. Bower,

chology of learning and motivation, (vol. 10). New York, 1976.
Fenker, R.M. The organization of conceptual materials, a methodology for measuring ideal and actual

cognitive structures. Instructional Science, 1975, 4, 33-57.
Gagne, R.M. The conditions of learning. New York: Holt, 1970.

Geeslin , W.E. An exploratory analysis of content structure and cognitive structure of the context of

a mathematics instructional unit. Stanford University, dissertatie, 1973.
Geeslin, W.E., & Shavelson, R.J. An exploratory analysis of the representation of a mathematical
structure in students cognitive structure. American Educational Research Journal, 1975, /2,
21-39.

Greeno, J.C. Cognitive objectives of instruction. In: D. Klahr, Cognition and instruction. Hillsdale,
N.J.: Erlbaum 1976.

Hunt, E. Varieties of cognitive power. In: L.B. Resnick, The nature of intelligence. New York, 1976.
Jochems, W. Leerstofanalyse. Delftse Universitaire Pres, 1980.

Johnson, P.E. Some psychological aspects of subject matter structure. Journal of Educational Psy-
chology, 1969,55,75-83.
Lodewijks, J.G.L.C. Over het aanleren van conceptuele petwerken d.m.v. uiteenlopende leerstofstruc-
turen, A'ec/crfanrfs Tijdschrift voor de Psychologie, 1978,33, 85-103.
Mirande, M., Aengenendt, A., Camstra, B. Leren door schematiseren, COWO, Amsterdam, 1977.
Norman, D.A., Rumelhart, D.E. Exploration in cognition. SanFransisco, 1975.

Norman, D.A. Memory and knowledge and the answering of questions. In: R. Solso, Contemporary

issues in cognitive psychology. Winston, 1973.
Posner, J.P. Tools for curriculum research and development: potential contributions: from cognitive

science. Curriculum Inquiry, 1978, S, 313-340.
Posner, J.P., & Strike, K.A. A categorization scheme for principles of seqOencing content Review of
Educational Research, 1976,46,665-690.

l^eigeluth, Oi.M., Merril, M.D., & Bunderson, C.V. The structure of subject matter content qnd its
instructional design implications./«srwcübna/Science, 1978, 7,107-126.

Resnick, L.B. Task analysis in instructional design: Some cases from mathematics. In: D. Klahr (ed),
Cognition and instruction, Hillsdale, N.J.: Erlbaum, 1976.

Rumelhart, D.E., & Ortony, A. The representation of knowledge in memory. In: R.C. Anderson,
R.J. Spiro & W.E. Montague, Schooling and the acquisition of knowledge. New York, 1977.

Scandura, J.M. A structural approach to instructional problems./Imerzcan Psychology, 1977, 33-53.

Shavelson, R.J. Some aspects of correspondence between content structure and cognitive structure
in physics education, Journal of Educational Psychology, 1972,63, 225-234.

Shavelson, R.J. Metliods for examining representations of a subject-matter structure in a student's
memory, Journal of Research in Science teaching, 1974,11, 231-249.

Strike, N.A., Posner, J.P. Epistomological perspectives on conceptions of curriculum organization and
learning, in: L.S. Shulman (ed). Review of Research in Education. Itasca, 1976.

Witte, A. Analyse der Inhalt und Lernstruktur und Folgerungen für die Unterrichtsplanung. In: Roth,
L., Petrat, G., Unterrichtsanalysen in der Diskussion, Hannover, 1974.

Dato N.M. de Gruijter en Hans F.M. Crombag
Bureau Onderzoek van Onderwijs, Rijksuniversiteit Leiden

In de tweefasenstructuur van het W.O. moet de studiebelasting geicoppeld zijn aan de iiy-
pothetisclie normstudent, de student die wat geschiktheid en motivatie betreft in alle
opzichten voor de desbetreffende studierichting als voldoende kan worden beschouwd.
Deze student moet in 1700 uren netto studietijd per jaar binnen de vastgestelde kursus-
duur de studie kunnen voltooien met ruim voldoende resuhaten. Of de normstudent dat
ook werkelijk zou doen acht De Groot (1980) niet van belang, het gaat volgens hem er
om dat zo'n student dat zou kunnen.

In dit commentaar zullen wij niet alle kritiek die men op de 1700-urennorm zou kunnen
leveren, bespreken; wij spraken ons daar in een ander verband al over uit (Crombag e.a.,
1981). Wij beperken ons hier tot een bespreking van de empirische bepaling van de norm-
last, iets wat onafliankelijk van de concrete omvang van de totale studielast gedaan kan
worden. Wij zullen enkele kritische kanttekeningen maken bij een voorstel van Wiegersma
(COHO, 1975) voor de bepaling van de normtijd.

Wiegersma gaat er vanuit dat begaafde studenten de studiestof in minder tijd onder de
knie krijgen dan hun minder begaafde lotgenoten. Hij stelt nu voor de normtijd in een
studierichting als volgt per onderdeel te bepalen. Men doet een tijdschrijfonderzoek. De
studietijden van studenten met een onvoldoende resultaat worden uit de gegevens geëlimi-
neerd; zo elimineert men de studietijden van degenen die blijkbaar te weinig tijd geïnves-
teerd hebben. Vervolgens kan men de normtijd vaststellen aan de hand van de definitie
van de normstudent in de desbetreffende studierichting. Als men bijvoorbeeld van mening
is dat 25 procent van de studenten aan de eisen van de normstudent voldoet - een
arbitrair element in de procedure - dan kiest men de normtijd zo dat 25 procent van de
geslaagde studenten minder tijd aan de studie besteedde.

Met tijdschrijfgegevens moet men voorzichtig zijn. Zij kunnen een vertekend beeld geven
van de werkelijk bestede studietijd (vgl. Hofstee, 1976). Eén van de problemen bij der-
gelijk onderzoek is dat men altijd met een steekproef - naar alle waarschijnlijkheid geen
aselecte - van studenten werkt. Zelfs als alle studenten in de desbetreffende studiefase
aan het onderzoek meewerken, kan men slechts van steekproefresultaten spreken omdat
men de resultaten altijd wil generaliseren naar een grotere populatie van studenten; zo
moet de normlast ook gerelateerd zijn aan de studenten die het onderwijs reeds eerder
volgden en de studenten die het nog moeten volgen. De steekproefproblematiek is bij
Wiegersma's voorstel nog klemmender aangezien in zijn voorstel maar een deel der
gegevens — die van de geslaagden — gebruikt wordt.

De normtijden voor de afzonderlijke vakken worden gesommeerd tot de totale normtijd.
De afzonderlijke normtijden zijn echter gebaseerd op verschillefide groepen studenten
omdat percentages geslaagden per cursus variëren en bovendien de resultaten voor de
verschillende cursussen niet perftct correleren. Eén van de oorzaken van de niet perfecte
correlaties is natuurlijk dat de studiebegaafdheid met de vakken varieert.

Ook de Studietijden van de afzonderlijke vakken correleren niet perfect. Dat kan aanlei-
ding geven tot een verkeerde schatting van de totale studielast. Wij demonstreren dat aan
de hand van een voorbeeld van twee vakken waarvoor alle studenten slagen. Stel dat de
lornitijd voor vak 1 tj is en die voor vak 2 t^; zowel onder tj als onder tj valt 25 pro-
cent van de studenten. De normtijd voor het totaal van beide vakken wordt op tj -i- tj
gesteld. Gezien het feit dat de tijdbesteding voor beide vakken niet perfect correleert,
studeert minder dan 25 procent van de studenten sneller dan tj + tj voor beide vakken
Samen. De totale normtijd ofwel de norm-studielast wordt in dit geval onderschat.
Een verrassend element in Wiegersma's voorstel is de empirische normstelling aan de hand
Van de snelste geslaagde studenten gebaseerd op het idee dat studietijd en begaafdheid
negatief gecorreleerd zijn. De correlatie tussen de (onbekende) begaafdheid en studie-
tijd binnen de populatie van studenten is, naar wij aannemen, inderdaad negatief; het
Verband tussen beide variabelen lijkt ons echter niet sterk. De correlatie tussen studietijd
en studieresultaat is in het algemeen licht positief (Crombag e.a., 1980). Dat betekent
dat men als men Wiegersma volgt, de normtijd bepaalt aan de hand van een deelgroep
Van de geslaagden met gemiddeld wat lagere resultaten. De vraag is of dat acceptabel is.
Het is waarschijnlijk dat begaafdheid ook samenhangt - en wel positief - met studie-
resultaat; wij vonden in een onderzoek dat studenten met een bepaalde vooropleiding
gemiddeld betere resultaten behaalden in minder tijd dan andere groepen studenten
(Crombag e.a., 1980). Dit resultaat zou men kunnen verklaren aan de hand van een posi-
tieve correlatie tussen begaafdheid en studieresultaat: studenten met een hogere begaafd-
heid kunnen hetzelfde resultaat behalen in minder tijd dan hun minder begaafde mede-
studenten, zij kunnen echter ook naar een hoger resultaat streven dan de overige studen-
ten.

Gezien de positieve correlatie tussen begaafdheid en studieresultaat zou men met evenveel
recht de nonntijd kunnen definiëren aan de hand van de studenten met de beste resulta-
ten. In dat geval zou de normtijd hoger kunnen uitvallen dan volgens de methode van
Wiegersma.

Omdat wij denken dat de door Wiegersma voorgestelde norm lager uitvalt dan be-
doeld door een aanvechtbare operationalisering van het begrip 'normstudent', lijkt het
ons het beste om bij het bepalen van de normtijd gewoon uit te gaan van de gemiddelde
studietijd. Wij willen daarbij nadrukkelijk stellen dat dit niet betekent dat men dan ook
de normstudent aan de gemiddelde student gelijk stelt.

Een keuze voor de gemiddelde studietijd als een benadering van de normtijd omzeilt
enkele van de aan de orde gestelde problemen, zoals de verkleining van het aantal
gegevens waarop de normtijd gebaseerd wordt en de discrepantie tussen de normtijd
Voor de afzonderlijke vakken en die voor het totaal van de vakken.

Commissie Ontwikkeling Hoger Onderwijs. De invoering van een studiepuntensysteem in het hoger

onderwijs. Den Haag: Staatsuitgeverij, 1975.
Crombag, H.F.M., De Gruijter, D.N.M., Van der Ende, P. en Vos, P. De nieuwe propaedeuse in de
Faculteit der Rechtsgeleerdheid: Verslag over het eerste semester. Leiden: Bureau Onderzoek van
Onderwijs R.U. Leiden, Rapport, nr. 20, 1980.
Crombag, H.F.M., De Gruijter, D.N.M., en Cohen, M.J. Zeventienhonderd netto uren? Universiteit en

Hogeschool 1981,27, 438-363.
E>e Groot, A.D. Studielast en normstudent: Ontwerp van een akkoord-theorie II: Parameterkeuzen,

toepassingen, Nederlandse problemen. Tijdschrift voor Onderwijsresearch, 1980,5, 9-28.
Hofstee, W.K.B. Hoe reëel is de norm van 1700 uur? Onderzoek van Onderwijs, 1976,5/l,9-\0.

Leiden/Antwerpen: H.E. Stcnfcrt Krocsc B.V., 1980,222 pag.'s, paperback ƒ 32,50.

Sinds liet eind der vijftiger jaren wordt er onderzoek- en ontwikkelingswerk gedaan om de computer
als teaching-machine in het onderwijs in te zetten. Aan het eind van de zestiger jaren werd van deze
ontwikkeling voor het eerst in Nederland melding gemaakt.

In het begin der zeventiger jaren, toen de eerste timesharing systemen geïmporteerd waren, kreeg men
ook in Nederland in breder kring de gelegenheid met CAI te experimenteren. In 1974 begon Control
Data Corporation haar marketing activiteiten in ICuropa met het PLATO-systeem, dat in de zestiger
jaren door Bitzer c.s. ontwikkeld was met het doel een optimaal delivery systeem voor onderwijs te
ontwerpen. De publicatie van Camstra hgt in de Hjn van deze ontwikkeling.

Inmiddels stond de ontwikkeling in de Verenigde Staten ook niet stil. Reeds in 1968 was een tendens
zichtbaar om, naast het gebruik van de computer als teaching machine, of, in modernere termen, als
'delivery system' voor onderwijs, de computer ook als gereedschap voor de leerling in het onderwijs
te integreren. Gedacht moet worden aan het werk van Papert (LOGO) en Dwyer (project SOLO) en de
ontwikkelingen aan het Dartmouth College, de bakermat van BASIC. Ook in Nederland begint dit
computergebruik in het onderwijs gestalte te krijgen, getuige het feit dat steeds meer scholen over-
gaan tot het aanschaffen van micro-computers, waar leerlingen zelf mee leren werken. Dit lijkt ons
maatschappelijk gezien een bijzonder belangrijke ontwikkeling: het legt in de belevingswereld van de
leerlingen ecn basis om later actief en creatief aan het leven en werken in een 'informatiemaatschap-
pij' te participeren. Aan deze vorm van leren en onderwijzen met de computer wordt in het bock
echter geen aandacht geschonken; de reden vinden we op pag. 83 waar wordt gesteld dat het 'aan
de rand van computergestuurd onderwijs ligt en daar eigenlijk alleen binnen kan worden begrepen
als er in het programma enig op onderwijzen georiënteerd element is ingebouwd'.
Het is jammer dat de schrijver weinig oog heeft voor onderwijssituaties waarin de docent en zijn
leerlingen gezamenlijk gebruik maken van de mogelijkheden die de computer biedt om de kennis
van dc leerstof te verdiepen. De reden die hij aanvoert, is (pag. 84) dat het dan 'bijzonder moeilijk
(is) om de leersituatie in voldoende mate (van te voren) te definiëren cn vast te leggen, om greep op
het leerproces te kunnen hebben'. Dat dit probleem ook en welhcht in belangrijker mate speelt als
men meer 'onderwijzende' programma's tracht te ontwerpen is de auteur niet ontgaan, getuige zijn
kritische analyse van de 'tutoriele dialoog' (pag. 63-70) waar hij spreekt over een 'groeiende weder-
zijdse vertrouwdheid' tussen de onderwijzende instantie en de leerling en over het belang van de
actuele, tijdens het onderwijsproces gegroeide conceptuele context van het leerproces, waarop het
moeilijk inspelen is met een automaat die slechts volgens voorgeprogrammeerde voorschriften kan
reageren. Htt ontgaat de auteur dat dit probleem pas ontstaat, als men als onderwijskundige de eis
stelt, dat men bij de onderwijsvoorbereiding reeds 'allies (moet kunnen) klaarzetten opdat het
cyclische (onderwijsleer)proces vlekkeloos en ongestoord kan verlopen) (pag. 171). Het lijkt volgens
hem nauwelijks toegestaan te vertrouwen op de vakbekwaamheid van een docent, die het leerstof-
gebied met zijn voetangels en klemmen kent en die de leerling in zijn leerproces kan begrijpen ('als
de nood aan de man komt', pag. 171).

Het is te respecteren dat de auteur de term 'computer gèstuurd onderwijs' met tegenzin gebruikt en
we geloven hem graag als hij zegt het 'niet zo kwaad te bedoelen als het klinkt' (pag. 12) maar, gezien
zijn eigen opvatting over leren ('kennis ontstaat alleen door actieve cognitieve processen in de bol van
dc leerling', pag. 165) komt in dit boek toch onvoldoende uit de verf hoe de leerling daarbij zelfstan-
dig en actief van de computer gebruik kan maken en hoe de docent hem daarbij kan 'helpen leren'
(pag. 3). Dc auteur beperkt zich te zeer tot onderwijs-leerprocesscn waarbij de computer een sturende
functie heeft (pag. 163) zonder voldoende in te gaan op de integratie van het computergebruik in het
geheel van het onderwijs gebeuren. Het gebruik van leer- en studieboeken, van potlood en papier, van
werkschriften en practicum-opstellingen is in het onderwijs geïntegreerd. Dat een dergelijke integratie
ook wat het computergebruik betreft mogelijk, en in een maatschappij waar de informatie-technologie
een belangrijke rol speelt nodig, is, komt in dit boek niet tot uitdrukking.

Ook wanneer we ons beperken tot de computer als onderwijsmedium geeft het boek een te beperkt
eenzijdig beeld. Voor wat betreft de Verenigde Staten schijnt de auteur niet op de hoogte te zijn
^an het omvangrijke CAI-project van Sylvia Charp in het School district of Philadelphia waar in 1975
'ecds 12.000 leerlingen vanaf 8 jaar participeerden aan computer-onderwijs, van de ontwikkeling
'ond de Bay-area in California waar voor het onderwijs vanaf de basisschool van dc computer gebruik
gemaakt wordt of van TIES ('Total Information Mucational Systems') in Minneapolis waaraan ruim
''O schooldistricten deelnemen. Ook ten aanzien van de ontwikkelingen in Nederland heeft de auteur
^'jn blik beperkt: het uitvoerige programma door Moonen in Leiden ontwikkeld voor het statistiek
onderwijs blijft ongenoemd evenals hot feit dat reeds gedurende enkele jaren aan twaalf lagere scholen
Amsterdam dagelijks van de computer voor hun onderwijs gebruik gemaakt wordt en de leerstof
^oor een groot deel door de onderwijzers zelf naar eigen behoefte op de computer gebracht wordt.
Naast de voorbeelden ontleend aan het eigen project van de auteur noemt hij als enig Nederlands
Project het computergestuurde programma Nederlands van prof. L. de Klerk c.s. dat overigens niet
diepgaand besproken wordt omdat 'de auteur onvoldoende van het CAI-programma op de hoogte is'
fPag. 190), terwijl juist dit programma aanleiding geeft tot een kritische evaluatie van de integratie
^an CAI in engere zin in het reguliere onderwijs (p. 26). Het wekt enige verbazing dat de auteur, mede-
oprichter van de Vereniging voor Onderwijs en Computer, in het geheel geen aandacht heeft voor de
ervaringen met CAI aan b.v. de universiteit van Utrecht, in Nijmegen of aan de Medische Faculteit
'e Maastricht cn dat een belangrijk rapport van deze vereniging ('Voorzieningen voor Computeronder-
^ijs in het Tertiair Onderwijs') ongenoemd blijft. Dc auteur schroomt niet zijn 'persoonlijke meningen
en ervaringen een rol te laten spelen' (p. 109) maar deze zijn toch te zeer die van iemand die (ik citeer
en cursiveer) 'zijn "carrière" begonnen is binnen een auteurssysteem m.n. PLANIT, die de beperkt-
heid van die benadering aan de lijve heeft ondervonden en die nu zweert bij vrijere CAI-talen als
TUTOR" (pag. 50). Zijn enthousiasme voor deze taal en het PLATO-systeem, waarvan zij een onder-
deel is, overstemt de kritische opmerkingen die hij er op grond van zijn ervaringen over maakt (pag.
145-147), terwijl deze kritiek niet onderbouwd wordt vanuit moderne opvattingen over de eisen
die men aan een programmeertaal moet stellen vanuit het oogpunt van efficiënt en overzichtelijk
Programmeren. De mogelijkheden die men bijvoorbeeld heeft als men van UCSD-Pascal (beschikbaar
Op een veel gebruikte microcomputer als de Apple) gebruik maakt, worden niet genoemd, laat staan
'n de kritische beschouwingen betrokken. Tenslotte wordt aan het feit, dat veel lesmateriaal voor
een verscheidenheid van computers is geprogrammeerd in een eenvoudig staaltje als BASIC, voorbij-
gegaan.

•^e oriëntatie van het boek is - zo stelt de auteur (pag. 2) - onderwijskundig en niet computerkun-
dig. In dat verband is het eerste gedeelte van hoofdstuk 8 belangrijk, waar hij zijn visie op 'leren'
geeft. Met instemming citeren we (pag. 165) 'dat we leren zien als een aktief kennisverwervingsproces
Van degene die leert.', en: 'Leren wordt gezien als het opbouwen, in het hoofd, van een conceptuele
representatie van een stuk kennis' (pag. 164) en: 'onderwijzen is een complex van activiteiten dat tot
doel heeft binnen de leerling een denk-, knutsel- en leerproces op gang tc brengen, te bevorderen en
'e sturen' (p. 165). 'Het vertegenwoordigt ook de mate waarin je je als docent inleeft in de onvolgroei-
de gedachte wereld van de leerling', (p. 166).

Als model voor het leren wordt dan een interactief proces geschetst, waarbij 'boodschappen' (acties)
en 'terugboodschappen' (reacties) worden uitgewisseld tussen de leerling en 'onderwijzende instantie'
(pag. 167). De zeer algemene bruikbaarheid van het model, zó, dat er ook de interactie tussen de actief
studerende student en zijn studieboek of tussen de bromfiets en de leerling die hem poogt te repareren
onder valt, lijkt de auteur echter te ontgaan, waardoor hij toch tot een vorm van 'procesbesturing'
komt die hij zelf beperkt acht tot toepassingen in techniek en natuurwetenschappen (pag. 10) en waar-
tegen hij (pag. 11) bezwaren heeft - ten onrechte, want waarom zou een student geen gebruik maken
^an een machine die op een bepaald punt zijn leerproces efficient stuurt, van een snel en effectief
feed-back systeem dat hem op ieder moment tijdens het leerproces precies de informatie geeft waaraan
hij op dat moment behoefte heeft? (de vraag is dan uiteraard of we hem voor bepaalde onderdelen
Van zijn leerproces zo'n machine wel kunnen verschaffen).

De crux is dat bij Camstra de 'boodschap' altijd van de onderwijzende instantie uitgaat en de 'terug-
boodschap' secundair is en voornamelijk dient om de onderwijzende instantie over de voortgang en
stand van het leerproces te informeren (voorzover dat, krachtens het model dat hij van de 'gedachte-
wereld van de leerling' heeft, mogelijk is). Een alternatief, dat ook meer strookt met Camstra's eigen
lecr-psychologische en onderwijskundige uitgangspunten, is, om de leerling als de primaire actieve
Component van het interactieve systeem te zien, die reacties krijgt op zijn acties (met als eerste actie.

dat hij, al dan niet op aanwijzingen van de docent, zijn aandacht richt op wat de docent zegt, dat hiJ
een studieboek ter hand neemt of met een bepaald programma aan de computer gaat werken). Wat
dan gebeurt is voor hem (soms) leerzaam cn alliankelijk van in hoeverre zijn activiteiten (zijn actie-
ve aandacht) hem dc informatie leveren die hij op dat moment nodig heeft om verder te leren.
Ten onrechte stelt de auteur 'dat liet cr in eerste instantie niet zo toe doet of we in het model voor dc
'onderwijzende instantie' een docent of een computerprogramma invullen' (pag. 166). Elk van beide
kan op eigen wijze aan het leerproces bijdragen: de 'computer' heeft kwaliteiten die de docent mist en
vicc versa. We zullen moeten zoeken naar mogelijkheden om een veelzijdig programmeerbare machine
als dc computer tc gebruiken om 'een leersituatie te creëren die responsief is t.a.v. de leeractiviteiten
van de leerling' (pag. 11) met name daar waar de menselijke docent het zou laten afweten. Camstra
geeft daar enkele goede voorbeelden van; eindeloze training in de beoordeling van toonintervallen bij
het muziekonderwijs en veelvuldige oefening van l-ransc onregelmatige werkwoorden met steeds
terugkerende directe feedback. Maar niet alleen voor zogenaamde 'drill en practice' programma's 'S
het noodzakelijk een computer te gebruiken, ook wanneer men gecompliceerde processen in de werke-
lijkheid tot leven wil brengen cn de student cr (op een abstract niveau) mee wil laten interacteren kan
men de computer niet missen. Camstra geeft hiervan in zijn bespreking van simulaties en modelling
(pag. 73 e.V.) een goed beeld.

In deze visie is dc docent niet zo zeer do 'onderwijzende instantie' maar meer de deskundige metgezel
van de leerling, die de leeromgeving zo arrangeert dat het leerproces vlot en ongestoord kan verlopen
cn dat de leerling het materiaal krijgt waaraan hij zich kan ontwikkelen. Daarbij zijn de verbale en non-
verbale boodschappen die de leerling uitzendt en de reacties daarop van de docent (zijn 'terugbood-
schappcn') waarschijnlijk belangrijker dan de 'boodschap' die de docent te brengen heeft: men kan dan
beter spreken van het onderwijsdoel dat leerling en docent beiden en gezamenlijk in het oog moeten
houden.

In deze visie is het belangrijk dat de mogelijkheden die de moderne informatietechnologie biedt voor
de docent cn dc leerling op een eenvoudige en natuurlijke manier ter beschikking staan, in technische
termen: transparent zijn, zoals het bedienen van een complexe machine als een auto of een electrische
schrijfmachine transparant is. Wat dat betreft laten de grote CAI-systemcn die momenteel op de
markt zijn nog veel tc wensen over cn kan men voor de toekomst -- meer dan Camstra - enige hoop
ontlenen aan ontwikkelingen rond de 'personal computer' cn landelijke informatie netwerken als
Viditel en - voor wat betreft de goede inpassing in het actuele onderwijs - aan locale ontwikkelingen
waar docenten cn onderwijzers met vaak eenvoudige middelen practische ervaring opdoen met dc com-
puter in hun onderwijs.

Een belangrijke vraag is of Camstra met zijn boek aan deze ontwikkeling en aan de ondersteuning
daarvan vanuit dc onderwijskunde een bijdrage geleverd heeft. Voor de kritische lezer ongetwijfeld
wel: het geeft een duidelijk tijdsbeeld van de problemen waarvoor een onderwijskundige leek op
computergebied anno 1980 in Nederland komt te staan als hij CAI in het onderwijs wil gaan gebruiken.
De minder kritische lezer zou echter als totaal indruk kunnen overhouden, dat goed onderwijs met de
computer aansluiting op een systeem vereist met een baaierd van mogelijkheden, die zonder een
professioneel programmeur voor de gewone docent en onderwijzer nauwelijks toegankelijk zijn. Ook al
zou het zo zijn, dat een onderzoek naar de computer-mogelijkheden die op het ogenblik in Nederland
geboden worden, resp. binnen de gezichtskring van onderwijskundigen vallen, tot deze conclusie leidt,
dan nog doet men er verstandig aan zijn oordeel op te schorten in afwachting van verdere technologische
ontwikkelingen. Dat wordt door Camstra met zijn voorkeur voor een bepaald bestaand systeem (pag-
126) echter niet in de hand gewerkt en ook bij zijn bespreking van de vraag 'hoe kunnen we CAl
het beste inrichten?' oriënteert hij zich te zeer op dc in Nederland in gebruik zijnde appratuur (die
gebaseerd is op de technologische en computer-wetenschappelijke inzichten van ten minste acht
jaar geleden) en geeft hij weinig aanleiding tot een toekomst visie die meer aansluit bij wat er op het
ogenblik in de wetenschappelijke instituten en research laboratoria, met name in de Verenigde Sta-
ten cn in Japan, op computergebied ontwikkeld wordt. Als zodanig heeft zijn boek nu reeds historische
waarde: het loopt achter de feiten aan.

Het laatste hoofdstuk over 'recente en toekomstige ontwikkelingen' heeft, zoals hij zelf zegt, een
'sterk element van koffiedik-kijken' en is geschreven vanuit het perspectief van 'technische ontwikke-
lingen die maatschappelijk consequenties hebben' (p. 191). Dat bevordert de.passieve houding van 'wat
hangt ons boven het hoofd en hoe pa.ssen we ons daaraan aan'. Wat in Nederland nodig is, is een
klimaat zó, dat vanuit globale informatie over wat er zoal technologisch mogelijk is en binnen afzien-
bare tijd (zeg ove^5 ä 10 jaar) op de markt kan komen, er een maatschappelijke ontwikkeling isdi®

consequenties heeft voor wat feitehjk technisch ontwikkeld wordt. Daaraan dient het onderwijs, waar
dc Volwassenen van de volgende generatie worden opgeleid, een toekomst gerichte bijdrage te leveren.
Daarvoor is nodig dat men in het onderwijs ten minste op de hoogte is van wat er op dit ogenblik
"hogelijk en gerealiseerd is. Daaraan heeft Camstra met zijn boek een bijdrage geleverd. Het is een moe-
dige daad van hem geweest dit boek — ondanks de onvermijdelijke tekortkomingen — te publiceren en
het verdient derhalve warme aanbeveling bij kritische lezers wie de toekomst van het onderwijs voor
een technologisch hoogwaardige informatiemaatschappij ter harte gaat.

•n deze publicatie geeft Van de Vall een visie op de verschillende structuurelementen van het
Sociaal beleidsonderzoek. Kenmerkend voor dit type van onderzoek, dat door vele sociologen -
doch niet alleen door hen - wordt beoefend, is dat het plaats vindt in opdracht van de pubUeke
Overheid of van besturen van organisaties of instellingen. Op het terrein van de onderwijsresearch
staat dit type bekend onder de naamgeving die Cronbach en Suppes er in 1969 aan hebben gegeven:
decision oriented research. Het sociaal beleidsonderzoek wordt ook wel toegepast sociaal weten-
schappelijk onderzoek genoemd; deze aanduiding doet echter onvoldoende recht aan de eigen
kenmerken, speciaal het multidisciplinaire karakter, van dit type onderzoek.

Van de Vall doet verslag van een onderzoek over het sociaal beleidsonderzoek. Hij heeft 120 studies,
in Nederland uitgevoerd in de periode 1960-1970, geanalyseerd aan de hand van speciaal daartoe verza-
melde gegevens naar de mate van benutting van de onderzoeksresultaten door de opdrachtgevers,
•n de analyse worden vele aspecten van het beleidsonderzoek en de mate van samenhang daarvan met
benutting voor beleidsdoeleinden betrokken. Het rendement van het beleidsonderzoek blijkt toe te
nemen naarmate de in een onderzoek gehanteerde begrippen, methoden en technieken minder direct
Ontleend zijn aan de formele, theoretische sociale wetenschappen en naarmate zij meer beleidsrelevan-
tie bezitten. Enkele voorbeelden: gehanteerde begrippen moeten voor de opdrachtgever gemakkelijk
herkenbaar zijn; rapportering moet beknopt zijn, bij voorkeur korter dan 50 pagina's; de analyse van
gegevens moet zeker kwalitatief van aard zijn en mag niet beperkt worden tot een kwantitatieve
Verwerking alleen; het beleidsonderzoek moet inherent zijn aan de beleidsvorming (interne tot de
Organisatie behorende onderzoekers blijken meer rendement op te leveren dan externe onderzoekers);
het onderzoek en de onderzoeker dienen een agogische functie te vervullen vanwege het aanvaardbaar
ntaken, eventueel door middel van compromissen, van de onderzoeksresultaten; de fasen van het be-
leidsonderzoek moeten waar mogelijk aansluiten op de fasen van de beleidsvorming.
Een enkele kritische opmerking bij het onderzoek: het verslag geeft weinig inzicht in de exacte samen-
steUing van de zgn. benuttingsscores; het is niet uitgesloten dat in deze verbale scores veel contaminatie
's verscholen; de rendementsbepaling is niet objectief gemeten. De betekenis van het gebruik van kwali-
tatieve en van kwantitatieve verwerkingsmethoden is nagegaan, maar het bevreemdt in dit verband dat
niet ook een categorie is opgenomen die uit een combinatie van deze twee methoden bestaat. Aan een
correlatie die niet sterker is dan .17 kan men nauwelijks een inhoudelijke conclusie verbinden.
Een van de conclusies uit het onderzoek is, dat het sociaal beleidsonderzoek een multidisciplinaire
activiteit is met sociaal-wetenschappelijke, bestuurskundige en agogische aspecten. Van de Vall
Verbindt aan deze conclusie een aantal opmerkingen over de opleiding tot sociaal beleidsonderzoeker,
die eveneens op de genoemde disciplines gebaseerd zou dienen te zijn.

Deze conclusie en zijn gevolgen voor het opleidingsgebeuren moeten onderwijskundigen reeds aangaan,
Waar zij de indeling en de differentiëring van het onderwijs en het onderzoek in de sociale wetenschap-
Pen betreffen alsmede in de gedragswetenschappen; het is echter bij Van de Vall onvoldoende duidelijk
in hoeverre zijn opvatting over beleidsonderzoek ook betrekking heeft op de gedragswetenschappen.

Ook in andere zin is Van de Vall's uiteenzetting van belang voor onderwijskundigen; zij immers ver-
richten ook veel en vaak sociaal beleidsonderzoek. In de onderwijssector bestaat echter reeds vel®
decennia twijfel over de betekenis van de onderwijsresearch. Het lijkt op zijn minst nuttig de conclusie'
die Van de Val! getrokken heeft voor een drietal maatschappelijke sectoren (industrie en vakbeweging-
regionale cn stedelijke planning, maatschappelijk werk en volksgezondheid) op hun geldigheid te toet-
sen voor de sector onderwijs. Wellicht dat een dergelijke studie ook uitgangspunten zou kunnen leve-
ren voor de nieuwe opleidingen van onderwijskundigen die her en der ontwikkeld worden.
Tenslotte is het boek van Van de Vall ook vanwege zijn didactische opzet een interessant voorwerp
voor onderwijskundigen: het betoog is helder, de bereikte precisie van formulering is voorbeeldig'
van voor tot achter blijft de rode draad in het boek zichtbaar met gepaste doch niet hinderUjke her-
haling, theoretische constructies worden in eenvoudige figuren weergegeven.

Kortom: een boek dat om diverse redenen ook voor onderwijskundigen van welke wetenschappeüj'''
komaf dan ook aanknopingspunten biedt voor reflectie op eigen onderwijs, onderzoek of beleids-
werk.

E.E.J. de (red.). Ontwikkelingen in het onderzoek naar prestatiemotivatie: Theorie, meetme-
thode en toepassing in het onderwijs. Lisse: Swets & Zeitlinger, 1979.

Drift, K. van der. Een geïntegreerd AV/CGO-systecm; verslag van de voorstudie. Leiden: Bureau
Onderzoek van Onderwijs Rijksuniversiteit Leiden, maart 1981 (= Rapport nr. 23).

PUSEREN? Een kijk op integratie van onderwijs in de natuurwetenschappen. Verslag van een bezoek
aan de Federation for Science Education (FUSE) 5-16 november 1979. Enschede: Stichting voor
de Leerplanontwikkeling.

'bedrag, dynamische relatie en betekeniswereld. Liber amicorum Prof. J.R. Nuttin. Leuven: Univer-
sitaire Pers Leuven, 1980.

Voorhuis, J. & Vries, G.C. de Een schriftelijke cursus Maatschappelijke oriëntatie. Amsterdam: Kohn-
stamm Instituut, januari 1981 (= KISO-rapport nr. 14).

Greevenbroek, A.M.A.C. van.. Onderwijsassistent en taakdifferentiatie. Een onderzoek naar de bijdrage
van onderwijsassistenten aan het onderwijs in de aanvangsjaren van de lagere school. 's-Gravenhage:
Staatsuitgeverij, 1981 (= SVO-reeks, no. 40).

•laarsma, R. (red.). Vrouwen en onderwijs. Bijdragen tot de Ondcrwijsresearchdagen 1980. 's-Graven-
hage: Staatsuitgeverij, 1981 (= SVO- reeks, no. 43).

Lington, H. Een schriftelijke opleiding Verzekering, theorie en praktijk. Amsterdam: Kohnstamm
Instituut, januari 1981. (= KISO-rapport nr. 13).

Lodewijks, J.G.L.C. Leerstofsequenties: Van conceptueel netwerk naar cognitieve structuur. Proef-
schrift K.H. Tilburg, 1981.

Nuy, M.G.J. Interne differentiatie: Over het ontwerpen van geïndividualiseerde onderwijsarrangemen-
ten. 's-Hertogenbosch: Katholiek Pedagogisch Centi^um, 1981 (Proefschrift K.H. Tilburg).

Onderzoek van enkele belangrijke deelvaardigheden bij het leren lezen. Nijmegen: Instituut voor On-
derwijskunde, 1980 (= Interne Mededelingen, nr. 5).

Parreren, C.F. van. Onderwijsproceskunde. Groningen: Wolters-Noordhoff, 1981 (= Leerpsychologie
en onderwijs 5).

Rapport over de voortgang en de resultaten van de ontwikkeüngsexperimenten in opleidingsscholen
voor kleuterleidsters en pedagogische academies. Schooljaar 1979-1980. Uitgebracht door de
Coördinatiecommissie Opleidingen Basisonderwijs. Katholiek Pedagogisch Centrum, 's-Hertogen-
bosch, maart 1981.

Rezehnan, R. & . Een schriftelijke opleidingBasis-electronicus. KmtAttiam-. Kohnstamm

"esdorp, H. Evaluatietechnieken voor het moedertaalonderwijs. 's-Gravenhage: Staatsuitgeverij, 1981
(= SVO- reeks, no. 42).

Het Leids Instituut voor de Stimulering van Sociaal Beleidsonderzoek (LISBON) in samenwerking

inet de vakgroep M & T van het Sociologisch Instituut, Rijskuniversiteit Leiden.

Inlichtingen-, LISBON, Stationsplein 242, 2312 AR Leiden (tel. 071-148333, tst 3163)

Op 18 en 19 november aanstaande wordt in congrescenter De Leeuwenhorst te Noordwijkerhout
onder auspiciën van het Studiecentrum OTO een symposium georganiseerd over postacademisch en
post hoger beroepsonderwijs onder de titel: 'De vormgeving van na-ervaringsonderwijs'.
Tijdens dit symposium zullen de inhoudelijke, technische en onderwijskundige aspecten van dit type
onderwijs, dat zich primair richt op afgestudeerden van het wetenschappelijk en hoger beroepsonder-
wijs, centraal, staan.

Lezingen, inleidingen, panel- en groepsdiscussies wisselen elkaar af. De dagdelen zijn als volgt gepro-
grammeerd:

II. Technische aspecten: marktanalyse, planning, kostenvraagstuk, public relations en voorüchting

III. Politieke aspecten: politieke forumdiscussie over plaats en functie van na-ervaringsonderwijs

IV. Didactiek van na-ervaringsonderwijs: doelen en onderwijsvormen per beroepensector

Het symposium is bedoeld voor producenten en consumenten/afnemers van dit type onderwijs, voor
personen die beroepshalve bij de ontwikkeling, verzorging of organisatie van na-ervaringsonderwijs
zijn betrokken en voor andere geïnteresseerden. Het is de bedoeling dat informatie wordt verstrekt
en ervaring worden uitgewisseld binnen en tussen verschillende sectoren van na-ervaringsonderwijs.

De Leeuwenhorst biedt plaats aan maximaal 300 deelnemers; de kosten bedragen f 220,- p.p., inclu-
sief maaltijden, overnachting, informatiemap.

One important source of information for the faculty is the time which students spend on their
study. For that reason sometimes students are asked to record the amount of time spent
studying, and the mean total study time in the population of students is estimated. There are
several possible data gathering designs. In this article these will be discussed within the frame-
work of MMS (multiple matrix sampling) where in general different random samples of students
record time spent studying during different weekly periods. Formulas pertaining to the variance
of the standard error of measurement of the mean total time in the population will be
presented. While in most cases individual differences are large, the population variance of total
study time is important as well. Therefore also a formula for the estimation of this variance is
presented.

Een schatting van de studietijd in een bepaalde studiefase is nodig om de zwaarte van een
studieprogramma te kunnen onderzoeken; naar aanleiding van de onderzoeksresultaten
kan het studieprogramma of onderdelen daarvan verlicht of verzwaard worden. Een aantal
'riethoden voor het meten van studietijd wordt door Everwijn en Muggen (1973) bespro-
ken. Ik zal mij hier beperken tot de tijdschrijfmethoden waarbij studenten op een
formuüer hun tijdsbesteding bijhouden. Ik zal daarbij een meer liberale definitie van
t'jdschrijven aanhouden dan Everwijn en Muggen en een methode waarbij per dag slechts
de totale hoeveelheid studietijd (per studieonderdeel) genoteerd behoeft te worden (zie
Crombag e.a., 1980), er ook onder laten vallen.

Öij een studietijdonderzoek ligt de nadruk veelal op de schatting van de gemiddelde totale
studietijd. Het gemiddelde is echter bij een grote spreiding van de studietijden niet erg
representatief voor de studietijdverdeUng in haar geheel en kan bijgevolg een verkeerd
beeld geven van de gereaUseerde studielast van een groot deel der studenten. Een grote
Spreiding van de studietijden blijkt soms inderdaad op te treden (Crombag e.a., 1980)
Zodat naast een schatting van de gemiddelde studietijd op zijn minst een schatting van de
Variantie van de studietijd van belang is.

In deze bijdrage zal het schatten van gemiddelde en variantie van de studietijd in een
bepaalde studiefase behandeld worden in MMS (multiple matrix sampling)-termen.

Everwijn en Muggen (1973) noemen twee tijdschrijfmethoden:
a- de longitudinale methode

t- De auteur is dank verschuldigd aan Eric A. Bakker die het rekenwerk verzorgde.

Nemen wij een week als onderzoekseenheid, dan kan men de genoemde methoden als
volgt omschrijven. In de longitudinale onderzoeksmethode neemt men een steekproef
van de studenten in een bepaalde studiefase — de steekproef kan uitputtend zijn, d.w.z-
alle studenten omvatten - en laat men deze studenten hun studietijd gedurende de gehele
onderzoeksperiode bijhouden. Bij de transversale methode neemt men enkele, elkaar nie'
overlappende steekproeven van studenten en elke steekproef rapporteert de studietijd over
slechts enkele weken, waarbij elke steekproef verschillende weken toegewezen krijgt. Een
bijzonder geval van de transversale methode is het onderzoeksschema waarbij elke
steekproef van studenten slechts één week in het onderzoek betrokken wordt. In termen
van de proefopzettenleer hebben wij dan te maken met een genesteld (personen: weken)
schema. Met de longitudinale methode correspondeert natuurlijk het gekruiste (personen
X weken) schema. Veronderstel dat het aantal voor het onderzoek relevante weken gelijk
is aan M en dat de grootte van de studenten-populatie N is. De N X M gegevens die wij
verkregen zouden hebben als wij alle studenten uit de populatie hadden laten tijdschrijven
gedurende de gehele periode van M weken, kunnen wij als volgt variantie-analytisch uit-
een leggen

Hierbij is p een persoonsindex, i een weekindex,/n is het algemeen gemiddelde, ap het per-
soonseffekt, ft het weekeffekt en a/3pi de restterm of interaktie. De volgende restrikties
gelden:

Het is duidelijk dat de te schatten tijdsbesteding in de populatie van studenten gelijk is
aan

Ten behoeve van het tijdschrijfonderzoek vormen wij willekeurig k groepen van m
weken. De aselekte trekking van weken - door Everwijn en Muggen helaas niet aanbe-
volen - is nodig om de mathematische resultaten uit dit artikel te kunnen toepassen. Wij
nemen aan dat de weken uitputtend uit het universum van M weken getrokken worden,
d.w.z. km = M; het is niet noodzakelijk om alle weken daadwerkelijk in het onderzoek
te betrekken, maar wel aan te raden. Bovendien worden er k aselekte steekproeven van
elk n studenten genomen. Wij vormen nu k groepen van m weken en n studenten; een
voorbeeld wordt in Figuur 1 gegeven. De gekruiste en genestelde schema's zijn bijzondere
gevallen met k = 1 in het gekruiste en k = M in het genestelde schema.
De tijdschrijfgegevens worden nu volgens het schema verzameld: men krijgt k matrices
met n X m gegevens XpiQ) (j = 1, —, k)- Een schatting van jij is nu:

^'pjur 1. MMS schema met k = 3, n = 6, m = 6. Studenten en weken zijn hier na de steekproeftrek-
"^'tg geordend naar groep. Aangenomen wordt datM=18,N kan groter dan 18 zijn.

In de volgende paragraaf zal blijken dat een gekruist schema bij een gelijk totaal aantal
observaties knm niet het meest efficient is, d.w^. a^^is onder dit schema groter dan on-
der andere onderzoekschema's. Dat is nog geen reden om het gekruiste schema af te raden.
Ten eerste beschikt men in het gekruiste schema over de variantie van de totale studietijd
in de steekproef, een goede schatter van de variantie in de studentenpopulatie. In een
genesteld schema is een schatting van deze populatievariantie in het geheel niet mogelijk.
2oals later zal bhjken kan deze variantie wel weer in MMS geschat worden met 1 < k < M.
Ten tweede, in een longitudinaal onderzoek is het vrij gemakkehjk om ervoor te zorgen
dat adreswijzigingen gemeld worden zodat het adressenbestand up-to-date bhjft. Bij
andere schema's kan dat moeilijker zijn. Dergelijke overwegingen zijn natuurlijk van groot
'belang in een onderzoek als het eerder aangehaalde Leidse (Crombag e.a., 1980), dat bij
eerstejaarsstudenten plaatsvond.

In sommige gevallen, met name wanneer het aantal studenten klein is, ligt het voor de
hand een longitudinaal onderzoek te verrichten waaraan alle studenten deelnemen. Dan
weet men wel precies de studielast van deze groep studenten maar dat is niet zo interes-
sant. In het algemeen wenst men te generaliseren naar een grotere hypothetische popula-
tie van gelijksoortige studenten. Men kan de grootte van deze populatie, N, voor alle
praktische doeleinden gelijk aan oneindig stellen. Hetzelfde generalisatieprobleem doet
zich voor als er een aantal steekproeven van studenten uit de aanwezige studenten getrok-
ken wordt. Voor bepaalde onderzoeksvragen — om na te gaan hoe onnauwkeurig men
wordt ten opzichte van het maximale aantal studenten dat in het onderzoek gebruikt had
kunnen worden - kan men N ook gelijk stellen aan het totale aantal studenten in de des-
betreffende studiefase. In dit artikel wordt steeds van N = » uitgegaan, tenzij anders ver-
meld.

Naast steekproeffluctuaties is er nog de mogelijkheid van systematische schattingsfouten
in steekproef (en populatie) indien bijvoorbeeld studenten bewust of onbewust verteken-
de gegevens leveren. Dit - belangrijke - aspekt moet hier helaas onbehandeld blijven, dat
wil zeggen wij moeten ons beperken tot een generalisatie van de tijdschrijfgegevens naar
de hypothetische tijdschrijfgegevens over alle weken in de studentenpopulatie.
Een derde factor die de resultaten beihvloedt, is het effekt van de weigeraars en de stu-
denten die hun deelname vroegtijdig beëindigen. De deelnemende studenten kunnen alleen
beschouwd worden als aselecte steekproeven uit een populatie van bereidwillige studenten
met alle gevolgen vandien voor een generalisatie naar de doelpopulatie.
Bij de afleiding van de standaardfout van ßj zijn de variantiecomponenten Oa,aß en Oaß
uit de ANOVA-benadering nodig. Deze componenten zijn gedefmieerd met (N-1), (M-1)
respektievelijk (N-1) (M-1) in de noemer. In de matrbc sampling literatuur worden veelal
varianties gehanteerd met N, M respektievelijk NM in de noemer; de resulterende formules
zijn echter veelal ingewikkelder. Voor de variantiecomponent van personen is deze keuze
overigens niet belangrijk bij N = «>.

Het blijkt (zie formule 1) dat de populatie variantie van de totale studietijdbesteding
gelijk is aan M^ a^ en wij zullen deze variantie in de volgende paragraaf schatten voor een
MMS-schema.

Deze variantie is gelijk aan M^ maal zoals gegeven door Sirotnik en Wellington (1977,
p. 357; in deze formule zit een typefout die echter gemakkelijk uit de kontekst opgemaakt
kan worden). Zoals reeds werd opgemerkt, nemen wij aan dat N = » en M = km, zodat
formule (4) vereenvoudigd kan worden tot

Wij kunnen nu een gekruist schema met een genesteld schema met identieke n, d.w.z.
met een gelijk totaal aantal observaties, vergelijken. Wij vinden

Als al > olp/M, dan is al in het genestelde schema kleiner dan in het gekruiste schema.
In de praktijk is aan deze ongelijkheid meestal voldaan. Ook andere MMS-schema's
kunnen preciezer zijn dan het gekruiste. Met andere woorden: men kan in deze schema's
met een kleinere n per matrk volstaan dan in het gekruiste. Dit werd zo ook gesuggereerd
m.b.v. een getallenvoorbeeld door Everwiin en Muggen. Een vergehjking is pas goed moge-
lijk als wij over goede schattingen van o^ en alp uit vergelijkbaar onderzoek beschikken.
In het eerder genoemde Leidse tijdschrijfonderzoek konden a„ en Oap in een gekruist
Schema geschat worden, waarbij M gelijk gesteld werd aan het aantal onderzoeksweken in
het eerste semester. De schatting van a^ is onder die veronderstelling gelijk aan de
Variantie van de totale tijdbesteding gedeeld door M^. De schattingen op een uren-schaal
Waren 62.18 voor al en 62.08 voor al^. In dit onderzoek waren dus alle schema's met
k > 1 beter dan het gekruiste geweest, tenminste wat betreft de variantie van het geschat-
te gemiddelde.

De populatievariantie van de totale studietijd kan in MMS ook bij andere schema's dan
het gekruiste geschat worden.

Lord (1962) heeft een dergelijke schatting als eerste gebruikt in een toepassing met perso-
nen en items. Hij had k n x m elkaar niet overlappende matrices met gegevens (met M =
km); hij schatte de totaalscorevariantie op basis van de gegevens van elke matrix afzonder-
lijk en middelde vervolgens de resultaten. Lord werkte met g.s.m.'s (generalized sym-
metric means), maar de schatting kan ook met een ANOVA-benadering afgeleid worden
(Sirotnik, 1974).

In termen van g.s.m.'s is de schatting van de populatievariantie van de totaalscores a^
(met N-1 in de noemer i.t.t. de gewoonte bij matrix sampling; bij alle varianties in dit
artikel wordt door het aantal personen minus één gedeeld), gebaseerd op de gegevens
^it een n X m matrix, gelijk aan

waarbij ? de gemiddelde variantie per week is en cov de gemiddelde covariantie tussen
weken (met n-1 in de noemer) voor de desbetreffende matrix. Wij kunnen nu, evenals
Lord (1962), ox voor elke der k n x m matrices schatten en de resultaten middelen om
tot een definitieve schatting te komen. Dit betekent dat alle varianties en covarianties
gemiddeld worden. Sirotnik en Wellington (1977) prefereren een andere berekeningswij-
ze waarbij het totaal aan gegevens als basis dient. Men kan namelijk de g.s.m.'s uit (6)
schatten m.b.v. het gehele databestand. Voor een schema met nietoverlappende submatri-

ces van n X m verandert alleen de waarde van q j • Met behulp van matrk sampling of

'incidence sampling' (Sirotnik en Wellington) is het ook heel eenvoudig om een schatting
"t voor andere sampling schema's zoals het schema in Figuur 2, te berekenen.

'n het Leidse tijdbestedingsonderzoek werd voor een periode van achttien weken een
gemiddelde tijdbesteding van 476.20 uur verkregen met een variantie gelijk aan 20145.
Deze resultaten waren gebaseerd op een tijdschrijfonderzoek waaraan 196 studenten vol-
gens een gekruist schema deelnamen. Als wij de verkregen variantie als populatievariantie
opvatten, impliceert dit een standaardfout van het gemiddelde gelijk aan 10.14 uur. Met
een mogelijke vertekening van de gegevens door weigeren en slecht invullen is dan nog
geen rekening gehouden. Of men de standaardfout te groot vindt, hangt samen met de
maatregelen die men op basis van de gegevens denkt te nemen. In elk geval is een stan-
daardmeetfout van 20 uur bij een steekproefgrootte van 50 - een aantal dat door Everwijn
en Muggen (1973) voor een gekruist schema genoemd werd - te groot. Het ligt dan ook
Voor de hand om aan een ander schema voor het verzamelen van gegevens te denken als
men een aantal van 196 studenten per week te groot vindt. Was er in het Leidse onder-
zoek gebruik gemaakt van drie niet overlappende matrices met m = 6,n= 65,dan was de
standaardfout (formule 5) 10.71 geweest, niet veel groter dan in het gekruiste schema
metn= 196.

Het is de vraag hoe nauwkeurig de schatting van de populatievariantie zou zijn geweest
3ls de studenten over slechts een deel van de weken tijdbestedingsgegevens geleverd zou-
den hebben. Ook dat kan met behulp van g.s.m.'s nagegaan worden, maar dat is nogal
ingewikkeld. In plaats daarvan kan men op het totaal van 196x18 gegevens enkele
malen het te onderzoeken steekproefschema toepassen en de schatting van de populatie-
variantie berekenen. Doet men dit, dan is de omvang van de studentenpopulatie gelijk
®an 196 i.p.v. oneindig. Dat is geen probleem voor zover men verschillende schema's
met een gelijk aantal observaties per student wil vergelijken. In de onderzoekspraktijk
moet men overigens ook uit alternatieve schema's kiezen bij een beperkt aantal beschik-
''are studenten, zodat een dergelijk replicatie-onderzoek ook een indruk geeft van de
Variatie in de schattingen t.o.v. een onderzoek waarin - bij een totaal aantal van 196
^beschikbare studenten - alle studenten gegevens over alle onderzoeksweken leveren.
Hier worden twee schema's vergeleken waarbij een schatting van de variantie van de tijd-
sbesteding mogelijk is: een niet-overlappend matrbc schema en een overlappend, elk met
6 observaties per student. De Figuren 1 en 2 geven beide schema's. De weekindeling werd
dus konstant gehouden. Clusters van 5 (en 6) studenten werden aselekt aan de weekclus-
ters van het eerste schema toegewezen. De drie clusters van studenten werden voor het
onderzoek van het tweede schema in tweeën gesplitst. Deze procedure werd 20 maal
herhaald.

^oor een goede schatting van Oj moet de variantie van de 20 replicaties klein zijn en hun
gemiddelde dient in de buurt van 20145 te komen; de gemiddelde schatting in dit onder-
zoek is overigens geen zuivere schatting van aangezien de weekindeling konstant
gehouden werd.

Dc gemiddelden uit het niet-overlappende matrix-schema varieerden van 466.14 tot
484.18 uur met een gemiddelde van 477.37 uur. De varianties berekend m.b.v. formule
(7) liepen uiteen van 18385 tot 22760 met een gemiddelde van 20676. De schatting
m.b.v. g.s.m.'s (formule (6)) varieerde van 18588 tot 23052 met een gemiddelde van
21124.

Bij het overlappende matrix-schema werden alleen schattingen m.b.v. g.s.m.'s berekend.
Hier bleek de gemiddelde geschatte variantie 20607 bij een laagste schatting van 18753
en een hoogste van 22942. De vesclüllen tussen de uitkomsten voor de beide schema's
zijn klein. Op grond van de summiere gegevens uit dit repUcatie-onderzoek kan geen
voorkeur voor één der schema's uitgesproken worden.

ln dit artikel zijn de mogelijkheden van matrix sampling schema's en corresponderende
berekeningen voor het schatten van het gemiddelde en de variantie van de tijdbesteding
behandeld. Binnen het kader van matrix sampling is ook per student een schatting van de
totale tijdsbesteding mogelijk (Bunda, 1973), maar schattingen in een dergelijke toepas-
sing lijken onbetrouwbaar.

Illustratie van de techniek aan de hand van een empirisch onderzoek laat zien, dat men
geen hoge verwachtingen dient te hebben van de toepassingsmogelijkheden van studie-
tijdmetingen voor ingrijpende besUssingen als de bepaling van de studielast van de norm-
student. In een studierichting met een grote interindividuele variantie in studietijd is zelfs
de schatting van de gemiddelde totale studietijd bij een redelijk aantal studenten onnauw-
keurig; bij 'redelijk' moet aan een kleiner totaal aantal studenten gedacht worden dan in
het aangehaalde Leidse onderzoek, verricht bij een facuUeit met een uitzonderlijk groot
aantal eerstejaars.

Bunda, M.A. An investigation of an extension of item sampling which yields individual scoies. Journal
of Educational Measurement, 1913,10,117-130.

Crombag. H.F.M., de Gruijter, D.N.M., van de Ende, P. en Vos, P. De nieuwe propaedeuse in de Facul-
teit der Rechtsgeleerdheid; Verslag over het eerste semester. Rapport 20. Bureau Onderzoek van
Onderwijs, R.U. Leiden, Leiden, 1980.

Everwijn, S.E.M. en Muggen, G. Methoden voor het meten van studiebelasting. In W.M. van Woerden,
T.M. Chang en L.J AI. van Geuns-Wiegman (Red.); Onderwijs in de maak. Utrecht: Het Spectrum,
1973.

Lord, F.M. Estimating norms by item samp]ing. Educational and Psychological Measurement, 1962,22,
259-267.

Sirotnik, K.A. Introduction to matrix sampling for the practitioner. In WJ. Popham (Ed.): Evaluation
in education. Los Angeles: McCutchan, 1974.

Sirotnik, K.A. and Wellington, R. Incidence sampling: an integrated theory for 'matrix sampling'.
Journal of Educational Measurement, 1977,343-399.

Correctievoorschriften voor de Beoordeling
van Open Vragen en
Interbeoordelaarsbetrouwbaarheid

Essay questions are used in the Netherlands to measure the achievement of examinees of
secondary schools for several school subjects. The responses are judged by raters. By letting
raters use a prescribed procedure one can try to overcome differences in judgement of a particular
answer to a question. A measure of agreement between raters is the coefficient of inter-rater-
rdiability (IRR).

In this research IRR coefficients were estimated for the mathematics, physics and economics
examination of the HAVO type of secondary school. A standard rating procedure for each
subject was used. For physics and economics it was investigated whether the IRR coefficient
showed a rise when rating procedures were used that had been formulated in a more detailed
way by subject matter specialists. Causes for low IRR coefficients of questions rated by the
standard rating procedure were identified.

Enkele van de eindexamens die in het kader van het Centraal Schriftelijk Eindexamen
(CSE) in Nederland bij het voortgezet onderwijs afgenomen worden bestaan uit 'open
vragen'. Open vragen zijn die vragen waarbij de kandidaat zelf zijn of haar antwoord
nioet formuleren. Een andere toetsmgsvorm is de meerkeuzevraag. Hierbij maakt de
kandidaat een keuze uit enkele geprecodeerde antwoorden.

Eén van de redenen waarom de meerkeuzevraagvorm boven de open vraagvorm geprefe-
reerd kan worden is de betrouwbaarheid van de scoringsprocedure. Bij de meerkeuze-
vraagvorm wordt het juiste antwoord eenduidig vastgelegd vóórdat de beoordehng plaats-
vindt, bij de open vraagvorm moet de waardering voor gegeven antwoorden vastgesteld
Worden door beoordelaars. Deze beoordeling vormt een bron van onbetrouwbaarheid om-
dat beoordelaars kunnen verschillen in de waardering die zij toekennen aan hetzelfde ant-
woord. Een maat die aangeeft in hoeverre verschillende beoordelaars aan hetzelfde ant-
woord dezelfde beoordeling toekennen wordt coëfficiënt van interbeoordelaarsbetrouw-

1- Het onderzoek stond onder supervisie van C. Hamaker (UvA). Vele waardevolle opmerkingen en
suggesties van hem zijn in het onderzoek en in dit artikel verwerkt. Ook L. Wouters (UvA) wil ik be-
danken voor zijn commentaar op een concept voor dit artikel.

Tevens dank aan de medewerkers van het Project Open Vragen van het CITO voor hun bijdrage aan het
onderzoek. Van hen wil ik J. Hendricx, L. Knoben, P. Sanders en H. Schuring met name noemen.
2. Nieuw adres van de auteur: TH Delft, Onderwijskundige Dienst, Mijnbouwplein 11, 2628 RT
Delft.

baarheid (IBB) genoemd. Uit een overzicht dat Mellenbergli (1971) geeft van onderzoe-
leen naar de beoordeling van open vragen blijkt dat de overeenstemming tussen beoorde-
laars over het algemeen niet groot is. Ook in onderzoek van Sanders (1978) naar de toets-
betrouwbaarheid van het CSE latijn 1977 werden grote verschillen tussen beoordelaars ge-
vonden.

Op grond van de resultaten van het eindexamen worden beslissingen genomen die voor
de betrokkene verstrekkende gevolgen hebben (al dan niet slagen, toelating tot een ver-
dere opleiding). Uit het oogpunt van rechtvaardigheid moet daarom het resultaat dat een
kandidaat behaalt zoveel mogelijk onafhankelijk zijn van de (toevallige) beoordelaar. Een
hoge IBB-coëfficicnt is dus noodzakelijk.

De Groot (1961) noemt enkele redenen waarom beoordelaars kunnen verschillen in de be-
oordeling van hetzelfde antwoord. Dit zijn het signifisch effect, halo-effect, sequentie-
effect, normverschuiving of persoonlijke vergelijking en het contaminatieeffect (zie voor
een uitwerking De Groot, 1961 blz. 239-244). Sommige van de maatregelen die hiertegen
getroffen kunnen worden leiden tot een enorme administratieve rompslomp met de daar-
aan gepaard gaande kosten (zoals het overtypen van examenwerken om een halo-effect te
voorkomen); andere maatregelen leiden ongetwijfeld tot grote weerstand in het onderwijs-
veld (zoals centrale beoordehng om een contaminatie-effect tegen te gaan). Tegen één van
de door De Groot genoemde effecten, het signifisch effect, kunnen zonder al te grote be-
zwaren maatregelen genomen worden en worden die vaak al genomen. Onder het signi-
fisch effect wordt begrepen dat de beoordelaars een verscliillende opvatting over de be-
oordelingstaak kunnen hebben. De Groot beveelt als maatregel tegen het signifisch ef-
fect aan: 'reductie, vereenvoudiging c.q. explicitering, verscherping van de beoordelings-
taak'.

Deze maatregel vindt bij het CSE zijn neerslag in een correctievoorschrift. Correctievoor-
schriften geven bindende normen volgens welke eindexamens beoordeeld moeten worden-
Zij worden in het algemeen gezien als een middel waardoor de IBB bij open vragen ver-
hoogd kan worden (Sheridan, 1971; Hamaker, 1979).

Correctievoorschriften zoals gebruikt bij het huidige CSE kunnen drie onderdelen bevat-
ten:

Deze bevat o.a. wettelijke regelingen en voorschriften voor de behandeling van algemene
fouten (b.v. reken- en schrijffouten).

Er kunnen twee soorten antwoordmodel onderscheiden worden (Doevendans, 1980). Een
globaal antwoordmodel waarin aangegeven is wat het goede antwoord is of wat de essen-
tie van het goede antwoord is en een gedetailleerd antwoordmodel waarin naast het goede
antwoord ook alternatieve goede antwoorden, gedeeltelijk goede antwoorden of fout te
rekenen antwoorden opgenomen kunnen zijn.'De mate van detaillering hangt af van de
mate waarin deze elementen opgenomen zijn. Het antwoordmodel wordt per vraag opge-
steld.

Scoringsvoorschriften geven aan hoeveel punten maximaal voor een vraag toegekend kun-
nen worden en wanneer in het antwoordmodel gedeeltelijk goede antwoorden zijn opge-
nomen, het aantal punten dat voor elk gedeeltelijk goed antwóord toegekend moet wor-
den.

De mate van gedetailleerdheid van een correctievoorschrift wordt bepaald door de mate

Van gedetaileerdheid van het antwoordmodel. Bij het huidige CSE voor de HAVO va-
rieert de gedetailleerdheid van het correctievoorschrift van zeer gedetailleerd (wiskun-
de) via globaal (economie) naar minimaal (natuurkunde, waar het antwoordmodel vrijwel
geheel ontbreekt).

Alhoewel het op het eerste gezicht lijkt alsof een verdere detaillering van een correctie-
voorschrift zal leiden tot een hogere IBB, de beoordehngstaak wordt immers steeds verder
geëxpliciteerd, blijkt dit niet altijd zo te zijn. Uit onderzoek van Kreeft en Sanders (1980)
''ij het CSE Nederlands voor de MAVO bleek dat de IBB-coè'fficiënten bij gebruik van een
meer gedetailleerd correctievoorschrift niet of nauwelijks stegen. Zij schreven dit toe aan
de onhanteerbaarheid van een te gedetailleerd correctievoorschrift.
Op grond van bovenstaande overwegingen en vanuit de wens om inzicht te verkrijgen in
de situatie bij enkele meer exacte vakken werden de volgende drie onderzoeksvragen ge-
formuleerd:

a- Hoe hoog zijn de IBB-coëfficiënten van vragen bij een aantal meer exacte vakken wan-
neer de beoordelingen plaatsvinden met de correctievoorschriften die in de praktijk ook
als bindende correctievoorschriften bij die vakken functioneren?

h. Vertonen deze IBB-coëfficiënten een stijging wanneer het bestaande correctievoor-
schrift meer gedetailleerd wordt?

e. Zijn er inhoudelijk oorzaken aan te wijzen voor onder vraagstelling a (mogelijk) gevon-
den lage IBB-coëfficiënten?

ln het onderzoek werden de vakken wiskunde, natuurkunde en economie betrokken. Ge-
bruik werd gemaakt van het HAVO examen 1979 tweede tijdvak (herkansing).
Om een antwoord te kunnen geven op de onderzoeksvragen a en b werd de volgende
procedure gevolgd. Voor elk vak werden 20 originele examenwerken door 5 beoordelaars

(Ic graads docenten) gecorrigeerd met liet correctievoorschrift uit de praktijk (hierna te
noemen het examenmodel). Vervolgens werd het examenmodel meer gedetailleerd waar-
na dezelfde 5 beoordelaars dezelfde 20 werken nogmaals corrigeerden maar dan met het
meer gedetailleerde correctievoorschrift (hierna te noemen het experimentele model). Tus-
sen deze twee correctierondes werd een periode van 6-7 weken in acht genomen om een
directe herinnering van de eerste correctie te voorkomen. Verder werden als controle voor
een mogelijk effect van twee keer corrigeren dezelfde 20 examenwerken door een tweede
groep van 5 beoordelaars alleen met het experimentele model gecorrigeerd. De onder-
zoeksopzet ziet er uit als in het vorige schema is weergegeven.

Met betrekking tot bovenstaande werden twee kostenbesparende beperkingen aange-
bracht. Ten eerste werden de examenwerken voor wiskunde slechts eenmaal gecorri-
geerd en wel met het examenmodel. Het examenmodel voor wiskunde was al zo gede-
tailleerd dat verdere detaillering bijzonder moeilijk zou zijn. Dit heeft wel tot gevolg
dat vraagstelling b voor wiskunde niet beantwoord kon worden. Ten tweede werden
van het natuurkundeexamen alleen de eerste twee opgaven gebruikt (er waren in totaal
4 opgaven) om zo de correctietijd te beperken.

Onderzoeksvraag c stelde de vraag naar mogelijke oorzaken voor een lage IBB-coëffï-
ciënt. Om deze te kunnen achterhalen werden, bij de vragen waarbij na correctie met
het examenmodel een (relatieO lage IBB-coëffïciënt gevonden werd, de antwoorden van
de kandidaten bekeken die bij die vraag tot de grootste discrepantie in beoordeling leid-
den. Getracht werd een kenmerk van deze antwoorden te abstraheren dat mede gezien
de kenmerken van de vraag en (indien aanwezig) het antwoordmodel een verklaring
zou kunnen vormen voor de geconstateerde geringe overeenstemming. Deze onderzoeks-
methode voor vraagstelling c zal hierna de inhoudelijke analyse genoemd worden.

De examenwerken werden verkregen door (landelijk gespreid gekozen) scholen aan te
schrijven met het verzoek anoniem gemaakte examenwerken op te sturen. De respons
van de scholen was meer dan bevredigend. Uit de binnengekomen werken werden er 20
geselecteerd op grond van twee criteria. Ten eerste moest er een antwoord gegeven zijn
op het merendeel der vragen. Om de werking van verschillende correctievoorschriften te
onderzoeken is het noodzakelijk dat er reële antwoorden met die correctievoorscliriften
beoordeeld kunnen worden. Ten tweede moest het handschrift leesbaar zijn. Een slecht
leesbaar handschrift kan een bedreiging voor de IBB vormen die niet onder de controle
van een correctievoorschrift valt.

Correctievoorschriften zijn er op gericht het door de Groot genoemde signifisch effect te
beperken. Om een reëel beeld te krijgen van de werking van de verschillende correctie-
voorschriften (onderzoeksvraag b) moeten die effecten die een bedreiging kunnen vormen
voor de IBB en die niet direct onder de invloed van een correctievoorschrift vallen experi-
menteel gelijk- of uitgeschakeld worden. In dit onderzoek werden daartoe, voorzover dat
niet op practische bezwaren stuitte, maatregelen getroffen volgens de aanbevelingen van
de Groot (1961, blz. 244).

Het sequentie-effect werd grotendeels ondervangen door elke beoordelaar een door de on-
derzoeker gevarieerde verplichte volgorde in de beoordeling van opgaven en examenwer-
l^en voor te schrijven. Het halo-effect werd deels ondervangen door aheen goed lees"bare
examenwerken in het onderzoek op te nemen. Omdat de beoordelaars geen enkele denk-
baar belang bij de resuhaten van hun beoordeling hadden (de werken waren bovendien
anoniem en van voor hen onbekenden) werd ook het contammatieeffect ondervangen.
Het effect van normverschuiving of persoonlijke vergelijking kon niet opgevangen worden
zonder grote nadelen. Ook de Groot (blz. 247) gaat hier op in.

Gewoonlijk wordt de interbeoordelaarsbetrouwbaarheid berekend door middel van een
gemiddelde intercorrelatiecoëfficiênt tussen beoordelaars. Een nadeel van deze maat is
dat verschillen tussen gemiddelden en standdaarddeviaties van de scores toegekend door
de beoordelaars hierin niet tot uitdrukking komen. Alleen verschillen tussen de relatieve
posities die door de verschillende beoordelaars toegekend worden aan hetzelfde werk wor-
den behandeld als error (zie bv. Coffman, 1971).

Een maat die wel rekening houdt met verschillen in gemiddelden en spreiding tussen be-
oordelaars is de intraclasscorrelatiecoëfficiènt. Deze maat werd als een schatting voor de
betrouwbaarheid uitgewerkt door Rajaratnam (1960).

een situatie waarin eUce beoordelaar (c) de examenwerken van zijn eigen kandidaten
(p) beoordeelt, welke situatie dus gehjk is aan de praktijk, wordt de betrouwbaarheid
Weergegeven door de volgende formule:

^anuit de steekproef die zo ingericht is dat elke beoordelaar elk examenwerk corrigeert
•^unnen schattingen gemaakt worden voor de afzonderhjke variantiecomponenten in de
populatie. Hierbij wordt gebruik gemaakt van door middel van een variantieanalyse in de
steekproef verkregen MS-termen. Daarbij moet opgemerkt worden dat de termen Opc en
°e niet te scheiden zijn omdat er maar één observatie per cel plaatsvindt.

e IBB-coëffïciënt werd per vraag berekend. Dit werd gedaan omdat het antwoordmodel
"it het correctievoorschrift per vraag wordt opgesteld en dus per vraag werkt. Bij de bere-
'^ening van de IBB-coëfficiënt per vraag werden die kandidaten die op de betreffende
Vraag een blanco antwoord gegeven hadden niet in de berekening meegenomen. Het aantal
Werken waarover de IBB-coêffïciënt berekend werd kon dus per vraag verschiUen.

De examenmodellen in dit onderzoek waren de correctievoorschriften zoals die gebruikt
berden bij de examencorrectie van het CSE HAVO 1979-11. Een korte beschrijving van
^oornameliik de antwoordmodellen uh deze correctievoorschriften volgt hieronder per

Het antwoordmodel per vraag voor Wiskunde kan als zeer gedetailleerd omschreven wor-
den. Bij elk van de 15 vragen waaruit het examen bestond (15 vragen verdeeld over 5 op-
gaven) werden een groot aantal deelantwoorden met het voor elk van deze deelantwoorden
maximaal aantal toe te kennen punten gegeven. Bij 6 van de 15 vragen werden bovendien
regels gegeven voor fouten of omissies specifiek voor die betreffende vragen.

Het examenmodel voor natuurkunde bevatte slechts een beoordelaarsmstructie en een
scoringsvoorschrift (waarin het maximaal aantal toe te kennen punten per vraag). In de
beoordelaarsinstructie stond een vrij duidelijke instructie voor de aftrek van punten voor
fouten in de eenheid en rekenfouten. Het (halve) examen bestond uit 15 vragen in 2 opga-
ven.

In de beoordelaarsinstructie werden voorschriften gegeven voor de beoordeling van fouten
in de uitwerking, rekenfouten en voor het ontbreken van gevraagde motiveringen of ver-
klaringen.

In het antwoordmodel werd per vraag voor het merendeel van de 43 vragen (verdeeld over
3 opgaven) een voorbeeld van het goede antwoord gegeven. Bij één vraag werd slechts in
zeer algemene termen de essentie van de inhoud van het goede antwoord gegeven en bij
twee vragen waren deelantwoorden aanwezig.

Voor Natuurkunde en Economie werden experimentele modellen opgesteld die gedetail-
leerder waren dan de examenmodellen. De experimentele modellen werden opgesteld
door medewerkers van de vaksecties Natuurkunde en Economie van het CITO.

In het experimentele model voor Natuurkunde was het antwoordmodel zeer gedetailleerd.
Per vraag werden verschillende deelantwoorden met bijpassend scoringsvoorschrift opge-
nomen. ^Bovendien werd bij een groot aantal vragen regels voor scoring toegevoegd voor
bij die vraag specifieke fouten en/of omissies.

Het experimentele model voor Economie week op verschillende punten af van het exa-
menmodel. Verdeeld over de vragen werden alternatieven voor het goede antwoord gege-
ven, deelantwoorden toegevoegd, pertinent foute antwoorden vermeld en tussen haakjes
niet noodzakelijke elementen van het goede antwoord opgenomen. Bij een aantal vragen
kwamen meerdere van deze veranderingen voor. Tevens werd voor 12 vragen een veran-
dering aangebracht m het scoringsvoorschrift. Voor deze vragen waarbij meer dan 1 punt
te behalen was, werd de scoringsmogelijkheid gedichotomiseerd, dwz. de beoordelaars
mochten aan de antwoorden op deze vragen slechts de score O of de maximale score toe-
kennen. Deze maatregel werd getroffen vanuit de (vakinhoudelijke) overweging dat op
deze vragen slechts een goed of een fout antwoord te geven was zonder tussenweg.

Voordat de resultaten van het onderzoek per vak worden vermeld worden eerst enkele ge-
bruikte begrippen toegelicht.

De groep beoordelaars die tweemaal corrigeerden wordt bij correctie met het examenmo-
del de examengroep genoemd. Deze zelfde groep beoordelaars wordt bij correctie met het
experimentele model de experimentele groep genoemd. De groep beoordelaars die slechts
eenmaal corrigeerde en wel met het experimentele model wordt de controlegroep ge-
noemd. ri staat voor de IBB-coëfficiënt berekend voor examengroep, rj voor de IBB-coëf-
ficiënt na correctie door de experimentele groep en ra voor deze maat na correctie door
de controlegroep.

De gevonden IBB-coëfficiënten zijn hoog (.80 en hoger). Uitzonderingen hierop vormen
de vragen Ic (rj = .66) en (in mindere mate) 5c (rj = .78). Uit deze gegevens kan niet di-
rect geconcludeerd worden dat het correctievoorschrift voor Wiskunde bepalend is voor
deze over het algemeen hoge IBB-coëfficiënten. Ook de vakinhoud kan hiervoor in hoge
mate verantwoordelijk zijn. Wel kan gezegd worden dat bij de huidige situatie een hoge
IBB bereikt kan worden.

Een inhoudelijke analyse bij de vragen Ic en 5c bracht voor beide vragen eenzelfde mo-
gelijke oorzaak voor de lage IBB-coëfficiënt aan het licht. Beide vragen zijn afhankelijk
Van de eraan vooraf gaande vraag, dwz. dat de oplossing van deze voorafgaande vraag in
de afhankelijke vraag gebruikt moet worden. De grootste verschillen tussen beoordelaars
ontstonden nu wanneer kandidaten door een foutieve oplossing van de voorafgaande
Vraag de oplossing van de afhankelijke vraag aanzienlijk vereenvoudigen of bemoeilijkten.
Beoordelaars moesten deze doorwerking van fouten naar eigen inzicht beoordelen; het
eorrectievoorschrift gaf hier geen richtlijnen voor.

ln tabel 2 worden per vraag de drie IBB-coëfficiënten r,, x-i en Ï3 weergegeven.

Alle kandidaten scoorden hier het maximale aantal punten; de beoordelaarsovereenstemming
was dus maximaal. Omdat er geen variantie bestond kon er geen r berekend worden.

De hier berekende r had de waarde 0.00. AUe kandidaten kregen op deze vraag de maximale
score, uitgezonderd 2 kandidaten die van één beoordelaar 1 punt minder kregen dan de maxi-
male score. Alhoewel de beoordelaarsovereenstemming dus vrijwel maximaal is werd deze lage
waarde voor r veroorzaakt door het feit dat de variantie voor de scores tussen de kandidaten
bijzonder klein was.

Bij vraag 2d3 werd ri berekend over 20 kandidaten, r^ en ra over 14 kandidaten. Door onzorg-
vuldig copiëren waren in de experimentele groep en de controle groep van 6 kandidaten de ant-
woordbladen van vraag 2d3 weggevallen voor één of meer beoordelaars.

Uit de tabel blijkt dat bij de meeste vragen bij correctie met het examenmodel voor
natuurkunde een redelijke tot hoge IBB-coëfficiënt bereikt werd (ri > .70). Uitzon-
deringen. hierop vormen de vragen lc2, Ie, 2d3, 2e en 2f. De waarden voor rj en ra
vertoonden in 6 gevallen een stijgende trend ten opzichte van ri, bij 6 vragen was ri
redelijk tot hoog en bleven rj en ra dat ook, bij 1 vraag bleven de ij en ra laag en bij
1 vraag daalden r^ en rs ten opzichte van rj.

De t-toets voor verschillen tussen gemiddelden voor afhankelijke steekproeven liet zien
dat de gemiddelden van T2 en r3 significant hoger waren dan het gemiddelde van rj
(bij een alfa-waarde van .001).

Om na te kunnen gaan of beoordelaars met het meer gedetailleerde correctievoorschrift
strenger gingen beoordelen werden de gemiddelde p-waarden van vragen tussen de ver-
schillende beoordelaarsgroepen vergeleken. De gemiddelde p-waarde was bij correctie
met het examenmodel hoger dan bij correctie met het experimentele model nl. .48 in
de examengroep ten opzichte van .43 en .41 in de experimentele groep en de controle-
groep resp. (bij een alfawaarde van .10 en .05 resp. volgens de t-toets bij afhankelijke
steekproeven).

Een inhoudelijke analyse bij de vragen met een lage ri Het zien dat de grootste verschil-
len tussen beoordelaars ontstonden wanneer:

a- De vraag een specifiek antwoord eiste terwijl de kandidaat een algemeen antwoord gaf.
b- Kandidaten in een afhankelijke vraag een foutieve oplossing gebruikten uit de vooraf-
gaande vraag.

c- De vraag een antwoord eiste dat uit twee elementen bestond. Bij correctie met het
examenmodel is niet geëxpliciteerd voor de beoordelaar hoe zij/hij het totaal aantal toe
te kennen punten moet wegen over de verschillende onderdelen van het antwoord,
d- Het te geven antwoord bestond uit een dichotoom deel (ja of nee, links of rechts)
en een motivering van dat dichotome deel. Dit laatste punt kan gezien worden als een
Speciaal geval van het voorafgaande.

In het experimentele model, dat onafhankelijk van de resultaten van de inhoudelijke ana-
lyse was opgesteld, kwamen maatregelen voor die aansloten op de bovengenoemde oor-
zaken. Het al dan niet aanwezig zijn van een op de gevonden oorzaak aansluitende maat-
regel verklaarde in een aantal gevallen de waarden van ï^ en ra ten opzichte van ri. Per
oorzaak zal dit nu besproken worden.

a- Bij vraag Ie speelde oorzaak a mogelijk een rol. In het experimentele model was aan-
gegeven dat een specifiek antwoord het juiste is maar werden geen richtlijnen opgenomen
Voor de beoordeling van een algemeen antwoord, rj en ra stijgen dan ook niet eendui-
dig ten opzichte van ri bij vraag Ie.

b- Vraag lc2 was afhankelijk van vraag lb2 en vraag lel. In het experimentele model was
ais maatregel opgenomen dat fouten uit lb2 en lel niet als fout berekend mochten wor-
den in lc2. De IBB-coêffïciënt voor vraag lc2 stijgt dan ook bij correctie met het experi-
mentele model. Deze redenering gaat ook op voor de vragen lb2 en ld.
e- Vraag 2e eiste een verklaring die uit twee elementen bestond. In het experimentele
model was als maatregel de waardering voor beide elementen afzonderlijk opgenomen.
Desondanks daalde de IBB-coëfficiënt voor vraag 2e bij correctie met het experimentele
model. Hier kon geen verklaring voor gevonden worden.

d- Bij de vragen 2d3 en 2f moest een dichotoom antwoord gegeven worden met een moti-
vering daarvan. In het experimentele model werd als maatregel opgenomen dat alleen
Voor de motivering punten toegekend mochten worden. De IBB-coëfficiënt voor deze vra-
gen steeg dan ook.

Op grond van bovenstaande valt te concluderen dat voor het vak natuurkunde het gebruik
Van een gedetailleerd correctievoorschrift ten opzichte van een minimaal correctievoor-
schrift een verhoging van de IBB-coëfficiënten kan bewerkstelhgen. Een gevolg hiervan
is echter ook dat de beoordelaars strenger gaan scoren. Op grond van een inhoudelijke
analyse konden mogelijke oorzaken voor een lage IBB-coëfficiënt gevonden worden.
Tevens bleek dat maatregelen in het experimentele model die hierop aansloten bij 2 van
de 3 gevonden oorzaken succesvol waren.

^ij correctie met het examenmodel is de IBB-coëfficiënt bij 19 van de 43 vragen redelijk

tot hoog (.70 en hoger) (44% van de vragen, 10 vragen (23%) hebben een ri lager dan
.50, terwijl 14 vragen (33%) een ri tussen de .50 en .70 hebben.

Bij correctie met het experimentele model bleef de IBB-coëfficiënt voor het merendeel
der vragen op hetzelfde nivo. Bij een groot aantal vragen is de verandering van ri en rs
ten opzichte van ri nogal uiteenlopend. Een aantal vragen (II, 16,18b, IIlc en Ilb) hebben
een veel lagere rj en r3 dan ri. Vragen waarbij de IBB-coëfficiënten stegen zijn 13, Illb,
II4a en IlICla.

De gemiddelden van ri, ï^ en ra laten zien dat over alle vragen genomen detaillering van
het correctievoorschrift geen verhoging van de IBB-coëfficiënten tot gevolg heeft gehad
(ri = r2 en het verschil tussen ri en rj is niet significant).

Beoordelaars gingen met het experimentele model gemiddeld niet strenger beoordelen-
De gemiddelde p-waarde in de examengroep was .42, in de experimentele groep .40 en in
de controle groep .41 (verschillen in p-waarden zijn niet significant).
Op grond van een inhoudelijke analyse werden 8 mogelijke oorzaken voor een lagere ri
gevonden:

a. Een vraag had een groot aantal goede antwoorden. In het correctievoorschrift werd
slechts de essentie van het goede antwoord opgenomen. De interpretatievrijheid voor de
beoordelaar is hier dan groot.

b. De vraag eiste als antwoord een (aantal) voorbeeld(en). Wanneer het aantal goede voor-
beelden vrijwel onbeperkt is ontstaat wederom een grote interpretatievrijheid voor de
beoordelaar. ^

c- Kandidaten beantwoordden een vraag met een min of meer uitgebteid verbaal ant-
woord.

d- Naast het goede antwoord werden door kandidaten onnodige en bovendien foutieve
toevoegingen gegeven.

e- Gevraagd werd naar een definitie en kandidaten antwoordden door middel van voor-
beelden.

f Bij één vraag was niet duidelijk uit de vraagstelling op te maken of een algemeen dan
Wel een specifiek antwoord geëist werd. Het examenmodel gaf als antwoord alleen een
Specifiek antwoord.

8- Kandidaten beantwoordden een vraag met een niet gevraagde maar overigens juiste op-
lossingsstrategie. Hiervoor waren geen richtlijnen ter beoordeling opgenomen.

Een mogelijk goed antwoord was niet opgenomen in het correctievoorschrift terwijl
bet daarin opgenomen antwoord ruimer was dan de vraag strikt genomen eiste. Vraag en
antwoordmodel sloten dus niet goed op elkaar aan.

öij die vragen waar een duidelijk verschil te constateren was tussen rj en rj aan de ene
•^ant en ri aan de andere kant was dit verschil moeilijk te interpreteren vanuit de maatre-
gelen die in het experimentele model toegevoegd waren. De reden hiervoor is dat deze
maatregelen niet altijd aansloten op de in de inhoudelijke analyse geconstateerde proble-
men bij de beoordeling en bovendien bij een aantal vragen meerdere toevoegingen ten op-
^chte van het examenmodel waren opgenomen.

^el kan opgemerkt worden dat twee van de maatregelen in het experimentele model eer-
der een verlaging dan een verhoging van de IBB-coëfficiënten tot gevolg hebben gehad.
Ten eerste bleek dat het dichotomiseren van de scoringsmogelijkheid er toe leidde dat de
beoordelingen van de beoordelaars verder uit elkaar gingen. Ten tweede was het tussen
•taakjes plaatsen van een deel van het antwoord niet succesvol. Beoordelaars verschilden
"ogal in de waardering van antwoorden die aansloten op het tussen haakjes vermelde en
niet de essentie van het antwoord weergaven.

Samenvattend kan voor economie gezegd worden dat de IBB-coëfficiënten van vragen bij
Correctie met het in de praktijk gebruikte correctievoorschrift niet voor alle vragen hoog
^e noemen valt. Dit beeld veranderde nauwelijks bij correctie met een correctievoorschrift
Zoals het in dit onderzoek gebruikte experimentele model. Wel konden een aantal moge-
l'jke oorzaken voor een lage IBB-coëfficiënt gevonden worden. Tegen deze oorzaken zijn
m principe maatregelen te nemen in het correctievoorschrift of de vraag.

Öe maatregelen in correctievoorschriften zoals die tot dusverre in de praktijk van het CSE
berden opgesteld vonden in eerste instantie hun oorsprong m de intuïtie en het voorstel-
lingsvermogen van de opstellers van deze correctievoorschriften. Zij moesten zich wel be-
roepen op hun verwachtingen (gebaseerd op vakkennis en ervaring) van eventuele proble-
'ïien bij de beoordeling omdat gegevens hierover ontbraken. Met op deze manier opgestel-
de correctievoorschriften kunnen goede resultaten behaald worden (bv. met het experi-
mentele model voor natuurkunde) maar ook minder goede (zie de resultaten met het
^'fperimentele model voor economie).

Door de uitkomsten van de in dit onderzoek uitgevoerde inhoudelijke analyses zijn enkele
van de problemen die een rol kunnen spelen bij de beoordeling van examenwerken aan
het licht gebracht. Opstellers van correctievoorschriften kunnen hier bij de vaststelling
van de correctievoorschriften rekening mee houden. Het opnemen van maatregelen die
gebaseerd zijn op de resultaten van een inhoudelijke analyse zal er toe leiden dat de
'kwaliteit' van een correctievoorschrift toeneemt; toenemende detaillering betekent op
zich zelf niet altijd toenemende kwaliteit. Dit kan ook een verklaring zijn voor de resul-
taten van het in de inleiding aangehaalde onderzoek van Kreeft en Sanders (1980). Het
toevoegen van maatregelen die niet aansluiten bij oorzaken voor verschillen tussen be-
oordelaars zorgt louter voor een toename van de detaillering; een verhoging van IBB-
coëfficiënten mag hier niet van verwacht worden.

De geconstateerde problemen bij de beoordeling en de daaruit af te leiden maatregelen
beperken zich waarschijnlijk niet tot de hier onderzochte vakken, met andere woorden
ze lijken niet vakspecifiek.

Een lijst van maatregelen opgesteld op grond van dit onderzoek is zeker niet uitputtend.
In nieuwe onderzoeken zullen zich ongetwijfeld (deels) andere problemen voordoen-
Aanvullend onderzoek is dus noodzakelijk. Als resultaat van voortdurend onderzoek kan
men uiteindelijk komen tot een vrij complete lijst van noodzakelijke elementen in een
correctievoorschrift. Deze lijst van elementen zou dan uitgangspunt moeten zijn voor elke
opsteller van een correctievoorschrift bij examens.

Wel zal dan de effectiviteit (dwz. de invloed op de IBB-coëfficiënt) van de maatregelen
onderzocht moeten worden. Bij één oorzaak kunnen soms meerdere maatregelen bedacht
worden. Er zal dan bekeken moeten worden welke van de maatregelen het meest effectief
is.

De te nemen maatregelen kunnen vrij algemeen zijn voor alle soorten vragen (bv. hoe te
handelen wanneer kandidaten naast het goede antwoord onnodige en foutieve toevoegin-
gen geven) of specifiek op één soort vragen gericht (bv. reken doorwerkende fouten bij
afhankelijke vragen al dan niet weer een keer als fout).

Tegen sommige Van de oorzaken die als resultaat van de inhoudelijke analyses gevonden
werden kunnen geen maatregelen in een correctievoorschrift getroffen worden. Voorbeel-
den hiervan zijn te vinden bij het vak economie. Soms moet ter bestrijding van een lage
IBB-coëfficiënt eerder gedacht worden aan maatregelen in de vraag of zelfs aan het af-
schaffen van bepaalde vragen. Voorbeelden van het laatste zijn vragen waarbij een groot
aantal goede antwoorden gegeven kunnen worden of vragen waarbij als antwoord voor-
beelden gegeven moeten worden.

Bij maatregelen in de vragen kan gedacht worden aan het aanbrengen van responsrestric-
ties. De kandidaat wordt dan duidelijk gemaakt binnen welke grenzen (bv. van lengte)
zijn/haar antwoord moet vallen. Dit kan bv. toegepast worden op vragen die een min
of meer uitgebreid verbaal antwoord mogelijk maken of eisen.

Een laatste, meer algemene, maatregel die genomen kan worden om interbeoordelaars-
betrouwbaarheid bij eindexamens omhoog te brengen is het invoeren van duidelijk om-
schreven begrippenkaders binnen vakken. In dit onderzoek werd gevonden dat IBB-
coëfficiënten een afnemende tendens vertonen naarmate het vak minder exact te noe-
men valt. Een verklaring hiervoor zou gevonden kunnen worden in het feit dat het be-
grippenkader van de meer exacte vakken beter omschreven is (het woord 'verklaar' heeft
in de wiskunde een veel nauwer omschreven betekenis dan in de economie). Het ont-

Werpen van goed omschreven begrippenkaders zal echter een langdurige en moeizame
Weg zijn.

Dat er aanleiding bestaat om iets te gaan doen aan het verhogen van IBB-coëfficiënten
"loge blijken uit de resultaten van het onderzoek voor wat betreft de inventarisatie van
deze coëfficiënten in de praktijksituatie (vraagstelling a). Bij wiskunde was het beeld
nog rooskleurig, bij natuurkunde minder en bij economie was er op sommige punten
duidelijk reden tot zorg.

Nu zijn er wel enkele bezwaren in te brengen tegen de externe validiteit van het onder-
hoek met betrekking tot vraagstelling a. Beschreven werd hoe het sequentie-effect, het
halo-effect en het contaminatie-effect in dit onderzoek onder controle werden gebracht.
Dit betekent echter wel dat dat de onder vraagstelling a berekende coëfficiënten een over-
schatting kunnen zijn van de coëfficiënten in de praktijk waar deze effecten mogelijk wel
Werkzaam zijn. Vermeld werd ook dat alleen examenwerken waarop bij de meeste vra-
gen een antwoord gegeven werd in het onderzoek werden opgenomen en dat bovendien
bij de berekening van de IBB-coëfficiënten per vraag kandidaten die op de betreffende
Vraag geen antwoord gegeven hadden uit de analyse verwijderd werden. De reden hiervoor
Was dat een correctievoorschrift niet op waarde beoordeeld kan worden zonder te beoor-
delen antwoorden. Beide maatregelen hebben wel tot gevolg dat door verwijdering van
potentiële nul-antwoorden de spreiding van de leerhngscores (a^p) beperkt wordt en dien-
tengevolge de berekende IBB-coëfficiënt vanuit dit oogpunt bezien een onderschatting is
van die in de werkelijkheid. In hoeverre dit elkaar opheft valt niet te zeggen.
Daarnaast zijn er nog enkele verschillen tussen de onderzoekssituade en de praktijksitua-
tie. Zo ontbreekt de in de praktijk verplichte 2e corrector in het onderzoek en kan de
beoordeling in de praktijk gezien de belangen die daar meespelen veel intensiever zijn.
Naar het oordeel van de auteur kan de in dit onderzoek gerapporteerde ri op z'n minst
als een indicator voor de IBB-coëfficiënt in de praktijk gezien worden, daarvoor zijn er
genoeg overeenkomsten. Het is onmogelijk de examensituatie met alles wat daar om heen
Speelt in een onderzoekssituade na te bootsen.

Coffman, W.E. Essay Examinations. In: R.L. Thorndike: Educational Measurement. Washington:
American Council on Education, 1971.

Doevendans, TJ. Correctievoorschriften bij examens in open-vraag-vorm. CVO-bulletin nr. 6, 1980.

Hamaker, C. Toetsconstructie: Proces, Fasen. Losbladig Onderwijskundig Lexicon-Mk 110, 1979.

•kreeft, H. en Sanders, P. Beoordelaarsbetrouwbaarheid en geheimhoudingsproblematiek. Algemene
publicatie nr. 5 Arnhem: CITO, 1980.

Mellenbergh, G.J. Studies in studietoetsen (diss.). Amsterdam: Universiteit v^ Amsterdam, 1971.

Rajaratnam, N. Reliability formulas for independent decision data when reliability data are matched.
Psychometrika. 1960,25, 261-271.

Sanders, P. De resultaten van een onderzoek naar het onderdeel "vragen' van het CSE Latijn-I. Arn-
hem: CITO, 1978 (interne publicatie).

Sheridan, W. Open-Ended Questions. In: H.G. Macintosh (ed.) Techniques and Problems of Assess-
ment. London: Edward Arnold, 1974.

The logarithmic scoring formula for the assessment of subjective probabihties is extended with
a parameter for the tolerance for unjustified extreme probabilities. This parameter specifies
how fatal a wrong assignment of zero probability should be in a given test-situation. An analogy
with the use of levels of significance is pointed out. The method of Multiple Evaluation where
testee's report their personal probabilities on the different alternatives is claimed to measure the
valid part of the subjective certainty in knowledge testing: an unjustified showing of certainty
is properly punished if the proposed scoring-formula is used. The method was used in the real-
life situation of 96 students making an exam. Results of multiple-choice scoring and multiple
evaluation scoring are compared and related to a score for realism that was proposed by Shuford
and Brown. The score for realistic assessment of the probabilities was highly correlated with
knowledge as measured in the M.E. and the M.C. scores, if M.E. is partialled out the correlation
with M.C. reduces to zero, if M.C. is partialled out a substantial correlation between M.E. and
realism remains. This indicates that all valid covariation of M.C. and 'realism' is measured in
M.E.; M.E. was a more reliable measure than M.C.

No empirical validity coefficients could be computed in the absence of a good criterion, the
conceptual validity of M.E. however is high. Computer programs for test-presentation, scoring
and data analysis are available.

Wanneer iemand een stuk leerstof bestudeerd heeft en hij moet daarover een Multiple
Choice-test maken zal hij per item de kansen afwegen dat elk der alternatieven juist is-
Het resultaat van dit denkproces kan weergegeven worden als een kansverdeling over de
antwoordalternatieven. Bij Multiple Choice moet doorgaans één alternatief, het meest
waarschijnlijke, worden aangestreept, het testresultaat heeft slechts één bit informatie:
goed of fout. Bij Multiple Evaluatie moet de geteste per item de kansen opgeven, waarop
zijn M.C.-keuze gebaseerd zou zijn. Dit zijn conditionele kansen en zij geven het antwoord
op de vraag: 'Hoeveel procent kans is er dat dit alternatief juist is, gegeven de kennis en
informatie waarover de geteste beschikt, of die hij, denkend over de materie die in het
item (inclusief de antwoordalternatieven) aan de orde is, kan produceren'. Aanvankelijk,
voordat het item gelezen is, geeft dit een uniforme kansverdeling over de alternatieven-
Doordat over het item gedacht wordt kan zich deze kansverdeling wijzigen: sommige
antwoordalternatieven worden waarschijnlijker dan andere, en nadat het item bestudeerd
is kan de geteste opgeven hoeveel procent kans er is, dat volgens hem een alternatief juist
is. Op deze wijze geeft Multiple Evaluatie per item meer informatie over de mate, waarin
iemand kennis over het onderwerp van het testitem paraat heeft-c.q. kan (re)produceren:
de itemscore is niet óf O óf 1, zoals bij Multiple Choice, maar loopt in principe van O
(uniforme kansverdeling, geen kennis of informatie) tot 100 (perfecte kennis: 100% kans
op juist voor het goede alternatief).

De vraag, hoe de subjectieve kansen op juistheid voor de alternatieven in een testsituatie
opgevraagd moeten worden, is niet triviaal. De testsituatie moet zodanig zijn dat de geteste
zijn verwachte score maximaliseert dan en alleen dan, wanneer hij de kansen eerlijk en
Correct opgeeft. Of dit zo is hangt af van de scoringsfonnule, waaruit de optimale
strategie volgt. Reeds in 1962 werkte van Naerssen (1962) een aantal van deze scorings-
formules uit. De voorwaarden waaraan een dergelijke formule zou moeten voldoen zijn
recentelijk door Hofstee (1980, pag. 89 e.v.) nog eens netjes op een rijtje gezet. Twee
methoden komen in aanmerking die elk echter één van de gewenste eigenschappen missen:
de kwadratische scoring en de logarithmische scoring. Bij kwadratische scoring is de score
mede afhankelijk van de vorm van de kansverdeling over de onjuiste alternatieven (iets
Wat de geteste per definitie niet in de hand heeft). Bij logaritmische scoring wordt de
Score uitsluitend bepaald door de kans, die voor het juiste alternatief is ingevuld. Om deze
reden hebben wij, evenals Shuford en Brown (1975), gekozen voor laatst-genoemde
methode. Het bezwaar dat het mogelijk is voor een item een score van min oneindig te
behalen (Lord en Novick, 1968, p. 323) geldt niet meer wanneer voor de door ons inge-
voerde tolerantie-parameter c een waarde groter dan nul gekozen wordt (zie 2.3.).
De scoringsformule heeft de volgende algemene vorm:

baarbij A en B constanten zijn die vrij gekozen mogen worden, pr de kans is die de getes-
te aan het juiste alternatief gaf en S de itemscore. De testscore is de gemiddelde itemscore.
Een consequentie van deze scoringsformule is dat de score voor een item een zeer grote
negatieve waarde krijgt als Pr naar nul nadert (min oneindig wanneer de geteste 100%
op een onjuist alternatief zet). Dit is door goede beantwoording van overige items niet of
nauwelijks meer te compenseren: zo'n fout is fataal. Nu zijn er real life situaties denk-
baar waarin het voorkomt, dat een met overgrote zekerheid gegeven foutief oordeel inder-
daad fataal is, maar het lijkt niet realistisch om elke tentamen-situatie zo in te richten,
^an Naerssen kiest om deze reden voor een kwadratische scoringsformule, Shuford en
Brown kappen de scoringsfunctie af, zodat beneden een bepaalde grens p^ < Pn,;,, de ge-
teste een vaste minimumscore krijgt, ongeacht de exacte waarde voor p die hij heeft inge-
^Id. Wij geven er de voorkeur aan om, met behoud van de goede eigenschappen van de
'ogarithmische scoring, de mate waarin een extreem foutief oordeel van de geteste fa-
taal is variabel te steUen door hiervoor een parameter in de scoringsformule op te ne-
men. Degene die de test afneemt kan dan, in overeenstemming met het onderwerp en het
doel van de test, tevoren de juiste waarde voor deze parameter kiezen: in sommige
(beroeps)situaties is een beoordelingsfout inderdaad fataal, in andere moet hij milder
beoordeeld worden. De gegeven scoringsformule moet dus gemodificeerd worden met
®en parameter, die de tolerantie bepaalt voor overschatting van de eigen kennis door de
geteste. In plaats van de ingevulde kans Pr nemen we daartoe in de scoringsformule een
'ineaire functie van Pr zodat het effect van de parameter is, dat de kansverdeling die de
êeteste opgeeft 'met een korreltje zout' genomen wordt, dat zijn kansverdeling enigszins
gladgestreken wordt zo, dat hij meer de unifonne verdeling benadert. Overigens moet dit

effect voor niet-extreme kansen en bij een niet al te grote tolerantie gering zijn. De resul-
terende scoringsformule heeft de volgende vorm (waarbij c de parameter voor de toleran-
tie is, O < c < 1.0, en k het aantal antwoordalternatieven):

De konstanten A en B in de scoringsformule (2) worden zo gekozen dat per item (en dus
ook voor de gehele test) een gemakkelijk te interpreteren score S resulteert.
We stellen de volgende eisen:

1) De maximale score, te behalen door hen die over perfecte kennis beschikken en 100%
invullen achter het juiste alternatief moet 100 punten zijn.

2) Iemand die absoluut niet weet welk van de alternatieven het juiste is, en dus een uni-
forme kansverdeling invult (alle alternatieven een even grote kans) krijgt O punten.

3) Iemand die voor het juiste alternatief een kans kleiner dan 'toeval invult (p^

krijgt voor dat item een negatieve score (strafpunten: één of meer onjuiste alter-
natieven gaf hij een — veel — te hoge kans): hij heeft over dat item verkeerde in-
formatie, die leidt tot argumenten voor de onjuistheid van een alternatief dat in feite
het juiste is!

Het maximale aantal 'strafpunten' dat iemand kan krijgen (als hij 0% voor het juiste
alternatief invult) is nu ook te berekenen:

Wanneer in de beoordelingsformule (2) de waarde c = O gekozen wordt is de test zeer
streng: een extreme beoordelingsfout op één item (p = O voor het juiste alternatief) is
fataal en geeft een itemscore van min oneindig, wat niet met goede antwoorden op andere
items gecompenseerd kan worden. Kiest men echter c zeer dicht bij één dan is men zeer
tolerant en stimuleert zelfs het geven van extreme beoordelingen: de optimale strategie
is in dat geval om, ongeacht de eigen mate van kennis, voor het meest waarschijnUjke

alternatief een kans van 100% in te vullen; de testsituatie is gedegenereerd tot 'multiple
choice' waarbij men één alternatief als 'het' juiste moet aanstrepen, ook al twijfelt men
(zie 2.4 en 5.4). Een adequate keuze van c zal ergens tussen deze twee extremen in moeten
liggen. Daarbij zullen verschillende overwegingen een rol kunnen spelen: hoe zwaar moet
een extreem foutieve beoordeling worden afgestraft (in aanmerking genomen dat de

geteste zich door het opgeven van kansen in de buurt van ^ altijd van het geven van een

extreem oordeel kan onthouden) en met welke overmaat van stelligheid mag de geteste
zijn oordeel geven als hij slechts over onvolkomen kennis beschikt? Het is duidelijk dat
het antwoord op deze vragen afhankelijk is van het onderwerp en de context waarin de
test wordt afgenomen. De maximale afstraffing van een extreem stellig oordeel dat onjuist
is wordt gegeven in formule (5). Uit deze formule kan met analytische methoden c alleen
opgelost worden wanneer deze maximale afstraffing gelijk is aan de bonus voor een ex-
treem stellig oordeel dat juist is: voor x = -100 wordt c = j^CD® oplossing c = 1 komt

niet in aanmerking omdat deze impliceert dat bij de scoring in het geheel geen rekening
gehouden wordt met het antwoord dat de geteste heeft ingevuld). In het algemene geval
Zal men met formule (5) de waarde van x bij verschillende gegeven waarden van c moeten
berekenen. In 2.5. zullen we nader op de betekenis van de parameter c in kunnen gaan,
hier zij slechts duidelijk gesteld dat de waarde van deze parameter mede-bepalend is voor
het karakter van de test en dus door de testgebruiker (testauteur) moet worden vastgesteld
afhankelijk van het doel waarvoor en de context waarin de test wordt afgenomen.

Gebmik van scoringsformule (2) heeft als consequentie dat, voor Ct^O, de optimale
strategie niet meer is om de ware subjectieven kansen Wj voor alternatief i op te geven,

(iets wat vrijwel alle getesten toch al doen). Dit is gemakkelijk in te zien wanneer we ons
afvragen welke waarden pj ingevuld moeten worden bij een gegeven Wj om de verwachte
Score te maximaliseren. De verwachte score volgt uit (2) en is gelijk aan:

Via partiele differentiatie met een onbepaald vermeningvuldiger kan worden aangetoond
dat deze functie maximaal is (onder de voorwaarde dat Sp; = 1) wanneer voor alle i:

Omdat de op te geven kansen pj moeten liggen tussen O en 1 volgt uit deze relatie dat alle
getesten met een w; > w^ax voor een alternatief i, voor dat alternatief pj = 100% moeten
(mogen) invullen om hun score te maximaliseren (gegeven de kennis en informatie waar-

over zij bescliikken op liet moment van de testafname) en evenzo dat zij voor Wj < Wmin
een pj = 0% moeten (mogen) invullen, waarbij uit (8) en het feit dat pj = O en Pj = 1,0
extreme waarden zijn volgt:

Dit betekent dat we met scoringsformule (2) over een 'admissable probability measure-
ment procedure' (Sliuford e.a. 1966) beschikken mits de feitelijke waarschijnlijkheden
uit de gerapporteerde berekend worden met de formule (8) voor de range van ware sub-
jectieve waarschijnlijkheden tussen Wn,in en w^ax; op en buiten deze grenzen worden zij
niet meer correct gemeten omdat daar alle getesten een kans van 0% of van 100% opge-
geven als zij-hun score maximaliseren, ongeacht de ware mate van hun kennis en informa-
tie: getesten met een Wj > w^a^ krijgen geen gelegenheid precies te tonen hoe goed zij
de stof beheersen, zij scoren allen even hoog: 100%.

In een andere context Olofstee 1980 pag. 93) zou men kunnen stellen dat we het de
geteste onmogelijk maken om in de 'emirische discussie' uitspraken te doen met de
pretentie dat ze meer kans dan w^^^ (of minder dan w^in) hebben om juiste te zijn.
Al te stellige, 'deterministische uitspraken (p = O of p = 1) worden door het forum met
een korrel zout genomen cn geven bij gebleken onjuistheid geen aanleiding tot een 'feeste-
lijke faillisement' (Hofstee).

Samenvattend: we hebben in de logarithmische scoringsformule een parameter c (O ^
c< 1) geïntroduceerd, die de mate van tolerantie van de testauteur weerspiegelt voor
extreem stellige oordelen die onjuist zijn. Bij een vast aantal antwoordalternatieven k
blijkt deze parameter in een één-één relatie te staan met de maximale 'afstraffing' die ge-
geven wordt (x, formule 5), met de minimale subjectieve waarschijnlijkheid die vereist is
om de ortbetwijfelbare juistheid van een oordeel te mogen poneren, (w^ax. formule 9)
en met de mate van onwaarschijnlijkheid waarbij men iets als 'onmogelijk' mag verwer-
pen (wmin, formule 10). Deze laatste vorm van de parameter geeft een analogie met de
methodologische regel een hypothese te verwerpen als de kans op de gevonden experi-
mentele resulaten kleiner is dan een bepaald significantieniveau'. We kunnen door sub-
stitutie van (10) in (2) de scoringsformule he'rschrijven met dit 'significantieniveau'
als parameter:

1. N.B. ter voorkoming van misverstand: dit zegt niets over de kans dat de hypothese juist is, maar
alles (?) over de tolerantie van sociale wetenschappers voor onjuiste uitspraken: het wordt acceptabel
geacht om in b,v. 1% van alle gevallen ten onrechte een juiste hypothese te verwerpen (zie ook
Hofstee 1980).

Een Multiple Evaluatietest geeft niet alleen een score voor de gemeten kennis, maar zij
geeft ook een maat in hoeverre de geteste zichzelf wat zijn kennisniveau betreft realis
tisch beoordeelt (Shuford en Brown, 1975). Wanneer zijn zelfbeoordeling (zoals uitge
drukt in de door hem opgegeven kansen pj) reahstisch is, zullen deze kansen overeen moe
ten komen met het percentage alternatieven dat feitelijk juist is: van de verzameUng alter
natieven die hij elk een kans van 80% juist geeft, zal in feite ook 80% juist moeten zijn,
wil hij zijn kennis over deze alternatieven goed inschatten. We kunnen nu voor iedere kans
P nagaan hoe groot de proportie juiste alternatieven is, waaraan die kans p is toegekend,
^e noemen deze proprotie g. Het is een schatting van de conditionele kans g dat een
alternatief juist is, gegeven dat de geteste er een kans p aan toekende. We noteren g;
Voor deze 'ware' kans dat alternatief i juist is, gegeven de kennis en het inzicht van de
geteste, en p; voor de door hem opgegeven kans op juist.

In navolging van Shuford en Brown (1975) gaan we voor de nu volgende analyse uit van
een eenvoudige lineaire relatie: gj = apj + b. Omdat zowel g als p gesommeerd over i de
Waarde één geeft hgt in dit model de waarde van b vast bij een gegeven waarde van a:

We kunnen de parameter a nu interpreteren als een maat voor het realisme (van de zelf-
beoordeling) van de geteste met afwijkingen van perfecte zelfkennis in de richting van
Zelfoverschatting (a < 1) of voor zelfonderschatting (a > 1). Voor a < 1 geldt onder het

gegeven model immers: < gi < Pi öf ^ > gi > Pi voor alle i en voor a > 1 : -i < pj <

Si óf ^ > Pi > gi voor alle i. Wanneer de geteste zijn kansen 'correct' opgeeft en zijn eigen
kennisniveau goed weet in te schatten is de richtingscoëfficié'nt a = 1 en de konstante
b = 0.

I^e waarde voor p en de bijbehorende schattingen g voor g zijn met het testresuUaat
gegeven en hieruit kan een kleinste kwadratenschatting voor de richtingscoëfficiënt
a gemaakt worden, zo, dat:

f^e kleinste kwadratenschatting voor de richtinscoëfficiënt a die (13) mmimaliseert is:
kSp-n

Waarbij n het totale aantal items m de test is, elk item k alternatieven heeft, waarvan

slechts één goed is. 2 betekent sommeren over de goede alternatieven en S sommatie
g '

De geschatte richtinscoè'ifficiënt ä is een maat voor het realisme van de zelfbeoordeling
van het eigen kennisniveau op het gebied waarover de test gaat: a = 1 betekent dat de ge-
teste zijn kennisniveau juist inschat, a > 1 betekent dat hij zijn eigen kennisniveau onder-
schat, a < 1 betekent dat hij zijn eigen kennisniveau overschat. Een extreme mate van
zelfoverschatting doet zich voor, als iemand niet in staat is om met een hogere kans op

juist dan ^ liet goede alternatief aan te wijzen, en desondanks consequent kansen van

Substitutie in (14) heeft in dit geval van extreme zelfoverschatting een waarde gelijk aan
nul voor ä. Waarden van a kleiner dan nul zouden er op duiden dat systematisch foute
alternatieven als juist worden aangewezen, een gedragsvorm die theoretisch mogelijk,
maar in een testsituatie uitermate onwaarschijnlijk is.

Een extreme mate van zelfonderschatting doet zich voor, als iemand steeds het juiste

alternatief kan aanwijzen, maar er consequent de zeer lage kans t: = 5 aan toekent, terwijl

hij foute altematieven consequent de kans^ geeft. Als 5 tot nul nadert geeft deze

verdeling maximale onzekerheid bij 'perfecte' kennis: de proefpersoon blijkt in alle geval-
len het juiste antwoord perfect te kunnen aanwijzen, maar hij denkt zelf dat hij absoluut

niets weet. In deze (niet erg waarschijnlijke) pathologische situatie wordt Sp = ^^ en
Substitutie in (14) geeft dan als waarde

tot nul nadert, willekeurig groot kan worden. In het niet pathologische geval dat iemand

met perfecte kennis voorzichtigheidshalve steeds kansen van .95 voor het juiste antwoord

afhankelijk van het aantal antwoordaltematieven. In concreto betekent dit voor b.v-
een toets met vier antwoordaltematieven dat de realismescore a voor zo iemand gelijk
wordt aan 1.07, een bescheiden mate van onderschatting van de eigen kennis, die in de
orde van grootte ligt van de maximale waarden die wij in ons empirisch onderzoek von-
den (zie 5.2.).

Er zijn — afgezien van de psychometrische eigenschappen — goede en overtuigende argu-
menten aan te voeren om in een onderwijssituatie kennis te toetsen met de Multiple
Evaluatie methode (Shuford en Brown, 1975). Ook uit overwegingen die meer ontleend
zijn aan de cognitieve psychologie moet aan deze methode de voorkeur gegeven worden
boven Multiple Choice (Dirkzwager, 1975). Hier zij slechts genoemd dat met M.E. het
kennisniveau, per item, genuanceerd gemeten wordt en dat het mogelijk is de leerling
(student) hierover gedetailleerde feedback te geven, gerelateerd aan zijn zelfbeoordeling
op het moment van de test-afname.

Wanneer men aanneemt dat het voor een efficiënte studie-inspanning belangrijlc is goed
in te schatten wat men weet en wat men niet weet, en als men het als een van de onder-
wijsdoelstellingen ziet om de leerlingen bij deze zelfbeoordeling te helpen en hen erin
te oefenen, vormt dit ook een belangrijk argument voor Multiple Evaluatie (de Groot
en van Naerssen, 1969 pag. 269). Bovendien moet het voor consciëntieuze leerlingen
prettiger zijn, dat zij genuanceerd op kunnen geven hoe (on)waarschijnlijk zij het achten
dat bepaalde altematieven juist zijn, dan dat zij geforceerd worden een keuze te maken,
ook al zouden ze twijfelen tussen b.v. twee van de vijf gegeven alternatieven. Als zij het
echt goed weten kunnen zij dat in hun antwoorden tonen door hoge kansen te geven
aan de ahernatieven waarvan ze weten dat ze juist zijn, en zo de schijn dat ze 'gegokt'
hebben vermijden.

In het voorgaande hebben we de term 'zekerheid' zorgvuldig vermeden. De subjectieve
beoordeling dat een bepaalde uitspraak juist is kan niet gelijk gesteld worden met het
subjectieve gevoel van zekerheid over de juistheid van een uitspraak. Het is vrij bijzonder
Wanneer men 'op zijn gevoel' tot juiste oordelen kan komen, en wanneer men op een
bepaald gebied niet heel goed thuis is moet men erg voorzichtig zijn met dergelijke
intuitieve oordelen.

Een kritische instelling, juist in situaties waarin men zich zeker voelt, is - althans in het
wetenschappelijk bedrijf - noodzakelijk om tot een weloverwogen oordeel te komen.
Maar niet alleen in de wetenschap, ook in praktische situaties waarin een beroep op
iemands kennis gedaan wordt is het van belang, dat niet gehandeld wordt op grond van
stellige oordelen waarvan de 'kans op juist' bij kritische beschouwing vrij laag is. Ander-
zijds kan kritische onzekerheid er een oorzaak van zijn, dat belangrijke en juiste informatie
niet met voldoende stelligheid wordt gebracht. Dit komt, gezien de sociale reïnforcement
Van het doen van duidelijke en stellige uitspraken waaraan moeilijk getwijfeld kan
Worden, waarschijnlijk zelden voor.

Subjectieve zekerheid is dus een variabele die als zodanig niet qq. samengaat met valide
kennis. Het wekt dan ook geen verbazing, dat pogingen om door toevoeging van een
zekerheidsaanduiding aan de traditionele multiple choice test de betrouwbaarheid en/of
validiteit te verhogen, doorgaans teleurstellende resultaten hebben: hooguit verhogen
systematische interindividuele verschillen betreffende de (rapportering van de eigen)
zekerheid in een dergelijke testsituatie de betrouwbaarheid van de test enigszins, omdat
een -overigens niet noodzakelijk aan kennis gerelateerde - extra factor de variantie mede
bepaalt. Een voorbeeld is te vinden in het proefschrift van Sandbergen (1973), die in
navolging van de Groot en van Naerssen (1969 pag. 268) proefpersonen bij de aange-
streepte alternatieven laat opgeven of zij 'zeker' zijn van de juistheid van dat alternatief.
De door hem gebruikte scoringsformule imphceert dat proefpersonen die in alle gevallen
dat zij een alternatief met meer dan 50% kans juist achtten opgeven dat zij zeker zijn van
hun antwoord hun verwachte score maximaliseren, ongeacht hun feitelijke kennis of
'zekerheid'. Zou het teveel gezegd zijn te stellen dat deze scoringsformule zelfoverschat-
ting stimuleert, althans met hogere scores beloont? Verhoging van de betrouwbaarheid
Van de test (die nu mede het kenmerk 'zelfoverschatfing' meet) en - voorzover zelf-
overschatting negatief gerelateerd is aan kennis en inzicht - verlaging van de validiteit
ligt bij een dergelijke methode van 'testscoring met zekeraanduiding' in de lijn der

Aan dit bezwaar lijdt Multiple Evaluatie niet, omdat gerechtvaardigde zekerheid de score
Verhoogt. 'Zekerheid' die niet met kennis gepaard gaat (zelfoverschatting, te extreme kan-

sen opgeven) verlaagt de verwachtte score evenals 'onzekerheid' die niet gebaseerd is op
kritisch inzicht in het eigen gebrek aan kennis (te lage kans opgeven voor het meest-
waarschijnlijke alternatief). Als het gaat om het toetsen van kennis hebben we dus in Mul-
tiple Evaluatie een methode om het valide gedeelte van de mysterieuze variabele 'zeker-
heid' in de score op te nemen.

In termen van Hofstee's weddenschapsmodel (Hofstee, 1980, pag. 108), geeft de M.E.
score de mate van 'Gelijk', die een tentaminandus behaalt in een weddenschap met een

volkomen onwetend iemand, die steeds ^ invult en dus een score gelijk aan nul behaalt,

of, in een ongunstig geval, de mate van 'Ongelijk' als hij, in tegenstelling tot deze ignora-
mus, frequent met stelligheid onjuiste oordelen geeft. Bij onderwijs evaluatie is het
vesciiil tussen voor- en natoets te beschouwen als het resultaat van een weddenschap
tussen de student in zijn 'naieve' en in de 'geleerde' staat en is het een empirisch te be-
antwoorden vraag of zijn grotere zekerheid na gevolgd onderwijs hem ook meer 'Gelijk
oplevert (een zeer ongunstig maar niet ondenkbaar onderwijseffect zou kunnen zijn dat
meer onjuiste oordelen met groter gezag en stelligheid geponeerd zouden worden, wat tot
een grotere mate van 'Ongelijk' leidt).

Tenslotte is een vergelijking op zijn plaats met procedures waarbij aan verschillende itenis
en keuze-alternatieven verscliillende gewichten worden toegekend. Dit levert doorgaans
niets op in termen van betrouwbaarheid of validiteit, tenzij deze gewichten aan de 'ability
van de geteste zijn gerelateerd. (Stanley en Wang, 1970). Dit laatste is, als de geteste ook
maar enigszins in staat is zijn ability in te schatten, bij M.E. duidelijk het geval: het ge-
wicht dat een item (alternatief) bij de scoring krijgt is een directe functie van de ingevul-
de kansen, die, naar we mogen aannemen, positief gerelateerd zijn aan de 'abihty van de
geteste. In concreto is dit gewicht gelijk aan O punten wanneer de geteste opgeeft niet tus-
sen de alternatieven te kunnen discrimineren voor alle alternatieven) en, in het

geval de geteste aangeeft dat hij 100% zeker het juiste alternatief kan aanwijzen, lOO
punten voor het juiste, en -x punten (formule 5) voor het onjuiste alternatief. Doorgaans
zullen de gewichten, afliankelijk van de ingevulde kansen, tussen deze extremen in liggen-
Nu tests meer en meer met de computer gescored worden en met de moderne goedkope
electronjsche zakrekenniachines bij een beperkt aantal tests ook 'handscoring' met for-
mule(2) nauwelijks meer een bezwaar mag zijn, is het de moeite waard empirisch na te
gaan hoe zich de Multiple Evaluatie methode in de praktijk gedraagt. De rest van het arti-
kel brengt over eerste bevindingen in deze verslag uit.

Aan het eind van het eerste semester van het eerste jaar moeten de studenten psychologie
aan de Vrije Universiteit een tentamen Inleiding Psychologie (Hilgard) doen. Het tenta-
men bestaat uit 50 multiple choice vragen met elk vier antwoordalternatieven. De vragen
zijn ontleend aan Hilgard en bestrijken het hele gebied van de psychologie. In overleg
met de betrokken studenten is het tentamen voor de eerste maal volgens de Multiple

Evaluatie methode afgenomen'^, waarbij ook Multiple Choice scoring werd toegepast
(het alternatief met de hoogste kans werd daartoe als 'gekozen' beschouwd). De afspraak
werd gemaakt dat het hoogste resultaat (ME of MC) voor de beoordeling zou tellen. Dit
had tot gevolg dat één student gepoogd heeft op twee paarden te wedden door
consequent één alternatief aan te kruisen en een ander alternatief de hoogste kans (door-
gaans 51% tegen het aangekruiste 49%) te geven. Deze student(e) haalde onder alle
scoringsmethoden duidelijk een onvoldoende.

Tevoren is aan de studenten uitgelegd hoe de Multiple Evaluatiemethode werkte. Bij deze
instructie is uitgegaan van een tolerantieniveau c = .004 (w^ax = -997, w^jn = .001), dit
impliceert dat de optimale strategie is de percentages kans exact overeenkomstig de 'ware'
kans in te vullen (afgerond op gehele getallen). De studenten zijn dan ook op deze wijze
geïnstrueerd. Zij konden een proeftentamen maken en kregen een tabel met voor iedere
achter het juiste alternatief ingevulde kans het aantal voor dat item behaalde punten. Met
name is bij de instructie beklemtoond dat men veel strafpunten krijgt als men aan het
juiste alternatief een te lage kans geeft (399 strafpunten bij p^ = 0%).

De resultaten zijn weergegeven in het scatterdiagram van figuur 1. Voor wat betreft de
richtingscoëfficiënt a (de mate waarin de studenten hun kansen reahstisch hebben inge-
vuld) is een driedeling gemaakt met als extreme groepen a < .60: de kansen zijn niet
realistisch ingevuld en a > .90: de kansen zijn realistisch, correct en nauwkeurig ingevuld.
De gemiddelde waarde van a was .71 bij een spreiding van .16, slechts voor drie studenten
Werd een a'> 1.0 gevonden (resp. 1.04, 1.06 en 1.18) zodat de conclusie gerechtvaardigd
is, dat de studenten in het algemeen niet een lagere ME-score krijgen doordat zij in de ge-
rapporteerde kansen hun eigen kennisniveau onderschatten. Wanneer zij niet de optimale
strategie volgen en daardoor hun ME-score verlagen komt dit doordat zij hun eigen
kennisniveau overschatten, althans te hoge kansen opgeven voor altematieven die zijn bij
'^C zouden gekozen hebben en veel te lage kansen invullen voor de andere ahernatieven.
In figuur 1 is te zien dat deze strategie door veel studenten gevolgd is die volgens de MC-
scoring (en uiteraard ook volgens de ME-scoring) zeer duidelijk onvoldoende kennis heb-
ben van de betreffende stof. We kunnen ons niet aan de indmk onttrekken dat sommige
studenten zich willens en wetens niet aan de optimale strategie gehouden hebben, omdat
zij van ziclizelf wel wisten dat zij dan zeker 'onvoldoende' zouden scoren (zie over de
'optimale' strategie bij een cut-off score ook Shuford en Brown 1975). Voorzover de door
de student gevolgde strategie dus niet optimaal was, versterkt dit de meting van het
kennisniveau volgens de ME-methode. Op de MC-score kan dit uiteraard geen invloed
hebben: daar is het niet uitgesloten dat een student met onvoldoende kennis door 'gok-
ken' en speculeren op toevalsfluctuaties toch nog een voldoende score behaalt.

Wanneer we de gemiddelde richtingscoëfficiënt over ahe getesten (dus inclusief zij die zich
hij gebrek aan voldoende kennisniveau duidelijk niet aan de optimale strategie gehouden

ln dit verband zij dank aan de betreffende docent, dr. J.H. de Swart, voor zijn welwillende mede-

ME
60

- 10

■ 20

■ 70
• 80

■ 90
■100

Figuur 1. Relatie tussen ME-score, MC-score en a-coëfficiënt:
O : a < .60; + : a> .90, Wmin = -001, w^ax = -997, toleran-
tie c = .004, maximaal 399 strafpunten, 50 vier-keuze vragen-

2. Relatie tussen ME-score, MC-score en a-coëfficiënt, O: a <.60; + a > .90 w^in =-10,
. 70, Tolerantieniveau c = .40, maximaal 89 strafpunten, 50 vier-keuze vragen.

hebben) berekenen, vinden we een waarde van .71. Als curiositeit hebben we nagegaan
hoe de ME-scores zouden uitvallen, wanneer we het tolerantieniveau op een overeenkom-
stige waarde stelden: w^a^ = -70, Wn,in = -10 en c= .40 (dit is tegenover de studenten
met een goed kennisniveau die overeenkomstig de instructie de optimale strategie volgden
en hun kansen eeriijk ingevuld hebben uiteraard niet eerlijk). De resultaten zijn weerge-
geven in figuur 2. Nu blijkt dat de studenten die de subopriniale strategie volgden vrijwel
'liet meer te onderscheiden zijn van de gemiddelde student: wie zijn gebrek aan kennis
tracht te camoufleren door hoge kansen op te geven, valt bij dit tolerantie niveau niet
meer door de mand. Tevens zien we dat studenten die overeenkomstig de instructie de
optimale strategie volgden (a>.90) te lage ME-scores krijgen. Scores volgens de
•^E-methode en volgens de MC-methode berekend zijn vrijwel niet meer te onderscheiden,
de correlatie is haast perfect, de extra informatie vervat in de ME-score met een lager
tolerantie niveau is verloren gegaan.

Resultaten bij maximale tolerantie voor ongerechtvaardigde zelfverzekerdheid.'^
In het extreme geval, wanneer de tolerantie c naar 1 nadert, degenereert de ME-methode

Het tegendeel (ongerechtvaardigde bescheidenheid) komt, althans in onze steekproef, zelden of
"Ooit voor (zie 5.2).

3. Relatie tussen ME-score, MC-score en a-coéfficiënt, O. a <.60; +; j > .90, w^in '
- .26, Tolerantieniveau c = .997, maximaal 34 strafpunten, 50 vier-keuze vragen.

tot de gebruikelijke MC-methode, Wmin en w^ax naderen beide de toevalskans' j^, de

ware kansen die de student aan de alternatieven toekent kunnen niet meer worden
gemeten, de optimale strategie is om de alternatieven óf 0% óf 100% kans te geven. Hoe-
wel we de studenten uiteraard niet hadden geïnstrueerd deze strategie te volgen ver-
moedden we toch dat sommige studenten (die volgens de MC-methode zeer laag scoor-
den) deze strategie 'uit gewoonte of bijgelovigheid' hebben gevolgd. De resultaten
wanneer-met een dergelijke extreme tolerantie ME-scores worden berekend staan weer-
gegeven in figuur 3. Het blijkt uit de scores van de (volgens MC) beste studenten dat het
onverstandig is om er blijk van te geven dat men van bepaalde alternatieven niet 100% ze-
ker is, als de ME-situatie door grote tolerantie tot een MC-situatie gedegenereerd is.

Omdat we van mening waren dat scoring overeenkomstig de aan de studenten gegeven
instructie al te 'intolerant' zou zijn (ée'n 'fatale' fout van 0% voor een onjuist alternatief
kon slechts gecompenseerd worden door 4 items correct met 100% juist te beantwoor-
den) en omdat vrijwel geen student in staat was zijn exacte waarschijnlijkheden te rappor-
teren (wat een discriminatie tussen 0% en 1% en tussen 100% en 99% kans op juist zoU
impliceren) en vrijwel alle studenten hun kansen enigszins overschatten, is voor de defini-
tieve scoring uitgegaan van een = .01 (analoog aan het gebruikelijke significantieniveau
waarop psychologen hypothesen als 'onjuist' verwerpen) en derhalve een w^g^ = -97 ^n

figuur 4. Relatie tussen ME-score, Mc-score en a-coëfficiënt, 0: a <.60; +; a >.90. = .01,

^max = -97, tolerantieniveau c = .04, maximaal 234 strafpunten, 50 vier-keuze vragen.

een tolerantieniveau van c = .04. De resultaten zijn samengevat in figuur 4. Voor de MC-
score is de grens voor voldoende gesteld op minstens 35 items goed, voor de ME-score
'egden we deze grens bij gemiddeld 30 punten per item.

^e kunnen déze figuur zo lezen dat, voor een vaste MC-score er nog een duidelijke sprei-
ding bestaat van de ME-scores. Deze spreiding kunnen we grotendeels toeschrijven aan de,
de te meten kennis gerelateerde, afwijking van de optimale strategie door de student
Zoals gemeten met de richtingscoëfficiënt a. Het is dus, gezien het oogmerk het kennis-
niveau van de student te meten, valide variantie en niet voornamelijk meetfout (in de in
het vervolg van dit artikel te rapporteren partiële correlaties vinden we voor deze conclusie
®nige steun). Wanneer we echter uitgaan van een gegeven ME-score is de resterende sprei-

ding in MC-scores moeilijic aan iets anders toe te schrijven dan aan toevalsfluctuatie of
meetfout. Wanneer bijvoorbeeld met een ME-score tussen 30 en 40 een ware MC-score
van 35 goed (afgerond) correspondeert, d.w.z. zo iets als '30 items 100% zeker geweten

en de resterende 20 items met een kans van .25 gegokt', dan volgt hieruit dat de MC-

score rond het gemiddelde van 35 een toevalsspreiding van V20 X .25 x .75= 3.75 punten
moeten vertonen, terwijl volgens dezelfde redenering, wanneer bij een ME-score tussen
20 en 30 een ware MC-score van (afgerond) 32 goed behoort, de toevalsspreiding rond
deze score V24 x .25 x .75 = 4.5 punten is. Dh klopt vrij aardig met het beeld dat figuur
4 geeft en het lijkt dan ook niet onredelijk om het feit dat 7 studenten volgens ME vol-
doende maar volgens MC onvoldoende zijn en 5 studenten onvoldoende volgens ME en
voldoende volgens MC, te wijten aan deze toevalsfluctuaties in de MC-score en derhalve
de ME-score als basis te nemen voor een zo goed mogelijke beoordeling.

Om bovenstaande conclusies ook met statistische indices te onderbouwen zijn correlaties
en partiële correlaties berekend tussen de ME-scores, de MC-scores, de 'reaUsme-scores'
a, en elk van deze scores zoals berekend uit de twee testhelften (even, c.q. oneven items),
dit laatste om een schatting van de betrouwbaarheid te verkrijgen (ongecorrigeerd voor
testlengte).

In deze rapportage geven we zowel de resultaten bij een stricte ME-scoring (w^j^x ~ .997,
Wmin = -001 > c= .004, maximaal 399 strafpunten per vraag) als die bij de definitieve,
meer tolerante scoring (w^a^ = .97, w^in = .01, c = .04, maximaal 236 strafpunten per
vraag).

Correlaties tussen totaalscores en scores op de testhelften voor een test van 50 items met
elk 4 antwoordahernativen; n = 96. links onder: bij stricte scoring; rechts boven: bij tole-
rante scoring; ME: Multiple Evaluatie score, MC: Multiple Choice score, a : 'reahsme' van
opgegeven subjectieve) kansen.

Allereerst bezien we de betrouwbaarheid van a, deze geeft een antwoord op de vraag in
hoeverre een student gedurende de gehele test consistent dezelfde stratagie gevolg heeft
en zijn kansen steeds even reahstisch opgeeft.

De correlatie tussen a'i (berekend op de even items) en ai (berekend op de oneven items)
is vrij hoog (.59). Wanneer we het kennisniveau gemeten volgens MC constant houden
blijft er nog een significant betrouwbare correlatie over (.37) maar als we het kennisniveau
volgens ME scoren wordt de partiële correlatie gelijk aan nul (.05 bij stricte, -.09 bij tole-
rante scoring). Dit betekent dat alle betrouwbare variantie van de richtingscoëfficiënt a
gemeten wordt met de ME-score. Wanneer we de betrouwbaarheid van de ME-score
bezien, dan blijkt deze iets hoger dan die van de MC-score (.69 bij stricte en .65 bij tole-
rante scoring tegenover .61 als schatting van de betrouwbaarheid van MC). De partiële
betrouwbaarheid van ME blijft significant op het .01 niveau als we de MC-score constant
houden (.52 en .28 voor resp. stricte en tolerante scoring), maar de partiële betrouwbaar-
heid van de MC-score bij constante ME daalt tot .41 bij stricte scoring en tot .23 bij tole-
rante scoring, wat niet significant meer is op het .01 niveau. Hierin kan enige steun gevon-
den worden voor de hypothese dat met ME het kennisniveau betrouwbaarder gemeten
wordt dan met MC en dat althans bij tolerante scoring MC geen betrouwbare variantie
meet boven die welke met ME gemeten wordt.

Een argument voor de definitieve, tolerante scoring is nog te vinden in de correlatie tus-
sen de ME-score en de MC-score. Deze is hoog (.65 bij stricte en .79 bij tolerante scoring).
De partiële correlatie daalt echter bij stricte scoring tot een niet-significant niveau (.16)
als we a constant houden, wat erop wijst dat de samenhang in dat geval vrijwel uitsluitend
bemst op variantie tussen de studenten die met deze richtingscoëfficiënt a samengaat.
Bij tolerante scoring blijft de partiële correlatie hoog (.59), in dat geval meten ME en MC
beiden een onderliggende variabele relatief onafliankelijk van de door de student gevolgde
antwoord strategie.

Uit de correlatie tussen MC en a (.69) blijkt dat de gevolgde antwoordstrategie sterk
samenhangt met het kennisniveau gemeten volgens de MC-methode. Wanneer de ME-
score constant gehouden wordt is deze correlatie bij stricte scoring (.26) nog steeds signi-
ficant op het .01 niveau, wat erop wijst dat er valide variantie zowel met MC als met
a gemeten wordt, die bij stricte scoring niet in de ME-score tot uitdrukking komt. Bij
tolerante scoring ligt dat anders, dan daalt de partiële correlatie tussen MC en a bij
constante ME tot -.12, waaruit geconcludeerd mag worden dat dan alle valide variantie
die de samenhang tussen MC en a bepaalt met de ME-score gemeten wordt. Het omge-
keerde geldt niet: de correlatie tussen ME en a (.89 bij stricte en bij tolerante scoring)
blijft hoog als de MC-score constant gehouden wordt (resp. .81 en .79 bij stricte en bij
tolerante scoring). In dit licht zou men de (niet-significante) negatieve partiële cor-
relatie tussen MC en a zo kunnen interpreteren dat bij een gelijk kennisniveau de studen-
ten die een sub-optimale ME-strategie volgen ('gokken') daar bij de MC-scoring profijt
van hebben. De vraag of dit voor alle kennisniveau's geldt hebben we niet beantwoord,
maar het lijkt zeer waarschijnlijk dat dit effect voornamelijk bij de lagere kennisniveau's
optreedt.

Tenslotte een praktische opmerking. Er is een computer programma 'scoring' beschikbaar

0111 een (schriftelijke) ME-test te scoren, ook is er een programma 'test me' om een ME-
test aan dc computerterminal af te nemen, waarbij de leerling on-line de mogelijke
consequenties (aantal eventueel te behalen punten c.q. strafpunten) afliankelijk van de
door hem in te vullen kansen te zien krijgt en waarbij hij, wanneer zijn antwoord, de door
hem ingevulde kansverdeling, definitief is, direct feed-back krijgt over het juiste alternatief
en het behaalde aantal punten. Aansluitend op deze programma's kan met een programma
'uitslag' een print-out gegeven worden van de test resultaten per leerling (student)
uigesplitst over de items met een overall-schatting in hoeverre hij zijn kansen realistisch
ingeschat had. Dit programma geeft tevens per item de gemiddelde ME-score ('moeilijk-
heid') en de variantie ('discriminatie-vermogen'). Daarnaast worden itenitotaalscore cor-
relaties berekend voor de ME-score, de MC-score en de 'realisme'-score (a). Tevens krijgt
men voor elke item voor alle alternatieven de gemiddelde opgegeven kansen. Deze laatste
gegevens dienen om de validiteit van de items te bepalen. Tenslotte worden gemiddelden,
varianties van - en correlaties tussen - berekend voor de totaalscores (ME, MC en a) en
de scores op resp. de even en oneven items om een inzicht te geven in de betrouwbaarheid
van de toets. De programma's zijn geschreven in Pascal en op aanvraag beschikbaar bij de
auteur.

Dirkzwager, A.; Variable Utility Tests, a reasonable alternative for Multiple Choice Tests. Intern
rapport Vakgroep Functieleer en Methodenleer, subfac. Psychologie, Vrije Universiteit Amster-
dam, 1980.

Dirkzwager, A.; Computer-based Testing with Automatic scoring based on Subjective Probabilities,
p. 305-311 in O. Lecarne, R. Lewis eds. Computers in Education, North Holland 1975, Amster-
dam.

Lord, F.M., Novick, M.R.; Statistical Theories of Mental Test Scores, London 1968, Addison Wesley.

Sandbergen, S.; Zekerheidsaanduiding bij het meten van Studieprestaties, Ac. Proefschrift Amster-
dam, 1973,R.1.T.P.

Shuford, E., Brown, T.A.; Elicitation of Personal Probabilities and their Assessment. Instr. Science
1975,137-188.

Shuford, 5., Massengill, H., Albert, G.; Admissable Probability Measurement Procedures. Psychometri-
ka 1966,31,125.

Stanley, J.C., Wang, M.D.; Weighting test items and test item options, an overview of the analytical
and empirical litterature; Educ. Psych. Measurement, 1970, 30, 21-35.

Van Naerssen, R.F.; A scale for the Measurement of Subjective Probability, Acta Psych. 1962, 20,
159-166.

In het studiejaar 1979/80 werd aan de Faculteit der Rechtsgeleerdheid van de Leidse
Universiteit een nieuw curriculum ingevoerd, dat zich van het oude onderscheidt doordat
het een kortere cursusduur heeft. Daardoor kon het gebeuren dat cursussen die inheide
studieprogramma's voorkomen, in het nieuwe curriculum in een eerder cursuqaar
geprogrammeerd werden dan m het oude, en dat tijdens de overgangspertode studenten
uit verschillende cursuqaren aan hetzelfde onderwijs en hetzelfde tentamen deelnamen.
Zo'n geval deed zich voor bij de cursus Staatkunde, een cursus waarin onderdelen van het
staatsrecht en de politicologie in onderlinge samenhang worden gedoceerd. In het oude
curriculum was Staatkunde een tweedejaarscursus, in het nieuwe een propaedeutische
cursus. Wat bleek? Van de eerstejaarsstudenten (n= 1024) slaagde 72% voor het
tentamen, van tweedejaarsstudenten slaagde voor hetzelfde tentamen en onder toepassing
van dezelfde normen 95%.

Een verwant geval deed zich het jaar daarna voor: inmiddels overgegaan naar het tweede
cursuqaar, moesten de studenten nieuwe stijl in het eerste semester drie cursussen volgen,
die in het oude curriculum in het derde cursuqaar een plaats hadden gevonden. Dat
waren de cursussen Burgerlijk Recht, Burgerlijk Procesrecht en Internationaal Privaatrecht.
Tweede- en derdejaarsstudenten volgden hetzelfde onderwijs, namen deel aan dezelfde
tentamens en werden volgens dezelfde maatstaven beoordeeld. Bij BurgerUjk Recht
slaagde van de tweedejaarsstudenten (n = 433) 28%, van de derdejaarsstudenten (n = 152)
39%; bij Burgerhjk Procesrecht van de tweedejaarsstudenten (n = 394) 27%, van de derde-
jaarstudenten (n = 203) 39%; bij Internationaal Privaatrecht van de tweedejaarsstudenten
(n = 369) 47%, van de derdejaarsstudenten (n = 61) 59%. Het aantal studenten per ten-
tamen wisselt, omdat veel studenten nogal eens een tentamenmogehjkheid ongebruikt
laten.

Ouderejaarsstudenten doen het dus bij tentamens beter dan jongerejaarsstudenten, hoewel
onderwijs en tentamen hetzelfde zijn geweest. Er zijn waarschijnUjk tenminste twee
redenen waarom dat zo is. Ten eerste zijn ouderejaarsstudenten natuurlijk strikter geselec-
teerd dan jongerejaarsstudenten. Bij de overgang van het eerste naar het tweede cursusjaar
is de selectie aanzienhjk, bij de overgang van het tweede naar het derde cursuqaar minder,
maar toch nog steeds aanwezig. Een tweede reden is waarschijnUjk, dat ouderejaarsstuden-
ten meer studie-ervarmg hebben, die hun in staat steh van hetzelfde onderwerp meer mee
te nemen dan jongerejaarsstudenten. Voor de conclusie die ik aan bovenstaande gegevens
wil verbinden, is het overigens niet belangrijk of en in welke combinatie deze en mogeUjk
andere factoren een rol spelen; het feit dat, wanneer men een cursus van een hoger naar
een lager cursusjaar brengt, het gemiddelde prestatieniveau van de studenten daalt, is op
zichzelf een belangrijk effect waar herprogrammeerders rekening mee moeten houden. Ik
licht dat kort toe.

De clou van het herprogrammeren met het oog op de Twee-fasenstructuur zal zijn,
cursusduur te verkorten zonder het gemiddelde kwaliteitsniveau van de afgestudeerden
(zie voor een preciese defmtie: Crombag, 1978) al te zeer aan te tasten. Dat doel kan men
in theorie op drie manieren nastreven. Ten eerste door franje uit de curricula weg te
snijden, onder de veronderstelling dat franje wel tijd kost, maar niets wezenlijks aan de
kwaliteh van de afgestudeerden toevoegt. Ten tweede door het onderwijs efficiënter
in te richten, waardoor dezelfde of vergelijkbare onderwijsdoelen in kortere tijd bereikt
worden; een vooralsnog wat esoterische mogelijkheid omdat niet duidehjk is hoe je zoiets
doet. Ten derde door het curriculum te verdichten: dezelfde cursussen worden binnen een
beperktere tijdsperiode geprogrammeerd. Deze derde mogelijkheid zal door veel faculteiten
als eerste beproefd worden. Zij veronderstelt echter dat de oude curricula niet de
maximaal mogelijke dichtheid vertoonden. Als men de discussie over de 1700-uren-norm
beziet, dan mag men aannemen dat velen van mening zijn, dat heel wat curricula aanzien-
lijk verdicht kunnen worden (zie echter Crombag, De Gruijter en Cohen, 1981). Echter,
voorzover men bij de herprogrammering voor deze derde mogelijkheid zal kiezen, zijn de
hiervoor gepresenteerde gegevens van belang. Immers, verdichting van curricula zal leiden
tot het naar eerdere cursuqaren verplaatsen van tenminste een deel van de cursussen en die
operatie leidt, zoals de gepresenteerde gegevens laten zien, tot een verlaging van het
gemiddelde prestatieniveau van de studenten bij de bijbehorende tentamens. Het lijkt mij
van belang dat herprogrammeerders en hun adviseurs met dit effect van de verdichtings-
methode van herprogrammeren rekening houden.

Crombag, H.F.M. On defining quality of education.//ig/jer£"t/ucafioM, 1978, 7, 389403.
Crombag, H.F.M., De Gruijter, D.N.M. & Cohen, M.J. Zeventienhonderd netto uren? Universiteit en
Hogeschool, 1981, 27, 347-362.

In zijn bespreking van Hofstee's 'De Empirische Discussie' (TOR 1981, p. 154) brengt
Pieter Koele tegen het Model van Hofstee bedenkingen naar voren, die helaas groten-
deels berusten op misvattingen, terwijl wat voor Koele overblijft van Hofstee's voorstel
juist het zwakke punt is in het Model: het feit dat het te behalen gehjk voor een onder-
zoeker ervan afhankelijk is met welke (willekeurige) andere onderzoeker hij zijn wedden-
schap c.q. een 'goed gesprek' aangaat. In deze reactie wordt alleen op de misvattingen in-
gegaan.

Een vóóronderstelling van het Model is, dat in de empirische wetenschappen een onder-
zoeker zijn Gelijk of Ongelijk uitsluitend behoort te behalen uit experimenten. Een twee-
de vóóronderstehing is, dat - gegeven de beste inzichten en theorieën - experimentele
uitkomsten probabilistisch zijn: een uitkomst i heeft een kans kj om gereahseerd te wor-
den. Wanneer de uitkomst deterministisch bepaald is (kj = 1.0), is dat een bijzonder geval.
De best-mogelijke predictie die een onderzoeker kan doen is kansen pi op te geven, die
gelijk zijn aan ki. Voor zo'n onderzoeker moeten we 'in the long run' het grootst mogelijk
Gelijk (de hoogste score) kunnen verwachten. Het aardige van de logarithmische scorings-
regels is nu, dat mathematisch aangetoond kan worden dat aheen deze regel aan die voor-
waarde voldoet.

Grote zekerheid moet niet altijd afgestraft worden: aan de voorspelhng dat een blok ijzer
in water zal zinken mag gerust een kans p = 1.0 worden toegekend. Alleen wanneer men
ten onrechte zeker is (b.v. dat een gesloten ijzeren doos in water niet zal zinken) dient
men afgestraft te worden. Het is een plezierige eigenschap van de logarithmische scorings-
regel, dat deze afstraffing pas geëffectueerd wordt, wanneer de gebeurtenis waarvan men
zei dat zij onmogelijk was (pi = 0.0) in feite plaats vindt. Als de kans daarop zeer klein is
(kj = < 0.001 bijvoorbeeld) en het experiment niet al te vaak herhaald wordt, heeft de
betreffende onderzoeker nog een goede 'overlevingskans'. Het is te dogmatisch om grote
subjectieve zekerheid altijd (of nooit) te willen afstraffen. Een tweede plezierige eigen-
schap is (b.v. in het geval van de ijzeren doos, waarvan men gewicht en volume niet pre-
cies weet) dat men geen grote zekerheid behoeft voor te wenden: bij pr = .50 zal de af-
straffing minder zijn dan bij pj- = 0.0.

Terecht constateert Koele dat onderzoekers die 'overleven' (d.w.z. onder een logarith-
mische scoringsregel meer Gelijk hebben dan andere onderzoekers) onderzoekers zijn, die
zich het best hebben aangepast aan de procedure. Dit geldt echter voor ieder procedure,
ook als zij uitsluitend gebaseerd zou zijn op een min of meer demagogische forum-discus-
sie. Het aardige van een procedure, die op een logarithmische scoringsregel is gebaseerd, is,
dat we enige garantie hebben dat de beste onderzoekers 'overleven', d.w.z. die onderzoe-
kers die - met welke intuïties, methoden en middelen dan ook - het beste in staat en
bereid zijn de werkehjke kansen ki te schatten. Koele's bezwaar dat niet alle mensen in
staat of bereid zijn zich volgens zo'n model te gedragen snijdt geen hout. Even goed zou
men tegen de zwemsport kunnen zijn omdat niet alle mensen in staat of bereid zijn zich
(even) snel en doeltreffend in het water te bewegen. Wanneer de beoordehng van weten-

schappelijke uitspraken, die op empirische controleerbare zaken betrekking hebben, zou
berusten op de logarithmische scoringsregel, zou dit een omgeving definiëren waarin on-
derzoekers er wel naar moeten streven om naar beste weten en kunnen, met de noodzake-
lijke voorzichtigheid, uitspraken te doen, die zo goed mogelijk overeenkomen met de wer-
kelijkheid, althans voor zover die gekend wordt. Het risico van de 'folie è deux' wordt het
grootst wanneer men zijn gelijk niet meer toetst aan de werkelijkheid, wanneer men niet
bereid is middels experimenten volgens een goed gefundeerde procedure zijn gelijk te be-
wijzen door Gelijk te krijgen. Droogzwemmen is mooi, maar in het water wordt een be-
tere omgeving gevonden voor zwemtraining. Een goed gesprek tussen twee onderzoekers
is mooi, maar zo lang geen betere tegenargumenten gevonden worden dan Koele aan-
voert, definieert Hofstee's Model een goede omgeving voor de empirische discussie.

1. In de twee alinea's die Dirkzwager aan de kwaliteiten van de logaritmische scoringsre-
gel wijdt kan ik niets ontdekken dat alludeert aan een misvatting mijnerzijds. Wanneer
Dirkzwager meent dat absolute zekerheid (want daar ging het om; niet om grote zeker-
heid) niet altijd bestraft hoeft te worden moet hij in de slag met Hofstee, en niet met
mij.

2. De 'beïte' onderzoekers zijn bij Dirkzwager de onderzoekers die het beste in staat zijn
de uitkomsten van een experiment te voorspellen — en als je het zo formuleert is het na-
tuurlijk evident dat het de 'beste' onderzoekers zijn die Hofstee's procedure overleven-
Mijn punt dat de onderzoekers die het meeste Gelijk weten te verzamelen (Dirkzwagers
'beste' onderzoekers) niet noodzakelijkerwijze gelijk behoeven te hebben betreffende de
juistheid of geldigheid van hun theorieën laat Difkzwager echter onweersproken. Dat dit
bezwaar ook geformuleerd kan worden ten aanzien van andere onderzoeksprocedures is
juist, maar het is uiteraard geen reden het niet tegen Hofstee's procedure aan te voeren-

3. De vergelijking met de zwemsport gaat mank, en wordt te ver doorgevoerd. Wat Hof-
stee voorstelt laat zich niet vergelijken met de zwemsport, maar met een procedure om
te leren zwemmen. Indien niemand in staat of bereid is zo'n procedure te volgen heeft ze
voor de zwemsport weinig nut, hoe technisch volmaakt ze verder ook zijn mag. En dat
is precies wat ik opmerkte in mijn boekbespreking.

Psychometric contributions to the analysis of criterion-referenced measurement
Academiscli proefsclirift; Amsterdam, 1980

Het is een verheugend feit te constateren dat ook Nederiandse wetenschappelijke publikaties op het
gebied van de psychometrie in de Engelse taal verschijnen en daardoor internationaal bekend raken.
Op het gebied van multidimensional scaling en multivariate data-analyse blijkt dit uit de vele publika-
ties van Nederlandse auteurs in gerenommeerde Engelstalige tijdschriften. Ook op het gebied van de
psychometrie in engere zin is dit het geval. Kn op het specifieke terrein van kriterium-georiënteerd
meten (CRM) is het werk van Wim J. van der Linden kenmerkend voor deze ontwikkeling. Een aantal
van zijn Engelstalige bijdragen op het gebied van CRM die in de vakpers zijn verschenen of ter
publikatie zijn aangeboden, vormen de basis voor dit prettig leesbaar proefschrift. Een korte inleiding,
die tevcni als overzicht dient, gaat hieraan vooraf.

Wat is CRM? Op p. 3 is de omschrijving tc lezen: '...(measurements) are criterion referenced when they
indicate what performances a subject with a given score is able to, what his behavioral repertory is,
without any reference to scores of other subjects.' Een dergelijke omschrijving sluit niet uit dat toetsen
in moeilijkheidsgraad kunnen verschillen; soms is het zelfs nuttig om toetsen van een verschillende
moeilijkheidsgraad samen te stellen (zie hoofdstuk 6). In hoofdstuk 2 dat een overzicht over beslissen
geeft, beperkt Van der Linden zich steeds tot één toetsversie. Heeft men meerdere toetsen die in moei-
lijkheidsgraad verschillen, dan zal men natuuriijk met die verschillen rekening moeten houden.
Eveneens op p. 3 wordt CRM afgezet tegen traditionele testmethoden die vooral zouden dienen voor
fixed quota-selectie. Met een dergelijke eenvoudige tweedeling Iaat zich het toetsen in Nederland, waar
men veelal vaste normen tracht(te) te handhaven bij toetsen die men toch niet kriterium-georiënteerd
zou willen noemen, overigens minder adekwaat beschrijven.

Hoofdstuk 2 behandelt het optimaal nemen van beheersingsbeslissingen, waarbij ruwe scores x een
indicatie vormen voor domeinscores t. t Het gebruik van optimale beslissingsregels houdt in dat de
verdeling van domeinscores van een populatie van relevante personen (de prior verdeUng) in de regel
een rol speelt; dit lijkt strijdig met de op p. 5 gegeven omschrijving van CRM.

Hoofdstuk 2 begint met een algemene decisie-theoretische inleiding. Aan de prior .g(7) wordt zowel
een Bayesiaanse als een empirische Bayes interpretatie gegeven; in het laatste geval is g(T) de ware
scoreverdeling. Helaas wordt niet vermeld dat in de Bayesiaanse benadering ook zonder meer plaats is
voor een ware scoreverdeling.

Vervolgens worden verschillende bijzondere gevallen van bivariate verdelingen van X en T, met realisa-
ties x en T, gegeven. Formule 17 m.b.t. het bivariate model is moeilijk te lezen. Ten eerste staan er
twee typefouten in de formule, ten tweede wordt voor de gestandaardiseerde ware score het gebrui-
kelijke symbool voor de niet-gestandaardiseerde ware score t gehanteerd. Ook bij formule 23 dient
de lezer zich goed te realiseren dat Van der Linden met gestandaardiseerde variabelen werkt. In het
kader van de besliskundige beschouwingen in verband met beheersingsleren geeft de auteur enkele
voorbeelden van verliesfuncties. Waar nieuwe onderzoekslijnen worden beschreven komt het begrip
robuustheid van een verliesfunctie aan de orde (p. 52), in deze context de gevoeligheid van beslissin-
gen m.b.t. parameterspecificaties. Glass' kritische bespreking van het bepalen van een standaard wordt
hier helaas niet vermeld (wel op pag. 20).

Er staan overigens enkele storende typefouten in dit hoofdstuk. De lezer wordt daarom aangeraden de
definitieve versie in Applied Psychological Measurement ernaast te leggen.

In hoofdstuk 3 worden binomiale testmodellen aan de orde gesteld. Er wordt betoogd dat het bino-
miale foutenmodel in een genesteld schema met aselecte itemsteekproeven niet geldt indien antwoor-
den op vragen stochastisch van aard zijn (zie met name pp. 72-74). Nu is het evenwel zonder replicaties
niet mogelijk om te bepalen of een deterministisch of stochastisch model adekwaat is; Lord (1974)
geeft bijvoorbeeld een deterministische interpretatie van latente trekmodellen. Ook om een andere reden
Overtuigt de argumentatie ons niet. In principe kan een stochastisch model per persoon weergegeven
Worden door een matrix met items als rijen en replikaties als kolommen. De beantwoording van vragen

in een genesteld schema kan men nu opvatten als het trekken van rijen, en vervolgens uit elke rij een cel
met celwaardcn O (fout) cn 1 (goed). Het is duidelijk dat als de matrix zeer groot is de a priori kans op een
goed antwoord op elke volgende aselect gekozen vraag gelijk is. Met andere woorden, het binomiaal model
geldt. Alleen als de itcmkenmerken tevoren bekend zijn kan men winst boeken op het binomiaal
model; geldt het Rasch model, dan kan men bijvoorbeeld parameterschattingen volgens het Rasch
model berekenen. Ken dergelijk voordcel geldt echter ook voor een duidelijk deterministisch model als
dc Guttman schaal.

Hoofdstuk 4 geeft een simulatie van eenvoudige parameterschattingen van Emrick's testmodel voor
bchecrsingslercn. Het blijkt dat momcntenschatters vrijwel altijd voldoen, een methode met zgn.
cindpuntschattingcn niet.

Hoofdstuk 5 geeft een latente trekintcrpretatie van het model voor beheersingsleren met twee toestan-
den van Macready cn Dayton. Eerst wordt het model gereparametriccerd. Vervolgens wordt het
herschreven als een stapfunctie van een latente trek

In een latent trekmodel zijn de kansen op a| een goed antwoord voor 0 > en 0 < te interpreteren
als de kans dat een acelecte persoon met 0 > öc het goede antwoord geeft, respectievelijk de kans dat
een aselecte persoon met 8 < het goede antwoord geeft. Deze kans mag men voor 'nonmasters
natuurlijk niet op dezelfde wijze interpreteren als aj uit het latent klassemodel hetgeen men ook uit de
tekst kan opmaken. Bij formule 10 vergelijkt Van der Linden de verwachte Pj(+) voor 'masters' met
l-ß[ uit het latent klassemodel, hetgeen onjuist is.

De benadering van Van der Linden is conceptueel. Hij werkt de schattingsproblematiek niet uit. In de
praktijk kan men natuurlijk dc fit van het model van Macready cn Dayton nagaan. Het model kan
worden verworpen als de fit van een latente trekmodel veel beter is. Eventueel kan men binnen dc
latente klasse-analyse blijven en bekijken of een model met drie of nog meer klassen voldoet (zie ook
Mooijaart, 1980). Overigens is het de vraag hoe realistisch deze latente klassemodellen voor beheer-
singsleren zijn wanneer men 'vergeten' als psychologisch kenmerk van een individu opvat.
In hoofdstuk 6 wordt een kritische bespreking gegeven van verschillende voortest-natest itemmaten.
Als alternatief wordt ccn latente trekbenadering voorgesteld. Het een en ander wordt toegelicht aan de
hand van ccn empirisch voorbeeld gebruik makend van het Rasch model. Bij deze analyse worden de
twee metingen per persoon als van elkaar losstaande metingen geanalyseerd. Het werk van Fischer
(1976) die probabilistische modellen van het meten van verandering heeft voorgesteld, wordt niet ver-
meld.

In het laatste hoofdstuk wordt een decisie-theoretische benadering voor ATI beschreven. In het tradi-
tionele ATI-onderzoek worden betrouwbaarheidsintervallen voor interaktie-effecten berekend. In Van
der Lindcn's benadering kan men niet iets vinden wat daarop lijkt. Nu mist men hier wel de schattings-
problematiek die bij de traditionele benadering juist tot een constructie van dergelijke intervallen
geleid heeft (VdL hanteert feitelijk populatieparameters) maar zelfs als men rekening houdt met het
feit dat men in de praktijk slechts met schattingen te maken heeft is altijd (via een Bayesiaanse
procedure) een ondubbelzinnige beslissing mogelijk. Zelfs als er bijvoorbeeld alleen voor hoge predik-
torscores een klein verschil in verwachte utiliteit tussen twee behandelingen is, gaat de voorkeur uit
naar die behandeling met de grootste verwachte utiliteit. Het komt ons voor dat dit niet altijd
realistisch is. Het verschil tussen onze benadering cn die van Van der Linden zou dan liggen in het feit
dat wij zijn utiUteitsspecificatie in twijfel trekken. De implementatie van verschillende behandelingen
lijkt ons duurder dan die van slechts één behandeling, hetgeen betekent dat de totale utiliteit in het
geval van meerdere behandelingen lager uitvalt dan men zou mogen verwachten op grond van de
utiüteiten van de afzonderlijke behandelingen.

Samenvattend, het proefschrift als geheel is zeker de moeite van het lezen waard. Er worden belang-
rijke ontwikkelingen op het gebied van CRM aan de orde gesteld waarbij de auteur laat blijken zeer
goed op de hoogte te zijn van de recente ontwikkelingen. Naar onze^mening is hierbij het meest
interessant de beüskundige benadering in CRM; wij kunnen ons minder vinden in de hoofdstukken
3 en 5. Al met al bevelen wij dit werk warm aan, niet alleen aan onderwijsonderzoekers die zich
met toetsontwikkeling bezig houden, maar ook aan psychologen en andere wetenschappers die zich met
testmodellen bezig houden.

I'ischer, G.II. Some probabilistic-models for measuring change. In D.N.M. de Gruijter and L.J.Th, van

der Kamp (eds): Advances in Psychological and Educational Measurement, London Wiley, 1976.
Lord, P.M. Estimation of latent ability and item parameters when there are omitted responses. Psycho-
metrika, 1974, 39, 247-264.
Mooijaart, A. Latent class analysis (LCA) with order restrictions on the latent parameters. MDN 1980
5, 22-37.

Dit proefschrift bundelt zeven artikelen die Wolters tussen 1975 en 1980 pubhceerde over 'creativi-
teit'. Een inleidend en een afsluitend hoofdstuk dienen de eenheid. Het zijn vooral drie thema's die
Wolters hebben beziggehouden: wat creatieve mensen beweegt, de aard van het creatieve denken
en de mogelijkheid om door middel van tests iemand's mogelijkheden tot 'creatieve verbeelding'
te meten. Omdat de oorspronkelijke teksten, die sterk overlappen, vrijwel ongewijzigd zijn over-
genomen, krijgt de lezer de gelegenheid de auteur te volgen in de ontwikkeling die het denken van
de schrijver over de genoemde thema's in de jaren heeft doorgemaakt. Het voorlopige eindpunt
van dit proces laat zich, in de woorden van deze recensent, als volgt formuleren. Creatief denken is
niet werkelijk verschillend van probleemoplossen in het algemeen. Wel is het probleemoplossen in zijn
meest complexe vorm, met alles erop en eraan: rationele processen, kennistoepassing maar ook ver-
beelding, divergente productie. Creatief denken is dus niet gelijk te stellen met divergente productie -
die suggestie is gewekt o.a. door enkele vroege publicaties van Guilford. Maar creatie zonder o.a. di-
vergent denken is moeilijk denkbaar. Het is begrijpelijk dat om te slagen in een carrière waarin com-
plexe problematiek die zo'n complete aanpak vergt aan de orde van de dag is, een uitgesproken affini-
teit met complexiteit voorwaarde is. Tegen dergelijke conclusies is weinig in te brengen; ze liggen in de
lijn van de bestaande litteratuur. Toch kan ik deze bundel niet aan lezers aanbevelen die zich op de
hoogte zouden willen stellen van wat de psychologie op dit ogenblik over creativiteit te berde heeft te
brengen. Daarvoor is de route die Wolters is gegaan om het beschreven consensus-punt te bereiken
te onnavolgbaar persoonlijk. Het heeft er meer dan de schijn van dat de auteur te werk is gegaan alsof
de last van 'een poging om het complexe, vage en meerzinnige begrip creativheit enigszins hanteerbaar
te maken' (uit het Voorwoord) door hem geheel alleen moet worden gedragen. Uit de omvangrijke
litteratuur wordt gepakt naar de willekeur van de eigen gedachtenontwikkeling. Deze 'selectiviteit'
kan verklaren waarom aan diverse belangrijke bronnen in het geheel niet wordt gerefereerd. Zo ont-
breken de readers die voortkwamen uit de befaamde Utah-conferenties, onder auspiciën van C. W.
Taylor. Maai ook werk waaraan wel en soms zelfs frequent wordt gerefereerd ontvangt een behandeling
die iemand die Wolter's route niet intiem volgt volstrekt willekeurig aandoet. Elshout (1976) wordt
geciteerd op een wetenschapsfilosofisch punt; dat in deze bron ook iets staat over de veronderstelde
psychologische aard van de divergente productie wordt de lezer uit deze bundel niet gewaar. Van
Guilford worden vele vindplaatsen genoemd, tot 1950 toe. Maar dat in diens boek van 1967 - wel-
licht het meest aan gerefereerde werk in dit proefschrift - een hoofdstuk te vinden is dat aan creativi-
teit en probleem-oplossen gewijd is en waarin een procesmodel wordt ontwikkeld - creatief denken
Wordt beschreven als probleemoplossen in optima forma, waarin alle operaties uit het Sl-model te pas
komen de lezer wordt het opnieuw niet gewaar.

Het is duidelijk dat Wolters zich door deze selectiviteit veel overbodig werk op de hals haalt.
Uiteenzettingen over de kwestie of het Sl-model nu al dan niet als een procesmodel is bedoeld zijn
immers overbodig als de auteur ervan zelf een procesmodel als pendant ervan geeft. Bizar vind ik de

zaak worden wanneer Wolters, die herhaaldelijk zegt van Guilford's Sl-model uit te gaan, in een eigen
onderzoek de Progressive matrices van Raven uhkiest als operationalisatie van 'intelligentie'; en dan
een factoranalyse uhvoert om de eigensoortelijkheid van bepaalde divergente productietests aan te
tonen, terwijl hij in de overwegingen die tot zijn onderzoek hebben geleid steeds die auteurs heeft
gevolgd die de factoranalyse daarvoor ongeschikt achten, en daarom de vele bestaande analyses die
zijn vraag zouden kunnen beantwoorden heeft genegeerd. Het is methodologisch niet verboden om
uit de litteratuur willekeurige stukken au scrieux te nemen en andere niet. Mogelijk is het een vorm
van lateraal denken. Maar dat het een vruchtbare strategie zou zijn, wordt door deze studies niet
bevestigd: Wolters komt zoals gezegd uh op de lijn van de consensus. Voor het geven van inzicht
en overzicht van de htteratuur blijkt Wolter's strategie in ieder geval geheel ondeugdelijk.

Data-Analyse. Een wegwijzer voor onderzoekers en gebruikers van onderzoek
Meppel: Boom, 1979, 166 blz. (f 19,50)

'Alles bij elkaar is het geen gelikt boekje geworden. Sommige termen werden plompverloren geïntro-
duceerd. De reuzenstappen waren af en toe echt niet bij te benen. Over keuzen en accenten valt lang
te bakkeleien', (pag. 149) Drie regels verder merkt de schrijver op: 'Maar dergelijke kritiek doet ons
glimlachen. Het onaffe hoort erbij. Deels zelfs is opzet in het spel. Onderzoeksvaardigheden zijn niet
voor te schrijven.... Een goed boek geeft aanleiding, zet aan, prikkelt. Weg met teksten, die niets te
raden laten'. Van der Zee maakt het een criticus gemakkelijk. Hij voorziet kritiek, geeft die zelf weer
en zegt die niet serieus te nemen. Gelet op de twee doelgroepen, waarop de schrijver met zijn boek
mikt, vraag ik me af, of een dergelijke stellingname wel gerechtvaardigd is.

Op de eerste plaats richt van der Zee zich op beginnende onderzoekers. Deze categorie zal weinig
nieuws in het boek vinden. Als het goed is, is er in de opleiding voldoende aandacht besteed aan de in
het boek behandelde onderwerpen.

Voor de gebruikers van onderzoek, de tweede doelgroep, ligt de zaak genuanceerder. Voor hen bieden
gedeelten van het boek een wegwijzer voor verdere studie.

Het boek handelt over data-analyse. In het eerste hoofdstuk Iaat van der Zee zien, dat dit geen op
zich zelf staande fase in een onderzoeksproces is. Men moet de analyse steeds zien in de context van
het probleem, dat men onderzoekt. Doel is te komen tot een oplossing daarvan en data-analyse is daar-
toe slechts een middel. In het tweede hoofdstuk wordt aangegeven, aan welke eisen een goede data-
analyse iiioet voldoen.

Het derde hoofdstuk handelt over heuristische methoden, regels, waardoor mensen zich laten sturen
bij het ordenen van informatie. Van der Zee waarschuwt voor ecn naïeve toepassing ervan en licht
dit goed toe met voor zich sprekende voorbeelden.

In het vierde hoofdstuk geeft de schrijver een duidelijk overzicht van soorten vragen, die een onder-
zoeker in de analyse-fase moet beantwoorden. Voor het beantwoorden van elk soort vraag noemt
hij een of meer geëigende analyse-methoden. Op sommige daarvan gaat hij uitgebreider in dan op an-
dere. Variantie- en regressieanalyse worden alleen genoemd. Scalogram-analyse, ontvouwingsmethode,
meer dimensioneel schalen en discriminant-analyse worden toegelicht met een voorbeeld.
Voor gebruikers van onderzoek blijft het mj. volstrekt onduidelijk wat de bedoeling van scalogram-
analyse is. Van der Zee had hier beter een voorbeeld van de veel meer gebruikte Likert-analyse kunnen
geven.

In de hoofdstukken 5 t/m 9 komen achtereenvolgens de volgende methoden ter sprake: plaatjes en
tabellen, contrastgroepenanalyse, pad-analyse, factoranalyse en clusteranalyse.

De schrijver licht het gebruik van tabellen en plaatjes uitstekend toe. Hij schrijft daarbij steeds over
effect- en conditie-variabelen. Waarom zijn de veel meer gebruikte termen afhankelijke en onafhanke-
lijke variabelen systematisch vermeden? Een niet oplettend lezer krijgt nu sterk de indruk, dat samen-
hang tussen een conditie-en effekt-variabele causale samenhang impliceert. Voor een dergelijke onjuis-
te gevolgtrekking wordt nergens gewaarschuwd.

Bij de behandeling van de elaboratie-techniek - deze term wordt door van der Zee overigens niet ge-
bruikt - mis ik interpretatie als mogelijke uitkomst. De lezer krijgt nu de indruk, dat uit het verdwij-
nen van samenhang in de subtabellen altijd tot schijnsamenhang geconcludeerd moet worden. Ligt de
constant gehouden variabele echter in tijd tussen de onafhankelijke en afhankelijke variabele dan moet
men concluderen, dat de onafhankelijke variabele mdirect van invloed is op de afhankelijke variabele.
Overigens vindt men op pag. 103 eenzelfde misleidende conclusie. Ook daar wordt de indruk gewekt,
dat het verdwijnen van samenhang na constant houding van een intervenïerende variabele wil zeg-
gen, dat de onafhankelijke variabele niet op de afhankelijke van invloed is. Het gaat in dit voorbeeld
om de toepassing van de partiële correlatie-techniek.

Deze wordt beschreven in het hoofdstuk over pad-analyse. De uitleg daarvan wordt beperkt tot model-
len met drie variabelen. Erg mager, gezien recent gepubliceerde toepassingen, waarin vrijwel altijd meer
dan drie variabelen zijn opgenomen.

In het hoofdstuk over de contrastgroepen-analyse wordt opnieuw onzorgvuldig omgegaan met het
causaliteitsbegrip. Als in deze analyse een variabele niet in de boom is terug te vinden, wil dat nog niet
zeggen, dat deze van te weinig gewicht is, zoals de schrijver op pag. 95 suggereert.
Variabelen die een hoge samenhang vertonen met de variabele, die b.v. in de eerste stap de meeste
Variantie verklaart, hebben minder kans in de volgende stappen in de boom te komen dan variabelen,
die er niet of nauwelijks mee correleren. Dat zegt echter niets over het feit, of zij al dan niet samenhan-
gen met de afhankelijke variabele.

Het doel van de contrastgroepen-analyse wordt dan ook verkeerd door van der Zee weergegeven. Het
gaat er niet om welk gewicht elke variabele heeft op het te onderzoeken verschijnsel zoals de schrijver
op pag. 89 beweert. Het gaat om het opsporen van subgroepen die van elkaar verschillen in hun score
op de afhankelijke variabele.

Gelet op zijn doelstelling had van der Zee zijn zesde hoofdstuk beter aan regressie-analyse kunnen
wijden.

De hoofdstukken over factoranalyse en clusteranalyse spreken mij meer aan. Daarin is van der Zee
opnieuw in staat een leek op duidelijke wijze in te leiden in bepaald niet eenvoudige technieken. Dat
komt mede door de vlotte schrijfstijl van de auteur. Het is een prettig leesbaar boek. Leesbaarheid
is echter geen voldoende garantie voor het verkrijgen van duidelijkheid. In sommige hoofdstukken
Wordt die wel geboden aan de gebruikers van onderzoek, in andere zeker niet.

du Bois- Reymond, M. & Wesselingh, A. (red.). School en Maatschappij: Sociologen over onderwijs
en opvoeding. Groningen: Wolters- Noordhoff, 1981.

Cohen, 'iA.i. Studierechten in het wetenschappelijk onderwijs. Zwolle: Tjeenk Willink, 1981.

de Corte, E., Geeriigs, C.T., Lagerwey, N.A.J., Peters, J.J., & Vandenberghe, R. Beknopte didaxologie.
Groningen: Wolters-Noordhoff, 1981, vijfde volledig herziene druk.

Creemers, B.P.M. (red.). Onderwijskunde als opdracht. Een bundel over de ontwikkelingen in de
onderwijskunde bij het afscheid van L. van Gelder als hoogleraar aan de Rijksuniversiteit te Gro-
ningen. Groningen: Wolters-Noordhoff, 1981.

de Groot, A.D. Over regels en taken van het Forum in de gamma- wetenschappen. Meppel: Boom,
1981.

van den Ham, M. Publiceren in de psychologie'. Een onderzoek van de belangrijkste Nederlandse
vakwetenschappelijke psychologische tijdschriften en hun auteurs. Subfaculteit Psychologie, Uni-
versiteit van Amsterdam, 1981. (Het Instrumentarium van de Psycholoog, Deel 72).

Onderzoek van onderwijs: Enige Nijmeegse verkenningen. Nijmegen: Instituut voor Onderwijskunde,
Katholieke Universiteit, 1981 (= Interne MededeUngen, nr. 6).

Erasmus Universiteit Rotterdam
Faculteit der Sociale Wetenschappen
Post-Academisch Onderwijs

De Faculteit der Sociale Wetenschappen te Rotterdam organiseert in het najaar van 1981 een tweetal
cursussen in het kader van post-academisch onderwijs, met als onderwerpen:

De eerstgenoemde cursus omvat een zestal bijeenkomsten op vrijdagmiddag. De tweede cursus zal
driemaal een gehele vrijdag in beslag nemen.

Docenten zijn leden van het wetenschappelijk corps van de faculteit alsmede een enkele gastdocent.
De cursus is bedoeld voor degenen, die in hun werk met genoemde thema's bezig zijn.
Een folder kan worden aangevraagd bij de Sociale Faculteit van de Erasmus Universiteit Rotterdam,
postbus 1738, 3000 DR Rotterdam, telefoonnummer 010-525511, toestel 3532.

Bij de Subfaculteit Psychologie van de Universiteit van Amsterdam zijn de volgende Révész-Berichten
verschenen:

13. R.F. van Naerssen, Een handige formule voor de dichtheid van de warescore-verdeling. 14. Joh.
Hoogstraten, The retrospective pretest in an educational training context. 15. JJ. Elshout en BJ.
Wielinga, Simulatie van cognitieve processen. 16. JJ. Elshout, Leren zonder instructie. 17. JJ. Elshout,
Is Intelligence (still) useful? 18. W.P. v.d. Brink, The effect of instructions on how people predict three
balls falling into three cells. 19. S. Schagen, Het Fobiè'nproject als instituut voor psychotherapie. 20.
S. Schagen en R.J.W.G. Wijsbek, Na verloop van tijd. 21. W.P. v.d. Brink, Binomial test models for
domain-referenced testing. 22. I.A.M.H. van Krogten en J.H. Mooren, Arnolds emotie-theorie gewogen...
en te lichtbevonden. 23. M.H. Eiting, Sequential Access to Musical Units in Long Term Memory,
25. H.CJ. Duijker, De grenzen der Psychologie. 26. P. Koele, Calculating power in analysis of variance.
27. G.J. Mellenbergh, Conditional item bias methods.

Een bericht kan gratis verkregen worden bij mevr. M. Coenradi (Psychologisch Lab., UvA, Weesper-
plein 8, kr. 447, 1018 XA Amsterdam; tel. 020-5253603, 020-5253786; s'ochtends). Indien de finan-
ciële situatie van de subfaculteit daartoe aanleiding geeft, is het mogelijk dat voor volgende nummers
een vergoeding gevraagd wordt.

De tweeledige, losbladige 'Docentengids Voortgezet Onderwijs' verschijnt onder auspiciën van de
Vereniging Samenwerkende Landelijke Pedagogische Centra. Aflevering 17 van mei 1981 bevat de
volgende nieuwe of gedeeltelijk nieuwe artikelen: Art 208 Grondwet (in rubriek 2: Wettelijke regelin-
gen), Christelijk Pedagogisch Studiecentrum, Volwassenonderwijs (in rubr. 4: Organisaties en com-
missies), Coördinatieproject LBO/LBO, Verdieping christelijk VO (in rubr. 7: Projecten), Scholen-
bouw, Veiligheid (in rubr. 9: Schoolpraktijk) en Handvaardigheid 11 (\n mht. 10: Vakken). De T)GVO
is een uitgave van Van Loglium Slaterus te Deventer. Te bestellen bij de boekhandel. Prijs: f 125,-.

Sinds een jaar bestaat er een OTG Opleiding van Onderwijsgevenden i.o. waarin onderzoekers en ande-
re deskundigen participeren, die op één of andere wijze betrokken zijn bij onderzoek op het terrein
van de Opleiding en Nascholing van Onderwijsgevenden.

De OTG i.o. stelt zich primair tot doel een forum te creëren, waarin over relevante aspecten van Op-
leidings- en Nascholingsonderzoek gediscussieerd kan worden. Daarnaast wordt er naar gestreefd om
het Opleidingsonderzoek in Nederland te stimuleren, te coördmeren en zo mogelijk te programmeren.
Met het oog daarop worden ± 4 maal per jaar bijeenkomsten gehouden in Utrecht.
Belangstellenden, die - hetzij permanent, hetzij op ad hoe basis - aan'de bijeenkomsten van de OTG
i.o. willen deelnemen, worden vriendelijk verzocht contact op te nemen met:

This is a problem of instructional technology. What factors in the study process of a student
the technologist might handle, if he is to control the duration of a learning task? The criterion
is taken to be gross study duration (elapsed time). Six factors are proposed: required learning
gain, work load (spent effort), gross time-on-task, efficiency (learning gain per unit of effort),
study intensity (units of effort per unit of time-on-task), and dihgence (time-on-task per unit of
elapsed time). This model, built upon Carroll (1963) and Holleman (1980), is compared to the
model proposed by the Posthumus committee (1964).

De gemiddelde student heeft, in Nederland, een lange tijdsduur nodig om zijn of haar uni-
versitaire studie te doorlopen en voltooien. Er zijn al heel wat pubhkaties verschenen over
de factoren waaraan die lange studieduur moet worden toegeschreven en over mogelijke
maatregelen om de studieduur terug te dringen (Mislukking en vertraging van de studie,
1959; Rapport van de Commissie Studieduur, 1964; Meuwese e.a., 1969; Van Os & Van
Strien, 1975; Tomic & WeUmg, 1976; De Bruyne, 1976; Van Berkel, 1977; Buis, 1979;
Wilbrink, 1980). Men is er echter nog niet in geslaagd kort en bondig aan te geven welke
maatregelen genomen kunnen worden ter beheersing van de studieduur. Men suggereert
Vele maatregelen, maar het blijft een onoverzichtehjke veelheid en de werking ervan blijft
Veelal in het vage.

In dit artikel wordt een onderwijstechnologisch model voorgesteld dat zich concentreert
op het studiegedrag van de student. De studieduur kan namelijk niet anders beïnvloed
Worden dan door tussenkomst van het studiegedrag. Ik ben op zoek naar die intervenië-
rende factoren: welke factoren in het studieproces van een student kan de studieleiding
fnanipuleren, als zij de tijdsduur wil beïnvloeden die deze nodig heeft om een studietaak
te voltooien? en hoe verhouden die factoren zich tot elkaar en tot de factor Studieduur?
Het begrip studietaak wordt in deze probleemsteUing ruim gedefmieerd en verwijst zowel
naar taken binnen een cursus als naar een heel studieonderdeel, een curriculumfase of een
gehele opleiding. Met de term de tijdsduur (studieduur) bedoel ik de tijdsafstand tussen
het tijdstip waarop de student door de studieleiding in de gelegenheid gesteld (c.q. geacht)
Wordt aan de taak te beginnen (to) en het tijdstip waarop de taak met succes voltooid is
(tn). De eventuele institutionele selectie of zelfselectie bij het begin van de taak, wil ik
huiten de probleemstelling houden; onze vraag betreft studenten die toegelaten zijn tot de
taak en die deze niet voortijdig afbreken.

Ik wil dus een model ontwerpen dat een uitputtend overzicht geeft van de factoren in het
studiegedrag van de student, die manipuleerbaar zijn als men de studieduur wil beheersen.

*Het model heeft een beperkte reikwijdte, in zoverre dat het geen overzicht biedt van on-
derwijstechnologische maatregelen in eigenlijke zin zoals verbetering van de onderwijs-
kwaliteit of doelmatiger studieprogrammering (ingrepen in omgevingsfactoren waarmee
het studiegedrag beïnvloed kan worden). Het identificeert wel de aangrijpingspunten in
het studiegedrag; in dat opzicht zou het ook gebruikt kunnen worden als categoriserings-
schema (maatregelen kunnen gecategoriseerd worden naar de gedragsfactor waarop z®
aangrijpen).

Ik gebruik de term 'model' om mijn programma van eisen scherper af te bakenen. Het
gaat niet om een 'general theory' betreffende het studieproces, maar om een poging de
handehngssituatie van de technoloog te verduidelijken onder het aspect van een specifiek
handelingsdoel (beheersing of verkorting van de studieduur). Een model verduidelijkt een
handelingssituatie. Het moet niet alleen alle oplossingen voor het gestelde probleem dek-
ken. Het model moet vooral ook beknopt en transparant zijn, met een coherent netwerk
van begrippen en een zorgvuldige omschrijving van de samenhang tussen de voorgestelde
factoren.

De belangrijkste eis waaraan het model moet voldoen, is dat het nuttig is voor ons onder-
wijstechnologische gebruiksdoel: dat het bij de gebruiker oplossingen genereert voor het
gestelde probleem (beheersing van de studieduur) en dat de kans op 'foute' oplossingen
verkleind wordt. Om deze eis te onderstrepen spreek ik van een model voor de beheersing
van de studieduur.

In een vorig artikel (Holleman, 1980) heb ik, voortbouwend op het onderwijsleermodel
van Carroll (1963), vier huishoudingen onderscheiden. Er zijn vier schaarse goederen in
het spel, waarmee mensen plegen te woekeren:

Als de student zijn studietaak met succes wenst te voltooien, dan moet een bijdrage wor-
den geleverd vanuit elk van deze vier huishoudingen. Na voltooiing van de taak kan wor-
den vastgesteld hoe groot die bijdragen geweest zijn. Aan de negatieve kant van de eindaf-
rekening staan hoeveelheden geleverde studie-inspanning, bestede studietijd (klokuren,
geheel of gedeeltelijk aan de taak besteed) en studieduur (etmalen of weken verstreken
sinds de student met de taak moest beginnen). Aan de positieve kant staat de hoeveelheid
leerwinst die in het kader van de taak behaald moest worden (en eventueel een zekere sur-
plus-leerwinst). Laten we deze balans van kosten en baten iets pregnanter operationalise-
ren. Bijvoorbeeld: A) het aantal pagina's leerstof dat de student onder de knie heeft g®'
kregen, B) het aantal liters zweet dat de student daartoe geplengd heeft, C) het aantal
door hem of haar bestede uren zoals gemeten met de prikklok en D) het aantal blaadjes
dat ondertussen van de kalender is afgescheurd.

Het gemakkelijkste is de te behalen leerwinst (het aantal pagina's leerstof) te beperken-

Dat leidt tot reductie van de benodigde inspanning. Bij gelijkblijvende transpiratie per
Wokuur daalt dan het aantal bestede klokuren. En bij een geUjkblijvende investermg van
Wokuren per etmaal, leidt dit tot vermindermg van de studieduur.
We kunnen echter ook besluiten de te behalen leerwinst mtact te laten. In dat geval moe-
ten we onze aandacht richten op de doelmatigheid, de studie-intensiteit of de studie-inzet.
Doelmatigheid is het deel van de te behalen leerwinst dat gemiddeld met één eenheid in-
spanning wordt vergaard (de begaafdheid van de student kan worden uitgedmkt als een
plafondwaarde van deze variabele). Als we de doehnatigheid van het studieproces opvoe-
ren, hoeft de student minder mspanning te leveren om een gegeven hoeveelheid leerwinst
te behalen. Verder kunnen we de studie-intensiteit aanpakken, dat is de hoeveelheid in-
spannmg die geïnvesteerd wordt per aan de taak besteed klokuur. Als de student (bij een
gegeven doehnatigheid) per klokuur méér inspanning levert, dan heeft hij (zij) mmder
Uren nodig om de taak te volbrengen. Tenslotte kunnen we de studieduur nog beïnvloe-
den door onze aandacht te richten op de studie-inzet: hoeveel studietijd (op de prikklok)
besteedt de student per eenheid studieduur (op de kalender)? Als we de tijdsbesteding per
etmaal kunnen opvoeren, mogen we er m principe van uitgaan dat de student mmder et-
malen nodig heeft om de taak te voltooien.
Hiemiee is ons model m hoofdhjnen geschetst (figuur 1).

In het bovenstaande werd de mdruk gevestigd dat de studieduur alleen beïnvloed kan
Worden door het manipuleren van de omvang van de taak (te behalen leerwmst) en van
de neiging van de student om verstandig en hard te studeren (doelmatigheid, studie-mzet
en -intensiteit). Carroll (1963) heeft echter de vinger gelegd op een bUnde vlek m de on-
derwijstechnologie: men vergeet dat het onderwijssysteem zelf vaak dwmgende grenzen
stelt aan het gedrag van de student. Zo kan het studieprogramma bodemwaarden opleg-
gen aan de studieduur, de studietijd en de studie-inspanning die met een taak gemoeid is.
De studiegids kan bijvoorbeeld voorschrijven dat stage X tenmmste twee maanden moet
duren, dat werkcollege Y uit twaalf bijeenkomsten a twee uur zal bestaan, of dat scriptie
2 een minünale omvang van veertig bladzijden dient te hebben. Evenzo kan het onderwijs-
en examenprogramma plafondwaarden aan de doehnati^eid, studie-intensiteit en studie-
inzet opleggen: de student wordt gedwongen minder rationeel of minder hard te werken
dan waartoe hij (zij) zelf geneigd en in staat is.

Bij de beheersmg van de studieduur dient men de ogen dus open te houden voor de moge-
lijkheid dat de systeembepaalde plafond- en bodemwaarden van de factoren uit ons mo-
del met vrucht gevarieerd kunnen worden.

Het model dat hierboven werd geschetst, maakt gebruik van vier grootheden: leerwinst
(A), inspanning (B), klokuren (C) en kalendertijd (D). Hiermee corresponderen de basis-
variabelen: Te behalen leerwinst. Geleverde inspanning. Bestede studietijd en Studieduur.
Daarnaast werd een drietal samengestelde variabelen geïntroduceerd: Doelmatigheid (A/B),
Studie-intensiteit (B/C) en Studie-inzet (C/D). Terwille van een wendbaar gebruik van het
model, is het gewenst sommige definities aan te scherpen en enkele hulpvariabelen te in-
troduceren.

De te behalen leerwinst kan worden gedefinieerd als de afstand tussen het feitelijke begin-
repertoire van de student en het door de studieleiding vereiste eindrepertoire. Het feite-
lijke eindrepertoire dat de student aan het einde van de taak bereikt heeft, kan echter ho-
ger zijn dan het vereiste. In dat geval is er surplus-leerwinst. Laten we de bijbehorende sur-
plus-inspanning per definitie tot de Geleverde studie-inspanning rekenen. Als men de sur-
plus-leerwinst reduceert stijgt de Doelmatiglieid, en daarmee daalt de Geleverde studie-
inspanning. Als men de Studieduur wil verkorten, kan men ernaar streven het feitelijke
eindrepertoire zo dicht mogelijk bij het vereiste eindrepertoire te brengen.
Laten we de Geleverde studie-inspanning en de Bestede studietijd voor het overige vrij eng
definiëren. De tijd en inspanning die gemoeid is met overhead-activiteiten blijft erbuiten;
bijvoorbeeld het forensen tussen woonplaats en studieplaats, het reizen tussen onderwijs-
adressen, het kopen of lenen van studiemateriaal, het bezoeken van voorhchtingsbijeen-
komsten en spreekuren, het deelnemen aan tentamens en examens. De overhead-tijd die
de student hiermee kwijt is, kan wel ten koste gaan van de Studie-hizet. En omgekeerd:
reductie van de overhead-tijd kan, via verhoogde Studie-inzet, in een kortere Studieduur
resulteren. Overigens kan een klein deel van de overhead-tijd binnen onze definitie van Be-
stede studietijd vallen, want ook klokuren die slechts gedeeltelijk aan de taak zijn besteed
(korte taakonderbrekingen) worden integraal tot de Bestede studietijd gerekend.
Studieduur (het tijdsbestek tussen t,, en tn) zal meestal kunnen worden uitgedrukt in et-
malen of weken. Het is niet uitgesloten dat daar ook etmalen (c.q. weken) tussen zitten
waarin de betrokken student in het geheel geen studietijd en -inspanning aan de taak be-
steed heeft. Men denke aan ziekte, wachttijden, vakanties, perioden die geheel aan con-
currerende taken zijn besteed, etc. We kunnen de som van deze leegloopperioden aandui-
den als de tarra studieduur. Onze definitie van Studieduur omvat deze tarra-componen-
ten; duidelijkheidshalve kunnen we daarom beter spreken van bruto Studieduur. AJs men
studieduurverkorting nastreeft, kan men trachten de tarra studieduur te reduceren. Want
de tarra studieduur drukt op de Studie-inzet (aangezien we deze beschouwen als de ge-
middelde inzet over de bruto periode).

Tenslotte kunnen we nog enkele samengestelde variabelen introduceren, waarmee de
werking van Doelmatigheid, Studie-intensiteit en Studie-inzet m hun onderlmge combina-
ties kan worden aangeduid. Studietempo is de hoeveelheid van de Te behalen leerwinst
die in één eenheid (bruto) Studieduur wordt vergaard (oftewel het aantal behaalde studie-
punten per etmaal of per week). Deze variabele kan worden omschreven als Doehnatig-
heid X Studie-intensiteit x Studie-inzet. Leersnelheid is de hoeveehieid van de Te behalen
leerwinst, vergaard per besteed klokuur. Dat is Doelmatigheid X Studie-intensiteit. En
tenslotte kunnen we nog een variabele onderscheiden die beschouwd mag worden als een
indicator van studiebelasting: de hoeveelheid Studie-inspanning die per etmaal of per
week geleverd wordt, dus Studie-intensiteit X Studie-inzet. Verhoging van studietempo,
leersnelheid of studiebelasting kan bijdragen tot verlaging van de (bruto) Studieduur.

Zeventien jaar geleden publiceerde de commissie-Posthumus, een commissie ad-hoc van
de Academische Raad, een studie over de factoren die bepalend zijn voor de studieduur in
Universitaire opleidingen (Rapport van de Commissie Studieduur, 1964). Ons model
wil de hoofdfactoren aanwijzen waarmee de studieduur beïnvloed kan worden. Ik zal
hieronder nagaan in hoeverre de uitspraken van de commissie-Posthumus geformuleerd
kunnen worden in termen van ons model en in hoeverre de beide modellen van elkaar af-
wijken. Ik ben dus vooral op zoek naar eventuele aanwijzingen dat ik factoren vergeten
zou hebben (de dekkingsvraag). Daamaast kan de vergelijking verschillen opleveren in
andere relevante dimensies zoals inteme logische consistentie, spaarzaamheid, nuttigheid
of gebruiksgemak in het licht van het gestelde gebruiksdoel.

De (bruto) Studieduur wordt volgens de commissie bepaald door twee hoofdfactoren:
tijd besteed aan diverse soorten studiebezigheden en de wijze waarop die tijd door de stu-
dent verdeeld wordt over de dagen, maanden en jaren (p. 35). In ons model vinden we de-
ze factoren terug onder de namen Bestede studietijd en Studie-inzet.
Maar tegelijkertijd wordt de (bruto) Studieduur volgens de commissie bepaald door een
andere factor: tijd besteed aan algemene academische vorming, bestuursfuncties, sportbe-
oefening, gezelligheid, liefhebberijen, en de wijze waarop de student deze aantallen uren
weet in te passen in de hem/haar gegeven dagen, maanden en jaren. Deze factor komt als
Zodanig niet in ons model voor. Hij kan ook beter beschouwd worden als een hulpvaria-
bele. Hij verwijst immers wederom naar de Studie-inzet (en naar de tarra studieduur),
niaar nu vanuit een oogpunt van concurrerende bezigheden. Zo'n hulpvariabele 'tijd be-
steed aan concurrerende bezigheden' heeft waarschijnlijk tot doel eraan te herinneren dat
het tijdsbudget van de student als één huishouding moet worden opgevat. Naarmate de
studie-inzet hoger is, komen concurrerende bezi^eden meer onder druk te staan, vice
versa. Bovendien heeft de commissie kennelijk de aandacht willen vestigen op de tijd die
de student nodig heeft voor buiten-curriculaire studie en vorming.

Deze factor wordt door de commissie onderverdeeld in vijf componenten (p. 35, 39,40-1,
48): a) deelnametijd aan de onderwijscontacturen; (b) zelfstudietijd die nodig is om dat
onderwijs met vrucht te volgen; (c) zelfstudietijd ter voorbereiding van tentamens en ten-
tamenachtige examenonderdelen; (d) tijd besteed aan praktische opdrachten die een vast-
gestelde studietijd (klokuren) of studieduur (etmalen of weken) hebben, zoals practica,
stages, hospiteren, werkcolleges met verplichte deelname; (e) tijd besteed aan andere prak-
tische opdrachten, zoals het maken van scripties of het voorbereiden en presenteren van
referaten en proefpreken.'' ^ Met deze categorisering heeft de commissie gekozen voor
een levensechte beschrijving van leerplannen in plaats van het aanwijzen van de factoren
(daarbinnen waaraan een langere of kortere studieduur moet worden toegeschreven. Uit-
sluitend bij component (c) wordt vervolgens analytisch uitgewerkt welke factoren verant-
woordelijk zijn voor de Bestede studietijd. Bij de overige componenten zijn veelal sys-
teem-bepaalde bodemwaarden van de Bestede studietijd, van de Geleverde studie-inspan-
ning, of ook van de (bruto) Studieduur (der deeltaken) in het spel. Dit geldt nog het
niinst voor component (b), huiswerk bij de onderwijscontacturen. De commissie ver-
Wacht dan ook dat haar model voor de tentamenvoorbereiding (c) eveneens grotendeels
(b) van toepassing zal zijn.

Vervolgens werkt de commissie component (c) van de Bestede studietijd uit. De hoeveel-
heid zelfstudietijd die de student nodig heeft om het tentamen voor te bereiden, wordt
aan twee factoren toegeschreven: de inhoud van de tentamentaak en de studiesnelheid
(p. 37). De inhoud van de tentamentaak wordt op zijn beurt bepaald, aldus de commissie,
door het tentamen- en examenprogramma, de beoordelingsmaatstaven en besUssingsregels,
en het aspiratieniveau van de student. De inhoud van de tentamentaak verwijst blijkbaar
naar onze factor Te behalen leerwinst, gecombineerd met onze hulpvariabele 'surplus-leer-
winst'. Wij hadden de surplus-leerwinst, via de bijbehorende surplus-inspanning, op de
Doelmati^eid laten drukken.

Onze hulpvariabele Vereist eindrepertoire' wordt door de commissie gespecificeerd in het
tentamen- en examenprogramma (waarin de objectieve eisen besloten Hggen) en de sub-
jectieve wijze waarop studenten in het Ucht van die eisen beoordeeld worden (beoorde-
lingsmaatstaven en beslissingsregels). Het effect van maatregelen ter verhoging van slaag-
percentages en ter verkorting van de studieduur kan teniet worden gedaan door tersluik-
se ('norm-referenced') toetsingsmechanismen. Hiermee brengt de commissie in de eerste
plaats een definitorische nuance aan. Men kan Te behalen leerwinst en vereist eindreper-
toire zowel op conceptueel als op operationeel niveau definiëren. Maar in de tweede
plaats verwijst de commissie met deze twee hulpvariabelen naar een bron van ondoelma-
tigheid in het studieproces: vage tentameneisen en inadequate beoordelingsmethoden van
de docent zullen een negatieve invloed hebben op de Doelmatigheidsfactor.

We zagen dat de Bestede studietijd volgens de commissie een functie is van de inhoud van
de tentamentaak en de studiesnelheid. Met deze term studiesnelheid wordt verwezen naar
onze hulpvariabele 'leersnelheid', althans naar een variant ervan. Volgens onze begrippen-
kaart is deze hulpvariabele het produkt van Doelmatigheid en Studie-intensiteit. De com-
missie heeft dus een minder specifiek model gekozen, waarin Geleverde studie-inspanning
als zelfstandige factor buiten beschouwing blijft en waarin Doelmatigheid en Studie-in-
tensiteit zijn samengesmolten tot één factor.

Ten slotte specificeert de commissie drie factoren die van invloed kunnen zijn op de stu-
diesnelheid: (a) studievermogen, dat is een persoonÜjke plafondwaarde van de studiesnel-
heid-, (b) studiemotivatie, dat is de bereidheid van de student om overeenkomstig die pla-
fondwaarde te werken; en (c) onderwijskwaliteit, de mate waarin het onderwijs ertoe bij-
draagt dat de student overeenkomstig die plafondwaarde studeert. Deze driedeling komt
weUswaar niet in ons model voor, maar zij sluit aan bij onze verhandehng over plafond-
en bodemwaarden (par. 4). De commissie stelt niet de manipuleerbare systeembepaalde
plafondwaarde maar de niet-manipuleerbare persoonlijke plafondwaarde — de intelligentie
of begaafdheid van de student - voorop.

Van onze zes hoofdfactoren zijn er drie rechtstreeks terug te vinden in het model van de
commissie-Posthumus. Zij onderscheidt geen afzonderlijke factor Geleverde studie-in-
spanning en Iaat Studie-intensiteit en Doehnatigheid tot één factor samensmelten. Ons
model heeft in dit opzicht een hogere specificatiegraad.

De systeembepaalde plafond- en bodemwaarden van onze factoren krijgen als zodanig
geen aandacht van de commissie. Studietaken waarvan,de duur sterk beïnvloed wordt

door systeembepaalde plafond- en bodemwaarden, houdt de commissie buiten haar ana-
lytisch model (par. 6.2.)- Zij geeft een classificatie van die taken en neemt klaarblijkelijk
aan dat de lezer mans genoeg is om te bedenken hoe de duur ervan bekort kan worden.
Ons model geeft daartoe echter nadere aanwijzingen: als men de Te behalen leerwinst wil
handhaven, moet men de oplossing zoeken in verhoogde Doelmatigheid, Studie-intensi-
teit of Studie-inzet.

De commissie geeft een vrij centrale plaats aan het studievermogen van de student. Deze
variabele kan wehswaar met behulp van onze begrippenkaart gedefinieerd worden (als een
persoonlijke plafondwaarde van Doelmatigheid en Studie-intensiteit), maar is anderzijds
niet opgenomen in ons model. Dit kan worden toegeschreven aan onze afwijkende pro-
bleemstelling. De primaire opdracht en doelstelling van de commissie was het construe-
ren van een verklaringsmodel. Wij zijn daarentegen uit op het construeren van een beheer-
singsmodel. Bovendien zijn institutionele selectie en zelfselectie door onze probleemstel-
ling uitgesloten als mogelijke beheersingsmechanismen.

Tenslotte zijn er twee (onderhng verwante) punten waar de commissie sterk aan hecht en
die stiefmoederlijk bedeeld worden in ons model. Zij benadrukt dat verhoging van de
Studie-inzet ten koste kan gaan van de buiten-curriculaire vorming en persoonUjke ont-
plooiing (par. 6.1) en haar model houdt een waarschuwing in dat verhoging van de Doel-
matigheid bereikt kan worden door verlaging van het aspiratieniveau van de student, dus
door afbraak van de surplus-leerwinst (par. 6.3). Deze angsten en waarschuwingen van de
commissie-Posthumus moeten zeer serieus worden genomen. Maar een onderwijstechnolo-
gisch model ontleent zijn bruikbaarheid vooral ook aan beknoptheid. Daaraan zijn deze
(door de commissie voorgestelde) factoren binnen ons model ten offer gevallen.

In het algemeen hebben we hierboven kunnen constateren dat de uitspraken van de com-
missie-Posthumus geformuleerd kunnen worden in termen van ons model. De vergehjking
tussen beide modellen heeft geen aanwijzmgen opgeleverd dat er belangrijke factoren in
ons model vergeten zijn. Wel onderscheiden de modeUen zich qua inhoud en accentue-
ring (par. 6.5), maar de grootste verschiUen zijn gelegen in hun omvang en vorm.
In de eerste plaats moeten we constateren dat het model van de commissie-Posthumus
veel groter en complexer van samenstelling is. Ons model omvat, naast de criteriumvaria-
bele Studieduur, slechts zes factoren. Deze hebben de pretentie op iedere studietaak van
toepassmg te zijn. Posthumus c.s. heeft een veel grotere verzameling factoren en begrip-
pen nodig. Sommige daarvan zijn specifiek voor bepaalde categorieën van studietaken.
(Men kan overigens niet blindehngs staande houden dat de mate van beknoptheid en een-
voud van modeUen met hun gebruikswaarde correleert; beknopte en eenvoudige modeUen
kunnen namehjk als nadeel hebben dat ze te abstract zijn.)

In de tweede plaats heb ik getracht ons model te laten steunen op een coherente begrip-
penkaart. Er is naar gestreefd met een netwerk van begrippen te werken, die duidehjke
onderlmge relaties hebben en die alle verwijzen naar attributen van het studieproces van
de student. De commissie-Posthumus werkt met een verzamehng begrippen die veel hete-
rogener is. Sommige begrippen zijn vrij globaal of vaag (de mhoud van de tentamentaak;
de wijze waarop de student zijn tijd verdeelt over de dagen, maanden en jaren). Of de be-
grippen zijn van verschiUende orde: sommige verwijzen naar attributen van het studiepro-
ces (b.v. zelfstudietijd, studiesneUieid), andere naar attributen van de studieomgeving (b.v.
onderwijskwahteit).

In de derde plaats is ernaar gestreefd onze begrippenkaart te doen steunen op reeds be-
staande conceptuele referentiekaders uit de onderwijstechnologie Ten tijde van de
commissie-Posthumus waren die niet of nauwelijks voorhanden; de commissie moest te-
rugvallen op voorwetenschappelijke begrippen en op analogieën uit het natuurweten-
schappelijke begrippenapparaat. Door het model te laten aansluiten bij een conceptueel
referentiekader dat reeds in zekere mate ingang heeft gevonden in de onderwijstechnolo-
gie, wordt de kans groter dat collega's er gebruikswaarde aan zullen toekennen. Boven-
dien is er meer kans dat het model en de technologie eromheen in de toekomst verder-
ontwikkeld worden, op basis van onderzoeks- en praktijkervaringen, als die door anderen
vanuit hetzelfde conceptuele referentiekader worden beschreven.

In dit artikel is een beknopt model gepresenteerd. Vergelijking met het model van de
commissie-Posthumus gaf geen aanleiding het model te verwerpen of aan te passen. Het
model wordt hierbij voorgelegd aan het forum van onderwijstechnologen en vooral aan
diegenen die als adviseur betrokken zijn bij de herprogrammering van het Nederiandse
universitaire onderwijs. Met de gerichte vraag: in welke opzichten is dit model bruikbaar
of onbruikbaar bij het ontwerpen van oplossingen voor de verkorting van de cursusduur
of beheersing van de studieduur van studenten?' Ik verwacht dat in de praktijk onder
meer zal blijken: dat de operationalisering van de factoren soms voeten in de aarde heeft
of dat definities soms zelfs ietwat moeten worden aangepast; dat het model voor sommige
gebruiksdoelen te kaal is en uitgebreid moet worden met submodellen, die als struiken
aan de hoofdfactoren groeien; en dat het model minder bruikbaar is als men zekere on-
derwijsfilosofieën of mensbeelden tot richtsnoer wil nemen. Maar deze verwachtingen
kunnen het beste getoetst worden binnen een breder forum, op basis van ervaring van vele
collega's in de rijkgeschakeerde onderwijspraktijk.

1. Een zesde component die de commissie onderscheidt, is de tijd die de student kwijt
is aan deelname aan tentamen- en examenzittingen. Deze wordt in onze begrippenkaart
gedekt door de variabele 'overhead-tijd'.

2. Het onderscheid tussen de componenten (c), (d) en (e) wordt behandeld door De
Groot (1979, p. 270-2).

3. Het onderhavige artikel maakt deel uit van een project uitgevoerd onder begeleiding
van C.F. van der Klauw, hoogleraar aan de Erasmusuniversiteit te Rotterdam. Getracht
wordt het onderwijsleermodel van CarroU (1963) bruikbaar te maken voor enkele on-
derwijs- en studietechnologische doelstellingen. Het eerste artikel (Holleman, 1980)
was gericht op de vraag welke factoren gemanipuleerd kunnen worden als men het
slaagpercentage van studenten wil verhogen, in een studietaak die binnen een beperkt
tijdsbestek (to tot tj) moet worden uitgevoerd. In het onderhavige artikel worden de-
zelfde factoren gebruikt; alleen is het tijdstip ti nu onbepaald (tn). Behalve de crite-
riumvariabele (bruto Studieduur) is een factor Studie-inzet toegevoegd, terwijl In-
dividuele studielast nu samenvalt met Geleverde studie-inspanning. Ten einde termi-

nologische verwarring tussen Bruto bestede studietijd en (bruto) Studieduur te voor-
komen, is de eerstgenoemde variabele omgedoopt tot Bestede studietijd. Een belang-
rijke verbetering in het onderhavige artikel is naar mijn mening dat onderscheid wordt
gemaakt tussen de begrippenkaart en het daarop gebaseerde technologische model. Fi-
guur 2 biedt een verbeterde weergave van de oplossmg voor het probleem dat in het
vorige artikel (Holleman, 1980) aan de orde was.

4. Zo heb ik ook aansluiting trachten te vinden bij de begrippenkaart die in de afgelopen
zes jaar ontwikkeld en gepropageerd is door De Groot (1979; 1980). Met de begrip-
pen Te behalen leerwinst. Geleverde studieinspanning en (persoonlijke plafondwaarde
op de) Doehnatigheid is dat redehjk gelukt. Zijn begrippenkaart kan echter niet zonder
meer gebruikt worden voor ons doel, aangezien zijn defmities geënt zijn op de vooron-
derstelling dat het curriculum optimaal is ingericht.

5. In een publikatie gericht op universitaire docenten heb ik, uitgaande van het model,
een aantal mogelijkheden voor verkortmg van de studieduur behandeld (Holleman'
1979).

Beikel, H.J.M. van. Studievertraging en voortijdige studiebeëindiging. COWO-iapport 77-01-01. Am-
sterdam: Universiteit van Amsterdam (Centrum voor Onderzoek van het W.O.), 1977.

Bruyne, H.C.D. de. Selectierapport Rijksuniversiteit Utrecht. Utrecht: Rijksuniversiteit Utrecht (Staf-
afdeling Algemene Wetenschaps- en Onderwijszaken), 1976.

CarroU, J.B., A model of school learning. Teachers College Record, 1963, 64, 723-733.

Groot, A.D. de. Studielast en normstudent: Ontwerp van een akkoordtheorie, 1. Algemeen model.
Tijdschrift voor Ondenvijsresearch, 1979, 4, 257-274.

Groot, A.D. de. Studielast en normstudent: Ontwerp van een akkoord theorie, II Parameterkeuzen, toe-
passingen, Nederlandse problemen. Tijdschrift voor Onderwijsresearch, 1980, 5, 9-28.

Holleman, J.W., Verkorting van de studieduur. O&O-Memo, 1979, 5:3 (Afdeling Onderzoek en Ont-
wikkeling van Onderwijs, Rijksuniversiteit Utrecht). Ook verschenen in: Onderzoek van Onderwijs
1980,9:2,3-6.

Holleman, J.W., Het onderwijsleermodel van CarroU. Pedagogische Studiën, 1980, 57, 397-406.

Meuwese, W., N. Nelissen, H. Tielens, Een onderzoek naar de samenhang van enkele factoren met stu-
dieduur. Rapport nr. 16 van de Groep Onderwijsresearch. Eindhoven: Technische Hogeschool
Eindhoven, 1969.

Os, W. van, en Strien, H.M. van, Vallen en opstaan, selektie en doorstroming in de propedeuse Ekono-
mie. Amsterdam: Vrije Universiteit (Afdeling Onderwijsresearch), 1975.

Tomic, W., en Welling, E., Factoren die samenhangen met studieduur. Rapport VR 76-09 WTEW van
het Centrum Onderzoek W.0. Groningen: Rijksuniversiteit Groningen, 1976.

Wilbrink, B., Toetsen, herkansen, studievertraging: Achterliggende mechanismen. Onderzoek van On-
derwifi, 1980, 9:2, 7-11.

Onderzoek van Orthopedagogische en
Onderwijskundige Interventies aan de hand
van Tijdreeksen: een MANO VA-procedure

Orthopedagogical and educational intervention research by means of time series: a MAN OVA
procedure

Four typical designs in orthopedagogical and educational intervention research are discussed
according to the principles of Campbell and Stanley (1963). Attention is drawn to problems
connected with the analysis of the four data matrices of order N X T with N subjects and T
time points. Since the observations within subjects are very often correlated over time, traditio-
nal ANOVA is mostly proven to be an inappropriate method of analysis. On the other hand,
it is not possible for N greater than one or T small to follow the popular Box-Jenkins approach.
This approach is extensively presented in the recent publication of Cook and Campbell (1979),
which at the same time neglects the MANOVA alternative almost completely. In the present
article a MANOVA procedure is elaborated for analyzing the four matrices, using GLS with
an arbitrary number of covariates as estimation method. The procedure comprises profile
analysis as a special case and is applied in detail to real research data. The computations are
made by the TIDA program, which offers several advantages over the widely used MULTI-
VARIANCE program.

Campbell en Stanley (1963) gaven in hun bekende artikel aan onderzoek, waarbij een
tijdreeks wordt onderbroken door een interventie-punt, een vooraanstaande plaats in de
rij van quasi-experimentele onderzoeksopzetten. Zij wezen echter tevens op moeilijkheden
bij de statistische analyse. Ondanks uitstekende controle-mogelijkheden missen tijdreeks-
onderzoeken de typische voordelen van het gerandomiseerde experiment. In het bijzon-
der vertonen tijdreeksdata vaak afhankelijkheid in de tijd, waardoor aan de assumpties
van de traditionele, univariate variantie-analyse (ANOVA) niet kan worden voldaan.
Sinds de publicatie van Campbell en Stanley in 1963 is vanuit verschillende benaderingen
aan de statistische problematiek gewerkt. Gebrek aan statistische middelen kan op dit
moment geen argument meer zijn om tijdreeksonderzoek en statistische conclusies met
betrekking tot tijdreeksonderzoek achterwege te laten. Twee benaderingen met alterna-
tieve oplossingen voor het afhankelijkheidsprobleem in tijdreeksdata zijn die van Box en
Jenkins en van de multivariate variantie-analyse (MANOVA). Uiteenzettingen over de
Box-Jenkins benadering vindt men bij Box en Jenkins (1976) en aan de hand van veel
praktische voorbeelden bij Jenkins (1979). Het laatste artikel bevat ook toepassingen van

Dank aan J. van den Bereken, J. van Leeuwe en M. Voeten voor hun kritische opmerkingen bij het
rnanuscript.

de eerder door Box en Tiao (1975) besproken interventie-modellen. Met deze interventie-
modellen, waarin een afzonderlijke variabele de interventie beschrijft, kunnen de onder-
broken tijdreeksen van Campbell en Stanley worden geanalyseerd zoals uitgebreid is
aangetoond door Glass et al. (1975) en later door McCain en McCleary (1979).
Bock (1975, p. 447-505) en Finn en Mattsson (1978, p. 101-125) passen MANOVA toe
op tijdreeksen ('herhaalde metingen', 'groeicurven'). Zij beperken zich hierbij tot de
gewone kleinste-kwadraten procedure (OLS: Ordinary Least Squares). De gegenerahseerde
kleinste-kwadraten procedure (GLS: Generalized Least Squares) wordt behandeld door
Potthoff en Roy (1964) en rekeninghoudend met de resultaten van Rao (1965) en Khatri
(1966) door Grizzle en AUen (1969). Een samenvattend overzicht vindt men bij Geisser
(1980). Algina en Swaminathan (1979) volgen de overigens nogal afwijkende aanpak van
Simonton (1977) in de toevoeging van interventie-variabelen aan het analyse-model,
waardoor de onderbroken tijdreeksen van Campbell en Stanley op gemakkelijke wijze bin-
nen het bereik van MANOVA komen.

Mede door de genoemde publicatie van Glass et al. (1975) heeft de Box-Jenkins
benadering in de sociale wetenschappen ruime bekendheid gekregen. Nadelen zijn, dat het
gehanteerde analyse-model in zijn algemene vorm tot nu toe alleen toepasbaar is in N = 1-
studies en dat tamelijk lange tijdreeksen (40 of meer waarnemingen bij hetzelfde subject)
noodzakelijk zijn om enigszins betrouwbare schattingen te verkrijgen. Onder meer m
het geval, dat de data bestaan uit testscores, stuit het verzamelen van dergelijke lange
reeksen gemakkelijk op bezwaren. Een ander nadeel is, dat beperkingen worden opgelegd
aan het soort afhankelijkheden dat in de data wordt toegelaten. Gezien deze nadelen is
het teleurstellend, dat Cook en Campbeh (1979) in hun recente, uitgebreide versie van het
artikel van Campbell en Stanley nauwelijks enige aandacht schenken aan het alternatief
van de MANOVA-benadering.

In dit artikel wordt aan de hand van praktische voorbeelden aangegeven, hoe via
MANOVA typische vragen beantwoord kunnen worden met betrekking tot hi de ortho-
pedagogiek en de onderwijskunde veel voorkomende interventie-data. Anders dan in de
Box-Jenkins benadering zijn geen specifieke assumpties vereist over het soort afhanke-
lijkheden en kan meestal met de kortere tijdreeksen worden volstaan die men in de ortho-
pedagogiek en de onderwijskunde typisch aantreft. Wel moet het aantal onderzochte
subjecten in ieder geval groter zijn dan de N = 1 van de Box-Jenkins benadering en moet
evenals onder ANOVA voor alle onderzochte subjecten dezelfde covariantie-matrix
worden aangenomen. De minimaal vereiste N bij de hier behandelde soorten interventie-
data is in het algemeen niet groter dan enkele subjecten. Voor het verkrijgen van voldoen-
de onderscheidingsvermogen (significante toetsingsresultaten en bruikbare schattingsin-
tervallen) kan echter een aanmerkelijk grotere N noodzakelijk zijn. Bij een correct model
kan de keuze van een grotere N voordeliger zijn dan uitbreiding van het aantal tijdstippen
om via de GLS-procedure tot een verbeterde schatting te komen (Grizzle en Men, 1969,
p.369).

De data vaji veel interventie-onderzoeken in orthopedagogiek en onderwijskunde passen
in een van de data-matrices die in fig. 1 zijn onderscheiden. Subjecten worden aangeduid
met de getallen 1,..., N en opeenvolgende tijdstippen met de getallen 1, ...,T: iedere rij

Eiguur 1. Vier soorten data-matrices in orthopedagogisch en onderwijskundig interventie-onderzoek

van de data-matrix bevat dus één tijdreeks van één der onderzochte subjecten. Voor het
gemak zal in de rest van dit artikel worden uitgegaan van tijdstippen met gelijke afstanden

1: 1,..., t-1, t, t+ 1.....T. De analyse-procedure laat echter zonder problemen het

gebruik toe van willekeurige opeenvolgende tijdstippen, eventueel met ongelijke afstan-
den: 1,..., t_i, t, tl,... tx. Dit kan van belang zijn, wanneer bijv. bij dagelijkse metingen
de zaterdagen en zondagen uitvallen, bij maandelijkse metingen de vakantie-maanden of
achteraf bijv. door ziekte data van bepaalde tijdstippen blijken te ontbreken.
De data-matrices in fig. 1 kUmmen op in complexiteit. Zo vindt men datamatrix I temg
als een der deelmatrices van II, III en IV; II en III als een der deelmatrices van IV. De
complexiteit van de betrokken data-matrix bepaalt de analyse-mogehjkheden en voor een
belangrijk deel ook de conclusies die men op grond daarvan kan trekken voor de effecti-
viteit van de interventie.

Data-matrix 1 is de eenvoudigste en laat ook de minst vergaande conclusies toe. De onder-
zoeksperiode is hier nog niet verdeeld in een preïnterventie-periode over de tijdstippen
l,...,To en een interventie-periode over Tq + I,...,T. Aangezien het interventie-punt
voorafgaat aan tijdstip 1, is er dus nog geen sprake van onderbroken tijdreeksen in de zin
van Campbell en Stanley. Er is in hun terminologie sprake van een pre-experimentele
onderzoeksopzet. Ondanks de beperkingen wordt data-matrix I zeer frequent gehanteerd.
Bij één of meer kinderen worden bijv. tijdens de uitvoering van een behandelingsprogram-
ma herhaald scores verzameld. De analyse moet antwoord geven op de vraag, of het ver-
loop van de scores (de vorm van de curve) over de behandelingsperiode overeenstemt met
daarover tevoren gevormde hypothesen. De beperking ligt natuurlijk hierin, dat de hypo-
these van bijv. een toename of afname allerminst uitsluit dat die toename of afname ook
zonder interventie had plaatsgevonden. In een bijzonder geval, Campbell en Stanley's
pre-experimentele 'One-Shot Case Study', bevat data-matrix I slechts één kolom en wordt
de interventie dus slechts door één waamemuigstijdstip gevolgd. De hypothese kan dan
alleen betrekking hebben op het absolute scoreniveau op dat tijdstip. Aangezien hiermee
zelfs de mogelijkheid wordt opengelaten van een feiteUjke afname bij een beoogde toe-
name en omgekeerd, kan dus nog minder worden geconcludeerd over de effectiviteit van
de interventie.

Om een bepaald verloop van de curve met enige mate van zekerheid te kunnen toeschrij-
ven aan de interventie, stellen Campbell en Stanley voor de tijdreeksen in data-matrix 1
uit te breiden tot de onderbroken tijdreeksen in II, door hen Time Series Experiment'
genoemd. Aan de hand van deze, door het interventie-punt in tweeën gedeelde tijdreeksen
kan men trachten aan te tonen, dat de curve in de interventie-periode niet louter een
voortzetting is van de spontane ontwikkeUngscurve in de preïnterventie-periode. Een
voorbeeld van zo'n onderbroken tijdreeks vindi men bij II in fig. 2.
De analyse moet antwoord geven op de vraag, of er wijzigingen optreden in het verloop
van de curve bij de overgang van pre interventie- naar interventie-periode en of deze wijzi-
gingen overeenstemmen met de hypothesen. Essentieel voor het quasi-experunentele
karakter van een onderbroken tijdreeks is, dat het aantal onderzochte tijdstippen groter
is dan twee. Bij slechts twee waamemingstijdstippen, één voor en één na het interventie-
punt, kan een wijziging in het verloop van de curve per definitie niet worden vastgesteld
en spreken Campbell en Stanley over 'One-Group Pretest-Posttest Design' waaraan zij
evenals aan I pre-experimentele status toekennen.

Data matrix III, die zich van I onderscheidt door een verdeling van de totale onderzoeks-
groep in een interventie-groep van subjecten 1, ...,Ni en een controle-groep van subjec-

ten N, + 1.....N, wordt in haar algemene vorm niet expliciet behandeld door Campbell

en Stanley. Hun opmerkingen met betrekking tot het bijzondere geval van slechts één
waarnemingstijdstip zijn echter evenzeer van toepassing bij meer tijdstippen. De conclu-
sies die data-matrix III toelaat met betrekking tot de effectiviteit van de interventie,
hangen in sterke mate af van de wijze waarop beide groepen zijn samengesteld. Is dit
gebeurd door randomisering voorafgaand aan de interventie, dan resulteert in de termi-
nologie van Campbell en Stanley een echt-experimentele onderzoeksopzet; bij slechts
één tijdstip het 'Posttest-Only Control Group Design', waarmee het eenvoudige, tradi-
tionele experiment is bedoeld met twee groepen, één nameting en geen voormeting. De
analyse van data-matrix III moet antwoord geven op de vraag, of de curven (niveaus bij
slechts één tijdstip) van de beide onderzochte groepen verschillen en of deze verschillen
in overeenstemming zijn met de hypothesen. Dezelfde vraag en dezelfde analyse zijn van
toepassing bij natuurlijke of anderszins niet-gerandomiseerde groepen, maar hier blijft
altijd de mogelijkheid, dat eventuele verschillen een gevolg zijn van verschillen in samen-
stelling van de groepen en niet een gevolg van de interventie. De lage, pre-experimentele
status in het geval van niet-gerandomiseerde groepen (bij één tijdstip 'Static Group
Comparison') brengt dit tot uitdrukking.

Data-matrix IV, Campbell en Stanley's 'Muhiple Time Series Design', is zowel een uitbrei-
ding van II als van III. Veel interventie-effecten hebben niet het karakter van een plotse-
linge niveau-wijziging, maar eerder van een wijziging in de richting van het curve-verloop.
Vergelijk in fig. 2 de interventie-groep-curven onder II en IV. Curven, die onder invloed
van de interventie alleen hun richting wijzigen, zijn zonder controle-groep moeihjk van
spontane ontwikkelingscurven te onderscheiden. Zeker indien er bovendien sprake is
van een vertraagd effect, zodat de wijziging niet onmiddellijk na het interventie-punt tot
uitdrukking komt, kan de toegevoegde controle-groep in IV een meer mformatieve
'basis-lijn' verschaffen dan de interventie-groep op basis van uitsluitend de preïnterventie-
periode. De analyse van IV moet dan ook in eerste instantie de curve van de controle-
groep zo goed mogelijk beschrijven, zo mogelijk met geringe of geen curvewijzigingen
in de interventie-periode en in het geval van vergelijkbare groepen met geringe of geen
preïnterventie-verschihen tussen de groepen. Vervolgens moeten voor de interventie-
groep de wijzigingen in curve-verschillen tijdens de interventie-periode worden geanalyseerd.
Nagegaan moet worden, of deze in overeenstemming zijn met de hypothesen.
Evenals bij data-matrix III dient bij IV onderscheid gemaakt te worden tussen al dan niet
gerandomiseerde groepen (in het geval van één tijdstip voor en één na de interventie resp.
'Pretest-Posttest Control Group Design' en 'Nonequivalent Control Group Design'). Bij
gerandomiseerde groepen resulteert weer een-echt-experimentele onderzoeksopzet en is
het enige voordeel ten opzichte van III, dat door de additionele informatie van de pre-
interventie-periode betrouwbaardere schattingen verkregen kunnen worden voor de inter-
ventie-periode. Bij niet-gerandomiseerde groepen is de uitbreiding van veel grotere beteke-
nis. Door toevoeging van een preïnterventie-periode kan meer of minder diepgaand de ver-
gelijkbaarheid van de groepen worden nagegaan los van de interventie: bij slechts één
preïnterventie-tijdstip vergehjkbaarheid in niveau en bij meerdere preïnterventie-tijdstip-
pen bovendien vergelijkbaarheid in curve-verloop. Deze mogelijkheid brengt CampbeU
en Stanley ertoe de pre-experimentele status onder III te veranderen in de quasi-experi-
mentele. Voor de analyse houdt het in, dat tevens verschillen in niveau en curve-verloop
tussen controle- en interventie-groep moeten worden nagegaan voor de preïnterventie-
periode. Wanneer de groepen voorafgaand aan de interventie niet vergelijkbaar zijn in

niveau, curve-verloop of beide, kan hiervoor worden gecontroleerd bij het schatten van
de curve-wijzigingen voor de interventie-periode. Door dergelijke preïnterventie-verschillen
verliest de curve van de controle-groep echter haar 'basis-lijn'-karakter en ontstaat
opnieuw het probleem om voor de interventie-groep wijzigingen in de richting van het
curve-verloop te onderscheiden van een spontane ontwikkeling. De quasi-experimentele
status als gevolg van de vergelijkbaarheidstoets is dan ook zo te verstaan, dat inzicht
wordt gegeven in de kwaliteit van de controle-groep en daardoor in de toelaatbaarheid
Van conclusies met betrekking tot de interventie.

Samengevat bestaat de taak van de uiteen te zetten MANOVA-procedure in de analyse
(toetsing, schatting, interval-schatting) van curve-verloop (met mbegrip van niveau),
wijzigingen in curve-verloop (na het interventiepunt), van verschillen in curve-verloop
(tussen interventie- en controlegroep) en van wijzigingen in curve-verschillen. Zoals
benadrukt moet men bij de interpretatie van de analyse-resultaten voor de effectiviteit
Van de interventie in sterke mate rekening houden met de aard van de betrokken data-
matrix en de pre-experimentele, quasi-experimentele of echt-experimentele status van de
opgenomen interventie-data.

Het analyse-model is een toepassing van het gegeneraliseerde MANOVA-model (Potthoff
en Roy, 1964), waarin behalve de parameter-matrix B en tussen-subjecten matrix K tevens
een toegevoegde binnen-subjecten matrix X voorkomt.

Y is een van de data-matrices I t/m IV in fig. 1; KBX' beschrijft de curven door de data
zoals dadelijk aan de hand van voorbeelden zal worden uiteengezet en E met verwachting
E(E) = O bevat de afwijkingen ten opzichte van de curven.

De kern van het analyse-model wordt gevormd door matrix B, waarin afhankelijk van de
data-matrix verschillende soorten polynoom-coëfficiênten worden opgenomen zoals aan-
gegeven in tabel 1. Deze coëfficiënten beschrijven de vorm van de curven en hun
betekenis kan worden verduidelijkt aan de hand van hypothesen met betrekking tot de
voorbeelden II en IV in fig. 2. In verband met het kromlijnige verloop van de preïnter-
ventie-curve in voorbeeld II zou naast een constante en eventueel een lineaire component
een kwadratische component als hypothese gesteld kunnen zijn: bo ^0,bi =^0,b2 ït
0. De niveau-verhoging op het interventie-punt wordt door b o O gehypothetiseerd en
eventuele O-waarden voor de overige coëfficiënten door bs = ... = bm = O, b j = ... = b „ =
0. Hypothesen voor voorbeeld IV kunnen behalve op het curve-verioop van de controle-
groep betrekking hebben op de vergelijkbaarheid van de groepen m de preïnterventie-
periode: bijv. bo = ... = b m = O (geen verschil) of b i = ... = bm = O (hooguit een constant
Verschil) en o^wijzigin^n in de preïnterventie-verschillen tijdens de interventie-periode:
bijv. bo = O, bi ^ O, b2 O (geen niveau-verhogmg op het interventie-punt maar wel een
lineaire en 'kwadratische wijziging in richting). De belangrijkste hypothesen met betrek-
king tot curve-verloop, die in de vorige paragraaf werden besproken, zijn zo rechtstreeks
in termen van de parameter-matrices B van tabel 1 uitdmkbaar. Zij vereisen geen extra

Tabel 1: Matrices B bij data-matrices I t/m IV in fig. 1; ten opzichte van de polynoom-curve beschre-
ven door coëfficiënten b^j, b j, . . . , b^^ geven b^j, b j,..., b^ curve-wijzigingen aan tijdens de inter-
ventieperiode, bjj, b j, . . . , b^ curve-verschillen bij de interventie-groep en b^, bj.....^^ wijzigin-
gen in curve-verschillen tijdens de interventie-periode

parameter-transformaties zoals bijv. bij gebruikmaking van profiel-analyse (Algina en
Swaminathan, 1979, p. 923-924).'

De matrices K en X bij een gegeven Y-matrbc worden overeenkomstig de coëfficiënten
m B opgebouwd en beschrijven te zamen met B de curven door de data in Y. Onder-
staand een tweetal voorbeelden van KBX'

N = lSfi geeft het ontbreken van een controle-groep aan en To > O specificeert een pre-

1 Profiel-analyse (Morrison, 1976, p. 153-160; Bock, 1975, p. 470) en voor T = 2 winstscore-analyse
(Bock, 1975, p. 489) kunnen gemakkelijk met behulp van de hier behandelde analyse-procedure wor-
den uitgevoerd door in de rijen van B bij data-matrix III het maximale aantal van m = T coëfficiënten
op te nemen. De hypothese van parallelle curven is dan de samengestelde hypothese [b, bj... fem] = O
(de hypothese van geen verschil in winstscores b, = 0). Onder aanname van parallellie is de hypothese
van samenvallende curven b , = O en van constante curven [b, bj... bn, ] = 0. Zie voor toetsing van deze
hypothesen paragraaf 6.

interventie-periode, zodat de Y-matrix als een data-matrix II wordt opgevat. De bij-
behorende B-matrix is gemakkelijlc af te leiden uit de opgegeven 6 vectoren in X: 0®-
graads (constante) vector Gq met 1-en, lineaire (l®-graads) vector Gi met de tijdstippen
zelf, 2®-graads (kwadratische) vector Gj met de gekwadrateerde tijdstippen en analoog
interventie-vectoren Iq , Ii en I2 met resp. 1-en, tijdstippen en gekwadrateerde tijdstippen
vanaf het interventie-punt. Met behulp van Go,Gi,G2 wordt de preïnterventie-curve
beschreven en met behulp van Io,Ii,l2 de wijzigingen in het curve-verloop tijdens
de interventie-periode. De observatie-data y op de preïnterventie-tijdstippen t < Tq vol-
gen de vergelijking y = bo +bi t + b2t^ +e en op de interventie-tijdstippen t~^To de
vergelijkingy = bo +bit + b2t^ + bo + b, (t-To) + b2(t-To)^
Onder voorbeeld 2 kan het analyse-model als volgt worden samengevat

Vanwege N > Ni en To > O hebben we te doen met een data-matrix IV, waarbij de inter-
ventie-groep N, =4 en de controle-groep N-N, =4 subjecten bevat. Anders dan in
voorbeeld 1 bevat X slechts 5 vectoren: er wordt blijkbaar aangenomen dat de interventie-
vectoren lo en Ii voldoende zijn om de wijzigingen vanaf het interventie-punt te beschrij-
ven. De aan matrix K toegevoegde dummy-vector, bestaande uit 1-en voor de subjecten
in de interventie-groep en O-en voor de subjecten in de controle-groep, kodeert het ver-
schil tussen interventie-groep-curve en controle-groep-curve. Dit verschil wordt voor de
subjecten in de interventie-groep toegevoegd aan de controlegroep-curve. Zo volgen bijv.
de preïnterventie-data voor de controle-subjecten de vergelijking y = bo + bi t -i- b21^ +
e en voor de interventie-subjecten de vergelijking y = bo + bj t + b21^ + + Jb 11 + b21^ +
e.

Naar analogie van de voorbeelden 1 en 2 zal het niet moeilijk zijn om in onderstaande
voorbeelden 3 en 4 analyse-modehen voor resp. data-matrices I en III te herkennen en de
betrokken matrices K, B en X te construeren.

Het is de taak van de statistische analyse-procedure om 1) aan de hand van een voorlopig
model en voorlopige schatting van de coëfficiënten in B enkelvoudige en samengestelde
hypothesen met betrekkmg tot de coëfficiënten te toetsen, 2)-rekening houdend met de
toetsingsresultaten een verbeterd model en een verbeterde schatting van de coëfficiënten te
geven met inbegrip van de bijbehorende enkelvoudige en gelijktijdige schattingsintervallen,
3) rond de curve-schattingen, die uit de coëfficiënt-schattingen worden afgeleid, de bij-
behorende schattingsintervallen te constmeren.

Om de berekeningen te kunnen uitvoeren vereist de MANOVA-procedure allereerst, dat
aan de volgende minimum-voorwaarden met betrekking tot N en T is voldaan

Hierin is q het totale aantal vectoren Gq, ..., en lo,..., In, dat in de X-matrix wordt
opgenomen, r geeft het aantal groepen aan, zodat r = 1 voor data-matrix I en 11 en r = 2
voor data-matrix III en IV. Van de beide schattingsprocedures onder MANOVA (OLS en
GLS; zie paragraaf 4) imphceert OLS s = O, zodat de minimaal vereiste N hier kleiner is
dan bij gebruikmaking van de GLS-schatter, waarin aan matrix K nog s < T-q vectoren
(covariaten) worden toegevoegd. Maximaal kan men s = T-q covariaten construeren:
opname van een groter aantal covariaten s is bij gelijkblijvende q dus slechts mogelijk
door behalve minimale N tevens T te vergroten. Wil men gebruikmaken van bepaalde
samengestelde hypothesen en gelijktijdige schattingsintervallen (zie de paragrafen 6,7 en
8) dan moet de minimale N worden verhoogd met v-1. Hierin is v < q het aantal vrij-
heidsgraden, behorend bij de meestomvattende van de samengestelSe hypothesen of
gelijktijdige schattingsintervallen. Bij toepassing van (2) op voorbeeld 1 (q=6, r= 1,
s < 1 vanwege T-q = 1, v < 6) blijkt steeds aan de minimum-voorwaarden te zijn voldaan
en~evenzo bij toepassing opHe voorbeelden 3 en 4.

Met betrekking tot matrix E in (1) zijn een aantal statistische assumpties vereist, die het
MANOVA-model completeren (Potthoff en Roy, 1964, p. 314-315; Grizzle en Allen,
1969, p. 357-358). Hier gaan we alleen in op de assumptie waardoor het MANOV A-model
zich onderscheidt van het traditionele, univariate ANOV A-model en het eveneens univariate
MIXED ANOV A-model. Volgens deze assumptie moeten de e binnen rijen t van E,
d.w.z. de afwijkingen binnen subjecten, multinormaal verdeeld zijn met één gemeenschap-
pelijke covariantie-matrix 2 = E(ee') voor alle rijeni'. Meer specifieke assumpties worden
in het MANOV A-model niet gesteld met betrekking tot 2. Men hoeft dus niet aan te
nemen, dat de afwijkingen binnen subjecten tevens gelijke varianties en onafhankelijkheid
(covarianties 0) bezitten zoals onder het ANOVA-model of gelijke varianties en gelijke cova-
rianties (niet noodzakelijk 0), waardoor het MIXED ANOVA-model van toepassing zou
zijn. Het ANOVA-model, waarin een scalaire matrix S = a^I wordt aangenomen, is overi-
gens vrij zelden van toepassing in orthopedagogisch en onderwijskundig interventie-
onderzoek. Een belangrijke reden is, dat subjecten meestal verschillen in niveau op de
geanalyseerde variabele, zodat er rijgewijs een subject-effect aj verborgen zit in de afwij-
kingen e: e = e + aj, die daardoor gaan covariëren. Is voor de e echter wel een scalaire
covariantie-matrix van toepassing en worden de ai opgevat als aselecte trekkingen uit een
populatie met variantie al, dan ontstaat de samengesteld symmetrische 2 = a^i o| 11'
in het MIXED ANOVA-model: alle elementen van scalaire 2 = a^I, waaronder de buiten-
diagonale elementen, worden met de subject-variantie o| vermeerderd (Bock, 1975,
p. 449-450).

Hoewel het MANOVA-model algemener is dan de beide univariate modellen en schatter
ß volgens de multivariate OLS-procedure (zie paragraaf 4) exakt dezelfde waarden ople-
vert voor de coëfficiënten in B als de beide univariate (OLS-)procedures, verdienen de
laatste toch de voorkeur onder de univariate modellen vanwege een groter onderscheidings-
vermogen. De aanpak van Bock (1975, p. 468-482) volgend verkrijgt men de univariate
analyses bovendien gemakkelijk als bijproduct van de multivariate OLS-analyse. De schat-
tingen äi en ó^, aan de hand waarvan de significantie-toetsing en de berekening van schat-

tingsintervallen in de univariate analyses plaatsvindt, worden rechtstreeks uit schatter
É van demultivariat^LS-procedure afgeleid. Uit Ojj (gemiddelde van de buitendiagonaal-
elementen in 2) en dj (gemiddelde van de diagonaal-elementen in Ê) volgen voor samen-
gesteld symmetrische S onder het MIXED ANOVA-modeP: a\ = djj en a^ = af - Ojj;
voor scalaire £ onder het ANOVA-model: a^ = df. Het grotere onderscheidingsvermogen
van de univariate analyses is een gevolg van het grotere aantal vrijheidsgraden van a^ in
vergelijking met de N-r vrijheidsgraden van de elementen in È: d^ heeft in het geval van
samengesteld symmetrische S, (N—r)(T—1) vrijheidsgraden voor q = T en N(T—1)—r
(q-1) vrijheidsgraden voor q < T; in het geval van scalaire 2, (N-r)T vrijheidsgraden voor
q = T en NT—rq vrijheidsgradeü voor q < T.

De toepasbaarheid van de univariate modellen kan worden nagegaan via een der toetsen
voor samengestelde symmetrie. De toets van Box (1950), onder meer te vinden bij Winer
(1971, p. 594-599) en Kirk (1968, p. 260-261), voorondersteU N>T en q = T. Bock
(1975, p. 459460) toetst op een andere wijze voor samengestelde symmetrie. Zijn proce-
dure, die ook bij N > q met q < T toepasbaar is, maakt gebruik van E, = X^ 2X,, waarin
X, de kolomsgewijs georthonormaliseerde vorm is van X met Gq als eerste kolom in X;
de berekening van X, = XS'"' via Cholesky-factor S van X'X kan men vinden bij Bock
(1975, p. 85-89) en Finn (1974, p. 3647). 2, heeft in het geval van samengestelde
symmetrie de buitendiagonaal-elementen gelijk aan O zodat correlatie-matrix R, = I en de
diagonaal-elementen gelijk aan a^ met uitzondering van het eerste diagonaal-element
aj, +Ta|. Via Bartlett's toets (Morrison, 1976, p. 116-118) wordt de hypothese
R* = I getoetst. Via een van de toetsen voor gelijke varianties (Pearson en Hartley, 1966,
p. 63-67) wordt vervolgens de hypothese <7^2 = ... = ajq getoetst. Indien de laatste
hypothese niet geldt maar wel R, = I, kunnen in het kader van de multivariate analyse
onafhankelijke toetsen voor de coëfficiënten in B worden geconstrueerd, resulterend in
een relatieve verbetering van het onderscheidingsvermogen (Bock, p. 460461). Een scalaire
2 vereist behalve samengestelde symmetrie tevens o| = O en dus de uitgebreidere hypo-
these ah = 0I2 = ... = ajq. Onder aanname van samengestelde symmetrie kan a| = O ook
worden getoetst via al, = a^ (Bock, 1975,p. A12A13).

De GLS-schattingsprocedure voor het MANOV A-model, die in deze paragraaf zal worden
besproken, heeft ds belangrijk voordeel, dat ?en willekeurig aantal van s<T-q cova-
riaten aan matrix K kan worden toegevoegd om daarmee tot een verbeterde schatting
(groter onderscheidingsvermogen, kleinere schattingsintervallen) van de coëfficiënten in B
te komen. De procedure is algemener dan de GLS-procedure, waarbij het maximum van s =
T—q covariaten wordt toegevoegd, de schatter van B gelijk wordt aan de grootste-aanne-
melijkheidsschatter en waarvoor men vaak een formulering aantreft in termen van 2"'
(Grizzle en Allen, 1969, p. 362). Voor het bijzondere geval s = 0 resulteren de OLS-schat-
ters. Voor s > 1, hetgeen vereist q < T, zijn de resultaten vaak beter dan voor OLS, maar
zoals zal blijken is de keuze van het maximum s = T-q niet altijd de beste keuze. Essen-

2 Op basis van de schatters ój en a' van subject-variantie aj en afwijkingenvariantie a' wordt vaak de
in tra-klasse correlatie r = + ö') berekend als maat voor de betrouwbaarheid van het gebruikte

meetinstrument (Winer, 1971, p. 283-296). Ook deze verkrijgt men dus gemakkelijk als bijproduct van
de multivariate OLS-analyse.

tieel bij opname van s > 1 covariaten is, dat het gekozen analyse-model met slechts q < T
vectoren in X en dus T-q minder dan mogelijk, correct is. Deze hypothese impliceert
O-waarden voor de coëfficiënten bij T-q additionale vectoren Gm+j, Gn,+2,... en/of
In+i, In+2, - hetgeen vooraf via OLS kan worden getoetst.

De hier gekozen algemene formulering van de GLS-procedure in termen van covariaten
is afkomstig van Rao (1965, p. 452-458) en wordt uitgebreider behandeld door Grizzle
en Allen (1969). De matrix Y uit het oorspronkelijke model (1) wordt eerst getransfor-
meerd tot Yq = YX(X'X)"'. De transformatie-matrix X(X'X)"' van de orde T X q kan
bijv. worden berekend via X(X'X)-' = XS'-'S"' =X.S-' waarin S de Cholesky-factor
is van X'X en X, de georthonormaliseerde vorm van X (Finn, 1974, p. 4445). Op die
manier gaat (1) over in het getransformeerde model (3)

E(Yq)=E[(KBX' + E)X(X'X)-i] =KB volgt uit E [KBX'X(X'X)-M = KB en
E [EX (X'X) ] = E(Eq) = O vanwege E(E) = 0.

Vervolgens wordt Y nog op een tweede manier getransformeerd tot Y^ = YX.^, waarbij
als enige eisen aan transformatie-matrix X,s van de orde T x s worden gesteld: rang (X.^)
= s en X'X,s = O, d.wa. de kolommen van X,, moeten lineair onafhankelijk zijn en
orthogonaal ten opzichte van die in X. Te zamen impliceren beide eisen s < T-q. Men
kan bijv. matrix [X Xj] met s additionele vectoren G^+i, Gni+2, - en/of I~+i, In+2, ••.
in Xs nemen en X,s kiezen als de corresponderende deelmatrix in de georthonormaliseerde
vorm [X, X,s] daarvan. Er volgt nu

Het resultaat is een uitgebreid model (3) met dezelfde verwachting E(Yq) = KB maar met
een verbeterde (niet verslechterde) afwijkingen-matrix Eg ten opzichte van En: het ver-
schil 2q - 2g tussen de covariantie-matricesisniet-negatief definiet (Grizzle en Allen, 1969,
p. 368). De schatter C van C bevat als deelmatrbt GLS-schatter Bg en levert via Êg = Yq -
LC tevens de schatter van S»

Voor s = O, d.w.z. geen covariaten in L, gaan C en Êg over in de OLS-schatters
6 = (K'K)-' K'Yq en tq = ^(Ê:,Êq) met Êq = Yq - k6. Via Ê = Y - KÊX' verkrijgt

In het algemeen verschüt Êg van OLS-schatter B: Bg = É - (K'K)-'K'YsBs (Rao, 1965,
p. 457; Geisser, 1980, p. 95). Bg mist de OLS-eigenschap waarbij de subject-afwijkingen
ten opzichte van de curve-schattingen gemiddeld O zijn. Evenals B is Bg voor ieder wille-
keurig aantal covariaten s met inbegrip van het maximum s = T-q zuiver: E(Bg) = E(B) =
B. Dat de GLS-procedure ondanks een verbeterde afwijkingen-matrix Eg niet altijd betere
resultaten oplevert dan OLS, is een gevolg van het extra verlies van s vrijheidsgraden in
vergelijking met OLS. Indien Bj = O heeft toevoeging van covariaten geen zin en kan dus
beter OLS worden gevolgd. Maar ook indien Bs=i^O kunnen de GLS-resultaten slechter
zijn, wanneer s groot is in verhouding tot N en Bj relatief klein (Grizzle en Allen, 1969,
p. 367-368).

Vooral bij kleine steekproeven N dienen daarom voorafgaand aan de definitieve schatting
Bg covariaten met uitsluitend O-coëfficiënten of zeer lage coëfficiënten in Bj te worden
verwijderd. Toetsing van de coëfficiënten in Bj vindt plaats volgens dezelfde procedure als
van die in B (Grizzle en Allen, 1969, p. 364-365). Het heeft voordelen de door Rao gesug-
gereerde covariaten te gebruiken, waarbij X.g wordt gevormd uit de eigenvectoren bij de
s < T-q grootste eigenwaarden van matrix (1 - X,Xl)Ê (Grizzle en Allen, 1969, p. 368).
Deze covariaten leveren weer dezelfde coëfficiënten in Bj op na verwijdering van covari-
aten met niet-significante coëfficiënten. Toetsing van de Bs-coëfficiënten en keuze van de
covariaten vereist hierbij dus hooguit één extra schatting, zodat het bezwaar van een
herhaald gebruik van hetzelfde data-bestand tot een minimum beperkt blijft.

De data, die in de volgende paragrafen zullen worden geanalyseerd, zijn afkomstig uit een
onderzoek bij leerlingen van basisscholen in de omgeving van Arnhem gedurende het
schooljaar 1979-1980^. Het onderzoek betrof het curriculum-onderdeel oppervlakte-
meten. Een stapsgewijze leermethode waarbij de leerstof een hiërarchische opbouw
vertoonde, werd vergeleken met een traditionele methode. Volgens de hypothese zou de
stapsgewijze methode aanvankelijk minder vooruitgang laten zien, maar later vanwege
de meer systemaüsche aanpak tot hogere prestaties leiden dan de traditionele methode.
In het onderzoek werden 6 klassen aselect in twee groepen van 3 klassen verdeeld: de 85
leerlingen van de eerste groep volgden de stapsgewijze methode (interventie-groep) en de
95 leerlingen van de tweede groep de traditionele methode (controle-groep). Uitgaande
van vooraf geformuleerde leerdoelen werd een-prestatie-toets geconstrueerd met 2 a 3
items per leerdoel. Deze toets werd op 5 achtereenvolgende tijdstippen bij alle 180 leer-
lingen afgenomen. De gemiddelde scores op de 5 tijdstippen in fig. 3 lijken in overeen-
stemming met de hypothese. Terwijl er op tijdstip 1 bijna geen verschil is, vertoont de
interventie-groep op tijdstip 2 een lagere gemiddelde score maar neemt het verschil
daarna af om ten slotte op tijdstip 5 te resulteren in een verschil ten gunste van de inter-
ventie-groep. De verschillen zijn overigens betrekkelijk gering in verhouding tot de totale

3 De data werden in het kader van een scriptie-onderzoek verzameld door H. Feenstra, student aan
de ISO (Interdisciplinaire Studierichting Onderwijskunde) te Nijmegen, en belangeloos door hem ter
beschikking gesteld.

Figuur 3. De gemiddelde scores en Q van resp. interventie-groep en controle-groep op 5 achtereen-
volgende tijdstippen in een onderzoek naar leermethoden voor oppervlakte-meten, de GLS-schattin-
gen van de bijbehorende curven en het 95% -schattingsinterval voor de afwijking van de interventie-
groep-curve ten opzichte van de controle-groep-curve

spreiding in leerling-scores. De statistische analyse'* moet antwoord geven op de vraag,
in hoeverre de geconstateerde verschillen aan het toeval toegeschreven kunnen worden.

4 De analyse werd uitgevoerd met een experimentele versie van het programma TIDA. Dit program-
ma, dat is ontwikkeld voor de analyse van de data^natrices in fig. 1, voert na automatische constructie
van' de matrices K en X alle berekeningen uit zoals uiteengezet in de paragrafen 5 t/m 8, gebruikma-
kend van de schattingsprocedure in paragraaf 4. Het biedt hierbij de volgende voordelen boven toepas-
sing van het bekende programma MULTIVARIANCE (Finn, 1978; Finn en Mattsson, 1978, p. 101-125).
Om de analyse te kunnen uitvoeren vereist TIDA slechts de opgave van de data-matrix, 4 parameters
(N = ...; N, = ...; T =...; T^ = ...) en q < T codes (Gj, G,,..., l», I,,..-) in een gewenste volgorde. In plaats
van orthogonale polynoom-vectoren, die een vaste volgorde bezitten, genereert TIDA de oorspronkelij-
ke polynoom-vectoren Gi en bovendien interventie-vectoren Ij in de opgegeven volgorde en berekent
de orthonormale vectoren in die volgorde. Na toetsing van enkelvoudige en samengestelde hypothesen
voor de orthonormale B*-coèfflciènten, waarbij tevens de Roy^nethode wordt toegepast, worden an-
ders dan door MULTIVARIANCE ook de oorspronkelijke B-coëfficiënten geschat met de bijbehoren-
de standaardfouten, enkelvoudige en gelijktijdige (Roy-methode) schattingsintervaUen, en indien ge-
wenst onder de in paragraaf 6 en 8 besproken O-restricties. Evenals MULTIVARIANCE volgt TIDA
de procedures OLS (MANOVA en MIXED ANOVA) en GLS, de laatste echter onder gebruikmaking
van Rao's covariaten in ieder gewenst aantal en combinatie. Ten slotte schat TIDA de curven door de
data en geeft deze te zamen met de interval-curven grafisch weer (zie fig. 3). De genoemde voordelen

___.1____ _________Aaa^ in Viftt altematievft nrnfframma ACHVSM ("TfirAct-r,« ol

...^t O - x-q covariaten) die echter via een ingewikkelde i
voordeel hiervan is, dat willekeurige O-restricties toelaatbaar zijn.

Als voorlopig analyse-model met het oog op toetsing werd gekozen voor
N=180;N, =85;T = 5;TO=0;GO,G,,G2,G3,G4

Hierin geeft Tq = O de afwezigheid van een preïnterventie-periode aan. In combinatie
met N Nl, betekent dit, dat de data-matrix Y word gespecificeerd als een data-matrix
III (zie fig. 1 en tabel 1). Het maximale aantal vectoren Gj wordt gespecificeerd: q = T =
5 en

Vanwege q = T kan in eerste instantie slechts van OLS-schatter B gebruik worden
gemaakt. Op basis van de toetsingsresultaten kan alsnog voor bepaalde coëfficiënten
worden gespecificeerd b; = O en/of Jb j = O om daarna tot een verbeterde OLS-schatting en
eventueel verbeterde GLS-schatting te komen (zie paragraaf 7).

Uit B werden É en 2, en de bijbehorende correlatie-matrices R en R, berekend. De
varianties en covarianties in t, en de correlaties in ft vertoonden een tendens om toe
te nemen in de tijd en ook Ê, leek af te wijken van het samengesteld symmetrische
patroon onder het MIXED ANOVA-model: met name covariantie a,i _2 in Ê, week sterk
af van 0. Door de relatief zeer hoge variantie ah in Ê, leek het ANOVA-model nog min-
der van toepassing. De toets van Box voor samengestelde symmetrie gaf overschrijdings-
kans p= 1.91 X 10"®, de toets van Bartlett voor R. = I ip= 8.41 x lO"' en de toets
van Bartlett (Pearson en Hartley, 1966, p. 63) voor gelijlAeid van de varianties a^,
..., a^q in S, p= 1.68 x 10"^. Aangezien deze overschrijdingskansen aanmerkelijk klei-
ner zijn dan de gebruikelijke significantie-niveaus a, werd de nulhypothese van samenge-
stelde symmetrie verworpen en werd besloten het MANOVA-model te volgen.

Het heeft voordelen de procedure van Finn en Mattsson (1978, p. 101-125) te volgen,
waarbij de coëfficiënten in B worden getoetst via de corresponderende orthonormale
coëfficiënten in B*

De coëfficiënten in B* ontstaan door zowel K als X te vervangen door hun georthonorma-
liseerde vormen K, = KH'"' en X, = XS'"' (H en S Cholesky-factoren van resp. K'K en
X'X). Omdat de toetsen voor de coëfficiënten in B* niet onafhankelijk zijn, althans niet
onder het MANOVA-model, adviseren Finn en Mattsson (1978, p. 104 en 124) tevens
toepassing van de Roy-Bargmann step-down procedure. Van Knippenberg (1980, p. 8-9)
toonde echter aan, dat deze laatste procedure alleen valide toetsen voor de coëfficiënten
in B via B* oplevert onder assumpties die toepassing zinloos maken. De afhankelijkheid
zal daarom in de volgende paragraaf op andere wijze worden verdisconteerd via de metho-
den van Bonferroni en Roy voor toetsmg van samengestelde hypothesen.

De coëfficiënten in B* vormen een bijzonder soort lineaire combinaties van de coëfficiën-
ten in B als gevolg van de typische structuur van Cholesky-factoren H en S

De lineaire combinaties in B* kan men achterhalen door vanaf de rechter benedenhoek
van B alle pijlen naar de corresponderende B-coëfficiënten te volgen en de aangetroffen
coëfficiënten op te nemen, bijv. b| = ab4 +|3b4 +fhi +6b3. Omdat H en S (conditio-
nele) standaard-deviaties en dus positieve waarden op de diagonaal bevatten (Finn,
1974, p. 40), heeft de corresponderende B-coëfficiënt steeds een positief gewicht, bijv.
6 > 0. De pijlen in B volgend kan men zo stapsgewijs uit O-waarden voor de B*-coëffi-
ciënten besluiten tot O-waarden voor de corresponderende B-coëfficiënten: = O ->-^4 =
O, b* = 0->b4 =0,b| = O ->b3 =0,b^ = 0^'b3 = Oenz. Onderstaand een voorbeeld van
B*, waarin op basis van toetsingsresultaten O-waarden zijn ingevuld

Trekt men een lijn door B* met rechts daarvan en daaronder uitsluitend O-coëfficiënten,
dan kunnen alle corresponderende coëfficiënten in B eveneens op O worden gesteld. De
pijlen boven en links van deze lijn verder volgend, kan men voor de eerst aangetroffen
B»-coëfficiënt(en) ongelijk aan O de corresponderende B-coëfficiènt(en) eveneens ongelijk
aan O stellen. Voor daarna volgende coëfficiënten in B, aangegeven met ?, is op basis
van B* geen beslissing over gelijkheid of ongelijkheid aan O mogelijk.
De voordelen van toetsing via B* zijn tweeërlei. Op de eerste plaats impliceren de onge-
correleerde kolommen in X,, dat bij weglating van een of meer van de laatste kolommen
in X en dus in X,, voor de overblijvende B*-coëfficiênten dezelfde schattingen resulteren
als in het oorspronkelijke analyse-model. Van al deze reducties van het analyse-model
kan men de enkelvoudige coëfficiënt-toetsingen onmiddellijk uit die voor de oorspron-
kelijke B* aflezen en zij hoeven dus niet telkens opnieuw te worden berekend. Daaren-
tegen is het verband tussen de schattingen van de gereduceerde matrices B en van de
oorspronkelijke B ingewikkelder. In het algemeen hebben de schattingen van de coëffi-
ciënten in de gereduceerde matrices B kleinere standaardfouten en de toetsen dus groter
onderscheidingsvermogen dan voor de oorspronkelijke B. Een tweede voordeel van
toetsing via B* is nu, dat tot en met de eerst aangetroffen B*-coëfficiënt(en) ongelijk
aan O (bj* en b* in het zo juist gegeven voorbeeld) de resultaten identiek zijn met die
voor de correTponderende coëfficiënten in gereduceerde B-matrices onder O-restricties
voor eerder aangetroffen coëfficiënten. Een groter onderscheidingsvermogen verkrijgt
men dus al via B* en de omweg over telkens hernieuwde schattingen van B is niet nodig.
Worden de via toetsing gevonden O-waarden onder en rechts van de lijn in B* ook in
schatting B? ingevuld, dan volgt uit deze verbeterde schatting B*^ gemakkelijk de verbe-
terde schatting Bgo van B onder corresponderende O-restricties

Toetsing via B* met het voordeel van het grotere onderscheidingsvermogen is niet meer
mogelijk voor de B-coëfficiènten, aangegeven met ?, waaraan een eerder ongelijk aan
O gestelde coëfficiënt voorafgaat (zie paragraaf 8 voor toetsing aan de hand van standaard-
fouten voor de Ögo-coëfficiënten). De procedure is dus gevoelig voor de volgorde van de
coëfficiënten en daardoor voor de gekozen volgorde van de Gj- en eventueel Ij-vectoren
in X. Een efficiënte toepassing vereist een zodanige volgorde van de Gj- en Ij-vectoren,
dat O-coëfficiënten zoveel mogelijk aaneengesloten rechts en onder in de B-matrix terecht
komen. Vectoren, waarvan men relatief zeker is dat zij effect hebben of waarvan men de
effecten wil controleren, moeten daarom vooraan worden geplaatst en vectoren waarvan
de effecten onzeker zijn en men de effecten juist wil toetsen, achteraan. In verband
hiermee werd in het onderzoeksvoorbeeld de volgende wijziging in de volgorde van de
Gj-vectoren aangebracht

De constante vector Gq is naar achter verplaatst. De coëfficiënten bij Gq geven namelijk
de verwachte scores van beide groepen op het tijdstip O, d.w.z. voorafgaand aan het
onderzoek. Op dit tijdstip werd echter nog geen kennis van oppervlakte-meten veronder-
steld en evenmin een verschil tussen beide groepen. Matrix B* kreeg zo de volgende vorm

	G.	G2	Gs	G4	G(>
B*=	Vb*	b?	b?	b*
	bf	b?		b?	bj

Behalve nulhypothesen = ~ ^ enz. voor individuele coëfficiënten (enkelvoudige
nulhypothesen) zullen ook samengestelde nulhypothesen van de vorm Lb4bo] = 0,
[il^felbfl] = O enz. worden getoetst. In deze samengestelde hypothesen gaat het om het
gecombineerde effect van coëfficiënten zoals het totale curve-verschil tussen interventie-
en controlegroep, de afwijking van parallellie in een profiel-analyse, voor datamatrices
II en IV de totale wijziging in curve-verloop vanaf het interventie-punt enz. Zij spelen
tevens een rol in de Roy-methode voor toetsing van de samengestelde hypothesen, die
zijn opgebouwd uit meerdere deelhypothesen^ (bijv. enkelvoudige). Toetsbaar onder
MANOVA zijn nulhypothesen van de vorm U'BV = O waarin U: r x u met rang(U) =
u < r, V: q X V met rang(V) = v < q. Enkelvoudige nulhypothese ^5 = 0 krijgt de vorm
U'BV = OvoorU'= [O l]H'enV=SrO 0 0 0 1]',zodat u = v= 1. Samengestelde nulhypoth-

dat u = 1 en V = 2. Toetsing kan onder meer plaatsvinden via Wilks' A, te berekenen uit
U, V en grootheden in formules (6) en (7); voor u = 1 ook via F = (ne/v)(l-A)/A met
resp. V en Ug = N-r-s—(v—1) vrijheidsgraden voor teller en noemer van F (Grizzle en
Allen, 1969, p. 362-365; Morrison, 1976, p. 218-223).

In het onderzoeksvoorbeeld gaven de enkelvoudige hypothesen voor de coëfficiënten
in B* overschrijdingskansen bij de F-waarden (vanwege s < T-q = O berekend uit OLS-
schattingen B en £q) als aangegeven in Pi met v = 1 en Ug =178 vrijheidsgraden

P,= r9.71xl0-" 2.35x10"'« 5.55x10"" 2.77x10"" .105'
(1;178) L .747 2.55 x 10"" .453 .006 .220.

De samengestelde hypothesen, waarbij in telkens één rij van B* opeenvolgende combina-
ties van laatste coëfficiënten werden getoetst, gaven overschrijdingskansen als aangegeven
in P2 met vermelding van de aantallen vrijheidsgraden.

Een eerste belangrijke vraag in het onderzoek was, of interventie-groep en controle-groep
überhaupt enig verschil vertoonden. Voor de betrokken samengestelde nulhynothese
vindt men in de linker benedenhoek van P2 overschrijdingskans p = 5.98 x 10"^, welke
kleiner is dan enig gebmikelijk significantie-niveau a, zodat de nulhypothese zou worden
verworpen en de alternatieve hypothese van een verschil zou worden aangenomen. Door
de aselecte toewijzing van klassen aan beide groepen is er bovendien een redelijke mate
van zekerheid, dat dit verschil moet zijn veroorzaakt door het verschil in leermethoden.
Wat de enkelvoudige hypothesen betreft, vallen de betrekkelijke hoge waarden p = .105
en p = .220 op onder Gq in Pi, waarmee het vermoeden dat Gq geheel uit het model kan
worden verwijderd, wordt bevestigd. De pijlen in B volgend zou vanwege de significantie
op niveau a = .05 van (p = .006 in Pj) besloten worden b4 ^ O en zouden dus geen
beslissingen meer mogeiyk zijn voor links daarvan en hoger geplaatste coëfficiënten.

Tegen de laatste werkwijze met significantie-niveau .05 kunnen echter bezwaren worden
ingebracht. Zo vormen meerdere enkelvoudige hypothesen te zamen genomen een samen-
gestelde hypothese. Indien de enkelvoudige (samenstellende) hypothesen ieder afzonder-
lijk worden getoetst op significantie-niveau .05, zal de werkelijke a voor de samengestelde
hypothese hoger zijn. Onder MANOVA hoeft ook niet te gelden a:= l-(l_a.)M zq^i^
in het geval van M onafhankehjke samenstellende hypothesen, waarbij de per samenstellen-
de hypothese aan te houden a, exakt is te berekenen: o^ = 1 - vl -a- Een methode om
a onder MANOVA niet boven gewenst niveau aj te laten uitkomen is die van Bonferroni:
Oi = Oj/M. Stel, dat M = 9 enkelvoudige hypothesen werden getoetst met gewenste oj =
.05, bijv. alle coëfficiënten met uitzondering van die in rij 1 onder Gj. Per enkelvoudige
hypothese zou men dan moeten aanhouden 05=.0055. Onderscheid makend tussen
Ml = 4 hypothesen voor rij 1 en M2 = 5 hypothesen voor rij 2 verkrijgt men voor OLS de
iets minder conservatieve waarde «i = Mj -vMj -0(j/(MiM2) = .0056 waarin M3 =
(Ml + M2)/(2MiM2). Hierin wordt rekening gehouden met het feit, dat hypothesen voor

coëfficiënten uit verscliillende rijen van B* onafhankelijk zijn. Bewezen kan worden (Mor-
rison, 1976, p. 33) dat bij gebruikmaking van ocj de werkelijke a (de kans op onjuiste ver-
werping van de combinatie van de M = M, + Mj nulhypothesen) in ieder geval niet gro-
ter is dan gewenste ccj: 0!<aj. Vergelijking van de overschrijdingskansen in P, met Oj =
.0056 zou leiden tot de volgende beslissingen met betrekking tot de coëfficiënten in B:
io =^4 =^3 =0,b4 9^=0, en voor de overige coëfficiënten zou een beslis-

Ting achtérwegrblijven. Tot dezelfde beslissingen zou men zijn gekomen bij vergelijking
van de overschrijdingskansen in Pj met = .0056. Ook kan men een geschikte keuze
maken uit de hypothesen met overschrijdingskansen in P, en P2. Hoe kleiner het aantal
hypothesen M, hoe groter en dus minder conservatief de resulterende Oj-waarde. Wil men
bij toepassing van de Bonferroni-methode gebruik maken van verschihende verwerpings-
kansen Oj = WjO met verschillende gewichten w; voor de samenstellende hypothesen, dan
kan men de aj = wjo berekenen na oplossing van (10) voor^

Een andere methode om a kleiner of gelijk aan gewenst niveau «j te laten uhkomen is die
van Roy. In de Roy-methode worden de samenstellende hypothesen opgevat als deelhy-
pothesen van een meeromvattende, samengestelde hypothese U'BV = O en worden bij de
berekenmg van F-ratio's en bijbehorende overschrijdingskansen steeds de aantallen
vrijheidsgraden v en Ug van de samengestelde hypothese aangehouden. Toetst men nu
ieder van de hypothesen op gewenst niveau Oj, dan kan worden bewezen (Morrison, 1976,
p. 112-114) voor het werkehjke niveau a:o!<aj. Zo kan men in het voorbeeld bijv.
uitgaan van de beide meeromvattende hypotheTen met overschrijdingskansen in de eerste
kolom van P2 onder G, t/m Gq en ahe overige hypothesen met overschrijdingskansen in
Pi en P2 beschouwen als deelhypothesen daarvan. De aantallen vrijheidsgraden v = 5
en Ue = 174 van de meeromvattende hypothesen aanhoudend verkrijgt men dan in plaats
van Pi en P2 de matrices P3 en P4

Toetsing in één van beide rijen kan nu plaatsvinden aan de hand van gewenste aj. Toetsing
in zowel rij 1 als rij 2 kan plaatsvinden aan de hand van ttj, berekend voor OLS met Mj =
M2 = 1 en voor gewenste Oj = .05 opleverend a; = 1 -Vl-Q^j = .02532. Hierbij wordt de
Roy-methode dus met de zojuist besproken methode gecombineerd (voor GLS zou de iets
conservatievere Bonferroni-waarde o, = aj2 = .025 gekozen moeten worden). Vergelijking
van Cfj = .02532 met de overschrijdingskansen in P3 en P4 zou leiden tot dezelfde beslis-

singen met betrekking tot de coëfficiènten in B als eerder bij gebruikmaking van de
Bonferroni-methode.

Behalve foutenkans a wil men ook foutenkans (de kans dat de juistheid van één of meer
alternatieve hypothesen ten onrechte wordt verworpen) klein houden. Om die reden is het
gewenst niet te veel en niet te veelomvattende nulhypothesen te toetsen. Besloten werd
daarom om alleen in rij 2 de samengestelde hypothese over alle 5 coëfficiënten (het verschil
tussen interventie-groep- en controle-groep-curve; zie overschrijdingskans p = 5.98 x 10"®
onder G, t/m Gq in P4) te zamen met de deelhypothesen over afzonderiijke en combinafies
van die coëfficiënten (zie de overschrijdingskansen in rij 2 van P3 en P4) te toetsen en in
rij 1 alleen de enkelvoudige hypothesen met betrekking tot de 2 laatste coëfficiënten (zie
p = .105 en p = 2.77 X 10onder Gq en G4 in P,). De overige coëfficiënten van de con-
trole-groep-curve werden dus niet getoetst maar uitsluitend ter controle in het model op-
genomen. Vanwege de verschillende aantallen betrokken coëfficiënten in rij 1 en rij 2 en
het toch al geringere onderscheidingsvermogen van de Roy-methode voor een beperkt aan-
tal deelhypothesen (Morrison, 1976, p. 134-136) werd gebmik gemaakt van verschillende
gewichten voor rij 1 en rij 2, t.w. 1 en 5, via (10) met Mj = 2 en M2 = 1 leidend tot a; =
.00721 voor rij 1 en ttj = .03608 voor rij 2. Ook hieruit volgen weer dezelfde besHssingen
met betrekking tot de coëfficiënten in B

De O-waarden onder en rechts van de lijn in B* werden ingevuld in B*, resulterend in
ê* en met behulp van (9) in verbeterde schatting Bq

Hieruit kan men aflezen, dat de schattingscurve voor de intervenfie-groep een iets lagere
lineaire component: 13.87 - .637 bevat dan die voor de controle-groep en een iets hoge-
re kwadratische component: -7.08+ .165, terwijl de 3®- en 4®-machts componenten
gelijk zijn voor beide groepen.

Het feit, dat beide coëfficiënten onder Gq op O zijn gesteld, betekent dat Gq geheel uit
het model kan worden verwijderd en dit opent de mogelijkheid de GLS-procedure toe te
passen onder toevoeging van s = 1 covariaat. De toetsingsresultaten op basis van B* kwa-
men overeen met die van de OLS-procedure en leidden langs Bgo en (9) tot verbeterde
schatting Bgo

GLS-schatting Bgo vertoont geringe afwijicingen ten opzichte van OLS-schatting Bq . Via
"V'^ = KBgoX^ werden de schattingscurven in fig. 3 berekend met in X^ niet slechts de
kolommen van X' voor de T tijdstippen 1, 2.....T maar tevens voor tussenliggende tijd-
stippen, zodat vloeiende schattingscurven ontstaan. Ook de schattingscurven vertonen
geringe afwijkingen ten opzichte van die in de OLS-procedure. Als meest opvallende
verschil kan worden vermeld, dat de GLS-curven van de twee groepen elkaar iets later
in de tijd kmisen dan de OLS-curven. Ondanks het verlies van s= 1 vrijheidsgraad is
het schattingsinterval in fig. 3 iets kleiner dan in de OLS-procedure, zodat van een geringe
verbetering kan worden gesproken. In de volgende paragraaf zal nader op schattings-
intervallen worden ingegaan.

8. Schattingsintervallen voor het onderzoeksvoorbeeld en samenvatting van de belang-
rijkste conclusies

Voor de grootheid F = (ne/v)(l-A)/A, waarmee nulhypothesen U'BV = 0 met u =
reeds eerder werden getoetst, kan ook onder de alternatieve hypothese U'BV O
worden bewezen Pr(F ^ F^jv.ne) ~ 1 - " (Khatri, 1966, p. 81). Op basis hiervan worden
voor de parameters i// = U'BVa^ gevormd uit ieder willekeurig stel vectoren ^^ 0. gelijk-
tijdige schattingsintervallen ^ ± cö^ afgeleid met ^ = U'BgVa, c = '\4>I-r-s)(v/ne)Fa. y;

waarin ng = N-r-s-(v-l), ör = V(a'V'ÉgVa)(U'RU); zie voor matrix R Grizzle en
Allen (1969, p. 369).

Deze schattingsintervallen volgens de Roy-methode omvatten gelijktijdig de parameter-
waarden \p met een kans, die minstens 1—a en meestal groter is (Khatri, 1966, p. 81).
Wanneer niet alleen U maar ook V slechts één kolom bevat, zodat v= 1, ng = N-r-s-

interval lip ± ta/2;ne®ij • ^it omvat de parameter-waarden met een kans, exakt gelijk
aan 1—a.

De beschreven procedure zal worden gebmikt om standaardfouten en schattingsinter-
vallen te berekenen voor coëfficiënten in B^o van de vorige paragraaf en voo/ punten
op de daaruit berekende schattingscurven. Onderstaand is aangegeven, hoe [bj 64] en
[bi 62I in resp. rij 1 en rij 2 van Bgo worden geschreven in vorm U^BgV. De matrices
U en V realiseren voor deze rijdelen dus in één stap de overgang van Bg over B* volgens
(8) en B^ naar Bgo volgens (9).

Met Ji,Ji,2 enz. worden matrices aangegeven, die uit de eenheidsmatrix I ontstaan
door alle diagonaal-elementen met uitzondering van het 1®, het 1® en 2® enz. op O te stel-
len. Met H',"' , Hj"' worden resp. de 1® en 2® rij van H'"' aangeduid en met S,'2,83^4
deeWiatrices van S"', bestaande uit resp. kolommen 1 en 2, 3 en 4. De coëfficiënten éj
en 62 in de linker bovenhoek van Bgo kunnen niet in de vorm U'BgV worden geschreven
(dit zou wel mogelijk zijn geweest wanneer voor alle coëfficiënten onder G3 en G4 O-

waarden waren gespecificeerd). Voor deze coëfficiënten is dus ooTc de berekening van
schattingsintervallen via U'ÊgV niet mogelijk. Kabe (1975) en Jöreskog (1979, p. SH-
Sló) geven een ingewikkeldere procedure, die voor alle coëfficiënten en onder wille-
keurige O-restricties toepasbaar is. Vaak is men echter voor de coëfficiënten in de linker
bovenhoek van Bgo die typisch ter controle worden opgenomen, niet geïnteresseerd in
schattingsintervallen en volstaat de hier gevolgde procedure.

Door U en V te kiezen zoals aangegeven en voora^ in te vullen [1 0]' en [O 1]', geeft
<A = U'Bgya telkens één voor de coëfficiënten in [bg ^4] en [bj Sj]. Daarvoor zijn
onderstaand in Bgo tussen haakjes de standaardfouten en enkelvoudige schattingsin-
tervallen ^ ± ta/2;ne aangegeven, waarbij Va. telkens werd gelezen als V zodat v =

1 en werd gekozen voor t.05/2;i77 = 1 -97 met n« = N-r-s = 180-2-1 = 177.
Gi G2 G3 G4

De standaardfouten en enkelvoudige schattingsintervallen met betrouwbaarheidsniveau
1-a = .95 blijken betrekkelijk klein in vergelijking met de coëfficiënten: de laatste wijken
blijken de schattingsintervallen op niveau a = .05 alle significant af van 0.
Het probleem is, dat voor meerdere enkelvoudige schattingsintervallen te zamen genomen
het werkelijke gelijktijdige betrouwbaarheidsniveau kleiner zal zijn dan 1-a. Om dit
groter of gelijk aan 1-a te houden moet van gelijktijdige schattingsintervallen \j/ ± cai
gebruik worden gemaakt, die in het algemeen groter zullen zijn dan de enkelvoudige. Hoe
meer coëfficiënten worden opgenomen, hoe groter de schattingsintervallen. Aangezien
de interesse in het onderzoeksvoorbeeld met name uitging naar het verschil tussen inter-
ventie-groep- en controle-groep-curve, werd besloten de berekening van gelijktijdige schat-
tingsintervallen te beperken tot de beide coëfficiënten in rij 2 van Bgo. Gebruik werd
gemaakt van de Roy-methode, die protectie biedt tegen alle willekeurige a, d.wjz. alle
willekeurige combinaties van de coëfficiënten in een rij, waaronder die met één van de
elementen in a 1 en de rest 0. Met behulp van

waarin v = 2 het aantal gelijktijdig opgenomen coëfficiënten en n^ = N-r-s-(v-l) =
176, werden zo de gelijktijdige schattingsintervallen voor de beide coëfficiënten in rij

Hoewel deze schattingsintervallen aanmerkelijk groter zijn dan de zo juist berekende
enkelvoudige, blijken de beide coëfficiënten voor het verschil tussen interventie-groep-
en controle-groep-curve ook hier op niveau < .05 significant van O af te wijken.
De berekening via de Roy-methode van het 95%-schattingsinterval in fig. 3 voor de afwij-
king van interventie-groep- ten opzichte van controle-groep<urve verschilt alleen hierin
van de zo juist gevolgde procedure, dat voor a in = U'BVa de kolommen van matrix

X+ worden ingevuld. Met X^ waren ook de schattingscurven in fig. 3 berekend, leder van
de kolommen van X^ combineert de coëfficiënten in rij 2 van Êgo zodanig, dat het bij dat
tijdstip behorend verschil tussen interventie- en controle-groep resulteert. Via standaard-
fout 01 en met behulp van eerder berekende c = 2.46 volgt het schattingsinterval voor
dat tijdstip. Te zamen genomen over de hele onderzoeksperiode vormen deze schattings-
intervallen de interval-curven, die in fig. 3 ten opzichte van de controle-groep-curve zijn
weergegeven. Op analoge wijze hadden op basis van coëfficiënten in rij 1 van Bgo in-
terval-curven voor de controle-groep-curve berekend kunnen worden en ten opzichte van
de controle-groep-curve weergegeven. De berekening van interval-curven op basis van
zowel rij 1 als rij 2 zou het noodzakelijk hebben gemaakt c te vervangen door aangepaste
hogere waarden Cj en C2 (via invulling van Bonferroni-waarden: Oj a^ = o) met grotere
intervallen. Er is hiervan afgezien, omdat de interesse vooral uitging naar het verschil tus-
sen interventie-groep-curve en controle-groep-curve. Een teleurstellend resultaat is, dat de
interventie-groep-curve in fig. 3 geheel binnen het schattingsinterval blijft. De interventie-
groep-curve wijkt in de begin-periode nergens significant af naar beneden en aan het eind
nergens significant naar boven. De betreffende nulhypothesen kunnen aan de hand van
het weergegeven 95%-schattingsinterval dus niet worden verworpen.
Samenvattend kan met betrekking tot het onderzoeksvoorbeeld het volgende worden op-
gemerkt. Interventie-groep en controle-groep verschillen onder het MANOVA-model
significant van elkaar. Er is een redelijke mate van zekerheid, dat het verschil veroorzaakt
wordt door de verschillende leermethoden. Het verschil komt tot uiting in significante
verschillen tussen de lineaire en kwadratische componenten van beide curven in fig. 3.
Het verschil komt niet tot uiting in significante verschillen op afzonderlijke tijdstippen,
althans niet over de onderzoeksperiode. De hypothese, dat de stapsgewijze leermethode
aanvankelijk minder voomitgang laat zien, maar later tot hogere prestaties leidt dan de
traditionele methode, kan aan de hand van het 95%-schattingsinterval in fig. 3 dan ook
niet worden aangenomen.

Algina, J., and Swaminathan, H. Alternatives to Simonton's analyses of the interrupted and multiple-

group time-series AtAffvi. Psychological Bulletin, 1919,86, 919-926.
Bock, R.D. Multivariate statistical methods in behavioral research. New York: McGraw-Hill, 1975.
Box, G.E.P. Problems in the analysis of growth and wear curves. Biometrics, 1950, 6, 362-389.
Box, G-EJ., and Tiao, G.C. Intervention analysis with applications to economic and environmental

piohXtmi.Joumalof the American Statistical Association, 1975, 70, 70-79.
Campbell, D.T., andStanley,J.C.Experimental and quasi-experimental designsfor research on teaching.

In Gage, N.L. (ed.). Handbook of Research on Teaching. Chicago: Rand McNally, 1963.
Cook, T.D., and Campbell, D.T. Quasi-experimentation; design and analysis issues for field settings.

Chicago: Rand McNally, 1979.
¥'mn,J.D. A general model for multivariate analysis. New York: Holt/Rinehart/Winston, 1974.
Finn, J.D. Multivariance; univariate and multivariate analysis of variance, covariance, regression and

repeated measures (Version VI, Release 2). Chicago: National Educational Resources, 1978.
Finn, J.D., and Mattsson, I. Multivariate analysis in educational research; applications of the MULTI-

VARIANCE program. Chicago: National Educational Resources, 1978.
Geisser, S. Growth curve analysis. In Krishnaiah, P.R. (ed.). Handbook of Statistics, Vol. I. Amster-
dam: North Holland, 1980.
Glass, G.V., Willson, V.L., and Gottman, i.yi.Design and analysis of time-series experiments. Boulder

(Colo.): Colorado Associated University Press, 1975.
Grizzle, J.E., and Allen, D.M. Analysis of growth and dose response curves. Biometrics, 1969, 25,
357-381.

Jenkins, G.M. Practical experiences with modelling and forecasting time series. In Anderson, OJD.
(ed.). Forecasting. Amsterdam: North-Holland, 1979.

Jöreskog, K.G. Statistical estimation of structural models in longitudinal developmental investiga-
tions. In Nessekoade, J.R., and Baltes, P.B. (eds.). Longitudinal research in the study of behavior
and development. New York: Academic Press, 1979.

Jöreskog, K.G., van Thillo, M., and Gruvaeus, G.l.ACOVSM; A general computer program for analysis
of covariance structures including generalized MANOVA. Princeton (NJ.): Educational Testing
Service, 1970.

Kabe, D.G. Generalized MANOVA double linear hypothesis with double linear restrictions. The Cana-
dian Journal of Statistics Sections A&B: Theory & Methods, 1975, i, 3544.

Khatri, C.G. A note on the MANOVA model applied to problems in growth curve. Annals of the
Institute of Statistical Mathematics, 1966,18,75-86.

Kirk, R.E. Experimental design: procedures for the behavioral sciences. Belmont (Calif.): Brooks/
Cole, 1968.

Knippenberg, C.W.F. van Multivariate analyse van herhaalde metingen. Groningen: Heijmans Bulletins
Psychologische Instituten, 1980.

Morrison, D.V. Multivariate statistical methods. New York: McGraw-Hill. 2nd ed., 1976.

McCain, LJ., and McCleary, R. The statistical analysis of the simple intenupted time-series quasi-
experiment. In Cook, T.D., and Campbell, D.T. Quasi-experimentation; design and analysis issues
for field settings. Chicago: Rand McNally, 1979.

Pearson, E.S., and Hartley, H.0. Biometrika tables for statisticians; vol. L Cambridge: University
Press, 1966.

Potthoff, R.F., and Roy, S.N. A generalized multivariate analysis of variance model useful especially
for growth curve problems. S/omefrifcz, 1964, Ji, 313-326.

Rao, C.R. The theory of least squares when the parameters are stochastic and its application to the
analysis of growth cuives. Biometrika, 1965,52,447-458.

Simonton, D.K. Cross-sectional time-series experiments; some suggested statistical analyses.Psycholog-
ical Bulletin. 1917,84,489-502.

Winer, B J. Statistical principles in experimental design. Tokyo: McGraw-Hill Kogakusha, 2nd ed., 1971.

In het onderzoek van Tillema en Verloop (1981) kon het dramatische effekt op het leer-
resultaat van het al dan niet op elkaar afgestemd zijn van de gehanteerde leerstrategie en
de struktuur van de leertekst zoals dat door Pask (1975) is gerapporteerd niet worden
gerepliceerd.

De belangrijkste verklaring is natuurlijk dat de leerlingen bij de kriteriumtaak gewoon
geen van allen iets geleerd hebben zods Tillema en Verloop op p. 30 ook zelf enigszins
aarzelend toegeven; en verschillen tussen 'niets' en 'helemaal niets' zijn nu eenmaal moei-
lijk aan te tonen.

Ik heb echter het vermoeden dat ook wanneer de kriteriumtaak wat beter op de proefper-
sonen zou zijn afgestemd óók gevonden zou zijn dat de aanlegvariabele 'leerstrategie' zo-
als deze door Tillema en Verloop is gehanteerd géén invloed op het resultaat gehad zou
hebben. De reden hiervoor is dat de etiketten 'holist' en 'serialist' waarschijnlijk puur vol-
gens een toevalsprocedure aan de proefpersonen zijn toegekend. Ik zal hieronder aanto-
nen dat de wijze waarop Tillema en Verloop de begrippen 'serialisme' en 'holisme' hebben
geoperationaliseerd helemaal niets te maken heeft met de manier waarop Pask de gelijk-
luidende begrippen hanteert.

De definities van 'holistisch' en 'serialistisch' zijn overgenomen uit het boek van Pask
(1975, p. 53), zij het dat het woord 'learning' steeds vertaald is met 'lezen' en dat de on-
derverdeling van holisten in redundante en irredundante holisten is overgeslagen. Dit laat-
ste heeft het gevolg dat in toets waarbij de predikaten aan de proefpersonen worden toe-
gekend de redundante holisten gedwongen zijn een andere dan hun 'eigen' strategie te
kiezen. Immers:

'(...) redundant hoUsts entertain images that contain logically irrelevant or overspeciflc material, com-
monly derived from data used to 'enrich' the curriculum, and the salient facts and principles are em-
bedded in a network of redundant items. Though logically irrelevant, the items in question are of great
psychological importance to a redundant holist, since he uses them to access, retain and manipulate
whatever he was originally required to learn' (Pask, 1975, p. 53).

In de kaartjestoets van Tillema en Verloop is de mogelijkheid dat deze redundante holis-
ten aan hun trekken komen vrijwel afwezig, öf ze zouden gebruik moeten maken van de
kaartjes met de plaatjes... maar dat zou ze volgens T & V juist tot serialisten bestempelen!

In het artikel van T & V wordt de suggestie gewekt dat hun kaartjestoets is overgenomen
van Pask. Hij is er minstens door geinspireerd: ook Pask werkte met kaartjes met behulp
waarvan de proefpersonen de taxonomie voor een deel van de martiaanse fauna: de Clob-
bits konden leren.

Echter, T & V hebben een aantal ingrijpende vereenvoudigingen aangebracht.
In de eerste plaats is de indeling van de kaartjes in kategorieën bij T & V anders dan bij
Pask. T & V hebben vier kategorieën, waarbij de eerste twee de namen van de dieren kop-
pelen aan plaatjes en de laatste twee kategorieën informatie geven over karakteristieke
verschillen en overeenkomsten tussen paren van diersoorten. Bij Pask zijn er vijf kate-
gorieën, als volgt beschreven:

'Class A: 10 cards showing pictures of a typical member of a Clobbit subspecies;
Class B: 13 cards giving contextual information about the appearance, habitat, or behaviour of
these animals:

Class C: 5 cards stating the structure of the taxonomy. Each card names the members of a subspe-
cies and states the numbers of physical characteristics tested in order to distinguish this sub-
species;

Class D: 7 cards naming physical characteristics of the Clobbits and the values assumed bij each pro-
perty on each of the subspecies which h is used to distinguish;
Class E: 7 cards indicating the subspecies names or codes and why they were used'.
(Pask, p. 58).

Klasse A komt overeen met de kategorieën 1 en 2 van T & V en de informatie uit de klas-
sen C en D is waarschijnlijk terug te vinden in de kategorieën 3 en 4, zij het op een minder
systematische wijze. De klassen B en E komen bij T & V niet voor: zij bevatten, strikt ge-
nomen, redundante informatie.

Het valt op dat T & V de determinatietabel verstopt hebben in kategorie 3 en 4, terwijl
Pask hem in klasse D expliciet aan de proefpersonen beschikbaar stelt.
Het is dus niet alleen zo dat T & V de redundante holisten door de afwezigheid van de
klassen B en E tot een andere strategie dwingen, zij maken het ook de irredundante hoUs-
ten moeihjkher dan nodig is door de determmatietabel niet op een expUciete wijze aan t?
bieden.

De tweede vereenvoudiging van T & V betreft de scoringsprocedure. Zij tellen het aantal
keren dat de kaartjes uit de verschillende kategorieën worden bekeken en noemen de plaat-
jeskijkers seriaUsten en de anderen hoUsten. De belangrijkste veronderstelling die ze daar-
bij maken is dat bij eUc kaartje dat wordt bekeken een hypothese wordt getoetst. Bij de
plaatjes zou het dan om enkelvoudige hypothesen en bij de andere kategorieën om meer-
voudige hypothesen gaan. Deze veronderstellmg is onjuist, zoals ongetwijfeld gebleken
zou zijn als T & V de scoringsprocedure van Pask hadden gebruikt.
Deze verschilt namelijk in alle opzichten van die van T & V. Pask vroeg de proefpersonen
om bij elk kaartje dat werd bekeken de reden te geven waarom juist dit kaartje werd be-
keken. Er bleken vier soorten van redenen gegeven te worden:

'(i) search a card class or co-ordinate of the message space; (ü) for a specific datum; (iü) test a simple
predicate hypothesis; (iv) test a multiple predicate hypothesis'.
(Pask, 1975, p. 59).

De afwezigheid van redenen van het vierde type bestempelt de proefpersoon tot een seria-
list, de anderen zijn hoUsten. (Overigens staat Pask de proefpersonen ook toe om aanteke-
ningen te maken, deze aantekeningen doen dan verder mee als kaartjes).

Uit een tabel die Pask geeft blijkt dat slechts minder dan de helft van het totaal aantal
door alle proefpersonen opgegeven redenen uit het toetsen van hypothesen bestaat.
Bovendien blijkt uit een aantal gedetailleerde beschrijvingen van de handelwijze van een
paar proefpersonen die in een eerder artikel zijn opgenomen (Pask en Scott, 1972) dat bij
één enkele zoek-reden vaak vele kaartjes worden bekeken.

Dus de veronderstehing over het hypothese-toetsende karakter van het leerproces is onjuist.
Maar ook de indentifikatie van serialisten met plaatjeskijkers is onjuist. Uit de globale
(Pask, 1975, p. 60) en nog duidehjker uit de gedetailleerde beschrijvingen (Pask & Scott,
1972) blijkt dat er holisten zijn die meervoudige hypothesen vooral toetsen door plaatjes tc
kijken, en dat er serialisten zijn die hun informatie vooral uit de klassen CenD halen.
De konklusie moet nu dus zijn dat de toekenning van de predikaten 'serialist' en 'holist'
op basis van de kaartjestoets van Tillema en Verloop onafhankelijk van de door de proef-
personen gehanteerde leerstrategie is.

Betrekkelijk kort na het verschijnen van zijn boek (Pask, 1975) heeft Pask zijn theorie over
leerstrategieën nogal verfijnd. (Pask, 1976). Dit is vooral gebeurd onder invloed van het
werk van Marton en zijn medewerkers in Göteborg (zie bv. Marton en Saljö, 1976a en b).
De essentie van deze herzienmg is dat nu scherp onderscheiden wordt tussen de feitelijk
door de lerende in een konkrete leertaak gehanteerde strategie(en): holistisch en/of seria-
hstisch, en de leerstijl van de lerende die een zekere voorkeur voor een van beide strategieën
kan inhouden en zodoende als persoonskenmerk kan worden opgevat.
Zo zijn 'comprehension learners' voomamehjk tot holistische en 'operation learners' tot
serialistische strategieën geneigd (om verwarring te voorkomen laat ik de namen onver-
taald).

In feite gaat Pask nog een stap verder en beperkt het gebruik van de begrippen hohstisch
en serialistisch tot een klasse van leersituaties die aan zekere eisen van kontroleerbaarheid
en observeerbaarheid voldoen: de strikte conversaties.

Daarmee wordt het onderscheid in de gehanteerde strategie een volstrekte dichotomie, ter-
wijl de comprehension/operation-dimensie in de leerstijl een continu karakter heeft.
Dit onderscheid in leerstijl en -strategie maakt theorievorming in de volgende richtingen
mogehjk:

- Of het resultaat van een leeraktiviteit kan worden beschreven met het woord 'inzicht'
of 'oppervlakkige kennis' kan grotendeels worden voorspeld door de door de lerende
gehanteerde strategie(en). Deze strategiekeus is behalve van de leerstijl afhankelijk van
een heleboel andere faktoren zoals de opvatting over leren in het algemeen, de intentie
waarmee geleerd wordt, de struktuur van het studiemateriaal, de verwachte wijze van
toetsing, enz. (Marton en Saljö, 1976b; Entwistle, Hanley en Ratchffe, 1979). De
meeste van dit soort faktoren zijn in het onderzoek van Tillema en Verloop bij de kri-
teriumtaak niet gecontroleerd.

— In het begrip leerstijl kan veel meer zinvol onderscheid worden aangebracht dan alleen
comprehension/operation.

Pask (1976) noemt nog de 'versatile' stijl, dat is de neiging en de competentie om bin-
nen een leertaak op een adekwate wijze afwisselend hohstisch en seriaUstisch te werk
te gaan. Aan de negatieve kant staan de pathologieën: 'globetrotting' als een patholo-

gische vorm van comprehension learning waarbij elk gevoel voor detail ontbreekt en
analogieën tussen begrippen worden verondersteld waar ze niet zijn of uit bestaande
analogieën ongerechtvaardigde konklusies worden getrokken.

De pathologische vorm van de 'operation'-leerstijl wordt door Pask 'improvidence'
genoemd. Hierbij bestaat vooral gebrek aan aandacht voor analogieën en/of voor uni-
versele principes waardoor men door de bomen het bos niet meer ziet.
Als Tillema en Verloop tussen leerstijl en -strategie onderscheid hadden gemaakt zouden
ze wellicht niet naar een direkt verband tussen leerstijl en leerresultaat hebben gezocht.
Als extra variabele zou de door de leerlingen bij het leren van de kriteriumtaak feitelijk
gehanteerde strategie moeten worden ingevoerd. Het bepalen van de gehanteerde strategie
is een verre van eenvoudige zaak als men zich niet tot 'stricte conversaties' wenst te be-
perken — maar dat mag natuurlijk nooit een reden zijn om het dan maar niet te doen.

Entwistle, N.J. & Harrley, M., Ratcliffe, G. Approaches to learning and levels of understanding. British
Journal of Educational Research, 1979,49.

Marton, F. & Saljö, R. On qualitative differences in learning: I-Outcome and process. British Journal
of Educational Psychology, 1976a, 46,4-11.

Marton, F. & Sfljö, R. On qualitative differences in learning: IlOutcome as a function of the learner's
conception of the task. British Journal of Educational Psychology, 1976b, 46, 115-127.

Pask, G. Styles and strategies of learning. British Journal of Educational Psychology, 1976, 46, 128-
148.

Pask, G. & Scott, B.C.E. Learning strategies and Individual competence. International Journal of Man-
Machine Studies, 1972,4,217-253.

Tillema, H. & Verloop, N. De invloed van verschillend gestruktureerd tekstmateriaal op de cognitieve
representatie van leerlingen, gerelateerd aan verschillende informatieverwerkingsstrategieën. Tijd-
schrift voor Onderwijsresearch, 1981,6, 16-32.

A. van der Meer heeft gelijk als hij vindt dat wij zijn afgeweken van een toets die Pask
gebruikt om serialisten en hoUsten te onderscheiden. Op zich is dat echter zeer wel moge-
Ujk. Pask hanteert zelf verschillende, meer of minder uitgebreide toetsen om de door hem
onderkende leerstrategie te achterhalen; hij gebruikt er zelfs gemodificeerde gezelschaps-
spelletjes voor (Entwistle, 1978). Een punt van kritiek kan dan ook niet zijn of we wel
de juiste versie hebben gebruikt, maar moet zijn of we een correcte operationahsering
van de leerstrategie seriaüst/hoüst hebben gehanteerd.

Dit laatste willen we graag meer toeüchten dan we in ons artikel hebben gedaan. Zoals
büjkt uit ons artikel zijn we uitgegaan van de zogenaamde Clobbit-toetsversie. De versie
die Pask hanteert hebben we eerst in een vooronderzoek gebruikt. Het bleek echter dat
5e en 6e klassers dit een onoverkomeUjk moeihjke leertaak vinden. De veranderingen die
we aan hebben gebracht m de toets (dat wil zeggen onze operationahsering) hebben we in
ons artikel aangegeven. Toch geeft Van der Meer deze niet juist weer als hij stelt dat seri-
aUsten in onze operationalisering plaatjeskijkers zijn. SeriaUsten testen enkelvoudige
hypothesen, dat wil zeggen trekken uit de eerste twee categorieën. Ook heeft Van der
Meer onze categorieën in zijn vergeUjkingen met de categorieën die Pask gebruikt niet
juist geïnterpreteerd.

Categorie A (van Pask) komt direct overeen met onze categorie 1 en niet met 1 en 2 zoals
Van der Meer stelt. (N.B. de formulering in categorie 2: 'op de achterkant staat hoe het
dier emit ziet', slaat niet op een pictorale maar op een verbale beschrijving van voorko-
men, fysische karakteristieken, etc.).

Van der Meer stelt terecht dat categorie B redundante informatie bevat en deze is daarom
door ons samengevoegd met categorie C in een categorie 2.

Categorie D is weer identiek met onze categorie 4. Categorie E levert in Pask's eigen
temen interpretatieproblemen op; we hebben categorie E als categorie 3 gebruikt om
redenen te geven waarom dieren bij elkaar horen, met name op het aantal kenmerken
dat nodig is om dieren tot een subgroep te rekenen. Dit wil dus zeggen dat proefperso-
nen wel degeUjk een determinatietabel tot hun beschikking hadden. Het komt ons voor
dat we met onze operationahsering niet essentieel en zeker niet systematisch zijn afge-
weken van Pask. We hadden met Van der Meer mee kunnen gaan als hij had gesteld dat de
toeUchting op de categorieën in het artikel uitgebreider had mogen zijn.
Voorts stelt Van der Meer dat we een bepaalde groep hoUsten, nl. de redundante holis-
ten, een andere strategie afdwingen. Dit is niet juist; redundante hohsten zouden achter-
haald kunnen worden door hun trekking uit de categorieën 3 en 1. Dat we het onderscheid
tussen redundante en irredundante hoUsten niet gemaakt hebben (maar n.b. wel zouden
kunnen maken op grond van de categorieën) hangt samen met het doel van het totale

onderzoek: We hebben deze verdergaande specificatie niet nodig. Ons onderzoek was
namelijk gericht op het bepalen van het effect van matching of mismatching van enerzijds
leerstrategie en anderzijds onderwijsaanbod door middel van teksten. Pask heeft dit
onderscheid trouwens ook niet nodig in zijn matchingsonderzoeken. Een belangrijk
kritiekpunt van Van der Meer richt zich op de scoringsprocedure. Het betreft een ingrij-
pende wijziging van de procedure van Pask. Pask's procedure is vrij ingewückeld, samen-
hangend met zijn cybernetische leertheorie en bestaat uit een free learning conditie,een
test en een teachbackconditie, waarbij de redenen die iemand geeft om bepaalde kaartjes
te trekken geïnterpreteerd worden om de leerstrategie te bepalen. We hebben deze proce-
dure niet gevolgd, hetgeen Pask liefhebbers misschien een doom in het oog zal zijn.
Pask geeft er zelf echter alle reden toe: hij geeft nameUjk aan (1975, p. 60) dat op grond
van de trekkingspatronen uit de verschillende categorieën de leerstrategie te achterhalen
is.

Van der Meer geeft in zijn commentaar daar zelf verschillende voorbeelden van. In onze
procedure wordt het dan van belang dat proefpersonen hypothesen toetsen (enkel- of
meervoudig) en niet enkel informatie zoeken. Daarom, zo schreven we, kregen proefper-
sonen van te voren uitleg over de bedoehng van de leertaak, de werking van de taxonomie
en de opdracht gericht kaartjes te trekken. Op die manier wordt het informatie zoeken
geminimahseerd en worden de proefpersonen meer gericht op het toetsen van hypothesen,
waarvoor we hun overigens alle denktijd lieten (1 lesuur). We zien dus dat op theore-
tische gronden de door ons gevolgde procedure mogehjk is (volgens Pask). Of het ook
tot dezelfde resultaten leidt als de uitgebreide procedure die Pask hanteert is een empiri-
sche vraag en is voorzover ons bekend niet onderzocht.

Overigens was ons experiment niet bedoeld als replicatie van het experiment van Pask.
zoals Van der Meer in zijn eerste volzin suggereert. Om die reden is het tweede gedeehe
vam Van der Meer's commentaar als reactie op ons artikel mmder mteressant. Hij gaat
daar nader in op latere ontwikkeUngen hi het werk van Pask en dan met name op het
onderscheid tussen leerstijl en leerstrategie. Wij hebben in ons onderzoek gezocht naar
het verband tussen leerstrategie en leerresultaat omdat deze leerstrategie volgens Pask
(1975, p. 53) van invloed is op de wijze waarop proefpersonen informatiegehelen tot cog-
nitieve structuur verwerken; in dit verband hebben we dan ook niet gezocht naar het
verband tussen leerstijl (persoonskenmerk) en leerresuhaat, zoals Van der Meer ten
onrechte meent (laatste alinea).

Entwistle, N.J., Knowledge structures and styles of learning: a summary of Pask's recent research

British Journal of Educational Psychology, 1978,48, 255-265.
Pask, G., Conversation, cognition and learning, Amsterdam, 1975.

De onderwijskundige voorbereiding van aanstaande leraren. Een onderzoek naar opvattin-
gen van docenten van lerarenopleidingen, leraren in het voortgezet onderwijs en andere
groeperingen.

Het boek vervult een dubbele functie. Enerzijds is het de publikatie van de inhoud van het proefschrift
ter verkrijging van het doctoraat in de sociale wetenschappen, terwijl het anderzijds als eindrapport aan
de S.V.0. fungeert. Het omvat tien hoofdstukken, die als volgt geordend kunnen worden: Deel 1:
achtergrond, doelen, uitgangspunten en uitvoering van het onderzoek (hfdst 1-4); Deel 2: resultaten,
conclusies en interpretaties van het onderzoek (hfdst. 5-9) en Deel 3: evaluatie van het onderzoek en
aanbevelingen (hfdst. 10). Belangrijk bij het bespreken van het boek, is de exacte weergave van de uit-
gangspunten. Ze geven een beeld van de eventuele reductie van het onderzoeksobject die in iedere em-
pirische studie aanwezig is. De auteurs zijn vertrokken van een heel concrete probleemsituatie, m.n.
de vulling van het in de NLO programma's opgenomen instituutspracticum. Er wordt hierin geopteerd
voor een welbepaald trainingsmodel, nl. de component-skills-approach: lesgeefvaardigheden worden
eerst afzonderlijk ingeoefend en later weer geïntegreerd. Er wordt door de auteurs geen vraag gesteld
naar de relevantie van dit trainingsmodel: het model en de achterliggende trainingsfilosofie worden als
vanzelfsprekend aanvaard. Eens dit model aanvaard, dient gezocht naai belangrijke deelvaardigheden,
zodat de leraar zo goed mogelijk functioneert in het V.O. Uitgaande van een korte weergave van de
proces-produktstudies naar de effectiviteit van leerkrachten, komt men tot de vaststelling, dat er wei-
nig of geen soliede basis bestaat voor de keuze van lesgeefvaardigheden. Er moet derhalve naar gezocht
worden.

Daarenboven is in de Nederlandse situatie een veelheid van opleidingsvormen. Hierin zijn zowel vor-
men te vinden waarin een integratie wordt nagestreefd tussen vakopleiding en onderwijdcundige voor-
bereiding, als waarin beide opleidingsblokken sterk gescheiden blijven. Er is dus een duidelijk tekort
aan communale doelen.

Steunend op de bovenstaande diagnose van de problematiek, worden de volgende onderzoeksproble-
men afgebakend:

(2) op welke wijze zou de onderwijskundige voorbereiding een bijdrage kunnen leveren aan een opti-
maal leraarschap.

(1) inventaris van doelstellingen m.b.t. vaardigheden van de leraar V.O. en de wijze waarop leraren-
opleiding op het beroep van leraar moet voorbereiden;

(3) een bijdrage leveren tot de theorieontwikkeling m.b.t. ondeiwijdcundige voorbereiding van leraren.
Zonder gedetailleerd op de uitvoering, resultaten en Besluiten van het onderzoek in te gaan, kan ge-
steld worden dat:

(1) de onderzoekers opteren voor het bevragen van zoveel mogelijk personen, resp. groepen die direct
of indirect met de lerarenopleiding te maken hebben;

(2) het onderzoek louter descriptief is, mji. een weergave van wat mensen als wenselijk aanzien, zon-
der dit onmiddellijk te evalueren aan de hand van prescriptieve normen;

(3) de verschillen in doelen tussen de diverse participanten belangrijk zijn om vastgesteld te worden,
hoofdzakelijk op grond van behoud versus vernieuwingsgezind;

(4) deze doeleninventaris dienstig kan zijn als reflectiemateriaal voor de vulling, lesp. organisatie van de
onderwijskundige voorbereiding.

Het boekwerk is toegankelijk voor alle geïnteresseerden, zowel onderzoekers als practici. De structuur is
duidelijk en de argumenten volstrekt expliciet. Het verkregen materiaal is inspirerend, zij het een weer-
gave van doelen die als bekend overkomen. Binnen het kader van de kwantitatieve verwerking van het
materiaal, is een duidelijk verantwoorde methodologie gehanteerd. De resultaten zijn helder weerge-
geven en ook voor de minder statistisch ingewijde begrijpbaar. De samenvatting en besluiten bevatten
een grote dosis reflectie op het eigen werk.

Toch ontbreekt op een aantal punten voldoende explicitering. De meer fundamentele vragen worden
dikwijls niet gesteld. Zo wordt het zoeken naar deelvaardigheden als vanzelfsprekend voorgesteld: de
complexiteit van het onderwijzen komt nauwelijks aan bod. Ook de spanning tussen prescriptie en
descriptie wordt zelden gethematiseerd, alhoewel een uitvoerig onderzoek als dit, frequent hiermee in
aanraking komt.

Vervolgens wordt weinig aandacht besteed aan de explicitering van de reductie die in het onderzoek
optreedt. Zou bijvoorbeeld een meer kwalitatieve verwerking van de resultaten andere gegevens ople-
veren? Bevatten de 69 vaardigheidsdoelen en de 22 opleidingsdoelen nog de essentiële infonnatie die in
de 4303 ruwe uitspraken van de eerste fase in het onderzoek aanwezig was? Wat is het relatieve aan-
deel van kleine en verder afstaande groeperingen in het onderzoeksmateriaal: hebben bijvoorbeeld de
leden van audiovisuele centra geen grote invloed uitgeoefend op de inventaris van uitspraken over au-
diovisuele media?

Tenslotte zijn een aantal definiëringen problematisch. Vaardigheden vallen samen met kennis, vaardig-
heden en attituden. Voor de verheldering van deze componenten van het onderwijsgedrag wordt be-
roep gedaan op Neerlandici, terwijl de onderwijspsychologische Uteratuur voor de begripsvulling bui-
ten beschouwing gelaten wordt. Aldus komt ment tot een wat achterhaalde, conatieve vulling van het
begrip attitude, nl. datgene wat de leraar wil. Over de dynamisch-affectieve onderbouw van dit begrip
wordt niet nagedacht.

Alleszins kan gesteld worden, dat het boek inspirerend werkt op de lezer. Tevens mag een waardering
worden uitgesproken voor het vele grondige werk dat is geleverd. Wat meer fundamentele problemati-
sering zou hieraan een dimensie toevoegen, die in het onderzoek dikwijls ontbreekt. Dit niet omwille
van de onwil of onmacht van de onderzoekers, maar omdat onderzoek een bedrijf is dat sterk gebon-
den is aan tijd, mankracht, financies en daardoor - soms - belangrijke vragen even terzijde schuift.
Een 'even' dat echter blijvend wordt.

Criterion-referenced measurement: The state of the art.
Baltimore: The Johns Hopkins University Press, 1980.

Dit boek is ontstaan als een produkt van het eerste Johns Hopkins University National Symposium on
Educational Research, dat onder gelijknamige titel in october 1978 in Washington, D.C., gehouden
werd. Doel van het symposium was om recente onderzoeksresultaten samen te vatten en te presenteren
in een vorm waar onderzoekers van onderwijs en praktijkmensen iets aan hebben. Tijdens het sympo-
sium werden een zestal voordrachten gehouden, ieder over een afzonderlijk onderwerp, die naderhand
enigszins bewerkt werden en in dit boek samengebracht zijn.

De zes bijdragen in dit boek zijn twee aan twee samengenomen en ieder tweetal is door de redacteur
van een korte inleiding voorzien. Alle bijdragen zijn identiek opgebouwd: ze beginnen met een inlei-
ding tot het onderwerp, geven daarna een overzicht van de onderzoeksresultaten, doen vervolgens
suggesties voor toekomstig onderzoek en eindigen - heel aardig - met richtlijnen voor de praktijk.
We bespreken iedere bijdrage kort en kiezen de volgorde waann ze m het boek voorkomen.
Het boek wordt geopend met de bijdrage 'Domain Specification Strategies' van W. James Popham,
een auteur die al vaker zijn Hcht over dit onderwerp heeft laten schijnen en onder onderwijskundigen
geen nadere introduktie behoeft. Voor criteriumtoetsen is een domein nodig dat bestaat uit homogene
items die een beroep doen op welomschreven vaardigheden. Popham beschrijft hoe de Instructional
Objectives Exchange (lOX) te Los Angeles sinds 1968 geprobeerd heeft specifikaties op te stellen
aan de hand waarvan item schrijvers dergeUjke domemen konden vervaardigen. Men begon met de
formulering van gedragsdoelen, stapte over naar het gebruik van itemvormen, probeerde vervolgens
zgn. 'amplified objectives' en werkt tegenwoordig zowel met een 'limited-focus strategy' als met 'lOX
test specifications'. De gehele geschiedenis is een verslag van wat men wel de worsteUng met het
'specifiteitsdüemma' zou kunnen noemen: zijn de nchtlijnen te weinig specifiek dan sluipen subjec-
tieve invloeden in de items en verliezen de testscores hun interpretatie. Zijn ze te specifiek, dan ontstaan

zeer gedetailleerde richtlijnen en grote verzamelingen itemdomeinen terwijl de itemschrijvers de interesse
in hun taak verliezen en het onderwijsveld moeilijk van de relevantie te overtuigen valt. Popham's bij-
drage is op de bekende joviale manier geschreven - een luchtig taalgebruik, hier en daar een rake type-
ring en bijwijlen niet al te diepgravend.

De bijdrage "Computer-Based Item Generation' van Jason MUlman is kort. Wij zullen dat dus ook zijn.
Na enkele inleidende woorden is er voor ieder van de volgende onderwerpen ongeveer een pagina: item
banking, adaptief toetsen, itemgeneratie met behulp van algoritmen en van linguïstische transformaties.
Hoewel de auteur geen onjuiste beschrijvingen geeft, is het gebodene bij lange na niet compleet genoeg
om een indruk te verkrijgen van de hoge vlucht die technieken voor itemgeneratie met behulp van de
computer, genomen hebben. Waar nog bijkomt, dat de eerste twee onderwerpen niet over itemgenera-
tie gaan. Er zijn betere overzichten beschikbaar (Roid en Haladyna, 1980; Zwarts, 1981).
Het volgende hoofdstuk, dat eenvoudig 'Item Analysis' heeft, is van de hand van de redacteur van het
boek. Over de analyse van items voor criteriumtoetsen is al heel wat afgeschreven, waarbij opvalt dat
veel zich bevindt in interne rapporten of papers die tijdens een van de AERA en NCME congressen
gelezen zijn. Bovendien betreft het merendeel de introduktie van weer een nieuwe itemcoêfflciè'nt
die op winstscoring berust, bijvoorbeeld op het verschil in item p-waarden voor en na instruktie of
tussen wel of niet geïnstrueerde groepen. In het overzicht van Berk gaat dan ook bijna alle aandacht
naar deze verzameling coëfficiënten. Hij geeft ondermeer uitgebreide tabellen waarin iedere coëfficiënt
van een kort commentaar voorzien wordt. In het algemeen is de auteur positief over itemvalidatie op
basis van winst- of verschilscoring en het enige kritiekpunt dat hij naar voren brengt betreft de invloed
van validiteitsbedreigers die bij deze eenvoudige designs op kunnen treden. Er is echter veel meer kri-
tiek noodzakelijk, zoveel zelfs dat het gebruik van deze itemvalidatiemethoden voor geen enkele
situatie aanbevolen kan worden (van der Linden, 1981). Naast het bovenstaande komen nog aan de
orde: het gebruik van leerstofdeskundigen voor de beoordeling van item-leerdoel congruentie, een
aantal homogeniteitscoëfficienten en enkele richtlijnen voor de revisie van testitems.
Ronald K. Hambleton is iemand die van het schrijven van reviews zijn beroep schijnt te maken. Hij
doet dat dan ook meestal goed en vervult een waardevolle funktie doordat hij op deze wijze velen voor
een gebied weet te interesseren. Zijn bijdrage heet 'Test Score Validity and Standard-Setting Methods'
en bestaat eigenlijk uit twee overzichten. Het eerste behandelt de validatie van criteriumtoetsen en
vormt een aanvulling op het hoofdstuk van Berk, met name doordat het dieper ingaat op de wijze
waarop de vaststelling van itemJeerdoel congruentie omgezet kan worden in beoordelingstaken voor
leerstofdeskundigen. Het tweede overzicht laat de beschikbare methoden voor de selectie van beheer-
singsstandaarden de revue passeren. Hambleton volgt een andere indeling dan in het kritische overzicht
van Glass (1978) maar maakt wel dezelfde fout door de besliskundige methoden voor grensscorebepaling
op de to§ts op te vatten als methoden voor standaaidselectie. Het zijn evenwel methoden voor de mini-
malisering van de invloed van meetfouten die optreedt als toetsscores voor beheersingsbeslissingen
gebruikt worden.

In de voorlaatste bijdrage, 'Decision-Consistency Approaches', geeft Michael J. Subkoviak een overzicht
van een viertal methoden voor de bepaling van de consistentie van beheersingsbeslissingen. In deze
methoden wordt de consistentie van de beslissingen - meestal ten onrechte de betrouwbaarheid van
beheersingsbeslissingen genoemd; maar gelukkig niet door deze auteur - bepaald door de berekening
van de overeenstemmingscoefficiënt of van coëfficiënt kappa over test-hertest of paralleltest beslis-
singen. De methoden die aan de orde komen zijn: de empirische methoden van Carver en Swaminathan,
Hambleton en Algina, een methode van Huynh die gebaseerd is op het bivariate beta-binomiale model,
een verwante methode van Subkoviak en een methode van Marshall en Haertel die gebruikt maakt van
het binomiale model. Het overzicht van Subkoviak is zeer helder geschreven. Voor iedere methode is er
een uiterst illustratief rekenvoorbeeld. Op grond van een simulatiestudie met empirische gegevens
komt de auteur - terecht - tot de conclusie dat de methode van Huynh licht de voorkeur verdient.
Het hoofdstuk heeft als bijlage een uitgebreide serie tabellen waarin men voor een gegeven testgemid-
delde en KR21-betrouwbaarheid de waarden van de consistentiecoefficiënten af kan lezen die uit de
methode van Huynh volgen.

Als criteriumtoetsen samengesteld worden door aselekte steekproeftrekking uit itemdomeinen,
behoort men geïnteresseerd te zijn in universum scores en niet zozeer in ware testscores. In dit geval
is - tenzij aUe items gelijke moeilijkheid bezitten - de klassieke testtheorie onbruikbaar. Wil men toch
binnen een klassiek kader blijven, dan ligt de keuze voor de generaliseerbaarheidstheorie voor de hand.
In 'Applications of Generalizibility Theory' geeft Robert L. Brennan een zeer toegankelijk overzicht
van de mogelijkheden om de generaliseerbaarheidstheorie te gebruiken voor de analyse van beheer-

singstoetsen. Centraal staat een eigen vinding, namelijk de uitbreiding van de bekende coëfficiënt van
Livingston tot een aantal generaliseerbaarheidscoefficiënten voor beheersingstoetsen. Niet alleen
worden deze coëfficiënten besproken, de auteur laat ook zien dat ze interpreteerbaar zijn als
overeenstemmingscoefficiënten en hoe ze geschat kunnen worden. Het overzicht eindigt met een
voorbeeld en een beschouwing over de mogelijkheden van designs met meer facetten. Zoals we reeds
zeiden, het overzicht is zeer toegankelijk geschreven. Ook vallen er geen onjuistheden of fouten te
melden. Toch hebben we het moeilijk met deze bijdrage van Brennan. De reden gaat terug op inter-
pretatiemoeilijkheden met Livingston's coëfficiënt, waarin de uitbreidingen van Brennan delen. Al deze
coëfficiënten zijn namelijk geen coëfficiënten voor de betrouwbaarheid van beheersingsbeslissingen
maar reflecteren de betrouwbaarheid waarmee afwijkingen van scores t.o.v. de grensscore op de toets
vastgesteld kunnen worden. Voor de analyse van beheersingstoetsen zijn ze daarom minder geschikt.
Tot zover de bespreking van de afzonderlijke bijdragen. Samenvattend kunnen we het boek aanbeve-
len aan de onderwijskundige die in één keer geïnformeerd wil zijn over de stand van zaken van het
onderwerp. Tijdens de bespreking van de bijdragen van Millman en Berk hebben we moeten aangeven
dat deze respectievelijk zeer incompleet en oppervlakkig waren, maar de andere bijdragen maken
dit wel goed. Met uitzondering van de bijdrage van Brennan vraagt het boek niet veel technische
voorkennis. De geïnteresseerde lezer die op dit punt sterker staat willen we vooral ook wijzen op de
mogelijkheid om een aantal reviewartikelen over het onderwerp te raadplegen. Naast de reeds gegeven
referenties zijn bruikbaar: Hambleton, Swaminathan, Algina en Coulson (1978) en de artikelen in
het themanummer van Applied Psychological Measurement (1980). Rest ons nog te vermelden dat
het boek in een stevige kaft is ingebonden, 234 pagina's bevat en voor de prijs van $ 25,00 op de markt
is gebracht.

Applied Psychological Measurement. 'Methodological contributions to criterion-referenced testing

technology', 1980,4 (4).
Glass, G. V. Standards and criteria. Journal of Educational Measurement, 1978,15, 237-261.
Hambleton, R.K., Swaminathan, H., Algina, R., & Coulson, D.B. Criterion-referenced testing and
measurement: A review of technical issues and developments. Review of Educational Research,
1978,48,1-47.

Roid, G., & Haladyna, T. The emergence of an item-writmg technology. Review of Educational

Research, 1980,50, 293-315.
van der Linden, W. J. A latent trait look at pretest-posttest validation of criterion-referenced test

items Review of Educational Research, 1981,5i, in druk.
Zwarts, M. A. On the construction and validation of domain-referenced measurements. In W. J. van
der Linden (Ed.), Aspects of criterion-referenced measurement. Evaluation in Education: An
International Review Series, 1981,5, in druk.

Onderwijskundig onderzoek: twee doelstellingen, één onderzoeksmodel, door G. van den Berg
'Vrijheid' als grondbegrip van de pedagogiek (II), door J.W. Steutel

Sociale Markering en cognitieve ontwikkeling, door W. Doise, J. Rijsman, J. van Meel, I. Bressers en
L. Pinxten

Kronieken: Verslag van de. Educational Research Workshop on the evaluation of the effectiveness of

in-service education for teachers, door H. Tillema en S. Veenman
De Kohnstamm-Kuijer-rel, door M.J. Langeveld
Boekbesprekingen
Mededelingen

Het Verbórgen-Figuren Diagnosticum, door R. Aalders en A. Pennings
Sovjetvisies op de psychologie van het spel, door D.B. El'konin

Integratie Individueel Beroepsonderwijs - Lager Beroepsonderwijs, door N.M.E. Neuwahl

Schoolontwikkeling. Een integratie van schoolwerkplan-ontwikkeling en schoolorganisatieontwikke-
ling, door G.J. Bergenhenegouwen
Geïntegreerde bekwaamheidsverwervingsprocessen in de lerarenopleiding basisonderwijs, door H.W.A.M.

Coonen en H.A.M. Franssen
De pedagogische tijdschriften als bron voor de historische pedagogiek, door J.M.A. Noordman
Kroniek: Ter introductie van. Onderwijs: 'Bestel en beleid', door Ph.J. Idenburg
Boekbesprekingen
Mededelingen

Aula-reeks Onderwijskundige Informatie voor het hoger onderwijs; (delen 801 t/m 807)
801: In kaart brengen van leerstof (Breuker)
802: Bouwstenen voor onderwijs (Camstra)
803: Onderwijs in taakgerichte groepen (Schmidt Sc Bouhuijs)
804: Tentamineren (Dousma & Horsten)
805: Studeren door schematiseren (Mirande)
806: Kiezen van didactische werkvormen (Willems/Wolters)
807: Geven van hoorcolleges (van Hout/Mirande/Smuling).
Basis-Bulletin, 2e jaargang no. 1, september 1981.

Berkenbosch, J. & Riemersma, F.S.J. Tussen wens en werkelijkheid. Een onderzoek naar de verwerke-
lijking van het scholingsconcept van de P.F. van Overbeekschool. Schoolgericht onderzoek midden-
school 1979-1980. Amsterdam: Stichting Centrum van Onderwijsonderzoek, maart 1981.
Beroepsvoorlichting en keuzebegeleiding. Beroepsopleiding. Informatiebulletin van het Europees Cen-
trum voor de Ontwikkeling van de Beroepsopleiding, september 1981.

Blok, H. & de Glopper, K. Functionele taalvaardigheid: een literatuurverkenning. Interimrapport 1 van
project SVO 0513: 'Functionele taalvaardigheid, een onderzoek onder jong-volwassenen naar hun
behoeften aan taalvaardigheid. Stichting Centrum voor Onderwijsonderzoek, Amsterdam- septem-
ber 1981.

Brabander, K. de (red.) Voortgangsevaluatie in zelfverantwoordelijk leren. Eindrapport SVO project

0361, Leids Interdisciplinair Centrum voor Onderwijs Research, Leiden, april 1981.
Groot, R. de. Adolescenten met leermoeilijkheden in het IBO. Verslag van een onderzoek naar het
effect van orthopedagogisch-didactische hulpverlening in het Individueel Technisch Onderwijs
(ITO) bij leerlingen in het eerste leerjaar. Groningen: Wolters-Noordhoff, 1981.
Hoeben, W.Th.J.G. Praktijkgericht onderzoek en de groei van kennis. 's-Gravenhage: Staatsuitgeverij

1981 (=S.V.O.-reeksno.46).
Jaarverslag over 1980 van de Onderzoeksgroep I & E (Instrumentconstructie en Evlauatieonderzoek).

Stichting Research Instituut voor de Toegepaste Psychologie, Amsterdam: oktober 1981.
Jansen, G.J. Het voortijdig beëindigen van deelname aan de proefprojecten en spontane groepen Open

School. Kohnstamm-Instituut, Amsterdam: 1981.
Kleijer, H. e.a. Onderwijs, kwalificatie en arbeidsmarkt. Nijmegen: Zink, 1981.
Overzichtsrapport zes jaar NLO-onderzoek, Derde onderzoek Nieuwe Lerarenopleiding. Nijmeegs
Instituut voor Onderwijsresearch, Nijmegen/Stichting Centrum voor Onderwijsonderzoek, Amster-
dam, september 1981.

Parreren, C.F. van & Pijning, H.F. (red.). Psychomotoriek. Groningen: Wolters-Noordhoff, 1981

(= Teksten en analyses Soyjet-psychologie 4).
Swanborn, V.G.Methoden van sociaal-wetenschappelijk onderzoek. Meppel: Boom, 1981.
Tesser, P. Schoolloopbanen onderzoek in Nederland. Een trendstudie naar ontwikkelingen in het empi-
risch onderzoek tussen 1960 en 1980. Nijmegen: Instituut voor Toegepaste Sociologie, 1981.
Vessem, M. van Begeleidsters aan het woord. Over het ontstaan van spontane groepen Open School.

Kohnstamm-Instituut, Amsterdam: 1981.
Vries, G.C. de. Achtergronden van niet-deelname aan de volwasseneneducatie. Een onderzoek rond de
Open School. Stichting Centrum voor Onderwijsonderzoek. Amsterdam: 1981 (- S.C.O.-rapport
no. 1).

Willems, J. Schriftelijk studiemateriaal voor de open universiteit: Een literatuur-studie. Instituut voor
Onderzoek van het Wetenschappelijk Onderwijs, Nijmegen, februari 1981.

P.A.O. Cursus Vakgroep Statistiek en Meettheorie, R.U. Groningen
Latent structure analysis, 3 t/m 7 mei 1982; E.B.Andersen

In the course there will be given an introduction to various models for latent structure analysis. These
models all refer to a situation, where a battery of items or questions are presented to a number of
testees in order to measure a latent variable. The items can take many forms, but in the course we shall
restrict attention to dichotomous or polychotomous data. The aim of the analysis is to check, based
on the data, if a description of the individuals by a one-dimensional (or a multidimensional, if this is
the model) latent variable is adequate. If this is found to be the case, the response on an item is
described by an individual-independent item parameter and the value of the latent variable. Given this
description one can then go on to describe the variation of the latent variable within the whole popula-
tion or within particular subpopulations. Also comparisons between subpopulations in terms of the

We shall deal with various statistical models, in particular the Rasch-model and extensions hereof and
with Lazarsfeld's latent class model as treated by Goodman. These models wiU be compared if possible
by use of actual datasets.

Recently a number of computer programs to deal with latent structure analysis have been developed.
Some of these programs wiU be described and the use of them will be demonstrated by analysing
various sets of data. , ^

A survey paper by the course instructor is in press at the Scandmavian Journal of Statistics. This paper
describes all of the mentioned models and gives an extensive bibliography of the literature on the sub-
ject.

In het najaar 1981 wordt onderstaand cursusprogramma georganiseerd door de subfaculteit der Sociaal-
Culturele Wetenschappen van de Katholieke Hogeschool TUburg.

Cursusleiding: Prof.Dr. J. van Wezel (013-662557), Drs. F. Kerstholt (013-662542 of 662208)

II Training van onderwijsgedrag bij maatschappijleer
Cursusleider: Drs. W. Dijkstra (013-662421)

Cursusleiding: Dr. A. Godfroij (013-662079), Drs. P. van Harberden (013-662111), Drs. J. Slagtman
(013-662441)

Cursus: Sociologische aspecten van de verzorgingsstaat: haalbaarheid of betaalbaarheid?

De cursus wordt verzorgd door leden van de vakgroep Algemene Sociologie van de Subfaculteit der

Docenten: Prof.Dr. H.P.M. Adriaansens, Drs. P.L.M. van Elderen, Drs. F.Th.S. Kerstholt, Prof.Dr.
J. van Wezel.

Inlichtingen: Drs. F. Kerstholt, telefoon 013-662542 (doorkiesnummer) b.g.g. 013-662208.
Doelgroep: De cursus is bedoeld voor functionarissen van stafafdelingen van Ministeries (Sociale
Zaken, Volksgezondheid, Economische Zaken, C.R.M.). Voorts denken wij aan medewerkers van het
Centraal Planbureau, het Sociaal-Cultureel Planbureau en de Wetenschappelijke Raad voor het Rege-
ringsbeleid en aan medewerkers van werkgevers- en werknemersorganisaties. Tenslotte kan de cursus
ook zinvol zijn voor staffunctionarissen van welzijnsinstellingen op provinciaal niveau, van opbouw-
organen en van economisch-technologische instituten en voor wetenschappelijk personeel van universi-
teiten en hogescholen en instellingen voor hoger beroepsonderwijs. De cursus is niet uitsluitend voor
sociologen bedoeld.

Doelstelling: De cursus wdl men name de aandacht vestigen op een aantal (cultuur-)sociologische aspec-
ten, die bij de beschouwing van de problemen van de huidige verzorgingsstaat mede overweging zouden
verdienen.

Postacademische cursuscyclus 'leergang, leerling en onderwijsgevende in het funderend onderwijs'

De NVO (Nederlandse Vereniging van pedagogen, onderwijskundigen en andragologen) en het N.I.P.
(Néderlands Instituut van Psychologen) organiseren in 1982 de PAO-cursuscyclus 'leergang, leerling en
onderwijsgevende in het funderend onderwijs'. Deze is bestemd voor psychologen, pedagogen, onder-
wijskundigen en anderen die geïnteresseerd zijn in onderwijspsychologische vraagstukken op het ter-
rein van het funderend onderwijs.
De cyclus bestaat uit vier blokken:

Voor elk van de vier blokken kan apart worden ingeschreven, met dien verstande dat deelname aan
blok 1 verplicht is voor hen die aan één of meer van de overige blokken willen deelnemen.
De cursusleiding is in handen van prof.dr. C.F. van Parreren, prof.dr. J.A. Carpay, prof.dr. E. de Corte,
prof.dr. L.F.W. de Klerk, dr. E. Bol, dr. P.R.J. Simons, dr. J. Lowyck.

De kosten bedragen ƒ430,- (blok 1), ƒ470,- (blok 2), ƒ670,- (blok 3 en 4); ƒ 2100,- (de hele cur-
suscyclus).

NVO Korte Elisabethstraat 11, 3511 JG Utrecht 030-322407
N.I.P. Nicolaas Maesstraat 122,1071 RH Amsterdam 020-791526

	Voortoets	Natoets	Retentietoets
serialisten/web-variant	5.41	6.29	6.59
serialisten/lineaire variant	5.72	7.12	7.06
holisten/web-variant	4.59	6.11	6.78
holisten/lineaire variant	4.15	5.00	6.03
Totaal	5.16	6.31	6.73

3 dimensioneel
natoets	web	lin.	tot
hol. ser.	.47 .40	.44 .42	.46 .41
'®tentietoets	web.	Un.	tot
hol. ser.	.34 .42	.41 ,.38	.38 .40
2 dimensioneel
natoets	web	lin.	tot
hol. ser.	.41 .37	.41 .38	.41 .38
'etentietoets	web	lin.	tot
hol. ser.	.27 .37	.38 .32	.33 .35

x(t-l)		ex(t)
		+
y (t-1)		^y W
u (t-1)
u (t)

- hoorcollege?	Natuurkunde:	jazeker!
	Opvoedkunde:	ja
- werkcollege?	Natuurkunde:	ja
	Opvoedkunde:	nee
- discussiegroep?	Natuurkunde:	jazeker!
	Opvoedkunde:	onbeslist
— practicum cq.	Natuurkunde:	ja
talenpracticum	Opvoedkunde:	onbeslist
(bij muziek)	Muziek:	ja
- zelfstudie?	Natuurkunde:	onbeslist
	Opvoedkunde:	ja
	Muziek:	ja
	Frans:	jazeker!

Getoetst verschil	df	t.10	t voor KI	t voor KII
MEVO VS. ZOVO	34	1.691	.899	.770
OPMEVO VS ZOVO	30	1.697	1.459	.675
BEZEVO VS. ZOVO	28	1.701	1.493	.670

Categorie	Aantal aangeboden artikelen tussen l-10-'79 en 31-9-'80	vóór l-10-'79
methoden van onderzoek	6	66
theorieën & modellen	1	8
empirisch onderzoek	12	41
overzichtsartikelen	0	7
onderzoeksbeleid	1	5
overige	2	3
totaal	22	130

	ZOVO	MEVO	OPMEVO	BEZEVO
n	16	20	16	14
m	33.44	36.25	54.38	62.86
s	10.27	9.16	13.79	7.95

816	Wetenschapsleer deel B	f. 300,-
817	Wetenschapsleer deel C	f. 300,-
1818	Qualitatief onderzoek fase 1)
2818	Qualitatief onderzoek fase 2)	nog nader
3818	Qualitatief onderzoek fase 3)
819	Macrosociale indicatoren	f. 180,-
8110	Project quantitatieve analyse	f. 750,-
8111	Operationalisering in sociaal beleidsonderzoek	f. 240,-
8112	Methoden cn technieken van sociaal beleidsonderzoek	f. 360,-

		ME	MC	a	ME,	MC,		ME,	MC,	a.
Totaal scores:	ME		.79	.89	.90	.66	.77	.92	.75	.81	Wmax = -97
	MC	.65		.67	.72	.90	.56	.71	.90	.62	Wmax = -97
	a	.89	.67		.79	.53	.87	.83	.67	.91	Wmin = -01
Even items:	ME,	.91	.60	.80		^74	.86	.65	.55	.56	c = .04
	MC,	.53	.90	.53	.60		.61	.47	.61	.34	X = -236
	ai	.77	.56	.87	.86	.61		.56	.39	.59
Oneven items:	ME,	.93	.60	.82	.69	.39	.57			.89
	MC,	.64	.90	.67	.47	.61	.39	.69		.77
		.81	.62	.91	.59	.34	.59	.87	.77
'^max		.997, w,	min ~	.001, c	;= .004,x = -		-399

II		interventie-
		y groep


		y y
1 --1 1 1	^— ^ \ 1 1 1
preïnterventie-	interventie-
periode	periode

	G,	G2	Gs	G4	Go^
P3 =	'3.60x10-'®	4.44x10-'®	5.20 xnO'"	1.12 xlO'"*	.762	1
(5;174)	.999	.021	.990	.196	.915_	2
	G, t/m Go	Gj t/m Go	Gj t/m Go	G4 en Gq	Go
P4 =	333 X 10-'®	4.30x10"'®	5.00 X 10-'®	1.83 X 10-"	.762'	1
(5;174)	5.98 X 10'®	3.49x10'®	.141	.142	.915	2