Corte, E. de en Lowyck, J. De discussie over het onderzoek van onderwijzen voortge-
zet: Een reactie op Creemers, Knoers en Veenman 34
Delbeke, L. en Sente, A. De houding van laatstejaarsleerlingen uit het Algemeen
Vormend en Technisch Secundair Onderwijs in België tegenover Moderne Vreemde
Talen 97
Deynse, N. van, Smet, M., Henderikx, P. en Neve, H. de. Studietijden en Studieresul-
taten bij Eerstejaars Burgerlijk Ingenieur aan de K.U. Leuven 171
Flier, H. van der, Mellenbergh, G. J., en Adèr, H. J. Een onderzoek naar de effectiviteit
van een iteratieve item bias detectie methode bij groepen met een verschillend
treknivo 61
Gruijter, D.N.M. de. Some reflections on how many choices to choose in multiple

Hofstee, W.K.B. Een interpretatie van de viervelden correlatie, en een nagekomen

Koele, P. Enkele opmerkingen betreffende het gebruik van Fisher's Z-transformatie

Molenaar, I. W., & Sijtsma K. Internal consistency and reliability in Mokken's non-

Naerssen, R. F. van. Psychometricus. Bijdragen ter gelegenheid van zijn afscheid van

Naerssen, R. F. van Relatief nut van klassieke indices voor de selectie van dichotome

Naerssen R. F. van. Toetsen met enkele moeilijke items voor de sterke studenten 16
Oostendorp, H. van en Kok, I. Effecten van aanwijzingen voor aantekeningen maken

Scheerens, J. De Zogenaamde Conservatieve Bias bij Énkele Gangbare Evaluatie-de-
signs 161
Schmidt, H. G., Volder, M. L. de, Gijselaers, W. H., en Kerkhofs, L. M. M. Een Positief
Verband tussen Studiejaar en Tentamenresultaat, cn de Rol van Toenemende Voor-
kennis 183
SVO-beoordeling van het Project 'Groei en gezondheid van tieners' 142
Tillema, H. Betrouwbaarheid van een instrument voor leerstofstructurcring 281
Toelichting op de rubriek 'SVO-eindbeoordelingen' 141
Verstralen, H. Normen bij een Rasch-gecalibreerde Itembank. 303
Verstralen, H. Rasch Scales for Extended Curricula 149
Vijn, P. Latente variabelen, schaalpunten en stochastische ordening 269
Wolters, M.A.D. De functie van deel-geheel schema's in het rekenonderwijs: een
terugblik 71

Jansen, P.G.W. Een Nieuwe Correctie voor 'Restriction of Range' 180
Verstralen, H.F.M.M. Groeiend inzicht? Een kritiek op het simuleren van Kunstmatige

Aspecten van begrijpend lezen in het vierde leerjaar van het gewoon lager onderwijs.
Vakgroep Interdisciplinaire Studierichting Onderwijskunde K.U.N., 1982 (E. Bol) 42
Brink, W.P. van den. Binomiale Modellen in de Testleer. Universiteit van Amsterdam,

1982 (Niels H. Veldhuyzen) 191
Groot, A.D. de & Wijnen, W.H.F.W. Vijven en zessen. Groningen, Wolters-Noordhof,

1983 (Johan M. Wijnstra) 323
Kleij P. van de, Zeg na, jij. Over regels, patronen, selectie en reproductie in het lager

Krogt, F. v.d. Probleemoplossing en beleidsvorming in scholen. Een formatieve evalua-
tie van organisatiemodellen op hun bruikbaarheid in een instrumentarium voor
schoolontwikkeling. Leiden, 1983. (Peter Smets) 39

Krogt, F.J. v.d. & Weijzen, W.P. Variaties in schoolorganisaties (SVO-reeks no. 60)

Schccrcns,i. Evaluatie-onderzoek en beleid. Het sectoronderzoek: onderwijsonderzoek

Weeda, W.C. Beheersingsleren: het model getoetst in de tijd. Katholieke Hogeschool

Bij de aanvang van de negende jaargang van dit tijdschrift zijn er enkele nieuwtjes te melden.
Het eerste daarvan zal dc lezer nauwelijks ontgaan zijn: het tijdschrift heeft een nieuw
uiterlijk gekregen. Dat is voorlopig het enige dat de lezer merkt van het feit dat het tijdschrift
een nieuwe uitgever heeft: de firma Swets & Zeitlinger te Lisse. Deze verandering kwam niet
tot stand omdat de oude uitgever, de Stichting IVIO te Lelystad, haar werk niet goed deed.
Integendeel, de redactie heeft alle reden om de Stichting IVIO dankbaar te zijn voor de goede
samenwerking gedurende de afgelopen acht jaren. Er is echter reden om aan te nemen dat de
nieuwe uitgever het voortbestaan van dit tijdschrift beter kan garanderen. Kille financiële
redenen hebben ons van uitgever doen veranderen.

Ook binnen de redactie hebben zich enkele veranderingen voorgedaan. Marinus Voeten
droeg dc functie van redactie-secretaris over aan Bert Creemers. Voeten was jarenlang de ziel
en motor van de redactie.Zijn mederedacteuren cn naar ons oordeel ook dc lezers van dit blad
hebben reden tot grote dankbaarheid voor zijn werk.

In de loop van 1983 werd de redactie met een aantal personen uitgebreid. Wie dc lijst van
redacteuren bekijkt, zal het opvallen dat thans meer specialismen en benaderingswijzen
vertegenwoordigd zijn dan voorheen. Deze verbreding van de redactie moge er een teken van
zijn dat het ons ernst is met ons voornemen de inhoud van dit tijdschrift gevarieerder tc
maken. Daarop heeft de Vereniging voor Onderwijsresearch bij herhaling aangedrongen. De
redactie is, hoewel zij zich onafliankelijk acht, voor die wens niet ongevoelig. Zij is bereid
artikelen van velerlei inhoud en benaderHigswijzen op te nemen, mits zij voldoen aan eisen
van kwaliteit. Nu zijn kwaliteitseisen soms moeilijk te scheiden van voorkeuren voor bepaalde
benaderingswijzen. De redactie is zich daar altijd van bewust geweest. Een gevarieerder
samenstelling van de redactie moet de kans op onjuiste beslissingen in dit opzicht verder
verkleinen.

Het aanbod van kopij neemt snel toe. Gevolg daarvan is, dat de ,,publication lag" groter
wordt; zij bedraagt thans bijna een jaar. Een voor de hand liggende remedie zou zijn het
aantal bladzijden per jaargang tc vergroten. Dat is echter vooralsnog niet mogelijk om een
banale reden: geld. Dit tijdschrift heeft meer abonnees nodig, want meer abi)nnecs maken
meer bladzijden nn)gclijk. Zo eenvoudig is dat. De lezers van dit blad zouden aan dc oplossing
van dit probleem kunnen bijdragen.

Ook de auteurs kunnen aan het probleem iets doen door in hun manuscripten niet langer
van stof te zijn dan strikt nodig is. Economisch schrijven is een kunst, die nog te weinig auteurs
blijken te beheersen. Dc redactie brengt dat nog eens met nadruk onder de aandacht van de
auteurs.

Met de omvang groeit de gevarieerdheid van dc aangebiHlen kopij, een ontwikkeling die de
redactie probeert te versterken door af en toe auteurs uit te nodigen overzichtsartikelen te
schrijven. Daaraan wil dc redactie nu een initiatief toevoegen: de uitnodiging tot het leveren
van 'tutorials', artikelen waarin moeilijke theoretische of methodologische benaderingswij-
zen voor niel-specialisten worden verklaard. Dergelijke bijdragen zullen echter aan hoge
didaktische eisen moeten voldoen.

Bij de aanvang van de negende jaargang van dit tijdschrift zijn er enkele nieuwtjes te melden.
Het eerste daarvan zal de lezer nauwelijks ontgaan zijn: het tijdschrift heeft een nieuw
uiterlijk gekregen. Dat is voorlopig het enige dat de lezer merkt van het feit dat het tijdschrift
een nieuwe uitgever heeft: de firma Swets & Zeitlinger te Lisse. Deze verandering kwam niet
tot stand omdat de oude uitgever, de Stichting IVIO te Lelystad, haar werk niet goed deed.
Integendeel, de redactie heeft alle reden om de Stichting IVIO dankbaar te zijn voor de goede
samenwerking gedurende de afgelopen acht jaren. Er is echter reden om aan te nemen dat de
nieuwe uitgever het voortbestaan van dit tijdschrift beter kan garanderen. Kille financiële
redenen hebben ons van uitgever doen veranderen.

Ook binnen de redactie hebben zich enkele veranderingen voorgedaan. Marinus Voeten
droeg de functie van redactie-secretaris over aan Bert Creemers. Voeten was jarenlang de ziel
en motor van de redactie.Zijn mederedacteuren en naar ons oordeel ook de lezers van dit blad
hebben reden tot grote dankbaarheid voor zijn werk.

In de loop van 1983 werd de redactie met een aantal personen uitgebreid. Wie de lijst van
redacteuren bekijkt, zal het opvallen dat thans meer specialismen en benaderingswijzen
vertegenwoordigd zijn dan voorheen. Deze verbreding van de redactie moge er een teken van
zijn dat het ons ernst is met ons voornemen de inhoud van dit tijdschrift gevarieerder te
maken. Daarop heeft de Vereniging voor Onderwijsresearch bij herhaling aangedrongen. De
redactie is, hoewel zij zich onafhankelijk acht, voor die wens niet ongevoelig. Zij is bereid
artikelen van velerlei inhoud en benaderingswijzen op te nemen, mits zij voldoen aan eisen
van kwahteit. Nu zijn kwaliteitseisen soms moeilijk te scheiden van voorkeuren voor bepaalde
benaderingswijzen. De redactie is zich daar altijd van bewust geweest. Een gevarieerder
samenstelling van de redactie moet de kans op onjuiste beslissingen in dit opzicht verder
verkleinen.

Het aanbod van kopij neemt snel toe. Gevolg daarvan is, dat de „publication lag" groter
wordt; zij bedraagt thans bijna een jaar. Een voor de hand liggende remedie zou zijn het
aantal bladzijden per jaargang te vergroten. Dat is echter vooralsnog niet mogelijk om een
banale reden: geld. Dit tijdschrift heeft meer abonnees nodig, want meer abonnees maken
meer bladzijden mogelijk. Zo eenvoudig is dat. De lezers van dit blad zouden aan de oplossing
van dit probleem kunnen bijdragen.

Ook de auteurs kunnen aan het probleem iets doen door in hun manuscripten niet langer
van stof te zijn dan strikt nodig is. Economisch schrijven is een kunst, die nog te weinig auteurs
blijken te beheersen. De redactie brengt dat nog eens met nadruk onder de aandacht van de
auteurs.

Met de omvang groeit de gevarieerdheid van de aangeboden kopij, een ontwikkeling die de
redactie probeert te versterken door af en toe auteurs uit te nodigen overzichtsartikelen te
schrijven. Daaraan wil de redactie nu een initiatief toevoegen: de uitnodiging tot het leveren
van 'tutorials', artikelen waarin moeilijke theoretische of methodologische benaderingswij-
zen voor niet-specialisten worden verklaard. Dergelijke bijdragen zullen echter aan hoge
didaktische eisen moeten voldoen.

Tot slot nog een opmerking over de vorm waarin manuscripten worden aangeboden In veel
gevallen voldoen die met aan de richtlenen die daarvoor gelden en die elders in dit t Jdschrif
worden gegeven^ Veel manuscripten bevatten bovendien typefouten, spelfouten, XS
Nederlands en/of steenkolen-Engels Hef piM,»i u r. j • KcureKKig

van hun werk er blijk van geven weinig consideratie te kunnen opbrengen voor de prTwemen
van beoordelaars die hun werk van een advies moeten voorzien, kunnen wat de reda^S
betreft op hun beurt met langer op consideratie rekenen redactie

De redactie van het TOR wenst de lezers succes bij het werk in het nieuwe jaar en ziet met
belangstelhng uit naar de resultaten daarvan.

Strategiegebruik bij het Oplossen van Problemen in
een Semantisch Rijk Domein: Electriciteit en
Magnetisme^

Groep Onderwijsresearch en Afdeling der Technische Natuurkunde
TH Eindhoven TH Eindhoven

The use of strategy in solving problems in a semantically rich domain:
electricity and magnetism

Problem solving in semantically rich domains requires knowledge of the subject involved. In
addition an adequate strategy seems to be important. In this research project the question was
investigated whether students who received additional instruction and training in problem ap-
proach did use the strategy taught and, as a consequence, achieved better results.

Participants in the experiment were first-year students of Electrical Engineering at the Eindho-
ven University of Technology. They all followed an ISS course on Electricity and Magnetism. A
strategy, based on the so-called GHV (Mettes and Pilot, 1980), was designed. Part of the
participants received additional instruction in this strategy during six periods. Data were collected
by letting the participants take two tests on the ISS course while thinking aloud.

The results showed that the group of students who received the additional instruction did not
change their problem approach. The problem solving behavior of the different groups of students
showed a remarkably consistent pattern. Also, when good and poor solutions were compared, that
same pattern of behavior was found for both types. It does seem that success or failure in problem
solving cannot be attributed to differences in the use of strategy, but mainly to differences in the
way the subject is mastered.

Binnen het onderzoek naar probleemoplossen is een toenemende aandacht voor het oplossen
van problemen in semantisch rijke domeinen waar te nemen. Semantisch rijke domeinen zijn
kennisgebieden waar een grote hoeveelheid semantische kennis is samengebundeld (Bhaskar
and Simon, 1977). Voorbeelden van dit soort gebieden zijn wiskunde (Schoenfeld, 1979;
Greeno, 1980), boekhouden (Dillard, Bhaskar & Stephens, 1982) en natuurkunde (Vaags,
1975; Larkin, 1976; Larkin, McDermott, Simon & Simon, 1980).

Een uitgebreid rapport over dit onderzoek is verschenen bij de Groep Onderwijsresearch TH
Eindhoven. Tevens werd op de ORD '83 te Amsterdam een paperlezing over dit onderzoek
gehouden.

Voor het oplossen van problemen uit zo'n gebied moet een oplosser in de eerste plaats
beschikken over de juiste specifieke vakkennis. Vakkennis alleen echter lijkt niet voldoende.
Reif, Larkin en Brackett (1976), die onderzoek deden naar het oplossen van natuurkundige
vraagstukken, constateerden:

'Thus, even when students know all the relevant facts and principles necessary for the solution of a
problem they may be unable to solve jt because they lack any systematic strategy for guiding them to apply
such facts and principles' (Reif et al., 1976, blz. 216).

Naast specifieke vakkennis moet een oplosser klaarblijkelijk ook beschikken over een be-
paalde manier van probleemaanpak of zoals dat beter genoemd kan worden, een strategie.
Een strategie kan gezien worden als een algemeen actieplan waarin is vastgelegd in welke
volgorde stappen (cognitieve handelingen, fasen) in het oplosproces plaats moeten vinden
(Woods, Crowe, Hofmans & Wright, 1976; Posner & McLeod, 1982). Door een strategie kan
de organisatie van het oplosproces geregeld worden. Schoenfeld (1979) spreekt in dit verband
dan ook van 'managerial strategy'.

Na de constatering dat het de studenten ontbrak aan systematiek bij het oplossen gaven
Reif et al. (1976) een aantal studenten naast het reguliere onderwijs dat zij volgden, een extra
instructie in een simpele strategie voor probleemoplossen. Deze strategie hield in dat het
oplosproces werd uitgevoerd in vier opeenvolgende fasen: beschrijving, planning, im-
plementatie en controle. Studenten die deze extra instructie gevolgd hadden behaalden betere
resultaten.

Een belangrijke nederiandse studie over het oplossen van natuurkundige problemen wordt
gevormd door het onderzoek van Mettes en Pilot (1980). Zij ontwikkelden een model voor
het oplossen van natuurkundige problemen, het zogenaamde 'gewenst handelingsverloop'
(GHV). In het GHV wordt het oplosproces in een aantal fasen opgedeeld. Deze fasen zijn in
een vaste sequentie geplaatst. Binnen elke fase worden een aantal (vak-)specifieke detaille-
ringen, bestaande uit gewenste denkhandelingen, gegeven. Eén aspect van het GHV is dus dat
het een strategie omvat.

Mettes en Pilot (1980) ontwierpen een cursus waarin studenten geleerd werd problemen
volgens dit GHV op te lossen. De cursus werd ingericht volgens de leertheorie van Gal'perin
aangevuld met het principe van mastery learning. Alle onderdelen van de cursus werden
nauwgezet op elkaar afgestemd. Invoering van deze nieuwe cursus bleek een gunstige invloed
op de prestaties van de studenten te hebben.

Het ontwikkelen van een nieuwe cursus vergt veel constructiearbeid. Bovendien betekent
invoering ervan het afleggen van een lange weg met ongetwijfeld vele obstakels. De resultaten
van het onderzoek van Reif et al. (1976) geven echter aan dat ook een minder arbeidsinten-
sieve ingreep dan de constructie van een geheel nieuwe pursus vruchten af kan werpen.

In het onderhavige onderzoek werd daarom onderzocht of studenten die naast het reguliere
onderwijs (dus niet geïntegreerd in een nieuwe cursus) een extra instructie ontvingen in een
op basis van het GHV ontworpen strategie (zonder (vak-)specifieke detailleringen), proble-
men meer conform deze strategie (hierna: de strategie) gingen oplossen en dientengevolge
betere resultaten behaalden.

Om de bovenstaande onderzoeksvraag te kunnen beantwoorden werd aan een groep eerste-
jaars studenten Electrotechniek die deelnam aan een cursus Electriciteit en Magnetisme

(E&M I), een extra instructie gegeven waarin de strategie onderwezen werd. Een andere
groep studenten die deelnam aan de cursus kreeg geen extra instructie en fungeerde als
controlegroep. Data werden verkregen door beide groepen hardop denkend toetsen af te
laten leggen. Dit gebeurde zowel voor als na de extra instructie.

De verschillende elementen uit het onderzoek zullen nu afzonderhjk toegelicht worden.

Het in de cursus gegeven vak, Electriciteit en Magnetisme, is een van de theoretische
basisvakken van de studie. De cursus wordt gegeven in SPS-vorm (Self Paced Study). De
inhoud van de cursus is verdeeld in 9 blokken elk afgesloten met een toets. Het onderwijs
bestaat uit klassikale instructies gedurende de eerste maanden, speciaal gericht op de nodige
wiskundige vaardigheden. Daarnaast zijn er vrageninstructies waar vragen van studenten
n.a.v. opgaven behandeld worden. In de zogenaamdetenslotte, kunnen studenten
individueel vragen stellen over door hen afgelegde toetsen. De nominale studielast van deze
cursus is 100 uur.

De voor dit onderzoek ontwikkelde strategie is voornamelijk gebaseerd op het werk van
Mettes en Pilot (1980). Veel van de door hen gebruikte terminologie is daarom door ons
overgenomen. Zoals in de inleiding al aangegeven wijkt de hier behandelde strategie echter
duidelijk af van het GHV van Mettes en Pilot (1980) daar de strategie niet expliciet vakspeci-
fieke gewenste denkhandelingen binnen de aangegeven fasen bevat.

De strategie bestaat uit het achtereenvolgens uitvoeren van een aantal fasen in het oplos-
proces. Deze fasen zijn: analyse (A), opstellen van kernbetrekkingen (KB), oplossingsroute
(O) uitwerking (U) en controle (K).

In de analysefase moet een helder beeld van de situatie opgebouwd worden. Daarbij is van
belang: het goed lezen van de tekst van de opgave, het maken van een zo volledig mogelijke
schets van de gegeven situatie, het trekken van conclusies, en (voor zover mogelijk) het
voorspellen van kenmerken van het antwoord (bijvoorbeeld teken of richting van een ge-
vraagde grootheid). Na het uitvoeren van de analyse moeten voor de oplossing relevante
kernbetrekkingen geselecteerd worden. Kernbetrekkingen zijn fundamentele formules uit de
stof (zie Mettes en Pilot, 1980). Tevens wordt in deze fase nagegaan of de gekozen kern-
betrekkingen geldig zijn in de gegeven situatie. Vervolgens moet de oplosser een oplos-
singsroute zoeken en opstellen. Met behulp van de geselecteerde kernbetrekkingen moet men
een plan voor de oplossing maken, zonder daarbij al tot rekenwerk over te gaan. Is de
oplossingsroute opgesteld dan vindt in de volgende fase de concrete uitwerking van de
opgestelde plannen plaats. Tot slot behoort in de controlefase nagegaan te worden of het
antwoord klopt. Dit kan gebeuren door het nalopen van het rekenwerk, het herhalen van de
oplossing met een andere methode etc.

De experimentele groep ontving de instructie probleemaanpak (IPA), één uur per week
gedurende zes weken. De instructie ving aan nadat elke student de toets van het tweede blok
uit de cursus E&M I had afgelegd. In de eerste bijeenkomst werd aan de hand van fouten in de
opgaven uit deze toets het nut van een systematische aanpak geïllustreerd. Daarna werd het
begrip kernbetrekking behandeld en werd geoefend in het opstellen van kernbetrekkingen uit
de stof. Het tweede instructie-uur werd besteed aan het bespreken van de verschillende fasen
Uit de strategie, mede aan de hand van voorbeelden. De resterende vier instructie-uren

werden gebruikt voor oefening van de strategie. Hierbij werd gebruik gemaakt van werkbla-
den uit het onderzoek van Van Weeren, de Mul, Peters, Kramers-Pals en Roossink (1979),
waarop aparte ruimten voor de eerste vier fasen van de strategie zijn aangebracht. Daar werd
een aparte ruimte voor de controlefase aan toegevoegd. Na elke oefening werd een voor-
beeldoplossing uitgereikt.

Deelnemers aan het onderzoek waren eerstejaars studenten Electrotechniek. Op grond van
eindexamencijfers werd een groep studenten samengesteld die aan de ene kant vermoedelijk
een goede kans hadden om de cursus met succes af te leggen, maar aan de andere kant
waarschijnlijk niet zo briljant waren dat ze geen moeilijkheden met de stof zouden ondervin-
den. (Gemiddeld cijfer c voor natuurkunde, wiskunde I en eventueel wiskunde II, 7,3 è c ê
8, en een 6 of hoger voor het vak nederlands). Hieruit werden twee, per toeval gekozen,
groepen uitgenodigd voor informatieve bijeenkomsten. Gestreefd werd naar 8 deelnemers in
zowel de experimentele groep (IPA én hardop denken bij twee toetsen) als in de controle-
groep (alleen hardop denken bij twee toetsen).

Uiteindelijk ontstonden een experimentele groep met 10 deelnemers en een controlegroep
met 6 deelnemers. Dit kwam deels omdat een persoon zich op kwam geven voor de experi-
mentele groep. Deze was op dat moment nog niet vol en de betreffende persoon werd
toegelaten. In de controlegroep viel tijdens het experiment een deelnemer uit omdat hij vond
dat het hardop denken hem hinderde bij het maken van de opgaven.

Voor elk van de negen blokken uit de cursus wordt voor elke student uit een verzameling
opgaven een toets samengesteld. Afhankelijk van het blok bevat deze toets 4 tot 7 opgaven.
De inhoud van de opgaven varieerde dus over studenten. In het onderzoek werden alleen die
opgaven uit de toetsen betrokken waar de volledige oplossing van een probleem vereist werd.
Altijd moest bij deze opgaven de waarde van een grootheid berekend worden. Een groot
aantal van deze opgaven zijn meerkeuzevragen waarbij de alternatieven gevormd worden
door verschillende waarden voor de gevraagde grootheid. De studenten hadden niet allen een
gelijk aantal van deze opgaven die een volledige oplossing van een probleem vereisten en dus
in het onderzoek betrokken werden in hun toets (zie ook tabel 1).

Het bestaan van variaties in zowel de inhoud van de opgaven als hun aantal had geen
consequenties voor het onderzoek omdat de strategie geldig geacht werd voor al deze opgaven
en er naar resultaten van groepen en niet van individuele studenten gekeken werd.

Voor beantwoording van de onderzoeksvraag moest het oplosgedrag van de studenten
afgezet worden tegen het ideale in de IPA gedoceerde oplosgedrag. Dit vereiste een gecom-
pliceerde meting. De hierbij gevolgde stapsgewijze procedure wordt nu beschreven.

Alle deelnemers aan het onderzoek moesten twee toetsen (een voor en een na de IPA, nl de
toetsen van blok 2 en van blok 9 uit de cursus) hardop denkend afleggen. Dit werd op een
geluidsband opgenomen. De studenten mochten aantekeningen maken. De bij de opname
aanwezige studentassistent maakte hiervan een zogenaamd technisch protocol, d.w.z. dat hij
de aantekeningen van de student kort weergaf met daarbij het tellernummer van het band-
opname-apparaat. De taak van de studentassistent bestond verder alleen hieruit dat hij

ingreep wanneer er lange stiltes vielen of er onduidelijk gesproken werd. Beschikbaar voor
analyse kwamen dus de bandopname, het schriftelijk werk van de student en het technisch
protocol van de assistent.

Met behulp van enkele proefprotocollen werd een analyseschema voor de analyse van
protocollen opgesteld. De fasen uit de strategie werden hiertoe onderverdeeld in meer
specifieke denkhandelingen. Elke denkhandeling in het analyseschema werd voorzien van
een label, een zo nauwkeurig mogelijke omschrijving van deze denkhandeling en voorbeelden
ervan. Dit om de betrouwbaarheid van de scoring te bevorderen. Ter illustratie denkhande-
ling A.I.3., horende bij de analysefase:

A. 1.3. Het vaststellen van relevante kenmerken van de situatie, die niet expliciet gegeven zijn. Hieronder
valt o.a. het vaststellen van symmetrie-eigenschappen, het maken van gevolgtrekkingen uit de
gegevens, het aangeven van een typering van de situatie. Voorbeelden:

Om het oplosgedrag van de studenten volledig te kunnen beschrijven, werd aan de fasen uit de
strategie toegevoegd de fasen Vergelijking (V) en Gissen (G). Vergelijking betreft het
vergelijken van het gevonden antwoord met de geboden antwoordalternatieven en Gissen is
het op niet fysische gronden kiezen voor een antwoordalternatief. Beide fasen komen alleen
voor bij de meerkeuzevragen. De fase 'uitwerking' uit de Strategie werd gesplitst in Uitwer-
king (U) en Probleemtransformatie (PT). Uitwerking blijft dan gereserveerd voor puur
rekenwerk en probleemtransformatie omvat dan die denkhandelingen die soms nodig zijn om
vanuit een gekozen deelprobleem naar rekenwerk over te kunnen gaan. Het kiezen van een
kring resp. oppervlak bij het toepassen van een integraalstelling is bijvoorbeeld een pro-
bleemtransformatie. Uit de analysefase werd nog de fase Lezen AO) afgescheiden en uit de
fase oplossingsroute werd de fase Kiezen van een (deel-)probleem (DP) apart gezet.

Er werden zo uiteindehjk tien fasen in het oplosproces onderscheiden, waarbij een onder-
verdeling van in totaal 29 denkhandelingen werd aangebracht. Figuur 1 geeft deze tien fasen
in een van de strategie afgeleide 'ideale oplossingsweg'.

Door gebrek aan financiële middelen konden de bandopnamen niet uitgetikt worden. De
protocolanalyse vond daarom rechtstreeks vanaf de band plaats. Hierbij waren het schriftelijk
werk cn het technisch protocol belangrijke hulpmiddelen. Het analysewerk werd telkens door
twee personen uitgevoerd. Bij de protocolanalyse werden uitspraken van studenten benoemd
d-m.v. de denkhandelingen uit het analyseschema. Tevens werd aantekening gemaakt van
voorkomende rekenfouten en natuurkundige fouten. Het resultaat van deze analyse was dat
elk protocol als een sequentie van denkhandelingen (en dus de daarbij behorende fasen)
beschreven konden worden.

Om zicht te krijgen op de betrouwbaarheid van de analyse werden 10 protocollen een
tweede keer beoordeeld. Tussen beide beoordelingen lag een periode van zes maanden
waarin in totaal 127 protocollen werden beoordeeld.

Het percentage overeenstemming tussen beide beoordelingen (bij benoeming in de 10
fasen) was 81. De 19% onbetrouwbaarheid werd voornamelijk veroorzaakt door opmerkin-
gen die bij de ene beoordeling wel en bij de andere niet benoemd werden. Het rechtstreeks

van de band scoren zal hier niet vreemd aan zijn geweest. Opmerkingen van de studenten die
bij beide beoordelingen benoemd werden, werden in 97,4% van de gevallen (Kappa (Cohen,
1969) is .969) in dezelfde fase geplaatst.

Na de protocolanalyse was van elke oplossing een beschrijving in de vorm.van een sequentie
van fasen beschikbaar. Het volgen van de strategie betekent het uitvoeren van het oplosproccs
in een sequentie van fasen als aangegeven in de ideale oplossingsweg (figuur 1). Om een
vergelijking tussen hét oplosgedrag van de studenten en het oplosgedrag volgens de strategie
te kunnen maken is een zogenaamde overgangstabel ontworpen. In figuur 2 zijn vier van deze

overgangstabellen opgenomen. De interpretatie van deze tabellen vereist enige uitleg.

De codes AO, A, KB, enz. staan voor de verschillende fasen (zie ook figuur 1). De
geanalyseerde protocollen werden verwerkt tot de student zijn eerste antwoord gaf, de fase
gissen (G) kon daarom uit de overgangstabel weggelaten worden.

De cellen van de tabel geven overgangen tussen fasen aan. De horizontale as is daarbij
telkens het uitgangspunt. Op de verticale assen zijn de fasen waar men naar toegaat aangege-
ven. De cel met (percentage) 11,5 in overgangstabel A van figuur 2 geeft dus een overgang
van de fase lezen (AO) naar de fase analyse (A) aan, de cel met (percentage) 3,4 in over-
gangstabel A van figuur 2 een overgang van deelprobleem (DP) naar kernbetrekking (KB).
De strategie wordt aangegeven met de dubbel omlijnde cellen. Hierbij is rekening gehouden
met het feit dat niet elk probleem een probleemtransformatie vereist en sommige problemen
de successievehjke oplossing van meerdere deelproblemen met zich meebrengen (zie figuur
1). Het wordt bovendien niet als een afwijking van de strategie gezien als men eerst vergelijkt
en dan pas controleert. Boven de dubbel omlijnde cellen én de diagonaal zijn de overgangen
tussen fasen waarbij een fase uit de strategie is overgeslagen te vinden. Als men bijvoorbeeld
geen oplossingsroute maakt gaat men rechtstreeks van KB naar DP of U. De resterende cellen
geven teruggangen naar een eerdere fase uit de strategie aan. Daarbij is een onderscheid
aangebracht tussen teruggangen die niet conform de strategie zijn (onder de horizontale as)
en teruggangen die niet als afwijking van de strategie beschouwd worden (boven de horizon-
tale as). Dit laatste betreft bijvoorbeeld tussentijdse controles en enkele uitzonderingen (om
vakinhoudelijke redenen).

Elk geanalyseerd protocol werd overgebracht op een overgangstabel. Per toets werden deze
voor de experimentele en de controlegroep afzonderlijk gesommeerd. In de cellen van de
tabel komen dan de totale frequenties voor een bepaalde overgang. Deze frequenties werden
vervolgens omgezet in percentages van het totaal aantal in de betreffende overgangstabel
voorkomende stappen. Dit werd gedaan omdat het totaal aantal stappen per overgangstabel
verschilde (o.a. verschillend aantal opgaven en deelnemers).

Figuur 2 bevat de vier overgangstabellen die op deze manier ontstonden. Blok 2 is de toets die
afgenomen werd voordat de IPA werd gegeven, blok 9 is de toets die na de IPA werd
afgenomen.

De overgangstabellen uit figuur 2 worden samengevat in tabel 1. Hierbij staat 'STRATEGIE'
voor de overgangen die volgens de strategie zijn én de toegestane teruggangen. Tevens wordt
in deze tabel aangegeven hoeveel opgaven in totaal per blok en per conditie in het onderzoek
betrokken waren.

J^e resultaten wijzen uit dat er tussen de controlegroep en de experimentele groep geen
verschillen in afwijking van de strategie bestaan, noch in blok 2, noch in blok 9. Een
vergelijking tussen de blokken laat zien dat in blok 9 door beide groepen iets minder volgens
de strategie gewerkt wordt dan in blok 2. Deze verschillen zijn echter vrij klein en van
dezelfde orde van grootte als de verschillen die een zelfde procedure oplevert bij de tien
protocollen die voor de bepaling van de betrouwbaarheid tweemaal beoordeeld werden. Hier
kan dus geen interpretatie aan verbonden worden.

10 Strategiegebruik bij het oplossen van problemen

A. Controlegroep, Blok 2 B. Controlegroep, Blok 9

Figuur 2 Overgangen tussen fasen voor de controlegroep en de experimentele groep, percentages van
het totaal.

De Jong en Ferguson-Hessler
Tabel 1 Gesommeerde percentages en aantallen opgaven

Uit de resultaten blijkt dat de extra instructie (IPA) de studenten er niet toe gebracht heeft
meer volgens de daarin gedoceerde strategie te gaan werken. Voor het niet effectief blijken
van de IPA kunnen twee verklaringen gegeven worden. In de eerste plaats is de omvang van
de IPA niet groot geweest, zes bijeenkomsten, en sommige studenten hebben wel eens een
bijeenkomst gemist. Hierbij speelt ook mee dat de IPA gegeven werd naast een bestaande
cursus. Het kan zo zijn dat de IPA 'verdronken' is in deze cursus omdat mogelijk de docenten
uit de cursus een (impliciete) strategie hanteerden die niet overeen kwam met de in de IPA
gedoceerde strategie. Het was echter de opzet van het onderzoek (om in de inleiding
genoemde redenen) om na te gaan of een extra instructie nut kon hebben.

In de tweede plaats moet een instructie als de IPA des te indringender zijn als de gewoonten
van de studenten sterk ingeworteld zijn. Een aanwijzing voor dit laatste kan gevonden worden
in de vier overgangstabellen van figuur 2 waarin steeds hetzelfde oplospatroon te herkennen
valt. De strategie die de studenten in het algemeen volgden en die wij aanduiden met de term
'kick and rush' is als volgt te omschrijven: nadat het probleem gelezen is vindt er een analyse
plaats. Veelal vindt deze in eerste instantie niet in voldoende mate plaats want er moet vaak
naar de analysefase teruggekeerd worden. Vanuit de analysefase worden kernbetrekkingen
geselecteerd waarna er onmiddellijk tot uitwerking wordt overgegaan. Dit kan zich dan
herhalen. Deelproblemen worden ook vrij vaak direct na de analysefase gekozen. Dat
betekent waarschijnlijk dat men iets ziet dat berekend kan worden, waarna dit dan ook
gebeurt zonder dat men zich realiseert of dit zinvol of noodzakelijk is. Ook het vrij grote
aantal teruggangen van DP naar KB staan hiermee in verband. Het relatief hoge percentage in
de cel die de overgang van A naar O aangeeft is voor een groot deel afkomstig van 'spijtop-
tanten' die na een eerste mislukte poging het probleem op een directe wijze op te lossen nu
gaan nadenken over de opgave. Het consistente patroon in elke ovcrgangstabel leidt tot dc
suggestie dat studenten een zwaar verankerde strategie voor het oplossen van problemen
hebben.

Dat studenten hier deze 'kick and rush' strategie (ondanks de IPA) hanteerden kan mede
gestimuleerd zijn door het feit dat de resultaten van de in het onderzoek gebruikte toetsen
meetelden voor de studieresultaten van de deelnemers. Dit kan hen er toe gebracht hebben
het zekere voor het onzekere te nemen en die strategie te handhaven die zij gewend waren.
Invloed op de door de studenten gebruikte strategie van het feit dat de meeste opgaven van
het meerkeuze type waren is niet onmogelijk maar lijkt ons niet waarschijnlijk. Alle opgaven
vereisten de volledige oplossing van een probleem en bovendien was in de afleiders rekening
gehouden met mogelijke fouten bij het oplossen.

Gelet op het bovenstaande hjkt het niet waarschijnlijk dat de door studenten gehanteerde
'kick and rush' strategie doorbroken en veranderd kan worden met een extra instructie die een
(relatieve) omvang heeft als de in dit onderzoek gebruikte IPA.

In de IPA werd niet getracht de studenten specifieke vakinhoudelijke procedures aan te
leren. De gedoceerde strategie was gebaseerd op een model, het GHV van Mettes en Pilot
(1980), waar vakinhoudelijke procedures wel een rol speelden. In dit verband was het tweede
deel van de onderzoeksvraag (worden door het volgen van de strategie betere resultaten
gehaald?) van belang. Was de IPA effectief geweest dan hadden de resultaten van de
studenten het waardeoordeel over de onderwezen strategie kunnen vormen, naast de IPA was
het onderwijs immers voor aUen gehjk. Omdat de IPA geen verandering in strategiegebruik
tot gevolg heeft gehad is dit echter niet mogelijk. Wel kan een indruk verkregen worden van
het belang van de onderwezen strategie voor het bereiken van de goede oplossing door
overgangstabellen van goed en fout opgeloste problemen apart te sommeren. In figuur 3 staan
deze sommaties, omgezet in percentages.

Wanneer nu deze percentages gesommeerd worden in de categorieën 'strategie', 'overslaan'
en 'terug', dan is geen duidelijk verschil tussen de vier overgangstabellen te constateren.
Hiermee is uiteraard niet aangetoond dat het volgen van de strategie nooit nut kan hebben,
maar het betekent wel dat het volgen van de strategie in ieder geval geen belangrijke
voorwaarde is voor het bereiken van de goede oplossing.

Opmerkelijk is dat wederom in alle vier de overgangstabellen een zeer consistent patroon
aanwezig is. De eerder beschreven 'kick and rush' strategie, die als diep ingeworteld geken-
schetst werd, wordt door studenten zowel bij goede als bij foute oplossingen aangewend.
Tussen goede en foute oplossingen kon slechts een onderscheid gemaakt worden in aantallen
vakinhoudelijke fouten en rekenfouten. (Voor een overzicht van deze fouten zie Ferguson-
Hessler en De Jong, in voorbereiding). Het verschil tussen het bereiken van een goede of
foute oplossing lijkt dan ook niet toegeschreven te kunnen worden aan verschillen in strate-
giegebruik (zoals in dit onderzoek gedefinieerd), maar lijkt veeleer af te hangen van het al dan
niet optreden van vakinhoudelijke fouten of omissies, of van rekenfouten.

De fase oplossingsroute, het zoeken naar en maken van een plan voor de oplossing, wordt
wel als een cruciale fase in het oplosproces beschouwd (Larkin, 1976). Het is daarom
interessant de fase oplossingsroute er uit te lichten bij de tweedeling in goede en foute
oplossingen. Opmerkelijk is het lage percentage (2,6%) oplossingsroute voor de goede
oplossingen uit blok 2 ten opzichte van de foute oplossingen uit dat blok (5,4%) en de goede
en foute oplossingen uit blok 9 (6,4% en 6,0% respectievelijk). Hier is een, enigszins
speculatieve, verklaring voor te geven.

Het is opvallend dat de fase oplossingsroute veelal laat in het oplosproces voorkomt, van A
naar O (meestal na een eerdere teruggang naar A) en van U naar O. Dit is in overeenstem-
ming met de veel gehoorde opmerking van studenten dat 'je pas gaat kijken hoe het ook al
weer moet, wanneer je er niet uitkomt'. Zoals eerder opgemerkt proberen studenten een
probleem eerst op een 'kick and rush' manier op te lossen. Het maken van een oplossingsroute
wordt daarbij als een redmiddel gezien. De problemen van blok 2 zijn minder complex,
bevatten in het algemeen minder deelproblemen, dan de problemen van blok 9. Een directe
wijze van oplossen kan bij deze niet complexe problemen tot succes leiden. Voorwaarde is dan
wel dat men de vakinhoud goed beheerst. Is dit niet het geval dan biedt het alsnog inlassen van
een fase oplossingsroute in de meeste gevallen geen uitweg. Bij de meer complexe problemen
uit blok 9 biedt de directe benadering van een probleem veel minder vaak ook een directe
oplossing. Ook studenten met een goede vakkennis moeten dan vaak alsnog een oplos-

F'guur 3 Overgangen tussen fasen gesommeerd voor goede en foute oplossingen, percentages van het
totaal

singsroute maken. Hier kan dit dan wel tot succes in tweede instantie leiden. Het zoeken naar
en maken van een oplossingsroute lijkt slechts dan bij te dragen aan succes bij het oplossen,
wanneer de oplosser over goede vakinhoudelijke kennis beschikt en het gaat om het oplossen
van relatief complexe problemen.

Een dergelijk verschijnsel vinden we ook beschreven bij Chi, Glaser en Rees (1982). In een
overzicht van onderzoek vermelden zij dat experts bij simpele problemen een 'working
forward' strategie hanteren waarbij geen expliciete deelanalyse en planning plaatsvindt. Als
een van de mogelijke interpretaties hiervan noemen de auteurs dat experts geen complexe
planning nodig hebben. Zij bezitten routines die zij direct op het probleem toe kunnen passen.
Wanneer problemen complexer worden gaan experts weer wel gebruik maken van planning
(Chi et al., 1982).

De studenten die een goede oplossing produceerden onderscheiden zich hierin van de
experts uit het artikel van Chi et al. (1982) dat zij (in het algemeen) de complexiteit van een
probleem niet tijdig onderkennen en alle problemen eerst zonder oplossingsroute trachten op
te lossen.

Kennis van strategie kan beschouwd worden als behorend tot de kennisbasis of het ken-
nisrepertoire van een oplosser (De Jong en Ferguson-Hessler, 1982). Op grond van de
resultaten van dit onderzoek kan gesteld worden dat componenten van het kennisrepertoire
die specifiek domeingebonden zijn (declaratieve kennis, vakspecifieke procedures), voorlo-
pig meer aandacht verdienen dan de meer algemeen geldende strategiecomponent. Een
tendens naar meer nadruk op vakkennis is in recent onderzoek waarneembaar. Daarbij zijn
twee sporen van theorievorming en onderzoek waarneembaar. Binnen het ene spoor wordt
meer nadruk gelegd op verschillen in organisatie van kennis (Chi, Feltovich & Glaser, 1981;
Chi et al. 1982). Het andere spoor richt zich meer op de vorm (declaratief of procedureel)
waarin de vakkennis is opgeslagen (Anderson, Greeno, Kline & Neves, 1981; Anderson,
1982). Al dit onderzoek houdt zich voornamelijk bezig met verschillen tussen beginners en
experts. Het in kaart brengen van verschillen in vakkennis tussen beginners onderling zal,
naar onze mening, een minstens zo belangrijke richting van onderzoek blijken te zijn.

Anderson, J.R. (1982). Acquisition of cognitive skill. Psychological Review 89, 369-406.

Anderson, J.R., Greeno, J.G., Kline, P.J. & Neves, D.M. (1981). Acquisition of problem-solving skill. In
J.R. Anderson (Ed.), Cognitive skills and their acquisition (pp. 191-230). Hillsdale, N.J.:
Erlbaum.

Bhaskar, R., & Simon, H.A. (1977). Problem solving in semantically rich domains: An example from
engineering thermodynamics. CogmV/'ve 5cicncc, I, 193-215.

Chi, M.T., Feltovich, P.J., & Glaser, R. (1981). Categorization and representation of physics problems by
experts and novices. Cognitive Science, 5, 121-152.

Chi, M.T., Glaser, R., & Rees, E. (1982). Expertise in problem solving. In R.J. Sternberg (Ed.),Advances
in the psychology of human intelligence, (Vol. I, pp. 7-77). Hillsdale, N.J.: Erlbaum.

Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Mea-
surement, 20, 37-46.

Dillard, J.F., Bhaskar, R., & Stephens, R.G. (1982). Using first order cognitive analysis to understand
problem solving behavior: An example from accounting. Instructional Science, 20, 199-203.

Ferguson-Hessler, M.G.M., & Jong, T. de (in voorbereiding). Markante (dwaal)wegen bij het oplossen
van E&M problemen. Groep Onderwijsresearch, TH Eindhoven.

Greeno, J.G. (1976). Cognitive objectives of instruction: Theory of knowledge for solving problems and

answering questions. In D. Klahr (Ed.), Cognition and Instruction (p. 123-161). Hillsdale, N.J.:
Erlbaum.

Jong, T. de, & Ferguson-Hessler, M.G.M. (1982). Voorwaarden voor het succesvol oplossen van proble-
men. Groep Onderwijsresearch, TH Eindhoven.
Larkin, J.H. (1976). Human problem solving in physics I: Global features of an information processing
model (Working paper 3), Group in Science and Mathematics, University ot Berkeley, CA.
Larkin, J.H., McDermott, J., Simon, D.P., & Simon, H.A. (1982). Expert and novice performance in

solving physics problems. Science, 208, 1335-1342.
Mettes, C.T.C.W., & Pilot, A. (1980). Over het leren oplossen van natuurwetenschappelijke problemen.

(Diss.). CDO/THT, Enschede.
Posner, M.I., & McLeod, P. (1982). Information processing models, in search of elementary operations.

Annual Review of Psychology, 33, 477-514.
Reif, F., Larkin, J.H., & Bracke«, G.C. (1976). Teaching general learning and problem-solving skills.

American Journal of Physics, 44, 212-217.
Schoenfeld, H.A. (1979). Can heuristics be taught? In J. Lochhead and J. Clement (Eds.), Cognitive

process instruction (p. 315-338). Philadelphia: The Franklin Institute Press.
Vaags, D.W. (1975). Over het oplossen van technische problemen. (Diss.) TH Eindhoven.
Weeren, J.H.P. van. Mul, F.F.M. de, Peters, M.J., Kramers-Pals, H., & Roossink, H.J. (1979). Project

electriciteit en magnetisme. Eerste tussentijds verslag. TH Twente: CDO/AVC.
Woods, D.R., Crowe, C.M., Hofman, T.W., & Wright, J.D. (1979). Major Challenges to teaching
problem solving skills. Engineering Education, 277-284.

To motivate students it may be preferable to reserve the most difficult items for the better
students. The pass-fail decision is based on the easy items, the decision between higher marks on
all the items of the test. This simple method is totally transparent, justifiable and acceptable for
both students and teachers, as contrasted with differential weighting of items. If student samples
are very large, then item response parameters can be estimated by maximum likelihood methods,
and item response theory can also be used to estimate the relative efficiency of the shortened test
at the relevant levels. The teacher's sample of students, however, is small. In this paper a fast
computer program is treated, with which the relative efficiency of the shortened test at the
selection levels can be estimated. The efficiency is deduced from some stable sample statistics,
which can easily be calculated by the teacher: mean and standard deviation of p-values and item
test correlations. The inevitable assumptions - specific distribution of the difficulty and discrimi-
nation parameters, and of the trait - lead to crude estimates, but these may be useful. A simulation
study shows some encouraging results, especially when all or some items of the domain are
difficult, when the discrimination values are high, and when the number of alternatives is low.

In sommige gevallen is het om meerdere redenen ongewenst om alle studenten (leerlingen)
dezelfde toets af te nemen. Studenten met lage totale scores (hier de zwakken genoemd)
zullen ontmoedigd raken en bovendien door hun raden de meting ongunstig beïnvloeden. De
studenten met hoge scores (de sterken genoemd) zullen zich achteraf soms beklagen over de
simpelheid van de items en de (vermeende?) toevalligheid van hun judicium. Dit probleem
doet zich natu^urlijk vooral voor bij grote spreiding van de te meten trek (vaardigheid),
bijvoorbeeld bij intelligentiemeting van een steekproef van de gehele bevolking; maar o.a.
ook bij min of meer wiskundige vakken in de universitaire opleidingen binnen de faculteit der
Sociale Wetenschappen, waar zowel wiskundige vóóropleiding als aanleg van de studenten
enorm verschillen.

De Item Characteristic Curve (ICC) theory, ook genoemd Item Response Theory (Lord,
1980) biedt verschillende mogelijkheden om dit probleem op te lossen. Heeft men bij vorige
afnemingen van de items de discriminatie-index aj, de moeilijkheids-index b| en de raad-index
Cj van de items kunnen schatten, dan kan men de informatie van de items berekenen, en
daarmee die van de totale test, en dat voor alle relevant geachte waarden van de trek thèta.
Dat kan men nu ook doen voor de test waarbij enkele items met hoge moeilijkheid b, zijn
weggelaten, en het quotiënt van de nieuwe informatie en de oude he^t dan de relatieve
efficiëntie. Deze geeft aan in hoeverre het weglaten van de moeilijke items succesvol is
geweest. Is de relatieve efficiëntie bijvoorbeeld 1.2 dan weet men dat (voor de betreffende
trekwaarde) de (reeds verkorte) test zelfs nog met een factor 1.2 verkort kan worden om
dezelfde informatie (gegeven thèta) op te leveren als de oude onverkorte test. (Lord, 1980,
Ch. 5, of Birnbaum, Ch. 20 in Lord en Novick (1968)). De relevante trekwaarden zijn die

waarden van de trek (de te meten vaardigheden) op de grenzen van de judicia (bijv. A, B, C, D
(gezakt), of cum laude, met genoegen, voldoende, onvoldoende, of cijfers). Een van de
verdiensten van de ICC-theorie (en de reden waarom deze hier wordt gebruikt) is dat met het
begrip relatieve efficientie het belang van een test als meetinstrument voor een bepaald niveau
(van de trek) en t.o.v. een andere test, in een getal kan worden vastgesteld. De klassieke
testleer kent alleen waarde-begrippen voor de test in zijn geheel, zoals betrouwbaarheid en
validiteit. Dat weglaten van moeilijke items de waarde van de totale test kan verhogen wordt
echter ook binnen de klassieke testleer verklaard: deze items leveren door het raden, relatief
meer foutenvariantie, dan ware variantie aan de totale test.

In plaats van erg moeilijke (of erg gemakkelijke) items weg te laten kan men theoretisch
scherper differentiëren tussen personen op een bepaald niveau, wanneer men voor dat niveau
specifieke gewichten aan de items geeft, te berekenen uit de aj, b; en q van de items. Maar deze
optimale gewichten maken de scoring ondoorzichtig voor de studenten. Onder meer De
Groot (1970) en Cohen (1980) hebben gewezen op het sociale belang van transparantie van
de scoring. De methode van weglating van de moeilijke items is bijzonder simpel en daarom
voor iedereen aanvaardbaar.

Voor het betrouwbaar schatten van de parameters (van items en personen) heeft men met
de door Lord aanbevolen ML-methode echter vele tientallen nul-één-waarnemingen nodig
per parameter. Bij n personen en k items heeft men nk waarnemingen (itemscores) cn 3k
itemparameters plus n persoonsparameters (de thèta-waarden). Bij 50 items en 1000 perso-
nen heeft men nog een redelijk aantal waarnemingen per parameter, n.1. 43 (Lord, 1980, p.
56), maar bij 100 personen (al een groot aantal voor de meeste docenten die meerkeuzetoet-
sen gebruiken) is dit quotiënt gereduceerd tot 20, wat veel te weinig is. Bij 50 personen zijn er
12.5 waarnemingen per parameter. Men kan dan nog wel het aantal parameters verminderen
met plausibele aannamen. In de eerste plaats kan men de k c-waarden gelijkstellen aan één
gedeeld door het aantal alternatieven van de items; en dan kan men de n thèta-waarden
gelijkstellen aan een lineaire functie van de scores. Dat is redelijk als de test lang en
betrouwbaar is, maar de items niet te hoog intercorreleren. Dan heeft men in het laatste geval
bijvoorbeeld 25 waarnemingen per parameter. Toch zijn de zo gevonden aj en bj bij de voor
docenten gebruikelijke steekproefgrootten nog zeer instabiel. Op grond van deze bj de items
selecteren lijkt daarom vrij zinloos. Men kan hiervoor wellicht beter de p-waarden benutten.
Want bij alle door latente-trek-onderzoekers benadrukte nadelen van p-waarden, in het
bijzonder wanneer meerdere populaties personen in het spel zijn, heeft de p-waarde één
kardinaal voordeel: zij is zeer stabiel van steekproef tot steekproef (uit dezelfde populatie),
bijvoorbeeld vergeleken met item-test-correlaties en vooral vergeleken met geschatte laten-
te-trek-parameters.

Het heeft dus zeker zin voor de docent om, als hij moeilijke items wil reserveren voor de
sterken dat gewoon te doen op grond van de bij eerdere afnemingen berekende p-waarden.
Hij/zij moet de moeilijke items op het testformulier merken, en de zwakke leerlingen zullen
'leze dan over slaan. De slaag-zak-grens (tussen de judicia D en C) wordt namelijk uitsluitend
bepaald op grond van de niet-gemerkte items, stel op een proportie p van de niet-gcmcrkte
'tems. De grens tussen de judicia C en B kan men stellen op p of hoger van alle items en de
grens tussen B en A op een (nog) hogere proportie van alle items, of desgewenst op eenzelfde
proportie maar dan van een subgroep items waarbij de allergemakkelijkste zijn weggelaten.
Zwakke studenten zullen de gemerkte items overslaan omdat dat tijd spaart, omdat zij
"leestal tijd tekort komen en omdat zij alleen geïnteresseerd zijn in slagen. De beteren zullen
de moeilijke items wèl maken omdat zij geïnteresseerd zijn in hogere judicia en toch tijd over
hebben daar zij sneller werken. Dc methode heeft dus als bijkomend voordeel dat de toetstijd

gereduceerd kan worden. Het is bekend lioe zwakke studenten soms eindeloos lang kunnen
weifelen bij de invulling van de moeilijke items.

Het spreekt natuurlijk vanzelf dat een duidelijke explicatie van de methode voor de
studenten noodzakelijk is, evenals bij de methode van de zekeraanduiding, waarmee deze
methode enige overeenkomst heeft. Het cardinale verschil is dat bij elke 'confidence scoring'
de student bij elk item een beshssing moet nemen: is dit voor mij moeilijk (onzeker) of
gemakkelijk (zeker). Hier neemt de student vóór het tentamen zijn besluit, op grond van
ervaring of proeftentamens: mik ik op slagen of op hogere judicia? De methode heeft daarom
meer overeenkomst met een eerder beschreven methode, waarbij de student tevoren zijn
slaagkans voor het gehele tentamen moet opgeven (Van Naerssen, 1973). Nu echter loopt de
student geen risico door zijn keuze: hij kan niet zakken (D) door het slecht maken van de
moeihjke items, als hij deze gekozen heeft, want deze tellen alleen op het hoger niveau tussen
C en B of tussen B en A. Voorgesteld wordt dus dat de docent zijn toets verbetert door de
moeihjke items eenvoudig op grond van de p-waarden er uit te halen, eventueel met behulp
van het computerprogramma of door de bestudering van de hieronder vermelde varianten en
tabellen en het onderhavige onderzoek toont aan in welke gevallen dat kan, of raadzaam is.
Als de methode duidehjk en gespecificeerd op schrift staat, met tevoren vastgestelde normen,
zijn er geen juridische moeihjkheden te verwachten.

In het onderstaande wordt nu eerst een eenvoudig (en zeer snel) computerprogramma
beschreven waarmee men globaal kan nagaan of en in welke gevallen men succes zal hebben
bij het weglaten van de moeilijke items voor de zwakken of van de gemakkelijke items voor de
beteren, en dat op grond van de geschatte p-waarden; succes wat betreft de relatieve
informatie bij de relevante trekwaarden, d.w.z. op de grenzen van de judicia-intervallen. In de
daarop volgende paragraaf zal het gebruik van het programma worden toegelicht met een
reëel voorbeeld, en met enkele varianten daarvan. Aan de hand van deze voorbeelden zullen
ten slotte conclusies getrokken worden over de mogelijkheden van de methode om moeilijke
items niet te laten meetellen voor de slaag-zak-beslissing maar wel bij de hogere judicia.

Ook zal (in de appendix) worden ingegaan op een voor sommige Lord-lezers misschien
voor de handliggende alternatieve methode, gebaseerd op formule 6-20 van Lord (1980).
Deze alternatieve methode blijkt echter niet te voldoen bij de voor docenten gebruikelijke
steekproeven van minder dan 200 personen.

Men kan, nogmaals, bij de kleine waarden van n waarmee de docent te maken heeft, niet
uitgaan van schattingen van de parameters aj, bj en q zelf. Maar men kan wel uitgaan van
enkele redelijk-stabiele steekproefwaarden van de toets: gemiddelden en standaardafwijkin-
gen van resp. de p-waarden en de itemtestcorrelaties (de laatste liefst gecorrigeerd voor
valsheid en attenuatie). Met deze vier gegevens, en natuurlijk het aantal items, kan men een
ruwe schatting maken, zoals later blijkt, van de onder- en bovengrenzen van de aj en b| van de
items. Uiteraard (of helaas, zo men wil) kan dat niet zonder een aantal aannamen. De
aannamen die in een eerder artikel (Van Naerssen, 1978) als ruwe benadering geaccepteerd
werden zijn: 1) de verdeling van de a, en die van de b; zijn rechthoekig; 2) tussen de aj en de bj
bestaat geen statistisch verband; 3) de verdeling van de trek thèta is standaardnormaal; 4) de
raadparameters q zijn gelijk en bijvoorbeeld gelijk aan het omgekeerde van het aantal
alternatieven. Met deze aannamen berekent het eerder beschreven programma (1978) de a-
en b-grenzen en met deze waarden berekent een nieuw programma (Van Naerssen, 1982) in

de eerste plaats de informatie van de items, en die van de test, voor een praktisch voldoende
aantal waarden van thèta. Dat zijn de 11 waarden -2.5 opklimmend met 0.5 tot -t-2.5. Het
programma accepteert voor deze 11 waarden een willekeurige (zij het discrete) verdeling van
thèta. Maar in het voorbeeld hieronder wordt, omdat iedere lezer gewend is een normale
verdeling te interpreteren, de quasi-normale verdeling (11369 10 96311) met n = 50
ingevoerd; 50 omdat men met deze kleine steekproefgrootte nog betrouwbare p-waarden kan
berekenen.

Men had ook uit kunnen gaan van normale verdelingen van a en b (hoewel van a normale
Verdelingen ook al weinig realistisch lijken), maar oude studies (bijv. Van Naerssen 1962,
deel 3) hadden al aangetoond dat normale en rechthoekige verdelingen veelal weinig ver-
schillende resultaten geven. Een studie over deze verschillen bij een soortgelijk probleem is
nog in uitvoering.

Het (nieuwe) programma genereert (simuleert) bovendien (weer met behulp van het
logistische model; voor de formules zie Lord, 1980) de itemscores van de n personen op de k
items. Daaruit worden in de eerste plaats de p-waarden berekend op grond waarvan de items
geselecteerd worden voor de verkorte test. Dit wordt herhaald voor een 2e, 3e en 4e groep
personen om te kunnen nagaan wat de invloed is van de steekproefgrootte. In het voorbeeld
onder worden dus de steekproefgrootten 50, 100, 150 en 200 gebruikt.

Omdat er slechts 11 (thèta-waarden) maal k (items) exponenten berekend hoeven te
Worden (voor de kansen volgens het logistische model) terwijl alle andere berekeningen
elementair zijn is het programma bijzonder snel (voor de CDC-computer 1.5 sec. CP-tijd per
variant; zie onder).

Om te kunnen controleren of de gegenereerde test overeenkomt, wat betreft scores en
p-waarden, met de test die men wil simuleren, berekent het programma gemiddelde en
standaardafwijking van die p-waarden, maar bovendien de scores met gemiddelde en stan-
daardafwijking van die scores en ten slotte de Kuder-Richardson-20 (alpha) van de gegene-
reerde test. Daarmee kan men, met trial and error, ook wel de juiste a- en b-grenzen vinden
zonder gebruik te maken van het programma uit '78. In feite is dat oude programma
gebaseerd op gesystematiseerde trial-and-error.

Het gebruik van het voor docenten ontworpen programma zal nu eerst geïllustreerd worden
aan de hand van een oud tentamen, hier genoemd de standaardtoets.

De toets (testleer, nov. '81) bestond uit 70 tweekeuze-items en werd afgenomen bij 89
studenten. Daarvan hadden echter 9 een extreem lage score van 45 of lager (zogenaamde
'verkenners', zie Van den Brink, 1977). Deze kan men bij itemanalyses beter niet meereke-
nen vanwege de ruis die in alle steekproefwaarden gaat zitten. Bij de overige 80 personen gaf
de itemanalyse wat betreft de p-waarden een gemiddelde van 0.82 en een standaardafwijking
Sp van 0.14 en wat betreft de gecorrigeerde itemtestcorrelaties een gemiddelde van 0.17 en
een standaardafwijking van 0.15. De KR-20 was 0.64, een door 'restriction-of-range' door
het weglaten van de verkenners nogal lage waarde. De twee gemiddelden en standaardafwij-
kingen leverden, met het aantal van 70 items en een raadindex c van 0.5, ingevoerd bij het
oude programma, als grenzen van de a-waarden: 0.04 en 1.00 en van de moeilijkheidsindices
b: -4.17 en -1-1.85. Hieruit volgen de aj en de bj van de 70 items. Als men zich namelijk een
rechthoek indenkt gevormd door de 'breedtegraden' 0.04 en 1.00 en de 'lengtegraden' -4.17
'^n 1.85 dan bevinden de 70 'itempunten' zich op de middens van de 70 rechthoekjes die
ontstaan door de grote rechthoek te verdelen in 10 vertikale en 7 horizontale stroken (of

Tabel 1. Relatieve efficiëntie bij de 'standaardtoets' en n = 50 bij handhaving van de items
met Pc groter dan de aangeduide waarde.

omgekeerd: in Van Naerssen (1978) werd reeds vermeld dat dat empirisch niet veel blijkt uit
te maken; zie ook onder, variant X).

Het nieuwe programma genereerde met deze gegevens en de bovengenoemde quasi-nor-
male verdeling van de trek bij resp. n = 50, 100, 150 en 200 als belangrijkste uitkomst de
relatieve efficiëntie van een verkorte test, bij de 11 trekwaarden -2.5 tot +2.5, en dat bij
resp. weglating van de items met (op raden gecorrigeerde) p-waarden kleiner dan 0.00, 0.05,
..., 0.50. De correctie geschiedt met de klassieke formule p,. = (p-c)/(l -c). Voor n = 50
staan de relatieve efficiënties in tabel 1 en voor n = 200 in tabel 2. Het heeft geen zin
efficiënties voor de tussenliggende waarden van n te vermelden.

De eerste kolom van de tabellen 1 en 2 geeft de minimum (gecorrigeerde) p-waarde van de
behouden items. Hoeveel items dat zijn staat in de frekwentietabel van de p-waarden (tabel
3), die betrekking heeft op n = 200.

Tabel 2. Relatieve efficiëntie bij de 'standaardtoets' en n = 200 bij handhaving van de items
met Pc groter dan de aangeduide waarde.

Zo blijkt uit tabel 3 dat, als men p^ = 0.3 als minimum accepteert, men 5 items verwijdert.
Tabel 2 laat zien dat de relatieve efficiëntie bij pc = 0.3 nog groter is dan 1.0 zolang thèta
hoogstens gelijk is aan -0.5, dus, omdat thèta wordt verondersteld standaardnormaal ver-
deeld te zijn, zolang hoogstens 31% pleegt te zakken. Zakt de helft of meer dan is weglating
van items hier altijd nadelig wat betreft de relatieve efficiëntie, maar beschouwt men an-
derzijds slechts 2'/2% van de populatie 'onder de norm' dan is de relatieve efficiëntie bij
weglating van de vijf items met laagste p-waarde 1.07. Deze waarde stijgt tot 1.21 wanneer
men de minimum p-waarde op 0.5 stelt, dus (tabel 3) wanneer men 21 van de 70 items
verwijdert. Hoe meer moeilijke items men echter weglaat, hoe slechter de test wordt aan de
hoge zijde van thèta, bij de sterken. Pleegt men bijvoorbeeld 34% van de studenten een
judicium B of hoger te geven (dus thèta = 1.0 blijkens de standaardnormaaltabel) dan zou
Weglating van de vijf items met laagste p-waarde reeds een verlaging geven van de relatieve
efficiëntie op dat punt tot 0.78. De tabel suggereert dat men bij dit tentamen voor het
judicium B tenminste alle items moet handhaven maar vermoedelijk zelfs nog wat moeilijker
Items moet toevoegen.

Vergelijking van de tabellen 1 en 2 toont dat n = 50 tot praktisch dezelfde relatieve
efficiëntie leidt als n = 200. Natuurlijk kan men verwachten dat de getallen des te nauwkeuri-
ger zijn naarmate n groter is, maar een steekproef van 50 personen blijkt al groot genoeg om
de relatieve efficiënties praktisch geheel te kunnen vertrouwen. De verschillen zijn nauwelijks
groter dan die welke verkregen werden bij een andere 'seed' van dc gebruikte random
getallen (hier niet afgedrukt).

Hoewel elke docent voor zijn speciale tentamen, met specifiek aantal items, aantal alternatie-
ven en gemiddelde en standaardafwijking van p-waarden en itemtestcorrelaties, dus ook
KR-20, het beste het onderhavige programma kan gebruiken, zijn de in deze paragraaf te
behandelen varianten toch instructief. Het programma werd in eerste instantie gedraaid met
een aantal varianten van het 'standaardtentamen' uit de vorige paragraaf, waarbij, voor dc
overzichtelijkheid en interpreteerbaarheid, elke variant slechts in één opzicht verschilt van
het standaardtentamen. Daarna werden toch nog enkele varianten toegevoegd omdat de
meeste lezers vermoedelijk eerder vicrkeuzetoetsen dan tweekeuzetoetsen gewend zijn.

Ook bij alle varianten bleken de resultaten bij n = 50 praktisch gelijk aan die bij n = 200.
Om ruimte te sparen zullen alleen de resultaten bij n = 200 gegeven worden. Om ook verder
nog ruimte te sparen wordt in dc overzichtstabel 4 van elke variant slechts één regel vermeld,
namelijk die waarbij alleeen items met een op raden gecorrigeerde p-waarde van minstens 0.5
Worden gehandhaafd. Voorts worden alleen de middelste zeven thètawaarden (van -1.5 tot
+ 1-5) in de tabel opgenomen, dus die welke (blijkens tabellen van de standaardnormale
Verdeling) overeenkomen met thèta-pcrcentielscores van 7, 16, 31, 50, 69, 84 en 93).
Anderzijds zijn toegevoegd kolommen met: aantal items verwijderd en de uit de simulatie
berekende waarde van gemiddelde en standaardafwijking van de p's, en van de KR-20 (alle

drie berekend bij de complete test van 70, resp. 35 items). Deze drie kolommen zijn van nut
voor de interpretatie: men is gewend om met p-waarden en testbetrouwbaarheid te werken,
en niet met de a- en b-waarden van het logistische model.

I. als de b-range toeneemt, met uiteraard grotere Sp en (zeer) lage KR-20, dan wordt het des
te voordeliger om moeilijke items weg te laten voor de slaag-zak-beslissing, en nu ook bij
forsere zak-percentages; althans bij de tweekeuze-tbets, niet bij de overeenkomstige
vierkeuze-toets (variant VII);

II. als, omgekeerd, de b-range afneemt, met kleinere Sp en hogere KR-20, dan verdwijnt het
nut van de methode; bij een 'peaked test' geldt: hoe meer items hoe beter;

III. als alle items wat moeilijker zouden zijn, of de groep een lagere vaardigheid zou bezitten,
dan wordt het zeer gewenst om de methode toe te passen; maar: hoe meer men wint aan de
lage zijde van thèta, hoe meer men veriiest aan de hoge kant;

IV. als de a-range afneemt leidt dit tot hogere KR-20 maar het nut van de itemselectie blijft
ongeveer gelijk aan dat bij de standaardtoets;

V. als de a-waarden hoger worden, wat natuuriijk vooral zichtbaar is in een hogere KR-20,
bijvoorbeeld bij een homogene toets of een meer heterogene groep, dan wordt de methode
uiterst nuttig;

als men in plaats van 70 tweekeuze-items 35 vierkeuze-items gebruikt, met dezelfde a- en
b-waarden, dan is er minder reden om items weg te laten bij slaag-zak-beslissing; vermoede-
J'jk is de methode vooral goed bruikbaar bij een gering aantal alternatieven, dan immers is de
•nvloed van raden het ernstigst bij moeilijke items; dit bhjkt ook bij de volgende varianten met
vierkeuze-items;

als, bij vierkeuze-items, de b-range toeneemt net als bij variant I, dan zakt de be-
trouwbaarheid minder dan bij tweekeuze-items, maar het nut van de itemselectie is hoogstens
nog aanwezig bij zeer lage thèta;

^in. als, bij vierkeuze-items, de vragen moeilijker worden, de b-waarden hoger, dan is de
methode, net als bij de overeenkomstige variant III, zeer nuttig;

IX. als, bij vierkeuze-items, de discriminatie-waarden a groter worden, net als bij variant V,
dan is de methode ook zeer nuttig, zij het toch weer minder dan bij tweekeuze-items.
Tenslotte is in tabel 4 nog variant X toegevoegd. Hierbij zijn er niet zoals bij de andere
varianten meer verschillende b-waarden dan a-waarden, maar omgekeerd; er zijn hier 7 a's en
5 b's i.p.v. 5 a's en 7 b's. De verschillen met de overeenkomstige variant VI zijn wel niet nul,
maar toch gering en in feite ongeveer even groot als die welke men krijgt als men uitgaat van
een andere 'seed'.

Deze tien kwalitatieve bevindingen zijn allemaal in overeenstemming met hypothesen die
men tevoren had kunnen opstellen: weinig verrassend, maar anderzijds is het toch wel
l^evredigend dat dc theorieën kloppen. Doch het gaat natuurlijk om de kwantitatieve gege-
vens. De docent kan, uitgaande van zijn speciale toets bij zijn speciale populatie, na bereke-
ning van gemiddelde en standaardafwijking van zijn p-waarden en itemtestcorrelaties, schat-
ten welk nut hij/zij heeft van de methode van het weglaten van moeilijke items voor de
zwakken of toevoegen van moeilijke items voor de sterken, en dat in termen van relatieve
efficiëntie.

Het programma geeft ook de relatieve efficiëntie bij weglating van de gemakkelijkste items,
met Pc-waarden groter dan 0.95, 0.90, enz. Nergens leidt deze methode echter tot verhoging
van de relatieve efficiëntie, wel juist tot min of meer drastische verlaging, en natuurlijk vooral
bij de lage thèta's. Achteraf is het niet verwonderlijk dat wegladng van de gemakkelijkste
Items hier geen nut toont. Intuïtief zou men kunnen aannemen dat de gemakkelijke items ruis
Veroorzaken door onoplettendheid e.d. maar mogelijk spelen deze factoren ook niet een
merkbare rol in de werkehjkheid: zelfs de sterkste student kan het wellicht nog opbrengen om
tijdens het één of twee uur durende tentamen zijn aandacht ook nog te richten op de simpele
|tems, wetend dat deze eveneens belangrijk zijn voor zijn score - mits er een aantal andere
'tems is waar hij zijn tanden in kan zetten. Alleen als er helemaal geen moeilijke items in het
tentamen zitten, dan zullen misschien gevoelens van frustratie of teleurstelling te verwachten
Zijn, evenals bij de zwakken overigens wanneer, omgekeerd, te veel moeilijke items in de toets
aanwezig zijn.

Er zijn belangrijke psychologische redenen om bij een breed spreidende groep, zoals een
steekproef uit de totale bevolking of een klas gammawetenschappehjke studenten bij min of
meer wiskundige stof, niet alle personen dezelfde vragen voor te leggen. De zwakken worden

daar immers door ontmoedigd en de sterken verveeld. Daarnaast zijn er meettechnische,
psychometrische redenen. De item-respons-theorie biedt vele methoden om dit probleem op
te lossen, bij voorbeeld 'tailord testing' en 'two-stage-testing' (zie bijv. Lord, 1980).
Helaas is het voor al deze methoden noodzakehjk om de itemparameters aj en bj, eventueel
ook Cj, te schatten, naast de vaardigheidsparameters van de personen. Dat kan alleen vol-
doende betrouwbaar geschieden bij zeer grote steekproeven, veel groter dan zelfs de prope-
deuse-docent zal aantreffen. (Zie ook de appendix).

Bij de hier geschetste methode worden niet de item parameters a en b zelf geschat maar
alleen hun gemiddelde en hun range, en wel uit de relatief stabiele gemiddelden en standaard-
afwijkingen van p-waarden en itemstestcorrelaties. De methode bestaat hierin dat een aantal
gemerkte moeilijke items door de zwakken kan worden overgeslagen omdat de slaag-zak-
grens alleen betrekking heeft op de overige, gemakkelijke items. De moeilijke items zullen
echter wel door de sterke studenten beproefd worden, en hen in feite meer motiveren, omdat
deze wel meegerekend worden bij de hogere judicia (A en B). De methode is, in tegenstelling
tot ingewikkelder weging van items, zeer doorzichtig en daardoor aanvaardbaar voor alle
partijen.

In het onderhavige onderzoek wordt wel gebruik gemaakt van de item-responstheorie
omdat deze het voordeel biedt van een goede maat te leveren - de relatieve efficiëntie - voor
het nut van een toets die op een bepaald niveau moet differentiëren, maar zonder dat de
itemparameters zelf geschat hoeven te worden. Uitgegaan wordt van klassieke
steekproefgrootheden: p-waarden en itemtestcorrelaties, waarvan dan alleen de van
steekproef tot steekproef stabiele gemiddelden en standaardafwijkingen gebruikt worden
voor de berekening van de relatieve efficiëntie bij weglating van de items met de laagste
p-waarden; ook p-waarden zijn zeer stabiel.

Een snel programma werd ontwikkeld waarmee de docent met deze gegevens kan schatten
in hoeverre de methode voor zijn combinatie van studentengroep en itemdomein bruikbaar is,
d.w.z. tot hogere informatie leidt op de beoogde niveau's. Als 'standaardtoets' werd, ter
illustratie van het gebruik van het programma, een 70-item-tweekeuze-toets gekozen, die was
afgenomen bij 80 personen (niet-verkenners). Hier bleek bijvoorbeeld een verhoging van de
relatieve efficiëntie bij weglating van de 21 items met laagste p-waarde, mits hoogstens 20%
van de groep studenten (thèta iets hoger dan -1, zie tabel 4) onvoldoende wordt geacht. Als
steeds gaat verhoging van de relatieve efficiëntie bij lage thèta gepaard met verlaging bij hoge
thèta: in de hogere regionen moet men de moeilijke items dus juist handhaven of men moet er
zelfs een aantal bij toevoegen.

Variëren van parameters, in het bijzonder de a| en de b| - het aantal items is niet interessant
en het aantal personen blijkt dit ook niet te zijn - leidt tot de volgende conclusies: de methode
is vooral van nut bij in het algemeen moeilijke items en hoge itemdiscriminaties, voorts bij
grote spreiding van moeilijkheid en bij tweekeuzetoetsen.

Maar zelfs wanneer de relatieve efficiëntie in plaats van groter dan 1.0 iets kleiner is, zal
men wellicht de voorkeur geven aan de methode omdat zij tot minder frustraties leidt bij de
studenten en minder tijd vergt bij de afneming.

Lord (1980) heeft een formule (6-20) gepubhceerd, die ogenschijnlijk handig is voor het
onderhavige probleem. Met enkele vereenvoudigende aannamen, in het bijzonder dat de
scoreverdehng gebruikt kan worden als een benadering van de trekverdeling, komt hij tot een

formule die de relatieve efficiëntie van een testscore ten opzichte van die van een andere test
geeft als functie van de beide testscores, de bijbehorende scorefrequenties, en de aantallen
Items in de tests. De beide testscores moeten daarbij overeenkomen met dezelfde per-
centielscore. Het aantrekkelijke zit natuurlijk hierin dat men op bijzonder eenvoudige wijze
de relatieve efficiëntie van twee tests kan berekenen, uitgaande van alleen de scorefrequen-
ties, dus niet van p-waarden en itemtestcorrelaties, zoals bij de hier geëxposeerde methode.
Lord schrijft dat de methode direct is toe te passen bij 1000 ppn of meer. Bij minder moet men
de scoreverdeling gaan 'smoothen'.

Met een programma (D 201) werd getracht de methode te gebruiken voor N = 50 en N =
200 en gladstrijken met behulp van de negatief-hypergeometrische (Polya-)verdeling. Zie
Lord en Novick (1968, 23.6). Deze theoretische verdeling lijkt bijzonder geschikt omdat er
zowel scheve als normale, slanke zowel als platte of zelfs tweetoppige empirische verdelingen
mee gedekt kunnen worden. Uitgaande van een verzameling parameters van de items worden
door het programma itemscores berekend volgens het logistische model, en daaruit gemid-
delde score en betrouwbaarheid (KR-20 zowel als KR-21), voorts natuurlijk de p-waarden
omdat de items daarop geselecteerd worden. Van de totale test zowel als van de verkorte test
(zonder de te moeilijke items) worden de scorefrequenties geschat met de Polya-verdeling uit
de gemiddelde score en betrouwbaarheid (zowel KR-20 als -21 werden geprobeerd). Voor
elke score wordt met Lord's formule 6-20 de informatie berekend, en daaruit worden voor
een aantal tevoren gestelde percentielscores met lineaire interpolatie weer informaties bere-
kend. Dit alles voor de totale test en de verkorte, waarna door deling de relatieve informatie
berekend wordt.

Deze nu kan direct vergeleken worden met de uit de itemparameters te berekenen relatieve
mformatie, uiteraard berekend voor dezelfde percentielscores (zij het hier van de trek). De
laatste relatieve informaties kunnen de 'ware' genoemd worden. De met Lord's formule 6-20
en de Polya-gladstrijking berekende waarden moeten hier ongeveer mee overeenstemmen.

Helaas doen zij dat niet. Dc relatieve efficienties moeten bijvoorbeeld voortdurend afne-
men met toenemende score en trek; dat doen de berekende ware relatieve efficienties ook
keurig, maar die via de Polya-verdeling geschatte waarden niet. Kortom, hoewel de Polya-
verdeling vaak op het oog een mooie gladgestreken scoreverdeling oplevert, is zij hiervoor
blijkbaar niet geschikt. Op andere wijze 'smoothen' lijkt mij hier ook tot arbitraire waarden te
leiden, zodat ik voorlopig concludeer dat Lord's formule 6-20 alleen geschikt is voor (zeer)
grote steekproeven.

Brink, W.P. van den (1977). Het verken-effect. Tijdschrift voor Onderwijsresearch, 2, 253-261.
Cohen, M.J. (1981) Sludierechten in het wetenschappelijk onderwijs. Zwolle: Tjeenk Willink.
Groot, A.D. de (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands

Tijdschrift voor de Psychologie, 25, 360-376.
Lord, F.M. (1980). Applications of item response theory to practical testing problems. Hillsdale, N.J.
Erlbaum.

Lord, P.M., & Novick M.R. (1968). Statistical theories of mental testscores. Reading, Mass.: Addison-
Wesley.

Naerssen, R.F. van (1973). Betrouwbaarheid van de eindscore bij gebruik van tevoren geschatte score.
Nederlands Tijdschrift voor de Psychologie, 28, 281-288.

Naerssen, R.F. van (1978). Een snel programma voor de simulatie van een gegeven test. Tijdschrift voor
Onderwijsresearch, 3, 281-283.

Naerssen, R.F. van. Een programma voor de berekening van de relatieve efficiëntie bij weglating van
items op grond van de p-waarde (Memo Dl96). Vakgroep Methodenleer, Subfaculteit Psy-
chologie, Universiteit van Amsterdam.

Naerssen, R.F. van. Een programma voor de berekening van de relatieve efficiëntie van een verkorte test
met behulp van de Polya-verdeling van scores (Memo D 202). Vakgroep Methodenleer,
Subfaculteit Psychologie, Universiteit van Amsterdam.

Een kritiek op het simuleren van Kunstmatige Intelligentie met leerlingen
H.F.M.M. Verstralen

De laatste jaren is een aantal artikelen verschenen waarin men beoogt onderwijs vorm te
geven volgens ideeën die ontleend zijn aan een bepaald paradigma binnen het cognitief
psychologisch onderzoek.

Onderzoekers binnen dit paradigma streven ernaar om computerprogramma's te ontwik-
kelen die menselijke cognitieve functies simuleren, zoals probleemoplossen en verstaan en
produceren van natuurlijke taal. Dit onderzoek heeft vooral in de Verenigde Staten opgang
gemaakt door o.a. het werk van Newell en Simon (1972) op het gebied van probleemoplossen
en Schank (Schank & Colby, 1973) en Winograd (1973) op het gebied van taalverwerking.
Mede hierdoor wordt deze stroming wel aangeduid als het 'amerikaanse informatie vcrwer-
l^ings paradigma', of als 'het Kunstmatige Intelligentie paradigma'. Wij duiden deze stroming
verder aan met de naam 'K.I.'.

Geïnspireerd door het K.I.-paradigma schreven Brown en Burton (1977) een computer-
Programma dat 60 systematische fouten in het rekenen van kinderen kan diagnostiseren,
Voung en O'Shea (1981) brachten hierin enige vereenvoudigingen aan. Bhaskar en Simon
(1978) ontwikkelden een programma dat het oplossen van problemen in de thermodynamica
simuleert. Elshout en Wielinga (1979) zijn inmiddels een eind gevorderd in het construeren
van een programma dat een hardopdenk-protocol over het oplossen van thermodynamica-
Problemen volgt en analyseert. Breuker (1982) ontwikkelt onderwijs in lezen en schrijven van
teksten gebaseerd op ideeën van Kintsch (bijv. Kintsch & Van Dijk, 1978) en Schank.

In deze notitie betogen we dat onderwijs op deze leest geschoeid, niet zonder meer een
Verbetering genoemd kan worden. Integendeel, onderwijs dat te eenzijdig op K.I.-principes
berust, kan schade toebrengen aan het ontluikende begrip van schoolleerstof dat leerlingen
ontwikkelen. We onderbouwen dit standpunt door eerst ons beeld te schetsen van menselijke
cognitie en de rol die taal hierin speelt, welk beeld we confronteren met de uitgangspunten van
het K.I. onderzoek. Tenslotte zetten we uiteen dat een groot deel van menselijke cognitie, dat
essentieel is voor begrip, buiten het blikveld is verdwenen van het onderwijs dat vanuit het
'^.I.-paradigma is ontwikkeld.

In ons bewustzijn verwezenlijken we een voortdurende stroom van kwalitatief onderscheiden
onderling gerelateerde inhouden. Voor een belangrijk deel verwerkelijken wij deze inhouden
met behulp van onze zintuigen en de rest bestaat uit fantasieën en dromen. Beide groepen van
bewustzijnsinhouden zijn voortdurend gelijktijdig in een bijna onontwarbare mengeling
aanwezig. Het zwaartepunt lijkt soms meer (bij dagbewustzijn) soms minder (bij dromen) op
basis van actuele zintuigelijke activiteit te zijn geconstrueerd.

Bewustzijnsinhouden die wij met behulp van onze zintuigen verwerkelijken noemen we
waarnemingen. Voor zover bewustzijnsinhouden niet op basis van actuele zintuigelijke
activiteiten zijn opgebouwd, noemen we ze fantasieën. We gaan er vanuit dat wij bij waarne-
mingen en fantasieën dezelfde neurale structuren gebruiken (Neisser, 1970; Paivio, 1977).
Fantasieën onderscheiden zich slechts van waarnemingen doordat wij ze construeren zonder
beperkingen door actuele zintuigelijke activiteiten. Zij zijn noch gebaseerd op actuele zintui-
gelijke activiteiten noch vindt controle tegen zintuigelijke activiteit plaats. Zowel in fan-
tasieën als in waarnemingen kunnen zeer abstracte mentale activiteiten een rol spelen. In
principe zijn bewustzijnsinhouden beperkt tot een individu. Toch kunnen individuen bewust-
zijnsinhouden meer of minder gemeenschappelijk hebben. Twee personen die hetzelfde stuk
bosgrond bekijken hebben een groter gelijkenis van bewustzijnsinhoud naarmate hun opvoe-
ding en cultuur betreffende bosgrond meer overeenkomst vertonen. Hiervoor geldt hetzelfde
als bijvoorbeeld bij het kijken door een microscoop. Een geoefend bioloog neemt hierin veel
meer structuur waar dan een leek. Kunnen wij onze waarnemingen nog enigszins in het
bewustzijn van een ander inbrengen, bijvoorbeeld door de ander er opmerkzaam op te
maken, met de meeste van onze fantasieën is dit niet op dezelfde directe manier mogelijk. De
enige uitzondering wordt gevormd door de fantasieën die wij in de waarneembare buiten-
wereld kunnen produceren, zoals bijvoorbeeld fantasieën over ons stemgeluid. Wanneer deze
fantasieën tenminste niet al te zeer bezijden de werkelijkheid zijn. Mijn fantasieën over mijn
stemgeluid kan ik vrijwel onmiddellijk ongeveer net zo in het bewustzijn van een ander
aanwezig laten zijn. Iets moeilijker ligt het met schrifttekens. Maar met papier en schrijfgerei
kan ook op dit terrein een en ander worden bereikt. Hoewel zij slechts een klein deel van het
totaal aan bewustzijnsinhouden van mensen uitmaken, hebben fantasieën over stemgeluid en
schrifttekens dus het geweldige voordeel dat ze gemakkelijk ontsloten kunnen worden uit
ieders privé-bewustzijn en ingebracht kunnen worden in de buitenwereld. Daardoor kunnen
zij als waarneming in het bewustzijn van een ander opnieuw worden geconstrueerd.

Op sommige gebieden bezitten de meeste mensen de mogelijkheid om relatief complexe
structuren in hun bewustzijn te verwerkelijken. Eén van deze gebieden is de visuele waarne-
ming van menselijke gezichten in hun gebruikelijke stand (rechtop). Een ander gebied is het
waarnemen en/of fantaseren van lexicale en syntactiscKe auditieve en/of visuele structuren.
Deze laatste vaardigheden spelen een belangrijke rol, hoewel niet de hoofdrol, bij begripvol
taalgebruik.

Mensen kunnen hun waarnemingen met allerlei fantasieën combineren en fantasieën ook
onderling. Zo kan een ervaren automonteur bij het horen van een bepaald motorgeluid in
fantasie 'zien' hoe de ontsteking verkeerd is afgesteld.

Verder kunnen mensen leren om aan waarnemingen die zij kunnen classificeren bepaalde
fantasieën te koppelen. Zo kan een kind Ieren om bij het zien van kachels opnieuw het
brandende gevoel ^an zijn handje te fantaseren en het verminderen van dit gevoel als hij het
handje terugtrekt.

Mensen hebben van deze mogelijkheid tot hel koppelen van min of meer vaste fantasiepa-
tronen aan classificeerbare waarnemingen gebruik gemaakt bij het scheppen van taal, gespro-

ken en geschreven, en in het algemeen door het scheppen van symboolstructuren. In de loop
van de eeuwen ontwikkelden groepen mensen onder elkaar fantasieën die in de buhenwereld
gemakkehjk te produceren waren en bij waarneming gemakkelijk te categoriseren: spraak-
geluiden en schrifttekens. Door deze groep fantasieën, de symbolen, systematisch in samen-
hang met als gemeenschappehjk ervaren waarnemingen en fantasieën te gebruiken kon men
in het bewustzijn van elkaar fantasieën oproepen die niet of niet gemakkelijk in de buiten-
wereld te produceren zijn.

Zelfs is het hierdoor mogelijk bij een ander fantasieën op te roepen die wij zelf alleen als
waarneming kunnen reahseren, of zelfs dat niet eens. Zo kan een geboren blinde mij
bijvoorbeeld vertellen, dat er twee straten verder een rode brievenbus is geplaatst. Behalve dit
alledaagse gebruik, kunnen we met symbolen en taal een ander stimuleren meer genuanceerd
en abstracter waar te nemen en te fantaseren. Kunst- en wetenschapsonderwijs danken
hieraan hun bestaansrecht.

Hierboven is steeds stilzwijgend verondersteld dat productie van stemgeluid in de buiten-
wereld wordt voorafgegaan door auditieve fantasieën hierover en de productie van schrift-
tekens door visuele fantasieën. Hoewel dat goed mogelijk is, is het, zeker theoretisch, niet
noodzakelijk dit te veronderstellen. De senso-motoriek die nodig is om iets in de buiten-
wereld te produceren kan men opvatten als gebaseerd op mentale activiteit. Het is niet nodig
om te veronderstellen dat deze mentale activiteit wordt voorafgegaan door fantasieën over de
waar te nemen effecten ervan. Bij spraakproductie zou een artikulatie-programma op zich
voldoende zijn. Echter bij de terugkoppeling en controle op dit programma blijken fantasieën
over de effecten een rol te spelen. Vertraagd horen van de eigen stem, kan de productie zelfs
onmogelijk maken. Het voorgestelde model over menselijke cognitie ondergaat hierdoor
mijns inziens geen essentiële wijziging. In het vervolg blijven we derhalve spreken over
auditieve fantasieën over stemgeluid en visuele fantasieën over schrifttekens, die vervolgens
in de buitenwereld geproduceerd kunnen worden. Fantasieën over stemgeluid en schrift-
tekens maken deel uit van de produceerbare fantasieën, evenals een deuntje fluiten en in het
algemeen het maken van bewegingen met ons lichaam. Alle andere fantasieën die niet via ons
lichaam in de buitenwereld geproduceerd kunnen worden, noemen we niet-produceerbaar.

In dc volgende paragraaf beschrijven we de rol van niet- ot niet gemakkelijk produceerbare
fantasieën in de wetenschap.

Onder andere Shepard (1978) en Hadamard (1954) beschreven hoe (vooral visuele) fan-
tasieën ten grondslag liggen aan baanbrekende (natuur-)wetenschappelijke ontwikkelingen.
Meestal betrof het fantasieën van een complexiteit, helderheid en gedetailleerdheid, die voor
de meeste stervelingen niet realiseerbaar zijn. Bijvoorbeeld Tesla, Faraday en Einstein
moesten produceerbare fantasieën (symboolstructuren) construeren bij hun niet-produceer-
bare fantasieën om te voorkomen dat zij verloren zouden gaan. Met deze symboolstructuren
Zouden anderen min of meer dezelfde fantasieën kunnen verwerkelijken.

Omdat deze fantasieën nieuw waren, bestond er natuurlijk nog geen symbolisme voor. Om
nu toch anderen in staat te stellen deze niet produceerbare nieuwe fantasieën ook in hun
bewustzijn te creëren en eventueel te verbeteren moesten de eerste scheppers deze fantasieën
m onderdelen uiteenleggen. Zowel deze onderdelen als de koppeling hiervan aan symbolen
moeten voor anderen bekend zijn.

Verder worden anderen (en ook zijzelf) geholpen, doordat zij hun fantasieën, behalve
mdirect via symbolen, ook met apparaten, meetinstrumenten, enz. in de buitenwereld produ-
ceren. De apparaten, eenmaal gebouwd, helpen anderen verder om, ook weer net zoals

bijvoorbeeld Tesla, naar electromagnetische verschijnselen te kijken. Zolang het anderen
niet lukt om zich deze manier van kijken eigen te maken, vegeteert Tesla's inzicht slechts
voort in een schijndood symbolisme.

We beschrijven nu de aard van het K.I.-onderzoek en vergelijken dit met de boven gegeven
schets van menselijke cognitie.

Onderzoekers die binnen het K.I.-paradigma werken gaan ervan uit dat aan iedere vorm
van intelligent gedrag processen ten grondslag liggen die symbolische informatie manipule-
ren' (Elshout en Wielinga, 1981). Het meest algemene model dat 'symbolische informatie
manipuleert' is de Turing machine. Voor iedere specificeerbare procedure kan een Turing
machine worden ontworpen die deze procedure uitvoert. Dit geldt ook voor procedures die
eventueel in de verre toekomst worden ontworpen voor menselijke senso-motoriek. Het
model is zo algemeen dat het hoogstwaarschijnlijk onmogelijk is om te bewijzen dat een mens
iets zou kunnen waarvoor geen Turing machine gemaakt kan worden (Webb, 1980).

De uitspraak van Elshout en Wielinga kan ik dan ook onderschrijven, hoewel er een
addertje onder de term 'symbohsche informatie' kan schuilen. In de praktijk van het K.I.-on-
derzoek wordt symbolische informatie namelijk grotendeels beperkt tot taai-structuren,
gebaseerd op natuuriijke taal en/of vaktaal zoals natuurkunde, wiskunde, enz. Symbool-
structuren die senso-motorische processen representeren (door K.I.-onderzoekers 'kennis
van de wereld' genoemd), komen in dit paradigma niet of op zeer inadequate wijze voor.
Adequate theorieën over menselijke senso-motoriek bestaan immers niet. Men hoeft slechts
te denken aan iemand herkennen volgens een signalement vs. iemand herkennen van een foto
of een vroegere ontmoeting, om zich te realiseren dat in taal uitgedrukte kennis en senso-
motorische kennis elkaar aanvullen, maar zeker niet identiek zijn. De opvatting dat taal-ver-
werking en denken identiek zijn heeft een lange geschiedenis en beleeft met het K.1.-para-
digma een nieuwe opleving. Russell (1943) wijdde aan deze opvatting een uitgebreide kritiek
en in 1959 klinkt ergernis door waar hij schrijft:

'This is one of those views which are so absurd that only very learned men could possibly adopt them'.
Meerdere malen merkt hij op:

'Philosophers and bookish people generally tend to live a life dominated by words, and even forget that it
is the essential function of words to have a connection of one sort or another with facts, which are in
general non-linguistic'.

In onze opvattingen van menselijke cognitieve activiteit moet men 'facts' vervangen door
'andere cognitieve activiteiten'.

Beide uitspraken zijn mij uit het hart gegrepen. Dat wil niet zeggen dat het naar mijn
mening zinloos is om de grenzen van het mogelijke te exploreren van geïsoleerde taal- en
symbool-structuren. Ik ga derhalve niet zover als Brandt Corstius (1981) die de K.I.-ge-
meenschap ronduit van bedrog beschuldigt. McDermott (1976) vertolkt op een prettige
manier kritiek op K.I. als model voor menselijke cognitie. Ik vindt het evenals hij onjuist om
K.I.-programma's te presenteren als modellen van mensehjke cognitie. Hierover valt natuur-
lijk te twisten. Het wordt in mijn ogen echter schadelijk wanneer deze modellen als ideaal-
modellen gaan fungeren voor de constructie van onderwijs. Deze modellen beschrijven
immers een leerhng die lexicaal-syntactisch vaardig is in het hanteren van de taal waarmee de

leerstof beschreven wordt, zonder er een snars van te snappen. Dit kan door leerlingen
Worden benaderd, maar we moeten het niet gaan propageren als onderwijsdoelstelling.

Hoe kan men voorkomen dat leerlingen de abstracte structuren van schoolleerstof voorna-
melijk op het concrete niveau van symboolmanipulaties beheersen en/of slechts verbaal
beheersen?

Piaget (1973) en ook de school van Gal'perin (Van Parreren en Carpay, 1980) propageren
het omgaan met concreet materiaal (niet de symbolen) waarmee het kind als het ware de
abstracte structuur zelf herontdekt (Piaget) of waardoor het kind wordt voorbereid op het zich
eigen maken hiervan (Gal'perin).

Hierover twee opmerkingen. In de eerste plaats lijkt mij deze weg nauwelijks begaanbaar,
behalve voor de eenvoudige abstracte mentale activiteiten zoals tellen en meting van ele-
mentaire grootheden zoals lengte. Het lijkt mij onmogelijk dat leerlingen uit zichzelf een
begrip van bijv. behoud van energie ontwikkelen. Het gebruik van natuurkundige en wis-
kundige taal en symbool-structuren is hierbij onontbeerlijk.

In de tweede plaats is een formele symbolische structuur zelf uiterst concreet hoewel
formele symbolische structuren meestal abstracte noties representeren. De materiële hande-
lingen die zowel Piaget als Gal'perin propageren als gelegenheid om te ontdekken resp. als
Voorbereiding op, kunnen derhalve ook worden uitgevoerd op een symbool-systeem.

Het is echter niet voldoende a//m/ met de symbool-machine te oefenen, net zomin als het
Voldoende zou zijn om alleen lengtes te meten zonder deze te koppelen aan de symbool
machine (i.c. het cijfersysteem). Dit geldt ook voor moeilijker concepten als 'behoud van
energie'. De symbool-structuur moet als startpunt dienen om voor zichzelf abstracte fan-
tasieën over energie-behoud te koppelen aan (fantasieën van) concrete fysische situaties. Het
's zinloos om leerlingen concrete situaties aan tc bieden waarin behoud van energie een rol
speelt, zonder dat cr (met taal) over verschillende vormen van energie en hun onderlinge
relaties enz. is en wordt gepraat en gelezen. Een leerling heeft dan geen idee hoe je zinvol
tegen een dergelijke situatie aan kan kijken, of waarom hem deze situaties worden voorge-
schoteld.

Hoe kan men nu, ondanks voorafgaande presentatie van ccn nieuwe symboolstructuur
Voorkomen dat de beheersing bij de concrete symbool-structuur blijft steken? In principe
door leerlingen voortdurend te stimuleren om niet-talige fantasieën te oefenen van een
groeiende abstractheid en complexiteit in relatie met de taal en de symbolen die de structuur
representeren, die in deze fantasieën hiermee wordt aangeduid. Voor het opereren op
getallen en het symboliseren hiervan met (tientallige) cijfers is bijv. Bruner (1978), of het
materiaal van Wiskobas aanbevelenswaard. Leraren die voor zichzelf een duidelijk onder-
scheid maken tussen taalstructuur en hiermee corresponderende niet-produceerbare fan-
tasieën doen dit als vanzelfsprekend. Helaas worden leraren maar al te vaak in een voorname-
hjk talige omgeving opgeleid cn blijven ze ook na hun opleiding, voor zover het hun vak
betreft, vooral talig bezig. Deze omstandigheden zijn niet bevorderlijk voor het ontwikkelen
Van niet-talige cognitieve activiteiten bij de taal van hun vak.

Uiteraard dient men de manipulatie en beheersing van symbool-structuren niet te ver-
waarlozen. Symboolstructuren zijn een prachtig concreet hulpmiddel bij het exploreren en
construeren van anderszins niet te beheersen ideeën en ideeën-complexen. Strikte symbool-
manipulatie, zonder zich rekenschap te geven van de noties waarmee symbolen zijn verbon-
den, kan bij tijd en wijle een krachtige strategie zijn bij deze exploratie en constructie.

Voor het rekenen kan bijv. het programma van Brown & Burton (1977) van nut zijn.

hoewel ik daar twijfels over heb. Zoals reeds vermeld, kan dit programma 60 verschillende
elementaire fouten ontdekken in het proces dat leerlingen volgen bij het rekenen. Hoewel in
het artikel zelf niet wordt gesproken over de remediering, neem ik aan dat in de meeste
gevallen de leerlingen wordt verteld dat 'je het niet zo moet doen, maar zó'. Mij lijkt het niet
zinvol om precies te weten welke systematische fout een leerling maakt, wel dat hij een
systematische fout maakt. Of een fout systematisch is of door slordigheid ontstaat, lijkt mij
gemakkelijk te achterhalen door de leerling het sommetje nogmaals te laten maken. Als de
fout systematisch blijkt te zijn is het onvoldoende om de leerling te vertellen hoe hij wel moet
rekenen. Met moet niet nalaten om met de leerhng (weer) door te nemen hoe met het
cijfersysteem getallen en operaties met getallen kunnen worden gesymboliseerd, bijvoor-
beeld door met verschillende soorten van abstracte hoeveelheden en maten te werken zoals
lengte, volume, gewicht, temperatuur, etc. En dat hij daarom anders moet rekenen dan hij
deed. Men zou leerlingen derhalve tekort doen ze slechts goed met cijfers te leren rekenen.

Voor zogenaamde niet-exacte vakken geldt hetzelfde probleem. Zij onderscheiden zich
slechts van de exacte vakken doordat het betreffende symbool-systeem of de taal minder
expliciet geïsoleerd gehanteerd kan worden. Bij het geïsoleerd hanteren van deze talen maken
wc gebruik van onze lexicaal-syntactische vaardigheden, die waarschijnlijk redelijk adequaat
beschreven worden in de taalmodellen van Schank c.s.

In het onderwijs dient men evenwel opmerkzaam te zijn ten aanzien van deze ongewenste
ontwikkehng bij een leerling. De leerstof wordt daardoor erg moeilijk, doordat zij niet
ondersteund wordt door senso-motorische fantasieën, waarmee de taal begrijpelijk en zinvol
wordt. Bovendien wordt de leerstof erg saai, zodat een leerling terecht het idee krijgt dat de
school zijn ontwikkehng hindert in plaats van bevordert. Het onderwijs op basis van K.I.-
principes heeft tot nu toe de neiging om dit gevaar te onderschatten en zelfs voeding te geven
aan de misvatting dat verwerking van leerstof niet verder gaat dan het opbouwen van een
mentale taalstructuur.

Bhaskar, R., & Simon, H.A. (1977). Problem solving in semantically rich domains: An example from

engineering thermodynamics. Cog/ii'/iVe Science, I, 193-215.
Brandt Corstiüs, H. (1981). Weg met de computer! Kennis en Methode, 5, 23-31.
Breuker, J. (1982). Gaan waar de woorden gaan. Bulletin Leren van Volwassenen, II, 3-24.
Brown, J.S., & Burton, R.R. (1977). Diagnostic models for procedural bugs in basic mathematical skills.

Cognitive Science, /, 155-192.
Bruner, J.S. (1979). Beyond the information given. Studies in the psychology of knowing. New York:
Norton.

Elshout, J.J., & Wielinga, B.J. (1979)./I computational approach to the study of human skill acquisition.

Proceedings of the 6th International Joint Conference on Artificial Intelligence, Tokyo.
Elshout, J.J., & Wielinga, R.J. (1981). Simulatie van leren en probleemoplossen. Nederlands Tijdschrift

voor de Psychologie, 36, 371-383.
Hadamard, J. (1954). The psychology of invention in ihe mathematical field. New York.
Haugeland, J. (Ed.) (1981). Mind design, philosophy, pshychology, artificial intelligence. Montgomery,

Vermont: Bradford Brooks.
Kintsch, W., & Dijk, T. van (1978). Toward a model of text comprehension and production. Psychologi-
cal Review, 85, 363-394.

McDermott, D. (1976). Artificial intelligence meets natural stupidity. SIGART Newsletter, nr. 57.

(Reprinted in: Haugeland, 1981).
Neisser, U. (1970). Visual imagery as process and as experience. In J.S. Antrobus (Ed.), Cognition and

affect. Boston: Linle, Brown and Comp.
Newell, A., & Simon, H.A. (1972). Human problem solving. Englewood Cliffs, N.J.: Prentice Hall.

Paivio, A. (1977). Images, propositions, and knowledge. In J.M. Nicholas (Ed.), Images, perception, and
knowledge. Dordrecht: Reidel,
arreren, C.F. van, & Carpay, J.A.M. (Red.), (1980). Sovjetpsychologen over onderwijs en cognitieve
ontwikkeling. Groningen: Wolters-Noordhoff.

"'aget, J. (1973). Comments on mathematical education. In A.G. Howson (Ed.), Developments in
mathematical education, (Proceedings of the Second International Congres on Mathematical
Education). Cambridge: The University Press.

Russell, B. (1959). My philosophical development. London: Allen & Unwin. (Unwin Books Edition,

^»chank, R.C., & Colby, K.M. (Ed.), (1973). Computer models of thought and language. San Francisco:
W.H. Freeman.

Shepard, R.W. (1978). Externalisation of mental images and the act of creation. In B.S. Randawa, &
Coffman (Eds.) Visual learning, thinking, and communication. New York: Academic Press.

Webb, J.C. (1980). Mechanism, mentalism and mathematics, an essay onfinitism. (Synthese Library, 37).
Dordrecht: Reidel.

Wmograd, T. (1973). A procedural model of language understanding. In R.C. Scank & K.M. Colby
(feds.), (1973). Computer models of thought and language. San Francisco: W.H. Freeman.

Young, R.M. & O'Shea, T. (1981). Errors in children's subtraction Cognitive Science, 5, 153-177.

DE DISCUSSIE OVER HET ONDERZOEK VAN ONDERWIJZEN VOORTGE-
ZET: EEN REACTIE OP CREEMERS, KNOERS
EN VEENMAN

In zijn reactie op het artikel 'Heroriëntatie in het onderzoek van onderwijzen', verschenen in
het novembernummer 1983, zegt Veenman dat iedere beschrijving van de actuele tendensen
in het onderzoek van onderwijzen van meet af aan gekleurd is door de positie die de schrijvers
ten opzichte van het onderzoek van onderwijzen innemen. Deze uitspraak geldt ongetwijfeld
ook voor de reacties op het artikel.

Omdat het onze bedoeling is geweest een artikel te publiceren over een boeiende thema-
tiek, zoals het zoeken naar de belangrijke variabelen in het onderwijzen, zullen we thans
nader ingaan op een aantal markante thema's die door de discussianten zijn naar voren
gebracht. Ook in deze reactie blijft onze aanvankelijke bedoeling in het centrum: bijdragen
tot de bezinning omtrent mogelijkheden om de diverse aspecten uit vorige onderzoekstradi-
ties te integreren in een meer omvattende theorie, wat door ons als een heroriëntatie is
beschouwd. We zullen in het onderstaande niet ingaan op details, doch drie problemen
bespreken die uit de reacties op ons artikel naar voren springen, met name (1) het conflict
tussen de paradigma's, (2) de behoefte aan een vereenvoudigd model en (3) de transfer van
onderzoek van onderwijzen naar de opleiding van onderwijsgevenden.

In de bijdrage van Creemers wordt het conflict erg scherp gesteld. Vooreerst worden de
onderzoekers van onderwijzen in twee bijna lijnrecht tegenover elkaar staande scholen
ingedeeld: zij die van mening zijn dat er reeds voldoende kennis is vergaard omtrent de relatie
tussen lerarengedrag en leerwinst en degenen die dit pntkennen. Afgezien van de vraag of
enig onderzoeker zich graag in de eerste categorie zou ondergebracht willen zien, worden wij
door Creemers tot de tweede groep gerekend. Deze voorstelling van zaken is echter overma-
tig simplistisch. Uit de ganse evolutie van onderwijzen is af te leiden, dat onderzoekers
onderhevig zijn aan verwachtingen van mogelijke resultaten die op het moment van dc
uitvoering van het onderzoek doorgaans niet empirisch gevalideerd konden worden. Onder-
zoekers van de persoonlijkheid van de leerkracht hebben gewerkt binnen het toen bestaande
raamwerk van de testpsychologie. Men ging op zoek naar vaste trekken in de persoon van de
leerkracht, die een voorspellende waarde zouden bezitten voor de leeriingcnuitkomsten.
Slechts nadat heel wat onderzoek binnen deze richting werd verricht, is men tot de vaststelling
gekomen dat zowel de denkkaders als de gehanteerde instrumenten ontoereikend waren.

Adres auteurs: Afdeling Didactiek en Psychopedagogiek, Vesaliusstraat 2, 3000 Leuven België

Deze constatering heeft derhalve geleid tot het herdenken van het theoretisch raamwerk en
tot de constructie van nieuwe methoden en technieken. Blijkbaar hebben de discussianten zelf
weinig moeite gehad met de overgang van de studies van de persoonlijkheid van de leerkracht
naar de proces-produktstudies: vanuit hun visie op onderzoek is dit laatste een geldig
paradigma dat nog niet aan een wissehng toe is.

In ons artikel hebben we geenszins willen suggereren, dat alle voorafgaande ondernemin-
gen weinig opgeleverd hebben en dat nu eindelijk een oplossing wordt voorgesteld die wel een
antwoord geeft op alle gestelde vragen. Deze pretentie had het artikel niet, wat Creemers
hierover ook moge beweren. Wel zijn we uitgegaan van de nood aan complementariteit die
verschillende stromingen in het onderzoek van onderwijzen kunnen opleveren. Letterlijk is
gesteld dat:

'Uit de voorafgaande kritische bespreking van de diverse kwantitatieve benaderingen in het onderzoek
van het onderwijzen men niet mag concluderen, dat wij het daarbinnen geleverde speurwerk van geen of
weinig betekenis achten. We zijn zelfs van mening dat het belangrijk is ermee door te gaan...' (De Corte &
Lowyck, 1983, p. 251)

L>e lezer hoeft dus niet wantrouwig te worden bij het doornemen van het artikel. Hopelijk
wordt hij er wel kritisch van.

De waarde van een stroming in het onderzoek moet overigens niet gemeten worden aan de
onmiddellijke opbrengst. Het voortdurend zoeken naar belangrijke variabelen in het onder-
wijzen is te beschouwen als een continu proces waarvan de evolutie mede bepaald wordt door
de ervaringen met vroegere paradigma's. Op die wijze hebben de door ons genoemde vorige
stromingen relevante gegevens opgeleverd, die integreerbaar zijn in een groeiend kennisbe-
stand en die een platform bieden voor heroriëntatie.

De vraag is nu, of wij als auteurs van het artikel gepleit hebben voor een paradigmawisse-
hng. Hebben wij het effectiviteitsparadigma verlaten om te pleiten voor een cognitief para-
digma? Ons inziens is het hier van groot belang om na te gaan over welk criterium wij
beschikken om over een paradigmawisseling te spreken. Iedere onderzoeker van onderwijzen
is er uiteindelijk op gericht die variabelen op het spoor te komen, die van wezenlijke invloed
zijn op het leren van de leerlingen. Dit heeft o.m. te maken met de situering binnen de
onderwijskunde waar de optimalisering een essentieel oogmerk is van de uitkomsten van
onderzoek. Men kan derhalve stellen, dat men zich steeds binnen het effectiviteitsparadigma
situeert. Blijft nu echter de vraag naar het moment waarop het kennisbestand groot genoeg is
om de effectiviteit vast te kunnen stellen. De relativering van de proces-produktstudies als
enige invalshoek om effectiviteit te meten dient in dit licht te worden bekeken. Onderwijs-
gedragingen hebben op zich geen effectiviteitswaarde: ze zijn deelgedragingen die in bredere
gehelen zijn opgenomen en waarbij de situatie een belangrijke rol speelt. Dat een leerkracht
vragen stelt en hoeveel er gesteld worden is als zodanig geen criterium voor effectiviteit.
Welke vraag over welke inhoud op welk moment aan welke leerling wordt gesteld is een
sterker criterium. Om dit te achterhalen moet men toegang verkrijgen tot de intentionaliteit
van het onderwijzen.

Ons inziens hoeft er geen sprake te zijn van een conflict tussen de paradigma's. Wel kan er
van een positieve spanning sprake zijn. Dat de grens tussen de diverse benaderingen van het
onderzoek van onderwijzen niet zo haarfijn af te bakenen is, blijkt o.m. uit een recente
bijdrage van Creemers & Westerhof (1982, p. 24), waarin de auteurs hun onderzoek naar
routines in het leerkrachtengedrag voorstellen en het als volgt situeren:

'In deze studie wordt bij de cognitieve wending ten aanzien van leerkrachtenonderzoek aangesloten. We
menen dat er motieven zijn, op grond van empirische studies en theoretische heranalyse, om deze nieuwe
oriëntatie voor te staan'.

Het valt op, dat Creemers in zijn reactie op ons artikel sterker polariseert dan het genoemde
citaat zou laten vermoeden, wat pleit voor het afzwakken van het 'conflict' tussen de paradig-
ma's.

In minder scherpe bewoordingen dan Creemers, hebben Knoers en Veenman aandacht
gevraagd voor de werkbaarheid van het voorgestelde model voor onderzoek van onderwijzen,
waarin plaats wordt voorzien voor interne, cognitieve processen van leerkrachten en leerlin-
gen. Hier komen we bij een interessant discussiepunt dat centraal staat bij de theorievorming
rond onderwijzen. Welke zijn met name de essentiële variabelen die het onderwijzen bepalen
en vandaar ook het effect ervan op de leerling? Knoers evenals Veenman pleiten voor
spaarzaamheid bij het invullen van variabelen die het onderwijzen beïnvloeden. Een verdere
aanvulling van de schema's van Mitzel en van Dunkin & Biddle (De Corte & Lowyck, 1983) is
volgens hen enkel van nut wanneer het iets wezenlijks bijdraagt tot de verheldering van deze
essentiële variabelen. Voor een verruiming van het voorgestane model lijkt er, althans binnen
het kader van de 'teacher-effectiveness' onderzoekingen, vooralsnog geen behoefte.

Volgens Knoers kan het inzicht in de cognitieve processen hooguit van nut zijn bij diagnos-
tisch onderwijs, m.n. wanneer leerlingen falen. Deze voorstelling van zaken lijkt ons alvast
problematisch. Het is niet omdat een leerkracht heel wat routinegedragingen stelt, dat
daarmee de behoefte aan inzicht in de intentionaliteit en in het verloop van de interne
processen overbodig zou zijn. Voor de onderzoeker blijft het probleem bestaan waarom deze
leerkracht in deze omstandigheden z.g. routinegedrag in werking stelt. Trouwens, ook met het
oog op de opleiding van onderwijsgevenden is inzicht in de cognitieve processen van grote
betekenis.

De verwerping van een breder theoretisch model komt mede voort uit een te sterke
afzondering van wat men uitwendig observeerbaar gedrag en interne processen is gaan
noemen, hetgeen een typische uiting is van het Cartesiaanse dualisme in de Westerse psy-
chologie (zie o.m. De Corte, 1982). Daartegenover kunnen cognitieve processen en ob-
serveerbare gedragingen beschouwd worden als twee vormen van activiteit, die niet prin-
cipieel van elkaar verschillen; in de twee gevallen gaat het om door de persoon verrichte
handehngen (Van Parreren, 1981; Leont'ev, 1980).

De neiging om de cognitieve procesbenadering te,verengen treedt ook nog op andere
punten van de reacties naar voren. Zo reduceert Veenman de door ons voorgestelde cog-
nitieve procesbenadering tot planningsonderzoek, zoals dit onder de term 'teacher thinking"
vooral bij Clark wordt aangetroffen. In vroegere publikaties hebben we steeds gepleit voor
een breder model, dat meestal ook handelingsmodel is genoemd (Lowyck, 1982; De Corte,
1982). Hierin wordt getracht om extern observeerbaar gedrag en interne processen te
integreren in het concept 'handeling'. Immers, intentionaliteit zonder waarneembaar gedrag
is leeg, terwijl uitwendig observeerbaar gedrag zonder intentionaliteit zonder betekenis is.
Derhalve dient onder de cognitieve wending niet begrepen te worden dat men zich nu gaat
concentreren op dè interne processen in strikte zin. In eigen onderzoek hebben we steeds een
breder standpunt ingenomen en we menen dat dit voor de discussianten wel bekend is.

Derhalve blijven we pleiten voor een uitbreiding van het model voor onderzoek van
onderwijzen, waarin ook interne processen, samen met extern gedrag en omgevingsvariabe-
len, hun terechte plaats als variabelen kunnen vinden.

Met dit discussiepunt, dat ook in de reacties is naar voren gebracht, komen we terug op de
vraag naar het moment waarop gegevens uit het onderzoek van onderwijzen kunnen overge-
dragen worden naar opleidingssituaties. Deze spanning is reeds van meet af aan in het
onderzoek van onderwijzen ingebouwd. Rosenshine & Furst (1971, p. 40) zeggen hierover:

Perhaps the beginning of wisdom in the'study and improvement of teaching is the confession of our lack
of knowledge that can be applied with confidence to a teacher education program'.

Knoers stelt onze stelling in vraag dat verbetering van het onderwijsgedrag van leerkrachten
het meest efficiënt kan geschieden via de beïnvloeding van de onderliggende variabelen van
het uitwendig gedrag. We geven toe dat er in dit verband nog weinig empirische evidentie
voorhanden is om terzake meer specifieke richtlijnen uit te werken. Met de argumentatie van
de auteur hebben we echter wel enige moeite. Het belang van de cognitieve processen voor de
leerkrachtenopleiding wordt immers afgewezen op grond van de onderstelling dat het niet
voor de hand ligt dat uitwendig gedrag door onderliggende procesvariabelen gestuurd wordt.
Een argument hiervoor is, dat gedrag vaak routinegedrag is en volgens Knoers juist niet stoelt
op rationele processen.

Volgens ons kunnen routines ook niet zonder meer gezien worden, los van elke rationali-
teit. Deze uitspraak hangt samen met het bepalen van de eenheid van analyse waarmee
onderwijsgedrag wordt bestudeerd. De vraag die zich hier opdringt is deze naar de zinvolheid
van het onderwijsgedrag. Miller, Galanter en Pribram (1960) hebben in dit opzicht verduide-
lijking nagestreefd door het begrip 'plan' in te voeren als de brug tussen cognitie en actie. Zo'n
plan kan richting geven aan heel wat gedragingen, die routinematig kunnen verlopen, doch
steeds gecontroleerd worden op hun consistentie met het aanvankelijk plan. De loutere
studie, c.q. training van routines levert weinig inzicht in de zinvolheid van het gedrag op en
^egt evenmin iets over de controleerbaarheid van het gedrag. De relatieve positie van ieder
deelgedrag, resp. routine in een breder geheel kan uitsluitsel geven over de betekenis ervan.
Wellicht komt hier een verschil in opvatting over zinvol handelen opnieuw aan het licht.

Vanuit een integratief model is getracht om, op lange afstand, kennis en inzicht te genereren
die voor de praktijk bruikbaar zijn. Dat op dit moment van onderzoek nog geen eensluidende
conclusies te vinden zijn, hoeft niet te worden benut als een tegenargument. Een verbreding
van de kijk op onderwijsgedrag en de daarmee gepaard gaande opleidingsmogelijkheden,
dienen niet te worden gekwalificeerd als het verwaarlozen van reeds verkregen resultaten,
maar als een in de toekomst geprojecteerde oriëntatie. Het is dan ook moeilijk om de
uitspraak van Creemers in dit verband, dat wij de empirie tegen ons hebben, in zijn ware
betekenis te vatten.

De idee om een artikel kritisch door collegae te laten doornemen is een interessant initiatief
Hierdoor wordt de mogelijkheid geboden om eventuele verfijningen in het denken te sug-
gereren, alsmede om een gesprek te openen over een aantal essentiële kwesties rond het
thema onderzoek van onderwijzen.

Uit de reacties hebben we alvast geleerd, dat het gebruik maken van indelingen van andere
auteurs erg dikwijls een identificatie met die auteurs oproept. Dit was het geval o.m. bij de
Vereenzelviging met Clark die nochtans in ons eigen model eveneens gerelativeerd wordt. Dit
brengt ons tot het aanvoelen van de noodzaak om naar de toekomst toe de denkkaders nog
beter te omschrijven en te expliciteren, de gehanteerde begrippen nog duidelijker te definië-

ren, de relatieve positie van de invalshoeken nog nader te bepalen en tenslotte aan te dringen
op de voortzetting van de discussie.

Ons inziens is de tijd rijp voor een nieuwe synthese van de diverse stromingen in het
onderzoek van onderwijzen. Zo zien we bijvoorbeeld in het uitvoerige voorstel van Veenman
omtrent thema's voor toekomstig onderzoek, een grote aandacht voor de persoonlijkheids-
kenmerken in de evolutie van de leerkracht. Hij neemt de draad op met vroeger onderzoek
naar persoonhjkheidskenmerken, zij het dan vanuit een ontwikkehngsperspectief. Het zou de
moeite lonen om dit voorstel te ontleden op zijn uitgangspunten, verwachtingen, methoden en
mogehjke opbrengst. Zo'n verheldering kan er ongetwijfeld toe bijdragen om het zoeken naar
essentiële variabelen in het onderwijzen te stimuleren en aansluiting te vinden op andere
onderzoeksobjecten die vroeger en nu in de kern van het onderzoeksbedrijf te vinden waren,
resp. zijn. Het vermijden van een methodenstrijd kan slechts worden gerealiseerd door een
continu gesprek over achtergronden, doelen, methoden en resultaten van verricht onderzoek.
Dit dient meteen gezien te worden in het perspectief van de optimalisering van het onderwij-
zen en van de opleiding daartoe.

Creemers, H.P.M., & Westerhof, K.J. (1982). Onderzoek naar routines in het leerkrachtengedrag. In
R. Halkes & W.J. Nijhof (Eds.), Planning van onderwijzen (p. 23-33) Lisse: Swets & Zeitlinger.
De Corte, E. (1982). Het speurwerk over het plangedrag van leerkrachten onder de loep. In R. Halkes &

W.J. Nijhof (Eds.), Planning van onderwijzen (p. 77-91). Lisse: Swets & Zeitlinger.
De Corte, E., & Lowyck, J. (1983). Heroriëntatie in het onderzoek van onderwijzen. Tijdschrift voor

Onderwijsresearch, 8, 242-260.
Leont'ev, A.N. (1980). Activiteit als psychologisch probleem. Pedagogische Studiën, 57, 324-343.
Lowyck, J. (1979). Procesanalyse van het onderwijsgedrag. Pedagogische Studiën, 56, 427-446.
Rosenshine, B., & Fürst, N. (1971). Research on teacher performance criteria. In B.O. Smith (Ed.),

Research in teacher education. Englewood Cliffs: Prentice Hall.
Van Parreren, C.F. (1981). Activiteit als object van de psychologie: noch 'inwendig' noch 'uitwendig'.
Nederlands Tijdschrift voor de Psychologie, J6, 185-196.

Een formatieve evaluatie van organisatiemodellen op hun bruikbaarheid in een instrumen-
tarium voor schoolontwikkeling.
Leiden: Academisch proefschrift, 1983 (225 pagina's).

Marx publiceerde in 1975 zijn vijf onderwijskundige modellen voor scholengemeenschappen avo/vwo.
(Marx, 1975). De modellen hebben twee kanten, een organisatorische en een onderwijskundige. Marx
onderscheidt aanvankelijk zes modellen aan de organisatorische kant: de segmentale organisatie, seg-
mentale organisatie met hiërarchische leidingsstruktuur, lijn- en staforganisatie, kollegiale organisatie,
gedifferentieerde organisatie en procesorganisatie. Hij beschrijft de komponenten en elementen van
deze modellen. Zo is de leiding van de school in een segmentale organisatie 'inhoudelijk gericht maar
sterk gereduceerd tot indirekte beïnvloeding via de hantering van voorzieningen' en in de procesorgani-
satie 'overwegend procesgericht'. Dat wil zeggen: de schoolleiding richt haar inspanningen vooral naar
het optimaal laten verlopen van het onderwijsleerproces in de school. Marx voegt later de eerste twee
organisatiemodellen, de scgmentale en segmentale met hiërarchische leidingsstruktuur, samen, omdat
het onderscheid, 'weinig fundamenteel en zonder scherpe overgang' is. De samenvoeging krijgt de naam
Segmentale organisatie'.

Hij bouwt de onderwijskundige kant op rond het individualiserend vermogen. Het individualiserend
Vermogen is gelijk aan dc mate waarin de scholengemeenschap het mogelijk maakt, dat elke leeriing
deelneemt aan onderwijs met onderwijsdoelstellingen die voor de leerling optimaal zijn. Marx kon-
strueert zo vijf onderwijskundige modellen: het vertikale, beperkt vertikale, horizontale, ongedeelde en
niecrvoudige model. Het eerste model heeft een geringer individualiserend vermogen dan het laatste. In
de eerste kan de leerling bijvoorbeeld moeilijk of niet overstappen naar een andere onderwijsrichting of
änder niveau. In het laatste wel.

Vervolgens betoogt Marx, dat de organisatie en onderwijskundige modellen konsistent of inkonsistent
kunnen zijn. Konsistent zijn ze als het organisatorisch systeem een geschikt middel is voor het doelgericht
funktioneren van het onderwijskundig systeem. Inkonsistent als die geschiktheidsrelatie ontbreekt. De
organisatiemodellen vormen een oplopende reeks die een toenemende valentie hebben voor de onder-
wijskundige modellen. Anders gezegd: een organisatiemodel verder in de reeks, met een grotere valentie,
kan ook alle prestaties leveren die organisatiemodellen lager in de reeks kunnen leveren. De vijf
■nodellen die konsistent zijn geeft Marx de namen: vertikaal, beperkt vertikaal, horizontaal, ongedeeld en
rneervoudig onderwijskundig-organisatorisch model. Marx beargumenteert de konsistentie van de on-
derwijskundig-organisatorische modellen vanuit het individualiserend vermogen van de modellen voor
Vakspecifieke en niet vak-specifieke onderwijsleerdoelen. Zo kan hij ook de toenemende valentie
beredeneren.

Tenslotte staaft Marx de konsistentie van de modellen vanuit de mogelijkheid tot vernieuwing. Deze
optiek levert gelijktijdig aanwijzingen voor de onderwijsvernieuwingspraktijk. Het laat zien wat organi-
satorisch nodig is om onderwijskundige vernieuwingen realiseerbaar te maken.

De modellen van Marx hebben een ongekende invloed in Nederland gehad. Zeer velen die met
schoolorganisatievraagstukken te maken hebben grijpen terug op Marx'modellen. Van der Krogt kan
terecht met enige trots Van der Vegt citeren als deze zegt: 'De modellen van Marx hebben school
gemaakt' (Van der Krogt, 1983 p. 4).

De navolging is gepaard gegaan met kritiek. Van der Krogt vat die in drie punten samen (p. 6-8):

1. Theoretisch bouwen de modellen niet expliciet voort op bestaande organisatietheorieën, bijvoorbeeld
over de relatie tussen technologie (= het geheel van kennis en inzichten aangaande onderwijsproces-
sen, p. 31) en organisatievorm.

Kritici werpen in het verlengde hiervan de vraag op, of de samenhang tussen het onderwijskundig en
organisatorisch deel wel zo centraal staat in scholen. Scholen missen toch een duidelijke technologie,
hebben toch geen heldere doelstelling en bestaan toch uit omstreden machtscentra.

3. De modellen vormen een ontwikkelingsreeks die een school doorloopt via het aanpakken en reduce-
ren van problemen. Kritici betwijfelen of scholen zo veranderen. Zij menen dat een schoolontwikke-
ling meer drijft op verandering in taakopvattingen van leraren.

Marx heeft na publikatie van de modellen niet stilgezeten en is bezig om zijn modellen verder te
ontwikkelen. Hij doet dat met enkele andere onderzoekers, waaronder Van der Krogt en Weijzen. Van
der Krogt werkt aan de evaluatie en ontwikkeling van de Marx-modellen. Het empirische deel van het
werk heeft hij samen met Weijzen gedaan en is verschenen in 'Variaties in schoolorganisaties'. Daarna
heeft Van der Krogt de organisatorische modelevaluatie en -ontwikkeling op zich genomen. Weijzen zal
de onderwijskundige evaluatie en ontwikkeling nog voor zijn rekening nemen. De organisatorische
modelevaluatie en -ontwikkeling staat in Van der Krogt's proefschrift. 'Variaties in schoolorganisaties'
fungeert daarbij als bijlage¹.

De studie van Van der Krogt gaat niet in op de kritiek die op de modellen van Marx geleverd is. Het is
ook niet zijn bedoehng. Hij wil, zoals gezegd, de modellen evalueren en ontwikkelen.
Wat verstaat hij daaronder?

a. In hoeverre zijn de modellen bruikbaar om dc onderwijskundig-organisatorische struktuur te be-
schrijven en te karakteriseren?

b. In hoeverre zijn de modellen bruikbaar om problemen, die zich op school voordoen, te analyseren?
Dit noemt hij de diagnostische vraag.

Dc modelontwikkeling loopt van konkretiseren, uitwerken, expliciteren en toevoegen tot het veranderen
van de modellen of komponenten ervan.

De dubbele (of eigenUjk driedubbele) doelsteUing van het onderzoek lijkt aantrekkelijk, maar noopt
de onderzoeker te hinken op twee tegenstrijdige gedachten. Immers, voor het diagnostische deel moet hij
uitgaan van de 'juistheid' van de konsistentietheorie, maar voor de modelontwikkeling is het in twijfel
trekken nodig.-De beide doelstellingen verenigt in een onderzoek, vraagt om moeilijkheden.

Hoe is het empirische deel van het onderzoek opgezet en uitgevoerd? Het onderzoek is beperkt tot drie
van de vijf modellen van Marx; het segmentale, lijn-staf en kollegiale model (p. 16), en tot drie scholen
voor avo^wo van ongeveer dezelfde omvang (p. 66). Het belangrijkste selektiekriterium voor de keuze
van de scholen is spreiding naar onderwijskundig-organisatorische opbouw (p. 66). Hoe dat precies
gebeurt, is in het proefschrift niet exact te achterhalen. Wel schrijft v.d. Krogt hoe hij dat bij één van de
scholen heeft gedaan. Daaruit blijkt dat hij toen een horizontaal-kollegiale school zocht (p. 216/217). Pas
nadat de school bleek te voldoen aan deze eis nam hij die op in het onderzoek. De keuze van deze school
en misschien ook de andere scholen vind ik problematisch, als de juistheid van de konsistentie-theorie aan
een kritisch onderzoek onderworpen moet worden, omdat voor zo'n onderzoek juist inkonsistent
opgebouwde scholen ook opgenomen moeten kunnen worden.

Het aantal van drie is, in het licht van de onderzoeksdoelen, nogal klein, want zelfs bij een aselekte
steekproef zou een resultaat, waarbij alle scholen konsistent zouden zijn nog niet veel zeggen. (Het
95%-betrouwbaarheidintervaI van de kans op konsistente scholen loopt dan van 40% tot 100%;
0,4 < p < 1).

1 Het zig-zag beleid van de SVO-reeks zorgt ervoor dat U de bijlage via de boekhandel kunt krijgen,
maar het proefschrift niet. Daarvoor moet u zich wenden tot de auteur: dr. F. van der Krogt, Sociologisch
Instituut, Thomas van Aquinolaan 3, Nijmegen. Tel: (080) 512014.

Wat zijn de resultaten van het onderzoek? Ik zal de drie doelen (beschrijving, diagnose en modelont-
wikkeling) suksessievelijk aflopen.

De beschrijving van de drie scholen is nauwkeurig en gedetailleerd. Het beschrijvingskader uiteengezet
"1 'Variaties in schoolorganisaties' is een grote verbetering van Marx' oorspronkelijke modellen. Het
^ader is systematisch, beknopt, efficiënt en toegankelijk. Het schoolorganisatie onderzoek, ook dat wat
buiten de Marx modellen valt, zal veel gemak hebben van dit operationele kader.

Het diagnostisch deel, waar problemen van scholen beschreven en geanalyseerd worden, roept bij mij
twee vragen op.

Eén: Wanneer is een probleem een probleem? De onderzoekers onderkennen bij de drie scholen
meerdere problemen. Maar onduidelijk is om wiens probleem het gaat. Wie stelt het probleem? Hoe
knellend is het? En: Zijn dit alle onderwijskundig-organisatorische problemen?

De tweede vraag luidt: Zijn alle komponenten van het model even belangrijk voor de konsistentie van
het onderwijskundige en organisatorische deel? Van der Krogt geeft niet aan wat het onderling gewicht
van de komponenten van de modellen is, en hoe 'tolerant' de modellen zijn voor afwijkingen. Hierdoor
'ijkt alles even belangrijk en telt elke afwijking even zwaar. Feitelijk wreekt zich hier het manco van het
ontbreken van een afhankelijke of kriterium variabele. Immers, wat onderscheidt een konsistent georga-
niseerde school van een inkonsistente? De effektiviteit? Welke effektiviteit? Onderwijsresultaten, toe-
'oop van leerlingen, klimaat, minder problemen? We weten het niet. Van der Krogt noemt en onderzoekt
Seen kriterium. Dat ontneemt hem de gelegenheid de modellen aan een kritisch onderzoek te onderwer-
pen, zodat gesnoeid kan worden in de modellen, waarbij onbelangrijke delen eruit gaan cn belangrijke
erin blijven.

De modelontwikkeling, het derde doel, koncentreert zich op twee onderdelen: de invoeging van drie
nieuwe strukturele dimensies in de modellen en een vierdeling in de beleidsterreinen van een school. Dit
boeiende deel van het onderzoek verrijkt Marx' modellen met de recente aandacht voor nieuwe struk-
turele configuraties, zoals de matrix-struktuur, de liaison-struktuur en de interne samenhang van or-
ganisatorische eenheden. Voorts verwerkt het de notie van de verschillende invloedssferen of onderhan-
delingszones in school in de modellen.

Welke eindindruk blijft over na lezing van beide boeken? Het proefschrift van Van der Krogt is
Zorgvuldig opgebouwd. Het is daardoor makkelijk toegankelijk, wat een groot voordeel is bij zo'n dik
t'oek met een even dikke bijlage. Een nadelige konsekwentie van deze werkwijze is dat het boek 'traag'
geschreven is, omdat de schrijver op vele plaatsen pas op de plaats maakt. De grootste kracht van het
proefschrift zit in het beschrijvende deel. Bezwaarlijk vind ik dat de modellen niet gewied zijn door een
theoretisch en empirisch onderzoek. De modelevaluatie en ontwikkeling heeft enkele interessante
elementen toegevoegd, maar geen enkel minder belangrijk element kunnen afvoeren, zodat onduidelijk
's Wat essentieel is voor de konsistentie van de modellen en wat een konsistent georganiseerde school vóór
heeft op een inkonsistente.

De afgelopen jaren hebben geleerd dat Marx' modellen met vrucht toepassing vinden in (na)scholing
Van onderwijsgevenden en begeleiding van schoolteams, maar minder in empirisch of theoretisch weten-
schappelijk onderzoek gebruikt worden. Ik vermoed dat dit zo blijft: het is een goed stuk schoolorganisa-
tiekunde.

^arx, E.C.H. (1975). De organisatie van scholengemeenschappen in onderwijskundige optiek. Gronin-
gen: Tjeenk Willink.

Aspecten van begrijpend lezen in het vierde leerjaar van het gewoon lager onderwijs.
Vakgroep Interdisciplinaire Studierichting Onderwijskunde K.U.N., 1982
(dissertatie).

In dit nogal lijvige boek (336 blz. exclusief bijlagen) brengt de auteur verslag uit over literatuurstudie en
empirisch onderzoek op het gebied van het begrijpend lezen. De auteur manifesteert zich als iemand die
niet gaarne over één nacht ijs gaat. Een groot deel van het boek bestaat namelijk uit preambules, die het
voor de lezer soms lastig maken de draad van het verhaal in het oog te houden. De auteur heeft dit
kennelijk in dc gaten, omdat hij de kern van het onderzoek bij herhaling beschrijft. Wanneer de lezer het
nodige geduld weet op te brengen, dan kan hij/zij veel waardevols in het boek aantreffen. Bij de
bespreking zal ik mij houden aan de opbouw van het boek en de zes hoofdstukken achtereenvolgens
belichten.

Hoofdstuk I is een inleidend hoofdstuk, waarin eerst voorafgaand onderzoek wordt besproken.
Vervolgens wordt ingegaan op de wijze waarop de zgn. skill-approach (speciaal het Wisconsin Design)
heeft geleid tot het onderzoek en de doelstelling daarvan. In navolging van deze benadering worden taken
onderscheiden die leerlingen ten aanzien van een tekst moeten leren uitvoeren (blz. 8). In de eerste fase
van het onderzoek zal op grond van een theorie van begrijpend lezen en inferentieprocessen een drietal
leestaken worden geselecteerd. Deze taken worden gespecificeerd en geoperationaliseerd in de vorm van
drie taakgerichte tests (blz. 8,9). Van elke test worden parallelvormen ontwikkeld. In de tweede fase van
het onderzoek wordt eerst de betrouwbaarheid en validiteit van deze tests en twee typen cloze tests
bepaald. Daarna wordt in een 'true experimental pretest-posttest control group design' nagegaan wat het
effect is van drie taakgerichte onderwijsprogramma's, gemeten met dc verschillende tests direct na afloop
van de programma's, en twee maanden later (retentietoets). Bovendien zal worden nagegaan of de drie
leestaken in werkelijkheid zijn te onderscheiden, door de effecten van de drie programma's met elkaar te
vergelijken op de drie taakgerichte tests en de cloze tests (blz. 9, 10). Het hoofdstuk besluit met een
overzicht van het boek.

In hoofdstuk II worden theorieën van begrijpend lezen en van inferentieprocessen uit de doeken
gedaan. Bij elke benadering wordt nagegaan in hoeverre deze als basis kan dienen voor de selectie van
leestaken (blz. 12). Twee benaderingen van het begrijpend leesproces worden onderscheiden. Bij de
eerste benadering wordt uitgegaan van de tekst of de semantische structuur daarvan en wordt veronder-
steld dat het begrijpend leesproces primair gestuurd wordt vanuit de tekst (o.a. Kintsch en Van Dijk). De
tweede benadering richt zich primair op de cognitieve processen die bij de tekstverwerking een rol spelen
en veronderstelt dat de aanwezige kennisstructuur, met name schemata, hierbij een bepalende factor is
(o.a. Anderson, Rummelhart cn Norman) (blz. 17). De twee benaderingen worden uitgebreid besproken
en van kritiek voorzien. Vervolgens wordt ingegaan op literatuur over inferenties en inferentieprocessen.
De waarde van deze delen van het hoofdstuk is dat een goed en helder overzicht wordt gegeven van de
betreffende literatuur tot 1980. Ik vindt het bijvoorbeeld zeer geschikt introductiemateriaal voor stu-
denten. In het laatste deel van het hoofdstuk wordt ingegaan op de selectie van dc leestaken. Mede aan de
hand van een zestal criteria werden de volgende taken geselecteerd:

- het afleiden van de hoofdgedachte uit een informatieve tekst (dc taak Hoofdgedachte)

- het afleiden van de bedoehng van de hoofdpersoon uit een fictieve, verhalende tekst (de taak
Bedoehng)

De taak Hoofdgedachte past binnen het model van Kintsch en Van Dijk, de taak Bedoelingen werd
primair gekozen naar aanleiding van een publicatie van Kintsch en de taak Redeneren naar aanleiding
van publicaties van Frederiksen en Kintsch (blz. 42). Persoonlijk vind ik deze fundering van de gekozen
taken op de literatuur niet zo overtuigend. Ten eerste vraag ik me af, waarom na een zo uitgebreide
bespreking van de literatuur (die zelfs artikelen bevat gepubliceerd na de keuze van dc taken) de auteur
zich uiteindelijk op slechts enkele pubhcaties baseert. En ten tweede betwijfel ik of het model van Kintsch
en Van Dijk theoretisch te verenigen is met de uitgangspunten van dc skill-approach. In elk geval had de
auteur deze kwestie moeten verantwoorden. In het laatste deel van het hoofdstuk worden de drie
leestaken nader gespecificeerd aan de hand van (deels weer andere dan de eerder behandelde) literatuur.
Ook dit deel maakt een nogal eclectische indruk.

Het eerste deel van hoofdstuk III handelt over curricula en benaderingen van begrijpend lezen,
Waarvan de effecten worden bekeken. Deze onderzoeksgegevens worden gebruikt voor de opzet van de
drie programma's. Voor de opbouw van de programma's wordt gebruik gemaakt van een leertaakanalyse,
Zoals die is beschreven door Gagné (blz. 74). Hoewel de auteur hier de nodige bladzijden aan wijdt, is mij
"•et geheel duidelijk geworden hoe de programma's zijn afgeleid uit de gegevens in de literatuur. Het
tweede deel van het hoofdstuk is gewijd aan de bespreking van vaardigheden op het gebied van het
''egrijpend lezen en het onderzoek daarvan. De auteur schrijft aan het eind zelf dat de lezer niet moet
denken dat de literatuurstudie geen invloed heeft gehad op het onderhavige onderzoek, maar dat enkele
ideeën zijn overgenomen (blz. 90). Opnieuw kan ik me niet aan de indruk ontworstelen dat de bespreking
van de literatuur niet zo erg functioneel is voor het onderzoek, zoals dat uiteindelijk wordt uitgevoerd. In
het derde deel van het hoofdstuk worden eerst methoden voor het meten van begrijpend lezen besproken
6n daarna komen specifieke meetinstrumenten aan de orde. De auteur gaat uitgebreid in op onderzoek
Waarin de samenhang wordt vastgesteld tussen technisch en begrijpend lezen, woordenschat en begrij-
pend lezen, en intelligentie en begrijpend lezen, teneinde verwachtingen te kunnen formuleren omtrent
de samenhang tussen de in dit onderzoek ontwikkelde taakgerichte tests en maten voor technisch lezen,
begrijpend lezen, woordenschat en non-verbale intelligentie. In het onderzoek zullen die verwachtingen
empirisch worden getoetst in verband met de validiteit van de taakgerichte tests (blz. 101). Eenzelfde
bespreking volgt met betrekking tot de cloze tests. Persoonlijk vind ik dit het nuttigste onderdeel van het
hoofdstuk.

In hoofdstuk IV wordt opzet en methode van het onderzoek besproken. Het onderzoek bestaat uit twee
delen, een descriptief gedeelte waarin de betrouwbaarheid en validiteit van dc vijf te ontwikkelen tests
Worden vastgesteld, en een experimenteel gedeelte waarin de effecten van drie programma's (Hoofdge-
dachte, Bedoehng en Redeneren) worden bepaald. Deze programma's worden uitgevoerd op vier
Scholen in het vierde leerjaar. Op elk van deze scholen worden de leerlingen verdeeld in vier gelijkwaar-
dige groepen. In drie van de groepen worden de drie programma's uitgevoerd en in de vierde groep een
controle programma (programma Begrijpend lezen van Bol e.a.). Daarnaast zijn er vier controle scholen
Waar geen specifiek leesprogramma wordt gegeven. Allereerst gaat de auteur in op de ontwikkeling en het
psychometrisch onderzoek van de drie taakgerichte tests en de twee cloze tests. Vervolgens wordt de
ontwikkeling van de drie programma's besproken. De selectie van de scholen wordt verantwoord en dc
afname en resultaten van de voormeting komen daarna aan de beurt. Op grond van deze gegevens worden
de groepen van leerlingen gekozen. Voorts wordt aangegeven hoe de instructeurs (en dat zijn niet de
klasselecrkrachten) zijn verdeeld over de programma's en de scholen en op welke wijze zij zijn voorbe-
reid. Tenslotte wordt een korte evaluatie gegeven van de lessen en de programma's. Uit dit hoofdstuk
blijkt de gedegenheid waarmee het onderzoek is uitgevoerd.

In hoofdstuk V worden de gegevens cn resultaten van het onderzoek geanalyseerd. Aan de hand van de
genormeerde tests voor technisch lezen, begrijpend lezen, woordenschat en een indeling naar sociaal
niilieu wordt de representativiteit van de onderzoeksgroep nagegaan. Geconcludeerd wordt dat de
onderzoeksgroep waarschijnlijk hoger presteert dan de 'gemiddelde' Nederlandse school (leerjaar 4).
Gelet op verschillen tussen sociale milieus en tussen de acht scholen op dc vijf tests, blijkt dat deze in
beide gevallen significant zijn. Met dit gegeven wordt verder in het onderzoek eigenlijk niets gedaan, het
Wordt kennelijk 'volledigheidshalve' gesignaleerd. De auteur gaat dan na hoe het bij de onderzoeksgroep
's gesteld met de betrouwbaarheid van de tests. Hierbij blijkt ondermeer dat de correlaties tussen
Voormeting, nameting en retentiemeting vrij hoog zijn. De prestaties van de leerlingen zijn dus over de
'ijd gezien vrij stabiel (blz. 219). Vervolgens wordt de nodige aandacht besteed aan de validiteitsvraag.
Wanneer de variantiecomponenten van de vijf tests onder de loupe worden genomen, blijkt dat elk van de
^ijf tests nog wat anders meet dan 'technisch lezen', 'woordenschat' of 'begrijpend lezen' (blz. 261). Uit
een tweede analyse komt naar voren dat elk van de drie taakgerichte tests een specifiek aspect van het
begrijpend lezen meet (blz. 262). Analyse van de verandering in de prestaties op de ontwikkelde tests,
Zowel in de nameting als in de retentiemeting, levert op dat de vooruitgang op de verschillende tests
ongeveer even groot is cn dat de vooruitgang tussen voormeting en nameting groter is dan tussen
nameting en retentiemeting. Een analyse van individuele verschillen geeft ondermeer tc zien dat leeriin-
gen met een lage voormetingsscore relatief het sterkst vooruit gaan (blz. 278, 279). Hierna komt het
experimentele gedeelte aan de orde. De auteur formuleert drie hypothesen.

2) Elk programma geeft geen specifiek effect op de twee andere taakgerichte tests.

Deze laatste hypothese verbaast mij enigszins. Immers als men leestaken kan onderscheiden, dan moet
begrijpend lezen in het algemeen toch profiteren van een verbeterde beheersing van een afzonderlijke
taak. De auteur evenwel neemt aan dat slechts een reeks van taakgerichte programma's invloed kan
hebben op het begrijpend lezen in het algemeen (blz. 180). Er zijn dan twee mogelijkheden. Ten eerste,
begrijpend lezen in het algemeen is geen optelsom van taken (skills), maar dan ondergraaft de auteur zijn
eigen uitgangspunt. Ten tweede, de onderscheiden taken vormen slechts een zeer beperkt aspect van
begrijpend lezen in het algemeen. Dit laatste neemt de auteur kennehjk aan. Echter in dat geval komt de
vraag op hoeveel en welke taken beheerst moeten worden voordat begrijpend lezen in het algemeen
vooruit gaat. De toetsing van de drie hypothesen levert uiteindelijk op dat alleen het programma
Redeneren de gewenste effecten vertoont en de twee andere programma's niet of nauwelijks. Wat mij
betreft leert dit onderzoek ons derhalve dat leerlingen van de vierde klas in het basisonderwijs niet zo
goed uit de voeten kunnen met redeneertaken, doch dat het mogelijk is dit met een speciaal programma te
verbeteren. En voorts dat cloze taken geen groot beroep doen op logisch redeneren. In hoeverre de taak
Redenern als aspect van begrijpend lezen beschouwd mag worden is daarmee nog niet duidelijk. Maar
omgekeerd mag men m.i. ook niet concluderen dat de taak Hoofdgedachte en de taak Bedoeling met
begrijpend lezen niets van doen hebben. Zoveel wijzer heeft dit onderzoek ons niet gemaakt.

Hoofdstuk VI bevat een discussie van het onderzoek. De auteur doet hier een voorzichtige aanbeveling
van taakgericht onderwijs op het gebied van begrijpend lezen (blz. 306). Op grond van de resultaten van
dit onderzoek vind ik deze aanbeveling te optimistisch. Het falen van de programma's Hoofdgedachte en
Bedoeling wordt door de auteur toegeschreven aan de omstandigheid dat de programma's te sterk gericht
waren op het aanleren van strategische kennis, d.w.z. kennis met betrekking tot de wijze waarop de
betreffende leestaken en hun onderscheiden deeltaken kunnen worden uitgevoerd. De veronderstelling
wordt geopperd dat daarnaast meer aandacht besteed zal moeten worden aan dc ontwikkeling van
algemene of gestructureerde kennis. Deze vorm van kennis is fundamenteel van aard cn waarschijnlijk
van groter belang voor het leren uitvoeren van bepaalde leestaken dan eerder werd vermoed, aldus de
auteur. Dit inzicht dient denk ik als een zeer belangrijke opbrengst van dit onderzoek gezien te worden.
Niet dat anderen dit ook niet bedacht hadden (in dc literatuurbespreking komt dit uitgebreid aan de
orde). Maar de auteur zelf had op dit punt een gezonde twijfel. Op grond van zijn eigen onderzoek komt
hij tot verandering van inzicht. En dit is precies de waarde van goed onderzoek. Hierover wil ik namelijk
geen twijfel laten bestaan. Hoewel ik op diverse punten kritiek heb geleverd ben ik van mening dat de
kwaliteit van het onderzoek prima is.

Tot slot wil ik nog enkele opmerkingen maken. Uit de resultaten blijkt dat dc vier controle scholen het
op de diverse tests, cn met name de cloze tests, zeer goed doen in vergelijking met de experimentele
scholen. Aan deze kwestie besteedt de auteur te weinig aandacht. Een mogelijke verklaring is dat het
werken met speciale instructeurs het nadeel heeft dat de lessen tot op zekere hoogte een eigen leven gaan
leiden. Immers een leerkracht die steeds met een klas werkt k^n bij allerlei andere lessen teruggrijpen op
de in de leeslessen behandelde materie. In dc experimentele scholen bestond deze mogelijkheid voor de
klasseleerkracht niet of nauwelijks. M.a.w. de samenhang van het totale onderwijs kan in de experimen-
tele scholen geringer zijn geweest dan in de controle scholen. Wellicht verdient het aanbeveling experi-
mentele lessen toch door de eigen leerkracht te laten geven, ondanks de nadelen die daar experimenteel
gezien ook aan kleven.

En dan nog een algemene opmerking die opgaat voor veel dissertaties in de sociale wetenschappen. Ik
ben van mening dat in de sociale wetenschappen kwantiteit (in blz.) dikwijls teveel de nadruk krijgt
tegenover de kwaliteit (van inhoud). Ook dit boek maakt dc indruk van een moeizaam product waarin
vele uitwijdingen zijn gepleegd om tot een grote omvang te geraken. Dc kern van de zaak, het onderzoek,
raakt daardoor ondergesneeuwd. Ik beschouw dit niet in de eerste plaats als een fout van de auteur, maar
als een fout van het beleid bij promoties in de sociale wetenschappen. Ik leerde vroeger op school al dat
niet het vele goed, doch het goede veel is.

The Dutch Sociometric Society announces an
INTERNATIONAL CONFERENCE ON METHODOLOGICAL RESEARCH

Readers are invited to subrmt extended abstracts of (planned) papers before March 31, 1984. The papers
should concern the topics of sociometric research: operationalization, data collection, sampling, scaling,
'iata analysis.

Participation in the conference is open to all interested scholars. The registration fee is DFL. 50,-. You
can registrate by writing to the secretariat before February, 29.

More information is provided on request by the organizing secretariat: Kees Aarts, Methodology
Department FSW-A, Grimburgwal 10, building 5, 1012 GA Amsterdam (The Netherlands), phone:
(020)5252057 or 5252089.

Bronneman-Helmers, R. Van school naar werk. Educatieve voorzieningen voor jongeren met weinig

opleiding (Stukwerk nr. 12). Rijswijk: Sociaal en Cultureel Planbureau, 1983.
Corte, E. de, & Span, P. Studies over onderwijsleerprocessen. Bijdragen aan een symposium ter gelegen-
heid van lien jaar Belgisch-Nederlandse samenweriiing. Leuven: Helicon, 1983.
Crombag, H.F.M., Gruijter, D.N.M. de. Bakker, E., & Brown, D.R. De studielast in de juridische
propedeuse: Een andere analyse. Leiden: Bureau Onderzoek van Onderwijs, Rijksuniversiteit
Leiden, 1983.

Fase, W., & Jong, M.J. de. De schakelklas. Beleidsgerichte evaluatie van het functioneren van de
schakelperiode (SVO project 0614). Rotterdam: Vakgroep Onderwijssociologie en Onder-
wijsbeleid. Erasmus Universiteit Rotterdam, 1983.
Groot, A.D. de, & Wijnen, W.H.F.W. Vijven en zessen. Cijfers en beslissingen: Het selectieproces in ons

onderwijs (10e druk). Groningen: Wolters-Noordhoff, 1983.
Kroonenbcrg, P.M. Three-mode principal component analysis. (M & T series, volume 2). Leiden: DSWO
Press, 1983.

Meijers, F. Van ambachtsschool lol L.T.S. Onderwijsbeleid en kapitalisme. Nijmegen: Socialistische

Uitgeverij Nijmegen, 1983.
Mensenkind en menselijk contact (themanummer). Pedagogisch Tijdschrift Forum voor Opvoedkunde,
1983, 8 (oktober).

Meulman, J. Homogeneity analysis of incomplete data (M & T series, volume 1). Leiden: DSWO Press,
1982.

Mirande, M.J.S., & Wardenaar, E. Scriptieproblemen (Onderwijskundige Informatie voor het Hoger

Onderwijs). Utrecht/Antwerpen: Spectrum, 1983. (Aula 813).
Stichting voor de leerplanontwikkeling. Jaarverslag 1982. Enschede: SLO, 1983.
Wainer, H., & Messick, S. (Eds.). Principals of modern psychological measurement. A Festschrift for
Frederic M Lord. Hillsdale, N.J.: Erlbaum, 1983.

Op woensdag 25 en donderdag 26 april 1984 worden in de Vrije Universiteit te Amsterdam de
'Sociologendagen 1984' gehouden. Doel van deze dagen is een overzicht te geven van recente ontwikke-
lingen in de sociologie en de antropologie in Nederland en Vlaams-België.

Het algemene thema is 'De balans van de sociologie sinds 1970'.
De deelname aan de conferentie kost ƒ 140,- (Bfrs. 2600).

NSAV-, VVS-leden, doctoraal-studenten en werkloze sociologen en antropologen krijgen reductie.
Aanmelding en informatie: Secretariaat Sociologendagen: J. Dronkers en A.B. Veenstra-Berends,
SISWO, Postbus 19079, 1000 GB Amsterdam. Telefoon 020-240075.

Postacademische cursussen 'Omgaan met (wetenschappelijke) literatuur/informatie op het terrein van
onderwijs en opleiding'.

In het kader van het postacademisch onderwijs sociale wetenschappen (PAOS) vindt er een tweetal
cursussen plaats die zijn gericht op het leren omgaan met literatuur en informatiebronnen op het terrein
van onderwijs en opleiding.

Zij zijn bestemd voor onderwijsgevenden, medewerkers in de verzorgingsstructuur, ministeries, univer-
sitaire instituten, onderzoeksinstituten e.a., die willen Ieren om zelfstandig en efficiënt hun weg te vinden
in dit steeds omvangrijker en complexer wordend informatiegebied.

De basiscursus richt zich op kennismaking en oefening met de Nederlandse informatiebronnen: biblio-
theken, documentatiecentra, naslagwerken, bibliografieën etc. De cursus vindt plaats te 's-Gravenhage
en omvat twee dagen: 6 en 13 april 1984; de kosten bedragen ƒ 350,-.

Dc vervolgcursus richt zich op kennismaking en oefening met internationale informatiebronnen; daarbij
komt o.a. het zoeken van hteratuur met behulp van de computer aan de orde. De cursus vindt plaats te
's-Gravenhage en omvat drie dagen: 4 en 11 mei en 1 juni 1984; de kosten bedragen ƒ 450,-.
Cursusleiding: drs. C.A. Arnold (vakgroep vooriichtingskunde Wageningen) en drs. E.J. Boerma (vak-
groep onderwijskunde Groningen).
Nadere inlichtingen en inschrijving:

Postacademisch onderwijs Sociale Wetenschappen (PAOS)
Stationsweg 46
2312 AV Leiden
071-148333 tst. 2442.

'Een meer hoHstische visie is centrale opgave voor de onderwijskunde'. W.L. Wardekker cn J.F. Vos in
gesprek met Prof. Dr. J. Sixma.

'De cultuurpolitieke functies van het onderwijs verdienen meer aandacht'. J.M.G. Leune en P. Span in
gesprek met Prof Dr. J.A. van Kemenade.

'Ik sta het dichtst bij de onderwijstechnologie...', P. Span en J.M.G. Leune in gesprek met Prof. Dr.
A.M.P. Knoers.

Schoolprestaties van kinderen van werkloze vaders. Een verkennend onderzoek, door D.B. Baarda,
A.P.M. Frowijn, M.P.M. de Goede en M.E. Postma

Attributiestijlen in het onderwijs. Theoretische achtergronden en beiivloedingsstrategieën, door J. van
den Bout.

Kronieken: Verslag van het AERA-Congres 1983 te Montreal, door P.N. Appclhof (red.), J.J.H. van den
Akker, G.J. van den Brink, J.L. Knip, T.A.M. van der Meer, Th. Oudkerk Pool en H.G. Schmidt.

Verslag van 'The Fifth World Conference on Gifted and Talented Children' 1983 te Manilla, door P.N.
Span.

Evenals in 1982 zullen ook in 1984 de OnderwijsResearchDagen plaats
vinden aan de Katholieke Hogeschool te Tilburg. De ORD'84 zullen een
aantal nieuwe elementen bevatten: Rond een aantal min of meer nauw
omschreven onderwerpen zullen symposia worden georganiseerd, waar-
aan door een beperkt aantal personen kan worden deelgenomen. Verder
zijn groepen onderzoekers aangezocht om over het onderzoeksterrein
waarop zij zich bewegen 'stand van zaken'-voordrachten voor te berei-
den. De deelnemers aan de ORD zal het interesseren dat zij in aanmer-
king komen voor een gratis congresbundel naar keuze. Tot slot heeft
de Vereniging voor OnderwijsResearch een aanmoedigingsprijs inge-
steld voor jonge onderzoekers die nog zonder vaste werkkring zijn. De
uitreiking hiervan zal tijdens de ORD plaats hebben. De prijs omvat
ondermeer een geldbedrag van f 1.000,— die door de onderzoeker kan
worden aangewend voor de eigen professionalisering.

Eind januari/begin februari verschijnt de ORD'84 brochure, die aan
zo'n 3500 adressen zal worden toegezonden. Mocht u nadere informatie
wensen, of na 5 februari nog geen brochure ontvangen hebben, dan
kunt u zich telefonisch (alleen 's-ochtends van 09.00 - 12.30 uur!) in
verbinding stellen met het ORD'84-secretariaat: 013 - 662263.

Te bestellen bij de boeKhandel of door overmaking van het bedrag op girorekening
13984 t.n.v. Swets Publishing Service. Heereviieg 347b, 2161 CA Lisse,
noet vermelding van het vetgedrukte nummer.

Het onderzoelc naar de individuele schoolloopbaan en beroepsloopbaan van leerlingen van het Kort
Middelbaar Beroepsonderwijs (KMBO) en streekscholen voor Beroepsbegeleidend Onderwijs (BBO).

In 1979-1980 the first experimental vocational courses for 16 and 17 year-olds (KMBO: short
senior vocational training) started. In order to evaluate these courses the educational and
professional careers of pupils were analyzed and compared with the careers of pupils from
conventional vocational training courses (BBO). A sample of 1000 respondents was taken from
the KMBO and BBO populations. The research project is longitudinal and cross-sectional. The
first results of this project indicate that there are hardly any differences between these populations
(contrary to governmental intentions): they differ hardly with respect to variables such as sex, age,
socio-economic status, and educational career before entering the course. At the end of this article
five policy-oriented conclusions are presented.

In het voorliggende artikel wordt verslag gedaan van de eerste meting van het School- en
Beroepsloopbaanonderzoek KMBO-BBO (Kort Middelbaar Beroeps Onderwijs en Be-
roepsbegeleidend Onderwijs).

De studie van individuele schoolloopbanen is de laatste jaren sterk in de belangstelling
gekomen (Jencks, 1972; Sewell & Hauser, 1976; Collaris & Kropman, 1978; Dronkers,
1978; Peschar, 1978). Deze belangstelling wordt vooral gevoed vanuit de verschillen in
Onderwijskansen van jongens en meisjes en van leerlingen uit de diverse sociale milieus.
Centraal hierbij staat de mate waarin de bestaande maatschappelijke ongelijkheid via het
onderwijs gereproduceerd, danwel doorbroken wordt. Soms wordt hierbij eigen materiaal
Verzameld (Peschar, 1975; Collaris & Kropman, 1978; Smulders, 1978), vaak gaat het ook
om secundaire analyse van bestaand materiaal (Dronkers, 1978) of om overzichtspublikaties
(Tesser, 1981).

Het voorliggende onderzoek vertrekt echter vanuit een heel andere optiek als de hierboven
genoemde publikaties. Het onderzoek is niet geïnitieerd vanuit een wetenschappelijke inte-
resse in de doorbreking c.q. reproductie van maatschappelijke ongelijkheid, maar juist vanuit
de actuele beleidsrelevantie van het KMBO.

Een ander verschil zit in de actualiteit van de studie. Dronkers (1978, p. 122) waarschuwt
ervoor dat de gegevens van bijvoorbeeld 'Van jaar tot jaar' verzameld zijn bij leerlingen die
hun scholing hebben gehad in de periode van vóór de mammoetwet en onder de toenmalige

economische omstandigheden hun intrede op de arbeidsmarkt hebben gedaan. Studies als die
van Jencks (1972), Sewell & Hauser (1976) hebben eveneens het nadeel dat ze gebaseerd zijn
op gedateerd materiaal. Het voordeel van de voorliggende studie is dat het hier gaat om
leerlingen die hun vooropleiding hebben genoten in het onderwijssysteem dat nu nog bestaat
en hun actuele scholing ontvangen in een experimentele onderwijsvorm die momenteel
beleidsrelevant is. Bovendien zal het gegevens op gaan leveren over het arbeidssucces van
deze jongeren onder de huidige economische omstandigheden.

Voordat op de onderzoeksopzet, de resultaten en de conclusies van het onderzoek wordt
ingegaan, zullen eerst de achterliggende beleidsvragen worden weergegeven.

Het KMBO is als nieuw beleid in 1978 geïntroduceerd (De Jong & Albeda, 1978). Het
KMBO is als nieuwe onderwijsvorm gaan functioneren in een complex van onderwijsvoorzie-
ningen voor 16-18 jarige LBO- en MAVO-schoolverlaters, vanuit het besef dat niet voor alle
potentiële leerlingen een passende opleiding voorhanden was. Het MBO kan niet alle school-
verlaters uit LBO en MAVO opvangen. Het leerlingwezen kan vanwege een tekort een
arbeidsplaatsen ook niet voldoen aan de behoefte aan vervolgonderwijs. Daarbij kwam anno
1978 een toenemende tendens van jongeren om langer full-time onderwijs te volgen. Het
potentieel van leerlingen zou dus stijgen (De Jong & Albeda, 1978, pag. 5 e.V.).
Dit waren de belangrijkste motieven om naast de bestaande onderwijsvormen het nieuwe
KMBO te starten. Het beleid stond een KMBO voor ogen dat:

- drempelloos zou moeten zijn doordat ook niet-gediplomeerden toegelaten zouden kunnen
worden;

- de doorstromingsmogelijkheden naar vervolgonderwijs zou moeten vergroten. (De door-
stromingspercentages van BBO en vormingswerk naar het MBO zijn te verwaarlozen).

- Tweejarige beroepsopleidingen, te verbinden aan scholen voor middelbaar beroepson-
derwijs, en aan samenwerkingsverbanden van vormingswerk en beroepsbegeleidend on-
derwijs. Onder andere op grond van de beschikbaarheid van ruimte kunnen de tweejarige
beroepsopleidingen in bepaalde gevallen bij scholen voor lager beroepsonderwijs worden
ondergebracht.

- Indien noodzakelijk daaraan voorafgaande of daarmee te combineren oriëntatie en andere
programma's te verbinden aan samenwerkingsverbanden van vormingswerk en be-
roepsbegeleidend onderwijs (De Jong & Albeda, 1978, p. 13).

Met ingang van het schooljaar 1979-1980 zijn op een aantal locaties proefprojecten
KMBO gestart. De opleidingsmogelijkheden zijn minder divers dan die van de streekscholen
voor beroepsbegeleidend onderwijs. Er zijn naast de oriëntatie- en schakelprogramma's in
totaal een 16-tal opleidingsrichtingen. Meestal zijn er4 tot 7 mogelijke opleidingsrichtingen
per locatie.

Vanuit de beleidsintenties kwam de vraag naar cijfermatige informatie over de proefprojec-
ten naar voren. Hierbij zijn de volgende beleidsevaluatieve vragen gesteld:

- Bereikt het KMBO de doelgroep waarvoor het is ingesteld, en doet het dit beter dan de
bestaande onderwijsvormen?

- Het KMBO is ingesteld vanuit het besef dat voor LBO- en MAVO-schoolverlaters onvol-
doende mogelijkheden zijn om in full-time verband een vervolgopleiding te kiezen. Dit
wordt veelal omschreven als het gat in de mammoetwet. De vraag is of het KMBO er
daadwerkelijk in slaagt om het gat in de mammoetwet te dichten, en als zodanig een
verbetering is van de structuur van het voortgezet onderwijs?

- Binnen het totaal aan onderwijsvoorzieningen voor 16-18 jarigen neemt het beroepsbege-

leidend onderwijs een centrale plaats in. Binnen dit onderwijs worden ongeveer viermaal
zoveel jongens als meisjes opgenomen. Deze eenzijdige gerichtheid op jongensopleidin-
gen zou bij het KMBO voorkomen moeten worden omdat aan beide sexen even grote
kansen gegeven moeten worden. De vraag rijst in welke mate het KMBO hier daadwerke-
lijk in slaagt?

~ Het KMBO leidt evenals het BBO op tot beginnend beroepsoefenaar. In het kader van de
evaluatie van het KMBO is het van belang om na te gaan of het KMBO er daadwerkelijk in
slaagt om de eenmaal ingestroomde leerlingen de noodzakelijke kwalificatie bij te brengen.
Daarnaast is het uiteindehjke criterium, de vraag of de kwalificatie gevraagd wordt en op de
arbeidsmarkt tot een succesvolle intrede leidt.
In hoeverre de beleidsdoelstellingen gerealiseerd worden, kan worden afgeleid uit een be-
schrijving en analyse van leerlingkenmerken bij het KMBO, vooral gericht op achtergronds-
kenmerken, schoolloopbaankenmerken en beroepsloopbaankenmerken. Een vergelijking
Van deze gegevens met soortgelijke gegevens uit naastliggende onderwijsvormen zou tot de
mogehjkheden moeten behoren. Het onderwijs aan streekscholen voor Beroepsbegeleidend
Onderwijs (al dan niet in het kader van het leerlingwezen) kwam hiervoor het meest in
aanmerking, enerzijds vanwege de gemeenschappelijke gerichtheid op een opleiding tot
beginnend beroepsbeoefenaar, anderzijds vanwege het markante verschil tussen full-time
opleiding met stages (KMBO) en overwegend part-time opleiding met werk (BBO).

begeven de gestelde vragen kan het doel van het onderzoek als volgt worden omschreven.
Het doel van dit onderzoek is tweeledig. In eerste instantie wordt nagegaan in hoeverre het
KMBO de beoogde doelgroep bereikt en of het hierin beter slaagt dan de streekscholen. In
een volgende fase wordt de verdere school- en beroepsloopbaan van de leerlingen in kaart
gebracht, om zodoende na te gaan in hoeverre via dit onderwijs een vergelijkbare, betere of
slechtere positie op de arbeidsmarkt wordt verworven dan via het BBO.

In dit artikel wordt op de eerste doelstelling ingegaan. In het verloop van het onderzoek zal
Vooral aandacht worden besteed aan de verdere schoolloopbaan en beroepsloopbaan.

Vanuit de doelstelling Van het onderzoek zijn de individuele leerlingen als onderzoekseen-
heden gekozen. De totaalpopulaties van KMBO en BBO omvatten 5.700 resp. 97.000
leeriingen (CBS, 198 la). Hieruit is een steekproef getrokken van in totaal ± 1.000 leerlingen
500 KMBO, ± 500 BBO). De wijze waarop deze steekproef getrokken is, wordt in de
appendix weergegeven.

Het onderzoek is longitudinaal van karakter. Op meerdere momenten in de tijd worden
dezelfde leerlingen met vragen benaderd. De eerste meting is in september 1981 geweest,
volgende meetmomenten zijn mei 1982, september 1982 en september 1983. Bovendien is
net onderzoek cross-sectioneel van aard. Het KMBO (en BBO) heeft oriëntatiegroepen (of
schakelklassen) en le jaars en 2e jaars beroepsopleidingen. Van deze drie groepen zijn
'eerlingen in het onderzoek opgenomen. De belangrijkste motivatie hiervoor was een tijd- en
kostenbesparing. Indien alleen de le jaars groep (en de oriëntatiegroepen) zou worden
gevolgd, zou de meting van de beroepsloopbaan op 1 Va jaar na het schoolverlaten pas in
september 1984 kunnen plaatsvinden. Het erbij betrekken van de 2e jaars levert daarom een
[■jdwinst op van 1 jaar (en dito besparing), hetgeen zeker bij beleidsonderzoek van groot
belang geacht kan worden.

1. een beschrijving van de leerlingpopulatie van het KMBO en een vergelijking met het
BBO;

2. analyse van de differentiële schoolkeuze van KMBO- en BBO-leerlingen.
Beschrijving van de leerlingpopulatie

In de onderstaande 5 tabellen worden een aantal gegevens verstrekt over de KMBO- en
BBO-instromers (cohort 81-82). Het gaat hierbij om een drietal achtergrondskenmerken
(geslacht, leeftijd en sociaal-economische status) en om een tweetal schoolloopbaankenmer-
ken (vooropleiding en toelaatbaarheid tot het MBO).

IJ't de tabellen blijkt dat er ongeveer evenveel meisjes als jongens op het KMBO zitten en dat
dit onderwijs conform de doelstelling sterk gericht is op de 16-18 jarigen (90% van de
leerlingen is 16-18 jaar). Indien we over de milieu-achtergrond van deze jongeren spreken,
Z'en we dat de lagere milieus oververtegenwoordigd zijn (vergeleken met een dwarsdoorsne-
de van alle 17-jarige Nederlanders). (Kropman & Collaris, 1974, pag. 4.34).

Verder blijkt dat ruim een kwart van de leerlingen ongediplomeerd is en bijna 40%
toelaatbaar is tot het Middelbaar Beroeps Onderwijs.

een vergelijking van KMBO en BBO dient het volgende gesteld te worden.
Het KMBO is volle-tijds onderwijs en de meeste programma's van de streekscholen zijn
eperkt tot een of twee dagen per week onderwijs op school. Het BBO omvat veel meer
opleidingsrichtingen (veel technische beroepen waar vooral jongens interesse voor hebben)
dan het KMBO. In de onderzoekspopulatie van het BBO daarentegen zitten alleen die
opleidingsrichtinge n die ook in het KMBO voorkomen. Het blijkt dat er meer sprake is van
overeenkomsten dan van verschillen. Sterke overeenkomsten zijn er ten aanzien van geslacht
en Sociaal-economische status. Enige, hoewel beperkte, verschillen zijn er ten aanzien van de
toelaatbaarheid tot het MBO en de leeftijd. Het KMBO heeft gemiddeld een jongere groep in
huis dan het BBO. Opmerkelijker is het verschil in vooropleiding. Het blijkt dat 39.3% van de
MBO-groep in principe toelaatbaar is tot het MBO. Bij onze vergeHjkingsgroep op het
Bo was dit percentage 30. Naast de verschillen tussen KMBO en BBO is er een vergelijking
gemaakt tussen de KMBO-instroom en de doelgroep. De doelgroep is hierbij gedefinieerd als
e groep LBO- en MAVO-schoolverlaters voorzover zij niet in een of andere vorm van
""-time of part-time onderwijs terecht komen.

f^¹^ jaarlijkse publikaties van het CBS over de overgangen binnen het onderwijs en de intrede
|n de maatschappij geven hier gegevens over (CBS: Onderwijsmatrix, 1979). In deze pu-
ol'katie worden de aantallen LBO- en MAVO-schoolverlaters gegeven (CBS, 1981b, bijlage
^n 2). Hierbij zijn vooropleiding en geslacht van de LBO- en MAVO-schoolverlaters
ekend. Vanwege onze omschrijving van de doelgroep worden die op grond van bovenge-
noemde omschrijving van de doelgroep worden die leeringen uit de CBS gegevens geselec-
.^fd die niet meer naar volledig dagonderwijs of part-time onderwijs gaan. Een verdere
' splitsing is vanwege de aard van de CBS gegevens niet mogelijk.

Tabel 6 geeft aan hoeveel jongens en meisjes het LBO en MAVO verlaten en niet naar een
of andere vorm van vervolgopleiding gaan. Hierbij wordt tevens aangegeven of de leerlingen
gediplomeerd zijn. ,

In onderstaande tabel worden dezelfde gegevens van de actuele instroom in het KMBO
gegeven.

Als we tabel 6 en 7 met elkaar vergelijken, komen we tot de volgende conclusies:

- De verhouding jongens:meisjes is ongeveer gelijk. Toetsing levert geen significant verschil
op. Dit kan betekenen dat de KMBO's zich niet sterker op een van de beide geslachten
richten.

- De doelgroep kent iets meer ongediplomeerden. Dit verschil is echter niet significant.
Analyse van de schoolkeuze

Voor een analyse van de schoolkeuze is een discriminant analyse uitgevoerd. Het doel van
deze analyse is na te gaan waarin de beide groepen het sterkst verschillen. Uit de bovenstaan-
de populatiebeschrijving is duidelijk geworden dat verschillen niet zozeer in achtergronds-
kenmerken en schoolloopbaankenmerken liggen.

Onze veronderstelhng bij deze analyse was, dat die variabelen die het sterkst de verschillen
tussen de KMBO- en BBO-populaties bepalen ook het meest expliciet in staat zijn de
verschillen in schoolkeuze te verklaren.

Bij een analyse met twee groepen wordt slechts één discriminantfunctie gegeven. Deze functie
heeft de volgende algemene vorm (Klecka, 1980).

^km = de score op de discriminantfunctie voor respondent m in groep k (k = 1.2)
^ikm = de score op de discriminantvariabele Xj voor respondent m in groep k
"i = functiecoëfficiënt die de gewenste waarden in de functie aangeeft.
Deze functiecoëfficiënten bepalen het belang van de score Xj^n, op de functie. Via standaar-
disatie kunnen de coëfficiënten onderHng vergelijkbaar worden gemaakt.

De volgende variabelen zijn in de analyse betrokken:
Achtergrondskenmerken
1- geslacht

2. sociaal-economische status (voor deze variabele is gewerkt met zogenaamde dummy's
van de indeling in 6 klassen volgens de ITS-beroepenklapper)

In tabel 8 worden de gestandaardiseerde functiecoëfficiënten op de discriminantfunctie
Begeven. Hierbij zijn alleen die variabelen opgenomen die uit de analyse naar voren kwamen
®n een zekere bijdrage geven aan de discriminantfunctie.
Voor een aantal variabelen bleek de invloed (na aftrek van de reeds ingevoerde variabelen)
de discriminant zo klein, dat men hier niet meer over significante verschillen kan spreken.
De discriminantfunctie bevatte uiteindelijk 11 van de 22 ingevoerde variabelen. Tussen
scores van beide groepen op de discriminantfunctie was het verschil significant (x^ = 322.8,
® ^ -05 bij df = 11). De door de discriminantfunctie verklaarde variantie bedroeg 49%.

De hoogte van de gestandaardiseerde functiecoëfficiënten geeft aan hoe groot de bijdrage van
elk van de variabelen is aan het verschil tussen KMBO en BBO.

De variabelen met de grootste standaard functiecoëfficiënten (Uj>.35) zijn Cl, C2, C3 en
Dl. Hieruit blijkt dat vooral bij de variabelen uit het cluster beroepsloopbaankenmerken en
de factor toekomstgerichtheid duidelijke verschillen zijn af te lezen tussen de KMBO- en
BBO-groep. Concluderend kan gesteld worden dat de keuze voor KMBO of BBO in veel
mindere mate bepaald wordt door achtergrondskenmerken en karakteristieken van school-
loopbanen, maar veel meer door factoren die rechtstreeks in verband staan met het werk (het
al dan niet gewerkt hebben, sollicitatie-ervaring).

Deze verschillen moeten dan zo geïnterpreteerd worden dat bij het KMBO de leerlingen
veel minder werk- en sollicitatie-ervaring hebben en sterker toekomstgericht zijn.

Aan de hand van de hiervoor gegeven informatie zijn door de onderzoekers een aantal
conclusies en beleidsgerichte aanbevelingen geformuleerd.

De vraag of het KMBO de beoogde doelgroep bereikt moet bevestigend beantwoord worden.
De KMBO-instroom bestaat inderdaad voor het allergrootste deel uit T6-18 jarigen. Het zijn
bijna allemaal LBO- en MAVO-schoolverlaters. De jongens en de meisjes zijn gelijkelijk
verdeeld. Bij een,.vergelijking met de doelgroep (45.000 LBO- en MAVO-schoolverlaters)
blijkt het KMBO niet meer of minder gekwalificeerden danwel onevenredig veel jongens of
meisjes te herbergen. De vraag in hoeverre het KMBO een andere doelgroep bereikt dan de
streekscholen kan slechts beantwoord worden voor die opleidingsrichtingen die zij gemeen-
schappelijk hebben (en dus in het onderzoek zitten). Uit de vergelijking van beide populaties

naar een aantal achtergrondskenmerken blijkt dat er meer overeenkomsten dan verschillen
^ijn. AUeen ten aanzien van de vooropleiding blijkt er een verschil te zijn. Het KMBO
herbergt meer leerhngen met een hoog kwaUficatieniveau (toelaatbaar tot het MBO = LBO
•net drie of meer vakken op C-niveau en MAV04) dan het BBO.

De vraag of de meisjes op het KMBO evenredig veel kansen krijgen kent twee kanten,
nameUjk roldoorbreking en vergroting van de mogelijkheden van traditionele meisjesoplei-
dingen.

Ten aanzien van de roldoorbreking het volgende. Het KMBO slaagt er niet in (evenmin als
het BBO) de geslachtsspecifieke verdeUng over opleidingen te doorbreken. Op beide school-
typen komen er weinig jongens voor op traditionele meisjesopleidingen en omgekeerd.

Ten aanzien van de vergroting van de mogeUjkheden van traditionele meisjesopleidingen
kan het volgende gesteld worden. Op het KMBO zowel als op de onderzochte groepen van het
ÖBo komen ongeveer evenveel meisjes als jongens voor. De landelijke cijfers van het BBO
daarentegen wijzen uit dat daar viermaal zoveel jongens als meisjes aanwezig zijn (CBS,
1981 a). Dit wordt veroorzaakt door de specifieke veelal technisch gerichte opleidingsrichtin-
gen (lees: jongensopleidingen). Het KMBO heeft dus een pakket opleidingen dat vergeleken
"let het BBO veel meer gericht is op meisjes.

het onderzoek is een verschiUend schoolkeuzepatroon naar voren gekomen. De keuze
hhjkt niet zozeer af te hangen van conditionerende variabelen als geslacht en diplomeringsni-
veau, maar veeleer bepaald te worden door zaken die rechtstreeks verband houden met het
Werk (werkervaring, soUicitatie-ervaring e.d.). Men zou dit kunnen omschrijven als een
gerichtheid op de wereld van de arbeid. Bij de BBO-leerlingen komt deze gerichtheid veel
sterker naar voren dan bij de KMBO-leerlingen. Complementair hieraan is de gerichtheid op
d^ algemene vorming en oriëntatie en de toekomstgerichtheid. Deze blijkt juist bij KMBO-
eerUngen veel duidelijker aanwezig te zijn. Hieruit is af te leiden dat het KMBO in zekere
"late in de behoefte voorziet van een groep jongeren die nog een full-time opleiding willen
Volgen en nog niet gericht zijn op het werk om zodoende de intrede in de arbeidsmarkt uit te
stellen.

f" hoeverre het KMBO een effectief instrument is om het 'gat in de mammoetwet' te dichten,
kan niet eenduidig worden beantwoord. Het KMBO is bezig met het verzorgen van volle-tijds
onderwijs voor 16- 18-jarige LBO- en MAVO schoolveriaters. Streekscholen voorzien in een
ehoefte aan onderwijs in deeltijd-verband. Daarnaast kennen de streekscholen ook een
eperkt aantal volle-tijds opleidings- en schakelvariaties.

Naar een aantal markante eigenschappen zijn de KMBO-leeriingen identiek aan die van de
^^rgelijkbare opleidingsrichtingen van het BBO.

Tenzij aangetoond kan worden dat de beroepsloopbaan van KMBO-leerlingen beter is,
Verdient het op basis van deze informatie geen aanbeveling de ontwikkeling van het KMBO
sterker te stimuleren dan die van het onderwijs voor BBO en het leerlingwezen. Wat dit
aatste betreft is een uitbreiding van de mogeUjkheden voor de streekscholen in combinatie
"let het leerlingwezen naar volletijdsonderwijs wellicht een meer effectieve en goedkopere
Oplossing.

zodanig kwalificatieniveau heeft dat een toelating tot het MBO een mogelijkheid voor hen
zou kunnen zijn. Het gaat ogenschijnlijk om leerlingen die '... in eerste aanleg de voorkeur
geven aan een kortere beroepsgerichte opleiding ...' (De Jong & Albeda, 1978, p. 8). Voor
deze groep is een fasering in de opbouw van het huidige MBO met een korte en uitgebreide
variant een mogelijk alternatief.

Kortom, het verdient aanbeveling om alvorens over te gaan tot een integrale invoering van
het KMBO, de voor- en nadelen, kosten en baten hiervan te vergelijken met die van de andere
alternatieven.

Voor het samenstellen van de onderzoekspopulade is een steekproef getrokken van ± 500
KMBO-leerlingen en ± 500 BBO-leerlingen (zowel oriëntatiegroepen als le- en 2e jaars).

Bij dit onderzoek is gebruik gemaakt van de techniek van trapsgewijze trekkingen. Bij de
eerste trap heeft een selectie van de regio's plaatsgevonden. Hierbij zijn in eerste instantie die
regio's gekozen (regio-indeling van de Commissie Planprocedure) waar zowel een streek-
school als een KMBO-project aanwezig was. Daarna zijn uit deze regio's er een vijftal
uitgeselecteerd. De criteria bij deze selectie waren:

- de verhouding tussen alle 16-18-jarigen en de 16-18 jarigen die geen volledig dag onder-
wijs volgen.

De regio's zijn zo gekozen dat een spreiding op de verschillende criteria gegarandeerd was.
Uiteindelijk werden de regio's Groningen, Deventer, Den Haag, Middelburg en Heerlen
geselecteerd. Binnen deze regio's zijn de streekscholen en de KMBO's benaderd.

Bij deze scholen is vervolgens de tweede trap getrokken, namelijk de selectie van de
klassen. Daarbij zijn alle leerlingen die op het moment van de eerste meting in de klas
aanwezig waren, in het onderzoeksbestand opgenomen.

Bij de tweede trap is gekozen voor een proportionele stratificatie. Het stratificatiecriterium
was de verdeling over de opleidingsrichtingen. Hierbijjs gestreefd naar een representativiteit
op de hoofdclusters van opleidingsrichtingen (Oriëntatie en Schakel, Technische sector,
Dienstveriening, Verzorging). Bij de trekking van de klassen van het BBO is vooral de
vergelijkbaarheid met de onderzochte opleidingsrichtingen van het KMBO nagestreefd.
Representativiteit is hierbij geen criterium geweest.

Het resultaat van de steekproef was een onderzoekspopulatie van 517 KMBO- en 444
BBO-leerlingen, verdeeld over de Oriëntatie- en Schakelgroep en de opleidingsrichtingen
voor Bouw en Hout, Electro, Metaal, Motorvoertuigen, Consumptieve technieken. Admini-
stratie, Detail, Uiterlijke verzorging en Verzorgingsassistente.

De representativiteit van de KMBO-onderzoekspopulatie is nagegaan naar een drietal
criteria, namelijk geslacht, vooropleiding en opleidingsrichting. Hiervoor is een vergelijking
gemaakt tussen de actuele instroom in het KMBO (O&W, 1982) en vergelijkbare cijfers van
de onderzoekspopulatie op genoemde variabelen.

Voor de toetsing van de significantie van de verschillen is gebruik gemaakt van de bino-

miaal-toets (Nijdam & Van Buren, 1981, p. 303) bij 2x2 tabellen en van de chi-kwadraattoets
nx2 tabellen (Nie et al., 1975, p. 223).

chi-kwadraat = 2.56 niet significant bij a = 0.05 en 3 vrijheidsgraden (x^-toets)
Tabel A3 Representativiteit naar vooropleiding

Uit deze berekeningen blijkt dat de verschillen tussen de gegevens van steekproef en landelijk
'nstromers niet significant zijn. Hierdoor kan de conclusie getrokken worden dat de
steekproef representatief is voor het KMBO anno 1981-1982.

CBS (1981 a). Statistiek voor hel beroepsonderwijs 1979/89 - Beroepsbegeleidend Onderwijs/Leerlingwe-
zen. Den Haag: Centraal Bureau voor de Statistiek.
CBS (1981b): Overgangen binnen het onderwijs en intrede in de maatschappij. Onderwijsmatrix 1979.

Den Haag: Centraal Bureau voor de Statistiek, 1981.
Collaris, J. W. M. & Kropman, J. A. (1978). Van jaar tol jaar: tweede fase. Nijmegen: Instituut voor

"fonkers, J. (1978). Manipuleerbare variabelen in de schoolloopbaan: een toepassing van het Wis-
consin-model op het Nederlandse primaire en sekundaire onderwijs. Mens en Maatschappij, 53,
116-143.

Interim Programma Adviescommissie Participatie-onderwijs (1980). Advies aan de Minister van Onder-
wijs en Wetenschappen over de programmering van het sectoronderzoek 1980 en 1981. Utrecht.

Jencks, C. S. (1972). Inequality. A reassessment of the effect of family and schooling in America. New
York: Basic Books.

Jong, K. de, & Albeda, W. (1978). Proefprojecten nieuwe onderwijsvoorzieningen voor 16-18 jarigen.
Den Haag.

Jonge, J. de (1980). Het school- en beroepsloopbaanonderzoek KMBO-BBO; eerste voortgangsverslag.
Nijmegen: NIVOR.

Jonge, J. de. Knijper, H., Haen, M., & Ritzen, J. (1982). School- en beroepsloopbaanonderzoek KMBO-
BBO; tweede voortgangsverslag. Nijmegen: Instituut voor Onderwijskunde.

Klecka, W. R. (1980). Discriminant analysis (Quantitative Applications in the Social Sciences, no. 19).
Beverly Hills/London: Sage.

Kropman, J. A., & Collaris, J. W. (1974). Van jaar tot jaar. Onderzoek naar de school- en beroepskarrière
van jongens en meisjes die in 1965 het lager onderwijs verlieten; eerste fase. Nijmegen:
Instituut voor Toegepaste Sociologie.

Nie, N. H., Huil, C. H., Jenkins, J. O., Steinbrenner, K., & Bent, D. (1975). SPSS. Statistical package for
the social sciences. (2nd). New York: McGraw-Hill.

Nijdam, B., & Buuren, H. van (1981). Statistiek voor de sociale wetenschappen (deel I en 2). Alphen aan
den Rijn/Brussel.

Peschar, J. L. (1975). Milieu, school, beroep: Een achteraf-experiment over de periode 1958-1973 naar de
invloed van het sociaal milieu op school- en beroepsloopbaan. Groningen: Tjeenk Willink.

Peschar, J. L. (1978): Kanttekeningen bij recent Amerikaans onderzoek naar stratificatie in school en
beroep. Mens en Maatschappij, 53, 79-105.

Sewell, W. H., & Hauser, R. M. (1975): Education, occupation and earnings. Achievement in the early
career. New York: Academic Press.

Smulders, R. (1979). CBS-onderzoek: schoolloopbaan en herkomst van leerlingen bij het voortgezet
onderwijs. Paper Onderwijsresearchdagen 1979. Voorburg, Centraal Bureau voor de Statistiek.

Tesser, P. (1981). Schoolloopbaanonderzoek in Nederland. Nijmegen: Instituut voor Toegepaste So-
ciologie.

Een Onderzoek naar de Effectiviteit van een
Iteratieve Item Bias Detectie Methode bij Groepen
met een Verschillend Treknivo.

The effectiveness of an iterative item bias detection method applied to groups differing in mean
ability

hem bias studies investigate whether different ethnic, racial cultural, etc., groups show different
response behavior lo lest items. An item is unbiased if the probability of a correct response is the
same for all subjects of a given ability level. A major problem in item bias detection is that the ability
level is assessed using all items in a test, including the biased ones. To escape this circularity an
iterative procedure has been developed, based on the log-linear model. The validity of the procedure
is investigated in a Monte Carlo study, where responses on biased and unbiased items are generated
varying the amount of bias and the trait-level for the groups distinguished. The results show that the
iterative log-linear method does a good job.

Met betrekking tot het probleem van discriminerend testgebruik wordt in de Beroepsethiek
Voor Psychologen (N.I.P., 1976) als eis geformuleerd dat

■■• personen bij gelijke geschiktheid ook gelijke kansen krijgen, welke verschillen zij ook mogen hebben
'n etnisch opzicht, qua sociale klasse, leeftijd, huidskleur, sexe, sexuele voorkeur, godsdienstige of
Politieke overtuiging of anderszins' (art. 2.5.1.).

Of geschiktheid moet worden geïnterpreteerd als gebleken geschiktheid dan wel als voorspel-
de geschiktheid blijft daarbij in het midden. Duidelijk is wel dat het niet gaat om gelijke
kansen als zodanig. Hoewel de constatering dat een bepaalde bevolkingsgroep relatief vaak
^ordt afgewezen voor een functie of opleiding wel vaak de aanleiding zal vormen voor
onderzoek naar de eerlijkheid of zuiverheid van de gevolgde selectieprocedure, behoeft dit
nog niet te betekenen dat er ook werkelijk sprake is van discriminatie. Van discriminatie, in
termen van de NlP-ethiek, kan pas worden gesproken wanneer de voorwaardelijke kansen
(gegeven het geschiktheidsnivo) om aangenomen of toegelaten te worden blijken te verschil-
len voor de onderscheiden groepen.

1 Thans verbonden aan de Sector Bedrijfspsychologie van de Nederlandse Spoorwegen.
Moreelsepark 1, Postbus 2025, 3500 HA Utrecht.

Een soortgelijke gedachtengang, maar dan gericht op de afzonderlijke test-items, vormt het
uitgangspunt voor de z.g. conditionele (voorwaardelijke) item bias modellen. De voorwaarde
waaraan een unbiased of zuiver item volgens deze modellen moet voldoen is dat gegeven het
nivo van de gemeten ofte meten trek de kans op een juist (positief gescoord) antwoord in de
verschillende groepen gelijk is. Treknivo kan worden geoperationaliseerd als de geschatte
latente trekpositie (Lord, 1977) of, eenvoudiger, als de waargenomen testscore* (Scheune-
man, 1979; Mellenbergh, 1982).

Een belangrijk probleem bij deze modellen, dat in een wat andere vorm ook geldt voor
eerder ontwikkelde, onvoorwaardelijke, modellen, is dat als de test een groot aantal on-
zuivere items bevat ook de totaalscore waarop geconditioneerd wordt onzuiver zal zijn. Dit
kan tot gevolg hebben dat sommige onzuivere items niet als zodanig worden geïdentificeerd
en andere, zuivere items ten onrechte als onzuiver worden gekwalificeerd. De resultaten van
een recentelijk afgesloten onderzoek door Van der Flier, Mellenbergh, Adèr en Wijn (1984),
waarbij gebruik werd gemaakt van gesimuleerde data, laten echter zien dat in veel gevallen
betere resultaten kunnen worden verkregen door toepassing van een iteratieve procedure.

Kort gezegd houdt de procedure in dat bij opeenvolgende iteraties het aantal items dat als
onzuiver wordt geclassificeerd en niet meetelt bij de bepaling van de totaalscore steeds met
één toeneemt. Dus na de eerste iteratie wordt het meest discriminerende item geïdentificeerd.
Dan wordt de analyse overgedaan zonder dat dit item meetelt bij de bepaling van de
totaalscore. Vervolgens worden de twee meest discriminerende items geïdentificeerd en
worden deze niet meegerekend bij de bepaling van de totaalscore, enz. Items die in een
eerdere fase als onzuiver worden geclassificeerd kunnen in een latere fase weer deel gaan
uitmaken van de groep zuivere items. De procedure stopt na een door de gebruiker op te
geven maximaal aantal iteraties, of wanneer alle onzuivere items (items waarbij de toet-
singsgrootheid een te specificeren grenswaarde overschrijdt) als zodanig zijn ingedeeld.

Bij elke iteratie wordt voor elk item een drie-dimensionele contingentietabel opgesteld met
als randvariabelen scorecategorie (1), groepslidmaatschap (2) en item response (3). De
indeling in sc'orecategorieën vindt plaats op grond van de totaalscore over de (nog) niet>als
onzuiver geclassificeerde items, waarbij de score op het betreffende item buiten beschouwing
wordt gelaten. Zoveel mogelijk wordt gestreefd naar een uniforme verdeling van de totale
groep proefpersonen over de categorieën. Proefpersonen met scores op de grens tussen twee
categorieën worden indien nodig aselect, volgens de gewenste verhouding verdeeld over deze
categorieën. In geval van lege cellen worden alle frequenties in de tabel verhoogd met .5. Een
voorbeeld is het eerste item van een Figuur Exclusie test afgenomen aan steekproeven
Kenyaanse en Engelse eind-lagere school leerlingen (zie Van der Flier, 1980):
De tabellen worden geanalyseerd aan de hand van een log-lineair model van de vorm

waarin Fjjk staat vopr de frequentie in de cel corresponderend met scorecategorie i, subgroep j
en item response k (zie Mellenbergh, 1982). Het model bevat achtereenvolgens een constante
(u), de hoofdeffect parameters voor iedere variabele (ui(jj, U2(j) en U3(k)) en de parameters
voor score x groep interactie (u, 2(ij,) en score x response interactie (u i3(ik,). De passing van het
model wordt uitgedrukt in een aannemelijkheidsverhouding (G^-waarde), welke asympto-

tisch chi-kwadraat verdeeld is. De waarde geeft aan in welke mate de niet in het model
opgenomen parameters voor groep x response interactie (u23(jk)) en score x groep x response
interactie (u,23(jjk)), die als indicatoren voor item onzuiverheid worden beschouwd, afwijken
van nul. De berekeningen kunnen worden uitgevoerd m.b.v. het programma BIASIT (Adèr,
1982). De iteratieve methode is inmiddels met succes toegepast binnen cross-cultureel
onderzoek (Van der Flier, 1983) en op langs experimentele weg verkregen data (Kok, 1982).

In het eerder genoemde simulatie-onderzoek (Van der Flier, Mellenbergh, Adèr en Wijn,
1984) werden antwoordpatronen gegenereerd voor een test bestaande uit 14 zuivere en 15
onzuivere items. De mate van item onzuiverheid werd gevariëerd. Zowel bij een geringe mate
van onzuiverheid als bij een sterke en zeer sterke mate van onzuiverheid bleek de iteratieve
methode aanzienlijk betere resultaten op te leveren dan de niet-iteratieve log-lineaire metho-
de. Ook in vergelijking met twee bekende onvoorwaardelijke item bias methoden, de delta
methode (Angoff en Ford, 1973) en de ANOVA arcsinus methode (Plake en Hoover, 1979)
bleek de iteratieve log-lineaire methode superieur.

Een beperking van dit onderzoek is wel dat de verdeling van de te meten (latente) trek in de
onderscheiden groepen steeds constant werd gehouden. Geobserveerde verschillen tussen de
groepen waren daardoor behalve aan toeval uitsluitend toe te schrijven aan de invloed van
item onzuiverheid. Het valt echter niet aan te nemen dat dit voor empirische gegevens ook
altijd zal gelden, en het is nog maar de vraag of de iteratieve methode in geval van ongelijke
nivo's wel zo goed werkt. Problemen zouden met name kunnen ontstaan ten gevolge van
verschillen in scorcverdeling t/Vinen de scorecategorieën, en deze problemen zouden mogelijk
nog eens versterkt worden door het iteratieproces. Het lijkt daarom wenselijk het simulatie
onderzoek uit te breiden in die zin dat ook het treknivo van de onderscheiden groepen wordt
gevariëerd. Het hierna te rapporteren onderzoek betreft een dergelijke uitbreiding.

Gebruik wordt gemaakt van dezelfde 29-item test als in het voorgaande onderzoek -15 van de
Items zijn onzuiver. Item responsen worden gegenereerd uitgaande van het drie-parameter
normaal-ogief model (Lord, 1980):

De item parameters (a, b en c-waarden) zijn zo gekozen dat de test min of meer representatief
's voor een redelijk betrouwbare, uit vijf-keuze items bestaande, powertest. De a-waarden
variëren rond .723, de b-waarden lopen van - 2.954 tot 1.693 en als raadkans (c) wordt
steeds .20 aangehouden (zie ook Van der Flier, 1980, p. 89). Item onzuiverheid wordt
geintroduceerd door in bovenstaande formule de term

ln principe zou men ook kunnen conditioneren op een te voorspellen criteriumscore. Een dergelijke
procedure is, voorzover de auteurs bekend, echter nog niet toegepast. Wel werd in een onderzoek van
^"cpard, Camili en Averill (1981), waarin verschillende intelligentietests op item onzuiverheid werden
onderzocht, één van de tests gebruikt als 'extern' criterium m.b.t. de items in de overige tests.

Tabel 1. Aantallen juiste en onjuiste antwoorden per scorecategorie voor Kenyaanse en
Engelse leerhngen.

met een voor de te vergelijken groepen verschillende factor te vermenigvuldigen. Voor de
referendegroep heeft de factor steeds de waarde 1.00. In de hiermee te vergelijken groepen
zijn de waarden resp. 1.00, .75, .50, .25 en .00. In het eerste geval is er dus geen sprake van
item onzuiverheid; in het laatste geval geldt voor de 15 onzuivere items dat P(0) gelijk is aan
de raadkans (c).

Subject parameters worden aselect getrokken uitgaande van een standaard-normaal ver-
deelde trek 0. Verschillen in treknivo tussen de groepen worden gecreëerd door bij de
getrokken waarden steeds een constante op te tellen. Voor de referentiegroep heeft de
constante de waarde .00. In de hiermee te vergelijken groepen zijn de waarden resp. — 1.00,
- .50, .00, .50 en 1.00. In het eerste geval ligt de betreffende groep voor wat betreft de te
meten eigenschap één standaarddeviatie fcenede« de referentiegroep, in het laatste geval één
standaarddeviatie boven de referentiegroep. Om verwarring met de onzuiverheidsfactor te
voorkomen worden de nivo's van de constante als volgt met letters aangeduid; // (- 1.00), /
(- .50), g (.00), h (.50) en hh (1.00).

Combinatie van de vijf nivo's van latente trekpositie met de vijf nivo's van item onzuiver-
heid levert in totaal 25 verschillende condities op. Per conditie worden 500 scorepatronen
gegenereerd. In Tabel 2 worden de gemiddelden en standaarddeviaties van de totaalscores op
de 29-item test onder de diverse condities weergegeven. Zoals te zien lopen de gemiddelden
op van II tot hh, en af van onzuiverheidsfactor 1.00 tot .00.

Ook de referentiegroep (overeenkomend met conditie g en onzuiverheidsfactor 1.00) bevat
500 scorepatronen. De gemiddelde testscore in deze groep is 17.76, en de standaarddeviatie
5.57.

De gesimuleerde data worden geanalyseerd m.b.v. het iteratieve item bias detectie prog-
ramma BIASIT. De totaalscores worden steeds ingedeeld in 5 scorecategorieën, het
maximale aantal iteraties wordt vastgesteld op 17, en de kritieke G^-waarden (correspon-
derend met een 5% en een 1% significantienivo) zijn 11.070 en 15.086.

Tabel 2. Gemiddelden en standaarddeviaties (tussen haakjes) van de scores op de 29-item
test bij verschillende nivo's van de onzuiverheidsfactor en de verdeling op de latente
trek.

De resultaten voor de niet-iteratieve procedure (eerste iteratie) en de iteratieve procedure
(laatste iteratie) worden gepresenteerd in de Tabellen 3,4 en 5. Tabel 3 geeft de percentages
juist geclassificeerde items voor de verschillende condities. Voor de niet-iteratieve procedure
zijn de resultaten over het geheel genomen niet erg bevredigend. De percentages blijken in de
meeste gevallen sterk te dalen van// naarhh. Vooral het identificeren van items die discrimi-
neren tegen een groep met een gelijk of een hoger treknivo levert dus problemen op.
Toepassing van de iteratieve procedure blijkt deze problemen echter in bijna alle gevallen op
te kunnen lossen. Alleen in de situatie waarin sprake is van een geringe mate van bias tegen
een groep met een aanzienlijk hogere latente trek positie {hh .75) werkt het iteratieproces de
Verkeerde kant op en wordt het resultaat nog slechter dan het bij toepassing van de niet-itera-
tieve methode al is. Voor de eerste vijf condities, waarin de onzuiverheidsfactor gelijk is aan
1-00, zijn de succespercentages behoorlijk hoog, vooral wanneer een 1% significantie nivo
Wordt aangehouden. Dit geldt zowel voor de iteratieve methode als voor de niet-iteratieve
methode. Geconcludeerd kan dus worden dat in situaties waarin alle items zuiver zijn, maar
de groepen verschillen qua nivo de kans op 'vals alarm' niet al te groot is.

Een meer gedetailleerd beeld van de uitkomsten van de analyses wordt gegeven in Tabel 4.
Per conditie en type procedure worden bij een 5% en een 1% significantie nivo de aantallen
missers en foute positieven vermeld. Te zien is dat de slechte resultaten van de niet-iteratieve
methode bij groepen met een hoger trek nivo vooral een gevolg zijn van het ten onrechte als
Onzuiver classificeren van zuivere items.

In Tabel 5 tenslotte worden de mediane G^-waarden van de zuivere en onzuivere items
Vermeld. De relatief sterke toename van deze waarden van ll naar hh bij de niet-iteratieve
methode ondersteunt de conclusie op grond van de voorgaande tabel. Toepassing van de
'teratieve procedure blijkt overigens niet alleen te leiden tot afname van de G^-waarden van
de zuivere items, maar evenzeer tot een sterke toename van de waarden voor de onzuivere
items.

Uit de tabellen 3, 4 en 5, eerdere simulaties (van der Flier et al., 1983) en experimenteel
onderzoek (Kok, 1982) blijkt de iteratieve procedure redelijk tot goed in staat te zijn
onzuivere items te detecteren. Dat neemt niet weg dat er nog een aantal problemen opgelost
moeten worden. Een belangrijke vraag betreft bijvoorbeeld het onderscheidingsvermogen
van de procedure: de kans onzuivere items te detecteren bij gegeven steekproefgrootte,
significantie- en onzuiverheids-niveau. Dit is met name van belang voor dc opzet van empi-
risch onderzoek naar item onzuiverheid; bij gespecificeerd onderscheidingsvermogen, signifi-

Tabel 4. Aantallen gemiste en ten onrechte als onzuiver geclassificeerde items. Niet-itera-
tieve en iteratieve procedure.

cantie- cn onzuiverheids-niveau kan men dan bepalen hoe groot de steekproef moet zijn.

In het voorafgaande is het begrip item onzuiverheid op informele wijze gehanteerd. De
volgende formele defmitie wordt voorgesteld: Een item is zuiver in relatie tot de variabelen
Z2.....Zj, als

Tabel 5. Mediane G^-waarden van zuivere en onzuivere items. Niet-iteratieve en iteratieve
procedure.

Hierin is X een stochastische variabele, die de waarde 1 aanneemt «Is het item goed is
beantwoord en anders O, 0 is de waarde op de latente trek, ö,, Ó2. ■■■. öp zijn item parameters
en Z|, Z2, ..., Zp zijn waarden op de variabelen. In woorden betekent deze formule dat voor
personen met de/elfde waarde op de trek - of één en dezelfde persoon met herhaalde
metingen - de kans het item goed te beantwoorden «;e/ afhangt van de variabelen Z,, Z2,...,
Zjj. In het simulatie-onderzoek is deze definitie als volgt geschonden: P(0) uit formule (2) is in
termen van (3) P(X= 1|0, a, b, c, z), waarin z de mate van gesimuleerde bias aangeeft, — 1.00,
.75, .50, .25, .00. Bij vergelijking van de referentie groep (bias factor 1.00) met een groep met

d.w.z. de kans het hem goed te beantwoorden is mede afhankehjk van de bias factor.

Item onzuiverheid is met behulp van formule (3) scherp te definiëren: een item is onzuiver
als de kans het item goed te beantwoorden mede afhankelijk is van een z-variabele. De
iteratieve procedure is efficiënt in het detecteren van onzuivere items en bovendien is de
procedure relatief eenvoudig, omdat er geen latente parameters geschat worden. Deze
prettige eigenschappen impliceren echter niet dat empirisch onderzoek naar item onzuiver-
heid eenvoudig is. In de eerste plaats moet men in empirisch onderzoek de z-variabelen
specificeren: sexe, leeftijd, godsdienst, cultureel-raciale achtergrond, etc. Een test die bij-
voorbeeld sexe-zuiver is, is noodzakelijkerwijs nog niet cultuur-, godsdienst-, of leeftijd-
zuiver; voor elke z-variabele van belang moet dit opnieuw onderzocht worden. In de tweede
plaats is de konstatering dat een item onzuiver is - en dus meer dan één of een andere trek
meet - nog geen verklaring. Van der Flier (1983) vond bij de eerder genoemde Figuur
Exclusie test dat Keniaanse eind lagere school leerlingen in vergelijking met Engelse leerlin-
gen relatief veel foute antwoorden gaven op items waarbij de eerste van de serie figuren niet in
het rijtje thuis hoorde. Geconcludeerd werd dat Keniaanse leerlingen waarschijnlijk meer
moeite hebben met het loslaten van een eenmaal (op grond van de eerste figuren uit de serie)
gevormde hypothese. In de meeste gevallen is een verklaring echter moeilijk te geven en is
apart empirisch onderzoek hiernaar geboden. Tenslotte geldt, enigszins paradoxaal gezien de
in het voorafgaande ontwikkelde definities, dat onderzoek naar item onzuiverheid meer
garanties biedt m.b.t. de vergelijkbaarheid van testprestaties naarmate in de test duidelijker
sprake is van een systematische representatie van item typen en oplossingsprincipes. Qua
inhoud homogene tests, waarbinnen de items uitsluitend of voornamelijk variëren in com-
plexiteit, bieden wat dit betreft dus relatief weinig mogelijkheden.

Adèr, H.J. (1982) BIASIT: Iterative program to select biased items. Amsterdam: Vrije Universiteit,
Subfaculteit Psychologie.

Angoff, W.H., & Ford, S.F. (1973). Item-race interaction on a test of scholastic aptitude. Journal of

Educational Measurement, 10, 95-106.
Flier, H. van der Vergelijkbaarheid van individuele testprestaties. Lisse: Swets & Zeitlinger.

Flier, H. van der (1983). Some applications of an iterative method to detect biased items. In J.B.

Deregowski, S. Dziurawiec, & R.C. Annis (Eds.), Expiscations in cross-cultural psychology (p.
174-188). Lisse, The Netherlands: Swets & Zeitlinger.
Flier, H. van der, Mellenbergh, G.J., Adèr, H.J., & Wijn, M. (1984). An iterative item bias detection

method. Journal of Educational Measurement, (ter perse).
Kok, F.G. (1982). Het partijdige item; een vergelijkend onderzoek naar het funktioneren van verschillende
item bias detectie procedures en een evaluatie van het effect van inadequate vaardigheidsschatters
in dit verband. Amsterdam: Psychologisch Laboratorium, Universiteit van Amsterdam.
Lord, F.M. (1977). A study of item bias, using item characteristic curve theory. In Y.H. Poortinga (Ed.),

Basic problems in cross-cultural psychology (p. 19-29). Amsterdam: Swets and Zeitlinger.
Lord, F.M. (1980). Applications of item response theory to practical testing problems. Hillsdale, N.J.:
Erlbaum.

Mellenbergh, G.J. (1982). Contingency table models for assessing item bias. Journal of Educational
Slatistics, 7, 105-118.

Plake, B. S., & Hoover, H. D. (1979). An analytic method of identifying biased test items. The Journal of

Experimental Education, 48, 153-154.
Scheuneman, J. (1979). A method of assessing bias in test items.your/ia/ of Educational Measurement, 16,
143-152.

Shepard, L., Camilli, G., & Averill, M. (1981). Comparison of six procedures for detecting test item bias
using both internal and external ability criteria, tourna/ of Educational Statistics, 6, 317-375.

This article consists of a review of work done by Dutch and Belgian researchers on arithmetical
problems, especially word-problems, involving addition and subtraction. The purpose of this
review is to synthesize the research on the relationship between instruction in the part-whole
line-diagram and the solution of arithmetical problems. In the discussion-part of this paper these
findings are interpreted from a logical (mathematical) as well as a psychological point of view.

In een lezing over de ontwikkeling van het getalbegrip komt Resnick (1981) tot de volgende
conclusie:

"Aangetoond is dat het deel-geheel schema de basis vormt voor het oplossen van redactiesommen,
puntsommen en optellen cn aftrekken bij overschrijding van een tiental (...). Het lijkt zeer waarschijn-
lijk dat dc ontwikkeling van het wiskundig denken bij kinderen bevorderd kan worden door expliciet
onderwijs te geven in het schema cn het gebruik ervan".

De afgelopen jaren is er in Nederland en België onderzoek gedaan naar de invloed van het
gebruik van deel-geheel schema's op het maken van rekenopgaven door leerlingen. Het
onderzoek had betrekking op puntsommen (bijv. De Corte & Verschaffel, 1980) en redac-
tiesommen (bijv. Assink & Verloop, 1977: Wolters, 1978; Van den Berge & Bleek, 1982).
Dit onderzoek is op gang gekomen dank zij het werk van de Sovjet-psychologe Mikulina
(1969). Het kernidee van haar werk is dat het mogelijk moet zijn de prestaties op redactie-
sommen te verbeteren door leerlingen bij het oplossen van deze sommen een deel-geheel
schema te leren gebruiken.

Een deel-geheel schema is een visuele representatie van een deel-geheel relatie in de vorm
van een lijn-diagram. Een voorbeeld van zo'n representatie is gegeven in fig. 1. In fig. 1 wordt
het geheel voorgesteld als c, opgebouwd uit de delen a cn b.

In dit artikel willen we het onderzoek bespreken dat in Nederland en België gedaan is naar
de invloed van training in het gebruik van een deel-geheel schema op het oplossen van
rekenopgaven, in het bijzonder redactieopgaven. We zullen allereerst een classificatie in
typen redactieopgaven bespreken. Daarna vergelijken we de resultaten van de verschillende

onderzoeken die gedaan zijn met een trainingsprogramma op het oplossen van redactieopga-
ven in het algemeen. Vervolgens willen we, voor zover dat mogelijk is, dezelfde resultaten per
type redactieopgave vergelijken. Het artikel wordt afgesloten met een discussie waarin naar
mogelijke verklaringen op theoretische en empirische gronden gezocht wordt voor de ver-
schillende resultaten.

Redactiesommen waarin optel- en/of aftrekoperaties moeten worden uitgevoerd kunnen als
volgt geklassificeerd worden: erbij-eraf opgaven, deel-geheel opgaven en vergelijkingsopga-
ven (Wolters, 1978). Ook buiten Nederiand en België wordt eenzelfde classificatie gehan-
teerd. Men spreekt dan over respectievelijk: joining - separating, part-whole en comparison
problems (bijv. Carpenter, Herbert & Moser, 1981; Heller & Greeno, 1978; Nesher &
Greeno, 1981; Riley, Greeno, & Heller, 1981; Vergnaud, 1981).

"Erbij-eraf opgaven zijn opgaven waarbij een oorspronkelijke hoeveelheid verandert
door een uitgevoerde operatie. Een voorbeeld is: "Leroy heeft a snoepjes. Hij geeft erb aan
Jenny. Hoeveel snoepjes heeft hij nog over?" (a - b).

"Deel-geheel" opgaven waarbij het om ecn statische relatie (toestand) gaat waarin twee
gescheiden hoeveelheden delen van een geheel vormen. Een voorbeeld is: "Er schaatsen a
jongens en b meisjes. Hoeveel kinderen schaatsen er in totaal?" (a -f- b).

"Vergelijkingsopgaven" hebben betrekking op het vergelijken van twee hoeveelheden.
Daaronder vallen eenvoudige opgaven waarin het verschil tussen twee hoeveelheden gevon-
den moet worden en de meer complexe opgaven waarbij één van de hoeveelheden en het
verschil tussen de twee hoeveelheden is gegeven en de andere hoeveelheid gevonden moet
worden.

Een voorbeeld is: Ralf heeft a stukjes gum. Sjef heeft er b meer. Hoeveel stukjes gum heeft
Sjef?" (a + b).

Bij het voorleggen van deze opgaven blijkt dat de erbij-eraf opgaven hetjeenvoudigst zijn, dan
volgen de deel-geheel opgaven en tenslotte de vergelijkingsopgaven (bijv. Carpenter et al.,
1981; Nesher & Greeno, 1981).

Een dergelijke klassificatie komt tot stand op grond van de semantische structuur van de
opgaven. De typen opgaven volgens deze klassificatie noemen we dan ook semantische
structuurtypen (zie ook De Corte & Verschaffel, 1982).

Het is echter ook mogelijk redactie-opgaven te klassificeren volgens de mathematische
structuur van de opgave. In de boven gegeven voorbeelden is te zien dat een klassificatie
volgens semantische structuur niet overeen hoeft te komen met een klassificatie volgens

niathematische structuur. Zo heeft het boven gegeven voorbeeld van een deel-geheel opgave
dezelfde mathematische structuur als het voorbeeld van de vergelijkingsopgave (a+b). Het is
zelfs betrekkehjk eenvoudig een erbij-eraf opgave te formuleren met dezelfde mathematische
structuur: "Leroy heeft a snoepjes. Hij krijgt eri van Jenny. Hoeveel snoepjes heeft hij nu?"

ONDERZOEK NAAR DE INVLOED VAN TRAINING IN HET GEBRUIK VAN
EEN DEEL-GEHEEL SCHEMA OP HET OPLOSSEN VAN REKENOPGAVEN

We beginnen met de beschrijving van het trainingsprogramma dat gebruikt is door tweede-
klassers. Voor een gedetailleerde beschrijving van het trainingsprogramma voor tweede-
klassers verwijzen we naar Assink en Verloop (1977) en Van den Berge en Bleek (1982).
Hier geven we de grote hjn van het trainingsprogramma weer ter bevordering van de
begrijpelijkheid van ons betoog.
Het trainingsprogramma voor tweedeklassers bestond uit twee delen:

De lessen uit deel (a) werden besteed aan het leren gebruiken van notaties voor de relaties
"gelijk aan" (=), "ongelijk aan (+), "groter dan" (>) en "kleiner dan" (<). Met deze
symbolen kan het resultaat van een vergelijking van twee objecten op verschillende groot-
heden worden weergegeven.

Deel (b) van het programma was gewijd aan het deel-geheel schema. Begonnen werd met
een introductie van de begrippen "deel" en "geheel" aan de hand van concreet materiaal
waarbij de relativiteit van deze twee begrippen (gehelen in de situatie kunnen delen zijn in een
andere situatie) werd benadrukt.

Vervolgens werd een schematiseringsproces opgeroepen, d.w.z. deel-geheel relaties wer-
den eerst weergegeven met natuurgetrouwe afbeeldingen van de betreffende objecten en
Vervolgens werd naar een meer schematische afbeelding toegewerkt. De relatie "het geheel is
gelijk aan de som van de delen" werd daarbij aanvankelijk voorgesteld zoals in fig. 2 wordt
aangegeven.

Na deze weergave, waarin de delen en het geheel nog gescheiden gerepresenteerd werden.
Volgde een weergave waarbij delen en het geheel op één lijn werden gerepresenteerd, een
zogenoemd lijndiagram (zie fig. 3).

De leerlingen werden in de laatste fase van deel b van het programma aangemoedigd alle
mogelijke formules te bedenken bij zo'n lijndiagram. Aanvankelijk werden de leerlingen

Vul in: "DEEL" of "GEHEEL"
... c is even groot als ... a
zonder ... b en zonder ... d.

Een deel-geheel relatie kan op drie verschillende manieren in een formule weergegeven
worden: de som van de delen is gelijk aan het geheel (b-i-c=a), of een van de delen kan
uitgedrukt worden in het geheel en het andere deel (a-c=b, a-b=c). In de genoemde
formules staan de operaties aan de linkerkant van het is-gelijk-tcken. Maken we gebruik van
de symmetrische eigenschap van de is-gelijk-relatie, dan komen we tot nog drie formules nl.
a=b-t-c, b=a—c en c=a—b. Hoewel er wiskundig gezien geen verschil bestaat tussen de eerste
drie formules en de laatste drie, zijn ze voor kinderen aan wie de eigenschappen van een
is-gelijk relatie niet expliciet zijn onderwezen wel degelijk verschillend. Door bovendien
gebruik te maken van de commutatieve eigenschap van de optelling komen er nog twee extra
formules bij,'te weten c-t-b=a en a=c-l-b.

In totaal kunnen we dus acht verschillende formules onderscheiden bij een lijndiagram
zoals weergegeven in Fig. 3.

Het trainingsprogramma voor de derde- en vierdeklassers was aanzienlijk langer dan dat
voor de tweedeklassers. Na de al beschreven twee delen van het programma volgde nog een
deel (c) dat ±11 lessen in beslag nam en vrijwel geheel besteed werd aan het vertalen van
redactieopgaven in lijndiagrammen en/of formules en omgekeerd. In de eerste fase van deel
(c) worden de leerlingen gevraagd een lijndiagram te maken bij een verhaaltje, bijv.: "Er zijn
a zeilboten en b roeiboten in de haven. In totaal zijn er c boten in de haven". Mogelijke
diagrammen voor die situatie zijn te vinden in fig. 5.

Als de leerlingen de verschillende door hen gemaakte diagrammen (zic voorbeelden)
vergelijken, komen ze al redenerend tot de conclusie dat ze alle drie goedzijn, omdat a en b de
delen zijn en de grootte van die delen er niet toe doet.

In de tweede fasp van deel (c) krijgen de leerlingen een diagram of een formule waarbij zij
een verhaal moeten bedenken. De verhalen en de diagrammen worden ingewikkelder door in
de laatste fase meer dan twee delen te gaan gebruiken en een onbekende te introduceren. Het
gevolg hiervan is dat er vergelijkingen met twee operaties ontstaan. Voor een gedetailleerde
beschrijving van het trainingsprogramma voor derde- en vierdeklassers, zie Wolters 1978.

Assink en Verloop (1977) en Van den Berge en Bleek (1982) gingen het effect van het
trainingsprogramma op het oplossen van redactieopgaven na bij tweedeklassers. Het onder-
zoek van Van den Berge en Bleek is een replicatie van het onderzoek van Assink en Verloop.
In tabel 1 geven we de gemiddelden op een voor- cn natoets met redactie-opgaven uit het
onderzoek van Assink en Verloop en de gemiddelden op voor- en natoets van Van den Berge
en Bleek.

In tabel 1 zien we dat de resultaten uit het onderzoek van Assink en Verloop meer in de
Verwachte richting liggen dan de resultaten van Van den Berge en Bleek. Toch is dit
onderzoek een replicatie van het onderzoek van Assink en Verloop en hadden we minstens
mogen verwachten dat de experimentele groep van Van den Berge meer vooruitgang zou
boeken dan de controlegroep. Het tegendeel is echter het geval, de controlegroep boekt meer
Vooruitgang dan de experimentele groep al is deze vooruitgang nog niet significant te noemen.
Datzelfde geldt echter voor de experimentele groep uit het onderzoek van Assink en Verloop.
Ook daar is de weliswaar flinke vooruitgang van de experimentele groep nog net niet
significant.

Hierbij moeten we opmerken dat in het onderzoek van Assink en Verloop werd gewerkt
met twee experimentele condities: een letterconditie en een cijferconditie. De experimentele
Icttcrconditie kreeg het trainingsprogramma zoals dat beschreven is. De experimentele
cijferconditie kreeg het programma maar dan zonder letters, d.w.z. overal waar in het
programma met letters gewerkt werd, bijv. om delen dan wel gehelen aan te geven, werden
cijfers gebruikt. De experimentele groep die opgevoerd is in tabel 1 is de experimentele
letterconditie, dit om een vergelijking met de resultaten van derde- en vierdeklassers mogelijk
te maken. In het onderzoek van Van den Berge en Bleek werd gewerkt met vier condities, te
weten een experimentele letterconditie, ccn experimentele cijferconditie, een controle let-
terconditie en een controle cijferconditie. Het opsplitsen van dc experimentele c.q. con-
trolegroep in twee condities was gedaan om ook het effect van het gebruik van letters c.q.
getallen na te kunnen gaan. Aangezien het ons hier alleen gaat om het effect van het gebruik
van een deel-geheel schema op het oplossen van redactiesommen hebben we één experimen-
tele cn één controle-conditie opgevoerd. Om de resultaten te kunnen vergelijken met het
onderzoek van Wolters (1978) met derde- en vicrde-klassers is cr gekozen voor de experi-
mentele letterconditie en de controle-cijferconditie.

Voor wc ingaan op de merkwaardige verschillen in deze onderzoeksresultaten bespreken we
eerst de resultaten van de derde- cn vierdeklassers op het oplossen van redactieopgaven.

Resultaten van derde- en vierdeklassers bij het oplossen van rekenopgaven
Resultaten bij redactieopgaven

De redactieopgaven die gebruikt werden voor de voor- en natoets en tijdens de training waren
opgaven met twee bewerkingen. Deze bewerkingen waren optel- en/of aftrekoperaties. Een
voorbeeld van zo'n opgave is: "Drie getallen zijn samen 381. Het derde getal is 138. Het
eerste getal is 92. Wat is het tweede getal?". (Deel-geheel opgave volgens de semantische
structuur).

In tabel 2 geven we de gemiddelden op een voor- en natoets met redactie-opgaven van de
derde- en vierdeklassers.

De data van de derde- en vierdeklassers zijn statistisch geanalyseerd met een covariantie-
analyse waarbij de voortoets als covariant gebruikt werd. Door middel van deze techniek
krijgen we informatie over het verschil in vooruitgang tussen experimentele en controlegroep.
Dit verschil blijkt voor de derdeklassers significant te zijn (p=0.001) en voor de vierdeklas-
sers niet (p=0.156). Dit betekent dat de derdeklassers meer vooruitgang laten zien vergele-
ken met de controlegroep. Bij de vierdeklassers is dit'niet het geval.

Na het programma werd de leerlingen van de experimentele groep (n=264) en de controle-
groep (n=244) een aantal toetsen voorgelegd. Een van die toetsen was een transfertoets
waarin drie puntsommen waren opgenomen. De resultaten daarvan zijn weergegeven in tabel
3.

Uit tabel 3 kunnen we opmaken dat het trainingsprogramma een positief (significant) effect
heeft op het oplossen van puntsommen bij derde- en vierdeklassers.'

1. De Corte en Verschaffel (1980) gingen het effect van een trainingsprogramma in een deel-geheel-
schema na, op het oplossen van puntsommen bij eersteklassers. Uit de resultaten die zij vonden blijkt
dat een dergelijk trainingsprogramma een positieve invloed heeft op het oplossen van puntsommen.

Miriam A. D. Wolters
Tabel 2. Gemiddelden op een voor- en natoets met redactieopgaven (Wolters, 1978).

Resultaten op itetns, waarbij gebruik gemaakt moet worden van de transitiviteit van een
deel-geheel relatie

Een sterke aanwijzing dat inzicht is verkregen in de deel-geheel relatie vinden we wanneer
leerlingen problemen aankunnen, waarin sprake is van transitiviteit van relaties. Leerlingen
moeten het schema dan noodzakelijkerwijs herhaald gebruiken.

In fig. 6 staan de twee voorgelegde items waarin transitiviteit een rol speelt. De resultaten
zijn gegeven in tabel 4.

Tabel 4 wijst uit dat meer dan de helft van de ppn. uit de experimentele groep de
transitiviteitsitems goed oplost. Van de proefpersonen uit de controlegroep lost iets meer dan
een kwart de opgaven goed op. We kunnen veronderstellen dat de instructie in feite naar het
goede antwoord leidt (alleen de letters O en S konden maar gebruikt worden en hun volgorde
in het alphabet gaf ook de ordening in grootte weer). Dit argument geldt echter ook voor de
controlegroep.

Tabel 4. Percentage goede antwoorden op de transitiviteitsitems voor de experimentele en controle-
groep (Wolters, 1978).

De resultaten van besproken onderzoeken laten zien dat een trainingsprogramma gericht op
het gebruik van een deel-geheel schema een positief effect heeft op het oplossen van punt-
sommen.

Derde- en vierdeklassers bleken na het trainingsprogramma in staat de transitiviteit van de
deel-geheel relatie te kunnen gebruiken. Ook bleken de derdeklassers als gevolg van het
trainingsprogramma significante vooruitgang te boeken op het oplossen van redactieopgaven,
•n tegenstelling tot de tweedeklassers waar dit niet het geval was. De meest voor de hand
liggende verklaring voor het verschil tussen klas twee en klas drie is dat de laatste expliciet
getraind zijn in het oplossen van redactieopgaven met behulp van het deel-geheel schema
(lijndiagram) - deel (c) van het trainingsprogramma. De tweedeklassers hebben uitsluitend
deel (a) en (b) van het trainingsprogramma gehad.

Deze verklaring geeft echter geen duidelijkheid over het merkwaardige verschil in resulta-
ten bij de tweedeklassers, te weten het verschil in onderzoeksresultaten van Assink en
Verloop (1977) en Van den Berge en Bleek (1982). We zullen daarom deze onderzoeksre-
sultaten wat nader bestuderen.

In het onderzoek van Assink en Verioop (1977) en Van den Berge en Bleek (1982) zijn de
sommen in voor- en natoets geconstrueerd en gevarieerd op basis van hun mathematische
structuur. De natoets was een parallelvcrsie van de voortoets met als criterium de mathema-
tische structuur van de som. Dit betekent dat het mogelijk kan zijn dat een som uit de
voortoets weliswaar qua mathematische structuur gelijk kan zijn aan een som uit de natoets
maar dat ze qua semantische structuur kunnen verschillen. Dit is precies wat er gebeurd is in
het onderzoek van Van den Berge en Bleek. Som 2 uit de voortoets luidde: "76 mensen waren

in het zwembad aan het zwemmen. 26 Zwemmers waren volwassenen. Er waren.....kinderen

aan het zwemmen", (a - b, deel-geheel opgave). Som 2 uit de natoets luidde: "Tom heeft 30
stickers. Hij geeft er 17 aan Nettie. Nu heeft hij er nog.....over", (a - b, erbij-eraf opgave).

De reden dat in de onderzoeken niet gevarieerd werd volgens semantische structuurtypcn is
simpelweg dat pas sinds 1978 een dergelijke indeling ontdekt en gehanteerd wordt in binnen-
en buitenland. We zullen nu gaan bekijken wat dc invloed is van een trainingsprogramma in
het gebruik van een deel-geheel schema op redactieopgaven met een verschillend semantisch
structuurtype.

De invloed van hel trainingsprogramma op het oplossen van redactie-opgaven met een
Verschillend semantisch structuurtype

Wc beginnen met de resultaten van de derde- en vierdeklassers die tijdens het programma
expliciet getraind werden op het oplossen van redactie-opgaven met behulp van een deel-
geheel schema (Wolters, 1978). Dc redactiesommen die gebruikt werden in het trainings-
programma, dc voortoets en dc natoets waren sommen met twee operaties. Die operatics
waren optel- en aftrckopcratics.

We hebben de gegevens uit het onderzoek geanalyseerd naar semantisch structuurtype. De
resultaten van deze analyse gaven ecn beeld tc zien dat voor ons in eerste instantie onverwacht
en raadselachtig was. In tabel 5 worden die resultaten weergegeven.

Naar aanleiding van de gegevens uit tabel 5 lezen wc dat de experimentele 3e klas een
behoorlijke vooruitgang boekt gelet op het succesvol oplossen van de deel-geheel opgaven.

De vooruitgang van deze groep op de erbij-eraf en de vergelijkingsopgaven is aanzienlijk
minder. Precies het tegenovergestelde beeld zien we optreden bij de controlegroep. Bij deze
derdeklassers constateren we een aanzienlijke vooruitgang op de erbij-eraf en de vergelij-
kingsopgaven, maar minder op de deel-geheel opgaven. Hetzelfde, maar in iets sterkere mate,
zien we gebeuren bij de vierdeklassers. Er is zelfs sprake van een achteruitgang bij de
experimentele groep om de erbij-eraf opgaven.

Uit deze resultaten zouden we kunnen afleiden dat er een verband bestaat tussen type
(semantische structuur) opgave en trainingsprogramma-effect. Het trainingsprogramma lijkt
een gunstig effect te hebben op het oplossen van deel-geheel opgaven en een ongunstig effect
op het oplossen van erbij-eraf en vergelijkingsopgaven. We zullen op dezelfde manier de
resultaten analyseren uit het onderzoek van Assink en Verloop (1977).

We hebben de analyse beperkt tot die opgaven waarbij gebruik gemaakt kan worden van
één rekenkundige bewerking. Bij opgaven waarvoor meer bewerkingen vereist zijn worden
de formuleringen vaak zo lang en ingewikkeld dat ook de taalfactor mee gaat spelen. Er
blijven dan twee typen opgaven over, deel-geheel opgaven en vergelijkingsopgaven. De
resultaten zijn weergegeven in tabel 6.

Ondanks het feit dat er niet getraind is op het oplossen van redactieopgaven (de tweede-
klassers kregen alleen deel (a) en (b) van het trainingsprogramma) zien we in tabel 6 dat het
trainingsprogramma ook hier weer een gunstig effect heeft op het oplossen van deel-geheel

opgaven en geen effect op het oplossen van vergelijkingsopgaven. Het ongunstige effect,
waarschijnlijk als gevolg van extra training, blijft hier achterwege.

Het opnieuw analyseren van de resultaten van het onderzoek van Van den Berge en Bleek
(1982) stelde ons voor de nodige problemen. Om een analyse op basis van een indehng in type
opgaven te kunnen uitvoeren hebben we de resultaten per opgave uit de voor- en natoets
nodig. Dit was alleen het geval voor de natoets van de experimentele groep. Van een
heranalyse zoals met de gegevens uit het onderzoek van Assink en Verloop kon dus geen
sprake zijn. Wel was het mogelijk na te gaan of de verschillende typen opgaven vertegen-
woordigd waren en welk deel ze uitmaakten van de totale toets. Het bleek dat in de voortoets
twee van de 28 opgaven van het deel-geheel type waren, maar in de natoets kwam er geen
enkele deel-geheel opgave meer voor. En daarmee hebben we eigenlijk ook de verklaring
voor de merkwaardige verschillen in onderzoeksresultaten van Assink en Verloop (1977) en
Van den Berge en Bleek (1982). (Vergelijk tabel 1).

Het hjkt aannemelijk op grond van het voorgaande te veronderstellen dat het trainings-
programma een positief effect heeft op het oplossen van deel-geheel opgaven. Als er in de
natoets dan geen deel-geheel opgaven opgenomen zijn, zoals het geval is in het onderzoek van
Van den Berge en Bleek, dan zou ook het effect van het trainingsprogramma niet waarneem-
baar zijn. En dat is inderdaad het geval. De vooruitgang die geboekt wordt door de experi-
mentele groep van Van den Berge en Bleek is verwaarloosbaar. In het onderzoek van Assink
en Verloop bestond de helft van de opgaven uit de natoets uit deel-geheel opgaven en het
effect van het trainingsprogramma is dan ook waarneembaar (zie tabel 1).

Ook een trainingsprogramma waarin niet expliciet getraind is op het oplossen van redac-
tieopgaven met behulp van deel-geheel schema's kan interfereren bij het oplossen van
erbij-eraf en vergelijkingsopgaven. Dit is af te leiden uit de resultaten van een extra controle-
conditie uit het onderzoek van Van den Berge en Bleek. In deze extra controle-conditie werd
Wel getraind op het gebruik van letters bij het oplossen van redactieopgaven en niet in een
deel-geheel schema. Het voortoetsgemiddelde van deze groep is: 16.33, het natoetsgemid-
delde is: 20.27. Een vooruitgang die significant is. Een verklaring zou kunnen zijn dat in deze
extra controle-conditie niet de interfererende effecten van een training in een deel-geheel
schema optreden en wel de positieve effecten van het gebruik van letters bij het oplossen van
redactie-opgaven.^

We hebben aan de hand van empirische gegevens geconstateerd dat het trainingsprogramma
een negatief effect heeft op het oplossen van vergehjkingsopgaven en erbij-eraf opgaven.
Blijkbaar interfereert het deel-geheel schema in het oplossingsproces bij deze opgaven zoals
te constateren valt in tabel 5. Waarom treedt een dergehjke interferentie op? In het trainings-
programma wordt een groter dan (>) en een kleiner dan (<) relatie ingevoerd via de regel
"een deel is altijd kleiner dan een geheel en een geheel is altijd groter dan een deel". In een
vergelijkingsopgave gaat het echter niet altijd om deze groter dan, kleiner dan relatie, maar
Vaak om een relatie tussen de delen onderling. Dat betekent dat de zwakke resultaten op de
Vergelijkingsopgaven in feite veroorzaakt worden door het trainingsprogramma. In het
trainingsprogramma hebben wc expliciet gewezen op het feit dat niet de grootte van een deel
er toe doet maar wel het feit dat de som van de delen gehjk is aan het geheel.

Dit alles geeft nog geen verklaring voor het negatieve effect van het trainingsprogramma op

2. Jammer genoeg is in dc M.O.-B. scriptie (1979) van Van den Berge-Scheygrond en Bleek-Way niet te
vinden wat er plaats vond in deze controle-letterconditie.

de erbij-eraf opgave. Een analyse van de context van een erbij-eraf opgave en het verschil met
de context van een deel-geheel opgave kan misschien bijdragen tot een verklaring. Herscovics
en Bergeron (1982) onderscheiden twee soorten situaties waarin optel- en/of aftrek-opera-
ties voorkomen.

De eerste soort situatie kan sequentieel genoemd worden; d.w.z. dat een uitgangssituatie
verandert doordat een handeling plaatsvindt. Een kind heeft bijv. een aantal knikkers, gaat
spelen, wint of verliest een aantal knikkers en heeft tenslotte een aantal knikkers dat
verschillend is van het oorspronkelijke aantal. In de beschrijving van deze situatie kunnen de
termen (de aantallen) niet verwisseld worden. De tweede soort shuatie noemen we niet
sequentieel. Een voorbeeld is de situatie dat twee kinderen besluiten hun knikkers bij elkaar
te doen voordat ze tegen een ander gaan spelen. In dit geval zijn de termen wel verwisselbaar.
Of kind A of kind B het eerst genoemd wordt in de situatie doet er niet toe. Hoewel het gevolg
van beide situaties numeriek gezien hetzelfde kan zijn, zijn de processen die hiertoe leiden wel
degelijk verschillend. Dit kan het beste toegelicht worden in termen van de respectievelijke
inverse operaties. Om een situatie te herstellen waarin drie knikkers gewonnen zijn, moeten
er drie verloren worden en aftrekken is hier dan de inverse van optellen. Het herstel van het
bij elkaar doen van knikkers is het geheel weer opdelen in de oorspronkelijke aantallen. Het
verdelen is hier dan de inverse van compositie. De mentale handelingen die het kind moet
uitvoeren in de twee situaties zijn compleet verschillend.

De sequentiële situatie beschrijft het beste de erbij-eraf opgaven. De niet sequentiële
situatie beschrijft het beste de deel-geheel opgaven. Het zal duidelijk zijn dat het trainings-
programma de kinderen een instrument gaf (een deel-geheel schema) waarmee hun denken in
een bepaalde richting gestuurd werd en wei in de richting van het oplossen van één type
opgave, de deel-geheel opgave. En dit instrument was geen hulpmiddel voor de niet-sequen-
tiële situaties, voor het oplossen van de erbij-eraf opgaven. In deze situaties zal het deel-
geheel schema juist interfereren. En daarmee kunnen we ook het negatieve effect van het
trainingsprogramma op de erbij-eraf opgaven verklaren.

Het aanleren van een deel-geheel schema kan een hele nuttige functie hebben in het reken-
onderwijs. Het schema heeft, in de hier gerapporteerde onderzoeken, zijn diensten bewezen
voor puntsommen en deel-geheel opgaven. We moeten ons wel bewust zijn van de schadelijke
bijwerkingen op andere onderdelen van het rekenonderwijs (erbij-eraf opgaven en vergelij-
kingsopgaven als typen redactieopgaven). In het licht van het verrichte onderzoek in Neder-
land en België lijkt de conclusie van Resnick zoals deze in de inleiding geciteerd is wat
voorbarig.

Het blijkt een analyse van de psychologische processen te zijn, die ons op het spoor heeft
gebracht van een verklaring voor de negatieve resultaten op de erbij-eraf en de vergelijkings-
opgaven. Dit betekent dat analyses vanuit de wiskunde als systeem, d.w.z. analyses van de
mathematische structuur van een opgave, te beperkt zijn daar waar het gaat om denkproces-
sen van kinderen bij het wiskunde bedrijven (zie bijv. Treffers, 1978;.Van den Brink, 1981).

Assink, E. M. H., & Verloop, N. (1977). Het aanleren van deel-geheel relaties in het aanvankelijk
rekenonderwijs. Pedagogische Studiën, 54, 130-142.

Brink, J. van den (1981). Kinderlijke denkbeelden over substitueren. De wereld van het jonge kind, nov.
68-72.

Carpenter, I. P., Herbert, J., & Moser J. M. (1981). Problem structure and firstgrade children's initial
solution processes for simple addition and subtraction problems. Journal for Research in
Mathematics Education, 12, 27-39

De Corte, E., & Verschaffel, L. (1980). Een exploratief onderwijsexperiment met aanvankelijke reken-
opgaven bij 6 ä 8-jarige kinderen. Pedagogische Studiën, 57, 433-438.

De Corte, E., & Verschaffel, L. (1982). Eersteklassers en het spel der schoolvraagstukken. Willem
Bartjens, 4, 167-171.

Herscovics, N., & Bergeron, J. C. (1982). Pourquoi et comment decrire Ie comprehension de la ma-
thématique. Bulletin de l'AMQ (Association Mathématique du Quebec), 22 (1).

Heller, J. I., & Greeno, J. G. (1978, May). Semantic processing in arithmetic word-problem-solving. Paper
presented at the Midwestern Psychological Association Convention. Chicago, IL.

Mikulina, G. G. (1982). Psychologische mogelijkheden voor het oplossen van opgaven met lettergege-
vens. Davydov, V. V., Psychologische capaciteiten van de leerlingen van de lagere school bij het
leren van wiskunde. 1969. In M. A. D. Wolters (ed.), Vertalingenbundel Russische Psychologie,
Utrecht: SPAW.

Nesher, P., & Greeno, J. G. (1981). Semantic categories of word-problems reconsidered. The 5th
Conference of the I.G.P.M.E. (International Group for the Psychology of Mathematical Educa-
tion). Grenoble, 63-68.

Resnick, L. B. (1981). The development of number representation in children. The 5th conference of the
I.G.P.M.E. Grenoble, 69-75.

Riley, M. S., Greeno, J. G., & Heller, J. I. (1982). Development of children's problem-solving ability in
arithmetic. In H. P. Ginsburg (ed.). Development of mathematical thinking. New York; Aca-
demic Press.

Van den Berge-Scheijgrond, J. N., & Bleek-Way, M. W. (1979). Het oplossen van redactie-opgaven
opnieuw onderzocht. Scriptie MO-B Pedagogiek, Tilburg.

Van den Berge-Scheijgrond, J. N., & Bleek-Way, M. W. (1982). Het oplossen van redactie-opgaven.
Pedagogische Studiën, 59, 71-80.

Vcrgnaud, G. (1981). A classification of cognitive tasks and operations of thought involved in addition
and subtraction problems. In T. P. Carpenter, J. M. Moser, & T. Ramberg (Eds.), Addition and
subtraction: Developmental perspective. Hillsdale, N. J.: Erlbaum.

Wolters, M. A. D. (1978). Van rekenen naar algebra. Een ontwikkelingspsychologische analyse. Utrecht
(dissertatie).

Wolters, M. A. D. (1983). The part-whole schema and arithmetical problems. Educational Studies in
Mathematics, 14, 127-138.

Bij uitvoering van variantie-analyse volgens een niet-gefixeerd model is het vaak lastig de
juiste berekeningswijze van de toetsingsgrootheden te vinden of zijn de in de literatuur
aangeboden procedures erg omslachtig of onvolledig. Na een bespreking van de drie modellen
die in de variantie-analyse onderscheiden worden en een uiteenzetdng van de moeilijkheden
waar men op kan stuiten, zal een simpele manier aan de hand worden gedaan om in een aantal
veel voorkomende gevallen snel de toetsingsgrootheden te kunnen berekenen.

Een effect noemt men 'gefixeerd' als uitsluitend naar de in het onderzoek opgenomen nivo's
van de betreffende factor gegenerahseerd wordt. Een effect noemt men 'aselect' als van de
betreffende factor slechts een deel van alle mogelijke nivo's in het onderzoek vertegenwoor-
digd is en naar alle mogelijke nivo's gegeneraliseerd wordt. Idealiter zouden die opgenomen
nivo's een aselecte steekproef uit een populatie van mogelijke nivo's moeten zijn. Kortheids-
halve zal voortaan van 'gefixeerde' resp. 'aselecte' 'factoren' worden gesproken. Bij aselecte
factoren vqrmt de generalisering van de opgenomen naar alle mogelijke nivo's een extra
generalisatiestap. Als dan de toetsingsgrootheid berekend zou worden als bij gefixeerde
factoren, zou de overschrijdingskans onder de nulhypothese een onderschatting zijn van de
kans op een fout van de eerste soort. Als er aselecte factoren in het spel zijn, moet men dan
ook die toetsingsgrootheden anders berekenen dan bij uitsluitend gefixeerde factoren. Men
onderscheidt drie modellen:

3. Het gemengde model: tenminste één factor is gefixeerd en tenminste één aselect.

Voor alle modellen geldt dat als toetsingsgrootheid een (quasi) F-ratió bepaald wordt als een
quotiënt waarvan de teller en noemer onder nulhypothese dezelfde verwachtingswaarde
hebben. De samenstelling van die teller en die noemer kan onder model 2 en 3 anders zijn dan
onder model 1.

In de literatuur wordt de eigenlijke berekening van de toetsingsgrootheden behandeld aan
de hand van model 1. De rekenschema's die daar gegeven worden voor twee- en driefactorop-
zetten zijn zonder meer generaliseerbaar naar alle meerfactoropzetten. De rekenschema's

voor model 2 en 3 voor twee- en driefactoropzetten, als ze al gegeven worden, zijn dat niet.

De algemene regels om tot zo'n rekenschema te komen zijn omslachtig en onvolledig. Ook
de computer laat je vaak in de steek. Het veel gebruikte subprogramma van SPSS 'Anova'
(Nie e.a., 1975) bijv. kent slechts model 1. Dat subprogramma levert echter wel de in model 2
en 3 te gebruiken MS-termen (Mean Square).
Wat is precies het probleem?

Voor de berekening van de toetsingsgrootheid geldt onder model 1 steeds dat voor een
bepaald effect (hoofd- of interactie) de verwachtingswaarde van de MS-term voor dat effect
onder nulhypothese altijd gelijk is aan MS-error. Voor model 2 en 3 geldt dat niet altijd. Er
zijn daar drie mogelijkheden:

1. Van de MS-term van een bepaald effect is de verwachtingswaarde onder de nulhypothese
gelijk aan MS-error. Net als in model 1.

2. Van de MS-term van een bepaald effect is de verwachtingswaarde onder de nulhypothese
gelijk aan een andere MS-term dan MS-error.

3. Voor een bepaald effect moeten voor teller en noemer MS-termen gezocht worden
zodanig, dat de verwachtingswaarden van de som van de voor de teller geselecteerde
MS-termen enerzijds en van de som van de voor de noemer geselecteerde MS-termen
anderzijds onder nulhypothese aan elkaar gelijk zijn.

Het quotiënt van de onder 3 bedoelde sommen wordt een quasi F-ratio genoemd. Die heeft
onder nulhypothese bij benadering een F-verdeling.

In voorkomende gevallen kun je niet zo zien welke van de drie mogelijkheden gekozen
moet worden. Daar heb je een verwachtingswaardentabel voor nodig. Winer (1970) geeft
regels om zo'n tabel zelf op te stellen. Blijkt uit die tabel dat voor een bepaald effect de derde
mogelijkheid gekozen moet worden, dan heeft Winer, wat betreft de selectie van de termen
Voor teller en noemer, geen betere raad dan net zo lang zoeken en proberen tot het klopt. Het
's heel begrijpelijk dat de eenvoudige gebruiker, die dit niet dagelijks bij de hand heeft, het
spoor bijster raakt en in de verleiding komt zijn niet-gefixeerde model maar als een wei-ge-
fixeerd model te behandelen. Het is echter heel goed mogelijk enkele simpele regels op te
stellen met behulp waarvan men uitsluitend op grond van de kwalificaties van dc factoren en
enkele hulpbegrippen rechtstreeks, zonder de omweg van de verwachtingswaardentabel,
zonder proberen mechanisch, dus programmeerbaar, snel de juiste vulling van teller en
noemer kan bepalen. Daarover gaat deze notitie.

Behalve als gefixeerd of aselect dient men de factoren te kwalificeren in termen van nesting en
kruising. Als van twee factoren elk nivo van de ene factor gecombineerd voorkomt met elk
nivo van de andere, noemt men die factoren gekruist. Als van een bepaalde factor bepaalde
nivo's slechts voorkomen binnen één nivo van een andere, spreekt men van nesting.
Bijv.: factor A heeft 2 nivo's, B 6. Van B komen de nivo's 1,2 en 3 slechts voor binnen nivo 1
Van A, de nivo's 4, 5 en 6 van B slechts binnen nivo 2 van A. Dan is A de nestende factor en B
de geneste. Ook binnen B kan weer kan weer een volgende factor genest zijn. Het aantal
nestingen is in principe onbeperkt.

Als er geneste factoren zijn, is het nodig te gaan denken in termen van 'torens'. Een complex
van een nestende factor met alle daarin geneste factoren zullen wij een 'toren' noemen.
Daarin vormt de nestende factor de bovenste laag en de diepst geneste de onderste. Zo'n
toren kun je uit verschillende standpunten bekijken. Bijv.: Binnen de factor A is B genest en
binnen B weer C. Dan is er nog een factor D die met A, B en C gekruist is. Vanuit A bekeken
bestaat toren ABC slechts uit B en C. Vanuit B bekeken slechts uit C. Vanuit D uit A, B en C.

Het is niet mogelijk een toets uit te voeren voor de interactie tussen de verschillende lagen
van dezelfde toren.

Zulke torens kunnen ook uit interacties opgebouwd zijn. In het zojuist gegeven voorbeeld
zou dat de toren bestaande uit de interacties AD, BD en CD kunnen zijn.

Een factor of combinatie van factoren zonder nestingen kunnen wij beschouwen als een
éénlaagstoren.

In het voorbeeld noemen wij de toren ABC bekeken vanuit A de 'eigen' toren. De toren D
is bekeken vanuit A een 'kruisende' toren.

Als een toren, bekeken vanuit een bepaald standpunt, aselecte termen bevat, kunnen wij voor
dat standpunt in die toren de eerst lagere aselecte term (elat) vaststellen. Als in het voorbeeld
A, B en D aselect zijn en C gefixeerd, dan is in de toren ABC bekeken vanuit A de elat B,
bekeken vanuit B is er geen elat en bekeken vanuit D is de elat A. Zou echter A gefixeerd zijn,
dan zou vanuit D bekeken B de elat zijn.

In een toren bestaande uit interacties is een term aselect als alle erin deelnemende factoren
aselect zijn. Voegen wij aan het voorbeeld nog een kruisende factor (of toren) E toe, dan is in
de toren bestaande uit AD, BD en CD bekeken vanuit E de elat AD. Zou echter A gefixeerd
zijn, dan zou vanuit E bekeken BD de elat zijn.

Hoofdeffecten noemt men van de orde 0 (nul). Interactieëffecten van twee factoren van de
orde 1. In het algemeen is van een combinatie van j factoren de orde Oj gelijk aan j-1. Zijn er t
verschillende torens met als hoogste laag een niet geneste factor, dan is de hoogst mogelijk
orde gelijk aan t-1.

tl. In de teller van de (quasi) F-ratio voor een bepaald effect komt in elk geval de MS-term
voor dat effect.

t 2. Voorts komen in de teller de MS-termen voor de interacties tussen de elats uit de eigen
toren enerzijds en de elats uit alle kruisende torens anderzijds voorzover die bestaan en
voorzover die interacties van een orde Oj zijn die voldoet aan Oj < O max (uiteraard) en
Oj = Oj - 1 + h X 2 waarin 0^ de orde van het effect en h een hulpvariabele is die
achtereenvolgens de waarden 1, 2, 3 etc aanneemt.

t 3. Tenslotte komen in de teller de MS-termen voor de interacties tussen de betreffende
factor of combinatie van factoren enerzijds en de elats uit de kruisende torens anderzijds
voorzover die interacties bestaan en voorzover die van een orde zijn die voldoet aan
Oj < O^ax en Oj = Oe + h x 2.

In de noemer van de (quasi) F-ratio voor een bepaald effect komt uitsluitend MS-error als er
m de eigen en in de kruisende torens geen elats zijn. Anders komen in de noemer:

n 1. De MS-term voor de elat uit de eigen toren, als die bestaat tenminste,
n 2. De MS-termen voor de interacties tussen de elat uit de eigen toren enerzijds en de elat uit
de kruisende torens anderzijds voorzover die bestaan en voor zover die interacties van
een orde zijn die voldoet aan Oj < O^ax en Oj = -(- h x 2.
n 3. De MS-termen voor de interacties tussen de betreffende factor of combinatie enerzijds
en de elats uit de kruisende torens anderzijds voor zover die bestaan en voor zover die
interacties van een orde zijn die voldoet aan 0| = Oe - 1 + h x 2.

1- Vier factoren A, B, C en D. Volledig gekruist. Alleen C gefixeerd. In de teller van F (CD)
komt uit hoofde van t 1 MS (CD), t 2 is hier niet van toepassing. Bekeken vanuit CD bevat
alleen de toren AC een elat AC waarmee de interactie ABCD van de juiste orde is. Uit hoofde
van 13 komt in de teller dus ook nog MS (ABCD). De teller wordt dan
MS (CD) -I- MS (ABCD). Voor de noemer zijn n 1 en n 2 niet van toepassing. Bekeken vanuit
CD bevatten de torens A en B beide een elat, A en B, waarmee de interacties, ACD en BCD,
Van de juiste orde zijn. Uit hoofde van n 3 komt in de noemer dus MS (ABCD). De noemer
wordt dan MS (ABD) -t- MS(BCD). F(CD) = (MS(CD)-I-MS(ABCD))/(MS
(ACD)-^MS(BCD)).

2. Vijf factoren A, B, C, D en E. B is genest binnen A en C is weer genest binnen B. Het
geheel is gekruist met D en E. A, B en D zijn aselect, C en E gefixeerd. In de teller van F(A)
komt uit hoofde van n 1 MS(A) te staan. De elat uit de eigen toren is B. Bekeken vanuit B
bevat alleen de toren D een elat, D waarmee de interactie BD van de juiste orde is. Uit hoofde
Van 12 komt in de teller dus ook nog MS(BD). Bekeken vanuit A is er geen toren die een elat
bevat waarmee de interactie van de juiste orde is. Uit hoofde van t 3 komen er geen
MS-termen bij. De teller wordt MS(A) -i- MS(BD).

In de noemer komt uit hoofde van n 1 MS(B). Bekeken vanuit B is er geen toren die een elat
bevat waarmee de interactie van de juiste orde is. Uit hoofde van n 2 komen er geen
MS-termen voor de noemer bij. Bekeken vanuit A bevat de toren D een elat D waarmee de
interactie van de juiste orde is. Uit hoofde van n 3 komt in de noemer dus ook MS(AD). De
noemer wordt MS(B) -H MS(AD).
F(A)=(MS(A) -t- MS(BD))/(MS(B) + MS(AD)).

^fsotnTj = (som Tj)Vsom(Tj^/df) afgerond op het dichtstbijzijnde gehele getal.
In F(CD) in het voorbeeld is het aantal vrijheidsgraden vqpr de teller:

Voorbeeld 1
F(A)

F(B)

F(C)

F(D)

F(AB)

F(AC)

F(AD)

F(BC)

F(BD)

F(CD)

F(ABC)

F(ABD)

MS(DE)

90 Notities en commentaren

F(DE)

F(ADE)

F(BDE)

F(CDE)

MS(ADE)

MS (error)

MS(BDE)

MS(error)

MS(CDE)
MS(error)

Nie, N.H., Hull, H.C., Jenkins, J.G., Steinbrenner, K., & Bent, D. (1975).5^55, Statistical package for the

social sciences (2nd ed.). New York: McGraw-Hill.
Winer, J.B., (1970). Statistical principles in experimental design. London: McGraw-Hill.

Kunnen mensen Ieren van hun ervaringen? Zo langzamerhand groeit de stapel psychologische literatuur
Waarin op deze vraag een pessimistisch antwoord wordt gegeven. Een belangrijk artikel in dit verband,
geschreven door de Zweedse research psycholoog Brehmer (1980), is zelfs expliciet getiteld: "In one
Word: not from experience". Hij verdedigt daarin de stelling - mede op basis van een reeks eigen
onderzoekingen - dat het mensen in het algemeen ontbreekt aan adekwate strategieën om met probabi-
listische informatie om te gaan. In oordeelssituaties nu waar de te beoordelen "stand van zaken" (het
kriterium) imperfekt samenhangt met de "voorhanden informatie" (z.g. cues) zal derhalve de beoordc-
lingsprestatie achterblijven bij hetgeen theoretisch mogelijk zou zijn, indien de beoordelaar het probabi-
listisch karakter van de oordeclssituatie op juiste waarde zou weten tc schatten. Een centraal onder-
zoeksparadigma op dit gebied - ook gehanteerd door Brehmer - staat bekend als "Multiple Cue
Probability Learning" (MCPL), gebaseerd op het door Brunswik in 1955 geïntroduceerde "lensmodel":
proefpersonen moeten op grond van een of meer cucs de waarde op een kriterium voorspellen dat
■niperfekt met de cue-verzameling samenhangt. Na iedere voorspelling wordt de "ware" waarde van het
kriterium aan de proefpersoon meegedeeld, zodat deze van zijn ervaringen kan leren. Dit nu gebeurt
onvoldoende om - naar Brchmer veronderstelt - dc eerder genoemde reden. In zijn proefschrift "Gissen
en Beslissen" vecht Koele Brehmer's verklaring ten aanzien van de rol van probabilistisch denken aan.
Hij doet dit door "een methodologische analyse" - ik citeer hier de ondertitel van het bock - van het
MCPL-paradigma, in het bijzonder aan dc hand van een kritische bespreking van opzet en interpretatie
Van een aantal experimenten van Brchmer, gevolgd door de presentatie van eigen empirisch onderzoek.
Alvorens daartoe over te gaan geeft Koele een kort overzicht van het onderzoek naar informatieverwer-
king in het algemeen en in probabilistische situaties in het bijzonder. Een overzicht dat eerder als
joegespitst op de specifieke onderzoeksvraagstelling dan als volledig kan worden gekenschetst. Zoals ik
'n het onderstaande zal beargumenteren, leidt deze onvolledigheid tot problemen bij de interpretatie van
Kocle's resuhaten in ccn breder informatieverwerkingskader. Speciale aandacht krijgt vanzelfsprekend
het lensmodel van Brunswik dat uitgebreid door Koele wordt toegelicht. In de formulering daarvan als
een statistisch regressiemodel zijn - als komponenten van de "prestatie" van de proefpersoon, d.w.z. de
korrelatie tussen het kriterium cn het oordcel-dc volgende grootheden relevant voor MCPL-onderzock:
de multiple korrelatie tussen de cues cn het kriterium (Rlc]) enerzijds, die tussen de cues cn het oordeel
(R[s]) anderzijds en tenslotte de korrelatie tussen de regressie van het kriterium op de cues en de regressie
Van het oordcel op dezelfde cues (G). Terwijl R(e] iets van de omgeving (dc "ekologie") op zich zegt, is in
Ris] en G het gedrag van dc proefpersoon betrokken. Deze indexen worden dan ook gewoonlijk
Respektievelijk als "konsistentie" en "taakkennis" benoemd. Zowel in de inleiding als in het konklude-
fend hoofdstuk dingt Koele op theoretische cn empirische gronden op zulke "gedragsinterpretaties" af.
Hoewel de redenering terzake mijns inziens op een aantal punten feilen vertoont, zal ik me ter voorko-
ming van een minutieuze exegese tot twee hoofdzaken beperken.

Allereerst doet Koele het op zijn minst voorkomen alsof veel MCPL-onderzoekers, inzonderheid
Brehmer, het lensmodel als afspiegeling van het kognitief funktioneren beschouwen in plaats van als
handig raamwerk om een aantal onderlinge (on)voorspelbaarheden tussen omgevingsinformatie en
oordeclsgegevens te beschrijven. Misschien bedoelt Koele het niet zo, maar dan was een grotere
Zorgvuldigheid in de formulering wel op zijn plaats geweest, temeer daar uitgerekend Brehmer (1979)
Z'ch in zijn ook door Koele aangehaalde artikel "Preliminaries to a psychology of inference" expliciet
tegen een dergelijke 'context of discovery'-interpretatie uitspreekt (o.e., p. 199). Met de gesignaleerde

onduidelijlcheid ten aanzien van de pretenties van liet lensmodel hangt ook het volgende punt samen. Als
er in de omgeving betrouwbare niet-lineaire relaties tussen de cues en het kriterium bestaan die ook door
de beoordelaar in zijn oordeelsvorming worden meegenomen, kan de index G een onderschatting van de
"taakkennis" en de index R[s] een onderschatting van de "konsistentie" geven. Dus, waarschuwt Koele,
pas op met "gedragsinterpretaties" van beide. Echter, binnen een bescheiden 'context of justification'-
pretentie is het strikt legitiem te onderzoeken hoe goed een eenvoudig lineair model "past" bij de
gegevens. Ben je geïnteresseerd in het konsistent voorspellen door de proefpersoon van niet-lineaire
relaties in de omgeving, dan wel in het door hem/haar konsistent oordelen volgens niet-lineaire relaties -
of die nu in de omgeving aanwezig zijn of niet -, dan kunnen niet-lineaire funkties van de cues altijd als
termen in het lineair model worden "meegenomen". Koele bespreekt dit uitgebreid en hanteert deze
techniek ook in zijn eigen experimenten. Het wekt dan ook des te meer bevreemding dat in het
slothoofdstuk een nieuwe maat voor "konsistentie" wordt ingevoerd en empirisch met R[s] wordt
vergeleken. Een maat die in essentie bestaat uit het gemiddelde absolute verschil tussen oordelen op
herhaalde afnamen van dezelfde oordeelstaak. Een soort test-hertest "korrelatie" derhalve waar niet -
zoals bij gewone korrelaties - voor verschil in niveau en spreiding wordt gekorrigeerd. Hoewel ook op dit
aspekt valt af te dingen, is de meer principiële vraag wat eigenlijk het toegevoegde nut van de nieuwe maat
is, daar het eenvoudige verschil tussen een gewone test-hertest korrelatie en R[s] in feite al de relevante
informatie over de voorspelbaarheid van de beoordelaar volgens een eenvoudig lineair model verschaft.
En het lijkt mij relevanter vervolgens te onderzoeken welke redelijk eenvoudige konfigurele aspekten de
test-hertest korrelatie mede bepalen dan de gehele verzameling van mogelijke konfiguraliteiten in een
enkele nieuwe konsistentiemaat ongedifferentieerd mee te nemen. Het is dan ook niet verbazingwekkend
dat bij de empirische vergelijking van R[s] mef de nieuwe maat de laatste anders uitvalt. Het zijn niet
"twee maten voor hetzelfde begrip" (Koele, pag. 128), maar gewoon twee verschillende grootheden, die
onderscheiden informatie representeren. Overigens valt het met konsistente konfiguraliteit bij beoorde-
laars in praktische settings nogal tegen. Uitgebreid empirisch onderzoek zowel door Goldberg - die dan
ook ten onrechte door Koele op zijn laatste pagina wordt gewraakt - als anderen laat zien dat konfigurele
aspekten van oordeelsgedrag (b.v. als moderatoren in een regressie-formule opgenomen) kruisvalidatie
doorgaans niet overleven (zie voor een uitgebreide dokumentatie: Wiggins, 1980). En tenslotte, als het
gaat om een goede oordeelsprestatie is konsistente konfiguraliteit alleen maar interessant, voorzover dat
een reële weerspiegeling van de konfiguraliteit in de taakstruktuur betreft. Het is verstandig om een
operatie konsistent volgens het boekje uit te voeren, maar het kriterium is natuurlijk dat de patiënt het er
levend afbrengt.

Nu ik toch in een meer inhoudelijk dan formeel vaarwater verzeild ben geraakt, ben ik in de positie om
mijn hoofdzakelijk inhoudelijke kritiek op Koele's empirisch onderzoek te bespreken. Want, wat dc
methodiek van het onderzoek betreft. Koele laat zich kennen als een gedegen methodoloog die de kunst
van het methodisch ontrafelen van de experimenten van Brehmer en het methodisch goed opzetten en
rapporteren van eigen onderzoek beheerst. Ik heb er dan ook geen moeite mee hem te volgen in zijn
analyse op grond waarvan hij Brehmer's experimenten als onvoldoende steun bestempelt voor diens
opvatting dat gebrekkige noties over waarschijnlijkheid bij-beoordelaars leidt tot suboptimale prestaties
in MCPL-experimenten. Het in het begin van deze recensie genoemde artikel van Brehmer (1980)
echter, waar ook Koele vanuit gaat, berust op meer empirisch onderzoek dan alleen diens eigen
MCPL-experimenten en is mijns inziens alleszins overtuigend. Ik vind het dan ook verwonderlijk dat
Koele zich voor het aanvechten van Brehmer's opvatting alleen op enkele nieuwe variaties in het
MCPL-paradigma baseert zonder Brehmer's overige argumentaties in de beschouwing te betrekken.
Bovendien maakt Koele het punt niet dat hij skoren wil. In een reeks van drie MCPL-experimenten wordt
de invloed van het betekenisvol etiketteren van cues en kriterium, de mate vaniineariteit in de taakstruc-
tuur en het informeren van de proefpersonen over de te verwachten voorspellingsfout bij het oordeel als
onafhankelijke variabelen op voorspellingsprestatie als afhankelijke variabele onderzocht. Wat blijkt?
De enige variabele die rechtstreeks op noties over waarschijnlijkheid slaat - informatie over de voorspel-
lingsfout - heeft geen effekt, klaarblijkelijk, zoals Koele veronderstelt, omdat de taak in het ene
experiment te gemakkelijk en in het andere te moeilijk was. Zodat Brehmer's opvatting nog niet weerlegd
is. "Betekenisvol etiketteren" heeft in Koele's onderzoek wél invloed, echter alléén op R[s] (konsisten-
tie) en niet op G (taakkennis). Dit nu heeft niets met probabilistisch denken te maken maar alles met het
konsistent toepassen van een reeds bekende theorie die in de etiketten op een presenteerblaadje wordt

aangereikt: de relatie tussen Intelligentie en Prestatiemotivatie als cues en tentamenresultaat als krite-
rium. In het eerste experiment spreekt de taakstruktuur de verwachtingen bovendien nauwelijks tegen, in
het laatste wel - een U-vormige relatie tussen prestatiemotivatie en tentamenresultaat -, hetgeen het de
proefpersonen ook iets moeilijker maakte om, zoals Koele met betrekking tot het eerste experiment
rapporteert, een "omgekeerd U-vormige" relatie te "ontdekken". De meerderheid hield zich echter -
getuige de vragenlijst achteraf - wel aan een "monotoon stijgende". Dit alles zou ook verwacht moeten
Worden op grond van o.a. het uitgebreide onderzoek van Chapman en Chapman en Jennings, Amabile en
Ross, waaruit blijkt dat mensen in "betekenisloos" materiaal korrelaties grotelijks onderschatten en in
"betekenisvol" materiaal de verwachte korrelaties ten onrechte waarnemen. Een en ander is theoretisch
en empirisch uitvoerig gedokumenteerd door o.a. Nisbett en Ross (1980) in hun bekende boek "Human
■nference", waarvan het ontbreken op de literatuurlijst bij een dissertatie als de onderhavige in elk geval
bij mij bevreemding wekt. Zowel het artikel van Brehmer als het boek van Nisbett en Ross leiden
derhalve bij mij ten aanzien van Koele's resultaten tot de herhaling van Brehmer: "In one word, not from
experience". Koele kan natuurlijk tegenwerpen dat de informatie in de door hem posthoc afgenomen
Vragenlijsten anders doet vermoeden, al ben ik ook daar niet geheel zeker van gezien zijn beduchtheid
Voor "post-experimentele sensitisatie" (p. 74). Feit blijft, dat vanuit het proefschrift zo'n tegenwerping
Onvoldoende onderbouwd kan worden, al was het alleen maar omdat nauwelijks aandacht wordt besteed
aan de problemen rond het akkuraat kunnen rapporteren van interne processen, iets waar we sinds
Nisbett en Wilson (1977) - niet door Koele geciteerd - moeilijk meer om heen kunnen. Waar het om gaat
's niet welk gewicht proefpersonen zeggen toe te kennen aan welke cue en welke funktionele vorm ze
^fggen te gebruiken, maar wat ze feitelijk doen. Daarvoor heb je de bêta-gewichten uit de regressie van
het oordeel op de cues nodig, maar die geeft Koele niet! Terwijl, zoals Brehmer en Kuylenstiema (1980)
'aten zien, juist het konsistent gaan hanteren van specifieke gewichten volgens je theorie bij een
betekenisvolle taak - ook al kloppen die gewichten niet met de aangeboden taakstruktuur - verantwoor-
delijk kan zijn voor de algehele konsistentieverhoging.

Het zal duidelijk zijn dat ik "Gissen en Beslissen" niet als een afgewogen monografie over beslissen in
onzekere situaties kan aanbevelen. Desalniettemin valt er voor degene die ervan houdt om een weten-
schappelijk boek in zijn redeneringen en zijn konklusies uit empirisch onderzoek kritisch op zijn waarde
'e toetsen veel van te leren. En het is ook zeker zo dat het als specimen voor een technisch goed opgezet
onderzoek zijn diensten kan bewijzen. In beide gevallen zal de lezer dan wel het ruimschoots meer dan
niodale aantal vaak hinderlijke typefouten voor lief moeten nemen.

Brehmer, B. (1979). Preliminaries to a psychology of inference. Scandinavian Journal of Psychology, 20,
193-210.

Brehmer, B. (1980). In one word: not from experience./lc<a Psychologica, 45, 223-241.
Brchmer, B. & Kuylenstiema, J. (1980). Content and consistency in probabilistic inference tasks.

Organizational Behavior and Human Performance, 26, 54-64.
Nisbett, R. E., & Ross, L. (1980). Human inference: strategies and shortcomings in social judgment,

Englewood Cliffs, N.J.: Prcntice Hall.
•Nisbett, R. E., & Wilson, T. D. (1977). Telling more than we can know: verbal reports on mental

Wiggins, J. S. (1980). Personality and prediction: principles of personality assessment (2nd ed.). Reading,
Mass.: Addison-Wesley.

Akkermans, P.W.C. en J.M.G. Leune (red.). Het bestuur van het openbaar onderwijs. Den Bosch:
Malmberg, 1983. Thans Lisse: Swets & Zeitlinger.

Blok, H. Estimating the reliability, validity and invalidity of essay ratings. Amsterdam: SCO, 1983. (SCO
Cahier).

Bronneman-Helmers, R. De arbeidsmarkt voor hoger opgeleiden. Ontwikkelingen en vooruitzichten.
Rijswijk: Sociaal Cultureel Planbureau, 1984. (Stukwerk nr. 15).

Dekker, H. en P. Licht (red.). Didactische werkvormen. Amsterdam: Vereniging universitaire leraren-
opleiding Nederland, 1983.

Gedrags- en Maatschappijwetenschappen. Beleidsnota. Den Haag: Staatsuitgeverij, 1983. (Ministerie van
Onderwijs en Wetenschappen).

Grift, W. van de, G. de Vries en J. Baltzer. De externe evaluatie van het landelijk leerplaatsenproject.
Amsterdam, SCO, 1983.

Haenen, J. en B. van Oers (red.). Begrippen in het onderwijs. De theorie van Davydov. Amsterdam:
Pegasus, 1983.

Hout-Wolters, B. van, J. Jongepier en A. Pilot. Studiemethoden. Utrecht etc.: Spectrum, 1983. (Aula
812).

Israels, H. 'Helpt" studentenbegeleiding?. Leiden: Bureau onderzoek van onderwijs Rijksuniversiteit,
1983. (Rapport nr. 26).

Israels, H. Het studieadvies en de propedeuse: een waardeloze wettelijke formaliteit. Leiden: Bureau
onderzoek van onderwijs Rijksuniversiteit, 1983. (Rapport nr. 27).

Jansen, F. Veranderend leerkrachtgedrag en sociale ontwikkeling van leerlingen. Harlingen: Flevodruk,
1983. (SVO-reeks nr. 73).

Kosters, J., J. Weterings, D. van der Ploeg en H. Franssen. Gezocht: een nieuwe methode. Ontwikkeling
van een handleiding ter ondersteuning van keuzeprocessen voor onderwijsleerpakketten voor het
basisonderwijs. Utrecht: Vakgroep Onderwijskunde, 1984. (Eindrapport van het project SVO
0500).

Moonen, J. en F. Gastkemper. Computergestuurd onderwijs. Utrecht etc.: Spectrum, 1983. (Aula 811).

Schmidt, H. G. en P.A.J. Bouhuijs. Onderwijs en taakgerichte groepen. Utrecht etc.: Spectrum, 1980
(Aula 803).

Van tekentafel tot levend geheel. Advies over schoolwerkplanontwikkeling in het basisonderwijs. Zeist:
Onderwijscentrum, 1983.

(Adviesraad voor het basisonderwijs, het speciaal onderwijs en de opleidingen en naschohng
voor de onderwijsgevenden in het basisonderwijs en het speciaal onderwijs).

Vries, G. C. de. De school beleefd. Een verkennend onderzoek naar ervaringen van leerlingen in LBO en
MA VO te Deventer en Olst in het kader van het voorlopig onderwijsvoorrangsbeleid. Am-
sterdam: SCO, 1983.

Burgerinformatica; leren over informatietechnologie in de eerste fase van het voortgezet onderwijs, door
Tj. Plomp en G.J.E. van de Wolde.

I^e computer als leermiddel in het lager onderwijs, door J.J. Beishuizen en A. Dirkzwager.

Kroniek: De opening van het Centrum voor Onderwijs en Informatietechnologie (C.O.I.), door G.
Kanselaar.

Periodiek onderzoek naar de kwaliteit van het onderwijs: enige praktische ervaringen en methodologi-
sche problemen, door W.J. van der Linden en W.J. Pelgrum.

Didactiek en inhoud van het leesonderwijs in de 19e eeuwse volksschool, door K. Abelman, H. de
Frankrijker en W. Verhey.

Kronieken: Curriculum-innovatie in Ontario, Canada, door P. N. Appelhof en T.A.M. van der Meer.

De NLO's en de eerste-graadslerarenopleiding. Een reactie op J.H.G.I. Giesbers 'Beiaard
en de universitaire lerarenopleiding', door F.J. Krips.
Naschrift bij de reactie van F.J. Krips, door J.H.G.I. Giesbers.

Het prof. Duijkerfonds is door de Universiteit van Amsterdam ingesteld om door het doen van uitkerin-
Een de beoefening van de toegepaste psychologie te bevorderen.

Voor het jaar 1985 is een bedrag in de orde van ƒ 25.000,- beschikbaar ten behoeve van een of meer
onderzoekprojecten. De bedoeling is kwalitatief goed onderzoek mogelijk te maken, dat anders niet
gerealiseerd zou worden omdat de middelen ontbreken.
Te denken valt bijvoorbeeld aan financiële steun voor:

- de kosten van een voorstudie of vooronderzoek, eventueel ook van de uitwerking van een onder-
zoekopzet

- de aanschafkosten van onmisbare apparatuur, literatuur enz.
de kosten van inschakeling van tijdelijke hulpkrachten.

Subsidie-aanvragen moeten worden ingediend op een aanvraagformulier, dat door het secretariaat op
Verzoek wordt toegestuurd.

Het programma 1984 van het postacademisch onderwijs sociale wetenschappen is onlangs verschenen.
Het bevat korte aankondigingen van enkele tientallen cursusaktiviteiten, en is verkrijgbaar bij het
Centraal Bureau PAOS, Stationsweg 46, 2312 AV Leiden.

Te bestellen bij de boekhandel of door overmaking van het bedrag op girorekening
13984 t.n.v. Swets Publishing Service, Heereweg 347b, 2161 CA Lisse,
met vermelding van het vetgedrukte nummer.

De Houding van Laatstejaarsleerlingen uit het
Algemeen Vormend en Technisch Secundair
Onderwijs in België tegenover Moderne Vreemde
Talen

Items measuring attitudes toward foreign languages (French, English, German, Dutch) were
presented to a sample of 1940 subjects. This sample consisted of Dutch-, French- and German-
speaking students in their last year of secondary education in Belgium (average age: 18 to 19 years
depending on the type of orientation: general formative or technical orientation). By using
Bechtel's multidimensional preference scaling model the items could be related to a number of
underlying dimensions, such as: instrumental interest in a language, several forms of integrative
interest, the degree of easiness in dealing with a language, the attractiveness of a language. These
dimensions were weighted differently when different languages were judged on the items. This
was true for each of the three different language speaking groups. Also, these dimensions were
weighted differently when the same language was judged on the items by different language
speaking groups.

Het onderzoek waarover dit artikel verslag uitbrengt maakt deel uit van een globaal onder-
zoeksproject naar de belangstelling voor en de behoefte aan moderne talen in België'. Het
totale project omvat drie onderzoekingen:

- De belangstelling voor moderne talen in het secundair onderwijs
~ De behoefte aan moderne talen in bedrijven en overheidsdiensten.
~ De behoefte aan moderne talen in de universiteiten.

De uitwerking van het totale project werd geïnspireerd door een onderzoek dat in Nederiand
Werd verricht door het Instituut voor Toegepaste Sociologie (I.T.S.) te Nijmegen.

In dit artikel wordt een deel van de resultaten van het onderzoek in het secundair onderwijs
besproken. Hieraan namen 1940 leeriingen in het laatste jaar van het algemeen vormend en
het technisch secundair onderwijs van het schooljaar 79-80 deel, nl. 861 nederiandstalige,
724 franstalige en 355 duitstalige leeriingen. Het beroepsonderwijs werd niet in het onder-

1 • Het onderzoek wordt verricht aan het Centre de Recherches Sociologiques van de Université Catholi-
que de Louvain, in samenwerking met het Centrum voor Mathematische Psychologie en Psychologi-
sche Methodologie van de Katholieke Universiteit te Leuven. Het project wordt gesubsidieerd door
het Nationaal Fonds voor Kollectief Fundamenteel Onderzoek.

Adres auteurs: Faculteit der Psychologie en Pedagogische Wetenschappen, Tiensestraat 102, B-3000
Leuven (België).

zoek betrokken omwille van de zeer beperkte plaats die de moderne talen innemen in het
programma van dit onderwijs.

Aan deze laatstejaarsleerlingen werd een schriftelijke vragenlijst aangeboden, waarin naast
een aantal persoonskenmerken o.m. gevraagd werd naar hun talenachtergrond (moedertaal,
eventueel andere perfect beheerste talen, langdurig verblijf in anderstalige gebieden, talen-
kennis van de ouders), hun beoordeling van het gekregen talenonderwijs, hun verwachtingen
ten aanzien van het toekomstig gebruik van moderne talen en tenslotte hun attitude t.o.v. de
moderne talen. In dit artikel wordt enkel nader ingegaan op deze attitude van de leerlingen
t.o.v. de talen. Het is duidelijk dat de talenachtergrond van de leerlingen een belangrijke rol
speelt bij het vormen van hun opinies t.o.v. deze talen. Anderzijds zal hun attitude t.o.v. de
talen hun beoordeling van het gekregen talenonderwijs en hun toekomstverwachtingen voor
het gebruik van moderne talen beïnvloeden. Het bestuderen van de attitudes vormt dus een
belangrijk onderdeel van het onderzoek in het secundair onderwijs.

Lambert (1972) maakt in zijn theorie over het leren van vreemde talen, waarin de nadruk
wordt gelegd op de sociaal-psychologische aspecten van dit leerproces, een onderscheid
tussen instrumentele en integratieve motieven voor het leren van een vreemde taal. Hij
spreekt van instrumentele motieven indien het gebruik van een taal ten behoeve van studie en
beroep, of het belang van de kennis van een taal voor het maken van promotie, domineren. Er
is sprake van integratieve motieven indien er interesse is voor de cultuur van de andere
taalgemeenschap, indien men direct contact wil met diegenen die de taal spreken. Bovendien
meent Lambert dat voor het succesvol leren van een vreemde taal een positieve integratieve
houding ten opzichte van die taal nodig is.

Om de houding van de leerlingen ten opzichte van de moderne talen te onderzoeken werd een
lijst met attitude-uitspraken opgesteld. Voor de nederiandstalige leerlingen werd hun attitude
gevraagd t.a.v. het Frans, het Engels en het Duits; voor de franstalige leerlingen t.a.v. het
Nederlands, het Engels en het Duits; en voor de duitstalige leerlingen t.a.v. het Nederlands,
het Frans en het Engels.

Voor het formuleren van de uitspraken werd gesteund op het onderzoek gedaan door het
l.T.S. in Nederland, op literatuur in verband met attitudes ten opzichte van moderne talen
(Lambert) en op een open-houdingsvraag in een vooronderzoek. Er werd gepoogd om in de
uitspraken drie soorten motieven aan bod te laten komen, nl.:

De 15 uitspraken die uiteindehjk werden weerhouden staan vermeld in tabel 1. Voor het
Frans bij de nederlandstaligen en het Nederlands bij de franstaligen Werd een 16de uitspraak
bijgevoegd i.v.m. het communautair aspect. Voor het formuleren van deze uitspraak werd
gesteund op een open-houdingsvraag in het vooronderzoek over het Frans in het neder-
landstalig taalstelsel en het Nederlands in het franstalig stelsel. De antwoorden op deze
open-houdingsvraag hielden veelal verband met de kennis van de andere landstaal in beide
taalgebieden. Bij elke uitspraak dienden de leerlingen hun antwoord aan te kruisen op een
7-puntenschaal gaande van 'zeer onjuist' tot 'zeer juist'. Om bepaalde antwoordpatronen (b.v.
altijd 'juist' antwoorden) bij de leerlingen te vermijden werden de uitspraken zowel negatief
als positief geformuleerd. Voor de verwerking zijn de antwoorden op negatief geformuleerde

uitspraken (4, 5, 11, 13 en 14) gespiegeld, d.w.z. 'zeer onjuist' wordt 'zeer juist', 'onjuist'
Wordt 'juist', enz. Tabel 1 geeft voor de uitspraken i.v.m. de drie talen het percentage
leerlingen dat de betreffende uitspraak beoordeelt als 'eerder juist', 'juist' of 'zeer juist'.

Uit deze tabel blijkt dat de nederlandstalige, franstalige en duitstalige leerlingen in hun
beoordelingen van de talen verschillen.

~ zowel de nederlandstahgen als de franstahgen hebben, globaal genomen, de meest posi-
tieve houding ten opzichte van het Engels. Bij de duitstaligen komt het Frans op de eerste
plaats (een duidelijke uitzondering hierop vormt uitspraak 11), gevolgd door het Engels;
~ bij uitspraak 16 valt op dat zowel de nederlandstaligen als de franstahgen het in grote mate
eens zijn met een passieve tweetaligheid (84% en 80%);

de houding van de nederlandstaligen t.o.v. het Frans is minder positief dan deze van de
duitstahgen;

indien we voor het Nederlands, het Engels en het Duits de verschillen tussen de drie
taalgroepen bekijken, liggen deze anders voor de verschillende uitspraken. Om een beter
beeld te krijgen van deze verschillen wordt in de volgende paragraaf de toepassing van
Bechtel's multidimensioneel schaalmodel op onze gegevens besproken.

3. TOEPASSING VAN BECHTEL'S MULTIDIMENSIONEEL SCHAALMODEL
VOOR DE ANALYSE VAN VOORKEURGEGEVENS

In de eerste plaats werd via zes factoranalyses nagegaan of de 3 motieven die in de attitude-
ti'tspraken zouden aan bod komen, kunnen teruggevonden worden. Deze zes analyses hadden
betrekking op de gegevens van twee taalgroepen, nederlandstahgen en franstahgen, tegen-
over resp. Frans of Nederlands, Engels en Duits. Deze zes analyses leverden geen bevredi-
gend resultaat op, d.w.z. de hypothese i.v.m. de 3 soorten motieven werd niet bevestigd.
Bovendien waren de aantallen factoren en (geroteerde) factorpatronen verschillend voor de
diverse analyses. Evenmin konden de uitspraken gegroepeerd worden in termen van andere
consistent interpreteerbare motivatiefactoren. Tot op zekere hoogte konden de gegevens
'elkens verklaard worden door slechts één globale houdingsfactor die aan de basis ligt van de
attitude van de leerlingen ten opzichte van de moderne talen.

Nochtans blijkt uit tabel 1 dat de beoordelingen van de nederlandstaligen, franstahgen en

duitstaligen voor de verschillende talen verschillen opleveren. Nu zijn er wel verschillen

'ussen de uitspraken wat betreft de mate waarin een leerling een bepaalde uitspraak als juist of

onjuist beoordeelt . D.w.z. dat een leerling die een positieve houding heeft t.o.v. een bepaalde

globaal genomen alle uitspraken eerder als juist zal beoordelen (indien ze allemaal

Positief geformuleerd zijn), maar dat hij bepaalde uitspraken bijv. als 'zeer juist' zal beoorde-

en en andere als 'eerder juist'. Die leerling zou een uitgesproken positieve houding hebben

•o.y. een bepaalde taal voor bepaalde aspecten (motieven) en een minder uitgesproken

Positieve houding voor andere aspecten (motieven). Gelijkaardig zou een leerling die een

negatieve houding heeft voor een bepaalde taal, bepaalde uitspraken als 'zeer onjuist'

eoordelen en andere als 'eerder onjuist'. Op die manier zouden we wel verschillende

motieven kunnen onderscheiden in de houding t.o.v. een bepaalde taal. Factoranalyse -

oegepast binnen elke dataset afzonderlijk - is dan wellicht een niet al te gevoelige methode

nidat we dan uitsluitend steunen op de correlaties tussen de verschillende uitspraken. Bij

^ er onderzoek van de correlatiematrices blijkt trouwens dat praktisch alle correlaties
positief zijn.

Tabel 1 Percentage leerlingen dat een uitspraak beoordeelt als eerder juist, juist of zeer juist.

3. Ik wil... leren om directe contacten te
kunnen leggen met de mensen die die
taal spreken

5. ... boeken en verhalen kun je beter in
de oorspronkelijke versie lezen dan in
het Nederlands (Frans/Duits)'

6. Ik vind het de moeite waard om... te
leren omdat ik dan ... films en liedjes
beter begrijp

7. Ik vind het belangrijk ... te leren
omdat dit de communicatie met de ...
talige Belgen bevordert^

9. Ik vind het de moeite waard ... te
leren om de manier van leven en
denken van .. taligen beter te leren
kennen

11. Het is makkelijk voor een
nederiandstalige (franstalige/duitstalige)
om ... te spreken en te verstaan'

15. Indien ik er goed mijn brood kon
verdienen dan zou ik bereid zijn in een
... talig gebied te gaan wonen en er in
het ... te werken

16. Alle nederlandstaligen zouden Frans
moeten verstaan (niet noodzakelijk
spreken) en alle franstaligen
Nederlands, zodat ieder zijn eigen taal
zou kunnefi blijven spreken

' Deze uitspraken waren in de vragenlijsten negatief geformuleerd. Voor de verwerking zijn de

antwoorden gespiegeld: 'zeer onjuist' wordt 'zeer juist', 'onjuist' wordt 'juist', enz----

2 Voor het Engels wordt deze uitspraak: Ik vind het belangrijk Engels te leren omdat het gebruik van

deze taal het best de communicatie tussen de nederlands-, frans- en duitstalige Belgen bevordert.

Aangezien er verschillen zijn tussen de uitspraken voor de graad waarin de leerlingen de
uitspraken 'juist' of'onjuist' beoordelen, kan men per paar van uitspraken A en B nagaan hoe
dikwijls A verkozen wordt boven B (d.w.z. hoe dikwijls A een hogere score krijgt dan B). Op
deze wijze worden de uitspraken op ipsatieve wijze t.o.v. elkaar afgewogen, los van hun
gemiddeld beoordehngsniveau. Bijvoorbeeld: wanneer de uitspraken 1 en 2 vanwege sub-
ject X de scores meekrijgen ZJ (zeer juist) en J (juist), en vanwege subject >»: J en ZJ, dan
neutraliseren deze observaties elkaar. Wanneer voor die beide uitspraken de gemiddelde
score zich evenwel situeert bij 'eerder juist', dan werken deze beide observaties een positieve
correlatie in de hand. Deze paarsgewijze scoring laat bovendien toe de gegevens gezamenlijk
op groepsniveau te bekijken, en na te gaan of op grond van deze groepsgegevens de voorop-
gestelde structuur terug te vinden is. Vandaar dat dan geopteerd werd voor een toepassing van
Bechtel's multidimensioneel schaalmodel voor de analyse van voorkeurgegevens. Eerst volgt
een korte beschrijving van Bechtel's modeP. Nadien worden de gegevens beschreven waarop
Bechtel's model werd toegepast en tenslotte vindt men de bespreking van de resultaten.

Als uitgangspunt van Bechtel's model moet men beschikken over voorkeursterktes die
aangeven in welke mate het subject (of de groep van subjecten) i stimulus j verkiest boven
stimulus k. Met Bechtel's multidimensioneel schaalmodel worden dan deze paarsgewijze
voorkeuroordelen voor de n stimuli herleid tot een kleiner aantal keuzecriteria die de
voorkeur bepalen.

Het lineair utihteitsmodel gaat er van uit dat de voorkeuren van de subjecten lineair zijn in
de utiliteitswaarden (of voorkeurschaalwaarden) van de stimuli, d.w.z.:

waarin V;y = de utiliteitswaarde van stimulus j voor subject i,
v,i = de utiliteitswaarde van stimulus k voor subject i,
•ijk = het gebrek aan schaalbaarheid van het stimuluspaar (/', k) of m.a.w.

Voor een uitvoeriger en meer technische beschrijving van het model verwijzen wc naar Bechtel (1976)
en naar Delbeke en Janssen (1979), waarin Bechtel's model werd toegepast om het verband na te gaan
tussen het belang dat eerstejaarsstudenten psychologie en pedagogische wetenschappen hechten aan
bepaalde studiemotieven enerzijds, en de afstudeerrichting die ze kiezen anderzijds.

We bespreken hier alleen het scalair productmodel en niet het afstandsmodel. We hebben dit laatste
model niet toegepast op onze gegevens omdat er alleen een bevredigende oplossingstechniek bestaat
voor het geval de schaalwaarden der items vooraf bekend zijn. Dit was hier niet het geval. Bij de
beschrijving van Bechtel's model houden we ons in dc paragraaf 3.1 in eerste instantie aan de
terminologie zoals ze door Bechtel werd geïntroduceerd. Vertaald naar onze gegevens toe betekent dit
dat de term subject steeds verwijst naar een groep subjecten (bijv.: de groep nederlandstaligen bij het
beoordelen van het Frans). De teim stimulus verwijst naar ctnuitspraak, en de term voorkeur of utiliteit
verwijst naar de mate waarmee een groep subjecten zich akkoord kan verklaren met een uitspraak bij
het beoordelen van een bepaalde taal (cf. par. 3.2.)

Met behulp van dit model worden uit de voorkeursterktes Pijk de utiliteitswaarden geschat

Via variantie-analyse kan het geformuleerde model op aangepastheid aan de geobserveer-
de gegevens getoetst worden, d.w.z. dat men de nulhypothese kan toetsen om te onderzoeken
of er geen systematische fouten zijn. Men kan bovendien ook de nulhypothese toetsen dat bij
een subject alle v,y-waarden gelijk zijn aan elkaar, d.w.z. dat er geen betekenisvolle voorkeur
zou bestaan voor een stimulus boven een andere.

Met het scalair productmodel worden de voorkeuren voor de n stimuli herleid tot een
kleiner aantal keuzedimensies. Een stimulus/ zou des te meer verkozen worden door subject i
naargelang hij meer met de keuzedimensie r vereenzelvigd kan worden en naargelang het
subject 1 meer belang hecht aan deze dimensie r. Via het scalair productmodel kan men zowel
de stimuli als de subjecten voorstellen door punten in een ruimte. De dimensionaliteit/ van die
ruimte is gelijk aan het aantal keuzedimensies. Het model kan als volgt geformuleerd worden;

Waarin = de projectie van subjectpunt i op dimensie r, d.i. het belang dat subject i

hecht aan de keuzedimensie r,
bjr = de projectie van stimuluspunt / op dimensie r, d.i. de mate waarin

stimulus j kan vereenzelvigd worden met de keuzedimensie r,
tij = een foutenparameter.

Bechtel's multidimensioneel schaalmodel wordt in ons onderzoek toegepast om na te gaan
of de attitude-uitspraken kunnen herleid worden tot een kleiner aantal dimensies of motie-
ven. Bovendien wordt onderzocht of er verschillen zijn tussen de nederiandstalige, franstalige
en duitstalige leerlingen bij de beoordeling van de verschillende talen wat betreft het belang
dat ze hechten aan deze motieven.

Bij de beschrijving van Bechtel's model werd gezegd dat men moet beschikken over voor-
keursterktespiy* die aangeven in welke mate het subject i stimulus/ verkiest boven stimulus k.
Bij de toepassing van het model op onze gegevens wordt niet gewerkt met individuele
subjecten, maar met groepen van subjecten, nl. de nederiandstalige, franstalige en duitstalige
leerlingen. In deze toepassing van het model wordt het subscript i dus gebruikt voor een groep
Van subjecten i.p.v. een enkelvoudig subject. De leerlingen uit elke taalgroep moesten telkens
hun houding aangeven voor 3 talen, nl.:
~ Voor de nederiandstalige leerlingen: Frans, Engels, Duits;
~ voor de franstalige leerlingen: Nederlands, Engels, Duits;
~ voor de duitstalige leerlingen: Nederlands, Frans, Engels.

'n de analyse zal dan ook gewerkt worden met 9 'groepen', nl. de oordelen van 3 taalgroepen
Voor telkens 3 talen. Als stimuli fungeren de attitude-uitspraken. Daar deze uitspraken
dezelfde moeten zijn voor de verschillende groepen, werden slechts 14 uitspraken weerhou-
den in de analyse. Uitspraak 7 valt weg omdat de formulering voor het Engels afwijkt van de
'ormulering voor het Nederlands, Frans en Duits. Uitspraak 16 valt weg omdat deze niet bij
groepen voorkomt. (Deze uitspraken werden wel gebruikt in andere analyses die hier niet
gerapporteerd worden.) Voor elke groep wordt een proportiematrix opgesteld waarin, voor
paar van attitude-uitspraken, wordt ingevuld welke proportie van de leerlingen de ene

uitspraak verkiezen boven de andere (d.w.z. aan de ene uitspraak een hogere score toekennen
dan aan de andere)'*. Deze porporties worden dan getransformeerd naar voorkeursterktes/7,yt
op de volgende wijze:

waarbij de boogsinuswaarde wordt uitgedrukt in radialen. De bedoehng van deze transfor-
made is o.m. verschillen tussen extreme propordes (bijv. 0,95 t.o.v. 0,90) beter tot hun recht
te laten komen dan dezelfde verschillen tussen middelmatige propordes (bijv. 0,55 ten
opzichte van 0,50). Voor de aldus getransformeerde voorkeursterktes geldt dat:

1) Pijk - O als propy^ = 0,50 d.w.z. als groep i onverschillig is tussen de uitspraken j en

2) Pijk > O als prop,yi > 0,50 d.w.z. als groep i uitspraak j verkiest boven uitspraak

3) Pijk < O als propy^t < 0,50 d.w.z. als groep i uitspraak k verkiest boven uitspraak j;

In een eerste stap wordt met behulp van het hneair utiliteitsmodel nagegaan in hoeverre er
verschillen zijn binnen de 9 groepen naar hun voorkeur voor de attitude-uitspraken. Daarom
worden uitgaande van de voorkeursterktesp,y4 de voorkeurschaalwaarden v,y voor de attitude-
uitspraken geschat. Deze voorkeurschaalwaarden zijn terug te vinden in tabel 2. Binnen elke
groep zijn de uitspraken gerangschikt naar belangrijkheid (cijfers tussen haakjes). Via va-
riantie-analyse wordt de nulhypothese getoetst dat binnen elke groep alle v^y-waarden gelijk
zijn aan elkaar, dit wil zeggen dat er bij elke groep geen betekenisvolle instemmingsverschil-
len bestaan voor de verschillende uitspraken. De 9 F-waarden voor de 9 groepen variëren van
177,00 tot 876,12 (telkens met aantal vrijheidsgraden gelijk aan 13 voor de teller, en 624 voor
de noemer). Hieruit kunnen we besluiten dat er binnen elke groep wel degelijk instem-
mingsversch'illen zijn tussen de uitspraken.

Ook wordt de nulhypothese getoetst dat er geen systematische fouten zijn (F = 3,125 met
78 en 624 vrijheidsgraden). Dus ook de F-waarde voor de systematische fouten, of m.a.w.
voor het gebrek aan schaalbaarheid, is significant op het 1%-niveau. De som der kwadraten
voor de systematische fouten (1,912) is echter zeer klein in vergelijking tot de som der
kwadraten voor de voorkeurschalen (375,438). Bovendien werd de interne betrouwbaarheid
(Rr) en de interne vahditeit (Ry) van de voorkeurschalen berekend.

Rr wordt berekend door de vierkantswortel te nemen van de verhouding tussen de ware en
de totale variantie, of door de correlatie te berekenen tussen de geobserveerdep,y*-waarden
en degereconstrueerdep,yt-waarden(piy* =V/,-v,vt -t-yy^)./?,. = 0,9934. Dit is dus zeer hoog./?,,
is een fittingsmaat voor het globale Bechtel-model, y-parameters inclusief. Vandaar dat zelfs
bij een grote Ä,.-waarde de mogelijkheid blijft bestaan dat de schalèn weinig valied zijn,
namelijk wanneer er veel systemadsche fouten voorkomen. De interne validiteit (/?„) wordt
bepaald door de correlatie te berekenen tussen:pi^ = v,y - v,jt enpij^. Men vindt eveneens een
zeer hoge validiteitsindex, nl. = 0,9909. Men kan dus aannemen dat de systematische
fouten weinig invloed gehad hebben op de antwoorden van de leerlingen, en dat het lineair
utiliteitsmodel aangepast is aan onze geobserveerde gegevens.

" De antwoorden van de oorspronkelijk negatief geformuleerde uitspraken 4, 5, 11, 13 en 14 zijn voor
deze verwerking gespiegeld.

ta ^
ÎS -a

«c M

i't
3 g

0 60
C e

§1
c ^

Ji s

CL.-0

a Uî

1) a
•o M

•S e

« u
a ^

5 g

1 2

or<cx)TtovvovoTtcsvoosvortoo
m <n ts "'T, ® "T,
o o o" o' o" o" o" o" o" o" o" o" o" o"

c
a>
60

T3
C
_ca

u
T5
U

u ^
w u

S-S

8-
> s

<s
f2

u
J3

O
O

•o

•S
11
o

o
>

eo
e

Ü
60

Met behulp van het scalair productmodel kunnen de voorkeuren voor de attitude-uitspraken
herleid worden tot een kleiner aantal basismotieven die deze voorkeuren bepalen. Bovendien
kan worden nagegaan of er verschillen zijn tussen de 9 groepen voor het belang dat ze hechten
aan deze basismotieven. Tabel 2 geeft de rangschikking naar belangrijkheid aan van de 14
attitude-uitspraken voor de 9 groepen. Men ziet dat er zich belangrijke verschillen voordoen.
Door toepassing van het scalair productmodel beoogt men nu een duidelijker beeld van deze
verschillen te verkrijgen. Steunend op de matrix met voorkeurschaalwaarden v,y kan bepaald
worden op hoeveel dimensies of keuzemotieven de leerlingen beroep doen en welke de
projecties zijn van de attitude-uitspraken. De methode die hiervoor gebruikt wordt staat
gekend als een Eckart-Young decompositie van de matrix met voorkeurschaalwaarden v,y.
Deze Eckart-Young decompositie komt neer op het trekken van eigenwaarden en eigenvec-
toren. Ondermeer de grootte van de eigenwaarden is bepalend voor het aantal dimensies dat
zal weerhouden worden. De bijbehorende eigenvectoren geven de projecties van de attitude-
uitspraken op deze dimensies. Het verloop van de eigenwaarden is als volgt: 14,90; 4,40;
3,93; 1,64; 0,94; 0,67; 0,24; 0,07; 0.03.

Gekozen werd om 6 dimensies te weerhouden, alhoewel de laatste 2 hiervan minder
belangrijk zijn. Uit de projecties van de attitude-uitspraken op de dimensies blijkt echter dat
vooral de integratieve motieven hoge projecties behalen op de vijfde en zesde dimensie.
Aangezien dit vanuit de theorie van Lambert belangrijke motieven zijn, en zij ook omwille
van die reden door ons in onze vragenlijst opgenomen waren, hebben wij deze vijfde en zesde
dimensie verder in de oplossing weerhouden. Bovendien is de foutenterm voor het scalair
productmodel' bij 6 dimensies gelijk aan 0,08 en is van dien aard dat hij substantieel groter is
dan de globale foutenterm voor het lineaire model (nl. 0,008). Deze discrepantie is nog veel
meer uitgesproken wanneer men slechts 5 dimensies zou weerhouden. Dan is de foutenterm
van het scalair product-model immers gelijk aan 0,20.

Wanneer het aantal dimensies (t) en de projecties van de attitude-uitspraken op deze
dimensies (by,) gekend zijn, kan men met behulp van formule (2) de projecties a,> van de 9
groepen op de dimensies bepalen. Deze oplossing is echter niet uniek. Via rotatie van de
dimensies kan geprobeerd worden een oplossing te vinden die beter interpreteerbaar is.

Daar vooraf reeds een hypothese was geformuleerd voor de keuzemotieven die de voor-
keuren voor de attitude-uitspraken zouden bepalen, werd getracht de gevonden oplossing te
roteren naar een hypothetisch vooropgestelde structuur. Deze hypothese werd geformuleerd
voor 4 dimensies en was de volgende:

Bij het roteren naar een hypothetisch vooropgestelde structuur werd het onderzoek be-
perkt tot een orthogonale rotatie, d.w.z. dat de geroteerde dimensies ónafhankelijk zijn van

elkaar. Uitvoeren van deze rotatie betekent dat de reeds verkregen oplossing geroteerd wordt
op zo'n wijze dat de uitspraken 8, 11 en 14 een zo hoog mogelijke projectie verkrijgen op de
eerste dimensie, en de andere uitspraken een lage projectie op deze dimensie. Uitspraken 1 en
13 moeten een hoge projectie hebben op de tweede dimensie, uitspraken 2 en 4 op de derde
dimensie, en uitspraken 3,5,6 en 9 op de vierde dimensie. Over de vijfde en de zesde dimensie
Werden bij voorbaat geen uitspraken gedaan.

De geroteerde voorkeurstructuur is grafisch weergegeven in de figuren 1-3. Alhoewel de
oplossing niet volledig bevredigend is (sommige uitspraken hebben een hogere projectie op
een andere dimensie dan volgens de hypothese vooropgesteld), kan men de hypothese toch
Voor een groot deel aanhouden.

Dimensie 1 houdt inderdaad verband met de gemakkelijkheid waarmee men een taal
aankan: de uitspraken 8, 11 en 14 hebben een hoge positieve projectie op deze dimensie.
iJitspraak 11 heeft echter een zeer hoge positieve projectie op de zesde dimensie, terwijl de
uitspraken 8 en 14 een negatieve projectie hebben op deze dimensie. De zesde dimensie
plaatst de gemakkelijkheid waarmee een taal als direct communicatiemiddel kan gebruikt
Worden (spreken en verstaan van de taal) tegenover de gemakkelijkheid waarmee ze als
'ndirect communicatiemiddel kan gebruikt worden (lezen en schrijven).

Dimensie 2 houdt duidelijk verband met de instrumentele motieven, nl. het nut van een taal
^oor studie en beroep. Uitspraken 1 en 13 hebben een hoge projectie op deze dimensie.

De derde dimensie verwijst naar het plezier in de talenstudie omwille van de taal zelf;

uitspraken 2 en 4 hebben een hoge projectie op deze dimensie. Het globale evaluatieve aspect
van een taal schijnt echter enigszins in tegenstelling te staan met de meer 'intellectualistische'
interesse voör een taal (uitspraken 9 en 10 hebben een negatieve projectie op de derde
dimensie).

De vierde dimensie, die volgens de geformuleerde hypothese moest duiden op integratieve
motieven (interesse voor de cultuur, directe contacten met de bewoners), wordt minder goed
bevestigd. Uitspraken 3, 5 en 6 hebben een hoge projectie op deze dimensie. Uitspraak 9
heeft, in tegenstelling tot de verwachting, geen hoge-projectie op de vierde dimensie. Uit-
spraak 5 heeft bovendien een hogere projectie op de vijfde dimensie.

Deze vijfde dimensie plaatst het lezen van boeken en verhalen als cultureel integratief
motief tegenover sociale en politieke integratieve motieven (uitspraken 3 en 12 hebben een
hoge negatieve projectie op de vijfde dimensie).

Globaal genomen kan men dus aannemen dat de voorkeuren van de leerlingen voor de 14
attitude-uitspraken kunnen herleid worden tot 6 dimensies of keuzemotieven. Deze zijn:

5. lezen van boeken en verhalen als cultureel integratief motief in tegenstelling tot sociale
en politieke integratieve motieven;

6. de gemakkelijkheid waarmee een taal als direct communicatiemiddel kan gebruikt
worden (spreken en verstaan van de taal) t.o.v. de gemakkelijkheid waarmee ze als
indirect communicatiemiddel kan gebruikt worden (lezen en schrijven).

In hoeverre verschillen nederlandstalige, franstalige en duitstalige leerlingen bij de beoorde-
ling van de verschillende talen voor het belang dat ze hechten aan deze motieven? Hiervoor
kan men kijken naar de projecdes van de 9 groepen op de dimensies in de figuren 1-3. De
grafieken laten in ieder geval zien dat de groepen sterk gespreid liggen in de ruimte. Ze laten
zich dus wel degelijk differentiëren van elkaar.

Alvorens de resultaten meer in detail te bekijken, is het toch belangrijk op te merken dat
Bechtel's model alleen toelaat vast te stellen in hoeverre de leerlingen in hun beoordeling van
'alen relatief meer belang hechten aan een motief ten overstaan van andere motieven. Indien
een taal over de hele hjn positiever beoordeeld wordt dan een andere taal, komt dh niet tot
uiting in de resultaten van Bechtel's analyse.

De nederlandstalige leerlingen leggen zowel voor Frans als voor Engels meer de nadruk op
de instrumentaliteit van de taal (dimensie 2) dan op de gemakkelijkheid waarmee ze die talen
aankunnen (dimensie 1). Beide aspecten worden echter veel sterker beklemtoond bij het
Frans dan bij het Engels. Voor beide talen hebben de nederlandstaligen een negatieve lading
op de eerste dimensie. De hogere negatieve lading voor Frans betekent dus dat ze minder vlug
bereid zijn het Frans als een gemakkeUjke taal te bestempelen dan dit het geval is voor het
Engels®. Voor het Duits hebben instrumentaliteit en gemakkelijkheid slechts weinig belang.

^oor het Frans daarentegen zijn het de belangrijkste houdingsdimensies. Terwijl dimensie 1,
de gemakkelijkheid, eigenlijk ook niet erg belangrijk is voor het Engels, is dat wel het geval

' De negatieve pool van dimensie 1 wordt niet als taaimoeilijkheid geïnterpreteerd, omdat dit niet
duidelijk blijkt uit de items met negatieve ladingen op deze dimensie.

voor dimensie 3: er wordt sterk de nadruk gelegd op het plezier van de taalstudie op zichzelf.
Hetzelfde geldt, zij het in mindere mate, voor het Duits. Voor het Engels wordt ook een zeker
belang gehecht aan de sociaal-politieke integratie en aan de gemakkelijkheid van de taal bij
directe communicatie. Het is vooral dit laatste aspect dat dominerend is in de houding van de
nederlandstaligen t.o.v. het Duits. Zij plaatsen zeer duidelijk de gemakkelijkheid om Duits te
spreken en te verstaan tegenover de moeilijkheid om Duits te lezen en te schrijven (zie ook
tabel 1).

De franstaligen hebben eveneens een gedifferentieerde kijk op de verschillende talen. Voor
het Nederlands zijn de instrumentele en de eerder intellectualistische interesse voor de taal als
tegenpool van het plezier in de taalstudie van ongeveer even groot belang. In mindere mate
wordt nog belang gehecht aan sociaal-politieke integratie als tegenpool van de culturele
integratie die aldus naar de achtergrond verdrongen wordt. Voor het Engels wordt vooral de
nadruk gelegd op het plezier van dc taalstudie. Ook worden de door deze taal geboden
sociaal-politieke integratiemogelijkheden beklemtoond, veel meer nog dan bij het Neder-
lands en het Duits. Opvallend zijn de hoge negatieve gewichten voor Engels en Duits op de
eerste dimensie. Aangezien deze negatieve pool niet expliciet als taaimoeilijkheid kan
geïnterpreteerd worden, kan hieruit alleen geconcludeerd worden dat bij de franstaligen de
globale evaluatie van de gemakkelijkheid van het Engels en het Duits een relatief veel minder
belangrijke rol speelt dan de overige motivationele aspecten. Gezien de eerder lage waarden
van de overige gewichten bij het Duits, kan men zeggen dat de franstaligen geen erg duidelijk
geprofileerde houding hebben t.o.v. deze taal, althans niet in termen van de dimensies die in
deze oplossing naar voren kwamen.

De duitstaligen beklemtonen vooral de gemakkelijkheid van het Nederlands wat betreft de
directe communicatie, en in mindere mate ook de globale gemakkelijkheid waarmee ze die
taal aankunnen. Ook de integratieve motieven (dimensie 4) worden enigszins benadrukt. Dit
geldt eveneens voor Frans en Engels. Voor deze beide talen wordt de gemakkelijkheid minder
sterk benadrukt, er wordt wel gewezen op het plezier dat men vindt in de taalstudie en op de
sociaal-politieke integratiemogelijkheden. De houding t.o.v. het Frans en het Engels loopt
uiteen voor het instrumentele aspect, dat sterker dan alle andere aspecten wordt benadrukt
voor de franse taal, terwijl dit geen belangrijke rol speelt bij het Engels. Zoals bij het
Nederlands wordt bij het Engels wel verwezen naar de gemakkelijkheid van deze taal voor de
directe communicatie.

Men kan ook nagaan hoe de verschillende taalgroepen zich in hun houding differentiëren
wanneer ze eenzelfde taal moeten beoordelen. In hoeverre verschillen de duitstalige en de
franstalige leerlingen in hun beoordeling van het Nederlands? De duitstaligen hechten veel
belang aan de gemakkelijkheid waarmee ze het Nederlands aankunnen, vooral wat betreft het
spreken en verstaan (cfr. dimensie 1 en 6). Dit is niet^o bij de franstaligen. Ook voor de
overige dimensies ligt het patroon der gewichten volledig uit mekaar. De duitstaligen be-
klemtonen naast de gemakkelijkheid van het Nederlands ook het integratieve aspect (dimen-
sie 4). De franstaligen beklemtonen eerder de instrumentaliteit (dimensie 2), de meer
intellectualistische interesse voor de taal in tegenstelling tot het plezier in de studie van het
Nederlands voor de taal op zich (negatief gewicht voor dimensie 3), en de socio-politieke
integratie.

Wat betreft de beoordeling van het Frans werd, op basis van tabel 1, reeds gezegd dat deze
taal globaal genomen positiever beoordeeld wordt door de duitstaligen dan door de neder-
landstaligen. Beide taalgroepen verschillen echter niet zo erg wat betreft het relatieve belang
dat ze hechten aan de verschillende motieven: het meeste belang wordt toegekend aan de
instrumentaliteit van het Frans (dimensie 2), en het Frans wordt niet nadrukkelijk als een

gemakkelijke taal bestempeld (dimensie 1). De duitstaligen verwijzen bovendien nog naar
het plezier van de taalstudie, de sociaal-culturele integratie en de meer algemene integratieve
aspecten van het Frans, terwijl de nederlandstaligen deze motieven relatief minder belangrijk
achten. Voor het Duits is het meest opvallend dat de nederlandstaligen de gemakkelijkheid
van deze taal voor directe communicatie beklemtonen (spreken en verstaan van het Duits in
tegenstelling tot lezen en schrijven), terwijl de franstaligen eerder bereid zijn andere aspecten
toe te schrijven aan het Duits dan ze als een gemakkelijke taal te bestempelen.

Bij de beoordeling van het Engels verwijzen de drie taalgroepen naar het plezier van de
taalstudie zelf en ook naar de socio-culturele integratiemogelijkheden die door het Engels
geboden worden, zij het in iets mindere mate door de nederlandstaligen. De nederlandstali-
gen beklemtonen wel de instrumentaliteit van het Engels. De franstahgen en de duitstaligen
zijn relatief minder vlug geneigd om het Engels als een gemakkelijke taal te bestempelen
(dimensie 1), maar de duitstaligen maken toch een onderscheid tussen directe en indirecte
communicatie (dimensie 6), terwijl de franstaligen dit niet doen.

De toepassing van Bechtel's multidimensioneel schaalmodel op onze gegevens laat toe een
genuanceerd beeld te krijgen van de verschillen tussen de nederiandstalige, de franstalige en
de duitstalige leerlingen voor hun attitude t.o.v. moderne vreemde talen. Samenvattend kan
het volgende besloten worden:

- Alle drie de taalgroepen zijn eerder geneigd andere aspecten aan de talen toe te schrijven
dan ze als gemakkelijk te bestempelen (met uitzondering van de duitstaligen voor het
Nederlands). De nederlandstaligen en de duitstaligen maken resp. voor het Duits en het
Nederlands wel een onderscheid tussen spreken en verstaan tegenover lezen en schrijven
van de taal.

- Voor de instrumentele motieven (belang voor studie en beroep) blijkt vooral de andere
landstaal belangrijk te zijn (Frans voor de nederlandstaligen en de duitstaligen, Nederlands
voor de franstaligen).

- De drie taalgroepen hechten bij de beoordeling van het Engels vooral belang aan het
plezier in de taalstudie omwille van de taal zelf.

- De integratieve motieven komen minder duidelijk tot uiting, hier moet eigenlijk een
onderscheid gemaakt worden tussen culturele integratieve motieven en sociaal-politieke
integratieve motieven.

Claessen, J., Derks, J., Oud-De Glas, M., & Mens, A. (1975). Moderne vreemde talen in examenpakketten
van het a.v.o. Een onderzoek onder scholen en leerlingen naar de keuze van moderne talen in
examenpakketten. Nijmegen: Instituut voor Toegepaste Sociologie.

Claessen, J., Van Galen, A., & Oud-De Glas, M. (1978). De behoeften aan moderne vreemde talen. Een
'onderzoek onder leerlingen, oud-leerlingen en scholen. (Studies over het onderwijs in de moderne
vreemde talen IV). Nijmegen: Instituut voor Toegepaste Sociologie.

Delbeke, L., & Janssen, P.J. (1979). Studiemotieven en studiekeuze: Een peiling met behulp van
Bechtel's Scalair Productmodel voor de analyse van voorkeuroordelen. Tijdschrift voor Onder-
wijsresearch, 5, 219-238.

Lambert, W.E. (1972). Language, Psychology and Culture, Stanford: Stanford University Press.

To assess the usefulness of some classical indicators for the selection of dichotomous items
in a relatively small sample of persons these indices were correlated with the increase of the
test information according to the Birnbaum model. The coefficients were calculated in a
Monte Carlo study with five different trait values of the cut-off score and some test
situations in which were varied: number of persons and alternatives, difficulty and discri-
mination of items, and the shape of the distribution of the item parameters. The correla-
tions were interpreted in terms of utility, defined as the contribution of the item selection to
the increase of the test information at the considered trait value. It turns out that in some
cases item test correlation, p-value and a certain phi coefficient are useful even with N =
20, but only if the proportion of items with a positive contribution is not extreme and the
optimal selection ratio of items is precisely estimated. In other cases the use of classical
item indices for item selection based on small groups may result in worsening the item pool
in terms of information.

Mogelijk krijgt Nunnally gelijk wanneer hij schrijft (1978, p. 257, 318) dat de klassieke
testleer nog lang in gebruik zal blijven voor testconstructie, ondanks de opmars van geavan-
ceerde technieken die gebaseerd zijn op latente-trektheorieën. De klassieke indices zijn snel
uit te rekenen zonder gebruik van een computer en zij zijn gemakkelijk uit te leggen aan
iedere gebruiker van tests. Anderzijds geven, althans als men over voldoende informatie
beschikt, sommige moderne indices een beter beeldVan de waarde van een item voor de
toetsconstructie. Het is daarom interessant na te gaan in welke gevallen de klassieke indices de
moderne evenaren (als die precies bekend zouden zijn). In dit onderzoek worden enkele
klassieke indices (in de steekproef van testitems) gecorreleerd met de informatiemaat in het
Birnbaum-model (Lord & Novick, 1968), die veelal beschouwd wordt als de beste maat voor
het nut van een item in een test (bijv. Lord, 1980). Het nut (de utiliteit) van een middel (in dit
geval een itemindex) voor quota-vrije selectie (hier van items) is dnder bepaalde milde
voorwaarden een lineaire functie van de correlatie van dat middel met de variabele die als

1 De auteur dankt Wulfert P. van den Brink en Pieter Koele voor hun commentaar op een eerdere
versie.

criterium beschouwd wordt (bijv. Van Naerssen, 1965; van der Linden & Mellenbergh,
1977). Om deze reden wordt hier de correlatie uitgerekend en als maat gebruikt van dat nut.
Het criterium is de itemformatie bij de cesuur tussen geslaagden en gezakten (zie weer bijv.
Lord, 1980).

De met het criterium gecorreleerde indices zijn dan in de eerste plaats de p-waarde en de
item-test-correlatie, maar hieraan wordt nog een drietal toegevoegd. Deze vijf indices zullen
nu eerst kort besproken worden.

Wat p-waarden en itemtestcorrelatie betreft zijn eerder twee rekenonderzoeken verricht
(Van Naerssen, 1979, 1980), waarbij schattingen werden verkregen van de informatiemaat
van Birnbaum uit een combinatie van beide. Daaruit bleek al dat, i.t.t. wat wel eens beweerd
werd, bijv. door Nunnally (1978), de itemtestcorrelatie op zichzelf vaak niet een ideale
itemselectie-index is, maar wel in combinatie met de p-waarde van nut kan zijn. Bij dat
onderzoek bleek echter niet hoe groot dat nut nu wel is, van beide indices apart en relatief tot
dat van enkele andere selectieïndices. Dit wordt nu in het onderhavige onderzoek bekeken bij
een aantal realistische parameterwaarden.

Datgene wat de test verondersteld wordt te meten wordt de trek genoemd. Het nut van een
item in een selectietest is afhankelijk van de trekwaarde bij de cesuur, en daarom kan niet
volstaan worden met een enkel stel correlaties maar moeten de correlaties berekend worden
bij verschillende trekwaarden; d.w.z. als de verdeling van de trek gegeven is, bij een aantal
selectieverhoudingen (hier met betrekking tot de personen, niet de items). Een belangrijk
nadeel van de klassieke indices is nu juist dat daarbij in het algemeen geen rekening gehouden
kan worden met een trekwaarde, het zijn 'overall-indices'. Toch is er wat dit aspect betreft al
een oude voorganger van de iteminformatie, namelijk de phi (2 bij 2 correlatie) tussen het
dichotome item en de totale testscore gedichotomiseerd op een bepaald punt, in casu de
aftestgrens. Deze itemindex wordt bijv. reeds vermeld in Guilford (1954, p.433) en nog steeds
aanbevolen door Nunnally (1978, p. 289). De redenering was waarschijnlijk: het moet een
index zijn die items accepteert van het juiste niveau; welnu, de phi doet dat omdat deze alleen
1.0 kan zijn als de p-waarde gelijk is aan de selecdeverhouding. Om deze reden wordt de
(aldus gedefinieerde) phi hier als derde itemindex in het onderzoek betrokken. Deze index
wordt berekend voor vijf verschillende niveaus van de testscore, die zo veel mogelijk over-
eenkomen met de vijf beschouwde niveaus van de trek.

Een vierde index die met de criteria wordt gecorreleerd is de itemstandaardafwijking, omdat
deze afneemt bij te moeilijke of te gemakkelijke items. Belangrijker is de vijfde index: het
product van itemstandaardafwijking s en itemtestcorrelatie r. Deze wordt in de angelsaksische
literatuur 'reliability index' genoemd en o.a. aanbevolen door Gulliksen (1950, p. 377 e.v.).
Een verbeterde versie daarvan is de 'swi', het product van standaardafwijking van het item en
de op valsheid en attenuade gecorrigeerde itemtestcorrelatie. De som van alle 'swi' is exact de
standaardafwijking van de ware testscore, een maat die de (althans theoretisch) aantrekkehj-
ke eigenschap heeft (in de klassieke testleer) evenredig te zijn met de testlengte (Van
Naerssen, 1969). Daar de swi echter meestal toch zeer hoog correleert met de meerbekende
betrouwbaarheidsindex wordt in dit onderzoek deze Sj rj, gebruikt.

De criteria, waarmee de genoemde indices gecorreleerd worden zijn de iteminformaties bij
een vijftal trekwaarden overeenkomend met percentielscores van 10, 30, 50, 70 en 90.
Daarbij zijn die van 70 en 90 vooral van belang omdat het percentage geslaagden (preciezer:
dat behoort te slagen) bij tentamens en examens meestal in die buurt ligt. Het is onvermijde-
lijk dat voorts een aantal assumpties wordt verricht. Hoewel het computerprogramma elke
verdeling van de trek toelaat, beperken de berekeningen zich tot een (benaderde) normale

verdeling. Wat betreft de verdeling van de itemparameters van het Birnbaum-model wordt
aangenomen dat dc raadparameter c 0.25 is (vierkeuzetoets) en in ecn enkel geval 0.5
(tweekeuzetoets) en 0.0 (kort-antwoord-toets), terwijl de itemdiscriminatie a en de item-
moeilijkheid b (benaderd) normaal dan wel rechthoekig verdeeld zijn, cn onderling niet
correleren.

Bij itemselectie op grond van empirische gegevens gaat het om concept-items die al
enigszins door de testconstructcurs op inhoudsvaliditeit zijn voorgeselecteerd. Dit betekent,
dat men al te moeilijke cn al te gemakkelijke items nauwelijks kan verwachten, net zo min als
erg weinig discriminerende items, terwijl erg hoog discriminerende items zoals bekend niet
voorkomen. Deze redenering zou pleiten voor de aanneming van een min of meer rechthoeki-
ge verdeling van dc Birnbaum-parameters a (discriminatie) en b (moeilijkheid), cn inderdaad
is ecn rechthoekige verdeling eerder wel eens aangenomen bij simulatieberekeningen (bijv.
Van Naerssen, 1978), met de assumptie dat de keuze tussen normaal en rechthoekig er in de
praktijk weinig toe doet. Die assumptie was gebaseerd op oude onderzoekingen (Van Naers-
sen, 1963, p. 189 e.v.). Voor de zekerheid worden in een beperkt aantal situaties van het
onderhavige onderzoek de berekeningen verricht zowel bij normale als bij rechthoekige
verdeling van a en b. Een normale verdeling spreekt velen waarschijnlijk meer aan.

Uiteraard betekent gebruik van het drie-parameter model van Birnbaum aanvaarding van
de volgende assumpties: slechts één onder de items liggende trek, d.w.z. lokale onafhan-
kelijkheid van de items (nulcorrelatie binnen een subgroep met dezelfde trekwaarde), en een
logistische vorm van de itemkarakteristiek (kans op goed gegeven de trekwaarde).

1. De discrete verdeling van de trek (theta genoemd) wordt ingevoerd en gestandaardiseerd
(zodat het gemiddelde (m) = O wordt en de standaardafwijking (s) = 1). Met behulp van
interpolatie worden de thetawaarden gevonden van de percentieltheta's van 10,30,50, 70 en
90. Bij die waarden wordt de informatie van de items berekend, preciezer: de afname van de
testinformatie bij weglating van het item (dat scheelt soms enkele procenten). Deze gelden als
de vijf predictiecriteria bij de validatie van de indices in de steekproef van testitems.

2. Ingevoerd worden vervolgens gemiddelde en spreidingsbreedte (range) van de discri-
minatieïndices a en de moeilijkheidsindices b bij aanneming van rechthoekige verdelingen.
Deze worden bij een variant van het programma via de formule ln(p/(l-p)) omgezet in (bij
benadering) normaal-verdeelde waarden met dezelfde m (gemiddelde waarde) en s (stan-
daard afwijking). De raadparameters van de items zijn gelijk. De itemparameters blijven
exact gelijk bij de replicaties van het onderzoek, maar de klassieke indices zijn telkens anders
omdat zij berekend worden uit de gegenereerde itemscores. Het is alsof dezelfde test bij een
telkens andere steekproef personen (wel met dezelfde trekwaarden) wordt afgenomen.

3. Uit de itemindices en de theta-waarden van de N personen worden de stochastische
itemscores met een random-mechanisme gevonden, en hieruit worden in de eerste plaats
p-waarden (met item-s.d.'s) en testscores berekend, en dan de itemtestcorrelaties. De score-
verdeling wordt zo goed mogelijk verdeeld in gebieden met 10, 20, 20, 20 en 10% van de
personen en met behulp hiervan en de itemscores worden de eerder gedefinieerde phi's
berekend. De negen itemindices (p-waarde, item-s.d., itemtestcorrelatie, de laatste verme-
nigvuldigd met de item-s.d., en ten slotte de vijf phi's) worden over de hems gecorreleerd met
de vijf criteria (iteminformaties), zodat 45 correlaties beschouwd worden. Deze correlaties
worden vijf (soms tien) maal uitgerekend, waarna over de replicaties gemiddelden en stan-
daardafwijkingen worden berekend, terwijl in sommige gevallen waar twijfel zou kunnen
rijzen de significantie van de verschillen tussen die gemiddelden wordt bepaald met de
Wilcoxon-toets.

De berekeningen worden in de eerste plaats verricht voor een zogenaamde standaardsituatie,
een soort gemiddelde van waarschijnlijk in de praktijk veel voorkomende waarden. Daarna
wordt telkens één parameter gewijzigd en gekeken wat daarvan de gevolgen zijn. Twee
tabellen worden om een stabiele uitkomst te verkrijgen berekend met de voor dit onderzoek
relatief grote steekproef N = 200, maar de standaard is: bij 50 personen (N = 50, twee
schoolklassen bijv.) wordt een vierkeuzetoets (c = 0.25) afgenomen met Birnbaum-parame-
ters, die zo gekozen zijn dat ze resulteren in een Kuder-Richardson 20 van 0.62, een
gemiddelde p-waarde van 0.72, met een s van 0.16, een gemiddelde item test-correlatie van
0.27 met een s van 0.12. Deze waarden lijken wel normaal bij concept-items, waarvan nog
ongeveer een derde moet worden weggeselecteerd. De gekozen paramters zijn (daarom): een
gemiddelde a van 0,5 met een spreidingsbreedte van 1 (bij een rechthoekige verdeling), een
gemiddelde b van -1 met een spreidingsbreedte van 5, en een c van 0.25. Met deze
parameterwaarden blijken n.1. de bovengenoemde gewenste steekproefwaarden uit de bus te
komen. De gemiddelde b is niet nul gekozen maar -1 omdat de meeste itemschrijvers zullen
mikken op een p-waarde van boven de 0.7 i.p.v. de bij vierkeuzetoetsen verwachte 0.625,
daar 0.7, i.v.m. het raadeffect, theoretisch beter is. Omdat de meeste berekeningen zowel zijn
verricht bij een rechthoekige verdeling van a en b als bij een normale verdeling, moest om
vergelijk mogelijk te maken gekozen worden tussen variabiliteit uitdrukken in spreidings-
breedten of in standaarddeviaties. Gekozen is voor de gemakkelijker voorstelbare
spreidingsbreedten. Desgewenst kan men bij de normale verdelingen de vermelde
spreidingswaarden vermenigvuldigen met 1/Vl2 = 0.29 om in standaarddeviaties te denken
(de s van een rechthoekige verdeling is 0.29 maal de spreidingsbreedte).

De onderzochte varianten van de situatie zijn: grotere groepen personen: N is 100 en N is
200, een zeer kleine groep: N is 21, wat moeilijker items (b gemiddeld 0), zeer moeilijke items
(b is 1), betere items (a gemiddeld 0.6) en zwakke items (a is 0.3), een meer 'peaked' test
(spreidingsbreedte van b is 3), Rasch-items (spreidingsbreedte van a is nul), kortantwoord-
items (c is 0) en tweekeuze-items (c is 0.5), maar dan 70 i.p.v. 35 vragen. Naast de later te
bespreken standaardsituatie zullen alleen de meest stabiele resultaten met N = 200 worden
afgedrukt, de andere resultaten zullen om ruimte te sparen slechts kort worden samengevat.

In tabel 1 staan hnks de correlaties met de vijf criteria, rechts de st.dev. van deze correlaties,
bij N = 200 en normale verdelingen van a en b.

Men ziet dat de meestgebruikte itemselectie-index, de itemtest correlatie, in het midden-
gebied, van 30 tot 70% afwijzen van de personen, goed voldoet, maar aan de uiteinden
minder. Daar kan men beter de phi gebruiken, die overigens ook goed is in het middengebied.
Welmoet men dan steeds de phi benutten, die aangepast is aan het niveau, dus phi 1 voor 10%
afwijzen, phi2 bij 30%, phi3 bij 50%, phi4 bij 70% en phi5 bij 90% afwijzen van de personen,
precies zoals dat de bedoehng was. Sommigen zullen misschien geneigd (geweest) zijn in de
phi slechts een gemakkelijk te berekenen alternatief voor de itemtest- correlatie te zien, maar
deze phi blijkt hier bovendien gemiddeld valider. Doch de standaardfouten zijn bij de phi's
wel iets groter, men kan er minder op vertrouwen en dat pleit dan toch weer voor het
alternatief, de welbekende itemtestcorrelatie (rit).

De p-waarde blijkt, i.t.t. wat Nunnally (1978, p. 270 e.v.) schreef, bij extreme selectiever-
houding bruikbaar als selectie-index. Wijst men zeer weinig personen af, dan kan men
gewoon de moeilijkste items wegwerpen, accepteert men alleen de besten, dan de gemak-

kelijkste, desnoods zonder te letten op itemtestcorrelaties. De correlaties van de itemstand
dev. zijn direct verklaarbaar uit die van de p-waarden, en deze waarden verklaren weer de
correlaties van de 'sirit': bij een laag afwijzingspercentage blijkt deze index niet bruikbaar,
maar wel bij een hoog percentage. Daar kan deze index beter zijn dan de rit, maar in de
onderwijssituatie zal een klein percentage de regel zijn zodat deze index in die situatie van
weinig nut zal kunnen zijn.

Laat men in de standaardsituatie het aantal personen bij de analyse afnemen, via 100 en
50 tot 21, dan blijken natuurlijk vooral de standaardafwijkingen van de indices toe te nemen.
De gemiddelde correlaties van p en si veranderen nauwelijks, maar alle andere nemen af. In
tabel 2 worden de correlaties gegeven voor N = 50.

Men ziet, dat de maximale correlatie gedaald is van ongeveer 0.8 tot 0.5, terwijl de
verhoogde standaarddeviaties natuurlijk betekenen dat de gemiddelden minder betrouwbaar
zijn. Maar relatief behouden de correlaties dezelfde plaats, en men kan concluderen dat zo'n
kleine steekproef toch nog wel bruikbaar kan zijn voor itemselectie. Dat geldt zelfs voor de
(niet afgebeelde) resultaten met N = 21: daar zijn de maximale correlaties gedaald tot
ongeveer 0.35, behalve die van p, die zich handhaven: 0.56 bij 10 en -0.44 bij 90% van de
personen afwijzen. De conclusie luidt hier: hoe kleiner de steekproef, hoe meer men (slechts)
af kan gaan op p-waarden.

Spreiden de a-waarden van O tot 1.5 i.p.v. tot 1.0, dan gaat niet alleen de testbetrouwbaarheid
omhoog (uiteraard) maar ook de correlaties van de indices met de criteria stijgen (tot 0.6).
Anderzijds zijn deze lager bij lagere a (van O tot 0.6). De 'indices validiteiten' blijken echter
vooral af te hangen van de range van a: spreiden deze van 0.1 tot LI dan ziet men geen
verhoging. Begrijpelijk: hoe meer a spreidt, hoe meer men iets heeft aan itemtestcorrelaties
en hun varianten. Neemt de spreidingsbreedte af tot 0.5 dan dalen de validiteiten verder, en
bij 'Rasch-items' zonder a spreiding heeft men weinig aan de itemtestcorrelatie en aan de
phi's, wel echter aan de p-waarde en aan de 'sirit', althans bij een kleine personen-selectiever-
houding (weinig geslaagden). Men zou misschien kunnen denken dat men bij Rasch-items
totaal niets kan hebben aan rit en phi, maar de validiteit blijkt toch nog 0.25 en wel omdat rit

en phi correleren met de itemmoeilijkheid. Bij meer dan de helft gezakten is de validiteit van
de sirit ongeveer 0.5

De itemmoeilijkheid is ook van belang. Het nut van rit en phi neemt ietwat af bij gemiddel-
de b van O of zelfs -I-1, maar belangrijk is vooral het grotere nut van de p-waarde bij weinig
gezakten (validiteit stijgt tot 0.7). Anderzijds wordt de p-waarde minder nuttig bij gemak-
kelijke items (gemiddelde b -2). Wat betreft de spreiding van de b's: is deze gering (peaked
tests) dan wordt het nut van de p-waarde (uiteraard alweer) gering: een validiteit nul bij zeer
veel, van 0.65 bij zeer weinig gezakten. Dat deze nog zo veel van nul verschilt komt omdat de
p-waarde niet alleen correleert met de echte itemmoeilijkheid b maar ook met de itemdiscri-
minatie. De validiteiten van rit en phi nemen toe tot 0.6.

Dan de invloed van de raadfactor c. Als c nul is (kortantwoorditems) ontstaat een correla-
tietabel, die symmetrisch is t.o.v. de kolom van 50% slagen. Anders gezegd: de tabellen zijn in
het algemeen niet symmetrisch juist door de raadfactor. Is c nul dan wordt niet alleen de
testbetrouwbaarheid wat hoger, maar ook de validiteiten stijgen. Het tegenovergestelde is het
geval bij tweekeuzetests, dus bij c = 0.5. De testbetrouwbaarheid pleegt men in dit geval te
herstellen door een dubbel aantal items. Dat klopt blijkens de simulatie met 70 items: niet
alleen de KR20, maar ook de meeste itemvaliditeiten komen door deze ingreep weer op het
oude peil, behalve de sirit, die althans bij een hoog slaagpercentage weinig bruikbaar blijft.

Ten slotte de invloed van de vorm van de verdeling van a en b waarde: normaal of
rechthoekig. De eerder vermelde correlaties hebben alle betrekking op de normale verdeling
van de parameters a en b. Alle beweringen over meer of minder blijken echter ook geldig te
zijn bij rechthoekige verdelingen, ook al zijn de correlaties gemiddeld significant lager. Ter
vergelijking staan in tabel 3 de validiteiten bij de standaardsituatie, echter ook hier weer met
N = 200. De vorm van de verdeling van a en b, van normaal tot rechthoekig, blijkt wel van
enige invloed op de grootte van de validiteiten, maar de conclusies worden niet veranderd.

Men zal er wellicht behoefte aan hebben de gevonden correlatiecoëfficiënten te interpreteren
in termen van nut. Het ligt bij dit onderzoek voor de hand om het nut, de zogenaamde
utiliteitsvariabele, evenredig te stellen aan het gebruikte criterium, de toename van de
•nformatie (bij de beschouwde trekwaarde) door opname van het item in de toets. Men begint

met een itempool met hopelijk grotendeels positieve itemutiliteiten. Door itemselectie met
behulp van de klassieke indices wil men de som van de utiliteiten van de (resterende) items
maximaliseren. Dat kan men voor elk concreet geval doen door de items a.h.w. in volgorde te
plaatsen van afnemende beschouwde index, en in die volgorde te selecteren tot de som van
hun utihteiten (hier informaties) maximaal is. Ten slotte neemt die som n.1. weer af door de
toevoeging van items met gemiddeld negatieve utiliteit. In plaats van die utiliteit voor elke
situatie weer opnieuw te berekenen kan men de correlaties interpreteren met behulp van een
globaal geldend model waarbij een bivariaat normale verdeling tussen utiliteit en itemindex
wordt aangenomen. Dit model geeft snel een bevredigende benadering van de utiliteit
berekend met preciezere modellen (zie Van Naerssen, 1979, p. 15). De grens tussen
bruikbare en onbruikbare items is die waarbij toevoeging van het item de testinformatie op de
aftestgrens net niet doet toenemen. Die grens kan men uitdrukken in z-scores in de steekproef
concept-items (door van de grenswaarde de gemiddelde itemindex af te trekken en daarna te
delen door de standaarddeviatie van de indices in de steekproef). Als r de validiteit van de
index is (de correlade met de informatie) dan ligt de optimale aftestgrens van de items bij een
z-score van z/r. Om ruimte te besparen zal de volgende formule hier niet worden afgeleid; er
kan slechts verwezen worden naar de Hteratuur (bijv. Van Naerssen, 1965). De maximale
utiliteit, uitgedrukt in stand.dev.'s winst van de informatie, t.o.v. de a priori beste strategie
'alle items accepteren' is

waarin f(z) de ordinaat en F(z) de integraal van de normale verdeling is, behorende bij een
st.dev.z. De proportie werkelijk bruikbare items (dus met positieve bijdrage) in de pool is in
dit geval 1 - F(z). Berekent men zo de (maximale) utihteit bij de optimale aftestgrens (van
items), dan vindt men bijv. de waarden in tabel 4, die evenredig zijn aan die in tabel 2 van het
genoemde artikel.

De tabel geeft de maximale utiliteit uitgedrukt in procenten van die welke men zou
verkrijgen wanneer men de itemparameters zou kennen (niet schatten!), en dat in het
optimale geval de helft bruikbare items. Hoewel men door een ongelukkige keuze van de
aftestgrens helaas vaak een negatieve utiliteitswinst kan verkrijgen bij gebruik van de klas-
sieke indices, is de maximale utiliteit ahijd positief. Maar anderzijds is deze, zoals men ziet,
soms wel zeer gering, in het bijzonder wanneer een groot percentage van de concept-items

acceptabel is (d.w.z. een positieve bijdrage heeft tot de testinformatie op de aftestgrens). In dit
laatste geval doet men er goed aan alle conceptitems maar te accepteren, eventueel tot men
over een grotere steekproef personen beschikt.

Bij de aanneming dat het drie-parameter model van Birnbaum geldt - dat immers volgens
Lord (1980) sterk in de empirie verankerd ligt - en dat overeenkomstig gestreefd moet
worden naar zo hoog mogelijke testinformatie op de aftestgrens, toont het simulatie-onder-
zoek aan dat de onderzochte klassieke itemindices van nut kunnen zijn voor de itemselectie.
Dat nut is echter sterk afhankelijk van de situatie, in het bijzonder van de grootte van de,
steekproef personen. Bij 50 personen kunnen in een zo genoemde standaardsituatie correla-
ties voorkomen van 0.5 met het informatie-criterium. Bij een extreem aantal geslaagden of
gezakten en bij kleinere steekproeven is men op de p-waarde aangewezen, in andere situaties
kunnen rit en de op juiste wijze gekozen phi van nut zijn. Maar in elk geval zal men de
klassieke indices niet klakkeloos mogen gebruiken, daar men dan kans loopt te veel items te
selecteren met een negatieve, of te weinig met een positieve utiliteit. Dit laatste gebeurt helaas
gemakkelijk bij onjuist gekozen itemselectieverhouding (die, zoals boven werd opgemerkt,
de optimale moet zijn). De utiliteit is ook gering bij een hoog percentage acceptabele items
(eveneens bij extreem weinig goede items maar dit geval is uiteraard buiten beschouwing
gelaten). Voorts is bij de keuze van de index van groot belang dat men rekening houdt met het
niveau van de als net-geslaagd beschouwde persoon, d.w.z. met het verwachte percentage
gezakten, en dan nog met het aantal alternatieven en met moeilijkheid en discriminatie van de
'tems. Het lijkt misschien gemakkelijker maar direct de itemparameters te schatten en daaruit
de informatie te berekenen, maar helaas, bij kleine steekproeven komt ook daar vaak nog
Weinig van terecht, hoewel hoopvolle ontwikkelingen aan de gang zijn (De Gruijter en
Mooyaart, 1984).

Gruijter, D. N. M., & Mooyaart, A. (1983). Least squares estimation of the item parameters in the

three-parameter logistic model. Tijdschrift voor Onderwijsresearch, 8, 218-223.
Guilford, J. P. (1954). Psychometric methods. New York: McGraw-Hill.
Gulliksen, H. (1950) Theory of mental tests. New York: J. Wiley.

Linden, W. J. van der, & Mellenbergh, G. J. (1977). Optimal cutting scores using a linear loss function.

Applied Psychological Measurement, I, 593-599.
Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, N.Y.: L.
Erlbaum.

Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, Addison-Wesley.
Naerssen, R. F. van (1963). Selectie van chauffeurs. Den Haag: Muton.

Naerssen, R. F. van (1965). Enkele eenvoudige besliskundige toepassingen bij test en selectie. Neder-
lands Tijdschrift voor de Psychologie, 20, 364-380.
Naerssen, R. F. van (1969). Een item-waarde-index voor studietoetsen bij kleine groepen personen.

Nederlands Tijdschrift voor de Psychologie, 24, 606-609.
Naerssen, R. F. van (1979). Absolute of relatieve aftestgrens - een verkenning met simulatie. Tijdschrift

voor onderwijsresearch, 4, 8-17.
Naerssen, R. F. van (1980). Klassieke itemindices en de verwachting van de iteminformatie. Tijdschrift

voor Onderwijsresearch, 5, 241-249.
Nunnally, J. C. (1978). Psychometric theory. N(2nd. ed.) New York: McGraw-Hill.

In two experiments the effects of guidehnes for notetaking and reviewing notes and/or text on
recall (by a summary) and recognition (by a multiple choice test) were studied. Subjects (fourth
grade havo students) who received notetaking guidelines showed higher recall and recognition
performance than subjects who studied the text without notetaking guidelines. The effect of the
review guidelines was only sUghtly positive. Further analyses showed that the positive influence of
the notetaking guidelines was based on two effects: First, subjects with guidelines performed
better on the summary as well as on the multiple choice test than those who did not take notes and,
second, subjects with guidelines obtained a higher multiple choice score than those who took notes
without guidelines; on the summary the latter groups did not differ. Apart from the quality of
notes, in addition, the testresults of a group of subjects who were not allowed to make any kind of
notes were discussed.

In het kader van optimahsering van kennisverwervingsprocessen uit teksten is er nogal wat
onderzoek gedaan naar de invloed van de verbetering van studieteksten. Over het algemeen
zijn de effecten van dit type onderzoek vrij mager: vaak geeft de tekstverbetering niet een
beter leerresultaat te zien. We zullen niet gedetailleerd ingaan op waar dat allemaal aan kan
liggen (zie o.a. Faw & Waller, 1976; Hamaker, 1979; Van Hout-Wolters, 1980). Een
belangrijke reden Ujkt het feit dat de inspanning die de lezer zich getroost en de (mentale)
activiteiten die door hem verricht worden, afhankelijk zijn van het (subjectief) niveau van
begrip dat de lezer zichzelf stelt. Tekstverbetering is niet van invloed op dit criterium. Het
verbeteren van studieteksten leidt dan ook waarschijnlijk niet tot meer begrip, maar alleen tot
het met minder inspanning behalen van eenzelfde (subjectief) niveau van begrip. (Cf. Peeck,
1977; Frijda, 1979; Van Oostendorp & Den Uyl, 1980). Een tweede type van onderzoek
bestudeert de effecten van activiteiten van lezers zelf tn het sturen of stimuleren daarvan. Voor
dit type van onderzoek valt toenemende aandacht te constateren. Op grond van bovenstaande
redenering terecht: kennisverwerving wordt allereerst bepaald door de acdviteiten van de
'ezer. Recente voorbeelden van dit type onderzoek zijn bijv. het mobiliseren van voorkennis
(Peeck, 1982), het bedenken van voorbeelden bij informatie in de tekst (Wouters & Kop,
1981), het in schema brengen van leerstof (Breuker & Van Bruggen, 1980).

In deze categorie valt ook het maken van aantekeningen door de lezer tijdens het bestude-
ren van de studietekst en hier willen we in dit onderzoek nader op ingaan. Aan het maken van

aantekeningen kunnen twee functies onderscheiden worden: allereerst de 'encoding functie'.
Hiermee wordt bedoeld dat het maken van aantekeningen hogere cognitieve verwerkingspro-
cessen kan activeren, zoals bijv. de leerstof (re)organiseren en uitwerken, waardoor de stof
beter begrepen en onthouden wordt (Peper & Mayer, 1978; Carrier & Titus, 1979; Di Vesta
& Gray, 1972; van Oostendorp, 1980). Ten tweede dc 'rcview functie'. Hierbij gaat het
vooral om het ter beschikking hebben van aantekeningen. Deze kunnen dienen als een
efficiënte bron van reconstructie van het originele materiaal, wanneer ze in een latere fase nog
eens worden ingezien (Fisher & Harris, 1973; Carter & Van Matre, 1975; Rickards &
Friedman, 1978). Uit overzichtsartikelen van Hartley en Davies (1978) en Ladas (1980)
blijkt dat de empirische bevindingen t.a.v. de effecten van aantekeningen maken wisselend en
weinig eenduidig zijn. Zo worden bijv. nogal eens positieve effecten gevonden bij samen-
vattings- of free rccall-maten, maar niet bij meerkeuzetoetsen (Peper & Mayer, 1978;
Veldhuizen, 1979; Van Oostendorp & Meyboom, 1981).

Wel wijst het merendeel van het onderzoek op het nut van de reviewfunctie (Ladas, 1980).
De bevinding dat het maken van aantekeningen vaak niet effectief blijkt te zijn, zou voor een
belangrijk deel kunnen liggen aan het feit dat lezers (leerlingen of studenten) geen 'goede'
aantekeningen maken. Opvallend is ook dat deze vaardigheid vrijwel nergens in het reguliere
onderwijs onderwezen wordt, terwijl veel leerlingen (lln) er toch gebruik van maken. Maar
ook in het onderzoek waarbij het maken van aantekeningen getraind is, vallen weinig
verbeteringen van leerresultaten te constateren. (Palmatier, 1971; Robin, Fox, Martello, &
Archable, 1977; Titus & Carrier, 1980; Van Oostendorp & Meyboom, 1981;Ganske, 1981).
Twee kanttekeningen willen we maken bij dit trainingsonderzoek. De eerste is dat in al deze
onderzoeken de ppn studenten zijn. Het is niet ondenkbaar dat bij deze ppn studiegewoonten
en wijzen van aantekeningen maken zijn ontstaan, die zeer moeilijk te wijzigen zijn. Bij
jongere lln (basis of middelbare schoolleeftijd) zijn er wellicht meer mogelijkheden voor het
bereiken van positieve effecten van het geven van aanwijzingen m.b.t. het maken van
aantekeningen. Deze suggestie zal in de hierna te bespreken experimenten bij havo lln
onderzocht worden. De tweede kanttekening betreft de review functie. In onderzoek is tot nu
toe weinig aandacht besteed aan de invulling van de reviewfase (Norton, 1981; Barnett, Di
Vesta & Rogozinski, 1981). Ppn kunnen bijv. in deze fase de informatie passief herhalen,
maar ook de eigen kennis actief controleren en vergelijken met de informatie in de aanteke-
ningen. Het feit dat men zich zo weinig heeft beziggehouden met de wijze waarop de review
het meest efficiënt kan gebeuren, is des te opvallender, wanneer men zich realiseert dat in de
literatuur vooral de waarde van deze fase in het leerproces benadrukt wordt. In dit onderzoek
zal een aanzet tot de invulling van de reviewfase gegeven worden.

De vraagstellingen van dit onderzoek luiden: 1. Leidt het geven van aanwijzingen m.b.t.
het maken van aantekeningen tijdens het voor de eerste keer bestuderen van de leerstof
(opnamefase) tot betere leerprestaties dan wanneer lln vrijgelaten worden in de manier van
bestudering? 2. Leidt het geven van aanwijzingen m.b.t. het herhalen van de leerstof in de
reviewfase tot betere leerprestaties dan wanneer lln vrijgelaten worden in wat ze in de
reviewfase doen.

Deze vraagstellingen werden m.b.v. een 2x2 factorieel design onderzocht: wel of geen
aanwijzingen tijdens de opnamefase (zitting 1) en orthogonaal daarmefe wel of geen aanwij-
zingen tijdens de reviewfase (zitting 2). Daarnaast werd bij een vijfde conditie verboden
tijdens beide zittingen te schrijven. Dit om na te gaan wat het leerresultaat zou zijn als men
niets opschreef. Deze conditie zou gezien kunnen worden als een extra controlegroep, met
name voor het geval dat vrijwel alle ppn in conditie II en IV op eigen instigatie aantekeningen
maken. De ppn in deze condities werden daarin namelijk vrijgelaten om de experimentele

De aanwijzingen die m.b.t. het maken van aantekeningen gegeven worden (zie materiaal)
zijn vooral gericht op het kunnen onderkennen en vasthouden van de globale samenhang -
macrostructuur- van de tekstinformatie (Cf. Van Dijk, 1978), hetgeen overigens niet uitsluit
dat hiervan ook op locaal niveau een gunstig effect uitgaat. De reviewaanwijzingen hebben tot
doel de 'integrerende' en 'assimilerende' activiteiten (Wittrock, 1974) van de lln te stimule-
ren. De aantekeningen of tekstinhouden worden hier met name gezien als 'cues' tot meer
complexe ideeën of gedachtengangen die de lln zelf moeten aanvullen als controle op hun
eigen kennis (Cf. Brown, Campione, & Day, 1981). Bij de constructie van de verschillende
aanwijzingen is gebruik gemaakt van literatuur op het gebied van de S03R methode (survey,
question, read, recite en review) met name Van Parreren, Peeck, en Velema (1975) en
Louwerse (1980). Dit onderzoek zal geen direct inzicht verschaffen in de vraag of de
veronderstelde activiteiten ook werkelijk in gang gezet worden door de aanwijzingen. Het
doel van dit onderzoek is in de eerste plaats na te gaan of bij jongere lln leerresultaten m.b.v.
aantekeningen- en reviewaanwijzingen te verbeteren zijn en of de aantekeningen zelf ook
veranderen. Daartoe zullen de aantekeningen, m.n. op die punten waar de aanwijzingen op
ingaan, beoordeeld worden.

Aan dit experiment namen 87 vierde klas havo leerlingen deel, verspreid over 5 klassen
waarbij iedere klas een conditie vormt. Conditie I (aantekeningen- en reviewaanwijzingen): n
= 16; Conditie II (geen aantekeningen-, wel reviewaanwijzingen): n = 19; Conditie III (wel
aantekeningen, geen reviewaanwijzingen): n = 16; Conditie IV (geen aantekeningen-, geen
reviewaanwijzingen): n = 19; Conditie V (verbod aantekeningen te maken tijdens opname-
en reviewfase): n = 17. Tussen de condities bestonden geen significante verschillen in het
gemiddelde rapportcijfer van het overgangs- en kerstrapport. Er was geen reden aan te nemen
dat er systematische verschillen in motivatie, interesse e.d. tussen de condities zouden zijn.

De aanwijzingen voor het maken van aantekeningen (tijdens de opnamefase) bestonden uit
een paragraaf over het nut van aantekeningen maken (met opmerkingen als:/Je dwingt jezelf
actief met leerstof bezig te zijn / Bij het onderscheiden van hoofd- en bijzaken zal je sneller de
opbouw van de tekst doorzien / Daardoor onthoud je beter / Daarnaast zijn aantekeningen
een houvast bij het weer doornemen van de tekst/) en uit een paragraaf, waarin een tiental
richtlijnen en uitleg werd gegeven (/Geef essentie, hoofdzaken en belangrijke bijzaken weer /
Schrijf in eigen woorden / Laat overtollige informatie weg / Geef voorbeelden kort weer/,
etc). In totaal twee pagina's. (Zie Ter Steeg, 1981 voor nadere details.) De aanwijzingen voor
de reviewfase behoeven wat meer toelichting: deze aanwijzingen geven de ppn allereerst de
opdracht de kerngedachte wat betreft de tekst uit het hoofd in een paar zinnen samen te
vatten. Vervolgens krijgen zij aanwijzingen de genoteerde kerngedachte te controleren aan
de hand van hun aantekeningen en/of de tekst, extra aandacht te besteden aan dingen die zij
niet meer weten en details/bijzaken in samenhang met de kerngedachte te bekijken. (In totaal
twee pagina's). Het doel van deze reviewaanwijzingen is tweedelig: allereerst te stimuleren

tijdens de reviewfase een actieve houding aan te nemen (zie Inleiding). Het middel dat we
hiertoe gebruikten was de opdracht de kerngedachte uit het hoofd te formuleren. Ten tweede,
hopen we dat door het vergelijken van de kerngedachte met tekst/aantekeningen lln op het
spoor van lacunes in eigen kennis komen en dit herstellen. Dc studietekst was een informatieve
tekst (2300 woorden) over het forensisme. De kennis over de tekst v/CTd getoetst m.b.v. een
samenvattingsopdracht, waarin de essentie en de hoofdzaken van de bestudeerde tekst naar
voren moesten komen en een meerkeuzetoets, bestaande uit 30 vierkeuze-vragen. Verder is
een vragenlijst afgenomen, bestaande uit 5-puntsschalen, om inzicht te krijgen in de opinie
van de lln over kwesties als de moeilijkheidsgraad en interessantheid van de tekst, voorkennis,
of men voldoende tijd had om de tekst goed te bestuderen, inzet en zinvolheid van de
aanwijzingen.

De samenvattingen zijn beoordeeld volgens een gewogen informatie-eenheden criterium;
van dc tekstinhoud is door 2 beoordelaars in overleg een schema opgesteld, waarin hoofd-
zaken (in totaal 15), bijzaken (22) en relevante details (40) zijn weergegeven. Aan deze
eenheden werden 3, 2 resp. 1 punt toegekend. De samenvattingsscore is de som van de
aanwezig geachte eenheden eventueel in geparafraseerde vorm, vermenigvuldigd met hun
gewichten. Door de beperkte ruimte beschrijven we hier beknopt 5 criteria waarop de
aantekeningen beoordeeld zijn; twee inhoudelijke criteria, twee vormcriteria en een 'overall'
criterium: 1. Het aantal vermelde hoofdzaken; hiervoor werd gebruik gemaakt van het
schema dat ook voor de beoordeling van de samenvattingen werd gehanteerd. 2. Het aantal
vermelde bijzaken; ook hiervoor werd het schema gebruikt. 3. De overzichtelijkheid van de
aantekeningen; aantekeningen werden overzichtelijk genoemd als hoofdzaken waren onder-
streept, alinea's van kopjes waren voorzien of als uitspraken genummerd waren (bijv. Ie, 2e,
etc.), e.d. De beoordeling werd gedaan op een 0-1 schaal. 4. De mate van voltooiing; per
aantekeningenvel werd bekeken tot en met welke paragraaf in de tekst men informatie in de
aantekeningen genoteerd had. De tekst bevat 6 paragrafen. Scores kunnen hier variëren van
1-6. 5. Overall kwaliteit: de scores op de gehanteerde criteria werden gecombineerd tot één
globale index, na een transformatie van de ruwe scores tot z-scores. Hieronder vallen de
voorgaande vier criteria, maar ook criteria als dekking t.o.v. tekst, gebruik van eigen woorden
en selectie van relevante informatie. (Bij deze laatste 3 criteria werd een 0-1 beoordelings-
schaal gehanteerd).

De interbeoordelaar betrouwbaarheden bij de scoring waren hoog: bij de samenvattingen
0.96, bij de aantekeningen voor de verschillende criteria variërend van 0.88 tot 0.98 met als
uitschieter 0.53 voor het criterium overzichtelijkheid. Bij de meerkeuzetoets werd voor elke
goed beantwoorde vraag een punt toegekend. De scorerange loopt van O tot 30. De homoge-
niteit van deze toets is niet hoog: Coëfficiënt alpha is 0.60 (n = 87). De oorzaak van deze lage
waarde kan gezocht worden in de verschillende soorten vragen die in de toets zijn opgenomen.
Er zijn zowel vragen over hoofdzaken als details in te onderscheiden.

In de eerste zitting kregen alle condities de instructie de tekst te bestuderen als voor een
proefwerk dat over twee weken zou worden afgenomen. Er werd toegevoegd dat men voor de
bestudering in totaal 50 minuten zou krijgen: tijdens zitting 1 30 minuten en tijdens zitting 2
20 minuten. Het proefwerk zou bestaan uit vragen zowel over de hoofdzaken als over de
details. Conditie I en III kregen hierna de opdracht tijdens het bestuderen van de tekst
aantekeningen volgens de aanwijzingen te maken (zie materiaal). Deze aanwijzingen werden

uitgedeeld, de ppn lazen deze door en vervolgens vatte de pl het nog eens samen. In condhie II
en IV werd meegedeeld dat, als iemand gewend was aantekeningen te maken, dat nu ook
mogelijk was. In conditie V werd gezegd dat men geen pen en papier mocht gebruiken. Voor
alle condities was de studietijd gelijk: 30 minuten. Aan de ppn uit conditie I, II, III, en IV werd
tot slot meegedeeld dat zij bij de tweede zitting hun eventuele aantekeningen terug zouden
krijgen. In de tweede zitting, een week later, kregen alle ppn te horen dat ze voor het opnieuw
doornemen van de tekst en/of aantekeningen 20 minuten kregen. Hierna kregen conditie III,
IV en V de tekst en eventuele aantekeningen terug. In Conditie V werd opnieuw verboden te
schrijven. De ppn uit condide I en II kregen daarnaast aanwijzingen voor de reviewfase.
Allereerst vatten zij de kerngedachte van de tekst in enkele zinnen samen. Men kreeg voor
deze opdracht 5 minuten. Hierop aansluitend volgde het tweede deel van de aanwijzingen
m.b.t. het controleren van hun kennis (en eventuele lacunes) aan de hand van de tekst en
aantekeningen. Voor dit deel kreeg men 15 minuten. Dus evenals de andere condities 20
minuten in totaal om de leerstof te herhalen. In de derde zitting, opnieuw na een week, volgde
de toetsing: eerst maximaal 20 minuten voor het schrijven van een samenvatting, daarna
maximaal 20 minuten voor de meerkeuzetoets, hetgeen ruim voldoende bleek. Aan het eind
van deze zitting werd de vragenhjst met vragen m.b.t. de moeilijkheidsgraad van de tekst e.d.
voorgelegd.

De aantekeningen zijn op een vijftal criteria beoordeeld (zie scoring). In tabel 1 zijn de
gemiddelden op elk criterium weergegeven voor de ppn, die aanwijzingen hebben gekregen
m.b.t. het maken van aantekeningen (condide I en III, n = 32) en voor de ppn die op eigen
wijze en op eigen instigatie aantekeningen hebben gemaakt (uit conditie II en IV, n = 16).

De verschillen tussen de groepen waren (met behulp van een t-toets) op ieder criterium
significant (p<.05): ppn die aanwijzingen hebben ontvangen m.b.t. het maken van aanteke-
ningen maakten op deze 5 criteria betere aantekeningen dan ppn, die op eigen wijze te werk
zijn gegaan.

Tabel 1 Gemiddelden (x) op 5 aantekeningen criteria voor de groepen met resp. zonder
aanwijzingen in Experiment 1 en 2 (Tussen haken zijn de resultaten van Conditie III
vermeld).

Voor de vraagstellingen t.a.v. de toetsresultaten vergelijken we allereerst de resultaten van
conditie I-IV. Dc resultaten op de samenvatting en meerkeuzetoets werden m.b.v. afzon-
derlijke twee factor covariantie-analyses geanalyseerd (Factoren: wel/geen aanwijzingen
tijdens opnamefase en wel/geen aanwijzingen tijdens reviewfase) met als covariaat het
gemiddelde rapportcijfer van het overgangs- en kerstrapport. In tabel 2 zijn de gemiddelden
en standaarddeviaties van conditie I-I V weergegeven op de meerkeuzetoets en samenvatting.
In deze tabel zijn ook de resultaten van conditie V vermeld; hierop komen we hieronder terug.

Tabel 2 Gemiddelden (x) en standaarddeviaties (tussen haken) per conditie op de meer-
keuzetoets en samenvatting in Experiment 1 en 2.

De covariantie-analyses heten alleen een significant effect van het geven van aanwijzingen
tijdens de opnamefase zien zowel bij de meerkeuzetoets als bij de samenvatting (p<.05). Het
effect van het geven van de aanwijzingen tijdens de reviewfase was zeer gering en niet
significant op conventioneel niveau noch bij de meerkeuzetoets noch bij de samenvatting. Er
werden geen interactie-effecten gevonden. Uit deze analyses volgt dat de ppn die de aanteke-
ningenaanwijzingen hebben ontvangen een beter leerresultaat behalen dan wanneer ppn
vrijgelaten worden in de manier van bestudering; er is geen verbetering te constateren ten
gevolge van de reviewaanwijzingen.

Onder de ppn die op eigen wijze de tekst bestuderen zitten ppn die uit zichzelf geen
aantekeningen maken (n = 22) en ppn die uit zichzelf wel aantekeningen maken (n = 16). Een
vergelijking van deze 2 groepen met de groep die volgens aanwijzingen aantekeningen maakt
(n = 32) geeft inzicht in de vraag wat de bijdrage is op het leerresultaat van op eigen wijze
aantekeningen maken en wat de aanwijzingen daaraan toevoegen. (We laten de variabele
wel/geen aanwijzingen bij de reviewfase hier buiten beschouwing). T.a.v. de vergelijkbaar-
heid van deze 3 groepen bleek dat ze niet verschilden in rapportcijfer, voorkennis en inzet
(blijkens de vragenlijstgegevens). De aantekeningenmakers-op-eigen-wijze vonden de tekst
wat interessanter en makkelijker dan de overige groepen, maar daartegenover stond dat ze
zeiden dat ze wat meer tijd hadden kunnen gebruiken. In hoeverre deze verschillen tegen
elkaar opwegen is niet goed vast te stellen. In de discussie zullen we hier verder op ingaan. In
tabel 3 zijn de toetsgemiddelden en sd's voor deze 3 groepen weergegeven.

Tabel 3 Gemiddelden (x) en standaarddeviaties (tussen haken) voor de groepen die op eigen
initiatief geen resp. wel aantekeningen maken en die volgens aanwijzingen te werk
gaan in Experiment 1 en 2.

Statistische toetsing (m.b.v. een t-toets en a = .05) gaf de volgende effecten te zien: Ppn die
uit zichzelf aantekeningen maken behaalden bij de samenvatting een hogere score dan ppn die
uit zichzelf geen aantekeningen maken, bij de meerkeuzetoets was er geen verschil. Verder
bleek dat de ppn met aantekeningenaanwijzingen bij de meerkeuzetoets hoger scoorden dan
ppn die uit zichzelf aantekeningen maken, bij de samenvatting was er geen verschil. De ppn
met aantekeningenaanwijzingen behaalden op beide toetsmaten een hoger resultaat dan de
ppn die uit zichzelf geen aantekeningen maken.

Tot slot willen we nagaan wat de invloed is van een verbod aantekeningen te maken. In
tabel 2 zijn de toetsresultaten van conditie V weergegeven. Daaruit kunnen we opmaken dat
deze conditie bij de meerkeuzetoets een middenpositie inneemt en bij de samenvatting de
onderste. Een vergelijking van elk van de condities I-IV met conditie V m.b.v. Dunnett's
analyse (Winer, 1971) liet zien dat bij de meerkeuzetoets conditie IV significant lager scoorde
dan conditie V, terwijl de overige condities niet significant verschilden. Bij de samenvatting
waren conditie I en III significant beter dan conditie V, bij de overige condities waren er geen
significante verschillen. Het verbod aantekeningen te maken hoeft dus geenszins automatisch
tot een slecht(er) leerresultaat te leiden. In de discussie na experiment 2 zullen we hier verder
op ingaan. Uit de resultaten op de vragenlijst bleek overigens dat conditie V de tekst het meest
interessant vond, terwijl de overige condities maar matig door de tekst geboeid waren. Wat
betreft de moeilijkheid van de tekst, voorkennis en beschikbare tijd waren er geen significante
verschillen. Verder gaf conditie IV te kennen minder zijn best gedaan te hebben dan de
overige condities, hetgeen in grote lijn in overeenstemming is met de toetsresultaten. De
aanwijzingen voor zowel de opnamefase als de reviewfase werden door alle desbetreffende
condities redelijk zinvol gevonden.

Samenvattend kunnen we concluderen dat het geven van aanwijzingen m.b.t. het maken
van aantekeningen op belangrijke criteria waarop de aantekeningen beoordeeld zijn tot
verbetering leidt en vervolgens dat ook de leerresultaten zowel op een meerkeuzetoets als bij
een samenvatting toenemen t.o.v. ppn die op eigen wijze de tekst bestuderen. Er werd geen

evidentie gevonden voor een positieve invloed van de reviewaanwijzingen. Het is mogelijk
dat de procedure (of instructie) de ppn onvoldoende ervan doordrongen heeft dat het
formuleren van de kerngedachte een eerste stap was in het controleren van hun kennis. De
tweede stap, het controleren van de eigen kennis en eventueel corrigeren daarvan aan de hand
van de tekst of aantekeningen, is naar onze indruk onvoldoende uit de verf gekomen. In
experiment 2 zal getracht worden de reviewprocedure op dit punt effectiever te laten zijn.

Experiment 2 valt in 2 delen uiteen: een replicatie van experiment 1 en een wijziging van de
reviewaanwijzingen. De wijziging bestaat in het kort uit het volgende: in experiment 1
begonnen de ppn tijdens de review direct met de opdracht de kerngedachte van de tekst uit het
hoofd te formuleren en daarna kregen ze de gelegenheid de tekst/de aantekeningen opnieuw
in te zien. We hebben de indruk dat de ppn dit als twee van elkaar losstaande onderdelen
zagen. De procedure gaat nu anders; de ppn krijgen de gelegenheid even de tekst en de
aantekeningen in te zien, daarna volgt de opdracht om enkele voorbeeldvragen te beantwoor-
den en vervolgens zelf verder de tekst en de eventuele aantekeningen opnieuw door te nemen,
waarbij men zichzelf (mentaal) vragen stelt en die ook probeert te beantwoorden. De essentie
van de procedure is nu dat de pp zelf vragen genereert en die probeert te beantwoorden, en
vervolgens vergelijkt met de gemaakte aantekeningen/tekstinhouden. (Cf. André & An-
derson, 1978/79; Anderson, 1979).

Vierde klas havo lln, die nu echter wel volgens het lot toegewezen konden worden aan de 5
condities. Conditie I n = 16, Conditie II n = 14, Conditie III n = 19, Conditie IV n = 19 en
Conditie V n = 18 (Ongelijke aantallen ontstonden door ziekte e.d.). Opnieuw werden geen
verschillen tussen condities in gemiddeld rapportcijfer van het overgangs- en kerstrapport

De aanwijzingen voor het maken van aantekeningen waren vrijwel identiek met de aanwijzin-
gen in experiment 1, met hier en daar een minimale verbetering (Kok, 1982). De aanwijzingen
voor de reviewfase bestonden uit a) een instructie (2 pagina's) met aanwijzingen, waarin
centraal stond zichzelf vragen te stellen bij het opnieuw doornemen van aantekeningen/tekst
en om zich zelf te controleren en b) een instructie (1 pagina) met enkele vragen, die als
voorbeeld dienden van vragen, die men zich zelf kon stellen en die ook beantwoord moesten
worden. In deze laatste instructie werd opnieuw benadrukt op dezelfde manier zelf de
aantekeningen/tekst door te nemen. De tekst, de toetsen en de wijze van scoring waren
hetzelfde als in experiment 1.

In elke conditie was een pl aanwezig, die van alle instructies die gegeven moesten worden, op
de hoogte was. Conditie I en II hadden pi's van het Psychologisch Laboratorium; bij conditie
III, IV en V waren leraren als pl aanwezig. Om de invloed van het feit dat er verschillende pi's
waren zoveel mogelijk te minimaliseren, waren alle instructies zo gedetailleerd mogelijk

uitgeschreven en deze werden ook zoveel mogelijk schriftelijk aangeboden. In hoeverre,
ondanks deze maatregelen, pl-effecten een rol gespeeld hebben is moeilijk vast te stellen. De
tijd tussen zitting 1 en zitting 2 is 8 dagen en tussen zitting 2 en 3 4 dagen. De procedure is
verder identiek aan die in experiment 1, behoudens in zitting 2 voor de condities, die
reviewaanwijzingen kregen (conditie I en II). Conditie I en II lazen allereerst de aanwijzingen
voor de reviewfase. Daarna kregen de ppn de eventuele aantekeningen en tekst terug ter
bestudering op de aangegeven manier. Na 5 minuten studietijd volgde de opdracht met
voorbeeldvragen. Hier kregen de ppn 5 minuten voor. Daarna moesten de ppn op dezelfde
manier verder gaan met het bestuderen van de tekst en/of aantekeningen. Daarvoor kregen ze
10 minuten. De totale reviewtijd is dus 20 minuten, evenals in de overige condities.

De aantekeningen van de ppn, zijn volgens de eerder besproken 5 criteria beoordeeld. In tabel

1 zijn de gemiddelden op elk criterium voor de groepen met resp. zonder aantekeningen-
aanwijzingen weergegeven (n = 34' resp. n = 20). Statistische toetsing (m.b.v. een t-toets bij
a = .05) liet wat betreft hoofdzaken, bijzaken en overall kwahteit geen significant verschil
zien, wel wat betreft de overige criteria; de aantekeningen van de ppn die aanwijzingen
hebben gekregen waren overzichteh jker maar de mate van voltooiing was geringer dan van de
ppn zonder aanwijzingen. Er is ook een analyse uitgevoerd zonder conditie I. De argumenten
hiervoor zijn dat uit observaties van de pl bleek dat de ppn uit conditie I m.n. bij zitting 1
langzaam op gang kwamen. Deze observatie wordt ondersteund door verschillende meer
objectieve (vragenhjst) gegevens: men vond (in significant hogere mate dan de overige
condities) dat men te weinig tijd had om de tekst te bestuderen, de tekst werd moeilijker en
minder interessant gevonden en men gaf ook aan niet erg zijn best gedaan te hebben. Het
resultaat is nu (met een t-toets en a = .05) dat de ppn met aanwijzingen significant hogere
scores behaalden op de criteria overzichtelijkheid en overall kwaliteit, dan ppn zonder
aanwijzingen. De verschillen wat betreft hoofdzaken en bijzaken waren niet significant, wel
was er sprake van een tendens in de verwachte richting. Op het criterium mate van voltooiing
werd eveneens geen significant verschil geconstateerd, maar hier kan sprake zijn van een
plafond effect. Samenvattend geven de resultaten op de aantekeningencriteria een lichte
verbetering te zien o.i.v. de aantekeningenaanwijzingen, wanneer conditie I buiten beschou-
wing gelaten wordt.

De toetsscores van conditie I-IV zijn opnieuw met een twee factor covariantieanalyse^
geanalyseerd met als covariaat het gemiddelde rapportcijfer. In tabel 2 zijn de gemiddelden
van conditie I-IV weergegeven op beide toetsen (ook de resultaten van conditie V zijn in tabel

2 opgenomen, hier komen we op terug). De covariantie-analyse over de resultaten op
de meerkeuzetoets van conditie I-IV toonde aan dat er geen effect was van de aanteke-
ningenaanwijzingen, noch van de reviewaanwijzingen, maar wqel een sterk interactie-effect
(p < .01). Bij de samenvattingen werd opnieuw geen effect van de aantekeningenaanwijzin-
gen geconstateerd noch van de reviewaanwijzingen, maar opnieuw wel een sterk interactie-
effect.

2. Deze covariantie-analyses gaan over iets andere aantallen ppn omdat van niet alle ppn het rapportcij-
fer bekend was (in totaal 4 ppn). Daarnaast hebben 2 ppn in conditie IV helaas geen samenvatting
ingeleverd.

Inspectie van de gemiddelden laat zien dat conditie I verantwoordelijk is voor de niet-voor-
spelde effecten. Zoals hiervoor al opgemerkt is zijn de ppn in conditie I weinig serieus te werk
gegaan, en dus kan de manipulatie ook niet 'effecdef geweest zijn. Daarom is ook een analyse
over de resultaten van condities II, III en IV, zonder conditie I uitgevoerd. Een eenweg
covariantie-analyse (met het gemiddelde rapportcijfer als covariaat) liet een significant
verschil tussen deze 3 condities zien: bij de samenvatting (p<.001) en bij de meerkeuzetoets
(p<.05). Een verdere analyse toonde aan dat bij de samenvatdng zowel condide II als III een
significant hogere score behaalde dan conditie IV. Bij de meerkeuzetoets bereikte alleen
conditie III een significante hogere score dan condide IV; bij conditie II was er slechts sprake
van een tendens in de verwachte richting (.05<p <.010). Samenvattend geven deze resultaten
aan dat ppn die aantckeningenaanwijzingen hebben ontvangen (en condhie I buiten be-
schouwing latend) een beter leerresultaat behalen dan wanneer ppn vrijgelaten worden in de
wijze van bestudering. Dit geldt voor zowel de samenvatting als voor de meerkeuzetoets. Wat
betreft dc reviewaanwijzingen is er alleen verbetering te constateren bij de samenvatdng.

Ook hier zullen we nagaan hoe groot de invloed is van op eigen wijze en eigen inidadef
aantekeningen maken (n=20) op het leerresultaat t.o.v. de ppn die dat niet doen (n=13) en
wat de aantekeningenaanwijzingen hieraan toevoegen (n= 35). In tabel 3 zijn de gemiddel-
den en sd's voor deze groepen weergegeven. De onderste twee regels in deze tabel vertegen-
woordigen de toetsresultaten van conditie I en III (n=35), resp. conditie III afzonderlijk
(n = l9). Deze 3 groepen waren vergelijkbaar t.a.v. rapportcijfer, inzet, benodigde studiedjd
en interesse voor de tekst (blijkens de vragenlijst gegevens en condide I buiten beschouwing
latend). De op-eigen-wijze-niet-aantekeningenmakers gaven echter aan wat minder voor-
kennis te bezitten, terwijl de aantekeningenmakers-volgens-aanwijzingen de tekst makkelij-
ker vonden. In de discussie komen we hierop terug. Stadstische toetsing van de toetsresultaten
gaf de volgende effecten te zien: bij de meerkeuzetoets was er geen significant verschil tussen
de ppn die op eigen initiatief wel aantekeningen maken en de ppn die dat op eigen inidadef
niet doen. De ppn die aanwijzingen ontvingen behaalden t.o.v. beide groepen een hogere
meerkeuzetoetsscore, als condide I buiten beschouwing wordt gelaten. Bij de samenvatdng
werden geen significante verschillen geconstateerd. Wel was er een tendens dat de ppn die op
eigen initiadef aantekeningen maken een hogere samenvatdngsscore behaalden dan de
op-eigen-wjjze-niet-aantekeningenmakers (gemiddeld 26.6 t.o.v. 22.3, p=.10), evenals
aantekeningenmakers-volgens-aanwijzingen (gemiddeld 27.1 t.o.v. 22.3, .05<p<.10).

Voor de vraag wat de invloed is van het verbod om aantekeningen te maken, vergelijken
we, net zoals in experiment 1, elk van de condities I-IV met conditie V. In tabel 2 zijn de
toetsresultaten van condide V vermeld. In deze tabel valt te zien dat deze condide bij de
meerkeuzetoets het één na laagste resultaat behaalt en bij de samenvatting een middenposide
inneemt. De Dunnett's analyse liet de volgende significante verschillen zien: bij de meer-
keuzetoets behaalde condide III een hogere score dan conditie V; de overige vergelijkingen
lieten geen verschillen zien. Bij de samenvattingen bleek condide II hoger te scoren, condide
IV lager; de verschillen bij overige vergelijkingen waren niet significant. Net zoals in experi-
ment 1 blijkt dat het verbod aantekeningen te maken niet tot een lager leerresultaat hoeft te
leiden. In de discussie zullen we hierop terugkomen. Wat betreft de vragenlijstgegevens willen
we tenslotte nog noemen dat de aanwijzingen voor de opnamefase en reviewfase redelijk
zinvol en nutdg gevonden werden. Opnieuw bleek conditie I af te wijken van de overige
condities. De ppn uit deze conditie beoordeelden de aanwijzingen wat minder posidef.

In beide experimenten worden er indicaties aangetroffen dat er met de aanwijzingen m.b.t.
aantekeningen maken interessante verbeteringen zowel t.a.v. de aantekeningen als de toets-
resultaten te bewerkstelligen zijn. In experiment 1 zijn deze bevindingen wat meer solide dan
in experiment 2, t.g.v. een niet geslaagde manipulatie in een conditie. Wij hebben geen
aanwijzingen dat de effecten toegeschreven kunnen worden aan verschillen in leestijd of
voorkennis. T.a.v. de leestijd kunnen we opmerken dat de toegemeten studietijd tijdens de
twee zittingen vrij ruim was, echter niet zodanig dat ppn binnen een bepaalde conditie ruim
voor tijd klaar waren. De aantekeningen-ppn gebruikten wat meer tijd hetgeen verwacht kan
worden: het noteren zelf kost tijd. Overigens zijn er blijkens de vragenlijstgegevens geen
verschillen tussen de condities t.a.v. de vraag of men meer tijd nodig had gehad, en zo ja in
welke zitting (Conditie I in experiment 2 uitgezonderd. Zoals eerder opgemerkt deze ppn
kwamen dan ook erg langzaam op gang). Om een studietekst te gebruiken waar de lln weinig
voorkennis over hadden, is de mening van de docenten gevraagd. Daarnaast blijkt uit de
vragenlijstgegevens dat er tussen de condities geen verschillen bestaan in voorkennis t.a.v. de
tekstinhoud. (Opnieuw conditie 1 in experiment 2 uitgezonderd: zij gaven aan meer voorken-
nis te bezitten).

De reviewaanwijzingen Hjken minder effectief te zijn: in experiment 1 is er nauwelijks een
effect, in experiment 2 wordt er bij de samenvatting een positief effect gevonden en bij de
meerkeuzetoets een tendens in de verwachte richting. De essentie van de reviewprocedure in
experiment 1 was het actualiseren van de macrostructuur en daarna aantekeningen/tekst
doornemen als controle op eigen kennis. Naar onze mening bleef de controle achterwege.
André en Anderson (1978/79) en Anderson (1979) noemen als voorbeeld van een efficiënte
strategie om eigen leeractiviteiten te monitoren het zichzelf stellen van vragen. In experiment
2 is gepoogd lln bij het reviewen tot gebruikmaking van deze strategie te stimuleren. Door het
ontbreken van betrouwbare resultaten van conditie I is het revieweffect lastig te evalueren en
is het o.i. prematuur hier conclusies aan te verbinden, ook t.a.v. de vraag of men voldoende
tijd had te wennen aan deze nieuwe methode. In de setting van dit onderzoek was het
onmogelijk deze conditie met nieuwe ppn over te doen. Nader onderzoek naar de bruikbaar-
heid is o.i. nodig. Een verdere analyse, waarbij ppn die uit zichzelf en op eigen wijze
aantekeningen maken werden onderscheiden van ppn die dat niet doen, toonde aan dat de
eerste groep bij de samenvatting een hogere score behaalt dan de tweede. Het is mogelijk dat
de ppn die uit zichzelf aantekeningen maken een selecte groep vormen, d.w.z. deze ppn zijn
bijv. intelligenter dan niet-aantekeningenmakers. Op een aantal controlematen, zoals rap-
portcijfer en vragenlijstgegevens, werden geen verschillen geconstateerd, op een aantal
andere wel, zoals bijv. interesse en benodigde studietijd in experiment 1. De effecten waren
echter tegengesteld van richting. Het is niet goed vast te stellen of deze effecten tegen elkaar
opwegen, maar bovendien kunnen variabelen een rol spelen waar we geen greep op hebben.
Merk in dit verband overigens op dat de verschillen tussen deze 2 groepen alleen bij de
samenvatting en niet bij de meerkeuzetoets worden gevonden. Maar ook als het wel of niet
aantekeningen maken direct wordt gemanipuleerd, wordt bovengenoemd effect gevonden
(zie Inleiding). De theoretische interpretatie van dit effect is vooralsnog onduidelijk. Een
aantal veronderstellingen zijn mogelijk: 1. Het maken van aantekeningen leidt tot 'beter
georganiseerde' kennis, hetgeen vooral bij reproductie en niet zozeer bij recognitie facilite-
rend is. 2. De aantekeningen vormen efficiënte 'retrieval cues' (Cf. Van Oostendorp &
Meyboom, 1981). 3. Het maken van aantekeningen vormt een response bias, d.w.z. het
noteren van informatie uit de tekst doet een beroep op taalproductie, bijv. het formuleren, en

daardoor treedt er bij het maken van een samenvatting facilitatie op. De nadruk ligt hier dus
op de specifieke training in de wijze van responderen. Een verrassend resultaat van dit
onderzoek is dat de invloed van de aantekeningenaanwijzingen in beide experimenten het
meest duidelijk is bij de meerkeuzetoets. Een mogelijke interpretatie van dit effect is dat de
op-eigen-wijze-aantekeningen-makers t.o.v. aantekeningenmakers-volgens-aanwijzingen
wat minder nauwkeurige kennis van de tekstinhoud of meer selectieve kennis t.o.v. de tekst
als geheel hebben opgebouwd. Bij de samenvatting kan men als dat het geval is, nog een
redelijke score behalen, voor de meerkeuzetoets lijkt meer precisie en representativiteit in
kennis vereist. Nader onderzoek is nodig om de plausibiliteit van deze suggesties aan te tonen.

Een tweede resultaat, dat op het eerste gezicht, tegen de verwachting in is betreft de
resultaten van conditie V, de groep die geen aantekeningen mocht maken. Immers, men zou
verwachten dat deze groep in zijn geheel een slechter toetsresultaat behaalt doordat een
aantal ppn die onder normale omstandigheden aantekeningen maken, nu uit hun normale
studeergedrag gehaald worden en dus benadeeld worden, hetgeen voor deze groep in zijn
geheel tot een lager toetsresultaat dan bijv. van conditie IV zou moeten leiden. De resultaten
geven aan dat in experiment 1 conditie V een hogere toetsscore behaalt dan conditie IV op de
meerkeuzetoets en in experiment 2 bij de samenvatting. In de inleiding is gesuggereerd dat het
verbeteren van teksten, bijv. door structuurexplicitering (Van Oostendorp & Hamaker,
1978), vaak niet tot betere leerresultaten leidt. Lezers hjken hun begripsinspanning af te
stemmen op het gewenste (subjectieve) niveau van begrip. Als het makkelijker gaat, doen ze
dat met minder inspanning, maar het resulterende begrip blijft hetzelfde. HetzelfdepnVicipe
kan werkzaam zijn geweest in conditie V: ppn vatten de instructie om niet te schrijven bij het
bestuderen van de tekst op als een uitnodiging om deze tekst onder relatief moeilijke
omstandigheden te bestuderen. Zij reageren op deze (ervaren) handicap door extra inspan-
ning toe te voeren aan het leerproces om (minstens) hetzelfde niveau van begrip te bereiken
als onder minder belemmerende omstandigheden. Dit zou er toe kunnen leiden dat de
leerresultaten niet slechter en soms zelfs beter zijn dan van ppn die geen handicap ervaren
(bijv. conditie IV). Het zou interessant zijn deze suggestie m.b.v. een dubbeltaak te onder-
zoeken (Cf. Britton, Pilva, Davis, & Wehausen, 1978): neemt de verwerkingscapaciteit die
besteed wordt aan de primaire taak, het bestuderen van de tekst, toe en neemt tegelijkertijd
de overblijvende capaciteit voor de dubbeltaak, bijv. een klikreactie, af.

Tot slot keren we terug naar de centrale vraag van dit onderzoek: is het mogelijk bij jongere
lln middels aantekeningenaanwijzingen leerresultaten te verbeteren? De toetsresultaten
geven interessante verbeteringen te zien, zeker als men bedenkt dat het om een instructie gaat
die bij elkaar slechts (ongeveer) 30 minuten duurt (en slechts 4 pagina's lang is). In de
inleiding is opgemerkt dat bij studenten een gelijksoortige aanpak niet (meer) effectief lijkt te
zijn. (Robin et al., 1977; Van Oostendorp & Meyboom, 1981). Waarschijnlijk hebben
studenten studiegewoonten ontwikkeld die niet door een eenvoudige instructie te wijzigen
zijn. Het lijkt raadzaam bij verder onderzoek op dit terrein hiermee rekening te houden.

T.a.v. de effectiviteit van de aantekeningenaanwijzingen willen we tenslotte nog twee
opmerkingen maken. De eerste betreft de weg waarlangs de effectiviteit tot stand komt Wordt
de verbetering eenvoudigweg veroorzaakt doordat de ppn t.g.v. de aanwijzingen de tekst
intensiever bestuderen zonder dat dat iets met het maken van de aantekeningen te maken
heeft of treedt de verbetering op middels de sturing van het maken van de aantekeningen,
eventueel gepaard gaande met een intensievere bestudering? Het lijkt erop dat het laatste het
geval is: de aantekeningen, die gezien kunnen worden als een indicator van wat zich tijdens
het leerproces afspeelt, zijn in de aanwijzingen-condhies anders dan in de niet-aanwijzingen
condities en op een aantal criteria belangrijk beter. Overigens blijkt uit een correlatie analyse

tussen de aantekeningenkwaliteit (overall kwaliteit) en toetsscores (samenvatting en meer-
keuzetoets) dat de correlaties in beide experimenten niet bijzonder hoog zijn: de partiële
correlatie coëfficiënt tussen de overall kwaliteit en toetsscore, waarbij de invloed van rap-
portcijfer uitgepartieerd is, bedraagt bij de samenvatting .20 (n=48) en .32 (n=39) in ex-
periment 1 resp. 2 en bij de meerkeuzetoets .46 (n=48) resp. .21 (n=39). Deze correlaties
zijn ook bekeken per groep — aantekeningen-makers-volgens-aanwijzingen versus op-eigen-
wijze-aantekeningenmakers -, maar dat geeft geen duidehjk patroon aan. Op zich zelf hoeft
ook geen hoge correlatie tussen aantekeningenkwaliteit, zoals gemeten en leerresultaten
verwacht te worden, omdat een aantal aantekeningenvariabelen, die belangrijk zijn voor de
leerresultaten buiten beschouwing blijven, zoals bijv. hetprocer van aantekeningen maken en
hei gebruik maken van aantekeningen (Cf. Van Oostendorp & Meyboom, 1981). Men zou
dus kunnen concluderen dat de kwaliteit van de aantekeningen zoals gemeten slechts een
variabele is, die van belang is voor de leerresultaten, maar dat op deze variabele o.i.v. de
aantekeningenaanwijzingen wel een verbetering is opgetreden. De tweede opmerking is dat
de lln in de context van deze experimenten door aantekeningenaanwijzingen tot betere
leerresultaten kunnen komen. Het is echter een te optimistische gedachte te veronderstellen
dat ze duurzaam en uit eigen beweging leerstof die tot het normale curriculum behoort
volgens de aanwijzingen zullen bestuderen. Hiervoor is zeer waarschijnlijk een langduriger
training nodig. We willen in dit verband wijzen op het onderzoek van Dudink en Meintjes
(1980) die een cursus 'aantekeningen maken' hebben geïmplementeerd bij basisschoolleer-
lingen. Deze cursus bestaat uit een tiental lessen. De resultaten van deze cursus tonen aan dat
lln betere aantekeningen maken en dat ze daarmee beter in staat zijn studieteksten te
reproduceren. Ook op langere termijn worden positieve effecten geconstateerd (Dudink, in
voorbereiding). Om het zelfstandig en intensief bestuderen van teksten beter te laten verlo-
pen lijkt het meer dan de moeite waard om deze cursus te vertalen naar middelbare school-
leerlingen.

Anderson, T.H. (1979) Study strategies and adjunct aids. In R. Spiro et al. (Eds.): Theoretical issues in

reading comprehension. Hillsdale, N.J.: Erlbaum.
André, M.E., & Anderson, T.H. (1978/79). The development and evaluation of a selfquestioning study

technique. Reading Research Quarterly, 14, 605-623.
Barnett, J.E., DiVesta, F.J., & Rogozinsky, J.T. (1981). What is learned in notetaking. Journal of

Educational Psychology, 73, 181-192.
Breuker, J., & Bruggen, J. van (1980). Schematiseren: Theoretische achtergrond, opzet en evaluatie van

een studievaardigheidscursus. Tijdschrift voor Taalbeheersing, 2, 187-206.
Britton, B.K., Pilva, A., Davis, J., & Wehausen, E.P. (1978). Reading and cognitive capacity usage:

Adjunct Question Effects. Memory tfc Cognition, 6, 266-273.
Brown, A.L., Campione, J.C., & Day, J. (1981). Learning to learn: On training students to learn from

lexXs. Educational Researcher, 10, 14-21.
Carrier, J.F., & Titus, A.A., (1979). The effects of notetaking: A review of studies. Contemporary

Educational Psychology, 4, 299-314.
Carter, J.F., & Van Matre, N.H. (1979). Notetaking versus notehaving. Journal of Educational Psycholo-
gy, 67, 900-904.

DiVesta, F.J., & Gray, S. (1972). Listening and notetaking./our/ia/ of Educational Psychology, 63, 8-14.
Dudink, A., (in voorbereiding). Kunnen kinderen studeren; bijvoorbeeld aantekeningen maken? Proef-
schrift, U.v.A.

Dudink, A. & Meintjes, H. (1979). Kinderen aantekeningen laten maken. Tijdschrift voor Taalbeheer-
sing, 1, 261-272.

Dijk, T.A. van. (1978). Tekstwetenschap; een interdisciplinaire inleiding. Utrecht: Het Spectrum.

Faw, H., & Waller, T.G. (1976). Mathemagenic behaviours and efficiency in learning from prose
materials: Review, Critique and Recommendations. Review of Educational Research, 46, 691-
720.

Fischer, J.L., & Harris, H.B. (1973). Effect of notetaking and review on recall. Journal of Educational
Psychology, 65, 321-325.

Frijda, N.H. (1979). Kennisverwerving, In G.J. Mellenbergh et al. (Eds.): /Jetie als richtsnoer. Bijdragen
over methoden van denken en werken in de gedragswetenschappen. Den Haag: Mouton.

Ganske, L. (1981). Notetaking: A significant and integral part of learning environment. Education,
Communication and Technology Journal, 29, 155-175.

Hamaker, C. (1979). Methodische problemen bij experimenteel tekst kenmerken onderzoek. Tijdschrift
voor Taalbeheersing, I, 130-145.

Hartley, J., & Davis, I.K. (1978). Notetaking: A critical review. Programmed Learning and Educational
Technology, 15, 207-224.

Hout-Wolters, B. van (1980). Verbetering van tekstbestudering: Een analyse van onderzoek. In C.
Boonman ct al. (Eds): Tekstbestudering. Den Haag: Staatsuitgeverij. SVO reeks.

Kok, K.M. (1982). Replicatie van het onderzoek: Het maken van uittreksels bij het studeren. Stagever-
slag. Vakgroep Functieleer, R.U.U.

Ladas, H. (1980). Summarizing research: A case study. Review of Educational Research, 50, 597-624.

Norton, L.S. (1981). The effects of notetaking and subsequent use on longterm recall. Programmed
Learning and Educational Technology, IS, 16-22.

Oostendorp, H. van (1980). De invloed van aantekeningen maken en schema's op het bestuderen van
teksten. Tijdschrift voor Taalbeheersing, 2, 17-30.

Oostendorp, H. van & Hamaker, C. (1978). Dc invloed van explicitering van tekststructuur op het
onthouden. Tijdschrift voor Onderwijs t& Research, 3, 113-123.

Oostendorp, H. van, & Meyboom, W. (1981). Effecten van bet sutren van aantekeningen maken. In M.F.
Steehouder et al. (Eds.): Taalbeheersing, 1981. Enschede: VIOT.

Oostendorp, H. van, & Uyl, M. den. (1980). Regulatie van inferentie en integratie bij het lezen van
teksten. In C. Boonman et al. (Eds.): Tekstbestudering. Den Haag: Staatsuitgeverij. SVO reeks.

Palmatier, R.A. (1971). Comparison of four notetaking procedures./ourna/ of Reading, 14, 235-240.

Parreren, C.F. van, Peeck, J., & Velema, E. (1975). Effectief studeren. Utrecht: Het Spectrum.

Peeck, J. (1977). Preinstructional strategies and extra reading time in learning from text. Tijdschrift voor
Onderwijsresearch, 2, 202-207.

Peeck, J. (1982). Effects of mobilization of prior knowledge on free recall. Journal of Experimental
Psychology: Learning, Memory and Cognition, 8, 608-612.

Peper, R.J., & Mayer, R.E. (1978). Notetaking as a generative activity. Journal of Educational Psycholo-
gy, 70, 514-522.

Rickards, J.P., & Friedman, F. (1978). The encoding versus the external storage hypothesis in notetaking.
Contemporary Educational Psychology, 3, 136-143.

Robin, A., Foxx, R.M., Martello, J., & Archable, C. (1977)^Teaching notetaking skills to underachieving
collegestudents. yourna/ of Educational Researcit, 71, 81-85.

Steeg, S. ter (1981). Het maken van uittreksels bij hel studeren. Doctoraal onderzoek. Vakgroep Functie-
leer, R.U.U.

Titus, A.A., & Carrier, C.A. (1980). The effects of pretraining and testmode expection on notetaking.
Paper AERA congres. Boston.

Veldhuizen, F. (1979). Nadenken over aantekeningen maken. Doctoraal onderzoek, Vakgroep Onder-
wijspsychologie, U.v.A.

Winer, B.J. (1971). Statistical principles in experimental design. New York: Mc Graw-Hill.

Wittrock, M.C. (1974). Learning as a generative process. Educational Psychologist, 11, 87-95.

Wouters, L., & Kop, P.C. (1981). Konkretiserende elaboraties en tekstbestudering. Tijdschrift voor
Onderwijsresearch, 6, 113-129.

The use of item-test regressions as proxies to item-true score regressions has been advocated
in several testing applications. This has been the case in, for example, item bias studies (see
Mellenbergh, 1982). Item-test regressions also can be used to obtain the score level where an
item is discriminating adequately as compared to the other test items (Van Naerssen, 1970).

Item-test regressions have some disadvantages, however. Lord and Novick (1968, p. 365)
refer tc the errors of measurement in observed scores. They also point out that the slopes of
the item-test regressions sum to one even if the test items do not have any latent trait in
common, which is reflected in the property 1. For this reason one might use item-rest

regressions instead (Van Naerssen, 1970; Mellenbergh, 1982). This does not, however,
eliminate the problem of measurement errors. Further, one might argue that the slope
property is an advantage of item-test regressions since it is shared with item-true score
regressions.

Little is known about the advantages and disadvantages of both kinds of regressions. In this
note a first step will be made to a fuller understanding of the regression problem. This will be
done using a numerical example with a small item set because differences between true score
and observed score regressions and between regressions based on the total test and the rest
test will easier show up with small item sets. Ten Rasch-conform items were chosen, i.e. items
with item characteristic curves

where Pi{Q) is the probability of a correct answer on item i given ability 6 and where b, is the
item parameter of item /". The values of fe, were: ±1.00, ±0.75, ±0.50, ±0.25 and 0.0 (twice).
The probability of a correct answer on item i given a total score equal to r, i.e. the item-test
regression jri(r), is given by

where e,=ln(-fe,), is the elementary symmetric function of the e's of order r and is the
elementary symmetric function of order r-1 based on all items except item i (Fischer, 1974,
P- 236). Remarkably, jz,(r) is population-independent in the Rasch model. Regression (2) is
used in several goodness of fit tests for the Rasch model (for a discussion, see Molenaar,
1983). The values of Jii(r) can be compared with the item-true score regression, i.e. the value
pf/'/(G) given a value of 6 for which 2Py(9) equals r. For the first item, one of the two extreme
'terns (with i>=-1.00), both regressions are given in Figure 1. They differ for all values of r
except the two extreme values of r, but the differences generally seem acceptable, certainly
when compared with the corresponding differences in Figure 2 based on the rest test.

Figure 2. Item-rest (smooth line) and item-true rest (dashed line) regression for item 1.

Figure 2 is based on the following population distribution of 6: f(6=-0.5) = f(6=0.0) =
f(6=0.5) = f(e=1.0) = 0.2. For the ten-item test the test minus item 1 is highly unreliable
which shows up in a large discrepancy between the regression based on the rest score and the
regression based on the true rest score (cf. Hunter & Cohen, 1974). An additional problem is
that the item-rest regression strongly depends on the population distribution. This can be a
problem in e.g. item bias studies where several populations are compared.

The example «juggests that inclusion of the item in the test has a positive effect due to the
property that the regression slopes sum to one. However, some care should be excercised in
generalizing from the example based on the Rasch model to other situations. For example,
after introduction of a guessing parameterc with a value equal to 0.2 for all items, the item-test

regression for the first item, based on the previously introduced population distribution,
deviated notably from the true regression in the lower score range. More serious deviadons
may be expected when an item correlates relatively low with the remaining items especially
when the item has a relatively large variance. In the latter case the value of r„ can be highly
inflated. Therefore, with short tests, it seems worthwhile to evaluate the corrected /-„-values
(Henrysson, 1963) and eliminate items with relatively low corrected /•(,-values from the total
test before proceeding further.

Van Naerssen (1970) further suggested that the item-test regression in the neighbourhood
of the mean on the total test, X, be approximated by a linear regression. Instead of the linear
item-test regression one could use

where is the proportion correct, s, the standard deviation of the item, a coefficient a, Sj, the
standard deviation of total scores and r*i, the corrected point-biserial

The regression slopes of Equation (3), which as one can verify also add to one, are approxima-
tions to the item-true score regressions.

Fischer, G. H. (1974). Einfiihrung in die Theorie psychologischer Tests. Bern: Huber.
Henrysson, S. (1963). Correction of item-total correlations in item analysis. Psychometrika, 28, 211-218.
Hunter, J. E., & Cohen, S. H. (1974). Correcting for unreliability in nonlinear models of attitude change.

Psychometrika, 39, 445-468.
Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA: Addisson-
Wesley.

Mellenbergh, G. J. (1982). Contingency table models for assessing item bias. Journal of Educational
Statistics, 7, 105-118.

Molenaar, I. W. (1983). Some improved diagnostics for failure of the Rasch model. Psychometrika, 48,
49-72.

Van Naerssen, R. F. (1970). Practische benaderingen van de item-test regressiefunctie. Nederlands
Tijdschrift voor de Psychologie, 25, 384-392.

In dit boek, met de ondertitel Comributions of latent trau theories, zijn een negental bijdragen van auteurs
als David Andrich, Graham A. Douglas, John A. Keats, Roderick P. McDonald, Hans Spada en Robert
L. Thorndike op het gebied van de itemresponstheorie bijeengebracht. Alle bijdragen zijn omwerkingen
van voordrachten die in 1980 onder een gelijknamige titel tijdens het Golden Jubilee Year Invitational
Seminar van de Australian Council for Educational Research gehouden werden. Wie het boek door-
neemt krijgt de indruk dat de ACER dit 50-jarige bestaan op waarlijk grootse wijze gevierd heeft. Men is
er bepaald in geslaagd niet de minste inleiders aan te trekken, en hoewel de ervaren lezer hier en daar best
iets te morren heeft, valt op dat ieder geprobeerd heeft zijn beste been voor te zetten en zo mogelijk met
iets nieuws te komen. Waarom nu juist dit onderwerp gekozen is om het jubileum van de ACER te
vieren? Dat kan opgemaakt worden uit het voorwoord van Donald Spcarrit. De ACER is diep betrokken
geweest bij onderzoek en toepassingen op het gebied van de itemresponstheorie en men achtte de tijd nu
rijp om deze nieuwe psychometrische ontwikkelingen onder de aandacht te brengen van degenen die op
het gebied van studietoetsen werkzaam zijn. Het volgende is bedoeld om een korte schets van de inhoud
van het boek te geven, waarbij we evenwel voorbijgaan aan de historische getinte openingsbijdrage van
Robert L. Thorndike cn het samenvattende perspectief van de redacteur aan het eind van het boek.
Tevens laten we een bespreking van de "reactant statements" van de discussianten achterwege die in het
bock wel opgenomen zijn.

De bijdrage van David Andrich richt zich op een beschrijving van het Raschmodel met geordende
responscategorieën. Dit model kan gebruikt worden voor de analyse van "rating scales" zoals deze
bijvoorbeeld in het attitude-onderzoek veelvuldig voorkomen. Deze bijdrage is grotendeels historisch-
synthetiserend van aard en volgt een opi.et waarin eerst ten overzicht gegeven wordt van Thurnstone's
traditie van de methode van gelijkschijnende intervallen en Likert's traditie van de naar hem genoemde
"rating scales", en daarna getoond wordt hoe het Raschmodel voor geordende responscategorieën de
sterke punten uit beide tradities in zich verenigt en zich van hun zwakheden bevrijdt. Met name deze
laatste analyse is schitterend en verhelderend van aard (p. 105-107). Verder komt deze bijdrage met een
praktisch voorstel voor de behandeling van de altijd problematische middencategorie ("weet niet") en
met een empirische illustratie van de voorgestelde procedure.

Wat de bovenstaande bijdrage met die van Graham A. Douglas onder de titel "Conditional inference in
a generic Rasch model" verbindt is de aandacht voor voorwaardelijke schattingsmethoden. Beide auteurs
komen uit de school van Benjamin D. Wright (University of Chicago), en deze aandacht is op zijn minst
verrassend. Douglas geeft ook ronduit toe dat het altijd'al inconsistent is geweest het Raschmodel
vanwege zijn unieke eigenschap van afdoende schatting te kiezen en vervolgens niet met voorwaardelijke
methoden te schatten en dat dit mede veroorzaakt werd door zijn onbekendheid met de europcse
literatuur. Het belangrijkste deel van deze bijdrage omvat de presentatie van een algemeen Raschmodel
en de demonstratie dat enkele gangbare modellen hier een speciaal geval van zijn. Hoewel de auteur een
en ander foutloos uitschrijft is het jammer dat hij kennelijk niet op de hoogte is yan de theorie van de
exponentiële families waaruit al zijn resultaten onmiddellijk volgen. De literatuurlijst bevat ook geen
enkele titel in deze richting. Zeer waardevol aan deze bijdrage is het laatste gedeelte over numerieke
problemen bij conditionele schattingsmethoden en het pleidooi om meer aandacht voor Rasch's non-
parametrische modeltest.

Een andere bijdrage uit de school van Wright, en de laatste hieruit in dit boek, is van de hand van Bruce
Choppin. Het artikel opent met de al zo vaak gestelde vraag waarom het meten in de sociale wetenschap-

pen kennelijk zoveel slechter is dan in de natuurwetenschappen. Choppin's behartenswaardige analyse
'oopt uit op een noodzakelijke keuze voor het Raschmodel. Vervolgens laat hij achtereenvolgens
toepassingen zien voor designs met incomplete gegevens en voor assessment-onderzoek, en bespreekt hij
een uiterst eenvoudige wijziging die het dichotome Raschmodel geschikt maakt voor de analyse van
"ratings". Dit gewijzigde Raschmodel wordt empirisch geïllustreerd aan de hand van een onderzoek naar
de beoordeling van opstellen. Deze publikatie is een van de laatste die Choppin geschreven heeft voor hij
Vorig jaar door een tragisch ongeval om het leven kwam.

Hans Spada en Regine May hebben hun bijdrage aan het symposium en dit boek aangegrepen om het
lineair logistische testmodel en zijn talrijke toepassingsmogelijkheden onder het australische publiek
bekendheid tc geven. Wie de overwegend duitstalige publikaties van auteurs als Fischer, Kempf en Spada
over dit model al kent vindt weinig nieuws in dit hoofdstuk maar zal het enthousiasme kunnen vermoeden
waarmee het gehoor deze lezing heeft ontvangen. Een uiterst belangwekkend model met zeer relevante
toepassingsmogelijkheden.

In verschillende bijdragen schetsen John F. Izard en John D. White en George Morgan het gebruik van
het Raschmodel bij respectievelijk As Australian Item Bank (Year 10 Mathematics, Science, and Social
Science) en bij equivaleringsonderzoek aan Ae Australian Scolastic Aptitude Test (ASAT). De eerste twee
auteurs baseren zich op de door Wright en Stone (1979) gepropageerde, en de door uw recensent als
overbodig beschouwde, benaderingen van de simultane meest aannemelijke schattingsmethoden die
bekend staan onder de namen UFORM en PROX. Hun bijdrage komt in wezen neer op een beschrijving
Van deze methoden en op de presentatie van een aantal "worksheets" die leraren in de klas kunnen
gebruiken om leerlingscores uit te rekenen of items aan de bank toe te voegen. Morgan geeft de resultaten
van equivaleringsonderzoek voor een versie van de ASAT met grote factoriële complexiteit. Het
bijbehorende equivalcringsdesign bevatte een ingewikkelde structuur aan ankeritems maar bleek bevre-
digend met het Raschmodel geanalyseerd te kunnen worden.

De bijdrage van John A. Keats is van een eigenzinnige allure. De eigenzinnigheid zit hem in een door
hem aangenomen "principe van dynamische consistentie" dat omhelst dat in een model opgenomen
relaties tussen stimuli-, individu- en responsparameters hetzelfde moeten zijn op groeps- als op indivi-
dueel niveau en waarvan het uw recensent niet gelukt is om in te zien waarom dit zou moeten gelden. De
allure zit hem in de presentatie van een klasse van groeimodellen voor cognitieve ontwikkeling en een
hierop gebaseerde analyse van het IQ-concept. Keats was ook degene die samen met Lord in het begin
van de 60-er jaren het beta-binomiale model in de psychometrie ter hand nam en populariseerde. Het
hoofdstuk gaat ruim in op de relaties van dit en andere klassieke modellen met de geschetste groeimodel-
len.

De laatste, nog onvermelde bijdrage is die van Roderick P. McDonald. Hierin wordt eerst een kort
historisch overzicht van de itemresponstheorie gegeven en wordt nogal somber geconcludeerd dat
bestaande programma's als LOGIST en BICAL weinig gebruikswaarde hebben ten gevolge van res-
pectievelijk convergentie-problemen en slechte goodness-of-fït maten. Andere - en betere - pro-
gramma's schijnt de auteur niet te kennen. Vervolgens wordt een pleidooi gehouden voor een methodo-
logie waarin men de passing van responsmodellen via residu-analyse nagaat. Voor de itemresponstheorie
's dit mogelijk door deze in te bedden in de niet-lineaire faktoranalyse. Hiervoor is het programma
COSAN beschikbaar, waarvan McDonald de mogelijkheden via enige vergelijkende analyses demon-
streert.

De totaalindruk is dat de ACER zijn jubileum met een aardig boek over itemresponstheorie gevierd
heeft. Het merendeel van de bijdragen is geslaagd te noemen en voor degenen die op dit gebied reeds
belezen zijn wordt hier en daar toch iets nieuws geboden. Het is wel de vraag of dit boek aan het doel
1'eantwoordt de itemresponstheorie en zijn toepassingsmogelijkheden dichter te brengen bij degenen die
op het gebied van studietoetsen werkzaam zijn. Een groot deel van de bijdragen vraagt hiervoor te veel
statistische voorkennis. Misschien moet men er gewoon ook niet aan beginnen om te proberen de
technische aspecten van de itemresponstheorie te populariseren en deze rustig aan de vakspecialisten
over laten. In dit opzicht is een recente reader met vergelijkbaar doel van Hambleton (1983) veel
resoluter. Deze behandelt minder technische zaken en geeft meer toepassingen.

Een duidelijk minpunt in het boek zijn de "reactant statements" van de discussianten. Deze zijn of te
poeslief of van het type waarin de discussiant de gelegenheid aangrijpt om te vertellen wat hij zijn hele
leven al gedaan heeft cn hoe belangrijk dat was. De lezer kan deze zouteloze stukjes maar beter
overslaan. Mits er reeds enige voorkennis over het onderwerp aanwezig is, blijft er dan een aardig boek
over itemresponstheorie over.

Hamblcton, R. K. (ed.) (\99i'i). Applications of item response theory. Vancouver: Educational Research

Institute of British Columbia.
Wright, B. D., & Stone, M. H. (1979). Best test design: Rasch measurement. Chicago, Illinois: MESA
Press.

Sedert enkele jaren streeft de SVO ernaar meer accent te leggen op de beoordeling van
eindrapporten van door haar gefinancierd onderzoek. Dit betekent overigens niet dat de
beoordeling van eindrapporten als vervangend voor de beoordeling van projectvoorstellen
(subsidie-aanvragen) wordt gezien (zie SVO memo 5, mei 1984). Veeleer is er sprake van een
aanvulling van en uitbreiding op het gangbare beoordelingsbeleid van de Stichting.Beoorde-
lingen van eindrapporten, hier verder kortheidshalve aan te duiden als 'eindbeoordelingen',
worden om de volgende redenen van belang geacht:

- Eindbeoordelingen passen in een meer algemeen streven van de Stichting om meer aan-
dacht te besteden aan de producten van onderwijsresearch. Daarbij gaat het o.a. om
voorlichtings- en disseminade-acdviteiten. Eindbeoordelingen hebben in dit kader de
functie van een keurmerk; het is uiteraard van groot belang te beschikken over indicaties
omtrent de kwaliteit van de te verspreiden producten.

- In de tweede plaats hebben eindbeoordelingen een functie voor de SVO als één van de
methoden om het rendement van de gedane investeringen te bepalen.

- In de derde plaats wil de SVO discussie op het wetenschappelijk forum over de uitkomsten
en methoden van onderwijsresearch stimuleren. Vooral deze laatste doelstelling vraagt om
een openbaarmaking van de eindbeoordehngen.

- Tenslotte wordt aan de eindbeoordelingen een funcde toebedacht in het kader van onder-
zoek en ontwikkeling op het terrein van de onderzoeksbeoordeling zelf. Zo zal het bijv. bij
een frequente toepassing van eindbeoordelingen mogehjk worden indicaties te verkrijgen
omtrent de predictieve vahditeit van de initiële beoordelingen (beoordeling van subsidie-
aanvragen).

Voor wat de openbaarmaking van de eindbeoordelingen betreft zijn tot dusver verschillen-
de media gebruikt. Enkele malen zijn eindbeoordelingen als voor- of nawoord van de
subsidiegever tezamen met het betrokken eindrapport verspreid. Verder zijn over de resul-
taten van een beoordelingstudie naar het functioneren van het zogenaamde 'sector-onder-
zoek' afzonderlijke pubhcaties verschenen, ondermeer SVO-memo nr. 4, 1983. Ook
zijn (in 1983) met rijdschriften op het terrein van de onderwijswetenschappen prin-
cipe-overeenkomsten tot stand gekomen over de publicatie van samenvattingen van
eindbeoordelingen. De wijze waarop in samenspraak met de betrokken tijdschriftredacties
vorm wordt gegeven aan deze publicaties van eindbeoordehngen verschilt enigszins per
tijdschrift. De algemene vorm van deze publicaües bestaat echter uit een beknopte samen-
vatting van het eindrapport, een samenvatting van de SVO-beoordeling en een commentaar
daarop van de beoordeelden. De indiening van de SVO-beoordelingen gebeurt op voorstel
van de directeur onder verantwoordehjkheid van het SVO-Bestuur, onder redactie van
ondergetekende. In het geval van het Tijdschrift voor Onderwijsresearch wordt de beoor-
deelde gevraagd het commentaar op de beoordeling rechtstreeks aan het Tijdschrift te doen
toekomen. Uiteraard heeft ook de Tijdschriftredactie haar normale verantwoordelijkheden
'nzake kwahteit en formulering van deze publicades.

SVO-memo 4. (1983). Onderzoeksbeleid met betrekking tot onderwijsvernieuwing. 's-Gravenhage.
SVO-memo 5. (1984). De beoordeling van onderzoek van het onderwijs. 's-Gravenhage.

'Groei en gezondheid van tieners' (SVO-project 0255), uitgevoerd door het Coronel Labo-
ratorium en het Laboratorium voor Psychofysiologie van de Universiteit van Amsterdam,
projectleider dr. H. C. G. Kamper. Looptijd van het project: december 1972-augustus 1983.
Het project werd gefinancierd door de SVO en het Praeventiefonds. Totale kosten
ƒ 1.427.639,—.

Gedurende de eerste fase van het project werd een aantal meetinstrumenten ontwikkeld en
beproefd. De tweede fase (het hoofdonderzoek) bestond uit een longitudinaal onderzoek
waarin de volgende vraagstellingen centraal stonden:

a. Hoe en in welke mate verandert de lichamelijke en geestelijke ontwikkeling van jongens
en meisjes, leerlingen van V.W.O. en HAVO-scholen, tussen de 12 en 17 jaar?

b. Hoe en in welke mate verandert het hchamelijk activiteitspatroon en veranderen de
voedingsgewoonten van deze leerhngen?

c. Hoe en in welke mate veranderen attitude tegenover en motivatie voor het onderwijs
lichamelijke oefening en de actieve recreatie van deze leerlingen?

d. Hoe en in welke mate verandert het lesgeefgedrag van leraren lichamelijke opvoeding (bij
een vast curriculum)?

- lichamelijke kenmerken (lichaamsbouw en lichaamssamenstelling, motorische vaardighe-
den, skelet-leeftijd, ventilatieprestatie, maximaal zuurstofopname-vermogen, dagelijkse
voedingsopname en dagelijkse hchamehjke activiteiten).

- psychologische kenmerken (persoonlijkheidskenmerken, prestatiemotivatie, groepssa-
menhang).

- onderwijs-psychologische kenmerken (schoolattitude, leerlingattitude ten aanzien van
lessen lichamelijke opvoeding, sociaal-emotionele aspecten van lesgeefgedrag van leraren
lichamelijke opvoeding).

Er werd een speciale onderzoekscaravan gebouwd en ingericht om het merendeel van deze
metingen ter plaatse, bij de twee betrokken scholen, te kunnen verrichten.

Het hoofdonderzoek werd uitgevoerd gedurende 4 opeenvolgende jaren, nl. van 1976 t/m
1979.

De onderzoeksgroep bestond uit leerlingen van de le en 2e klassen (geboren in 1963/1964
en in 1964/1965) van een HAVO-VWO-school in Amsterdam. EJoor 2 opeenvolgende
klassen (in het rapport aangeduid als klusters) te kiezen was het mogelijk het groeipatroon

voor een periode van 5 jaar vast te stellen. Teneinde eventuele testeffecten te achterhalen
*

*) Samenvattingen van de beoordeling van door de SVO gesubsidieerd afgesloten onderzoek
worden ingediend onder verantwoordelijkheid van het SVO-bestuur, onder redactie van de
coördinator onderzoeksbeoordehng van het SVO-bureau, dr. J. Scheerens.

Werd een controlegroep gevormd van leerlingen van een vergelijkbare school in Purmerend.
De klusters in de 2e school werden eveneens gedurende 4 jaar onderzocht, maar deze klusters
werden in vieren gedeeld, waarbij jaarlijks een andere kwart van het kluster werd onderzocht.

De samenstelling van de onderzoeksgroep bleef zoveel mogelijk gelijk, doublerende leer-
lingen bleven in het oorspronkelijke kluster. De uitval bleef beperkt tot leerlingen die de
school verlieten, gemiddeld 24,1%. In de controlegroepen werden tussentijds een aantal
leerlingen toegevoegd om een voldoende aantal te houden. De metingen vonden jaarlijks
plaats gedurende het gehele schooljaar, echter meer geconcentreerd in augustus/september
en januari/februari/maart.

Metingen van lengte en gewicht vonden 3 maal per jaar plaats. De meeste metingen van
lichamehjke kenmerken vonden plaats gedurende de lessen lichamelijke opvoeding en in de
onderzoekscaravan. De psychische kenmerken werden gemeten tijdens gewone lesuren in de
klas. Interviews over het voedingspatroon vonden eveneens plaats in de mobiele onder-
zoekseenheid. Aan het begin van het onderzoek werd een oudervragenlijst ingevuld, betref-
fende socio-economische achtergrond-variabelen. De ouders werd toestemming gevraagd en
de leerlingen werden tevoren medisch gekeurd. Het lesgeefgedrag van leraren lichamelijke
opvoeding werd onderzocht door middel van gestandaardiseerde beoordelingen door leerlin-
gen en door middel van observaties in de klas.

De lichamelijke activiteit werd gemeten met behulp van een interview (over de afgelopen 2
maanden) en met behulp van hartslag en stappenteller metingen (gedurende 2 werkdagen en
één weekend).

Jaarlijks werden per leerling 8 lesuren en ± 30 minuten buitenschoolse tijd aan het
onderzoek besteed.

Om de leerlingen gemotiveerd te houden voor deelname aan het onderzoek werden extra
activiteiten georganiseerd, zoals het uitdelen van T-shirts en foto's, jaariijkse persoonlijke
Verslagen van gegevens over de leerling en een boottocht.

In het eindrapport wordt behalve over onderzoeksprocedures, achtereenvolgens afzonder-
lijk verslag uitgebracht over resultaten en gevonden ontwikkelingen betreffende:
1- lichamelijke kenmerken (autropometrisch en fysiologisch)

2. psychologische kenmerken (waaronder ook lesgeefgedrag en houding t.o.v. lessen li-
chamelijke opvoeding)
3- eet- en rookgewoontes

dagelijkse lichamelijke activiteiten.
De belangrijkste conclusies over deze kenmerken, onderverdeeld in een groot aantal sub-
kenmerken zijn weergegeven in figuren en tabellen.

De algemene conclusie luidt dat in de periode tussen 12 en 17 jaar in de onderzochte groep
de lichamelijke activiteit afneemt; bij meisjes meer dan bij jongens. Ook blijkt dat de voeding
niet altijd volgens het boekje verloopt. Deze veranderingen in leefstijl hebben echter nog
geen duideUjke invloed op de lichamelijke en geestehjke ontwikkeling van deze tieners.

De motivatie voor de school in het algemeen en voor de lessen lichamelijke opvoeding in
het bijzonder neemt af tussen de Ie en de 5e klas met een extra terugval in de 2e klas. Bij
meisjes nam het percentage met een positieve houding tegenover lessen lichamelijke opvoe-
ding meer en sneller af dan bij jongens. In de Ie klas zijn meer meisjes gemotiveerd, in de 5e
klas meer jongens.

De eetgewoontes volgen een Westers patroon en zijn niet geheel adequaat aan de behoef-
ten aan een aantal specifieke voedingsstoffen. Rookgewoontes nemen toe, meer meisjes
(38%) roken op de leeftijd van 17/18 jaar dan jongens (25%). Het aantal sigaretten dat deze
jongeren gemiddeld per week roken is echter aanmerkelijk hoger bij jongens (± 63) dan bij

meisjes (± 28). Ook het alcoholgebruik neemt toe, een gelijk percentage meisjes cn jongens
zegt alcohol te gebruiken, maar de jongens drinken gemiddeld meer. Deze veranderingen
hadden bij dc onderzochte groep echter geen uitwerking op de ontwikkeling van lichamelijke
en psychosociale kenmerken, deze laatste werden niet merkbaar ongunstig beïnvloed.

Het voorliggende rapport vormt niet de volledige output van het aan de orde zijnde project.
Over onderdelen van het onderzoek zijn door de projectstaf (circa 50) artikelen gepubliceerd
in wetenschappelijke tijdschriften.

In verband met deze afzonderlijke publicaties is de beoordeling van het eindrapport dus
niet geheel dekkend voor de totale output van het project. Het overall-oordeel van het
SVO-bestuur over het uitgevoerde onderzoek en de rapportage is positief. Toch zijn er
kritische kanttekeningen te plaatsen die in het hiernavolgende worden toegelicht. Daarbij zal
regelmatig venvezen worden naar de commentaren van de beide door de SVO ingeschakelde
externe adviseurs, prof. dr. H. Philipsen en dr. J. H. L. Oud.

De aanleiding voor het project was onderzoek naar het effect van extra lessen in lichamelijke
opvoeding op de lichamelijke en psychologische ontwikkeling van middelbare scholieren.

Door uiteenlopende formuleringen van het doel van het onderzoek (in termen van
vraagstellingen in hoofdstuk 1 en in termen van een 'ultimate purpose' in hoofdstuk 23) kan
gemakkelijk onduidelijkheid ontstaan over de preciese bijdrage die met dit project is beoogd.
Het accent heeft gelegen op het beschrijven van veranderingen in de groeiperiode van 12 tot
18 jaar ten aanzien van de gezondheid van deze tieners en niet op het effect van gym-
nastieklessen.

Ondanks de uitvoerige behandeling van eerder uitgevoerd longitudinaal onderzoek op het
desbetreffende terrein was een nadrukkelijker aanduiding van de meerwaarde van het project
ten opzichte van dit eerdere onderzoek op zijn plaats geweest. Conclusies in de zin van
aanbevelingen om toekomstig onderzoek op bepaalde interessant gebleken deelterreinen te
concentreren ontbreken.

Het onderzoek in kwestie biedt informatie die zeker vkn belang is voor 'health educators' (niet
alleen in het onderwijs maar ook in de gezondheidsvoorlichting en de opvoeding in het gezin).
Wel zullen de 'gebruikers' zelf moeten uitmaken welke consequenties er aan de onder-
zoeksresultaten te verbinden zouden zijn. Het rapport geeft daaromtrent geen enkel houvast.

Dit geldt ook voor de beschrijvende gegevens over de wijze van lesgeven bij het vak
gymnastiek. Het rapport omvat nauwelijks aanbevelingen over de wenselijke inrichting van
het gymnastiekonderwijs (een zeer algemene aanbeveling staat op pag. 546 'Physical educa-
tion lessons should therefore focus on a great variety of movements and games'). Het
ontbreken van specifiekere aanbevelingen over de praktische betekenis van de resultaten
hangt nauw samen met het beschrijvende karakter van het onderzoek. Wanneer er meer
gestreefd zou zijn naar causale analyse, met name uitgaande van manipuleerbare variabelen,
zouden er wellicht wèl concretere aanbevelingen gegeven kunnen zijn. Gegeven de expliciete
keuze van de onderzoekers om zich tot beschrijving te beperken kan men zich, met Oud,

afvragen of de zeer arbeidsintensieve gedragsobservatie in gymnastieklessen wel terecht is
geweest.

Tenslotte dient in dit verband gewezen te worden op een kanttekening van Prof. Philipsen,
die het oneens is met de algemene conclusie die de onderzoekers op pag. 546 trekken ten
aanzien van de gevolgen van een verandering in leefsdjl voor de gezondheid van de tieners.
Hij is van mening dat de afname van fysieke acdviteit zorgelijker is dan de onderzoekers
stellen.

N.B. Uiteraard hebben de in het hiernavolgende nog te maken opmerkingen over de re-
search-technische kwaliteit van het uitgevoerde onderzoek (met name de discussie over
de generaliseerbaarheid van de resultaten en de noodzaak van de beperking tot des-
criptie) consequenties voor zowel de theoretische als maatschappelijke relevantie van
het uitgevoerde onderzoek.

Over de representativiteit van de onderzoeksgroep zijn de onderzoekers kort en duidelijk:
'the group of pupils studied may not be considered to be representadve of the teenager
Populadon either of Amsterdam or of the Netherlands in general' (pag. 51). Oud vraagt zich
naar aanleiding van deze stelhng af 'wat de draagwijdte van de conclusies dan wel is en voor
Welke doeleinden ze bruikbaar zijn'. Bij het beoordelen van de keuze om het onderzoek tot
een betrekkelijk selecte groep te beperken moet in aanmerking worden genomen dat uitbrei-
ding of een representatievere samenstelling van de onderzoeksgroep tot nog hogere kosten
zou hebben geleid. Achteraf kan de vraag gesteld worden of er inzake de afweging tussen
investeren in een representatieve onderzoeksgroep of investeren in een omvangrijke data-
collectie een opdmale keuze is gedaan.

De onderzoekers zijn van mening dat hun studie, aangeduid als 'correladve or non-interven-
dve longitudinal', zich niet leent voor causale analyse. Zij stellen slechts beschrijvend te werk
te willen gaan. Deze keuze is discutabel. Oud verwijst in deze naar causale verklaringsmodel-
len in de econometrie en sociologie. Hij wijst er verder op dat de onderzoekers hier en daar
toch causale samenhangen proberen te achterhalen (bijv. op pag. 318).

De kritiek van Oud heeft betrekking op onderzoekstechnische mogelijkheden voor causale
analyse in het kader van niet-experimentele onderzoeksopzetten. Een ander aspect van de
keuze voor beschrijvend i.t.t. verklarend, hypothesetoetsend onderzoek is het kennelijk
ontbreken van causale hypothesen en theorie op het betrokken terrein. De literatuur waar-
naar verwezen wordt heeft een sterk empirisch karakter; van belangrijke hypothesen of
aanzetten tot theorievorming wordt geen melding gemaakt.

LJitgezonderd de 'sadsfactionscale' (rapport blz. 126) is de kwaliteit van alle nieuwe meetin-
strumenten tijdens het vooronderzoek (fase 1) onderzocht. Ook in het eindrapport wordt
uitvoerig ingegaan op de kwaliteit van de afzonderlijke instrumenten. De procedures van
gegevensverzameling worden duidelijk beschreven. In een aantal gevallen is aanvullend
onderzoek gedaan naar de betrouwbaarheid en het discriminerend vermogen van instrumen-
ten en items. Door één van de externe adviseurs is (op een enkel punt) de selectie van

variabelen ter discussie gesteld; hij vraagt zich af waarom er geen intelligentietests zijn
afgenomen. Verder is kritiek mogelijk op de bruikbaarheid van bepaalde instrumenten en
afname-proccdures, met name voor wat betreft de sociometrische schalen.

Er is gekozen voor een onderzoeksopzet die wordt aangeduid als een combinatie van cross-
scctionele, longitudinale en 'time-lag' benaderingen. Dit design biedt optimale mogelijkhe-
den voor het controleren voor interfererende effecten bij het bepalen van groei-curves. Het
gaat om de volgende storende effecten:

(2) een z.g. 'klustereffect' (het leerjaar waarin leerlingen bij het onderzoek werden betrok-
ken);

(4) een 'test-effect' (te bepalen door in de controle-school steeds slechts een fractie - 1/4 -
van alle leerlingen te meten).

Op de wijze waarop sommige van deze effecten geschat zijn, door middel van een lineair
model, is door adviseur Oud kritiek uitgeoefend (weergave van deze kritiek zou in het kader
van deze samenvatting te ver voeren). Naast de hierboven genoemde controles op interfere-
rende effecten is nog nagegaan in hoeverre drop-outs op de verschillende metingen tijdens het
eerste jaar verschilden van de groep die bleef deelnemen. In het algemeen kan worden gesteld
dat er veel aandacht besteed is aan het controleren voor interfererende effecten.

Door beide externe adviseurs wordt de keuze van de onderzoekers (o.m. verantwoord in
hoofdstuk 2) om zich bij de data-analyse te beperken tot bivariate analyses ter discussie
gesteld. Volgens Oud zou het materiaal zich uitstekend lenen voor toesting van dynamisch-
causale modellen. De aan het geheel van beoordelende kanttekeningen te verbinden con-
clusie dat er 'meer uit het materiaal te halen zou zijn geweest' geldt in het bijzonder voor de
data-analyse. Overigens wordt door de adviseurs niet ontkend dat de weergave van het
materiaal in groeicurves en de bivariate analyses interessante en overzichtelijk gepresenteer-
de informatie bevatten.

De rapportage is zeer uitvoerig. De opbouw van" het rapport bevestigt het descriptieve
karakter van het onderzoek. Na een (zeer duidelijke) beschrijving van opzet, methoden en
procedures worden de resultaten per variabelen-categorie gepresenteerd. Daarbij worden
echter weinig algemene conclusies gegeven en zijn eveneens weinig samenvattingen van de
belangrijkste resultaten opgenomen. Dit verhoogt de leesbaarheid van het rapport niet.

Concluderend kan over de rapportage worden opgemerkt dat deze door zijn duidelijkheid
en gedetailleerdheid uitstekend voldoet als een verantwoording van het uitgevoerde werk en
de communicatie met op hetzelfde terrein gespecialiseerde collega's. Voor een breder publiek
zou met name de presentatie van resultaten anders gestructureerd en verder gecomprimeerd
moeten worden.

Het onderzoek wordt door het SVO-bestuur beschouwd als een gedegen stuk werk dat
ruimschoots voldoet aan professionele eisen die aan wetenschappelijk onderzoek gesteld
moeten worden. Achteraf kunnen vraagtekens geplaatst worden bij de verdeling van de
inspanningen over de selectie van onderzoekseenheden (teneinde representativiteit na te
streven) enerzijds en en data-collectie anderzijds. Ook doet zich de vraag voor of de gekozen
concentratie op descriptie niet een te stringente beperking is geweest en er niet meer pogingen
tot causale analyse hadden moeten worden ondernomen. Deze punten raken tevens aan het
oordeel over de wetenschappelijke en maatschappelijke relevantie. Ook ten aanzien van deze
laatste criteria is het de vraag of er niet nog meer uit dit omvangrijke en kostbare project
gehaald had kunnen worden. Daarbij heeft SVO mede het oog op de actualiteit van vragen
rond het bewegingsonderwijs op school.

De projectleider is van mening dat de betekenis en meerwaarde in vergelijking met eerder
uitgevoerd onderzoek in de hoofdstukken 1 en 2 is aangegeven. Vooral de maatregelen die in
dit onderzoek genomen zijn om storende effecten onder controle te houden dienen als een
verbetering ten opzichte van de meeste eerder uitgevoerde longitudinale studies te worden
gezien.

In het commentaar op de beperkte generaliseerbaarheid van de resultaten is de afweging of
investeren in een representatieve steekproef dan wel investeren in een uitgebreide data-col-
lectie ter discussie gesteld. De projectleider betwijfelt de betekenis van die afweging. Volgens
hem was hier veeleer de keuze tussen een longitudinaal onderzoek en een brede steekproef in
het geding. 'Niet het aantal parameters maakt het onderzoek duur, maar veeleer de inspan-
ning om herhaalde metingen te doen over een groot aantal jaren.' Verder merkt hij op dat uit
de vergelijking met representatieve steekproeven, die op enkele variabelen gemaakt kon
Worden (zie hoofdstuk 8), op te maken is dat de generaliseerbaarheid groter is dan vooraf bij
de keuze kon worden verondersteld.

Ten aanzien van de kritiek op het grotendeels achterwege laten van causale analyse merkt
de projectleider op dat het onderzoek daarvoor niet bedoeld was. Dergelijke analyses zouden
eerder een plaats kunnen krijgen in vervolgonderzoek. Naar mogelijkheden om dit te reali-
seren wordt door de onderzoeksgroep gezocht. Binnen de begroting van het nu voltooide
onderzoek was het niet mogelijk om de bedoelde causale analyses uit te voeren.

Tenslotte wordt door de projectleider de kritiek op de sociometrische schaal onderschre-
ven. Zijns inziens zijn daaraan echter geen consequenties verbonden voor de resultaten.

N.B. Zowel de Engelstalige als de Nederlandse versie van het eindrapport getiteld: 'Groei en
gezondheid van tieners' zijn beschikbaar.

Een overzichtsartikel is gepubliceerd in de International Journal of Sports Medicine no. 4, vol.

Visser, R.S.H., Van Vliet-Mulder, J.C., Evers, A. en Ter Laak, J., Documentatie van test en testresearch in
Nederland - 1982. Nederlands Instituut van Psychologen.

Mischke, W., Peters, J., Westerhof, K. en Wragge-Lange, I., Wie Unterricht gemacht wird. Oldenburg,
1983.

Harskamp,E.,VV]\,\.i.cnY'nns,i.,Deorganisatievanbasisscholen. Haren: RION-Bulletinnr. 14,1984.

Dirkzwager, A., Fokkema, S.D., Van der Veer, G.G. en Beishuizen, J.J. (red.). Leren met computers in
het onderwijs. 's-Gravenhage: SVO (SVO-Reeks 76), 1984.

Blok, H. en De Glopper, K., Taal voor het leven. 's-Gravenhage: SVO (SVO-reeks 74), 1983.

Damhuis, R., De Glopper, K. en Wesdorp, H., Het opstelonderwijs. Amsterdam: SCO, 1983.

Goetheer, G.J.J., Hendriks, W. A.M. en De Kok, J.G., De basisschool in zicht. 's-Gravenhage: VUGA,
1983.

Stroomberg, H.P., Van der Zee, H.J.M. en Rosendaal, B.W. (red.). Leren van volwassenen: contouren
van een didactiek. Meppel: Boom, 1983 (Boom Educatieve Reeks 1).

Rosendaal, B.W., Stroomberg, H.P. en Van der Zee, H.J.M. (red.). Opleiden, leren en werken. Meppel:
Boom, 1983 (Boom Educatieve Reeks 2).

Zee, H.J. van der, Rosendaal, B.W. en Stroomberg, H.P. (red.). Volwasseneneducatie: dilemma's.en
perspectieven. Meppel: Boom, 1984 (Boom Educatieve Reeks 3).

Hamaker, C., The use of adjunct questions in educational texts. Universiteit van Amsterdam, 1984 (Acad.
proefschrift).

Leij, A. van der. Kool, E. en Wielenga, A., Vernieuwing van speciaal onderwijs. Groningen: Wolters-
Noordhoff, 1984 (Orthovisies deel 20).

Terwei, J., Onderwijs maken. 's-Gravenhage: SVO, 1984 (SVO Reeks); Acad. Proefschrift.

Rink, J.E. en Rijkeboer, J., Bruikbaar onderzoek in de hulpverlening. Groningen: Wolters-Noordhoff,
1983.

Stokking, K.M., Interpreteren en evalueren. Deventer: Van Loghum Slaterus, 1984.

Vedder, R., Kinderen met leer- en gedragsmoeilijkheden. Groningen: Wolters-Noordhoff, 1983.

Teschner, W.P., Harbo, T., Gran, B. en Haft, H. (Eds.), In-service-teacher-training: models, methods and
criteria of its evaluation. Lisse: Swets & Zeitlinger, 1983 (Council of Europe).

The secretariat of the Council of Europe (Ed.), New technologies in secondary education. Lisse: Swets &
Zeitlinger, 1983.

Schoemaker-Hol, M.A.M., Effekten van beheersingsleren. Lisse: Swets & Zeitlinger, 1983.

This article deals with vertical equating and its application to the monitoring of ability during
extended curricula. In particular the application of the Rasch model in vertical equating is
discussed. Two types of vertical equating are distinguished: simultaneous and consecutive vertical
equating. Simultaneous vertical equating calibrates on a common scale two test forms that are
designed to measure different levels of ability in the same part of a school subject, viz. a hard and
an easy test.

A consecutive vertical equating procedure accomplishes this for two tests that measure ability in
different parts of a school subject that are consecutively treated, e.g., in the first and second
semester respectively. It is shown that ability change on a Rasch scale constructed by a consecutive
vertical equating procedure does not reflect ability change in the new subject matter, but only in
the old subject matter. Therefore such a scale is inadequate to monitor the development of ability
during an extended curriculum.

In this article a deceptively attractive application of the Rasch model to the construction of
scales for extended curricula is discussed.

More often than not curricula extend over several years, e.g. mathematics. A single scale
that covers the whole abihty range of students from the beginning to the end of a curriculum is
an appealing instrument for the study of abihty development during an extended curriculum.
This kind of scale will further be called 'extended curriculum scale'. A single scale of items
from 1 -I- 1 = . to items on topics in advanced calculus may be considered an extreme example.

Although any item response model may be used in the construction of the scales under
consideration, scale construction in this ardcle is confined to the Rasch model. Our critique on
extended curriculum scales apphes equally well to other item response models.

The application of the Rasch model to the construction of extended curriculum scales was
called 'deceptively attractive' because, we shall argue, educational efficiency as measured by
this type of scale is largely due to arbitrary circumstances. We shall show how the structure of
the subject matter content and the dming of successive test administrations influence the
measurement of ability development in a decisive way. First we mention some examples.

Angoff (1971) discussed the construcdon of a single scale for tests that cover a 'wide range
of talent... for example ... from the elementary grades to college level'. He concurred with
Wright (1968) that application of the Rasch model will enable test constructors to circumvent
some of the pitfalls he idendfied in equadng series of muUi-level tests following classical test
theory methods.

His admonition was followed by Choppin (1976) who, after constructing an extended
curriculum Rasch scale, concludcd that after one year of biology instruction the probability of
a correct response with a typical item-student pair increased from 50% to a poor 57%.

In another application Choppin (1978) compared three mathematics curricula, each ex-
tending over four grades (sixth through ninth). The results of two of the curricula seemed
encouraging. The above-mentioned probability increased annually from 50% to about 66%.
In the third curriculum this annual increase turned out to be from 50% to 54%. Indeed, during
the first year of instruction a slight decrease was actually reported. As Choppin noted, this
finding was discouraging for the proponents of the third curriculum (where a new way of
teaching mathematics was practiced) and must have severely weakened their position. We
shall show, however, that these results must be attributed to largely irrelevant circumstances.

At the National Institute for Educational Measurement in the Netherlands, we constructed
an extended curriculum Rasch scale for mathematics that covered grades two through five.
The cumulative distributions of ability for the populations concerned are depicted in fig. 1.
The annual increase in ability was virtually identical to that in the two curricula of Choppin's
mathematics study.

Forster (1980), using the same method in research on English language curricula at
Portland (OR. U.S.A.), expressed his amazement at the negligible progress of students. This
reminds one of Choppin's biology study.

Summarizing, two studies on mathematics were found that showed reasonable progress and
two others, one on biology and one on English, that showed hardly any progress. These results
appearTather untrustworthy and require further investigation because:
1. it seems unlikely that teachers of mathematics are so much more efficient than their
colleagues in biology and Enghsh as these studies suggest.

2. it is hard to believe that half a year of instruction produces almost no result.
As a matter of fact, Choppin and Forster independently declared their results to be suspect,
without giving an indication of the source of the problems. In the sequel we shall develop a
thought experiment on this type of scale construction to unravel the mechanism responsible
for these puzzling results. Thereafter a more precise and general formulation will be con-
structed.

Because equating is at the core of the construction of extended curriculum scales and,
moreover, the problems we shall encounter emerge from it, we start with a short review of
equating procedures and methods.

Equating enters in every situation where scores on different test forms are to be compared.
To accomplish this comparison, an equating procedure constructs a mapping from the scores
on two or more test forms to a common scale. Two equivalent scores yield the same image
under the mapping, and nonequivalent scores do not.

Angoff (1971) defines 'equivalency' as follows: 'Two test scores, one on Form X and the
other on Form Y (where X and Y measure the same function with the same degree of
reliability), may be considered equivalent if their corresponding percentile ranks in any given
group are equal'. This definition is clearly adapted to equipercentile equating or vice versa. In
the context of equating via Item Response Theory (IRT) (e.g. Lord, 1980), however, this
definition is not particularly useful, because it can easily be derived from IRT that equivalent
scores, in Angoff s sense, do not exist for tests that differ in difficulty.

Because we are concerned exclusively with an IRT model in this article, the definition of
equivalent scores has to be adapted to: 'Two scores, one on Form X and the other on Form Y
(where X and Y measure the same function) may be considered equivalent if a latent ability
exists for which these scores are expected scores'. (See Lord [1980] formula 13-12). The
expression 'with the same degree of reliability' from Angoffs original definition, may be
omitted, since our definition deals with equivalent true scores (expected scores).

In the next paragraph we mainly address the question of whether tests that differ in
difficulty can be meaningfully equated.

1. Horizontal equating pertains to test forms 'that are designed to measure the same attribute
at the same level for the same population';

2. Vertical equating is applied to 'forms of a test designed for populations at different
educational levels'.

Although Slinde and Linn refer to Lord's (1975) suggestion that only methods based on Item
Response Theory are suitable for vertical equating. Lord (1980), in his chapter on equating,
only maps raw score scales onto each other. The difference with Angoff (1971) is to be found
in Lord's application of IRT to establish the mappings, whereas Angoff ( 1971 ) is restricted to
classical test theory methods like linear and equipercentile equating. Lord's restriction to
mappings between raw score scales is regrettable because by this very fact vertical equating is
impossible. This may be exemplified by noting that there are no equivalent scores on an easy
test for the highest scores on a difficult test. This intuitive notion finds its even more restrictive
formal expression in Lord's (1980) theorem 13.3.1. This theorem states that two tests cannot
be equated 'unless (1) both are perfectly reliable or (2) the two tests are strictly parallel'. In
this latter case the mapping that equates the two raw score scales is the identity. Bound by this

restriction no practitioner could ever equate two tests and, a fortiori, it exiles vertical equating
to an impossible world. Perhaps as a consequence of this. Lord did not mention vertical
equating at all, neither the term nor the issue, although it almost naturally emerges from IRT.
The raw score scales of the tests designed to measure different or the same educational levels
should, however, not be mapped onto each other, but into an underlying latent ability scale.

Lord's opinion on equating of nonparallel tests as 'imperfect' is due to his demand for
'equity': 'If an equating of two tests x and y is to be equitable to each applicant, it must be a
matter of indifference to applicants at every given ability level 0 whether they are to take test
X or test y.' This demand surely is reasonable in case every examinee is randomly assigned one
from two or more tests. It is more reasonable, however, to demand that every examinee has a
comparable chance to receive a test result that reflects his ability, regardless of the level of this
ability. This requirement leads to a nonrandom assignment of vertically equated tests. Every
examinee is assigned a test that best suits his previously known ability. Random assignment of
parallel tests will, in general, result in a less accurate measurement of the more extreme
abilities. This may be favourable for the lower abilities, who get more chance to pass, but it is
unfavourable for the examinees of higher ability, whom, for the sake of equity, are offered
increased chances to fail.

Exploring the possibility of vertical equating with the Rasch model, Slinde and Linn (1977)
reported unacceptable irregularities. They concluded that, perhaps, more item parameters
were needed. In 1978 they confirmed their previous findings and characterized the Rasch
model as inappropriate for vertical equating.

Gustafsson (1979) dismissed their conclusion as invalid because it was based on a faulty
methodology. As Slinde and Linn (1979) noted, Gustafsson advocated a remedy that would
only aggravate the detected flaw. In this latter publication, Slinde and Linn restated their
original conclusion, this time on an apparently sound basis. Their results, however, cannot be
considered relevant to an evaluation of the feasibility of the Rasch model for vertical equating.
They acquired their data partly from populations of very high or very low ability in relation to
their tests. Indeed, the misfits they showed are invariably due to almost chance level per-
formance. Because the Rasch model does not contain a guessing parameter, the discrepancies
they found were inevitable. To avoid inconsistencies, Rasch item parameters should never be
calibrated using responses that indicate near chance level performance. Until evidence to the
contrary is presented, we are left to accept their last sentence: 'Slinde (1978) has also reported
results that suggest the Rasch model may work quite well under less extreme conditions, even
though the model-data fit was less than satisfactory.'

The definition of vertical equating in the previous section contained the phrase 'different
educational levels'. With regard to the issue in this article, it will prove useful to distinguish
two ways in which educational levels can differ and, accordingly, two types of vertical
equating, 'simultaneous vertical equating' and 'consecutive vertical equating'.
• Simultaneous vertical equating.

Although two students followed comparable curricula and afterwards are tested simul-
taneously, the difference between their abilities on the subject matter may nevertheless be
considerable. Separate tests may be designed to measure these two levels of ability with the
same degree of accuracy. Both tests cover subject matter from the same part of a curricu-
lum, but they examine ability therein at different levels of difficulty. In order to render the

scores from both tests comparable, they may be equated by a simultaneous vertical
equating procedure.
• Consecutive vertical equating.

Different educational levels also arise as a result of the advancing curriculum and also of the
maturation of the pupils. Thus, second grade pupils on the average surpass first grade pupils
in their versatility in mathematics or English. The construction of extended curriculum
scales evidently relies on the equating of tests that cover parts of the school subject from
different periods in the curriculum. We call this equating procedure 'consecutive vertical
equating'.

In the previous sections three different equating procedures were discerned: horizontal
equating, and simultaneous and consecutive vertical equating. For each of these procedures
various methods of equating with the Rasch model are available.

Rasch-calibrated tests that measure the same attribute can be equated by mapping the raw
scores into a common Rasch scale. Since all Rasch difference scales share the same unit, the
only source that may cause scales to be different is the arbitrary choice of an origin. As a result,
equating of two cahbrated tests is reduced to the relatively easy task of finding the shift
between both scales and compensating for it. This amounts to choosing an ability or difficulty
that can be accurately measured on both scales and calculating the difference between the two
values. This difference is an estimate of the shift between the two scales. If more than one
estimate of the shift is available, these estimates are to be pooled as a weighted average to yield
one (more accurate) estimate.

Two of these methods were mentioned by Wright and Stone (1979). They are labeled resp.
common items and common persons equating. In addition, an incomplete data matrix may be
calibrated in its entirety. An algorithm that accomplishes this was developed by Glas (1981) at
the State University of Utrecht. The last method circumvents the necessity of administering
every test form to a large number of students. Each student may be administered a new sample
from an item domain, and yet a common scale for the item bank may be calibrated, given
enough 'connected' data (cf. Fischer, 1981).

Although common items equating and Glas' method are both appropriate for consecutive
vertical equating, the first allows the construction of a more perspicuous example that helps to
understand the difficulties that arise in consecutive vertical equating. Therefore, it will be
useful to examine the common items equating method in more detail. We shall construct an
example of almost maximum simplicity where we assume every person and item parameter
known beforehand. Moreover, we shall ignore errors of measurement and let the measured
values be equal to their corresponding true values.

Imagine a population of students, all with the same ability parameter 9=0. Such a
population will, of course, never be found in practice, but we would only unnecessarily
complicate our example by the choice of a more 'realistic' population. Further, imagine we
have 30 items we want to calibrate on a common scale. Due to time limitations, a student in
our example can respond to only 20 items. Therefore we assemble two tests of 20 items each,
that share 10 items. The shared items are called the link. The items in the first test, exclusive of
the link, aU have the same parameter 6 = -0.5. The items in the link share the parameter
6 = +0.5. The parameters of the remaining items in the second test are 8 = 1.0. The situation is
displayed in fig. 2 on the lowest bar. We are dealing here with vertical quating because the tests
differ considerably in difficulty.

Figure 2 Common Items Equating in Vertical Equating. 1-10, 11-20, 21-30: Item numbers.

The arrow indicates the weighted mean difference between pairs of parameter values for items
11-20 (the link). By adding this difference to the parameters from the calibration of test II, they
are equated on the scale of test I.

After the administration of the tests, each to a different sample, they are separately
calibrated. Following most calibration algorithms we arbitrarily set the mean of the item
parameters to zero. The results of the calibrations are shown in fig. 2 on the two upper bars. If
we take the scale of the first test as the common scale, the constant that must be added to the
parameters of the second test to eliminate the shift between the scales turns out to be equal to
.75. We nodce that, after adding the constant to all parameters in the second test, the hnk
items acquire one position on the scale of the first test, while all known differences between
parameters are preserved. Since we deal here with difference scales, this procedure yields a
common scale that accords with the results of both calibrations.

Up to this point no special difficulties were met. In this section we shall become aware of the
source of the problems that are to be encountered in cpnsecudve vertical equating. Therefore
we have to slightly complicate our example. First we choose a subject matter content that is
disdnguished by a nonhierarchical structure: e.g. history. As in the previous example, we
assume the ability of all members of the population to be equal. Furthermore, our previous
two tests are not administered simultaneously. The first test is administered at the end of the
first semester and measures abihty in the treated history. The same applies to the second test,
but for the second semester. The hnk, common to both tests, covers only first semester history,
because at the end of the first semester next to nothing is known about second semester
history. To simplify matters, let us assume that all items are equally difficult in the sense that
after instruction, at the respective test administrations, the probability of a correct answer
equals 75%. For the hnk the situation is more comphcated. On the first occasion the
probability correct equals 75%, hke the other items in the first test. On the second occasion.

figure 3 Consecutive Vertical Equating by the Common Items method. A fictitious example with an
itembank on history. Test I is administered at the end of semester one, test II at the end of
semester two. Compare this figure with figure 2 for clarification of the common items method,
e ti: mean ability at the end of semester 1
9,2: mean ability at the end of semester 2

however, half a year has elapsed since the last time they studied the relevant subject matter.
The probability of a correct response may very well have dropped considerably; in our
example we imagine that it dropped to 50% at the end of semester two. The results of both
separate calibrations are displayed on the two upper bars in fig. 3; the common scale that
results after consecutive vertical equating is shown on the lowest bar. The scale of the first
cahbration again is chosen as the common scale.

The common scale shows the second semester items to be one logit easier than those of the
first semester, and, also surprisingly, the ability of the students decreased considerably
between the two test administrations. At the end of the first semester the probability of a
correct answer on items with parameter 0.0 was 75%. Therefore their ability on the common
scale was about 1 logit. At the end of semester two the probability of a correct response on the
nonlink items with parameter -1.0 was again 75%. Therefore their ability on the common
scale this time equals about 0. After half a year of history instruction their ability decreased
one logit!

We now ask whether these results were really wrong, because it might be argued they are
correct. The student's ability in first semester history had in fact declined considerably and this
was justifiably mirrored in the measured ability change. Their progress, however, consists in
having achieved 75% mastery of second semester history, while at the end of semester one
their ability on second semester history items reflected the success of guessing, say 25%
mastery. This progress from 25% to 75% mastery is swept under the common scale. The
common scale shows us a decrease in ability on second semester history items that corresponds
to a mastery decrease of 88% to 75%. In fact this mastery increased from 25% to 75%. An
ability JMcrease on new subject matter content of about 2 logits is concealed behind an ability
decrease of 1 logit.

In this section we develop a formal description of the procedure for consecutive vertical
equating and derive some general properties of extended curriculum scales. We shall need the
common set theoretic notation:

XiUXj the set that contains the totality of members of X, and Xy (it is called the 'union' of
X,. and Xj),

X, nXy the set that contains the elements that are a member of X, and Xy (it is called the
'intersection' of X, and Xy),

X, CXy denote the proposition 'every member of X, is a member of Xy (Xj is called a
'subset' of Xy).

The expression 'for every.', where '.' stands for any index variable like i or j, here means: for
every member of the set {1, 2,...,«}. To simphfy the subsequent notation we need: X, = 0 if

Now let AjC/lj C... Ci4„bensuccessively enlarged domains of subject matter,and let/] C
12 C... C ƒ„ be corresponding item domains. For every i I, contains items ony4, but no items on

Let Tl, T2, ...,T„bea series of tests. For every / let 7, be recursively be constructed as follows:

2. Tj+i is the union of a random sample from /,+i|/, and a random sample from 7, | r,.i.
The size of the random sample is left unspecified here but should be adjusted to fit the needs of
the test constructor.

In principle the second part of the above definition could be generalized to:
2'. Ti+i is the union of a random sample from ƒ,+, | /, and a random sample from Tj | Ty.,, where/
takes at least one value from the set {1, 2, ..., /}.

Because teachers will very likely be reluctant to administer items on very old subject matter,
formulation 2 will suffice for most practical situations, and in the sequel we shall take 1 and 2
as the definition of T.

Let for every / cpj be a population that has just finished a curriculum on A,. From every (p, an
independent random sample 5, is drawn to which test T, is administered. Figure 4 depicts the
data matrix D acquired from this design.

The shaded area in D contains item responses; the nonshaded area is empty. If D results
from a (partly) longitudinal research design, it should be understood that, if the same person
happens to appear in and5y he occupies two different rows in D and is treated like two
different persons.

If the Rasch model holds for Uq) and /„ and we calibrate an extended Rasch scale using a
data matrix D, the probability for a model test to reject the model equals the accepted
probability of type 1 errors. However, since only the shaded area is filled with item responses.

Figure 4 Data matrix D from a Consecutive Vertical Equating design. The shaded area contains item
responses, the non-shaded area is empty.

much weaker conditions will yield the same result. The necessary and sufficient conditions
are:

For a particular sequence of tests 7, and samples 5„ the two conditions may be further
weakened by replacing qpbySand/byTinconditionljandin condition 2, ƒ,. i may be replaced
by the itemset Tir\Ti.i. The given formulation of the conditions has the advantage of being
apphcable to every matrix D that, among other things, results from the aforementioned
samphng from the cp, and /,.

Condition 1 warrants the independent Rasch calibration of items in 7, using submatrix x T,
of D. Condition 2 is necessitated by the fohowing consideration: for every/> 1 Tj. i and 7", share

a common set of items from /,.i|/,.2. These items are calibrated using 5,. i x T,., and indepen-
dently using Si x Tj. This results in two parameter estimates for every item in 7",.i n r,.
Condition 2 secures that the expected differences of the pairs of parameter estimates equal the
shift between the independently cahbrated scales for T,., and T,. Thus the weighted mean of
these differences may be meaningfully considered an esdmate of this shift. By successive
applications of the common items method of equating, all items from 7"i up to and including T„
are calibrated on a common extended scale E.

The following propositions are immediate consequences of the above two conditions and
may further clarify its structure.

la. There exists a set of row parameters 62,..., 6„) and a set of column parameters (6,62,
..., 6;t) for matrix such that the probability of d/y = 1 (the entry in cell (/, /)) is given
by the well-known formula:

lb. For all other cells of D, outside the shaded area, the above equation does not necessarily
apply.

Part a. of this proposition is merely a restatement of the conditions. Part b expresses that the
two conditions do not provide any basis for an inference about the mentioned probability for a
cell from the empty part of D.

2. For every/>1, the abihty change, as measured by 7",.i and 7, on the common scale E, of a
person who subsequently is a member of q),. 1 and q)„ equals his ability change on /,. 1 only.

Proposition 2 follows from condition 2, which implies that the abihty on E of members of qj,.!
and cp, may be measured by the administration of items from only. The proposition states
that, if during the transition from q),., to (p, subject matter i4i.i|/4,.2 is relatively forgotten, the
measured ability decreases, irrespective of the accomplishments on Ai \ Aj.^. If, on the other
hand, subject matter.4,.i|/l,.2 had been superficially treated or studied when a person was a
member of q),.i and, during the subsequent transition from q),.i to q)„ this neglect was
compensated for by a thorough rehearsal, the ability on E for this person increases. This
increase again is irrespective of the level of the probably minor accomplishments on .4, | ^4,. j.
Minor accomplishments because thorough rehearsal of.<4,.i \A1.2 during the transition from
q!,.i to q>, could occur only at the cost of time otherwise available for the study ofy4,

Of course, some person may deviate from q)i in the sense that his ability on E as measured by
Tj I 7",., differs from his ability as measured by 7",n Tj.^. To the extent that this is the case, this
person does not belong to q), because the Rasch model was supposed to hold for q), and /,l/,.2.
This person may, for instance, have rehearsed /,., I/,. 2 during the transition from (p, to (p, while
q), did not, or vice versa.

3. It follows from proposition 2 that the abihty change of a person that subsequently was a
member of cp„ q),+i, ... ,q)y (Ki<y<n) equals the sum of his ability changes on /,.i|/,.2,
—>(,-ik>-2. resp. during his membership of q)„ ... ,(})/.

Thus ability change on an extended scale is not in any regular way related to mastery change
on/„.

4. The difference of item parameters 8, and 6y reflects their relative difficulty:

b. for (p;n(p,+ , if item i and item j both are a member of Ii. Other differences of item
parameters on E than stated in a. or b. are uninformative about their relative difficulty for
any cp,.

From the foregoing two sections it must be concluded that the construction of a common
Rasch scale by consecutive vertical equating is not adequate for the monitoring of ability
change during an extended curriculum. Angoff (1971, pp. 563 and 590) also hinted at
problems with extended scales. He mentioned that the psychological function that the tests
measure may undergo a gradual change from level to level. This change of meaning hampers
the comparison of scores from different levels on the common scale. Moreover he relates this
problem to variability in local customs to introduce subject materials at different points in time
and to variability in the emphasis that different parts of the subject matter receive. We wish to
make the following comments about his view on the problem of vertical equating:

1. Within the realm of education it seems impossible, in general, to speak about one psy-
chological function without mentioning the relevant population. A set of subject materials
may represent one psychological function for one population, whereas for another popu-
lation that only studied part of it, the set represents different psychological functions.

2. The problems in consecutive vertical equating that were discussed in the foregoing section
are not problems of interpretation or change of meaning. They arise as purely technical
artifacts of the method of common items applied in a consecutive vertical equating
procedure.

3. From comments I received on a previous draft of this article it appeared that the problem
discussed here may be misunderstood as a special case of the more general problem of the
interdependency of scale construction and local curriculum varieties mentioned by Angoff.

The latter issue is concerned with problems that emerge when the parameters of a subset of
an itembank may be substantially different for a particular subpopulation. When the part of
the school subject that relates to this item subset is, e.g., relatively emphasized in the
subpopulation, the items from the subset are prone to become easier for them. This results in
lower item parameters than are found for the rest of the population. This problem can be
satisfactorily solved by reporting separately the (higher) abilities on this particular part of the
school subject for the relevant subpopulations.

In this way an independent calibration of item parameters for this particular subpopulation
can be avoided. The situation this article is concerned with may be considered an extreme
case, and therefore, a special case, of this 'more general problem'. Extreme, because a certain
part of the subject matter until now received no attention at all.

I wish to emphasize, however, that the problem that is treated in this article does not vanish
or even deminish when local curricular varieties are nonexistent and every member of the
population receives an identical curriculum. Therefore it does not seem fruitful to consider it a
special case of this 'more general problem'. The essential difference is brought out clearly by
pointing to the fact that in the 'more general problem' situation students are to respond to

items on a particular subject matter, when the amount of emphasis and elaboration may vary,
depending on the particular curricular variety, including zero emphasis or elaboration. In
consecutive vertical equating, however, students are not required to respond to items on not
yet treated parts of the subject matter. As shown in the previous section, it is from such data,
that a potential model misfit could be demonstrated. However, in consecutive vertical equa-
ting these data are not collected. Moreover, local curricular varieties are not a specific vertical
equating problem but interfere with horizontal equating as well, and even pose a problem to
the interpretation of raw scores on a single test.

Angoff, W.H. (1971). Scales, Norms and Equivalent Scores. In: R.L. Thorndike (ed.). Educational

Measurement (2nd ed.). Washington D.C.: American Council on Education.
Choppin, B.H. (1976). Recent developments in itembanking: a review. In: D.N.M. de Gruijter & L.J.T.

van der Kamp, Advances in Psychological and Educational Measurement. London: Wiley.
Choppin, B.H. (1978). Item banking and the monitoring of achievement. Research in progress series no. 1.
Slough: NFER.

Fischer, G.H. (1981). On the existence and uniqueness of maximum likelihood estimates in the Rasch

model. Psychometrika, 46, 59-77.
Förster, F. (1980). Personal communication, February.

Glas, K. (1981). Het Rasch model bij data in een onvolledig design. Supervisor: N. Verhelst. Scriptie,
Subfaculteit Psychologie, Vakgroep Psychometric, Statistiek en Modelvorming. Utrecht: R.U.
Utrecht.

Gustafsson, J-E. (1979). The Rasch model in vertical equating of tests: a critique of Slinde and Linn.

Journal of Educational Measurement, 16, 153-158.
Lord, F.M. (1976). A survey of equating methods based on item characteristic curve theory. Research

Bulletin RB-75-13, Princeton, N.J.: Educational Testing Service.
Lord, F.M. (1980). Applications of Item Response Theory to Practical Testing Problems. Hillsdale, N.J.:
Erlbaum.

Slinde, J. A., & Linn, R.L. (1978). An exploration of the adequacy of the Rasch model for the problem of

vertical equating. Journal of Educational Measurement, IS, 23-35.
Slinde, J.A., & Linn, R.L. (1979). Vertical equated tests: fact or fantom? Journal of Educational

Measurement, 16, 159-165.
Slinde, J.A., "& Linn, R.L. (1979). A note on vertical equating via the Rasch model for groups of quite
different ability and tests of quite different difficulty. Journal of Educational Measurement, 16,
159-165.

Wright, B.D. (1968). Sample-free test calibration and person measurement. In: Proceedings of the 1967

Inv. Conference on Testing Problems. Princeton, N.J.: Educational Testing Service.
Wright, B.D., & Stone, M.H. (1979). Best Test Design; Rafch Measurement. Chicago: Mesa Press.

Authors like Ross and Cronbach (1976) and Berk and Rossi (1976) attribute an 'inherent
conservative bias' to current 'quantitative' evaluation designs. Their point of view is criticized by
showing several counter-examples. Moreover, the very way of mixing up methodological issues
and political implications of evaluation research when using terms like 'conservative bias' is
rejected. Since knowledge of sources of bias, as well as insight in the direction of bias, is essential in
finding ways in achieving unbiasedness, this article is meant as an attempt to outline more fruitful
ways in treating the phenomenon of bias in evaluation research. Although the discussion focusses
on technical issues concerning data-analyses when quasi-experimental designs are used, some
comments on the broader theme of the political context of evaluation research are included.

Campbell en Eriebacher (1970) en Campbell en Boruch (1975) stellen dat het gebruik van
gangbare quasi-experimentele onderzoeksdesigns aanleiding geeft tot een systematische
onderschatting van het effect van compensatieprogramma's in het onderwijs. In iets latere
publicaties (Ross & Cronbach, 1976; Berk & Rossi, 1976) wordt een politieke interpretatie
gegeven aan de onderschatting van de effecten van programma's die gericht zijn op verbete-
ring van de positie van zwakkere groepen leerlingen. Zo stellen Berk en Rossi dat gangbare
evaluatie-designs een inherent conservatieve bias hebben en spreken Ross en Cronbach van
het opnemen van conservatieve vooronderstellingen in de keuze van onderzoeksopzet en
instrumenten. In enkele recente publicaties wordt zelfs voetstoots aangenomen dat 'traditio-
nele' benaderingen bij evaluatie-onderzoek een conservatieve bias hebben (vgl. Cohen,
1983; Karstanje, 1984). Er moet overigens op gewezen worden dat de hierboven aangehaalde
auteurs zeer uiteenlopende remedies voor de gestelde diagnose hebben. Campbell en zijn
co-auteurs pleiten voor de toepassing van 'echte' (in tegensteUing tot quasi-) experimentele
onderzoeksopzetten bij grootschalig evaluatie-onderzoek, de anderen zien meer in ecologi-
sche en kwalitatieve methoden met een meer 'formatieve' gerichtheid (Voor commentaar op
dit soort benaderingen zie o.m. Hofstee, 1982; Stokking, 1983 en Scheerens, 1983a).

Een eerste reactie op het gebruik van een term als 'conservatieve bias' zou kunnen zijn dat
het hier gaat om een onzinnige spraakverwarring waarbij de nauwgezetheid en voorzichtig-

beid die een onderzoeker op basis van professionele normen aan de dag moet leggen ten
onrechte van een politiek label wordt voorzien. Hoewel ik het met deze typering niet oneens
ben zijn er mijns inziens gegronde redenen om het daarbij niet te laten en serieus in te gaan op
het veronderstelde verschijnsel.
Die redenen zijn de volgende:

1. De veronderstellingen over eenzijdige gerichtheid van bias bij compensatie-programma's
in het onderwijs zijn op het eerste gezicht niet implausibel;

2. Nadere analyse van factoren die aanleiding geven tot bias zijn methodologisch gezien
interessant omdat ze aanleiding kunnen geven tot een adequater gebruik van bestaande
procedures en inspireren tot de ontwikkeling van nieuwe technieken;

3. Typeringen als 'conservatieve bias' verwijzen naar stellingnames in een discussie over de
politieke context van evaluatie-onderzoek die zeer actueel is (vlg. bijv. Cronbach et al.,
1980; Bryk & Raudenbush, 1983);

4. Deze opvattingen bepalen mede het klimaat waarbinnen in Nederland evaluatie-onder-
zoek wordt uitgevoerd (vgl. Scheerens, 1983b). Het is dus niet uitgesloten dat nadere
analyse van 'conservatieve bias' ook in dit opzicht van betekenis is.

In verband met bovenstaande punten wordt nader ingegaan op de factoren die aanleiding
kunnen geven tot bias bij het gebruik van procedures als matching en covariantie-analyse, als
er sprake is van niet-equivalente behandelingsgroepen. Op basis daarvan worden de bewerin-
gen omtrent 'conservatieve bias' op hun merites bezien. Verder wordt gerefereerd aan
technieken die oplossingen bieden voor de problemen in kwesde en wordt stelling genomen in
het debat over de politieke consequenties van evaluade-onderzoek.

Er wordt uitgegaan van de evaluatie van compensatie- of stimuleringsprogramma's in het
onderwijs, waarbij aan de hand van een vergehjking tussen behandelde en niet-behandelde
groepen leerlingen wordt nagegaan of de behandeling effect heeft.

Bepalend voor het niet-equivalent zijn van de groepen is de niet-aselecte toewijzing van
leerlingen aan de behandehngsgroepen; verondersteld wordt dat de 'zwakkere' groep de
behandeling ontvangt.

Verder wordt er vanuit gegaan dat de afhankelijke en covariabele kwantitatief zijn, terwijl
de onafhankelijke variabele kwahtatief is. Met enige tegenzin zal de term 'conservatieve bias'
overgenomen worden; er zal echter niet zover met het pohtieke woordgebruik worden
meegegaan dat de tegenhanger ervan wordt aangeduid als 'progressieve bias'.

2. ANALYSE; OVER- EN ONDERSCHATTING VAN BEHANDELINGSEFFECTEN
2.1 Het bepalen van het succes van de behandeling

Indicaties over het al dan niet succesvol zijn van een behandeling kunnen zowel op grond van
parameter-schatting als op basis van hypothese-toetsing verkregen worden. In het eerste
geval gaat het om een schatting van het verschil in gemiddelden op de afhankelijke variabele
tussen de behandelde en de controlegroep. In het tweede geval wordt de nulhypothese
getoetst dat de beide groepsgemiddelden aan elkaar gelijk zijn. Bias zal hier worden behan-
deld in de zin van vertekening in de schatting van het behandelingseffect. Op de precisie van
de schattingen zal niet worden ingegaan. Wanneer er wordt gerefereerd aan hypothese-
toetsing zal dat expliciet vermeld worden.

Als de eenheden (leerlingen) niet aselect zijn toegewezen aan de behandelingscondities zal
het verschil tussen de groepsgemiddelden op de afhankelijke variabele over het algemeen
geen zuivere schatting van het behandelingseffect opleveren, omdat er niet gecorrigeerd

wordt voor bestaande verschillen tussen de groepen, die van invloed zijn op de afhankelijke
variabele. Men tracht hieraan tegemoet te komen door via 'fysieke' of analytische maatrege-
len de vergelijkbaarheid van de groepen te vergroten. Gangbare procedures hiertoe zijn resp.
matching en covariantie-analyse. Het algemene idee van matching is het zodanig samenstellen
van een controle-groep dat er zo mogelijk bij iedere leerling uit de te behandelen groep een
evenbeeld wordt gezocht uit de verzamehng beschikbare controle-leerlingen. Bij de toepas-
sing van covariantie-analyse worden de gemiddelden op de afhankelijke variabele gecor-
rigeerd voor de invloed van één of meer covariabelen. Op deze wijze wordt gekomen tot een
gecorrigeerd behandehngseffect; dit heef^de volgende vorm:
gecorrigeerd behandelingseffect = (Yb - Y^) - $ (Xb - ^c)
waarin:

Yb = gemiddelde op de afhankehjke variabele in de behandelde groep
% = gemiddelde op de afhankelijke variabele in de controlegroep

en = resp. gemiddelde op de covariabele in de behandelde en de controle-groep
fi = de geschatte samengenomen binnengroepsregressie van Y op X.
Noch covariantie-analyse noch matching zullen echter doorgaans alle bias kunnen wegnemen
als er wordt uitgegaan van bestaande in plaats van via aselecte toewijzing samengestelde
behandelingsgroepen. Alvorens in te gaan op bias bij matching en covariantie-analyse zal
eerst nog kort worden stilgestaan bij design-beslissingen die eveneens van invloed kunnen zijn
op de interpretatie van de onderzoeksuitkomsten, zonder dat er hierbij sprake is van bias.
Dergehjke keuzes kunnen aanleiding geven tot voorzichtige en minder voorzichtige gevolg-
trekkingen over het succes van het te evalueren programma.

Zonder daarmee een eventuele politieke interpretatie van deze keuzes te willen overnemen
(zie par. 1) zullen enkele voorbeelden worden besproken.

In de eerste plaats kan de keuze van het analyse-niveau worden genoemd. Bij grootschalige
evaluatie-projecten in het onderwijs kan men bijvoorbeeld scholen, klassen of leerlingen als
eenheid van analyse kiezen. Volgens Cronbach et al. (1976, p. 85) blijkt in de praktijk bij de
toepassing van covariantie-analyse dat de coëfficiënt voor de regressie van de afhankelijke
variabele op de covariabele groter is wanneer men schoolklassen in plaats van leerlingen als
eenheid van analyse neemt. Dit zal in het algemeen (uitgaande van een positieve correfatie
tussen Y en X) leiden tot een grotere correctie van het verschil in de gemiddelden op de
afhankelijke variabele en zou dus in het geval van compensatie-programma's tot een minder
'conservatieve' schatting van het behandelingseffect leiden dan wanneer de covariantie-ana-
lyse op leerling-niveau zou zijn uitgevoerd. Bij hypothesetoetsing is het in dit geval echter
onwaarschijnlijk dat een hogere waarde van de regressie-coëfficiënt tevens leidt tot het
eerder verwerpen van de nulhypothese (geen verschil in groepsgemiddelden), omdat de
steekproefgrootte bij het kiezen van eenheden op een hoger aggregatie-niveau afneemt.

Een tweede keuze-optie bij het gebruik van covariantie-analyse in het geval van niet-equi-
valente groepen houdt verband met de te verwachten correlatie tussen behandeling (al dan
niet deelnemen aan een compensatie-programma) en covariabele. Wanneer de correlatie
tussen behandeling en covariabele tussen O en 1 ligt 'overlappen' beide factoren in de
verklaring van de variantie op de afhankelijke variabele. In die situatie heeft het consequen-
ties voor de schatting van het behandelingseffect of men eerst de invloed van de groeperings-
factor (de behandehng) bepaalt en daarna die van de covariabelen of omgekeerd (vgl. Searle,
1971, p. 344 en 345). In het eerste geval wordt de 'overlap' toegerekend aan de behandehng,
in het tweede geval aan de covariabelen. Alleen in het tweede geval wordt het 'netto'-effect
van de behandeling geschat, maar gezien de overlap zou men dit een 'conservatieve' benade-
ring kunnen vinden.

Regressie naar het gemiddelde treedt op wanneer er bij de selectie van de behandelingsgroe-
pen gekapitaliseerd wordt op toeval, bijv. door te selecteren op basis van een niet perfect
betrouwbare pre-test. Wanneer de geselecteerde eenheden (personen) zich aan de uiteinden
van de populatieverdeling bevinden wordt er op positieve of negatieve meetfouten gekapita-
liseerd, hetgeen ertoe leidt dat de extreme scores zich bij een herhaalde meting dichter bij het
populatie-gemiddelde zullen bevinden. Een dergelijke verschuiving zou ten onrechte
geïnterpreteerd kunnen worden als een behandelingseffect, maar zou ook kunnen leiden tot
het niet ontdekken van een reëel bestaand behandelingseffect. De richting van de bias als
gevolg van het regressie-artefact wordt bepaald door de positie van de geselecteerde groep ten
opzichte van het populatie-gemiddelde; met andere woorden door het kapitaliseren op
positieve dan wel negatieve meetfouten. De mate van regressie is afhankelijk van de onbe-
trouwbaarheid van het selectie-instrument en de mate waarin de geselecteerde gevallen
extreem zijn ten opzichte van het populatie-gemiddelde. Hoe onbetrouwbaarder het selectie-
instrument en hoe extremer de scores hoe meer regressie (vgl. De Groot & Van Peet, 1975;
Peschar, 1978; Molenaar & Tomas, 1978 en Stokking, 1980).

Campbell en Erlebacher (1970) gaan ervan uit dat de behandelde en de controlegroep bij
compensatie-programma's in het onderwijs tot verschillende populaties behoren (zij doen dit
althans in één van hun gesimuleerde voorbeeldgevallen).

Bij een relatief geringe overlap van de beide populatieverdelingen zouden bij matching
alleen de hoogscoorders uit de minst bekwame groep (de groep die de behandeling ontvangt)
en de laagscoorders uit de bekwaamste groep (de controlegroep) geselecteerd worden. Dit
zou aanleiding geven tot tegengesteld gerichte regressie-effecten; de behandelde groep zou er
schijnbaar op achteruitgaan terwijl het gemiddelde op de post-test in de controle-groep juist
een stijging zou vertonen. Bovendien gaan Campbell en Erlebacher ervan uit dat het moeilij-
ker is om leerlingen van het vergelijkbare score-niveau te vinden in de controle-groep dan in
de te behandelen groep; zij zien dit als een indicatie voor een grotere kapitalisatie op
(negatieve) meetfouten dan bij de behandelde leerlingen, waardoor er meer regressie zou
optreden in de groep van geselecteerde controle-leerlingen dan in de behandelde groep. Dit
alles leidt tot een onderschatting van het behandeHngseffect, 'conservatieve bias' dus.

In de eerste plaats moet opgemerkt worden dat het niet verstandig zou zijn om in de situatie
waar Campbell en Erlebacher van uitgaan (geringe overlap tussen behandelings- en controle-
groep) matching toe te passen, al was het alleen al vanwege het optredende informatieverlies;
het niet benutten van de informatie over leerlingen die niet 'gematched' kunnen worden (vgl.
Andersen et al., 1980, hfst. 13).

In de tweede plaats is het de vraag of het terecht is om de regressieverschijnselen te
beschouwen binnen twee sub-populaties (Campbell en Erlebacher zijn daarover trouwens
niet consistent in het desbetreffende artikel). Zelfs al is er een relatief geringe overlap tussen
de groepen is het een open vraag of men moet aannemen of de scores naar twee sub-popula-
tie-gemiddelden 'regresseren', dan wel naar één overall populatie-gemiddelde (zie ook Mole-
naar & Tomas, 1978). Wanneer er wordt uitgegaan van één populatieverdeling zijn er zelfs
redenen om te vermoeden dat het regressie-effect in de hierboven aangehaalde situatie juist
van weinig betekenis is, nl. omdat alleen de overlap tussen de groepen in de analyse betrokken
wordt en de echte extremen buiten beschouwing worden gelaten. Als er wel regressie is, zou
deze in beide sub-groepen in dezelfde (positieve) richting werken, omdat het om laagscorende
leerlingen gaat.

Tenslotte zijn er vraagtekens te plaatsen achter de aanname van Campbell en Erlebacher
dat er méér regressie optreedt bij de controle-leerlingen dan bij de leerlingen die deelnemen

aan het programma. Situaties waarin er bij de selectie van controle-leerlingen juist minder op
toeval behoeft te worden gekapitaliseerd zijn zeer wel denkbaar, bijvoorbeeld wanneer er
geput kan worden uit een data-bestand van nationaal of regionaal assessment-onderzoek. In
dergelijke situaties zou er dus meer regressie in de behandelde dan in de controle-groep
optreden. Uitgaande van een situering van het regressieverschijnsel in één populatie vindt er
dan een overschatting van het behandelingseffect plaats. In het algemeen kan men, zonder
een nadere analyse van het 'ware' selectieproces, niet zeker zijn van de richting van de bias als
gevolg van regressie-effecten.

Om de relativiteit van uitspraken over onder- en overschatting van behandelingseffecten in
verband met regressie-effecten nog wat verder te illustreren kan tenslotte verwezen worden
naar een studie van Gabriël et al. (1983), die vaststelden dat een aanbevolen procedure om te
corrigeren voor statistische regressie naar het gemiddelde op zichzelf zo vertekenend kan
werken dat het doel letterhjk voorbijgeschoten wordt. Daarbij kan de door Campbell en
Erlebacher gesignaleerde 'conservatieve bias' in een tegengesteld gerichte bias worden omge-
zet.

Idealiter zouden de covariabelen zo gekozen moeten worden dat ze alle storende achter-
grondvariabelen volledig zouden dekken. Van een dergelijke ideale covariabele (of verzame-
ling van covariabelen) kan men zich twee verschillende voorstellingen maken.

In de eerste plaats zou men de ideale covariabele kunnen zien als een perfecte predictor van
de afhankelijke variabele, hetgeen het best voorstelbaar is in de controlegroep. In de tweede
plaats kan men de ideale covariabele opvatten als een variabele die het toewijzingsproces aan
de behandelingsgroepen perfect beschrijft. Door verschillende mogelijke samenhangen
(correlaties) tussen de daadwerkelijk gebruikte en de beide concepties van ideale covariabe-
len nader te analyseren komen Cronbach et al. (1977) en Reichardt (1979) tot een nadere
categorisering van de bias bij covariantie-analyse (de bias nl. die ontstaat wanneer niet een
ideale maar de aktueel gebruikte covariabele wordt toegepast). In de notatie van Reichardt
wordt de aktuele covariabele aangeduid als W, de ideale predictor van de afhankelijke
variabele als X ('de ideale covariabele') en de ideale beschrijver van het toewijzingsproces als
Z ('de ideale discriminant').

In de taal van pad-analyse kunnen we de vraag of W de ideale variabelen X of Z volledig
dekt herformuleren als: kan de correlatie Xxz volledig gereproduceerd worden door het
product van rxw en r^w? Als dat niet het geval is is er spra)ce van bias (specification error).
Dit wordt in de onderstaande figuur weergegeven.

Om de bias echter zuiver als specificatie-error te definiëren moeten nog mogelijke meetfou-
ten in W in aanmerking genomen worden. Hiertoe worden onderscheiden W*, zijnde het
'ware' gedeelte van W (het gedeelte van W dat bepaald wordt door X en Z) en i^w. te
interpreteren als de betrouwbaarheid van W (het gaat hier om de betrouwbaarheid van een
samengestelde meting, vgl. Lord & Novick, 1968, p. 87.). Op deze manier wordt de volgende
formule voor de bias (ew<) verkregen:

'Bias' wordt hier dus gezien als gevolg van de gedeeltelijke irrelevande van W ten opzichte van
XofZ. Wanneer W gelijk is aan X of Z, wordt de bias nul (want dan is W=W* eniww = l)'

a. De bias bij anova is gehjk aan rxz (de uitdrukking achter het minteken vervalt dan, omdat
er geen W in aanmerking genomen wordt).

b. Afhankelijk van de grootte en het teken van rxw en rzw kunnen 3 situaties worden
onderscheiden. Om deze te verduidelijken wordt voorlopig uitgegaan van iww = l-

b. 1 Als het product van rxw en ^zw > rxz heeft de bias, uitgaande van een positieve rxz. een
negatieve waarde, dat wil zeggen dat er sprake is van overcorrecde voor de invloed van de
covariabele.

b.2 Als het product van rxw en rzw < rxz hgt de bias tussen O en rxz, dus is de covariantie-
correcde in de juiste richdng, maar onvoldoende; er is ondercorrectie.

b.3 Als rzw en rxw een tegengesteld teken hebben wordt de bias groter dan de waarde van
rxz». met andere woorden is er sprake van een zodanige ondercorrectie dat ancova tot
meer bias zou leiden dan anova.

c. Naarmate ^vv* kleiner wordt dan 1 vermindert de kans op extreme bias, zowel wat betreft
over- als ondercorrecde. Disattenuatie van W doet de kans op extreme bias weer
toenemen. Het is mogelijk dat overcorrecde door toedoen van een kleinere ^w wordt
gereduceerd tot een situatie van geen bias.

d. 1 Als rxz= 1 ligt de bias tussen de anova-waarde (1) en O, en is de covariantie-correctie dus
onvoldoende, tenzij rxw en rzw gehjk aan 1 zijn (rxz« = 1 en rxw = 1 impliceert rzw =
1 en rxz = 1 en rzw = 1 impUceert rxw = !)•
d.2 Als rxz=0 is er sprake van aselecte toewijzing en zou op basis van anova tot een

onvertekende schatting van het beoordelingseffect worden gekomen.
d.3 Bij een relatief grote rxz 's er alleen voor een beperkte range van waarden van rxw en
rzw extreme ondercorrectie of overcorrectie mogelijk; bij een relatief lage rxz 's de
range van waarden van rxw en rzw waarbij van overcorrectie of extreme ondercorrectie
sprake is groter.

Benadrukt moet worden dat de bovenstaande analyse van bias als gevolg van het gebruik van
een onvolmaakte covariabele betrekking heeft op één behandelingsgroep. Alleen wanneer
de situatie in de groep waarmee vergeleken wordt geheel parallel is zijn de uitkomsten zonder
meer toepasbaar op het gebruik van covariantie-analyse. De aanvullende complicaties die
optreden wanneer niet van volledige parallehteit sprake is zullen tenslotte geïllustreerd
worden door wat nader in te gaan op het geval van meetfouten in de covariabele (i;vw <1)-
Wanneer de covariabele meetfouten bevat worden de schattingen van de binnengroepsre-
gressie-coëfficiënten van de afhankehjke variabele op de covariabele hierdoor beïnvloed, ze

worden nl. kleiner geschat dan het geval zou zijn wanneer de ware scores op de covariabele
zouden zijn gebruikt (Vgl. Lord, 1960; Reichardt, 1979b). De invloed van andere verteke-
nende mechanismen daargelaten en aannemende dat de betrouwbaarheid van de covariabele
in de behandelingsgroepen dezelfde waarde heeft leiden meetfouten in de covariabele tot een
onderschatting van het behandelingseffect (in het geval van compensatie-programma's dus
tot 'conservatieve' bias).

Het is echter goed voorstelbaar dat de covariabele in de ene behandelingsgroep be-
trouwbaarder wordt gemeten dan in de andere, hetgeen één van de mogelijke verklaringen
voor het verschijnsel van niet-parallelle regressielijnen in de behandelingsgroepen is. In
combinatie met verschillen tussen de behandelingsgroepen die op systematische wijze niet
gedekt worden door de gemeten covariabele (rxw en rzw- <1) kan differentiële be-
trouwbaarheid de balans ofwel naar over- of ondercompensatie voor de desbetreffende
verschillen doen doorslaan. De situatie is geheel overeenkomstig aan die bij matching (zie §
2.2). De mogelijkheid van differentiële betrouwbaarheid van de covariabele in de behan-
delingsgroepen vestigt de aandacht op de noodzaak om bij de disattenuatie-procedures - de
voor de hand liggende methode om de effecten van onbetrouwbaarheid tegen te gaan - de
betrouwbaarheidscoëfficiënten per groep te berekenen. (Daar wordt ook van uitgegaan in de
door Porter (1967) ontwikkelde disattenuatie-formule). Opnieuw moet geconcludeerd wor-
den dat het zonder nadere informatie over het ware selectieproces riskant is om uitspraken te
doen over de richting van de bias bij niet-equivalente groepsopzetten. Hooguit kan men uit
het werk van Cronbach e.a., en Reichardt afleiden dat er 'normaliter' een redehjke kans op
milde ondercorrectie voor initiële verschillen is, tenminste wanneer er niet tot disattenuatie
van de covariabele wordt overgegaan ('mild' wil dan zeggen dat covariantie-analyse in ieder
geval meer initiële verschillen 'neutrahseert' dan in het geheel geen, de anova-situatie). Een
dergelijke bias ontstaat bijvoorbeeld wanneer onderzoekers een covariabele kiezen die zowel
hoog positief correleert met de vermoede selectiefactoren als met de afhankelijke variabele.
In die situatie is er een kans op overcorrectie. In de praktijk maken meetfouten in de
covariabele de kans op overcorrectie echter weer betrekkelijk gering. De analyse van Weis-
berg (1979) bevestigt deze indruk. Het verhaal over de bias in de gebruikelijke analyse-tech-
nieken voor het hier centraal geplaatste evaluatie-object zou nog kunnen worden uitgebreid
met een bespreking van de invloed van bepaalde groeiprocessen en de invloed van extreme
scores op het schatten van de regressie-hellingen (zie bijv. resp. Bryk & Weisberg, 1977 en
Huynh, 1982). Aangezien ook deze complicaties zowel tot over- als ondercorrectie voor
initiële verschillen tussen de behandelde groepen kunnen leiden bevestigen zij het beeld dat
uit de vorige passages naar voren is gekomen en zullen daarom onbesproken worden gelaten.

Op grond van de voorafgaande analyse kan geconcludeerd worden dat de steUing dat ge-
bruikehjke evaluatie-designs een inherente conservatie bias hebben voor wat betreft over- en
onderschatting van behandehngseffecten in de statistische analyse, moeihjk houdbaar is.
Gebleken is dat de kans op over- of ondercorrectie afhankehjk is van tal van factoren, waarbij
allerminst bij voorbaat duidehjk is hoe ze interacteren, dat wil zeggen welke invloed ze in
onderlinge samenhang hebben op de richting van de bias. Aan deze conclusie moeten nog
twee opmerkingen worden toegevoegd.

In de eerste plaats moet worden opgemerkt dat voor alle problemen die de revue gepas-
seerd zijn ook oplossingen voorgesteld zijn. Met betrekking tot de relativiteit die voortkomt

uit steekproefgrootte en klassieke significantietoetsing zijn besliskundige en Bayesiaans-sta-
tistische alternatieven voorgesteld. In dit verband kan ook verwezen worden naar de beslis-
regel die deel uitmaakt van het door Hofstee (1980) ontwikkelde weddenschapsmodel. Door
o.a. Cain et al. (1980) en Muthén en Jöreskog (1983) zijn formele modellen ontwikkeld voor
dc bepaling van de grootte en richting van selectie-effecten. Hiermee kunnen de veronder-
stellingen over de richting van de eventuele bias bij matching en covariantie-analyse, zoals
besproken in par. 2.2 en par. 2.3, in konkrete gevallen getoetst worden. Door het gebruik van
item-respons modellen die voldoen aan de eis van specifieke objectiviteit wordt ondermeer
tegemoet gekomen aan de problemen die voortkomen uit het groepsspecifieke karakter van
varianties en betrouwbaarheidscoëfficiënten bij de gangbare procedures. Aan de toepassing
van deze alternatieve procedures zijn naast baten ook nieuwe 'kosten' verbonden (voor een
overzicht zij verwezen naar Scheerens 1983").

In de tweede plaats is het van belang op te merken dat inzicht in de complexe factoren die
tot overschatting of onderschatting van behandelingscondities leiden zelfs méér betekent dan
een eerste stap om de betreffende problemen te voorkomen. De implicatie is nl. dat -
uitgaande van een goede werking van het wetenschappelijk forum - evaluatie-onderzoekers
niet straffeloos eenzijdig werkende design-beslissingen kunnen nemen.

De discussie over bias bij evaluatie-onderzoek beperkt zich natuurlijk niet tot over- en
onderschatting van behandehngseffecten in de statistische analyse. Ook in andere fasen van
het onderzoek, zoals de formulering van vraagstellingen en hypothesen, de operationalisering
van variabelen en in de rapportage kan er sprake zijn van eenzijdige selectie die ten koste gaat
van de houdbaarheid van de uiteindelijke evaluatieve conclusies. De voorafgaande analyse
heeft dus zeker niet op alle aspecten van het verschijnsel bias bij evaluatie-onderzoek
betrekking kunnen hebben. Wel valt aan de hand van deze 'exemplarische' analyse iets te
zeggen over de vruchtbaarheid van bepaalde benaderingswijzen van bias bij evaluatie-onder-
zoek. Op de benadering van de auteurs die spreken van een 'inherente conservatieve bias' is al
aangemerkt dat ze met meer zekerheid spreken over de richting van de bias dan gerechtvaar-
digd is.

Verder is in de inleiding al kritiek uitgeoefend op de typering van onderzoekstechnische
kwesties in politieke termen. Hoewel het zeker van belang is om aandacht te besteden aan de
politieke context van grootschalige evaluatie-projecten dienen context-analyse en het zoeken
naar de oplossing voor research-technische problemen goed uit elkaar te worden gehouden.

Tenslotte is er kritiek uit te oefenen op de wijze waarop sommige van de aangehaalde
auteurs die spreken van een 'conservatieve bias' prescriptieve consequenties verbinden aan
het descriptieve gegeven dat men aan bias bij evaluatie-onderzoek politieke implicaties kan
toeschrijven. Daarbij wordt de evaluatie-onderzoeker dan opgeroepen om partij te kiezen
(vgl. Ross en Cronbach's aanmaning aan evaluatie-onderzoekers om in het schuitje van de
uitvoerende praktici te stappen). Een vruchtbaarder standpunt is mijns inziens om in de
beschouwingen over bias bij evaluatie-onderzoek, juist gezien ook de eventuele politieke
implicaties, vooral een aansporing te zien om technische, procedurele en organisatorische
oplossingen te bedenken die de onafhankelijkheid en 'unbiasedness' van evaluatie-onderzoek
bevorderen.

Andersen, S., Anquier, A., Oakes, D., Vandaele, W. & Weisberg, H. (1980). Statistical methods for
comparative studies. Techniques for bias reduction. New-York: John Wiley.

Barnow, B.S., Cain, G.G., & Goldberger, A.S. (1980). Issues in the analysis of selectiority bias. In E.W.
Stromsdorfer & G. Farkas. Evaluation Studies Review Annual (vol 5), London: Sage.

Berk, R.A. & Rossi, P.H. (1976). Doing good or worse; evaluation research politically re-examined.
Social Problems. 23. 337-349.

Bryk, A.S., & Raudenbush, S.W. (1983). The potential contribution of program evaluation to social
problem solving. In A.S. Bryk (Ed.) Stakeholder-based evaluation. San Francisco: Jossey-Bass.

Bryk, A.S., & Weisberg, H.J. (1977). Use of the non equivalent group design when subjects are growing.
Psychological Bulletin. 85. 950-962.

Campbell, D.T. & Erlebacher, A. (1970). How regression artifacts in quasi-experimental evaluations can
mistakenly make compensatory education look harmful. In J. Helmuth (Ed.), Compensatory
education: A national debate. (Vol. Ill of The Disadvantaged Child.) New-York: Brunnel/
Mazel.

Cohen, D.K. (1983). Evaluation and reform. In A.S. Bryk (Ed.) Stakeholder-based evaluation. San
Francisco: Jossey-Bass.

Cronbach, L.J., Deken, J.E. & Webb, N. (1976). Research on classrooms and schools: formulation of
questions, design and analysis. Occasional Paper, Standford Evaluation Consortium.

Cronbach, L.J., Rogosa, D.R., Floden, R.E. & Price, C.G. (1977). Analysis of covariance in nonrandom-
ized experiments: parameters affecting bias. Occasional paper, Stanford Evaluation Con-
sortium, Stanford IJniversity.

Cronbach, L.J. and Associates (1980). Toward reform of program evaluation. Aims, methods and
institutional arrangements. San Francisco: Jossey-Bass.

Gabriel, R.M., Estes, G.D. & Dush, D.M. (1983, April). Correcting for the regression to the mean bias in
the TIERS Norm References Model. Paper presented at the Annual Meeting of the American
Educational Research Association, Montreal.

Groot, A.D. de, & Peet, A.A.J. van (1975). Enkele kanttekeningen bij het proefschrift van J.L. Peschar:
Milieu, school en beroep. Tijdschrift voor Onderwijsresearch, 1. 36-39.

Hofstee, W.K.B. (1980). De empirische discussie. Theorie van het sociaal-wetenschappelijk onderzoek.
Meppel, Amsterdam: Boom.

Hofstee, W.K.B. (1982). Evaluatie; een methodologische analyse. Tijdschrift voor Onderwijsreaerch, 7,
193-202.

Huynh, H. (1982). A comparison of four approaches to robust regression. Psychological Bulletin, 92,
505-512.

Karstanje, P.N. (1984). Evaluatie bij grootschalige onderwijsinnovaties, (manuscript, verschijnt in
Pedagogische Studiën).

Lord, F.M. (1960). Large-sample covariance analysis when the covariable is fallible. Journal of the
American Statistical Association, 55, 307-321.

Lord, F.M. & Novick, M.R. (1968). Statistical theories of mental testscores. Reading, Mass.: Addison-
Wesley.

Molenaar, J.W. & Tomas, A. (1978). Psychometrics in subgroups, or regression to the mean revisited.
Tijdschrift voor Onderwijsresearch, 3, 152-160.

Muthén, B., & Jörerkog, K.G. (1983). Selectivity problems in quasi-experimental studies. Evaluation
Review Annual, 2, 139-174.

Peschar, J.L. (1978). Milieu, school, beroep (2e druk). Groningen: Uitgeverij Konstapel.

Porter, A.C. (1967). The effects of using fallible variables in the analysis of covariance. University Micro
Films, University of Wisconsin.

Reichardt, C.S. (1979a). The design and analysis of the nonequivalent group design. Unpublished doctoral
dissertation. Northwestern University.

Reichardt, C.S. (1979b). The statistical analysis of data from nonequivalent group designs. In T.D. Cook
& D.T. Campbell, Quasi-experimentation. Chicago: Rand Mc Nally.

Ross, L., & Cronbach, L.J. (1976). Handbook of evaluation research review. Educational Researcher, 5,-
9-19.

Scheerens, J. (1983d). Evaluatie-onderzoek en beleid. Methodologische en organisatorische aspecten.
SVO-reeks no.68. Den Haag: Flevodruk.

Scheerens, J. (1983b). Het sector-onderzoek: onderwijsonderzoek in de marge van beleid en wetenschap?
Een studie naar het functioneren van beleidsgericht onderzoek in het kader van enkele landelij-
ke onderwijsinnovatieprojecten. SVO-reeks no.69. Den Haag: Flevodruk.

Stokking, K.M. (1980). Statistische regressie- enkele methodologische notities. Tijdschrift voor Onder-
wijsresearch, 5, 271-279.

Stokking, K.M. (1983). Reactie op Hofstee: Evaluatie; een methodologische discussie. Tijdschrift voor
Onderwijsresearch, 8, 34-38.

Weisbcrg, H.J. (1979). Statistical adjustment and uncontrolled studies. Psychological Bulletin, 86,
1149-1164.

Studietijden en Studieresultaten bij Eerstejaars
Burgerlijk Ingenieur aan de K.U. Leuven

Study time and study results for first year engineering students at the K.U. Leuven (Belgium)

Time spent by students studying a first year university course in Engineering was investigated
during the academic year 1980-8J. Two methods for measuring study time were used: time
writing and estimation by means of paired comparisons. A strong correlation (r = 0.99) between
these measures was obtained. The distribution of mean study times over the academic year is
graphically presented, separately for the passing and the failing students. The total net study time
(attendance of lessons and seminars plus selfstudy activities) was found to be 1953 hours for the
passing students and 1785 hours for the failing students. Finally, an attempt was made to correlate
study time with study results. A weak correlation of 0.24 was obtained.

De belangstelling voor studiebelasting, in termen van de tijd die studenten aan hun studie
besteden, is de laatste jaren in verschillende universiteiten in binnen- en buitenland sterk
toegenomen. Meer speciaal in de Belgische context wordt van verschillende zijden beweerd
dat de studiebelasting sterk zou aangegroeid zijn. Er is alhier echter nog maar weinig
systematisch onderzoek verricht rond deze problematiek.

Vooreerst wilden we nagaan hoe zwaar de totale studiebelasting is, op welke wijze studenten
hun studietijd verdelen over de verschillende vakken, en of er tijdens het academiejaar
extreme belastingen optreden naar aanleiding van diverse evaluatiemomenten (proef-
examens, examens over de oefeningen, voorexamens).'

Vervolgens wensten we de norm (een vuistregel) die de faculteit hanteert t.a.v. programma-
omvang (1900 netto-uren) te toetsen aan de werkelijke studiebelasting. Het betreft hier een
arbitraire norm die vanuit het aantal geprogrammeerde uren hoorcollege (h) en werkcollege
(w) een maximaal toegelaten belastingsomvang (B) vastlegt volgens de formule:

Verder was het de bedoeling de relatie te onderzoeken tussen individuele studietijden en het
studieresultaat. Tenslotte wilden we van dit onderzoek gebruik maken om tijdschrijfmethode
en schattingsmethode met elkaar te vergelijken door de studielast van hetzelfde curriculum
volgens de twee methoden te meten.

1. Proefexamens: zijn enkel bedoeld als test voor de eerstejaarsstudenten en hebben geen definitief
karakter. Ze vinden plaats op het einde van het eerste semester.

Voorexamens: zijn definitieve examens die vooraf worden afgelegd (tijdens het paasverlof) en deel
uitmaken van de eerste zittijd.

Adres auteurs: Prof. Dr. N. van Deynse Faculteit der Toegepaste Wetenschappen, Celestijnenlaan 200A,
B-3030 Heverlee, België.

Bij de generatiestudenten (studenten die voor de eerste maal een studiejaar beginnen) van het
eerste jaar burgerlijk ingenieur werden tijdens het volledige academiejaar 1980-81, inclusief
de tweede examenperiode van september (herkansing), studiedjdmetingen verricht volgens
de tijdschrijfmethode. Bij de tweedejaarsstudenten werd een studiebelastingsonderzoek
opgezet over de eerste kandidatuur volgens de tijdschattingsprocedure.

Beide methoden werden reeds door tal van auteurs besproken o.a. Beekhuizen, Halsema,
en Van der Sman (1975-1976); Everwijn en Muggen (1973); Everwijn (1977); Crombag,
Roskam, en Meuwese (1973); Hermans (1978); Scheikundige Technologie (1978); Civiele
Techniek (1977); Vermeer (1977-1978-1979); De Gruijter (1981).

De longitudinale methode (de populatie studenten noteert de tijd gedurende het ganse jaar)
werd niet gebruikt om de studenten niet te zwaar te belasten. De transversale methode (een
deelgroep noteert af en toe de tijd gedurende één dag) werd niet aangewend omdat we de
individuele studietijden en de individuele verdeling hiervan over het academiejaar wilden
bestuderen.

Er werd geopteerd voor een combinatie van beide. De hele groep deelnemers werd in twee
gesplitst en elke groep noteerde de studietijd om de twee weken gedurende een week. Op
deze wijze is elke groep representatief voor de ganse populatie en bekomt men voldoende
individuele gegevens om achteraf correlaties met andere gegevens te berekenen.

In samenwerking met de studentenorganisatie van de faculteit werd een organisatorisch
kader^ ontworpen waarbinnen het onderzoek vlot kon verlopen. De belangrijkste elementen
hiervan zijn de vrijwillige deelname van de studenten, de anonimiteit van de deelnemers t.o.v.
de onderzoekers, de grondige controle van de tijdschrijfformulieren en de continuïteit van het
onderzoek door motivatie en aanmaning.

Voor de examenperiode van september werd overgeschakeld naar de longitudinale tijd-
schrijfmethode. Dit gebeurt vooral om organisatorische redenen en omdat het aantal deelne-
mers voor deze periode uiteraard sterk verminderd was.

In Tabel 1 wordt een overzicht gegeven van het aantal deelnemers aan het begin van het
onderzoek tn van het aantal regelmatige deelnemers.

Hiervoor werd een beroep gedaan op de methode van de paarsgewijze vergelijking (Crombag
et al., 1973). Dit onderzoek werd uitgevoerd tijdens het academiejaar 1980-81 in de tweede
kandidatuur (2e jaar) burgerhjk ingenieur. De schattingen hebben dus betrekking op het jaar
1979-1980 van de eerste kandidatuur. De vragenlijst werd beantwoord door 158 studenten.
Alleen de gegevens betreffende de generatiestudenten werden verwerkt.

Bij de verwerking van de gegevens werden slechts de deelnemers die niet meer dan vijfmaal
hun formulieren verzuimden in te vullen, weerhouden (N = 152). Van deze studenten slaagde

2. Een uitvoerige beschrijving van dit organisatorisch kader kan door eenvoudige aanvraag bij de
auteurs bekomen worden.

49,3% in de eerste examenperiode, terwijl het globale slaagpercentage 45,5 bedroeg. Voor de
berekening van de studietijden werd een onderscheid gemaakt tussen geslaagden en niet-ge-
slaagden, zowel voor de eerste examenperiode (juli) als voor de tweede (september) (Gj, NGj,
Gs, NG,). Er werden studietijden berekend voor het totale programma, voor elk vak afzon-
derlijk, evenals voor elke studie-activiteit (hoorcolleges, oefeningen, zelfstudie). Ook werden
de berekeningen afzonderlijk uitgevoerd voor de verschillende perioden van het acade-
miejaar. Een overzicht van deze perioden wordt gegeven in Tabel 2.

Studiebelasting tot en met de eerste examenperiode
Verdeling van de studietijden over het academiejaar

ln Figuur 1 en 2 wordt de verdeling van de gemiddelde studiebelasting over het academiejaar
voorgesteld. Het blijkt dat de geslaagden in juli in 37 van de 39 weken meer tijd besteden aan
de studie dan de niet-geslaagden.'

Pieken worden vastgesteld vandel2e tot enmetdel7e week (proefexamens); de 27e en de
28e week (voorexamens); en van de 31e tot en met de 39e week (voorbereidingsperiode tot
de examens - waar geen lessen meer gegeven worden - en de eigenlijke examenperiode).
Vooral in de examenperioden zelf komen zeer hoge studietijden voor (± 60 uur bij de
proefexamens, ± 57 uur bij de voorexamens; ± 65 uur in juli-examenperiode). Na elke
examenperiode blijkt het oorspronkelijke studieritme na één of twee weken volledig hersteld
te zijn.

3- De aanduiding 'T' in de figuren betekent Tekenweken'. Dit zijn weken waarin de studenten geduren-
de 5 namiddagen van 14 uur tot 18.30 uur uitsluitend grafische oefeningen maken. Dit vormt een
zware belasting en heeft als dusdanig invloed op het studeerpatroon.

Deze resultaten worden weergegeven in Tabel 3 met bij elk getal tussen haakjes de stan-
daarddeviatie in procent van het gegeven getal. De gemiddelde studiebelasting voor de totale
groep bedraagt 1868 netto-uren (48 uur per week). Het verschil tussen geslaagden (1953
netto-uren - 50 uur per week) en niet-geslaagden (1786 netto-uren - 46 uur per week)
bedraagt 168 uren of 9,4%. Dit verschil is voornamelijk buiten de examenperioden te zien.
De globale studiebelasting voor geslaagden ligt iets hoger dan de facultaire norm van 1900
uren maar ligt beduidend hoger dan wat elders wordt aangegeven als maximale belasting:
1700 uren of minder (Crombag, de Gruijter, & Cohen 1981).

In Figuur 3 wordt de studiebelasting weergegeven voor de studenten die herkansen in
september. De cijfergegevens worden vermeld in Tabel 4. Herkansers studeren tijdens het
jaar (week 1 t/m 39) gevoelig minder dan zij die slagen in de eerste examenperiode. Uit Tabel
4 blijkt dat de studenten die slagen in de herkansing in 49 weken evenveel studeren als de
studenten die er niet in slagen. Globaal genomen studeren zij 157 uren of 8% meer dan zij die
slagen in de eerste examenperiode (2110 uren t.o.v. 1953 uren). Men kan zeggen dat deze
studenten de studies wel aankunnen maar langzamer werken of meer tijd nodig hebben: ze
presteren minder tijdens het academiejaar maar compenseren dit ruimschoots in de tweede
examenperiode.

Tabel 3 De totale belasting en de zelfstudiedjden bij geslaagden en niet-geslaagden (in de
eerste examenperiode) naargelang van de periode in het academiejaar.

ZELFSTUDIET'JD : TOTAAL (IN UREN)
Geslaagden juli(75)
-f Niet-geslaagden juli(77)

Merkwaardig is dat de studenten die niet slagen in de herkansing tijdens het jaar (C + Dj +
Dj) iets meer uren gewerkt hebben dan diegenen die wel slagen maar dat ze tijdens de eerste
examenperiode (B] + Bj) minder studeren. Dit laatste verschil kan bijna volledig gesitueerd
worden iade drie examenweken van juh (37-39), waar het van week tot week in omvang
toeneemt (Figuur 3). Eenzelfde trend vindt men terug in de tweede examenperiode. Vanaf
juU tot aan de herkansingsexamens studeren de niet-geslaagden (NGs) iets meer en in de
examenweken zelf een drietal uren per week minder. We zouden deze trend willen toeschrij-
ven aan het afhaken van zwakke studenten die weliswaar tijdens het jaar hebben gewerkt,
maar die tijdens de examenweken voelen dat ze het niet aankunnen en hun examens voor-
tijdig onderbreken.

Ook voor deze kleine groep (Tabel 1) werd een analoog studiebelastingsonderzoek gedaan.
Gezien het geringe aantal studenten dienen de resultaten met enige omzichtigheid behandeld
te worden. De verdeling van de studielast over het academiejaar is analoog met de algemene
richting. De totale studiebelasting ligt iets hoger (1915 uren t.o.v. 1868), wellicht te wijten aan
een grotere belasting door specifieke architectuurvakken.

Er werd onderzocht welke correlatie er bestaat tussen het aantal uren zelfstudie en het
behaalde percentage. Hiervoor werden lage waarden gevonden nl. 0,24.

Na het tijdschrijfonderzoek werd aan de studenten gevraagd hun eigen deelname hieraan te
evalueren. De grote meerderheid van de studenten (82,4%) beweert nauwkeurig te hebben
gewerkt bij het tijdschrijven, terwijl 13,3% hierover geen oordeel heeft. Iets meer dan de
helft van de studenten (56,3%) meent dat het tijdschrijven een zekere invloed had op het
studeren. Er werd niet nader onderzocht van welke aard deze invloed was. Ruim de helft van
de studenten (57%) vulde de formulieren dagelijks of meerdere malen per dag in, 30% enkele
malen per week en slechts 13% éénmaal per week. Bijna alle studenten (97%) deden dit na of
tijdens de betreffende studie-activiteit, en 3% ervoor. Deze laatsten blijken dus het formulier
te gebruiken voor hun studieplanning.

De resultaten van dit onderzoek zijn weergegeven in Tabel 5. De correlatie tussen de
resultaten die door de tijdschrijfmethode bekomen werden voor de geslaagde studenten en de
resultaten van de schattingsmethode bij een groep die als equivalent mag b'^schouwd worden
bedroeg 0,99. Het betrof immers studenten van de 2e kandidatuur die uiteraard in de Ie
kandidatuur geslaagd zijn. De afwijking per vak was gemiddeld 9%, voor 7 vakken was de
schatting te hoog en voor 3 vakken te laag. De onderzoeksresultaten hebben op de eerste
plaats een signaalfunctie: er kan met deze gegevens worden beoordeeld of de bij de pro-
grammatic uitdrukkelijk gehanteerde vuistregels al dan niet tot het gewenste effect leiden.

De studenten die slagen in juli besteden op jaarbasis (39 weken) meer tijd aan hun studies
(1953 uren) dan zij die in juli niet slagen (1785). Het verschil bedraagt gemiddeld 4,30 uren
per week; het blijkt zich vooral te situeren in de weken buiten de examens en de voorbereiding
daarop. Rechtstreekse correlaties tussen het aantal^ uren en het behaalde percentage zijn
miniem. Dit betekent dat het behaalde percentage vooral wordt bepaald door andere facto-
ren. Omwille van deze bedenking werd een aanvullende studie ondernomen betreffende
kwalitatieve aspecten van het studeergedrag en de door de betrokken studenten gehanteerde
studiestrategie. Het geheel van deze factoren laat dan wel toe zinvolle conclusies te trekken
aangaande de behaalde uitslag. (Henderikx, de Neve, Van Deynse, & Smet - in voorberei-
ding).

Voor alle studenten worden extreme belastingen vastgesteld tot geniiddeld 60 ä 65 uren per
week tijdens de examenweken. De globale studiebelasting blijkt binnen de grenzen te vallen
die destijds door de faculteit vooropgesteld werden. De studenten van de richting architectuur
blijken gemiddeld iets meer te studeren dan deze van de algemene richting. Het onderzoek
met de schattingsmethode leidde tot gelijkaardige resultaten: de correlatie tussen beide
reeksen studietijden bedroeg 0,99.

Beekhuizen, C, Halsema, J.M., & van der Sman, J.H.A. (1975/76). Studietijdmeting. In Onderwijs-
research en praktijk. Delft: Delftse Universitaire Press.

Civiele Techniek THD. 1(977). Nota tijdsbestedingsonderzoek 1975-1976. Delft: Civiele Techniek, TH
Delft.

Crombag, H.F.M., de Gruijter, D.N.M., & Cohen, M.J. (1981). Zeventienhonderd netto uren! Universi-
teit en Hogeschool, 27 348-363.

Crombag, H.F.M., Roskam, E.E.CH.I., & Meuwese W.A.T. (1973). Het meten van studiebelasting. In
Onderwijs in de maak. Utrecht: Het spectrum (Aula 508).

De Gruijter, D.N.M. (1981). De schatting van de studietijd door middel van matrix sampling. Tijdschrift
voor Onderwijsresearch 6, 209-216.

Everwijn, S.E.M. (1977). Studietijdmetingen: problemen en oplossingen. Tijdschrift voor Onderwijs-
research, 2, 181-185.

Everwijn, S.E.M., & Muggen, G. (1973). Methoden voor het meten van studietijd. In Onderwijs in de
maak. Utrecht: Het spectrum, (Aula 508).

Hendrikx, P., de Neve, H., Van Deynse, N., & Smet, M. (in voorbereiding). Studiebelasting, studiebele-
ving en studiestrategie in de eerste kandidatuur burgerlijk ingenieur. Correlatie met studiesuc-
ces.

Hermans, K.A.H. (1978). Studiebelastingeerste en tweede jaar rechten 1976-1977. Tilburg: Katholieke
Hogeschool Tilburg.

Scheikunde Technologie (1978). Evaluatie van het uniforme kernprogramma 1977-78. Delft: Scheikun-
dige Technologie, TH Delft.

Vermeer, E.H. (1978). Studietijdsbesteding eerste jaar tandheelkunde. Groningen 1977-1978. Gronin-
gen: Onderwijsontwikkeling Tandheelkunde Groningen.

Een oud probleem in de psychometrie is de bepaling van een schatter van de popula-
tiecorrelatiecoëfficiënt Q^y tussen een predictorvariabele jc en een criteriumvariabele}', uit de
geobserveerde 'range restricted' correlatie Stel personen worden geselecteerd op basis van
uitsluitend hun score op x, en stel dat vervolgens hun score op y wordt waargenomen.
Wanneer de selectie 'totaal' is, dat wil zeggen wanneer alle personen met een score groter dan
of gelijk aan een kritieke grens at^ opjr worden geselecteerd (en de andere worden afgewezen)
kan een schatter R^y verkregen worden volgens

(Pearson, 1903). S^ ens^^ zijn respectievelijk de standaarddeviatie van* in de totale groep en
in de geselecteerde groep. Formule (1) kan in een aantal standaardteksten gevonden worden,
bijvoorbeeld Thorndike (1949, p. 173), Guilford (1965, p. 343), Lord en Novick (1968,
p. 143), en ze wordt in vrijwel elke praktische validiteitsstudie toegepast.

Formule. (1) kan afgeleid worden uit de volgende twee aannames (Lord & Novick, 1968,
p. 140-144):

- de ruwe regressiecoëffficiënt by, wordt niet beïnvloed door 'restriction of range' (lineari-
teit);

- de residuele variantie s^, wordt niet beïnvloed door 'restriction of range' (homoscedastici-
teit).

Uit aannames (2) en (3) kan niet alleen correctieformule (1), maar ook een andere cor-
rectieformule voor 'restriction of range' afgeleid worden. Aanname (2) kan herschreven
worden als

Vergelijking (6) definieert een schatter R^y van de oorspronkelijke correlatie g^y in termen
van uitsluitend de geselecteerde ('restricted') en totale, ongeselecteerde ('unrestricted')
varianties van x en y.

Formule (6) geeft de nieuwe correctieformule, afgeleid uit de 'oude' assumpties lineariteit en
homoscedasticiteit. Dat (6) een zinvolle correctie is, kan als volgt ingezien worden.

Stel = 0. Dan heeft selectie op basis vanjc geen invloed opy, zodat sJ = Sj. Toepassing
van (6) levert dan de correcte schatting R^y = O voor de ongeselecteerde correlatie.

Stel nu e^^ = 1. Dan zal sj gelijk zijn aan if als de originele, ongeselecteerde varianties van x
eny gelijk zijn. Stel dat laatste is het geval. Dan levert toepassing van (6) de correcte schatting
R^y = i. (de oplossing R^y = -1 is in strijd meti? = sj).
Wanneer (6) herschreven wordt als

dan bhjkt de volgens (6) berekende correctie R^y gehjk te zijn aan de verhouding tussen de
mate van 'non-truncation' van de criteriumvariantie en de mate van 'non-truncation' van de
predictorvariantie. Aangezien echter (6) equivalent is met de traditionele correctieformule

(1) als de basisassumpties (2) en (3) geldig zijn, kan het kwadraat van de traditionele correctie
voor 'restriction of range' eveneens geïnterpreteerd worden als de verhouding tussen de
'non-truncation' van de varianties van het criterium en de predictor. Op deze wijze blijkt de
afleiding van (6) aanleiding te geven tot een inzichtelijke interpretatie van de traditionele
correctieformule (1).

Formule (1) is van toepassing alsr^j,, en5| bekend zijn, terwijl formule (6) geschikt is voor
situaties waarin kennis voorhanden is over de varianties s?, Sj en sj. Om r„y te berekenen
dientij bekend te zijn. Derhalve wordt de beslissing over het gebruik van formules (1) en (6)
uitsluitend bepaald door de beschikbaarheid van de ongeselecteerde criteriumvariantie Sj of
de geselecteerde covariantie

Stel sl en sj zijn bekend. Dan kan een schatting van de ongeselecteerde correlatie
berekend worden ofwel door^^^ te observeren (pas (1) toe), ofwel door te observeren (pas
(6) toe). Voor wat betreft de berekening van deze correlatie zijn Sj en s^y dus even informatief.
Dat is uiteraard het gevolg van aannames (2) en (3), waarop zowel (1) als (6) berusten.

Correctieformule (6) heeft dus theoretisch interessante implicaties. Een meer uitgebreide
theoretische studie van (6) in relatie tot (Ij vindt men in Jansen (1983a). Uiteraard zal in de
meeste selectiesituaties Sj onbekend zijn. Dat correctieformule (6) nochtans praktische
implicaties kan hebben wordt uiteengezet in Jansen (1983b).

Guilford, J.P. (1965). Fundamental statistics in psychology and education. New York: Mc Graw-Hill.

Jansen, P.G.W. (1983a). Corrections for restriction of range: A new formula and some implications.
Intern Rapport. 's-Gravenhage: Rijks Psychologische Dienst.

Jansen, P.G.W. (1983b). Correction for restriction of range: A new formula from old assumptions. Intern
Rapport. 's-Gravenhage: Rijks Psychologische Dienst.

Lord, F.M., & Novick. M.R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-
Wesley.

Pearson, K. (1903). Mathematical contributions to the theory of evolution. XI: On the influence of
natural selection in the variability and correlation of organs. Transactions of the Royal Society
(series A), 200, 1-66.

H. G. Schmidt, M. L. de Volder, W. H. Gijselaers en L. M. M. Kerkhofs
Capaciteitsgroep Onderwijsontwikkeling en Onderwijsresearch, Rijksuniversiteit
Limburg

De laatste jaren is er in het onderzoek naar de verwerking van teksten een toenemende
interesse waar te nemen voor de rol die voorkennis speelt bij het verwerven van nieuwe
informade (Anderson, Spiro, & Anderson, 1978; Mayer, 1980; zie echter ook Ausubel,
1963). Kennis die mensen al hebben over een bepaald onderwerp oefent een niet onaan-
zienlijke invloed uit op de mate waarin nieuwe informade begrepen, opgeslagen en uit het
lange-termijn geheugen teruggehaald kan worden. Het cognitieve mechanisme dat aan dit
verschijnsel ten grondslag ligt is niet precies bekend. Er zijn aanwijzingen dat de toegan-
kelijkheid van de voorkennis tijdens het leerproces daarbij een cruciale rol speelt (Schmidt,
1982; Spilich, Vesonder, Chiesi, & Voss, 1979).

Dat voorkennis een potentieel belangrijke onderwijsvariabele hjkt te zijn, blijkt ook uit
onderzoek van Weeda (1982). Hij vond dat kennis, gemeten voorafgaande aan een cursus
Frans, over de condities van zijn experiment heen gemiddeld ongeveer 50% van de variande
in de scores op een natoets verklaarde.

Men kan zich uiteraard afvragen of de resultaten waarnaar hierboven gerefereerd wordt,
niet typische laboratoriumfenomenen representeren die in de werkelijke onderwijssituatie
niet kunnen worden teruggevonden. Een eerste aanwijzing dat dat niet zonder meer het geval
zou hoeven te zijn verschaft een onderzoek van Crombag (1981). Aan de faculteit der
Rechtsgeleerdheid aan de Leidse universiteit werd enige jaren geleden een nieuw curriculum
ingevoerd, waarbij verschillende cursussen naar eerdere studiejaren verplaatst werden. Zo
werd een tweedejaars cursus Staatkunde naar de propedeuse verplaatst en een cursus Burger-
lijk Recht van het derde naar het tweede jaar. Crombag constateerde dat een dergelijke - op
het eerste gezicht eenvoudige - verschuiving aanzienlijke consequendes heeft voor het
percentage geslaagden bij zo'n cursus. Het percentage geslaagden daalde met gemiddeld
genomen ongeveer 14% na verplaatsing van een cursus naar een eerder studiejaar, hoewel
onderwijs, tentamens en toegepaste zak-slaag-normen ongewijzigd gebleven waren.

Het is verleidelijk dit verschijnsel toe te schrijven aan de rol die voorkennis speelt in het
leerproces. Immers, men zou als volgt kunnen redeneren: het wel of niet bestuderen van de
leerstof van bijv. vakken A en B voorafgaand aan de leerstof van een (aan A en B gerelateerd)
criteriumvak C, beïnvloedt het gemak waarmee de leerstof van C verwerkt kan worden. De
leerstof van C wordt in die redenering makkelijker verwerkbaar naarmate C later in de studie
geplaatst wordt, of moeilijker naarmate C eerder in de studie geplaatst wordt. Dit fenomeen
zou dan Crombag's vondst kunnen verklaren.

Helaas zijn er in dit geval concurrerende verklaringen voor het verschijnsel. Crombag zelf
noemt o.a. het effect van selectie die in onderwijsprogramma's plaatsvindt, en die de gemid-
delde prestaties zou opdrijven omdat alleen de goede studenten overblijven.

De Voider en Schmidt (1982) rapporteren een verschijnsel dat vergelijkbaar is met dat van
Crombag. In studieresultaten van studenten aan de medische faculteit in Maastricht vonden
zij een statistisch significante product-moment correlatiecoëfficiënt van 0,35 tussen ten-
tamencijfer en studiejaar. Dat wil zeggen dat ouderejaars studenten over het algemeen betere
studieprestaties leverden dan jongerejaars studenten. Toenemende voorkennis die de bestu-
dering van leerstof vergemakkelijkt naarmate de studie vordert zou ook hier aangewezen
kunnen worden als causaal agens, ware het niet dat ook hier concurrerende verklaringen een
dergelijke conclusie in de weg staan. Men kan daarbij denken aan verschillen in motivatie;
met leeftijd samenhangende verschillen in competentie, enzovoorts. (Selectie hoort in dit
rijtje overigens niet thuis. Die is aan de medische faculteit in Maastricht beperkt. Wijnen
(1982) noemt uitvalpercentages van 2 tot 10 over een periode van 6 jaar, met een slechts
geringe studievertraging).

Daarbij komt nog dat de positieve samenhang tussen studieprestatie en studiejaar een
artefact zou kunnen zijn van de bij de vaststelling van de studieprestatie gebruikte scorings-
procedure. De gegevens gebruikt door De Volder en Schmidt waren zogenaamde percentuele
goed-min-fout-scores. Deze scores worden verkregen door voor iedere student op elke toets
het percentage foute antwoorden af te trekken van het percentage goede antwoorden. (Daar
studenten in de gelegenheid gesteld worden met een vraagteken te antwoorden als zij het
juiste antwoord niet weten, wordt deze wijze van berekening van de totaalscore beschouwd
als een methode om raden te ontmoedigen.) De gevonden relatie tussen studiejaar en
studieprestatie zou dus ook verklaard kunnen worden uit een zich wijzigende antwoordstrate-
gie van studenten.

Het doel van het onderzoek dat in deze bijdrage beschreven wordt was tweeledig. In de
eerste plaats werd nagegaan in hoeverre het verschijnsel dat De Volder en Schmidt (1982)
vonden in de voor fouten gecorrigeerde toetsresultaten ook in ongecorrigeerde data gevon-
den kan worden. Daartoe werden studieresultaten uit twee academische jaren nader geana-
lyseerd. In de tweede plaats werd nagegaan in hoeverre toenemende voorkennis van de
lerende een rol zou kunnen spelen bij de verklaring van het verschijnsel. Daartoe werden
voorkennisgegevens verzameld, die met studieprestaties in verband werden gebracht.

Studietoetsgegevens werden verzameld uit twee academische jaren: het studiejaar 1980-1981
en 1981-1982. Het ging in beide dataverzamelingen om gegevens uit de eerste vier jaren van
de medische studie aan de R.U. Limburg. In elk studiejaar werd gedurende een aantal
blokken van 6 weken in kleine groepen aan een bepaald thema gewerkt, zoals 'atherosclero-
se', 'de oudere mens' of 'bloedverlies'.

Na afloop van elk blok werd een toets afgenomen. Deze toetsen bestonden zonder uitzon-
dering uit items met drie keuzealternatieven: 'juist', 'onjuist' en 'vraagteken'. Studenten
werden aangemoedigd steeds van het vraagteken gebruik te maken als ze het antwoord op een
item niet wisten. De resultaten behaald op deze toetsen hadden geen consequenties voor de
studenten in termen van slagen of zakken; ze werden deels anoniem afgenomen; men kan ze
als formatief bestempelen. Het gemiddelde aantal items per toets was in het academisch jaar
1980-1981 150, met een range van 64-200. De mediaan-betrouwbaarheid van de toetsen was
gelijk aan 0,82. De minimumbetrouwbaarheid was gelijk aan 0,74. Niet van alle toetsen
waren betrouwbaarheidsgegevens beschikbaar. De gegevens over 1981-1982 wijken hier
nauwelijks van af.

In totaal werden van het academiejaar 1980-1981 18 bloktoetsen in de analyse betrokken:
6 uit het eerste studiejaar, 5 uit het tweede jaar, 4 uit het derde jaar en 3 uit het vierde jaar.
Het aantal bloktoetsen loopt per studiejaar iets terug omdat het aantal perioden dat studenten
keuzeonderwijs volgen elk jaar toeneemt. Van één blok waren de gegevens niet beschikbaar.
Van het studiejaar 1981 1982 werd 17 toetsen in de analyse betrokken.

De aantallen studenten die aan de toetsen deelnamen varieerden elke keer slechts in
geringe mate (deelname was verplicht).

Per toets werden goed-scores en goed-min-fout-scores getransformeerd in percentuele
scores om vergelijking tussen toetsen mogelijk te maken. Omdat studenten gedurende een
blok in kleine - aselect samengestelde - onderwijsgroepen van 8 a 10 personen min of meer
intensief met elkaar samenwerken, mag niet worden aangenomen dat hun bloktoetsscores
onafhankelijk van elkaar tot stand gekomen zijn. Daarom werden voor elke onderwijsgroep
gemiddelde percentuele toetsscores berekend. Verdere analyses werden steeds op deze
groepsgemiddelden uitgevoerd. Het totale aantal onderwijsgroepen dat in de analyses be-
trokken was, bedroeg voor het academisch jaar 1980-1981 136 en voor 1981-1982 206.

Voorkennis werd als volgt geoperationaliseerd: in een standaardvragenlijst die gedurende
het academisch jaar 1981-1982 tijdens elk blok aan alle studenten werd voorgelegd werd het
volgende item opgenomen: 'Het blok sloot aan bij mijn voorkennis'. Studenten konden op
een 5-puntsschaal aangeven in hoeverre ze het met deze uitspraak eens dan wel oneens waren.
Deze wijze van operationaliseren van voorkennis sluit aan bij Lodewijks (1981), die vond dat
subjectieve oordelen die iemand over de te leren stof heeft betere voorspellingen opleveren
van prestaties dan feitelijk gemeten voorkennis.

De hoeveelheid studie die studenten achter de rug hadden op het moment dat een toets
werd afgenomen - hun studie vordering - werd uitgedrukt in het aantal onderwijsblokken van
6 weken dat zij op dat moment doorlopen hadden. Deze operationalisatie is wat verfijnder
dan die welke De Volder en Schmidt (1982) toepasten, zij namen studieyaar als indicator voor
studievordering. Tussen de verschillende variabelen werden correlaties berekend.

Doel van het onderzoek was tweeledig: na te gaan in hoeverre het eerder gevonden positieve
verband tussen studieprestatie en studievordering zich repliceert in latere cohorten en onder
een andere scoringswijze, en na te gaan in hoeverre toenemende voorkennis een rol zou
kunnen spelen bij de verklaring van dit verschijnsel.

De product-moment correlatie tussen studieprestatie en studievordering was voor het
academiejaar 1980-1981 gelijk aan 0,41 en voor het daarop volgende jaar gelijk aan 0,48
(studieprestatie uitgedrukt in % goede antwoorden). Bij operationalisering van studiepresta-
tie in termen van % goed-min-fout was de correlatie tussen beide variabelen voor beide
academiejaren gelijk aan respectievelijk 0,25 en 0,32. Deze correlaties verschillen alle
significant van nul (p<0,001). In figuur 1 zijn een puntenwolk en regressiefuncties ingete-
kend.

1. Het positieve verband tussen studievordering en studieprestatie dat door De Volder en
Schmidt (1982) met betrekking tot het academiejaar 1979-1980 gerapporteerd werd,
blijkt in volgende academiejaren eveneens gevonden te worden. Het tijdstip in de studie
waarop de toets wordt afgenomen verklaart tussen de 17 en 23% van de variantie in

Figuur 1 Puntenwolk van studievordering en toetsresultaat (uitgedrukt in %-goede antwoorden) voor
het academiejaar 1981-1982. Regressiefuncties voor twee academiejaren.

studieprestatie (uitgedrukt in %-goede antwoorden). De stabiliteit van het verschijnsel is
opmerkehjk omdat in de periode 1979-1982 de volgorde waarin blokken aangeboden
werden in een aantal gevallen gewijzigd werd. Een blok werd van het vierde naar het derde
studiejaar verplaatst en één blok werd door een nieuw vervangen. Blijkbaar tasten
dergehjke fluctuaties in het onderwijsprogramma de conclusie niet aan dat studenten
betere prestaties gaan leveren naarmate zij vorderen in hun studie*.

2. De onder 1 geformuleerde conclusie betreffende het verband tussen studievordering en
prestatie geldt, min of meer onafhankelijk van de scoringswijze, die gebruikt werd voor de
berekening van toetsresultaten. Studievordering correleert zowel positief met %-goed-
scores als met %-goed-min-fout-scores. Overigens verschillen de correlaties voor %-goed

Strikt genomen laten transversale data als de hier gepresenteerde een dergelijke conclusie niet toe.
Immers: verschillen tussen jaargroepen zouden ook verklaard kunnen worden door aan te nemen dat
die verschillen al bestonden op het moment dat deze groepen met hun studie aanvingen. Inspectie van
de gegevens vanuit een longitudinaal perspectief laat echter zien dat de conclusie gerechtvaardigd blijft
dat studieprestaties toenemen in functie van de studievordering van studenten.

en %-goed-min-fout-scores wel van elkaar. De laatste zijn significant lager (p<0,05). Wat
daar de verklaring voor zou kunnen zijn, is vooralsnog onduidelijk. Misschien neutrali-
seert de scoringsprocedure deels het verband tussen beide variabelen door bij te dragen
aan de fouten-variantie. Dit laatste zou het gevolg kunnen zijn van het feit dat scoringspro-
cedures als de gebr-.lkie vaak de betrouwbaarheid van een toets verlagen. Vastgesteld
moet echter worden dat het door De Volder en Schmidt (1982) gevonden posideve
verband niet als een artefact van de gevolgde scoringsprocedure beschouwd kan worden.

De tweede vraag waarop een antwoord gezocht werd, was in hoeverre toenemende voorken-
nis een rol speelt bij het tot stand komen van het onderhavig verschijnsel. Daartoe zijn, voor
het academiejaar 1981-1982, correlades berekend tussen voorkennis, geoperationahseerd op
de in de proceduresecde beschreven wijze, en studieprestaties. Deze correlaties zijn gelijk aan
0,44 en 0,40 (wanneer men studieprestatie operationaliseert als % goed-fout), p<0,001.

Uit de gegevens kan worden afgeleid dat voorkennis ongeveer 20% van de variantie in
studieprestaties verklaart. Dat is wat minder dan wat in laboratoriumstudies gevonden werd
(Weeda, 1982; Bloom, 1976); het is echter niet uitgesloten dat dat het gevolg is van het feit
dat voorkennis op indirecte wijze gemeten werd, en dat de condities waaronder gemeten werd
niet optimaal waren voor het minimaliseren van error-varianties.

Uit het feit dat verschillen in voorkennis een niet onaanzienhjk deel van de verschillen in
studieprestaties verklaren mag uiteraard niet zonder meer afgeleid worden dat daarmee ook
de stijging in studieprestaties over de jaren heen verklaard is.

De vraag in hoeverre toenemende voorkennis een rol speelt bij de stijging van studiepres-
taties over de jaren heen kan echter onderzocht worden met behulp van multipele regres-
sieanalyse of een daarmee samenhangende techniek als partiële correlade. Men moet daarbij
als volgt redeneren: als de correlatie tussen studieprestaties en studievordering daalt, wanneer
de voorkennisvariabele is uitgepartialiseerd, dan is dat een aanwijzing dat toenemende
voorkennis een rol speelt bij de stijging in studieprestaties naarmate de studie vordert. Daalt
die correlatie niet na uitpartialisering van voorkennis, dan spelen andere factoren bij de
geconstateerde stijging een rol.

Om dit uit te zoeken werd een partiële correlatiecoëfficiënt tussen studievordering en
studieprestatie berekend. Deze correlatie was gelijk aan 0,25 bij gebruik van %-goed-scores,
en aan 0,22 bij gebruik van %-goed-min-fout-scores. Deze correlaties zijn significant lager
dan de niet-partiële correlaties (p<0,05); verschillen echter nog steeds significant van nul
(p<0,01). Uit dit resultaat kan worden afgeleid dat toenemende voorkennis een deel van de
stijging in studieprestaties over de jaren heen verklaart, maar dat die stijging voor een deel
ook het resultaat is van de werkzaamheid van andere variabelen die geen object van onder-
zoek geweest zijn.

Uiteraard mag men op grond van correlatiepatronen tussen variabelen niet zonder meer
besluiten tot causale verbanden tussen constructen. Niettemin lijken de hier gepresenteerde
gegevens op z'n minst enige ondersteuning te geven aan de in de inleiding geformuleerde
Veronderstelling dat studenten naarmate de studie vordert, bij het bestuderen van nieuwe
leerstof in steeds sterkere mate profiteren van kennis opgedaan eerder in de studie. Het zou
interessant zijn na te gaan of het geconstateerde verschijnsel ook optreedt in andere curricula
dan het hier onderzochte.

Anderson, R.C., R.J. Spiro, & M.C. Anderson (1978). Schemata as scaffolding for the representation of
information in connected discourse. American Educational Research Journal, 15, 433-440.

Ausubel, D.P. (1963). The psychology of meaningful verbal learning. New York: Grune and Stratton.

Crombag, H.F.M. (1981). Studiejaar en tentamenresultaat. Tijdschrift voor Onderwijsresearch, 6, 247-
248.

Lodewijks, J.G.L.C. (1981). Leerstofsequenties. Academisch proefschrift. Tilburg.

Mayer, R.E. (1980). Elaboration techniques that increase the meaningfulness of technical text: an
experimental test of the learning strategy hypothesis. Journal of Educational Psychology, 72,
770-784.

Schmidt, H.G. {19S2). Activatie van voorkennis, intrinsieke motivatie en de verwerking van tekst. Acade-
misch proefschrift. Apeldoorn: Van Walraven.

Spilich, G.J., G.T. Vesonder, H.L. Chiesi, & J.F. Voss (1979). Text processing of domain-related
information for individuals with high and low domain knowledge. Journal of Verbal Learning
and Verbal Behavior, 18, 275-291.

Voider, M.L. de, & H.G. Schmidt (1982). Tutor: procesbegeleider of inhoudsdeskundige? In H.G.
Schmidt (red.). Probleemgestuurd Onderwijs. Stichting voor Onderzoek van het Onderwijs.
Harlingen: Flevodruk.

Weeda, W.C. (1982). Beheersingsleren: het model getoetst in de tijd. Academisch proefschrift. Tilburg.

Wijnen, W.H.F.W. (1982). Toespraak gehouden bij de rectoraatsoverdracht. Maastricht.

Beheersingsleren: het model getoetst in de tijd.
Proefschrift Katholieke Hogeschool Tilburg, oktober 1982

De titel van dit boek moet niet misverstaan worden. De argeloze lezer die denkt dat de schrijver gekeken
heeft of beheersingsleren of mastery learning ook blijft werken op den langen duur vergist zich. Weeda
heeft onderzocht of het model van bioom, besciireven in diens boek 'Human Characteristics and School
Learning' van 1976, ook nog werkt als je alle leerlingen evenveel leertijd toedeelt.

In het model van Bloom staat de kwaliteit van de instructie centraal. Bloom beperkt zich tot het
opnoemen van vier eenvoudige kenmerken waaraan de kwaliteit van de instructie kan worden afgemeten.
Het gaat volgens hem om (i) CUES: de wijze waarop de leraar of boekjesschrijver duidelijk maakt wat en
hoe er geleerd moet worden, (ii) PARTICIPATION: het actief deel nemen van de leerling aan het
leerproces, (iii) REINFORCEMENT: belonen of bekrachtigen van het juiste gedrag, en (iv) FEED-
BACK AND CORRECTIVES: informatie over gemaakte fouten en hulp bij het beter leren. Het
prescriptieve deel van Blooms theorie, welk deel door hem is aangeduid als de strategie van beheersings-
leren, is gebaseerd op de overtuiging dat maximalisering van de kwaliteit van de instructie door middel
van beheersingsleren leidt tot verhoging van de waarden van de drie door hem relevant geachte
leeruitkomsten: cognitief eindgedrag, affectief eindgedrag en leertempo.

Weeda geeft in zijn voortreffelijk vormgegeven boek van ruim 200 bladzijden een beschrijving van twee
experimentele en geïndividualiseerde cursussen Frans, die hij zelf - zo blijkt pas in de loop van zijn
Verslag - heeft opgezet en uitgevoerd. In die cursussen werd de beheersingslerenstrategie toegepast.
Volgens de opvattingen van Bloom zou dit betekenen dat aan de leerling die op een tussentijdse toets
kennelijk onvoldoende scoort, 'extra tijd en hulp' wordt verschaft. Weeda doet echter meer, want hij
probeert de kwaliteit van de instructie nog te verbeteren door het verschaffen van cues in de vorm van
studievragen. In de controlecursussen met dezelfde inhoud en dezelfde soort cursisten worden geen
feedback en correctives gegeven, maar die controlecursussen waren wèl geïndividualiseerd.

Ongeveer de helft van het boek bestaat uit de beschrijving van de twee experimenten en de uitkomsten
daarvan. Wat mij betreft had het daarbij kunnen blijven, maar de Nederlandse traditie in de sociale
wetenschappen eist ook nog een uitvoerige theoretische verhandeling. In de meeste gevallen levert zo'n
verhandeling voor de collega onderzoekers weinig meer op dan verveling en ergernis. Kwaliteit en
omvang vallen bij Weeda nog mee. Dat neemt niet weg dat het psychometrische hoofdstuk wel gedeci-
meerd had mogen worden en de verhandeling aan het begin alsmede de discussie aan het eind een nogal
pretentieuse indruk maken. Het serieuse advies van de auteur om het model van Bloom bij te stellen hoeft
ook niet van vandaag op morgen opgevolgd te worden, lijkt mij zo.

Weeda heeft twee experimenten gedaan, het eerste vooral om te kijken of de strategie van beheersings-
leren wel werkt en het tweede vooral om meer te weten te komen over de manier waarop beheersings-
leren tot goede resultaten leidt.

In het eerste experiment werden zo'n 80 studenten ad random toegewezen aan vier condities, twee
beheersingsleren condities en twee nonmastery condities. Het ging, in beide experimenten, om een
Pranse cursus en wel om een aantal grammaticalessen. Correctiva bestonden in beide experimenten uit
herhaling. In het eerste experiment werd de kwaliteit van de instructie gevarieerd door 'feedback en
correctives' op twee manieren te geven, hetzij door partiële herhaling met behulp van een schema hetzij
door totale herhaling van de eerder aangeboden leerstof. In de nonmastery condities werd de feedback in
de ene conditie wel en in de andere niet gegeven. Cognitief begingedrag en affectief begingedrag werden
gemeten, leerresultaten werden gemeten met vier summatieve toetsen en de affectieve resultaten werden

op dezelfde manier als affectief begingedrag gemeten, met een attitudeschaal. De leertijd (en dus in
zekere zin het tempo) werd nauwkeurig geregistreerd.

Het tweede experiment was qua omvang, leerstof en studenten vergelijkbaar met het eerste. Hier
waren echter de deelnemende studenten in een groep met laag cognitief begingedrag en een groep met
hoog cognitief begingedrag opgesplitst. Elk van de twee groepen werd toegewezen aan drie varianten van
de correctieve procedure (partiële of totale herhaling en een mengvorm waar bij moeilijke taken totale
herhaling en bij gemakkelijke taken partiële herhaling werd aangeboden).

Wat zijn nu dc onderzoeksresultaten van deze twee zorgvuldig opgezette experimenten? Om het wel
zeer grote aantal berekeningen uit het boek op subjectieve wijze kort te sluiten:

(i) cognitief begingedrag verklaart in de mastery condities minder variantie in leeruitkomsten dan in
de nonmastery;

(iii) de kwaliteit van de instructie verklaart ongeveer 8% van de variantie in cognitieve en 0% in
affectieve uitkomsten;

(iv) De varianten in de condities hebben geen of geen differentieel effect op de leeruitkomsten.

Je zou kunnen zeggen dat de experimenten aantonen dat de strategie werkt wat de cognitieve aspecten

betreft en dat verfijningen in de opzet geen effect sorteren. Dat is ook ongeveer de conclusie van Weeda,
hoewel hij zelf nogal nadrukkelijk wijst op het verschil in grootte tussen de gevonden verklaarde variantie
in uitkomsten en de door Bloom voorspelde percentages van 25%.

Laat ik in mijn evaluatie onderscheid maken tussen het boek zelf en het onderzoek waarover verslag
wordt uitgebracht.

Drie uitspraken over het boek. (i) Het boek is te dik. Ik realiseer me wel dat het dunner is dan vele
andere Nederlandse onderwijskundige dissertaties, maar déér staat dan óók teveel in. (ii) Het boek is niet
gemakkelijk te lezen. De onderzoeker presenteert zijn voortreffelijke onderzoek allerminst voortreffe-
lijk. Het duurt te lang voor de lezer weet wat er precies gebeurd is. In de hoofdstukken 7 en 8 waar de
experimenten worden beschreven mis je aanduidingen, bijv. tussenkopjes die je wijzen waar 'probleem-
stelling', 'design', 'proefpersonen', 'hypothesen', 'instrumenten' te vinden zijn. De relatie tussen de in
hoofdstuk 4 op p. 61, 62 gegeven hypothesen en de 'vraagsteUingen' op p. 105 wordt niet uitgelegd. Dat
de onderzoeker zelf de leraar of manager van deze 'leraarloze' Franse cursus was, blijkt pas halverwege
het boek en tot die tijd blijft de lezer in het ongewisse over dit aspect aan de cursusopzet. (iii) Het boek
ziet er mooi uit: aan vormgeving, lay-out en drukproeven moet alle aandacht zijn besteed. Samengevat:
het boek is dik, mooi en niet erg toegankelijk. Nu het onderzoek.

Het is moeilijk een waardeoordeel uit te spreken. Onderwijskundig onderzoek in Nederland is in zijn
vraagstellingen, opzet en uitvoering, net als elders, nog sterk bepaald door methoden en technieken van
'de disciplines' om ze zo maar aan te duiden. Ik heb op voorhand mijn twijfels of de experimentele design
van de psychologie, uit oogpunt van externe validiteit, wel geschikt is om toe te passen bij het toetsen van
een instructiemodel voor het leren op school.

Welnu, als ik even gezegd mag hebben dat ik de experimentele opzet van Weeda teveel een psycholo-
genopzet met bijbehorende bescheiden externe validiteit en te weinig een opzet voor een onderwijs-
researcher vindt, dan kan ik vervolgens overgaan tot de orde van de dag. En die orde is, dat hier twee
experimenten zijn gedaan met een uitgekiend design, een voortreffeUjke instrumentatie, en een verant-
woorde data-analyse.

Er is maar één ding dat ik niet begrijp in zijn hypothesevorming en analyse en dat is die kwestie van die
'tijd'. Om voor mij niet overtuigende redenen heeft hij ook de tijdsbesteding van de studenten willen
uitschakelen, terwijl in het model van Bloom de tijd juist zo essentieel is. voor de kwaliteit van de
instructie. Beheersingsleren bestaat toch uit het op de juiste plaats verstrekken van extra hulp en extra
tijd? Als je, zoals Weeda gedaan heeft, in je design die extra hulp al een beetje hebt ontkracht door ook de
nonmastery cursussen te individualiseren en je gaat daar bovenop nog eens corrigeren voor de extra tijd
die de mastery-studenten nodig hebben, dan hoef je volgens mij ook niet meer te rekenen op veel
verklaarde variantie. Het blijkt bij Weeda ruim een procent te zijn. Nou ja, 't is nog meegenomen.

Binomiale modellen zijn een voortdurende bron van discussie in de wereld van de testleer. Zij paren een
grote mathematische hanteerbaarheid aan door velen als irreëel bestempelde veronderstellingen. Met
name de opvatting, als zou een binomiaal model dezelfde moeilijkheidsgraad voor alle items eisen, stuit
velen tegen de borst. Van den Brink, wiens gehele proefschrift een pleidooi is voor eenvoud en
helderheid, neemt de niet geringe taak op zijn schouders aan te tonen dat men heel goed leven kan met
een helder en eenvoudig binomiaal model zonder knellende en onhoudbare veronderstellingen. Dat
daarbij enige modellen het loodje leggen, blijkt uit de spanningsboog tussen de titel van het proefschrift
en de laatste zin: 'De conclusie lijkt gerechtvaardigd dat het itemsteekproefmodel zijn plaats in de testleer
verdient' (p. 115).

De weg van modellen naar model wordt afgelegd in het tweede hoofdstuk van het proefschrift. Dat kan
men beschouwen als het middelste en belangrijkste tafereel van een drieluik. Het linker tableau, het
eerste hoofdstuk, schetst de context waarin binomiale modellen figureren. Het rechter luik bevat de
overige hoofdstukken. Daarin wordt het itemsteekproefmodel toegepast op enige praktische en theore-
tische problemen.

Het eerste hoofdstuk geeft een beeld van criterium-georiënteerd meten. Deze vorm van meten is de
laatste twintig jaar erg populair geworden. Men spreekt van criterium-georiënteerd meten als elke meting
wordt vergeleken met een - liefst van te voren gespecificeerd - criterium. De waardering die een meting
of toetsscore krijgt, hangt niet af van andere metingen of scores. Er zijn verschillende manieren waarop
men deze vorm van meten kan inkleden. Een van die manieren - en die wordt door Van den Brink verder
alleen nog maar toegepast - heet: domein-georiënteerd meten. De te meten vaardigheid of kennisinhoud
wordt vastgesteld door een grote verzameling items: het domein. Een toets verkrijgt men door op de een
of andere wijze een steekproef van items uit het domein te trekken. Het aantal goed beantwoorde items
uit de toets, de toetsscore, leidt dan tot conclusies omtrent het werkelijke kennis- of vaardigheidsniveau.

Het verband tussen een toetsscore en de grootheid die men wil kennen wordt gegeven in een
meetmodel. Voor een toets die bestaat uit aselect getrokken items hanteert men vaak de binomiale
kansverdeling. 'Met behulp van dit model kan men op eenvoudige, zuinige en transparante wijze tal van
testtheoretische problemen oplossen' (p. 3).

Zoals gezegd, wordt bij criterium-georiënteerd meten de toetsscore (beter gezegd, de via het meetmo-
del geschatte grootheid) met een criterium vergeleken. Zo'n vergelijking heeft alleen maar zin als hij
uitmondt in een waardering van de (geschatte) geleverde prestatie. In de praktijk komt zo'n waardering
doorgaans neer op het verlenen van een van de predikaten: voldoende en onvoldoende. De beoordelende
instantie moet voor elke examinandus (kandidaat, student, leerling) beslissen welk predikaat hij toekent.
Aangezien het werkelijke kunnen, de werkelijke kennis niet bekend maar geschat is, kunnen er onjuiste
beslissingen genomen worden. De besliskunde verschaft het instrumentarium om beslissingen zo te
nemen dat de gevolgen van onjuiste beslissingen zo klein mogelijk zijn. In technische termen spreekt men
van het minimaliseren van het verwachte verlies of het risico. Dat risico kan men op twee manieren
opvatten. Een daarvan wordt door Van den Brink het institutionele standpunt genoemd. Men moet voor
een groep studenten een beslissing nemen, en doet dat zo dat het over studenten heen gemiddelde verlies
zo klein mogelijk is. De andere opvatting, het individuele standpunt, houdt het volgende in: 'Het risico
voor een willekeurige individuele examinandus wordt hierbij onder controle gehouden door aan de
kansen om ten onrechte te slagen dan wel ten onrechte te zakken een maximum op te leggen' (p. 5).

Van den Brink verwerpt het institutionele standpunt. Want om het over alle studenten heen gemiddel-
de verlies te minimaliseren, moet men beschikken over de verdeling van de werkelijke vaardigheids- of
kennisniveaus van de studenten. Die verdehng is echter niet bekend; men schat hem daarom uit de
Verdeling van de toetsscores. Daardoor wordt de uitkomst van de beslissingsprocedure van die toetsscores
afhankelijk, en weten de studenten pas na de toetsafname hoe zij beoordeeld gaan worden. Dat is
natuurlijk niet zo mooi, als men pretendeert criterium-georiënteerd te meten!

Ik kan het met het standpunt van Van den Brink slechts ten dele eens zijn. Indien men de onbekende

verdeling van vaardigheidsniveaus uit die van de toetsscores schat, is men onzuiver bezig. Maar waarom
zou men dat doen? Waarom gebruikt men niet de informatie die men over de studenten heeft? Meestal
kan men er van uitgaan dat een bepaalde jaargang studenten niet heel erg verschilt van voorgaande
jaargangen qua dc te meten vaardigheid of kennisinhoud. Uit de toetsprestaties van die eerdere lichtingen
- die men wel collaterale informatie noemt - kan men de gewenste verdehng ook schatten. Voor de nog te
toetsen groep studenten ligt dc beoordelingsprocedure dan al voor het tentamen vast. (Naar mijn smaak
wordt dit alles nog eleganter, als men Bayesiaans te werk gaat. Ook dan kan men dankbaar gebruik
maken van collaterale informatie. Bayesiaanse methoden vallen echter buiten het bestek van het
proefschrift (p. 24). Waarom, o waarom?)

Met het individuele standpunt, zoals boven geciteerd, zit ik wat in mijn maag. Er is sprake van een
willekeurige student; maar wat is dat? Dikwijls bedoelt men in de Nederlandse statistische literatuur met
willekeurig: aselect getrokken. Bij uitwerking blijkt het dan om een verwachte waarde te gaan. De
willekeurige student is dan de gemiddelde student. Maar om die te bepalen, heeft men ook de verdehng
van vaardigheidsniveaus nodig. Als echter met willekeurig bedoeld is: elke, dan moet men toch wel de
studenten als uitwisselbaar beschouwen. D.w.z., elke kansuitspraak die men over een student doet, is op
elke andere student ook van toepassing. Ik heb daar wel vrede mee, al zou ik in dat geval niet spreken van
een individueel standpunt.

Het pièce-de-resistance van Van den Brinks proefschrift is het tweede hoofdstuk. Daarin ontvouwt hij
zijn visie over diverse binomiale modellen. Allereerst rekent hij af met situaties waarin men alleen de
items uit de toets in beschouwing neemt. Zowel het klassieke scoremodel als de latente-trekmodellen
worden gehanteerd om aan te tonen dat in deze toetsen voor elke student elk item even moeilijk moet
zijn, wil het binomiale model van toepassing zijn. Een bijzonder onwaarschijnlijke toestand. Geheel
anders wordt het, als een toets een aselecte steekproef uit het domein is. Het is dan mogelijk te spreken
over de domeinscore: de over alle mogelijke steekproeven heen gemiddelde fractie goede antwoorden.
Het is duidelijk dat de kans op een goed antwoord op een aselect uit het domein getrokken item gelijk is
aan de domeinscore. Weliswaar trekt men items zonder ze terug te leggen, maar gezien de omvang van het
domein maakt dat niets uit. Men kan dan de waargenomen toetsscore beschouwen als een binomiaal
verdeelde grootheid met als kansparameter de domeinscore. Het binomiale model met de domeinscore
als parameter noemt Van den Brink: het itemsteekproefmodel.

Het itemsteekproefmodel heeft volgens Van den Brink grote voordelen. Dank zij de trouvaille van de
domeinscore kan men elke confrontatie van een student met een item opvatten als een alternatief,-een
kansexperiment met constante kans op succes. Het is niet nodig zich te bekommeren om de moeihjk-
heidsgraad van de afzonderhjke items. Over de relatie tussen het itemsteekproefmodel en latente-trek-
modellen roept Van den Brink juichend uit: 'De itemkarakteristieke curven zijn overbodig!' (p. 19). Men
behoeft geep itemparameters te schatten, en bovendien is de domeinscore een doorzichtiger grootheid
dan de latente-trekwaarde van een student. 'De vraag is natuuriijk wat men voor het verkrijgen van
zoveel moois moet inleveren. De analyse richt zich niet op het niveau van de itemresponsen maar op dat
van domeinbeheersing. De itemresponsen bestaan uit enen en nullen en kunnen niet beschreven worden
in termen van eigenschappen van het item. Nadelen in vergelijking tot de latente-trekmodellen zijn de
domeingebondenheid en het feit dat men over minder gegevens beschikt voor itemanalyse' (p. 21).

Ik vind Van den Brinks ontwikkehng van het itemsteekproefmodel vernuftig, boeiend en instructief.
Over de status en de bruikbaarheid van het model heb ik echter mijn twijfels. In de eerste plaats is het
model, evenals het klassieke testscoremodel, helemaal geen model. Het itemsteekproefmodel is toe te
passen op elke reeks enen en nullen; niemand kan ooit aantonen dat het model niet past. Of de
domeinscore iets voorstelt, hangt af van de kundigheid van wie het domein schept. In de tweede plaats is
het model in de praktijk niet vaak toe te passen. Het model beschrijft het responsiegedrag van een enkele
student die een toets maakt. De schatting van de domeinscore is natuurlijk een functie van de toevallig
getrokken items. Dat is niet erg, omdat het individuele standpunt er voor iorgt dat schattingsfouten
verrekend worden. Doorgaans zal men niet voor elke student apart een toets samenstellen uit het domein.
Dat kan tot logistieke problemen leiden, en ook tot tumult bij de studenten die menen dat hun toets
moeilijker was dan die van anderen. Nee, meestal biedt men de studenten dezelfde toets aan. Dan komt
men in moeihjkheden, omdat de schattingen van de domeinscores niet onderhng onafhankelijk zijn. In de
derde plaats kan ik het geen bezwaar vinden dat het itemsteekproefmodel weinig gegevens beschikbaar

stelt voor itemanalyse. Het model stelt namelijk iielemaal geen gegevens ter beschikking voor itemana-
lyse. Dat komt, omdat er helemaal geen items in het model voorkomen! In het itemsteekproefmodel is de
kleinste eenheid: het aselect getrokken item. Dat is iets heel anders dan de op een gegeven ogenblik in een
toets aanwezige, aanwijsbare items.

Het derde tableau van het drieluik van Van den Brink bestaat uit de hoofdstukken waarin het item-
steekproefmodel wordt gehanteerd om een paar praktische en theoretische problemen op te lossen. De
theoretische problemen zijn: de gewenste toetslengte, de beste grensscore op de toets, en het beste aantal
alternatieven per item. Hoewel het itemsteekproefmodel betrekking heeft op tweewaardig gescoorde
items, speelt het aantal alternatieven een rol omdat dc reciproke daarvan gebruikt wordt als raadkans.
Die raadkans wordt door Van der Brink ingevoerd in het itemsteekproefmodel; de gevolgen daarvan
blijken niet te verwaarlozen te zijn.

Van den Brink geeft blijk van grote spitsvondigheid bij zijn oplossingen voor twee problemen die hij in
zijn werkkring is tegengekomen. Het eerste probleem betreft klachten, als zouden bepaalde tentamens te
moeilijk zijn, waardoor de slaagpercentages te klein zouden zijn. De aandrang, uitgeoefend op Van den
Brink en zijn bentgenoten, om de normen te verlagen, is weerstaan. Van den Brink laat zien dat de lage
slaagpercentages worden veroorzaakt door verkenners. Dat zijn studenten 'die ter oriëntatie meedoen.
Ze willen de items wel eens zien en een gokje wagen. Ze vullen de toets min of meer aselect in en weten
vrijwel zeker dat ze zullen zakken' (p.' 38). Verkenners worden opgespoord door per student de
hypothese te toetsen: de domeinscore is niet groter dan de raadkans. Het kritieke gebied van deze
statistische toets wordt vastgelegd door het van te voren bepalen van de kansen op fouten van de eerste en
de tweede soort. Dit resulteert in een kleinste toetsscore die men moet halen om niet als verkenner
gebrandmerkt te worden. Aangezien men natuurlijk alle verkenners wil detecteren, is het de vraag of de
gevolgde procedure niet vervangen moet worden door een simultane toetsingsprocedure. Ik zou zelf er zo
gauw echter geen weten. Maar dit terzijde; waar het Van den Brink om gaat, is te laten zien wat het effect
is van de verkenners op de normen. Het blijkt dat dat effect enorm is; vooral blijkt dat uit het verschil in
slaagpercentage voor tentamens waar wel, en tentamens waar geen verkenverbod geldt. (Mensen die tot
verkenner zijn bestempeld, mogen de eerstvolgende gelegenheid om tentamen te doen niet aangrijpen,
maar moeten die overslaan.)

Het tweede praktische probleem waar Van den Brink mee is geconfronteerd, betreft het openbaar zijn
van tentamenopgaven. Als studenten na het tentamen de opgaven mee mogen nemen, raakt een docent
snel door zijn itemvoorraad heen. Het is onmogelijk, die itemvoorraad elk jaar weer op peil te brengen.
Van den Brink oppert het lumineuze idee, dat studenten de al geopenbaarde opgaven gebruiken als wat
men, in hedendaags Nederlands, een thuistoets zou kunnen noemen. De student kan tijdens het studeren
Voortdurend zijn vaardigheidsniveau schatten. Zodra hij het idee heeft dat hij rijp is voor het tentamen,
gaat hij op. Het tentamen zelf behoeft dan maar een paar opgaven te bevatten. Er is dan weliswaar sprake
van een grote schattingsfout, maar die wordt gecompenseerd door de wetenschap dat de student zich goed
voorbereid heeft. Mits... de student zich niet aan dit schema onttrekt. Bij een kleine toets hebben
bijvoorbeeld verkenners een relatief grote kans om te slagen. Beperking van het aantal gelegenheden om
tentamen te doen, en hogere normen, kunnen wellicht helpen om slecht voorbereide studenten af te
schrikken.

Tot besluit: het proefschrift is keurig uitgevoerd. Het komt een bètafunctie tekort (verg. 2.9.6 op bladz.
29) en bevat te veel spaties. Uitdrukkingen als 'groeps item-steekproef model' (bladz. 28 e.v.) verstoren
het ritme in het lezen van dit verder voorbeeldig geschreven proefschrift.

Beleidsgericht evaluatie-onderzoek tussen aanpassing en kritiek, door J. Scheerens

Evaluatie bij grootschalige onderwijsinnovaties. Op zoek naar de wortels van conflicterende visies, door

De evaluatiepraktijk en het gebruik van evaluatiegegevens door G. van den Berg en W.Th. J.G. Hoeben.
April 1984

Het voorspellen van lees- en spellingprestaties in het eerste leerjaar, door M.J.C. Mommers en D. van
Dongen

Gedragsverschillen tussen kinderen van GLO- en verschillende typen van BuO-scholen zoals beoordeeld
door leerkrachten, door A.W. Blote-Aanhane en L.M.G. Curfs

Inleiding tot het artikel 'De evaluatie van Piagets theorie over de intelligentie' van J. Odehnal, door B van
Oers

Hoogbegaafdheid. Een reactie op het artikel van Blom en Wardekker in Pedagogische Studiën, 1983 (60)
220-229, door J. Scheltens

Ontwikkeling en begaafdheid: een toelichting. Rephek, door W.L. Wardekker en S.V. Blom.
Mei 1984

Het collectieve emancipatie-ideaal van een individualist. Cor Vervoort over onderwijs en maatschappe-
lijke ongeUjkheid, door A.A. Wesselingh

De multi-etnische en multi-culturele samenleving van straks. Integratie nader beschouwd, door K.
Sietaram

Beoordelen van werkstukken. Een voorbeeld uit het tandheelkundig onderwijs, door G.J.J.M.
Straetmans

Kroniek: Evaluatie van adaptief onderwijs. Verslag van een conferentie, LRDC Pittsburgh, juni 1983,
door D. de Jong

Opvoeding van (morele) emoties. Een theoretisch-pedagogische verkenning, door B. Spiecker
Opvoeding, deugden en motieven, door J.W. Steutel
De 'is-ought question', door A.W. van Haaften

Een ontwikkelingstheoretische benadering van de 'is-ought question', door A.W. van Haaften
Ontvangen publikaties

Goldebeld, P. De cesuurbepaling van hel 2e tijdvak met behulp van gepreteste items. Vergelijking van de
moeilijkheidsgraad van biologie-examens leen 2e tijdvak 1983 bij MA VO-Cen MA VO-D met
behulp van gepreteste items. Arnhem: CITO, 1984. Specialistisch bulletin, nr. 28.
Het moet ons een zorg zijn. Advies over zorgverbreding van het basisonderwijs. Zeist: Onderwijscentrum,
1984. Adviesraad voor het Basisonderwijs, Speciaal onderwijs en de Opleidingen (ARBO).

KMBO en leerlingwezen: kiezen of delen. Verslag van een studiedag op 18 maart 1983. Den Haag: SVO,
1984.

Linden, F.J. van der en P.J.B. Roeders. Schoolgaande jongeren, hun leefwereld en zelfbeleving. Een serie
onderzoekingen bij derde klas-leerlingen in het voortgezet onderwijs naar hun gezins- en school-
situatie, jeugdcultuur en vrijetijdsbesteding, waardenoriëntaties en toekomstbeeld, welbevinden en
zelfkonsept. Nijmegen: Hoogveld Instituut, 1983.
Onderwijsvoorzieningen voor 16- tot 18-jarigen in Amsterdam. Den Haag: SVO, 1984. SVO-brochure.
Riemersma, F.S.J. en J. Meijer. Leren oplossen van wiskundige problemen: analyse van hardopdenk-

protocollen. Amsterdam: SCO, 1983. SCO Rapport nr. 26.
Rijlaarsdam, G. Leerlingenrespons: een kansrijke didactiek van het stellen. Een verslag van een litera-
tuuronderzoek naar effecten van leerlingenrespons ('peer evaluation') op stelvaardigheid. Am-
sterdam: SCO, 1984. SCO Rapport, nr. 27.
Rijlaarsdam, G. en H. Wesdorp. Het beoordelen van taalvaardigheid in het onderwijs. Nederlandse
onderzoeksresultaten op het gebied van het meten van de schrijf-, spreek-, lees- en luistervaardig-
heid. Amsterdam: SCO, 1984. SCO Rapport nr. 28.
Wijnstra, J.M. Verantwoording Eindtoets Basisonderwijs 1981 (met eén historisch overzicht over de
periode 1966-1980). Arnhem: CITO, 1984. Specialistisch bulletin nr. 25.

Grootschaligheid in de onderwijsvernieuwing. Inhoud: analyse van grootschalige vernieuwingsprojek-
ten; mogehjkheden voor aangepaste begeleiding. Docent: R. van den Berg. Tijd/plaats: 9, 16 en 23
november; Utrecht. Kosten: ƒ 520,-.

Onderwijsbegeleidingskunde. Inhoud: de onderwijsgevende als volwassen lerende; individuele leerling-
begeleiding. Docenten: P. van den Broek, A. van Greevenbroek. Tijd/plaats: 2 en 30 november. Utrecht.
Kosten: ƒ 400,-.

Ontwikkelingen in de ontwikkelingspsychologie. Inhoud: diverse symposia van het internationaal con-
gres 'Individual Development and Human Welfare'. Tijd/plaats: 28-31 augustus, Groningen. Kosten:
ƒ 60,- (halve dag), ƒ 100,- (hele dag).

De Vakgroep Statistiek & Meettheorie (RUG) organiseert in 1984 een cursus 'Outliers in Statistics', die
gegeven zal worden door Prof. dr. V. Bamett (University of Sheffield, UK).

Deze cursus over de statistische analyse van gegevens waarin uitbijters, extreme waarnemingen,
Voorkomen, zal gehouden worden van 10 tot en met 12 december 1984. Naast theoretische colleges
worden eenvoudige praktische oefeningen (zakrekenmachine) gegeven. Een gedetailleerder programma
zal te zijner tijd worden bekend gemaakt.

De deelnemerskosten bedragen ƒ 150,- (studenten ƒ 50,-). Wegens het beperkte aantal toe te laten
deelnemers geschiedt plaatsing voor de cursus in volgorde van aanmelding.

Inschrijving uitsluitend door middel van een inschrijvingsformulier, verkrijgbaar Oude Boteringe-
straat 23, 9712 GC Groningen.

Oproep tot aanmelding van individuele congresbijdragen voor het psychologencongres 1984

Komend najaar zal er weer een gezamenlijk psychologencongres gehouden worden van de nederiandse
organisaties op het gebied der psychologiebeoefening: het Nederlands Instituut van Psychologen, De
Stichting voor Wetenschappelijk Onderzoek in de Psychologie en de Nederlandse Stichting voor Psy-
chonomie. Doel van dit congres is de bevordering van de interactie tussen de psychologische professie en
de wetenschapsbeoefening in de psychologie. Hiertoe zal een zo breed mogelijk spectrum aan de orde
komen van (a) aspecten van wetenschapsbeoefening in de psychologie en (b) reflecties op het werk van
psychologen. ,

Dit jaar zal het Psychologencongres plaats vinden op donderdag 6 en vrijdag 7 december 1984 in
congrescentrum „De Reehorst" te Ede.

De congrescommissie nodigt hen, die aangesloten zijn bij genoemde organisaties, uit tot het inzenden van
voorstellen voor individuele congresbijdragen in één der volgende categorieën: A. Lezingen, B. Posters,
C. Audiovisuele presentaties.

Elk thema dat betrekking heeft op wetenschappelijke psychologisch onderzoek, of dat voortkomt uit
reflectie op (praktisch) werk van psychologen, komt in principe voor een individuele congresbijdrage in
aanmerking.

Voor de lezingen wordt in het programma telkens 25 minuten uitgetrokken voor de voordracht en de
discussie samen: de poster-presentaties en de audio-visuele-presentaties lopen parallel aan de diverse
lezingen.

Aanmelding van een individuele congresbijdrage kan plaats vinden tot uiterlijk 15 augustus 1984 op een
daartoe bestemd formulier dat kan worden aangevraagd op het N.I.P.-bureau.

De congrescommissie laat uiterlijk 15 september 1984 aan de inzender(s) weten of de bijdrage al dan niet
is geaccepteerd.

Deze aflevering van het Tijdschrift voor Onderwijsresearch wordt door de redactie en de
auteurs opgedragen aan:

Bob van Naerssen neemt in september afscheid van de Universiteit van Amsterdam en van de
redactie van dit tijdschrift. Dat redacteuren van dit blad hun taak aan anderen overdragen is
eerder vertoond. Wij danken hen voor de verleende diensten, drukken hen warm de hand en
schrappen hun namen van de lijst van redacteuren, die op de binnenzijde van de omslag te
vinden is. Dat wij deze eenvoudige handelwijze niet ook gevolgd hebben bij het vertrek van
Bob van Naerssen, vindt zijn reden in zijn speciale positie in onze redactie en in psychome-
trisch Nederland.

Bob van Naerssen is niet alleen van meet af aan redacteur van dh blad geweest, hij was een
van de oprichters ervan. De geschiedenis van het TOR gaat namelijk verder terug dan de
eerste aflevering: het had voorlopers. Een van de twee voorlopers was een reeks speciale
afleveringen van het Nederlands Tijdschrift voor de Psychologie gewijd aan 'didakometrisch
en psychometrisch onderzoek'. Zij werden de DPO-nummers genoemd en vormden het
eerste eigen publikatiemedium voor Nederlandse methodologen en psychometrici. Van deze
DPO-nummers was Bob van Naerssen de redacteur en redactiesecretaris tegelijk.

Toen DPO in 1975 opging in het TOR trad Bob van Naerssen toe tot de nieuwe redactie en
bleef daarvan tot de dag van vandaag lid. Gedurende de eerste jaargang vervulde hij boven-
dien de functie van redactiesecretaris. Als het TOR in de negen jaar van zijn bestaan gegroeid
is tot een volwaardig wetenschappelijk tijdschrift met een eigen plaats in het wetenschappelij-
ke forum, dan is dat in niet geringe mate de verdienste geweest van de nestor van de redactie,
die tegelijkertijd een van onze meest produktieve auteurs werd.

Ook buiten de TO/ï-redactie speelde Bob van Naerssen een belangrijke rol. Hij was
immers een van de eerste Nederlandse psychometrici die internationaal doorbrak. Thans
struikel je in de internationale wetenschappelijke tijdschriften over Nederlandse psychome-
trici. Het is een zo alledaags verschijnsel geworden, dat wij gemakkelijk vergeten dat het zich
tien jaar geleden nog nauwelijks voordeed. Bij deze verheugende en opvallende internatio-
nale doorbraak van de Nederlandse psychometrie heeft Bob van Naerssen een belangrijke rol
gespeeld.

Dit zijn de redenen waarom de redactie het vertrek van een van haar leden deze keer niet
met de anders gebruikelijke stilzwijgendheid laat passeren. Zij heeft er behoefte aan Bob van
Naerssens grote verdiensten te onderstrepen door middel van dit ter ere van hem samen-
gestelde en aan hem opgedragen speciale nummer.

Op 14 september 1984 nam prof. dr. R.F. van Naerssen, gebruik makend van de VUT-rege-
ling, afscheid van de Universiteit van Amsterdam. Hij begon zijn opleiding bij de Technische
Hogeschool Delft, maar ruilde deze spoedig in-voor een loopbaan in de Militaire Dienst. Op
wat oudere leeftijd besloot hij terug te keren tot de universiteit en ditmaal onstuitbaar: Hij
behaalde in zeer korte tijd en met uitmuntend resultaat het doctoraal-examen Psychologie te
Leiden; daarna volgde in 1963, eveneens zeer snel en uitmuntend, zijn promotie bij prof. dr.
A.D. de Groot op het proefschrift 'Selectie van chauffeurs' gevolgd door een continue stroom
van publicaties (meer dan 70 tot op heden, waaronder klassieke); in 1969 werd hij benoemd
tot lector op persoonlijke titel bij de Universiteit van Amsterdam en in 1980 werd het
lectoraat omgezet in een ordinariaat.

In 1963 kreeg van Naerssen de leiding van de, door de Groot opgerichte Afdeling Examen
Techniek (AET) bij het Psychologisch Laboratorium van de Universiteit van Amsterdam. De
organisatie van de AET was zijn tijd ver vooruit, want deze had min of meer het karakter van
een hedendaags voorwaardelijk gefinancieerd project. De leden van de AET deden psy-
chometrisch en didakometrisch onderzoek; elk afgerond onderdeel, hoe klein ook, werd
gerapporteerd in een AET-Memorandum. De memoranda werden onderling besproken en
van stevig commentaar voorzien, waarna een serie memoranda over hetzelfde onderwerp tot
artikel werd bewerkt. De leiding van van Naerssen was al even eenvoudig en efficiënt: hij
kraakte onderzoek nooit af, maar spoorde altijd aan meer en beter onderzoek te doen, en gaf
voortdurend het goede voorbeeld: van de eerste 150 AET-memoranda, verschenen tussen
juli 1963 en oktober 1966, was meer dan de helft van zijn hand. In de zeventiger jaren ging de
AET geruisloos op in de vakgroep Methodenleer; ook in de vakgroep was hij zeer efficiënt en
produktief.

De laatste twintig jaar zijn Psychometrie en Didakometrie in Nederland tot grote bloei
gekomen, blijkend uit vele internationale publicaties en het florerend bestaan van de Neder-
landse Stichting voor Psychometrie. Vele onderzoekers hebben hieraan bijgedragen, maar -
zonder iemand te kort te doen - van Naerssen was de drijvende kracht en is de nestor.

Hij beschouwt bestuurlijke werkzaamheden meestal als verloren tijd, maar op psychome-
trisch gebied heeft hij ze met plezier en inzet verricht: bestuurslid van de Interacademiale
Werkgroep Objectieve Studietoetsen, daarna de Werkgroep Meetmethoden en daarna de
Nederlandse Stichting voor Psychometrie en bestuurslid van het Centraal Instituut voor
Toetsontwikkeling; redactie-lid van de Didakometrisch en Psychometrisch Onderzoek afle-
veringen van het Nederlands Tijdschrift voor de Psychologie en daarna het Tijdschrift voor
Onderwijsresearch.

Bij zijn afscheid bieden wij hem een aantal psychometrische bijdragen aan. Wij hebben
daartoe enkele leden van de vakgroep Methodenleer en van de Nederlandse Stichting voor
Psychometrie uitgenodigd, die van Naerssen goed kennen en wier werk zijn belangstelling
heeft. De bijdragen zijn, met financiële steun van de Subfaculteit Psychologie van de Univer-
siteit van Amsterdam en met bereidwilligheid en steun van de tijdschrift-redactie, gepu-
bliceerd in het voorliggende speciale nummer van het Tijdschrift voor Onderwijsresearch;
hierin laten wij eerst - in tegenspraak met zijn bescheiden aard - van Naerssen zelf aan het
woord. Overigens is zijn officiële afscheid geen afscheid van de Psychometrie: Hij heeft
aangekondigd, buiten dienstverband, tot 1994 onderzoek te zullen blijven doen bij de
vakgroep. Wij verwachten nog veel van hem te leren.

Onderstaand interview is de uitkomst van een uitvoerig gesprek dat wij op 18 mei 1984 met
professor Van Naerssen hadden, in de keuken van zijn woning te Vinkeveen, over zijn
wetenschappehjke carrière en over de psychologie als wetenschap en studierichting. Ten djde
van het gesprek was het hem niet bekend dat het resultaat gepubliceerd zou worden in dit aan
hem gewijde nummer van het Tijdschrift voor Onderwijsresearch maar desondanks verleen-
de hij goedmoedig zijn medewerking.

De studietoets- en examentheorie, dat is de officiële leeropdracht. De psychometrie beslaat
een enorm gebied, dat eigenlijk alles omvat van het meten in de psychologie, terwijl het
gebied waar ik wat meer over gelezen heb zich beperkt tot studietoetsen, essay-tentamens,
e.d. Die beperking heb ik natuurUjk bewust genomen, want ik acht mij niet in staat het hele
gebied te beheersen. In feite ben ik er gewoon ingerold, ik werkte bij De Groot en die was net
bezig met studietoetsen voor zijn eigen tentamens. Het is niet zo dat ik hier nu speciaal op
gewacht heb.

Had de psychometrie zich niet vooral daarop moeten richten, het construeren van meetin-
strumenten?

O maar dat hebben ze gedaan, alleen noemen ze zich geen psychometricus meer maar
psycholoog. Er zijn een heleboel psychologen die allerlei tests ontwikkeld hebben, zoals bij
ons Elshout.

Maar kijk eens naar de psychometrie in Nederland, dat zijn toch goeddeels esoterische, statisti-
sche exercities zonder meer, doorgaans onleesbaar.

Ja, ik geef toe dat een heleboel werk natuuriijk niet van direct praktisch nut is. Dat is bij mijn
eigen onderzoek ook wel gebleken, allerlei methodes die ik bedacht heb en waarover ik
gepubliceerd heb, bhjken goed te werken op een heel klein gebied maar treed je daarbuiten
dan blijken ze vaak onnuttig. En ik geef toe, een heleboel van de psychometrie houdt zich met
zo'n klein gebied bezig. Dat is een feit. Maar dat is een kenmerk van alle wetenschap.

Je weet dat de wiskundige en fdosoof L.E.J. Brouwer eens opmerkte dat de psychometrie zich
tot de echte wiskunde verhoudt als de beschrijvende land- en volkerenkunde tot wetenschap.
Ja, daar zit wel wat in. Er zijn natuurlijk voor wiskundigen onverteerbare dingen gebeurd in
het verleden van de psychometrie. Hoewel het voor de resultaten vaak praktisch niets
uitmaakt. Maar hoe zijn wiskundigen, alles moet heel precies zijn. Als je een formule opstelt
die in 1/1000ste deel van de praktijkgevallen mis loopt zegt de wiskundige, hier is een grote
fout gemaakt. Ja, die wiskundigen trekken overal in, ze kunnen hun kennis op praktisch alle
gebieden toepassen, kijk maar naar de economie en de sociale wetenschappen.

Dat hangt van je definitie van psychometrie af. Haal je de data-analyse er vanaf, accoord. Het
belangrijkste is toch wie bepaalt welke data verzameld worden. Als ik geweten had dat zoveel
wiskundigen zich met dit gebied zouden bezighouden, had ik misschien gedacht ik kan beter
meer op psychologisch gebied blijven. Achteraf gepraat. Daar komt bij dat ik wiskundige
toepassingen altijd leuk heb gevonden. Al tijdens de HBS-tijd. Ik had zeker niet liever
wiskunde gestudeerd, ik heb het alleen maar als een soort hobby beschouwd. Op MO-niveau
heb ik wel een paar maanden wiskunde gestudeerd. Ik vond dat soort wiskunde een teleur-
stellend saaie studie en was blij dat ik overstapte naar psychologie, ik heb die hele studie leuk
gevonden.

Heb jij niet eens de stelling verkondigd dat studenten de neiging hebben 'de horde zo laag
mogelijk te nemen'. De wet van Van Naerssen?

Daar zijn veel misverstanden over gerezen. Men heeft mij wel verweten dat ik zou propageren
dat studenten zo min mogelijk werken. Zo heb ik het nooit gezegd. Bij mijn tentamenmodel
wordt ervan uitgegaan dat de student met zo min mogelijk moeite, of zo snel mogelijk, wil
afstuderen. Hij streeft bij elk tentamen naar een optimaal niveau van kennis. Dat wil zeggen,
hij werkt niet te hard, dat is een erkend feit, maar ook niet te weinig, want dan zou hij te vaak
zakken. Door te hoog te mikken verhest hij tijd, dat moet men dus niet doen. Het is een
misverstand dat ook de docent zou moeten denken dat de student zo min mogelijk moet
werken. De docent heeft natuurhjk de vrijheid de horde zo hoog te plaatsen als hij gewenst
acht. Maar hij moet niet denken dat, als hij de horde hoog plaatst dat dan de studenten i.p.v.
bijv. 20 uur per week nu 40 of 50 uur per week gaan werken. Dat is zeker niet het geval. Uit
allerlei onderzoek - door Harrie Vorst bijvoorbeeld - blijkt dat het aantal studie-uren op 20,
hooguit 30 ligt. Zet je de horde hoog, dan zegt men niet 'nu moet ik 40 of 50 uur per week
werken' maar men handhaaft gewoon 20 uur en doet er langer over. Overigens kan je als
docent moeilijk veel hogere eisen stellen dan andere docenten. Zodra het zakpercentage
hoger dan 50 is krijg je het mechanisme van de protesten, je komt in de subfaculteitsraad
terecht waar je moet uitleggen dat het toch niet zo moeihjk is voor de normale student, en het
eind van het liedje is dat je je toch maar aanpast. Gevolg is dat in een studie als psychologie de
hordes vrij laag zijn. Bovendien, de minister eist dat het rendement hoog is. Dat betekent dat
je niemand kan wegsturen. Iedereen moet meegenomen worden. Eigenlijk is dat het oude
contract-idee van De Groot, die ging er uiteraard van uit dat er een ingangsselectie is. En die is
nu te enenmale weggevallen. Je kunt gewoon bij de gekste middelbare schoolcijfers gaan
studeren, met al die compensatiemogehjkheden tegenwoordig. Er zijn twee dingen gebeurd.
Er is geen selectie meer tijdens het eerste jaar en ook niet meer vooraf. Ook niet wat mijn
onderdeel betreft, de testleer, de grote massa haalt het in een keer of hever gezegd in twee
keer binnen een week, zo'n 80%. Maar er is een klein groepje dat komt telkens terug en
daardoor hjkt het zakpercentage hoog. Maar het gaat steeds om dezelfde mensen. De ellende
is eigenhjk dat er nooit een Hogere Beroepsopleiding psychologie is gekomen. Een van mijn
hobbies vroeger. Er is een HBO-opleiding voor sociaal werker, maar waarom niet ook voor
psycholoog? Dat zou een heleboel mensen aantrekken die niets vari wiskunde weten of daar
geen zin in hebben. Ze kunnen echter toch nuttig werk doen, bijvoorbeeld als psychothera-
peut. Wel is van sommige vormen van psychotherapie het nut misschien problematisch,
bijvoorbeeld de psycho-analyse daar zie ik het nut niet van in. Maar behalve dat er maat-
schappelijke behoefte aan is, is zo'n HBO-opleiding nuttig om studenten, die niets voelen
voor wetenschappehjk onderzoek met zijn wiskundig-statistische eisen, toch een mogehjk-
heid te bieden. Zo zou je een alpha-richting en een beta-richting gescheiden kunnen houden.
Nu moet je als beta-docent lesgeven aan laat ik zeggen de huishoudschool.

Dus je vindt wel dat psychologiestudenten zouden moeten leren strijken en koken, als ze dat
wensen?

Ha, ha, ik bedoel de huishoudschool wat betreft wiskunde, qua inslag en belangstelling. Als je
echt eisen aan studenten zou stellen - dat is natuurlijk ideaal - dan zou je de helft van het
huidige aantal naar huis moeten sturen.

Na mijn afstuderen ben ik gaan werken bij het Instituut voor preventieve geneeskunde. Ik
kwam terecht bij Winsemius. Dat was de man die zich bezighield met ongevallen. Vroeger was
het zo, dat als je bij iemand geplaatst werd, dan werd je aan het werk gezet. Je kreeg een
opdracht om je ergens in te specialiseren. En dat deed je dan. Dus heb ik mij ook in de
ongevallen verdiept. Winsemius bestudeerde de hteratuur over de theorie van ongevallen en
de preventie ervan en ik deed de experimenten. De proefjes hadden betrekking op de vraag
hoe ongelukken ontstaan en waarmee ze samenhangen. Voor die proefjes heb ik apparaten
laten maken. Eén van die apparaten, dat was wat je tegenwoordig zou zeggen een belachelijk
simpel apparaat: een schijf met een kronkelende weg er op, en dan moest je proberen om op
die weg te blijven. En als je teveel rechts of links kwam, dan werd er contact gemaakt, en aan
het eind van die weg kon je natuurlijk wel het aantal fouten tellen, en je kon kijken hoe het
foutenverloop was, en, o ja, wat voor snelheid de mensen kozen. Ze waren vrij in het kiezen
van hun snelheid. Mogelijk kozen ze de snelheid die ze in werkelijkheid zouden kiezen. De
bedoeling was om na te gaan wat de invloeden waren op het maken van fouten en op de
gekozen snelheid en die invloeden, dat waren dan onder andere, de incentives, hoe noem je
dat, geldbedragen, die ze konden verdienen. Dus die kon je variëren. Daar was een budget
voor. We keken o.a. of je met het aanbieden van veel geld de mensen ongelukken kon laten
maken. Wat ik me nog herinner, dat was een ander apparaat, daar moest je met je vinger in
gaan, en dan was er een of andere vorm die je moest doorlopen. Als je de vinger langs de kant
liet gaan, dan kreeg je een electrische schok. Je moest dus een bepaalde behendigheid hebben
om dit zonder schokken te kunnen doen. Maar dat moest ook nog in een bepaald tempo. Dat
N^erd ook gezegd. En dan waren er nog de beloningen. We keken hoe het gedrag was van de
mensen die deze bewegingen uitvoerden als je de beloningen ging veranderen en als je het
tempo ging veranderen. En dan had je natuurlijk de sterkte van de stroom, die werd ook
gevarieerd. Uiteraard heb ik het zelf allemaal geprobeerd, en ik vond er niks aan, aan die
stroomsterktes. Uiteraard volkomen ongevaarlijk. Hoewel ik dat zei tegen de proefpersonen,
waren er toch mensen die daar als de dood voor waren. Huilend kwamen ze d'r uit.

Maar ivar dat eigenlijk niet het meest psychologische aspect er aan?
Ja, precies. Dat wou ik ook zeggen. Ik heb spijt dat ik daarop niet door ben gegaan, maar dat
kwam omdat ik onderzoek deed in verband met de theorie van Cronbach en Gleser die toen
net was opgekomen. Je moest gaan kijken wat de invloed was van beloningen en zo. Maar het
Was natuurlijk veel interessanter geweest om te kijken hoe komt het dat iemand neurotisch
Wordt en hoe het komt dat iemand emoties krijgt, doordat hij te veel risico's neemt. Ze hebben
Vergelijkbare proeven in Amerika wel veel gedaan, vooral met dieren dan. Als je dieren in een
situatie brengt waardoor ze moeten kiezen tussen eten als ze hongerig zijn en risico nemen,
dan krijg je neurotisch gedrag op een gegeven ogenblik. Dan moeten ze, als het ware, of ze

willen of niet, naar dat eten toe, en ze willen het risico nemen, en intussen reageren ze alsof ze
weten dat ze gestraft worden. Ik weet achteraf natuurlijk dat die proefjes gedaan zijn in de
behavioristische traditie, dat dat neurotisch gedrag opleverde, maar het grappige was dat dit
neurotische gedrag in mijn proefjes er ook uitkwam. Maar we zijn er niet op door gegaan,
helaas.

Ik vond het eigenlijk zielig. Als er iemand in huilen uitbarstte, dan gingen wij hem, nou ja,
troosten. Maar we hadden er eigenlijk op door moeten gaan. Helemaal uitpraten, van hoe
komt dat nou, en waarom reageert u zo neurotisch, enz. Dat is natuurlijk veel interessanter,
maar het paste niet in de theorie toen. Ja, dat waren vooral vrouwelijke studenten, VVSL's,
aardige meisjes. Ze gaven zich op om tegen betaling nuttig te zijn voor de wetenschap en daar
hadden ze blijkbaar veel voor over; mooi was dat vroeger.

Je hebt bepaalde ideeën over de psychologie als vak. Je vindt, zoals je daarnet zei, dat er veel
eerder al gewerkt had moeten worden aan de oprichting van een HBO-psychologie om al die
mensen te herbergen die voor de wetenschap niet echt belangstelling hebben, maar eerder in de
psychologie geïnteresseerd zijn vanwege de mogelijkheid tot hulpverlening, enzovoort. Heb je
daar wel eens over gediscussieerd?
Nou, niet veel gedaan, nee.

Maar waarom discussieerde jij daar bijvoorbeeld niet met Duijker over, of met Barendregt,
Frijda of De Groot?

Ja, daar heb ik vrij weinig behoefte aan, om te gaan discussiëren. Ik geloof niet dat mijn ideeën
over de ideale psychologie-opleiding origineel zijn. Ik vind dat het vrij banale opvattingen
zijn, waar iedereen op kan komen. Van belang is alleen je onderzoek naar voren brengen. Dat
is iets wat betrekkehjk nieuw is. Of iemand rekent iets in een simulatiestudie uit met veel
werk, en dan weet je dat kan een bijdrage zijn. Maar zo'n fdosofie over hoe nou de psycholoog
opgeleid moet worden, dat kan je in een paar middagen of 's nachts of in een paar nachten
formuleren voor jezelf, dus het heeft geen waarde om dat te propageren.

Als jij nou chirurg was, erije zegt, nou ja, ik leg me er bij neer dat het verder niet aanslaat, laat die
homeopaat maar verder knoeien. Dat zou toch onverantwoordelijk zijn. Maar waarom ligt de
psychologie jou zo weinig na aan het hart?

Zij ligt me wel na aan het hart. Maar ik zeg, dat ik daarover zoals trouwens de meeste collega's
weinig te zeggen heb. Ik heb daar geen belangrijke dingen over te vertellen. En, zoals je weet
van Wittgenstein: waar je niets over weet, daarover moet je zwijgen. Alleen iemand die veel
hteratuur - of zelfs eigen onderzoek gedaan heeft over de psychologie-opleiding heeft het
recht om zijn opvatting te propageren.

Je hebt je tot het technisch specialisme van studietoetsen beperkt, als onderdeel van de psy-
chometrika?

Ik ben afgedreven als het ware in de richting van de onderwijspsychologie. Als je eenmaal iets
doet met studietoetsen, dan kom je al gauw in die richting terecht. En zoals je weet heb ik er
ook ernstig over gedacht om bi j de oprichting van de vakgroep Onderwijspsychologie daarvan
deel uit te maken. Dat lag ook in de hjn, want dat is meer mijn werk. Eigenlijk ben ik daar geen
lid van geworden omdat ik me enigszins ergerde aan het exhibitionisme van bepaalde
geloofsovertuigingen in die vakgroep. Ik dacht, daar kan ik niet mee samenwerken, met

iemand die prenten aan de muur hangt van Ban de Bom, en zo, nee dan heb ik er ook geen zin
meer in. Ik werk liever samen met mensen die eventueel tegen de bom zijn, maar daar geen
prent van aan de muur hangen. Ook ben ik niet zo optimistisch over het emancipatorisch
effect van onderzoek zoals dat in die vakgroep Verricht wordt. Het optimisme daarin is teveel
verplicht gesteld. Ik zie het meer als een uitbreiding van de solidariteit die in de mens zit.
Vroeger was je alleen maar sohdair met je eigen gezin. En die solidariteit met de arbeiders-
massa van je eigen volk dat is er pas na Marx ingekomen, en hier in Holland vooral na
Troelstra, in het begin van deze eeuw. In vroeger tijd had de burgerij helemaal geen behoefte
aan gevoelens van sohdariteit met het eigen land. En die solidariteit met de derde wereld, die
is pas gekomen na deze laatste wereldoorlog. Ik heb de tijd nog voor de oorlog meegemaakt,
maar geen mens was sohdair met de derde wereld, hoor. Het lijkt mij een zeer goede zaak dat
er na die wereldoorlog wel degehjk enige sohdariteit is overgevloeid naar de derde wereld.
Daar kan ik zeker inkomen. Overigens zou het niet bij die sohdariteit moeten blijven. De
Volgende stap is sohdariteit met hen die na ons komen. Om het leven van die biljoenen veilig te
stellen zouden we ons weer heel anders moeten opstellen: concentreren op bepaald weten-
schappelijk onderzoek bijvoorbeeld. Maar in het wetenschappehjk contact zou ik überhaupt
niet te maken willen hebben met mensen die politiek naar voren brengen wat ze weten-
schappelijk willen. Je moet op je werk geen politieke ideeën propageren. Als rechtse mensen
dat zouden doen zou ik dat ook niet op prijs stellen. Ik vind dat je die dingen buiten het
Psychologisch Laboratorium moet houden.

Kijk, als jij nou om psychologie geeft dan kan je d'r veel aan doen door bijvoorbeeld in zo'n
Vakgroep Onderwijspsychologie waar ongetwijfeld gezegd wordt er bestaat zoiets als actie-on-
derzoek, helder, eenvoudig en voor eens en altijd uiteen te zetten dat actie-onderzoek niet
bestaat.

Jawel, dat is zo. Maar ik ben helaas geen vechter. Als ik nou een vechtersnatuur had, dan zou
ik me daar in de vakgroep hebben kunnen indringen, en mijn standpunt naar voren hebben
kunnen brengen, hoewel ik zou weten dat de grote massa van die vakgroep een andere
opvatting had. Ik bewonder de mensen die zoiets kunnen, die dat met civil courage als het
ware naar voren kunnen brengen, maar ik hoor daar zelf niet bij. Ik kan de tijd misschien
nuttiger besteden, door harder werken. Hoewel die prestatie-gedrevenheid van mij ook
tegenvalt, nou ja ik heb te veel belangstelling in andere richtingen. Ik heb eens een gesprek
gehad met Cronbach, in Amerika. Ik vroeg hem, wat leest u nou? Nou, hij leest alleen maar
dingen waar hij de volgende week een artikel over kan schrijven of iets dergelijks. Verder
leest hij niets. Alles wat hij leest is voor hem van nut voor een pubhkatie. Hij is enorm
productief, literatuurhjsten, zoiets als die van Cattell. Maar goed, dat is de manier om veel te
presteren natuurlijk. Zo ben ik niet, hebben julhe wel begrepen. Zoiets moet je tenslotte van
jezelf aanvaarden.

f^eb je veel respons gehad op je werk. Is de kans er geweest om contact te krijgen met anderen?
Weinig respons. Dat is wel een teleurstelling geweest. Neem bijvoorbeeld dat tentamen-
model, daar heb ik nogal wat werk in gestoken en ik dacht daar nogal origineel in te zijn, maar
er is eigenlijk nooit iemand geweest die dat heeft voortgezet en verbeterd of iets dergelijks.
Maar die respons, kijk dat is natuurhjk een algemene klacht hè. Op wetenschappehjk werk
'^rijg je bitter weinig respons. Maar misschien moet je daar toch ook langer op wachten, ik
Weet überhaupt niet na hoeveel tijd iets invloed gaat uitoefenen. Als het exclusief begint, en
nogal exclusief blijft, dan is het waarschijnlijk ook heel moeilijk om reacties te krijgen. In
'Amerika gaat het anders. Daar moet je actief propageren. Daar moet je soms veel dingen

doen om respons uit te lokken. Het is nog niet doorgedrongen tot deze contreien, maar
misschien is het wel de manier van de echte wetenschap. Ik kan me voorstellen dat, als je op
die manier contacten maakt door mensen te dwingen door telkens te vragen: heb je dat nou
nög niet gelezen van mij, en, wat is nou je reèctie daarop, dat zij dan op den duur wel moeten
reageren. Dat is misschien wel veel nuttiger voor de wetenschap. Harde business. Maar
misschien ben ik te introvert voor zo'n opdringerige rol.

Ja, sommigen beschouwen introversie als een verouderd begrip. Het stamt eigenlijk nog van
Heymans, diens secundaire functie. Ik geloof niet dat aanvaarden van de factor introversie/
extraversie verouderd is. Ik geloof ook niet dat het door de omgeving bepaald wordt.

Maar jij herkent jezelf in zo'n omschrijving als introvert? Dat vind jij psychologisch relevante
kennis voor jouw zelfbeeld.

Ja. Dat is de reden eigenlijk waarom ik in Jung ben gedoken in mijn jonge jaren. Dat was
natuurlijk nog vóór mijn studie in de psychologie. Er is een tijd geweest waarin ik een
enthousiast Jung-lezer was, Jung is een groot warhoofd, althans volgens de psychologen met
een academische opleiding; maar waardoor ik gecharmeerd was van zijn werk dat was juist
zijn indeling in typen. Hij beschreef ook het introverte, denk-intuïtieve type, en daarin
herkende ik mij helemaal.

Daar herken je je nog steeds in? Jij voert het echt als idee aan om te verklaren waarom bepaalde
dingen in je leven gebeurd zijn. Dat komt omdat jij 'introvert' bent.

Ja, ik geloof enigszins in die typologie. Laten we het zó zeggen: Mensen die veranderen
natuurlijk naar hun ervaring, maar ze hebben ook een bepaalde neiging om zich in een
bepaalde richting te ontwikkelen. Het introverte of extraverte dat zit vrijwel gegeven in je,
dacht ik. Ik geeft het hier alleen als verklaringsgrond, waarom ik weinig contact verworven
heb.

Dat laatste zeker, ik ben in ieder geval te geïsoleerd bezig geweest. Ja, dat is zeker waar.
Helaas is er ook nooit pressie op mij uitgeoefend, door wie dan ook. Het lijkt me wel nuttig af
en toe. Onder pressie komen de mensen tot harder werken. Maar in ieder geval, van pressie
heb ik nooit iets gemerkt.

Nee, maar zou je het prettig gevonden hebben als De Groot of Mellenbergh eens langs gekomen
was om de zaken nog eens door te nemen. De Groot dacht misschien, het gaat wel goed met Van
Naerssen maar niet met de psychologie. Had hij dat af en toe niet eens om moeten keren?
Misschien zou het beter voor mij geweest zijn wanneer anderen wat meer aangedrongen
zouden hebben op samenwerking....

Van Naerssen (1974) proposed a mathematical model for the optimal use of criterion-referenced
tests. In one version of this mode! retention is described by an exponential function and in another
version by a logistic function. In this paper retention is studied in an educational setting to settle
the question which function is the more appropriate one. It appears that a logistic model gives the
most satisfactory description of the data.

Op diverse plaatsen heeft Van Naerssen kenbaar gemaakt ervan overtuigd te zijn dat de
oplossing van allerlei praktische problemen in het (hoger) onderwijs gediend zou zijn met een
modelmatige aanpak. Een voorbeeld daarvan is het zogenaamde tentamenmodel, waarvan
Van Naerssen de ontwikkeling en enkele toepassingsmogelijkheden uitgebreid heeft be-
schreven (Van Naerssen, 1970,1971,1974,1976a, 1976b, en 1978). Het model beschrijft het
kennisniveau afhankelijk van leren en vergeten van een 'modelstudent' met een optimale
studiestrategie. Het tentamenmodel zou mogelijkheden bieden problemen in het (hoger)
onderwijs rationeel op te lossen. Bijvoorbeeld bij de keuze van de aftestgrenzen van ten-
tamens en herkansingen zou men met de gevolgen van leren en vergeten rekening moeten
houden. Hetzelfde zou gelden bij het combineren van tentamenscores met het doel een
zak-slaag beslissing te nemen voor een examen. Met behulp van het tentamenmodel kan op
rationele wijze bepaald worden of dit compensatorisch, conjunctief of disjunctief moet
gebeuren.

Zoals gezegd beschrijft het model het beheersingsniveau van een kennisdomein, afhanke-
lijk van leren en vergeten. Hier gaat het ons vooral om een beschrijving van vergeten. In het
eerste (1971) en het derde (1976) voorstel voor het model wordt het vergeten van kennis
weergegeven als een exponentieel dalende functie van de tijd. In het tweede tentamenmodel
(1974) wordt de vergeetcurve beschreven als een logistische functie van de tijd. Het derde
voorstel verdient volgens van Naerssen de voorkeur omdat de resultaten van het laborato-
riumonderzoek betreffende leren en vergeten in de richting van een exponentiële curve
wijzen (Van Naerssen, 1976, p. 162). Nu kan men zich de vraag stellen in hoeverre generali-
satie van de resultaten van laboratoriumonderzoek omtrent leren en vergeten naar de wer-

' We zijn dank verschuldigd aan Dr. A.R.W. Muijen als docent van het tentamen Geschiedenis der
Psychologie, en de psychologiestudenten die gehoor gaven aan het verzoek deel te nemen aan het
onderzoek.

kelijkheid van de onderwijssituatie zich laat rechtvaardigen. In laboratoriumonderzoek blijkt
het vergeetproces afhankelijk van factoren als aanbiedingsvorm, beloningsschema, leercrite-
rium, betekenis en organisatie van het materiaal, retentiemaat, e.d. In de werkelijkheid van de
onderwijssituatie zijn de genoemde factoren nauwelijks te specificeren en is de invloed ervan
op vergeten niet te achterhalen of te controleren. Bovendien zijn met de kennisverwerving en
het toetsingsresultaat in de onderwijssituatie persoonlijke belangen gemoeid. Zouden deze
op het oog aanzienlijke verschillen in omstandigheden tussen laboratoriumcondities en
onderwijssituaties geen gevolgen kunnen hebben voor het verloop van de vergeetcurve? Een
tweede bezwaar tegen generalisatie van leerpsychologische onderzoeksresultaten naar de
onderwijssituatie komt van onderwijspsychologen als Ausubel, Novak en Hanesian (1978).
Volgens meer cognitivistische interpretaties zou het vergeetproces kwalitatief anders verlo-
pen bij verschillende soorten leermaterialen. Bij nonsense-materiaal zou het leren en verge-
ten via associatiewetten verlopen, en bij zinvol materiaal zou er een gecompliceerd proces van
assimilatie van betekenissen van oude en nieuwe kennis plaatsvinden (zie Alba & Hasker,
1983). De vergeetcurve van zinvol materiaal kan dus anders verlopen dan die voor nonsense-
materiaal.

In het onderhavige onderzoek wordt een bescheiden poging ondernomen een formele
beschrijving te geven van de vergeetcurve over een periode van tien weken in een onderwijs-
situatie. Bij deze beschrijving gaat het nadrukkelijk niet om de achterliggende processen van
vergeten en leren, en de invloeden van de leersituatie daarop. Evenmin zal het onderzoek
aanwijzingen opleveren die een uitspraak toelaten omtrent de door Van Naerssen genoemde
parameters van het tentamenmodel. Wel zullen op basis van een aantal eenvoudige en min of
meer plausibele aannamen een aantal modellen - waaronder het exponentiële en het logisd-
sche - afgeleid worden voor het verloop van de retende in de tijd. Door de passing van deze
modellen op de resultaten van het onderzoek na te gaan, kan vervolgens de plausibihteit van
een exponentiële dan wel logistische component voor het vergeten in het tentamenmodel van
Van Naerssen nagegaan worden.

Onder de noemer model valt nogal het een en ander. Uiteenlopend van ad hoe geponeerde
functies, waarvan Ebbinghaus (1885) een befaamd voorbeeld is, tot keurig opgezette axio-
matische modellen. Hier wordt voor een middenpositie gekozen. Er worden modellen in de
vorm van differentiaalvergelijkingen (d.v.) geformuleerd. Dit betekent dat op grond van
globale nader aan te geven aannamen, het verloop van het vergeten in de tijd voorspeld wordt.
Dergelijke modellen hebben niet de pretentie vergeten te verklaren maar wel een gefundeer-
de beschrijving te geven van de resultante van het vergeetproces in de tijd door middel van een
gladde continue functie.

In Tabel 1 worden een vijftal modellen voor vergeten gepresenteerd in de vorm van
differentiaalvergelijkingen met bijbehorende oplossingen. Tevens worden de restricties die
gelden voor de parameters vermeld. De hoeveelheid onthouden kennis y is in alle modellen
slechts een functie van één variabele, de tijd t. Ook bevatten de functies y een aantal
modelconstanten of parameters. Ze worden in ieder model op systematische wijze weergege-
ven door de symbolen a, b, c, d en k. In de verschillende modellen hebben deze symbolen
dientengevolge verschillende betekenissen.

De d.v. van model I ontstaat door aan te nemen dat de verandering van de kennis y in de tijd
constant is. In gelijke tijdsintervallen worden gelijke hoeveelheden kennis vergeten. De
oplossing y van de d.v. is een dalende lineaire functie van de tijd.

In model II wordt aangenomen dat de verandering van de kennis y op tijdstip t evenredig is
met de op tijdstip t aanwezige kennis y. Dit impliceert dat er, met het voortschrijden der tijd,
in gelijke tijdsintervallen steeds minder wordt vergeten. Er is immers steeds minder kennis
aanwezig om te vergeten. Door deze d.v. op te lossen vinden we dat de onthouden kennis y een
dalende exponentiële functie van de tijd is. De oplossing van model II heeft als horizontale
asymptoot de rechte y=0 als t «>. Dit betekent dat op den duur alle geleerde stof vergeten
wordt.

Model III is een variant op model II. De verandering van de kennis y op tijdstip t is nu
evenredig met y-b, een deel van de op tijdstip t aanwezige kennis. We vinden als oplossing
opnieuw een dalende exponentiële functie, maar nu met horizontale asymptoot de lijn y= b. In
dit model kan men niet alles vergeten. Er blijft altijd een zekere restkennis b over. Door b=0
te kiezen gaat model III over in model II. In de modellen I, II en III kan de evenredigheids-
constante a geïnterpreteerd worden als de vergeetparameter.

In model IV wordt net als in model II aangenomen dat de verandering van de kennis y op
tijdstip t evenredig is met de op tijdstip t aanwezige kennis y. Alleen nemen we nu aan dat de
vergeetparameter geen constante is maar zelf een functie is van de hoeveelheid kennis y op
tijdstip t. En wel een lineair dalende functie van y. De oplossing van deze d.v. is een dalende
'ogistische functie.

Tenslotte is model V weer een variant op IV net zoals III een variant was op II. De
verandering van y is nu evenredig met y-d, een deel van de aanwezige kennis, en de
vergeetparameter is een lineair dalende functie van ditzelfde deel. De oplossing is opnieuw
een logistische functie. Model IV heeft als horizontale asymptoot y= O (op den duur vergeet je
alles), model V heeft de asymptoot y= d (er blijft altijd restkennis over). Voor d= O gaat model
V over in model IV.

Model II laat zich ook als volgt interpreteren. Het percentage verandering (dy/dt)/y is
constant, immers (dy/dt)/y=-a. In model IV geldt dan dat het percentage verandering
(dy/dt)/y evenredig is met y.

I	dy
I	dt
II	dy
	dt
III	dy
	dt
IV	dy
	dt
V	dy
	dt

In Figuur 1 zijn de grafieken van de oplossingen van de verschillende modellen geschetst.
De wezenlijke verschillen tussen de vijf gepresenteerde modellen zijn als volgt samen te
vatten: in model I gaat vergeten op ieder moment in de tijd even snel, in de modellen II en III
gaat vergeten eerst snel en vervolgens steeds langzamer en in de modellen IV en V wordt eerst
langzaam vergeten, vervolgens steeds sneller en tenslotte weer steeds langzamer. Voor de
grafiek van de logistische functie houdt dit de aanwezigheid van een buigpunt in.

In het vervolg zal nagegaan worden welk van de vijf modellen de data uit het onderzoek het
beste beschrijft.

Figuur 1 Grafieken van de gebruikte lineaire, exponentiële en logistische modellen.

Als proefpersonen dienden 100 psychologiestudenten aselect getrokken uit de lijst van
deelnemers aan het eerstejaarstentamen Geschiedenis van de Psychologie (n=227). De stof
van dit tentamen bestond voornamelijk uit nieuwe feiten die weinig verband hielden met de
stof van de overige tentamens. Het tentamen werd schriftelijk afgenomen en bevatte 30
vierkeuze vragen. Ten behoeve van het onderzoek ging aan het tentamen een lijst vooraf
bestaande uit negen vragen met voorgeschreven antwoordcategorieën. Gevraagd werd on-

dermeer naar het tijdstip waarop men met de bestudering van de tentamenstof was begonnen
en hoeveel studietijd men aan dit onderdeel had besteed.

Er werden vijf nametingen verricht bij de proefpersonen: 2, 4, 6, 8 en 10 weken na het
tentamen. De toetsen bestonden steeds uit 25 vierkeuze vragen, die deels uit de itemvoorraad
van de docent kwamen en deels ten behoeve van het onderzoek waren geconstrueerd. Alle
vragen zijn tevoren door de betreffende docent beoordeeld op inhoudelijke kwaliteit en
moeilijkheidsgraad en vervolgens aselect over de tentamens verdeeld.

Het tentamen en de toetsen werden psychometrisch geanalyseerd en totaal werden drie
items als ondeugdelijk verwijderd, twee uit de eerste en één uit de derde nameting. De scores
op het tentamen en de vijf nametingen werden op de klassieke wijze voor raden gecorrigeerd
en vervolgens voor de onderlinge vergelijkbaarheid gepercenteerd (OëXê 100). Omdat de
scores voor raden gecorrigeerd zijn valt op voorhand niet uit te sluiten dat de gemeten retentie
tot nul nadert nadat er voldoende tijd verstreken is. Dit is in de modellen I, II en IV het geval.

Voorafgaand aan de analyse van de resultaten werden enkele kontroles uitgevoerd. Bij
controle met behulp van een voormeting bij een afzonderlijke groep bleken er geen aanwij-
zingen te bestaan dat aankomende studenten beschikken over enige substantiële voorkennis
Van het vak Geschiedenis van de Psychologie. Bij een tweede controlegroep, die slechts aan
twee nametingen op vier en tien weken na het tentamen deelnam, bleek dat eerdere metingen
geen aanwijsbaar effect hadden op de daaropvolgende retentiemetingen. Analyse van de
vragen omtrent studieperiode (van begin tot tentamen) en studietijd (aantal uren) leverde
geen aanwijzingen op dat deze een meetbaar effect hadden op de retentiescores. Voor alle
details met betrekking tot de uitgevoerde controles wordt verwezen naar Van Berkel (1976)
Waar een en ander uitvoerig behandeld wordt.

Doordat niet alle proefpersonen aan ieder der vijf nametingen deelnamen moest de verdere
analyse beperkt worden tot 72 van de 100 personen.

Van de 72 overgebleven proefpersonen waren per persoon 6 metingen beschikbaar: de
tentamenscore en vijf nametingen. Op individueel niveau heeft het passen van een kromme
door de data punten weinig zin. Er zit door de beperkte betrouwbaarheid van de individuele
scores te veel variabiliteit in deze data. In verband hiermee werden de proefpersonen
ingedeeld in drie groepen: een groep Hoog (n= 15) met voor raden gecorrigeerde percentuele
tentamenscore 75 g X ë 100, een groep Midden (n = 43) met 50 g X < 75 en een groep Laag
(« = 14) met O ä X < 50. De groep Laag werd verder buiten beschouwing gelaten: wie niets
weet, kan ook niets vergeten. De gemiddelde scores y op het tentamen en de vijf nametingen
staan voor de groepen Hoog en Midden in Tabel 2. In Figuur 2 worden deze data grafisch
gepresenteerd.

Op de gegevens uit Tabel 2 werden de oplossingen van de vijf in Tabel 1 gepresenteerde
modellen gepast met behulp van het SPSS subprogramma NONLINEAR. Dit programma
minimaliseert ^ (y, - YJ'^.
i'l

Hierin is N het aantal meetpunten, yj een meting en Yj de bijbehorende modelvoorspelling.
Voor model I voert het programma dus een lineaire regressie uit en voor de modellen II tot en
met V een niet lineaire regressie. De resultaten van deze analyses zijn vermeld in Tabel 3. In
deze tabel staan schattingen voor de parameters a, b, c, k en d, de kleinste kwadratensom SS,

Figuur 2 Gemiddelde score y uitgezet tegen de tijd t voor de groep Hoog (x) en de groep Midden (+).

het aantal vrijheidsgraden df en de Root Mean Square Residual (RMSR). SS is het minimum

Aangezien SS altijd af zal nemen met df is RMSJi een betere maat voor de passing dan SS. In
RMSR is gecorrigeerd voor het aantal geschatte parameters. De waarden van RMSR voor de
modellen die verschillen in aantallen parameters zijn daardoor onderhng vergehjkbaar.
RMSR is een zuivere schatter voor de standaardafwijking van Y.

We zullen nu de vijf modellen op grond van de gegevens in tabel 3 met elkaar vergelijken.
Aangezien de resultaten voor de groepen Hoog en Midden niet wezenlijk van elkaar ver-
schillen zullen we dit slechts doen voor de groep Hoog. Het exponentiële model II past slechts
weinig beter dan het lineaire model I. Model III levert een iets kléinere kwadratensom SS dan
model II, maar omdat er een vrijheidsgraad meer verioren is gegaan, is de RMSR van
model III groter dan die van model II. Het model geeft dus een minder goede beschrijving dan
model II. Overigens valt te verwachten dat als het aantal meetpunten wat groter is en het
veriies van een vrijheidsgraad daardoor relatief minder van invloed is, dat model III iets beter
zal passen dan model II.

Tabel 3. Parameterschattingen en kleinste kwadratensom voor de passing van de vijf modellen in de
groepen Hoog en Midden.

Model IV is een logistische functie. De coördinaten van het buigpunt zijn (- -y ln k, y-).
Deze functie blijkt het best te passen voor een waarde van k die groter is dan één. Hieruit volgt
dat - ln ^ negatief is en het buigpunt links van de y-as ligt. De passing van de logistische
functie op de data is dus optimaal voor dat gedeelte van de functie dat rechts van het buigpunt
ligt. Er valt dan geen verbetering t.o.v. een exponentieel model te verwachten. Dit kan ook
ingezien worden door in model IV de geschatte waarden van de parameters in te vullen:
^ ^ 13212,19 ^ 13212,19 ^ ^^

Het invullen van de geschatte parameterwaarden in model II levert:
y = 84,16 c-0.00643(.

Model IV is vrijwel identiek aan model II. Dit blijkt ook uh SS die resp. 50,06 en 50,05 is.
Maar model IV gebruikt een parameter meer dan model II en daarom valt uit overwegingen
van zuinigheid model II te verkiezen boven model IV. Model IV is ook gepast onder de
beperking k^ 1. Het buigpunt wordt dan wel aangenomen voor t S 0. Dit levert b =
0,01094, c = 167,1, k = 1 (zoals te verwachten valt), SS = 52,94 en RMSR = 4,20.

Model V, de logistische functie met additieve constante past beduidend beter dan alle
andere modellen. Het feit dat model V het wel beter doet en model IV niet, valt als volgt te
Verklaren. Uit Figuur 2 blijkt dat de data een buigpunt bezitten. Dwingen we model IV om een
buigpunt aan te nemen voor een waarde van t ^ O door de restrictie O < A: ^ 1 op te leggen, dan
Valt de functie rond dit buigpunt te snel van de horizontale asymptoot y = c (f - oo) naar de
horizontale asymptoot y = O (r oo) om goed op de data te kunnen passen. Voor model V

is dit probleem uit de wereld omdat dit model de asymptoten y = c en >> = d heeft waarbij rf een
waarde groter dan nul aan kan nemen. Samenvattend: de vergeetcurve wordt het best
beschreven door de logistische functie uit model V.

Het verzamelen van voldoende meetpunten is een probleem. Men kan de studenten niet om
de haverklap terug laten komen om ze weer een retentietoets af te nemen. Ook zou in dat
geval de uitval te groot worden. De consequentie hiervan is dat er slechts zes meetpunten zijn.
Past men hierop functies met meer dan twee parameters dan kan niet verwacht worden dat de
schattingen van de parameters erg betrouwbaar zijn. Dit geldt in het bijzonder voor het best
passende model V dat vier parameters bevat. De goede passing is sterk afhankelijk van de
ligging van het tweede meetpunt. Slechts herhaald onderzoek kan duidelijk maken of ook dan
het vergeten pas enkele weken na het afleggen van het tentamen begint. Voorlopig kan niet
uitgesloten worden, ook al zijn de vragen aselect over de toetsen verdeeld, dat de eerste
retentiemeting door ditzelfde toeval uit overwegend eenvoudiger vragen bestond.

Ook al past model V van de onderzochte modellen het best op de meetgegevens, dit
impliceert natuurlijk niet dat de logist in alle gevallen een adequate beschrijving van het
retentieniveau oplevert. Er zijn tal van oorzaken zoals andere stof, andere proefpersonen en
een andere meetperiode die kunnen leiden tot een andere vergeetcurve. Bovendien dient niet
uit het oog verloren te worden dat het vergeetproces van een groep beschreven is.

Onder de genoemde beperkingen vallen enkele conclusies te trekken uit het feit dat model

V het best past. In de eerste plaats is de verandering van de hoeveelheid kennis in de tijd ^

niet evenredig met y maar mety-d. Een deel d van de geleerde stof wordt tijdens de periode
van 10 weken na het tentamen niet vergeten maar blijft hangen. In de tweede plaats is de
evenredigheidsconstante (de vergeetparameter) geen constante maar een functie van de
hoeveelheid kennis en daarmee een functie van de tijd t. Een en ander resulteert erin dat men
aanvankelijk langzaam vergeet, daarna steeds sneller en tenslotte weer langzamer. Er treedt
stabilisatie op bij het niveau y = d. Oi het hier om blijvende restkennis gaat, valt niet te
zeggen. Er is immers slechts gemeten over een periode van 10 weken.

Men zou zich af kunnen vragen of ieder ander model dat 4 parameters bevat niet evengoed
zou passen op de 6 meetpunten. Om dit na te gaan is het polynoomy = a + bx + cx^ + dx^ ook
op de data gepast. Voor de groep Hoog levert dit SS = 24,70 en RMSR = 3,51, voor de groep
Midden SS = 22,00 en RMSR = 3,32. Vergelijking met de resultaten uit Tabel 3 laat zien dat
de logist het wezenlijk beter doet dan een polynoom met 4 parameters.

Opvallend is verder dat het exponentiële model nauwelijks beter past dan het lineaire
model. Zoals in de inleiding opgemerkt, treft men in de literatuur nogal eens het exponentiële
model aan als beschrijving van het vergeetproces. Voor door proefpersonen geleerd nonsens
materiaal zal dat wel correct zijn. Het ligt voor de hand dat men dit materiaal snel en volledig
vergeet. Maar uit het hier uitgevoerde experiment blijkt dat h,et exponentiële model een
beschrijving levert voor het vergeten van getentamineerde leerstof, die nauwelijks te prefe-
reren valt boven het eenvoudiger lineaire model. De data worden echter goed beschreven
door een logistisch model. Of het vergeten van zinvolle leerstof altijd passend te beschrijven
valt met een logistisch model zal verder onderzoek moeten uitwijzen.

Alba, J.W., & Hasker, L. (1983). Is memory schematic? Psychological Bulletin, 93, 203-231.
Ausubel, D.P., Novak, J.D. & Hanesian, H. (1978). Education psychology; A cognitive view (2nd ed.)

New York: Holt, Rinehart & Winston.
Berkel, H. M. van (1976). Vergeetkurven in een onderwijssituatie. Intern rapport. Amsterdam: Subfa-

cu ïit Psychologie, Universiteit van Amsterdam.
Ebbinghaus, H. (1885). Über das Gedächtnis. Untersuchungen zur experimentelen Psychologie. Leipzig:
Duncker & Humblot.

Naerssen, R.F. van (1970). Over optimaal studeren en tentamens combineren. Openbare les. Amsterdam;
Swets & Zeitlinger.

Naerssen, R.F. van (1971). Een model voor tentamens. Nederlands Tijdschrift voor de Psychologie en

haar grensgebieden (DPO), 26, 121-132 en 551-559.
Naerssen, R.F. van (1974). A mathematical model for the optimal use of criterion referenced tests.

Nederlands Tijdschrift voor de Psychologie en haar grensgebieden (DPO), 29, 431-445.
Naerssen, R.F. van (1976a). Het derde tentamenmodel met een toepassing. Tijdschrift voor Onderwijs-
researchll, 161-171.

Naerssen, R.F. van (1976b). Over het nut van een Tentamenmodel. Tijdschrift voor Onderwijsresearch,
1, 278-280.

Naerssen, R.F. van (1978). A systems approach to examination./In/iafa of Systems Research, 7, 63-72.

Van Naerssen (1967) proposed an item selection index ƒ for objective tests. The index ƒ gives the
contribution of the items to the signal-noise ratio F of the test. For homogeneous tests it can be
shown that 2/equals the F of the test. For nonhomogeneous tests this is not true. However, if the
number of items in a test is not too small - say, 15 or more - it is approximately true. Therefore, ƒ is
a useful item selection index for tests of usual length.

In de klassieke testtheorie vindt itemselectie gewoonlijk plaats op grond van de indicesp,, de
fractie personen die het item goed maakt, en r,„ de itemtestcorrelatie. Van Naerssen (1967)
stelt een selectie-indexvoor die gebaseerd is op de signaal-ruisverhouding F van de test. Dit
is de verhouding tussen de ware en de foutenvariantie. De index/) wordt door Van Naerssen
als volgt gedefinieerd:

Hierin is f, de signaal-ruisverhouding van de test na verwijdering van item i. De itemindex ƒ)
meet dus de bijdrage van item i aan de signaal-ruisverhouding van de test.

In de klassieke testtheorie is de testvariande gelijk aan de som van de ware en de fouten-
variantie, terwijl de betrouwbaarheid r„ van de test gelijk is aan het quotiënt van de ware
variantie en de testvariande. Uit deze aannamen en de definitie van F volgt:

Hierin is r„_, de betrouwbaarheid van de test na verwijdering van item i. De betrouwbaar-
heidscoëfficiënten r„ en r„_i worden berekend met de Kuder-Richardson formule 20:

Van Naerssen noemt drie belangrijke eigenschappen vanals itemselectie-index:
1- de schaal van de /-waarden heeft een relevant nulpunt; een item verhoogt de test-
betrouwbaarheid dan en slechts dan als de /-waarde van het item positief is.
2. fi is de bijdrage van item i aan de signaal-ruisverhouding F van de test.
3- fi is onafhankelijk van de testlengte.

Om deze redenen, aldus Van Naerssen, is/een betere index dan vele andere indices, die in de
literatuur genoemd worden. Dit alles geldt natuurlijk voor zover men een homogene test
nastreeft. De KR-20 meet immers de interne consistentie.

In de klassieke testtheorie is het gebruikelijk zodanige eisen aan Pi, /•„ of/ op te leggen dat
de testvariantie maximaal wordt. De toets zal dan over het gehele latente continuum goed
meten. Dit impliceert dat de itemselectie coëfficiënten p„ rj, en / vooral geschikt zijn in het
kader van norm-georiënteerd meten, waarbij men de relatieve positie van een examinandus in
de populatie of de norm groep wil bepalen. Studietoetsen worden echter ook vaak gecon-
strueerd met als voornaamste doel een verantwoorde zak-slaag beslissing te kunnen nemen.
De toets moet dan vooral goede metingen opleveren in het deelgebied van het continuum
rond de grensscore. Van belang is nu niet de relatieve plaats van de examinandus in een groep
maar zijn absolute positie op het continuum en wel in het bijzonder, of die onder of boven de
grensscore ligt. Deze vorm van toetsgebruik valt onder het criterium-georiënteerd meten. Bij

de selectie van items voor een criterium-georiënteerde studietoets zullen andere normen
aangelegd moeten worden dan bij de selectie voor een norm-georiënteerde test. Bij een
criterium-georiënteerde studietoets zal men bijvoorbeeld items op willen nemen die goed
meten in het deelgebied van het continuum rond de zak-slaag grens. Dit betekent dat de
klassieke itemselectie procedure op grond van p, en minder geschikt is voor gebruik bij
criterium-georiënteerd toetsen. Mellenbergh en Van der Linden (1982) laten echter in een
artikel over de selectie van items zien dat in een besliskundig kader de index/) bruikbaar is
voor de selectie van items voor criterium-georiënteerde tests. Zij besluiten hun ardkel met de
zin: 'It, therefore, deserves new attention from those engaged in criterion-referenced testing'.
In dit ardkel wordt deze aansporing opgevolgd en zal een belangrijk aspect van de itemselecde
coëfficiënt ƒ) van Van Naerssen, die dus zowel geschikt is voor norm- als voor criterium-
georiënteerd gebruik, nader onderzocht worden.

Om interpreteerbaar te zijn als itemselectie-index moet/) opgevat kunnen worden als de
bijdrage van item / aan de signaal-ruisverhouding F van de test. Wanneer de som van de/;'s
van alle items in de test gelijk is aan de F van de test is hieraan voldaan. Voor een homogene
test bestaande uit parallelitems geldt dit. Immers, het invullen vaniy^ = c en /-y^t = «i (/ = 1,2,...,
n-,k= 1,2, ..., n;c end constanten) in formule (4) levert:

Voor niet homogene tests is het minder evident. Van Naerssen schrijft: 'Dat dit ook het geval
is bij niet-homogene tests kan misschien theoretisch afgeleid worden uit (3), (4) en (5), maar
blijkt, hoe dan ook, nauwkeurig juist te zijn bij tentamens waarbij we de fi's berekend
hebben'.

Deze zin zet aan het denken. En één ding is zeker. Van Naerssen zal stellig zijn uiterste best
gedaan hebben om het bewijs te leveren! Het invullen van (4) en (5) in (3) en vervolgens
sommeren over i leidt echter tot gruwelijk ingewikkelde expressies. Analytisch lijkt het een
onmogelijke opgave. Wel overviel mij bij het gepruts met de zeer gecompliceerde uitdrukkin-
gen al snel het gevoel dat het gewoon niet waar is. Het hgt dan voor de hand om een
tegenvoorbeeld te construeren. In de volgende paragraaf worden enkele tegenvoorbeelden
gegeven.

Tabel 1 bevat de variantie-covariantie matrix van een toets bestaande uit drie items.

Het volgende tegenvoorbeeld betreft de variantie-covariantie matrix uit Tabel 2. Deze is
ontleend aan Ferguson (1976, p. 412).

Zoals uit de tegenvoorbeelden blijkt, geldt de relatie 2/j = F niet bij het gebruik van een
gering aantal items in de toets. Voor de drie-item studietoets van Koele (1982) is fi een
onbruikbare itemselectie coëfficiënt. Van Naerssen zal daar niet mee zitten, hij vindt drie
'tems in een studietoets onacceptabel (mondelinge mededeling). Wat er gebeurt bij toene-
mende n vak moeilijk met verdere voorbeelden te illustreren omdat het rekenwerk zeer
omvangrijk wordt. Daarom worden in Tabel 3 van een aantal recente tentamens Xf en F
vermeld. De coëfficiënten zijn berekend met het standaard item-analyse programma van de
Universiteit van Amsterdam.

Uit Tabel 3 blijkt dat 2 f met toenemende n meer en meer gelijk wordt aan F. Vanaf, zeg,
" = 15 geldt Hfi == F. Aangezien men in de praktijk gewoonlijk meer dan 15 items in een test
opneemt, kan zeer wel als selectie-index dienen.

Achteraf bezien is het ook begrijpelijk dat voor niet homogene tests 2 f ongelijk is aan F.
Immers, de betrouwbaarheden in de formules (2) en (3) worden berekend met de formules
(4) en (5) en deze gelden slechts voor homogene tests bestaande uit parallelitems. Toegepast
op niet homogene tests leveren de formules (4) en (5) een onderschatting op van de be-
trouwbaarheid r„ (Lord & Novick, 1968, Ch. 4). Vooral bij een gering aantal items zal de
onderschatting bij de bepaling van r„_, heel anders uit kunnen pakken dan bij r„ en kan men
niet verwachten dat 2/; gelijk zal zijn aan F.

Dat Hfi voor grotere waarden van n en niet homogene tests wel ongeveer gelijk is aan F is
hiermee nog niet aangetoond. Door (4) en (5) in te vullen in (3), te sommeren en hier en daar
wat te benaderen valt het wel in te zien. Maar het blijft een hele rekenpartij en wordt daarom
niet opgenomen. Moge Tabel 3, de empirie, voor zichzelf spreken.

Van Naerssen (1967) en Mellenbergh en Van der Linden (1982) hebben aangetoond dat de
coëfficiënt/; een geschikte itemselectie coëfficiënt is. Dat behoeft hier verder geen betoog. De
veronderstelde relatie 2ƒ) = F blijkt in zijn algemeenheid echter niet te gelden. Maar in de
praktijk levert dat geen problemen op zolang men maar voldoende (tenminste vijftien) items
in de test opneemt. Dat geldt de relatie bij benadering. Wel dient steeds bedacht te worden dat
men met fi items selecteert op interne consistentie.

Ferguson, G.A. (1976). Statistical analysis in psychology and education (4th ed.). Tokyo: McGraw-Hill
Kogakusha.

Koele, P. (1982). De drie-item studietoets. In W.P. van den Brink & P. Koele (Red.) Statistiek voor
Psychologen: Een bundel artikelen aangeboden aan Jan C. Spitz. Amsterdam: Psychologisch
Laboratorium, Universiteit van Amsterdam.
Lord, F.M., & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-
Wesley.

Mellenbergh, G.J., & van der Linden, W.J. (1982). Selecting Items for Criterion-Referenced Tests.

Evaluation in Education: An International Review Series, 5, 177-190.
Naerssen, R.F. van (1967). Itemselectie bij Studietoetsen, een nieuwe benadering. Nederlands Tijd-
schrijft voor de Psychologie, 22, 345-359.

Lord (1977) presented some results on the optimal number of alternatives in multiple choice tests
on basis of a theoretical study with the three-parameter logistic model. As he acknowledges, these
results can be invalid when examinees have partial information. Here some models for partial
knowledge will be discussed. They will be compared in an intuitive way with the three-parameter
logistic model in connection with the problem of the optimum number of alternatives.

Multiple choice tests with two or three alternatives per item are supposed to be less accurate
than tests of similar length with four or five alternatives per item, due to the fact that the
former are more prone to guessing. This detrimental effect can be compensated by lengthen-
ing the tests when the number of alternatives is diminished. Because reading of items with a
smaller number of alternatives generally takes less time, longer two- or three-choice items
tests can be constructed given a fixed testing time.

Under the assumption that reading time is largely determined by the total number of
alternatives in the test, the number of alternatives per item times the number of items. Lord
(1977) concluded in a theoretical study that a decrease in number of alternatives per item with
a concurrent increase in the number of items results in a higher test efficiency with respect to
high level examinees and a lower efficiency with respect to low level examinees. Van den
Brink (1979,1982) studied the same problem within the context of mastery decision making.
He found that two- and three-alternative items are preferable to four- and five-alternative
items. In his study the low abihty range was not considered, so his results are essentially in
agreement with those of Lord. Van den Brink found that four-choice item tests sometimes
Were more efficient when reading of item stems is assumed to have a real impact on test taking
time (Van den Brink, 1982).

Another relevant study is a theoretical study by Van Naerssen (1979). This study differs
from the others in an interesting way and its results will be given more attention below.

The studies by Lord and Van den Brink were based on the simple 'knowing or guessing' model
for the probability of a correct answer on a A:-alternative item,

where p is the probabihty of a correct answer when guessing is not involved and a{k) is the
guessing parameter. Both Lord and Van den Brink, who actually assumed that a{k) is also a
function of examinee abiUty, used a{k) = k'^ in their actual computations.

In Lord's study the probabilities p varied across items. More specifically, it was assumed
that the p's were two-parameter logistic functions of latent ability 6:

where index i designates item i,D is a scaling constant equal to 1.7, and a, and fe, are the item
discrimination and difficulty parameter, respectively. Van den Brink used the binomial model
in connection with (1), generalizing over items.

It is important to notice that in order to obtain (1) with a{k)=k-^ two assumptions are
necessary. First, the lower asymptote ofp(0) as a function of 9 is set equal to fc-' which means
that very low ability examinees guess randomly. In many applications of item response theory
the lower asymptote is just another parameter, c„ to be esfimated along with a, and 6,. For this
reason Lord calls this parameter the pseudochance score level. Secondly, it is assumed that
p(9) is not affected by a change in the number of alternatives. With the specification in (2) this
means that the a, and ft, are invariant under elimination of distractors.

Lord remarks that the a's are likely to change with the number of alternatives if partial
information is available. This kind of information certainly plays a role as may be inferred
from the differential attractiveness of item distractors. In such a situation it seems wise to
eliminate the least discriminating distractor when a reduction of the number of choices per
item is considered. This point is made by Lord and Van den Brink. But doing so, (1) certainly
is not satisfied. To take an extreme example, when the distractor which is eliminated, does not
function in the relevant subpopulation, the effectiveness of the item is not affected. Several
models for partial knowledge are conceivable. An early model is the one proposed by
Chernoff (1962). This model rests upon a rather implausible assumption. It will not be
discussed here, but three other models will be.

In a section of his article on the optimum number of alternatives Van Naerssen (1979)
considered two-choice items and four-choice items which are combinations of two-choice
items. These item types will be discussed here. Three-choice items, which cannot be properly
constructed from two-choice items, will not be discussed.

The item stem of the four-choice item could consist of two statements I and II and the
choices could be a) only I is true, b) only II is true, c) I and II are both true, d) neither I nor II is
true. In this item type the corresponding two-choice items are actually of the true-false type.
Another example of a pair-item, given by Van Naerssen, is:

Dropping the subscript for the item, the probability of a correct answer on a four-choice item
can be written as

where^.4(6) andPfl(6) are the probabilities correct on the two corresponding two-choice items
when guessing is not involved. Although the model does not differ from the simple 'knowing
or guessing' model on the level of the two-choice items, partial information is involved on the
level of the four-choice items; an examinee who knows the answer to one of the underlying
two-choice items, can reduce the number of relevant alternatives from four to two.

Van Naerssen made the same assumption as Lord concerning reading time, an assumption
which for this type of item seems quite reasonable. He concluded for equivalent two-choice
items that a two-choice test is preferable to the corresponding four-choice test for all ability
levels. This conclusion can safely be generalized to nonequivalent two-choice items: in the
scoring of four-choice items information is neglected with respect to examinees who choose
distractors corresponding to a correct answer on one of the two-choice items.

The resuhs of Van Naerssen deviate from those obtained by Lord. The reason for this
discrepancy is clear. In the former model (1) is violated. The item characteristic curves (ICC's)
of the two-choice items in the Van Naerssen model cannot have the same shape as the ICC's of
the four-choice items. For example, when the two-choice items have three-parameter logistic
ICC's, the ICC's of the four-choice items are not three-parameter logistic. Because of the fact
that the three-parameter logistic model is generally applied as a latent trait model, it can be
useful to rephrase the conclusion which has been reached: perhaps it is possible to fit both
two-choice ICC's and four-choice ICC's by three-parameter logistic curves, but then the a's
and B's of the four-choice items are not invariant under the elimination of distractors. This
point will be demonstrated with the help of an example.

Two two-choice item ICC's belonging to the class of the three-parameter logistic curves
were chosen, with

For the second two-choice item two values of 6* were considered: b*= -2 andfc*=0. So, two
different four-choice items could be constructed according to (3). These pair-items were fitted
by three-parameter logistic curves for two different distributions of 0:

I. /(e=-3.O)=O.ll,/(e=-2.5)=O.12,/(0=-2.O)=O.17,/(e=-L5)=O.2O,
/(e=-1.0)=0.17,/(e=-0.5)=0.12,/(0=O.O)=O.ll; so m=1.5

II. This distribution was identical to the first except for a shift to the right of L5 points; so for
this distribution |ie=0.0.

The item characteristic curve p*(4)(0) was approximated by a three-parameter logistic curve
P(0; a, b, c) through the minimization of the mean squared error,

with respect to the three parameters«, b andc. In (4) the errorp*(4)(e) -p(6; a, b, c) in each of
the seven classes of the distribution of 9 is squared and weighted by the corresponding
frequency /(9). The resulting estimates a, band c for the various combinations of fc * and p are
given in Table 1. For all cases a good fit was obtained; for fc*=-2 this can be verified in Figure
1. Further, from Table 1 one can see that the d's and d's are different from the parameters of
the original two-choice items or the averages of these parameters. This confirms the earlier
remarks about the lack of invariance of the item parameters under elimination of distractors.

There are some other interesting facts to be found in the table. While the parameter estimates
for i>*=0 are nearly equal for both distributions which suggests that the true ICC has a close
resemblance to a three-parameter logistic curve, those for b*=-2 are quite different. The
corresponding ICC's for/?*=-2 (cases I and II) are wide apart for extreme values of 9, as can
be verified in Figure 1. In the distribution with relatively high abilities the four-choice item

seems to behave more hke a two-choice item, due to the easiness of one of the two-c..w.v,^
items. Further, one notices that high a-values correspond to high 6-values. A positive
correladon between a's and b's has been found previously (Lord, 1975) and it is perhaps not
too farfetched to assume that this happens under certain violations to the three-parameter
logistic model as in this example.

Both the Chernoff model and the pair-item model of Van Naerssen allow the elimination of
distractors. Another model with distractor elimination is a model in which there is a proba-
bility to correctly identify the correctness or incorrectness of each alternative separately. For
example, in the item:

it is possible to identify Rangoon as the capital of another country and therefore to correctly
eliminate this alternative. When pg(6) is the probability of correctly identifying the correct
alternative, andandPb(0) are the probabilities of correctly identifying the distractors of
a three-alternative item, the probability correct is

(0) = PA (8)Pb (6) -I- 'hp^ (e) n-ps (6)] +V2Pb (0) [1-p^ (0)] +
'/3[1-P^(6)][1-Pz,(6)]. (6)

Here c(6) has a minimum of Vj and a maximum of 1. When both distractors are very difficult in
the relevant ability range, c becomes equal to '/}. When one of the distractors is very difficult
and the other is very easy, c(0) becomes equal to V2 and the item behaves like a two-choice
item. In the latter case there is no measurement detonation when the easy, thus unpopular,
alternative is eliminated. For such items one would be much better off with two-choice item
tests.

Bock (1972) suggested a model for nominal categories in the context of achievement test data
where guessing was discouraged. In this model the probability that an examinee with ability 0
chooses alternative j from k alternatives - dropping the subscript for the item - is given by

226 Some Reflections on How Many Choices to Choose in Multiple Choice Tests
where

The quantities dj and e, are parameters associated with the j- th category of the item. There are
1 categories, one 'omit' category. In an application. Bock combined unattractive alterna-
tives. So, the number of categories he worked with, was smaller than A^+1.

A plausible interpretation of this model is that each alternative gives rise to a response
tendency and the alternative with the highest response tendency is chosen. As 0 goes to
infinity, the response probability of the category with the highest value of e approaches one.
Similarly, as 0 goes to minus infinity, the probability of the category with the lowest e goes to
one. In Bock's application the highest e-values corresponded to the correct alternative, as it
should be. The lowest e-values corresponded to the 'omit' category.

It seems plausible to assume as a first approximation that examinees who omitted an item,
would choose the correct alternative with a success probability equal to k'^ when encouraged
to guess (see, however. Cross and Frary, 1977). Under this assumption the ICC of an item
would be equal to

whereg designates the correct category ando the category 'omit'. This probabihty generally is
not monotonously increasing in 0: whilep*(*)(0) equals k'^ for 0=-'»,p*(t)(0) can be smaUer
than k-^ for other values of 0, an effect noticed previously by Samejima (1979).

For one of the five-alternative items in the study, by Bock the estimated item parameters are
given in Table 2. Using Equations 7, 8 and 9 (with k=5), the ICC of Figure 2 was obtained.
The two other curves are three-parameter logistic approximations to this ICC in two different
examinee populations, one approximation - with a=1.470,6=0.914andc=0.162- accurate
in the neighbourhood of 0=-l .0 (I), the other - with a=0.805,6 = 0.757 and c=0.0 - accurate
in the neighbourhood of 0=0.5 (II).

From case II it is obvious that the estimated pseudo-guessing parameter c of the three-para-
meter logistic model can be lower than k'^ due to a misfit of the three-parameter model. This is
an interesting observation since estimated c's are frequently lower than In such cases the
conclusion has been that the probability of guessing correctly is lower than expected in the
random guessing model because of attractive distractors for low ability examinees.

The model for nominal categories cannot be written in terms of (1). The effect of ehmi-

nating an alternative generally depends on the range of 9-values where this alternative is most
attractive and the relative attractiveness of the alternative for these G-values.

it is possible that an examinee obtains an answer and then checks whether one of the
alternatives matches it. It seems plausible that the examinee guesses among the alternatives
when none of the available alternatives results in a match.

Suppose that such a three-choice item is available with item parameters as given in Table 2
(the third choice corresponding to 'the other distractors combined'). The 'omit' category
results in random guessing according to (9). When the third alternative is eliminated, a
two-choice item results, with

in other words, the response tendency corresponding to the eliminated alternative, ^3(8), is
converted to random guessing. Model probability (10) can be compared with the two-choice
probability derived according to (1), p'*(2)(8). Alternatively, one can compare the arcsine

transform Y=arcsin(p*(2))''' with the arcsine transform ofp'^(2),Y'- This has a distinct advan-
tage: the slope of y' as a function of y, y' =/(y). gives the relative information of the two-choice
item according to (1) with respect to the model two-choice item (see De Gruijter, 1982,
p. 62-63).

From Figure 3 it is clear that y' exceeds y over nearly the whole relevant range of y: p
exceeds the model probability of the two-choice item. Further, forp ♦(2) smaller than, say, 0.75
the slope of f{y) exceeds one: for the corresponding range of 9 the information as estimated
from (1) exceeds the model information. Similarly, in this example the information of the
two-choice item is underestimated for high values of 0.

The conclusions of Lord (1977) and Van den Brink (1982) with respect to the optimal number
of alternatives per item are not generally true when partial information is involved in
answering multiple-choice items. For example, compared with four-choice pair-items two-
choice items are more efficient overall. Also in other models the relative efficiency of
four-choice and two-choice items may differ from the theoretical results of Lord and Van den
Brink; to which extent this will be so, is a matter of further empirical investigation.

The results in this contribution have some importance in a broader context also. It has been
shown that the three-parameter logistic model may fit in different relevant subpopulations
with different item parameter estimates when the model is not true. Of course the very
important invariance property of this model - and other latent trait models as well - only
applies when the model is true.

Bock, R.D. (1972). Estimating item parameters and latent ability when responses are scored in two or
more nominal categories. Psychometrika, 37, 29-51.

Chernoff, H. (1962). The scoring of multiple choice questionnaires, /l/ina/i of Mathematical Statistics, 33,
375-393.

Cross, L.H., & Frary, R.B. (1977). An empirical test of Lord's theoretical results regarding formula
scoring of multiple-choice tests. Journal of Educational Measurement, 14, 313-321.

De Gruijter, D.N.M. (1982). Tentamineren en beslissen. SVÓ-reeks nr. 63. Harlingen: Flevodruk.

Lord, F.M. (1975). The 'ability' scale in item characteristic curve theory. Psychometrika, 40, 205-217.

Lord, F.M. (1977). Optimal number of choices per item - a comparison of four approaches. Journal of
Educational Measurement, 14, 33-38.

Samejima, F. (1979). A new family of models for the multiple-choice model. Research Report 79-4,
University of Tennessee, Knoxville, TN.

Van den Brink, W.P. (1979). Het optimale aantal alternatieven per item. Tijdschrift voor Onderwijs-
research, 4, 151-158.

Van den Brink, W.P. (1982). Binomiale modellen in de testleer. Unpublished doctoral dissertation.
Amsterdam.

Van Naerssen, R.F. (1979). Optimum number of choices in parallel item tests. Tijdschrift voor Onder-
wijsresearch, 4, 145-150.

Een Interpretatie van de Viervelden Correlatie,
en een Nagekomen Commentaar op de
Taylor-Russell-tabellen

Instituut voor Persoonlijkheids-Psychologie, Rijksuniversiteit Groningen
ABSTRACT

An Interpretation of the Fourfold Point Correlation, and a Late Commentary on the Taylor &
Russell Tables

The fourfold poinrcorrelation rphi is demonstrated to be proportional to the difference between
fx, the proportion of potentially successful applicants that are selected, and fO, that proportion
upon rphi = 0. A by-product of this result is that rphi can be made equal to 1 even if the marginal
proportions differ, namely by taking fx = fO + Vp q r s, where p, q, r, and s are the marginals;
albeit at the cost of accepting a negative cell frequency representing 'anti-individuals'. A more
important consequence of the linear interpretation of rphi is that utility and correlation are
proportional also in the case of dichotomous criteria. This finding contradicts the classical result of
Taylor and Russell (1939). That result, however, was based upon the use of the tetrachoric
correlation instead of rphi. With dichotomous criteria it is preferable to express the validity in rphi,
because of simplicity and better correspondence with the results of Brogden (1946) and Cronbach
and Gleser (1965), and to put aside the Taylor and Russell tables. In doing so, a misunderstanding
about the optimal selection ratio is also eliminated.

In deze notitie wordt gedemonstreerd dat de vierveldencorrelatie rphi recht evenredig is met
het verschil tussen fx, de proportie toegelaten geschikte personen, en fO,' de proportie
toegelaten geschikte personen bij rphi = 0. Een bijproduct van dit resultaat is dat ook bij
ongelijke randproporties rphi = 1 gemaakt kan worden, nl. door fx te stellen op fO + Vpqrs,
waarbij p, q, r en s de randproporties zijn, zij het dat er een negatieve cel ontstaat gevuld met
anti-individuen. Een belangrijker consequentie van de lineaire interpretatie van rphi is dat
ook bij dichotome criteria het nut van de selectieprocedure en rphi recht evenredig zijn. Deze
bevinding is in strijd met het klassieke resultaat van Taylor en Russell (1939). Dat resultaat
echter berust op het feit dat deze auteurs de tetrachorische correlatie gebruikten in plaats van
rphi. Bij dichotome criteria is het verkieslijk jJe validiteit uit te drukken in rphi, vanwege de
eenvoud en de betere aansluiting bij de resultaten van Brogden (1946) en Cronbach en Gleser
(1965), en de tabellen van Taylor en Russell terzijde te leggen. Daarmee verdwijnt tevens een
bron van misverstand omtrent de optimale selectieratio.

De vraag is hoe men direct kan aflezen hoe hoog de correlatie (rphi) in deze tabel is. Het
antwoord luidt: (a) bepaal voor de linksbovenste cel fO, dat is de proportie die zou zijn
geresulteerd bij rphi = 0. Men kan dat doen door de betreffende randtotalen met elkaar te
vermenigvuldigen of, inzichtelijker, ervan uit te gaan dat bij rphi = O de succesratio gelijk is
aan de toevalskans (.60), en dus de proportie toegelaten geschikten vinden als .60 maal de
proportie toegelatenen (.60). Gevonden wordt fO = .36. (ft) Bepaal fmax, de proportie die in
diezelfde cel zou zijn geresulteerd bij rphi = 1. Die proportie is uiteraard .60. (c) Kijk hoe de
geobserveerde proportie fx = .44 inligt tussen fO = .36 en fmax = .60. In dit geval ligt fx op
éénderde van de afstand tussen fO en fmax; rphi is dan ook .33. Formeler gezegd: bij identieke
randtotalen is

Het bewijs van deze stelhng wordt overgelaten aan de lezer. Als de randtotalen niet gelijk zijn,
is de maximale waarde die rphi kan bereiken gelijk aan phimax < 1; ook in dat geval echter
blijkt rphi recht evenredig te zijn met de toename in het aantal toegelaten geschikte personen:

Zoals verderop zal bhjken, heeft deze interpretatie van rphi praktische implicaties in
verband met de relatie tussen vahditeit en nut van een selectieprocedure. Alvorens over te
gaan tot de bespreking daarvan, vwl ik echter een bijproduct vermelden dat voorzover ik kan
overzien geen enkel nut en zelfs geen enkele zin heeft.

De vraag is hoe de cellen kunnen worden ingevuld zodanig dat rphi = 1 wordt. Gegeven de
randtotalen is de maximale proportie in de hnksbovenste cel uiteraard .20; de bijbehorende
phimax is .167. Bij rphi = O is fO = .18. Het verschil tussen fmax en fO is .02. Dat verschil

moeten we met 6 vermenigvuldigen als we rphi van. 167 naar 1 willen brengen, dus fx moet. 18
+ .12 = .30 worden; de overige proporties liggen dan vast:

In deze tabel blijkt inderdaad rphi = 1 te zijn. In de linksonderste cel staan nu enige
anti-individuen. Meer in het algemeen kan men rphi naar 1 tillen door fx te stellen op fO +
Vp q r s, waarbij p, q, r en s de randproporties zijn.

In een situatie waarin geschiktheid een dichotome variabele zou zijn, inplaats van een
continue, zou men geneigd zijn het nut van een selectieprocedure te definiëren als recht
evenredig met de proportie van geschikte personen die extra wordt toegelaten (c.q. onge-
schikten die extra worden afgewezen, en met de vermindering in de proportie van missers van
beide soorten). Met die proportie is ook rphi recht evenredig; bijgevolg zijn nut en rphi recht
evenredig met elkaar.

Deze conclusie harmonieert met de inmiddels klassieke stelling (zie Brogden, 1946; Cron-
bach & Gleser, 1965, p. 37) dat in het geval van continue criteriumscores het nut van een
selectieprocedure proportioneel is aan de validiteitscoëfficiënt (of een lineaire functie daar-
van als de kosten in de beschouwing worden betrokken), en dat indexen als r^ of 1 - Vl -r^
van nul en gener waarde zijn bij het interpreteren van de bijdrage van zo'n procedure. Of
beter gezegd: de conclusie met betrekking tot rphi is gewoon een speciaal geval van de
klassieke stelling, want in de afleidingen daarvan staat nergens te lezen dat de scores niet
dichotoom mogen zijn.

Niettemin is er op z'n minst een schijnbare tegenspraak tussen dit resultaat en de veelgeci-
teerde bevinding van Taylor en Russell (1939) dat correlatie en nut niet recht evenredig zijn.
Curtis en Alf (1969) voeren uitgebreide bewerkingen uit op de Taylor-Russell-tabellen. Hun
conclusie is dat 'The curves relating r and proportion satisfactory are very nearly linear when r
varies between zero and .70' (p. 239), maar dus niet perfect lineair.

Drenth (1975, p. 325) oppert een verklaring voor de discrepantie: 'De reden hiervan is dat
Taylor en Russell uitgegaan zijn van het vaak niet reële geval dat iedereen die aan de
minimumstandaarden voldoet voor de organisatie van evenveel waarde is. Meestal zal er
echter ook bij hen die boven de kritische criteriumscore liggen een toename in nuttigheid voor
de organisatie zijn bij een toenemende criteriumprestatie'. Drenth zoekt dus de verklaring
voor de tegenspraak in het feit dat Taylor en Russell het criterium dichotomiseren. Drenths
verklaring is in overeenstemming met een passage bij Cronbach en Gleser (ibid., p. 50 e.v.)
die merkwaardigerwijs eveneens het verschil tussen Taylor en Russell en Brogden ophangen
aan de dichotomisering van het criterium. Zoals echter al werd opgemerkt, kan daar de
verklaring niet liggen, aangezien de algebra van Brogden en Cronbach & Gleser zelf zich van
dichotomiseren niets aantrekt. Het helpt dus ook niet, met Drenth en vooral met Schmidt et
al. (1979, p. 610 f.) raillerend te doen over dichotome of gedichotomiseerde criteriumscores;

in veel gevallen zal trouwens een nutsfunctie meer op een drempel- dan op een lineaire funcde
lijken (voor een voorbeeld zie Van Naerssen, 1965, p. 287). We zullen de tegenspraak anders
moeten oplossen.

Kan het zijn dat de afwijkingen van lineariteit bij Taylor en Russell voortkomen uit het feit
dat ze het nut over de aangenomen candidaten berekenden, inplaats van zoals Cronbach en
Gleser over de geteste candidaten? Nee, want ook Brogden (1949) volgde in dit opzicht
Taylor en Russel en kwam niettemin uit op een lineair verband tussen correlatie en nut.
Bovendien, bij een vaste selectierado zoals in de analyses van Curds en Alf maakt het geen
verschil of het aantal toegelaten geschikten wordt gerelateerd aan het aantal toegelatenen of
aan het totaal aantal getesten.

Het juiste antwooid is simpel, al kan men er een djd naar zoeken. Als gevolg van de door
Taylor en Russell gebruikte procedure - het in twee richdngen dichotomiseren van een
bivariaat normaal oppervlak - zijn de correlaties in hun tabellen in feite tetrachorische
correlades. En tetrachorische correlaties zijn geen degeneraat van de Pearson r. Bovendien is
de procedure niet consistent met de ook door henzelf impliciet gehanteerde defmitie van nut
als drempelnut (cf. de uitdrukking 'proportion of satisfactory employees', ibid., p. 567 ff.):
immers, de correlatie waarvan zij uitgaan veronderstelt hneair nut.

Dit betekent dat de Taylor-Russell-tabellen nu definitief hun tijd hebben gehad - hetgeen
natuurlijk niets afdoet aan de historische betekenis van hun klassiek artikel. De reden is in de
eerste plaats dat de tabellen kunnen worden vervangen door een simpele hneaire formule. De
tweede reden is dat de evenredigheid tussen rphi en nut, in tegenstelling tot de functies van
Taylor en Russell, coherent is met het verband dat is vastgesteld in het algemene, continue
geval. De derde reden is dat door de tabellen een diep ingeworteld misverstand over de
invloed van de selectierado op het nut in stand wordt gehouden. We besteden daaraan de
volgende paragraaf.

Uit de tabellen van Taylor en Russell (1939; zie ook Drenth, 1975, p. 322, en Roe, 1983,
p. 680-685) en uit hun grafiek op p. 569 kan men aflezen dat bij een bepaalde validiteit de
succesratio monotoon stijgt naarmate de selectierado kleiner wordt. De suggestie die daaruit
spreekt, en die in brede kring wordt aangenomen, is dat de selectieratio liefst zo klein mogelijk
moet zijn.

Om die conclusie op zijn waarde te beoordelen moeten we onderscheid maken tussen twee
soorten vragen, (a) Als de selectieratio vasthgt, kan men vragen of bijvoorbeeld de invoering
van een test meer de moeite loont bij een selectieratio van. 10 dan van .90 (quod non, zoals we
zullen zien), (b) Als de selectieratio kan worden beïnvloed, bijvoorbeeld door ruimer te
werven, kan men de vraag stellen hoeveel sollicitanten per vacature men moet proberen te
recruteren (en het gezond verstand dat ons vertelt dat dit aantal niet bij oneindig ligt, heeft
gehjk).

Voor het beantwoorden van de tweede vraag is de benadering van Taylor en Russell, die
geen rekening houdt met wervings- en testkosten, niet geschikt. Cronbach en Gleser (1965;
zie ook Roe, 1983, p. 363) geven de formule voor de oplossing van dit probleem. Er bhjkt
geen sprake te zijn van 'hoe lager de selectieratio, des te beter': 'Average gain increases to a
maximum as selection ratio decreases and then drops rapidly, falling to -oo as selection ratio
approaches zero' (ibid., p. 40).

De eerste vraag kan als volgt worden ingevuld: stel dat we te maken hebben met twee

selectiesituaties, elk met hun eigen vastliggende selectieratio; voor welke van die twee kunnen
we dan (ceteris paribus) het best energie gaan steken in het verbeteren van de selectieproce-
dure.

Cronbach en Gleser (ibid., p. 39) tonen aan dat men in dit geval de energie moet besteden
aan de situatie waarin de selectieratio het dichtst bij .50 ligt, en niet aan die met de laagste
selectieratio. Laten we nagaan hoe die stelhng wordt geconcretiseerd in het geval waarin het
criterium dichotoom of gedichotomiseerd is.

Neem aan dat in beide situaties de toevalskans .20 is, en de selectieratio .90 respectievelijk
.10. In de eerste situatie is fO = .18 en fmax = .20, wat een verschil oplevert van .02; in de
tweede is fO = .02 en fmax = .10, wat een verschil oplevert van .08. Op het eerste gezicht zou
men dus geneigd zijn, de energie te steken in situatie 2, waar door de gelijkgerichte scheefheid
van de randtotalen vier keer zoveel eer te behalen valt als in situatie 1. Men vergeet dan echter
dat in situatie 2 phimax vier keer zo hoog is als in situatie 1, nl. .667 versus .167. Gegeven
dezelfde rphi, bijvoorbeeld .083, is in beide situaties de winst dezelfde, in casu .01. Ook hier
blijft dus de algemene stelhng met betrekking tot continue criteriumscores gehandhaafd in het
dichotome geval. Bij Taylor en Russell gaat hij verloren, ten eerste omdat een andere
correlatiemaat wordt gebruikt, en ten tweede omdat de winst per toegelaten persoon inplaats
van per sollicitant wordt berekend.

Brogden, H.E. (1946). On the interpretation of the correlation coefficient as a measure of predictive

efficiency. Journal of Educational Psychology, 37, 65-76.
Cronbach, L. J., & Gleser, G.C. (1965). Psychological tests and personnel decisions. Urbana, IL.: Univ. of
Illinois Press.

Curtis, E.W., & Alf, E.F. (1969). Vahdity, predictive efficiency, and practical significance of selection

tests. Journal of Applied Psychology, 53, 327-337.
Drenth, P.J.D. (1975). Inleiding in de testtheorie. Deventer: Van Loghum Slaterus.
Naerssen, R.F. van. (1965). Application of the decision-theoretical approach to the selection of drivers.
In L.J. Cronbach & G.C. Gleser, Psychological tests and personnel decisions. Urbana, IL.: Univ.
of Illinois Press.

Schmidt, F.L., & Hunter, J.E. (1979). Impact of valid selection procedures on work-force productivity.

Journal of Applied Psychology, 64, 609-626.
Taylor, H.C., & Russell, J.T. (1939). The relationship of validity coefficients to the practical effectiveness
of tests in selection. Journal of Applied Psychology, 23, 565-578.

Enkele Opmerkingen Betreffende het Gebruik van
Fishers Z-Transformatie van Product-Moment
Correlatie-Coëfficiënten

Some Remarks on the Application of Fisher'S'Z-Transformation of Product-Moment Correlation-
Coefficients

Three applications of Fisher's r to Z-transformation are discussed. The first is to derive a statistic
that approaches normality much faster than r does. The second is used to calculate the mean of a
number of r's. The third serves to stabilize the variances of groups of correlations. It is concluded
that the first application is correct, that the second application is erroneous and based on a
misunderstanding, and that the third application is problematic and often superfluous.

De steekproefverdeling van de product-moment correlatie-coëfficiënt r voor steekproeven
1 > 4 is ééntoppig en toenemend scheef naarmate de populatie correlatie q tot 1 of-1 nadert.
De scheefheid is afwezig wanneer q = O, en voor een willekeurige q ongelijk nul nadert de
verdeling tot een normale verdeling wanneer« naar oneindig gaat; maar dat gaat niet al te snel
(Kendall ife Stuart, 1963,p. 388). Fisher heeft in 1921 een transformatie van/-voorgesteld die
veel sneller tot normaliteit nadert dan r. Deze transformatie heeft de vorm

en staat bekend als Fishers Z-transformatie. Ze wordt voor verschillende doeleinden ge-
bruikt, en is het onderwerp van dit artikel. Alvorens nader in te gaan op de eigenschappen en
toepassingen van deze transformatie is het nuttig stil te staan bij de meer algemene kenmer-
ken en doeleinden van datatransformatie.

Games (1983) onderscheidt drie toepassingen van datatransformatie. In het eerste geval
gaat het erom beschrijvende statistische grootheden te transformeren naar grootheden met
prettiger kansverdelingen, om zo statistische generaliseringen makkelijker te laten verlopen.
Fishers Z-transformatie is in eerste instantie een uitstekend voorbeeld van zo'n toepassing
van datatransformatie. Het tweede geval betreft de transformatie van predictoren in een
regressie-analyse, met het doel de multiple correlatie te vergroten, c.q. een model te vinden
dat zo goed mogelijk past. En in het derde geval gaat het om de transformatie van de

afhankelijke variabele in experimenteel onderzoek, omdat deze variabele in niet-getransfor-
meerde toestand ofwel lastig interpreteerbaar is, ofwel een kansverdeling heeft die niet
voldoet aan statistische aannames. Fishers Z-transformatie heeft met Games' tweede geval
niets van doen, en ook niet met de eerste situatie van Games' derde geval. In de tweede
situatie van dit geval wordt de Z-transformatie echter frequent toegepast.

Aangezien in de onderwijsresearch vaak sprake is van correlationeel onderzoek, terwijl het
ook wel voorkomt dat correlaties als scores op een afhankelijke variabele gebruikt worden
(b.v. in een recent onderzoek van Brokken, 1983) is het nuttig deze toepassingen van Fishers
Z-transformatie eens onder de loupe te nemen. Overeenkomsten en verschillen zullen daarbij
duidelijk worden.

Verwachtingswaarde en variande van r worden gegeven door (Kendall & Stuart, 1963,
p. 390);

In deze formules is n het aantal paren waarnemingen waarover r berekend wordt, en de
notatie O (f(n)) geeft aan dat de uitdrukking van een orde van grootte is die de waarde ƒ (n) niet
overschrijdt. Formules (2) en (3) kunnen niet gebruikt worden voor een normale benadering
van de verdehng van r, omdat deze verdehng daarvoor in het algemeen te scheef is. Alleen
voor e = O valt de verdehng accuraat met een f-verdehng te benaderen.

Fisher heeft, via reeksontwikkeling, de eerste vier momenten van de verdeling van Z^
afgeleid (zie Kendall & Stuart, 1963, p. 391). Als ^ wordt gedefinieerd als

Uiteraard zijn (4) en (5) geen werkelijk eenvoudige uitdrukkingen, en er zijn dan ook
verschillende benaderingen van (4) en (5) voorgesteld door er termen uit weg te laten, als
volgt:

Voor Q in de buurt van nul kan verder afgeleid worden dat de uitdrukking in (9) bij benadering
gelijk is aan

Men komt in de literatuur verschillende aanbevelingen tegen omtrent het gebruik van de
benaderingen (7) t/m (10) in (6). Kendall en Stuart, die zich baseren op onderzoek van F.N.
David, adviseren het gebruik van (7) en (10) bij n > 50. Pearson en Hartley (1966) adviseren
(8) en (10), met de raadgeving in geval van twijfel (7) in plaats van (8) te gebruiken. Hays
(1981) stelt ook (8) en (10) voor, bij steekproeven« > 10 en waarden van Q.niet te dicht in de
buurt van +1 of -1. McNemar (1969) beschouwt (8) en (10) als altijd toepasbaar.

Hoewel de laatste aanbeveling een aantrekkelijke zorgeloosheid bezit komt het me voor
dat het advies van Pearson en Hartley meer waardering verdient. Om na te gaan hoe de
verschillende benaderingen uitpakken worden ze nu toegepast in een voorbeeld. Er wordt
getoetst Wi : Q = 0,60 tegen //2 : 6 < 0,60 bij n = 20 en r = 0,50. In Tabel 1 staan de
resultaten vermeld, zowel voor (4) en (5) als de benaderingen (7) t/m (10). In de kolom onder
Z staat reeds de Z-waarde vermeld die substitutie van en Var [ZJ in (6) oplevert, en in
de kolom rechts er van onder p is de bijbehorende linkeroverschrijdingskans vermeld.

Uit Tabel 1 wordt duidelijk dat het in dit voorbeeld, bij een tamelijk kleine n en een vrij
hoge Q, allemaal niet zo veel uitmaakt. De benaderingen (9) en (10) van de variantie van'Z^
voldoen uitstekend, benadering (8) van het gemiddelde vanZ, is niet vreselijk accuraat en het
gebruik van (7) in plaats van (8) is waarschijnlijk in dit soort situaties wel aan te bevelen -
maar er zullen geen rampen gebeuren wanneer deze aanbeveling niet wordt opgevolgd.

De hierboven geschetste toepassing van Fishers transformatie is op zich correct en plausibel.
In de literatuur (b.v. McNemar, 1969) komt men echter ook wel een toepassing tegen die
nogal merkwaardig, en eigenlijk gewoon fout is. Het betreft de aanbeveling om, wanneer men
het gemiddelde van een aantal correlaties wil berekenen, deze correlaties eerst naarZ^-waar-
den te transformeren, van deze'Z^-waarden het gemiddelde te bepalen, en dat gemiddelde
tenslotte weer terug te transformeren naar een correlatie - en dat laatste getal dan te
beschouwen als het gemiddelde van de oorspronkelijke correlaties. Deze aanbeveling wordt
gedaan wanneer het gaat om een gemiddelde van correlaties behorend bij meerdere
steekproeven uit één bivariate populatie of uit verschillende bivariate populaties waarvan
aangenomen kan worden dat ze dezelfde correlatie bezitten. De gedachte achter deze aanbe-
veling is waarschijnlijk dat een correlatie-coëfficiënt geen zuivere schatter is van q, en een
'Z,-waarde wel een zuivere schatter van maar McNemar is nogal enthousiast over de
verdeUng van'Z,, en lijkt daarbij uit het oog te verliezen dat (8) en (10) niet de werkelijke
verwachting en variantie van Z^ zijn, maar benaderingen er van. De voorgestelde procedure is
dus in geen enkel opzicht te verkiezen boven het simpelweg berekenen van het gemiddelde
van de correlaties; en dat is natuurhjk helemaal de aangewezen weg wanneer men niet binnen
een steekproefpopulatie model werkt, maar op beschrijvend niveau.

De'derde hier te bespreken toepassing van Fishers Z-transformatie betreft die waarbij
correlaties gezien worden als scores van personen op een afhankelijke variabele, en de
data-set op grond waarvan men uitspraken wil doen over het effect van een experimentele
behandehng dus bestaat uit-groepen scores die correlaties zijn. De gebruikelijke parametri-
sche toetsingstechnieken waarmee deze groepen op gemiddelde vergeleken worden zijn nu in
principe niet toepasbaar omdat de variantie van r wordt bepaald door de waarde van q, en dus
aan de eis van gelijke populatievarianties niet is voldaan (en aan die van normaliteit natuurhjk
ook niet - maar over het algemeen wordt daar wat minder zwaar aan getild).

Smith (1976) bespreekt de principes van datatransformatie voor een aantal verschillende
situaties waarin de variantie o^ van een stochast een functie is van de verwachtingswaarde n
van die schochast. Voor het geval waarin voor de schochast AT deze functie ongeveer de vorm

heeft, waarin k een constante is, leiden deze principes tot de transformatie
1 + X

Uit de formule (3) blijkt dat de relatie (11) bij benadering geldt voor variantie en verwachting
van de verdeling van r; en (12) is (behoudens de factor V2) natuurlij k niets anders dan Fishers
Z-transformatie uit formule (1). Wat hier benadrukt moet worden is dat in dit geval formule
(1) met een heel ander doel wordt gebruikt dan in de toepassing die als eerste is gegeven. Toen
ging het er om hypothesen omtrent q te toetsen, en Fishers Z-transformatie leverde daartoe
een toetsingsgrootheid die sneller tot normaliteit naderde dan de steekproef correlatie r. Nu
gaat het er om de steekproefverdelingen van een stochast te homogeniseren, en algemene
principes van datatransformaties leiden tot een transformatieformule die de vorm heeft van
een Fishers Z-transformatie. Dat deze transformatie tegelijkertijd een normaliserend effect
heeft is een prettige bijkomstigheid. Overigens moet er op gewezen worden dat ook de
variantie van 'Z, nog steeds afhangt van de waarde van q (zie formule (5)); maar die
afhankelijkheid is aanzienlijk geringer dan geldt voor r.

Over de voor- en nadelen van variantie stabiliserende transformaties zijn recent enkele
publicaties verschenen: Budescu en Appelbaum (1981); Levine en Dunlap (1982; 1983);
Games (1983). Een duidelijke conclusie is op grond van deze artikelen niet te trekken. Er
bestaat weliswaar eenstemmigheid over de bevinding dat de onderzochte transformaties
nauwelijks invloed hebben op de grootte van de kansen op fouten van de eerste soort, maar
nien is het niet eens over de invloed op het onderscheidingsvermogen van de toets. Budescu en
Appelbaum nemen in hun Monte-Carlo-onderzoek geen systematische verhoging waar,
Levine en Dunlap (1982) juist wel - hun onderzoek wordt door Games echter weer ernstig
bekritiseerd. Hoewel al het onderzoek op dit gebied natuurlijk gebukt gaat onder praktische
beperkingen die de generaliseerbaarheid gering maken (zie Bradley, 1978) heeft Games'
kritiek een belangrijke principiële basis, nl. het feit dat datatransformatie nooit één aspect van
de verdeling van de stochast verandert, maar altijd meerdere. Fishers Z-transformatie b.v.
homogeniseert niet alleen variantie maar verandert ook de vorm van de verdeling en de
ligging van verdelingen ten opzichte van elkaar, waardoor het niet goed mogelijk is een groter
onderscheidingsvermogen van de toets uitsluitend toe te schrijven aan de homogenisering van
de varianties.

Een tweede probleem is dat monotone niet-lineaire transformaties niet goed samengaan
met het intervalkarakter van de meetschaal van de variabele. Wanneer binnen een theorie of
model een begrip geoperationaliseerd wordt als het lineaire verband tussen twee variabelen,
kan de product-moment correlatie-coëfficiënt gebruikt worden om de sterkte van dat lineaire
verband in een getal uit te drukken. De onderzoeker meet dan een persoon op het begrip in
kwestie door voor deze persoon de relevante correlatie te berekenen. Men dient zich in zo'n
geval af te vragen op welk meetniveau de metingen plaats vinden. Wanneer wordt uitgegaan
van een meetniveau met metrische eigenschappen is een niet-lineaire transformatie in feite
niet toegestaan. De afstanden tussen de correlaties 0,91/0,95 en 0,95/0,99 representeren op
een metrische schaal eenzelfde hoeveelheid van het begrip in kwestie. Na transformatie
ontstaan de waarden 1,53/1,83 en 1,83/2,65; de gelijke afstanden zijn verdwenen. Wie dat
geen probleem vindt hanteert in feite een ordinaal meetniveau. In dat geval zijn parametri-
sche toetsingstechnieken niet toepasbaar, en is de transformatie overbodig. Het punt is dus
dat iemand die het meetniveau van een begrip serieus neemt in dit geval niet mag transfor-
meren, tenvijl iemand die het meetniveau niet serieus neemt niet hoeft te transformeren.

Los van dit alles is er dan nog het probleem dat in factoriële proefopzetten door data-
transformatie interactie-effecten kunnen verdwijnen of juist te voorschijn komen - een
interpretatieprobleem dat niet eenvoudig is op te lossen.

Aan de hand van een voorbeeld zal nu geïllustreerd worden hoe het effect van een Fisher
Z-transformatie kan uitpakken. De data zijn afkomstig uit een niet gepubliceerd onderzoek
van Koele, en zijn verzameld binnen het kader van het zg. Muhiple Cue Probabihty Learning-
onderzoek (zie Koele, 1982). In zulk onderzoek moet de proefpersoon een groot aantal malen
een criteriumvariabele V voorspellen op grond van kennis omtrent de predictoren Xj, ...,X/i.
Men kan in dit kader bij voorbeeld denken aan een onderwijzer die een uitspraak moet doen
over de geschiktheid van zijn leerlingen voor een bepaald soort vervolgonderwijs op basis van
hun schoolprestaties. Wanneer deze situatie in termen van een regressiemodel wordt beschre-
ven kan de responsconsistentie van de proefpersoon, d.w.z. de mate waarin de proefpersoon
bij iedere voorspelling eenzelfde strategie hanteert, geoperationaliseerd worden als de mate
waarin de voorspellingen van het regressiemodel van de proefpersoon correleren met de
feitelijke voorspellingen van de proefpersoon. De muhipele correlatie . is dan een
maat voor responsconsistentie.

In het onderzoek van Koele zijn deze muhipele correlaties bij een bepaalde voorspel-
lingstaak voor twee groepen van proefpersonen bepaald, met het oogmerk na te gaan of de
groepen verschilden in responsconsistentie. In Tabel 2 staan enkele beschrijvende groot-
heden van deze data-sets, zowel in termen van de oorspronkelijke correlaties als in termen
van de Fisher getransformeerde waarden.

Duidelijk blijkt dat de transformatie wat betreft homogenisering van variantie redelijk aan
haar doel beantwoordt. De scheefheid van de'verdelingen is van negatief omgeslagen naar
positief, maar niet substantieel verminderd.

In Tabel 3 staan de resuhaten van drie toetsen op de data-sets uit Tabel 2 vermeld; de
Mann-Whitney U-test (in deze situatie uiteraard de meest geëigende toets), en /-toetsen op de
r en Z,-scores. De vermelde overschrijdingskans is een éénzijdige; de voorspelling hield in dat
de responsconsistentie in groep 2 over het algemeen groter zou zijn dan die in groep 1.

De resuhaten van de /-toetsen spreken elkaar zonder meer tegen. De /-toets op r leidt tot
verwerping van de nulhypothese, die op 'Z, niet. Bij de Mann-Whitney toets moet de
nulhypothese ook verworpen worden. Het is dus in ieder geval zo dat in groep 2 de scores
overwegend hoger zijn dan in groep 1. Natuurlijk hoeft dat nog niet te betekenen dat de
gemiddelden ook substantieel van elkaar verschillen, maar dat neemt niet weg dat het
tamelijk onprettig is dat de /-toetsen tot verschillende conclusies leiden. De vraag of de
transformatie hier op zijn plaats is geweest c.q. het beoogde effect heeft gehad kan in ieder

geval niet zotider meer positief beantwoord worden. Het routinematig transformeren van
correlaties is uit den boze, zoveel kan dit voorbeeld in ieder geval benadrukken.

Uiteraard is er in dit voorbeeld sprake van een vrij extreem geval. De correlaties waren
hoog, en dan heeft de transformatie zeer dramatische effecten. Aan de andere kant heeft
transformeren weinig zin wanneer de correlaties lager zijn, omdat de varianties dan niet zo
veel van elkaar zullen verschillen, en het homogeniserende effect gering is.

Al met al valt er geen duidelijke aanbeveling te doen wat betreft deze toepassing van
Fishers Z-transformatie. Wanneer de correlaties laag zijn heeft transformatie weinig zin,
wanneer ze hoog zijn (laten we zeggen, boven 0,60) kunnen er vreemde dingen gebeuren en is
het waarschijnlijk verstandig een heel arsenaal van beschrijvende en inductieve technieken te
hanteren, in de hoop dat ze convergeren. Wanneer dat niet zo is komt men voor grote
interpretatie-problemen te staan.

In dit artikel zijn drie toepassingen van Fishers Z-transformatie van producf-moment cor-
relatie-coëfficiënten besproken. De eerste toepassing dient om een toetsingsgrootheid af te
leiden waarmee op eenvoudige wijze hypothesen omtrent de populatie correlatie kunnen
worden getoetst. De tweede toepassing wordt gebruikt bij het berekenen van het gemiddelde
van een aantal correlaties. De derde toepassing is die waarbij correlaties de scores op een
afhankelijke variabele representeren, en men deze correlaties transformeert om de varianties
in verschillende groepen correlaties te homogeniseren.

Er is betoogd dat de eerste toepassing correct is, dat de tweede toepassing nutteloos is en op
een misverstand berust, en dat de derde toepassing in principe niet goed mogelijk, in de
praktijk meestal overbodig, en in ieder geval problematisch is.

Bradley, J.V. (1978). Robustness? British Journal of Mathematical and Statistical Psychology, 31,
144-152.

Brokken, F.B. (1983). Het ongewapend karakteriseren en hanteren van verbanden tussen gegevens.

Tijdschrift voor Onderwijsresearch, 8, 97-103.
Budescu, D.V., & Appelbaum, M.J. (1981). Variance stabilizing transformations and the power of the

F-test. Journal of Educational Statistics, 6, 55-74.
Games, P.A. (1983). Curvilinear transformations of the dependent variable. Psychological Bulletin, 93,
382-387.

Hays, W.L. (1981). Statistics (3rd ed.). New Yorlc: Holt, Rinehart & Winston.
Kenda\\,MG.,&StuaTt,A.{l963).Theadvancedtheoryofstatistics, Vol. 1 (2nd ed.). London: Griffin &
Co.

Levine, D.W., & Dunlap, W.P. (1982). Power of the F-test with skewed data: Should one transform or

not? Psychological Bulletin, 92, 272-280.
Levine, D.W., & Dunlap, W.P. (1983). Data transformation, power, and skew: A rejoinder to Games.

Psychological Bulletin, 93, 596-599.
McNemar, Q. (1969). Psychological statistics (4th ed.). New York: John Wiley & Sons.
Pearson, E.S., & Hartley, M.O. (1966). Biometrika tables for statisticians, Vol. 1 (3rd ed.). London:

Cambridge University Press.
Smith, J.E.K. (1976). Data transformations in analysis of variance. Journal of Verbal Learning and
Verbal Behavior, 15, 339-346.

In discussions about absolute and relative pass-fail decisions in educational testing, the choice
between these two positions is often indicated as one between a cutting score on the test that is
fixed and independent of the students' performances and one that varies up and down with them.
It is argued that the proper choice, however, is between a cutting scores varying up and down or
just contrary to the performances. The reason for this is the regression phenomenon due to the
unreliability of the test scores which operates in an opposite direction in the process of selecting
optimal cut-off scores on tests. The effect is analyzed and quantitatively illustrated for pass-fail
decisions with two different classes of loss functions.

Beslissingen over zakken of slagen zijn ooit getypeerd als de uitkomst van een proces waarin
kleine verschillen de oorzaak kunnen zijn van grote gevolgen (De Gruijter, 1978). Hiermee is
aangegeven dat een punt meer of minder in de buurt van de cesuur beslissend kan zijn voor de
vraag of een leerling zakt of slaagt voor een toets, terwijl zo'n verschil elders op de schaal van
de toetsscores zonder verschil in gevolgen blijft. Hetzelfde verschijnsel heeft De Groot (1966)
ertoe gebracht zijn aandachttrekkende boek Vijven en zessen te noemen. Een titel als'Zevens
en zessen zou het, ondanks de fraaie stafrijm, nooit zo gemaakt hebben.

Het is niet alleen deze paradoxale discrepantie tussen oorzaak en gevolg die zak-slaagbe-
slissingen - en in het algemeen iedere vorm van op studietoetsen gebaseerde beslissingen - in
de belangstelhng van onderwijskundigen en psychometrici heeft geplaatst. Hier komt nog bij
het besef dat studietoetsen veelal onbetrouwbare en weinig valide instrumenten zijn, waar-
door het soms aannemelijker is dat het grote verschil tussen zakken en slagen eerder het
gevolg is van een klein toevallig dan van een even groot waar verschil tussen leerlingen.

Een van de eersten in Nederland die hier een onderzoeksgebied voor de psychometrie zag
en bijdroeg aan een rationalisering en optimalisering van het beshskundig gebruik van tests en
studietoetsen was ongetwijfeld Van Naerssen. Met zijn proefschrift, dat handelde over
testgebruik bij de selectie van chauffeurs voor de landmacht, gaf hij voor het eerst bhjk van
deze belangstelling (Van Naerssen, 1963). Latere artikelen bevestigden dit (Van Naerssen,
1965a, b, 1968,1970). Bovendien schoof zijn belangstelling steeds meer op in de richting van
zak-slaag beshssingen in het onderwijs, waarbij een voorkeur voor de problematiek van
beslissingen met absolute normen en de handhaving van zulke normen onmiskenbaar werd
(zie o.a. Van Naerssen, 1966, 1971, 1974, 1978, 1979). Overigens heeft hij zich daarbij
wat afzijdig gehouden van de principiële discussies over absoluut en relatief meten in de
onderwijskunde. Liever dan hierin stelling te nemen zocht hij naar mogelijkheden om de

eerste psychometrisch te verbeteren. Hoe weinig dogmatisch zijn positie is wordt nog eens
duidelijk als men bijvoorbeeld zijn overzichtsartikel uit 1977 (her)leest (Van Naerssen,
1977).

Wellicht ten overvloede wordt hier kort gedefinieerd waar de verschillen tussen de absolute
en relatieve benaderingen van het zak-slaag probleem liggen. Voor degenen die zich meer in
deze problematiek willen verdiepen zijn er naast het artikel van Van Naerssen (1977) heldere
overzichten van Wijnen (1971a, 1977), terwijl een discussie tussen Warries (1970, 1971) en
Wijnen (1971b) licht werpt op de meer onderwijsprincipiële kant van de zaak. In het kort stelt
de absolute benadering dat zakken en slagen plaats moet vinden aan de hand van normen die
absoluut zijn ten opzichte van de toetsprestaties van leerlingen. Deze normen volgen in het
algemeen uit de voor het betreffende onderwijs geldende leerdoelen of uit de eisen die
vervolgonderwijs stelt. Bij absolute zak-slaag beslissingen wordt gestreefd naar handhaving
van normen over herkansingen of herhalingen van het onderwijs. Fluctuaties in de zak-slaag
percentages zijn daardoor alleen het gevolg van verschuivingen in de prestaties van de
leerlingen. Bij absolute normen kan de cesuur op de toets vooraf gegeven worden, zodat
leerlingen zich tijdens het leren hierop kunnen instellen. In tegenstelling tot de absolute
benadering steU de relatieve benadering de normen afhankelijk van de feitehjke toetspresta-
ties van de leerlingen. Gaan deze prestaties omhoog, dan gaat de cesuur mee; gaan ze naar
beneden, dan volgt de cesuur ook in deze richting. Over herkansingen of herhalingen van het
onderwijs heen kan de cesuur dus fluctueren. Voor zak-slaag percentages geldt dit niet;
sommige relatieve methoden definiëren de cesuur juist zo dat een zeker percentage geslaag-
den gehandhaafd wordt. Bij relatieve methoden kan de cesuur pas bekend gemaakt worden
nadat de toetsscores verwerkt zijn. Als gangbare absolute methoden van cesuurbepaling
kunnen die van Nedelsky en Angoff genoemd worden. Voorbeelden van relatieve methoden
vormen 'grading on the curve' (vooraf gekozen slaagpercentages) en de in Nederland bekende
methode van Wijnen (1971b). Relatieve en absolute methoden vormen geen uitputtende
classificatie van de beschikbare methoden voor cesuurbepaling. Zo is enige tijd geleden -
onder een uitdagende titel - door Hofstee (1977) een compromis van beide methoden
voorgesteld waarin het gewicht van ieder met behulp van expliciete parameters instelbaar is.

In het navolgende zal worden uitgegaan van onderwijssituaties waar een meer absolute
benadering op zijn plaats is. Dit zullen in het algemeen ingelopen onderwijssituaties zijn,
waarin men de kwaliteit van het onderwijsaanbod onder controle heeft, weet welke eisen het
vervolgonderwijs stelt en op grond van ervaring ook weet dat de leerlingen voldoende tijd ter
beschikking staat om aan deze eisen te kunnen voldoen. Bovendien nemen we aan dat de
moeilijkheid van de toetsen onder controle is, bijvoorbeeld doordat deze aselect getrokken
worden uit een verzameling items die in de loop van de tijd opgebouwd is of doordat
systematisch aan item banking (Van der Linden, 1983) wordt gedaan. In zulke situaties hangt
de verdeling van de toetsscores nog slechts van twee verschillende factoren af: de feitelijke
inspanning van de leerlingen en de betrouwbaarheid van de toets. De feitelijke inspanning van
de leerlingen bepaalt waar deze verdeling ongeveer gelokaliseerd wordt. De onbetrouwbaar-
heid van de toets zorgt ervoor dat deze verdeling 'breder' is dan die van de met de leerlingen
overeenkomende (klassieke) ware scores.

Op grond van de discussie over absoluut en relatief meten zou men kunnen menen dat een
absoluut bepaalde cesuur constant moet blijven. Immers een relatief bepaalde cesuur gaat
met de inspanningen van de leerlingen op en neer, terwijl een absolute cesuur zich daar niets
van aan mag trekken. Mis! Hieronder zullen we demonstreren dat de meest rationele maatre-
gel is om dan de cesuur juist tegengesteld aan het effect van de inspanning van de leerlingen te
laten variëren. Als de inspanningen omhoog gaan, dan moet bij absolute beslissingen de cesuur

-geheel tegen onze intuïtie in -juist naar beneden, en als de inspanningen minder worden, dan
moet de cesuur juist omhoog. Een optimaal toegepaste absolute methode heeft kennelijk
relatieve trekken, maar dan wel precies tegengesteld aan wat we zouden verwachten! De
reden hiervoor - zullen we nu zien - ligt in de onbetrouwbaarheid van de toets.

Met het regressie naar het midden effect zijn we inmiddels redelijk vertrouwd. We weten dat
we bij een extreme toetsscore de schatting van de ware score of de voorspelling van een
onafhankelijke tweede score maar beter wat minder extreem kunnen kiezen, en dat dit sterker
opgaat naarmate de gegeven score extremer is. We hebben ook geleerd dat we bij de keuze
van een experimenteel ontwerp met dit verschijnsel rekening moeten houden en bijvoorbeeld
nooit moeten matchen op extreme scores die met een onbetrouwbaar instrument verkregen
zijn. We zullen nu ook zien dat dit verschijnsel een rol speelt wanneer we bij een absolute
standaard een cesuur op een studietoets moeten kiezen. Maar het speelt dan wel een rol in de
richting die tegengesteld is aan wat we gewend zijn. Vandaar het regressie van het midden
effect.

Beheersing
boven norm
Ware ^

toestand

Beheersing
beneden norm

We beginnen met als voorbeeld zak-slaag beslissingen met een drempelverhesfunktie.
Deze kunnen geïntroduceerd worden aan de hand van de (bekende) tabel in Figuur 1. De
absolute zak-slaag grens is weergegeven met t,,. Deze is bijvoorbeeld bepaald voor een
domein van toetsitems waaruit de toetsen over herkansingen heen telkens aselect gekozen
worden of via normhandhaving door middel van item banking. De gezochte cesuur is weerge-
geven met Xc- Het is noodzakelijk een onderscheid tussen beide grensscores te maken
vanwege de onbetrouwbaarheid van de toets. In het ideale geval dat deze perfekt betrouwbaar
is, vallende en t^ samen. De proporties poo, Poi. Pio Pii ontstaan doordat we de bivariate
verdeling van de toetsscores x en de ware score t respectievelijk volgens jTc en x^ dichotomise-
ren. In het vervolg zal deze bivariate verdeling geïnterpreteerd worden als de empirische
verdeling van de ware scores en de toetsscores van de groep studenten die aan de toets

deelgenomen hebben. Andere interpretaties zijn mogelijk, bijvoorbeeld die waarin de tabel
geldt voor 1 leerhng en de ware scoreverdehng een subjectieve verdeling is die het vertrouwen
van de beslisser in de ware score van deze leerhng voorstelt, maar gemakkelijkheidshalve
zullen we ons aan de voorafgaande interpretatie houden.

Om voor het probleem in Figuur 1 een optimale cesuur te vinden, moeten de beslis-
singsfouten op de een of andere manier gewogen worden. Het meest elegante is om dit te doen
met een expliciete verliesfunktie. Met een drempelverliesfunktie nemen we aan dat alle
leerlingen die op grond van een gekozen waarde van Xc ten onrechte slagen een even groot
'verlies' vertegenwoordigen, hoe hun beheersing van de leerstof ook is. Evenzo is er een
constant verlies voor alle leerlingen die ten onrechte zakken, hoe het beheersingsniveau van
deze leerlingen ook is. In het volgende nemen we aan dat dit verUes in beide gevallen gelijk is;
de strekking van het betoog wordt hierdoor niet aangetast. De meest voor de handhggende
manier is nu om x^ zodanig te kiezen dat

Laten we eens een groep leerhngen bekijken die hard gewerkt heeft. In de tabel betekent
dit dat de beide bovenste cellen relatief goed gevuld zijn, terwijl de beide onderste cellen leeg
raken. Naarmate de leerlingen harder werken, volgt hieruit dat de waarde van poi steeds
dichter bij O komt te liggen en dat de eis in (1) overgaat in

Uit de tabel is duidelijk dat aan deze eis slechts voldaan kan worden door een lage waarde van
Xc- Naarmate leerhngen harder gewerkt hebben worden ze dus beloond met een lagere cesuur!
Het omgekeerde geldt ook. Dezelfde analyse laat zien dat als de inspanning van de leerlingen
naar beneden gaat, pio steeds dichter bij O komt te liggen enxc een steeds grotere waarde aan
moet nemen om aan (1) te kunnen voldoen. Luiheid wordt gestraft met een hogere cesuur!

Om te illustreren dat dit verschijnsel niet toevallig afhangt van de keuze van de drem-
pelverliesfunktie die tot (1) leidde, bespreken we nu het geval van een lineaire verhesfunktie.
Daarmee bedoelen we aan te geven dat het verlies tengevolge van (onterecht) zakken of
slagen een lineaire funktie van het beheersingsniveau (ware score) van de leerlingen is. In
tegenstelling tot bij een drempelverliesfunktie laten we het verlies dat we bij een verkeerde
beslissing oplopen nu wel van het feitelijke beheersingsniveau van de leerhng afhangen. Hoe
hoger deze beheersing, hoe groter het verlies als we de leerling laten zakken. Hoe lager de
beheersing, hoe groter het verlies als we hem laten slagen. Zonder dat dit de strekking van het
betoog aantast, kiezen we hier een variant van de lineaire verliesfunktie waarvoor uit Van der
Linden en Mellenbergh (1977) volgt dat bij een lineaire regressie van t op;t het gemiddelde
verlies minimaal is indien

(of de kleinste waarde vana: groter dan het rechterlid, indien dit geen geheel getal is). In deze
formule zijn jc en t respectievelijk de gemiddelde geobserveerde en ware score en is de
(klassieke) betrouwbaarheidscoefficient. Figuur 2 laat zien hoe we deze optimale cesuur
grafisch kunnen vinden.

De getrokken lijn is de regressielijn van t op x. De cesuur in (3) vinden we door vanuit t,.,
tegen de regressielijn van x opx in, naar a: te gaan. Merk op dat in (3) x^ de vooraf gekozen of
over toetsafnamen heen gehandhaafde absolute norm is. De andere grootheden in (3) zijn
empirisch en hangen af van de inspanningen van de studenten (t en dus x) of van de
betrouwbaarheid van de toets (r^^ ).

Gebruik makend van het gegeven dat onder het klassieke testmodel verwacht kan worden
dat x = j:, kan (3) herschreven worden als

tingscoëfficiënt en als constante en illustreert opnieuw het 'averechtse' gedrag van de
cesuur als een functie van de inspanning van de studenten. Aangezien in de praktijk < 1, is
de richtingscoëfficiënt negatief en gaat bij een gegeven betrouwbaarheid en standaard x^ de
cesuur a:,. omhoog als x naar beneden gaat, en omgekeerd.') Naarmate de betrouwbaarheid
Van de toets lager is, wordt de richtingscoëfficiënt steeds negatiever en het gedrag van de
cesuur steeds averechtser. Alleen in het ideale geval, als/-;^^ = 1, is het verschijnsel afwezig en
Volgt uit (4) dat Xc = x^, precies zoals we bij een perfect betrouwbare toets zouden verwachten.

Het bovenstaande effect werd voor een drempelverliesfunktie opgemerkt door Mellen-
bergh, Koppelaar en Van der Linden (1977) en voor een lineaire verliesfunktie door Van der

Omdat T op een eindig interval gedefmieerd is kan er in de praktijk een restriction of range effect
optreden waardoornaar O gaat als t de uiteinden van het interval nadert. Dit hoeft niet altijd het
geval te zijn, r,,' kan zeer wel constant bUjven of zelfs toenemen in zulke situaties. Als het effect
optreedt wordt de toets dus onbetrouwbaarder en versterkt dit het hier besproken gedrag van Xc- In
zulke gevallen zijn de verderop gepresenteerde voorbeelden dus conservatief van aard.

Linden en Mellenbergh (1977). Reeds door Van Naerssen (1965b) werd waargenomen dat
bij selectiebeslissingen de selectieverhouding snel extremer wordt naarmate de validiteit van
de predictor afneemt.

Statistisch gezien is dit hetzelfde verschijnsel als het hier besproken averechtse gedrag van
de cesuur bij zak-slaag beslissingen. Het verschijnsel gaat terug op het feit dat in de beslis-
kundige theorie, waaruit de hier besproken eenvoudige voorbeelden afkomstig zijn, optimale
beslisregels gevonden worden door regressiefuncties in de omgekeerde richting te gebruiken
(voor een toelichting, zie Van der Linden, 1980). Het regressie naar het midden effect keert
zich daardoor om en verandert in een regressie van het midden effect.

Om een indruk te geven van de sterkte van het effect voor diverse waarden van de be-
trouwbaarheidscoefficient, de toetslengte en absolute zak-slaag grens volgen hier enkele
numerieke voorbeelden. Eerst illustreren we het effect voor zak-slaag beslissingen met een
drempelverliesfunctie en het criterium in (1), daarna voor beslissingen met eèn lineaire
verliesfunctie en de cesuur in (4).

Met behulp van het beta-binomiale model (Lord & Novick, 1968, hfd. 23) werden voor
toetsen ter lengte van n = 20 en met een absolute zak-slaag grens t^ = 14 de proporties in de
tabel in Figuur 1 berekend. Deze waarden werden gekozen omdat ze niet ongebruikelijk zijn
in de onderwijspraktijk. De berekeningen vonden plaats met een nieuwe versie van het
computerprogramma van Koppelaar, Van der Linden en Mellenbergh (1977).^). Vervolgens
werd voor ieder van de toetsen de optimale cesuur berekend door het criterium in (1) toe te
passen. Het beta-binomiale model laat het op eenvoudige wijze toe om bij deze berekeningen

Tabel 1. Optimale cesuur op een toets met « = 20 en t^ = 14 als een functie van de
gemiddelde ware score (t) voor verschillende betrouwbaarheden (a2i).

de waarden van de betrouwbaarlieidscoefficient aji en de gemiddelde ware score t onafhan-
kelijk van elkaar te variëren. Het is dus mogelijk om op deze wijze het gedrag van de optimale
cesuur op de toets (Xc) te bestuderen als een functie van de gemiddelde inspanning van de
leerlingen(T), en wel voor diverse betrouwbaarheden van de toets (oji). De resultaten van
onze berekening staan in Tabel 1. Iedere kolom laat voor een waarde van 021 zien hoe de
optimale cesuur x,. varieert met de gemiddelde (ware) prestatie t. In ieder van deze kolommen
kunnen we het averechtse gedrag van x^ aflezen. Als t toeneemt, neemt Xc af. Hoewel de
richting van het effect gelijk is voor alle waarden van 021, neemt de sterkte ervan af naarmate
«21 toeneemt. In de kolom voor 021 = .95 is het verschil tussen voor maximaal presterende
(t = 19) en minimaal presterende leerlingen (t = 1) nog slechts 2 punten. De symbolen 'z' en
's' in deze tabel staan voor beslissingen waarbij men alle leerlingen laa^zakken respectievelijk
slagen. Zo kan in de kolom met a = .05 afgelezen worden dat voor t = 13 er een optimale
cesuur Xc = 20 is en er nog zowel leerlingen zijn die zakken als die slagen (hoewel de eerste
categorie zeer klein zal zijn). Zouden de prestaties van de leerlingen ook maar iets hoger of
lager dan t = 13 zijn, dan dienen «//e« te slagen respectievelijk te zakken. De maximale vorm
van het regressie van het midden effect!

De allesoverheersende conclusie uit Tabel 1 is dat voor waarden van 021 kleiner dan zeg .80
de optimale cesuur op extreme wijze van de gemiddelde prestatie van leerlingen afhankelijk
wordt.

Omdat alle berekeningen in Tabel 1 plaats vonden voor toetsen met vaste waarden n = 20
en T = 14, werden de berekeningen herhaald voor toetsen met een - niet ongebruikelijke -
betrouwbaarheid 021 = .65 en variërende waarden voor n en De resultaten staan in de
Tabellen 2 en 3. Tabel 2 geeft de resultaten voor leerlingpopulaties met een gemiddelde
prestatie die gehjk is aan 45% van de maximale ware score {xln = .45); Tabel 3 geeft de
resultaten voor een percentage van 75% (x/n = .75). De conclusie uit beide tabellen is dat de
optimale cesuur geheel volgens verwachting stijgt met de absolute zak-slaaggrens t^ en dat er
geen noemenswaardige verandering in het regressie van het midden effect optreedt ten
gevolge van een toename van de toetslengte. Bij empirische toetsen zal het laatste gewoonlijk
niet het geval zijn omdat de betrouwbaarheid dan meestal met de testlengte toeneemt en de
sterkte van het effect daardoor af zal nemen. In onze berekeningen hielden we de be-
trouwbaarheid echter constant.

Tabel 2. Optimale cesuur op een toets met betrouwbaarheid 021 = .65 en gemiddelde
relatieve ware score t/m = .45 als een functie van de testlengte (n) en de absolute
zak-slaaggrens (t^/«).

Tabel 3. Optimale cesuur op een toets met betrouwbaarheid a^ = .65 en gemiddelde
relatieve ware score x/« = .75 als een functie van de testlengte (m) en de absolute
zak-slaaggrens (x,./«).

Het gedrag van de optimale cesuur in (4) kan het beste grafisch geïllustreerd worden. Een
nadere inspectie van (4) laat zien dat jr,, niet direct van de testlengte afhangt. Bovendien volgt
uit (4) dat, welke waarde de betrouwbaarheidscoefficiënt r,,' ook heeft, wanneer de gemid-
delde groepsprestatie precies gelijk is aan de zak-slaaggrens x„ de optimale cesuur eveneens
de waarde x^, aanneemt. Deze eigenschap geeft Figuur 3 zijn markante vorm. Alle lijnen in
deze figuur, die ieder het verband tussen en x voor een andere waarde van r,,' weergeven,
gaan door het punt (x^, x<.). De negatieve helling van de lijnen illustreert het regressie van het
midden effect. Hoe lager de betrouwbaarheid, hoe sterker het effect. Als de waarde O
nadert, gaat de lijn over in een verticale jijn boven x = x,, en geldt voor de optimale cesuur op
de toetsje = n voor x < x^, enx,, = O voor x > x^. Dit verschijnsel werd in Tabel 1 benaderd voor
de kolom met a2i = .05. Voor een maximaal betrouwbare toets is de lijn horizontaal op de
hoogte = x^ en geldt deze optimale cesuur onafhankelijk van de gemiddelde prestatie van de
leerlingen. Tenslotte merken we op dat een verandering van de zak-slaaggrens x^ in Figuur 3
slechts neerkomt op een verschuiving van de gehele grafiek langs de diagonaal van linksonder
naar rechtsboven.

De strekking van het voorafgaande betoog is dus dat de keuze voor een cesuur op de toets er
niet een is tussen een cesuur die mee op en naar gaat met de prestaties van de leerlingen of een
die constant blijft. De voorgestelde keuze is die tussen een cesuur die met de prestaties van de
leerlingen op en neer gaat of daar juist tegenin gaat. Alleen op de laatste wijze kan men de
gevolgen van de onbetrouwbaarheid van de toets voor de gehele groep leerlingen minimali-
seren. Voor degenen die niet gewend zijn met de onbetrouwbaarheid van studietoetsen
rekening te houden moet het een paradoxaal resultaat zijn dat men op deze wijze voor een
groep leerlingen absolute zak-slaag grenzen handhaaft.

Om het regressie van het midden effect te minimaliseren staat binnen de hier besproken
besliskundige benadering slechts één weg open, namelijk die van de verhoging van de
betrouwbaarheid van de toets. De bivariate verdeling van ware en waargenomen scores
concentreert zich dan om de regressiefunctie en de optimale cesuur reageert minder heftig op
variaties in leerprestaties. Een andere mogelijkheid is natuurlijk dat men de gehele benade-

ring vervangt door een die de gevolgen van beslissingsfouten door onbetrouwbaarheid slechts
voor één punt op de ware score schaal minimaliseert, bijvoorbeeld het punt t of een punt op
enige afstand daar vandaan (Van den Brink, 1982). Daarvoor betaalt men dan wel als prijs dat
«le gevolgen voor alle andere leerlingen niet meer onder controle zijn.

Elders hebben we gewezen op het pedagogische belang van een cesuur op de toets die tegen
de prestaties van leerhngen ingaat (Van der Linden, 1984). Als leerhngen deze consequentie
^an hun leerprestaties uitgelegd krijgen ontstaat een perfect terugkoppelingsmechanisme dat
over herhalingen van het onderwijs heen de inspanningen op een acceptabel niveau kan
houden. Dan moet natuurlijk wel voldaan zijn aan de voorwaarden die we in het begin reeds
bedongen: de kwaliteit van het onderwijsaanbod moet onder controle zijn en op grond van
ervaring moet zeker zijn dat de leerling voldoende tijd ter beschikking staat om aan de eisen te
Voldoen. Als dit nagelaten wordt, wentelt men op ontoelaatbare wijze de consequenties van
slecht onderwijs op de leerhngen af.

van den Brink, W.P. (1982). Binomiale modellen in de testleer. Proefschrift, Universiteit van Amsterdam,
de Groot, A.D. (1966). Vijven en zessen. Groningen: Wolters.

de Gruijter, D.N.M. (1978). Slagen of zakken, kleine verschillen met grote gevolgen. In H.F. Crombag &

T.M. Chang (Red.), Een kleine zoölogie van het onderwijs. Leiden: Universitaire Pers Leiden.
Hofstee, W.K.B. (1977). Cesuurproblemen opgelost. Onderzoek van Onderwijs, 6, 6-7.
Koppelaar, H., van der Linden, W.J. & Mellenbergh, G.J. (1977). A computer program for classification
proportions in dichotomous decisions based on dichotomously scored items. Tijdschrift voor
Onderwijsresearch, 2, 32-37.
van der Linden, W.J. (1980). Decision models for use with criterion-referenced tests. Applied Psycholo-
gical Measurement, 4, 469-492.
van der Linden, W.J. (1983). Van standaardtest naar itembank. Oratie, Technische Hogeschool Twente,
van der Linden, W.J. (1984). Some thoughts on the use of decision theory to set cut-off scores: Comment

on de Gruijter and Hambleton. Applied Psychological Measurement, 8, 9-17.
van der Linden, W.J., & Mellenbergh, G. J. (1977). Optimal cutting scores using a linear loss function.

Applied Psychological Measurement, 1, 593-599.
Mellenbergh, G.J., Koppelaar, H., & van der Linden, W.J. (1977). Dichotomous decisions based on

dichotomously scores items: A case study. Statistica Neerlandica, 31, 161-169.
van Naerssen, R.F. (1963). Selectie van chauffeurs. Dissertatie, Groningen: Wolters.
van Naerssen, R.F. (1965a). Application of the decision theoretical approach to the selection of drivers.
In L.J. Cronbach & G.L. Gleser, Psychological tests and personnel decisions (2nd ed.). Urbana,
IL: University of Illinois Press,
van Naerssen, R.F. (1965b). Enkele eenvoudige besliskundige toepassingen bij test en selectie. Neder-
lands Tijdschrift voor de Psychologie, 20, 364-380.
van Naerssen, R.F. (1966). Het handhaven van eenmaal aangenomen normen bij opeenvolgende

objectieve toetsen. Paedagogische Studiën, 43, 312-320.
van Naerssen, R.F. (1970). Het nut van selectie - enkele voorbeelden. In P.J.D. Drenth, P.J. Willems &

Ch. J. Wolff (red.). Bedrijfspsychologie. Deventer: Kluwer.
van Naerssen, R.F. (1971). Een model voor tentamens. Nederlands Tijdschrift voor de Psychologie, 26,
121-132.

van Naerssen, R.F. (1974). Psychometrische aspecten van de kernitemmethode. Nederlands Tijdschrift

voor de Psychologie, 29, 421-430.
van Naerssen, R.F. (1977). Absoluut meten bij toetsen voor beheersing en diagnose. In H.P.M. Creemers

et al. (red.). Losbladig onderwijskundig lexicon. Alphen aan den Rijn: Samsom.
van Naerssen, R.F. (1978). A systems approach to examinations. Annals of Systems Research, 7, 63-72.
Warries, E. (1970). Het relatief meten van leerprestaties in het onderwijs. Nederlands Tijdschrift voor de

Psychologie, 25, 429-439.
Warries, E. (1971). Het relatief meten van leerprestaties in het onderwijs: dupliek. Nederlands Tijdschrift

voor de Psychologie, 26, 596-599.
Wijnen, W.H.F.W. (1971a). Onder of boven de maat, een methode voor het bepalen van de grens

voldoende/onvoldoende bij studietoetsen. Amsterdam: Swets & Zeitlinger.
Wijnen, W.H.F.W. (1971b). Betrekkelijkheid van de bezwaren tegen relatief meten. Nederlands Tijd-
schrift voor de Psychologie, 26, 135-139.
Wijnen, W.H.F.W. (1977). Toetsen en beslissen. In H.P.M. Creemers et al. (red.). Losbladig Onderwijs-
kundig Lexicon. Alphen a/d Rijn: Samsom.

In empirical research and practical applications in Psychology and Education psychometric theory
is needed for deriving valid conclusions. The measurement of psychological constructs is full of
hard problems, such as the standards for acceptable measurement, subjects' reactivity to mea-
surement procedures, and so on. Therefore, from the beginning of Psychology as a science the
measurement of constructs has been an important research topic of its own. In this field large
progress has been made in the development of formal models for measurement errors and for item
response behavior; also progress has been made in the development of methods for the conceptual
analysis of psychological constructs. In The Netherlands the beginning of advanced research in
psychometrics is marked by Van Naerssen's dissertation in 1963. Finally, it is predicted from
recent work of Van Naerssen that in the near future Psychometrics and Systems Research will
become more closely cotmected.

Op een andere plaats (Mellenbergh, 1980) heb ik gesteld dat bij empirisch psychologisch
onderzoek minstens drie theoretische niveau's onderscheiden kunnen worden. In de eerste
plaats de inhoudehjke theorie, waarin een verklaring of beschrijving van gedrag wordt
gegeven. Bij het empirisch onderzoek van een theorie wordt altijd ook gebruik gemaakt van
psychometrische en data-analytische theorie. Op het psychometrische niveau worden de
reacties van personen op stimuli en items beschreven en verklaard. Eri op het data-analytische
niveau wordt theorie gehanteerd bij de analyse van relaties tussen variabelen. In goed.
empirisch onderzoek dienen deze drie niveau's op elkaar aan te sluiten; een foutieve keuze op
één niveau kan leiden tot oninterpreteerbare en onjuiste onderzoeksresultaten.

In zowel de psychometrische als de data-analytische theorie worden empirische gegevens
geanalyseerd. In de psychometrie gaat het echter om de reacties van personen op stimuh en
items, terwijl dat op het data-analytische niveau niet het geval is. Een voorbeeld kan dit
onderscheid verhelderen. Stel dat een studietoets afgenomen wordt bij drie verschillende
groepen leerhngen om na te gaan of er verschillen zijn in studieprestaties tussen de groepen.
Het Rasch-model wordt gebruikt om de latente scores van de leerUngen te schatten; vervol-
gens worden de verschillen in gemiddelden van de drie groepen op de latente scores geanaly-
seerd met een variantie-analyse. Het Rasch-model beschrijft de reacties van de leerlingen op
de items als functie van de latente trek en is een psychometrische theorie. In de variantie-ana-
lyse wordt een andere, hier genoemd data-analytische, theorie gebruikt, nameUjk een speciaal
geval van het algemene Uneaire model.

In deze bijdrage wordt nader ingegaan op het psychometrische niveau. In empirisch
onderzoek van een inhoudehjke theorie vormt dit de schakel tussen het inhoudehjke en het
data-analytische niveau. Maar, afgezien van de positie binnen theorie-toetsing, leidt de
Psychometrie een eigen leven dat van groot maatschappeUjk belang is. Ieder jaar worden

tests, studietoetsen en vragenlijsten afgenomen bij enorme aantallen personen; men denke
slechts aan de Scholastic Aptitude Tests in de Verenigde Staten van Amerika en de CITO-
toetsen in Nederland. Een specifieke belangstelhng voor de Psychometrie is in de Psychologie
dan ook zeer gewenst en nuttig.

In populaire beschouwingen wordt nogal eens opgemerkt dat meten in de Psychologie veel
moeilijker en van geheel andere aard is dan in de Natuurwetenschappen. Men maakt daarbij
meestal vergelijkingen met het meten van bij voorbeeld lengte of gewicht. Deze stelling lijkt
mij twijfelachtig. Ik vermoed dat, zodra men iets anders meet dan lengte of gewicht, de meting
in de Natuurwetenschappen ook problematisch kan zijn. Hoe dit ook moge zijn, voor wat
betreft psychologische metingen maakt men zich al bijna honderd jaar druk over deze
problematiek; het oudste artikel - althans voor zover mij bekend - is van Edgeworth en werd
gepubhceerd in 1888.

De Psychometrie is begonnen met de constatering dat testscores sterk kunnen variëren over
replicaties. Als men een test meerdere keren bij één persoon afneemt dan fluctueren de
testscores, als men een 'open' testvraag door meerdere deskundigen laat beoordelen dan
variëren de toegekende scores, en als men een test afneemt bij personen, die ongeveer even
goed zijn op de gemeten vaardigheid, dan variëren de testscores van persoon tot persoon.
Hierbij wordt altijd de vergelijking gemaakt met lengte en gewicht: deze variëren relatief veel
minder over replicaties. Het criterium voor een goed meetinstrument is dat de variantie van de
scores over rephcaties aanvaardbaar is. Men tracht daarom tests zodanig te construeren dat
deze variantie tot een acceptabel niveau is gereduceerd. De geschiedenis van de testconstruc-
tie toont dat dit in een aantal gevallen ook is gelukt.

Men kan ook op een andere manier eisen formuleren waaraan een meting moet voldoen.
Het bekendste voorbeeld hiervan is de opvatting van Rasch (1961): Als de vaardigheid van
twee personen wordt gemeten met een test dan stelt hij o.a. als eis: De vergelijking van de
maten van vaardigheid van twee personen moet onafhankelijk zijn zowel van de items in de
test als van de andere personen die de test gemaakt hebben. Bij voorbeeld: De vergelijking
tussen de maten van vaardigheid van twee personen moet hetzelfde zijn op een gemakkelijke
en een moeilijke test, en moet hetzelfde zijn in een groep goede en een groep slechte
personen. Het is zeer wel mogehjk dat een test met een aanvaardbaar lage variantie van scores
over rephcaties niet voldoet aan dit criterium; volgens Rasch is de test dan geen goed
meetinstrument. Het criterium is nogal restrictief, maar de testconstructeur kan trachten het
instrument zodanig te ontwerpen dat het zoveel mogehjk aan het criterium voldoet.

Een aantal andere problemen hangt samen met de vraag wat eigenhjk gemeten moet
worden en hoe dat het best kan gebeuren. Als men bij voorbeeld een studietoets samenstelt
over een leerboek dan zijn er vele verschillende mogelijkheden: Gaat het om kennis van de
stof óf om inzicht óf veeleer om toepassingen? Op welke manier moet kennis, inzicht of
toepassing worden gemeten: Via een mondehng tentamen, essay-, korte-antwoord-, of meer-
keuze-vragen? De constructeur moet dus, expliciet of impliciet, twee typen vragen beant-
woorden: (1) de omschrijving van het theoretische begrip en (2) de manier waarop het begrip
gemeten wordt.

Tenslotte hangt een aantal fundamentele problemen samen met de reactiviteit van de
proefpersoon (zie ook Webb, Campbell, Schwartz, & Sechrest, 1966, hfdst. 1). Deze wordt
meestal geïnstrueerd bepaald gedrag te vertonen, - bij voorbeeld het beantwoorden van een
vraag uit een studietoets. Hierbij worden meteen al een aantal veronderstellingen gemaakt:

De proefpersoon kan de vraag lezen, is bereid een antwoord te geven, tracht een correct
antwoord te geven, etc. In een aantal gevallen zijn deze voorwaarden niet voor alle proefper-
sonen vervuld (bijv.: verplicht proefpersoonschap Psychologie-studenten; tests bij militaire
keuring, etc.). Maar, zelfs als de proefpersoon volgens de instructies bandek, blijft er een
ingewikkeld filosofisch probleem: Om de psychologische eigenschappen van de proefpersoon
te meten moet deze eerst gedragingen vertonen, die representatief zijn of tenminste samen-
hangen met de te meten begrippen. Stel dat men via een studietoets nagaat of een Psycholo-
gie-student voldoende kennis van en inzicht in de Psychometrie heeft. De gedragingen, die de
student bij de toets vertoont, moeten representatief zijn voor 'psychometrische gedragingen
in het algemeen': De student moet veel meer weten van Psychometrie dan in de ene stu-
dietoets wordt gemeten. Bovendien moeten de psychometrische gedragingen verband hou-
den met andere gedragingen: Deze moeten ook worden vertoond als de student in een
empirisch onderzoek een meetinstrument gebruikt of in een praktijksituatie een cliënt test.
Met de reactiviteit van de proefpersoon hangt ook samen dat deze kan veranderen onder
invloed van de meting. Als men bij voorbeeld in een experiment een praetest gebruikt dan is
het mogelijk dat de proefpersoon sensitief wordt voor de experimentele behandeling (zie
Hoogstraten, 1979, hfdst. 3). Deze kenmerken van de psychologische meting staan in contrast
met lengte- en gewichtmeting. De lengte van een houten tafel is mede afhankelijk van
uitwendige condities, zoals temperatuur en vochtigheid, maar de gemeten tafel doet zelf niets!

De meting vertoont zoveel problemen dat deze tot onderzoeksobject is geworden. Naar mijn
mening is dit onderzoek van essentieel belang voor de Psychologie als wetenschap. Het
onderzoek van wetenschappelijke theorieën is mogelijk bij de gratie van de aanname dat de
meting onproblematisch is. Soms is dat in psychologisch onderzoek ook het geval, maar vaak
wordt de voortgang geremd doordat de meting niet naar de onproblematische achtergrond
geschoven kan worden. Er is echter reden tot optimisme: De kennis op dit gebied heeft een
cumulatief karakter en er is sprake van een progressief psychometrisch onderzoekspro-
gramma.

De vooruitgang is het meest spectaculair op het gebied van de theorieën over meetfouten
(bijv.: klassieke testtheorie en haar generalisaties), de theorieën over item-respons gedrag
(bijv.: latente trek theorie) en die over toepassingen (bijv.: besliskundige modellen voor
zak/slaag en selectie beslissingen). Deze theorieën hebben gemeen dat de verschijnselen
beschreven worden in termen van formele modellen. De formalisering maakt onder andere
mogelijk parameters adequaat te schatten, modellen te toetsen, te vergelijken en te onder-
zoeken op consistentie. De item-respons theorieën verschillen in een belangrijk opzicht van
de meetfouttheorieën: In een item-respons theorie wordt een (formeel) model gespecifi-
ceerd voor het gedrag van een proefpersoon die reageert op een item; in een meetfouttheorie
daarentegen speelt het gedrag van de proefpersoon geen rol. In andere woorden: item-res-
Pons theorieën zijn, in tegenstelling tot meetfouttheorieën, psychologisch van aard. Daarbij
Wordt aangetekend dat beide typen theorie niet strijdig zijn, maar met elkaar in verband
gebracht kunnen worden (zie Lord, 1980, hfdst. 4).

Echter ook op andere - niet geformaliseerde - gebieden is de kennis toegenomen. Er zijn
belangrijke bijdragen geleverd aan methoden voor de analyse van theoretische begrippen en
hun operationahsering; voor persoonlijkheidseigenschappen zie Fiske (1971) en voor stu-
dietoetsen zie Roid en Haladyna (1982). Door middel van empirisch onderzoek is ook de
kennis over de manier van reageren van proefpersonen op items toegenomen; voor b.v.
Praetest-sensitisatie zie Hoogstraten (1979) en voor antwoordneigingen zie Vorst (1984).

In Nederland wordt Psychometrie op hoog niveau met veel enthousiasme beoefend; de
dissertaties en artikelen, ook in internationale vaktijdschriften, zijn talrijk en de Nederlandse
Stichting voor Psychometrie leidt een bloeiend bestaan. Zoals hiervoor betoogd, rechtvaar-
digt het belang en de aard van de meting deze inspanning alleszins.

Het startpunt van deze ontwikkeling is duidehjk gemarkeerd: Het eerste belangrijke
psychometrische werk in Nederland is het proefschrift 'Selectie van chauffeurs' van Van
Naerssen, gepubliceerd in 1963. De betekenis hiervan werd onmiddellijk ingezien door
Cronbach met als gevolg dat het onderzoek werd gepubhceerd in de tweede druk van het boek
van Cronbach en Gleser (Van Naerssen, 1965).

Het werk van Van Naerssen is vaak 'avant la lettre' geweest: In Nederland hield hij zich
bezig met Psychometrie toen nog niemand daarvan had gehoord. Een door hem ontwikkelde
item-index (Van Naerssen, 1967) heeft zelfs zijn naam gekregen: 'Van Naerssen's f. Zoals
reeds opgemerkt, was hij internationaal één van de eersten, die de koppehng tussen Psy-
chometrie en Beshskunde legde (Van Naerssen, 1963,1965). Het werk van Van Naerssen is
dan ook een goede predictor voor toekomstige ontwikkelingen in de Psychometrie. In het
recente verleden heeft hij zich bezig gehouden met modellen voor onderwijssystemen inclu-
sief de daarin gebruikte examens en studietoetsen (zie bijv. Van Naerssen, 1978). Mijn
voorspelhng is dan ook dat de komende tijd de koppehng tussen Psychometrie en Systeemleer
tot stand gebracht zal worden.

Edgeworth, F.Y. (1888). The statistics of examinations. The Journal of the Royal Statistical Society, 51,
599-635.

Fiske, D.W. (1971). Measuring the concepts of personality. Chicago: Aldine.
Hoogstraten, J. (1979). De machteloze onderzoeker. Meppel: Boom.

Lord, F.M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ:
Erlbaum.

Mellenbergh, G.J. (1980). Theorie op verschillende niveaus. Nederlands Tijdschrift voor de Psychologie,
35, 275-288.

Naerssen, R.F. van. (1983). Selectie van chauffeurs, (dissertatie). Groningen: Wolters.
Naerssen, R.F. van. (1965). Apphcations of the decision theoretical approach to the selection of drivers.
In L.J. Cronbach & G.C. Gleser (Eds.), Psychological tests and personnel decisions (2nd ed.).
Urbana: University of Ilhnois Press.
Naerssen, R.F. van. (1967). Itemselectie bij studietoetsen: Een nieuwe benadering. Nederlands Tijd-
schrift voor de Psychologie, 22, 345-359.
Naerssen, R.F. van. (1978). A systems approach to examinations. y4n«ais of Systems Research, 6, 63-72.
Rasch, G. (1961). On general laws and the meaning of measurement in Psychology. In J. Neyman (Ed.),
Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, Vol.
IV. Berkeley: University of CaUfomia Press.
Roid, G.H., & Haladyna, T.M. (1982). A technology for test-item writing. New York: Academic Press.
Vorst, H.C.M. (1984). Antwoordneigingen bij de SchoolVragenlijst. Nijmegen: Berkhout (Proefschrift
in voorbereiding).

Webb, E.J., Campbell, D.T., Schwartz, R.D., & Sechrest, L. (1966). Unobtrusive measures: Nonreactive
re.iearch in the social sciences. Chicago: Rand McNally.

Internal Consistency and Reliability in Mokken's
Nonparametric Item Response Model

The concepts of internal consistency and reliability are not only important in classical test theory,
but are equally useful in assessing measurement quality when a latent trait model has been used.
They are considered in this paper in the context of Mokken's nonparametric item response model.
This leads to a comparison of Loevinger's H, Cronbach's a and the - not observable - reliability
Pxx - The assumptions of the model permit an approximation of the reliability in terms of
probabilities that correspond to observable events; Mokken's results in this respect are presented
and extended.

The concepts of internal consistency and rehabihty, originally developed in classical test
theory, will be considered in this paper within the context of nonparametric item response
theory. When a latent trait | is measured by k dichotomous items indexed by i, this theory is
based on the item characteristic function

where X, denotes the observed score of a subject on item i, which equals 1 if the response is
positive or correct. Contrary to parametric models proposed by e.g. Rasch and Birnbaum, the
nonparametric version does not assume a specific functional form for (1) and deals with order
relations rather than ratio or interval measurement.

The deterministic Guttman model (1950) can be viewed as an early attempt to order
persons and items on a latent trait continuum; here each item has a threshold value 6,- such that
the positive answer is given if and only if | S 8, (unit stepfunctions in (1)). Each instance in
which a negative answer to an easier item and a positive answer to a more difficuh item is
given, is called an error, and constitutes a deviation from the model.

Mokken (1971) has presented a probabihstic counterpart of Guttman's model, which
permits deviations from the perfect model to occur to some limited degree. Besides that, the
other assumptions of Mokken's model are:

L unidimensionality of the latent trait being measured by the items in the test;

L W. Molenaar, Oude Boteringestraat 23, 9712 GC Groningen
K. Sijtsma, De Boelelaan 1081, 1081 HV Amsterdam

2. local stochastic independence of the answers of a fixed subject to the items;

3. nondecreasing item characteristic functions (monotonicity in across persons);

4. Invariant ordering of the success probabilities on a set of items for all values of |
(monotonicity across items).

Because of the last two assumptions the model is called doubly monotone (Mokken, 1971,
p. 118). An important feature of this model is that item characteristic functions may not
intersect, although they may touch. Note that neither the mathematical form of the item
characteristic functions, nor any distributional form across subjects of the latent trait being
measured is specified.

For recent introductions to the Mokken model see Stokman and Van Schuur (1980) and
Mokken and Lewis (1982). The critical comments by Jansen (1982) have led to a discussion in
the Tijdschrift voor Onderwijsresearch and in other journals. A key conclusion from this
debate, although not essential for the present paper, is that the coefficient H (introduced
below in equation (2)), is not a suitable measure for double monotony.

As argued by Fischer (1974) and others, the quality of measurement is generally improved when
it is based on an explicit measurement model. The ideal of expressing measurement
quality in one numerical index, however, leads to complications in an item response model:
assessing the extent to which the various model assumptions are satisfied may ask for more
than one index or test, and moreover does not coincide with assessing the extent to which
differences in scores assigned to persons reflect genuine differences in the property being
measured.

In many unidimensional latent trait models the magnitude of the overall dependence
between items is not essential for the model fit, as long as it is positive; see e.g. Mokken (1971,
p. 131), Wood (1978) and Jansen (1983, p. 6-7). More specifically, it can be proved that two
doubly monotone items have a nonnegative correlation, and consequently a test complying
with the double monotony can have zero reliability as a limiting case. This is not true for the
Guttman model, where items correlate maximally given their marginals and the reUability
equals one, see below. Fischer (1974, p. 293) and Gustafsson (1977, p. 89) have advocated
the use of the test information function for assessing the adequacy of the items for measure-
ment on given levels of the latent trait; see also Lord (1980). This function cannot be used in
nonparametric models, because it contains the latent subject and item parameters. For the
doubly monotone model, however, Mokken (1971, p. 142, 148) has presented means for
assessing global dependence of a set of items. In the sequel we will investigate some properties
of these means and present some new developments.

Two kinds of internal consistency will be distinguished in this section, and measures for both
kinds will be compared.

In the foregoing section we have already mentioned Guttman-homogeneity as a form of
internal consistency of a data set. This form is the more restrictive one of the two to be
menfioned, in demanding that all correlations between items be maximal given their mar-
ginals. Coefficient ƒƒ (Loevinger, 1948; Mokken, 1971; Van Naerssen, 1972) is a measure of
this kind of internal consistency. It can be written as a linear function of the sum across all
possible item pairs of the proportions of errors:

In this formula Ji,; is the proportion of subjects answering the more difficult item i correctly and
the easier item j incorrectly. The item difficulties are denoted by Jt, and jiy (n, < jty), where re,
denotes the proportion answering item i correctly. It will be assumed that 0 < Ji( < 1 for all i.

When the data comply with the Guttman model H equals one, meaning that the data
contain no errors. When the answering behaviour of subjects is random, H will equal zero.
This will become clear if one rewrites H as

where denotes the well-known product-moment correlation between dichotomous items.
The fact that a zero value of H indicates random behaviour and thus absence of internal
consistency in the data, can be considered as an advantage of H over other coefficients of
Guttman-homogeneity (see White & Saltz, 1957 and Mokken, 1971 Ch. 2). Another ad-
vantage of ƒƒ is that its asymptotic sampling theory is known (Mokken, 1971, p. 157-169) as
Well as its exact distribution per item pair (Molenaar, 1982, p. 154-155). Jansen (1982,1983)
has put forward that H is not a good index of double monotony, and that an item set which
satisfies the Rasch model may well have a low value of H.

The other concept of internal consistency is the classical one, based on the magnitude of the
correlation between items. One may argue that positivity of such correlations is sufficient,
because in classical test theory sense a long test of lowly correlating items can be as good as a
short test of highly correlating items. Practical considerations such as time Ifmitations in taking
and scoring the test, as well as the limited availability of suitable items, restrict the usefulness
of this argument. On the other hand, the so-called attenuation paradox shows that extremely
high item correlations may decrease the validity of the test, see e.g. Lord & Novick (1968,
p. 344).

Deferring a more general discussion of the not directly observable reliability to a later
section, the present section deals with the well known coefficient a (Cronbach, 1951), called
KR20 for our case of dichotomous items, as a measure of internal consistency:

where k is the number of items in the test, o^ is the covariance between items i and j and o^ (X)
is the variance of the test scores. Coefficient a can also be written as a curvilinear function of
the sum of the proportions of errors over all possible item pairs. Using the fact that o^ (Z) can
be written as the variance of a linear combination of item scores and furthermore the property
of 2x2 - contingency tables that Jtjy = - Hif, where denotes the proportion answering both
'tems / and / correctly.

with n, < jij. For given values of the item difficulties this formula only contains positive
constants except for the error proportions: a simpler formulation would be

Coefficient acan only reach its maximum oflin the case of dichotomou« item scores if all
item difficulties are equal. It is in this case only that the items can correlate perfectly. It should
be noted, however, that for practical purposes the effect of unequal item difficulties on the
value of a does not seem to be very dramatic (Cronbach, 1951, p. 327). Like//, coefficient a
equals zero in the case of random behaviour of the respondents. Both H and a do not have
fixed minima; their negative magnitudes are restricted by the fact that o^ (A') > 0. But this is no
problem, because negative values of H and a would point to the fact that one or more items are
negatively associated with other items, which is undesirable in psychological tests.

Although H and a should not be interchanged in research, because they reflect different kinds
of internal consistency, several authors have commented on their apparent similarities (e.g.
Cronbach, 1951; Horst, 1953; Guilford, 1954; Cliff, 1977; Terwilliger and Leie, 1979;
Cudeck, 1980; Raju, 1982). The situations in which both coefficients are zero or one have
already been discussed. For a numerical comparison in intermediate situations, one must
assume certain aspects to be constant and others to vary freely: Some of the authors quoted
above have made different and not always plausible decisions in this respect.

Cronbach (1951, p. 326) and Carroll (1961, p. 323) study the behaviour of ƒƒ for an item
pair under constant tetrachoric correlation. Jansen (1982,1983) varies the popularity of hems
with parallel logistic item characteristic curves. From his study it can be concluded that for
almost coinciding curves H will be low but a may be high. Some authors assume a constant
variance or a constant distribution of total scores, others assume constant item popularities. It
should be noted that such different assumptions often lead to different conclusions.

In this section we will compare H and a when holding constant a set of mutually different
item difficulties. It follows from (2) and (6) that H and a can then be expressed as functions of
the proportion of errors in score patterns. From Figure 1 and 2 it becomes clear that ƒƒ is larger
than a only if the number of items is very small and the variance of the item difficulties is large
(Figure 1). But if we take 6 (Figure 1) or 5 items (Figure 2), a is mostly larger than H. This
becomes even more pronounced when the number of items increases. Only for extremely low
proportions of errors will H be larger than a. For the special case when all item difficulties are
equal H never exceeds a. We may conclude then that for realistic test lengths, say 10 or more
items, H will amost always be smaller than a.

Upper graph: fe = 2 (n = .2; .8); lower graph: ^ = 6 (n = .1; .2; .3; .7; .8; .9).

In Cudeck's (1980) Monte Carlo study, H and a are compared by means of artificial
datasets that were generated according to the Birnbaum model (1968). Some of his results are
summarized in his Figure 4, where both coefficients are plotted against the mean item
discrimination in the simulated test. It turns out that his results, which are necessarily inexact,
are essendally comparable to ours. This becomes clear especially when it is realized that the
mean item discrimination of a test will increase if the number of errors (our Figures 1 and 2)
decreases.

Upper graph: /t = 2 (ji = .4; .6); lower graph: fc = 5 (n = .3; .4; .5; .6; .7).

In classical test theory the observed score X is written as the sum of the true score and the
error. In item response theory, this means that the true score for a person with latent trait
value I becomes £■ (A" I = 2 Jt^ (§). If£|and denotethe mean and variance with respect to
the distribution of | across persons, one may use for the population of persons the well known
variance decomposition

which separates the systematic variation (between persons, due to the latent trait) from the
average error variation (within persons). In practical applications of classical test theory it is

usually assumed that o^ (X11) is independent of This assumption, however, is not realistic
for extreme values of | because of floor and ceiling effects. Proceeding without it in item
response theory, it remains informative to use the reliability coefficient

for assessing the proportion of the total variance that is explained by the latent trait.

Neither theory has direct solutions for the problem that latent variables such as | or £ (A" 11)
are not observable. In both theories one may resort to split-half or test-retest estimates of the
reliability, which have their well known difficulties. A more popular alternative is the use of
coefficient a: it is well known that this is a lower bound to the reliability. Other estimation
methods, especially suited to nonparametric item response models, will be discussed in the
next section.

Coefficient a is equal to the reliability if and only if all items are essentially tau-equivalent
(Lord & Novick, 1968, p. 90), i.e. when constants a,y exist such that for each item pair and for
all^

and thus the item characteristic curves must be 'vertically parallel', meaning pictorially that
they lie above each other with a constant vertical distance between them (Figure 3). They can
he translated into each other by moving the curves along the vertical axis". As illustrated in
Pigure 3, this requires asymptotes strictly between zero and one, and will nearly always be
even less plausible than the already demanding assumption of'horizontal parallellism' Ki (|) =
^ (I + fc(y) postulated in the Rasch model. Horizontal parallellism pictorially means that the
item characteristic curves lie next to each other and can be translated into each other by simply
moving the curves along the horizontal axis. If nearly all persons have their latent trait value
between a and b in Figure 3, one may expect more violation of (10) for the steep curves. The
difference between reliability and a also depends on other factors, however.

A more extreme but also relevant case is a test consisting of parallel (Lord & Novick, 1968,
p. 50) rather than essentially tau-equivalent items: the item curves now completely coincide
because the true scores are equal. The correlation coefficient p^ = p (Xj, Xj) is the same for
each item pair, and substitution of the equal popularities and equal correlations leads toH =
Pii and = a = kpij/(l + (k- 1) Py), a well known psychometric formula showing clearly
that in this extreme case H is constant but a and pxx' increase with test length.

In the general case one may expect that H is high for steep curves, and given the steepness
mostly for curves widely spaced compared to the variation in the latent trait (much variation in
popularities). The test length has little or no systematic influence on H because an increase in
the number of errors is compensated by an increase of the score variance. Coefficient a is high
for steep and nearly coinciding curves; it comes close to the reliability for nearly coinciding
curves. Both the reliability and its lower bound a rise with increasing test length although the
rise levels off for long tests. The foregoing statements are simplifications because of the
complicated interplay of the various factors.

In this paper we have restricted our attention to coefficient alpha because it is the measure
of internal consistency most widely in use. Other coefficients have e.g. been proposed by Ten
Berge and Zegers (1978) who present an infinite family of coefficients of which a and
Guttman's are members. An approach to estimate the greatest lower bound to the
reliability of a test is presented by Ten Berge, Snijders and Zegers (1981).

As explained by Mokken (1971, p. 132,146), the assumption of double monotony permits an
estimation method for p^x' not based on rephcation or internal consistency. For any given |
the score X is the sum of k locally independent item scores with variances Jtj (|) [1 - n,
thus

Taking expectations with respect to | one obtains [o^ (A' 11)], which can be inserted into (8):

with G denoting the cumulative distribution function of |. This in itself has not solved our
problem, because jt;, is not observable.

The observed sample popularity of item i is an unbiased and consistent estimate of Ji,. The
same holds for the fraction of persons answering positively to items i and j (j i= i) as an estimate
of

Estimation of Ji,, now proceeds by replacing one of the two factors Jii (|) in the integrand in
(13) by an approximation which is a hnear function of one or two j^ (|) for j ^ i: if

which contains only observable probabilities.
It remains to find a suitable linear combinadon. As the double monotony imphes

Mokken (1971, p. 147) recommends as 'method 1' to choose (18) if Jij is closer to ji^,, than to
"i + 1 and (19) otherwise. For / = 1 and t = k there is only one neighbour and therefore no
choice is left.

The use of (21), completed by (18) for i = and (19) for /' = 1, is called 'method 2' by Mokken.
^ote that (19) is found from (21) by replacing Ji, _ i (|) by the function that is identically zero,
by which n,., and n^-. are zero too, and similarly (18) resuhs from (20) by replacing Ji,- + , (?)
by the zero function.

This exposition of Mokken's reliability estimation methods leads to the following questions:

Ad A) (reversal). Reversing the direction of the scale means e.g. that a high score now must
be interpreted as political conservatism instead of liberahsm. It is clear that a Mokken scale
femains a Mokken scale when negative and positive answers are interchanged; this simply
"leans that zero and one change roles and each n must be replaced by 1 - jt. A litde algebra
shows that the interpolation resuh (21) remains unaltered, but (18) and (19) now become

which can also be obtained from (21) by using the function identically equal to one (rather
than zero as above) as a replacement of i (|) or +1 (|). It follows that substituting (22) and
(23), or ( 18) and ( 19) in the reliability formula ( 12) will lead to different reliability estimates.

Ad B) (accuracy). In a simulation study two-parameter logistic curves for nj (|) and a
standard normal distribution for Ç have been used to obtain all relevant probabilities (in-
cluding Jtii and the exact p^x ) by numerical integration. These are population values as no
sampling procedure was involved. It results that Mokken's method 2 nearly always underes-
timates the true reliability, with an error roughly half the error of coefficient a. Method 1
produces some positive and some negative errors, of about the same magnitude as in method
2. Errors when using a typically range between -.01 and -.06 for item curves with slopes equal
to the standard deviation of |(in our study 1), but can be as large as -. 16 for slopes three times
as large. In another study, the item parameters of ten items were chosen in such a way as to
replicate the empirical Jt-values and //,y-values of 10 items from an attitude scale towards
school (ft = 2000). The true reliability in the simulated case equals .82 and is underestimated
by only .02 for a and .01 for either Mokken method.

Ad C) (improvement). A detailed study of the errors shows that underestimation and
overestimation per individual Jt,j mostly cancel each other when the average of the four
quantities (18), (19), (22) and (23) is used, with obviously (18) and (22) only for/ = k and (19)
and (23) only for / = 1. The absolute error of this average was in all examples between 1/3 and
1/5 of the error of a when that was small, and at most 1 /10 of the error of a when that was large
(say .08 or more). For hand calculations most of the gain can be achieved already by averaging
(18) and (19) for 2 S i ^ k -1, proceeding as above for i = k and i = 1.

Although space does not permit a full motivation of these proposals. Figure 4 may be of
some help. For the three items in the left hand part, the linear combination '/zji; . ] (|) +
VzJii + 1 (Ç) of type (21) overestimates 3i, (Ç) below its median and underestimates its upper
half. As it is muhiplied by (|) dG (|) before being integrated, the underestimation domi-
nates the overestimation in the final approximation of

The right half of the figure illustrates (18) and (19) for the same three items. Their average,
denoted by the striped curve, is close to jc, (|) in the region which by the factor Ji, (|) dG (|)
contributes most to the integral. Multiplicative corrections such as (18) lead to an upper

asymptote unequal to one. The numerical results show that this is not a serious threat to the
accuracy, unless the scale contains items with popularities very close to zero or one (which are
not informative anyway).

By a similar figure, not reproduced here, one could motivate why the average of (18) and
(22) works well for i = k or the average of (19) and (23) for / = 1.

The functions of, and the relations between, Loevinger's H, Cronbach's a and the reliability
Pxx- were explored in the context of Mokken's nonparametric item response theory. It was
argued that this model permits its own estimation methods for pxr, which were extended and
improved. Work is now in progress on two related issues: the extension of the reliability
estimation to the case of more than two ordered response categories announced in Molenaar
( 1982) and the investigation of the small sample properties of the estimates, of which only the
population values were compared in the present paper.

The authors agree with Jansen (1983) that the Rasch model, when applicable, offers many
advantages not shared by the Mokken model. The latter has partially different and often less
demanding assumptions, however, and this has motivated the study of its measures for
internal consistency and reliability in the present paper.

Berge, J.M.F. ten, & Zegers, F.E. (1978). A series of lower bounds to the reliability of a test. Psychome-
trika, 43, 575-579.

Berge, J.M.F. ten. Snijders, T.A.B., & F.E. Zegers (1981). Computational aspects of the greatest lower
bound to the reliability and constrained minimum trace factor analysis. Psychometrika. 46,
201-213.

Birnbaum, A. (1968). Part V in: F.M. Lord & M.R. Novick. Statistical theories of mental test scores.
Reading: Addison-Wesley.

Carroll, J.B. (1961). The nature of the data, or how to choose a correlation coefficient. Psychometrika,
26, 347-372.

Cliff, N. (1977). A theory of consistency of ordering generalizable to tailored testing. Psychometrika, 42,
375-401.

Cronbach, L.J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334.

Cudeck, R. (1980). A comparative study of indices for internal consistency. Journal of Educational
Measurement, 17, 117-130.

Fischer, G.H. (1974). Einführung in die Theorie psychologischer Tests. Bem: Huber.

Gustafsson, J.E. (1977). The Rasch model for dichotomous items: Theory, applications and a computer
program. Institute of Education, University of Göteborg, Internal Report no. 63.

Guttman, L. (1950). The basis for scalogram analysis. In: S.A. Stouffer, L. Guttman, E.A. Suchman, P.F.
Lazarsfeld, S.A. Star, & J.A. Clausen. Measurement and prediction. Princeton: Princeton
University Press.

Horst, P. (1953). Correcting the Kuder-Richardson reliability for dispersion of item difficulties. Psy-
chological Bulletin, 50, 371-374.

Jansen, P.G.W. (1982). De onbruikbaarheid van Mokkenschaalanalyse. Tijdschrift voor Onderwijs- ■
research, 7, 11-24.

Jansen, P.G.W. (1983). Rasch analysis of attitudinal data (dissertatie). Den Haag: Rijks Psychologische
Dienst.

Loevinger, J. (1948). The technique of homogeneous tests compared with some aspects of'scale analysis'
and factor analysis. Psychological Bulletin, 45, 507-530.

Lord, F.M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ:
Lawrence Erlbaum.

Lord, F.M., & Novick, M.R. {1968). Statistical theories of mental test scores. Reading: Addison-Wesley.

Mokken, R.J. (1971). A theory and procedure of scale analysis. The Hague: Mouton.

Mokken, R.J., & Lewis, C. (1982). A nonparametric approach to the analysis of dichotomous item
lespomes. Applied Psychological Measurement, 6, 417-430.

Molenaar, I. W. (1982). Mokken scaling revisited. Kwantitatieve Methoden, 3, (8), 145-164.

Naerssen, R.F. van. (1972). Eenvoudige formules voor de optimale spreiding van item-p-waarden.
Nederlands Tijdschrift voor de Psychologie, 27, 123-133.

Raju, N.S. (1982). On tests of homogeneity and maximum KR-20. Educational and Psychological
Measurement, 42, 145-152.

Stokman, F.N., & Schuur, W.H. van (1980). Basic scaling. Quality and Quantity, 14, 5-30.

Terwilliger, J.S., & Lele, K.T. (1979). Some relationships among internal consistency, reproducibility and
homogeneity. Journal of Educational Measurement, 16, 101-108.

White, B.W., & Saltz, E. (1957). Measurement of reproducibility. Psychological Bulletin, 54, 81-99.

Wood, R. (1978). Fitting the Rasch model - A heady tale. British Journal of Mathematical and Statistical
Psychology, 31, 27-32.

Psychometric concepts as latent variables and scalepoints are linked with the statistical concept of
stochastic ordering. A difference is made between stochastic and strict stochastic ordering; the
latter being a testable assumption. The comparison of two methods with responses measured on a
three point ordinal scale is used as an illustration.

Het gebruik van een latente niet-observeerbare variabele in de Psychometrie is al oud. In
Factoranalyse kunnen de factoren als latente variabelen gezien worden; latente klasse en
structuuranalyse gaan uit van een niet observeerbare verdeling van eigenschappen in een
Populade personen (Andersen, 1980, p. 263). Een latente populadeverdeling speelt ook een
rol in item-respons modellen (Anderson & Madsen, 1977), modellen uit de signaal detectie-
theorie (Bock, 1975; Grey & Morgan, 1972), en ordinale regressie modellen (McCullagh,
1980; Weisberg, 1972; Anderson & Phillips, 1981; Vijn, 1983).

Responsies op bijvoorbeeld attitudeschalen worden vaak gemeten op een geordende
5-puntsschaal. De categoriegrenzen op de observeerbare manifeste schaal kunnen opgevat
worden als realisaties van een aantal onbekende geordende schaalpunten op een onderhg-
gende latente schaal (Bock, 1975; Vijn, 1983). In dit artikel worden hypothetische gegevens
geanalyseerd als illustratie van relaties tussen latente schaalpunten en stochastische ordening.

Gelijkheid tussen twee verzamelingen frequenties kan o.a. getoetst worden met een chi-
kwadraat toets. Afgezien van het informatieverlies ten gevolge van het aannemen van een
nominaal meetniveau, kan de alternatieve hypothese: 'groepen verschillen', te globaal zijn.
Met residuen analyse (Everitt, 1977) kunnen specifieke verschillen worden opgespoord. De
hier gepresenteerde Bayesiaanse methode baseert zich op een ordinaal meetniveau zonder de
noodzaak van het toekennen van apriori gewichten aan de manifeste schaal. Bovendien
kunnen specifieke onderzoeksvragen worden beantwoord.

ïn een hypothetisch onderzoek gaat het om de vraag naar de effectiviteit van twee onderwijs-
methoden. Na afloop van het programma wordt de effectiviteit van de methode gemeten in 3
categorieën:
~ categorie 1: gezakt

De ordinale respons variabele, X in methode 1 en V in methode 2, kan de waarde 1, 2 of 3
aannemen. De gegevens staan in tabel L

De waarden 1, 2 of 3 hebben alleen een kwalitatieve betekenis in de analyse. Men kan
evengoed de waarden 'slecht', 'redelijk' of 'goed' nemen.

Stel dat de onderzoeker een specifieke hypothese heeft: De kans op zakken in methode 1 is
groter dan de kans op zakken in methode 2, en de kans op zakken of'aanvullend onderwijs', is
in methode 1 groter dan in methode 2.

Als alle kumulatieve kansen op de waarden van de ene respons variabele groter (of kleiner)
zijn dan die van de andere responsvariabele, dan zijn de twee responsvariabelen stochastisch
geordend. Spencer (1983) behandelt stochastische ordening in een context van testscores.
Deze hypothese van stochastische ordening moet worden getoetst. Stel dat een persoon i uit
groep I (resp. II) een latente vaardigheid ('ability') (resp. t],) heeft (/ = 1, ..., 100).
Veronderstel dat groepen I en II aselecte steekproeven zijn uit latente populatieverdelingen
F, (§) en Fji (t)). Een willekeurig persoon i uit groep I met eigenschap heeft een kans op
respons 1, 2 of 3 zodanig dat

waarbij Oj en 62 de onbekende geordende latente schaalpunten zijn. Voor groep II geldt een
analoog responsieproces:

met 6| en 82 de onbekende schaalpunten. De schaalpunten liggen tussen - 00 en +00.
Bovendien geldt dat P(|,c: oo) = P(X<3)= lenP(ti,< oo) = P(y< 3)= 1. In Vijn (1983)
worden exacte en (normaal) benaderde (aposteriori) dichtheden voor de schaalpunten afge-
leid.

Apriori informatie wordt niet verondersteld. Ruwweg worden - in groep I - de schaalpun-
ten 81 en 82 zodanig geschat dat links van 8, 7% en links van 82 7 -i- 17 = 24% van de
Kansmassa ligt; voor precieze formuleringen en schattingsprocedures, zie Vijn (1983)

De schattingen van de schaalpunten onder de aanname van standaard logistische verdelin
gen voor de latente variabelen zijn weergegeven in Figuur 1. De ligging van de schaalpunten
m beide groepen verschilt van elkaar.

De absolute grootte van de schaalpunten heeft geen betekenis. Met bijvoorbeeld de aanname
van een logistische verdeling met gemiddelde 2, verschuiven alle schaalpunten 2 naar rechts.
Het verschil tussen de groepen kan gerepresenteerd worden door de verschillen tussen de
schaalpunten:

Als A| - A2 = O, dan vallen beide verdehngen samen. De aposteriori kansverdeling van het
paar {Aj, A2} kan aanvaardbaar worden benaderd door een bivariate normale verdeling
(Vijn, 1983). De bivariate verdeling is weergegeven in de Appendix. De gemiddelden zijn

Met een ordinale Bayesiaanse chi-kwadraat-toets (zie o.a Box & Tiao, 19^ p. 116, Vijn,
19831 Ln de hvpothese van gelijke verdelingen (A, = Aj = 0) tegen het alternatief van

Een klassiek equivalent is de niet-parametrische Smirnov toets met knoopcorrectie. Pro-
bleem is daarbij dat er geen aangepaste tabellen zijn en dat de behandehng van 'ties'
problematisch is (Lehman, 1975, p. 39).

Bezien we de aposteriori schattingen A j = 2.008 en A2 = .936, dan lijkt het er op dat in de
populatie de in (1) geformuleerde hypothese

niet onwaarschijnlijk is. Aangezien de kansverdeling van Ai en A2 gegeven is, kan - vanuit
Bayesiaans oogpunt - de kans op H^ uitgerekend worden:

Zonder bezwaar kunnen we concluderen dat schaalpunt 0i (resp. 62) rechts van schaalpunt 81
(resp. 62) ligt. Wat betekent deze conclusie voor de ruwe data?

De veronderstelling was dat de personen een steekproef vormden uit een logistische
populatiedichtheid, met cumulatieve verdeling

e, = F-' {P {X = 1)) en 02 = F-i {P {X < 2));
81 = F-» {P {Y = 1)) en 62 = F"' (P {Y < 2))

Al = 01 - 61 = F-' {P {X = 1)) -F-i {P (y = 1))
= logit {P {X = 1)) - logit {P (y = 1))

Ofwel, het verschil A, tussen de twee schaalpunten is gelijk aan de natuurlijke logarithme van
de kruisproductratio aj in de onderstaande 2x2 tabel:

In woorden: Aanvaarding van de hypothese dat Aj > O en A2 > O betekent: (i) De kans op
Zakken in methode 1 is groter dan in methode 2, en (ii) De kans op zakken of aanvullend
onderwijs in methode 1 is groter dan in methode 2.

Het gevolg van (i) en (ii) is (iii): De kans op slagen in methode 1 is kleiner dan in methode 2.
Precies geformuleerd:

In een Bayesiaans statistisch model kan de kans op stochastische ordening bepaald worden. In
het onderhavige voorbeeld geldt:

Ofwel, de kans dat populatie I stochastisch kleiner is dan populatie II is groter dan .95.

Met de bivariate kansverdeling p(Ai,A2 data) is het mogelijk specifieke onderzoeksvragen te
beantwoorden. Bijvoorbeeld, de interesse gaat uit naar de volgende hypothese:

De cumulatieve latente verdelingen zijn onder Hi als volgt aan elkaar gerelateerd

Als (11) juist is, dan is populatie I strict stochastisch kleiner dan populatie II. Het verschil
tussen stochastische en strict stochastische ordening is weergegeven in Figuur 2. Bij strict
stochastische ordening is de verdeling in populatie I vergeleken met die van populatie II over
een afstand A naar links verschoven. In methode 1 is er dan een constante toename A op de
latente schaal. Men kan laten zien dat op het niveau van de ruwe data een constant verschil
optreedt op een logit-schaal:

logit (P (X^ 1)) = C + logit (P (Y = 1));
logif {P (Z < 2)) = C + logit (P (y < 2)).

Het verschil Ai - A2 is normaal verdeeld met gemiddelde 1.072 en variantie 1.033. De
hypothese van een strict stochastische ordening wordt in het onderhavige voorbeeld niet
verworpen. (x'=l.ll,d/=l).De conclusie is dat methode 1 strict stochastisch kleiner is dan
methode 2.

Gesteld dat men op apriori gronden aangenomen had dat Ai = A2 = A, ofwel dat de
populaties strict stochastisch geordend zijn. Onder deze aanname is de kansverdeling van A
normaal, met gemiddelde A = .955 en variantie .155. Het 95% geloofwaardigheidsinterval is
(.169, 1.740) met P (A > 0|data) = .854. Er kan worden aangenomen dat A > O, onder de
aanname dat er een strict stochastische relatie bestaat tussen de twee populaties Wanneer de
gegevens geanalyseerd zouden worden met een Wilcoxon-toets met knoop correctie (Lehman,
1975, p. 18), dan is er apriori al aangenomen dat Ai = A2 = A, vervolgens toetst men de
(nul)hypothese van identieke (A = 0) verdelingen tegen het alternatief dat de populaties sfrtó
stochastisch geordend zijn (A f 0). De conclusie zou dan eveneens zijn dat populatie 1 strict
stochastisch kleiner (A f 0) is. Met de methode in dit artikel is het mogelijk de apriori
aanname van strict stochastische ordening in het Wilcoxon alternatief te toetsen. Men kan
aantonen (zie Vijn, 1983) dat de aanname van de logistische verdeling geen effect heeft op de

conclusies in dit artikel. De conclusie dat populatie I strict stochastisch kleiner is dan populatie
n betekent dat het verschil - gedefinieerd op een latente schaal - tussen de beide methoden
niet afhangt van de categorie van de responsvariabele.

Andersen, E.B. (1980). Discrete statistical models with social science applications. Amsterdam: North-
Holland.

Anderson, J. A., & Philips, P.R. (1981). Regression, discrimination and measurement models for ordered

categorial variables. Applied Statistics, 30, 22-31.
Andersen, E.B., & Madsen, M. (1977). Estimating the parameters of the latent population distribution.

Psychometrika, 42, 357-374.
Bock, R.D. (1975). Multivariate statistical methods in behavioral research. New York: Mc Graw-Hill.
Box, G.E.P., & Tiao, G.C. (1973). Bayesian inference in statistical problems. Reading, MA: Adisson-
Wesley.

Grey, D.R., & Morgan, B.J.T. (1972). Some aspects of ROC curve fitting: normal and logistic models.

Journal of Mathematical Psychology, 9, 128-139.
Lehman, E.L. (1975). Nonparametrics: Statistical methods based on ranks. San Francisco: Holden-Day.
McCullagh, P. (1980). Regression models for ordinal data. Journal of the Royal Statistical Society B, 42,
109-142.

Spencer, B.D. (1983). On interpreting test scores as social indicators: Statistical considerations. Journal
of Educational Measurement, 20, 317-333.

Vijn, P. (1983). Ordinal data, ordered scalepoints and order statistics. Psychometrika, 48, 437-449.
Weisberg, H.L (1972). Bayesian comparison of two ordered multinomial populations. Biometrics, 28,
859-867.

De aposteriori verdeling van Aj en A2 is bivariaat normaal met gemiddelden
Al = logit logit (721 ;
A2 = logit 1712- logit ^22.

1962. A scale for the measurement of subjective probability. Acta Psychologica, 20, 159-
166.

1965. Application of the decision theoretical approach to the selection of drivers. In L.J.
Cronbach, & G.C. Gleser (Eds.), Psychological tests and personnel decisions (2nd ed.).
Urbana: University of Illinois Press.

1965. Enkele eenvoudige besliskundige toepassingen bij test en selectie. Nederlands Tijd-
schrift voor de Psychologie, 20, 364-380.

1965. met R.C. van Beaumont, Ervaringen met een zekerheidsaanduiding bij objectieve
tentamens. Nederlands Tijdschrift voor de Psychologie, 20, 308-315.

1966. Het handhaven van eenmaal aangenomen normen bij opeenvolgende objectieve
toetsen. Pedagogische Studiën, 43, 312-320.

1966. Testbetrouwbaarheid uit de deel-rest correlatie. Nederlands Tijdschrift voor de Psy-
chologie, 21, 715-718.

1966. Itemscoring met 'zeker' of 'onzeker'. In: National Congres Onderzoek van Weten-
schappelijk Onderwijs. Eindhoven: THE, 179-190.

1966. De fout bij het gebruik van een tweetal benaderingsformules. Statistica Neerlandica,
20, 251-256.

1966. Objectieve proefwerken en examens. Geprogrammeerde Instructie, 2, 162-168.
1966. met R.C. van Beaumont, De coefficient van Long als een benadering van de biseriele r
in de itemanalyse. Nederlands Tijdschrift voor de Psychologie, 21, 308-316.

1966. met S. Sandbergen en E. Bruynis. Is de utiliteitscurve van examenscores een ogief?
Nederlands Tijdschrift voor de Psychologie, 21, 358-363.

1967. Voorbeelden bij de analyse van objectieve proefwerken en examens. Gepro-
grammeerde Instructie, 3, 20-23.

1967. Itemselectie bij studietoetsen: Een nieuwe benadering. Nederlands Tijdschrift voor de
Psychologie, 22, 345-359.

1968. Ein 'Signal/noise ratio' Index, zur Aufgaben-Auslese bei informellen Tests. In: K.
Ingenkamp & Th. Marsolek (Eds.), Möglichkeiten und Grenzen der Testanwendung in der
Schule. Berlin: Verlag Julius Beltz.

1968. Van score tot beslissing. In: Tweede Nationaal Congres Onderzoek van Weten-
schappelijk Onderwijs. Utrecht: RUU.

1969. met A.D. de Groot e.a. (Red.), Studietoetsen: Construeren, afnemen, analyseren.
Den Haag: Mouton.

1969. Een itemwaarde index voor studietoetsen bij kleine groepen personen. Nederlands
Tijdschrift voor de Psychologie, 24, 606-609.

1970. Het nut van selectie: Enkele voorbeelden. In P.J.D. Drenth, P.J. Willems, & Ch.J.
Wolff (Red.), Bedrijfspsychologie. Deventer: Kluwer.

1970. Oplossingen van het afkijkprobleem bij massale examens. Pedagogische Studiën, 47,
99-104.

1970. Practische benaderingen van de item-test regressiefunctie. Nederlands Tijdschrift voor
de Psychologie, 25, 384-392.

1970. Twee-keuze-items in studietoetsen. Nederlands Tijdschrift voor de Psychologie, 25,
393-403.

1970. Een noot bij de logistische kromme. Nederlands Tijdschrift voor de Psychologie, 25,
615-617.

1970. Itemgewichten afhankelijk van de ruwe score. Nederlands Tijdschrift voor de Psy-
chologie, 25, 604-614.

1970. Over opdmaal studeren en tentamens combineren. Amsterdam: Swets en Zeitlinger
(openbare les).

1971. met L.F. Wouters, Het samenstellen van tentamens door het trekken van steekproe-
ven uit de itemvoorraad: Een methode en een rekenprogramma. Nederlands Tijdschrift voor
de Psychologie, 26, 560-567.

1971. Het mondelinge tentamen als sekwentiele beslissingsprocedure. Nederlands Tijd-
schrift voor de Psychologie, 26, 568-579.

1971. De Brokkenmaker. In: J. van der Kleij (Red.), Het kan verkeren. Utrecht: Teleac,
47-51.

1971. Een model voor tentamens. Nederlands Tijdschrift voor de Psychologie, 26, 121-132.

1971. Een model voor tentamens: Vervolg. Nederlands Tijdschrift voor de Psychologie, 26,
551-559.

1972. Eenvoudige formules voor de optimale spreiding van item p waarden. Nederlands
Tijdschrift voor de Psychologie, 27, 123-133.

1972. Appendix bij Eenvoudige formules voor de opdmale spreiding van item p-waarden:

1972. Het schalen van testscores. Nederlands Tijdschrift voor de Psychologie, 27, 471-485.

1973. Voor- en nadelen van toetsen met bekende items. Nederlands Tijdschrift voor de
Psychologie, 28, 259-226.

1973. Betrouwbaarheid van de eindscore bij gebruik van tevoren geschatte score. Neder-
lands Tijdschrift voor de Psychologie, 28, 281-288.

1974. Psychometrische aspecten van de kernitemmethode. Nederlands Tijdschrift voor de
Psychologie, 29, 421-430.

1974. A mathemadcal model for the optimal use of criterion referenced tests. Nederlands
Tijdschrift voor de Psychologie, 29, 431-446.

1974. A psychometric model for an optimal system of examinations. Paper presented at the
18th International Congress of Apphed Psychology. Montreal, Canada.

1975. Studietoetsen: Construeren, afnemen, analyseren, deel II (2e druk). Den Haag:
Mouton.

1975. Rapport aan de examencommissie I betreffende de invloed van herkansingen op het
niveau van de voor de propedeuse geslaagde Studenten. Amsterdam: Psychologisch Labora-
torium UvA.

1975. Inleiding in de psychometrika, deel I. Amsterdam: Psychologisch Laboratorium UvA
(syllabus).

1976. Inleiding in de psychometrika, deel II. Amsterdam: Psychologisch Laboratorium UvA
(syllabus).

1976. Computer simulatie bij het onderzoek van tentamenregelingen. Tijdschrift voor On-
derwijsresearch, 1, 112-117.

1976. Het derde tentamenmodel met een toepassing. Tijdschrift voor Onderwijsresearch, 1,
161-171.'

1976. Over het nut van een tentamenmodel. Tijdschrift voor Onderwijsresearch, 1, 278-280.

1977. Absoluut meten bij toetsen voor beheersing en diagnose. Losbladig Onderwijskundig
Lexicon. Alphen a/d Rijn: Samsom.

1977. Lokale betrouwbaarheid: Begrip en operationalisatie. Tijdschrift voor Onderwijs-
research, 2, 111-119.

1977. Moeite en tijd bij conjunctieve en compensatorische combinatie van twee toetsen.
Tijdschrift voor Onderwijsresearch, 2, 165-171.

1977. Grafieken voor de schatting van de helling van itemkarakteristieken. Tijdschrift voor
Onderwijsresearch, 2, 193-201.

1977. Boekbespreking van C. Sanders, L.K.A. Eisenga en J.F.H. van Rappard, Inleiding in
de grondslagen van de psychologie. Tijdschrift voor Onderwijsresearch, 2, 283-284.

1978. Grafieken voor de schatting van Birnbaum's informatiemaat. Tijdschrift voor Onder-
wijsresearch, 3, 37-39.

1978. Een voorbeeld van simulatie ter controle van empirisch statistisch onderzoek. Tijd-
schrift voor Onderwijsresearch, 3, 49-55.

1978. Boekbespreking van D.N.M. de Gruijter, Psychometrische aspecten van tentamens.
Tijdschrift voor Onderwijsresearch, 3, 90-91.

1978. Lokale discriminatie bij twee- en vierkeuzetoetsen. Tijdschrift voor Onderwijs-
research, 3, 131-133.

1978. Een snel programma voor de simulatie van een gegeven test. Tijdschrift voor Onder-
wijsresearch, 3, 281-283.

1978. A systems approach to examinations./ln/j<j/j of Systems Research, 6, 63-72.

1979. Absolute of relatieve aftestgrens: Een verkenning met simulatie. Tijdschrift voor
Onderwijsresearch, 4, 8-17.

1979. Correctie voor raden en ethiek. Tijdschrift voor Onderwijsresearch, 4, 90-91.
1979. Dupliek. Tijdschrift voor Onderwijsresearch, 4, 202-203.

1979. Optimal number of choices in parallel item tests. Tijdschrift voor Onderwijsresearch, 4,
145-150.

1979. Voorbeelden van psychometrisch onderzoek met gesimuleerde toetsuitslagen. In: G.J.
Mellenbergh, R.F. van Naerssen, & H. Wesdorp (Red.), Rede als Richtsnoer: Bijdragen over
methoden van denken en werken in de gedragswetenschappen aangeboden aan prof. dr. A.D.
de Groot bij zijn afscheid van de Universiteit van Amsterdam. Den Haag: Mouton, 195-207.

1980. De ruimte voor verbetering van de constante aftestgrens methode voor normhandha-
ving. Tijdschrift voor Onderwijsresearch, 5, 54-60.

1980. Simpele items tegenover complexe vragen en de correctie voor attenuatie. Tijdschrift
voor Onderwijsresearch, 5, 193-198.

1980. Klassieke itemindices en de verwachting van de iteminformatie. Tijdschrift voor On-
derwijsresearch, 5, 241-249.

1980. Verdere automatisering van tentamens. Revesz-Berichten no. 5. Amsterdam: Psy-
chologisch Laboratorium UvA.

1980. Een handige formule voor de dichtheid van de ware score verdeling. Revesz-Berichten
no. 13. Amsterdam: Psychologisch Laboratorium UvA.

1981. Inleiding in de factoranalyse op basis van matrixalgebra en met relaties tot partiele en
multiple correlatie. Amsterdam: Psychologisch Laboratorium UvA (syllabus).

1982. Multiple evaluatie en zekeraanduiding. Tijdschrift voor Onderwijsresearch, 7, 256-
263.

1982. Het genereren van data voor het oefenen en toetsen van studenten. In: W.P. van den
Brink & P. Koele (Red.), Statistiek voor psychologen: Een bundel artikelen aangeboden aan
Jan C. Spitz, Revesz-Berichten no. 36. Amsterdam: Psychologisch Laboratorium UvA
115-127.

1982. Over punten judicia en 'mastery' bij het hoger onderwijs. Tijdschrift voor Onderwijs-

1983. Het nut van multiple evaluatie nogmaals geschat met simulatie. Tijdschrift voor
Onderwijsresearch, 8, 224-226.

1984. Toetsen met enkele moeilijke items voor de sterke studenten. Tijdschrift voor Onder-
wijsresearch, 9, 16-26.

1984. Relatief nut van klassieke indices voor de selectie van dichotome items. Tijdschrift
voor Onderwijsrearch, 9, 112-120.

The analysis of subject matter is part of the process of designing instruction. Teachers as practical
designers do not have at their disposal adequate instruments for this task. Several instruments for
analyzing subject matter are discussed, one of which is proposed as an adequate procedure.
Fourty-four teachers used this instrument. Through MOKKEN scaling it is analyzed whether
teachers select concepts homogeneously as belonging to the subject matter structure. It is
concluded that concepts are selected according to one underlying criterium. This study presup-
poses that the analysis of subject matter can and should be undertaken by teachers as part of their
own design activities.

Een leerstofstructuur biedt een systematisch overzicht waarin de inhoud en organisatie van
leerstof beschreven wordt.

De leerstof, nadat deze is geselecteerd en afgebakend (bijv. in het curriculum), wordt
daartoe nader geanalyseerd en gerepresenteerd met behulp van methoden voor leerstof-
structurering.

Een leerstofstructuur heeft betrekking op 1) de aard en 2) de samenhang van begrippen in
de te onderwijzen informatie en staat in een bepaalde relatie tot de kennisstructuren waarover
leerlingen reeds beschikken en de structuur van kennis zoals die geldt binnen het betreffende
vakgebied. Het probleem hoe een leerstofstructuur bepaald kan worden (we noemen dit
leerstofstructurering en beperken ons verder tot het leerstofdomein: verbale informatie)
bestaat dan uit de volgende onderdelen:

• welke concepten maken deel uit van de leerstof die men wil onderwijzen en hoe worden
deze geselecteerd (d.w.z. de analyse van leerstof)?

• op welke wijze worden de concepten onderling georganiseerd waaruit de samenhang in
leerstof kan blijken (d.w.z. de representade van leerstof)?

Leerstofstructurering heeft te maken met verschillende aspecten van het ontwerpen (Posner,
1978). Leerstofstructurering imphceert ondermeer dat belangrijke concepten en relaties
binnen een leerstofonderdeel vast te stellen zijn waardoor een overzicht wordt verkregen van
hoofd- en bijzaken in de aan te bieden informatie. Het kan aanleiding geven een bepaalde
volgorde in de leerstofbehandeüng aan te brengen (zie Lodewijks, 1981 en Breuker, 1980).

Tevens biedt een leerstofstructuur mogelijkheden om te vergehjken (na onderwijs) of de
leerstof volledig is behandeld of nog hiaten vertoont. Ook kan men vanuit een leerstof-

structuur aanwijzingen vinden dat bepaalde concepten ontbreken of dat bepaalde relaties
gelegd moeten worden. Op deze wijze wordt de mogelijkheid geopend nieuwe informatie te
zoeken en aan de leerstofstructuur te verbinden. Posner (1980, 1981) geeft aan dat tekorten
in kennisstructuren of misvattingen bij leerlingen kunnen worden opgespoord met behulp van
een leerstofstructuur. In een leerstofstructuur kan worden omschreven welke kennis bekend
en welke informatie nieuw is voor een leerling (Lodewijks, 1981).

Breuker (1980) en Posner (1978) geven bovendien aan dat een leerstofstructuur een
waardevol middel is bij de toetsing van onderwijseffecten omdat op grond van een leerstof-
structuur vastgesteld kan worden welke vragen c.q. opdrachten over geleerde concepten en
relaties geformuleerd zouden kunnen worden.

Om deze eigenschappen vormt de leerstofstructuur een belangrijke component in het
ontwerpen van onderwijsleersituaties (Gagné & Briggs, 1979).

Leerkrachten zijn verantwoordelijk voor de wijze waarop leerstofonderdelen worden onder-
wezen. Leerkrachten bepalen veelal feitelijk welke informatie, kenmerkende principes en
onderlinge verbanden uit de leerstof worden overgedragen in het onderwijs. Het blijkt dat
leerkrachten in hun planning aandacht besteden aan leerstofstructurering (Olson, 1981).
Volgens Troxler e.a. (1981) gebruiken leerkrachten voorhanden zijnde leerstofbronnen
(curricula, achtergrondteksten) om zelf tot leerstofomschrijvingen te komen en zij investeren
in hun planning met name veel tijd aan oriëntatie op en analyse van leerstof. In schriftelijke
notities van leerkrachten over hun planning blijkt bijna uitsluitend sprake te zijn van leer-
stofanalyse. Voor deze taak hebben leerkrachten nog nauwelijks middelen of procedures ter
beschikking terwijl juist ondersteuning door middel van instrumenten voor leerstofstructure-
ring gewenst is.

In het laatste geval kan door de leerkracht duidelijker een verband worden gelegd en gezien
tussen de structuur van leerstof, de wijze van behandeling (leerstofopbouw) en de be
schikbare kennis bij leerlingen (diagnose). Olson (1981) benadrukt het belang van leerstof
structurering als ontwerpactiviteit door leerkrachten omdat produkten (bijv. een leerstof
structuur aangereikt door curricula) toch door leerkrachten zullen worden omgewerkt al naa
gelang het gebruik in eigen situatie. Bovendien is het de vraag of extern aangeboden produk
ten voldoende duidelijkheid verschaffen over bedoeling, opzet en procedures voor de ge
bruiker. Dit houdt in dat extern ontwikkelde planningsprodukten (bijv. in curricula) eerde
mogelijk materiaal voor de planning zullen vormen dan voorschrijvend materiaal.

Leerkrachten dienen dan ook zelf deze ontwerpactiviteit uit te voeren, verondersteld dat zij
beschikken over adequate ontwerpprocedures/planningshulpen (zie voor dit argument ver-
der Tillema, 1983). Er ligt een belangrijk voordeel in een dergelijke benadering omdat
leerkrachten nu door middel van een door hen zelf te hanteren procedure en via een actief
zoekproces een adequate leerstofstructuur samenstellen. Hpt voordeel lijkt te zijn dat
leerkrachten op deze wijze beter ingewerkt raken en op de hoogte zijn met verbanden en
implicaties die de leerstof bevat. Wittrock (1981) geeft aan dat door dit actief zoekproces de
verwerking en het gebruik van informatie (c.q. leerstof) worden verbeterd.

Deze redenering wordt ondersteund door onderzoek van Ben Peretz en Tamir (1981) die
bij biologieleerkrachten onderzochten welke informatie uit curricula een rol vervulde tijdens
de planning. Het bleek dat leerkrachten overwegend behoefte hadden aan overzichten van
leerinhouden en nauwelijks rekening hielden met informatie die betrekking had op han-

delingsaanwijzingen in het curriculum. De eigen verantwoordelijkheid van leerkrachten in
het ontwerpen van onderwijsleersituaties moet niet te snel overschat worden en het wordt
daarmee van groot belang om adequate (plannings)hulpmiddelen voor deze taak ter be-
schikking te hebben.

Naast meer verfijnde instrumenten voor leerstofstructurering voor specifieke doeleinden
(Pask, 1976) zijn er instrumenten ontwikkeld voor gebruik door leerkrachten bij het ontwer-
pen van onderwijsleersituaties. Deze maken veelal op relatief eenvoudige wijze een analyse
mogelijk van de leerstof die men wil onderwijzen. Dansereau e.a. (1979) en Dansereau en
Holley (1981) construeerden een instrument dat gebaseerd is op het principe 'networking'.
Dit instrument kan worden gebruikt door leerkrachten ten behoeve van leerstofstructurering.
Het instrument omvat het analyseren van een informatieve tekst (bijv. een achtergrondtekst
over de leerstof) door het identificeren van belangrijke concepten in het tekstmateriaal en het
representeren van interrelaties tussen concepten in de vorm van een netwerk. Met dit
instrument is het mogelijk verscheidene relaties tussen concepten te benoemen, nl. hiërar-
chische relaties (deel-geheel relaties), ketens tussen begrippen (ordeningen die in de tekst zijn
aangebracht), causale verbanden en clusters van begrippen (definities, analogieën).

Toepassing van het instrument resulteert in een tweedimensionele leerstof kaart'. Er zijn
weinig restricties gegeven aan de uiteindehjke vorm van het netwerk dat kan bestaan uit
onderhng verbonden concepten, klassen of deelklassen van concepten.

Een soortgehjke techniek is ontwikkeld door Anderson (1979). Op overeenkomstige wijze
zijn instrumenten ontwikkeld aan het COWO in Amsterdam, (Breuker, 1980; Mirande,
1980) op basis van een techniek genoemd 'schematiseren'. Deze vorm van leerstofstructure-
ring is verwant aan tekstanalyse waarbij men een schema construeert van nieuwe of gedefi-
nieerde concepten in een tekst. Bij het lezen van een tekst wordt een specificatiehjst van
begrippen samengesteld. Vanuit iedere begrip wordt minstens één relatie getrokken naar een
andere begrip of, wat ook mogelijk is, naar een andere relatie in de tekst. Welke begrippen of
relaties daarvoor in aanmerking komen moet evident zijn uit de tekst. Relaties worden
weergegeven als hjnen of pijlen. Het specificatieniveau van het netwerk (de hoeveelheid
concepten of relaties) wordt niet gedefinieerd zodat men kan overgaan tot beperking of
uitbreiding al naar gelang het doel dat men (bij leerstofstructurering) heeft. De aard van de
relaties wordt niet nader ingevuld zodat hjnen en pijlen in het netwerk verschillende verban-
den kunnen impliceren.

De laatstgenoemde technieken zijn ontstaan in de context van studievaardigheidsprogram-
ma's en hebben betrekking op analyse en representatie van informatie uit één tekst. Genera-
liserend gesproken kunnen ze ook gebruikt worden voor leerstofstructurering hoewel op zich
genomen deze instrumenten niet geconstrueerd zijn voor de analyse van leerstof.

Een dergehjke bedoehng werd wel nagestreefd door Jochems (1980) voor wat betreft de
analyse van leerstof in met name technische vakken waarin een kennisbeschrijving wordt
gegeven op basis van regels en procedures die in de leerstof aanwezig zijn. De analyse bestaat
uit het samenstellen van een geheel van regels dat de leerstof volledig beschrijft en het
weergeven van de onderlinge ordening tussen de regels. Op basis daarvan worden leerproce-
dures geëxpliciteerd die aangeven welke operaties of handehngen een leerhng moet verrich-

ten om ecn regel te kunnen gebruiken of toe te passen. In de formulering van een leerproce-
dure wordt een verband gelegd tussen bepaalde regels. De leerstofanalyse levert uiteindelijk
een volledige beschrijving van leerstof op, die bestaat uit een verzameling regels en procedu-
res. Tussen de regels onderling wordt een samenhang gezocht waarin is vastgelegd welke
regels met elkaar gecombineerd kunnen worden, zodanig dat een hiërarchie van regels en
leerstofonderdelen ontstaat (Jochems, 1980; pag. 186).

Door de aard van de leerstof en de gekozen analyse-werkwijze is deze vorm van leerstof-
structurering meer gericht op procedurele kennis - operaties die men uitvoert om een
vaardigheid te beheersen - dan op declaratieve kennis, d.w.z. feitelijke informatie (zie Kok &
Tillema, 1981).

Een vorm van leerstofstructurering die niet begint bij de analyse van gegeven ofwel
gekozen leerstof maar begint bij de selectie en keuze van leerstof die men wil onderwijzen
(doelen), is te vinden in het werk van Schott (Schott e.a., 1980). Hij ontwikkelde een
techniek, genoemd PLANA. Dit is een voor de leerkracht bedoelde praktische handleiding ten
behoeve van de analyse van leerstof en de precisering van leerdoelen. Leerdoelen worden
opgevat als globale formuleringen van informatie die men in het onderwijs wil overdragen.
Door middel van analyse van ter beschikking staande bronnen wordt een omschrijving van de
'basisleerstof samengesteld. De analyse levert een specifieke einddoelomschrijving op, even-
als een gedetailleerde formulering van de informatie of de operaties die behoren bij het
einddoel.

In onderzoek bij a.s. leerkrachten is gebleken dat het werken volgens deze procedure een
betere analyse van de leerstof en een betere representatie ervan oplevert (vgl. par. 2) dan
andere manieren van leerstofstructurering. Anders dan de reeds genoemde instrumenten
levert de PLANA-werkwijze geen overzicht op in de zin van een netwerk van te onderwijzen
informatie maar volstaat met het geven van een catalogus van leerinhouden.

Tenslotte kan het instrument dat Witte (1974) ontwikkelde besproken worden. Ook dit
instrument is bedoeld om te worden gehanteerd door leerkrachten bij het ontwerpen van
onderwijsleersituaties. De analyse vereist een wetenschappelijk verantwoorde en zo volledig
mogelijke inhoudsbeschrijving van de leerstof- de zgn. 'Basaltext'. Deze wordt tevoren door
bijvoorbeeld experts samengesteld op grond van geraadpleegde bronnen. De analyse bestaat
erin concepten, die in de Basaltext verbonden zijn, nader te expliciteren, op zodanige wijze
dat tussen de concepten ketens van causale verbanden worden gedefinieerd. Het ene concept
moet noodzakelijk uit een eerder concept voortvloeien. Hierdoor ontstaat een representatie
volgens het zgn. 'Vorläufer-Nachfolger' principe. Gebruikmakend van formele eisen voor het
maken van een netwerk worden de als Vorläufer-Nachfolger gerangschikte concepten afge-
beeld en wordt vastgesteld of de volgorden en verbanden tussen concepten aannemelijk zijn.
De techniek is in hoge mate gealgoritmiseerd en bestaat uit een omvangrijk aantal con-
structieregels.

De instrumenten verschillen onderling in de mate van specificatie en reikwijdte. Sommige zijn
niet specifiek ten opzichte van één leerstofdomein (bijv. Schott), andere zijn bedoeld voor
andere leerstofdomeinen dan het hier onderzochte (Gagné & Briggs en Jochems).

Sommige zijn in feite analyse-instrumenten voor één tekst (Dansereau, Breuker) waardoor
niet verzekerd is dat een zo volledig mogelijke omschrijving van de leerstof wordt verkregen,
hetgeen de sterke kant is van het instrument dat door Witte werd ontwikkeld. Witte echter
veronderstelt weer dat een volledige omschrijving van de leerstof reeds is gegeven bij aanvang
van de analyse, in plaats van deze te zien als een uitkomst van analyse.

Ook blijkt dat bij sommige instrumenten zeer specifieke aannamen gelden wat betreft de

relaties die voor analyse in aanmerking komen, waardoor de representatie van leerstof sterk
wordt beperkt. Het staat echter vast (Posner, 1978,1980) dat onderdelen van de leerstof op
onderhng verschillende manieren kunnen samenhangen. Verder is denkbaar (Lawless, 1979)
dat juist door middel van verschillende relades en onderhnge verbanden tussen concepten, de
kern van leerstof, d.w.z. de structuur, voldoende kan worden weergegeven. Door ons werd
een instrument ontwikkeld voor de analyse en representatie van leerstof (Kok & Tillema,
1981) dat in bepaalde vorm door leerkrachten kan worden gehanteerd (nl. de handleiding
leerstofstructurering, Tillema e.a., 1980).

In dit instrument wordt rekening gehouden met een aantal onderkende nadelen van andere
instrumenten. Het instrument is bedoeld om declaratieve kennis (informatie of concepten)
binnen een leerstofonderdeel (d.w.z. is leerstofdomein afhankehjk) weer te geven en het kan
dienen als een systematische heuristiek voor de representatie van leerstof. Het instrument
bestaat uit een aantal besUssingsstappen in een bepaalde vaste volgorde. Begonnen wordt met
het selecteren van relevante begrippen uit verschillende achtergrondteksten die handelen
over dezelfde te analyseren leerinhoud.

Om een adequate representatie van leerstof te verkrijgen die zoveel mogelijk overeen-
komst met de stand van kennis binnen het vakgebied waarop de leerstof betrekking heeft,
worden meerdere teksten geselecteerd. Daarbij wordt verondersteld dat één enkele tekst
slechts onvolledig en gekleurd door de specifieke bedoelingen van de schrijver een kennisge-
bied zal weergeven. Het gebruik van meerdere teksten heeft als voordeel dat het verbijzon-
deringen of onvolledigheden op kan heffen. De te analyseren teksten worden beschouwd als
bestaande uit semantische proposities in de vorm van subject-predicaat uitspraken waartus-
sen referentiële coherentie bestaat. Er worden dan ook concepten geselecteerd die met
andere concepten expliciet in verband kunnen worden gebracht. Op deze wijze ontstaan
conceptparen die een bepaalde relade met elkaar hebben. De selecde van concepten is
gebaseerd op de mate waarin deze in de tekst gedefinieerd, nader omschreven of toegepast
worden. Doordat men verschillende teksten analyseert kan het voorkomen dat eenzelfde
concept in meerdere conceptparen aanwezig is. Dit gegeven vormt de basis voor constructie
van een netwerk waarin concepten onderhng verbonden zijn door verschillende lijnen. De
betekenis van deze lijnen is afhankehjk van het verband zoals dat geldt of gelegd wordt in de
conceptparen. Op deze wijze worden relaties inhoudelijk vastgesteld en bijvoorbeeld niet
omschreven in formele categorieën (zoals deel-geheel, eigenschaps- of voorwaardelijke
kenmerken).

Wij gaan ervan uit dat het gebruik van een vastgelegde procedure voor het bepalen van een
leerstofstructuur tot een meer consistente representatie leidt dan het gebruik van zelfontwik-
kelde procedures door leerkrachten (Schott e.a., 1980; Dansereau e.a., 1979). In dit onder-
zoek wordt nagegaan of het gebruik van zulk een instrument voor leerstofstructurering door
leerkrachten inderdaad leidt tot een betrouwbare weergave van concepten uit eenzelfde
leerstofonderdeel.

Aan het onderzoek namen 44 leerkrachten deel op vrijwillige basis. Zij gaven allen meerdere
jaren onderwijs in de bovenbouw van het basisonderwijs. Leerkrachten werden geïnstrueerd
over de bedoelingen van het onderzoek en over hetgeen wat van hen werd veriangd. Géén van

de leerkrachten gaf te kennen gebruik te maken van een systematische heuristiek voor
leerstofstructurering. Verzekerd werd dat leerkrachten geen speciale (les)ervaring hadden
met het in het onderzoek behandelde lesonderwerp.

In het onderzoek werd gebruik gemaakt van informatie uit het vakgebied: staatsinrichting.
Als leerstofonderdeel werd gekozen: de werking van onze parlementaire democratie.

In dit onderzoek werd een achtergrondtekst, bedoeld voor de leerstofstructurering door
leerkrachten, gebruikt nl. de tekst: 'Hoe ons land geregeerd wordt', door Van der Veen
(1979).

Als instrument voor leerstofstructurering werd de 'handleiding leerstofstructurering' (Til-
lema e.a., 1980) gehanteerd. Deze handleiding is een bepaalde uitwerking van het instrument
leerstofstructurering (zie voor meer informatie Kok en Tillema, 1981) en speciaal gecon-
strueerd ten behoeve van gebruik door leerkrachten. In de handleiding wordt de te volgen
procedure voor leerstofstructurering toegelicht met voorbeelden en toepassingen waardoor
deze het karakter van een trainingspakket heeft. Leerkrachten werden getraind in de werk-
wijze aan de hand van de handleiding en een oefenvoorbeeld (zie voor meer informatie
Tillema, 1983). Van leerkrachten werd verwacht dat zij na lezing van de tekst een lijst van
concepten produceren waarvan bepaald kan worden of deze concepten door leerkrachten op
samenhangende wijze zijn geselecteerd.

De data die met de gevolgde onderzoeksopzet worden verkregen zijn te beschouwen als
responsen op een verzameling stimuli (concepten zoals in de tekst aanwezig) gemeten bij een
verzameling subjecten (leerkrachten) met een variatie in responsen op de stimuli (wel of niet
opnemen van concepten in een leerstofstructuur). Aangenomen wordt dat subjecten, die de
vastgelegde procedure voor leerstofstructurering hanteren, concepten zullen rangschikken
c.q. opnemen in de leerstofstructuur volgens eenzelfde criterium (opname van een concept als
behorend tot de leerstofstructuur).

Data met een dergelijke structuur kunnen worden geanalyseerd door middel van deter-
ministische schaalanalyse c.q. Guttman-schaling. Echter de hiervoor meest geschikte metho-
de: scalogramanalyse, werd niet gehanteerd dopr de restricties die deze methode stelt aan het
aantal stimuli (concepten) die een schaal kunnen vormen. In plaats daarvan werd gebruik
gemaakt van MOKKEN-schaalanalyse - een vorm van probabiUstische itemanalyse. MOK-
KENanalyse wordt hier gehanteerd, niet zozeer om de homogeniteit van items te bepalen als
wel om de maximale hneaire samenhang tussen items te bepalen. Dit laatste wil zeggen dat
wordt nagegaan welke items relatief hoog met elkaar correleren (zie voor een discussie van de
MOKKENschaalanalyse Jansen, 1982; Molenaar, 1982).

De schaalbaarheid wordt uitgedrukt in een itemcoëfficiënt: Hj - de kans op selectie van een
item gegeven de waarde van de onderliggende latente trek

De kwaliteit van een geconstrueerde schaal over de items wordt aangegeven met een
homogeniteitscoëfficiënt: H (gewogen gemiddelde van ƒƒ,) (Niemöller, 1976). De homoge-
niteitscoëfficiënt geeft aan of items als geheel een betrouwbare schaal vormen waarin subjec-
ten volgens eenzelfde criterium concepten hebben geselecteerd.

Uitgangspunten voor analyse zijn de in het onderzoek bijeengebrachte items (d.w.z. alle
genoemde concepten). Binnen de genoemde concepten wordt eerst gezocht naar een item-

paar met de minste moeilijkheidsgraad (d.w.z. door alle subjecten geselecteerd) om daarna
successief verder te zoeken naar resterende items die met elkaar samenhangen onder de
voorwaarde dat de homogeniteitscoëfficiënt van de items groter moet zijn dan het schaal-
gemiddelde (een constante c met een H gelijk aan .30); een sterke schaal wordt gevormd door
H > .50.

In totaal werden door de 44 leerkrachten 30 verschillende concepten genoemd als behorend
tot de leerstofstructuur en opgenomen in de door hen geconstrueerde conceptenlijst. In een
eerste analyse werd bepaald wat de schaalbaarheid van concepten is, gemeten over alle
concepten gezamenlijk. De gevonden betrouwbaarheidscoëfficiënt (Rho) is .84. Coëfficiënt
H voor een schaal bestaande uit alle concepten is .28 (Delta*= 19.14). Dit valt beneden de
criteriumwaarde om van een homogene schaal te kunnen spreken en betekent dat niet alle
concepten geselecteerd zijn volgens één dimensie. De geobserveerde itemmoeilijkheid per
concept is weergegeven in Tabel 1 waarbij een hogere fractie duidt op een grotere overeen-
stemming tussen leerkrachten om concepten te selecteren als behorend tot de leerstof-
structuur van het onderwerp (item-rest correlaties).

In een tweede analyse werd nagegaan, op grond van de schaalbaarheidscoëfficiënt H, welke
deelverzameling concepten een voldoende sterke schaal vormen. Een perfecte schaal (H = 1)
wordt gevormd door de concepten: wetten en regeerperiode. Met uitsluiting van deze con-
cepten wordt een sterke schaal verkregen {H = .65) door de volgende 15concepten (zie Tabel
2).

De betrouwbaarheidscoëfficiënt van deze schaal is Rho = .91. Een schaal van de overblijven-
de concepten die voldoet aan de eis dat schaalbaarheid groter moet zijn dan de schaal-
constante c = .30 (de ondergrens van H) kon niet geconstrueerd worden. Dit betekent dat
bepaalde concepten (bijv. kamerzetels, Nederland, stemplicht) op grond van specifieke
keuze-overwegingen door enkele leerkrachten niet zijn opgenomen en dat tussen die con-
cepten geringe samenhang bestaat. Geconcludeerd kan worden dat een sterke schaal met een
voldoende hoge betrouwbaarheid wordt verkregen op meer dan de helft van de geselecteerde
concepten.

Vervolgens werd een correlatiematrix berekend over de 30 concepten. De gemiddelde
interitemcorrelatie is .15 hetgeen aangeeft dat niet tussen de concepten al voldoende correla-
tie aanwezig is om een schaal te vormen met een hoge betrouwbaarheid.

In Figuur 1 zijn de correlaties >.40 opgenomen in een netwerkrepresentatie. De geselec-
teerde concepten (vgl. de begrippen die de geconstrueerde schaal vormen) leveren een
getrouw beeld op van belangrijke begrippen en relaties in het betreffende vakgebied.

In dit onderzoek werd nagegaan of leerkrachten die de beschikking hebben over een instru-
ment voor leerstofstructurering op onderling overeenkomende wijze concepten selecteren
om een leerstofstructuur te kunnen vormen. De veronderstelling is dat als een instrument
zodanig strikte regels verschaft, en daarmee een procedure wordt verstrekt voor het analyse-
ren van leerstof, dat dan op eenduidige wijze bepaald kan worden welke concepten geselec-

teerd moeten worden als behorend tot de leerstofstructuur. Uit de resultaten blijkt dat met
redelijk hoge betrouwbaarheid merendeel van concepten geselecteerd is op eenzelfde onder-
liggend criterium nl. als behorend tot de leerstofstructuur. Daarbij is tussen leerkrachten
overeenstemming aanwezig over de selectie van deze belangrijke concepten. Dit effect kan
niet geweten worden aan onderlinge correlaties tussen concepten zelf.

Geconcludeerd mag worden dat leerstofstructurering volgens de voorgestelde procedure
vergelijkbare beoordelingen tussen leerkrachten oplevert.

Het instrument voor leerstofstructurering, zoals hier onderzocht, zou op grond van de
behaalde resultaten gebruikt kunnen worden in verband met het ontwerpen van onderwijs-
leersituaties. Het instrument maakt het nl. mogelijk om vast te stellen welke concepten
behoren tot de te behandelen leerstof, voorziet in het bepalen van relaties die tussen concep-
ten gelegd kunnen worden en kan tenslotte deze geïnterrelateerde concepten visueel re-
presenteren. In het instrument wordt een afweging gemaakt tussen concepten die deel

uitmaken van de leerstofstructuur waardoor een overzicht wordt verkregen van concepten in
hun onderlinge samenhang.

In het gebruik van het instrument ligt besloten dat de analyse en representatie van leerstof
wordt uitgevoerd door leerkrachten in plaats dat het product van de analyse, nl. de leerstof-
structuur, wordt aangeboden. Zeker waar het gaat om leerstof die in het bestek van een
onderwijsleersituatie behandeld wordt mag men leerstofstructurering als taak aan leerkrach-

Tabel 2. Itemmoeilijkheid van 15 concepten met een voldoende homogeniteitscoëfficiënt,
gegeven de toetsingsgrootheid A*

ten toeschrijven. Al was het maar om leerkrachten in staat te stellen overzicht te krijgen van
de belangrijke concepten en relaties en verbanden te expliciteren om zodoende in de leerstof-
behandeling beter rekening te kunnen houden met de aanbieding van (nieuwe) concepten aan
leerlingen.

Anderson, T.H. (1979). Study skills and learning strategies. In O'Neill H.F. & Spielberger CD.,
Cognitive and affective learning strategies. New York: Academic Press.

Ben Peretz, M., & Tamir P. (1981). What teachers want to know about curriculum materials./ourwa/ of
Curriculum Studies, 13 (1), 45-54.

Dansereau, D.F., McDonald, B.A., e.a. (1979). Evaluation of a learning strategy system. In O'Neill, H.F.
& Spielberger, C.D. Cognitive and affective learning strategies. New York: Academic Press.

Dansereau, D.F., & Holley, C.D. (1981). Development and evaluation of a text mapping strategy. Paper
presented at the International symposium on text processing. Fribourg, september 21.

Gagné, R.M., & Briggs, L.J. (1979). Principles of instructional design. 2e ed. New York: Holt.

Jansen, P.G.W. (1982). De onbruikbaarheid van MOKKENschaalanalyse. Tijdschrift voor Onderwijs-
research, 7, 11-24.

Kok, W., & Tillema, H. (1981). Een instrument voor de analyse en representatie van leerstofstructuren.
Tijdschrift voor Onderwijsresearch, 6, 176-182.

Lawless, C.J. (1979). Information processing - a model for educational technology. In: Page, G.T. &
Whitlock, Q. Educational technology twenty years on. London: Kogan.

Lodewijks, J.G.L.C. (1981). Leerstofsequenties, van conceptueel netwerk naar cognitieve structuur. Dis-
sertatie. Tilburg.

Molenaar, J.W. (1982). Een tweede weging van de Mokkenschaal. Tijdschrift voor Onderwijsresearch, 7,
172-181.

Niemöller, B. (1976). Schaalanalyse volgens Mokken, subprogramma Mokken scale. TC publikatie 42.
Universiteit van Amsterdam.

Olson, J.K. (1981). Teacher influence in the classroom: a context for understanding curriculum transac-
tion. Instructional Science, 10, 259-275.

Pask, G. (1976). Conversational techniques in the study and practice of education. British Journal of
Educatiorwl Psychology, 46, 12-25.

Posner, G.J. (1978). Tools for curriculum research and development, potential contributions from
cognitive science. Curriculum inquiry, 8 (4), 313-340.

Posner, G.J. (1980). New developments in curricular research. Invited address to the North Eastern
Educational Research Association. New York. 23 October.

Posner, G.J., & Strike, K.A. (1980). Learning special relativity, a study of intellectual problems faced by
College students. Paper at Conference on the 100th anniversary of Albert Einstein. Hofstra
University (1979).

Schott, F., Neeb, K.E., & Wieberg, H. (1980). Semantische Strukturierung von Lehrmaterialen. For-
schungsproject Lehrstoffanalyse Bericht 2. Universität Giesen, september.

Tillema, H. (ed.) (1980). Handleidingen voor het voorbereiden van informatief onderwijs - Project
Procesgerichte Differentiatie. Vakgroep Onderwijskunde Utrecht, september.

Troxler, W., Perez, M., & Patry, J. (1981). Praxis der schriftlichen Unterrichtsvorbereitung. Eine
empirische Untersuchung bei Primarschullehrern. Pädagogische Welt 35 (5).

Veen van der, M.J.H. (1979). Hoe ons land geregeerd wordt, eenvoudige staatsinrichting voor het
basisonderwijs. Zutphen: Thieme.

Witte, A. (1974). Analyse der Inhalts- und Lernstruktur und Folgerungen für die Unterrichtsplanung. In:

Roth, L., & Petrat, G. Unterrichtsanalysen in der Diskussion. Hannover.
Wittrock, M.C. (1981). Learning and memory. In: Farley, F., & Gordon, L.S., Psychology and education.
The State of the Union. Berkeley: McCutchan.

What factors are responsible for low study rates and long study duration of individual students,
and, especially, what factors may be relevant for the educational technologist who wishes to
prevent or reduce study delays? In this article, the outcomes of four Dutch research projects
concerning slow university students are reviewed. The outcomes are considered according to four
questions: Who is delayed? In what parts of the curriculum do the delays occur? What study
behaviors cause delays? and. What (other) experiences, feelings and circumstances are involved?
The hypothesis is introduced that study delays tend to reinforce and aggravate themselves (Law of
the Hampering Back-log). Nine solutions are proposed.

In het Nederlandse onderwijssysteem bestaan grote verschillen tussen de nominale duur van
een opleiding en de feitelijke studieduur van de studenten. Velen lopen studievertraging op.
Wat zijn de mogehjke handvatten of kritische factoren voor de leiding van het onderwijs- en
examenprogramma, als zij bij een gegeven groep studenten studievertraging wil voorkomen
of beperken? wat moet zij doen of nalaten, of in welke richtingen moet zij zoeken om
maatregelen te vinden waarmee studievertraging kan worden tegengegaan? Dat is de pro-
bleemsteUing van dit artikel.'

In een vorig artikel, voortbouwend op het werk van CarroU, werden zes handvatten
aangewezen (Holleman, 1981a). Deze hadden betrekking op algemene aspecten van stu-
diegedrag. Als men studievertraging wil terugdringen heeft men echter behoefte aan meer
specifieke aanwijzingen. De vraag rijst op welke punten in het curriculum geïntervenieerd zou
kunnen worden en bij welke categorieën studenten. Men zoekt naar specifieke aangrijpings-
punten in het studiegedrag en de studieomgeving, of eventueel in de doelen en houdingen van
de student en in de wijze waarop hij (zij) de studieomgeving waarneemt.

Een van de manieren om dergehjke handvatten of kritische factoren te identificeren, is het
ondervragen van vertraagde studenten: 'Wat zijn volgens jou de oorzaken geweest van je
studieachterstand? waardoor ben je geremd geworden in je studie? heb je soms blootgestaan
aan de vertragende factor X?' Een dergeUjke benadering is gekozen binnen een viertal
onderzoeksprojecten die de laatste dertig jaar in het Nederlandse universitaire onderwijs zijn

ondernomen: in de voorkandidaatsstudie van de T.H. Delft (Mislukking en vertraging van de
studie, 1959), drie studierichtingen van de T.H. Eindhoven (Meuwese e.a., 1969), de prope-
deuse Economie van de Vrije Universiteit te Amsterdam (Van Os & Van Strien, 1975), en in
de prekandidaatsstudie Pedagogische en Andragogische Wetenschappen te Groningen (To-
mic & Welling, 1976).

De resultaten van deze onderzoekingen hebben te weinig aandacht gekregen in de latere
literatuuroverzichten betreffende de problematiek van studievertraging (bv. Buis, 1979).
Afgezien van het Amsterdamse onderzoek, moet dit in belangrijke mate worden geweten aan
het feit dat de onderzoekers zelf in hun rapporten te weinig zinvolle ordeningen en interpreta-
ties aan hun materiaal hebben kunnen verbinden. De Eindhovense en Groningse onder-
zoekers hebben zelfs nagelaten het desbetreffende materiaal afzonderlijk te rapporteren. Zij
vroegen ook aan de niet-vertraagde studenten waardoor zij geremd waren geworden in hun
studie en rapporteerden de antwoorden van vertraagden en niet-vertraagden in één ant-
woordpercentage.

In dit artikel worden de resultaten gerapporteerd van een secundaire analyse, verricht op
het antwoordmateriaal uit deze vier projecten. Het Groningse materiaal is, met vriendelijke
medewerking van de onderzoekers, opnieuw bewerkt zodat hier nog niet eerder gepubliceer-
de gegevens over de vertraagde studenten afzonderlijk gerapporteerd kunnen worden. Het
verzamelde onderzoeksmateriaal zal achtereenvolgens aan vier vragen worden onderworpen:
Zijn er soms bepaalde vakken of curriculumfasen die handvatten vormen voor een beleid
gericht op het terugdringen van studievertraging? Zijn er soms bepaalde categorieën studen-
ten die groter risico lopen vertraagd te raken in de studie? Zijn er kritische factoren in het
studieproces die aangrijpingspunten kunnen vormen voor interventies van de studieleiding?
En welke (andere) ervaringen, gevoelens en omstandigheden hangen samen met het ontstaan
of blijven bestaan van studieachterstand?

In tabel 1 wordt een eerste (interpreterende) inventarisatie gegeven van de oorzaken van
studievertraging, zoals die uit het antwoordmateriaal van de studenten in de vier on(^er-
zoeksprojecten naar voren komen. De afzonderlijke, door de studenten aangegeven 'oor-
zaken' zijn gegroepeerd in 21 factoren. Bij het samenstellen van deze factoren is gebruik
gemaakt van de resultaten van een factoranalyse uitgevoerd op het Groningse antwoord-
materiaal (tabel 3).

Tabel 1 biedt dus een overzicht van hypothetische factoren waardoor studievertraging in de
hand zou worden gewerkt. De vooronderstelling daarbij is dat de studieleiding deze factoren
wellicht als handvat zou kunnen kiezen om de studievertraging te voorkomen of terug te
dringen.

Vele van de gevonden factoren kunnen echter ook worden geïnterpreteerd aXsgevolgen van
studievertraging. Een plausibele hypothese is dat studievertraging de neiging heeft zichzelf te
versterken: de Wet van de Remmende Studieachterstand. Hier wordt dus als aanvullende
hypothese gesteld dat studenten die eenmaal achterstand hebben opgelopen, een bijzondere
risicogroep vormen. Zij hebben een verhoogd risico op toename van hun studievertraging
(factor 2.7 in tabel 2). Ze zijn teleurgesteld en ontmoedigd geraakt door hun achterstand en
door het zakken voor tentamens en examens. Hun zelfvertrouwen is ondermijnd, misschien
ook doordat hun sociale omgeving (docenten, medestudenten, ouders, gezinsleden) niet meer
Zo gelooft in hun kansen op studiesucces. Bij grote vertragingen kan ook de studiefinanciering

Tabel 1. Subjectieve oorzaken van studievertraging, gevonden bij Delftse, Eindhovense, Amsterdamse
en Groningse studenten (de romeinse cijfers verwijzen naar de factoren uit tabel 3).

- studie onderbroken wegens ziekte, overwerktheid, maatschappelijke funcde
voor of tijdens de studie in mihtaire dienst geweest

3. Kritische factoren in het studieproces
3.1 Doelmatigheid van het studieproces

- werd afgewezen voor examen terwijl ik de stof naar eigen gevoel toch wel beheerste

- concentratieproblemen: heb tijden meegemaakt dat het de studie niet meer ging, dat je
wel met dictaten en boeken bezig kon zijn maar dat 't niet meer wilde

- heb te kampen gehad met problemen die me erg bezighielden of met persoonhjke
moeihjkheden die maakten dat ik me niet ten vohe aan de studie kon wijden

- zuigkracht van vrijetijdsbezigheden (IV): afleiding door gezelligheidsfactoren; con-
tact met vrienden; werd te sterk in beslag genomen door sport, eigen liefhebberijen,
activiteiten in verenigingsleven

- gedwongen verhestijden binnen de studie: wachttijden voor practica e.d.; vereiste
hteratuur was moeiUjk te krijgen

- heb het werken voor mijn examens verkeerd ingedeeld, indehng van mijn tijd, plan-
ning van de studie (verdeUng van de werkzaamheden enz.)

- planningsproblemen ten gevolge van omgevingsfactoren: het verschil in werken tussen
VWO en WO (1.1); lage programmeringsgraad van het curriculum (1.4); hoge stu-
diebelasting (1.5); de concentratie van de tentamens in pieken, tentamenprogramme-
ring, combinatie van oude en nieuwe tentamens

- een studie die je niet motiveert, het theoretische karakter van de studie; de inhoud van
de studie

- het gevoel niet produktief te zijn (in vergeUjking met leeftijdsgenoten die al een baan
hebben?)

- de overladenheid van het programma, de concentratie van de tentamens in pieken,
lage kwaliteit van tentamens

- wachttijden voor practica e.d.; wijzigingen in het studieprogramma; het optreden van
hoogleraren en wetenschappelijke medewerkers

- heb te kampen gehad met problemen die me erg bezighielden of met persoonlijke
moeilijkheden die maakten dat ik me niet ten volle aan de studie kon wijden

- financiële zorgen; ongunstige woonomstandigheden; ongunstige factoren die verband
houden met verloofde, meisje, vrouw of ouders; de houding van thuis ten opzichte van
de studie; familieomstandigheden

- de dreiging dat de studiefinanciering of het uitstel voor militaire dienst wordt ingetrok-
ken: vooruitzicht op militaire dienst, financiële pressie

en het uitstel van militaire dienst in gevaar komen. Door hun vertraging kampen ze met
inzinkingen in de studiezin en de verleiding is groot te vluchten in vrijetijdsbezigheden of in de
geborgenheid van intensieve sociale relaties. De studiecontacten met jaargenoten verslappen,
omdat de vertraagden niet meer gelijk-op kunnen werken met het hoofdpeloton. Wat de
studieplanning betreft zijn zij op zichzelf teruggeworpen omdat voor hen het houvast van de
standaardplanning (het officiële leerplan) is weggevallen. Bij de voorbereiding van herkan-
singen krijgen ze weinig begeleiding van de docenten en hun studieproces verloopt noodge-
dwongen minder doelmatig omdat de programmering van de onderwijs- en tentamenvoorzie-
ningen niet is afgestemd op de vertraagde student en diens studieverloop.

Studievertraging versterkt zichzelf. Dit proces kan bovendien worden aangewakkerd door
systeemfactoren: de lage vertragingstolerantie van het onderwijs- en examenprogramma
(factor 5.1 in tabel 2). Het aangeboden programma is vaak uitermate onvriendelijk voor
studenten die een studieachterstand hebben opgelopen. Zoals gezegd, zijn de onderwijs- en
tentamenvoorzieningen vaak zeer slecht op hun behoeften afgestemd, zodat ze gedwongen
worden minder doelmatig te werken en vaak ook met gedwongen onderbelasting en wachttij-
den geconfronteerd worden. Of ze worden getroffen door dead-lines die alleen nog bij een
onverantwoord hoge studie-inzet gehaald kunnen worden. In tabel 4 wordt een voorbeeld
geschetst van de lotgevallen der vertraagde studenten in het Amsterdamse onderzoek. Ge-
start met een middelmatige studie-inzet, raken ze hoe langer hoe meer in tijdnood, wat sterk
afbreuk lijkt te doen aan de doelmatigheid van hun studieproces. Overschrijding van de
dead-lines wordt vaak gestraft met wachttijden of zelfs met de verplichting om alles over te
doen, soms ook tentamens die eerder met goed gevolg waren afgelegd. Verder kunnen
vertraagde studenten worden getroffen door ongunstige overgangsregelingen bij wijziging
van het programma of van de stof binnen bestaande vakken. In een vroegere publicatie
(Holleman, 1975) is dit complex van factoren (geringe vertragingstolerantie van het onder-
wijs- en examenprogramma) samengevat als de Wet van de Stijgende Studiebelasting; daarbij
werd toen vooral gedacht aan de vergroting van de individuele studielast die het gevolg is van
studieachterstand.

Tabel 2. De Wet van de Remmende Studieachterstand: twee mogeUjke oorzaken van studievertraging,
in aanvuUing op tabel 1.

Tabel 3. Subjectieve oorzaken van studievertraging in het prekandidaatsprogramma Pedagogische en
Andragogische Wetenschappen te Groningen (N= 80 vertraagde studenten)¹

I. HOGE INDIVIDUELE STUDIELAST: Gebrek aan kapaciteiten. Te weinig begelei-
ding van docenten. Het ontbreken van een adekwate vooropleiding. PROBLEEM-
VAKKEN: MoeiUjkheden met bepaalde vakken. HOGE STUDIEBELASTING: Te
overladen studieprogramma. PLANNINGSPROBLEMEN: Planning van de studie
(verdeling van de werkzaamheden enz.). De tentamenprogrammering in de kan-
didaatsfase. Studiemoeihjkheden t.g.v. het verschil in werken bij het voortgezet onder-
wijs en het universitair onderwijs.
II. ISOLEMENT: Het veelal aUeen met de studie bezig zijn. Te weinig groepswerk. Een te
theoredsche studie. PLANNINGSPROBLEMEN: Planning van de studie (verdeling
van de werkzaamheden enz.). LAGE PROGRAMMERINGSGRAAD VAN HET
CURRICULUM, HET ONTBREKEN VAN POSITIEVE IMPULSEN: De grote
mate van studievrijheid. Het minder voorgestruktureerde karakter van de opleiding na
het basisjaar. OVERIGE: Ziekte (negadeve lading).

III. ADOLESCENTIEPROBLEMEN (LAGE PERSOONLIJKE WEERBAARHEID):
Het 'op eigen benen staan'. De grote mate van studievrijheid. De houding van thuis
t.o.v. de studie. Studiemoeihjkheden t.g.v. het verschil in werken bij het voortgezet
onderwijs en het universitair onderwijs. Woonomstandigheden.

IV. ZUIGKRACHT VAN VRIJETIJDSBEZIGHEDEN: Afleiding door 'gezelligheids'
faktoren. Eigen Uefhebberijen, sport, hobby's, enz. OVERIGE: De tentamenpro-
grammering in de kandidaatsfase.

V. MOTIVATIE- EN ZINGEVINGSPROBLEMEN: Een studie die je niet motiveert.
Inzinkingen in de studiezin. Een te theoretische studie.

VI. DRUK VAN CONCURRERENDE BEZIGHEDEN IN WERK EN GEZIN: Sa-
menwonen/huweUjk. Financiële zorgen. Werken tijdens de studie. OVERIGE: Het
ontbreken van een adekwate vooropleiding.

VII. PROBLEEMVAKKEN (STUDIEOPDRACHTEN): Het maken van werkstukken/
referaten. Te veel groepswerk.

1 Factoranalyse over 28 variabelen. Zeven factoren. Varimaxrotatie met Kaisernormalisatie. Alleen
variabelen met ladingen >.350 zijn gerapporteerd.

In dit artikel zijn de resultaten van vier onderzoeksprojecten betreffende studievertraging in

het W.O. door een onderwijstechnologische bril bekeken. Bij de ordening van het materiaal is

Handvatten voor de Beheersing van de Studieduur

298

■8
u
Q.

vooral gezocht naar aangrijpingspunten die in het studieproces liggen of in een rechtstreekse
relatie daartoe staan. Daartoe werden in eerste instantie vier vragen aan de orde gesteld: Wie
raakt vertraagd? Wanneer in het curriculum raakt men vertraagd? Welk studiegedrag werkt
vertragend? En met welke (andere) ervaringen, gevoelens en omstandigheden gaat stu-
dievertraging gepaard? Vervolgens drong zich als vijfde vraag op: Zijn er soms ongunstige
systeemfactoren die het studietempo van studenten beïnvloeden als ze eenmaal studieachter-
stand hebben opgelopen?

Met de Wet van de Remmende Studieachterstand zijn enige hypothesen belicht die tot nu
toe in theorieën over de 'oorzaken' van studievertraging te weinig aandacht hebben gekregen.

Bij de ordening van het onderzoeksmateriaal in tabel 1 bleek het gemodificeerde Carroll-
model (Holleman, 1981a) een bruikbaar referentiekader te bieden. Verscheidene factoren
zijn er zelfs rechtstreeks op geënt: de doelmatigheid van het studieproces (3.1), alsmede de
capaciteiten van de student als persoonlijke plafondwaarde daarvan (2.5); studie-intensiteit
(3^2); studie-inzet (3.2), de persoonlijke belastbaarheid (2.4) en de late start of studie-
onderbreking (2.1) als limieten daarvan, alsmede enkele oorzaken van een lage studie-inzet
(2.2, 2.3, 4.1, 4.2); en aspecten van de te behalen leerwinst (2.5, 2.6). Verder werd een
variabele geïdentificeerd waarin enkele factoren uit het Carroll-model zijn samengesmolten:
problemen met de planning van de studie (3.3).

Terug naar de probleemstelling van dit artikel: wat zijn veelbelovende zoekrichtingen voor
een onderwijstechnologie gericht op het tegengaan van studievertraging? Deze slotparagraaf
heeft niet de pretentie hierop baanbrekende antwoorden te kunnen geven, maar heeft veeleer
tot doel de gerapporteerde onderzoeksresultaten te operationaliseren in zoekrichtingen en te
relateren aan inzichten en begrippen uit de onderwijstechnologie. Hieronder worden negen
zoekrichtingen genoemd.

Doelmatige sturing en ondersteuning van het studieproces. Als de student meer inspanning
voor een programmaonderdeel of -fase nodig heeft dan hij binnen het officiële tijdsbestek
beschikbaar kan stellen, zal hij studievertraging oplopen. Deze studielast wordt voor een deel
bepaald door de doelmatigheid van het studieproces (3.1). In dat verband is een kritische
factor of de onderwijs- en toetsvoorzieningen een zodanige sturing en ondersteuning bieden
dat het studieproces doelmatig verloopt. In de onderwijstechnologie wordt dan vooral ge-
dacht aan de wenselijkheid dat het onderwijs- en toetsproces synchroon loopt met het
studieproces (vice versa), en aan de kwaliteit van de schriftelijke studiematerialen en feed-
backmechanismen. Daarnaast verdient verbetering van de studievaardigheden van de student
de aandacht, zodat hij zelf beter in staat is zijn studieproces doelmatig in te richten.

Programmering-in-de-tijd. Het onderwijs- en examenprogramma dient voldoende impul-
sen te geven voor een redelijke studie-inzet (3.2). Het studieproces moet voldoende vóórp-
programmeerd worden, waarbij het uiteen wordt gelegd in niet te grote stappen met redelijke
dead-lines (1.4). Wellicht moet men in de loop van het curriculum abrupte verlagingen in de
programmeringsgraad vermijden. Overwogen moet worden de programmeringsgraad van
projecten, scripties e.d. te verhogen (1.3). Ook kan men aandacht geven aan de verbetering
van de planningvaardigheden van de studenten zelf, en aan ondersteuning bij het opstellen en
bewaken van hun eigen plannen (3.3).

Contractsterkte. Vertraagde studenten klagen over de grote mate van studie vrijheid (4.5)

en verscheidene auteurs stellen in dat verband de vrijblijvende relatie tussen student en
studieleiding aan de kaak (bv. De Groot, 1972). Knippenberg & Loos (1982) hebben
aannemelijk gemaakt dat een minder vrijbhjvende studieopzet tot verhoging van het op-
leidingsrendement leidt, mits het onderwijs ook doelmatig is ingericht. Gestreefd moet
worden naar sterkere contracten waarbij het studieproces gereguleerd wordt door weder-
zijdse verplichtingen tussen docent en student: de student verplicht zich tot een redelijke
studie-inzet en de docent tot een redelijke ondersteuning van het studieproces. Elders is in dit
verband gepleit voor studiecontracten gebaseerd op het Prolongatiebeginsel: de docent
verplicht zich het studieproces adequaat te blijven ondersteunen zolang de student zich aan de
ijverclausule houdt. De wettelijke limitering van de inschrijvingsduur, die sinds 1982 voor het
W.O. van kracht is, kan overigens als een positieve impuls voor de studie-inzet en dus als een
goede stap in de richting van sterkere contracten worden beschouwd. De beperkte inschrij-
vingsduur in de propedeuse kan de docenten, vakgroepen en examencommissies bovendien
tot betrouwbaarder partners maken in het studiecontract, aangezien zij het niet langer tot hun
taak hoeven te rekenen studenten tegen wie een vermoeden van studieongeschiktheid bestaat
te ontmoedigen en tot vertrek te bewegen.

Beheersing van de studiebelasting. Gestreefd moet worden naar een situatie waarin iedere
student dagelijks, wekelijks en jaarlijks noch over- noch onderbelast wordt (1.4, 1.5, 3.2).
Onder die conditie is de studievertraging zo klein mogelijk. De individuele studielast is een
belangrijke component van studiebelasting maar kan daaraan niet gelijkgesteld worden. Een
cruciaal aspect van de studiebelasting is namelijk de hoeveelheid vrij-besteedbare tijd die de
student naast zijn studietijd overhoudt. De studiebelasting van onderscheiden categorieën
studenten kan zichtbaar worden gemaakt door de methode van de nominale programmabe-
schrijving (Holleman, 1979; Van Os, 1983); daarmee kan men wellicht ook mogelijkheden
op het spoor komen om de studiebelasting te verlagen met behoud van de hoeveelheid te
behalen leerwinst. Overladenheid van het programma werkt studievertraging in de hand
(1.5). In dit verband is ook de IJverlijnhypothese interessant: als studenten in een bepaalde
periode overbelast worden, zullen zij dat in een volgende periode compenseren met een veel
lagere studie-inzet.

Studenten met afwijkende belastbaarheid. Sommige categorieën studenten hebben per dag,
week of jaar minder tijd voor hun studie beschikbaar dan hun collega's, hetzij door een
afwijkende persoonlijke belastbaarheid dan wel door concurrerende bezigheden (2.2, 2.3,
2.4). Als men hun studietempo desondanks wil optimaliseren, moeten er voor hen aangepaste
voorzieningen in het onderwijs- en examenprogramma worden geschapen. Voor de deeltijd-
studenten is dit uitgangspunt sinds 1982 in de wet vastgelegd. De faculteiten hebben nu de
wettelijke mogelijkheid afzonderlijke deeltijdse opleidingen in te richten, met een eigen
cursusduur en toegestane inschrijvingsduur. Daarmee wordt een deel van de studievertraging
die tot nu toe de studievoortgangs-statistieken ontsiert, zichtbaar gemaakt, gereguleerd en
gesanctioneerd.

Variaties in individuele studielast. In sommige vakken of opleidingsfasen bestaan grote
verschillen in individuele studielast (benodigde studie-inspaiining) tussen de deelnemende
studenten (1.1,1.2,2.5). De Groot (1979,1980) noemt dergelijke vakken of fasen 'kritisch'.
In dat geval verdienen de programmeringsprincipes van het individuele studiesysteem of
beheersingsleren ernstige overweging (Van Rookhuijzen e.a., 1976), ter optimalisering van
de studiebelasting en de doelmatigheid van het studieproces van studenten met een afwijkend
tempo. Dat zal vaak impliceren dat het onderwijs- en toetsingssysteem minder docent-afhan-
kelijk (meer zelfinstructief) moet worden gemaakt.

Studenten met een deficiënt beginniveau. Hierbij vereisen eventuele afwijkingen in het

beginniveau afzonderlijk aandacht (1.1,2.5). Studenten met een deficiënt beginniveau zullen
immers vaak een aanvullend onderwijs- en toetsingsprogramma behoeven om de afstand
tussen hun feitelijke beginrepertoire en het 'normale' beginniveau te overbruggen. Een eerste
voorwaarde daarbij is dat deze studenten tijdig geïdendficeerd worden, hetzij via een 'nul-
toets' dan wel op basis van gegevens uit de studentenadministratie. Een andere reden om hen
als een bijzondere groep te behandelen, kan zijn dat hun individuele studielast en benodigde
studieduur wel zeer sterk kan afwijken van die van de gemiddelde student. In dat geval moet
zeker overwogen worden een afzonderlijke studieweg voor hen te programmeren.

Bezemcontracten voor vertraagde studenten. Studenten die, door welke reden dan ook (o.a.
2.1,4.7), vertraagd zijn geraakt in hun studie, dreigen te worden getroffen door de Wet van de
Remmende Studieachterstand (2.7, 5.1). Als men de werking van deze wet wil doorbreken,
moet men trachten hun studiesituatie te normaliseren: hun studie-inzet of -belasting en de
doelmatigheid van hun studieproces moet weer op een aanvaardbaar peil worden gebracht.
De studieleiding moet trachten samen met hen een haalbare studieplanning op te stellen en tot
een reëel contract te komen met betrekking tot de ijververphchtingen van de student en de
programmerings- en ondersteuningsverphchtingen van de docenten en examinatoren.

Beginsel van onbelemmerde studievoortgang. De studieleiding dient zich zoveel mogelijk te
onthouden van maatregels en regelingen die voor studenten tot gedwongen onderbelasting of
leegloop en gedwongen ondoelmatigheid of dubbel werk leiden (4.6). Dit is het Beginsel van
Onbelemmerde Studievoortgang, dat tot de grondrechten van de student moet worden
gerekend. In oudere hteratuur staat dit idee te boek als 'Continue Progressie'. Een lage
vertragingstolerantie in het onderwijs- en examenprogramma (5.1) staat haaks op dit begin-
sel. In dezelfde mate als het rendement van ondernemingen kan worden verbeterd door
déregulering van het economisch leven, kan het studierendement verbeterd worden door de
studie- en examenregehngen te saneren. Te denken vah aan regelingen over de geldigheids-
duur van tentamens, verphchte volgorde van vakken, afwijzingstermijnen, zittenblijf- en
doubleersystemen, etc.' Déregulering mag overigens niet als een panacee voor het opheffen
van intoleranties in het programma worden beschouwd. Andere knelpunten zijn bijvoorbeeld
het ontbreken van voldoende herkansingen, het feit dat men slechts éénmaal per jaar in het
onderwijsprogramma van een vak of opleidingsfase kan instromen, structurele wachttijden,
ongunstige overgangsregelingen bij wijziging van het programma.

' Dit artikel is tot stand gekomen in het kader van een project dat begeleid wordt door prof. C. F. van der
Klauw, Erasmusuniversiteit Rotterdam. Een uitgebreidere, geannoteerde versie van dit verslag is
neergelegd in een intern rapport (Holleman, 1983), dat onder meer verkrijgbaar is bij de Rapporten-
centrale van het Sociaal WetenschappeUjk Informatie- en Documentatiecentrum te Amsterdam.

' In twee vorige artikelen (Holleman, 1981b; 1982) is gepleit voor verhoging van de vertragingstoleran-
tie van programma's en is betoogd dat de Wet Tweefasenstructuur en het Algemeen Deel van het
Academisch Statuut verscheidene intoleranties in vigerende examenreglementen verbieden of zelfs
nietig verklaren.

Buis, P. (1979). Studiemislukking en studievertraging. Den Haag: Staatsuitgeverij.

Groot, A.D. de (1972). (Rapporteur van) Selectie voor en in het hoger onderwijs. Publicatie nr. 3,
Commissie Ontwikkeling W.O. Den Haag: Staatsuitgeverij.

Groot, A.D. de (1979, 1980). Studielast en normstudent: Ontwerp van een akkoordtheorie. Tijdschrift
voor Onderwijsresearch, 4, 257-74; 5, 9-29.

Hollcman, J.W. (1975). Hoe zwaar kunnen we studenten belasten? normen voor studiebelasting.
Tertiair, 17/18 (Utrecht; Onderwijspers Overlegorgaan Tertiair Onderwijs).

Hollcman, J.W. (1979). De nominale programmabeschrijving. Onderzoek ^'an Onderwijs, 8: 4, 9-12.

Holleman, J.W. (1981a). Beheersing van de studieduur. Tijdschrift voor Onderwijsresearch, 6, 257-266.

Holleman, J.W. (1981b). Rechtspositie van studenten, twaalf stellingen i.v.m. de beperking van de
inschrijvingsduur. Onderzoek van Onderwijs, 10:2, 8-10.

Holleman, J.W. (1982). Rechten voor studenten in geding bij nieuwe examenreglementen. Folia Civita-
tis, 1-5-1982, 11-12.

Holleman, J.W. (1983). Handvatten voor de beheersing van de studieduur. 0&O-Intern nr. 26. Utrecht:
Rijksuniversiteit Utrecht (afdeling Onderzoek en Ontwikkeling van Onderwijs).

Knippenberg, W.J.M., & Loos, F.A.J. (1982). Verhoging van het studierendement in het hoger onderwijs.
Delft: Technische Hogeschool Delft (Onderwijskundige Dienst).

Meuwese, W.A.T., Nelissen, N., & Tielens, H. (1969). Een onderzoek naar de samenhang van enkele
factoren met studieduur. Eindhoven: Technische Hogeschool Eindhoven (Groep Onderwijs-
research).

Mislukking en vertraging van de studie (1959). Delft: Technische Hogeschool Delft.

Os, W. van (1983). Studeerbaarheid van een curriculum. Onderzoek van Onderwijs, 12:3, 38-41.

Os, W. van, & Strien, H.M. van (1975), Vallen en opstaan. Amsterdam: Vrije Universiteit (afdeling
Onderwijsresearch).

Rookhuijzen, R.F. van. Plomp, Tj., & Pilot, A. (1977). Individuele Studiesystemen in het tertiair onder-
wijs. Groningen: Wolters-Noordhoff.

Tomic, W., & Welling, E. (1976). Factoren die samenhangen met studieduur. Groningen: Rijksuniversi-
teit Groningen (Centrum Onderzoek W.O.).

Standard educational tests cannot be adapted to all varieties on the same subject matter theme
that flourish in an educational population. Rasch-calibrated itembanks offer considerably more
opportunities to this end. The development of norms for tests from such an itembank poses several
problems however. These problems are discussed and some solutions proposed.

In dit artikel wordt een methode behandeld voor het bepalen en interpreteren van normen bij
toetsen met dichotoom gescoorde items uit een Rasch-gecalibreerde itembank. Een norm bij
een toetsscore geeft een aanduiding van het percentage leerlingen van de normpopulatie
(meestal de doelpopulatie van de toets) dat deze score of een lagere behaalt. De normpopula-
tie kan omschreven zijn in termen van geografische beperking (bijv. Nederland), schooltype
(bijv. MAVO), leeftijd, een bepaald tijdstip in het curriculum, enz. Op deze manier kunnen
normen toetsscores meer betekenis en inhoud geven.

Tot nu toe is het gebruikelijk slechts bij standaardtoetsen normen te verstrekken. Het gebruik
van standaardtoetsen vereist evenwel een homogeniteit van onderwijs, waarvan de wer-
kelijkheid teveel afwijkt om deze procedure als geslaagd te beschouwen. De scholen in de
doelpopulatie gebruiken voor hetzelfde schoolvak veelal leermiddelen die onderling ver-
schillen in notatie, de volgorde van onderwerpen en de mate van diepgang waarmee de
onderwerpen worden behandeld. Strikt psychometrisch hoeft dit geen bezwaar te zijn. Bij-
voorbeeld binnen de klassieke testtheorie of in een itemsteekproefmodel kan deze situatie
theoretisch zonder problemen worden gehanteerd. De problemen ontstaan bij het practische
gebruik van een standaardtoets op school en de interpretatie van de resultaten. Het is bijv.
nauwelijks te vermijden dat leerlingen items (toetsvragen) moeten beantwoorden over
leerstof die ze niet hebben bestudeerd, terwijl wel bestudeerde leerstof-onderdelen niet in de
toets zijn opgenomen. Verder geven normen op een standaardtoets moeilijk te interpreteren
informatie over de relatieve vorderingen van leerlingen wanneer het gehele leerstof-onder-
deel dat door de toets wordt bestreken nog niet is afgesloten. Immers, zowel het bereikte
niveau op de behandelde leerstof alsook de mate waarin dit de 'toets-leerstof dekt beïnvloe-
den beide de toetsresultaten.

Deze problemen kunnen worden opgelost door docenten de gelegenheid te geven uit een
grote verzameling items zelf hun toetsen samen te stellen. Zij kunnen deze toetsen dan
optimaal aanpassen aan de leerstof zoals die door hun leerlingen is bestudeerd. We bespreken
de problemen rond de Rasch-calibratie en de normering van een itembank in een dergelijke

naar alle waarschijnlijkheid Rasch-inhomogene populatie en de interpretatie van Rasch-
vaardigheidsparameters en normen.

Alvorens er voor toetsen uit een itemverzameling normen kunnen worden bepaald, moeten
eerst de Rasch-parameters van de items worden geschat. Een grote itemverzameling moet
daartoe in een aantal toetsen worden ingedeeld die, na te zijn afgenomen, worden gecali-
breerd en geëquivaleerd. Hierover kan men zich op meerdere plaatsen in de literatuur
informeren (o.a. Wright & Stone, 1980; Glas, 1981; Fischer, 1981). Nadat de itemverzame-
ling aldus op één Rasch-schaal is gecalibreerd, is de volgende stap de verdeling van de ware
vaardigheden in de doelpopulatie van de itembank te schatten. Lord (1969), Andersen en
Madsen (1977) en Sanathanan en Blumenthal (1978) beschrijven methoden om de verdeling
van ware vaardigheden te bepalen. Wij volgen Sanathanan en Blumenthal, die hiervoor een
EM-algoritme ontwikkelden. Hun algoritme is beperkt tot de normale verdeling. Om techni-
sche redenen hebben we dit algoritme aangepast voor een familie van unimodale verdelingen
die ook variaties in het derde en vierde moment toestaat: de zgn. lambda-verdeling (Ram-
berg, Tadikamalla, Dudewicz, & Mikitka, 1979). Hoewel alle ingrediënten voor het verstrek-
ken van normen bij toetsen uit een itembank in de hierboven genoemde literatuur gevonden
kunnen worden, geeft geen van deze auteurs een procedure hiervoor. In dit artikel wordt
beschreven hoe de verwachte verdeling van toetsscores in de doelpopulatie van de itembank
kan worden bepaald, gegeven de verdeling van ware vaardigheden en de parameters van de
items in de toets. We besteden daarbij aandacht aan de schattingsfouten van de normen. De
procedure is toegepast op de gegevens van Andersen en Madsen (1977), Sanathanan en
Blumenthal (1978) en op de resultaten op de subtoets rekenen uit de Eindtoets basison-
derwijs van tien steekproeven van 500 leerlingen uit de populatie 1981.

De problematiek rond het verstrekken van normen bij willekeurige toetsen uit een itembank
vraagt een toetstheorie, die ons in staat stelt de vorderingen van leerlingen te meten, onafhan-
kelijk.van de toevallig gekozen toets. We vinden deze theorie in de z.g. item-response-toets-
modellen. We beperken ons hier tot het Rasch-model voor dichotoom gescoorde items. Voor
deze beperking zijn een aantal redenen aan te voeren waarop hieronder kort wordt terugge-
komen.

In het Rasch-model wordt de persoon gekarakteriseerd met één parameter: 'de vaardig-
heid'. Een item wordt eveneens met één parameter gekarakteriseerd: 'de moeilijkheid'. De
vaardigheid van een persoon v en de moeilijkheid o, van een item i bepalen de kans dat de
persoon het item goed beantwoordt volgens formule (1).

Hierin is een kansvariabele waarvan de realisatie = 1 als persoon v item i goed
beantwoordt, anders is = 0. Het model is in overeenstemming met de intuïtieve opvatting
dat de kans op een goed antwoord stijgt met de vaardigheid. Het is een unieke eigenschap van
het Rasch-model dat er een afdoende statistiek bestaat voor de meest aannemelijke schatter
van de vaardigheid waarin geen itemparameters voorkomen. Hierdoor ontstaat de moge-
lijkheid de itemparameters te schatten, onafhankelijk van de persoonsparameters. In de
Conditionele Maximum Likelihood (CML) schattingsvergelijkingen van de itemparameters

(zie bv. de paragrafen 13.5 en 14.1 in Fischer, 1974) ontbreken de persoonsparameters.
Slechts de afdoende statistiek voor de persoonsparameter, de ruwe score (het aantal goed
beantwoorde items) komt in deze vergelijkingen voor. Andersen (1977) bewijst dat deze
eigenschap binnen de eendimensionale item-response-modellen alleen voor het Rasch-model
geldt cn bovendien dat, als er een afdoende statistiek voor de vaardigheid bestaat, dit de
toetsscore is. Voor het schatten van de item- en persoonsparameters zijn meerdere procedu-
res ontwikkeld (zie o.a. Fischer, 1974). De frekwenties van de toetsscores en de p-waarden
van de items zijn afdoende informatie voor de schattingsprocedures. Hiermee kan voor ieder
item uit de itembank een schatting 0, van o, worden verkregen. Gegeven een toets met k items
uit een dergelijke Rasch-gecalibreerde itembank, verkrijgen we volgens formule (2) een
schatting van de vaardigheidsparameter van persoon v, wanneer deze r items uit de toets
goed heeft gemaakt (réO ^ rék.

Wil het voordeel van een flexibele itemkeuze tot zijn recht komen, dan moet een itembank
vele items bevatten; veel meer dan er in één toets kunnen worden opgenomen. Mede
afhankelijk van de populatie waarvoor de itembank wordt gecalibreerd zullen de gegevens
van een meer of minder groot aantal items statistisch significant van het Rasch-model
afwijken. In de psychometrische literatuur wordt veel aandacht besteed aan het opsporen van
deze items (o.a. Van den WoUenberg (1979) en Molenaar (1983) bekritiseren enkele veel
toegepaste modeltoetsen en ontwikkelen nieuwe mogelijkheden). Meer of minder expliciet
wordt hierbij aangenomen, dat bij het ontbreken van modelconformiteit het Rasch-model
niet gebruikt kan worden, tenzij de afwijkende items worden verwijderd. Dit contrasteert met
de eerder in dit artikel gedane uitspraak, dat één van de voordelen van een Rasch-gecali-
breerde itembank wordt gevonden in de toepassingsmogelijkheden binnen een inhomogeen
onderwijs, waarin standaardtoetsen slecht functioneren. Deze tegenspraak is te omzeilen
door de resultaten op toetsen uit een Rasch-gecalibreerde itembank anders te interpreteren
dan gebruikelijk. Door deze andere manier van interpreteren kan een veel grotere populatie
van de itembank gebruik maken dan de populatie waarvoor de itembank voldoende Rasch-
homogeen is en waarop zij in eerste instantie gecalibreerd moet worden. M.a.w. model-
conformiteit is wel van belang bij de calibratie van een itembank, maar niet in dezelfde mate
bij het gebruik ervan. De doelpopulatie van een itembank kan derhalve de normpopulatie
omvatten waarop de itembank in eerste instantie is gecalibreerd. De keuze en afgrenzing van
de normpopulatie dient zodanig te geschieden dat de normen voor de gebruikers betekenisvol
zijn. In deze paragraaf wordt uiteengezet hoe toetsresultaten geïnterpreteerd kunnen worden
en in samenhang hiermee, hoe de calibratie van de itembank kan worden uitgebreid naar
leerstof-onderdelen, die niet in de normpopulatie worden behandeld, maar wel in delen van
de uitgebreider gebruikerspopulatie.

Enkele belangrijke bronnen van Rasch-inhomogeniteit in een populatie ontstaan wanneer
in één of meer deelpopulaties:
1. delen van de leerstof (nog) niet zijn behandeld

2. delen van de leerstof meer of minder nadruk hebben gekregen, dan in de rest van de
populatie

Ad 1. Nemen we als normpopulade de leerlingen van het tweede leerjaar basisonderwijs in
de week voor het paasrapport, die rekenmethode A gebruiken. Volgens deze reken-
methode wordt het rekenen met geld behandeld in de laatste maand voor het paasrap-
port. Er kunnen zich nu twee situaties voordoen waarin een onderwijzer een toets uit
de genormeerde itembank wil afnemen zonder 'geld-items':

- de onderwijzer gebruikt methode A en wil twee maanden vóór het paasrapport een
idee hebben van de vorderingen van zijn leerlingen op de tot dan toe behandelde stof.

- de onderwijzer gebruikt methode B, waarin het rekenen met geld niet wordt
behandeld en wil vlak vóór het paasrapport een genormeerde rekentoets uit de
itembank afnemen, waarin hij uiteraard geen 'geld-items' opneemt.

Beide situaties vergen dezelfde werkwijze bij de interpretatie van de toetsresultaten,
die per leerling een persoonsparameter en een norm opleveren. Is het gebruikelijk de
persoonsparameter (en de norm) te relateren aan de gehele itembank, in dit geval
dient men slechts een deel van de itembank in de interpretatie te betrekken: nl. alleen
de items waarin niet met geld gerekend hoeft te worden. Alleen de parameters van
deze items en de persoonsparameter leveren de kans op een goed antwoord volgens
formule (1). Voor de overige items is dit verband afwezig. Op een analoge manier moet
de norm worden geïnterpreteerd.

Leerstof die wel in boek B wordt behandeld en niet in boek A, moet apart voor de
gebruikerspopulatie van boek B worden gecalibreerd. Het betreft hier een uitbreiding
van de itembank, die slechts geldt voor de gebruikers van boek B. Vaardigheidspara-
meters van overige gebruikers kunnen niet zinvol in verband worden gebracht met de
parameters van de items die tot deze uitbreiding behoren.

Ad 2. Onderhnge verschillen in beheersing van delen van de leerstof, tussen deel-populaties
in een populatie door meer of minder diepgang van de behandeling, is de lastigste van
de genoemde bronnen van Rasch-inhomogeniteit. Misschien enigszins paradoxaal
onstaan hierdoor tevens gebruiksmogelijkheden van een itembank, die zonder Rasch-
model niet op dezelfde elegante manier te reahseren zouden zijn. Het is de lastigste
vorm, omdat met name bij het opstarten van een itembank in de calibratiefase een
voldoende groot deel van de itembank en een voldoende groot en betekenisvol deel
van de beoogde gebruikerspopulatie, de normpopulatie, moet worden afgegrensd, die
samen voldoende Rasch-homogeniteit opleveren. Uit de subjectieve bewoordingen
kan men afleiden dat er voor dit probleem geen pasklare oplossing bestaat. Dit wordt
deels veroorzaakt doordat de keuze van het centrale deel van de itembank en van de
normpopulatie niet alleen van psychometrische overwegingen afhankehjk is. Met
name de acceptatie van de normpopulatie als referentie-populatie door de gebruikers-
populatie is een belangrijk criterium voor de afgrenzing van de normpopulatie. Even-
tueel kunnen meerdere normpopulaties worden gekozen. Ook het concreet invullen
van het hierboven gebruikte 'voldoende' in 'voldoende Rasch-homogeniteit' is een
subjectieve aangelegenheid. De voorkeur voor een bepaalde mate van Rasch-homo-
geniteit, die medebepalend is voor de meetnauwkeurigheid, kan worden gerelateerd
aan het gewicht van de beslissingen die m.b.v. de toetsuitslagen worden genomen.
Hierbij is van belang of de toetsen uit de itembank gebruikt worden als formatieve
toets, als toets voor het overgangsrapport of als afsluitend examen. Lewis (1981)

ontwikkelde een Bayesiaanse procedure voor het schatten van vaardigheids-
parameters. In deze procedure komt een grotere onzekerheid over een vaardigheids-
schatting tot uiting in een vlakkere subjectieve kansverdeling. De onzekerheid over
een vaardigheidsschatting wordt o.a. groter naarmate het antwoord-patroon meer
afwijkt van het patroon dat volgens het model het meest waarschijnlijk is bij de
geschatte vaardigheid.

We volstaan met een aanvulling op het bovengenoemde voorbeeld om de gebruiksmo-
gelijkheden van een Rasch-gecalibreerde itembank in een Rasch-inhomogene ge-
bruikerspopulatie te illustreren:

Stel dat in leerboek C wel rekenen met geld wordt behandeld, maar minder uitgebreid
dan in boek A, het boek van de normpopulatie. Voor het overige is boek C vergelijk-
baar met boek A. Het is dan te verwachten dat leerlingen die boek C gebruiken een
lagere vaardigheidsparameter behalen op een (sub)toets met alleen geld-items, dan op
(sub)toetsen over andere delen van de itembank. Bij de analyse van de toetsresultaten
kan deze discrepantie worden verwerkt in de rapportage aan de leerlingen met boek C.
In deze rapportage kunnen dan behalve een norm voor de toets als geheel, ook normen
worden opgenomen apart voor het geld-deel en de rest van de toets. De persoons-
parameter en de norm die een leerling met boek C op de gehele toets behaalt geven een
juist beeld van zijn vaardigheid op toetsen uit de itembank met een vergelijkbare
samenstelling. Zijn vaardigheid op toetsen zonder geld-items is over het algemeen
hoger, en op toetsen met allleen geld-items lager, dan aangegeven door de persoons-
parameter en de norm. Voor willekeurige toetsen uit de itembank zullen deze vaardig-
heidsschattingen een minder nauwkeurige voorspelling van de toetsscore opleveren,
dan de gebruikelijke schattingsfout van de parameter aangeeft. Met de procedure in
Lewis (1981) kan in een dergelijk geval de grotere onzekerheid over de vaardigheids-
schatting tot uitdrukking worden gebracht.

Rasch-inhomogeniteit t.g.v. wat men verschillen in cognitieve stijlkenmerken van
leerlingen zou kunnen noemen, vallen in principe ook onder de hier behandelde
categorie. Doordat het onderzoek op dit gebied nog geen algemeen geaccepteerde
theorie heeft opgeleverd, is het moeilijker hiermee rekening te houden bij het beheer
van een itembank en de opzet van de rapportage.
Ad 3. Het lijkt niet aan te bevelen items met afwijkende notatie, die een inhoudehjk
equivalent voor de normpopulatie hebben, afzonderlijk te calibreren voor het deel van
de gebruikerspopulatie dat deze notatie hanteert. Een eventueel verschil tussen de
parameters van twee inhoudelijk zelfde items zal nl. meestal veroorzaakt worden door
een verschil in behandeling van het betreffende deel van de leerstof, niet doordat een
ander teken of symbool is gebruikt. De behandeling van dergelijke verschillen valt
onder het hierbovengenoemde punt 2.

Vanaf deze paragraaf wordt er vanuit gegaan dat de hierboven geschetste problematiek voor
een bepaalde onderwijssituatie bevredigend is opgelost en dat een Rasch-gecalibreerde
itembank ter beschikking staat. Middels de hieronder beschreven procedure kunnen dan bij
iedere toets uit de itembank normen worden verstrekt.

Kiezen we zo'n toets met k items. Noteren we de parameters van de items in de toets met

Oi, 02, ..., 0;t, dan wordt de conditionele verdeling van de scores op de toets gegeven de
vaardigheid ^ gegeven door:

Hierin is y^ (oi,..., Oi^) de symmetrische basisfunctie van order van de parameters van de items
in de toets. (Zie het tweede deel van formule 18 in Andersen en Madsen, 1977). Zij nug(|) de
kansdichtheidsfunctie van ware vaardigheden in de normpopulatie, dan wordt de verwachte
frekwentieverdeling van de scores op de toets in de normpopulatie gegeven door:

(Zie eveneens formule 18 in Andersen en Madsen en formule 22.3.3 in Birnbaum, 1968).

Uit formule (4) kan worden geconcludeerd dat bij iedere toets uit de itembank normen
berekend kunnen worden zodra de kansdichtheidsfunctie g van ware vaardigheden in de
normpopulatie bekend is.

5. HET SCHATTEN VAN DE KANSDICHTHEIDSFUNCTIE VAN DE WARE
VAARDIGHEDEN IN EEN NORMPOPULATIE

Voor zover ons bekend is, wordt in Lord (1969) voor het eerst ingegaan op het schatten van
ware vaardigheidsverdelingen. Daar betreft het weliswaar 'ware scores', maar omdat deze via
formule (2) (met | en o i.p.v. | en d) één-één gerelateerd zijn aan ware vaardigheden, is dit
niet van belang. Lord gaat uit van een geobserveerde scoreverdeling/(r), neemt aan dat deze
ongeveer gelijk is aan (p(r) (zie formule (4)) en ontwikkelt en evalueert methoden omg(|) te
schatten. Doordat voor iedere persoon v uit de steekproef de ruwe score r(v) een stochast is,
vertoont de geobserveerde scoreverdeling/(r) meestal kleine afwijkingen t.o.v. (p(r). Deze
kleine afwijkingen kunnen een oplossing van vergelijking (4) met q)(r) = f(r) onmogelijk
maken. De consequentie hiervan is, dat de steekproefgrootte minimaal 20.000 dient te zijn;
meestal een weinig reële optie.

Zoals reeds werd opgemerkt, hebben kansfluctuaties invloed op het resultaat van Lord's
schattingsmethode voor verdelingen van ware vaardigheden. Bij veel schattingsmethoden is
dat niet zo erg; bij het schatten van ware vaardigheden wel. De kansfluctuaties omvatten hier
meer dan alleen de steekproeffluctuaties van de steekproef t.o.v. de populatie. Al zouden we
de gehele populatie toetsen, dan nog kunnen achtereenvolgende toetsafnamen (als gedach-
ten-experiment) van elkaar afwijkende scoreverdelingen te zien geven. Dit komt omdat we
het beantwoorden van een item als een stochastisch proces opvatten. Bij een normeringson-
derzoek trekken we eerst een steekproef uit de verdeling van ware vaardigheden in de
populatie. En vervolgens doen we per persoon een trekking uit de conditionele verdeling
/i(r 11) van toetsscores gegeven zijn ware vaardigheid

In formule (4) is met de kansfluctuaties van beide stochastische processen geen rekening
gehouden. Voor het trekken van de steekproef uit de populatie is dit niet zo erg. We zouden
eenvoudig de verdeling van ware vaardigheden in de steekproef kunnen berekenen. Deze
verdeling bestaat binnen het door ons gehanteerde model altijd en zal minder van de
populatie-verdeling afwijken naarmate de steekproef groter is. De kansfluctuaties van het

tweede proces kunnen echter scoreverdelingen/opleveren, waarbij volgens formule (4) (met
(p = ƒ) geen verdehng van ware vaardigheden bestaat. En als hij wel bestaat hjkt hij meestal
niet op de verdehng van ware vaardigheden in de steekproef. Ook bij relatief grote steekproe-
ven hebben deze kansfluctuaties veel invloed op de berekende verdeling van ware vaardighe-
den.

Dit kan worden geïllustreerd met de data uit het nog te bespreken artikel van Andersen en
Madsen. Deze data zijn ontleend aan de resultaten van een steekproef van 1000 leerlingen op
een toets van 5 items. Met de hierna te bespreken procedure is bij deze data de verdeling van
ware vaardigheden berekend. Bij dit kleine aantal items beïnvloeden de kansfluctuaties van
het tweede proces het resultaat van deze procedure evenzeer als het resultaat van de proce-
dure van Lord. In figuur 1 zijn de scorefrekwenties uit de data aangegeven met doorgetrokken
horizontale strepen. De kansdichtheidsfuncde (verder kortweg met 'dichtheid' aangeduid)
van ware vaardigheden bij deze data is getekend met een doorgetrokken lijn. Vervolgens is
een kleine afwijking in de scoreverdeling aangebracht. De likelihood-ratio-statisdek van deze
scoreverdeling gegeven de itemparameters en de dichtheid van de ware vaardigheden bij de
data is: z = 1.03, df = 3, rechteroverschrijdingskans <.8. Deze afwijkende scoreverdeling is
met onderbroken horizontale strepen aangegeven. Bij de afwijkende scoreverdeling werd
eveneens de dichtheid van ware vaardigheden bepaald. Deze is in figuur 1 aangegeven met de
stippellijn. Zoals gemakkelijk is te zien is het verschil tussen de ware dichtheden verhoudings-
gewijs groter dan dat tussen de scoreverdelingen.

De problemen die het tweede kansproces veroorzaken kunnen op de volgende manieren
het hoofd worden geboden:

1. Men neemt aan dat de verwachte scoreverdehng een element is van een bepaalde klasse
van verdelingen. Dan wordt eerst gezocht naar het element in deze klasse dat in een nader
te omschrijven zin het best past bij de geobserveerde scoreverdeling. Vervolgens past men
Lord's procedure toe, of een analogon hiervan. Een andere, hierop gelijkende methode
bestaat uit het wegfiheren van grillige verschillen in frekwende tussen dicht bijeen gelegen
scoregroepen door de scorefrekwenties te vervangen door een geschikt gekozen glijdend
gemiddelde.

2. Men neemt aan dat de verdehng van ware vaardigheden een element is van een klasse van
verdehngen en zoekt het element dat, gegeven het tweede kansproces, de geobserveerde
scoreverdehng met de meeste aannemelijkheid kan opleveren.

Sanathanan en Blumenthal (1978) en Andersen en Madsen (1977) volgen de tweede metho-
de. Hoewel de theorie in beide artikelen algemener van opzet is, is de concrete uitwerking van
de procedures beperkt tot de normale verdehng als de klasse waaruit g afkomstig is. Beide
schatdngsprocedures bepalen de meest aannemelijke ji en o (resp. gemiddelde en standaard-
deviatie) van g, gegeven de data en de itemparameters. De benadering van Sanathanan en
Blumenthal levert rekentechnisch de meest eenvoudige oplossing (ook eenvoudiger dan de
steilste gradienten methode, zoals geïmplementeerd in PML (Gustafsson, 1977)). Zij ont-
wikkelden een EM-algoritme voor het onderhavige probleem, gebaseerd op de EM-methode
(Dempster, Laird, & Rubin, 1977). Dit algoritme bhjkt efficient te zijn en snel te converge-
ren. Voor hun toepassing waren drie iteraties voldoende.

Zoals reeds vermeld, is de procedure van Sanathanan en Blumenthal beperkt tot de
normale verdeling. Daardoor worden slechts de eerste twee momenten van de verdeling van
ware vaardigheden gebruikt bij de berekening van normen. In Lord's (1969) procedure zijn
dit de eerste k momenten (k: het aantal items in de toets). Door zich te beperken tot de
normale verdehng, verliest men meer aan precisie bij de berekening van normen t.o.v. Lord's

Figuur 1. Kleine wijzigingen in de geobserveerde score-verdeling kunnen volgens formule (4) grote
veranderingen in de ermee corresponderende verdeling van ware vaardigheden tot gevolg
hebben.

De continue lijnen representeren unimodale dichtheidsfuncties (lambda-verdelingen) van
ware vaardigheden. De doorgetrokken lijn hoort bij de score-verdeling die met doorgetrokken
horizontale strepen is aangegeven.

procedure, naarmate de verdeling van ware vaardigheden in een normpopulatie meer van de
normale verdehng afwijkt, bijvoorbeeld door een scheefheid ^ 0. Om t.o.v. Lord's procedure
niet teveel aan precisie te verliezen is hier gekozen voor een familie van unimodale verdelin-
gen die variatie in de eerste vier momenten toelaat nl. de lambda-verdeling (Ramberg et al.,
1979). In het algemeen Hjkt het niet zinvol hogere momenten te schatten, omdat deze voor
een acceptabele schattingsnauwkeurigheid meer data vergen dan meestal beschikbaar zullen
zijn. De onbekendheid in de psychometrie is een nadeel van de lambda-verdehng t.o.v. de
normale verdehng. Dit nadeel kan worden beperkt door in die situaties waarin dit nadeel
zwaar weegt, het derde en vierde moment buiten de hieronder beschreven schattingsproce-
dure te houden en gehjk te stellen aan die van de normale verdehng. De lambda-verdehng die
daarmee wordt verkregen wijkt maximaal .0010 af van de cumulatieve normale verdehng met
dezelfde eerste twee momenten (de gemiddelde afwijking is .0006). Voor ieder practisch doel
kan dan worden gehandeld alsof de normale verdeling is geschat. Ook in die gevallen waarin
met zodanig kleine steekproeven wordt gewerkt, dat de schattingsfouten van de derde en
hogere momenten onacceptabel groot worden, kan deze mogelijkheid uitkomst bieden. Deze
benadering van de normale verdehng met de lambda-verdehng, noemen we verder 'quasi
normale verdeling'.

Hierin is p een cumulatieve proportie (O < p < 1). Indien de vier parameters X van een
normpopulatie bekend zijn, geeft formule (5) bij iedere proportie^ van de normpopulatie een
vaardigheidsparameter Een proportie p van deze normpopulatie heeft dan een ware
vaardigheid | (= G-' (/?)) of lager.
De uitdrukking voor de dichtheid g van G vindt men als volgt:

In formule (6) lijkt A., te zijn verdwenen. Deze parameter heeft evenwel invloed op de 'locatie'
van g via de bepaling van de waarde van p bij | met formule (5).

Voor de berekeningen bij dit algoritme is het computerprogramma WAVSIM ontwikkeld
(Verstralen, 1982).

Het EM-algoritme in WAVSIM kan als volgt worden beschreven: Zoals uit formule (4) en (6)
blijkt, wordt de dichtheid g van ware vaardigheden geparametriseerd met de vector

Ramberg et al. (1979) fitten een lambda-verdeling bij een gegeven verdeling via de eerste vier
momentenM = (Mi, M2, M3, M4). WAVSIM berekent X bij M door lineaire interpolatie in de
tabel in Ramberg et al. Noteren we het verband tussen X en M met K:

Zij X(°) een beginwaarde van X, X"» het resultaat van iteratiep en/(r) de scoreverdeling van een
steekproef uit de normpopulatie op een toets T uit de itembank. Dan bestaat iteratie (p + l)
uit de volgende stappen:

wordt berekend door de eerste twee momenten te bepalen van de verdeling van vaardig-
heidsschattingen. Het tweede centrale moment kan worden verminderd met de gemiddelde
schattingsvariantie van de vaardigheden. Scheefheid en Kurtosis worden respectievelijk
gelijk aan O en 3 gesteld (zoals bij de normale verdeling). Noemen we de vier momenten die
hieruit resulteren dan is:

Het bovenstaande algoritme verschilt slechts van dat van Sanathanan en Blumenthal doordat
vier i.p.v. twee momenten worden gefit en de lambda-verdeling i.p.v. de normale verdeling
wordt genomen als de familie waaruit g afkomstig is.

Toch zit hier een addertje onder het gras, dat tot nu toe geen vervelende consequenties lijkt
te hebben. Dempster et al. (1977) bewijzen convergentie van EM-algoritmen naar de meest
aannemehjke g onder de voorwaarde dat g een element is van een exponentiële familie.

Omdat de lambda-verdeling niet als functie van | is te schrijven (alleen als inverse functie
vanp naar is de lambda-verdeling derhalve geen exponentiële familie (die kunnen immers
wel als functie van | worden geschreven). Hoewel Dempster et al. veel ruimer condities
aangeven (voor hun zg. GEM-algoritmen), waaronder convergentie naar de meest aanneme-
lijkeg plaats vindt dan de EM-methode vereist, is niet duidelijk of het algoritme in WAVSIM
hieraan voldoet. Daardoor is het mogelijk dat niet de meest aannemelijke g wordt geschat.
Toch zijn de ervaringen met WAVSIM positief. De verwachte scorefrekwenties volgens
formule (4) pasten steeds goed bij de data (goed in de zin van de Kolmogorof-Smirnof-statis-
tiek). In paragraaf 8 worden hiervan enkele illustraties besproken. Indertijd is de keuze op de
lambda-verdeling gevallen wegens de handige vorm van de percentielfunctie en de mogelijk-
heid van aanpassing bij vier momenten (i.p.v. twee bij de normale verdeling). Het EM-algo-
ritme was ons toen nog niet bekend.

Omdat WAVSIM mogelijk niet de meest aannemelijke g schat, noemen we deze verder
'goed passend'.

Is eenmaal een verdeling van ware vaardigheden in een bepaalde populatie gevonden, dan
kan voor iedere toets uit de itembank de verwachte verdeling van de scores worden bepaald
volgens formule (4). Hiervoor is het programma VERPLT geschreven (Verstralen, 1982). De
Y-functies in formule (3) worden berekend met de betreffende twee subroutines uit Gustafs-
son (1977) (som-algoritme). Hoewel dit niet in VERPLT is gerealiseerd, lijkt het zinvol bij
iedere norm een bv. 50% betrouwbaarheidsinterval te geven. Dit kan als volgt: Formule (2.4)
uit Sanathanan en Blumenthal (o.c.) geeft de conditionele dichtheid van | gegeven de score en
de verdeling van ware vaardigheden. Deze formule kan als volgt worden genoteerd. Zij:

dan is de conditionele dichtheid van | gegeven de score (en de dichtheid g van | in de
populatie) te schrijven als:

Nemen we de cumulatieve verdelingsfunctie bij deze conditionele dichtheid en bepalen we
hierin de ondergrens ?o bij p=.25 en de bovengrens ?2 bij p =.75, dan wordt het 50%
betrouwbaarheidsinterval van de norm bij de score gegeven door de percentielen die we
verkrijgen door |o en ?2 <le cumulatieve verdelingsfunctie G te substitueren (door G"'
numeriek te inverteren). Voor het vergroten van de coherentie verdient het aanbeveling dan
ook de puntschatting van de norm op deze manier te laten verlopen, nl. via de mediaan van de
conditionele verdeling, (zie figuur 2).

In deze paragraaf beschrijven we de resultaten van het hierboven beschreven algoritme op de
data uit Andersen en Madsen, de data uit Sanathanan en Blumenthal en op toetsresultaten
van 10 steekproeven uit de populatie gebruikers van de Cito-Eindtoets voor het Basison-
derwijs. Tevens besteden we enige opmerkingen aan het stopcriterium in WAVSIM.

Van de twee genoemde artikelen geeft alleen Andersen en Madsen een maat voor de fit van
de schatting g van de dichtheid g van ware vaardigheden. Zij vergelijken de verwachte
scoreproporties (zie formule 4) en de geobserveerde scoreproporties met elkaar middels de
likelihood-ratio-statistiek (verder afgekort tot L-R-statistiek):

Tabel 1 Een overzicht van de resultaten van WAVSIM met de data van Sanathanan &
Blumenthal

(formule 24 uit Andersen en Madsen) hierin is}»,. de geobserveerde frekwentie van score r en
«Jl,. de verwachte frekwentie. Deze statistiek is f} verdeeld met evenveel vrijheidsgraden als
er items zijn in de toets, verminderd met het aantal parameters van g. Tevens wordt de
Kolmogorof-Smirnof-statistiek berekend (verder afgekort tot K-S). Omdat deze statistiek
gelijk is aan het maximum absolute verschil thssen de verwachte en geobserveerde cumula-
tieve scoreproporties, is zij van directer betekenis in verband met normen dan de L-R
statistiek.

Bekijken we nu eventuele verschillen tussen de resultaten van de hier beschreven methode
en die van Andersen en Madsen en Sanathanan en Blumenthal. De data van Andersen en
Madsen gaven geen noemenswaardige verschillen te zien. Beide methoden resulteerden in
een lage L-R-statistiek (resp. 1.03 {df = 3,p < .80) en 1.32 (<ƒƒ.= \,p < .25)). Hetzelfde geldt
voor de K-S-statistiek (resp. .007 en .003). Voor de goed passende quasi normale verdehng
verkregen we: L-R = 1.004 {df =3,p < .80) en K-S = .0063. Er werd dus steeds een erg
goede passing verkregen.

De data van Sanathanan en Blumenthal heten grotere verschillen zien. Voor een overzicht
zie tabel 1. De goed passende quasi normale verdehng die wordt gevonden verschilt nauwe-
lijks van die van de normale verdehng van Sanathanan en Blumenthal. De L-R-statistiek
blijkt tamehjk groot te zijn (126.2 df = lS,p < .000). De K-S-statistiek is ruim .075 0<.01).

De passing kan derhalve erg slecht worden genoemd. Met de lambda-verdeling werd met deze
data een beter resultaat verkregen (L-R = 15.8 d/ = 16,^ < .47, K-S = .017, bij K-S = .034 is
p < .20). Inspectie van tabel 1 laat zien dat de slechte passing van de (quasi) normale
verdelingen wordt veroorzaakt door een aanzienlijke scheefheid en kurtosis (resp. aj en 04)
van de ware verdehng, die bij gebruik van de quasi normale verdeling of de normale verdeling
alleen, niet zouden zijn opgemerkt.

De laatste illustratie is afkomstig uit een Cito-dataset: 10 random steekproeven van ieder
500 leerlingen uit de populatie van gebruikers van de Cito-Eindtoets voor het Basisonderwijs
1981. We gebruiken de resultaten van de rekentoets (60 items). Tabel 2 geeft een overzicht.

Tabel 2 De Cito Eindtoets voor het Basisonderwijs rekenen 1981. Een overzicht van de
resultaten van WAVSIM op 10 steekproeven van 500 leerlingen.
Gemiddelden en st. deviaties over steekproeven.

Uit de lambda-verdelingen blijkt dat de verdelingen van ware vaardigheden slechts een
geringe scheefheid en iets minder kurtosis vertonen dan de normale verdeling. De gemiddel-
den: ttj = . 19 04 = 2.66; voor de normale verdeling zijn deze waarden respectievelijk 0.00 en
3.00. In dit geval zou men derhalve goed met de (quasi) normale verdeling kunnen volstaan,
zoals ook blijkt uit een vergelijking van de K-S-statistieken.

Het convergentiecriterium dat werd gehanteerd functioneerde niet goed. Er werd geen
volgende iteratie uitgevoerd zodra gemiddelde en standaarddeviatie voor de quasi normale
verdeling en voor de lambda-verdeling ook aj en 04 vang uit opeenvolgende iteraties minder
dan .005 van elkaar verschilden. Sanathanan en Blumenthal hanteerden eenzelfde principe.
Zowel uit tabel 1 als uit tabel 2 blijkt dat dit criterium niet voldoet voor de lambda-verdeling,
omdat slechts een enkele keer na iteratie 3 nog enige verbetering te bespeuren valt, terwijl
toch in veel gevallen nog een groot aantal iteraties nodig was voordat aan het convergen-
tiecriterium werd voldaan. Ook bij andere toepassingen is dit opgevallen. Het convergentie-
criterium moet derhalve worden aangepast.

Nemen we de teststatistieken als uitgangspunt voor een stopcriterium i.p.v. convergentie,
dan is het voor de hand liggend het itereren te stoppen zodra één of beide statistieken hun
eerste lokale minimum zijn gepasseerd. In tabel 3 geven we een overzicht van de resultaten
van deze stopcriteria, incl. het hierboven gehanteerde convergentiecriterium, op de
Eindtoets-data bij het bepalen van de lambda-verdeling.

Onder 'Iteratie' is vermeld het gemiddeld aantal iteraties over de tien steekproeven dat ieder
van de vier stopcriteria nodig had. Onder 'L-R' is de gemiddelde likelihood-ratio-statistiek in

de voorlaatste iteratie vermeld en onder 'Q' de rechteroverschrijdingskans bij deze waarde
van L-R. Onder 'K-S' de gemiddelde waarde van de Kolmogorof-Smirnof-statistiek in de
voorlaatste iteratie. Achter 'Conv.' staan deze waarden voor het hierboven gehanteerde
convergentiecriterium, niet voor de voorlaatste, maar voor de laatste iteratie. Zeker wanneer
men bedenkt dat de K-S-statistiek voor normen de meest betekenisvolle is, wordt uit tabel 3
duidelijk dat het lokale minimum voor K-S de meest practische keuze is.

Andersen, E.B. (1977). Sufficient statistics and latent trait models, Psychometrika, 42, 357-374.
Andersen, E.B., & Madsen, M. (1977). Estimating the parameters of the latent population distribution.

Psychometrika, 42, 357-374.
Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee's ability. In: F.M.

Lord & M.R. Novick, Statistical theories of mental test scores. Reading, Massachusetts: Addison
Wesley.

Dempster, A.P., Laird, N.M., & Rubin, D.B. (1977). Maximum likelihood from incomplete data via the

EM algorithm. Journal of the Royal Statistical Society, Series B, 39, 1-38.
Fischer, G. (1974). Einführung in die Theorie psychologischer Tests. Bem: Veriag Hans Huber.
Fischer, G. (1981). On the existence and uniqueness of maximum likelihood estimates in the Rasch

model. Psychometrika, 46, 59-77.
Glas, K. (1981). Het Rasch-model bij data in een onvolledig design. Afstudeerscriptie onder supervisie
van N. Verhelst, Vakgroep Psychometrie, Statistiek en Modelvorming, Subfaculteit Psycholo-
gie, Utrecht: R.U. Utrecht.
Gustafsson, E-J. (1977). The Rasch model for dichotomous items: theory, applications and a computer

program. Reports from the Institute of Education, University of Goteborg, nr 63.
Lewis, Ch. (1981). Bayesian inference for latent abilities. Heymans Bulletins Psychologische Instituten,

R.U. Groningen, HB-81-517-EX.
Lord, F. (1969). Estimating true score distributions in psychological testing (an empirical Bayes estima-
tion problem). Psychometrika, 34, 259-299.
Molenaar, I.W. (1983). Some improved diagnostics for failure of the Rasch model. Psychometrika, 48,
49-72.

Ramberg, J.S., Tadikamalla, P.R., Dudewicz, E.J., & Mikitka, E.F. (1979). A probability distribution

and its uses in fitting data. Technometrics, 21, 201-214.
Sanathanan, L., & Blumenthal, S. (1978). The logistic model and the estimation of latent structure.

Journal of the American Statistical Association, 73, 794-799.
Verstralen, H. (1982). IVAVSIM en VERPLT, twee programma's voor de normering van een Rasch

gecalibreerde itembank. Arnhem: Cito.
Wollenberg, A. van den. (1979). The Rasch model and time-limit tests; an application andsome contribu-
tions. Academisch proefschrift, Nijmegen: K.U. Nijmegen.

Het sectoronderzoek: onderwijsonderzoek in de marge van wetenschap en beleid.
ALGEMEEN

De eerste reacties na het lezen van de in 1983 in de SVO-reeks verschenen studies van Scheerens naar
'onderzoek en beleid, c.q. beleidsonderzoek' zal bij velen zijn: moeilijk leesbaar door vaak onnodig
moeilijk taalgebruik. In beide publicaties wordt dermate veel gebruik gemaakt van jargonbegrippen, dat
het de gemiddelde lezer al na een paar bladzijden gaat duizelen. Het is weliswaar overdreven om met
Kuné' te stellen, dat er sprake zou zijn van 'verhullend taalgebruik', maar door het gebruik van
ingewikkelde zinsconstructies en onalledaagse begrippen zijn de studies van Scheerens niet erg toegan-
kelijk. Het vergt nogal wat doorzettingsvermogen van de lezers. Wanneer we even voorbijgaan aan deze
kritiek en ons richten op de inhoud van de studies, dan moet worden geconstateerd dat deze studies zeer
gedegen zijn.

Scheerens beschrijft zeer terdege de situatie, waarin onderzoekers (zoals ondergetekende) zich bevin-
den: gevoelens van machteloosheid jegens programmavoorstellers en jegens het SVO-apparaat; ge-
voelens van onmacht daar waar het gaat om het combineren van wetenschappelijke normen enerzijds en
financiële en inhoudelijke kaders anderzijds; gevoelens van het soms toevlucht moeten nemen tot
schijnhoudingcn (ten opzichte van SVO, departement, scholen, medeonderzoekers), waarmee meer
(kennis, inzicht, bereidheid, belezenheid) beloofd wordt dan er in werkelijkheid is: gevoelens van
onverschilligheid ten aanzien van de impact-mogelijkheden van een onderzoek ('rapporten kunnen op
drie plaatsen terechtkomen: in een archiefkast, in een bureaula of gehjk in de prullebak'); gevoelens ook
van het aan een lopende band werken: project A duurt 18 maanden, na ongeveer 10 maanden- dus nog
tijdens de dataverzamelings- of verwerkingsperiode - dient ten behoeve van de continuïteit een nieuwe
vervolgaanvrage ingeleverd te worden, de dag nä de afloop van project A dient alweer met project B
begonnen te worden, waardoor nabespreking en bezinningen en/of publicaties naar aanleiding van
project A alleen al qua tijd in de verdrukking komen.

Het is zonder meer een verdienste van Scheerens dat hij de gehele structuur waarbinnen onderzoek
gedaan wordt zeer precies weet uiteen te rafelen. Daardoor kunnen de gevoelens/problemen van
individuele onderzoekers in een breder kader geplaatst worden. Ze worden ook begrijpeUjker.

Op de vraag, of de voorstellen van Scheerens voor een (deels) andere structurering en besturing van het
onderwijsonderzoek zouden leiden tot een meer werkbaar (meer opleverend èn meer bevredigend)
geheel, zal op het einde van deze boekbespreking ingegaan worden. Eerst een beschrijving van de beide
boeken.

De basis voor dit als proefschrift (cum laude) aanvaarde boek is de frequente constatering, dat evaluatie-
onderzoeksprojecten niet hebben opgeleverd wat ervan verwacht werd. Scheerens werpt zich ook op deze
problematiek met de bedoeling: een uitbreiding van het conceptueel kader voor het analyseren van zowel
de methodologische als de organisatorische aspecten van evaluatie-onderzoek.
In meer specifieke termen is de beoogde bijdrage van zijn publicatie:

2. Conceptualisering van de wisselwerking tussen research-technische en omgevings-aspecten bij be-
leidsgericht evaluatie-onderzoek;

3. Aan de hand van 1 en 2: analyse van een praktijkvoorbeeld, te weten de toepassing van beleidsgericht
(evaluatie-)onderzoek in een aantal grote onderwijsinnovatieprojecten.

De voornaamste ingrediënten van het boek zijn: 'een accentuering van het wetenschappelijk karakter

van evaluatie-onderzoek, een kritische beschouwing van nieuwe en alternatieve paradigma's van beleids-
gericht onderzoek, het gebruik van een bestuurskundig en organisatiekundig begrippenkader om de
'passing' van evaluatie-onderzoek in de beleidsmatige en organisatorische context te typeren en een
discussie over de merites van de aldus opgebouwde conceptualisering''. Het betreft uitgebreide en op zich
terdege uitgewerkte theoretische beschouwingen over evaluatie-benaderingen en de context waarbinnen
evaluatie-onderzoek verricht wordt.

In Ac hoofdstukken 1 en 2 wordt uitgebreid ingegaan op wetenschapstheoretische, methodologische en
onderzoekstechnische aspecten van (beleidsgericht) evaluatie-onderzoek. Erin wordt o.a. uitgebreid
aandacht geschonken aan het 'hermeneutisch begrijpen', gerichtheid op generaliserende uitspraken, het
methodisch principe van de waardevrijheid, het professioneel paradigma van het sociaal beleidson-
derzoek, 'aangepast' evaluatie-onderzoek. De geesteswetenschappehjke, de benuttingsgeoriënteerde en
de geëngageerde opvattingen over evaluatie-onderzoek worden afgezette en meer traditionele
opvattingen van wetenschapsbeoefening. Scheerens komt daarbij tot de conclusie, dat evaluatie-onder-
zoek veelal het karakter heeft van 'handicap-research': er zal steeds geschipperd moeten worden tussen
de verphchting tot wetenschappelijkheid en (meestal) belemmerende contextfactoren. Evaluatie-onder-
zoek is er in vele vormen; deze zijn op een continuüm te plaatsen, waarbij de sterkere modellen bovenaan
worden geplaatst (hetgeen niet wil zeggen dat de onderaanstaande benaderingen geen waarde hebben):

a. vooraf geëxpliciteerde evaluatie-criteria en -standaarden; evaluatie-onderzoek volgens het wedden-
schapsmodel,

In de hoofdstukken 3 en 4 wordt ingegaan op de beleidsmatige context van evaluatie-onderzoek: de
procedurele dimensie en de structurele dimensie.

Ten aanzien van de procedurele dimensie (de beleidsvoeringsprocessen en pohtiek als context-va-
riabele bij onderzoek) merkt Scheerens op, dat beleidsvoering onderscheiden kan worden naar de mate
van 'aanpassing' ten opzichte van het model van de homo economicus, de mate waarin middel-doel cycli
gehanteerd worden en de aanwezigheid in het beleidsproces van meerdere, eventueel 'verborgen'
doelstellingen. Betoogd wordt dat de kenmerken van het beleidsvoeringsproces beschouwd kunnen
worden als beperkingen voor de mogehjke toepassing van de bovenstaande evaluatie-modellen.

Bij de structurele kant van de concept-problematiek van beleidsgericht evaluatie-onderzoek gaat het
om het hoe en het effect van de organisatorische setting, waarin het onderzoek plaatsvindt. Daartoe wordt
een voor veel onderwijsonderzoekers belangrijke systeemtheoretische benadering uiteengezet: het be-
sturingsparadigma (ontwikkeld door De Leeuw). Het gaat hierbij kort gezegd om de mogelijke relaties,
structuren en onderhnge en gezamenlijke effecten van elementen van een besturingssituatie: omgeving,
besturend orgaan en besturend systeem.

Dit alles wordt gecombineerd tot een model van relaties tussen evaluatie-onderzoeks-opzet, organisa-
tie-structuur, beleidsvoeringsmodellen en contingentie (= omgevingsjfactoren':

De ononderbroken pijlen lopen van 'meer elementaire' categorieën naar (doorgaans) gemakkelijker
manipuleerbare categorieën. De onderbroken pijlen'geven de (doorgaans geringere) mogelijkheden van
omgekeerde beïnvloeding aan.

Dit model wordt in hoofdstuk 5 toegepast op het functioneren van beleidsgericht onderzoek in het
kader van landelijke onderwijsinnovatie-projecten, oftewel het 'sector-onderzoek'. Bestudeerd zijn de
beleidsgerichte onderzoeken in de sectoren middenschool, open school en basisschool. Over deze studie
op zich wordt in de hierna te bespreken publicatie gerapporteerd. In de (Engelse) samenvatting worden

de algemene resultaten van deze studie meer onomwonden weergegeven als in de integrale text: Bij
externe beoordelaars en belanghebbende groepen bestaan twijfels over de research-kwaliteit en de
bruikbaarheid van het sector-onderzoek. Deze teleurstellende situatie lijkt zijn oorzaken te vinden in de
algemene ongearticuleerdheid van het beleidsvoerende proces, de politieke omstredenheid van sommige
innovatieprojecten (met name bij de middenschool), een management-vacuum met betrekking tot het
beheer van het onderzoeksprogramma en de research-controle, de 'netwerk'-karakteristieken van de
totale organisatorische configuratie (de verzuiling), alsmede de nogal zwakke positie van de onder-
zoeksinstituten en de SVO.

Scheerens' analyse mondt uit in 30 aanbevelingen met betrekking tof de 'besturingsconfiguratie' van 1)
overheid, wetenschap en onderwijsveld als omgeving, 2) de SVO als meta bestuurder, 3) de geïnstitutio-
naliseerde onderwijsresearch als besturend orgaan en 4) de beleidsgerichte onderwijsresearch als be-
stuurd systeem. Centraal daarin staat de keuze voor de SVO als primair een instelling die voorwaarden-
scheppend beleid voert en niet als een centraal orgaan dat alles zelf regelt'.

- de uitvoeringsverantwoordelijkheid voor grootscheepse evaluatie-projecten moet duidelijker gepro-
fileerd worden;

- een zakelijker regeling van de relatie met het onderwijsveld bij de uitvoering van beleidsgericht
onderzoek is noodzakelijk;

- het doen van beleidsgericht onderzoek dient verbeterd te worden, door middel van onder meer: een
zekere specialisering, professionalisering, gerichte voorlichting, méér aandacht voor research-ma-
nagement, versterken van de forumfunctie, het accentueren van eenheid met betrekking tot basisprin-
cipes en verscheidenheid in mogelijke toepassingsvormen.

Scheerens geeft zelf aan, dat hij uitgegaan is van wat in de huidige situatie haalbaar is. Hij laat in het
midden of meer radicale wijzigingen van bestaande procedures en structuren wellicht 'beter' zouden zijn.

In de Slotbeschouwing geeft Scheerens nog een lijst van centrale punten in de door hem geïmpliceerde
visie op de evaluatie-problematiek en hij gaat in op zin, onzin en grenzen van beleidsgericht evaluatie-on-
derzoek. De zin ervan is afhankelijk van de mate waarin de rationalisering van beleidsvoering tot zijn
recht komt; beleidsgericht onderzoek is niet bij iedere vorm van beleidsvoering geïndiceerd».

Het boek telt tenslotte 2 appendices; 'de analyse van het nonequivalent group design' en 'enkele
organisatiekundige basisbegrippen en typologieën'.

HET SECTORONDERZOEK: ONDERWIJSONDERZOEK IN DE MARGE VAN WETEN-
SCHAP EN BELEID?»

In deze publicatie wordt verslag gedaan van een studie naar het functioneren van het beleidsgerichte
onderzoek in het kader van enkele landelijke onderwijsvernieuwingsstrategieën (het Middenschool-ex-
periment, de Open School proefprojecten en het innovatieproject Basisschool). De resultaten van deze
studies zijn in Scheerens' proefschrift gebruikt als praktijkvoorbeeld van het toepassen van het bestude-
ringsmodel.

a. In hoeverre voldoet de output van het sectoronderzoek aan een aantal inhoudelijke criteria?

b. In welke mate voldoet het beleid met betrekking tot het sectoronderzoek (te weten het relevante
onderwijsbeleid en het onderzoeksbeleid) aan criteria van rationele beleidsvoering?

c. In welke mate is er sprake van een efficiënte organisatie van het sectoronderzoek, voorzover dit blijkt
uit een analyse van een aantal organisatorische configuraties binnen het sectoronderzoek door middel
van het zg. besturingsparadigma? Hierbij zullen globaal gesproken zowel de besturing van het
sectoronderzoeksbeleid door het onderwijsinnovatiebeleid als de besturing van het onderzoek door
het sectorenonderzoeksbeleid in beschouwing worden genomen.

d. Welke suggesties/voorstellen tot verandering en bijstellingen van de bestaande situatie kunnen
worden gedaan op basis van de onder a, b en c bedoelde analyses en beoordelingen?

Door middel van document-analyses (van project-stukken en beleidsdocumenten) en interviews (met
departementsambtenaren cn leden van de innovatiecommissies) zijn de beleidsgerichte onderzoekspro-
jecten binnen de sectoren 'middenschool', 'basisschool' en 'open school' onderzocht. Per sector is
gekeken naar:

a. de beleidsvoering met betrekking tot het experiment (bij de middenschool), de proefprojecten (open
school) en het innovatieproject (basisschool); bijvoorbeeld de uitgangspunten en doelstellingen
ervan, dc planmatige en organisatorische aspecten, functie van onderzoek;

Vervolgens zijn de aldus verkregen gegevens nader bekeken aan de hand van het in Schecrcns' proef-
schrift ontwikkelde besturingsmodel: welke zijn de contingentie (algemene beïnvloedende) factoren
geweest met betrekking tot het betreffende sectoronderzoek, welke was de organisatiestructuur, hoe
verliep het proces van beleidsvoering en wat is de kwaliteit en het 'nut' van het uitgevoerde onderzoek?

Het voert te ver, om de specifieke resultaten hier weer te geven. Daarvoor kan verwezen worden naar
de hoofdstukken 6 t/m 9, resp. hoofdstuk 10.1. (samenvatting van de voornaamste bevindingen).

In de slotbeschouwing (hoofdstuk 10) worden tenslotte de hoofdpunten van het in het proefschrift
gestelde weergegeven. Als zodanig is het er een prima samenvatting van.

VOORSTEL VOOR EEN ANDERE STRUCTURERING EN BESTURING VAN HET ONDER-
WIJSONDERZOEK

Scheerens doet naar aanleiding van zijn theoretische beschouwingen en de toepassing daarvan op een
praktijkstudie (het functioneren van beleidsgericht onderzoek) een aantal voorstellen voor de gecon-
stateerde problemen van het beleidsgericht onderzoek. Deze concentreren zich op de taak en positie van
de SVO. Scheerens zou graag zien dat de SVO, meer dan nu het geval is, fungeert als meta-bestuurder:
als een instelling die voorwaarde-scheppend beleid voert en niet als een centraal orgaan dat alles zelf
regelt. Concreet houdt dat in, dat de SVO verantwoordelijkheid bezit voor de organisatorische
structuur van het beleidsgerichte onderzoek èn dat er aan de geïnstitutionaliseerde onderwijsresearch
zoveel mogelijk speelruimte gegeven wordt. Ook onderzoeksinhoudelijk zou de SVO meer activiteiten
op meta-niveau moeten ontwikkelen: de huidige 'ruime aandacht' voor afzonderlijke onderzoekspro-
jecten ^ou plaats moeten maken voor een actievere bemoeienis met (de discussie over) de setting van
beleidsgericht onderzoek in z'n totaliteit.

Het is mijns inziens zeer van belang, dat deze (in het boek in een groot aantal concrete aanbevelingen
uitgewerkte) voorstellen in ruime kring besproken worden. Het zou de diverse relaties tussen depar-
tement - SVO - instituten - onderzoekers kunnen verhelderen (lees: op tafel leggen van opgekropte
frustraties in dezen bij waarschijnlijk alle partijen), het zou ook de positie van beleidsgericht onderzoek
en de uitvoerders en potentiële gebruikers ervan binnen het geheel aan sociaal-wetenschappelijke
activiteiten kunnen verduidehjken (lees: erkenning van de wetenschappelijke status en mogehjkheden).

Zo'n discussie heeft ook een actuele dimensie, gezien de adviezen van de RAWB en van de Commissie
Vos met betrekking tot de structuur van het onderwijsonderzoek. Dat het hierbij in zekere zin gaat om het
vinden van mogelijke bezuinigingspunten en dat het bij Scheerens gaat om meer organisatorische
argumenten kan die discussie wellicht zeer verlevendigen.
Het is daarom jammer, dat de ORD '84 in dezen geen mogelijkheid biedt....
In een discussie over Scheerens' voorstellen zal er zeker ook op gewezen worden, dat er aan de basis
nog steeds een voorwaarde niet vervuld is: een normale rechtspositie voor de onderzoekers, c.q. langere
termijn vooruitzichten op het kunnen verrichten van onderling gerelateerd onderzoek.

1. Kuné, H. (1983). 'Bedekt onthullend proefschrift' Universiteitskrant Groningen, 12, 28, p. 5.

2. Scheerens, J. (1983). Evaluatie-onderzoek en beleid. Methodologische en organisatorische aspecten.
Harhngen, Flevodruk, SVO-reeks 68. Eveneens verschenen als proefschrift ter verkrijging van de
graad van doctor in de Sociale Wetenschappen aan de R.U. te Groningen.

9. Scheerens, J. (1983). Het sectoronderzoek: onderwijsonderzoek in de marge van wetenschap en
beleid? Een studie naar het functioneren van het beleidsgerichte onderzoek in het kader van enkele
landelijke onderwijsinnovatieprojecten. Harüngen, Flevodruk, SVO-reeks 69.

Tussen vraag en antwoord: beginselen van sociaal-wetenschappelijk onderzoek.
Amsterdam, Meppel: Boom, 1983; 255 pag.

Dit boek is, zoals de auteur het zelf omschrijft, in zekere zin het resultaat van een uit de hand gelopen
poging een nieuwe uitgave te verzorgen van het boek 'Het vraaggesprek' (1979). Het karakter van het
boek is echter totaal veranderd. In de vorige uitgave stond het vraaggesprek als zodanig op de voorgrond
en het onderzoek op de achtergrond. In deze uitgave zijn de rollen echter omgedraaid, waarbij het met
name gaat om onderzoek naar maatschappelijke situaties die om verandering vragen. De auteur verde-
digt in dit verband de stelling dat de sociale wetenschappen een taak hebben bij de aanpak van
maatschappelijke problemen. Deze expliciete stellingname is in het gehele boek zichtbaar, waarbij de
auteur er in is geslaagd duidelijk te maken op welke wijze onderzoek een bijdrage kan leveren aan
dergeUjke oplossingen. Het praktijkgericht karakter van het onderzoek staat daarbij sterk op de voor-
grond.

Het 'praktijkgericht' onderzoek onderscheidt zich van het 'academisch' onderzoek op het punt van de
probleemsteUing. In plaats van 'Hoe zit het?' vraagt men zich vooral af 'Hoe kan het?'. Er wordt derhalve
in plaats van descriptieve, prescriptieve kennis vergaard. Bij praktijkgencht onderzoek spelen aspecten
van normatieve aard en zingeving een gewichtige rol. De schrijver betoogt met name dat inhoud en
methode geen van elkaar onafhankehjke entiteiten zijn.

In een vijftiental hoofdstukken laat de auteur de lezer in een vlotte schnjfstijl kennismaken met de
ontwerptechnieken van de sociaal-wetenschappelijke methodologie. Aan de orde komen verschillende
typen van vraagstellingen, bijbehorende ontwerptechnieken en heel uitgebreid een scala van instrumen-
ten voor sociaal-wetenschappelijk onderzoek, waarbij vanzelfsprekend de nadruk gelegd wordt op (de
vele vormen van) het vraaggesprek. In dit boek wordt sterk de nadruk gelegd op het instrumentarium van
de onderzoeker, waarbij het primair gaat om de datacollectie. De data-analyse krijgt relatief veel minder
aandacht. De weinige aandacht die de auteur overigens hieraan besteedt, is nogal oppervlakkig. Het zou
geen gemis zijn als deze 'blik in de etalage' achterwege gebleven was. Er bestaan genoeg inleidende
werken over data-analyse, zodat enige gerichte verwijzingen aan de lezer voldoende geweest zouden zijn.

De auteur schetst in eerste instantie het praktijkgerichte kader waarin vraaggesprekken worden
geplaatst. Voorts wordt het vraaggesprek ook met andere methoden van informatieverzameUng vergele-
ken. In de hoofdstukken 4 en 5 wordt ingegaan op constructieprincipes van vragen en op de opbouw van
het vraaggesprek. In de overige hoofdstukken wordt nog aandacht besteed aan enige specifieke aspecten,
zoals de keuze van de respondent, degene die het vraaggesprek moet houden, de situatie waarin het
vraaggesprek kan plaats vinden en de wijze waarop het vraaggesprek meer in detail kan worden vorm
gegeven (formuleren van vragen; keuze van vraag technieken). Tenslotte wordt nog enige aandacht
gewijd aan de rapportage van de verzamelde gegevens.

Gezien het inleidend karakter van het boek heeft het weinig zin voor het lezerspubhek van dit
tijdschrift uitvoerig in te gaan op de diverse behandelde onderwerpen. Ik volsta met op te merken dat, de
doelgroep (beginnende studenten sociale wetenschappen) in aanmerking genomen, het boek in voldoen-
de mate informatie biedt aangaande enquêtes, vraaggesprekken, e.d. Als inleiding in de methoden en
technieken van het sociaal-wetenschappelijk onderzoek vind ik het boek echter te beperkt en te eenzij-
dig. Het is zeker gewenst voor opleidingsdoeleinden aanvuUing te zoeken bij andere inleidende werken.
Voor een goede afstemming ontstaan dan echter problemen, die voomamehjk veroorzaakt worden door
de zeer eigen wijze waarop de auteur omspringt met aUerlei benamingen. Zeer veel paragraaftitels zijn
volstrekt niet informatief, tenzij men het gehele boek echt leest en dit gelezene steeds paraat heeft.
Naderhand nog eens iets opzoeken, of in een ander boek proberen een en ander te vergehjken stuit op erg
veel problemen. De gebruiksmogelijkheden voor opleidingsdoeleinden worden daardoor beperkt. Dit
wordt ook in de hand gewerkt door de nogal eigenzinnige woordkeuze van de auteur. Bijvoorbeeld: er
wordt gesproken over een 'ideeën-orgie' als een 'brainstorm' bedoeld wordt; de term 'cafetaria-vraag' zal
men tevergeefs in een ander boek opzoeken; de uitdrukking 'gevulde achterzak' krijgt alleen de door de
auteur bedoelde betekenis als men het boek helemaal leest, etc.

Ook ten aanzien van de talloos vele indehngen in het boek heb ik mijn bedenkingen, terwijl de vele
hteratuurreferenties vaak nogal lang en soms zeer ongeUjksoortig zijn (soms wordt verwezen naar een
inleidend werk, dan weer naar een uitgave bestemd voor vergevorderden!). Ook het fenomeen zelf-cita-
tie treedt nogal veelvuldig en storend op.

Naast de genoemde kritische kanttekeningen zijn echter ook vele positieve aspecten het noemen
waard. Ik volsta slechts met een willekeurige selectie. De auteur geeft vele nuttige tips en aanwijzingen,
waarmee ook de meer ervaren onderzoeker zijn voordeel kan doen (ze zijn alleen moeiUjk terug te
vinden). Voor de beginnende student is er een overdaad aan voorbeelden in het werk te vinden. De stijl
van hft boek is uiterst vlot, voor mij overigens vaak te vlot - maar dat is een kwestie van persoonlijke
smaak -.

Kortom, de auteur is er in geslaagd een alleszins leesbare inleiding in enige der methoden van
sociaal-wetenschappelijk onderzoek te schrijven, waarbij de lezer geconfronteerd wordt met diverse
bruikbare tips. Deze aanwijzingen worden duidehjk geschraagd door vele ervaringsgegevens. Meer
conventionele benamingen en begrippen zouden de bruikbaarheid van dit boek, zeker voor beginnende
studenten, ten goede zijn gekomen.

In 1966 pubüceerde De Groot onder de titel Vijven en zessen zijn 'pamflet' tegen de permanente selectie
in ons onderwijssysteem met rekbare maatstaven. De herdrukken volgden elkaar tot 1974 snel op, toen
reeds de achtste druk verscheen. De negende volgde in 1978 en de tiende in 1983. De tiende druk
verschilt in zoverre van de voorgaande dat het titelblad nu twee auteurs vermeldt: De Groot en Wijnen.
De oorspronkelijke tekst van De Groot is gehandhaafd. Wijnen heeft het boek voorzien van een in- en
uitleiding en een actualiserend commentaar per hoofdstuk.

Ik veronderstel dat Vijven en zessen voor de meeste lezers van dit tijdschrift geen onbekende lectuur is.
Daarom zie ik af van een weergave van de inhoud en bepaal mij tot twee punten:

- is een ongewijzigde herdruk van een tekst van meer dan vijftien jaar oud op zijn plaats?

De problematiek die De Groot aansnijdt is ongetwijfeld nog steeds van belang en nauwelijks verder
opgelost dan in 1966. Dit wordt bevestigd door Wijnen die nagenoeg ieder commentaar per hoofdstuk
opent met de constatering dat de daarin aangeroerde problemen nog steeds actueel zijn. Of dat een
ongewijzigde herdruk rechtvaardigt, afgezien van uitgeversbelangen, is echter een andere vraag. De
Groot concentreert zich op het voortgezet onderwijs en onderbouwt zijn betoog met cijfermateriaal van
ruimschoots voor de invoering van de mammoetwet. Wijnen vraagt zich ook af of de verhoudingen in
1983 nog wel dezelfde zijn, bijv. wat betreft de 'wet van Posthumus'. Het boek zou zeker aan waarde
hebben gewonnen als het aangevuld zou zijn met recenter cijfermateriaal. Het zou nog meer aan waarde
hebben gewonnen als het daarbij zou zijn omgewerkt tot een tekst die beter geschikt is voor de
lerarenopleiding. Daarmee zou tenminste het eerste door De Groot onderscheiden euvel (de rekbare
maatstaven) aan de orde worden gesteld op een plaats waar er enige invloed van uit zou kunnen gaan.
Misschien is dit een taak voor het Centraal Instituut voor Toetsontwikkehng (Cito) dat inmiddels ruim
vijftien jaar bestaat en een rechtstreeks uitvloeisel is van het pleidooi van De Groot voor een Nationaal
Instituut voor de Ontwikkeling van Studietoetsen.

Wijnen (ook voorzitter van de Bestuursraad van het Cito) heeft een actualiserende leeswijzer toege-
voegd en drie a vier pagina's commentaar per hoofdstuk. De actualisering die Wijnen in de leeswijzer
geeft door de schooltypen uit 1966 en 1983 naast elkaar te zetten, is jammer genoeg niet erg accuraat. Om
kleuteronderwijs en basisonderwijs als schooltypen tegenover elkaar te plaatsen is misschien wel popu-
lair, maar niet juist, en de term 'geïntegreerd basisonderwijs' is dat zeker niet. Verder had de vertaüng van
'ambachtsschool' in 'LBO' beter lagere technische school kunnen luiden. In zijn commentaar per
hoofdstuk beperkt Wijnen zich tot kanttekeningen: er worden verschillen tussen 1966 en 1983 gesig-
naleerd, er worden onderwerpen voor onderzoek genoemd en het optimisme van De Groot over de
invoering van studietoetsen wordt gerelativeerd. Naar mijn gevoel is de gekozen vorm niet de meest
gelukkige. Door hun beknoptheid zijn de commentaren betrekkehjk oppervlakkig. Ik zou üever gezien
hebben dat de beschikbare 35 pagina's benut zouden zijn voor een wat diepergravend essay, bijv. over de
achtergronden van het feit dat er in essentie zo weinig veranderd is, over de betekenis van het Cito voor de
door De Groot aangesneden problematiek of de eindexamens in het voortgezet onderwijs waarin sinds
1966 wel veel is veranderd, maar waarvoor de meeste door De Groot gesignaleerde problemen nog steeds
gelden.

Kortom, Vijven en zessen blijft een belangrijk (historisch) document dat ook nu nog van belang is. Het
zou echter de moeite waard zijn geweest een echte actualisering tot stand te brengen.

Over regels, patronen, beurten, selektie en reproduktie in het lager onderwijs.
Purmerend, Muusses, 1983 (dissertatie)

Na het verschijnen van het 'Verborgen Talent' van Van Heek c.s. in 1968 trad een windstilte in wat het
onderwijssociologisch onderzoek betreft. Heroriëntatie op theoretische uitgangspunten werd in de eerste
helft van de zeventiger jaren de voornaamste bezigheid. Uit het strijdgewoel traden vervolgens een aantal
onderzoeksgroepen naar voren die de bestudering van de empirie, weliswaar vanuit uiteenlopende
theoretische en methodische uitgangspunten, weer voortvarend ter hand namen. De vakgroep Onder-
wijssociologie van de KUN is er één van.

Sedert 1975 wordt daar gewerkt aan een onderzoeksprogramma getiteld 'Milieuspecifieke socialisa-
tie', waarbij - tot nu toe - het accent ligt op de bestudering van selektieprocessen in het lager onderwijs.
Selektie betreft hier niet de problematiek van geformaliseerde selektieproccdures maar de selekterende
effecten van het alledaagse lesgedrag van leerkrachten die m.n. kinderen uit de lagere sociaal-economi-
sche milieus en meisjes zouden treffen. Onderzoek naar de werking van het 'verborgen curriculum'
(hidden curriculum) dus. De onderzoeksgroep baseert haar uitgangspunten op de methodologie van de
'gefundeerde theorie' (' grounded theory') van Glaser en Strauss. De onderzoeker treedt de te bestuderen
situatie zo open mogelijk tegemoet en ontwikkelt tijdens het waarnemingsproces begrippen die zo goed
mogelijk passen bij de onderzochte situatie. Een vorm van kwalitatief onderzoek kenmerkend voor het
'interpretatieve paradigma' binnen de sociale wetenschappen.

In hst. 1 van de dissertatie wordt uitvoerig ingegaan op het leerproces dat zich binnen de onder-
zoeksgroep heeft voltrokken, zowel m.b.t. de theoretische als methodische beweegredenen. Min of meer
expliciet wordt gesuggereerd dat een diepgaande reflectie noodzakelijkerwijze leidt tot de uiteindelijk
gekozen aanpak.

In hst. 2 wordt een historisch overzicht gepresenteerd van het onderzoek in Nederland naar de
problematiek van de zgn. ongelijke onderwijskansen, waarna in hst. 3 de theoretische concepten 'macht',
'etiketteren' en 'schoolse regels' worden besproken, uitmondend in de volgende, drieledige, probleem-
stelling (blz. 25).

- Welke regels bepalen de beeldvorming over leerlingen binnen de institutie onderwijs?

- Op welke wijze en onder invloed van welke faktoren worden sociaal milieu en sexe getransformeerd in
voor het schoolse leerproces relevante identiteiten, en wat voor konsekwenties heeft dat voor het
schoolse selektieproces?

Na in hst. 4 de methodische uitgangspunten en de onderzoeksopzet te hebben beschreven doet Van der
Kley in hst. 5 tot en met 8 verslag van de resultaten. De gegevens zijn op diverse manieren verzameld in de
eerste klas van drie lagere scholen: (a) d.m.v. videoregistratie van interacties tussen leerkracht en
leerlingen, (b) door interviews met de ouders om subculturele verschillen in socialisering tc achterhalen
en (c) door interviews met leerkrachten om de oordelen over leerlingen te registreren en, tenslotte (d) zijn
IQ-tests afgenomen en zijn leerprestaties (beoordelingen) van de leerlingen geïnventariseerd. In één
school zijn de gegevens aan het begin en in twee scholen zowel aan het begin als aan het eind van het eerste
leerjaar verzameld. Het dynamische aspect van de relaties tussen leerkracht en leerlingen kan aldus ook
in de analyse worden betrokken.

De dissertatie van Van der Kley is een deelverslag van het genoemde langlopende project. Dat hoeft niet
nadelig te zijn voor de kwaliteit van de rapportage als deze betrekking heeft op een duidelijk afgebakend
en afzonderlijk te verantwoorden deel. Daaraan schort in dit geval een en ander. Op nogal vitale
onderdelen van het verslag wordt bijvoorbeeld verwezen naar nog te verschijnen dissertaties van
collega-onderzoekers of naar intern verschenen publikaties. Van der Kley doet voorts een poging
gegevens die op een kwalitatieve manier zijn verzameld te kwantificeren en te bewerken middels
faktoranalyse, multiple-regressie-analyse, etc. Een onorthodoxe manier van het slaan van een brug
tussen de meer kwalitatief en de meer kwantitatief georiënteerde richtingen in onderwijsonderzoek.

Hoewel de poging op zich een zekere verdienste niet ontzegd kan worden, leidt dat voor de bewijs-
vorming soms tot vreemde konsekwenties. Zo worden de drie scholen als aparte steekproeven behandeld
en worden binnen elke steekproef (A^ = ca. 20) schalen voor bijv. het subculturele miheu geconstrueerd,
die meettechnisch gezien niet dezelfde eigenschappen bezitten maar wel van dezelfde naam worden
voorzien. Een eveneens, m.i. onterechte manipulatie betreft de multiple regressie-analyse toegepast op
de door de leerkracht gegeven beurten. Aan elke beurt worden nl. de kenmerken (11) toegekend van de
betrokken leerling. Op deze wijze wordt het aantal waarnemingen verhoogd van N = 20 (de leerhngen)
tot N = 705 (de beurten) om het probleem van de kleine aantallen te omzeilen. De facto wordt dan echter
het 20-tal gefixeerde combinaties van scores op de onafhankelijke variabelen kunstmatig met 685
verhoogd. Na deze manipulatie wordt een multiple regressie-analyse toegepast waarin alle 11 predictoren
zijn opgenomen! Kortom: aan de wijze waarop de multivariabele analyses zijn uitgevoerd kleven diverse
feilen.

Wanneer men na lezing het boek dichtslaat, resteert het gevoel dat Van der Kley zonder twijfel heeft
aangetoond dat leerkrachten werken met leerlingbeelden en dat deze doorwerken in het geven van bijv.
'beurten', maar tegehjkertijd blijft duister hoe dat uitwerkt op leerhngen. En daar was het toch allemaal
om begonnen.

Rest nog te vermelden dat het verslag zeer leesbaar is geschreven en in een zeer aantrekkelijke vorm
door Muusses op de markt is gebracht.

G.W. Meijnen
R.U. Groningen
Sociologisch Instituut
Grote Markt 23
9712 GC Groningen

Bergh, H. van den en J.B. Hoekstra. Functionele taaldoden voor het lager onderwijs. Een onderzoek onder
diverse respondentgroepen naar de 'wenselijkheid' en 'haalbaarheid' van diverse spreek-, schrijf-,
lees- en luistersituaties. Amsterdam: SCO, 1984, SCO Cahier.

Cate, T.J. ten, T.J.M. Tromp en M.G. Cornwall. De student als docent. Utrecht etc.: Spectrum, 1984.
Onderwijskundige informatie voor het Hoger Onderwijs. Aula 814.

DOOL, P.C. van den en J.K. Koppen. Voortijdig schoolverlaten in Rijnmond. Een exploratief onderzoek
op scholen voor voortgezet onderwijs in hel Rijnmondgebied. Amsterdam: Stichting Kohnstamm
Fonds voor Onderwijsresearch, 1984. SCO rapport nr. 33.

Hoogbergen, T., G. van Eijk, G. Hofman e.a. Hel lyceum. Voorstel ter oplossing van onderwijskundige
knelpunten en verbetering van het numeriek rendement. Deel Ic: verkavelingsvoorstellen. Zeist:
Adviesraad voor de Tweede Fase van het Voortgezet Onderwijs, 1984. Advies 3 (Advies
niet-ambtelijke adviescommissie W.O.B.).

Meijer, J. en F. Riemersma. Evaluatie bij projectonderwijs. Omwikkeling van evaluatie-instrumenten ten
behoeve van projektonderwijs. Amsterdam: SCO, 1984. SCO rapport nr.30.

Putten, C.M. van en J.J.F. Commandeur. Structuur van leerkrachtuitspraken over sociaal-emotionele
leerlingkenmerken in IBO, LBO en VBO/MLK. Sekundaire analyse van de leerkrachlvragenlijst
met niel-lineaire multivariate technieken. Leiden: LICOR, 1984. Onderzoek Individueel Be-
roeps Onderwijs SVO-project 0387.

Sanders, P.F., A.C. Hendrix en A.J.M. Luijten. De beoordeling van de samenvatting Nederlands. Arn-
. hem: CITO, 1984. Specialistisch bulletin nr. 29.

Tempe, R.R. de. Onder welke voorwaarden dragen blokken en modulen bij lot de flexibiliteit in het hoger
onderwijs. Den Haag: SVO, 1984.

Verkuyten, M., C. Masson en W. de Jong. Hebben allochtone jongeren problemen? Onderzoek naar
sociaal-emotionele en identiteitsproblemen bij allochtone jongeren in een oude stadswijk te
Rotterdam. Rotterdam: Erasmus Universiteit, Juridisch Instituut, 1984. Mededelingen van het
Juridisch Instituut van de Erasmusuniversiteit nr. 26.

Enkele psychologische aspecten van huiswerk, door N.M.E. Neuwahl en P.H.M. van den Bogaart

Samenwerking en cognitieve ontwikkeling, door M. Bloemkolk en P. Vedder
Wollfgang Klafki over het Marburger Grundschulprojekt, door S. Miedema en E. Heimans

Beleid ten aanzien van onderwijs aan culturele minderheden. Een kritische beschouwine, door J A
Dekker, J.J. ten Doesschate en W.H. Schuurman ® ■

Organisatie van het onderwijs met mediterrane kinderen, door H. Everts en A. Golhof
Onderwijs in het Nederlands-als-tweede-taal: grondslagen en beschrijvingskader, door A Buster
M. Migchielsen en U. Schuurs

Etnische herkomst, intelligentie en schoolkeuzeadvies, door M.J. de Jong en TH.A. van Batenburg

OPROEP VOOR HET INDIENEN VAN CONGRESBIJDRAGEN/CALL FOR PAPERS
De 6e internationale conferentie getiteld:

'ADVANCES IN TEST ANXIETY RESEARCH' van de Society for Test Anxiety Research (STAR) zal
van 13 juni tot en met 15 juni 1985 aan de Universiteit van Düsseldorf, West-Duitsland plaatsvinden.

De Society for Test Anxiety Research (STAR) is een internationale organisatie van psychologen,
pedagogen en andere wetenschapsbeoefenaars, die besloten hebben een officieel genootschap op te
richten met het doel empirisch onderzoek naar angst en aanverwante onderwerpen, waaronder cross-
culturele aspecten, te bevorderen en te stimuleren, en een netwerk op te zetten om uitwissehng van
onderzoeksresultaten te bevorderen.

Voor het indienen van een abstract van een congresbijdrage dient u deze in tweevoud, tegehjkertijd aan
de onderstaande drie adressen te zenden:

1) Prof. Dr. Christine Schwarzer
Department of Education
University of Düsseldorf
Universitätsstrasse 1

2) Prof.Dr. Martin Covington
Department of Psychology
University of California, Berkeley
Berkeley, Cahfornia 94620, USA

2340 BG Oegstgeest, The Netherlands
De uiterste inzenddatum is 31 december 1984.

Het abstract mag niet langer zijn dan een pagina (enkele interlinie). De bovengenoemde congrescom-
missie (voorzitter: Christine Schwarzer) zal in januari 1985 een keuze maken uit de aangeboden
bijdragen.

Het inschrijfgeld voor de conferentie zal ongeveer US $40 bedragen. Hierbij is een exemplaar van
Volume 4 van de Advances in Test Anxiety Research inbegrepen.

De vakgroep Interdisciplinaire Onderwijskunde (IDOK) te Groningen organiseert op 7 december 1984
een symposium ter gelegenheid van het afscheid van Prof.Dr. W.J. Brandenburg. Het onderwerp van dit
symposium is SCHOLING.

Het symposium is bedoeld om zowel de theoretische als de praktische consequenties van de ontwikkelin-
gen op het terrein van de scholing aan de orde te stellen.

Vanuit verschillende invalshoeken zullen deskundige inleiders de scholingsproblematiek behandelen.
Vanuit het perspectief van het beleid, het onderzoek, de methodiek van de opleiding en de onderwijs-
technologie zal worden ingegaan op diverse aspecten en terreinen van het thema scholing in het reguliere
onderwijs waartoe zowel de initiële opleiding als de nascholing worden gerekend.

Symposiumsecretariaat
Vakgroep IDOK
Westerhaven 16
9718 AW Groningen
Tel. 050-115258

Pc> 0	= -2.5	-2.0	-1.5	-1.0	-0.5	0.0	0.5	1.0	1.5	2.0	2.5
0.00	1.03	1.04	1.03	1.03	1.02	1.00	0.95	0.89	0.83	0.80	0.80
0.05	1.03	1.04	1.03	1.03	1.02	1.00	0.95	0.89	0.83	0.80	0.80
0.10	1.03	1.04	1.03	1.03	1.02	1.00	0.95	0.89	0.83	0.80	0.80
0.15	1.05	1.05	1.05	1.04	1.02	0.99	0.93	0.85	0.77	0.73	0.72
0.20	1.07	1.06	1.05	1.02	0.99	0.94	0.86	0.77	0.68	0.64	0.64
0.25	1.08	1.07	1.05	1.03	0.99	0.93	0.85	0.75	0.66	0.61	0.59
0.30	1.09	1.08	1.06	1.04	0.99	0.93	0.84	0.73	0.62	0.56	0.53
0.35	1.12	1.11	1.08	1.04	0.98	0.88	0.75	0.61	0.51	0.45	0.45
0.40	1.15	1.13	1.11	1.06	0.99	0.88	0.74	0.60	0.48	0.41	0.38
0.45	1.17	1.15	1.10	1.03	0.93	0.80	0.65	0.51	0.40	0.34	0.32
0.50	1.23	1.19	1.12	1.00	0.84	0.68	0.53	0.42	0.35	0.31	0.30

Pc> ©	= -2.5	-2.0	-1.5	-1.0	-0.5	0.0	0.5	1.0	1.5	2.0	2.5
0.00	1.00	1.00	1.00	1.00	1.00	1.00	4.00	1.00	1.00	1.00	1.00
0.05	1.02	1.02	1.02	1.02	1.01	1.00	0.98	0.94	0.91	0.89	0.90
0.10	1.03	1.03	1.03	1.02	1.01	0.99	0.96	0.91	0.87	0.84	0.83
0.15	1.05	1.04	1.04	1.03	1.02	0.99	0.94	0.88	0.81	0.76	0.75
0.20	1.06	1.06	1.06	1.05	1.02	0.98	0.92	0.83	0.74	0.68	0.66
0.25	1.08	1.07	1.07	1.05	1.01	0.96	0.88	0.78	0.68	0.62	0.61
0.30	1.08	1.07	1.07	1.05	1.01	0.96	0.88	0.78	0.68	0.62	0.61
0.35	1.10	1.09	1.08	1.06	1.02	0.95	0.87	0.76	0.65	0.59	0.57
0.40	1.23	1.20	1.16	1.07	0.94	0.77	0.59	0.44	0.35	0.30	0.30
0.45	1.24	1.21	1.16	1.08	0.94	0.75	0.56	0.41	0.31	0.26	0.24
0.50	1.25	1.21	1.14	1.03	0.87	0.69	0.51	0.37	0.28	0.24	0.23

	KMBO	BBO
ongediplomeerd	26.1%	24.0%
diploma LBO	54.8%	63.4%
diploma MAVO	18.1%	11.8%
overige	1.0%	0.8%
X^ = 5.69 bij df = 3 en a = 0.05 niet significant.
Tabel 5. Toelaatbaarheid tot het MBO van de KMBO-	en BBO-instroom
	KMBO	BBO
^el toelaatbaar	39.3%	30.0%
niet toelaatbaar	60.9%	70.0%

variabele	functiecoëfficiënt
A2 sociaal-economische status	-.11
A3 leeftijd	.13
B3 diploma MAVO	.08
B4 diploma LTS	-.26
Cl het al dan niet gewerkt hebben
voor intrede KMBO/BBO	.49
C2 sollicitatie-ervaring	.37
C3 inschrijving op het arbeidsbureau	.65
Dl factor toekomstgerichtheid	.38
D2 factor gerichtheid op algemene
vorming en oriëntatie	.10
D5 ik ben naar deze school gegaan omdat
ik niet weet wat ik wil worden	.13
D6 ik ben naar deze school gegaan omdat
ik niet naar een andere school kon	.16

1.00	13.32	15.43	17.39	20.09	22.24
	(4.78)	(5.14)	(5.17)	(5.12)	(4.70)
.75	12.33	14.19	16.18	18.24	20.13
	(4.45)	(4.77)	(4.80)	(4.70)	(4.37)
.50	11.38	12.90	14.22	16.51	18.09
	(4.05)	(4.27)	(4.37)	(4.25)	(3.94)
.25	10.42	11.72	13.10	14.60	15.93
	(3.54)	(3.73)	(3.80)	(3.73)	(3.49
.00	9.43	10.48	11.62	12.85	13.91
	(3.14)	(3.26)	(3.25)	(3.14)	(2.91)

	STRA-	OVER-	TERUG	AANTAL
	TEGIE	SLAAN		OPGAVEN
CONTR.	51	29	21	25	BLOK
EXP.	50	28	23	38	BLOK
CONTR.	47	29	24	24	BLOK
EXP.	47	30	23	40	BLOK

			Kenyaanse steekproef		Engelse steekproef
			(N	= 567)	(N = 389)
			Goed	Fout	Goed Fout
	0 -	12	92	105	25 17
Testscore	12-	15	107	51	53 28
minus	15 -	18	114	30	80 15
itemscore	18 -	25	56	12	158 13

Afwijzen	10%	30%	50%	70%	90%	10%	30%	50%	70%	90%
p-waarde	0.58	0.24	-0.01	-0.26	-0.48	0.02	0.03	0.04	0.04	0.02
Si	-0.43	-0.09	0.09	0.21	0.27	0.02	0.02	0.02	0.02	0.01
Ti.	0.59	0.78	0.79	0.73	0.52	0.09	0.06	0.04	0.04	0.05
Siri,	0.29	0.64	0.75	0.77	0.61	0.07	0.05	0.04	0.04	0.04
phi 10%	0.60	0.58	0.49	0.37	0.18	0.10	0.06	0.04	0.03	0.05
phi 30%	0.65	0.78	0.75	0.63	0.37	0.07	0.06	0.06	0.08	0.08
phi 50%	0.57	0.78	0.81	0.75	0.53	0.13	0.07	0.05	0.09	0.12
phi 70%	0.32	0.60	0.71	0.73	0.59	0.05	0.03	0.06	0.09	0.09
phi 90%	0.12	0.44	0.60	0.71	0.70	0.03	0.03	0.01	0.01	0.03

	Experiment 1	Experiment 2
Groep	Meerkeuze- Samenvatting	Meerkeuze- Samenvatting
	toets	toets
	X X	X X

Eigen initiatief	13.1	(4.8)	24.1	(10.1)	15.0	(2.7)	22.3	(8.2)
geen aantekeningen
Eigen initiatief	15.1	(2.5)	36.8	(11.8)	15.0	(3.0)	26.6	(9.4)
wel aantekeningen
Aanwijzingen m.b.t.	17.0	(3.2)	35.5	(9.9)	15.2	(3.5)	24.3	(8.0)
aantekeningen
(Conditie I en III)
Conditie III					16.8	(3.3)	27.1	(8.0)

	moeilijkheid	coëfficiënt H;	Delta*
regeerprogramma	.204	.680	5.34
partijen	.431	.552	6.95
kiezen gemeente	.454	.552	7.17
kiezen staten	.454	.552	9.03
wethouders	.704	.696	10.61
gedeputeerde staten	.750	.700	10.99
gemeenteraad	.750	.550	8.64
burgemeester	.750	.745	11.70
commissaris der koningin	.772	.763	11.76
kiezen Kamers	.818	.602	8.70
wetgevende macht	.886	.602	7.61
raad van state	.886	.427	5.41
staten generaal	.931	.848	8.79
uitvoerende macht	.954	.838	7.35
koningin	.977	.999	6.42