Een twee-maandelijks tijdschrift voor onderzoekers van on-
derwijs, gewijd aan theoretische, methodologische en pro-
fessionele problemen in de onderwijsresearch.

Tijdschrift voor Onderwijsre-
search is een uitgave van de
Vereniging voor Onderwijsre-
search. De uitgave wordt me-
de mogelijk gemaakt door
een subsidie, verleend door
de Stichting voor Onderzoek
van het Onderwijs te s-Gra-
venhage.

Blok, H.Z/e Saris, W.E. 49
Crombag, H.F.M., & Vos, P. De invloed van tijdschrijven op studie-inspanning en

Jong, T. de. Zie Wouters, L. 60
Kelderman, H., & Leeuw, E.D. de. Gelijke of ongelijke kansen in het onderwijs:

Wouters, L., & Jong, T. de. Hardop denken tijdens tekstbestudering 60
Zegers, F., & Berge, J. ten. Necessary and sufficient conditions for parallelism of

een simulatieonderzoek 264
Dronkers, J. Het gymnasium-debat: Poli's pragmatisch argument 80
Hox, J.J. De doorstroming in het onderwijs onderzocht met muhiple regressie-
analyse: Een aanvulling op Kelderman en De Leeuw 133
Jansen, P.G.W., Roskam, E.E.Ch.I., & Wollenberg, A.L. van den. De Mokken-
schaal gewogen 31
Molenaar, I.W. De beperkte bruikbaarheid van Jansen's kritiek 25
Naerssen, R.F. van. Over punten judicia en 'mastery' bij het hoger onderwijs 223
Oud, J.H.L. Enige oplossingen voor het regressie-probleem 83
Roskam, E.E.Ch.L Zie Jansen, P.G.W. ^ 31
Slavenburg, J.H. Bespreking van het eindverslag van het Geon-project 270
Soele, G. de. A. note on the use oï parametric versus nonparametric lesls ïor com-
paring means IS2

Wijnstra, J.M. Enkele nieuwe gegevens over verschillen in toetsprestaties tussen

Avondonderwijs onderzocht, Het. 's-Gravenhage: Staatsuitgeverij, 1980. (F. Buis) 139
Beukelaar, L., Donselaar, G. van, & Tavecchio, L. Die verdraaide werkelijkheid.

Bruijn, E.E.J. de (Red.). Ontwikkelingen in het onderzoek naar prestatie-motiva-
tie. Lisse: Swets en Zeitlinger, 1979. (J.A. Feij) 279
Cohen, M.J. Studierechten in het wetenschappelijk onderwijs. Zwolle: Tjeenk

Leppers, A.C.A. Volfjen op een afstand. Lisse: Swets en Zeitlinger. 1981. (J.ILL.

^uy, M.J.G. Interne differentiatie. Proefschrift K.H. Tilburg. 1981. (W.J. Nijhof) 226
(Onderwijs in een multiculturele en muhi-etnische .mmenlevint^. Enschede:

Wesdoq?, H. Evaluatietechnieken voor het moedertaalondenvijs. 's-Gravenhage:
Staatsuitgeverij, 1981 (E. Bol) 138

Conversation theory was developed by Gordon Pask as an attempt to investigate the learning
and teaching of complex subject matter under controlled conditions. The starting point is the
idea that the fundamental unit for investigation is a conversation, a dialogue between learner
and teacher. In conversation theory a dialogue takes place in a standard condition and is called
a strict conversation. Some important features of a strict conversation are described. Notably
attention is given to the conversational domain, a particular type of subject matter representa-
tion.

It seems to me that conversation theory gives an important contribution to educational research
in two ways. It provides concepts and techniques for investigating processes of learning and
teaching in rather a natural setting. Such an application of conversation theory can be found in
Pask's studies of learning strategies. Besides it contains a method for designing instruction of
which the conversational domain is the core. This, in my opinion, promising possibility of con-
versation theory has not been elaborated by Pask.

De conversatietheorie (conversation theory^) van Gordon Pask is van recente datum. De
grondslagen ervan zijn gelegd in een periode die ruwweg loopt van het begin van de zesti-
ger jaren tot het midden van de zeventigerjaren. Tot op heden is in Nederland nog weinig
aandacht aan deze theorie besteed. Mij lijkt echter, dat zij een belangrijke bijdrage kan le-
veren aan de onderwijsresearch. Waaruit die bijdrage zou kunnen bestaan en waarom ik
deze mening ben toegedaan, zal ik in het navolgende trachten aan te geven.
Het is niet mijn bedoeling een volledige samenvatting van de theorie te geven. Zie daar-
voor Pask (1976b) of Jochems (1980, p. 129-153). Ik zal me hier beperken tot de volgen-
e punten. Paragraaf 1 handelt op summiere wijze over de achtergrond van de conversatie-
heone. Nagegaan wordt, welk uitgangspunt aan de theorie ten grondslag ligt. In paragraaf
wordt aan de hand van enkele pregnante kenmerken bekeken, op welke wijze dat uit-
gangspunt door Pask is ontwikkeld. Paragraaf 3 betreft mogelijke toepassingen van de
conversatietheorie in onderzoek naar leren en onderwijzen. Paragraaf 4 tenslotte bevat
een aantal kanttekeningen.

Aan de conversatietheorie ligt de vraag ten grondslag, hoe cognitieve operaties, in het bij-
zonder die met betrekking tot leren en onderwijzen, 'geëxterioriseerd' kunnen worden

1 Onderafdeling der Wijsbegeerte en der Maatschappijwetenschappen, Kanaalweg 2b, 2628 EB Delft.

2 Pask's terminologie is vertaald voor zover in het Nederlands gehjkwaardige termen beschikbaar zijn.
'n de overige gevallen worden de Engelse termen gehandhaafd.

(Pask, 1976a, p. 1). Eenduidig constateerbaar zijn doorgaans immers slechts de resultaten
van cognitief handelen: de prestaties. De mentale activiteiten die aan de prestaties ten
grondslag liggen, onttrekken zich in de regel aan de waarneming. Hoe kan nu die mentale
activiteit die normaal verborgen blijft, zichtbaar gemaakt worden?
Het antwoord op deze vraag, aldus Pask (1976a, p. 19), is reeds te vinden in het werk van
Piaget en Vygotskij. Zij ontwikkelden wat Pask noemt 'conversational methods'. De es-
sentie van deze methoden is als volgt samen te vatten. Een onderzoeker creëert met behulp
van een aantal uitgekiende objecten een probleemsituatie die hij aan een proefpersoon
voorlegt. Tijdens het oplossen van dat probleem observeert hij de manipulaties die de
proefpersoon met die objecten uitvoert, stelt hem vragen over het hoe en het waarom van
het handelen, verleent hulp bij het zoeken naar oplossingen en formuleert nieuwe proble-
men. Een voorbeeld hiervan, het probleem van de verkleurende vloeistoffen van Piaget,
is uitvoerig beschreven in Jochems (1980, p. 70-73).

Pask onderschrijft de stelling die aan deze conversational methods ten grondslag ligt. In
zijn woorden: de eenheid van psychologische en onderwijskundige observatie is een con-
versatie (Pask, 1976a, p. 3). Maar aan de vorm waarin dergelijke methoden onder meer
door Piaget zijn toegepast, kleven naar zijn mening enkele ernstige bezwaren. In een der-
gelijke conversatie is de onderzoeker tegelijkertijd waarnemer en deelnemer. Bovendien
verloopt de conversatie in een natuuriijke taal, hetgeen een eenduidige interpretatie van
wat wordt gezegd aanzienlijk bemoeilijkt. Hier staat echter tegenover, dat met behulp van
dergelijke methoden veel zichtbaar gemaakt kan worden, dat anders verborgen zou blij-
ven. Anders gezegd: zij verschaffen veel informatie over de cognitieve activiteit van de
proefpersoon, die anders ontoegankelijk zou blijven. De consequentie die Pask eruit trekt,"
is, dat de conversational methods verbeterd moeten worden.

De eerder genoemde bezwaren kunnen ondervangen worden door aan de conversatie met
de proefpersoon een aantal eisen te stellen. Deze zijn geformuleerd in een 'contract' dat
de onderzoeker, die tevens observator is, aangaat met twee (of meer) gespreksdeelnemers.
Eén van hen vervult de rol van interviewer, de ander is (of de anderen zijn) proefpersoon.
In het contract is vastgelegd, dat de deelnemers zich aan een aantal door de onderzoeker
gespecificeerde gespreksregels zullen houden. Deze regels betreffen met name de wijze
waarop, de taal waarin, en de onderwerpen waarover zij zullen converseren. Op deze wij-
ze ontwerpt de onderzoeker een standaard-conditie voor het observeren en registreren van
conversaties. Een conversatie die aan deze standaard-conditie voldoet, wordt een strikte
conversatie (strict conversation) genoemd.

Kort samengevat: de basis van de conversatietheorie is de stelling, dat de eenheid van ob-
servatie een conversatie is. Het experiment is een strikte conversatie. Dat wil zeggen: twee
(of meer) participanten voeren overeenkomstig zekere regels een conversatie; één parti-
cipant is de interviewer en de ander is de proefpersoon.

ln de conversatietheorie geeft Pask een nauwkeurige uitwerking van wat eerder een strik-
te conversatie is genoemd. Hij introduceert een bijbehorend begrippenapparaat, dat overi-
gens sterk afwijkt van de gebruikelijke psychologische en onderwijskundige terminologie.
Daarnaast verschaft hij voorschriften en technieken voor het ontwerpen en hanteren van
strikte conversaties. Een groot deel van zijn werk is met name gewijd aan het mechanise-
ren van onderdelen van de conversatie. Daaraan zal ik hier echter volledig voorbijgaan,
onder meer omdat het niet van principieel belang is. In deze paragraaf komen slechts en-

kele typerende aspecten van de strikte conversatie aan de orde, te weten de rolverdeling,
het contract en het domein van conversatie.

De standaard-conditie waarin een conversatie plaats vindt, heeft het karakter van een on-
derwijssituatie, waarbij de deelnemers een of ander leerstofgebied bespreken. Eén parti-
cipant, de interviewer, treedt op als leraar. De overige participanten zijn (ten dele) onbe-
kend met de stof, maar willen deze leren. Zij zijn de proefpersonen. De onderzoeker
neemt niet deel aan de conversatie. Zoals gezegd is zijn rol beperkt tot het observeren en
registreren van zekere fenomenen in de conversatie. De onderzoeker staat derhalve buiten
de experimentele situatie.

In het contract dat de gespreksdeelnemers met de onderzoeker aangaan, is vastgelegd,
dat zij de conversatie volgens een aantal door de onderzoeker gespecificeerde regels zullen
voeren. De regels betreffen onder meer de vorm waarin informatie aan de ander gevraagd
en gegeven mag worden, de wijze waarop correcties dienen te worden aangebracht, de
volgorde waarin onderwerpen besproken kunnen worden en de manier waarop gecontro-
leerd zal worden of de participanten elkaar over en weer goed begrepen hebben. Derhalve
vindt de conversatie plaats in een normatief kader, waarbij niet de onderzoeker maar de
participanten in hoofdzaak verantwoordelijk zijn voor het in stand houden van de stan-
daard-conditie. ,
Het contract bepaalt onder meer, dat de participanten slechts die onderwerpen zullen be-
spreken, die behoren tot een van tevoren vastgesteld domein van conversatie (conversa-
tional domain). Een domein is een representatie van een of ander kennisgebied (leerstof-
gebied), waarin de onderwerpen, behorende tot dat gebied, op nauwkeurige en geordende
wijze zijn vastgelegd^. Zowel de onderzoeker als de interviewer beschikken bij de aanvang
van de conversatie over het te bespreken domein.

• Voor elk onderwerp x uit een kennisgebied X is er een omschrijving waarin nauwkeurig
de kennis betreffende dat onderwerp is vastgelegd. Zo'n omschrijving is in een bepaal-
de vorm gegoten, hetgeen samenhangt met de opvatting, dat een onderwerp beschouwd
moet worden als een relatie (topic relation).

• Alle onderwerpen zijn ondergebracht in één ünpUcatiestmctuur (entailment stmcture),
een netwerk van onderwerpen met een hiërarchisch voorkomen. De impHcatiestmctuur
geeft voor onderwerp Xi weer, uit welke onderwerpen Xj, Xk, ... het geconstrueerd of
afgeleid kan worden.

• Voor elk onderwerp is er een verzameling van taakstmcturen (task stmctures, later
herdoopt tot behaviour graphs). Een taakstmctuur beschrijft een klasse van taken en
bijbehorende handelingsvoorschriften. Deze geven weer hoe de kennis betreffende dat
onderwerp in zekere situaties toegepast kan worden.

Ter toelichting een fragment van een domein van conversatie betreffende de indicator
lakmoes. Vier onderwerpen hieromtrent, Xj tot en met X4, zijn in figuur 1 omschreven,
waarbij de volgende notatie is gehanteerd. De kleur van lakmoes vóór de indompeling
(Kv) is rood (r) of blauw (b). De kleur na de indompeling (Kn) is rood of blauw. De
conclusie (C) uit de indompelingsproef is, dat de aard van de onderzochte oplossing
zuur (Z), neutraal (N) en/of basisch (B) is. Voortzetting van de proef (Vp) is wel (w) of
^iet (n) nodig. De indices 1 en 2 geven aan of het de eerste dan wel de tweede indompe-

3 De wijze waarop zo'n representatie wordt opgesteld, zal ik in paragraaf 3 globaal aangeven.

ling betreft. Derhalve bevat onderwerp Xi vier beweringen, waarvan de eerste als volgt
verwoord kan worden: als de kleur van lakmoes vóór de indompeling rood is en als de
kleur van dat lakmoes na de indompeling rood is gebleven, dan moet geconcludeerd wor-
den, dat de aard van de onderzochte oplossing zuur of neutraal is.
Het bijbehorende deel van de implicatiestructuur voor deze onderwerpen is in figuur 2
weergegeven. Er is uit af te lezen, dat onderwerp X4 geconstrueerd kan worden door de
onderwerpen Xj tot en met X3 'in elkaar te schuiven'. Een voorbeeld van een taakstruc-

Figuur 2. Het fragment ian de implicatiestructuur dat betrekking heeft op de onderwerpen x, tot en
met Xf zoals omschreven in figuur 1.

Figuur 3. Een mogelijke taak bij onderwerp x,. Gegeven zijn dne stopflessen met oplossingen X. Y en
Z. boekjes met blauw en rood lakmoespapier en drie bekerglazen. De opdracht luidt de aard van de
drie oplossingen te bepalen met behulp van lakmoespapier en de conclusie te controleren aan de hand
van tabel A die na afloop te krijgen is.

tuur behorende bij x^ is hi de figuren 3 en 4 te vinden. De taak uit figuur 3 dient uitge-
voerd te worden overeenkomstig het handelingsvoorschrift uit figuur 4. Tot zover dit

Zolang de participanten het contract naleven en dus ook hun conversatie beperken tot de
onderwerpen uit het betreffende kennisgebied, is het domein een nauwkeurige afbeelding
van de te bespreken kennis. Deze 'kenniskaart' in combinatie met de in het contract ge-
specificeerde gespreksregels vormt voor de onderzoeker de achtergrond waartegen hij het
verioop van de conversatie observeert. Anders gezegd: het domein stelt de onderzoeker
in staat een aantal belangrijk geachte momenten in de conversatie eenduidig te constate-
ren.

Een voorbeeld ter toelichting. Stel, dat de participanten onderwerp X4 uit het domein be-
spreken. Hoe kan nu bijvoorbeeld vastgesteld worden, dat dit onderwerp begrepen is (in
de tenninologie van Pask: dat er sprake is van 'understanding')? In een strikte conversatie
gebeurt dat als volgt. Wanneer de proefpersoon denkt, dat hij voldoende geïnformeerd is
over onderwerp X4, maakt hij dat kenbaar. Daarop vraagt de interviewer aan de proefper-
soon hem te demonstreren, dat hij dat onderwerp correct kan toepassen in een of andere
situatie, bijvoorbeeld de situatie die in figuur 3 is weergegeven. Voert de proefpersoon nu
een handeling uit, die gelijkwaardig is aan één van de handelingen die in de taakstructuren
voor X4 zijn beschreven, in het voorbeeld die uit figuur 4, dan heeft hij blijk gegeven te
beschikken over wat genoemd wordt een 'concept'. Hij laat zien, dat hij de kennis om-
trent X4 kan hanteren op een wijze zoals in het domein gespecificeerd. Vervolgens wordt
hem gevraagd X4 correct af te leiden. Geeft hij nu een reconstructie van X4 uitXj.Xj en
X3 die gelijkwaardig is aan hetgeen daaromtrent in de implicatiestructuur is gesteld, dan
heeft hij blijk gegeven tevens te beschikken over wat genoemd wordt een 'memory'. Hij
laat zien, dat hij Xi, x^ en X3 kan combineren tot X4. De constatering van zowel een con-
cept als een memory voor onderwerp X4 wordt geïnterpreteerd als een understanding van
X4. De proefpersoon heeft voldoende evidentie aangedragen om de conclusie te rechtvaar-
digen: hij beheerst X4.

Aan de hand van een domein van conversatie is het optreden van concepts, memories
en understandings eenduidig constateerbaar. Beschikt de onderzoeker over het domein en
wordt het gesprek volgens de regels gevoerd, dan is hij als observator van de conversatie
in staat dergelijke gebeurtenissen eenduidig te constateren. Zijn mogelijkheden daarbij
zijn beslist niet beperkt tot het observeren van de in het voorbeeld genoemde aspecten. In
de conversatietheorie worden er veel meer uitgewerkt. Mij lijkt overigens, dat een onder-
zoeker niet per se gebonden is aan de wijze waarop Pask die aspecten specificeert. Door
gespreksregels ta wijzigen zou hij niet alleen een aspect als bijvoorbeeld understanding aan
andere constateringen kunnen koppelen, maar ook andere aspecten van de conversatie
kunnen introduceren dan die welke Pask tot nu toe heeft beschouwd. In dit verband is
echter louter interessant vast te stellen, dat de conversatietheorie een mogelijkheid biedt
om het gesprek tussen interviewer en proefpersoon observeerbaar te maken. Op de vraag
welke observaties daarbij te verrichten, ga ik hier niet in..

Een strikte conversatie is behalve een standaard-conditie voor het observeren en registre-
ren van conversaties ook een onderwijssituatie. Participanten bespreken volgens zekere
regels een bepaald kennisgebied. Zowel de context waarin de onderjvijsleerprocessen
plaatsvinden, als de inhoud waarop die processen betrekking hebben, zijn gespecificeerd.
Voor wat de toepassing van de conversatietheorie in onderwijsresearch betreft, betekent
het, dat in beginsel aan tvee mogelijkheden valt te denken. Enerzijds kan deze theorie

opgevat worden als een methodologie voor onderzoelc naar het verloop van onderwijsleer-
processen. Anderzijds kan zij gehanteerd worden als een methodiek voor het ontwerpen
van onderwijs in het bijzonder voor wat betreft het constmeren van instructiemateriaal
ten behoeve van de onderwijspraktijk. Ik zal van beide mogelijkheden een indicatie geven.
De conversatietheorie als methodologie voor onderzoek naar het verloop van onderwijs-
leerprocessen is om twee redenen interessant. Ten eerste: zij bevat, zoals al eerder is aan-
gegeven, een standaard-conditie voor onderzoek in de vorm van een strikte conversatie.
Ten tweede: een standaard-conditie kan zodanig worden ingericht, dat zij, in een aantal
opzichten, een realistische onderwijssituatie dicht benadert. De onderzoeker hoeft zich
namelijk niet te beperken tot betrekkelijk triviale leerstof en eenvoudige leertaken. De
enige voorwaarde is dat hij over een domein van conversatie beschikt, waarin de inhoud
van de leerstof is vastgelegd. Het werk van Pask laat zien, dat domeinen opgesteld kunnen
worden voor uiteenlopende kennisgebieden. Bovendien is de onderzoeker niet gebonden
aan een bepaalde werkvorm. Met andere woorden: een strikte conversatie maakt het mo-
gelijk onderwijsleerprocessen te onderzoeken in een 'natuurlijke omgeving .
Een dergelijke toepassing van de conversatietheorie is in het werk v^ Pask te vmden Het
meest bekend is zijn onderzoek naar leerstrategieën, waarvan ik enkele aspecten zal aan-
geven. Proefpersonen die in een strikte conversatie een kennisgebied leren en daarby bm-
nen de beperkingen van het contract vrij gelaten worden in hun manier van leren, blijken,
aldus Pask, verschillende leerstrategieën te volgen. Deze uiten zich onder meer in de volg-
orde waarm proefpersonen de onderwerpen verkiezen te leren Pask spreekt onder meer
van 'seriahsts' en 'hohsts' (Pask, 1975, p. 51-70 en p. 108-123). Senalisten leren en re-
produceren kennis in de vorm van een kettingstmctuur; de onderwerpen zijn s echts en-
kelvoudig aan elkaar verbonden. Holisten daarentegen leren en reproduceren kenms als
één geheel waarin tussen de onderwerpen een groot aantal relaties bestaat. De waargeno-
men strategie is volgens Pask een uiting van de onderiiggende leerstijl van de persoon. De-
ze leerstijl wordt ofwel gedomineerd door wat Pask noemt 'comprehension leammg' of-
wel door 'operation learning'. Terwijl comprehension leamers een totaal-beeld van het
kennisgebied ontwikkelen, waarin echter onderwerpen ontbreken, komen operation
learners tot een betrekkelijk volledige verzameling van onderwerpen, maar het overzicht
ontbreekt hen ten dele (Pask, 1976a, p. 84-85). Succesvol leren is een mengsel van com-
prehension en operation learning. De minder succesvolle proefpersonen, aldus Pask, zijn
onvoldoende tot één van beide in staat. Hun leerresultaten vertonen bepaalde defecten.
Een gebrekkig vermogen tot comprehension learning leidt tot een type vm defecten, dat
'improvidence' wordt genoemd; een te beperkt vermogen tot operation leammg veroor-
zaakt een type van defecten, dat 'globetrotting' heet (Pask, 1976a, p. 98-101).
Een opmerkelijke bevinding uit het onderzoek was, dat de leerresultaten aanzienlijk beter
waren, wanneer de persoon in staat gesteld werd zijn strategie te volgen dan wanneer hij
tot de andere strategie gedwongen werd. Kwantiteit, kwaliteit en duurzaamheid van het
geleerde bleken sterk af te nemen in geval serialisten tot een holistische en holisten tot
een serialistische leerstrategie werden gedwongen. Daarnaast heeft Pask de conversatie-
theorie toegepast bij onderzoek naar wat genoemd wordt 'learning and teaching to leam':
het leren structureren van niet of weinig gestmctureerde leerstof. Hoe zijn werk op dit ge-
bied zich verhoudt tot dat van anderen zoals Marton en Entwistle is te vmden is het the-
manummer over \eien in Higher Education (1979,8, no. 4).

Ik kom nu tot de tweede mogelijkheid: de conversatietheorie als methodiek voor het ont-
werpen van onderwijs. Hierbij staat het domein van conversatie centraal. Een domein is

een representatie van een of ander kennisgebied, die wordt opgesteld in samenspraak tus-
sen een deskundige op het betreffende gebied en een analist. De laatste analyseert en regi-
streert volgens zekere regels de door de deskundige geproduceerde kennis. Deze weergave
wordt op gezette tijden door de deskundige inhoudelijk op haar juistheid gecontroleerd
en zo nodig gecorrigeerd. De analist toetst het product van de analyse aan zekere formele
criteria en werkt het, eventueel na wijziging, volgens een bepaalde procedure uit. Het
eindresultaat is een representatie van het besproken kennisgebied, die zodanig is, dat ze
als domein van conversatie voldoet.

Een domein van conversatie heeft enige opmerkelijke eigenschappen waarvan ik er enke-
le zal noemen. Zoals gezegd bevat een domein één implicatiestructuur, een netwerk van
onderwerpen. Deze struktuur heeft een hiërarchisch voorkomen. Afgezien van de onder-
werpen die de basis van de hiërarchie vormen, is in de implicatiestructuur voor elk onder-
werp Xj gespecificeerd, uit welke andere onderwerpen xj, x^, ... het geconstrueerd kan
worden. Zie bijvoorbeeld de figuren 1 en 2, die tonen, dat X4 verkregen kan worden door
X,, X2 en X3 'in elkaar te schuiven'. Omdat elk onderwerp nauwkeurig beschreven is, ligt
derhalve vast welke kennis tenminste nodig is om onderwerp x; te kunnen construeren.
Met andere woorden: een domein van conversatie is een kennisrepresentatie die aanwij-
zingen bevat over de volgorde waarin onderwerpen geleerd kunnen worden. De onder-
werpen Xj, Xk, ■■• vormen de noodzakelijke voorkennis voor x;. Bovendien is de represen-
tatie voldoende in die zin, dat alle kennis die nodig is om x; te kunnen construeren, in
Xj, Xk, ... is opgeslagen. Er zitten geen 'wakken' in de kennisbeschrijving (Vastenhouw,
1979). Kortom: in een domein van conversatie is niet alleen de inhoud van de verschil-
lende onderwerpen nauwkeurig vastgelegd, maar ook de onderlinge verbondenheid van
onderwerpen. Tevens is die verbondenheid van zodanige aard, dat de representatie van het
kennisgebied gegarandeerd voldoende is. Zie voor een gedetailleerde beschouwing
Jochems (1980, p. 183-197).

Is voor een leerstofgebied een domein van conversatie opgesteld, dan levert ons dat een
uitermate geschikt uitgangspunt voor het ontwerpen van onderwijs over die leerstof. In
het domein is immers door middel van omschrijvingen voor elk onderwerp nauwkeurig de
kennis vastgelegd, die tenminste geleerd zal moeten worden, terwijl de implicatiestructuur
weergeeft, in welke volgorde de onderwerpen geleerd kunnen worden. Voor elk onder-
werp zijn bovendien door middel van taakstructuren oefeningen in het toepassen van de
kennis uit het betreffende onderwerp gespecificeerd. Het zal duidelijk zijn, dat het sa-
menstellen van instructiemateriaal in de vorm van leerboeken en dergehjke, inclusief oe-
feningen en toetsen, nu betrekkelijk eenvoudig geworden is. Er staat echter tegenover,
dat het opsteUen van een domein van conversatie een bewerkelijke bezigheid is, maar deze
kan voor wat de analist betreft m belangrijke mate geautomatiseerd worden.
Mij lijkt vooral van belang, dat de conversatietheorie een interessante bijdrage levert aan
wat men zou kunnen noemen een technologie voor het ontwerpen van onderwijs. Dat wil
zeggen: een verzamehng van handelingsvoorschriften en bijbehorende kriteria die vastleg-
gen hoe voor een of ander leerstofgebied een onderwijsleerpakket te construeren. Voor
wat het bepalen van de inhoud van het te construeren onderwijs betreft, verschaft de con-
versatietheorie een nauwkeurig omschreven analysemethode die een samenhangende, vol-
doende en precieze weergave van de leermhoud oplevert. Deze methode is met name m-
teressant voor auteurs van leerboeken, omdat zij een probaat middel vormt voor het ver-
beteren van de (soms geringe) kwaliteit van hun producten (zie bijvoorbeeld Jochems,
1981). Voor wat betreft het vaststellen van de vorm waarin en de wijze waarop de inhoud

gepresenteerd kan worden, zal men zich moeten oriënteren op bevindingen uit onder
meer de psychologie van leren en onderwijzen.

Het werk van Pask is uiterst moeilijk toegankelijk. Zo hanteert hij een ongebruikelijke
terminologie en een zeer omvangrijk, door hem zelf ontwikkeld systeem van notaties.
Goede voorbeelden zijn schaars en de hoofdlijnen van zijn betoog zijn vaak bedolven on-
der uitvoerige verhandeUngen over detaÜkwesties en beschrijvingen van apparatuur.
Het uitgangspunt van de conversatietheorie is oud in die zin, dat het ook in het werk van
Piaget en Vygotskij te vinden is. De uitwerking die Pask eraan gegeven heeft, gaat echter
veel en veel verder Vergelijk daartoe bijvoorbeeld Vygotskij's beschouwing over de een-
heid van analyse (Vygotsky, 1962, p. 1-8 en p. 119-124). Deze uitwerking neemt bij Pask
zo'n belangrijke plaats in, dat de term conversatiemethode welhcht de voorkeur verdient
boven conversatier^eone. , , .•

Wat betreft Pask's onderzoek naar onderwijsleerprocessen valt op, dat zijn presentatie
ervan soms gebrekkig is. Dat is bijvoorbeeld het geval bij zijn onderzoek naar leerstijleri
(Pask, 1976a, p. 83-126). Van deze experimenten die qua design zeer complex zijn, geeft
hij slechts een globale indicatie. Als ook de daarbij verkregen data nog maar ten dele wor-
den weergegeven, is de interpretatie die Pask aan deze experimenten geeft, met goed
meer te beoordelen door de lezer. Een voorbeeld hiervan is de mtroductie van de zoge-
naamde'global/local orientation'(Pask, 1976a, p. 102-104).

Onderzoek naar de eerder beschreven leerstrategieën en leerstijlen is ook door Laurdlard
verricht (Laurillard, 1979). Zij komt tot de conclusie, dat strategie en stijl geen persoons-
gebonden karakteristieken zijn. Volgens haar is de benadering die een inividu bij helle-
ren hanteert, afhankelijk van zijn interpretatie van de leeromgevuig. Dat Pask strategie en
stijl persoonsgebonden acht, is naar de mening van Laurillard een gevolpan het feit, dat
Pask bij de bepaling eivan louter goed gedefinieerde leerstof gebruikt. Zij stelt tevens, dat
de wijze waarop individuen leerstof verwerken, goed gekarakteriseerd kan worden met be-
hulp van de door Pask beschreven stijlen en strategieën. ^
De toepassing van de conversatietheorie bij het ontwerpen van onderwjs stelt het domem
van conversatie centraal. De inhoud van dat domein wordt voUedig bepa^d door de ge-
raadpleegde deskundige. Zou men verschillende deskundigen onafliankelijk v^ elkaar
over 'hetzelfde' kennisgebied ondervragen, dan kan dat tot even zoveel verschiUende do-
meinen leiden. Deze zullen elkaar echter grotendeels overlappen, zoals ook bij vergelijkba-
re leerboeken het geval is. Dit probleem is voor een belangrijk deel te ondervangen door
hij het opsteUen van een domein ervaren onderwijsgevers groepsgewijze te ondervragen.
Ook om andere redenen verdient deze werkwijze de voorkeur zoals ik elders heb beargu-
menteerd (Jochems, 1980, p. 201). ^ , J.D T, -u- ••
De twee aangegeven toepassingsmogelijkheden overziende valt op, dat Pask zich m zijn
werk vrijwel uitsluitend richt op de eerste: de conversatietheorie als methodologie voor
onderzoek naar het verloop van onderwijsleerprocessen. Bij dat onderzoek is het domein
van conversatie voor hem geen doel, maar als onderdeeHan de strikte conversatie slechts
een middel. Met het uitwerken van de tweede mogelijkheid, de conversatietheorie als
methodiek voor het ontwerpen van onderwijs, houdt Pask zich niet bezig. In gesprekken
met hem bleek mij, dat hij daariin niet in de eerste plaats geïnteresseerd is. Uit het voor-
gaande zal echter duidelijk zijn, dat naar mijn mening zijn theorie een belangrijke bijdrage
betekent aan een onderwijstechnologie.

Laurillard, D. The processes of student Xtuning. Higher Education, 1979,5, 395-409.

Pask, G. Strategy, competence and conversation as determinants of leair\ing. Programmed Leaming
and Educational Technology, 1969,6, 250-267.

Pask, G. A cybernetic experimental method and its underlying philosophy. International Journal of
Man-Machine Studies, 1971, i, 279-337.

Pask, G. A fresh look at cognition and the individual. International Journal of Man-Machine Studies,
1972,4, 211-216.

Pask, G. Models for social systems and for their Unguaga. Instructional Science, 1973,1, 395-445.

Pask, G. Conversation, cognition and learning: a cybernetic theory and methodology. Amsterdam: El-
sevier, 1975.

Pask, G. Conversation theory: applications in education and epistemology. Amsterdam: Elsevier,
1976a.

Pask, G. Conversational techniques in the study and practice of education. British Journal of Educa-
tional Psychology, 1976b,12-25.

Pask, G. Styles and strategies of learning. British Journal of Educational Psychology, \976c, 46, 128-
148.

Pask, G. Knowledge, innovation and 'learning to learn'. In J.M. Scandura and C.J. Brainerd (eds.).
Structural/process models of complex human behavior. Alphen aan den Rijn: Sijthoff en Noord-
hoff, 1978, 259-350.

Pask, G. Learning to learn. Paper presented at the third congress of the European Association for
Research and Development in Higher Education, Klagenfurt, 1979.

Pask, G., Kallikourdis, D. and Scott, B.C.E. The representation International Journal of

Pask, G. and Kopstein, F.K. Teaching machines revisited in the light of conversation theory. Educa-
tional Technology, 1977, 7 7, 38-41.

Pask, G. and Scott, B.C.E. Leaming strategies and individual competence. International Journal of
Man-Machine Studies, 1972,4, 217-253.

Pask, G. and Scott, B.C.E. CASTE, a system for exhibiting learning strategies and regulating uncertain-
ties./«fer/jfltt'ona//our«ö/o/Ma/j-Afac/i/ne Sfudies, 1973,5,17-52.

Pask, G., Scott, B.C.E. and Kallikourdis, D. A theory of conversations and individuals (exemplified by
the learning process on CASTE). International Journal of Man-Machine Studies, 1973,5,443-556.

Vastenbouw, J. Blokken op wakken. In Rede als richtsnoer, bijdragen over methoden van werken en
denken in de gedragswetenschappen aangeboden aan prof. dr. A.D. de Groot bij zijn afscheid van
de Universiteit van Amsterdam. 's-Gravenhage: Mouton, 1979, 239-251.

ln this article it is demonstrated that the method of scale ^alysis introduced by Mokken (e.g.
1971), is not a good procedure for the detection of so<alled holomorph.c item sets. Mokken
scale Lialysis fails siL it operates with a criterion of scdabihty, viz. mternal consistency
(•classical homogeneity'), that is irrelevant to the kind of homogeneity aimed at, viz. holo-
morphism ('modern homogeneity').

Het doel van dit artikel is heel eenvoudig: Demonstreren dat de techniek van de zgn.
•Mokkenschaalanalyse' niet doet wat zij pretendeert te doen* De selectie v^ zgn holo-
morfe' items. Zoals zo vaak echter wordt eenvoud hier slechts beredet na de vohoo^g
van een aanvankelijk op een omweg gehjkende route. 1'f

ons voert langs uiteenzettingen over de perfecte Guttmanschaal en de ^Jf ^
dende relatie tussen 'klassieke' en 'moderne' homogeniteit (1 1), de miperfecte Gutt-
manschaal en Loevingers maat voor de kwantificatie van Guttmanhomogemtert (L2),
het begrip holomorfie (2.1), toetsen voor holomorfie en de schaa defmitie van Mokken
(2.2), voorbeelden waamit het falen van Mokkenschaalanalyse bhjkt 3.1 en 3.2) zal
echter uiteindelijk blijken de meest directe weg naar het hart van dit artikel, de conclude-
rende slotparagraaf (4), te zijn geweest.

In 1944 introduceerde Guttman een methode waarin zowel personen als stimuU pschaald
worden op één latente variabele. Daarbij worden subjecten (index v) en strniuh of items
(index i) geordend op een eendünensioneel continuum, volgens de volgende corresponden-
tieregel tussen latente subject- en itemparameters Xv en Yj en een of andere dichotome
observatie op de combinatie (v, i):

De specifieke betekenis van 'domineren' is uiteraard afhankeUjk van de concrete situatie:
In geval van een inteUigentietest kan domineren geïnterpreteerd worden als correct
beantwoorden' echter in geval van een attitudevragenUjst bijvoorbeeld als mstemmen
met'. We zuUek items die voldoen aan regel (1), en dus aan het scalogrammodel, Gutt-
tnanhomogeen noemen.

1- De auteur zegt Edward Roskam en Arnold van den Wollenberg (Vakgroep Mathematische Psycho-
logie, K.U. Nijmegen) dank voor hun commentaar.
2. Adres: Postbus 20012 2500 EA Den Haag.

Guttmanhomogeniteit impliceert de meting van persoons- en itemparameters op een
ordinale schaal: Elke monotone transformatie van de schaalwaarde reproduceert dezelfde
manifeste persoonsvectoren. We mogen derhalve geen absolute waarde hechten aan de af-
standen tussen de itemschaalwaarden Yj: Guttmanhomogeniteit staat volstrekt los van de
afstanden tussen de itemparameters.

Definiëren we pj als: Proportie subjecten die item i domineren, dan is het snel in te zien
dat de manifeste proporties pj antimonotoon zijn met de latente schaalwaarden Y;. We
kunnen i.p.v. met de ordinaal gemeten Yj dus evengoed werken met de geobserveerde
Pi (strikt genomen 1 - pj, maar voor 't gemak draaien we de richting van de latente schaal
om). De conclusie is dan dat de Guttmanhomogeniteit van een stel items onafhankelijk
is van de 'afstanden' tussen de proporties pj, d.w.z. van de verschillen pj - pj (stel pj >
Pi)-

De definitie van het scalogram impliceert dat iedereen die een moeilijk item (bijv. i)
domineert, ook het minder moeilijke item (bijv. j) domineert, dus dat:

Derhalve kan de covariantie cjj tussen twee dichotome items i en j, in geval van Gutt-
manhomogeniteit geschreven worden als:

Bij vaste pj is Cij dus een monotoon stijgende functie van pj, zodat Cij afhankehjk is van
het verschil pj -pi (hetzelfde geldt voor de correlatie; hierop berust Guttmans simplex-
model). De conclusie is dat de interne consistentie ofwel de klassieke homogeniteit van
een Guttmanschaalafhankelijk is van een voor Guttmanhomogeniteit irrelevante eigenschap
van de items, namelijk de verschillen tussen de marginale proporties p^.

Het scalogram is een erg restrictief model. Ofschoon een deterministisch model geen
enkele afwijking, toelaat, zullen we enige tolerantie moeten betrachten. Een belangrijke
vraag is derhalve: Wanneer wijken de items slechts bij toeval af van Guttmanhomogeni-
teit? In de loop der tijd zijn een groot aantal maten voor de kwantificatie van Guttman-
homogeniteit voorgesteld (en weer verworpen), waarvan Torgerson (1958, 318f) en
Mokken (1971, 49f) er een aantal geven. De schaalcoëfficiënt die voor ons van belang
is, is die welke door Loevinger (1947, 1948) werd geconstrueerd. Loevingers 'homogeni-
teitscoëfficiënt' berust op de gedachte dat in geval van Guttmanhomogeniteit de geobser-
veerde proportie 0,0)^ gehjk moet zijn aan nul als Pi kleiner is dan pj. Aangezien
bij imperfecte data pA"^ (1,0) zal afwijken van nul, worden in Loevingers coëfficiënt
Hij de geobserveerde proportie (1,0) en de op basis van onafhankehjkheid van de
items verwachte proportie p;^®^ (1,0) = Pi (1 - pj) met eUcaar vergeleken:

3. Dit is de geobserveerde proportie personen die item i domineert, maar item j niet.

Deze coëfficiënt heeft volgens Torgerson en Mokken een aantal voordelen boven eerder
voorgestelde maten van Guttmanhomogeniteit (zou met name minder gevoelig zijn voor
de invloed van de marginale proporties Pi).
Herschrijving van (3) levert:

(cf Torgerson 1958 325) (f>*ii is de maximale correlatie tussen twee dichotome items i
en j, gegeven de randtotalen Pj en pj (pi < Pj). Uit (4) volgt direct dat -1 < Hjj <1, waar-
bij H„ = 1 ^ p„ = p. dus (getuige (2)) dan en slechts dan als er sprake is van Guttman-
homogeniteit^ We mogen Hh derhalve beschouwen als een soort gestandaardiseerde
interitemconelatie; die standaardisering heeft tot gevolg dat Hij indicatiefis voor Gutt-
manhomogeniteit, in tegenstelling tot (zoals we in paragraaf 1.1 zagen) de mteritemcova-
riantie c„ of -correlatie 0==: Guttmanhomogeniteit is equivalent met de phjkheid Hjj - 1,
of anders gezegd: Gegeven de Guttmanhomogeniteit van een dataset ligt de waarde vm
Hij vast. Indien de verdeling van H. onder de nulhypothese Hjj = c bekend zou zijn (de
eerste H. is de geobserveerde, de tweede Hy is de Vare'), zouden we dus met behulp
van Loevingers homogeniteitscoëfficiënt kunnen toetsen in hoeverre paren van items
afwijken van de gehypothetiseerde Guttmanhomogeniteit.

Mokken (1971) is voor twee hypothesen nagegaan wat de (asymptotische) verdeling
van de geobserveerde Hjj in dat geval wordt. De eerste betreft de zgn. 'nuU case' (o.c.,
160-164), de tweede de 'non-nuU case' (o.c., 164-167):

Alleen de laatste methode maakt het mogelijk betrouwbaarheidsintervaUen voor de po-
Pulatiecoëfficient Hn te berekenen, en dus te toetsen in hoeverre er sprake is vm Uitt-
manhomogeniteit; de methode is geïmplementeerd in het STAP-programma MOKKEN
test (cf. Niemöller & Van Schuur, 1977).

rtL^^^^'j*^® vermeld dat ook de Goodman-Kruskal gamma en Yules Q (cf. Roskam, 1977, 190-191)
aeze eigenschap bezitten.

Mokken (o.c., 70-71) bespreekt het bestaan van imperfecte Guttmanschalen (zgn. 'quasi-
schalen') en trekt de conclusie dat het vele voorkomen van deze schalen een aanwijzing
moet zijn het deterministische Guttmanscalogram te vervangen door een probabilistisch
analogon. Mokken stelt vervolgens in de plaats van het ideaal van Guttmanhomogeniteit
en de toetsing van afwijkingen daarvan, een ander ideaal, namelijk holomorfie, en een
daarmee corresponderende toetsing. De definitie van holomorfie in een itemset luidt als
volgt (Mokken, o.c., 118):
Items met de eigenschappen:

- de itemkarakteristieke curve is een functie van twéé parameters, een itemparameter
(Yi) en een persoonsparameter (Xy);

vormen een holomorfe set. De laatste twee eigenschappen constitueren de zgn. 'dubbele
monotonie'. Het praktische verschil tussen holomorfie en dubbele monotonie is marginaal
(cf. Mokken, o.c., 118 3e noot, 174 noot); we zullen steeds spreken van holomorfie. In-
dien de itemkarakteristieke curve alleen stijgend is in Xy, spreekt Mokken van 'monotone
homogeniteit' (o.c., 118), een afzwakking dus van holomorfie.

Ter illustratie geeft figuur 1 een voorbeeld van dne Guttmanhomogene items en figuur
2 een voorbeeld van drie items die samen holomorf zijn; in de figuren worden de items
weergegeven als itemkarakteristieke curven in een latente struktuur-model. Overigens:
De karakteristieke curven van items uit een holomorfe set hoeven niet parallel te zijn
(niet-snijden is voldoende).

In plaats van het strenge deterministische schaalcriterium Guttmanhomogeniteit treedt
bij Mokken dus het probabilistische criterium holomorfie. Mokken bewijst de volgende
stellingen ten aanzien van holomorfe itemsets (ze gelden ook voor alleen maar dubbel
montone itemsets):

De in (5) geformuleerde stelling zegt dat de itemparameter Yi antimonotoon is met Pi.
Nu is de afstand tussen de itemparameters niet van invloed op, en speelt m feite geen
rol bij, het al dan niet holomorf zijn van de itemset (zoals figuur 2 laat zien). Aangezien
holomorfie onafhankelijk is van de afstand tussen de itemparameters, dus van Yj - Yj
(Yi> Yj), is holomorfie bhjkens steUing (5) ook onafliankehjk van het verschil pj - pi;
wat dit betreft is er dus geen verschil tussen holomorfie en Guttmanhomogemteit.
Stellingen (6) en (7) zijn falsifieerbaar; ze zijn hnmers geformuleerd m termen van relaties
tussen manifeste grootheden. Stellmg (5) is een belangrijke hypothese, die bijv. ten
grondslag ligt aan het bewijs van steUing (7). De falsificatie is echter niet eenvoudig. De
toetsing van (6) komt ter sprake in de volgende paragraaf. Het valt buiten het bestek
van dit artikel de door Mokken voorgestelde methoden voor de toetsmg van (5) (o.c., 120)
en van (7) (o.c., 180-182) te bespreken. Met betrekking tot de falsificatie van (7) volstaan
we hier met een verwijzing naar Jansen (1981). . ,

Tot slot van deze paragraaf gaan we in op de relatie tussen holomorfie en het Rasch-
model, dus tussen holomorfie en Raschhomogeniteit. De reden daarvoor zal verderop
duidelijk worden Het Rasch-model is equivalent met een vijftal axioma s (cf. Fischer,
1974, 194). Holomorfie bezh al deze axioma's exphciet of impUciet, op het zgn. Vol-
doendheids-axioma' na. Holomorfie is dus een algemener begrip dan Raschhomogeniteit:
De curves in figuur 2 zijn holomorf, als ze de logistische vorm hebben zijn ze Rasch-
homogeen. Mokken zelf wijst hier overigens met klem op (o.c., 119). We wijzen op deze
relatie tussen holomorfie en Raschhomogeniteit, omdat de gegarandeerde holomorfie van
Raschhomogene items de mogelijkheid biedt de door Mokken voorgestelde procedures
ter constructie van holomorfe itemsets op hun merites te.beoordelen. Nogmaals: Het be-
treft hier een subklasse van holomorfe items; dat is echter geen bezwaar aangezien deze
studie de noodzakehjkheid van die procedures onderzoekt. Het Rasch-model komt m dit
artikel alleen ter sprake in het kader van de geschetste relatie met holomorfie.

De stellingen (5)-(7) zijn noodzakelijke voorwaarden voor holomorfie; derhalve kun-
nen ze gebruikt worden om de holomorfie van itemsets te falsifiëren. In deze paragraaf
bespreken we een methode om (6) na te gaan, en gaan we in op de door Mokken gebezig-
de definitie van een 'schaal'.

Holomorfie-eigenschap (6) impliceert dat alle interitemcorrelaties positief dienen te
zijn (het geval pjj = pjpj laten we buiten beschouwing). Gezien (4) kunnen we ook stellen
dat in holomorfe itemsets de homogeniteitscoëfficiênt Hjj groter dan O moet zijn voor alle
itemparen (i, j). Dat is natuurlijk gemakkelijk na te gaan, temeer daar de verdehng van Hy
onder de hypothese Hjj = O bekend is'. Wel dient opgemerkt te worden dat (6) ook niet
meer impliceert dan een positieve Hjj: Ten aanzien van de grootte van Hjj stelt (6) geen
eisen. Zoals werd opgemerkt aan het begin van de vorige paragraaf steh Mokken in plaats
van Guttmanhomogeniteit het schaalcriterium holomorfie. Mokken concludeert (o.e.,
182-183) dat de homogeniteitscoëfficiënt Hy een aantal aantrekkelijke eigenschappen
bezit, en besluit op grond daarvan deze coëfficiënt te gebruiken als een criterium voor
schaalbaarheid: 'We prefer to use the coefficient of scalabilhy, H, as a criterion of scala-
bility in the sense of monotone homogeneity' (o.e., 182; H is een gewogen gemiddelde
van de afzonderlijke Hij). Merk op dat in dit citaat gesproken wordt van monotone
homogeniteit als schaalmodel, in plaats van holomorfie. Dat vindt daarin zijn oorzaak dat
aan ongelijkheid (6) reeds is voldaan in het geval van (slechts) monotoon homogene
items. Mokken definiëert nu een schaal als een verzameling items waarbij van elk item
de homogeniteitscoëfficiënt H; (gewogen gemiddelde van de k-1 coëfficiënten Hjj, j = 1,
..., k en i =7^= j) groter is dan of gelijk is aan een gegeven constante c, met O < c < 1, en
waarbij alle individuele Hy positief zijn (o.e., 184). Het is nochtans niet zo een schaal
hier puur 'operationeel', d.w.z. zonder een theoretisch schaalmodel (een ideaal) als
Guttmanhomogeniteit, Raschhomogeniteit of holomorfie gedefinieerd wordt, getuige:
'...we shall want a reasonable homogeneity for every item in our scale as measured by the
coefficient Hj' (o.e., 184). De intentie van Mokkens schaalprocedure kan, nogmaals,
niet anders geïnterpreteerd worden dan de selectie van items die redeUjkerwijs aanspraak
kunnen maken op holomorfie. In deze interpretatie worden wij overigens gesteund
door de schaaldefinitie die NiemöUer & Van Schuur (1977, 1) geven in hun beschrijving
van schaalanalyse volgens Mokken: Aan bovengenoemd schaalcriterium voegen zij name-
lijk de eis van dubbele monotonie toe.

Naast verificatie van de eisen (5)-(7) ontwikkelt Mokken derhalve een op de coëfficiënt
Hjj gebaseerde procedure om items te selecteren die holomorf zijn. Mokkens zoekproce-
dure is een soort clusteranalyse op de matrix met Hjj-coëfficiënten (zie daarvoor o.e.,
190-194). Naarmate de H van een verzameling items groter is, is er in sterkere mate
sprake van een schaal. Mokken zelf geeft als indicatie de volgende criteria:

(o.e., 185). Dat deze schaalanalyse (door ons genoemd: Mokkenschaalanalyse) gebruikt
werd en wordt, bewijst het feit dat zij is opgenomen in de in Nederland ontwikkelde
Programmabibhotheek STAP (bedoeld als aanvulling op het bekende SPSS-pakket), cf.
Niemöller (1976) en Niemöller & Van Schuur (1977). Sommige gebruikers (cf. bijv.
Henning, 1974, 1976) hanteren daarbij Mokkenschaalanalyse als een Voorwas', voordat
ze overgaan op'de toepassing van sterkere technieken als bijvoorbeeld Raschanalyse; Mok-
ken zelf laat zich overigens ook in die richting uit:

Tor instance, we might first investigate which items for which variables form holomorphic sets or
scales, and then proceed to fmd out whether we can discover or construct sub-sets which fit the
parametric model of Rasch' (o.e., 173).

We zullen echter laten zien dat Mokkenschaalanalyse niet alleen geen voldoende
voorwaarde voor holomorfie, en dus voor Raschhomogeniteit is (zoals Mokken zelf ook
benadrukt: o.e., 187), maar zelfs geen noodzakelijke: Mokkenschaalanalyse zegt niets
over de holomorfie van een verzameling items.

In deze paragraaf zullen we demonstreren dat Mokkenschaalanalyse faaU omdat zij een
ambigue schaalmethode is: Mokkenschaalanalyse streeft naar holomorfe itemsets, maar
selecteert items op basis van geheel andere criteria, zoals bijv. de latente afstand Yj -
Yj. Zoals gezegd (paragraaf 2.1) is het verschil Y; - Yj echter irrelevant voor het bestaan
van holomorfie.

We zullen twee maal demonstreren dat ook bij vaststaande holomorfie de homogeniteits-
coëfficiënt Hij nog vele waarden kan aannemen (bijv. kleiner dan het gekozen schaal-
criterium c), en dat de waarde van Hij met name bepaald kan worden door een voor holo-
morfie irrelevant gegeven als het verschü Pj - Pt (de afstand Yj - Yj). In de beide vol-
gende paragrafen wordt Hjj geschetst als een dalende functie van i (p; < pj). In beide
paragrafen wordt holomorfie gegarandeerd door analytische vaststeUmg van Raschhomo-
geniteit, in paragraaf 3.1 echter wordt het dalen van Hij verkregen door de keuze van een
speciale subjectverdeling ('extra conditie' (9)), in paragraaf 3.2 daarentegen door de aan
de items op te leggen 'extra conditie' (13). Beide voorbeelden Ulustreren het volgende:
Een verzameling items waarvan de holomorfie analytisch vaststaat, kan in Mokkenschaal-
analyse al dan niet 'holomorf' bevonden worden, afhankeHjk van de minimale grenswaar-
de c voor Hij en de afstand tussen de latente itemparameters.

Er zijn praktijkvoorbeelden bekend van itemsets die Raschhomogeen waren (op grond van
de conventionele toetsen voor het Raschmodel) maar niet holomorf (op grond van Mok-
kenschaalanalyse), cf. bijv. Henning (1974) en Groenier (1979). Om helemaal zeker te
zijn van deze 'misfit' tussen Raschhomogeniteit en met behulp van Mokkenschaalanalyse
vastgestelde holomorfie, hebben we een theoretisch voorbeeld geconstrueerd, waarin de
Raschhomogeniteit van 'de items analytisch vaststaat. Het voorbeeld is vooral van belang
omdat het laat zien dat op een gegeven moment Hy nooit meer een acceptabele waarde
(we hanteren .30, dus 'weak scale') kan bereiken, omdat Yj te dicht bij Yj komt te hg-

gen. Het voorbeeld is misscliien wat extreem (dat hangt overigens maar helemaal af van de
in de praktijk aangetroffen subjectverdeÜng) omdat de subjectverdeUng zo is gekozen dat
voor Pj < .68 de p; < .09 moet zijn wil Hjj > .30.
Enige notatie vooraf:

e: itemparameter in het Rasch-model : e; =
Dan kan het Rasch-model geschreven worden als:

Voor de berekening van Hjj is de volgende herschrijving van Pjj, die alleen geldig is in het
Rasch-model, nodig:

deze formule is op verschillende manieren af te leiden (bijv. d.m.v. integratie), kan echter
ook gezien worden als een herschrijving van Fischers formule (13.3.6) (1974,217).
Uit figuur 3 blijkt dat, wü Hjj > .30, de afstand (ej - ej) een bepaalde minimumwaarde
moet hebben, oftwel dat, bij vaste Cj, de parameter ej kleiner moet zijn dan een gegeven
grenswaarde ef waarvoor geldt dat Hü (ef | ej, q) = 30. Zo is in figuur 3 ef ongeveer ge-
lijk aan 2.5, wat correspondeert met een manifeste proportie v* (volgens (9)) van .87.
We zien: Als ej = 10, dan is pj (volgens (9)) gelijk aan .95, zodat in dat geval p; klemer dan
of gelijk aan .87 moet zijn, wil Hy > .30.

We kunnen nu bij elke pj een grenswaarde pf berekenen waarvoor geldt:
O < Pi < Pi* Hij > .30 ('weak scale').

We hebben dat gedaan; de coördinaten (pj, Pj*) zijn uitgezet, in figuur 4. Uiteraard is
figuur 4 conditioneel op t ~ Un (0,10).

Figuur 4 laat de scherpe daling van pf t.o.v. Pj zien. Als Pj - .68 moet pj < .09 opdat
Hij nog groter is dan .30. Daarmee is de afliankeüjkheid van Hij van de afstand (ej - ej)
voldoende geïUustreerd. Het blijkt dat perfect holomorfe (Raschhomogene) items in
Mokkenschaalanalyse al dan niet als 'holomorf bevonden kunnen worden op grond
van een voor holomorfie irrelevant criterium als het verschil tussen de latente itempara-
meters.

Een reviewer heeft na.v. dit voorbeeld opgemerkt dat Mokken werkt met de samenge-
stelde coëfficiënt Hi i.p.v. met Hij. Dat is inderdaad het geval, echter dat deze paragraaf
nochtans relevantie heeft is als volgt te demonstreren: Als alle Hjj < .30, kan geen enkele
Hi nog groter worden dan .30, en is er dus (in Mokkenschaalanalyse) géén schaal. Nu laat
figuur 4 zien hoe een dergelijke itemset geconstrueerd zou kunnen worden. Zo bestaat
één punt van de grafiek uit de coördinaten (.725, .265). Dat betekent dat voor .265 <pi

< .725 = p. geldt dat Hij < .30. De curve in figuur 4 is monotoon stijgend, zodat bij
daling van de bovengrens pj ook de bovengrens voor pi (opdat Hjj > .30) daalt. Dat
betekent dat voor .265 <Pi < Pj <-725 altijd geldt dat Hjj <.30. Het theoretische
voorbeeld laat dus zien: Als holomorfie (d.wi. Raschhomogeniteit) én t ~ Un (0,10) én
alle items liggen qua moeilijkheid tussen .265 en .725, dan zijn alle Hij < .30 zodat alle Hi

Fig. 4. Plot voor de coördinaatvectoren (pj, pf) waarvoor geldt: Als p,- kleiner is dan pf, dan is Hij
groter dan .30, gegeven Raschhomogeniteit en t uniform verdeeld op het interval (0,10).

Het voorbeeld in paragraaf 3.1 liet zien dat Hjj (bij een gegeven subjectverdeling) nog vele
waarden kan aannemen, afhankelijk van het verschil ej — ej. In deze paragraaf laten we
zien dat het, gegeven Raschhomogeniteit, theoretisch mogehjk is bij een willekeurig item-
paar (i, j) een derde item k te zoeken (p; < pj < pk), waarvoor altijd geldt dat Hjk > Hjj.
Dat betekent dat, gegeven Raschhomogeniteit en dus holomorfie, Hy nog vele waarden
kan aannemen, afhankelijk van het verschil ej — ej. Het onderscheid tussen deze paragraaf
en de vorige, is dat nu géén assumpties over de vorm van de subjectverdehng gemaakt
worden.

In geval van dubbele monotonie of holomorfie is py een monotoon stijgende functie van e;
(zie (7)), terwijl voor Pi hetzelfde geldt (zie (5)). Gegeven holomorfie is Hij het quotiënt
van twee met de afstand ej - ei variërende functies zodat, uitgezonderd het zeer speciale
geval van Guttmanhomogeniteit, de homogeniteitscoëfficiënt een functie is van het voor
holomorfie irrelevante verschil ej - ei.
Hij is een dalende functie van ei als (cf. (11)):

In het algemeen is aan (12) niet voldaan (tegenvoorbeelden zijn gemakkelijk te verzin-
nen); dat is echter niet van belang. Waar het om gaat is de vraag of het mogelijk is dat
zowel aan (12) als aan het criterium van holomorfie is voldaan. Het voorbeeld in de vorige
paragraaf liet reeds zien dat zulks inderdaad het geval is. Dat voorbeeld berustte echter op
een misschien nogal gezochte subjectverdeling.

waarbij holomorfie gegarandeerd is door aan te nemen dat i, j en k Raschhomogeen zijn.
Indien dus aan (13) voldaan is, is ook aan (12) voldaan. Echter, het rechterlid van (13)
is onafhankelijk van k, zodat (13) een voorschrift voor de constructie van item k geeft:
Kies item k volgens (13) (i en j zijn gegeven), dan is altijd (gegeven Raschhomogeniteit
d.w^. holomorfie) aan (12) voldaan. In dat geval doet de specifieke vorm van de sub-
jectverdeling er niet toe.

Zowel het voorbeeld uit de vorige paragraaf, als de exercitie in deze paragraaf, laten zien
dat, ofschoon er sprake is van holomorfie. Hij nog vele waarden kan aannemen, afhanke-
lijk van de afstand tussen de latente parameters ej en ej. De preciese variatie van Hjj
met ej - Ci is, zo zonder meer, niet bekend, echter, wel blijkt het mogelijk bij drie Rasch-
homogene items i, j en k (pi < Pj < Pk) Pk zo S^oot te kiezen dat altijd Hik > Hjk; onge-
lijkheid (13) geeft de keuze voor Pk-

Een situatie waarin zeer waarschijnlijk aan (13) voldaan is, ontstaat als item i erg moeilijk
is, en item j erg makkelijk. Dan zal iemand die item i correct beantwoordt, met grote kans
item j correct beantwoorden, zodat bij benadering Pi = pij (cf figuur 2). Het quotiënt Pi/
Pij zal dan nauwelijks nog afwijken van 1, zodat ongelijkheid (13) vrijwel zeker opgaat
(we zouden het itempaar (i, j) quasi-Guttmanhomogeen kunnen noemen). Indien de
variantie van de marginalen pi groot is (zodat grote en kleine waarden van pi voorkomen),
zal derhalve, zelfs bij holomorfie c.q. Raschhomogeniteit, Mokkenschaalanalyse sub-
schaaltjes construeren door de extreme items in één cluster te selecteren. De oorspron-
kelijke holomorfe schaal wordt dan als het ware van twee kanten afgeknabbeld.

In paragraaf 1.1 werd uiteengezet dat de interne consistentie of klassieke homogeniteit
van een Guttmanschaal afhankelijk is van een voor Guttmanhomogeniteit irrelevante

eigenschap van de items, namelijk de verschillen tussen de proporties pj. Daaruit werd
(in paragraaf 1.2) de conclusie getrokken dat in het geval van het Guttmanscalogram de
klassieke homogeniteit (zoals gemeten door </)ij) los staat van de 'moderne' homogeni-
teit (= het voldoen aan een schaalmodel). Bovendien bleek in dit geval Loevingers coëf-
ficiënt Hij indicatief voor deze vorm van moderne homogeniteit.

In hoofdstuk 2 werd aangetoond dat bij de verwisseling van Guttmanhomogeniteit
door holomorfie (d.w.z. bij de invoering van stochastiek) de eerste in de vorige ahnea
genoemde eigenschap behouden blijft: Ook holomorfie is onafhankelijk van de verschil-
len tussen de marginale proporties pi (paragraaf 2.2). De vraag was echter of na deze
transplantatie Loevingers coëfficiënt Hjj nog indicatief voor déze, nieuwe, vorm van ho-
mogeniteit, namelijk holomorfie, genoemd mocht worden.

In hoofdstuk 3 werden twee voorbeelden besproken waaruit bleek dat zelfs bij perfecte
holomorfie de coëfficiënt Hjj nog beïnvloed kan worden door de verschillen tussen de
proporties pi; Hjj bleek in bepaalde gevallen bijvoorbeeld een dalende functie van pi
te zijn ofschoon de holomorfie vaststond. Daaruit moet de aan het eind van paragraaf
2.2 reeds verwoorde conclusie getrokken worden dat de grootte van de coëfficiënten Hij
niets zegt over de holomorfie van een verzameling items, dat dus de zgn. Mokkenschaal-
analyse niet geschikt is voor de detectie van holomorfe itemverzamelingen. Om dezelfde
redenen is Mokkenschaalanalyse overigens ook niet geschikt voor de selectie van dubbel
monotone items (cf. paragraaf 2.1), en zelfs niet voor de selectie van alleen maar mono-
toon homogene items (eveneens in paragraaf 2.1 ter sprake gekomen).
De vraag kan gesteld worden op basis van welk criterium Mokkenschaalanalyse items
selecteert. Aangezien Hij een gestandaardiseerde correlatie tussen dichotome items is
(paragraaf 1.2), kan heel in het algemeen gezegd worden dat Mokkenschaalanalyse speurt
naar items die relatief hoog correleren; in bepaalde situaties kan dat equivalent zijn met
de selectie van op het latente continuum ver uit elkaar hggende items: Zie de paragrafen
3.1 en 3,2. Echter, in holomorfe itemverzamelingen is maximale, al dan niet gecorri-
geerde, interitemcorrelatie helemaal niet aan de orde: Zo is bijvoorbeeld Cronbachs alfa
irrelevant voor de constructie van een Raschhomogene schaal. We stoten hier op het
essentiële verschil tussen schalen op basis van homogeniteit als parallelle itemkarakteris-
tieken, en homogeniteit als maximale lineaire (c.q. stochastische) samenhang. Dit ver-
schil tussen twee vormen van homogeniteit komt niet alleen tot uiting in Mokkenschaal-
analyse (die pretendeert te selecteren op basis van het eerste homogeniteitsbegrip, maar
in feite opereert riiet, een vorm van, het tweede), maar ook bijvoorbeeld in het gege-
ven dat toevalsdata Raschhomogeen zijn (cf. Jansen, 1981). Simulatie van 1/0-data
door middel van een groot aantal Bernouilh-trials met dezelfde parameter levert een data-
set met de antwoorden van subjecten op niet in moeilijkheid verschillende items: Aange-
zien Pi = p (Vi = 1.....k) en Pv = p' (Vv = 1,..., N) is vanwege sufficiency ei = e (Vi) en ty =

t (Vv), zodat op basis van lokaal stochastische onafhankehjkheid de items 'overaU'
stochastisch onafhankehjk zijn in het Rasch-model, en derhalve niet afwijken van de op
de besproken wijze gesimuleerde toevalsdata. We noemen dit geval omdat hier perfecte
Raschhomogeniteit samenvalt met minimale interne consistentie. Wood (1978) obser-
veert hetzelfde, en constateert naar aanleiding daarvan dat er een wezenhjk onderscheid
bestaat tussen homogeniteit en interne consistentie, en dat er wat dit betreft voor de
testconstructeur zelfs sprake is van een dilemma (Wood spreekt van het 'Ebel-Horn-
dilemma' vanwege de in 1968 gevoerde discussie tussen Ebel en Horn).
Mokkenschaalanalyse faalt dm omdat het de toepassing is van een voor de beoogde vorm
van homogeniteit (holomorfie) irrelevant criterium (lineaire samenhang).

De homogeniteitscoëfficiënt Hjj is gedefinieerd met een deterministisch model voor ogen:
Aangezien pjj (1,0) (met wederom Pi <Pj) in een probabilistisch model groter dan nul
kan en zelfs moet zijn, is pjj (1,0) niet geheel op rekening van modelschendingen te
schrijven. Holomorfie 'leeft' a.h.w. van de observatie (1,0) > 0. De berekening van
Pij (1,0) in vergelijking (3) deugt dus niet in geval van holomorfie: Zelfs een zeer kleine
Hjj kan in overeenstemming zijn met holomorfe itemkarakteristieken. Een aUernatief
^oor Hij is natuurlijk snel bedacht: Bereken PiY^ (1,0) op de correcte manier, dus volgens
het schaalmodel. Dat resulteert dan echter in een parametrische toets. In geval van bij-
voorbeeld het Rasch-model zou de aldus gedefinieerde Hij een (onhandig) analogon van
de bestaande modeltoetsen worden.

Indien i,j en k Raschhomogeen zijn,kan (Al) met behulp van (10) herschreven worden als:

Nu is in (A3) term (b) altijd groter dan term (c) omdat pj groter is dan pj. Een voldoende
Voorwaarde voor (A3) is derhalve dat term (a) groter is dan of gelijk is aan term (d). Dat
inipliceert:

Nu geldt bij Raschhomogeniteit de volgende restrictie op de itemparameters Cj en ej:

(zoals substitutie van (10) leert; cf. Fischer, 1974, 217), zodat aan de volgende ongelijk-
heid voldaan moet zijn, wil (A4) opgaan:

Ongelijkheid (A5) is dan en slechts dan correct als de term (pij pk — Pi pj) groter dan of
gelijk aan nul is. De conclusie is derhalve dat ongelijkheid (Al) opgaat als (gegeven
Raschhomogeniteit) ongelijkheid (A2) opgaat.

Ongelijkheid (A2) voldoet overigens aan pj < pk < 1. Tot slot zij opgemerkt dat (A2)
voldoende voorwaarde is voor (Al) maar zeer waarschijnlijk geen noodzakehjke.

Ebel, R.L. The value of internal consistency in classroom examinations.youwa/o/i'cfMcafiona/A/easure-
ment, 1968,5,71-74.

Fischer, G.H. Einßhrung in die Theorie psychologischer Tests. Bern: Huber, 1974.

Groenier, K.H. De onbruikbaarheid van coefficient H als maat voor de schaalbaarheid van items in
het Mokken schaal model. Sektie Methodologie Bulletin nr. 1 (Andragogisch Instituut der Rijks-
universiteit Groningen). Groningen, 1979.

Guttman, L. A basis for scaling quahtative A&idi. American Sociological Review, 1944, 9, 139-150.

Henning, H.J. Die Technik der Mokkenanalyse. Psychologische Beiträge, 1976,18, 410430.

Horn, J.L. Is it reasonable for assessments to have different properties than predictors?. Journal of
Educational Measurement, 1968, 5, 75-78.

Jansen, P.G.W. Spezifisch objektive Messung im Falle monotoner Einstellungsitems. Zeitschrift fär
Sozialpsychologie, 1981,12, 2441.

Loevinger, J. A systematic approach to the construction and evaluation of tests of abihty. Psycholo-
gical Monographs, 1947,61, no. 4.

Loevinger, J. The technic of homogeneous tests compared with some aspects of "scale analysis" and
factor analysis. Psychological Bulletin, 1948,45, 507-530.

Niemöller, B. Schaiilanalyse volgens Mokken (null-case). Subprogramma MOKKEN SCALE. TC-
publicatie No. TC42 (Technisch Centrum Faculteit der Sociale Wetenschappen Universiteit van
Amsterdam), Amsterdam, 1976.

Niemöller, B. & Schuur, W.H., van. Schaalanalyse volgens Mokken (non-null case). Subprogramma
MOKKEN TEST. TC-publicatie no. TC70 (Technisch Centrum Faculteit der Sociale Wetenschap-
pen Universiteit van Amsterdam), Amsterdam, 1977.

Roskam, E.E.Ch.I. The nature of data: Interpretation and representation. An introduction to the
theory of data. In: Lingoes, J.C. (Ed.). Geometric representations of relational data. Ann Arbor:
Mathesis Press, 1977, 149-235.

Wood, R. Fitting the Rasch model -A heady tale. The British Journal of Mathematical and Statistical
Psychology, 1918,31, 27-32.

The criticism by Jansen on the Mokken sealing procedures seems to be based on the assump-
tion that they aim at detecting holomorphic item sets. It is conect that some holomorphic
sets are not acceptable according to the Mokken procedures. The quality of such a refused set
as a measuring instrument, however, is somewhat debatable. The use of Loevinger's H-coeffi-
cient in the procedures aims at separating useful scales (close to the Guttman property) from
low quality scales, even if the latter are holomorphic. Mokken's search algorithm leaves room
for improvement, but Jansen's contention that the procedures are useless is not shared.

Mokken (1971) heeft een klasse van modellen en procedures voorgesteld voor schalen be-
staande uit dichotome cumulatieve items. In zijn paragraaf 5.2 presenteert hij procedures
voor:

3) multiple scaling (the construction of a number of scales from a given pool of items);

Jansen (1981b) beperkt de naam 'Mokkenschaalanalyse' tot de procedure 2 en noemt de-
ze dan onbruikbaar, want hij is niet geschikt om holomorfe van niet-holomorfe itemverza-
melingen te onderscheiden. Maar voor dat doel was dan ook procedure 5 bedoeld, waarbij
de matrix van relatieve frekwenties van (1,1) resp. (0,0) antwoorden per itempaar op mo-
notonie wordt onderzocht.

Er is één kritiekpunt waarop ik Jansen direct gelijk kan geven. Dat de termen (monotoon)
homogeen, holomorf en dubbelmonotoon bij Mokken in een verwarrende afwisseling op-
treden heb ik al in mijn recensie (Molenaar, 1972) opgemerkt; erger is dat o.m. op pag.
182 de indruk zou kunnen ontstaan alsof de H-coëfficiënt als een maat voor één of meer
van dit begrippentrio kan dienen. Zoals Jansen terecht nog" eens duidelijk maakt is dat
niet het geval.

Dat op Mokken's woorden wat valt af te dingen is dus toegegeven. Maar hoe staat het
met zijn daden, d.w.z. met de zes door hem voorgestelde schaalprocedures? Jansen meent
dat die ten doel zouden hebben holomorfe verzamelingen te onderscheiden van niet-holo-
morfe, en geeft een voorbeeld waarbij holomorfe items toch lage Hy-waarden opleveren.

) Vakgroep Statistiek en Meettheorie, FSW-R.U. Groningen, Oude Boteringestraat 23, 9712 GC Gro-
ningen. De auteur dankt A. Boomsma, C. Lewis en F.N. Stokman voor hun commentaar op een eerde-
te versie.

Ik zal in paragraaf 2 trachten wat algemener te illustreren wat de Mokken-procedure 2
doet met een verzameling Rasch-items. In paragraaf 3 wordt nader ingegaan op Mokken's
bedoelingen in vergelijking met die van Rasch, Guttman en de klassieke testtheorie. Pa-
ragraaf 4 bevat enige conclusies.

Het voorbeeld van deze paragraaf betreft k Rasch-items (k=3,4, 5, 7, 11, 15) waarvan de
itemparameters Yj in de notatie van Jansen (1981b), equidistant variëren van Y] = 3.0 tot
Yk = -3.0. In het geval k=5 bijvoorbeeld is de rij van Y-waarden dus 3.0, 1.5, 0.0, —1.5,
-3.0. De kans dat een persoon v met latente parameter Xy het item i positief beant-
woord is nu

Wat doet de in paragraaf 2.2 van Jansen (1981b) genoemde zoekprocedure 2 van Mokken
nu met deze item verzamelingen? Het antwoord blijkt sterk af te hangen van de kansver-
deling van de persoonsparameters Xy. Wij kiezen daarvoor normale verdelingen met ver-
wachting n en variantie a^. De berekeningen zijn uitgevoerd voor /i = O, 0.75, 1.5 en 2.25
en a = 4, 2, 1.5, 1, 0.75 en 0.5; twee gevallen worden geïllustreerd in fig. 1.

Nadat de itempopulariteit Pi is berekend door numerieke integratie:
(2) Pi a-^ (27r)-^ exp [ -(X-m)' / (2a^)] p (+ I X, Yi) dX

heb ik py en Hg bepaald volgens (10) resp. (4) uit Jansen (1981b). De voor de zoekproce-
dure verder nodige coëfficiënten Hi en H zijn gewogen gemiddelden van de al verkregen

Het blijkt dat voor a > 1.5 voor alle beschouwde ju (en wegens symmetrie en monotonie
dus voor -2.25 < m < 2.25) telkens alle k items tot de Mokken-schaal worden toegelaten.
Voor a = 4 zijn alle Hu-waarden minstens 0.62, voor a = 2 varieert de minimale Hy van
0-57 (k = 3) tot 0.22 (k = 15), voor a = 1.5 van 0.37 (k = 3) tot 0.09 (k = 15). Dat een
paarsgewijze Hij van minder dan de grens van 0.30 toch een toelaatbare Hi kan opleveren
wordt geïllustreerd in tabel 1. , , ^

Voor a = 1 worden, met uitzondering van M = O en = 0.75 bij k = 4, slechts drie items
tot de Mokken-schaal toegelaten, terwijl bij a = 0.75 alleen de uiterste twee toelaatbaar
zijn. Voor o = 0.50 hebben zelfs deze een Hy van 0.20 of mmder. Uit hier met m detail
weergegeven berekeningen bhjkt het gebmik van alle k items bij een zo kleine a overigens
volstrekt zmloos te zijn: de kans waarmee de totale score de waarde O of k aanneemt
wordt verwaarloosbaar klein.

Tabel 1. Hy-coëfficiënten (boven de diagonaal), populariteiten pi (cursief op de diago-
naal) en gewichten pi (1-pj) (onder de diagonaal) voor k = 7 items met - 2.25 en a = 1.5
Voor de persoonsparameters.

Als eerste itempaar worden 1 en 7 gekozen; dan wordt item 4 toegevoegd tot een trio,
met H = 0.57 enz. In de laatste stap wordt item 6 toegevoegd, waarbij elke Hej het^onder
de diagonaal vermelde gewicht krijgt; hoewel Hgs = 0.21 en Höt = 0.13 is dan Hê - 0.38,
zodat item 6 toelaatbaar is (de berekening is in vier decimalen uitgevoerd, de afgeronde
getallen leiden tot 0.39). ,, ,

Aangenomen is dat het aantal individuen voldoende groot is, zodat Mokken s eis van een
significant positieve H^ in elke stap lichter is dan de eis dat Hi minstens 0.30 is; de erva-
ring leert dat dit bij steekproefomvang boven de honderd geen probleem is. De eis van po-

sitieve Hy is eveneens vervuld, zodat de procedure bij elke stap binnen de eis van Hj >
0.30 het item selecteert dat de hoogste H-waarde oplevert (Mokken, 1971, pag. 192).
Terzijde wordt over de significantie nog opgemerkt dat Jansen (1981a, pag. 33-34) de in-
druk wekt alsof hij wel de signalering van kanskapitalisatie op pag. 193 van Mokken
(1971) heeft gelezen, maar niet de bescherming tegen dit euvel die Mokken op pag. 196
uitlegt.

De resultaten van mijn berekeningen vat ik als volgt samen. Liggen de persoonsparameters
sterk geconcentreerd ten opzichte van de itemparameters, dan vormt een stel Rasch-items
geen Mokkenschaal. Bij extreem kleine variantie domineert immers de locale onafhanke-
lijkheid. Dat is niet alleen zo bij de hier gebruikte normale verdelingen voor de persoons-
parameter X, maar ook voor het geval t = log X uniform verdeeld is op (0,10) zoals bij
Jansen. De kansdichtheid van X is dan namelijk

Deze dichtheid stijgt steeds sneller tot x = 2.30 en valt dan abrupt naar nul (zie fig. 1).
Een dergelijke verdeling maakt expliciete berekening van pj erg gemakkelijk, maar lijkt
mij weinig realistisch. Onder gebruik van de empirische gelijkwaardigheid van de normale
en de logistische verdeling wordt mijn voorkeur voor een normale verdeling van X onder-
steund door Lord & Novick (1968, par. 16.11). Een algemene discussie over de verdeling
van X geven Andersen & Madsen (1977). De verdeling van Jansen maakt het in elk geval
erg lastig aan het in paragraaf 3 te schetsen ideaalbeeld van een Mokken-schaal te voldoen.

Het ideaal van Mokken is, zoals uit hoofdstuk 2 van zijn boek blijkt, een schaal die zo
weinig mogelijk afwijkt van een perfect Guttman-scalogram: uit de totaalscore S van een
subject moet, afgezien van een beperkt aantal fouten, te voorspellen zijn dat hij/zij de S
gemakkelijkste items correct en de overige items onjuist heeft beantwoord.
Het ideaal van Rasch is de specifieke objectieve meting; uit de eisen van unidimensionali-
teit, monotonie, afdoendheid en locale onafhankelijkheid volgt zoals bekend dat alle
itemkarakteristieke curven evenwijdig en logistisch zijn.

Het ideaal van de klassieke testtheorie is een kleine meetfout, dus een hoge betrouwbaar-
heid en hoge item-totaalcorrelaties. Uit een itemverzameling worden daartoe vooral de
items met een populariteit rondom i in de schaal opgenomen; bij extreem hoge of lage
populariteit is de correlatie door het verdelingseffect lager.

Het is instructief om in het in paragraaf 2 gebruikte voorbeeld van logistische items en een
normaal (//, a^) verdeelde persoonsparameter de variantie a^ extreme waarden te laten
aannemen. De resultaten kunnen tevens worden geïnterpreteerd door de latente parame-
ter zo te herschalen dat a = 1 blijft maar de helling van de items wordt aangepast.
Voor a -><» nadert de figuur dan tot het perfecte Guttman-scalogram. Voor grote a, in
ons voorbeeld a> 1.5, ontstaan Mokken-schalen met evenwijdige curven. Voor kleinere a
ontstaan Rasch-schalen met een beperkte variantie in de totaalscore, die voor een flink
deel door de toevalsfluctuaties wordt bepaald. Voor a O worden de curven, na herscha-
ling op a = 1, nagenoeg horizontaal: dit is het Rasch-model aangepast aan toevalsgetallen
waarover Wood (1978) heeft gepubliceerd.

Het belangrijke voordeel dat de moeilijkheid van Rasch-items in principe populatie-vrij
kan worden geschat moet ons niet doen denken dat elke Rasch-schaal daarmee voor elke
populatie ook een nuttig meetinstrument is geworden. Bij te grote spreiding van de item-
moeilijkheden t.o.v. de persoonsparameters (kleine a in ons voorbeeld) is het informatie-
gelialte (Birnbaum, 1968 of Fischer, 1974) van de schaal voor de meeste respondenten ge-
ding, en zal de betrouwbaarheid in de zin van de klassieke testtheorie ook erg tegenvallen,
"anneer Jansen holomorfie als 'moderne homogeniteit' begroet en meent dat een schaal-
Procedure in de eerste plaats een holomorfe itemverzameling moet zoeken, gaat hij vol-
pns mij aan dit bezwaar voorbij. Voor het begrip holomorfie is, zoals Jansen aan zijn
beide voorbeelden toelicht, het verschil in iteminoeilijkheden inderdaad niet relevant.
Voor de constructie van een schaal waarbij de totale score een zinvolle meting van de be-
doelde eigenschap mogelijk maakt, komt er wel meer kijken dan holomorfie, en dan doen
'le van de moeilijklieid afhankelijke H-waarden hun nuttig werk. Tussen de Rasch-analyse
en de klassieke testtheorie streeft Mokken in zekere zin naar een tussenpositie, door al-
leen die Rasch-schalen te accepteren die tevens de reproduceerbaarheidseis van het score-
Patroon uit de totaalscore niet te veel geweld aandoen, en bovendien in de zin van de klas-
sieke test-theorie voldoende betrouwbaar zijn.

P® l^fitiek van Jansen is op diverse punten bruikbaar. Zij maakt duidelijk dat H geen coëf-
ficiënt voor holomorfie is, zoals Mokken hier en daar lijkt te suggereren. 'Mokken als
voonvas voor Rasch' spoelt diverse Rasch-schalen met het waswater weg, al zijn dit door-
gaans de minder informatieve Rasch-schalen. De rekenvoorbeelden van paragraaf 2 laten
duidelijk zien dat de door Jansen gevreesde lage Hy-waarden alleen in hinderlijke aantallen
optreden als de persoonsparameters zeer sterk geconcentreerd liggen t.o.v. de itemparame-
^rs; dan ontstaat echter geen zinvolle spreiding in de totale score,
"el Wordt duidelijk dat een blind gebruik van de zoekprocedure 2 in gevallen met wijd ge-
spreide itemmoeilijkheden tot een ongelukkige selectie kan leiden: de twee meest extreme
Items worden als eerste paar gekozen, ook als zij een populariteit ver beneden 0.20 of ver
boven 0.80 hebben. Dergelijke items zijn voor de meeste respondenten te moeilijk of te
makkelijk, en hebben daarom een laag informatiegehalte. Een consciëntieus onderzoeker
zal zulke items doorgaans na een vooronderzoek verwijderen. Ook daarna laat de Mokken-
Procedure in de paragraaf 2 behandelde voorbeelden echter weer slechts drie items toe bij
^ = 1, twee of geen bij a = 0.75 en geen bij a = 0.50. Door het stapsgewijze karakter van
^e procedure is bij zeven items het eindresultaat soms 1,4,7, hoewel items 1,3,5,7 een
eveneens toelaatbare en meer informatieve Mokken-schaal zouden vormen. Dit is overi-
gens snel te ondervangen door de in de inleiding genoemde procedure 4 op een geschikte
oeginverzameling van items los te laten. In een enkel geval zou het kunnen dat procedure
3 een deel van de overblijvende items als een Mokken-schaal voor een ander latent begrip
produceert, hoewel alle items in feite dezelfde latente eigenschap meten.
De Mokken-procedure werkt ook bij niet-evenwijdige curven, mits zij elkaar niet snijden
(holomorfie). Evenals bij het onderzoek van cumulativiteit in Jansen (1981a) is het in de
praktijk voldoende dat zij elkaar niet snijden in het gebied waarbinnen nagenoeg alle per-
soonsparameters liggen. Alleen dat wordt ook onderzocht in procedure 5 (visuele inspec-
tie van de matrix van frequenties van positieve en negatieve antwoordparen), waarvoor

mij helaas geen formele statistische toets bekend is. In gevallen van niet-evenwijdige en/of
niet-logistische curven is de totaalscore niet langer een afdoende grootheid voor de laten-
te parameter, maar zij is op ordinaal niveau nog bruikbaar en zal doorgaans wel nagenoeg
alle informatie over die parameter bevatten: ook hier geldt dat weging meestal niet tot
wezenlijke veranderingen leidt.

De discussie over de voor- en nadelen van de diverse cumulatieve schaalmodellen is hier-
mee geenszins gesloten. De bijdrage van Jansen was hogelijk welkom, maar zijn conclusie
dat de Mokken-procedures 'onbruikbaar' zijn lijkt mij wat overhaast en overdreven ge-
formuleerd.

Andersen, E.B. & Madsen, M. Estimating the parameters of the latent population distribution. Psycho-
metrika,1971,42,351-314.

Fischer, G.H., Einführung in die Theorie psychologischer Tests, Bern: Huber, 1974.

Jansen, P.G.W., Spezifisch objective Messung im Falle monotoner Einstellungsitems, Zeitschrift ßr
Sozialpsychologie, 1981a, 12, 24-41.

Jansen, P.G.W., De onbruikbaarheid van Mokkenschaalanalyse, Tijdschrift voor Onderwijsresearch,
1981b,6.

Lord, F.M. & Novick, M.R., Statistical Theories of Mental Test Scores, Reading (Mass.): Addison-
Wesley, 1968.

Molenaar, W., boekbespreking van Mokken (\91\), Nederlands Tijdschrift voor de Psychologie, 1972,
27, 301-302.

Wood, R., Fitting the Rasch-model - a heady tale, British Journal of Mathematical and Statistical
Psychology, 1978,i/, 27-32.

Paul G.W. Jansen'
Postbus 20013, 2500 EA Den Haag
Edward E.Ch.l. Roskam^
Arnold L. van den Wollenberg^

Molenaar (1982) doet in zijn commentaar op Jansen (1982a) een groot aantal bewerin-
gen; met minstens één daarvan stemmen wij hartgrondig in, namelijk wanneer hij in de op
één na laatste zin van zijn artikel stelt dat 'de discussie over de voor- en nadelen van de di-
verse cumulatieve schaalmodellen hiermee geenszins gesloten is'. Als bewijs daarvan mag
gelden dat naar aanleiding van Jansen (1982) en Molenaar (1982) zich bijvoorbeeld ook
Roskam en Van den Wollenberg het hoofd zijn gaan breken over de techniek van de Mok-
kenschaalanalyse. In gezamenlijk overleg hebben toen Jansen, Roskam en Van den Wol-
lenberg besloten hun gedachten over deze zaak te bundelen tot één enkel weerwoord op
Molenaar (1982); Molenaars commentaar bleek daarvoor voldoende aanknopingspunten
te bieden. Vandaar dat deze reactie onder auspiciën staat van een driehoofdig auteur-
schap.

Niet geheel los daarvan kan gezien worden dat deze bijdrage tot de discussie is opgebouwd
uit drie min of meer onafhankelijke delen: De paragrafen 2, 3 en 4. In alle paragrafen
Wordt commentaar geleverd op Molenaars commentaar, elke paragraaf doet dat echter
vanuit een ander uitgangspunt. Zo ligt in paragraaf 2 de nadruk op de presentatie van
Mokkenschaalanalyse in de erop betrekking hebbende hteratuur; nagegaan wordt in welke
mate de zogenaamde relevante bronnen met betrekking tot deze techniek bijgedragen
hebben tot de klaarblijkelijke verwarring over het doel en de werking ervan.
Paragraaf 3 spit de in Jansen (1982) voorgestelde en door Molenaar (1982) voortgezette
"vergelijking tussen Mokkenschaal en Raschschaal verder uit. In paragraaf 4 tenslotte
opent zich een wijder perspectief: Welke opvatting van schaalbaarheid hgt ten grondslag
aan het concept van een Mokkenschaal, en kan die opvatting overeind blijven in het licht
Van algemene grondslagen van de schaalbaarheidstheorie.

Alle drie de benaderingen bhjken de reeds in Jansen (?) getrokken conclusie te beves-
tigen: De door Mokken (1971) voorgestelde methode van schaalanalyse is inconsistent, en
omdat niet voldoende duidelijk is wat een Mokkenschaal is of pretendeert te zijn, staat
de bruikbaarheid van deze methode op losse schroeven.

ln deze paragraaf gaan we in op de wijze waarop Mokkenschaalanalyse wordt gepresen-
teerd in de relevante bronnen, dat wil zeggen in de enige voor raadpleging in aanmerking

^ Vakgroep Mathematische Psychologie, KathoUeke Universiteit, Postbus 9104 6500 HE Nijmegen.

komende verhandelingen over deze schaaltechniek. Die bronnen zijn ten eerste uiteraard
Mokken (1971), en ten tweede de programmabeschrijvingen MOKKEN SCALE door Nie-
möller (1976) en MOKKEN TEST door Niemöller & Van Schuur (1977). Deze als het wa-
re 'historische' benadering van Mokkenschaalanalyse zal duidelijk maken dat de discussie
over de voor- en nadelen van deze procedure wat ons betreft niet slechts een academisch
onderonsje is, maar in eerste instantie gebaseerd is op de ervaring van een potentiële ge-
bruiker die zich afvraagt: 'Wat is de bedoeling van Mokkenschaalanalyse?', en die consta-
teren moet dat nauwkeurige (her-)lezing van de beschikbare literatuur de onduidelijkheid
alleen maar vergroot. Alleen al om die reden zou zo'n gebmiker ons inziens moeten af-
zien van de toepassing van deze methode: Mokkenschaalanalyse wordt dan verworpen
omdat de beschrijvingen ervan als volstrekt onvoldoende worden bevonden.
Uiteraard kan met zulk een op de beschikbare literatuur gebaseerde depreciatie niet vol-
staan worden; men zou tenslotte nieuwe handleidingen kunnen schrijven, gebmikmakend
van de bevindingen van Jansen (1982) en Molenaar (1982). Derhalve wordt in paragraaf
4 uiteengezet dat in dit geval zulke pogingen noodzakelijkerwijs tot mislukking gedoemd
zullen zijn.

Bij onze gang door de beschikbare literatuur zullen wij Molenaars commentaar niet verge-
ten; ook zijn uiteenzetting moet tenslotte beschouwd worden als een relevante bron. Het
zal echter blijken dat ook Moienaar (1982) een bijdrage levert aan de in de literatuur aan-
getroffen verwarring over het hoe en het waarom van de schaalanalyse volgens Mokken.

Molenaar stelt in paragraaf 1, ons inziens terecht, dat Mokken in zijn dissertatie veel on-
nodige verwarring creëert. In tegenstelling tot Molenaar zijn wij echter van mening dat die
verwarring nog steeds bestaat, dat bijvoorbeeld lezing van de programmabeschrijving voor
MOKKEN SCALE (Niemöller, 1976) in het geheel geen duidelijkheid schept over wat de
techniek nu eigenlijk beoogt, en dat nauwkeurige lezing van Mokken (1971) in die zin
geen uitsluitsel vermag te geven dat elke lezer er blijkbaar iets anders leest (zo bijvoor-
beeld Molenaar en de huidige auteurs). Die verwarring wordt manifest in paragraaf 3 van
Molenaar waar deze schrijft dat de technieken van Mokken erop gericht zijn na te gaan of
de afwijkingen van het Guttman-model voldoende klein zijn, dat wil zeggen volgens Mo-
lenaar is het ideaal van Mokken 'een schaal die zo weinig mogelijk afwijkt van een perfect
Guttman-scalogram'. Hij verwijst daarbij met een machtig maar weinig informatief gebaar
naar het hele hoofdstuk 2 van Mokken (o.c.).

Mokken stelt echter (in datzelfde hoofdstuk 21) dat 'it is strange that in the general
application of scalogram analysis the point has virtually never been stressed that such low
values (van reproductiecoëfficiênten) may be in the first place due to the fact that a
deterministic model is unrealistic. In this sense scalogram analysis is also a test of a
hypothesis of deterministic response behavior. (...). Guttman and his associates clearly
saw the possibilities of unidimensional measurement with other than deterministic
models, as witnessed by their introduction of the concept of a quasi-scale. (...). The quasi-
scale is, in fact, nothing but a stochastic response model in embryonic form. We shall
analyse some of the properties of a fairly general class of models of this type in the next
two chapters'{o.c., 70-71).

Het eerste citaat suggereert een deterministisch schaalmodel met steekproeffouten, het
tweede een probabilistisch schaalmodel met 'intrinsic probability' (cf. Camilleri, 1970,
142). Welke wordt door Mokken beoogd? Welke is het meest geschikt voor itemanalyse
en/of schaalanalyse?

Er moet een onderscheid gemaakt worden tussen wat Mokkenschaalanalyse kan doen en
^at zij pretendeert te doen (volgens Mokken (1971) en Niemöller (1976)). We zouden de
procedures van Mokken kunnen beschouwen als een soort controle op de mate waarin
de data een perfecte Guttmanschaal benaderen (zie Jansen, 1982, paragraaf 1.2); daarvoor
Z'jn ze (dat wil zeggen: Loevingers Hy) dan ook bedacht. Het is overigens de vraag of H
ook een goede basis is voor schaalconstructie (zie paragraaf 4). Het is echter ons inziens
duidelijk dat Mokken per se wenste te streven naar probabilistische schalen en dat de
programmabeschrijving van Niemöller daarbij aansluit.

"at Mokken betreft: In Jansen (1982, begin van paragraaf 2.1) is ons inziens de gedachte-
gang van Mokken correct weergegeven (cf. diens paragraaf 2.7: o.e., 70-71), en die loopt
"'t op de eis van een probabilistisch schaalmodel, gebaseerd op aan stochastiek onderhe-
vige responsies. Ons inziens in het laatste wat Mokken wilde alwéér een soort reproductie-
coëfficiënt leveren; afgezien natuurlijk Van het feit dat Loevinger dat reeds had gedaan.
Het is ons inziens niet de intentie van Mokken geweest met zijn procedures items te zoe-
ken die dicht bij het Guttman-ideaal komen. Mokken wilde 'iets probabilistisch'.

Niemöller betreft: Op pag. 3 van Niemöller (1976) wordt gezegd:
Mokken presenteerde in 1970 het probabilisties model waarop de STAP procedure MOK-
KEN SCALE is gebaseerd', en even verder: 'Alvorens echter Mokken's probabilistiese mo-
"e/ te behandelen zullen we eerst Guttman's deterministiese model introduceren'. Op
P- 21 wordt in paragraaf 2.1.7 opnieuw aan Mokken de ontwikkeling van een probabilis-
Jisch schaalmodel toegeschreven. Ook Niemöller beschrijft Mokkenschaalanalyse dus als
iets probabilistisch'.

Onze conclusie is dat Mokkenschaalanalyse in de relevante bronnen wordt aangeprezen als
een techniek voor de detectie van probabilistisch schaalbare itemsets. Ten overvloede nog
net volgende citaat uit Mokken (o.e., 17): 'These nonparametric models, which are called
'nonotonely homogeneous and holomorph or doubly monotone seem fairly natural
counterparts of the Guttman model'. In dit citaat wordt overigens de vraag welk type
probabilistisch schaalmodel Mokken voor ogen had ondubbelzinnig beantwoord: Een
probabilistische uitbreiding van het Guttmanmodel. En dat nu is ons inziens niets anders
dan holomorfie, waarvan Raschhomogeniteit weer een bijzonder geval is.

Holomorfie als probabilistisch analogon van Guttmanhomogeniteit.
Er is bij dit probabilistische analogon van een Guttmanschaal immers sprake van een mo-
del voor stochasfische responsies, waarbij de ICC's, die in de latente structuur-formule-
"ng van het model optreden, gekarakteriseerd zijn door de eigenschap van dubbele mono-
°nie. Laten we Mokkens extra eis van 'zalfde functionele vorm van de ICC's als zijnde
met relevant buiten beschouwing (cf. Jansen, 1982, paragraaf 2.1) dan mogen we spreken
Van holomorfie als schaalcriterium. Holomorfie kan dan gelezen worden als 'probabilis-
"sch equivalent van het Guttman-ideaal', c.q. als 'dubbele monotonie'. Dubbele monoto-
nie moet dan gezien worden als een theoretische modeleigenschap, geformuleerd in ter-
IJ^en Van eigenschappen van de ICC's (Mokken, o.e., 118), en niet als een eigenschap van
^ data, bijvoorbeeld in termen van de tweede orde relatieve frequenties py (1,1) en py
v^'0); Mokken (o.e. 132-133) ziet deze laatste slechts als noodzakelijke en falsifiëerbare
^enmerken van holomorfie (o.e., 132), c.q. dubbele monotonie (o.e., 133). Kortom Mok-

en in navolging van deze Niemöller (o.e.) hebben een ideaal voor ogen, namelijk ho-
omorfie. Het aardige is overigens dat ook Molenaar in zijn commentaar (paragraaf 3) een

Mokkenschaal beschrijft als de tussenvorm tussen een perfecte Guttmanschaal en een
Raschschaal. Zoals wel vaker leidt deze middenpositie tot onduidelijkheid: Het model is
probabilistisch (er is immers geen echt midden tussen determinisme en probabilisme)
maar de gebruikte techniek (Hy) deterministisch, dat wil zeggen geënt op een determinis-
tische situatie. We komen hierop nog terug, concluderen hier alleen dat ook Molenaar er
niet aan ontkomt een Mokkenschaal te definiëren als een probabilistisch Guttman-scalo-
gram.

We resumeren: De techniek van Mokkenschaalanalyse is gebaseerd op een 'probabilis-
tisch en non-parametries model voor cumulatieve ééndimensionele schaalanalyse' (Nie-
möUer & Van Schuur, 1977; beter ware overigens: 'probabilistisch nonparametrisch mo-
del voor een cumulatieve ééndimensionele schaal', zie paragraaf 4) dat wil zeggen op ho-
lomorfie c.q. dubbele monotonie als modelmatig ideaal. Een verder strijdpunt tussen Mo-
lenaar en Jansen bestaat dan uit de positie van de H-ana!yse (Hy, Hj en H) t.a.v. het zo-
juist theoretisch omschreven schaalmodel. Ook in dit geval dient ons inziens weer een
scherp onderscheid gemaakt te worden tussen wat de H-analyse feitelijk doet en wat de
H-analyse pretendeert te doen. Het twistpunt tussen Molenaar en ons komt dan neer op
het verschil tussen enerzijds de opvatting dat de H-analyse pretendeert te doen wat zij
doet (Molenaar) en anderzijds de opvatting dat de H-analyse iets anders pretendeert vol-
gens, alweer, de voor raadpleging in aanmerking komende bronnen. Om te ontdekken
wat de H-analyse pretendeert te doen moeten we ons tot NiemöUer (o.c.) en Mokken
(o.c.) wenden.

De uiteenzetting van NiemöUer loopt grotendeels paraUel aan het betoog in de paragrafen
1 en 2 van Jansens artikel: Deterministische Guttmanschaal (o.c., 12f), deterministische
Guttmanschaal met fouten (o.c., 16f), maten voor de schaalbaarheid van een dataset
volgens het deterministische Guttman-model (o.c., 181). introductie van de aantrekkelijke
schaalbaarheidsmaat van Loevinger voor het deterministische Guttman-model (o.c., 20),
en op p. 21 lezen we het cmciale resultaat: 'Dat we daar (dat wil zeggen: bij Loevingers
Hy) uitvoerig bij hebben stil gestaan komt omdat we voor probabilistische schalen ook
een dergelijke coëfficiënt nodig hebben om de kwaliteit van een schaal in uit te kunnen
drukken'. Het is van belang op te merken dat hier de term 'de kwaliteit van een schaal'
zonder nadere specificatie gebruikt wordt (we komen hierop nog terug). Vervolgens
vindt in NiemöUer (o.c.) de overgang naar probabilistische schalen plaats (o.c., 22f) en
worden de begrippen dubbele monotonie en holomorfie geïntroduceerd (o.c., 26). We
lezen dan op p. 27: 'Bij de behandeling van het deterministische model bleek reeds de
noodzaak de beschikking te hebben over een coëfficiënt waarin de kwaliteit van een
schaal tot uitdrukking kan worden gebracht. Daarbij werd geconcludeerd dat een derge-
lijke coëfficiënt van het Si-type dient te zijn. De door Mokken gekozen homogeniteits-
coëfficiënt H (van Loevinger) is van het Si-type'. Dit citaat geeft in twee opzichten te
denken: Ten eerste vindt hier de in paragraaf 2.2 van Jansens artikel beschreven transplan-
tatie van Loevingers Hy naar probabilistische schalen plaats, en ten tweede wordt hier op-
nieuw gesproken van 'de kwaliteit van een schaal', analoog aan de deterministische situa-
tie en zonder verdere specificatie. Verder lezen verschaft wat dit betreft helaas geen hel-
derheid: Er wordt uitsluitend gesproken van 'schaalbaarheid van een aantal items' (o.c.,
31), of kortweg van de 'schaalbaarheidscoëfficiënt' (o.c., passim), zonder toevoegingen
die bij voorbeeld in termen als Guttmanhomogeen of Raschhomogeen het criterium van

homogeniteit noemen. Dat is daarom zo verwarrend omdat in de op p. 33 gegeven scliaal-
defmitie volgens Mokken (zie Jansen, 1981, paragraaf 2.2) gestipuleerd wordt dat een stel
Items een 'schaal' genoemd mag worden als de schaalbaarheidscoè'fficiëntert ervan (Hj)
groot genoeg zijn.

De lezer kan ons inziens maar één conclusie trekken: Gegeven de definitie van H - in het
detemiinistische geval (Hjj als een soort van verliesfunctie die de afwijking van het^ideaal-
"lodel representeert) en gegeven het in de probabilistische situatie nagestreefde ideaal-
model van probabilistisch Guttman-scalogram c.q. dubbele monotonie c.q. holomorfie, kan
in Niemöller de term 'kwaliteit van een schaal' niet anders gelezen worden dan 'de mate
Van afwijking van het probabilistische ideaalmodel'. De van Loevinger geleende homogeni-
tehscoèfficiént pretendeert dan een maat te zijn voor probabilistische Guttmanhomogeni-
teit, c.q. holomorfie. Nogmaals, het gaat hier om een pretentie; een pretentie die, zo
toont Jansen (1982) aan, niet volgehouden kan worden, een pretentie die, zo hopen wij
nu aangetoond te hebben, haar oorzaak vindt in de onduidelijke presentatie van Mokken-
schaalanalyse in de relevante bronnen.

Overigens is Mokken (o.c.) wat het functioneren van Hy betreft duidelijker. Diens para-
graaf 5.1.7 (o.c., 182-185) is cruciaal. De aldaar gevolgde redenering verschilt niet van die
Van Niemöller, zij het dat Mokken expliciet coëfficiënt H ziet als een maat voor holomor-
fe. De paragraaf begint als volgt (o.c., 192); 'The findings of chapter 4 also provide a
^eans of defining a criterion of scalability. In section 5.1.5 we saw that the old notion
°f 'small' 'enor' probabilities was supported as a corollary of monotone homogeneity,
^ost coefficients of scalability incorporate this notion and therefore seem promising as
'^ measure o/scalability as far as monotone homogeneity is concerned. From the discus-
^'on in chapter 2 it will be clear that we prefere a coefficient of type S^ (...). We prefer
use the coefficient of homogeneity, H, as a criterion of scalability in the sense of
Monotone homogeneity, for a number of reasons'. We zien: Een probabilistisch schaal-
eriterium (monotone homogeniteit, een afzwakking van holomorfie; cf Jansen, 1982,
paragraaf 2.1), en een deviatiemaat of stressmaat H ('small error probabilifies'). Beide no-
ties komen opnieuw naar voren in de citaten: We shall want a reasonable homogeneity
for every item in our scale as measured by the item coefficient H{ (o.c., 184), en: 'The
choice of H seems particularly appropriate in this respect because it is based on the 'error'
probabilities (...)for all item pairs'{o.c., 183).

erecht merkt Molenaar op dat Mokken hier erg verwarrend is; terecht vandaar, zeggen
Wij. dat deze schaaltechniek het predicaat 'onbmikbaar' meekrijgt, temeer daar ook Nie-
möller (o.c.) geen helderheid vermag te verschaffen. Op een simpele vraag van onze
i^ant: 'Wat doet Mokkenschaalanalyse?', komt vanuit de literatuur het antwoord: Loevin-
prs coëfficiënt is een maat voor 'de kwaliteit van een schaal' (Niemöller, 1976) voor
schaalbaarheid' (Niemöller, 1976; Mokken, 1971), voor 'monotone homogeniteit' (Mok-
J^en, 1971), voor homogeniteit sèc (Mokken, 1971; Niemöller, 1976). Vervolgens tracht
^olenaar op aanstichten van Jansen (1982) meer dan tien jaar na Mokken (over 'over-
haast' gesproken ...) op een wat meer exacte wijze het reilen en zeilen van de H-analyse
"it de doeken te doen (zie voor commentaar daarop paragraaf 3 van onze bijdrage). Maar
nelaas: We weten het nóg niet... (zie onze paragraaf 4).

ln zijn commentaar op Jansen (1982) trekt Molenaar een vergelijking tussen het Rasch-
model en de Mokken-schaal procedure. Hij doet dit aan de hand van een aantal datasets,
welke volgens het Rasch-model geconstrueerd zijn. Zijn analyses brengen hem tot de vol-
gende conclusies:

1. Rasch items vormen een Mokken-schaal als de persoonsparameters maar niet te sterk
geconcentreerd liggen ten opzichte van de item parameters.

2. Die Rasch schalen welke geen genade in de ogen van de Mokken procedure vinden, zijn
de minder informatieve schalen.

3. Ook lijkt hij te suggereren dat er een soort ordening is van schaaltypen van de Gutt-
man-schaal via de Mokken-schaal en de Rasch-schaal naar de situatie beschreven door
Wood (1978), waarin van een random structuur sprake is en alle item karakteristieke
curves evenwijdig aan het latente continuum lopen.

Zonder het expliciet te stellen lijkt Molenaar, al met al, te zeggen dat de Mokken proce-
dure wel degelijk zinnig als voorwas voor Rasch gebruikt kan worden.
Zonder ons in een nadere tekst exegese te begeven, lijkt het nuttig onze positie ten aan-
zien van deze mogelijke relatie tussen de Mokken-schaal en de Rasch-schaal, wellicht ten
overvloede, uiteen te zetten.

Zoals reeds door Jansen (1982) betoogd is, treffen we in Mokkens definitie^ van het be-
grip holomorfie alle axioma's van het Rasch-model aan op een na. In plaats van dit laat-
ste axioma, afdoendheid, is binnen dit holomorfie begrip wel de zwakkere eis van ge-
lijke functionele vorm van de item-karakteristieke curves aanwezig. Holomorfie stelt dus
een zwakkere eis aan een datastructuur dan Rasch-homogeniteit.

Een procedure waarbij men eerst de houdbaarheid van een meer algemeen, en dus zwak-
ker, model onderzoekt alvorens de data met een sterker model te confronteren, stuit
theoretisch op geen enkel bezwaar. Het zal dan wel zo moeten zijn, dat het zwakkere mo-
del werkt als een 'grovere zeef in vergelijking tot het sterkere model. Ahes wat door het
sterke model geaccepteerd wordt moet a fortiori door het zwakkere model geaccepteerd
worden. Jansen, nu, toonde aan dat de Mokken-schaal procedure niet aan deze eis voldoet
en dat deze zoekprocedure dus niet holomorfie als selektie criterium impliceert. Hiermee
vervalt de theoretische basis voor Mokken-schaal analyse als voorwas voor Rasch.
Naast de vraag of'de Mokken-schaal procedure als voorwas voor Rasch theoretisch te ver-
dedigen valt, moet ook de vraag gesteld worden of deze voorwas wel wenselijk of nodig
is. Er zijn, naar wij menen, twee soorten redenen om deze voorwas te wensen; pragma-
tische en theoretische. Pragmatisch zijn de redenen die betrekking hebben op kostenas-
pecten en algorithmische complicaties bij het uitvoeren van de computer analyses; voor-
selectie van items zou kostenbesparend kunnen werken en eventuele drempels van algo-
rithmische aard kunnen omzeilen.

Door het efficiënter worden van programma's en het sneher worden van computers wor-
den dit soort argumenten van minder belang. Reeds nu bieden de bestaande program-
ma's voor het Rasch-model voldoende mogelijkheden om het op dit punt zonder MOK-
KEN SCALE te kunnen stellen. Als men het Rasch-model hanteert, kan de voorwas wor-
den overgeslagen.

De argumenten van theoretische aard zouden erop neer komen dat het inhoudeUjk zin-
vol is om aandacht te besteden aan holomorfie, niet Rasch-homogene, datastructuren. Ge-
zamenlijke toepassing van Rasch en Mokken zou dan een procedure opleveren om binnen
de klasse van holomorfe modellen de Rasch-homogene datastructuren te onderscheiden
van de niet Rasch-homogene, maar wel holomorfe structuren. Het tragische, evenwel, is
nu dat MOKKEN SCALE een dergelijke discriminatie niet tot stand vermag te brengen.
Onze conclusie moet dus luiden dat MOKKEN SCALE als voorwas voor Rasch theore-
tisch niet verantwoord is, maar evenmin wenselijk of nodig.

De opmerking dat in de Mokken procedure slechts de minder informatieve Rasch schalen
door de gootsteen verdwijnen behoeft eveneens een nadere beschouwing.
Allereerst dient opgemerkt dat Molenaar zijn conclusies baseert op geconstrueerde data-
sets, waarin de verdeling van de subjectparameters de normale was.'* Zijn conclusies moe-
ten dan ook steeds onder deze restrictie bezien worden.

Het Rasch model staat ons toe de subjectparameter verdeling te negeren bij de constructie
Van een schaal; de itemparameters worden geschat onafhankelijk van de subjectparame-
ters. De informatie, I, van een itemset met betrekking tot de subjectparameters is:

en dus een steekproefafhankelijke grootheid (ttjv is hierbij verkregen middels de basisver-
gelijking, (2), van het Rasch-model).

Het is dienstig om een onderscheid te maken tussen twee fasen van het schaalconstructie
proces. Eerst wordt de schaalbaarheid van een item-pool onderzocht, hetgeen onafhanke-
jijk van de subjectparameter verdeling behoort te geschieden, hetgeen ook kan wanneer
net Rasch-model opgaat. Vervolgens kan, alnaargelang de toepassing, een selectie van
Items gemaakt worden met een zo hoog mogelijke informatiewaarde, opdat de subject-
Parameters met een zo klein mogelijke meetfout worden geschat. Hoewel deze fasen in
de praktijk door elkaar heen zullen lopen, zijn zij theoretisch onderscheidbaar en in prin-
cipe onafhankelijk (zie ook paragraaf 4). Molenaar haalt het criterium uit de tweede fase
langs een achterdeur binnen in de eerste fase, als hij zegt dat het slechts de minder infor-
matieve schalen zijn die de schaalbaarheidsfase niet overleven.

Het kan heel wel mogelijk zijn dat een (sub)schaal met weinig informatie met betrekking
tot een steekproef een hoge informatiewaarde heeft met betrekking tot een andere steek-
proef. De meest geprononceerde toepassing van dit idee is tailored testing; juist om een
goede itempool voor tailored testing op te kunnen bouwen is het nodig dat de items ten
ppzichte van de persoonsparameters sterk gespreid liggen, zodat er voor alle subjecten
Items bestaan met hoge informatiewaarden.

Het Rasch-model maakt het mogelijk om schalen te ontwikkelen met behulp van relatief
homogene groepen (concentratie van subjectparameters ten opzichte van itemparameters)

^ Het begroep dat Molenaar in deze doet op de voorkeur van Lord en Novick (1968) voor de nor-
"laal verdeling is niet terzake; Lord en Novick spreken over de kans op een positief respons als functie
Van de latente trek; deze functie is in hun geval de cumulatieve normaal verdeling. Molenaar praat over
®en verdeling van subjectparameters, welke in het Rasch-model beslist niet logistisch hoeft te zijn, dus
ook niet met de normaal verdeling benaderd hoeft te worden.

om ze vervolgens te hanteren in steekproeven met andere verdelingskarakteristieken,
waarvoor de informatiewaarde dan ook een andere is.

Ook de ordening van schaaltype Guttman-Mokken-Rasch-Wood, die Molenaar beschrijft
vraagt om critisch, commentaar. Wood (1978) onderzocht een datastructuur die verkre-
gen was door een 500 (subjecten) bij 50 (items) matrix te vullen met nullen en enen met
behulp van een eerlijke munt. Hij toont zich vervolgens verbaasd dat het Rasch-model de-
ze datastructuur blijkt te fitten. Vervolgens argumenteert hij dat de items geen onder-
scheidingsvemiogen hebben, omdat de data rondom zijn, en dat de item-karakteristieke
curves parallel verlopen aan de subjectparameter as. Molenaar verklaart deze situatie van
toepassing op zijn voorbeelden, wanneer de variantie van de subject parameter verdeling
naar nul gaat. Dit nu is naar onze mening een foutieve appreciatie van het Rasch-model.
Laten we de situafie zoals geconstrueerd door Wood eens nader bekijken. Het Rasch-
model fit de zogenaamde random dataset van Wood, simpelweg omdat het als een Rasch
homogene dataset geconstrueerd is. Bekijken we hiertoe de basis formule van het Rasch
model:

Indien we voor ieder item en ieder subject de zelfde parameter waarde invullen, te weten
0.0, dan is iedere TTjv gelijk aan .5. Het is exact deze situatie die door Wood wordt bestu-
deerd. Zijn conclusie dat de itemdiscriminaties nul zijn is fout of zinloos. Het Rasch mo-
del staat toe itemkarakteristieke curves te schatten onafhankelijk van de subjectverdeling;
ook al hebben de geobserveerde subjecten allen dezelfde parameter, dan is men nog in
staat om de responsie waarschijnlijkheden te bepalen van niet geobserveerde subjecten,
als hun parameters maar gegeven zijn. Bij iedere ruwe score hoort een schatting van de
subjectparameter en deze is, in de situatie waarin slechts één waarde van de subjectpara-
meter in de steekproef vertegenwoordigd is, hetzelfde als in de situatie waarin een repre-
sentatieve selektie van alle mogelijke waarden is gemaakt. De itemkarakteristieke curve
zal dus toch de oude vertrouwde logistische vorm hebben.

Indien Wood spreekt over discriminatievermogen met betrekking tot de latente trek (on-
afhankelijk van de steekproef), dan is hij fout. Spreekt hij over discriminatievermogen
met betrekking tot de steekproef, dan is zijn uitspraak zinloos; er valt niets te discrimi-
neren, omdat de subjecten allen dezelfde parameter hebben. Wood is bezig toevalsfluctua-
tie te analyseren, dat wil in dit geval zeggen de toevalhge afwijkingen van de geschatte
item en subjectparameters van hun ware waarde (0.0).

De kritiek op Wood gaat ook op voor Molenaar: itemkarakteristieke curves hebben in het
Rasch-model altijd dezelfde, logistische vorm en zijn nooit parallel aan de latente dimen-
sie. Het is juist zo mooi van het Rasch-model dat de karakteristieke curve onafhankelijk
is van de aangetroffen subject verdeling. Normeringen die de schaal weer koppelen (hoe-
wel slechts in schijn) aan de verdeling van subjectparameters doen het basis idee van het
Rasch-model geweld aan. Indien men in het Rasch-model normeert dan dient dit gelijk-
tijdig te gebeuren voor items en subjecten, omdat deze nu eenmaal op een gemeenschap-
pelijke schaal gemeten worden; het is dus ook onmogelijk om via hernofmering een an-
dere helling te verkrijgen.

Het is wel mogelijk de meeteenheid van de latente trek groot te nemen ten opzichte van

de schaal die voor de responsiewaarschijnlijkheid wordt gehanteerd, hetgeen een geringe
helling van de itemkarakteristieke curve suggereert. Dit ressorteert evenwel onder de ca-
tegorie 'how to lie with statistics'. De situatie als beschreven in Wood kan gevoegelijk uit
de ordening worden weggelaten.

Ook de overgang tussen Mokken en Rasch lijkt Molenaar op te hangen aan de heUing van
de curves. Zoals reeds boven betoogd is de heUing van de curve in het Rasch model altijd
hetzelfde, als dezelfde normering wordt gehanteerd; de verdeling van subjecten kan na-
tuurlijk van geval tot geval verschillen. Omdat de verdeling van subjectparameters niet re-
levant is voor Rasch als schaalmodel, lijkt het niet op zijn plaats dit als contracriterium te
hanteren ten opzichte van een ander schaalmodel. Daarnaast moet wederom geconsta-
teerd worden dat de schaalprocedure van Mokken niet holomorfie impliceert; de garantie
dat de gevonden schaal holomorf is kan niet gegeven worden. De Mokken schaal is geen
tussenvorm tussen Rasch en Guttman.

Per saldo resteren het Rasch model en het Guttman model. Het model van Guttman als
ideaal van een deterministische cumulatieve schaal, het Rasch model als het ideaal van een
probabilistische cumulatieve schaal.

Over één punt zijn we het blijkbaar ahemaal eens: in Mokken (1971) treden de termen
(monotoon>homogeen, holomorf en dubbelmonotoon in verwarrende afwisseling op, en
door Mokken is ten onrechte de indruk gewekt dat de H-coëfficiënt als een maat voor een
of meer van dit begrippen-trio kan dienen. De vraag is natuurlijk waarvoor de H-coëffi-
ciënt dan wel dient. Als Molenaar voorts demonstreert wat de Mokken-procedure doet
rnet een verzameling Rasch-homogene items, dan bevestigt hij aheen maar Jansen's kri-
tiek, nl. dat de Mokken-procedure niet deugdelijk is om een verzameling holomorfe (c.q.
dubbel-monotone, c.q. monotone) items te ontdekken. Nu stelt Molenaar echter dat de
Mokken-procedure ook niet deze bedoeling(en) heeft, maar beoogt: 'The construction
of a Scale from a given pool of items'. Die 'schaal' heet dan een Mokken-schaal. De car-
dinale vraag, en tevens bron van alle verwarring is: Wat is een Mokken-schaall Of, algeme-
i^er gesteld: als iemand bezig is een schaal te construeren, wat is hij dan bezig te doen?
De problematiek, waarop wij wellicht een andere visie hebben dan Molenaar, betreft drie

1- Verwarring rond de begrippen schaal en schaalmodel;
2. Verwarring rond de begrippen schaalconstructie en schaalbaarheid;
Verwarring tussen psychometrische idealen en meettheoretische idealen.

Er bestaat in de psychologische literatuur een historisch gegroeide spraakverwarring rond
de termen 'schaal' en 'schaalmodel'. Wij zijn er aan gewend een verzameling items een
'schaal' te noemen, als we die als instrument ter bepaling van een persoonskenmerk ge-
''ruiken. Strict genomen is dat een onzinnig spraakgebruik. Zonder dat wij extreem puris-
tisch willen zijn, lijkt ons het volgende een juiste definitie van een schaal: een schaal is de
(numerieke) representatie van een eigenschap of hoedanigheid van voorwerpen (i.e. per-
sonen enjof itemsj. Onder schaalmodel moet worden verstaan: een formele structuur van
empirische relaties (i.e. responsies van subjecten op items) en hun afbeelding in een alge-

braisch systeem, (cf. Suppes & Zinnes, 1963, p. 11). Gangbare termen zoals Guttman-
schaal hebben betrekking op de relatie tussen een schaal voor een grootheid (bijv. een
attitude) en de responsies van subjecten op items; aldus is de Guttmanschaal als schaalmo-
del gedefinieerd. Gemaks- en eenvoudshalve noemen we een verzameling van items een
Guttmanschaal (of scalogram) indien de responsies aan het Guttmanschaalmodel voldoen.
In de psychologie is de o.i. ongelukkige gewoonte ontstaan itemverzamelingen te con-
strueren die een totaalscore opleveren met bepaalde (aantrekkelijke) statistische eigen-
schappen en die itemverzameling vervolgens een schaal te noemen, hetgeen verwarrend
is: de itemverzameling is het instrument om de schaalwaarde van het meetobject te bepa-
len, hetgeen een schaalmodel veronderstelt. Al geven wij onmiddellijk toe dat een kleine
meetfout (statistisch ideaal van de klassieke testtheorie) een aantrekkelijke eigenschap is,
dergelijke wenselijkheden gaan volledig voorbij aan de vraag wat betrokken schaal meet-
theoretisch voorstelt.

Het komt ons voor dat Molenaar een bepaalde itemstructuur (de zgn. Mokken-schaal)
met een, overigens niet gespecificeerd model, als 'ideaal' poneert, op grond van aantrek-
kelijke psychometrische (statistische) eigenschappen. Zulks in tegenstelling tot, m.n. het
Rasch- of het Guttman-model dat een bepaald ideaal op meettheoretische gronden po-
neert.

Onder 'schaalbaarheid' dienen we te verstaan: het kenmerk van een verzameling items en
personen dat inhoudt dat eigenschappen van beiden in een schaal afbeeldbaar zijn. Men
kan dan - kortheidshalve - zeggen dat de items en de personen schaalbaar zijn, c.q. dat
de items - als schaalinstrument - een schaal vormen. De vraag naar de schaalbaarheid
(schaalanalyse) is niet beantwoordbaar zonder specificatie van een theoretisch model om-
trent de relatie tussen subjecten, items en responsies. De termen schaalbaarheid en schaal-
analyse, zonder specificatie van zo'n model, zijn inhoudsloos. Alleen als het schaalmodel
gespecificeerd is, is de vraag naar de schaalbaarheid beantwoordbaar. Schaalanalyse is
data-analyse met als doel de bepaling van de schaalbaarheid volgens een model. Schaal-
baarheid is aldus een empirische hypothese en zo kan men met Guttman (1977, p. 100)
stellen 'scalability is not to be desired or constructed' - maar wel beproefbaar.
De verdienste van een schaalbaarheidscoëfficiënt is hulpmiddel te zijn om schaalbaarheid
te onderzoeken..Loevinger's H (en andere coëfficiënten) zijn geïntroduceerd om te be-
slissen of een verzameling items en personen volgens het Guttman-model schaalbaar zijn.
Het problematische van dergelijke coëfficiënten is dat zij hoogstens aangeven in welke ma-
te de data voldoen aan het betreffende schaalmodel - mits de impliciete afweging van
schendingen beantwoordt aan zekere ideeën over de oorsprong van die schendingen en
zonder dat die afweging in strijd komt met het betrokken schaalmodel. Zo kan men Loe-
vinger's H gebruiken om te bepalen of een itemverzameling afwijkt van een perfect scalo-
gram - hetgeen volgens Molenaar Mokken's bedoeling schijnt te zijn geweest. Nu is het
Guttmanmodel een deterministisch model, en elke op statistische overwegingen gebaseer-
de maat staat daar haaks op, ook al accepteren we dat bij sommige items en sommige per-
sonen schendingen optreden die we toeschrijven aan niet nader gespecificeerde kansme-
chanismen die in dit verband een subject het 'verkeerde' antwoord doen geven.
Tot zover is sprake van schaalbaarheidsonderzoek en eventueel van schaalconstructie.
Mokken heeft echter (1971, p. 184) aan het begrip schaal een verrassende betekenisver-
andering gegeven: a scale is a set of items which are all positively correlated and with the

property that every item coefficient of scalability (Hj) is larger than or equal to a given
positive constant (c). Zo kan hij vervolgens ook spreken van 'een zwakke schaal', 'een
sterke schaal' etc. Deze wending wordt gemotiveerd door het feit dat het deterministische
Guttman-model niet realistisch is. Treedt daarvoor in de plaats dan een probabilistisch
schaalmodel? Mokken interpreteert het probabilistische karakter van de data door uit te
gaan van een 'probabilistisch non-parametrisch' model dat tenminste voldoet aan mono-
tonie, maar kennelijk doelt Mokken op de klasse van alle holomorfe schaalmodellen. Wel-
nu, Jansen (1982) en Molenaar (1982) tonen duidelijk aan dat een verzamehng van Rasch-
homogene items - die holomorf zijn - niet door de Mokken-procedure als 'schaal' wordt
geaccepteerd. Kennelijk is Loevinger's H als schaalbaarheidscriterium afhankelijk van de
verdeling van de subjecten; het vermoeden ligt voor de hand dat een zgn. Mokken-schaal,
bij toepassing op een andere verzameling subjecten, ineens geen Mokken-schaal meer is.
Het ideaalbeeld van een Mokkenschaal is kennelijk afhankelijk van de verdeling van de
subjecten.

En hiermee komen we op de derde bron van verwarring: de vermenging van psychometri-
sche idealen (steekproef-afhankelijk!) en meettheoretische idealen. Indien een verzameling
items aan een schaalmodel (bijv. holomorfie) voldoet, dan zal aan een schaal-analyse de eis
moeten worden gesteld, dat de items, zoveel mogelijk steekproef-onafhankelijk, worden
geaccepteerd als zij aan dat kenmerk voldoen. Deze eis hoeft natuurlijk niet overdreven
te worden: items die in een bepaalde steekproef (of populatie?) nauwelijks discrimineren,
mogen best uit de boot vallen, en ook items die bij een realistische spreiding van subjec-
ten monotoon zijn, maar bij een grotere spreiding van subjecten niet monotoon zijn, mo-
gen best behouden blijven. Maar als blijkt dat een Rasch-schaal geen Mokken-schaal is als
de persoonsparameters geconcentreerd liggen ten opzichte van de item-parameters, dan
lijkt ons dat een Mokken-schaal een arbitrair gedefinieerde schaal is, die het ideaal van de
klassieke testtheorie tracht te verenigen met het ideaal van een (al dan niet probabilis-
tisch) model voor een cumulatieve schaal. Dat kan men ook inzien als men de defmitie
Van Hjj beziet: Hy = 0y/0y (max). De <p (inter-item correlatie-coëfficiënten) zijn het uit-
gangspunt voor testconstmctie volgens de klassieke testtheorie, die een geringe meetfout,
en dientengevolge gelijke item-p-waarden nastreeft. Dit wordt echter gemitigeerd door 0
te delen door 0-max. Daarmee is het product van de Mokken-schaal-analyse eigenlijk he-
lemaal niet iets dat beantwoordt aan een schaalmodel, maar een statistische hybride zon-
der beslisbare kenmerken (zoals de psychometrie er helaas wel meer heeft voortgebracht
- waarbij op te merken zij dat niet Mokken, maar Loevinger voor de schepping van deze
hybride verantwoordelijk is).

Het nare van een schaalconstmctie procedure zoals deze is, dat hij ad hoe tracht een
schaalmodel te verenigen met idealen uit de klassieke testtheorie, waarbij dat (Guttman>
schaalmodel wordt overgoten met een ondoorzichtig probabilistisch sausje.

Een Mokken-schaal - wat is dat eigenlijk? - is een verzameling items die bij een gegeven
verzameling subjecten voldoet aan het criterium van een Mokken-schaal. Natuuriijk is dat
geen antwoord op de vraag. Een Mokken-schaal is een beetje van dit en een beetje van dat.

Maar je weet niet wat - tenzij in het grensgeval dat de Mokken-schaal een perfect scalo-
gram blijkt te zijn. Molenaar's bewering dat de Mokken-schaalprocedure ook 'werkt' bij
items met snijdende item-karakteristieke kurven, komt ons dan ook voor als een lege be-
wering; er komt inderdaad altijd 'iets' uit, maar wat dat is zal verborgen blijven, zolang
het doel van de procedure niet onafhankelijk van de middelen is gespecificeerd. Mole-
naar's bewering dat zulks een 'schaal' oplevert, waarbij de totaalscore een zinvolle meting
van een eigenschap mogelijk maakt, komt ons zinloos voor, omdat het criterium van zin-
vol niet gegeven is, en in dit verband niet gegeven kan worden.

Wie meent dat een hybride tussen een scalogram en een test volgens de klassieke testtheo-
rie een realistisch en praktisch alternatiefis, zou via externe criteria moeten aantonen dat
de Mokken-procedure vruchtbaar is. Van een dergelijke externe analyse is ons (nog) niets
bekend, en we vrezen dat een hybride in het algemeen onvruchtbaar is.

Camilleri, S.F. Theory, probability, and induction in social research. In: Morrison, D.E. & Henkel,
R.E. (Eds.). The significance test controversy: A Reader. Chicago: Aldine, 1970, 142-154.

Jansen, P.G.W. De onbruikbaarheid van Mokkenschaalanalyse. Tijdschrift voor Onderwijsresearch,
1982.

Lord, F.M. & Novick, M.R. Statistical theories of mental test scores, Reading (Mass.): Addison-Wesley,
1968.

Molenaar, I.W. De beperkte bruikbaarheid van Jansen's kritiek. Tijdschrift voor Onderwijsresearch,
1982.

NiemöUer, B. Schaalanalyse volgens Mokken (null-case). Subprogramma MOKKEN SCALE. TC-publi-
catieno. TC42. Amsterdam, 1976.

Niemöller, B., & Schuur, W.H., van. Schaalanalyse volgens Mokken (non-nuU case). Subprogramma
MOKKEN TEST. TC-publicatie no. TC70. Amsterdam, 1977.

Rasch, G., Probabilistic Models for some intelligence and attainment tests. Kopenhagen, 1960.

Suppes, P., & Zinnes, J.L. Basic measurement theory. In: Luce, R.D., Bush, R.R., & Galanter, E.
Handbook of mathematical psychology (Vol. I). New York: Wiley, 1963,1-76.

Wood, R. Fitting the Rasch model -A heady tale. The British Journal of Mathematical and Statistical
Psychology, 1978, 27-32.

ENKELE NIEUWE GEGEVENS OVER VERSCHILLEN IN TOETSPRESTATIES TUS-
SEN JONGENS EN MEISJES AAN HET EINDE VAN HET BASISONDERWUS.

Het Cito stelt jaarlijks een nieuwe versie samen van de Eindtoets Basisonderwijs. Naast
taal- en rekenonderdelen omvatte de toets tot en met 1980 ook een onderdeel Algemene
Kennis. Hierin werden opgaven ondergebracht die betrekking hebben op kennis en ge-
bruik van naslagmateriaal, kaartlezen, natuurlijke wereldoriëntatie (biologie, fysica en
fysische geografie) en sociale wereldoriëntatie (sociale geografie, geschiedenis, staats-
inrichting, e.d.).

In 1981 zijn in de Eindtoets Basisonderwijs een aantal wijzigingen aangebracht. Naast
de onderdelen Taal en Rekenen werd een nieuw gedefinieerd onderdeel Informatie-
verwerking opgenomen. De opgaven betrekking hebbend op het hanteren van informatie-
bronnen en kaartlezen werden samen met het lezen van tabeUen en grafieken (voorheen
opgenomen onder Rekenen) en begrijpend lezen opgenomen in het nieuwe onderdeel
Informatieverwerking. De wereldoriëntatierubrieken kwamen daarmee, om redenen die
hier verder niet van belang zijn, in de jaarlijks te vernieuwen versie van de Eindtoets
Basisonderwijs te vervahen.

Om tegemoet te komen aan de wens van veel scholen, werd voor de vervallen wereld-
oriëntatierubrieken een afzonderhjke toets Natuur, Mens en Maatschappij samengesteld.
Deze toets, die niet jaarlijks vernieuwd wordt, bestaat uit 60 opgaven: 20 opgaven Na-
tuur en 40 opgaven Mens en Maatschappij. In 1981 nam ongeveer een kwart van de scho-
len die aan de Eindtoets Basisonderwijs deelnamen, de nieuwe toets af. Kort na de afname
van de toets attendeerden twee scholen ons op grote verschillen tussen de scores van jon-
gens en meisjes, zulks in tegensteUing tot de scores op de onderdelen uit de Eindtoets
Basisonderwijs 1981. Dit was voor'ons aanleiding om in het kader van de gebruikelijke
toets- en itemanalyse zowel de Eindtoets Basisonderwijs als de nieuwe toets Natuur, Mens
en Maatschappij op dit punt nader te analyseren.

Voor de andyse is gebruik gemaakt van een systematische steekproef van ruim 2000 leer-
lingen uit het bestand van leerlingen die zowel de Eindtoets Basisonderwijs 1981 als de
toets Natuur, Mens en Maatschappij hebben gemaakt. De resultaten worden in de volgen-
de paragraaf weergegeven, waarna in de slotparagraaf een beknopte bespreking van de
resultaten volgt.

De steekproef van in totaal 2001 leerlingen vormt vergeleken met het totale bestand van
24522 leerlingen die de toets Natuur, Mens en Maatschappij gemaakt hebben, een zeer
goede steekproef als we letten op de gemiddelden en standaarddeviaties (tabel 1).

Tabel 2 Gemiddelde scores van jongens en meisjes op de Eindtoets Basisonderwijs en de toets Natuur,
Mens en Maatschappij

Geoordeeld naar de scores op de Eintoets Basisonderwijs is deze steekproef wat minder
representatief voor de totale eindtoetspopulatie van 90807 leerlingen: de steekproef heeft
een hoger gemiddelde, terwijl de spreiding van de scores wat kleiner is. Met betrekking tot
de analyse op verschillen tussen jongens en meisjes behoeft dit echter geen belemmering
te vormen.

In tabel 2 worden de belangrijkste gegevens met betrekking tot de verschillen in scores
tussen jongens en meisjes weergegeven.

De verschillen bij de toets Natuur, Mens en Maatschappij zijn inderdaad aanzienlijk gro-
ter dan bij de Eindtoets Basisonderwijs. Op de toets Natuur, Mens en Maatschappij be-
draagt het verschil in p-waarde bijna 0.10 ten gunste van de jongens, over de totale Eind-

toets is dit verschil ruim 0.02. Tabel 3 geeft een nader inzicht in de grootte van de ver-
schillen bij de toets Natuur, Mens en Maatschappij.

Hieruit blijkt dat er in een aantal gevallen bijzonder grote verschillen optreden tussen
jongens en meisjes. Er zijn nauweUjks opgaven waarbij de meisjes een hogere p-waarde
halen dan de jongens. Dit geldt zowel voor het onderdeel Natuur als het onderdeel Mens
en Maatschappij. Binnen het onderdeel Natuur springen de biologie-opgaven er wat uit,
in die zin dat bij deze opgaven de verschillen betrekkeUjk gering zijn. Deze acht opgaven
waren echter verhoudingsgewijs ook wat gemakkelijker (p = 0.85 tegenover 0.69 over de
overige opgaven).

Binnen de Eindtoets Basisonderwijs vormt het onderdeel Taal de enige uitzondering op
het patroon dat de jongens gemiddeld hoger scoren dan de meisjes. Het verschil in het
voordeel van de meisjes is hierbij slechts gering en moet vooral op rekening van de twintig
spelling- en leestekenopgaven worden geschreven (verschil in p-waarde 0.03). Over de
overige taalopgaven is het verschil tussen de p-waarden te verwaarlozen (<0.01). Bij Re-
kenen liggen de prestaties van de jongens over de gehele Unie hoger. Uitschieters vormen
de opgavenrubrieken Procenten (0.09), Meten (0.08) en Vraagstukjes (0.07). Bij het
onderdeel Informatieverwerking valt de opgavenmbriek Kaartlezen op met een verschil
in p-waarde van 0.10 ten gunste van de jongens. De verschillen zijn het kleinst bij be-
grijpend lezen (0.02).

De verschillen tussen jongens en meisjes zijn op de toets Natuur, Mens en Maatschappij
aanzienlijk groter dan op de eindtoetsonderdelen Taal, Rekenen en Informatieverwer-
king. We onthouden ons hier van bespiegelingen omtrent mogelijke achtergronden van
deze verschillen. We beperken ons tot een vergelijking met gegevens die ongeveer tien jaar
geleden door Kohnstamm (1973) zijn verzameld en gepubhceerd.
Kohnstamm (1973) constateert dat jongens over het algemeen gemiddeld iets hogere
scores halen op schoolvorderingentoetsen dan meisjes. De verschillen zijn het grootst als
het om 'algemene kennis' gaat. Op de tweede plaats komt rekenen. Op sommige soorten
taalopgaven scoren de meisjes gemiddeld wat hoger, met name op opgaven waarbij het
gaat om 'executive aspects of language', echter niet als het gaat om de 'ability to mani-
pulate verbal concepts' (terminologie van Hutt, geciteerd door Kohnstamm, 1973). Onze
gegevens komen in grote lijnen overeen met de samenvatting van Kohnstamm (1973). In
dit opzicht lijkt er in tien jaar weinig veranderd te zijn.

Kohnstamm (1973) constateert verder dat bij gebruik van intelligentietests de grootste
verschillen optreden op onderdelen die een beroep doen op ruimtelijk inzicht. Hij sugge-
reert dat 'onderzocht zou kunnen worden in hoeverre 'ruimtelijk inzicht' ook een rol
speelt in de CITO-toetsonderdelen voor algemene kennis; de ervaring leert dat in die toets-
onderdelen nogal eens items worden opgenomen waarbij landkaartjes, schema'tjes, tabel-
letjes e.d. gebruikt en geïnterpreteerd moeten worden.' (Kohnstamm, 1973, p. 360).
Het onderdeel Algemene kennis van de Eindtoets Basisonderwijs bestond altijd uit twee
soorten opgaven: aan de ene kant werd gevraagd naar instrumentele vaardigheden als
kaartlezen e.d., aan de andere kant naar kennis van de wereld. Uit onze gegevens blijkt
dat de opgaven over kaartlezen inderdaad sterke verschillen te zien geven (verschil in
p-waarde 0.10). Bij de opgaven over tabellen en grafieken is het verschil echter minder

pregnant (0.05). In de opgaven uit het onderdeel Mens en Maatschappij komen weliswaar
wel een aantal illustraties voor, maar deze zijn niet essentieel voor het beantwoorden van
de vraag of doen geen beroep op 'ruimtelijk inzicht'. Desalniettemin zijn de verschillen
tussen jongens en meisjes erg groot. In het onderdeel Natuur komt wel een vijftal opgaven
voor waarbij het interpreteren van een schema essentieel is voor het oplossen van de vraag.
Bij deze opgaven zijn de verschillen inderdaad aanzienlijk, maar drie opgaven zonder sche-
ma's e.d. vertonen nog grotere verschillen.

Hoewel hiermee de door Kohnstamm (1973) geopperde onderzoeksvraag niet volledig is
beantwoord, kan gezien deze gegevens wel gesteld worden dat de verschillen tussen jon-
gens en meisjes bij 'algemene kennis' niet zonder meer op rekening van verschillen in
'ruimtelijk inzicht' kunnen worden geschreven.

Kohnstamm, G.A. Geslachtsverschillen in prestaties op schoolvorderingtoetsen en enkele tests aan het
einde van de basisschool. Nederlands Tijdschrift voor de Psychologie, 1973,28, 351-367.

fiet leren van psychomotorische vaardigheden
Van Loghum Slaterus, Arnhem, 1980 (f26,50)

In de Verantwoording van zijn boek steh de auteur 'Dit boek is niet bedoeld als een üteratuuroverzicht
^an het onderzoek op het gebied van de psychomotoriek. Er is naai gestreefd aannemelijk te maken
^at meer onderzoek moet worden verricht naar de implicaties van het leren van motorische vaardig-
heden voor training en instructie' (p. 11). Op vele plaatsen in het boek wordt betoogd dat dit onder-
hoek opgezet en uitgevoerd moet worden volgens het R = f(0,L) model.

R in dit model staat voor de resultaten die het onderwijs bereikt, i.e. welke psychomotorische taken
'beheersen de leeriingen. Teneinde na te kunnen gaan welke resultaten bereikt zijn of bereikt moeten
borden, is een doelstellings- en taakanalyse nodig. Qassificatiesystemen van psychomotorische taken
'iie in hoofdstuk 3 achtereenvolgens aan de orde komen zijn: systemen gebaseerd op psychomotorische
^ermogens (Fleishman en Guilford), taakkenmerken (Farma en Wheaton, Fitts) en doelstellmgen
(Simpson, Harrow, De Block). Wat betreft de bespreking van de taxonomie van De Block lijkt het
citeren van 3 pagina's voorbeelden ontleend aan het vak huishoudelijke scholing wat overbodig. Amu-
sant zijn de voorbeelden trouwens wel. In noem er enkele: weten dat men gericht moet zijn op gerie-
felijkheid; inzien dat men moet streven naar eenvoud; vanzelf het onderscheid aanvoelen tussen braden
en paneren. Men kan wel aanvoelen dat dit laatste voorbeeld alles te maken heeft met het integreren
Van relaties.

Oe resultaten van het onderwijs zijn een functie van O en L. Met O worden omgevingskenmerken be-
doeld zoals oefenschema, instructiemethode, presentatie van informatie, structurering van de leertaak,
'nformatieve feedback. In hoofdstuk 4 worden de principes die ten grondslag liggen aan de functionele
relatie tussen R en O besproken vanuit de stimulus-responsie theorie, de gesloten-lus theorie en de
theorie der handelingsstructuren. Mager is de bespreking van onderwijsarrangementen voor psychomo-
torische taken in dit hoofdstuk. Irritant vond deze lezer het opnemen van een citaat zoals '...introducé
learner gradually to the more complicated conditions. Do not throw him in at the deep end. Do
"ot send him off on the motorway on a snowy night the first time he drives. Do not ask him to paint
the ceiling of the Sistine Chapel before he has practised on an easel' (p. 103).

De factor L heeft betrekking op leeriingkenmerken zoals ervaring, belangstelhng, motivatie, faalangst
e.d.. Onderzoek van psychomotorische vermogens, inz. het onderzoek van Fleishman, wordt bespro-
ken m hoofdstuk 2.

t^e ondertitel van het boek is 'een onderwijspsychologische benadering'. In hoofdstuk 1 en 5 wordt
onderwijspsychologisch onderzoek gedefinieerd als onderzoek, in reahstische settings, naar interacties
tussen R, O en L. Vragen die onderwijspsychologisch onderzoek moet beantwoorden zijn bv.: Hoe
"loet een leertaak worden opgesplitst in deeltaken?; Welk type feedback moet in een concrete situatie
Worden gegeven? etc.. De aanbeveling m hoofdstuk 5 met betrekking tot het arrangeren van onder-
^jsleersituaties maken nog eens duidelijk hoe weinig de onderwijspsychologie de onderwijspraktijk
"og te bieden heeft. 'Niet kijken, maar doen' lijkt de belangrijkste aanbeveling te zijn.

lezing van dit boek kan geconcludeerd worden dat de auteur in zijn bedoeling geslaagd is 'aanne-
•^elijk te maken dat meer onderzoek moet worden verricht naar de implicaties van het leren van moto-
rische vaardigheden voor training en instructie'. De vraag die de auteur onbeantwoord laat is voor
Wie hij dit aannemelijk meende te moeten maken.

On 25 and 26 March 1982 a symposium of the lUS (Interuniversitare Sprachtestgruppe) will be hele
in Arnhem, in collaboration with CITO (the Dutch National Institute for Educational Measurement).
Tlie conference will start with an introduction into non-classical testtheory. Recent applications tc
language tests will be discussed.

The second day will be devoted to problems in centralized final examinations mainly in secondary
education. General problems as well as specific topics in the field of language testing will be dealt
with.

The first symposium brochure will contain a detailed programme as well as some information aboui
registration, fees, accommodation etc. and will be sent next February.
The languages used at the symposium will be English, German and French.
For further information please apply to

CITO - P.O.box 1034, 6801 MG ARNHEM, The Netherlands - Phone 085-455555
Ontvangen publicaties

Beukhof, G. Een verslag van het internationaal symposium over tekstverwerking te Fribourg in Zwit
serland van 13-16 september 1981. Onderzoeksthemagroep Onderwijsleerprocessen, T.H. Twente.
Teyken, C. Leren probleemoplossen: Een beknopt didaxologisch perspectief.
Groningen: Wolters-Noordhoff, 1981.

Constructie en invoering van de middenschool door H.P.M. Creemers & A. de Vries
Een andere zienswijze op het innovatieproces middenschool, door N.A.J. Lagerweij
Het innovatieproces middenschool. Enige opmerkingen over de betekenis van de middenschoolexperi
menten voor de besluitvorming over de invoering van een middenschool in Nederland door J.M.G
Leune

Enige kanttekeningen bij de discussie n.a.v. de constructie en invoering van de middenschool, doo

H.P.M. Creemers & A. de Vries
Vormgeving van middenschoolonderwijs, door J. Terwei
Boekbesprekingen
Mededelingen

Stafdifferentiatie. Een alternatieve vorm van stafopbouw in de school, door A. van Greevenbroek
Zelfstandige kennisverwerving als aspect van het wetenschappelijk denken, door H.G.M. van Oers
Inteme differentiatie bij zwakke lezers op basis van taakspecifieke gegevens, door A.H. van der Ley &
H. van Doorn

Kroniek: Onderwijsveranderingsstrategieën voor de tachtiger jaren. Verslag van de IMTEC-conferentie

gehouden van 29 maart tot 5 april 1981 te Kijkduin, door P.N. Appelhof
Boekbesprekingen
Mededelingen

Different studies have shown that the recommendations given by a child's elementary school
teacher play an important role in the choice of a secondary school. Little is known about the
factors which determine the teacher's recommendations. According to the results of the study
reported here, scholastic achievement is the most important factor. However, the way that a
child's scholastic achievement is interpreted is different in every school. Scholastic achievement
and the recommendation strategy of each school together explain most of the variance in the
recommendation itself.

Sinds enige tijd is er sprake van een opleving in de aandacht voor het doorstromingsonder-
zoek (Blok, 1978; Dronkers, 1978; Dronkers en Jungbluth, 1979; Froentjes, 1978; Groe-
neboom et al., 1978; Hoogstraten en Mellenbergh, 1978; CBS, 1979a, 1979b; Smulders,
1979; Blok en Saris, 1980; Bosman et al., 1980; Dronkers en Diekerhof, 1980; Van Her-
Pen en Smulders, 1980; Snoek, 1980; Zwarts en Zwarts, 1980; Dronkers en Saris, 1981).
l-'it de meeste van deze studies blijkt dat de schoolprestatie van de leerling een centrale
plaats inneemt bij de verklaring van het gekozen vervolgonderwijs.
Daarnaast is ook de invloed van het advies van de onderwijzer, onafhankelijk van de
schoolprestatie, van belang gebleken. Daarom heeft men zich in de bovengenoemde stu-
dies onder andere ook bezig gehouden met de vraag welke factoren bij de totstandko-
"ling van het onderwijzersadvies een rol spelen. Daarbij zijn de volgende factoren naar vo-
ren gekomen:

1- De schoolprestatie van een leerling lijkt de meest zwaarwegende factor te zijn. Deze
conclusie wordt onder meer onderschreven in het experimentele onderzoek waarover
Hoogstraten en Mellenbergh (1978) rapporteren en de correlationele studies van Groe-
neboom et al. (1978), Blok en Saris 0980), Dronkers en Saris (1981). Duidelijk is
echter dat de schoolprestatie alleen het advies onvoldoende verklaart.

2- Het effect van verschillende persoonlijkheidskenmerken (intelligentie, gedrag, vlijt,
motivatie en neurotische labihteit) op het advies van de onderwijzer lijkt afhankelijk
te zijn van de gekozen onderzoeksopzet. Dergelijke variabelen scoren hoog bij de di-
recte vraag aan een leerkracht welke factoren hij mee laat spelen (Blok, 1978; Hoog-
straten en Mellenbergh, 1978). In correlationele studies blijkt het effect van deze va-
riabelen echter slechts gering te zijn (Dronkers en Saris, 1981; Groeneboom et al.,
1978; Hoogstraten en Mellenbergh, 1978).

De afkomst van de leerlingen en verschillende factoren die daarmee conceptueel ver-
bonden zijn (opleiding van de ouders, interesse van de ouders in school, belang schooi-
en beroepskeuze voor meisjes) lijken weinig invloed te hebben op het advies in onder-

zoek dat gebruik maakt van correlatie- en regressierekening (Blok en Saris, 1980;
Dronkers en Saris, 1981). Maar in onderzoek met behulp van tabelanalyse lijken deze
factoren wel relevant (Van Herpen en Smulders, 1980; Snoek, 1980).
4. In de studie van Dronkers en Saris (1981) werd onverwacht een negatief effect gevon-
den van de variabele 'klasgemiddelde op de schoolvorderingentoets'. De verklaring van
dit effect is vooralsnog onduidelijk.
Uit dit literatuuroverzicht blijkt dat momenteel eigenlijk alleen övereenstenuning be-
staat over het feit dat de schoolprestatie van de leerling van invloed is op het advies. Over
alle andere effecten bestaan nog twijfels. Deze twijfels zullen weggenomen moeten wor-
den, zeker nu uit het recente CBS-onderzoek (Van Herpen en Smulders, 1980) gebleken
is, dat het advies van de onderwijzer na de invoering van de Mammoetwet nog belangrij-
ker is geworden dan het daarvoor al was. In dit artikel gaan we nader in op de verklaring
van het advies van de onderwijzer.

We maken gebruik van de data welke beschreven zijn in Blok en Saris (1980). Dit zijn
de enige ons ter beschikking staande data, waarin over een groot aantal kinderen uit ver-
schillende scholen de noodzakelijke informatie aanwezig is om te kunnen zoeken naar
schoolgebonden effecten. Gezien onze interesse voor mogelijke schoolspecifieke invloe-
den is dit een essentiële voorwaarde. Uit de dataset hebben wij de volgende variabelen
geselecteerd:

a. het eerste onderwijzersadvies (advies). Dit is het advies dat de onderwijzers verstrekken
voordat de schooltoets afgenomen wordt. Het advies is gemeten op een schaal met
zeven categorieën, oplopend van LBO naar VWO.

b. het schoolprestatie oordeel (SPO). In het oorspronkelijke onderzoek was aan de on-
derwijzers gevraagd om de scores op de CITO-toets te voorspellen. De onderwijzers
hebben hun voorspellingen uitgesproken in de vorm van percentielscores. Deze va-
riabele, in Blok en Saris (1980) 'predictie' genoemd, kan opgevat worden als een
maat voor het onderwijzersoordeel over de schoolprestatie van de leeriing. Juist omdat
wij gei'nteresseerd zijn in de wijze waarop de onderwijzer adviseert, is deze variabele
beter voor ons doel geschikt dan de meer objectieve maat voor schoolprestafie, de sco-
re op de CITO-toets. Immers, ten tijde van het eerste advies beschikte de onderwijzer
nog slechts over de eigen (subjectieve) perceptie van de schoolprestatie. Slechts voor
een evaluatie van het eerste advies achteraf zou de CITO-toetsscore van belang kunnen
zijn. In verband met kruistabellen zijn de oorspronkelijke percentielscores tot decie-
len getransformeerd.

c. het beroepsniveau van de vader (beroep). Het beroepsniveau is ingedeeld in zes be-
roepsklassen volgens de indeling van Westerlaak e.a. (1975) als indicatie voor het so-
ciaal milieu.

d. het per school gemiddelde tweede onderwijzersadvies. Deze variabele noemen we
'Schoolniveau' (SN). We verwachten van deze variabele als indicator voor het gemid-
delde verwijzingsniveau een groter effect op het individuele verwijzingsgedrag dan het
door Dronkers en Saris (1981) gebruikte 'klasgemiddelde schoolvorderingentoets'.

De variabele sexe hebben we in deze secundaire analyse niet meer betrokken, omdat reeds
gebleken was dat deze variabele een verwaarioosbare samenhang heeft met het onderwij-

zersadvies (Blok en Saris, 1980). Gezien de beperkingen van onze dataset is het onmoge-
lijk de invloed van nog andere variabelen zoals de persoonlijkheid van de leerÜng in onze
analyse te betrekken. Beschrijvende statistische grootheden van de variabelen advies, SPO,
beroep en SN zijn opgenomen in de Appendix.

De gegevens werden verstrekt door de zesdeklasleerkrachten of schoolhoofden van 45
scholen die in 1978 de CITO-toets gebruikten. Op 41 scholen was één zesde klas aanwe-
zig- Drie scholen hadden twee zesde klassen en één school had er drie. Deze laatste gege-
vens zijn relevant met het oog op mogelijke schoolgebonden effecten. Gezien het geringe
aantal scholen met meer dan één zesde klas kunnen wij geen onderscheid maken tussen
effecten die aan een school gebonden zijn en effecten die aan leerkrachten gebonden zijn.

We beginnen onze analyse met een beschrijving van de relatie tussen de beoordeling van
de schoolprestatie en het onderwijzersadvies. Vervolgens zullen we proberen de verklaring
Van het advies te verbeteren door het invoeren van enkele nieuwe gezichtspunten.

Tabel 1. Leerlingen ingedeeld naar onderwijzersadvies en oordeel over schoolprestatie.

1
2

8
9

totaal

De relatie tussen SPO en advies voor een steekproef van 587 leeriingen is weergegeven in
Tabel 1. Het is duidelijk uit deze tabel dat de relarie tamelijk sterk is. Onder de aannamen
dat de afstanden tussen de verschillende categorieën ongeveer gelijk zijn en dat de relatie
lineair is, kan men ook de regressievergelijking schatten en de correlatiecoëfficiënt bereke-
nen. Voor een verantwoording van deze aannamen verwijzen we naar De Leeuw en Stoop
(1979) en naar Blok en Saris (1980). De vergelijking blijkt te zijn:

(1) Advies = .65 SPO+ .10

terwijl R^ = .68. De geschatte waarden van de coëfficiënten wijken weinig af van de waar-
den die men zou verwachten als er zeven adviescategorieën (van O tot en met 6) en tien
prestatiedecielen (van 1 tot en met 10) zijn. Hoewel gedacht zou kunnen worden dat er
door deze onafliankelijke variabele al behoorlijk veel verklaard wordt, hebben we toch
gemeend deze relatie nader te moeten bestuderen. Omdat de data nauwelijks meetfouten
bevatten, moet een betere verklaring mogelijk zijn.

In de analyse hebben we tot nu toe aangenomen dat de vorm van de relatie tussen SPO en
advies voor alle scholen gelijk is, zodat de data 'gepooled' konden worden geanalyseerd.
Bovendien hebben we aangenomen, dat de relatie lineair is. Beide aannamen zullen we
hier nader aan de orde stellen.

De eerste veronderstelling die we willen toetsen is dat de vorm van de relatie tussen SPO
en advies niet voor alle scholen gelijk is. De reden die we voor deze hypothese hebben, is
dat niet in alle gebieden alle typen van voortgezet onderwijs even gemakkelijk bereikbaar
zijn. Op het platteland kan de afstand tussen woonadres en schooladres aanzienlijk zijn.
In het bijzonder de hoogste typen scholen, waar slechts een beperkt aantal leerlingen naar
toe gaat, zouden in bepaalde gebieden (regio's, gemeenten, wijken) kunnen ontbreken,
en als gevolg daarvan op een te grote (subjectieve) afstand kunnen liggen. In Tabel 2 heb-
ben we voor de scholen die in het onderzoek waren opgenomen, aangegeven wat het
hoogste SPO-niveau van de leerlingen was in combinatie met het hoogste door de school
gegeven advies.

Op de meeste scholen waar als hoogste SPO-niveau het niveau 10 voorkomt, worden ook
adviezen gegeven die het mogelijk maken het hoogste onderwijsniveau te bereiken. Er is
echter één school (omcirkeld), waar een direct, noch indirect VWO-advies gegeven wordt,
hoewel daar de hoogst mogelijke SPO voorkomt. Daarnaast zijn er 15 scholen waar de

Tabel 2. Scholen ingedeeld naar 'hoogst voorkomende advies' en 'hoogst voorkomende oordeel over
schoolprestatie'.

hoogst mogelijke SPO niet gehaald wordt en ook het hoogst mogelijke schooltype (direct
of indirect) niet geadviseerd wordt. Voor tenminste 9 van deze scholen (omkaderd)
kan men zich afvragen of het hoogste adviesniveau niet aan de lage kant is uitgevallen.
Deze scholen adviseren minder hoog dan andere scholen met hetzelfde hoogste SPO-ni-
veau. Of dit verschijnsel van structurele aard is (een effect van de schoolomgeving als ge-
volg van bijvoorbeeld een te grote afstand) of dat het verschijnsel een subjectieve achter-
grond heeft (een effect van verschillende adviserings-strategieën), was aan de hand van
deze data niet meer te achterhalen. We konden niet meer nagaan waar de betreffende
scholen gelegen waren.

Wanneer de hypothese waar zou zijn dat de hoogste schooltypen in sommige gebieden
ontbreken, dan zou dat betekenen dat voor scholen in deze gebieden de relatie tussen ad-
vies en SPO niet gelijk kan zijn aan die van scholen in andere gebieden. Dit impliceert,
dat de regressiecoëfficiënt zou dalen evenredig met het hoogste schooltype waarnaar ver-
Wezen kan worden. Derhalve zou de regressievergelijking er als volgt uit moeten zien:

Hierbij veronderstellen we dat het hoogste adviesniveau van een school samenvalt met het
hoogste aanwezige schooltype V.O. in het gebied waar de school ligt. De adviezen zijn
Weer gescoord van O - 6, de SPO-categorieën van 1-10.

Op basis van de analyse van de data bleek deze hypothese redelijk uit te komen. De ge-
schatte relatie was:

De verklaarde variantie steeg evenwel slechts zeer gering in vergelijking met de analyse in
de vorige paragraaf. De R^ = .69, d.w.z. een stijging van slechts 1%. De reden hiervoor is
uiteraard dat de verbetering slechts geldt voor een kleine groep leerlingen die hoge presta-
ties halen, maar op scholen zitten met lage adviesmogelijkheden. Wellicht zou nog een an-
dere kleine verbetering bereikt kunnen worden door op analoge wijze rekening te houden
met een mogelijk ontbreken van andere schooltypen. Omdat dit echter moeilijk te formu-
leren is, hebben we dit achterwege gelaten en de verbetering in een andere richting ge-
zocht.

Nadat we gezien hadden dat het effect van een mogelijke beperkte beschikbaarheid van
de hogere schooltypen niet erg groot was, zijn we nagegaan of er nog andere onderwij-
zers- of school-specifieke effecten te vinden zijn. Hierbij hebben we gedacht aan het nega-
tieve effect van het schoolprestatieniveau zoals gevonden in Dronkers en Saris (1981) en
aan variatie in de regressievergelijkingen voor de verschillende scholen zoals bestudeerd
door Jansen (1979). Daarnaast hebben we nog allerlei mogelijke interactie-effecten be-
studeerd.

Echter geen van deze benaderingen leidde tot een substantiële verhoging van de verklaar-
de variantie. De reden voor deze geringe verbetering is dat de eigenaardige systematiek van

I 2' 3 A 5 6 78 9 10
Figuur 1. De relatie tussen oordeel over schoolprestatie SPO (hor.) en advies (vert.) op drie scholen.

de data per school zich niet in een simpele vorm laat gieten. Allereerst is er veelal sprake
van een niet lineaire relatie tussen de SPO variabele en het advies van de onderwijzer per
school. Bovendien schijnt elke school er zijn eigen wijze van adviseren op na te houden.
Ter illustratie van deze beide punten hebben we voor een drietal scholen de relatie weer-
gegeven in Figuur 1.

Een hoger advies dan LBO wordt op school 21 gegeven vanaf score 3 op de SPO-schaal.
Op andere scholen, bijvoorbeeld 95, wordt pas een hoger advies gegeven voor een score
boven de 5 op de SPO-schaal. Eenzelfde variatie in adviseringsstrategieën kan men ook
constateren bij de andere schooltypen (zie school 4). Het is duidelijk, dat de scholen on-
derhng verschillen in de gehanteerde grenzen op het SPO-continuüm. Kennelijk hanteren
de scholen verschillende prestatieclassificaties. Anderzijds kan men constateren dat elke
school, afgezien van de arbitraire classificatie, zeer systematisch te werk gaat. We zullen
dit illustreren door voor elke school de karakteristieke prestatieclassificatie op te stel-
len. Daartoe transformeerden wij de SPO variabele op de volgende wijze tot de variabele
'schoolprestatieklasse' (SPK). De eerste SPK-score loopt van SPO-score 1 tot aan de eer-
ste SPO-score waaraan door de school een hoger advies wordt verbonden. We trekken de
grens juist daar, omdat het op dat punt duidelijk is, dat de school aan deze prestatie een
hoger advies kan verbinden. Vanaf dat punt worden alle prestatiescores in SPK-score 2
ingedeeld, tot aan het punt waar de school weer voor het eerst een hoger advies geeft. Op
dat punt begint SPK-score 3. Figuur 2 illustreert onze werkwijze. Voor school 94 krijgen
We zo vijf verschillende SPK-scores. Het is duidelijk uit Figuur 2 dat in deze school enke-
le klassen worden overgeslagen, vandaar de waarden 1, 3, 5, 6 en 7.
Dit voorbeeld illustreert ook duidelijk dat deze school niet altijd hetzelfde advies geeft
in elke prestatieklasse SPK. Afwijkingen naar beneden komen voor bij score 3, 5 en 6.
Onze hercodering maakt fouten in de andere richting onmogelijk. Het is duidelijk dat de-
ze procedure alle kenmerken heeft van een ad hoc-oplossing. Dit impliceert dat de waarde
Van onze redenering getoetst moet worden met behulp van nieuwe data. Desondanks lijkt

vwo

havo/vwo
havo

Havo/mavo

mavo

lbo/mavo
Lbo

111

4
1

figuur 2. Hercodering van het oordeel over schoolprestatie (SPO) voor school 94 in schoolprestatie-
klasse (SPK).

het ons zinvol na te gaan hoe de nieuwe variabele SPK samenhangt met de onderwijzers-
adviezen. De verklaarde variantie leert ons hoeveel er maximaal verklaard kan worden met
de opvatting van de onderwijzer over de schoolprestatie, daarbij rekening houdend met de
per school verschillende prestatieclassificaties. De verklaarde variantie blijkt met 21% te
stijgen tot maar liefst 90%.

Er zij opgemerkt dat de winst van 21% in verklaarde variantie voor een deel waarschijnlijk
schijnwinst is als gevolg van capitalisatie op steekproeffluctuatie, schaalfouten, ed. Des-
ondanks vermoeden wij, dat de vrijheid van elke school om een eigen prestatieclassifica-
tie te hanteren, een belangrijk onderdeel vormt bij de verklaring van de variatie die er in
de adviezen bestaat, gegeven de onderwijzersoordelen over de schoolprestatie. Dit lijkt
ons een opmerkelijk resultaat, dat in de toekomst meer aandacht verdient.

Tot slot willen we nog iets zeggen over de grootte van de effecten van variabelen die met
het sociale milieu te maken hebben. Uit onze data kunnen hiervoor twee indices gebruikt
worden. De eerste is het beroep van de vader, de tweede is het schoolniveau (SN). Deze
laatste variabele scharen we onder de milieufactoren, omdat er redenen zijn om aan
te nemen dat het schoolniveau over buurten en regio's varieert. Aangezien ouders hun kin-
deren meestal naar dichtbijzijnde scholen sturen, mag men een positieve relatie verwach-
ten tussen het ouderlijke milieu en het schoolniveau (Soutendijk et al., 1976).

Om onderscheid te Icunnen maicen tussen directe en indirecte effecten prefereren we hier
de LISREL-procedure boven multiple regressie analyse. Het is immers mogelijk dat de
milieuvariabelen zowel rechtstreeks invloed hebben op het advies als indirect via de

"'e zijn gestart met het specificeren van een volledig recursief model, waarbij we beroep
en schoolniveau als onafhankelijke variabelen hebben opgevat en de variabelen SPO, SPK
en advies als afhankelijke variabelen. Vervolgens hebben we effecten die kleiner zijn dan
tweemaal de door LISREL geschatte standaardfout op nul gesteld. Bij toetsing blijkt het
model van Figuur 3 niet verworpen te mogen worden (chi-kwadraat is .984, df=2). Uit de
'iguur kan afgeleid worden dat de directe effecten van de beide milieuvariabelen op het
advies gering zijn. Daaruit mag evenwel niet afgeleid worden dat de invloed van de milieu-
variabelen op het advies verwaarloosd kan worden. Door hun effecten op de twee school-
prestatievariabelen, SPO en SPK, hebben de milieuvariabelen wel degelijk enige indirecte
mvloed op het advies (zie Tabel 3). Verder kan uit Figuur 3 afgeleid worden dat alleen
de SPK-variabele een groot direct effect heeft op het advies. Echter de wijze waarop elke
school de schoolprestatie omzet in een advies, gerepresenteerd door de schoolprestatie-
•^'asse, is enigszins afhankelijk van het beroep en het schoolniveau. Kennelijk spelen
milieuvariabelen een rol bij de wijze waarop elke school schoolprestaties classificeert met
net oog op de advisering, zij het een geringe rol.

We merken tenslotte op dat het negatieve directe effect van het schoolniveau op het ad-
l'ies, dat door Dronkers en Saris (1981) gevonden werd, hier niet bestaat. Dat zou kunnen
betekenen dat hun effect samenhangt met de specifieke verwijsstrategieën van de verschil-
lende scholen.

'n deze heranalyse van de relatie tussen het onderwijzersoordeel over de schoolprestatie en
advies hebben we rekening gehouden met enkele schoolspecifieke factoren. Het is daarbij
êebleken dat het onderwijzersadvies daardoor aanzienlijk beter is te verklaren dan eerder
Was geconcludeerd. Deze verbetering is opgetreden door rekening te houden met het ver-
schijnsel dat scholen verschillen in de bij de advisering gehanteerde grenzen op het presta-
tie continuüm. Het is namelijk gebleken dat scholen op verschillende wijzen rekening hou-
<len met schoolprestaties bij het bepalen van hun advies. De ene school eist hogere school-
prestaties alvorens tot een bepaald advies te komen dan een andere school. Scholen hou-

den er kennelijk verschillende adviseringsstrategieè'n op na. Tot die veronderstelling kwam
Warries (1972) ook, toen deze naging waarom sommige leerlingen met goede schoolpres-
taties geen MAVO- maar een LBO-advies kregen. De verschillen in adviseringsstrategieën
tussen scholen is zo groot, dat verrekening hiervan de verklaarde variantie met 21% doet
stijgen. De andere door ons veronderstelde schoolgebonden effecten voegen aan de verkla-
ring van de relatie nauwelijks meer iets toe. Het lijkt ons derhalve dat het onderwijzersad-
vies vooralsnog alleen verklaard kan worden uit het oordeel over de schoolprestatie van
de leerling en de adviseringsstrategie van de school. Deze conclusie is evenwel slechts voor-
lopig in verband met het exploratieve karakter van onze secundaire analyse. Ook beschik-
ken we niet over informatie op het gebied van persoonlijkheidskenmerken van de leerhng.
We kunnen dus niet nagaan of dergelijke variabelen nog significante bijdragen kunnen le-
veren.

Onze analyse suggereert dat er nader onderzoek zou moeten worden gedaan naar de wijze
waarop de leerkracht tot zijn advies komt. In wezen kan men het adviseren door de leer-
kracht zien als een beslissingsprobleem: voor elk kind met een gegeven prestatieniveau
staan meestal verscheidene alternatieven open. Elk alternatief heeft bepaalde, meer of
minder waarschijnlijke gevolgen. Een te hoog advies zal tot problemen in het VO leiden,
een te laag advies zal de leerling duperen. Een nader onderzoek naar waarom een leer-
kracht voor een gegeven leerling kiest zoals hij kiest, zou een interessant vervolgonder-
zoek kunnen zijn.

Dat dit soort onderzoek niet van relevantie is ontbloot, blijkt volgens ons uit de data per
school die zijn weergegeven in Figuur 1. Hieruit blijkt duidelijk dat er nog steeds sprake
is van 'verborgen talent', zij het dat de reden waarom dit verloren gaat, waarschijnlijk niet
alleen het sociale milieu van de leerling is als ook een per school verschillende adviserings-
strategie.

Blok, H. Het gebruik van de CITO-toets bij de overgang van het lager naar het voortgezet onderwijs
Amsterdam: R.I.T.P., 1978.

Blok, H. & Saris, W.E. Relevante Variabelen bij het Doorverwijzen na de Lagere School; een Structu-
reel Model. Tijdschrift voor Onderwijsresearch, 1980,5, 63-79.

Bosman, R., Louwes, W. & Meer, A. van der. Sexe, school beroep; een achteraf experiment over de
periode 1959-1979 naar de invloed van sexe op school- en beroepsloopbaan. (Doet. scriptie) Gro-
ningen: R.U., 1980.

C.B.S. Schoolloopbaan en herkomst van leerlingen bij het voortgezet onderwijs 1977('78. Medede-
lingen no. 7699,1979 (a).

C.B.S. Schoolloopbaan en herkomst van leerlingen bij het voortgezet onderwijs 1977/'78 (bestands-
onderzoek) no. 7705,1979 (b).

Pronkers, J. Manipuleerbare variabelen in de schoolloopbaan. Boeknummer yanMens en Maatschappij
(1978) over stratificatie.

Dronkers, J. & Jungbluth, M.M.M. Loopbaan en gtsXsiCht. Amsterdams Sociologisch Tijdschrift, 1979,
6, 6-50.

Dronkers, J. & Diekerhof, E. Het effect van lokale verschillen in deelname aan verschillende typen se-
cundair onderwijs op individuele schoolloopbanen. ORD 1980, paper.

Dronkers, J. & Saris, W.E. Een beter schoolloopbaan model? Mens en Maatschappij, 1981,56,42-62.

Froentjes, W. De invloed van het schoolkeuzeadvies op het doorstromingsproces van lager naar voort-
gezet onderwijs. Een empirisch onderwijssociologische studie. Groningen: R.U., 1978 (doet. scrip-

Groeneboom, P., Hoogstraten, Joh., Mellenbergh, G.J. & Santen, J.P.H. van. Relevante variabelen bij
het doorverwijzen na de lagere school; een correlationele analyse. Tijdschrift voor Onderwijsre-
search, 1978, S, 262-280.

Herpen, L.W. van & Smulders, R.H.M. Sociale beroepsgroep en schoolkeuze. C.B.S.-select 1, 1980,
117-133.

Hoogstraten, Joh. & Mellenbergh, G.J. Relevante variabelen bij het doorverwijzen na de lagere school:
een experiment. Tijdschrift voor Onderwijsresearch, 1978,3,161-172.

Jansen, M.G.H. Het simultaan schatten van regressievergelijkingen in M groepen. Tijdschrift voor On-
derwijsresearch, 1919,4,159-165.

Leeuw, J. de & Stoop, I. Secundaire analyse 'Van Jaar tot Jaar' met behulp van niet-lineaire multiva-
riate technieken. In: J.L. Peschar (ed.). Van achteren naar voren; achterstandssituaties in het on-
derwijs; bijdragen tot de Onderwijsresearchdagen 1979. Den Haag: Stichting voor Onderzoek van
het Onderwijs, 1979.

Smulders, R.H.M. C.B.S.-onderzoek 'Schoolloopbaan en herkomst van leerlingen bij het voortgezet on-
derwijs'. In: J.L. Peschar (ed.). Van achteren naar voren, achterstandssituaties in het onderwijs;
bijdragen tot de Onderwijsresearchdagen 1979. Den Haag: Stichting voor Onderzoek van het On-
derwijs, 1979.

Snoek, K. De schoolloopbaan van meisjes in het secundair onderwijs. ORD paper 1980.

Soutendijk, S., Comans, N., Jong, U. de & Verbrugh, H. Onderwijsnoodgebieden in Amsterdam. Een
onderzoek naar kriteria tot het aanwijzen van gebieden in Amsterdam waar het onderwijs extra be-
geleiding behoeft. ABC-kernrapport 1. Amsterdam: A.B.C., 1976.

Warries, E. Goede prestaties maar ongeschikt voor M.A. V.O.: een onderzoeksrapport. Amsterdam:
R.I.T.P., 1972.

Westeriaak, J.M. van, J.A. Kropman en J.W.M. Collaris. Beroepenklapper. Nijmegen: I.T.S., 1975.

Zwarts, M. & Zwarts, J. De jUnctie van toetsen in de overgang lager onderwijs-voortgezet onderwijs.
Een besliskundige benadering. Utrecht: Vakgroep Onderwijskunde R.U., 1980.

The thinking aloud procedure developed in problem solving research was earlier adapted to
reading comprehension (Olshavsky, 1976, 1978; Waern, 1980). In this study an adaptation was
made to studying a text. Seven freshman psychology students studied a text of approximately
2000 words on 'bystander apathy'. Subjects were urged to think aloud but not to theorize
about these processes.

Protocols, i.e., verbatim records of the subject's verbalisations were analysed to identify the
processes actually involved in studying a text. 27 processes were identified and divided into
6 main categories, namely, structuring (9 processes), relating external information (5), com-
paring within the text (4), failure to understand (3), paraphrasing (3), and rehearsing (3). Inter-
rater agreement was between 0.70 and 0.82. This analytical system was compared with the
strategies and operations identified by Olshavsky and Waern. The main difference between their
studies and ours lies in the inclusion of the category structuring. This is supposedly due to a
procedural difference, and to the fact that their texts were short and/or narrative in character,
whereas ours was a rather long informative one. It is argued that theory and research on study-
ing a text would be significantly advanced by paying more attention to the processes that are
actually involved. In this respect thinking aloud procedures, and a protocol analysis system Uke
the one developed in this study can be powerful tools.

Binnen het onderzoek naar tekstbestudering kan men een gradueel onderscheid maken
tussen een aanpak, waarin het begrijpen van een tekst centraal staat (bijvoorbeeld: Kintsch,
1974; Van Dijk,' 1977), en een benadering, waarin een verdergaande cognitieve verwer-
kingsaktiviteit wordt geaccentueerd. Bij deze laatste stroming, waartoe o.a. Mayer's as-
similatie-theorie en Wittrock's 'model of generative learning' (Mayer, 1977, 1979; Witt-
rock, 1974, 1981) behoren, wordt min of meer impliciet verondersteld dat tekstkenmer-
ken leerresultaten bei'nvloeden door een effekt op kwantiteit én kwaliteit van tussenligg-
gende bestuderingsprocessen. Er is dus sprake van relaties tussen tekstkenmerken en be-
studeringsprocessen enerzijds en tussen bestuderingsprocessen en leerresultaten anderzijds
(zie Wouters, 1980; de Jong en Knippenberg, 1981).

Het effekt van tekstkenmerken wordt echter meestal alleen afgemeten aan het leerresul-
taat; de intermediërende feitelijke bestuderingsprocessen blijven veelal ongemeten. Meer
aandacht daarvoor lijkt ons in het belang van een verdere theorievorming over tekstbestu-
dering.

1 Dank aan J.J. Elshout, C. Hamaker en G.J. Mellenbergh en twee anonieme redaktiemedewerkers
voor hun commentaar op een eerdere versie van dit artikel en aan B.I.E. Macnab voor taalkundige cor-
recties in de abstract.

Men kan de bestuderingsprocessen trachten te meten kort na of tijdens de bestudering van
een tekst. Retrospektief werden betrekkelijk open, mondelinge interviews gebruikt door
Marton en medewerkers (Marton & S^jö, 1976a, 1976b; Svensson, 1977; Fransson,
1977), Laurillard (1979) en door Hamaker en Meijerink (1980). Een poging dit te doen
met een meer gestruktureerde, schriftelijke vragenhjst werd gerapporteerd door Kop
(1979). Momenteel wordt deze mogelijkheid verder onderzocht door Baltzer (in voorbe-
reiding).

Een recente ontwikkeling, waarbij tijdens de bestudering wordt gemeten, is het registreren
van oogbewegingen (Rothkopf & Billington, 1979; Klare & Schumacher, 1981). Deze me-
tingen leveren indikaties op over de (relatieve) hoeveelheid aktiviteit of aandacht (bij ver-
schillende tekstgedeelten).

Gegevens waarin ook de aard van de aktiviteit in termen van verschillende bestuderings-
processen tot uiting kan komen, worden verkregen met introspektie of hardop-denk-pro-
cedures. Het verschil tussen beide bestaat hierin dat de pp bij introspektie moet rapporte-
ren over wat hij doet en dus wordt aangespoord te theoretiseren, terwijl bij hardop-denk-
Procedures het theoretiseren door ppn. zoveel mogelijk wordt tegengegaan. Beide metho-
den werden, voor zover wij weten, nog niet toegepast bij tekstbestudering. Een gedeelte-
lijke reden hiervoor is wellicht het geringe vertrouwen in dergelijke data. Zo beweerden
Nisbett & Wilson (1977) dat 'verbal reports' niet de neerslag zijn van de cognitieve proces-
sen zelf, maar van de impliciete ideeën die de persoon daarover heeft. De onderzoekin-
gen, die Nisbett & Wilson tot deze konstatering brachten, hadden volgens Ericsson & Si-
mon (1979, 1980) gemeen dat de ppn ook het 'waarom' van hun processen moesten ver-
baliseren. Volgens hen heeft die negatieve opmerking dan ook alleen betrekking op intro-
spektieve procedures, waarbij de ppn over hun verwerkingsprocessen theoretiseren. Erics-
son & Simon (1979, p. 4) stellen dat alle kritiek op hardop-denk-procedures samen geno-
men neerkomt op: '...the accusation that the thmking aloud procedure changes subjects'
thought processes-, gives only an incomplete report of them-, and mainly reports infor-
mation that is independent of, hence irrelevant to the actual mechanisms of thinking'.
2ij presenteren een model over wat er gebeurt bij het verbaliseren van cognitieve proces-
sen en bespreken een grote hoeveelheid onderzoek, waarbij hardop-denk-procedures wer-
den toegepast. Hun konklusie luidt (1979, p. 43): '...our model, and the substantial body
of evidence that supports it, implies that verbal protocols reflect very closely the internal
structure of the cognitive processes that occur during task performance'.
Dit model van Ericsson & Simon en soortgelijke modellen van Elshout (1976) en Breu-
ker (1981) stemmen onderling overeen in de steUing dat hardop-denk-data niet principieel
Van andere data verschillen, wanneer het gaat om taken, waarbij, '...de inhoud van het
^werkgeheugen semantisch of symbolisch gecodeerd is' (Elshout, 1976; p. 255). Dergelijke
data hebben het voordeel dat ze de informatieverwerking frekwent en kwalitatief volgen;
daartegenover staat dat een objektievere kwantitatieve verwerking problemen schept.
Hardop-denk-instrukties zijn veel toegepast bij betrekkelijk gesloten problemen (Newell
^ Simon, 1972; Elshout, 1976), maar ook bij uitermate open problemen, zonder duideUj-
ke oplossing, zoals het schrijven van een tekst (Dudink, in voorbereiding) of het compone-
ren van een fuga (Sanchez & Reitman, 1960; Reitman, 1965). Principiële redenen waarom
bardop-denk-instrukties bij tekstbestudering niet bruikbaar zouden zijn, lijken niet aanwe-
zig.

In dit artikel doen wij verslag van een toepassing van de hardop-denk-procedure bij de be-
studering van een tekst. Het doel daarvan is, na te gaan of deze methode bruikbaar is om

meer direkte informatie over feitelijke bestuderingsprocessen te verkrijgen. Voor zover
dat het geval is, moet het mogelijk zijn een aantal verschillende bestuderingsprocessen te
identificeren en deze onder te brengen in een schema, dat dan enerzijds kan dienen als
hulpmiddel bij het analyseren van nieuwe tekstbestuderingsprotocollen, en anderzijds als
eerste aanzet gezien kan worden voor een overzicht van belangrijke processen tijdens
tekstbestudering.

Ons zijn drie onderzoeken bekend waar de methode van protocolanalyse werd toegepast
op een aan tekstbestudermg verwant gebied, namelijk dat van begrijpend lezen (Olshavs-
ky, 1976, 1978; Waern, 1980). Bestudering van een tekst gaat echter verder dan begrij-
pend lezen, (zie van Oostendorp & den Uyl, 1980; de Jong & Knippenberg, 1981). Het
onderhavige onderzoek wijkt, behalve het gericht zijn op studeren m plaats van lezen op
nog twee punten af van deze onderzoeken. Deze afwijkmgen zijn vooral terug te voeren
op ons streven de experimentele situatie zo mm mogelijk te laten afwijken van een reële
studeersituatie.

Het eerste en belangrijkste onderscheid bestond hierin dat in tegenstelling tot de drie ge-
noemde onderzoekingen geen a priori indelingen in de protocollen werden gemaakt. Ols-
havsky (1976 en 1978) deelde de tekst die gelezen moest worden m door middel van ro-
de punten na elke 'clause'. Na elke rode punt moest hardop gedacht worden. Waern
(1980) instrueerde ppn na elke zm hardop te denken. Het grote voordeel van deze a prio-
ri indehngen is dat er in de protocollen afgescheiden eenheden ontstaan, die door de on-
derzoekers als één proces beschouwd en omschreven worden. Bovendien is zo eenvoudig
vast te stellen bij welk deel uit de tekst de verschillende uhspraken van de ppn horen. On-
danks het verlies van deze voordelen werd besloten de ppn in dit onderzoek geheel vrij te
laten in de plaats waar zij hardop mochten denken. De reden hiervoor was dat het van te
voren indelen van de tekst als nadeel heeft dat aan een aantal mogelijke bestuderingspro-
cessen beperkingen worden opgelegd. Zo zal het bijvoorbeeld niet mogelijk zijn om voor-
uit te kijken in d^ tekst en zal het in ieder geval moeilijker zijn, - door fragmentarisering
-, om verbanden tussen grotere eenheden tekst te leggen. Ook Waern (1980) onderkent
deze beperkmgen. Zij geeft aan dat haar onderzoek daarom betrekking heeft op begrij-
pend lezen op zinsnivo.

Het tweede onderscheid betrof onze keuze voor een lange mformatieve tekst (± 2000
woorden). Daardoor wordt een reële studeersituatie beter benaderd. Een lange tekst zorgt
er bovendien voor dat de kans op het optreden van meerdere bestuderingsprocessen groter
wordt. Alleen Olshavsky (1976) gebmikte evenals wij een lange tekst (± 2500 woorden),
deze tekst had echter een verhalend karakter. Waem (1980) gebmikte een mformatieve
tekst maar deze was kort (265 woorden). In geen van bovengenoemde onderzoeken werd
dus een tekst gebruikt die wat betreft lengte én inhoud door kon gaan voor een normale
studietekst.

Naast bovengenoemde eisen aan de natuurhjkheid van de proefsituatie werden aan het re-
sulterende analyseschema ook eisen gesteld.

Ten eerste moeten bestuderingsprocessen op een dusdanige wijze beschreven worden dat
zij m nieuwe protocollen geplaatst en geïdentificeerd kunnen worden. Concreet betekent
dit dat de omschrijving niet inhoudsgebonden mag zijn.

Een tweede eis betreft het nivo van beschrijving. Dit nivo mag niet te abstract en omvat-
tend zijn, omdat relevante informatie dan mogelijk verborgen blijft en ook niet te gede-
tailleerd en exact, omdat dan een niet werkbaar geheel zou ontstaan.
Een derde aan het schema te stellen eis houdt in dat het een zekere objectiviteit mogelijk
moet maken. Daarom werd gekozen voor een gedragsgeoriënteerde beschrijving van bestu-
deringsprocessen.

Naast deze eisen die betrekking hebben op de beschrijving van de processen, bestond er
een probleem met betrekking tot de afbakening van leerprocessen binnen een protocol.
Er werden immers geen a priori indelingen in de protocollen aangebracht. Objectieve in-
delingen op grond van bijvoorbeeld een vast aantal zinnen in het protocol of een vaste
eenheid in de tekst (bv. een alinea) lijken niet te voldoen omdat evident is dat binnen zo'n
stuk protocol meerdere bestuderingsprocessen plaats kunnen vinden en dat één bestude-
ringsproces zich over verschillende van zulke teksteenheden kan uitstrekken. In plaats van
uit te gaan van gefixeerde lengtes in tekst of protocol werd als uitgangspunt gekozen voor.
Wat wij willen noemen, zinvoUe eenheden binnen het protocol. Binnen één zinvolle een-
heid vindt één bestuderingsproces plaats. Zo'n zinvolle eenheid wordt dan als afgerond be-
schouwd wanneer het proces dat de zinvoUe eenheid kenmerkt eindigt. Het probleem van
de afbakening wordt dus gelijktijdig met de benoeming van het proces opgelost.
Om te komen tot een analyseschema, waarin een overzicht van tekstbestuderingsproces-
sen wordt gegeven, dat bij het analyseren van nieuwe protocollen kan worden gebruikt,
hanteren wij een methode, die goed aansluit bij de 'analysis by synthesis' methode van
Breuker (1981). Van tevoren werd een lijst opgesteld van processen, waarvan mede op
grond van hteratuur (bv. Schmeck et al., 1977; 0'NeU, 1978), verondersteld kan worden
dat ze in de protocollen zullen voorkomen. Deze lijst wordt opgevat als een voorlopig
schema. Op grond van een succesievelijke analyse van protocollen zal dit schema worden
aangepast.

Protocollen werden verkregen door ppn hardop te laten denken tijdens de bestudering van
een tekst. Hun verbalisaties werden op de band opgenomen en later woordehjk uitgetikt.

Zeven eerstejaars studenten psychologie aan de Universiteit van Amsterdam werden ge-
\vorven in het kader van de propedeuseverpUchtmg om in totaal 25 uur als proefpersoon
te fungeren. De groep bestond uit 3 mannen en 4 vrouwen. Vijf protocollen werden ge-
bruikt voor de ontwikkehng van het analyse schema. De twee resterende protocoUen dien-
den om een indruk te krijgen van de betrouwbaarheid van het schema.

De in het onderzoek gebruikte tekst was een bewerking van 'Hulp hi Nood', een tekst die
eerder werd gebruikt door Wouters & Kop (1981). In deze tekst van ongeveer 2000 woor-
den wordt een zestal theoretische opvattmgen besproken over het verschijnsel dat mensen
hl duidelijke noodsituaties geen hulp van omstanders krijgen.

De instructie die de ppn ontvingen was als volgt. Eerst werd hen medegedeeld dat zij al-
les wat zij dachten en deden bij de bestudering van de tekst, in die vorm waarin zij het

dachten en deden, en dus niet in beschrijvende termen, hardop moesten zeggen. Tevens
werd vermeld dat zij dit overal in de tekst konden doen. Vervolgens werd de ppn een
concreet voorbeeld van hardop denken gegeven. Daartoe werd een geluidsband beluisterd,
waarop was opgenomen, hoe iemand een vraag beantwoordde uit het onderzoek dat Ka-
vale en Schreiner (1979) deden naar denkstrategieën bij het beantwoorden van vragen uit
gestandaardiseerde test voor begrijpend lezen. Het hardop denken werd dus gedemon-
streerd bij een andere taak dan het bestuderen van een tekst. Dit om een sturende invloed
op de ppn bij de onderzoekstaak te voorkomen. Om dezelfde reden werd afgezien van een
training van ppn in hardop denken tijdens tekstbestudering.

Naast het begeleiden van de instructie had de proefleider twee taken. Ten eerste het op
gang houden van het hardop denkproces wanneer daar haperingen in ontstonden. Ten
tweede ingrijpen wanneer de proefpersoon niet direct zijn denkprocessen naar voren
bracht, maar hierover ging theoretiseren.

Op grond van vijf verkregen protocollen werd het analyseschema opgesteld. Daarbij werd
steeds uitgegaan van de vraag: 'Welke bewerking past de student hier toe op de aangebo-
den informatie?' Met het voorlopige schema als uitgangspunt werden bestuderingsproces-
sen benoemd. Steeds werd beoordeeld of de uitgevoerde bewerking adekwaat beschreven
kon worden met reeds in het schema opgenomen processen. Elke beslissing over uitbrei-
ding of verfijning van het schema werd bepaald door de overweging dat enerzijds zoveel
mogelijk relevante informatie in het schema tot uiting moest komen, terwijl anderzijds
een werkbare detaillering moest worden gehandhaafd.

Werd er besloten een nieuw proces toe te voegen, een bestaand proces op te delen, of
meerdere al geidentificeerde processen tot een proces samen te voegen dan werd het nieu-
we proces geformuleerd overeenkomstig de eis dat dit gedragsgeoriënteerd en niet in-
houdsgebonden njoest zijn. Zo werden de vijf protocollen successievelijk doorgewerkt.
Bij het vierde en het vijfde protocol bleek een aanpassing van het tot dan toe opgesteld
analyseschema niet meer nodig. Er werden uiteindelijk 27 verschillende bestuderingspro-
cessen opgenomen, die werden ingedeeld in 8 meer omvattende categorieën. Deze inde-
ling vereenvoudigt tevens het zoekproces voor beoordelaars, (zie voor een overzicht van
het analyseschema tabel 1 en voor een beschrijving van de processen de appendix).
In het schema wordt gesproken in termen van geslaagde processen. Ook een poging tot
een bepaald bestuderingsproces of een (tekstinhoudelijke) foutieve invulling daarvan,
werd als het betreffende proces beoordeeld. Het bleek dat sommige processen een iets
meer omvattend nivo kregen dan de andere (bv. het proces 'Samenvatting' (SSA). Deze
processen worden in tabel 1 met een + aangeduid. Wanneer een zinvolle eenheid benoemd
werd door zo'n meer omvattend proces kon in sommige gevallen een nadere beschrijving
gegeven worden door dit proces te preciseren met andere (minder omvattende) processen.
Zo kan bv. binnen een samenvatting een benoeming (SB) of een volgorde wijziging (SVW)
optreden. De inhoudelijke structureringsprocessen (kategorie I B) en de vertaalprocessen
(kategorie V) kunnen in combinatie voorkomen, bijvoorbeeld wanneer een kernzin in ge-
herformuleerde vorm wordt geselekteerd.

Tabel 1: Overzicht van het Analyseschema (voor uitleg zie tekst en appendix)
' STRUCTUREREN UI INTERNE VERGELIJKING

Om een indruk te krijgen van de betrouwbaarheid waarmee met behulp van dit schema
processen kunnen worden afgebakend en benoemd, werden twee protocollen door bei-
de onderzoekers (A en B) geanalyseerd. Deze protocollen waren niet gebruikt bij het ont-
wikkelen van het schema, zodat ook de hanteerbaarheid van het schema bij nieuwe proto-
collen kan worden beoordeeld.

Door A werden 256 en door B 281 eenheden afgebakend en benoemd. Daarvan waren
227 eenheden hetzelfde (89% t.o.v. de door A afgebakende eenheden; 81% t.o.v. die van
B). Van deze 227 werden er 158 (70%; Kappa (Cohen, 1960) is 0.67.) hetzelfde be-
noemd. Wanneer processen die slechts van elkaar verschillen in de mate, waarin wordt
geëxphciteerd (SUVI en SUVE; EEZ en EEM), worden samengevoegd tot één kategorie,
cn zo ook processen die slechts van elkaar verschillen, doordat de een betrekking heeft
Op een volledige zin of frase en de ander op één of enkele woorden (SKW en SKZ; VW en
^Z; OCW en OCZ), dan wordt het aantal kategoriën teruggebracht van 27 tot 22 en
Wordt de overeenstemming 170/227 (75%; Kappa is .72). Wanneer het schema wordt ver-
eenvoudigd tot de hoofdkategorieën uit tabel 1, wordt het aantal te onderscheiden pro-
cessen tot 8 verminderd en is de overeenstemming 186/227 (82%; Kappa is .78). In tabel
2 Wordt de verdeling van de 227 benoemingen door beide beoordelaars over deze hoofd-
categorieën weergegeven.

Tabel 2: Benoeming van 227 stukken protocol door twee beoordelaars. De aanduidingen voor de pro-
ceskategoriecn (IA t/m VI) hebben dezelfde betekenis als in tabel 1.

Wanneer de betrouwbaarheidsanalyse, zoals die m tabel 2 staat weergegeven apart voor
beide protocollen wordt uitgevoerd, is de overeenkomst bij het ene protocol 86% (Kappa:
.82) en bij het andere 76% (Kappa: .72).

Uit de tabel valt op dat verschillen in benoeming in belangrijke mate (16/41) tot stand
kwamen doordat één beoordelaar een inprentingsproces (VI) aangaf, terwijl de ander oor-
deelde dat van een ander proces sprake was. Het is verleidehjk te veronderstellen dat de
oorzaak hiervan gelegen is in het feit dat inprentingsprocessen een bijzondere positie in-
nemen in het schema: elk proces dat wordt herhaald m.b.t. dezelfde inhoud wordt tot m-
prentingsproces bestempeld (Kategorie IV, die daarop de uitzondering vormt komt in de-
ze protocollen niet vaak voor). Een andere interpretatie Ugt echter meer voor de hand:
daar inprentingsprocessen m de protocollen relatief vaak "voorkomen, is het niet verwon-
deriijk dat zij ook een belangrijk deel van de verschillen in benoeming voor hun rekening
nemen.

De symmetrietoets (Everitt, 1977; p. 114 e.v.) levert een Chi-kwadraat van 23.48 (df =
28). De hypothese dat de matrix symmetries is, kan niet worden verworpen. We consta-
teren dat geen systematische verschillen van betekenis zijn opgetreden in de benoeming
van processen.

Ter illustratie van de toepassing van het schema, is in tabel 3 weergegeven, hoe twee stuk-
ken protocol, behorend bij hetzelfde tekstgedeelte, in processen werden ontleed.

Tabel 3: Illustratie van benoeming van proeessen in twee protocolfragmenten bij de tekst: '... De
meeste noodsituaties zijn zeker aanvankelijk dubbelzinnig. Voordat iemand hulp biedt, moet hij de be-
slissing nemen dat het echt om een noodsituatie gaat en dat hulp nodig is. Getuigen van noodsituaties
beïnvloeden elkaar; ze letten op de reakties van anderen'.

'Nou dan kom ik dus tot een cruciaal punt, dat het van belang is wat het algemene

De procedure, die Waem (1980) en Olshavsky (1976, 1978) gebruikten, week zoals we
reeds bespraken, op enkele punten af van de procedure in dit onderzoek. Het is interes-
sant om daarmee rekening te houden bij een vergelijking van ons schema met hun resul-
taten. Olshavsky (1976) identificeerde 10 'strate^es', Olshavsky (1978) 11 en Waem
(1980) identificeerde 4 'main operations'. Bij vergelijking met ons schema blijkt dat meer-
dere processen die wij van elkaar onderscheiden, door Olshavsky en Waern gezamenlijk
als één strategie of operatie werden aangemerkt. Zo vallen bijvoorbeeld de twee evaluatie-
processen (EEZ, EEM) en de vier vergelijkingsprocessen (IW, IVI, IVO en IVC) allen
onder Waern's operatie 'Comparing'. Ons schema blijkt aanmerkelijk gedifferentieerder.
Anderzijds komen vrijwel alle geïdentificeerde strategieën en operaties in ons schema
voor; een uitzondering is 'een visueel beeld vormen' (Olshavsky, 1978). Tenslotte is op-
vallend dat de processen, die in ons schema de hoofdkategorie 'structureren' vormen, bij
Waem en Olshavsky niét voorkomen. Dit is waarschijnlijk het gevolg van twee omstandig-
heden. Ten eerste werd in dit onderzoek uitgegaan van een betrekkelijk lange tekst, die
tevens informatief vzn aard was. Ten tweede was de tekst niet a priori ingedeeld in stuk-
ken waarbij hardop gedacht moest worden. Het veronderstelde nadeel van a priori inde-
lingen wordt hiermee bevestigd. Samenvattend blijkt dat ons schema een uitgebreider en
meer gedifferentieerd beeld geeft van bestuderingsprocessen van studenten. Door een in-
deling naar meer omvattende kategorieën kan het voordeel van een grovere indeling, na-
melijk overzichtelijkheid en hanteerbaarheid, worden gehandhaafd.
De mate van overeenstemming tussen beoordelaars bij het indelen van bestuderingsproces-
sen met behulp van dit schema is bevredigend (70 a 82%). Voor het mdelen van processen
hij begrijpend lezen zijn hogere cijfers gerapporteerd. Waem noemt 86 a 98% en Olshavs-
ky 80 a 95%.

Hardop denken tijdens tekstbestudering bleek protocollen op te leveren, die met het ana-
lyseschema zijn te ontleden in uitgevoerde bestuderingsprocessen. Zoals we in de inleiding

Stelden is er geen reden om aan te nemen dat deze processen door het hardop denken op
essentiële punten zijn beïnvloed. Ook nagesprekken met de ppn in dit onderzoek gaven
hiertoe geen aanleiding. Twee personen gaven aan, dat zij het hardop denken tijdens de
bestudering moeilijk of vervelend vonden, 4 gaven aan dat zij het niet of alleen in het be-
gin lastig vonden (Eén sprak zich daar niet over uit). Hoewel drie personen de studeer-
situatie als onnatuurlijk ervaarden en twee van deze drie aangaven dat je 'gaat denken over
je denken', rapporteerden toch zes van de zeven personen, dat hun wijze van bestuderen
voldoende tot uitdrukking werd gebracht in het hardop denken. (De zevende pp meende
dat men beter direkt aan hem kon vragen hoe hij de tekst zou bestuderen, en dat feitelij-
ke bestudering achterwege had kunnen blijven). In grote trekken is het oordeel van de
ppn over de bruikbaarheid van de hardop-denk-procedure bij tekstbestudering dus gun-
stig. Ook belangrijk in dit verband lijkt het volgende gegeven, (zie tabel 4)

Van de 52 stukken protocol die volgens tabel 2 door beoordelaar A als structurerende
processen (Kategorie I) werden aangemerkt, waren er 39 uit het protocol van de persoon,
die in het nagesprek zijn wijze van bestudering kenmerkte als: 'kernpunten eruit halen en
het selekteren vaii belangrijke punten en punten die waarschijnlijk gevraagd worden' (in
tabel 4 aangeduid met 'structurerend'). Van de 33 stukken protocol, volgens tabel 2 door
beoordelaar A als evaluerende processen (EEZ, EEM) aangemerkt, waren er 21 uit het
protocol van de persoon, die zijn wijze van bestudering kort kenschetste als 'evaluerend'.
(Als men uitgaat van beoordelaar B is dat 35 van de 47 structurerende processen en 20
van de 32 evaluerende processen).

We concluderen dat hardop-denlcinstrukties gebruikt kunnen worden om meer direkte in-
formatie te verkrijgen over bestuderingsprocessen.

Bij experimenteel tekstbestuderingsonderzoek kunnen gegevens over intermediërende be-
studeringsprocessen belangrijk zijn bij de theoretische interpretatie van empirische relaties
tussen experimentele manipulaties en leerresultaten. Bij correlationeel onderzoek en on-
derzoek volgens het ATI paradigma moeten individuele kenmerken mef zorg gekozen
worden; toevallig voorhanden globale meetinstrumenten, die voor prediktiedoeleinden
zijn ontwikkeld, zijn minder geschikt dan instrumenten die meer specifiek op tekstbe-
studering of bepaalde tekstkenmerken zijn toegesneden. Het opsporen van de relevante
individuele verschillen kan door middel van rationele correspondentieanalyse (Lodewijk
& Simons, 1979) of door een analyse van frekwenties en sekwenties van bestuderingspro-

cessen. Wellicht kunnen zo bestuderingsstrategieën worden geidentificeerd. Dat kan van
grote waarde blijken bij het valideren van instrumenten, die gebruikt worden om indivi-
duele verschillen in vaardigheden, preferenties of stijlen te meten. Daarbij denken we bij-
voorbeeld aan het onderscheid tussen comprehension learners en operation leamers (Pask,
1976); aan veldafhankelijkheid (Witkin et al., 1977) en vooral aan zelfbeschrijvingsvragen-
lijsten, gericht op verschillende cognitieve verwerkingsaktiviteiten, zoals de 'Inventory of
Learning Processes' ILP: Schmeck et al., 1977) en de gedeeltelijk daaraan ontleende 'Stu-
dent Attituden en Leer Strategieën (SALS: Wouters, in voorbereiding). Schulte & Wein-
stein (1981) bespreken naast de ILP nog twee van dergelijke vragenlijsten (Dansereau et
al., 1975; Weinstein et al., ter perse). Zij konstateren terecht dat dergelijke meetmstm-
menten nog in een experimenteel stadium verkeren. Wat vooral ontbreekt is een validatie
aan feitelijke verwerkmgsaktiviteiten. Pas daarna kunnen ze optimaal gebmikt worden om
inzicht te verkrijgen in de wijze waarop tekstkenmerken leerprocessen beïnvloeden en
daarmee de leerresultaten.

De hardopdenkmethode kan dus van groot belang zijn voor een verdere theorievorming
over tekstbestudering. Toepassing van deze methode is echter geen sinecure. Ten eerste
kost de methode erg veel tijd. Men zal steeds moeten afwegen, of de extra informatie die
Wordt verkregen, dit waard is. Ten tweede is het door ons ontwikkelde schema niet pas-
klaar voor elk onderzoek, waarin bestuderingsprocessen centraal staan. De totale mdmk
die we op grond van de vermelde betrouwbaarheidsgegevens krijgen over de hanteerbaar-
heid van het schema bij het analyseren van nieuwe protocollen is wel bevredigend, maar
nien dient te bedenken dat de beoordelaars terdege waren ingewerkt in het schema en
goed op de hoogte waren van de inhoud van de tekst. Bovendien was de tekst, die in deze
nieuwe protocollen werd bestudeerd, gelijk aan de tekst, die gebmikt werd voor de proto-
collen, waaraan het schema werd ontwikkeld. Daarom lijkt ons het schema slechts goed
bmikbaar wanneer men zich vóór het analyseren van protocollen mwerkt m het schema,
en oefent in toepassing van het schema bij de betreffende tekst.

Ook de indehng van bestudermgsprocessen in hoofdkategorieën, zoals wij die presenteer-
den, is slechts één mogelijk zinvolle indeling. Afhankelijk van het theoretisch kader, of
meer specifiek de onderzoekshypothese, is een andere indeling wellicht zinvoller. De ge-
wenste mate van detaillering in de beschrijving van de leerprocessen kan eveneens afhan-
gen van het preciese onderzoeksdoel. Zo zouden bij een onderzoek waarin het plegen van
inferenties door de lerende centraal staat, de processen SI (stmcturele inferenties) en EAI
(inhoudeUjke inferenties) samen m één hoofdkategorie kunnen worden ondergebracht.
In onderzoek waarin structureren en elaboreren door de lerende centraal staan, ligt een
indeling van SI en EAI zoals wij deden meer voor de hand.

De leerder brengt structuren in de tekst aan welke primair een niet inhoudehjke ka-
rakter dragen.

De leerder brengt een uiteriijke structuur aan die niet reeds in de tekst aanwezig
is.

De leerder doet voorspeUingen of trekt conclusies over de opbouw van een deel
tekst.

De leerder gaat bij de bestudering van de tekst niet volgens de volgorde van de tekst
te werk of geeft aan bepaalde delen tekst niet te doen.

De leerder werkt (vrijwel) de gehele tekst door op een globale manier zodat een to-
taalbeeld van de tekst kan ontstaan.
Voorbeeld:

- Latané en Darley ... dan krijgen we nog Clark en Word, Pihavin en Piliavin ... dan
volgt een conclusie.

De leerder selecteert letterlijk uit een vrij groot stuk tekst (alinea, paragraaf) een
woord (uitdrukking) dat kennelijk naar het oordeel van de leerder een centrale
functie in die alinea of paragraaf vervult in die zin dat het woord of de uitdrukking
als 'kapstok' voor de overige betrokken informatie zou kunnen fungeren.

Als SKW, maar i.p.v. een woord wordt een frase (zin, zinsdeel, 2 opvolgende zin-
nen) geselecteerd.

De leerder geeft een samenvatting van een groter stuk tekst door de kennehjk voor
hem/haar belangrijkste informatie uit dat stuk tekst (vrijwel) letterlijk te herhalen
m het onderhnge verband.

De leerder geeft een voorbeeld, verklaring, of een definitie, niet gegeven in de tekst,
voor een in de tekst genoemd begrip, principe, theorie etc.

De leerder geeft aan dat de inhoud van de tekst verbindingen heeft met al dan niet
gespecificeerde externe informatie, die niet bedoeld is als voorbeeld, defmitie of
verklaring.
Voorbeeld:

- Ik denk dan ogenblikkehjk aan een gegeven uit Marx van avoidance-avoidance en
avoidance-approach.

Uit de tekst maakt de leerder afleidingen m.b.t. die inhoud in de vorm van hypothe-
sen of conclusies.
Voorbeeld:

Tekst: 'In de nieuwsberichten en commentaren wordt gesproken van onverschilhg-
heid en vervreemding, die hi onze verstedelijkte samenleving steeds meer zou toene-
men'.

De leerder doet een uitspraak over het belang van de ui de tekst gepresenteerde in-
formatie zonder hieraan een inhoudelijke onderbouwing te geven.
Voorbeeld:

Zoals EEZ waarbij de leerder hiervan een uitleg geeft d.m.v. een alternatief, een te-
genvoorbeeld, etc. Bevat de uitleg een voorbeeld, verklaring of een definitie dan
vindt een combinatie plaats met proces EAV;
Voorbeeld:

De leerder geeft aan dat er óf een verschil, óf een overeenkomst, óf een tegenspraak
bestaat tussen twee of meer delen van de tekst. De lengte van deze delen kan varië-
ren van zinnen tot paragrafen. De vergelijking staat niet expliciet in de tekst.

De leerder verbindt twee delen tekst zodanig dat er een eenheid in gescheiden aan-
geboden informatie ontstaat. Het proces IVI omvat het proces IW omdat voor er
geïntegreerd kan worden er een vergehjking tussen de betrokken delen tekst ge-
maakt moet worden.
Voorbeeld:

(ln de tekst worden apart een aantal kenmerken van een noodsituatie genoemd en
daama een voorbeeld van een noodsituatie gegeven).

Protocol: je moet eerst een noodsituatie opmerken, je moet zien dat de auto, dat
de hchten in het water branden, in de tweede plaats moet je het ook in-
terpreteren als een noodsituatie, dus niet zien als onderwaterwerkzaam-
heden, (etc.)

De leerder abstraheert uit meerdere delen tekst (NB; de delen kunnen ook zinnen
zijn) dat element dat als kenmerkend voor die delen tekst kan gelden. Een dergelijk
overkoepelend begrip staat niet als zodanig in de tekst.

Het proces IVO omvat het proces IVI en het proces IW. Deze drie processen verto-
nen een hiërarchische ordening.
Voorbeeld:

De leerder gebmikt de context om een woord of begrip uit de tekst te definiëren.

De leerder geeft een synoniem, omschrijving of vertaling van een in de tekst ge-
noemd woord of begrip.

De leerder herformuleert een passage uit de tekst zonder daarbij de inhoud of de
structuur te veranderen.

De leerder herhaalt bepaalde informatie uit de tekst of informatie eerder door hem-
zelf gegeven, of selecteert informatie die niet als kernwoord of kernzin gekenschetst
kan worden.

De herhaling betreft, al dan niet door de leerder zelf aangebrachte, structuren.

Baltzer, J. Dc constructie van een procesvragenlijst, voorlopige werktitel, vakgroep onderwijspsycholo-
gie, Universiteit van Amsterdam, in voorbereiding.

Cohen, J. A coefficient of agreement for nominal scales. Educational and Psychological Measurement,
1960, 20,37-46.

Dansereau, D.1'., Long, G.L., McDonald, B.A. & Atkinson, T .R. Learning Strategy Inventory develop-
ment and assessment.

Dudink, A. Hardop denken bij het schrijven van teksten, voorlopige werktitel, vakgroep onderwijs-
psychologie, Universiteit van Amsterdam, in voorbereiding.

Dijk, T.A. van. Semantic macro-structure and knowledge frame in discourse comprehension. In: M.A.
Just & P.A. Carpenter (eds.) Cognitive processes in comprehension. Hillsdale, N.J.: Lawrence Erl-
baum Associates, 1977.

Elshout, J.J. Karakteristieke moeilijkheden in het denken. Proefschrift, Universiteit van Amsterdam,
1976.

Ericsson, K.A. & Simon, H.A., Thinking-aloud protocols as data, C.l.P. Working paper no. 397, Carne-
gie-Mellon University, march 25,1979.

Ericsson, K.A. & Simon, H.A. Verbal reports as Anti. Psychological Review, 1980, 87, 215-251.

Everitt, B.S. The analysis of contingency tables. New York: John Wiley & Sons Inc., 1977.

Fransson, A. On Qualitative Differences in Learning-IV. Effect of Intrinsic Motivation and Extrinsic
Test Anxiety on Process and Outcome. British Journal of Educational Psychology, 1911,47, 244-
257.

Hamaker, C., & Meyerink, M. Om een lang verhaal kort te maken. In: C. Boonman & J. Zwarts (eds.)
Tekstbestudering. Den Haag, SVO-reeks, 1980.

Jong, T, de & Knippenberg, W. Onderwijskundige functies van schriftelijk studiemateriaal. Onderwijs-
kundige Dienst, Technische Hogeschool Delft, 1981.

Kavale, K. & Schreiner, R. The Reading Processes of Above Average and Average Readers: A Com-
parison of the Use of Reasoning Strategies in Responding to Standardized Comprehension
Measures. Reading Research Quarterly, 1979,15, 102-128.

Kintsch, W. The representation of meaning in memory. Hillsdale, N.J.: Lawrence Erlbaum Associates,
1974.

Klare, G.R. & Schumacher, G. Student behavior while reading from text. Paper presented at the
annual meeting of the American Educational Research Association, Los Angeles, California, 1981.

Kop, P.C. Het Effect van Voorbeelden en Verwerkingsopdrachten bij het Bestuderen van een Studie-
tekst. Vakgroep onderwijspsychologie. Universiteit van Amsterdam, 1979.

Laurillard, D. The processes of student learning. Higher Education, 1979, 8, 395^10.

Lodewijks, J.G.L.C., & Simons, P.R.J. Een heuristische strate^e ten behoeve van aptitude-treatment-
interactie-onderzoek: Correspondentie-analyse. In: W.J. Nijhof, & J. van Hout (eds.) Differentiatie
in het onderwijs, 's Gravenhage: Staatsuitgeverij, 1979.

Marton, F., & Saljö, R. On Qualitative Differences in Learning I. Outcome and Process. British Journal
of Educational Psychology, 1976, 46, 4-11. (a)

Marton, F., & SÉQjö, R. On Qualitative Differences in Learning II. Outcome as a Function of the
Learners Conception of the Task. British Journal of Educational Psychology, 1976, 46, 115-127
(b).

Mayer, R.E. The sequencing of instruction and the concept of assimilation-to-schema. Instructional
Science, 1977,6,369-388.

Mayer, R.E. Twenty years of research on advance oiganizeis. Instructional Science, 1979,8, 133-167.

Newell, A., & Simon, H.A. Human problem solving Englewood Oiffs, N.J.: Pretice Hall, 1972.

Nisbett, R.E. & Wilson, T.D. Telling more than we can know: Verbal reports on rftental processes.
Psychological Review, 1911,84, 231-259.

Olshavsky, J.E. Reading as problem solving; an investigation of strategies. Reading Research Quaerter-
fy, 1976,72,654-674. '

Olshavsky, J.E. Comprehension profiles of good and poor readers across materials of increasing diffi-
culty. In: P.D. Pearson, & J. Hansen (eds.) Reading: Disciplined Inquiry in Process and Practice.
Qemson, South CaroUna: The National Reading Conference, Inc., 1978.

'Jostendorp, H. van, & Uyl, M. den. Regulatie van inferentie en integratie bij het lezen van teksten. In:

C. Boonman & J. Zwarts (eds.) Tekstbestudering. Den Haag: SVO-reeks, 1980.
ask, G. Conversation theory: applications in education and epistemology. Amsterdam: Elsevier,
1976.

•^othkopf, E.Z., & Billington, M.J. Goal-guided learning from text: inferring and descriptive processing
model from inspection ümas and eye, mov&menU. Journal of Educational Psychology. 1979 71
310-327. ' '

Sanchez, M., & Reitman, W.R. The composition of a fugue: protocol and comments. Pittsburgh: Car-
negie Institute of Technology, 1960.

Schmeck, R.R., Ribich, F., & Ramanaiah, N. Development of a self-report inventory for assessing
individual differences in learning processes. Applied Psychological Measurement, 1977,1, 413.431.

Schulte, A.C., & Weinstein, C.E. Inventories to assess cognitive learning strategies. Paper presented at
the annual meeting of the American Educational Research Association, Los Angeles, California
1981.

Svensson, L. On Qualitative Differences in Learning III. Study SkUl and Learning. British Journal of
Educational Psychology, 1911,47, 233-243.

Waern, Y. Thinking aloud during reading. Scandinavian Journal of Psychology, 1980,2i, 123-13 2.

Weinstein, C.E., Wicker, F.W., Cubberly, W.E., Roney, L.K., & Underwood, V.L. Design and develop-
ment of the Learning Activities Questionnaire. Army Research Institute, in press.

Witkin, H.A., Moore, C.A., Goodenough, D.R., & Cox, P.W. Field dependent and field independent
cognitive styles and their educational implications. Review of Educational Research, 1977, 77,1-
64.

^ittrock, M.C. Learning as a generative process. Educational Psychologist, 1974,11, 87-95.

Wittrock, M.C. Learning and memory. In: F. Farley & N. Gordon (eds.) Psychology and Education.
Berkeley, California: McCutchan Publ. Corp., 1981.

Wouters, L. Tekstkenmerken en Individuele Verschillen, vakgroep onderwijspsychologie. Universiteit
van Amsterdam, 1980.

Wouters, L., & Kop, P. Konkretiserende Elaboraties en Tekstbestudering. Tijdschrift voor Onderwijs-
research, 1981, ö, 113-129.

Wouters, L. Student attituden en leerstrategieën, voorlopige werktitel, vakgroep onderwijspsychologie.
Universiteit van Amsterdam, in voorbereiding.

Necessary and Sufficient Conditions for
Parallelism of Tests in Classical Test Theory

In his review of Gulliksen's Theory of mental tests Guttman criticized Gulliksen's treatment of
classical test theory. One of his objections is concerned with the non-uniqueness of reliability.
This objection is often referred to in attempts to challenge classical test theory. However, it can
be shown that Guttman's objection can only be held against Gulliksen's presentation of classical
test theory. It does not hold when classical test theory is developed as was done by Lord and
Novick. Therefore, citing Guttman's objection to Gulliksen as an objection to classical test
theory is nowadays not appropriate.

One of Guttman's (1953) basic criticisms of Gulliksen's Theory of mental tests (1950)
is that the theory of reliability as presented by Gulliksen is based on the notion of parallel
tests. Guttman argued that this notion of parallelism does not lead to a unique definition
of the reliability of a test. He gave an example of a certain test which is a member of two
sets of tests. In the first set all intercorrelations are .6, in the second set .7. From this
Guttman concluded that the test is parallel to the tests in both sets, which leads to a
reliability of .6 as well as .7. This conclusion is based on a definition of parallelism given
by Gulliksen (1950, p. 28, 29). This definition has been stated in empirical terms.
Another definition of parallelism by Gulliksen (1950, p. 11, 12) has been stated in theo-
retical terms. These two definitions are not equivalent as will be shown in this paper.
There would not be any reason to dwell on this point almost three decades later, were it
not for the fact that Guttman's example is still cited regularly, mostly in order to attack
classical test theory (CTT), cf Cronbach, Gleser, Nanda & Rajaratnam (1972, p. 7),
Lumsden (1976,p. 256), De Gmijter (1977, p. 4), Van der Kamp (1977, p. 271) or Meer-
ling (1980, p. 88). It is rather curious to see that supporters of generalizability theory (as
Cronbach et al. are) criticized a test theory because of the non-uniqueness of the reli-
ability of a test, but indeed, if it were right, Guttman's criticism would be lethal to CTT
in which there is no room for more than one reliability of a test.

In this paper it will be shown that Guttman's criticism does not apply to CTT; rather, it
applies to Gulliksen's treatment of CTT. In CTT the common definition of parallelism
will lead to a uniquely defined reliability of a test.

Gulliksen (1950, p. 11-12) defined test g and h as parallel tests if, for every person i,
(1) Tig = Tih

i-e., the standard deviation of errors (across persons) is the same for both tests. In accord-
ance with Lord and Novick (1968) we use in (2) the population formula, instead of Gul-
liksen's sample formula. The definition of parallel tests by (1) and (2) will be called
Gulliksen's theoretical definition. Gulliksen also defined parallelism in terms of observ-
able quantities: tests are parallel if they have equal means, standard deviations and inter-
correlations (Gulliksen 1950, p. 28, 29). This last definition will be caUed Gulliksen's
empirical definition. Obviously, this is the definition Guttman (1953, p. 125) was referr-
ing to. If this definition were correct then the non-uniqueness of the reliability in CTT
could be shown very simply: Take an arbitrary triplet of tests with unequal intercorrela-
tions. After standardization each couple would be parallel, and would have at least two

Gulliksen should not have mentioned the equal intercorrelations of parallel tests, but the
much stronger property that two parallel tests have equal correlations with any distinct
(that is: linearly experimentally independent) third variable, cf. Gulliksen (1950, p. 173,
181) or Lord and Novick (1968, eq. (3.3.6b)). This property implies equal intercorrela-
tions of parallel tests and is, in combination with the requirements of common expecta-
tions and variances, equivalent to (1) and (2), as will be shown below.

Two distinct measurements for which (1) and (2) hold in some population P, but not
necessarily in every subpopulation of P, are called pseudoparallel by Lord and Novick
(1968, p. 49^ They reserve the term paralleUsm for distinct measurements satisfying (1)
and (2) in every subpopulation of P. In the remainder of this paper Lord and Novick's
terminology will be used.

Gulliksen's theoretical definition of parallelism may now be reformulated as follows:
Two distinct tests g and h are pseudoparallel if they satisfy (1) and (2) in some popula-
tion IP.

Gulliksen's empirical definition may be extended and reformulated as follows: Two
distinct tests g and h are pseudoparallel if they satisfy in some population P

Now it can be siiown that the theoretical definition and the extended empirical defini-
tion are equivalent.
Proof:

Suppose we have a finite number N of persons in P, numbered 1, 2, ...i, ...N. For each
subject i we construct a dummy variable Y;, with
Yj = 1 for subject i
Y; = 0 for all other subjects.
The errors Eg and Ej, have zero expectation across replications for each person, cf. Lord
& Novick (1968, p. 31). Therefore Yj is distinct from Xg and Xh, for i = 1, 2, ...N.
From the definition of Y; it follows that

From (1), (9) and (10) we obtain (2). Therefore the triplet (3), (4) and (5) implies (1)
and (2). The proof that (1) and (2) imply (3), (4) and (5) can be found in Lord & Novick
(1968, p. 58, 59), where (3.3.1a) and (3.3.1b) imply (3.3.2), (3.3.3.) and (3.3.6b). By
standardizafion (3) and (4) can always be satisfied. Hence, (5) is the pre-eminent criterion
for pseudoparallelism, which means that distinct tests are (after standardization) pseudo-
parallel if and only if they correlate identically with all distinct other variables. This
implies that pseudoparallel tests have constant intercorrelations and that reliability in P,
based on pseudoparallelism, is unique. Hence, in Guttman's example the test could at
best be pseudoparallel to the tests in one of the two sets of tests.

Lord and Novick (1968, p. 59) already implicitly stated what we proved in the previous
section. They noted that satisfying four conditions which are equivalent to (3), (4) and
(5) is sufficient for 'the applicability of the standard results (of parallelism) to this popula-
tion'. Therefore our proof offers nothing new after Lord and Novick, but it can perhaps
contribute to a more accurate description of CTT m treatises on test theory.
Van der Kamp (1977, p. 272) stated that 'from the classical model no empirically testable
statements concerning persons and/or items can be deduced'. The criterion of 'equal
validities', however, is exceUently falsifiable, which has also been recognized by Fischer
(1974, p. 114). Jöreskog (1974) offered a method for testing hypotheses of pseudo-
Parallelism. This method is not based on the equal validity criterion, but on the criterion
of constant intercorrelations. Therefore this method tests only a necessary condition for
Pseudoparallelism.

Cronbach, L.J., Glaser, G.C., Nanda, H. & Rajaratnam, N. The dependability of behavioral measure-
ments. New York: WUey, 1972.
Fischer, G.H. Einßhrung in die Theorie psychologischer Tests. Bern: Huber, 1974.
Gruijter, D.N.M. At Psychometrische aspekten van tentamens. University of Leiden: Doct.Diss., 1977.
Gulliksen, H. Theory of mental tests. New York: Wüey, 1950.

Guttman, L. A special review of Harold GuUiksen. Theory of mental tests. Psychometrika, 1953,18,
123-130.

Jöreskog, K.G. Analyzing Psycholopcal Data by Structural Analysis of Covariance Matrices. In D.M.
Krantz et al. (Eds.), Contemporary Developments in Mathematical Psychology (Vol. II). San
Francisco: W.M. Freeman and Company, 1974.
Kamp, L.J.Th. van der. Developments in test theory. Gedrag, 1911,4, 265-291.
Lord, F.M. & Novick, M.R. Statistical theories of mental test scores. Reading, Mass.: Addison-Wesley,
1968.

MeerUng, Mef/!ode/i en technieken van psychologisch onderzoek, deel 1. Meppel: Boom, 1980.

In het cultureel supplement van NRC Handelsblad van 9 mei 1980 schreef Poll een artikel
getiteld 'Het gymnasium is een schoolstrijd waard'. Dit artikel is onlangs herdrukt in zijn
bundel 'Wennen aan vrede'. Daarin schetste hij een aantal argumenten waarom het gymna-
sium als schoolsoort moet blijven bestaan (het klassieke, het pragmatische, het liberale,
het conservatieve, het socialistische, etc.). Dezelfde argumenten komen ook naar voren in
de kortgeleden opgerichte Gymnasium-vereniging. In deze reactie gaat het om het pragma-
tisch argument. Poll vraagt zich daarbij af of de bijzondere kwaliteit van het gymnasium
op een of andere manier aangetoond kan worden. Hij meent dat dit kan aan de hand van
studieresultaten in het wetenschappelijk onderwijs van h.b.s.-ers en gymnasiasten. Hij ci-
teert vervolgens twee C.B.S.-publikaties uit 1971 en 1977 over de 'studieloopbaan van de
studentengeneraties 1955-1957 en 1961-1963'. Het C.B.S. concludeert daar volgens Poll:
'In aflopende volgorde geven de schooldiploma's gymnasium B, gymnasium A, hbs-B
en hbs-A de hoogste numerieke rendementen voor de universitaire studies' en iets later
nog eens 'Voor die faculteiten waarin zowel een schooldiploma gymnasium-B als hbs-B
examenbevoegdheid geeft, levert het eerstgenoemde diploma duidelijk betere resultaten
op dan het tweede'. Poll concludeert hiemit dat het ontcijferen van Latijn en Grieks niet
alleen goed is voor een talenstudie maar ook voor de studie van de B-wetenschappen. He-
laas volgt deze conclusie nog niet uit het verschillende studierendement in het weten-
schappelijk onderwijs.

Deze conclusie zou alleen gerechtvaardigd zijn indien gymnasiasten en h.b.s.-ers, behalve
hun middelbare school, gemiddeld dezelfde kenmerken hebben.

Slechts in dat geval zou het verschil in studierendement toegeschreven mogen worden aan
het voltooien van een gymnasium of h.b.s. Leerlingen van beide schoolsoorten hebben
echter niet dezelfde kenmerken. De keuze voor gymnasium of voor h.b.s. (na de lagere
school, na een andere vooropleiding of in het lyceum) is geen toevalskeuze maar o.a. een
selectie tussen de goede en de zeer goede leerlingen. Helaas kan dit met de tot nu toe ge-
publiceerde C.B.S.-statistieken moeilijk aangetoond worden, maar met de unieke data-set
'Van Jaar tot Jaar' van het I.T.S. uit Nijmegen kan dit wel. Deze data-set bevat gegevens
over de schoolloopbanen van de lagere schoolverlaters uit 1965^^
Naast allerlei schoolloopbaangegevens zijn ook gegevens beschikbaar over het prestatie-
niveau van de leerlingen en over het beroepsniveau van hun vaders, beide gemeten aan het
eind van hun lagere schoolperiode. Uit tabel 1 blijkt dat de gymnasiasten, die naar het
W.O. gaan, gemiddeld een hoger prestatieniveau hebben dan de h.b.s.-efs, die ook naar
het W.O. gaan. De grootste groep gymnasiasten heeft het hoogste prestatieniveau negen
(51% van alle gymnasiasten), de grootste groep h.b.s.-ers heeft een prestatieniveau dat la-
ger ligt, nl. zeven (34%).

De gebruikte 'Van Jaar tot Jaar' data-set is beschikbaar op het Steinmetz-archief te Amsterdam.
Paul de Graaf verrichtte het nodige rekenwerk.

gaan, van elkaar. Ze verschillen ook ten aanzien van het beroepsniveau van hun vaders (zie
tabel 2). Bijna de helft van de gymnasiasten (46%) heeft een vader van het niveau 'hogere
beroepen', terwijl dit percentage bij de h.b.s.-ers op 30% ligt. Uit tabel 2 blijkt bovendien
duidelijk de verschillende samenstelling van de h.b.s. en gymnasium populatie, indien wij
ook rekening houden met het prestatieniveau van de leerhngen. De twee grootste groepen
op het gymnasium zijn leerlingen met prestatieniveau negen, hetzij met vaders uit de ho-
gere beroepen (22%), hetzij met vaders uit de arbeidersklassen of lagere employees
(13%). Bij de h.b.s. is de verdeling meer gespreid. De twee grootste groepen zijn daar leer-
lingen uit de zelfstandige middenstand, boeren of tuinders met een prestatieniveau zeven
(10%) en leerlingen uit de arbeidersklassen of lagere employees met een prestatieniveau
zes of lager (10%).
Tabel 2

Percentages gymnasiasten en h.b.s.-ers met diploma, voorzover ze naar het W.O. gaan, per prestatieni-
veau en beroepsniveau van hun vaders.

Ter zijde wil ik er hier op wijzen dat uit nadere analyses van dezelfde 'Van Jaar tot Jaar'-
data ook blijkt dat het gymnasium relatief meer leerlingen, afkomstig uh de hogere
milieus aantrekt dan de h.b.s., ook bij een zelfde prestatieniveau van de leerlingen. Slechts
34% van alle kinderen uit het arbeiders- of lagere employee-miÜeu die het hoogste presta-
tieniveau (negen) hebben en die een V.W.O.-diploma behalen, verwerft het gymnasium-
diploma. Dit in tegenstelling tot kinderen met hetzelfde prestatieniveau, die ook een
V.W.O.-diploma behalen maar met vaders werkzaam in de hogere beroepen; 65% van de-
ze laatste groep verwerft het gymnasium-diploma.

Voor leerlingen met een zeer hoog prestatieniveau, maar afkomstig uit lagere milieus, is
het gymnasium-diploma, indien zij het behalen, echter gunstiger dan enig ander diploma.
Op het gymnasium terechtgekomen en het diploma ervan behaald, lijken alle leerlingen
uit alle milieus in dezelfde gymnasiale cultuur te worden opgenomen en meegenomen. Zo
gaat 82% van de gymnasiasten met het hoogste prestatieniveau, afkomstig uit de arbei-
dersklassen of lagere employees, naar het W.O. Het overeenkomstige percentage gymna-
siasten met hetzelfde prestatieniveau maar afkomstig uit het hoogste beroepsniveau is
88%. De corresponderende percentages van de h.b.s. zijn resp. 43% en 55%. Dit verschil
tussen h.b.s.-ers en gymnasiasten in het volgen van een wetenschappelijke opleiding, ook
bij een gelijk prestatieniveau, wijst op het belang van de gymnasiale schoolcultuur voor de
vorming van de verdere levensloop, ongeacht het milieu van afkomst van de leerHngen. De
effecten van het gymnasiumdiploma zijn dus niet milieu-gebonden, in tegenstelling tot de
toegang ertoe. De verwarring tussen de sterk milieu-gebonden toegang tot het gymnasium-
diploma en de relatief milieu-ongebonden effecten van het bezit van dit diploma, draagt
bij tot de grote spraakverwarring tussen voor- en tegenstanders van een afzonderlijk
gymnasium. Poli's socialistisch argument weerspiegelt deze spraakverwarring. Hij wijst er
enerzijds op dat 'niet alle ouders uit milieus waar het gymnasium geen vertrouwd school-
type is en lang niet alle schoolhoofden van basisscholen die moeten adviseren, de sprong
naar het gymnasium durven wagen' en anderzijds dat 'het gymnasium van oudsher een
emancipatorische rol vervult. Het staat open voor kinderen met een groot leervermogen,
ongeacht hun milieu'.

Het pragmatisch argument vóór het gymnasium dat Poll en ook de Gymnasiumvereniging
op basis van de uiteenlopende studierendementen probeerden op te bouwen, mist voorlo-
pig echter de nodige empirische steun, gezien de verschillende kenmerken van h.b.s.-ers
en gymnasiasten.

Over enige tijd kan de waarde van Poli's pragmatisch argument nogmaals getoetst worden
aan de hand van de nieuwe resultaten van de derde fase van het 'Van Jaar tot Jaar' onder-
zoek, wanneer de onderzochte groep rond de 25 jaar is en het W.O. voltooid kan hebben
(Diederen, 1982). Geruime tijd later zal het mogelijk zijn dit pragmatisch argument nog-
maals te toetsen aan de hand van het C.B.S.-cohort van diegenen die in 1977 voor het
eerst voortgezet onderwijs volgden (Smulders, 1979).

Diedeien, J. 'Van Jaar tot Jaar, derde fase: het proces van beroepskeuze', I.T.S., Nijmegen 1982.
Smulders, R., 'C.B.S.-onderzoek 'Schoolloopbaan en herkomst van leerlingen bij het voortgezet onder-
wijs' in: J.L. Peschar (red.) 'Van Achteren naar Voren', Staatsuitgeverij 1979.
K.L. Poll, 'Wennen aan vrede', Amsterdam, 1981.

De artikelen die in dit tijdschrift vanaf De Groot en Van Peet (1975) tot en met Stok-
l^ing (1980) zijn verschenen rond het regressie-probleem, hebben behalve veel emotie
ook nogal wat spraakverwarring opgeleverd. Om misverstand te voorkomen zal daarom
eerst het probleem worden omschreven, waarvoor hier oplossingen worden geboden. Het
bedoelde regressie-probleem doet zich voor, wanneer subjecten met extreme scores op
een voormeting worden geselecteerd uit een grotere groep subjecten en vervolgens van de
geselecteerde subjecten de gemiddelde nameting wordt vergeleken met de gemiddelde
Voormeting. Een dergelijke selectie op basis van extreme scores vindt in het bijzonder
plaats, wanneer men een behandelingsprogramma slechts wil toedienen aan subjecten die
behandeling nodig hebben of wanneer een controle-groep moet worden samengesteld an-
ders dan via random-selectie. Als gevolg van meetfouten in de scores treedt dan het re-
gressie-effect op. De selectie op basis van bijv. extreem lage scores zal in de geselecteerde
groep tot een oververtegenwoordiging van negatieve meetfouten op de voormeting leiden,
hetgeen voor de nameting niet of in mindere mate het geval zal zijn. Het regressie-pro-
bleem houdt in dat de gevonden verandering tussen voor- en nameting gedeeltelijk een
artefact zal zijn van het regressie-effect.

Voor de scores X; van de subjecten i = 1,..., n in de totale niet-geselecteerde groep schrij-
ven we Xj = Ti + ei met ware score t^ = E(Xi) en meetfout ej. Het ware gemiddelde m =

H i?j T"! wordt geschat door X = ^ Xj. Herhaalde meting op achtereenvolgende tijd-
stippen t = 1, ..., T geeft schattingen Xj van de achtereenvolgende gemiddelden/;,, waar-
voor zonder selectie geldt

Hierbij wordt niet noodzakelijk uitgegaan van constante ware scores over tijdstippen en
dus evenmin van een constant waar gemiddelde Mj = H2 ... = Mt- Als gevolg van spontane
ontwikkeling, behandeling of welke andere invloeden dan ook, kunnen en mogen veran-
deringen optreden in ware scores en ware gemiddelden. Het regressie-effect heeft met de-
ze ware veranderingen niets te maken en zal dan ook onafhankelijk hiervan worden gede-
finieerd.

Voor de scores Xj van subjecten i = 1, ..., m in de geselecteerde groep geldt op het selec-
tie-tijdstip: Xi < X c.q. Xi > X met selectie-drempel x. Schrijven we voor de scores van de

geselecteerde subjecten X* = Xj + e*, dan geldt dus op het selectie-tijdstip E (X*) =
E (Xi I X; < x) < 7i c.q. E (Xf) = E (Xi I Xi > x) > tj en E (e?) = E [Ci | q < (x - t-,]
< O c.q. E (e*) = E [ei I ei > (x - 7i)] > 0. Deze oververtegenwoordiging van negatieve c.q.

positieve meetfouten leidt op het selectie-tijdstip tot een onzuivere schatter X* = — E

X* van het ware gemiddelde jLt* = — É Ti van de geselecteerde groep, d.w.z. E (X*) < //*

C.q. E (X*) > li*. Selectie op tijdstip t = 1 impliceert dus | E (XJ - Mi) I > 0. Het regres-
sie-effect voor de schattingen X* van Mt kan nu als volgt worden geformuleerd.

Beginnend met een negatieve c.q. positieve afwijking op tijdstip t = 1, vertoont de curve
Xt vervolgens regressie naar de curve /i*. Anders dan vaak wordt gedacht, is de richting
van het regressie-effect duidelijk, nl. naar de ware gemiddelden-curve n* van de geselec-
teerde groep en niet naar enige andere curve of gemiddelde van enige andere groep.
Het regressie-effect kan onder de volgende assumpties worden afgeleid: 1) multinormaal
verdeelde meetfouten met 2) gelijke varianties en 3) niet-stijgende (over subjecten gelijke)
correlaties 1> Pn ^ O tussen selectie-tijdstip 1 en achtereenvolgende latere tijdstippen
t > 2, d.w.z. Pit > Pi,t+i• Uit assumpties 1) en 2) volgt E {en | e») = Pu en, E (e*it) =
Pit E (ei'i) met E (elt) = E [ejt | e» < (x - m)] c.q. E (e^,) = E[eit | e^ > (x - Tü)] {Lord
and Novick, 1968, p. 338), E (et*) en vervolgens uit assumptie 3) vanwege [ E(ëi) > O
het regressie-effect. Deze zeer algemeen gestelde assumpties zijn voldoende maar niet
noodzakelijk. In de praktijk zal het regressie-effect bijv. ook wel optreden bij geringe af-
wijkingen van multmormaliteit en geUjke varianties.

Belangrijk is dat het regressie-effect niet noodzakelijk ongecorreleerde meetfouten Pn = O
impliceert. Van deze assumptie van de klassieke testtheorie gaan Nesselroade et al. (1980,
p. 632) uit. Zijn de meetfouten echter inderdaad ongecorreleerd zoals in de praktijk vaak
bij benadering het geval zal zijn (de assumptie van gelijke varianties kan hierdoor verval-
len), dan treedt het regressie-effect in zijn geheel op tussen tijdstip t = 1 en t = 2 en niet
meer tussen latere tijdstippen t > 2.

Deze consequentie van ongecorreleerde meetfouten zal een belangrijke rol spelen bij de
dadelijk te geven oplossingen voor het regressie-probleem. Bij afwezigheid van meetfou-
ten doet het regressie-effect zich in het geheel niet voor en evenmin in het zeldzame ge-
val van perfect gecorreleerde meetfouten p^ = 1. Het regressieprobleem in de normale
situatie van ongecorreleerde of niet-perfect gecorreleerde meetfouten houdt in

De hier gegeven formulering van het regressie-probleem verschilt in een belangrijk opzicht
van die van Nesselroade et al. (1980). Zij gaan steeds uit van een constant waar gemiddel-
de over tijdstippen maar betrekken in hun autocorrelaties tussen de geobserveerde scores
X behalve (ongecorreleerde) meetfout-componenten en constante ware-score componen-
ten tevens veranderlijke ware-score componenten. Het gevolg hiervan is, dat ten opzichte
van de constante curve 'regressie-' en zelfs 'egressie-effecten' optreden, die met het re-
gressie-effect als gevolg van meetfouten en eventuele meetfoutcorrelaties geen verband
houden. Dat hun schattingscurven de effecten van veranderingen in ware scores weerspie-
gelen, kan moeilijk als een probleem worden opgevat.

Het gebruik van correctie-formules, waarbij een gecorrigeerd verschil (X, - X*)^ wordt
berekend in de hoop dat E [(XJ - Xt*) d = MÏ - Mt. biedt in de praktijk geen oplossing.
De discussie verschuift slechts naar de keuze van de betrouwbaarheidscoëfficiënt respec-
tievelijk correcfieformule (Stokking, 1980, p. 273). Nu vertonen de meeste tests geen of
slechts geringe correlaties tussen meetfouten op verschillende tijdstippen, zeker indien de
tijdsafstand niet al te klein is en bijv. parallelvormen worden gekozen. In dat geval bestaat
een oplossing voor het regressie-probleem hierin, dat men een tweede afname als voorme-
ting gebruikt. Het regressie-effect doet zich vanaf deze tweede afname niet meer voor. De-
ze tweede afname hoeft evenals de nameting slechts plaats te vinden in de geselecteerde
groep. Als men de beschikking kan krijgen over een hele reeks voormetingen, kan analyse
van de curve Xt inzicht verschaffen in de aard van het regressie-effect en eventuele meet-
foutcorrelaties. Verder inzicht kan ontstaan door vergelijking met een niet-geselecteerde
of anders geselecteerde groep (bijv. vergelijking van twee groepen met ongeveer gelijke
scores, maar geselecteerd uit verschillende groepen). Hierbij moet worden bedacht, dat
het regressie-effect over de tijd slechts kan afnemen en verschillend geselecteerde groepen
Verschillende regressie-effecten vertonen.

Stuit een extra voormeting op bezwaren, dan bestaat een alternatieve oplossing hierin,
dat bij de voormeting nog een tweede instrument wordt afgenomen waarmee wordt gese-
lecteerd. Bij ongecorreleerde meetfouten tussen dit selectie-criterium Xc en onderzoeks-
variabele X geldt

De rol van de eerste voormeting wordt hierbij dus overgenomen door het selectie-crite-
rium Xc en de noodzaak van een extra voormeting vervalt, terwijl de X-metingen geen re-
gressie-effect meer vertonen.

Anders dan vaak wordt gedacht (Stokking, 1980, p. 274; Campbell and Stanley, 1963,
P. 219) is er geen enkel bezwaar tegen een hoge correlatie tussen Xc en X. Zij moeten
integendeel juist hoog gecorreleerd zijn in hun ware scores Tc en t, omdat anders geen
of onvoldoende selectie plaatsvind. Men kan bijv. voor Xc een parallelvorm van X nemen
of een ander instrument dat ongeveer hetzelfde meet. De meetfouten van verschillende in-
strumenten zullen in het algemeen geen of slechts verwaarloosbare correlaties vertonen.
Vreest men toch meetfoutcorrelatie, dan kunnen beide oplossingen ook worden gecom-
bineerd: bij een eerste voormeting wordt het selectie-criterium Xc afgenomen en bij een
tweede voormeting X,. Meetfoutcorrelatie van Xc met X bij latere voormefingen is in de
praktijk niet of nauwelijks te verwachten.

Concluderend kan worden gesteld, dat het regressie-effect als gevolg van selectie van ex-
treme scores geen probleem hoeft te vormen, mits wordt geselecteerd op een ander instru-
nient dat dat van de nameting en/of verschillende voormetingen plaatsvinden.

Campbell, D.T., and Stanley, J.L. Experimental and quasi-experimental designs for research on teach-
ing. In Gage, N.L. (ed.). Handbook of Research on Teaching. Chicago: Rand McNally, 1963.
Groot, A.D. de, en Peet, A.A.J. van Enkele kanttekeningen bij het proefschrift van J.L. Peschar:

Milieu, school en beroep. Tijdschrift voor Onderwijsresearch, 1975, i, 4042.
Lord, F.M., and Novick, M.R. Statistical theories of mental test scores, Reading: Addison-Wesly, 1968.
Nessekoade, J.R., Stigler, S.M., and Baltes, P.B. Regression toward the mean and the study of change.

Psychological Bulletin, 1980,88, 622-637.
Stokkmg, K.M. Statistische regressie - Enkele methodologische notities. Tijdschrift voor Onderwijs-
research, 1980,5, 271-279.

Neuwahl, Nitha M.E., Het IBO gevolgd: een onderzoek naar het individueel beroepsonder-
wijs en zijn leerlingen.

In een nieuwe serie sociaal-wetenschappeUjke proefschriften relevant voor de hulpverlening bijt Nitha
Neuwahl met haar dissertatie het spits af.

'Het IBO gevolgd' beschrijft een onderzoek naar het individueel beroepsonderwijs en zijn leerlingen.
Het ibo is een vorm van lager beroepsonderwijs (LBO/LAVO-besluit), voorkomend in ibo-scholen en
afdehngen van lbo-scholen, die ontstond in het midden van de jaren vijftig en inmiddels (CBS-gegevens
1980) flink is uitgegroeid (tot ruim 56.000 leerlingen, ± 14% van het totale lbo). Het ibo geeft aan
leerlingen met zwakke leerprestaties in de vakken van het gewoon lager onderwijs (glo) meer aange-
past onderwijs dan het lbo en krijgt daaivoor extra faciliteiten (taakuren, kleinere klassen, afwijkende
lessentabellen, enz.).

Het ibo mikt o.m. op de 'underachiever', de leerling die om wat voor reden dan ook bij zijn leeftijdsge-
noten verstandelijk gezien achtergebleven is, maar zich overigens niet van de andere leerlingen onder-
scheidt. Dit in tegenstelling tot het voortgezet buitengewoon onderwijs (vbuo) waarin alleen zwakbe-
gaafden geplaatst kunnen worden. Het aangepaste onderwijs in het ibo bestaat vooral uit individualise-
ring van de leerwegen, in het bijzonder bij de leervakken. Voor het overige onderscheidt het ibo zich
niet wezenlijk van het overige lbo.

Het boek bevat zes hoofdstukken, een aanhangsel en een groot aantal bijlagen. Het grootste gedeelte
van het boek (hoofdstukken 2 t/m 6) is gewijd aan onderzoek over en met de door Koornstra, Neu-
wahl en Van Hoorn ontwikkelde IBO-differentiatietest. Deze test kan worden gebruikt bij toelating
tot het voortgezet buitengewoon onderwijs (vbuo), het ibo en het overige lbo.

Het eerste hoofdstuk geeft een historisch overzicht van het ibo, dat bestaat uit het individueel tech-
nisch onderwijs (ito), het individueel huishoud- en nijverheidsonderwijs (ihno) en het individueel land-
bouwonderwijs (ilo).

In dit eerste hoofdstuk vindt de lezer ook achtergrondinformatie over het ibo en de daarin voorkomen-
de problemen, zoals: de toelating van leerlingen, de begeleiding van leerkrachten en leerlingen, en de
integratie, onderscheiden in horizontale integratie (het samengaan van ihno, ito en ilo) en verticale in-
tegratie (het samengaan van een vorm van ibo met het 'gewone' lbo).

Het tweede hoofdstuk handelt over het ontstaan, de betekenis en het gebruik van de testbatterij, die
evenals soortgelijke instrumenten, zoals de Groningse Differentiatietoets voor het Individueel Beroeps-
onderwijs (de DIBO-toets), uitsluitend bestaat uit paper-and-pencil-tests en alleen intellectuele vaartüg-
heden meet. Manuele vaardigheden, hoe belangrijk ook voor het ibo, blijven buiten beschouwing.

Hoofdstuk 3 geeft een beschrijving van de validatie van de testbatterij, het samenstellen van steekproe-
ven uit het ito en ihno, het vergelijken met normgroepen uit andere schooltypen, enz. Wat het samen-
stellen van de verschillende groepen betreft, komt de lezer voor nogal wat onbeantwoorde vragen te
staan. Zo wordt bv. niet vermeld waarom het ilo niet in het onderzoek wordt betrokken. Een reden
hiervoor is wellicht dat het ilo slechts ongeveer 6% van de ibo-populatie uitmaakt. Mogelijk is ook dat
de testbatterij in het ilo te weinig wordt toegepast om voldoende gegevens te kunnen verzamelen. Niet
vermeld wordt ook waarom de steekproef uit het ihno twee maal zo groot genomen is als uit het ito,
precies omgekeerd evenredig met de populatiegroottes. Hierdoor zijn allerlei correcties nodig. Een mo-
gelijke reden is ook hier een verschillende gebruiksfrequentie van de testbatterij in beide populaties.
Verder wordt evenmin onderscheid gemaakt tussen ibo-afdelingen en ibo-scholen. Mogelijke verschil-
len hiertussen zijn in het onderzoek niet onder controle gehouden of uit de weg gegaan. Toch was dit
vrij eenvoudig geweest door het elimineren van de ito-scholen. Het ihno kent nl. alleerv afdelingen. Een
nadeel hiervan is wel dat de steekproef uit het ito dan nog kleiner en wellicht te klein, was geworden.
Om het ito en ihno (I.Q. ± 85) met 'normale' leerlingen (I.Q. 100) te kunnen vergelijken worden twee
controlegroepen samengesteld: een groep met dezelfde chronologische leeftijd (cl) en een groep van
gelijke verstandelijke leeftijd (vl).

Hoewel dit onderscheid verder geen informatie van betekenis oplevert, is het toch wel intrigerend hoe
in tabel 3.1. (p. 59) uitgaande van de in bijlage 3.5. verstrekte gegevens, één van de kinderen uit de
groep vl in groep cl gekomen is. Belangrijker is echter de samenstelling van de vergelijkingsgroep.

Deze bestaat voor 1/3 uit leerlingen afkomstig uit de eerste drie leerjaren van het mavo, havo en vwo,
voor 1/2 uit het glo (klassen 4, 5 en 6) en voor 1/6 uit het lbo (leerjaren 1 en 2). De ihno- en ito-steek-
proeven worden dus wel vergeleken met een doorsnede van de Nederlandse schooljeugd, maar niet met
het overige lbo. De resultaten laten, zoals te verwachten is, nogal wat verschillen zien tussen de ibo-
lecrlingen en normaal intelligente leerlingen, zoals in het algemeen wat gebrekkige/andere cognitieve
ontwikkeling, maar dus niet welke verschillen er zijn met de leerlingen uit het overige lbo.
Dat is jammer, want vooral daar zit men met het probleem waar het kind geplaatst moet worden: in
het ibo of in het overige lbo. Ook zouden dan voor de integratieproblematiek, die vooral bepaald
Wordt door de vraag waarin het ibo en het overige lbo van elkaar (moeten) verschillen, bijzonder inte-
ressante gegevens beschikbaar zijn gekomen.

Wat de testbatterij zelf betreft, konden de in een voorstudie gevonden vijf factoren wederom worden
teruggevonden, t.w.: verbaal- en rekenvermogen, ruimtelijk inzicht, associatief leervermogen, werktem-
po en nauwkeurigheid.

Hoofdstuk 4 beschrijft een foUow-up van de in 1971 en 1972 met de test onderzochte leerlingen.
Onderzocht worden de predictieve eigenschappen van de test, de effecten van het milieu van de leer-
lingen (beroep vader, gezinssamenstelling, enz.) en hun onderwijsloopbaan tot het begin van het ibo
(leeftijd bij het verlaten glo of blo, laatst doorlopen klas, zittenblijven, schoolcijfers, enz.). Met behulp
van vragenlijsten aan (klasse)docenten wordt informatie verkregen over hun capaciteiten, interesse,
handigheid, sociale aanpassing, enz. De vele variabelen worden op verschillende wijzen met elkaar in
Verband gebracht (kruistabellen, paarsgewijze vergelijkingen en multi-variate analyses).
In hoofdstuk 5 wordt met behulp van discriminant-analyses op de verkregen data nagegaan waarin goe-
de en slechte leerlingen wat hun cognitief functioneren betreft van elkaar verschillen, wat bij plaatsing
van de leerling in het ibo een zeer nuttig gegeven is.

Het laatste hoofdstuk tenslotte bevat de conclusies en een groot aantal aanbevelingen die duidelijk niet
alleen voor hulpverleners zijn bedoeld.

In hoeverre het onverkort uitgeven van proefschriften de hulpverlening veel verder helpt, zal de prak-
tijk leren. Dan zal blijken hoe hinderlijk of stimulerend het voor de hulpverlener is over zijn gebied een
hoek te lezen dat voor een ander doel en een andere doelgroep geschreven is. De gebruiker van de IBO-
differentiatietest die in de handleiding niet genoeg informatie vindt, komt in 'Het IBO gevolgd' ruim-
schoots aan zijn trekken, maar bij de daadwerkelijke hulpverlening in het onderwijs zelf zal het niet ge-
makkelijk zijn te bepalen wat er met de vele gegevens gedaan kan worden. De docent-hulpverlener zal
in ieder gevd weinig kunnen beginnen met een paragraaf didactische adviezen, waarin niet meer staat
dan dat de op de test behaalde scores aanleiding kunnen zijn tot '... één of meer didactische advie-
zen...'.

Zo is het bijvoorbeeld interessant te lezen dat het voortijdig verlaten van de school eerder te wijten is
aan gebrek aan interesse van de leerling en zijn probleem zich sociaal aan te passen, dan aan verstande-
lijk onvermogen. Voor de hulpverlener in het ibo die weet dat dit probleem er ook in het overige lbo
ligt, blijft het moeilijk te bepalen wanneer ingegrepen moet worden en hoe dit probleem gekeerd kan
worden.

In hoofdstuk 4 worden resultaten beschreven van faktoranalyses van 14 variabelen, waarbij ook fak-
tor-matching (rotatie naar maximale overeenkomst) wordt toegepast. Aangezien methodische onder-
delen van inhoudelijk onderzoek de kans lopen ongewijzigd door andere-inhoudelijk ge interesseerde-
onderzoekers te worden overgenomen, dienen er enkele kanttekeningen te worden geplaatst bij Neu-
wahl's bespreking en gebruik van faktormatching. Allereerst hanteert Neuwahl een terminologie die
misschien lokale betekenis mag hebben maar die op geen enkele manier aan de vakliteratuur wordt ge-
relateerd. Termen als 'een zogenaamd matchingsprogramma' of 'between-matching' maken niet duide-
lijk welke uit de bonte verzameling van beschikbare matchingsmethoden (geïnventariseerd door o.a.
Ten Berge (1977)) is gebruikt. Een meer fundamenteel bezwaar betoeft de werkwijze. In par. 4.1.1.
en par. 4.2.1. wordt gesproken over het matchen van 14 principale komponenten (bij 14 variabelen)
van ihno en ito; en de zo gevonden kongruentie - op pag. 69 ten onrechte met 'korrelatie' aangeduid
- wordt opgevat als bewijs voor gelijkheid van de faktorstrukturen. De gevolgde werkwijze zou ech-

ter ook bij random gegevens hoge kongruentie hebben opgeleverd. Hoe hoog is o.a. af te leiden uit on-
derzoek van Nesseboade, Baltes en Labouvie (1971), en Korth en Tucker (1975). Tenslotte mag niet
onvermeld blijven dat het faktoranalytisch onderzoek door Van Noord (1980) is gerepliceerd, zowel
met Neuwahl's materiaal als met nieuw materiaal. Van Noord konkludeerde dat slechts drie (i.p.v. vijO
faktoren serieus genomen kunnen worden, te weten verbaal & rekenvermogen, ruimtelijk inzicht, en
werktempo.

ten Berge, J.M.F. Optimizing factorial invariance (diss.). R.U. Groningen, 1977.

Korth, B. & Tucker, L.R. The distribution of chance congruence coefficients from simulated data.

Psychometrika, 1975,40, 361-372.
Nesselroade, J.R. & Baltes, P.B. On a dilemma of comparative factor analysis: A study of factor match-
ing based on random data. Educational & Psychological Measurement, 1970,30, 935-948.
Nesselroade, J.R., Baltes, P.B. & Labouvie, E.W. Evaluating factor invariance in oblique space; Baseline

data generated from random numbers. Multivariate Behavioral Research, 1971,6, 233-241.
van Noord, F. Faktorstruktuur van de IBO-differentiatietest. (stageverslag). Vakgroep Persoonlijk-
heidsleer, R.U. Groningen, 1980.

'Rede als richtsnoer, bijdragen over methoden van denken en werken in de gedragsweten-
schappen'. Aangeboden aan Profdr. A.D. de Groot bij zijn afscheid van de Universiteit
van Amsterdam'; Mouton: 's Gravenhage, 1979.

De bespreking van een verzameling bijdragen die bij afscheid van een bepaalde persoon wordt aange-
boden, is een moeilijke zaak, omdat de selectie van de auteurs veelal plaatsvindt op grond van de mate
waarin ze de betreffende persoon hebben gekend of met de betreffende persoon hebben samenge-
werkt. Dit leidt doorgaans tot een grote diversiteit aan onderwerpen. Ook deze publicatie is hiervan
een voorbeeld. De eenheid is door de samenstellers van deze bundel gevonden in de methode en vooral
dan de methode voor empirisch onderzoek welke door De Groot wordt voorgestaan en door hem is
overgedragen aan een groot aantal leerlingen die hij als hoogleraar heeft gehad en die hij begeleid heeft
in de totstandkoming van een dissertatie.

Wanneer ik me ten aanzien van de onderwerpen beperk tot het onderwijs, dan valt op dat in deze pu-
blicatie weinig echt nieuwe bijdragen te vinden zijn. Vele zijn samenvattingen van rapporten, disserta-
ties, welke door de diverse auteurs al gepubliceerd zijn. Voorbeelden hiervan zijn de bijdrage van Bos
over de KLOS-PA-ontwikkelingsexperimenten, van Van Dorp over het denken van de dokter, van
Stroomberg over het leren van volwassenen en die van Wesdorp over de invloed van de objectieve stu-
dietoetsen op het onderwijs. Voordeel van opname in deze bundel is dat zij daardoor wellicht toegan-
kelijk worden voor een groter publiek. Interessanter zijn de bijdragen van Crombag, waarin hij pleit
voor een vakspecifieke cognitieve psychologie en dit adstrueert aan voorbeelden uit de wiskunde, en
die van Sandbergen, waarin de relatie tussen onderzoek en beleid wordt nagegaan en voorwaarden
voor gebruik van onderzoeksresultaten in het onderwijsbeleid geformuleerd worden.
Wat de methodologie van het onderzoek betreft blijkt dat deze niet geproblematiseerd wordt. De re-
gels zoals aangegeven door De Groot in zijn methodologie worden veeW gevolgd of er wordt zelfs he-
lemaal niet naar verwezen.

Hieruit blijkt dat De Groot inderdaad een leermeester is geweest die gevolgd wordt eivniet ter discus-
sie stond. 'Rede als richtsnoer' Ujkt mij, wanneer dit ook in de houding ten opzichte van de regels
tot uitdrukking zou moeten komen een enigszins pretentieuze titel. Misschien is het wel De Groot zelf
geweest die in een aantal bijdragen over minimale methodologie, over consensus in het forum e.d. ver-
der is gegaan dan een aantal van zijn leerUngen hebben gedaan. Hierbij moet worden opgemerkt dat in
het afgelopen decennium een aantal ontwikkeUngen in de wetenschapstheorie, methodologie hebben
plaatsgevonden, ook o.a. door de vraagstellingen die gesteld werden ten aanzien van bijdragen van de
wetenschap en empirie binnen het onderwijs tot theorievorming ten aanzien van het onderwijs en bij-

diagen tot oplossing van problemen die nopen tot verdere analyse en ontwikkelen van nieuwe ideeën
en regels voor theorievorming en onderzoek.

Opvallend is dat men weinig nieuwe ideeën in de bijdragen aan deze bundel tegenkomt, misschien aan-
zetten daartoe in bijvoorbeeld de bijdrage van Duijker. Het meest expliciet is De Zeeuw, die pleit voor
het verrichten van onderzoek ten aanzien van doe-uitspraken en voor een uitbreiding van de herken-
ningsvormen, vooral de intersubjectieve herkenningsvorm die hij dan ten behoeve van het andragolo-
gisch onderzoek op bepaalde wijze interpreteert. Problemen die hierbij echter ontstaan zijn de relatie
tussen de diverse vormen van beweringen, de eisen te stellen aan de herkenning van de kwaliteit en de
functie van onderzoek hierbij.

Andere publicaties uit deze hoek, waarvan De Zeeuw als een exponent kan worden beschouwd, zijn
echter beter materiaal voor een beoordeling van het werk van deze groep.

Al met al een bundel die veel bekende bijdragen bevat, waarvan het voordeel is dat ze nu bij elkaar
staan en daarmee een breed gebied binnen de onderwijskunde bestrijken en een bundel die op een aan-
tal onderdelen, in een beperkt aantal bijdragen interessant is vanuit methodologisch perspectief.

Dr. E. de Corte, Drs. C.T. Geerlings, drs. N.A.J. Lagerwey, drs. J. Peters en dr. R. Van den
Berghe. Beknopte Didaxologie, 5e druk Wolters-Noordhoff, 1981

Beknopte didaxologie is in 1972 voor het eerst verschenen. In 1981 is een vijfde druk verschenen,
waarbij de opbouw voor een belangrijk deel hetzelfde is. Er zijn enkele hoofdstukken toegevoegd en
het inleidende hoofdstuk is ingrijpend gewijzigd. De andere hoofdstukken in meerdere of mindere ma-
te aan de recente ontwikkelingen aangepast.

Het boek is ingedeeld in tien hoofdstukken. Praktisch ieder hoofdstuk begint met een begripsafbake-
ning, gevolgd door een uiteenzetting van de belangrijkste problemen op het desbetreffende gebied. Al-
le hoofdstukken worden afgesloten met een geannoteerde literatuurlijst.

In het eerste hoofdstuk wordt uiteengezet wat didaxologie betekent en hoe het zich verhoudt tot de
didaktiek en de onderwijskunde. De didaxologie wordt opgevat als 'het onderdeel van de onderwijs-
kunde waarin theorievorming en onderzoek betreffende de microstruktuur en aspekten van de meso-
struktuur centraal staan'. Omdat, zo steUen de auteurs, een algemeen aanvaarde theorie over het on-
derwijzen en leren ontbreekt moet in de didaxologie vaak met modellen gewerkt worden. Het ver-
schil tussen de didaxologie en de didaktiek is niet de intentie, (beide beogen het optimaliseren van het
didaktisch handelen) maar de manier waarop men bezig is met de ordening van gegevens op het gebied
Van het onderwijzen en leren.

De didaxologie probeert te komen tot een consistent systeem van uitspraken die methodologisch ver-
antwoord zijn, de didaktiek geeft een meer praktisch gerichte beschrijving. Deze bovengenoemde om-
schrijvingen kunnen mijns inziens alleen maar geïnterpreteerd worden door te concluderen dat de di-
daxologie probeert om tot theorievorming te komen op het gebied van het didaktisch handelen.
Om de didaxologie te typeren wordt ze geplaatst in het systeem van Blankertz die een 'Bildungstheore-
tische', een 'Informationstheoretische' en een 'Lerntheoretische' stroming onderscheidt. De eerste
twee stromingen gebaseerd op respektievelijk de klassieke vormingsgedachte en een behavioristisch
cybernetische aanpak laten gemakkelijk de conclusie rechtvaardigen dat de didaxologie het beste past
in de 'Lerntheoretische' stroming. Het model van Glaser met name de bewerking ervan zoals die in de
didaktische analyse van van Gelder e.a. vorm gekregen heeft wordt uitgangspunt van het boek. Centraal
staan daarbij de 'leerprocessen', daaromheen is de onderwijsleersituatie gegroepeerd met de didaktische
werkvormen, leerinhouden, media en groeperingsvormen en daar weer omheen de doelstellingen, de
beginsituatie en de evaluatie.

In de hoofdstukken twee tot en met elf komen achtereenvolgens doelstellingen, beginsituatie, leerin-
houden, didaktische werkvormen, media, leerpsychologie, groeperingsvormen, evaluatie, curriculum
en de geschiedenis van de didaktiek ter sprake. Het is onduidelijk waarom deze volgorde gekozen is.
Gezien het gekozen model zou het beginnen met de leerprocessen meer voor de hand liggen.
Na lezing van het boek blijft er een gevoel van onvrede achter. Hoe goed de afzonderlijke hoofdstuk-
ken ook geschreven zijn, de onderlinge relaties tussen de hoofdstukken blijven te impliciet waardoor
de aanzet om te komen tot een theorie over het onderwijzen en het leren onvoldoende uit de verf

komt. Uit de bovengenoemde opsomming blijkt al dat het leren met één hoofdstuk een uiterst beschei-
den plaats gekregen heeft tussen een achttal hoofdstukken die vooral op het onderwijzen gericht zijn.
Het hoofdstuk over doelstelhngen behandelt:

2) het klassificeren ervan waarbij met name uitgebreid ingegaan wordt op het 'structure of intelü-
gence' model;

Het hoofdstuk is helder geschreven met een aantal voorbeelden die ook voor een niet deskundige dui-
delijk maken wat doelstellingen zijn en welke problemen er mee samenhangen.

Hoofdstuk drie start met een omschrijving van de beguisituatie namelijk 'Het geheel van persoonlijke,
sociale, schoolse en situationele gegevens, die in verband met te realiseren onderwijsdoelen van invloed
kunnen zijn, respectievelijk zijn op het verloop en de resultaten van onderwijsprocessen'. De variabelen
van de beginsituatie worden in een aantal kategorieën onderverdeeld, te weten: de leerling, de leer-
kracht, de klas, de school en de situationele gegevens. Kort wordt ingegaan op het begingedrag van de
leerlingen o.a. in termen van algemene en specifieke voorwaarden. Daarna worden intelligentie, motiva-
tie en het sociale milieu gerelateerd aan het leren op school. Op zich aardige bijdrages, al zal de lezer
zelf moeten uitmaken waarom juist die topics van belang zijn voor de beginsituatie.
Het vierde hoofdstuk, de leerinhouden, gaat in op de keuze voor leerinhouden, de ordeningsvormen
van de inhouden (volgens schoolvakken, volgens leergehelen zoals totaliteitsonderwijs volgens Gagné
en tenslotte volgens Bloom specificatie tabellen). Het werk van Resnick wordt slechts terloops aange-
duid. Juist haar belangrijke onderscheiding tussen rationele en empirische taakanalyse lijkt me van
grote betekenis om onderwijzen en leren aan elkaar te koppelen. Een boek met de pretentie om zowel
over het onderwijzen als het leren een theoretische bijdrage te leveren zou juist aan deze problematiek
veel aandacht moeten schenken.

De hoofdstukken didactische werkvormen en media zijn duidelijk geschreven. Vooral de praktische
betekenis ervan wordt op een overzichtelijke manier uiteengezet.

Het hoofdstuk over de leerpsychologie schenkt aandacht aan de bijdrages van respektievelijk de be-
havioristische (o.a. Skinner), de pluralistische leeropvatting (Ausubel en Gagnè), de nederlandse denk-
psychologie o.a. van Parreren en de leerpsychologie uit de Sovjet Unie. De meer recente ontwikke-
lingen in de Verenigde Staten met name vanuit de cognitieve psychologie komt slechts zeer summier
ter sprake. Met name die laatste is mijns inziens te betreuren. Onderzoekers zoals Norman, Rumel-
hart, Anderson e.a. zijn met hun beschrijvingen over de wijze waarop kennis in het geheugen gerepre-
senteerd is en met hun onderscheiding in diverse leertypes (Norman en Rumelhart, 1980) ook voor
de didaxologie van grote betekenis. Na lezing van dit overigens goed geschreven hoofdstuk heb ik dui-
delijk ervaren dat de verhouding in het boek tussen onderwijzen en leren niet klopt. De terugkop-
peling vanuit het lerqn naar de manier waarop onderwijs gestalte zou moeten krijgen vindt onvol-
doende plaats. Aparte bijdrages over het denken, probleemoplossen, creatief gedrag die met name
voor een koppeling tussen de meer psychologische en meer onderwijskundige hoofdstukken zouden
kunnen zorgen ontbreken. De intergratie van dit hoofdstuk met de rest is mijns inziens een nood-
zakelijke voorwaarde voor de ontwikkeling van de didaxologie.

De hoofdstukken over groeperingsvormen, evalueren en curriculumontwikkeling geven een goed over-
zicht van wat er op de desbetreffende gebieden te koop is. De hopveelheid begrippen waar de lezer
inmiddels mee geconfronteerd wordt zal hem wellicht de indruk geven dat didaxologie misschien niet
zo ingewikkeld is, maar wel veel.

De beknopte didaxologie is een duidelijk overzicht van wat er op dit gebied bekend is. Zeker voor
meer praktisch ingestelde lezers biedt het een reeks aanknopingspunten.

De behandelde begrippen worden duidelijk uiteengezet. De pretentie van de didaxologie om meer
theoretisch een reflectie te bieden over het didactisch handelen is mijns inziens niet waar gemaakt.
Daarvoor krijgt de psychologische kant relatief te weinig aandacht. Wellicht is er eerst een fundamente-
le discussie nodig over de verhouding tussen onderwijzen en leren.

Volgens mij is deze discussie noodzakelijk om te voorkomen dat het toevoegen van enkele hoofdstuk-
ken over het leren het boek wel in omvang doet toenemen maar de integratie van het onderwijzen en
leren niet zondermeer hoeft te bevorderen. In een nieuwe druk is het wellicht ook mogelijk om op de

Een onderzoek naar de bijdrage van onderwijsassistenten aan het onderwijs in de aan-
vangsjaren van de lagere school.

Het onderzoek waarvan Van Greevenbroek verslag doet in haar proefschrift maakt deel uit van een
reeks, waarin de mogelijkheden van gedifferentieerde stafopbouw voor de basisschool worden nage-
gaan. Het proefschrift heeft betrekking op de rol en het funktioneren van de onderwijsassistent in de
lagere school, een van de mogelijkheden van staf differentiatie. Ik geef eerst een overzicht van de in-
houd van de publikatie en daarna kritiek.

Van meet af aan wordt de onderwijsassistent opgevat als een niet-professionele funktionaris, die een
deel van de (niet-professionele) taken van onderwijzend persofteel overneemt.

Stafdifferentiatie in het algemeen en het inzetten van onderwijsassistenten in het bijzonder dienen ge-
baseerd te zijn op planmatige takenanalyse.

In hoofdstuk 1 wordt een relatief uitvoerig overzicht gegeven van het ontstaan en van modellen van
stafdifferentiatie, horizontale en vertikale. De inschakeling van onderwijsassistenten is een vorm van
vertikale stafdifferentiatie. De nadruk valt daarbij op ervaringen en theorieontwikkeling in de Verenig-
de Staten. Aan de ervaringen met onderwijsassistenten in Europa wordt minder aandacht besteed
(blz. 33-34 en 50-51).

De betekenis van stafdifferentiatie voor het Nederlandse onderwijs is het onderwerp van hoofdstuk 2.
Deze wordt vooral geplaatst in het perspektief van de effektuering van de basisschool. De auteur ver-
bindt stafdifferentiatie ook met de problematiek van kleine scholen. Er worden konkrete suggesties ge-
daan voor gefaseerde inschakeling van PA-studenten als stagiaires, met taakomschrijving en verant-
woordelijkheid voor de daarin vervatte taken.

ïn hoofdstuk 3 vindt de probleemafbakening plaats. Het onderzoek zal betrekking hebben op de in-
schakeling van onderwijsassistenten in de laagste twee jaarklassen van lagere scholen. De onderzoeks-
vragen betreffen: de werkzaamheden van onderwijsgevenden en van onderwijsassistenten in deze klas-
sen, eventuele veranderingen in het takenpakket over het jaar en de houding van de onderwijsgevenden
m.b.t. het delegeren van taken. Tussen professionele en niet-professionele taken worden zogeheten dis-
kussietaken gerangschikt.

Het onderzoek als geheel heeft bestaan uit een pilot-study bij vier scholen en een vervolgonderzoek op
10 scholen, in de periode 1977-'79. De onderwijsassistenten in dit onderzoek waren bijna allen gehuw-
de vrouwen, met kinderen, van 23 tot en met 38 jaar met Mavo als opleidingsnivo. Hun weektaak be-
sloeg 16 uur. Als meetinstrumenten zijn gehanteerd: een observatie-instrument, logboeken van de as-
sistent, taakinventarisatielijsten van de deelnemende schoolteams, een attitudeschaal en een vragenlijst
beginsituatie (hoofdstuk 4).

De onderwijsassistenten bleken bij het pilot-onderzoek heel wat uitvoerende taken te verrichten, vaak
met kleine groepen leerlingen. Verder is materialen en leermiddelen verzorgen een in tijd omvangrijk
werk, evenals administratief werk. Deze bevinding bleef in het vervolgonderzoek globaal genomen
overeind. Veel van de aktiviteiten blijken kortdurend (1-5 minuten). In de loop van een schooljaar ne-
men de leerlinggerichte aktiviteiten van onderwijsassistenten toe, terwijl de tijd besteed aan voorbe-
reidingen afneemt. Er zijn overigens opmerkelijke verschillen tussen de scholen, bijvoorbeeld meer in-
zet van de onderwijsassistent bij lezen en rekenen, danwel manuele expressie. De onderwijsassistenten
achten na een jaar werken meer taken delegeerbaar, iets meer ook dan de leerkrachten.

Het proefschrift van Van Greevenbroek is helder geschreven, zakelijk en verzorgd. Er worden geen pre-
tenties opgehouden die niet worden waargemaakt. Ik trof slechts een zeer beperkt aantal onnauwkeu-
righeden aan van volsti:ekt ondergeschikte aard. Als bijlage 7 met de taakkategorieën inderdaad uit-
klapbaar zou zijn geweest, zoals op blz. 106 wordt beloofd, zouden de hoofdstukken 5 en 6 iets ge-
makkelijker leesbaar zijn geweest.

Het verbaasde mij dat nergens gewezen wordt op (mogelijke) verschillen tussen de situatie en positie
Van onderwijsgevenden (en onderAvijsassistenten) in de Verenigde Staten en Nederland. Er wordt in de
publikatie een paar maal op gewezen dat aan onderwijsassistentie op verschillende manieren vorm kan
Worden gegeven. (Ook m Vrijenhoef 1981). In het onderzoek echter, zo lijkt het, worden onderwijs-

assistenten ingezet met een bepaalde thuissituatie en een opleidingsnivo, dat past in de dimensie profes-
sioneel - niet professioneel (zie boven). Hoe het zou zijn gegaan als andere kategorieën personen zou-
den zijn ingezet, weten we nu niet. Ik miste informatie over de inschaling en salariëring van de assis-
tenten.

In overeenstemmmg met de theorie-ontwikkeling wordt het verschil in professionaliteit van taken als
uitgangspunt genomen en konsistent volgehouden. Dit past ook bij een institutionele benadering van
onderwijs en van de arbeidsorganisatie in scholen. De onderzoeksresultaten lijken mij vanuit dit per-
spektief waardevol en bruikbaar, maar ik blijf toch met de vraag zitten of het gekozen uitgangspunt
vanuit een pedagogisch perspektief nog even vanzelfsprekend is. Wat betekent het inzetten van onder-
wijsassistenten in de klas voor de relatie onderwijzer - leerlingen? Hoe is hun eigen relatie met leer-
lingen? Gaan pedagogische en didaktische vereisten voor onderwijsassistenten niet op? Hoe verliep de
uitvoering van onderwijs aan kleine groepen leerlingen door onderwijsassistenten? Op zulke vragen zijn
in deze publikatie nauwelijks antwoorden te vinden. (In het proefschrift van Colthof (1979), dat zich
op enigszins vergelijkbaar terrein beweegt, komen deze aspekten uitvoerig aan de orde. Funktionele
aspekten van de arbeidsorganisatie spelen daar evenwel nauwelijks een rol). Deze opmerkingen hebben
slechts ten doel te wijzen op mogelijke eenzijdigheden van de gevolgde benadering van de school als
arbeidsorganisatie.

Van Greevenbroek maakt aannemelijk dat op de onderzochte wijze inzetten van onderwijsassistenten
een belangrijke bijdrage zou kunnen zijn op de weg naar gedifferentieerd onderwijs. Het is te hopen
dat de weerstanden bij het departement en de vakorganisaties de ontwikkelingen in de richting van
stafdifferentiatie niet blokkeren.

Van Greevenbroek laat in ieder geval op gedegen en gefundeerde wijze zien wat deze vorm van vertika-
le stafdifferentiatie vereist en voor het basisonderwijs kan betekenen.

Colthof, Jacob, Opleiding en begeleiding van taakleidsters, (Proefschrift V.U. Amsterdam). Utrecht:
Elinkwijk 1979.

Vrijenhoef, Huub, Taakverdeling naar voorkeur en deskundigheid van onderwijzer kan leerling beslist
ten goede komen. O 4, februari 1981, 8 -13.

F.M. Lord, Applications of item response theory to practical testing problems. Hillsdale,
N.J.: Lawrence Erlbaum Associates, Publishers, 1980.

Het wetenschappelijke werk van Frederic M. Lord hoeft onder psychometrici en anderen die in test-
theorie geïnteresseerd zijn geen nadere introduktie. Als er één is die het vakgebied gemaakt heeft en
bij nieuwe ontwikkelingen voorop is gegaan, dan is het Lord wel. Zijn jarenlange stroom van publica-
ties, waarvan de eerste al aan het einde van de veertiger jaren verschenen, getuigt niet alleen van een
ongewoon hoge produktiviteit maar bevat ook talloze artikelen die tot standaardreferenties in de lite-
ratuur zijn geworden en velen behulpzaam zijn geweest bij hun nadere kennismaking met het vakge-
bied. Kortom, wat Newton voor de natuurkunde was is Lord voor de psychometrie.
Het onderhavige boek is grotendeels gebaseerd op eerdere artikelen van Lord die alle de item respons
theorie tot onderwerp hebben en in de zeventiger jaren in vaktijdschriften gepubliceerd zijn. Let wel,
het is daardoor beslist geen overbodig boek geworden dat alle resultaten slechts nog eens samenvat.
Het bijzondere van dit boek valt vooral op als we het vergelijken met Lord en Novick's (1968) Sta-
tistical theories of mental test scores, een boek dat - hoewel inmiddels op een aantal punten geda-
teerd - nog steeds de standaardreferentie onder testtheoretici is. Het eerst verschil is dat in Lord en
Novick de klassieke testtheorie duidelijk overheerst. In het onderhavige boek worden hier slechts 10
van 264 bladzijden aan gewijd; de andere bladzijden gaan bijna alle over item respons theorie. In deze
moderne ontwikkeling in de testtheorie — ook wel latente trek theorie geheten, maar Lord heeft de
naam item respons theorie geïntroduceerd om het gebruikelijke misverstand te voorkomen dat de

Tiodellen uit deze theorie alleen toepasbaar zijn bij de meting van persoonlijkheidstrekken in de
psychologie - is de preoccupatie met meetfouten en betrouwbaarheid die de klassieke testtheorie zo
kenmerkt afwezig. Het accent hgt eerder op de poging om responsen van personen op items te verkla-
ren met probabilistische modellen waarin parameters voor de te meten vaardigheid of kennis van de
persoon en voor de eigenschappen van het item opgenomen zijn. De meting van deze vaardigheid of
kennis neemt de vorm aan van parameterschatting, waarbij maten voor de statistische kwaliteit van de
schattingen ('de betrouwbaarheid van de meting') veelal als toe^ft uit de schattingsmethode volgen.
Het model dat in dit boek centraal staat is het 3-parameter logistische model, ook bekend als Birn-
baum's model met gisparameter. Het tweede verschil met Lord en Novick is dat onderhavige boek veel
didactischer en inzichtelijker is. Lord en Novick bevat een droge opsomming van de theorie en leent
zich het beste als naslagwerk. Dit boek daarentegen is veel meer een leerboek. Voortdurend is gezocht
naar didactische behandelingen van de stof, instructieve en toegankelijke bewijzen en naar inzichtelijke
interpretaties van begrippen en resultaten. Dit is vooral waarneembaar op plaatsen waar een overlap
met de stof in Lord en Novick bestaat. De lezer vergelijke bijvoorbeeld de behandeling van de rationa-
le voor het normaalogief model (p. 30-32; Lord & Novick, 1968, p. 370-371) of de bewijzen dat drie
van de vier 'axioma's' uit het klassieke testmodel uit de definities van ware scores en meetfout volgen
(P- 4; Lord & Novick, 1968, p. 36-37). Het belangrijkste verschil met Lord en Novick is evenwel de
toepassingsgerichtheid van het boek. De inleidingen in de theorie en de benodigde statistiek zijn rela-
tief kort gehouden. De rest van het boek is één verrukkelijke demonstratie van wat er aan technologie
op het gebied van testontwikkeling en -gebruik mogelijk wordt als goede modellen voorhanden zijn.
De klassieke testtheorie heeft voortdurend geworsteld met het probleem van de testafhankelijke sco-
ring, d.w.z. dat een score op de test eigenlijk net zoveel zegt over de eigenschappen van de test als over
die van de te meten persoon. In de item respons theorie is dit probleem opgelost en is testonafhanke-
mke scoring mogelijk, waardoor nieuwe vormen van testdesign en -afnamen, zoals flexilevel testing en
tailored testing, mogelijk worden en praktische problemen als bijvoorbeeld test equating en het vast-
stellen van item bias in principe opgelost zijn. Het boek van Lord is vooral bedoeld om een groot aan-
tal van deze nieuwe toepassing onder de aandacht van psychometrici en testgebruikers te brengen.
Het is ondoenlijk om in het bestek van deze recensie de 17 hoofdstukken van dit boek afzonderlijk te
bespreken en van commentaar te voorzien. We b3spreken ze daarom in combinatie en plaatsen hier en
daar een kanttekening, om tenslotte nog enkele opmerkingen bij het boek als geheel te maken.
De eerste 5 hoofdstukken vormen tezamen deel I met als titel 'Introduction to item response theory'.
Peze hoofdstukken bieden een korte behandeling van het klassieke testmodel, de relatie tussen de
itemparameters uit deze modellen en de klassieke itemparameters, de meest aannemelijke schatting
van persoon-parameters en van item- en testinformatiefuncties. Met name de informatiefuncties, in
feite Fisher's informatie uit de theorie van de meest aannemelijke schatting, zijn van belang voor het
Vervolg van het boek. Het zijn deze functies die de klassieke betrouwbaarheids- en itemanalyse vervan-
gen en bruikbaar zijn om nieuwe vormen van testdesign en -afname te evalueren. Deze hoofdstukken
zijn glashelder geschreven maar vragen - zoals het gehele boek - wel ruime voorkermis van de lezer
op het gebied van testtheorie en (mathematische) statistiek. Een thema dat dit gedeelte van het boek
Voortdurend beheerst is het feit dat alle resultaten uit het klassieke testtheorie ook uit de item respons
theorie volgen. Er bestaat dus geen tegenstelling tussen beide; de tweede is een verdieping van de eer-
ste en laat naast de resultaten die uit de eerste volgen tevens veel sterkere resultaten toe. Er zijn geen
andere publicaties waarin dit zo naar voren wordt gebracht.

Het tweede deel, 'Applications of item response theory', bevat 6 hoofdstukken. Het eerste hoofdstuk
Saat in op de relatieve efficiëntie van testscores (ratio van testinformatiefuncties) en laat zien hoe dit
gebruikt kan worden bij de vergelijking van de kwaliteit van verschillende tests of scoringssystemen en
bij herdesign van bestaande tests voor speciale doeleinden. De volgende hoofdstukken behandelen de
optimale keuze van het aantal altematieven bij testdesign, de mogelijkheid van flexilevel testing (een
Vorm van de testafname waarbij een persoon zichzelf door een paper-and-pencü test stuurt zodat hij
Zoveel mogelijk items ontmoet die met zijn capaciteit overeenkomen), two-stage testing (het gebruik
Van een voortoets zodat de hoofdtoets optimaal gekozen kan worden), tailored testing (interactief tes-
ten waarbij ieder volgend item op grond van de voorafgaande antwoorden gekozen wordt) en mastery
testing (besliskundig gebruik van tests). Telkens wordt teruggegrepen naar de winst aan efficiëntie om
de optimale testsamenstelling of -procedure te bepalen. Wat op valt is dat een hoofdstuk over item
banking ontbreekt terwijl bovenstaande toepassingen alle de beschikbaarheid van item banks veron-
derstellen. Ook is het hoofdstuk over tailored testing wat mager gezien de vele literatuur (ook van
Lord zelf) die hierover beschikbaar is.

Oplossingen voor praktische problemen bij testequating, bij het vaststellen van item bias en het zuive-
ren van tests hiervan en bij de aanwezigheid van nonrespons op items zijn te vinden in afzonderlijke
hoofdstukken in deel 3, 'Practical problems and further applications'. Dit deel bevat eveneens een
hoofdstuk over de schatting van persoon- en itemparameters dat tezamen met hoofdstuk 4 uit het
eerste deel de gehele behandeling van de schattingstheorie in dit boek omvat. Voor de numerieke
schatting van de parameters gebruikt Lord een iteratieve methode waarin de persoon- en itemparame-
ters om beurten vast gehouden en de aannemelijkheidsvergelijkingen naar de andere parameters opge-
lost worden. l£en van de wemige bezwaren die we tegen dit boek hebben is dat de auteur wat al te ge-
makkelijk aan de vraag voorbij gaat onder welke condities deze methode convergeert en of ze dit in-
derdaad naar meest aannemelijke schattingen doet. We moeten het slechts doen met de opmerking dat
convergentie waarschijnlijk weieens bewezen zal worden (p. 182, r. 1-2). of met verwijzingen naar gun-
stige ervaring (p. 209-210).

Het laatste deel, 'Estimating true-score distributions' bevat 2 hoofdstukken waarin problemen rond de
schatting van ware score verdelingen aan de orde komen. De uitbreiding die vanuit item respons theo-
rie aan dit klassieke probleem gegeven kan worden Ugt met name in het feit dat ook bivariate verdelin-
gen van niet-parallelle tests die dezelfde capaciteit meten bestudeerd kunnen worden. Hoewel deze 2
hoofdstukken theoretischer zijn dan de andere komen ook hier toepassingen als het effect van selectie
op de geobserveerde score, optimale matching van proefpersonen en het vaststellen van testnormen aan
de orde.

In het voorafgaande hebben we al enkele keren door laten schemeren dat dit een boek is waar we echt
blij mee zijn. We willen dat hier nog een keer nadrukkelijk naar voren brengen. Applications of item
response theory testing problems is door de wijze van stofbehandeling en de toepassingsgerichtheid
een schitterend boek dat zijn weg naar velen zal weten te vinden en ongetwijfeld de standaardreferen-
tie voor de jaren tachtig zal worden. Een kritische kanttekening hebben we evenwel reeds geplaatst bij
de luchtige wijze waarop de auteur numerieke aspecten van de parameterschatting behandelt. We voe-
gen er hier nog aan toe dat hetzelfde geldt voor de mogehjkheden om de passing van het logistische
model te toetsen. Hoewel Lord een modelcontrole voorstelt die van een opwindende schoonheid is
(p. 15-19, 252-253), ontbreekt een bevredigende statistische test voor het logistische model en doet hij
hier wat al te onbezorgd over. In het hele boek zijn slechts een paar zinnen over het Raschmodel te
vinden. Wie de dramatische strijd in de V.S. tussen de 'l-parameter' en de '3-paiameter school' kent,
zal zich hierover niet verwonderen. Maar het maakt het boek wel minder compleet, zeker omdat dit
model op het punt van de schatting en goodness-of-fit problematiek wèl bekende, gunstige eigenschap-
pen bezit. Anderzijds is het boek wel van belang voor de in het Raschmodel geïnteresseerde lezer.
Door de formele verwantschap tussen beide modellen gelden de toepassingen in dit boek zonder meer
voor het Raschmodel._

Bovenstaande tekortkomingen willen we niet op de geweldige kwaliteiten van dit boek in mindering
brengen. Daarvoor staat er te veel goeds tegenover. Wie dit boek leest zal voor altijd zijn hart verpand
hebben aan de item respons theorie en de nieuwe wegen die deze voor testontwikkeling en -gebruik
geopend heeft. Lord heeft opnieuw een schitterende bijdrage aan de testtheorie geleverd.

Lord, F.M., & Novick, M.R. Statistical theories of mental test scores. Reading, Mass.: Addison-Wesley,
1968.

ßontius, I. & De Korte, S. Meisjes in opleiding voor een verzorgend beroep. Stichting voor Onderzoek

van het Onderwijs, Flevodruk Harüngen b.v., 1982 (= SVO-reeks no. 58).
Christiaens, X. & Drijvers, G. Onderwijsoriëntaties en tewerkstelling in Limburg. Verslag no. 4. Provin-
ciale Onderwijsraad Limburg, Hasselt, september 1981.
De Corte, E. (red.). Onderzoek van onderwijsleerprocessen: Stromingen en aktuele onderzoeksthema's
Bijdragen tot de Ondcrwijsresearchdagen 1981. Stichting voor Onderzoek van het Onderwijs, Fle
vodruk Harlingen b.v., 1982 (= SVO-reeks no. 53).
ï^oets, C. Praktijk en onderzoek: Wetenschap in wisselwerking met praktisch handelen. Amersfoort

De Horstink, z.j. (= Studiecentrum - boek 7).
Oerris, J.R.M. Onderwijs en sociale ontwikkeling. Een tijdreeksonderzoek naar de effecten van een on
derwijsprogramma voor sociale cognitie. Lisse: Swets & Zeitlinger, 1981 (= Sociaal-wetenschappe
lijke proefschriften relevant voor de hulpverlening 19).
Jungbluth, P. Docenten over onderwijs aan meisjes. Nijmegen: Instituut voor Toegepaste Sociologie,
1981.

Onderwijs en opvoeding, december 1981. Themanummer 'Algemeen bijzonder onderwijs in beeld'.
Overzichtsrapport zes jaar NLO-onderzoek. Nijmeegs Instituut voor Onderwijsresearch en Stichting

Centrum voor Ondervrfjsonderzoek, september 1981.
Riemersma, F.S.J. Leren probleemoplossen op de gebieden wiskunde en nederlands in het voortgezet
onderwijs. Samenvattend eindrapport (projekt 0485). Stichting Centrum voor Onderwijsonderzoek
van de Universiteit van Amsterdam, december 1981 (= S.C.O.-rapport nr. 6).
Stokking, K.M. & De Vries, A.K. Een luis in de pels. Eindverslag van het GEON-project. 's-Gravenhage:

Staatsuitgeverij, 1981 (= SVO-reeks no. 48).
Van der Plas, P. Waardenontwikkeling in het onderwijs. 's-Gravenhage: Staatsuitgeverij, 1981 (= SVO-
reeks no. 51).

Vroeijenstijn, A.L (red.). Het universitair onderwijs: Een veld van onderzoek. Bijdragen tot de Onder-
wijsresearchdagen 1981. Stichting voor Onderzoek van het Onderwijs, Flevodruk Harlingen b.v.,
1982 (= SVO-reeks 56).

Colbert, R.G.M. (red.). Onderzoek naar schoolwerkplanning. Bijdragen tot de Onderwijsresearchdagen
1981. Stichting voor Onderzoek van het Onderwijs, Flevodruk Harlingen b.v., 1982 (= SVO-reeks
no. 52).

Zaal, J.N. Sociaal-emotioneel gedrag in de klas. Groningen: Wolters-Noordhoff, 1978.
Révész-Berichten

Bij de Subfaculteit Psychologie van de Universiteit van Amsterdam zijn weer de volgende Révész-Be-
richten verschenen:

28. U. Brouwer and P. Vijn, Bayesian estimation of the correlation coefficient in a singly truncated
bivariate normal sample. 29. J. Pannekoek, P. Vijn and G. J. Mellenbergh, Linear or loglinear: A case
study in the analysis of pretest-posttest data. 30. B. E. Chabot, Freud als (neo) - moralist. 31.
J. A. M. H. van Krogten, In imitatione Coco oftewel de verdeelde eenheid binnen 'de cognitieve emo-
tie theorieën'. 32. P. Vijn, De analyse van kruistabellen. 33. R. S. H. Krom, De lateralisatie van de taal-
functie. 34. F. S. Prins en S. Schagen, Depressieve patiënten in het fobieënproject. 35. P. C. M. Mole-
naar, A computational scheme for the spectral analysis of dynamic factor models.

Een bericht kan gratis verkregen worden bij mevr. M. Coenradi (Psychologisch Laboratorium, Universi-
teit van Amsterdam, Weesperplein 8, kamer 447,1018 XA Amsterdam; tel. 020-5253603, 's ochtends).
Indien de financiële situatie van de Subfaculteit daartoe aanleiding geeft, is het mogelijk dat voor vol-
gende nummers een vergoeding gevraagd wordt.

Onder auspiciën van de Vereniging voor Onderwijs Research (VOR) worden voor de negende maal de
Onderwijs Research Dagen (ORD'82) georganiseerd.

De organisatie van de ORD'82 is in handen gegeven van de vakgroep Onderwijskunde (i.o.) en het On-
derwijs Research Centrum van de Katholieke Hogeschool Tilburg.

Het programma omvat plenaire inleidingen over onderwerpen van algemeen belang betreffende de on-
derwijsresearch, themagebonden papers en prestatie van vrije papers. De thema's zijn:

De kosten verbonden aan deelname aan de ORD'82 zijn: ƒ 125,- voor niet VOR-leden, ƒ 100,- voor
VOR-leden, ƒ 50,- voor student-VOR-leden, ƒ 75,- voor studenten die geen VOR-lid zijn.
Tijdens en onmiddellijk na de ORD'82 worden door de VOR enkele cursussen georganiseerd, waarvoor
men zich afzonderlijk dient in te schrijven.

Inlichtingen: Secretariaat ORD'82, p/a Katholieke Hogeschool Tilburg, Psychologisch Laboratorium,
G 113, Postbus 90153, 5000 LE TUburg, teL 013-662067.

Op 15 en 16 oktober 1981 hield de Vereniging voor de Didactiek van het Nederlands een studiecon-
ferentie over vakdidactisch onderzoek in ontwikkeling.

Tijdens die conferentie werden lezingen gehouden door Bert Meuffels, Emile Nielen, Helge Bonset en
Truus van den Heuvel. De teksten van deze lezingen, gecombineerd met verslagen van de daarop vol-
gende discussies zijn nu gepubliceerd door de VDN i.s.m. de ACLO-M i.o. (Enschede 1982).
Belangstellenden kunnen deze uitgave gratis verkrijgen na aanvraag bij de SLO-winkel, Postbus 2041,
7500 CA Enschede, tel. 053-840940.

Inteme differentiatie bij zwakke lezers op basis van taakspecifieke gegevens (II), door A. van der Leij
en H. van Doom

Kroniek: Een baken voor de jaren tachtig. Notities bij het verschijnen van de vijfde druk van Beknopte

Taakdifferentiatie en onderwijsassistent. Fase 1 in het project Stafopbouw, door A. van Greevenbroek
Kroniek: Het congres van de American Educational Research Association (AERA) te Los Angeles,

In 1979/80 a new curriculum with an estimated study load of 1 700 hrs p.a. was initiated in the
freshmens' year of the Law Department of the University of Leyden. The Educational Research
Center, when evaluating the new curriculum, had a sample of students make detailed study time
reports per week throughout the year. The sample was randomly taken, but the students select-
ed were free to participate or not. Questionnaires about study behaviour and attitudes were
completed by almost all the students taking examinations. Time-reporters proved both more
diligent and more successful than non-time-reporters. The question was raised as to what extent
time-reporting plays a stimulating role or alternatively whether the freedom to participate
attracts relatively capable students. The data tend to support the latter hypothesis. This implies
the practical impossibility of obtaining unbiased data on study load even with the best proce-
dure known. Elaborate measures should be taken to minimize drop out in order to save the
information on study load.

In het studiejaar 1979/80 werd aan de Faculteit der Rechtsgeleerdheid van de R.U. Lei-
den een nieuw studieprogramma voor de propaedeuse ingevoerd, dat van het oude in me-
nig opzicht verschilde. Hoewel de nieuwe propaedeuse zorgvuldig was ontworpen, reali-
seerde de Faculteit zich toch dat er van alles mis zou kunnen gaan. Dat leidde tot een ver-
zoek van de Faculteit aan ons instituut om na te gaan of de nieuwe propaedeuse aan zijn
doel beantwoordde. Omdat de nieuwe propaedeuse onderdeel moest gaan vormen van een
vierjarig curriculum (als bedoeld in de Wet Herprogrammering W.0. en ook in de Wet
Twee-fasenstructuur) zouden een tweetal effecten zichtbaar moeten worden: (a) een be-
perking van de cursusduur zonder verlies van kwaliteit van de afgestudeerden, en (b) een
verkorting van de inschrijvingsduur zonder daUng van het numerieke rendement. Dit be-
tekent voor het eerste cursusjaar, dat in vergelijking met het oude curriculum in de nieu-
we propaedeuse meer leerstof per tijdseenheid zou moeten worden verwerkt en dat het
numerieke rendement van het propaedeutische examen omhoog zou moeten.
Het onderzoek werd uitgevoerd en de resultaten werden in drie rapporten vastgelegd
(Crombag et al., 1980 a, b en c). Voor de uitkomsten verwijzen wij naar deze rapporten,
^ant het is niet het doel van dit artikel ze samen te vatten. Waar dit artikel wèl over han-
<Ielt is een probleem dat door één soort van de verzamelde gegevens werd opgeroepen. Het
gaat om de studiebelasting van studenten. Een belangrijk verschil tussen het oude en het
nieuwe studieprogramma was gelegen in de aanzienlijke verhoging van de noodzakelijk ge-
achte studielast. Om na te kunnen gaan in hoeverre de begrote en werkelijke studielast
met elkaar overeenstemden, achtten wij het van groot belang gegevens te verzamelen over
de door de studenten gerealiseerde studielast.

Besloten werd de studenten in aansluiting op ieder tentamen te vragen hoeveel uren zij
aan de voorbereiding van het desbetreffende vak hadden besteed. Omdat er in het eerste
jaar acht tentamens waren zou de vraag dus acht keer gesteld worden. Omdat wij ook wel
begrepen dat dit een wat onnozele manier van gegevens verzamelen was en omdat wij het
gegeven van cruciaal belang in onze onderzoeksopzet achtten, werd besloten gedurende
het eerste semester (vijf cursussen omvattend) de waarde van de aldus verkregen gegevens
te controleren door een deelgroep van de studenten ook te laten tijdschrijven. Een deel-
groep van 196 studenten rapporteerde wekelijks hoe zij hun werktijd besteed hadden. We-
kelijks werd hun een formulier toegezonden, waarop zij dienden aan te geven (a) welke
colleges en werkgroepen zij hadden gevolgd, (b) hoeveel uren zelfstudie zij per cursus had-
den besteed, en (c) hoeveel tijd zij besteed hadden aan activiteiten die weliswaar met de
studie te maken hadden, maar die niet met een van de cursussen afzonderlijk in verband
konden worden gebracht. De opgaven werden per dag gespecificeerd en de bijbehorende
instructie drong erop aan het formulier ook dagelijks bij te houden. Ingevulde formulieren
werden door de studenten wekelijks ingezonden met behulp van porto-vrije enveloppen.
Tot het betrekkelijk kostbare wekelijkse toezenden en terugzenden van de formulieren
werd besloten omdat wij verwachtten dat het de deelname zou stimuleren. Die werd ove-
rigens ook gestimuleerd door hen die het gehele semester trouw zouden volhouden, een
beloning van f 50,- in het vooruitzicht te stellen, die na afloop zou worden uitbetaald.
De deelgroep van tijdschrijvende studenten was als volgt tot stand gekomen. Onder alle
aan het eerstejaarsonderwijs deelnemende studenten werd de groep 'gewone' eerstejaars-
studenten geïdentificeerd, d.w.z. studenten die niet extraneus waren, niet avondstudent,
niet herkanser en niet ouder dan 24 jaar. Daaruit werden er volgens toeval 300 gekozen,
die gevraagd werden aan het tijdschrijfonderzoek deel te nemen; 220 onder hen stemden
toe, maar slechts 196 hielden tot het einde van het semester vol.

Toen de aldus verkregen tijdschrijfgegevens werden gecorreleerd met de antwoorden van
dezelfde groep studenten op de eerder genoemde vraag, bleken die correlaties te variëren
tussen de waarden .07 en .43, te laag, naar ons oordeel, om het ene gegeven als een schat-
ting van het andere te beschouwen. Bij beide gegevens gaat het om opgaven van studenten
zelf Moet men- tussen beide kiezen, dan lijdt het ons inziens weinig twijfel dat de tijd-
schrijfgegevens van betere kwaliteit zijn dan de antwoorden op een enquêtevraag. Daarom
veranderde de tijdschrijfgegevens in ons onderzoek van controlemiddel tot het enige ge-
geven omtrent de studiebelasting. Het probleem daarbij was, dat wij vermoedden dat de
tijdschrijfgroep niet geheel model zou kunnen staan voor alle 'gewone' eerstejaarsstuden-
ten. Een eerste reden voor dit vermoeden is, dat de 196 deelnemers aan dit deel van het
onderzoek zichzelf uit de groep van 300 uitgenodigden geselecteerd hadden op basis van
vrijwilligheid. Het is denkbaar dat het gemiddeld de meer gemotiveerde of ijverige studen-
ten waren, die zich vrijwillig aanmeldden. Een tweede reden is, dat het niet uitgesloten is
dat tijdschrijven een regulerende of zelfs stimulerende invloed zou uitoefenen op de stu-
die-inspanning.

De boven vermelde zwakke samenhang tussen enquêtegegevens en tijdschrijfgegevens
bleek pas na afloop van het eerste semester, omdat de enquêtegegevens achteraf werden
verzameld. Besloten werd toen, het tijdschrijfonderzoek ook in het tweede semester voort
te zetten. Door tijdgebrek gedwongen werd als noodoplossing aan alle tijdschrijvers uit
het eerste semester gevraagd of zij ook in het tweede semester wilden tijdschrijven, op-
nieuw tegen een beloning van ƒ 50,—. Van de aldus benaderde 196 studenten weigerden er
drie en reageerden er 25 in het geheel niet. Restten 168 studenten, waarvan er in de loop

van het semester nog eens 20 afvielen. Dus bleven er 148 tijdschrijvers voor het tweede se-
mester over en ook daar geldt de vraag of zij model kunnen staan voor alle 'gewone' stu-
denten.

l^e vragen die wij in dit artikel willen beantwoorden luiden nu: (a) onderscheiden tijd-
schrijvers zich inderdaad van niet tijdschrijvende studenten qua studie-inspanning en stu-
dieresultaat; (b) zo dat het geval is, komt dat dan door een selectie-effect of door een sti-
muleringseffect? Beide vragen worden in afzonderlijke paragrafen besproken.

Wij willen beide groepen studenten op twee punten vergelijken: studie-inspanning en ten-
tamenresultaten en dat in beide semesters. Nu is het probleem dat wij over de studie-in-
spanning van niet-tijdschrijvende studenten weinig weten, juist omdat zij niet tijdschre-
^en. Maar wij weten er wel iets over. Aan alle deelnemers aan de tentamens werden on-
middellijk na de tentamens korte vragenlijsten voorgelegd. Twee vragen daarin hadden
•betrekking op de studie-inspanning. De ene luidde: 'Welk percentage van de colleges en/
of van de werkgroepen voor dit vak hebt u naar schatting gevolgd?' Voor hun antwoor-
den konden de studenten kiezen uit vier mogelijkheden: 0-25%, 25-50%, 50-70%, en 75-
100%. De andere vraag luidde: 'Bereidde u de colleges en/of werkgroepen voor?' De stu-
denten konden daarbij eveneens kiezen uit vier mogelijkheden: nooit, af en toe, geregeld

(vrijwel) altijd. Sommige cursussen hadden alleen colleges, andere alleen werkgroepen,
^ij die cursussen werden beide vragen slechts één keer gesteld. Andere cursussen hadden
Zowel het een als het ander, dus werden beide vragen afzonderlijk gesteld voor de colleges
en voor de werkgroepen. In tabel 1 kan men zien welke percentages van de tijdschrijvers
en van de overige 'gewone' studenten de verschillende antwoorden betreffende onderwijs-
deelname kozen.

l^e tabel is moeilijk te lezen. Aan de bovenzijde staan negen afkortingen voor cursussen:
IN = Inleiding recht, ST = Inleiding strafrecht, ID = Ideeëngeschiedenis en RE = Rechts-
sociologie, welke cursussen tesamen met PR-1 = Practicum Methoden & Technieken 1
het programma van het eerste semester vormden; STA = Staatkunde¹), BU = Burgerlijk
fecht, SO = Soconomie*) en PR-2 = Practicum Methoden & Technieken II, welke tesa-
"len het programma van het tweede semester vomden. De cursussen ID en RE werden in
combinatie getentamineerd. Na afloop vulden (ongeveer) de helft van de tentaminandi de
®nquête voor de cursus ID in, (ongeveer) de andere helft voor de cursus RE. Dat verklaart
Waarom bij die cursussen het aantal respondenten ongeveer de helft is van dat bij de ande-
re cursussen in het eerste semester. De aantallen respondenten verschillen voorts enigzins
Van cursus tot cursus, omdat niet alle tentaminandi de enquête invulden, want het invul-
len geschiedde op vrijwillige basis.

Enig turen naar de gegevens in tabel 1 maakt duidelijk dat bij de meeste cursussen de tijd-
schrijvers significant meer aan het onderwijs zeggen deel te nemen.
In tabel 2 kan men zien welke percentages van de tijdschrijvers en van de overige 'gewone'
studenten zeggen het onderwijs voorbereid te hebben. De tabel is op analoge wijze opge-
bouwd als tabel 1. De uitkomsten zijn echter minder ondubbelzinnig. In drie gevallen zeg-

1 De cursus Staatkunde is een combinatie van Staatsrecht en politieke wetenschap; de cursus Socono-
"i'e is een combinatie van sociaal recht en economie.

VO ^fn ^

ly^ ^ rN -H

■•l- ts —1 <s

CTv

o es A

en o\-^.^to
\o o «o r^
cn «s ^ es

<0 oo VO

>o o lo o
es lo r- o

I I I I
o to o >o
es >o

w
os

u
«

oä
8

rr o

c> Tt vo

CO eo ^ 1-H

I I I I

•tS 2 oots

o C; a>

C cQ CMO cd

gen de tijdschrijvers significant vaker dat zij zich beter op het onderwijs hebben voorbe-
reid. Echter ook in gevallen waarin het verschil tussen tijdschrijvers en overige studenten
statistisch niet significant is, is de verdeling zodanig dat tijdschrijvers zich toch wat beter
voorbereid lijken te hebben dan niet-tijdschrijvers. Laten wij concluderen dat bij sommige
cursussen de tijdschrijvers zich beter hebben voorbereid op het onderwijs dan niet-tijd-
schrijvers.

Als de tijdschrijvers model moeten staan voor alle 'gewone' eerstejaarsstudenten, dan zijn
de gegevens in de tabellen 1 en 2 niet goed: tijdschrijvers zijn gemiddeld ijveriger dan de
overige studenten. Daar blijft het echter niet bij: tijdschrijvers behalen bij de eerste gele-
genheid ook nog betere tentamenresultaten dan niet-tijdschrijvers. Dat is te zien in tabel
3. Het gaat daarbij weliswaar om verschillen achter de kqmma, maar dat soort verschillen
heeft wel degelijk consequenties: van de tijdschrijvers slaagde 56,9%, in één keer of na de
herkansing bij de aanvang van het tweede studiejaar, voor het propaedeutische examen en
kon dus zonder vertraging doorstromen; bij de overige 'gewone' studenten was dat per-
centage 51,9%. Men mag aannemen dat beide gegevens, de grotere inzet èn het betere stu-
dieresultaat van de tijdschrijvers, samenhangen: wij vonden een positief verband tussen
studie-inspanning en studieresultaat, een verband dat sterker werd als men het berekende
binnen qua vooropleiding homogene deelgroepen (zie Crombag c.s., 1980 a en b).

3. Mogelijke oorzaken van het verschil tussen tijdschrijvers en niet-tijdschrijvers

Op twee manieren hebben wij geprobeerd te achterhalen waar het verschil tussen tijd-
schrijvers en niet-tijdschrijvers vandaan komt. De eerste manier was kijken naar de tenta-
menresultaten in het tweede semester van de groep van 48 studenten die in het eerste se-
mester wel en in het tweede semester niet tijdschreef. In tabel 4 kan men zien dat in het
tweede semester de tentamenresultaten van voormalige tijdschrijvers significant slechter
zijn dan die van 'aangebleven' tijdschrijvers. De in de tabel gegeven p-waarden zijn die van
een eenzijdige toetsing. Dat geldt trouwens ook voor de p-waarden in tabel 3, een discu-
tabele handelwijze. Vermenigvuldig echter de p-waarden in beide tabellen met 2 en de

conclusies blijven praktisch dezelfde. Overigens, de aantallen studenten in de tabel zijn
kleiner dan de oorspronkelijke 48 voormalige tijdschrijvers en de 148 aangebleven tijd-
schrijvers, omdat niet alle studenten aan alle tentamens deelnamen.
Het is verleidelijk op grond van de gegevens in tabel 4 te concluderen, dat het verschil tus-
sen tijdschrijvers en niet-tijdschrijvers blijkbaar een stimuleringseffect is: niet zodra houdt
men met tijdschrijven op, of men valt temg tot het niveau van de niet-tijdschrijvers (de
gemiddelde tentamencijfers van voormalige tijdschrijvers verschilden niet significant van
de overige 'gewone' niet-tijdschrijvers). Wij hadden de conclusie ook al bijna getrokken
toen wij ons realiseerden, dat de conclusie alleen juist zou zijn als wij konden aantonen
dat in het eerste semester toekomstige voormalige tijdschrijvers even goede resultaten be-
haald hadden als de aanblijvende tijdschrijvers. Toen dat voor de zekerheid nog even werd
gecontroleerd (Vos, 1980) ging het fout, zoals de gegevens in tabel 5 laten zien.
Al in het eerste semester onderscheidden de gemiddelde tentamenresultaten van toekom-
stige voormalige tijdschrijvers zich ongunstig van aanblijvende tijdschrijvers (en niet signi-
ficant van niet-tijdschrijvers). Dus toch een selectie-effect, waarbij men dan moet aanne-
men dat voormalige tijdschrijvers zich subjectief gezien voor het eerste semester 'ten on-
rechte' in de tijdschrijfgroep hebben geselecteerd, een fout waamit zij na afloop van het
eerste semester de consequentie trekken. Echter ook de stimuleringshypothese blijft mo-
gelijk: tijdschrijven stimuleert de meerderheid, en wie het niet stimuleert, trekt zich (te-
leurgesteld) temg. Dit zijn wat ongelukkige redeneringen, omdat zij beide bemsten op de
kunstgreep, de met de hypothese strijdige gegevens weg te poetsen door ze onder een ad
hoe bedachte hulp-hypothese te brengen.

Er is een manier om de oorzaak van het verschil tussen tijdschrijvers en niet-tijdschrijvers
nader te onderzoeken: men kan naar de tentamenresultaten van beide groepen in het
tweede cursusjaar kijken. In dat cursusjaar werd door niemand tijd geschreven; verdwijnen
dan de verschillen tussen beide groepen, althans tussen wat er van de groepen (vooralsnog)
naar het tweede jaar doorstroomt? In deze laatste toevoeging zit meteen ook het pro-
bleem: beide deelgroepen zijn in het tweede cursusjaar niet naar evenredigheid vertegen-
woordigd. Immers tussen het eerste en het tweede cursusjaar zit de propaedeutische selec-
tie, die in twee rondes tot stand komt. De eerste ronde vindt plaats vóór de zomervakan-
tie. Bij die gelegenheid slaagden 49 van de 145 tijdschrijvers die aan alle tentamens vóór
de vakantie deelnamen; dat is 33,8%. Van de 363 'gewone' eerstejaarsstudenten die aan
alle tentamens vóór de vakantie deelnamen, slaagden er 122; dat is 33,6%. Dus, zo zou
men denken, waren de tijdschrijvers op dat moment helemaal niet beter dan de 'gewone'
eerstejaarsstudenten. Dat klopt inderdaad voor de geslaagden; dat is in tabel 6 te zien. Het
verschil tussen beide groepen zit hem in de gezakten: de tijdschrijvers onder de gezakten
zakken significant minder hard dan de niet-tijdschrijvers onder de gezakten (de gebruikte
toets is een Kolmogorow-Smirnow two-sample test).

De tweede selectieronde vindt plaats bij de herkansingen vlak vóór de aanvang van het
tweede cursusjaar. Daarmee ziet de zaak eruit als weergegeven in tabel 7. Dan hebben 82
van de 144 tijdschrijvers die aan alle tentamens hebben deelgenomen het propaedeutische
judicium behaald; dat is 56,9%. Van de 412 'gewone' eerstejaarsstudenten die op dat mo-
ment tenminste één keer aan alle tentamens hebben deelgenomen, hebben er dan 214 het
propaedeutische judicium behaald; dat is 51,9%. Na twee selectierondes zijn er van de tijd-
schrijvers dus 5% meer geslaagd. Bij de geslaagden zijn niet-tijdschrijvers even goed als
tijdschrijvers; bij de gezakten zijn ook na twee selectierondes de niet-tijdschrijvers gemid-
deld zwaarder gezakt dan de tijdschrijvers (tabel 7).

Laat ons, dit wetend, nu bezien wat wij in het tweede cursusjaar mogen verwachten om-
trent de verschillen in studieprestaties tussen beide groepen onder de twee rivaliserende
hypothesen: de selectie-hypothese en de stimuleringshypothese. Is de selectie-hypothese
juist, dan moeten wij ervan uitgaan dat de tijdschrijvers zich hebben aangemeld op grond
van hun veronderstelde geschiktheid, een complex van capaciteiten, motivatie en studie-
vaardigheden, voordat er van tentamens sprake was. Datzelfde complex van factoren be-
paalt voor een belangrijk deel de tentamenresultaten op grond waarvan de niet-tijdschrij-
vers zijn geselecteerd. In feite is er tussen de selectiemomenten alleen een tijdverschil; het
eindresultaat blijft hetzelfde en in het tweede jaar mogen dan ook geen verschillen wor-
den verwacht tussen de overgeblevenen. Is daarentegen- de stimuleringshypothese juist,
dan moet men verwachten dat de oud-tijdschrijvers in het tweede jaar zullen gaan achter-
blijven omdat de stimulerende werking van het tijdschrijven niet meer bestaat. De niet-
tijdschrijvers zijn in dit geval strikter geselecteerd en zij zullen dus onder gelijke omstandig-
heden in het tweede jaar meer presteren dan de overgebleven oud-tijdschrijvers.
Wij realiseren ons dat men rekening moet houden met het optreden van regressieëffecten.
Onder de selectiehypothese valt echter geen regressieëffect te verwachten, omdat er
slechts in schijn tussen de twee groepen verschil bestaat, kunstmatig (tijdelijk) in het leven
geroepen door selectie op verschillende momenten in het eerste jaar. De stimuleringshypo-
these veronderstelt wel een verschil tussen de groepen: wij verwachten een achterstand
van de tijdschrijfgroep; hoe minder selectie in vergelijking met niet-tijdschrijvers, deste
groter zal de achterstand in het tweede jaar zijn. Door de minder dan perfecte correlatie
tussen eerste- en tweedejaarstentamens moeten wij verwachten dat de voorsprong van
niet-tijdschrijvers in het tweede jaar relatief gering zal uitvallen.

FREQUENTIEVERDELINGEN VAN GEMIDDELDE TENTAMENCIJFERS
BIJ JUNI-TENTAMENS VAN GEZAKTE EN GESLAAGDE TIJD-
SCHRIJVERS (T) EN OVERIGE GEWONE STUDENTEN (O)

FREQUENTIEVERDELINGEN VAN GEMIDDELDE TENTAMENCIJFERS NA
HERKANSINGEN (AUGUSTUS) VAN GEZAKTE EN GESLAAGDE TIJD-
SCHRIJVERS (T) EN OVERIGE GEWONE STUDENTEN (O)

In het eerste semester van het tweede cursusjaar moeten de studenten drie tentamens af-
leggen: Burgerlijk Recht (BW), Burgerlijk Procesrecht (BP) en Internationaal Privaatrecht
(IPR). Niet alle naar het tweede cursusjaar doorgestroomde studenten doen dat, maar
slechts een deel. Hoeveel, dat kan men zien in tabel 8. In die tabel kan men ook zien wat
de resultaten waren van voormalige tij dschrij vers en overige gewone studenten. Zijn de
tijdschrijvers in het tweede cursusjaar nu even goed als de overige 'gewone' studenten,
zoals de selectie-hypothese voorspeh, of zijn zij slechter, zoals de stimuleringshypothese
voorspelt? Kijkt men naar de gemiddelde tentamencijfers, dan is er geen verschÜ. Kijkt
men naar de percentages geslaagden, dan lijkt er wel sprake te zijn van een verschil. Maar
die verschiUen zijn statistisch niet significant: in een 2x2 tabel is de x^ bij BW 1,89, bij
BP 0,98 en bij IPR 1,51. Nemen wij de statistische uitkomsten serieus, dan moeten wij
concluderen dat er geen verschillen zijn en dat derhalve de selectie-hypothese de juiste is.
Hetzelfde resultaat vinden wij bij sommering van de tentamencijfers: tijdschrijvers zijn ge-
middeld zwakker, maar het verschil is niet significant (t=-l .04 df=102 p >.10). Toch aar-
zelen wij die conclusie te trekken, nu blijkt dat van de overige studenten respectievelijk
8,9%, 7,3% en 10,2% meer deelnemers voor de tweedejaarstentamens slagen dan de voor-
malige tijdschrijvers. Wij moeten concluderen dat tabel 8 onduidelijke resultaten oplevert:
verschillen die geen verschiUen zijn.

Beziet men de frequentieverdelingen van voormalige tijdschrijvers en overige gewone stu-
denten bij de tweedejaarstentamens, zoals weergegeven in figuur 1, dan kan men mis-
schien iets meer vrede hebben met de conclusie dat beide groepen het in het tweede cur-
susjaar even goed doen. De verdelingen van beide groepen studenten volgen elkaar vrij pre-
cies, vooral bij BP. Hoe dan toch nogal aanzienlijke verschillen in percentages geslaagden
kunnen ontstaan, is vooral fraai te zien bij het vak IPR: betrekkelijk kleine verschillen net
rond de zak/slaag-grens, aangegeven door de stippeUijn, blijken grote gevolgen te hebben.

.•ïguur 1. Cijferverdelingen in percentages voor
tweedejaarstentamens van voormalige tijdschrijvers
en overige gewone studenten

^jj concluderen dat er in ieder geval een selectie-effect is, dat maakt dat studenten die
Vrijwillig aan een tijdschrijfonderzoek deelnemen, gemiddeld wat harder werken en een
eter studieresultaat behalen. Het zijn de gemiddeld meer voor de studie geschikte studen-
die zich vrijwillig voor deelname aanmelden. En daarvan komen er verhoudingsgewij-
^ dan ook wat meer zonder studievertraging door de propaedeuse.
eze conclusie heeft naar ons oordeel een tweetal implicaties. De eerste is dat het blijk-
niet mogelijk is een in het curriculumonderzoek zo belangrijk gegeven als studielast

ongeschonden in handen te krijgen. Werkt men met vrijwilligers, dan krijgt men een gese-
lecteerde groep. Probeert men een aselecte steekproef te krijgen door deelname verplicht
te stellen, hoe dwingt men die verplichting dan af? Door geselecteerde studenten slechts
tot de tentamens toe te laten als zij aan hun deelnameplicht voldaan hebben? Dat zou vrij-
wel zeker misbruik van bevoegdheid opleveren (zie Cohen, 1981, p. 78 e.v.). Trouwens,
zou een dergelijke dwang niet leiden tot vertekeningen in de gegevens van althans een deel
van de studenten? Zeker is dat, als men bij dit soort onderzoek met vrijwilligers werkt,
men alles moet doen - in vorm van overreding en aanmaningen - om de respons onder de
voor deelname geselecteerde studenten te maximaliseren.

Een tweede implicatie van de hier gepresenteerde gegevens was natuurlijk, dat wij bij de
rapportage van ons onderzoek in moeilijkheden kwamen. Mag men aannemen dat het ver-
schil tussen tijdschrijvers en niet-tijdschrijvers alleen een kwestie van elevatie was, dan kan
men het probleem proberen op te lossen door te zeggen, dat de aan de tijdschrijvers ont-
leende schattingen van de studielast moeten worden gezien als bovengrens voor alle stu-
denten. Die uitweg hebben wij ook gekozen (Crombag et al., 1980, a, b en c). Maar waar-
om zouden beide groepen niet ook verschillen in spreiding? Als dat het geval is - maar
daar weten wij niets van — dan worden uitspraken over de samenhang van studielast met
andere gegevens van twijfelachtige betekenis.

Wij staan voor een dilemma. Werkt men ter bepaling van de studielast met schattingen
achteraf van de totale studietijd, dan moet men, zo hebben wij gezien, twijfelen aan de
validiteit van de gegevens; werkt men met een methode als indertijd voorgesteld door
Crombag, Roskam & Meuwese (1973), dan krijgt men alleen groepsgemiddelden en dus
geen individuele gegevens en spreidingen; werkt men met vrijwillige tijdschrijvers, dan
krijgt men vertekeningen door selectie van de deelnemers. Moeten wij een gegeven als stu-
dielast voortaan dan maar vergeten? Voor die conclusie lijkt het gegeven ons te belangrijk
in curriculumonderzoek. Tijdschrijven lijkt ons van de genoemde methoden toch nog de
minst slechte, zeker als men wegen vindt om de non-respons onder de voor deelname uit-
genodigde studenten gering te houden. Het verkleinen van de non-respons kan moeizaam
en tijdrovend zijn. Misschien moet men iedere deelnemer wel persoonlijk benaderen en
overreden. Dat Toont, denken wij, de moeite.

Cohen, M.J., Studierechten in het wetenschappelijk onderwijs. Zwolle: W.E.J. Tjeenk Willink, 1981.

Crombafj, H.F.M., De Gruijter, D.N.M. Van der Ende, P., & Vos, P. De nieuwe propaedeuse in de Fa-
culteit der Rechtsgeleerdheid: Verslag over het eerste semester. Leiden: Bureau Onderzoek van On-
derwijs R.U. Leiden, Rapport nr. 20, 1980 (a).

Cromba,!, H.F.M., De Gruijter, D.N.M., Bakker, E., Van der Ende, P. & Vos, P. De nieuwe propaedeuse
in de Faculteit der Rechtsgeleerdheid: Verslag over het tweede semester. Leiden: Bureau Onder-
zoek van Onderwijs R.U. Leiden, Rapport nr. 21, 1980 (b).

Crombag, H.F.M., De Gruijter, D.N.M., Bakker, E., Van der Ende, P. & Wos,De'nieuwe propaedeuse
in de Faculteit der Rechtsgeleerdheid: Verslag over het tweede semester. Leiden:- Bureau Onder-
zoek van Onderwijs R.U. Leiden, Rapport nr 21, 1980 (b).

Crombag, H.F.M., Roskam, E.E.Ch.1. & Meuwese, W.A.T. Het meten van studiebelasting. In: W.M. van
Woerden e.a.. Onderwijs in de maak. Utrecht: Het Spectrum, 1973, 205-215.

Vos, P. le jaars Rechten: De invloed van tijdschrijven. Leiden: Bureau Onderzoek van Onderwijs R.U.
Leiden, Memorandum nr. 592-80, 1980.

Trends in the development of CAI, especiaUy in the supportmg softWMe, are analysed and
compared with the development of the new mass media and of education in general.
The first generations of CAI have resulted in a strong tendency towards the use of general
purpose facilities. The specialized CAI systems will all be abandoned because of the lack of
'intelligence' of the tools they provide for the development of lessons (courseware), because
the lessons cannot easily be transferred to other computer systems and because they will always
be too expensive.

It is argued that computer systems for education must have a strong resemblance with the
media that are used in 'real life', and must provide adequate faciUties for the management of
instruction.

forecasting means to calculate or predict (some future event or condition) ususally as a
result of rational study and analysis of available pertinent data (Webster's New Collegiate
^>ictionary). So, discussions on the development of CAI software m the near future should
be based on trend analysis and extrapolation rather than on prophesy ('as if divinely
inspired'), regardless the authority of the author. There is only one possible exception

this, the Moloch IBM, whose utterances can act as trendsetting.
Ten years ago it was impossible to forecast the development of software for CAI because
there were few trends to analyse. The prophesies were based on particular events. For
"^stance the ELIZA programme, developed by Weizenbaum at MIT (Weizenbaum, 1966),
led many people to beheve that natural pupil-machine dialogue would be ah day practice
in the mid 70's (p.e. Stansfield, 1968). ELIZA could communicate ahnost unhmited,
According to a script that could be supphed to the programme as data. However, the ans-
wers to human mput messages were solely obtained by syntactic decomposition and re-
assembly without any comprehension of content. The necessity to represent large bodies
°f semantic content (knowledge of the world) in conversational systems is stiU a bottle-
neck in the development of such systems.

'^any of the forecasts from early CAI days seem ridiculous now, being-based on only one
generation of CAI software and technology becoming obsolete very quickly. However we
have to keep in mind, that this first generation showed a vast diversity in operational CAI
systems (Kearsley, 1976, mentions the number of 60 m 1970), that cannot be found
nowadays, mainly because of reasons of economy of scale!

Pirst generation CAI systems were based on the rather primitive computer languages of
the second generation computers. The computer languages were basically lower order

symbolic languages, that made computer programmes look like long badly structured
look-up lists of elementary operations. Nevertheless, what was achieved was quite remark-
able. Take for instance on one hand ELIZA and on the other hand the BASIC student
tune sharing system from Dartmouth Colege (Kemeny & Kurtz 1967, summarized in
1968), and more in-depth LOGO by Seymour Papert and Suppes' Proofchecker that both
deal with human reasoning.

At that time already the incompatibility of the different CAI systems became a problem.
In 1969 a confidential report of the Centre of Educational Research and Innovation
(CERI) of the OECD stated, that the lack of compatibility is due to unwillingness on the
part of manufacturers to allow equipment from others to be connected to their system,
and also to the lack of coordination between workers, as a result of which the specialized
languages for education, although they aU have very similar characteristics, are not inter-
changeable (CERI/CT/69.02, p.33).

From all systems of that period only BASIC survived, when the next generation of com-
puters arrived and the next generation of CAI software was mitiated. (COURSEWRITER,
Tutor and a few others kept their names but were largely extended). Much more powerful
computers and much more powerful macro languages, nowadays called programming
languages, became available. The programming languages mostly used were APL, BASIC
and Fortran. As is the case with every new kind of complex apparatus that becomes
commercially available and is widely used, certain standards of operation emerged 'spont-
aneously', due to the law of economy of scale helped by pressures from the marketing
departments. However, the state of the art in the science of programming was far ahead
of that. The concepts of procedural oriented programming languages and of structured
programming were reality but did not reach the market. For instance the famous Algol60
report (Backus et al, 1962) had already been published, and in Holland a small group of
engineers and mathematicians built an electronic data processor, the Electrologica XI,
with the first implementation of Algol60 based on the stack principle.
Programming is problem solving and a programming language should be a vehicle to guide
our thoughts. The most widely used languages from that period are only fit to produce a
bad headache. According to E.W. Dijkstra:

One of my implicit morals wiU be that such programming languages (viz. Fortran and PL/I),
each in their own way, are vehicles inadequate to guide our thoughts. If Fortran has been called
an infantile disorder, PL/I must be classified as a fatal disease. (Dijkstra, 1971, p. 4).

In the same period CAI left the laboratory. IBM released COURSEWRITER III, CDC
entered the CAI-market with SDC's PLANIT and at the University of Illinois the develop-
ment of PLATO IV was taken up. At the University of California the team of Stark-
weather developed about ten different compatible versions of PILOT for different
machines, to ensure that lesson programmes could be transferred from one machine to
another (i.e. portability/transferability). SDC had found another solution for that problem
by programming the PLANIT system in ASA-Fortran, so that the whole system could be
transferred. For IBM there was no portability problem, because at that time her share of

the world market for computers was approximately two thirds. For PLATO the problem
did not exist either as it was conceived as the definite CAI system which was about to
conquer the world.

When PLANIT became commercially available, a worldwide PLANIT usergroup for the
interchange of courseware was founded. In second instance CDC dropped PLANIT (lea-
ding a lot of educational institutions in the USA, Canada, Europe and Japan with the sad
remainders of large courseware development efforts, that became obsolete from one day
to the other) and started marketing PLATO which undoubtedly promised to become
much more profitable. Most of the other systems that could not be put into operation on
a larger scale for different reasons, expired silently.

An analysis of the 1970,1973 and 1976 editions of the Index to Computer Based Educa-
tion (Lekan, 1970; Hoye & Wang, 1973; Wang, 1976) implicated plato (Tutor) and
COURSEWRITER as the big winners among the specialized cai systems (Kearsly, 1976a,
1976b). Despite the enormous bias built into the assessment, it became quite clear that
Plato would be the only survivor in a few years and that most CAI programmes would
be written in general purpose programming languages. There are some obvious reasons for
the fact that so many authors choose a general purpose programming language in the end.
Firstly the compatibihty problem was not solved at all by the cai systems of the seven-
ties.

Secondly, with the exception of COURSEWRITER for IBM 360 and 370 series computers
and Tutor for the dedicated large PLATO system, no CAI languages were commercially
available on a scale large enough to give some hope for a long term support (as shown
even by PLANIT), and for a more than incidental possibility of interchange of courseware.
One might wonder about the clairvoyance of the relatively unexperienced partners in the
National Development Programme in Computer Aided Learning in the UK, that led as
early as 1973 to the reconmiendation to use general purpose programming languages in
Order to achieve a workable level of transferability (e.g. Hooper, 1974).
Thirdly, languages like COURSEWRITER, based on second generation computing, had
"ot even reached the relative level of 'intelligence' of Fortran. For instance it is quite
practical if the author can write in COURSEWRITER:

^here 'ty' stands for the instruction to type the subsequent lines of text, instead of in

"^n the other hand a programme branch control m COURSEWRITER, like:
br low/c3,l,15

^hich means: 'branch to the label low if the content of counter 3 is less than 15', is
rather primitive compared to the Fortran-statement:

(In Tutor, the language of the PLATO-system, this could read:
goto score < 15, low, x

PLATO was planned to become available on a large scale at a competitive price. But it
worked out differently. PLATO is still the most beautiful system from the outside, but
the specialized hardware is very expensive. The large decrease m hardware costs m general
did not work for PLATO because of the bargaming with licenses. The PLATO software.
Tutor, is the most elaborated in the field, however its concepts are from second genera-
tion computing. Undoubtedly the fact that the whole development project (largely NSF-
fmanced) had been focussed on an economically viable large scale system comprising
latest hardware technology, while the software development lagged far behind, is to be
blamed for Tutor being so comphcated and awkwardly stmctured whilst languages like
Algol68 already existed. In 1967 a rather briljant zoology student, Paul Tenczar, con-
cluded that the methods of creating coursewar on the PLATO III system were uimeces-
sarily difficult. He then originated the Tutor language. Only in 1977 a complete book on
the Tutor languâge was pubhshed (Sherwood, 1977), still highly based on the PLATO III
Tutor manual byAvner and Tenczar. When PLATO IV was set m operation the Tutor
language was already out of date. The only reason why PLATO possibly will survive an-
other five years, is the large scale arrived at at this moment. The PLATO-network, con-
taining thousands of hours of instructional material, now comprises approximately 5.000
terminals for over 200.000 students in a number of states.

Nowadays there is a common notice amongst the people concerned with CAI, that course-
ware development is the most costly factor in CAI and that its share irf the overall costs
will still increase largely in the foreseeable future. But future will leam whether this is a
fact or, as it seems to be, a sort of self-fulfilling prophecy that will be overtaken by time.
A self-fulfilhng prophecy in the sense that CAI is perceived and treated by its advocates as
if it inevitably is to become mamUne and therefore everyone tried to develop the best
system. However, an adjunct role is much more reasonable. CAI is a medium, not a
method, so a parallel can be drawn with audio visual media. Early champions of the audio

Visual media once proclaimed that 'the medium is the message'. This of course is not true.
It is true that some messages can best or can even exclusively be conveyed by a certain
medium, and this is also true for CAI being an interactive medium. But there is no con-
vincing evidence that whatever medium is a panacea for all educational problems, so why
treat CAI as if it is to become mainline? (Computer-management of education will un-
doubtedly play a larger role in schools in future, but existing CAI systems are totally
Unfit for that. Later on more on that subject).

Just as the older media came into our home and schools, the computer will as a medium
m its own right, and the new medium should be treated in the same way, mainly as a
communication device. It is true that the new medium is much more complicated than
the older ones, but everyone of the old media was in its turn much more complicated
than its predecessors. The so-called capability of information-processing that would make
all the difference and would have a large impact on society in the information age is com-
monly viewed wrongly. It should be stressed that this processing does not add anything to
the information, there is no creative element in it. Everything that can be done by the
computer could have been done without it, only the computer can do it so much faster
that in fact it opens new possibilities for mankind. But it is man that does or does not
create the new ways, by adapting new tools in his life-environment to obtain better Ufe
conditions, ever since the start of human evolution. No doubt man will integrate the new
medium into his life-environment, and future will learn if he is capable of dealing better
With the new technology than he has done with others, like for instance television.
It is to be expected that just as for the other media aU kind of institutions, educational
publishers, educational development centres, large school communities etcetera, will
publish CAI courseware on a regular basis. The signs are there. At the end of 1980 over
150 publishers of microcomputer courseware were registered in the USA, offering well
°ver 1.000 packages. In that year 3,5% of the total expenses for lesson material m general
'Or primary and secondary education have been spent on CAI courseware. In Holland
Samson has recently entered the CAI market.

Besides that more and more teachers will start to develop smaller sets of courseware, parti-
cularly fit for their needs. However, it will still take some time before this has become
common practice. For the time being the instruments are too primitive to be of any use
m the hands of non-specialized personnel. Even in normal data processing the concept of
mteractiveness is rather new and still poses large problems. Once these are solved and
communication takes place in a 'human' way, that is in a way man is used to express him-
self, the apparatus will eventually be shaped in a form more adequate to create opportuni-
ties for communication. However, it is not education that should find the right ways for
hat. Education only emphasizes the problem more strongly because of its implicit high
morals of humaneness compared with business and industry. The outstanding task of
education is to cope with the concept of interactiveness outside the teacher, and to find
°ut whether, where and how it can be integrated profitably to serve its goals.
Hopefully, we will have learned by then not to speak of man-machine communication,
jvhich does injustice to man, any longer. Man communicates with a computer no more
nan he does with a taperecorder. Man communicates with man (and other livmg crea-
^"■es), in which process he employs a medium of communication for his convenience.

The fourth generation of computers, now coming into our homes, is much more elegant
than the preceding generations. Micros bear in themselves the core of the future com-
munication devices. They would already have made the so called mainframe computers
obsolete, if only matching rewritable and easily accessible mass storage media had been
present. Once that problem has been solved, the next problem that Ihnits the outspread of
information-processing arises, the capacity of the information transportation channels.
New ways of information transport must be and will be found. The physical hmitation to
information transport is the velocity of hght. It would be interesting to fmd out how
many years it would take for a human being to create as much information as can be
transported by one light channel in a few minutes.

In the next decade computers wih become accepted communication devices. The gap
between computers and other communication devices will be closed as computers are
integrated more and more into communication devices. To draw a parallel with television:
Nowadays no one refers to television as a system for samphng, transmission and display
of visual data combmed with radio broadcasting. Television is accepted as a total system
for broadcasting sound and images. Some parts of the future communication systems will
have devices integrated mto them that show similarities with electronic calculators. How-
ever toasters have more in common with light bulbs, but no one talks about hght-emitter-
driven breakfast preparation.

To stress the pecuharity of the call for speciahzed CAI tools somewhat further: no teacher
demands speciahzed frequency modulation techniques based on educational objectives if
he wants to use television equipment for microteaching. If this had been the case the use
of video would stiU have been too expensive for normal schools. The CERI-report
mentioned before stated:

'... all the educational media will find their place in computer programmed instruction. The real
problem, then, is the cost. (CERI, 1969, p. 12).

For this matter especially TICCIT, that hardly could reach a regular operational status,
and PLATO must be regarded as failures. Undoubtedly they have been important develop-
ments and they will have had some impact on the future devices as every particular
development contributes to the fmal product, but trying to get them adopted as standards
of operation will only delay the perfection of the medium we are waiting for and will
have to wait for quite some time stiU.

Stansfield (1968) ends his vision on the schools m 1978 with the foUowing paragraph:

Paul and Caroline do not go to school to study what they are told to study whether they like it
or not; they go to school to pursue their own interests and to follow up their own ideas in a
free environment. They have almost unlimited informational resources to draw upon and a
great deal of individual advice and helpful dialogue to benefit from. Our educational system has
come a long way in the last ten years ....

Who did not have great dreams in 1968. The fulfillment of Stansfield's dream is four
years overdue now, and h looks as if we will have to add some decades to the expected
term. But also in today's society strong incentives for the use of such media do exist.

Society is growing more complex everyday. In order to cope with this complexity and
®ven make future development possible, society expects education to keep pace. Differen-
tation is one of the keys, so that no talent is wasted, and CAI will be one of the means,
l^ut without an enormous increase of the number of teachers, which is not to be expected,
differentiation will not be possible to an extent that really makes a difference, unless
computers can effectively be used to free the teachers from the managerial burden laid
^Pon them by differentiation. A system like PLAN, that originated in 1967 as the first
CMl-application and is now in use on an everyday basis for over 200.000 elementary
school pupils, proves that this is possible by using the computer in the more traditional
^ay, for data collection and selection. As said before, the present CAI systems are totally
"nfit for such a job.

J. do agree with Baker (1978, p. 342), that the fundamental deficiencies of CAI languages
'Or that purpose are that they do not provide for independence of courseware and soft-
ware and that they do not provide an adequate data base management capability. How-
ever, I do not agree with his more fundamental statement (p. 46-47):

One of the salient features of CMI is the good fit between what the computer is called upon to
do and its capabilities. Under CMI the computer is doing what it does best, namely data collec-
tion, data processing and data storage. These procedures are well understood and can be per-
formed efficiently by a wide variety of computers. This is in sharp contrast to CAI, where the
computer is used to present instruction and is doing what it does least well: communicate with
many different people on an individual basis.

This is true for the time being, but I do not recognize this as being fundamental and
^specially not as an argument to support his plea for specialized CMI-languages. On the
contrary, as may be concluded from the preceding, I consider computers as the best pos-
sible device to communicate with many different people on an individual basis and I ex-
pect this to become the more sahent feature of the new medium in the near future.

my opinion Baker's excellent observation of the fundamental deficiencies of CAI
i^guages stresses once more the inadequateness of highly speciaUzed systems for tasks
that have so much in common with other everyday applications. And what's more,
Examined more closely the difference between the functions that the computer should
provide for CAI and CMI is not so great. To obtain a real educational dialogue, the com-
puter should mainly provide the possibilities to access large data bases of subject matter,
dependent on the pupil's learning past. The same is true for CMI, be it with a different
level of detail. An analysis of the 'information levels' is given by Van Hees (1976).
^amstra and Breuker amongst others, argue that CAI systems should be generative, based
On natural language communication, using a knowledge base and being capable of infer-
■"«ig from the course of the dialogue (Camstra, 1976; Breuker & Camstra,1976). The
Point where they go wrong is, that they want their conceptually based CAI system to
have an explicit instructional orientation. But a built-in teacher is just what we should not
^arit for education, where we want to make pupils fit for real life and to fully develop
heir talents. Compare this with M.D. Merrill's comments on Cronbach & Snow's ATI
strategy:

Suppose we put students into our 1984 CAI system and every display is exactly what they need
for optimal learning. What would be the result? Like a spoiled child who is always given any-
thing he wants, the student who always has the optimal tactic provided for him is likely to be

unable to cope with the real world which, in our experience, is not so accomodating. Such an
adapting-to-the-student procedure will make the student system-dependent. Our goal ought
rather to be to make the student system-independent. Students ought to be able to learn better
after experience with the system than they could before. (Merrill, 1975, p. 221-222).

The media that they will use in real life are well fit as sources of mformation on what
there is to learn about hfe, including all kinds of abilities, but only human teachers are fit
for the pedagogical guidance of the process of formation. An instmctional orientation can
be useful in training, but this is rather instrumental. Stressing the mstmctional orientation
of the medium if it is to be used in education, gives way to mystifications that do no
good to the cause. To draw the parallel with television once more, no one asks for a TV-
set to have an explicit mstmctional orientation in order to be educational. TV-programs
however (i.e. courseware) can have such an orientation.

All these arguments point to the fundamental deficiency in CAI systems, that they do not
provide for the mdependence of courseware and software. Courseware should be regarded
as data that can be called upon by the system as is appropriate in the course of the dia-
logue.

The question remains unanswered if the apparatus will need special provisions for different
modes of operation, for instance function keys or calls. As the modi operandi are so diverse,
this might well be the case. A fine example of this is one of the oldest and most distin-
guished 'teaching machines', THE BRAIN (e.g. Ruyle, 1968). THE BRAIN (The Harvard
Experimental Basic Reckoning And Instructional Network) built at Harvard University
Cambridge Mass. in the mid sixties, was a dedicated system for instruction and research
concerned with mathematical analysis. It could be used both as a complex calculator with
display or as a CAI system especially fitted for mathematical apphcations. Every terminal
was equipped with 60 special keys by which a large number of functions were available
directly. Via a bank that contained the functions, the meaning (i.e. function) of the keys
could be changed even as to form a multiple choice answering device. Although the ex-
terior design was according to the state of the art at that time, the concept makes the
programmable character generator of PLATO, for display purposes only, look like an
expensive toy.

The views expressed m the preceding can be summarized as follows.
The CAI systems of this moment are still based on rather prunitive computer languages.
The CAI languages themselves, with which lessons can be created, are also not fit for
problem solving. The specialization of these systems has induced the portability problem
and makes them too expensive for widespread apphcation.

A second factor that inhibits large scale use of these systems is, that they do not provide
the adequate data base facilities that are necessary for CMI-like day-to-day school opera-
tion. There is a strong tendency towards the use of general purpose facihties, computers
and programmmg languages, to overcome these problems. This tendency is amplified by
the spreading of the microcomputer, and will again be reinforced by the rising of the new
information and communication medium.

Just as the older media came into our homes and schools, the computer will as a medium
hs own right, and the new medium should be treated in the same way, mainly as a
communication device. It is to be expected that just as is the case with other media, ah
l^hid of institutions wiU pubhsh CAI materials on a regular basis and a growing number of
teachers will develop smaller sets of courseware for particular needs. The instruments are
too primitive as yet. Once the communication can take place in a 'human' fashion, i.e. in
a Way man is used to express himself, the apparatus wiU eventuaUy be shaped in a form
that is more adequate to create opportunities for communication. It is not education that
should find the right ways for that. The outstanding task of education is to cope with the
concept of interactiveness outside the teacher, and to find out whether, where and how it
can be integrated profitable.

In the next decade computers wih become accepted communication devices. The gap
between computers and other communication devices wih be closed as computers are
jntegrated more and more in communication devices. These devices, that the pupils use in
real hfe', are weU fit for use in schools, as books are now. Speciahzed computer systems
for education must be regarded as failures, because they are speciahzed.
f-Ml will become much more important in the schools of the future. It uses the computer
the more traditional way, for data coUection and selection. Present CAI systems are
totally unfit for that job. This stresses once more the inadequateness of highly speciahzed
systems for tasks that have so much in common with other everyday applications. The
difference between the functions that the computer should provide for CAI and CMI are
not very large. To obtain a real educational dialogue, the computer should mainly provide
possibilities to access large data bases of subject matter, dependent on the pupil's past.
The same is true for CMI, be it with a different level of detail. The fundamental deficien-
cy in today's CAI systems is that they do not provide for the independence of courseware
^d software. Courseware should be regarded as data that can be caUed upon by the
system as is appropriate in the course of the dialogue. What they should not provide is an
explicit instructional orientation. Perhaps the apparatus will need special provisions for
different modes of operation.

The final conclusion of this is not that we should stop developing CAI systems. On the
contrary, a lot more developmental effort is needed in this area to contribute to the final
product and to fmd out how the new medium can be integrated in everyday school prac-
tice. Instead of further attempts to create the most handsome CAI system, we should try
0 reach at common notions on what are the most important functions in educational
dialogue and educational management, and this should be done in a more imaginative way
than is shown by the present CAI systems. Once these have been identified, procedures
can be written in general purpose programming languages to make them accessible for
teachers and students. Of course the most 'intelhgent' languages should be used.
Finally we should try to stop talking about computers as in computer-assisted and com-
Puter-managed instruction. There will always be computational machines to do com-
puting and the new medium wiU have provisions for computing, but the new medium is
primarily a communication device in which functions are integrated that formerly were
concentrated in computers, or better electronic data processors.

One might ask, why bother about CAI at aU when the new information and communica-
tion medium is within everyone's reach? Dijkstra concludes his latest book (Dijkstra,
'A Discipline of Programming') in retrospect with an observation that is remarkably
to the point here:

... the purpose of thinking is to reduce the detailed reasoning needed to a doable amount. The
burning question is: can 'thinking' in this sense be taught? ... It seems vain to hope - to put
it mildly - that a book could be written that we could give to young people, saying 'Read this,
and afterwards you will be able to think effectively', and replacing the book by a beautiful,
interactive system for Computer-Aided Instruction (CAI for intimi) will not make this hope less
vain.

But insofar as people try to understand (at first subconsciously), strive after clarity, and attempt
to avoid unmastered complexity, I believe in the possibility of assisting them significantly by
making them aware of the human inability 'to talk of many things' (at any moment, at least),
by making them alert to how complexity is introduced. To the extent that a professor of music
at a conservatoire can assist his students in becoming familiar with the patterns of harmony and
rhythm, and with how they combino, it must be possible to assist students in becoming sensitive
to patterns of reasoning and to how they combine.

I am convinced that CAI is the unique means to be of help there. The new medium only
provides information (and possibilities for communication). With CAI it should be possible
to assist the students in learning how to attack problems, how to gather the necessary
information and how to use it.

Backus, J.W. a.o. Revised Report on the Algorithmic Language Algol 60*. (*IFIP 1962) (Published in;
Comm. of the ACM, Journ. of the British Computer Soc. and Numerische Mathematik.) New York-
Berlin: Springer Verlag, 1969 (reprint).

Baker, F.B. Computer Managed Instruction, Theory and Practice. Englewood Cliffs, NJ: Educational
Technology Publ., 1978.

Bitzer, D. & D. Skaperdas. The Design of an Economically Viable Large-Scale Computer Based Educa-
tion System. Urbana, 111.: University of Illinois, CERL report X-5,1969.

Breuker, J. & B. Camstra. Concept Based Computer Assisted Instruction: proposal for the construc-
tion of intelligent CAI. Amsterdam: University of Amsterdam, COWO, 1976.

CERI. Computers in Education; Present Situation and Development Trends. Paris: OECD, Centre for
Educational Research and Innovation, CERI/CT69.02, 1969.

Dijkstra, E.W. A short introduction to the art of programming. Eindhoven University of Technology,
1971.

Dijkstra, E.W. j4 discipline of programming. Englewood Cliffs, NJ: Prentice-Hall, 1976.

Hees, E.J.W.M. van. Een integraal concept voor computerondersteuning van het onderwijs. Tilburg:
KHT, ORC memo 134.76, 1976.

Hooper, R. The National Development Programme in Computer Assisted Learning. In: Proceedings
Int. Conf. Frontiers in Education. London: IEEE, 1974.

Hoye, R.E. & A.C. Wang. Index to Computer Based Learning. Englewood Cliffs, NJ: Educational
Technology Publ., 1973.

Kearsly, G.P. (1976a). Some facts about CAI: A quantitative analysis of the 1976 Index to Computer
Based Instruction./ourna/o/ Computer Based Instruction, 1916,3/2, 34-41.

Kearsly, G.P. (1976b). Some 'Facts' about CAI: Trends \91Q-\916. Journal of Educational Data Pro-
cessing. 1916,13, 1-12.

Kemeny, J.G. & Th.E. Kurtz. The Dartmouth Time-Sharing Computing System. Final Report. Dart-
mouth: Dartmouth College, Kiewit Computation Centre, 1967.

Lekan, H.A. Index to Computer Assisted Instruction. Boston, Mass.: Sterling Institute, 1970.

Merrill, M.D. Learner Control: Beyond Aptitude-Treatment Inteiactiom. AV-Communication Review,
1915,23, 217-226.

Stansfield, D. 1978 - What could our schools be like in ten years time? Ontario: The Ontario Institute
for Studies in Education, Dep. of Computer Applications, 1968. (Reprinted in: V.M. Howes (Ed.).
Individualising Instruction in Science and Mathematics. New York: McMillan, 1979,181-185).
^ang, A.C. Index to computer based learning. Milwaukee, Wise.: University of Wisconsin-Milwaukee,
197^.

^eizenbaum, J. ELIZA, a computer program for the study of natural language communication between
man and machine. Communications of the ACM, 1966, 9, 36-45.

Van Meerem en van Peet (1976) used test data of the Dutch army to analyse the effect of
environment and intelligence on achieved educational level. In this study these data are reana-
lysed using a general model proposed by Goodman (1972).

Four hypotheses concerning the effects of environment and intelligence on achieved educational
level are tested. A model is constructed to give the best explanation of the data, and a cross
validation of this model is performed. Finally the parameters of the model are estimated.
It was found that achieved educational level can be explained by the joint effects of environ-
ment (family size and father's occupation) and a main effect of intelligence. In contrast to
earlier findings including those of van Meerem en van Peet, no interaction effects between intel-
ligence and environment were found. In this sense our model is more parsimonious.

De vraag in hoeverre intelligentie dan wel omgeving schoolopleiding bepaalt of anders
geformuleerd in hoeverre kinderen uit verschillende sociale milieu's ongelijke kansen heb-
ben om aan middelbaar en hoger onderwijs deel te nemen houdt al geruime tijd de gemoe-
deren bezig, (van Heek, 1972; van Meerem en van Peet, 1976). Veel onderzoek dat op dit
terrein gedaan is leidt tot modellen die beschrijvend en/of psychometrisch zijn in plaats
van hypothesetoetsens (Spitz, 1959; de Wolff, 1963; Ruiter, 1965; van Meerem en van
Peet, 1976).

Tegenwoordig zijn er een aantal methoden en computerprogramma's beschikbaar die het
mogelijk maken complexe modellen te toetsen zonder dat er strenge eisen aan de data
gesteld moeten worden. Zo kunnen gegevens die op nominaal niveau gemeten zijn en die
in eenvoudige kruistabellen zijn ondergebracht, gebruikt worden om statistische modellen
te toetsen (Everitt, 1977; Fienberg, 1978; Goodman, 1972).

In dit onderzoek is een heranalyse uitgevoerd op de door van Meerem en van Peet gebruik-
te gegevens.^ Behalve de door van Meerem en van Peet gebruikte variabelen intelligentie,
schoolopleiding en beroep vader hebben we ook de variabele gezinsgrootte in de analyse
betrokken.

Wat de verbanden tussen deze variabelen betreft, bestaat de enigszins onbevredigende situ-
atie dat er geen uitgewerkte theorie is waarbinnen de bestaande onderzoeksresultaten
kunnen worden samengevat. Wél kunnen uit de litteratuur hypothesen gehaald worden
die aan de hand van het aanwezige materiaal kunnen worden getoetst.

1. De auteurs danken dr. G.J. Mellenbergh voor zijn suggesties en commentaar en twee anonieme revi-
soren voor hun kritiek. Adres: Pedagogisch Didactisch Instituut, Prinsengracht 225-227, 1015 DT
Amsterdam.

2. De gebruikte data, dienstkeuringsgegevens van de lichting 1972, zijn op te vragen bij het SISWO te
Amsterdam.

I- Kinderen uit kleinere gezinnen hebben grotere kansen op voortgezet onderwijs dan
kinderen uit grote gezinnen.

II. Kinderen uit hogere sociale miheu's hebben grotere kansen op voortgezet onderwijs
dan kinderen uit lagere sociale milieu's.

III. Bij kinderen uit hogere sociale miheu's heeft gezinsgrootte een geringere invloed op
de kansen op voortgezet onderwijs dan bij kinderen uit lagere sociale milieu's.

IV. Bij kinderen met een hogere mtelligentie heeft sociaal miheu een geringere invloed op
de kansen op voortgezet onderwijs dan bij kinderen met een lagere intelligentie.

Vervolgens is een model gezocht dat de gegevens het best verklaart en tenslotte is op de

Opgemerkt dient nog te worden dat we geen schattingen hebben gegeven van inteUectuele

^e hadden de beschikking over een steekproef van 7965 keurlingen uit de lichtmg van
1972, waarvan de volgende gegevens waren geregistreerd^:

I gezinsgrootte, een milieu-indicator; deze variabele werd door ons gedichotomiseerd in

intelligentie, gemeten met de Raven Matrix test; de variabele inteUigentie hebben we
üigedeeld in vijf categorieën

De door ons gebruikte steekproef bestaat uit al die keurlingen uit de oorspronkelijke datafïle van
^ 000 man waarbij belialve de variabelen intelligentie, beroep vader en schoolopleiding ook de varia-
bele gezinsgrootte was gemeten.

De variabele gezinsgrootte en intelligentie zijn in een beperkt aantal categorieën onderver-
deeld. Hierbij is er voor gezorgd dat elke categorie ongeveer evenveel keurlingen bevat.
Een klein aantal categorieën per variabele heeft het voordeel dat bij berekening van kruis-
tabellen het aantal cellen beperkt blijft. Dit laatste is noodzakelijk omdat bij de in dit
onderzoek gebmikte analysemethoden het aantal individuen per cel niet te klem mag zijn.
Om dezelfde reden is bij geen van de variabelen een categorie voor ontbrekende gegevens
opgenomen.

De steekproef is aselect in twee delen gesplitst zodat kmisvahdatie bmnen dit onderzoek
mogelijk werd. Vervolgens zijn alle keuriingen die op één of meer van de vier gebruikte
variabelen géén score hadden uit de beide steekproeven verwijderd, wat een totaal verlies
van 13% opleverde. Dit resulteerde in een exploratie steekproef van 3408 en een validatie
steekproef van 3500 keurlingen. Tenslotte is op elke steekproef een vierdunensionale
kmistabel berekend. Deze kruistabellen vormden het basismateriaal voor de uitgevoerde
analysen.

ln dit onderzoek is gekozen voor doorstromingsratio's als afhankelijke variabele m plaats
van schoolopleidmg zonder meer.'* Niet alleen wordt er m de hteratuur over kansen m het
onderwijs vaak de nadruk gelegd op het belang van de doorstroming van de lagere school
naar het voortgezet onderwijs (vgl. van Heek, 1972; de Groot en van Peet, 1974; van
Meerem en van Peet, 1976), het begrip doorstromingsratio is ook mhoudelijk mzichtelij-
ker dan schoolopleidüigsniveau. De onafhankelijke variabelen zijn gezmsgrootte, beroep
vader en mtelligentie.

Zij xyu het aantal keurlingen uit categorie i van de variabele gezinsgrootte, categorie j van
de variabele beroep vader, categorie k van de variabele intelUgentie en categorie / van de
variabele schoolopleiding, dan is

de doorstromingsratio. Hieronder wordt verstaan het aantal keurlingen dat het tot een
zeker hoger opleidingsniveau r heeft gebracht in verhouding tot het aantal keurhngen dat
alleen lagere school of lts heeft, gegeven een bepaald intelhgentieniveau k, gezmsgrootte-
niveau i en niveau beroep vader j.

Zij nu «ri het effect van categorie i van gezinsgrootte op de doorstroming tot opleidings-
niveau r, /3rj het effect van beroepsgroep j op de doorstroming tot opleidmgsniveau r,
het effect van mtelhgentieklasse k, o^rfj het effect van de combinatie van gezinsgrootte i
en beroepsgroep j, 0(7rik het effect van de combinatie van gezinsgrootte i en intelUgentie-
klasse k, Pjrik het effect van de combinatie van beroepsgroep j en mtelhgentieklasse k,
cePfrijk het effect van de combinatie van gezinsgrootte i, beroepsgroep j en intelligentie-
klasse k op doorstroming naar opleidmgsniveau r en a, de algemeen gemiddelde doorstro-

4. De keuze van doorstiomingsratio's leidt niet tot verlies van informatie. De verhouding tussen het
aantal keurlingen bij verschillende opleidingsniveau's zijn te berekenen door de doorstromingsratio's
voor die opleidingsniveau's op elkaar te delen.

ming tot opleidingsniveau r. Dan kunnen de verwachte doorstromingsratio's beschre-
ven worden met het volgende multiplicatieve model (Goodman, 1972)'

De interpretaties van de modeltermen zijn analoog aan die van een driewegsvariantieana-
lyse. De termen aß^^, a^rik en ßJrjk zijn de eerste orde interactietermen, en de term o;|37jjjk
is de tweede orde interactieterm. Door de restricties (formule 3, 4, 5) worden hogere orde
termen gedefinieerd als afwijkingen van lagere orde termen.

Door in het multipÜcatieve model (formule 2) bepaalde termen gehjk te stellen aan 1
wordt het mogelijk de hypothese te toetsen dat de betreffende termen geen effect heb-
ben. Aangezien de hogere orde termen opgevat worden als afwijkingen van lagere orde ter-
men moeten de modellen hiërarchisch opgebouwd zijn. De lagere orde termen mogen dan
ook alleen op 1 gefixeerd worden als de hogere orde termen waarbij dezelfde variabelen
een rol spelen tevens gelijk aan 1 worden gesteld. (Fienberg, 1978, blz 39)

Wordt de doorstroming uitsluitend verklaard uit hoofd en interactie effecten van de varia-
belen beroep vader en intelligentie. Model (6) ontstaat door in model (2) de termen

"Trik en a^7rijk - de hoofd en interactie effecten van de variabele gezinsgrootte -
op de waarde 1 te fixeren.

Een model zoals dat in formule 6, kan getoetst worden door de statistische grootheid G^
te berekenen, die - onder aanname van het model - bij benadering chi-kwadraat verdeeld
is (Goodman, 1972).

5. Als van model (2) de logaritme wordt genomen ontstaat het bekendere (additieve) logit model.

G^ vergelijkt de aannemelijkheid van het onderzochte model (in dit voorbeeld model 6)
met de aanemelijkheid van het volledige model (zie formule 2); G^ is gelijk aan de -2 log
van de aannemelijkheidsverhouding (likelihood ratio) tussen de beide modellen. Als de
rechteroverschrijdingskans groot is, wordt het model beschouwd als een goede beschrij-
ving van de gegevens. De op 1 gefixeerde termen - in voorbeeld 1 zijn a^, aftij, OTrik» en
«^/'Trijk gelijk aan 1 gesteld - dragen dan niet bij aan de verklaring van de doorstromings-
ratio's.

Wanneer bij twee hiërarchische modellen het ene model een speciaal geval is van het an-
dere model dan kan het verschil in passing op analoge wijze worden getoetst. Dit onder de
aannamen dat de nulhypothese (er is geen verschil in passing) juist is én dat de modelter-
men die in geen van beide modellen voorkomen géén bijdrage leveren aan de verklaring
van de gegevens. De verschiltoets is daarom alleen zinvol wanneer bij vergelijking van twee
modellen het ruimste model - dit is het model met de minste restricties - een goede ver-
klaring van de gegevens oplevert (Andersen, 1980, blz 189; Goodman, 1971).
Het verschil van de G^ -waarden is dan bij benadering chi-kwadraat verdeeld met als aantal
vrijheidsgraden het verschil van de vrijheidsgraden van de modellen.
Met behulp van het computerprogramma ECTA (Everyman's Contingency Table Analysis)
kunnen de berekeningen worden uitgevoerd (Goodman en Fay, 1974).

Model (6) is een speciaal geval van:
(7) 5,/yk = a^ . Orf ■ I3rj • 7rk ■ /57rjk

Model (6) ontstaat door in model (7) de term op 1 te fixeren. Het verschil in passing
tussen model (6) en model (7) is een toets voor de specifieke bijdrage van het hoofdeffect
van de variabele gezinsgrootte als kan worden aangenomen dat model (7), dit is het
model met de minste restricties, een goede verklaring van de gegevens oplevert.
Met model (6) alléén daarentegen kunnen de bijdragen van alle hoofd- en interactie effec-
ten — Ori, a)3rij, a7rik, — van de variabele gezinsgrootte worden getoetst.

De in de inleiding beschreven hypothesen zullen worden getoetst door steeds de passing
van twee modellen te vergelijken, het ene model mét en het andere model zonder de voor
de hypothese relevante term. Het verschil in passing van de modellen is een toets voor de
hypothese. De aldus getoetste hypothesen zijn evenwel ruimer dan de in de inleiding ge-
formuleerde hypothesen. De nulhypothese 'géén effect' wordt getoetst tegen de alterna-
tieve hypothese 'enig effect', terwijl bij de in de inleiding geformuleerde hypothesen de
richting van het effect aangegeven wordt.

Het onderscheidingsvermogen van de door ons gebruikte toets is daarom niet opthnaal;
gezien de grootte van de steekproef hoeven we ons daar echter geen zorgen om te maken.
Bij verwerping van de nulhypothese zullen we echter wel moeten nagaan of het gevonden
effect ook in de door de hypothese voorspelde richting is. Hier staat echter het grote
voordeel tegenover dat niet voorspelde effecten niet bij voorbaat van interpretatie worden
uitgesloten (Cohen, 1965).,,

We zijn geïnteresseerd in de effecten van milieu en intelligentie op de doorstroming naar
hoger onderwijs. In tabel 1 staan de G^ — waarden en aantallen vrijheidsgraden van een

aantal voor de probleemstelling relevante modellen. Model a bevat alleen een effect van de
variabele intelligentie, model b bevat alleen effecten van de milieuvariabelen gezinsgrootte
en beroep vader. Verder zijn alle modellen (c tot o) opgenomen, waarin naast het effect
van de variabele intelhgentie een effect van de milieu variabelen is gespecificeerd.
Beschouwen we tabel 1 dan zien we dat het ruime model n verworpen wordt, terwijl de
restrictievere modellen k, i, h en g acceptabel zijn. Dit is een wat verwarrende maar zeker
geen unieke situatie; ook in de toetsende factoranalyse komt dit probleem voor (Bethle-
hem et al., 1978, blz 57). Nader onderzoek van model n is echter zeker op zijn plaats.
Inspectie van de residuen van model n geeft twee cellen waarbij de geobserveerde fre-
quenties duidelijk afwijken van de verwachte frequenties: kinderen met een gemiddelde
intelligentie, waarvan de vader tot de beroepsgroep van de middelbare employee's behoort
én die uit een klein gezin komen, gaan minder vaak naar de MTS of 3-jarige HBS dan ver-
wacht; terwijl dit er bij grote gezinnen meer zijn dan verwacht. Het vermoeden bestaat dat
hier sprake is van 'outliers', temeer omdat er geen duidelijke theoretische verklaring is
voor het hierboven beschreven afwijkende gedrag van deze groepen. Inspectie van de resi-
duen van model n, berekend op de kruisvalidatie steekproef, levert dan ook geen afwij-
kende cellen op; er is geen sprake van een systematisch effect. De afwijkende cellen in de
exploratie steekproef kunnen inderdaad opgevat worden als 'outliers'.
In de verdere analysen worden deze beide cellen buiten beschouwing gelaten (Bishop et
al., 1975, hoofdstuk 5). Tabel 2 bevat de G^-waarden en aantallen vrijheidsgraden voor
deze modellen.

Beschouwen we tabel 2 dan zien we dat model n nu een goede passing heeft; alleen bij
model j doet zich het probleem nog voor dat het rubnere model (j) verworpen wordt, ter-
wijl het restrictievere model (g) acceptabel is. Nadere inspectie van de residuen van model
j brengt echter geen afwijkingen aan het licht.

Uitgaande van tabel 2 kunnen de hypothesen I, II, III en IV getoetst worden door steeds
de passmg van twee modellen te vergehjken volgens de methode beschreven m 3.2.1. Be-
langrijk hierbij is dat de verschiltoets aheen zinvol is waimeer bij vergehjking van twee
hiërarchische modeUen het ruimste model een goede verklaring van de gegevens oplevert
(3.2.1. derde alinea). Wanneer meerdere modelvergelijkingen mogehjk zijn om eenzelfde
hypothese te toetsen zijn deze aUe uitgevoerd. De resultaten van de hypothese toetsing
staan vermeld in tabel 3.

Uit tabel 3 blijkt dat zowel gezinsgrootte (hypothese I) als beroep vader (hypothese II)
een significante bijdrage levert aan de doorstroming (a = .05). Beschouwen we de parame-
terschattingen van model g, dan zien we dat de effecten in de verwachte richting zijn: kin-

deren uit kleine gezinnen stromen meer door naar het voortgezet onderwijs dan kinderen
uit grote gezinnen en kinderen van bijvoorbeeld hogere employee's stromen meer door
dan kinderen van arbeiders.

Hypothese 111 blijkt marginaal significant te zijn; de invloed van gezinsgrootte op doorstro-
ming is waarschijnüjk, zij het marginaal, afliankelijk van beroep vader. De parameterschat-
tingen van model h leveren een onverwacht effect op. In hypothese 111 wordt gesteld dat
bij kinderen uit hogere sociale miUeu's gezinsgrootte een geringere invloed heeft op de
kansen op voortgezet onderwijs dan bij kinderen uit lagere sociale miheu's. Uit de parame-
ter schattingen bÜjkt echter dat kinderen van hogere employee's die uit een klein gezin
komen minder doorstromen naar hoger onderwijs dan verwacht, terwijl kinderen van ar-
beiders die uit een klein gezin komen meer doorstromen. Wel bhjkt het effect van gezins-
grootte bij kinderen van hogere employee's kleiner te zijn dan bij kmderen van arbeiders.
De tweede interactiehypothese wordt niet door de gegevens ondersteund. De invloed van
sociaal miheu (beroep vader) op de doorstroming is niet afhankehjk van intelligentie (ver-
gelijk hypothese IV).

Gezien de bevmdingen in 3.2.2. dient een model dat een goede beschrijving van de data
geeft m ieder geval de termen a (gezinsgrootte) en ß (beroep vader) te bevatten. De inter-
actieterm aß moet waarschijnUjk wel in het model worden opgenomen, terwijl de interac-
tieterm ßy juist niet in het model moet worden opgenomen. Volgens de stapsgewijze
selectieprocedure van Goodman (Fienberg, 1978, blz 65) worden één voor één termen
aan het minimale model a, a, ß, aß toegevoegd. Als gevolg van dit toevoegen van termen
neemt de G^-waarde af en treedt er een verlies op van vrijheidsgraden. Is nu deze afname
van de G^ -waarde groot in verhouding tot het verlies aan vrijheidsgraden dan wordt de be-
treffende term aan het model toegevoegd.

Bij een stapsgewijze selectieprocedure bestaat altijd het gevaar dat er teveel op kans wordt
gekapitaliseerd. Daarom wordt het uitemdehjk geselecteerde model op de tweede steek-
proef getoetst. Hiervoor wordt gebruik gemaakt van de in 3.2.1. beschreven methode.
Tenslotte zuUen op de totale steekproef (de exploratie en vaUdatie steekproef tesamen)
met behulp van het programma ECTA parameterschattmgen worden berekend.

Het minünale model 5r = ar . . ßrj . a/Jnj bUjkt slecht te passen (G^ = 896.90, vg = 190,
p = .00). De doorstroming kan niet verklaard worden door miUeufactoren alleen. Toevoe-
ging van het hoofdeffect y van de intelligentievariabele geeft model h. Dit leidt tot een
aanzienlijke verbetermg van de passing, de afname van de G^-waarde is 713.69 bij een ver-
lies aan 12 vrijheidsgraden (p= .00). Als de term ay - het interactie-effect van gezms-
grootte en mteUigentie - aan model h wordt toegevoegd dan treedt een verbetering van
passing op (G^ = 26.70, vg = 12, p = .01). De term ay wordt in het model opgenomen.
Dit leidt tot de keuze van model k als het best passende model (zie ook tabel 2). Het toe-
voegen van meer termen geeft geen duidelijke verbetering van de passmg.
Als kmisvahdatie is op de tweede steekproef (N = 3486) de passing van model k getoetst,
bovendien is de bijdrage van de laatst toegevoegde term ay en de bijdrage van de margi-

naai significante term a/3 aan de passing van model k getoetst. Zowel model k als model h
en g geven een goede beschrijving van de data. (G^ = 161.17, vg^ = 166, Pk = .59; Gj =
174.31, vgh = 178, Ph = .56; G| = 209.15, vgg = 199, pg = .30). Het weglaten van de term
«7 leidt echter niet tot een significante verslechtering van de passing (G^ = 13.14, vg = 12,
p = .36). Het vervolgens weglaten van de term a/3 leidt wel tot een significante verslechte-
ring van de passing (G^ = 34.84, vg = 21, p = .03). De term a^ kan niet worden weggela-
ten. De doorstromingsratio's kunnen daarom verklaard worden uit de hoofdeffecten van
gezinsgrootte, beroep vader en intelligentie en het interactie-effect van de beide milieuva-
riabelen beroep vader en gezinsgrootte (model h); een interactie effect van intelligentie en
sociaal milieu is niet nodig voor een betere passing.

In tabel 4 staan de parameterschattingen voor model h, deze schattingen zijn berekend op
de gehele steekproef.

Uit tabel 4 blijkt dat de algemeen gemiddelde doorstromingsratio tot de HBS of hogere
opleidingen 0.27 is, dit wil zeggen dat op elke 100 personen met een opleidingsniveau niet
hoger dan de lagere school (niveau 1) er gemiddeld 27 personen zijn die de HBS of een
hogere opleiding afgemaakt hebben (niveau 4).

Kijken we alleen naar die keurlingen waarvan de vader behoort tot de beroepsgroep van
de hogere employee's dan is dit aantal ruim driemaal zo groot (de doorstromingsratio is
dan 3.53 x 0.27 = 0.95). Terwijl dat aantal bij de beroepsgroep van de niet agrarische
arbeiders juist driemaal zo klein is (doorstromingsratio: 0.33x0.27 = 0.09). De door-
stromingsratio naar de HBS of een hogere opleiding is daarom voor keurlingen met een

hogere employee als vader mim tien (3.53/0.33 = 10.70) maal zo groot als voor keurhn-
gen waarvan de vader een niet agrarische arbeider is.

Dit effect kan worden opgevat als een direct effect van de variabele beroep vader op de
doorstroming bij constante gezinsgrootte en mteUigentie. De volgorde in grootte van de
parameter schattingen in tabel 4 is vrijwel identiek aan de inteUectuele reserveschattingen
voor HBS en hoger zoals die door van Meerem en van Peet werden berekend (van Meerem
en van Peet, 1976, tabel 5).

Verder zijn ook de effecten van de variabelen gezinsgrootte en intelUgentie in de verwach-
te richtmg. Kleine gezmnen geven hogere doorstromingsratio's dan grote gezinnen en
hogere inteUigentieniveau's geven grotere doorstromingsratio's dan lagere intelUgentieni-
veau's. Zo is bijvoorbeeld de doorstromingsratio tot HBS of hoger bij kleme gezmnen
1.28 (1.13/0.88) keer zo groot als bij grote gezmnen. Hierbij zijn beroep vader en intelU-
gentie constant gehouden. En vergeUjken we de doorstrommgsratio's van keurUngen met
het hoogste mteUigentieniveau met die van keurUngen met het laagste inteUigentieniveau
dan zien we voor de HBS of hogere opleidingen een verhouding van 37.76 op 1 (6.42/
0.17), dit bij constante gezinsgrootte en beroep vader.

Op dezelfde wijze kunnen conclusies worden getrokken over de effecten van gezinsgroot-
te, beroep vader en intelUgentie op de doorstroming naar lagere opleidingsniveau's.
De parameterschattingen voor het interactie-effect van de variabelen gezinsgrootte en
beroep vader geven een onverwacht resuhaat. Zo bUjkt uit tabel 4 dat de doorstroming
naar de HBS of hoger voor keurUngen, waarvan de vader behoort tot de beroepsgroep van
de niet-agrarische bedrijfshoofden, de middelbare employee's, de hogere employee's of de
agrarische arbeiders, én die uit een groot gezin komen, hoger is dan verwacht. Voor de be-
roepsgroepen hogere employee en agrarische arbeider is dit interactie-effect zo sterk dat
het het hoofdeffect van de variabele gezmsgrootte teniet doet: de doorstroming van keur-

lingen uit grote gezinnen is voor deze beroepsgroepen zelfs groter dan voor keurlingen uit
kleine gezinnen.

Het is mogelijk om alleen de invloed van de milieuvariabelen op de doorstroming naar
hoger onderwijs te onderzoeken; het effect van intelligentie wordt dan constant gehou-
den. In dat geval is de gemiddelde doorstromingsratio:

Hierin is a het algemeen gemiddelde, a het effect van de variabele gezinsgrootte, jS het
effect van de variabele beroep vader en aj3 het interactie-effect van gezinsgrootte en be-
roep vader.

De doorstromingsratio tot HBS of hoger van keurlingen waarvan de vader hogere em-
ployee is en die uit een groot gezin komen is dan .27 x .88 x 3.53 X 1.21 = 1.03 (zie tabel
4). Dit wil zeggen dat op elke 100 personen met een opleidingsniveau niet hoger dan de
lagere school er gemiddeld 103 personen zijn die de HBS of een hogere opleiding hebben
afgemaakt. Komen de keurlingen uit een klein gezin dan is de doorstromingsratio .90.
Voor keurlmgen waarvan de vader een niet-argrarische arbeider is en die uit een groot
gezin komen is de doorstromingsratio tot HBS of hoger .06, komen ze uit een klein gezin
dan is deze .15. Bij vergelijkmg van de op grond van milieu meest begunstigde keurlingen
(vader hogere employee, groot gezin) met de op grond van miheu meest gedepriveerde
(vader niet-agrarische arbeider, groot gezin) is de doorstromingsratio naar de HBS of ho-
ger voor de door milieu meest begunstigde groep 18 maal zo groot als voor de op grond
van milieu meest gedepriveerde groep (1.03/0.66 = 18.16), dit bij constante intelligentie.
De doorstromingsratio tot de HBS of hoger was voor de intelligentste keurlingen ruim 37
maal zo groot als voor de minst intelligente keurUngen (6.42/0.17 = 37.76), hierbij wer-
den milieu effecten constant gehouden.

Hoewel intelligentie de grootste invloed heeft op de doorstroming naar hogere opleidin-
gen is de mvloed van miÜeu niet verwaarloosbaar klein. Milieu helpt wel degeüjk mee (of
tegen).

Hypothese I en II over respectievelijk de invloed van sociaal milieu en gezinsgrootte op de
doorstroming naar hogere opleidingsniveau's werden door dif onderzoek bevestigd. De
effecten zijn in de vooronderstelde richting: kleine gezinnen en hogere milieu's geven een
grotere doorstroming. Deze bevindingen komen overeen met resultaten van voorgaand
onderzoek (van Heek, 1972; van Meerem en van Peet, 1976; Ruiter, 1965). Ook interac-
tiehypothese III werd bevestigd, bij hogere milieu's is het effect van gezinsgrootte kleiner,
dan bij lagere rmlieu's. Voor interactiehypothese IV kon geen steun gevonden worden. Bij
kinderen met een hogere intelligentie is het effect van milieu niet kleiner dan bij kinderen
met een lage intelligentie. Dat deze interactiehypothese in ons onderzoek verworpen werd
is in tegenspraak met de bevindingen van van Meerem en van Peet (1976). Van Meerem en
van Peet maakten zelfs gebruik van dezelfde gegevens. Het ligt dan ook voor de hand het
verschil in conclusies toe te schrijven aan verschillen in de gebruikte methode.
Het eerste verschil is dat m ons onderzoek de hypothesen statistisch werden getoetst, ter-
wijl van Meerem en van Peet conclusies trokken door verschillen in doorstromingspercen-

tages te vergelijken en geen statistische toetsmgen uitvoerden. Het is mogehjk dat van
Meerem en van Peet conclusies trokken over effecten die bij statistische toetsing niet aan
te tonen zijn.

Het tweede verschil in methode heeft betrekking op de schaal waarop de afhankelijke
variabele is afgebeeld en het model dat voor de effecten van de onafhankelijke variabelen
gekozen is. Van Meerem en van Peet gebruikten doorstromingspercentages en vergeleken
de verschillen hiertussen voor verschülende niveau's van de onafhankehjke variabelen. Per-
centages echter hebben een ondergrens van O en een bovengrens van 100. Het verschil
dat maximaal mogelijk is hangt bij percentages af van het uitgangsniveau: bij een uitgangs-
niveau van 97% is een verhoging van 5% niet mogelijk, 102% bestaat nu eenmaal niet.
Welhcht kan hierdoor het door van Meerem en van Peet gevonden interactie-effect wor-
den verklaard; bij een hoog initieel doorstromingspercentage veroorzaakt door intelligen-
tie, kan het miheu niet veel meer bijdragen.

In ons onderzoek is gebruik gemaakt van een multiphcatief model voor doorstromingsra-
tio's. Dit is volstrekt equivalent met het vergehjken van verschihen tussen log-doorstro-
mingsratio's; het additieve logit model^. Logits hebben noch een ondergrens noch een
bovengrens. In ons onderzoek wordt geen interactie-effect tussen intelligentie en milieu
gevonden. Het is dan ook aannemelijk te veronderstellen dat het door van Meerem en
Peet gevonden interactie-effect een gevolg is van de door hun gebruikte schaal.
Voor onderzoek naar kansen in het onderwijs raden we het additieve logit model of het
multiphcatieve model van Goodman aan. De voordelen kunnen als volgt worden samen-
gevat:

Goodman's multiplicatieve model heeft bovendien nog het voordeel dat de parameters
goed interpreteerbaar zijn (Page, 1977).

Een beperking van zowel het additieve logit als het multiphcatieve model is wel dat deze
modellen slechts bruikbaar zijn bij categorale gegevens. Bovendien mag het aantal catego-
riën per variabele niet al te groot zijn. In dit onderzoek zijn daarom de variabelen gezins-
grootte en intelligentie gecatagoriseerd. Hierdoor treedt enig verlies aan informatie op,
wat welhcht bij het effect van de variabele gezinsgrootte (twee categoriën) tot een vergro-
ving van het beeld heeft geleid. De bovenstaande voordelen van het muhiphcatieve model
hebben voor ons echter zwaarder gewogen dan dit nadeel.

Wellicht ten overvloede zij opgemerkt dat de in dit onderzoek gebruikte gegevens beper-
kingen hebben. Voor de discussie over intelhgentie gemeten op smaUe basis (zoals de in
dit onderzoek gebruikte Raven matrix) of op brede basis verwijzen we naar van Meerem
en van Peet (1976) en naar de Groot en van Peet (1974). Verder hebben de conclusies
slechts betrekking op mannen (keurlingen). Voor vrouwen zal waarschijnhjk met name de
mvloed van sociaal milieu nog groter zijn (vergehjk Elshout en Brakenhoff, 1973).

Andersen, E.B. Discrete Statistical Models with Social Science Applications. Amsterdam: North-Hol-
land Publishing Company, 1980.
Bethlehem, J.G., Elffers, H., Gill, R.D. & Rijvordt, J. Methoden, Voetangels en Klemmen in de Factor-
analyse. Amsterdam: Mathematisch Centrum, 1978.

Bishop, Y.M.M., Fienberg, S.E., Holand,' P.W. Discrete Multivariate Armlysis. Theory and Practice.
Cambridge: The MIT Press, 1976.

Cohen, J. Some statistical issues in psychological research. In: B.B. Wolman (Ei), Handbook of Clinical
Psychology. New York: McGraw-Hill, 1965.

Elshout, J. en Brakenhoff, W. Assepoesters Zusters Waren Broers. Nederlands Tijdschrift voor de
Psychologie, 1973, 28, 311-325.

Fienberg, S.E. The Analysis of Crossclassified Categorical Data. London: M.I.T. Press, 1978.

Goodman, L.A. A general model for the analysis of surveys. In: L.A. Goodman & J. Magidson (eds).
Analyzing Qualitative/Categorical Data. London: Addison Wesley, 1978 (overdruk uit The Ameri-
can Journal of Sociology, 1972, 77).

Goodman, L.A. & Fay, R. ECTA program, description for users. Chicago: Department of Statistics,
University of Chicago, 1974.

Goodman, L.A. The multivariate analysis of qualitative data: interactions among multiple classifica-
tions. Technometrics, 1971,13, 33-61.

Groot, A.D. de & Peet, A.A.J. van De Toekomst van de Individuele Verschillen. R.I.T.P. memorandum
nr46, 1974.

Heek, V.yan. Het verborgen talent; milieu, schoolkeuze en schoolgeschiktheid. Meppel: Boom, 1972.

Meerem, L.M. van & Peet, A.A.J. van. Intellectuele Reserve als Indicator voor Gelijkheid van Kansen.
Tijdschrift voor Onderwijs Research. 1976,1, 241-255.

Magidson, J. An illustrative comparison of Goodman's approach to logit analysis with dummy regres-
sion analysis. In: L.A. Goodman & J. Magidson (Eds), Analyzing Qualitative/Categorical Data. Lon-
don: Addison Wesley, 1978.

Page, W.F. Interpretation of Goodman's log-linear model effects. Sociological Methods and Research,
1977,5,419-435.

Spitz, J.C. De reserve aan hoger intellect in Nederland. Universiteit en Hogeschool, december 1959.

Wolff, P. de. Mogelijheden tot vaststelling van begaafdheidsreserves. C.P.B., 1963.

In 'Gelijke of ongelijke kansen in het onderwijs; modelspecificatie en toetsing' (Kelder-
man en De Leeuw, 1982), voeren Kelderman en De Leeuw een heranalyse uit op door
Van Meerem en Van Peet (1976) verzamelde gegevens afkomstig van de dienstkeuring van
10.000 recruten.

Zij gebruiken hiervoor een techniek: 'analyse van meerdimensionale kruistabellen', die
weinig eisen aan de gegevens stelt. De conclusie die zij op basis van deze heranalyse trek-
ken, is dat het behaalde opleidingsniveau afhangt van intelligentie, beroep vader en gezins-
grootte, en dat er een interactie-effect is bij de variabelen 'beroep vader' en 'gezinsgrootte'.
Op de analyse van Kelderman en De Leeuw kan als kritiek worden aangevoerd dat de
door hun gekozen analysetechniek de gegevens niet voldoende uitbuit. Analyse van meer-
dimensionale kruistabellen gaat er immers van uit dat de gegevens gemeten zijn op niet
meer dan een nominaal niveau. Het meetniveau van de gegevens is zeker hoger en door
daar géén rekening mee te houden, verliest de analyse aan power.

Verder zijn Kelderman en De Leeuw - om het aantal cellen in de kruistabel te beperken -
genoodzaakt om het aantal categorieën per variabele klein te houden. Ook dit imphceert
een verlies aan power. Aangezien het hier gaat om een opzet met één afhankelijke varia-
bele (het opleidingsniveau) en drie onafhankelijke variabelen (intelligentie, gezinsgrootte
en beroep vader) ligt multipele regressieanalyse voor de hand; voor deze analysetechniek
gaan bovengenoemde twee bezwaren niet op. Een bijkomend voordeel is dat voor multi-
pele regressieanalyse standaard-computerprogramma's bestaan.'

Op het bestand zoals het in het archief is opgeslagen, zijn een aantal voorbereidende
bewerkingen uitgevoerd. Allereerst zijn ahe keurlingen verwijderd waarvan de gegevens
onvolledig waren. Nadere inspectie bracht nog negen gevallen aan het licht waar de intel-
ligentietest duidelijk niet serieus was ingevuld (bijv. gymnasiasten met de laagst mogelijke
score voor intelligentie); deze zijn ook verwijderd. De overblijvende 6899 keurlingen zijn
aselect verdeeld over twee steekproeven: een exploratiesteekproef (n = 3403) en een
validatiesteekproef(n= 3496).

1 Subfaculteit Opvoedkunde, Universiteit van Amsterdam, Prinsengracht 227,1015 DT AMSTERDAM
1. Alle berekeningen zijn uitgevoerd met het subprogramma REGRESSION van SPSS.

1. De afhankelijke variabele Scholing (S). Kelderman en De Leeuw hanteren een verdeling
in vier categorieën. In deze analyse wordt de oorspronkelijke schaal gebruikt (zie Van
Meerem en Van Peet (1976)). De schaal loopt van 11 t/m 91. Enkele punten op deze
schaal zijn bijvoorbeeld: 11 = BLO; 44 = ULO/MAVO; 56 = HBS-A; 91 = Universiteit.

Beroep vader (B) is geclassificeerd volgens een schaal die loopt van één tot acht. Deze
schaal is nominaal. Om deze variabele in een multipele regressieanalyse te kunnen ge-
bruiken is de variabele omgecodeerd.

In de exploratiesteekproef is het gemiddelde berekend van elk van de acht categorieën
op de afhankelijke variabele scholing. Daarna zijn de beroepen van laag naar hoog op
een rij gezet, hetgeen de volgende codering oplevert:

Gezinsgrootte (G) wordt door Kelderman en De Leeuw gedichotomiseerd in klein
(1-3 kinderen) en groot (4 of meer kinderen). In deze analyse is de oorspronkelijke
schaal gebruikt, die loopt van één tot acht.

Intelligentie (I) wordt gemeten met de Raven Matrix test. De score kan lopen van O tot
40 (Kelderman en De Leeuw verdelen deze score in vijf categorieën).

Met behulp van het SPSS-programma ONEWAY is in de exploratiesteekproef getoetst of
de drie onafhankelijke variabelen B,G en I een niet-lineair verband hebben met de afhan-
kelijke variabele S.

Zowel ƒ (Intelligentie) als B (Beroep vader) hebben een significante kwadratische trend.
Deze zijn in de multipele regressie ingevoerd onder de naam 12 (12 = I^) en B2 (B2 = B^).^
Behalve deze kwadratische trends zijn alle mogelijke interactievariabelen berekend
(Cohen 1968). Deze zullen worden aangeduid met lettercombinaties: zo is BI het inter-
actie-effect van Beroep vader en Intelligentie op de afhankelijke variabele Scholing.

2. Deze wijze van coderen 'Icost' zeven vrijheidsgraden; omdat toetsing in de andere helft van de
steekproef geschiedt is dit hier niet van belang. Voor een nadere uiteenzetting zie Wherry (1975) of
Pedhazur (1977).

3. Om rekentechnische redenen (vermijden van multicoUineariteit) zijn de variabelen B en ƒ voor het
berekenen van de interacties eerst gecentreerd rondom het nulpunt. Voor de resultaten van de
toetsing maakt dit niet uit (Allison, 1977), zodat we hier verder niet op in zullen gaan.

Analoog aan de opzet van Kelderman en De Leeuw zijn de predictoren (de onafhankelijke
variabelen, de kwadratische trend en de interacties hiertussen) hiërarchisch geordend naar
stijgende complexiteit:

Eveneens analoog aan de procedure die Kelderman en De Leeuw volgen (Kelderman en
De Leeuw, 1982), is m de exploratiesteekproef een regressiemodel geconstmeerd. De
constructie van het model is tóërarchisch en stapsgewijs verlopen. Per set zijn steeds
die predictoren toegevoegd die op dat punt van de analyse een significante bijdrage
leveren. Hogere orde predictoren worden alleen opgenomen wanneer de bijbehorende
lagere orde predictoren reeds in de regressievergelijking zijn opgenomen (bijv. B2 komt
alléén in aanmerking als predictor 5 in de regressievergelijking is opgenomen).
De resultaten van deze stapsgewijze selectieprocedure staan in de volgende tabel-

Na de derde stap zijn er geen predictoren meer die een significante verbetering geven. Een
goodness-of-fit test wijst uit, dat zowel model 2 als model 3 niet verworpen kunnen wor-
den.

Het stapsgewijs opbouwen van een regressiemodel draagt het risico in zich dat op toevals-
fluctuaties gekapitaliseerd wordt zodat er tevéél predictoren geselecteerd worden; daarom
is model 3 getoetst op de validatiesteekproef Het resultaat van deze kruisvalidatie staat in
tabel 2:

Uit de Icruisvalidatie blijkt dat de interactie GI als predictor géén significante bijdrage
levert en dus kan vervallen.

Samenvattend kunnen we zeggen, dat het grootste deel van de variantie in de variabele
Scholing verklaard kan worden door de lineaire effecten van Beroep vader. Gezinsgrootte
en Intelligentie. De kwadratische effecten van Beroep vader en Intelligentie en de inter-
actie Beroep vader x Intelligentie dragen eveneens significant bij, maar de verhoging van
de predictie is uiterst klein (het verschil tussen de multipele correlaties is kleiner dan 0.01).

De conclusies die uit de multiple regressieanalyse getrokken kunnen worden, komen
grotendeels overeen met de conclusies die Kelderman en De Leeuw (1982) trekken uit de
kruistabelanalyse. De drie onafhankelijke variabelen Beroep vader. Gezinsgrootte en Intel-
ligentie nemen het merendeel van de verklaarde variantie van de afhankelijke variabele
Scholing voor hun rekening.

De multipele regressieanalyse maakt het wèl eenvoudiger om meer specifieke conclusies
te trekken. Uit de grootte van de bèta-gewichten kunnen we afleiden, dat Intelligentie een
grotere invloed heeft dan Beroep vader en dat Beroep vader een grotere invloed heeft dan
Gezinsgrootte. De kwadratische trend voor de variabele Beroep vader is weinig interes-
sant: deze is eenvoudig te verklaren als een artefact als gevolg van de betrekkelijk grove
wijze waarop deze variabele geschaald is. De kwadratische trend voor de variabele Intelli-
gentie is interessanter. Wanneer we bereid zijn aan te nemen dat de Raven Matrix test een
score op intervalniveau oplevert (een gebruikelijke aanname), dan kan de kwadratische
trend niet geïnterpreteerd worden als een artefact. Het positieve bèta-gewicht (0.15) voor
de kwadratische trend 12, wijst uit dat de extreme scores op de intelligentieschaal een
relatief hoge scholing hebben. Voor wat betreft de lagere scores zou dit geïnterpreteerd
kunnen worden als de inspanningen die ouders, leerkrachten e.d. zich getroosten om
kneusjes 'over de streep' te halen. Een andere, minder interessante verklaring is, dat een
aantal recruten bij het maken van de test hun best niet hebben gedaan (de meest extreme
van deze gevallen zijn echter al uit het materiaal verwijderd).

Het enige duidelijke verschil tussen de analyse van Kelderman en De Leeuw en de multi-
pele regressieanalyse is de interactieterm. Uit het vergelijken van verschillende regressie-
modellen blijkt dat na het invoeren van de hoofdeffecten meer interactietermen in aan-
merking komen om geselecteerd te worden. Na het selecteren van één van deze interactie-
termen leveren alle andere interactietermen geen significante bijdrage meer. Welke inter-
actieterm wordt gekozen hangt van de selectiestrategie af. De hier gevolgde hiërarchische
selectiestrategie leidt tot de opname van de interactieterm BI in het model; stapsgewijze
regressie leidt tot opname van een andere interactieterm en het vergelijken van alle moge-
lijke predictorsets leidt tot wéér een andere interactieterm. De conclusie moet zijn dat de
data met betrekking tot" de aanwezigheid van interacties geen duidelijke informatie
leveren. Het is goed mogelijk dat de interactieterm BG van Kelderman en De Leeuw bij
een toetsing op nieuw materiaal niet repliceerbaar zal blijken.

Allison, P.D. Testing for interaction in multiple Kgiesüon. American Jourml of Sociology, 1977,83,
144-153.

Cohen, J. Multiple regression as a general data-analytic system. Psychological Bulletin, 1968, 70,
423-443.

Kelderman, H. & de Leeuw, E.D. Gelijke of ongelijke kansen in het onderwijs: modelspecificatie en
toetsing. Tijdschrift voor Onderwijs Research, 1982, 7,120-132.

Van Meerem, L.M. & Van Feet, A.A.J. Intellectuele reserve als indicatie voor gelijkheid van kansen.
Tijdschrift voor Onderwijs Research, 1976,1, 241-255.

Pedhazur, E.J. Coding subjects in repeated measures designs. Psychological Bulletin, 1977, 84, 298-
305.

Wherry, R.J. Underprediction from overfitting: 45 years of ihim\i3i%e. Personnel Psychology, 1975,
25,1-18.

Evaluatietechnieken voor het moedertaalonderwijs
Den Haag: Staatsuitgeverij, 1981 (= SVO-reeks, no 42)

Bij de bespreking van een boek met bovenstaande titel komt men gemakkelijk in de verleiding om de
tekst te evalueren aan de hand van door de auteur zelf aangegeven kriteria. Bijv. houdt de schrijver
rekening met de lezer en zijn doel, prikkelt hij tot lezen, zijn hoofd- en bijzaken voor de lezer goed
onderscheidbaar etc.? Er zijn twee redenen om dit niet te doen. Ten eerste breng ik mijn eigen taal-
vaardigheid (lezen, schrijven) in het geding, waardoor onwaardige discussies kunnen ontstaan tussen
auteur en boekbespreker. En ten tweede, omdat Wesdorp in zijn boek zelf aangeeft dat zijn boek leeg
zou zijn, wanneer hij strenge eisen zou stellen aan de evaluatietechnieken bijv. met betrekking tot
functionele communicatie (blz. 11, 43). Bovendien staat niet de taalvaardigheid van de auteur ter dis-
cussie, maar zijn boek. Hiermee zitten we al direct in de kern van de problematiek die in het boek
wordt besproken. Welke evaluatietechnieken bestaan er op het gebied van moedertaalvaardigheden en
in hoeverre slagen deze technieken erin een betrouwbaar en valide beeld te geven van taalvaardigheid?
De antwoorden op deze vragen worden in een vijftal hoofdstukken uit de doeken gedaan.
In het eerste hoofdstuk wordt uitgebreid aandacht besteed aan de problemen van het meten en beoor-
delen van taalvaardigheid. Allereerst gaat de auteur in op het 'object' van evaluatie: taalvaardigheid.
Dit moet in elk geval een blijvende, duurzame eigenschap van taalgebruikers zijn, en niet: de op zeker
moment zich manifesterende taaigedraging (blz. 2). De vraag is nu of er slechts een algemene taalvaar-
digheid bestaat, dan wel of er specifieke taalvaardigheden bestaan die relatief onafhankelijk en dus
«part meetbaar zijn (blz. 39). Naast andere indelingen gaat de auteur in op de traditionele indeling van
taalvaardigheden: schrijf-, lees-, spreek- en luistervaardigheid. Op grond van de literatuur komt hij tot
de conclusie dat de specifieke taalvaardigheden waarop vele toetsen en tests zijn gericht, waarschijn-
lijk stoelen op de algemene taalvaardigheid en dat het 'eigene' daarvan in vergelijking met het alge-
mene wellicht vrijwel in het niet valt (blz. 7). Toch kiest de auteur om onderwijskundige redenen voor
een bespreking van evaluatietechnieken gericht op de specifieke taalvaardigheden (blz. 7, 8).
Vervolgens wordt ingegaan op enkele onderwijskundige aspecten. Opgemerkt wordt dat geen van de
evaluatietechnieken volledig recht doet aan de opvattingen van de auteur of van 'het' moderne moeder-
taalonderwijs over doelstellingen (blz. 12,13). Echter ze zijn stappen op weg naar verheldering en con-
cretisering, al dragen vele technieken een middeleeuws karakter (blz. 13). Met dit in het achterhoofd
kan worden nagegaan ln welke mate evaluatietechnieken geschikt zijn voor didactische evaluatie (ver-
betering van het onderwijsleerproces) en voor selectieve evaluatie (beoordeling van leerlingen).
Tenslotte worden in dit hoofdstuk meettechnische zaken besproken. Betrouwbaarheid (variabiliteit,
signifisch effect, halo-effect e.d.) en validiteit (inhouds- en begripsvaliditeit) passeren de revue. Diverse
maatregelen om de betrouwbaarheid te verhogen komen aan de orde. Het blijkt echter dat de maatre-
gelen die de vrijheid van de beoordelaar beperken tevens de vrijheid van de leerling beperken. Met dit
laatste komt de validiteit in het gedrang. Dit levert een onaangenaam'probleem op. Hoge betrouwbaar-
heid van een beoordelingswijze is noodzakelijk voor een valide meting, doch in verband met de realise-
ring van de doelstellingen van het onderwijs wordt door een hoge betrouwbaarheid de inhoudelijke
validiteit aangetast. Reeds beperking van de vrijheid van de beoordelaar geeft hier problemen (blz. 43).
Blijkens het voorwoord moet het boek worden gezien als een soort handboek voor practici, ook al is
het uiteindelijk geen echt handboek geworden. Na lezing van het eerste hoofdstuk lijkt het boek eigen-
lijk vlees noch vis. Het is geen echt handboek en het is ook geen echte theoretische verdieping op het
gebied van taalvaardigheid en meting daarvan. Het denken van de auteur is sterk taalkundig gekleurd
en theorie van het taaUiandelen (spraak) komt nauwelijks aan de orde. Echter door de (overigens te-
rechte) kritische stellingname van de auteur tegenover de gangbare evaluatiepraktijk, is het niet ondenk-
baar dat juist practici na lezing van het eerste hoofdstuk besluiten om de rest maar te laten vopr wat
het is. Immers de besproken technieken zijn zo bewerkelijk (betrouwbaarheid) en tegelijkertijd zo on-
deugdelijk (validiteit) dat je in de praktijk maar beter af kunt gaan op het eigen intuïtieve oordeel. Dat
is dan ook wel niet zo best, maar het kost in elk geval weinig tijd. Mijn eigen Nederlandse leraar zei
vroeger al: 'ik geef geen proefwerken, want ik hoor zo wel of iemand zijn Nederlands beheerst'. Toch
zou het jammer zijn wanneer men de rest niet zou lezen, aangezien de volgende hoofdstukken het
lezen zeker waard zijn. Dit niet alleen voor practici, maar ook voor onderzoekers.

In de hoofdstukken 2 tot en met 5 komen lesp. aan de orde de evaluatie van de schrijf-, de lees-, de
spreek- en de luistervaardigheid. De besproken technieken worden steeds bekeken op hun meettech-
^sche en onderwijskundige kwaliteiten. In een aantal gevallen worden voorbeelden van items gegeven
ln de bijlagen. Elk hoofdstuk is voorzien van een uitgebreide inleiding op de specifieke taalvaardigheid
en de problemen van meting daarvan. Het voordeel daarvan is dat elk hoofdstuk apart gelezen kan wor-
den na lezing van het eerste hoofdstuk. In de hoofdstukken wordt een gedetailleerd en compleet over-
zicht gegeven van de gangbare evaluatietechnieken. Daarbij komt duidelijk naar voren dat, zeker in
Nederland, veel meer aandacht is besteed aan schrijven en lezen dan aan spreken en luisteren. De laat-
ste twee vaardigheden zijn hier nog maar zeer recent 'ontdekt' in het onderwijs.
Het boek is in elk geval een waardevolle "vindplaats' geworden van toetsen en tests op het gebied van
taalvaardigheid. Bovendien worden de technieken uitgebreid en systematisch besproken, waardoor de
lezer zich een goed beeld kan vormen van de meetprocedure en de waarde ervan. De auteur verdient
lof voor dit enorme karwei. Practici en onderzoekers kunnen dan ook veel aan dit boek hebben. Naar
mijn idee is alleen de opbouw van het boek niet handig gekozen. Na een wat meer technisch inleidend
hoofdstuk had de auteur beter eerst de diverse evaluatietechnieken kunnen bespreken. Gaandeweg
hadden lezers dan wel in de gaten gekregen dat er heus wel redelijke technieken bestaan, zeker voor de
evaluatie van schrijfvaardigheid en in wat mindere mate voor leesvaardigheid, maar dat over het geheel
genomen de stand van zaken verre van bevredigend is. Het boek had dan kunnen besluiten met een zes-
de hoofdstuk met een kritische bespreking van het geheel. Daarmee zou ook ongetwijfeld meer recht
zijn gedaan aan de ontstaansgeschiedenis van het boek.

Eindrapportage van een onderzoek onder scholieren en leraren van het avond-mavo-,

Om met de deur in huis te vallen: de geïnteresseerde lezer die zo'n twee of drie uur aan dit ruim 100
bladzijden tellende eindrapport besteedt, hoeft geen spijt te hebben van de gedane moeite.
In dit handzame boekje - je steekt het makkelijk in de zak van een colbertjasje - komen bijzonder
veel aspecten van het avondonderwijs aan bod. Het is geen geringe verdienste van de auteurs dat zij
hierover bondig en met vermijding van hinderlijk onderzoekersjargon weten te vertellen.
De centrale probleemstelling van het onderzoek luidt: 'Hoe groot is het rendement van het avondon-
derwijs voor MAVO, HAVO en VWO en waardoor wordt het rendement beïnvloed?' Achtereenvolgens
onderscheiden de onderzoekers drie typen rendement, te weten het schoolrendement (percentage in-
stromers dat, al dan niet met vertraging, een A\p\oma.he.\ai\X);het persoonlijk rendement, waarbij het
om de vraag gaat in hoeverre de avondscholieren hun doelstellingen bereiken; het maatschappelijk ren-
dement: welke groepen worden door het avondonderwijs bereikt?

Het schoolrendement blijkt rond de 35% te liggen (het betrof hier in het kursusjaar 1971/72 inge-
stroomde leerlingen, die vier jaar lang administratief werden gevolgd; een replikatie-onderzoek leverde
nagenoeg dezelfde resultaten op). Dit betekent dus dat zo'n 65% van degenen die aan de avondschool
beginnen, deze niet afmaakt. Op het eerste gezicht stemmen deze cijfers niet tot grote vrolijkheid.
Maar, het komt er maar op aan welk soort onderwijs men als referentiecategorie gebruikt! Het genoem-
de rendement van 35% bedraagt iets minder dan de helft van dat in het reguliere dagonderwijs. Verge-
leken met andere vormen van onderwijs aan volwassenen neemt het avondonderwijs een tussenpositie
in; het rendement is niet zo hoog als dat van allerlei, korter durende en veelal in bedrijfsverband ge-
geven, beroepsopleidingen, maar ligt daarentegen hoger dan bij het schriftelijk onderwijs voor MAVO
en HAVO.

De belangrijkste factoren die met het schoohrendement samenhangen betreffen de onderwijsachter-
Srond van de avondscholier. Naarmate het niveau van vooropleiding hoger is, wordt de kans dat men

de avondschool met succes voltooit groter; hoe hoger het jaar van instromen des te groter de kans op
een succesvolle voltooiing van de studie.

Andere factoren zijn de leeftijd, de burgerlijke staat en de dagelijkse bezigheden. Ouderen en gehuw-
den zijn minder tot staken geneigd dan respectievelijk jongeren en ongehuwden.
Het belangrijkste probleem van veel avondscholieren heeft te maken met de beschikbare tijd. De mees-
te avondscholieren hebben naast de studie namelijk nog een volledige werkkring.
Wat het persoonlijk rendement betreft, blijkt dat voor studiestakers de studie slechts 'directe' baten
heeft opgeleverd (uitbreiding algemene ontwikkeling, leren formuleren of leren meepraten, enz.). De
studievoortzetters zijn voor een belangrijk deel met een nieuwe studie begonnen. De MAVO- en HA VO-
scholieren zijn vooral doorgestroomd naar beroepsopleidingen, terwijl de meeste VWO-leerlingen een
universitaire studie zijn gaan volgen.

Wat het maatschappelijk rendement betreft, blijkt dat het avondonderwijs corrigerend werkt t.o.v. het
dagonderwijs wat betreft de verdeling naar milieu. Daar de aantallen leerlingen in het dagonderwijs veel
groter zijn dan in het avondonderwijs, is de kwantitatieve betekenis van deze correctie nogal beperkt.
Het rapport mondt uit in een aantal beleidsaanbevelingen, respectievelijk in de sfeer van het educatief
verlof, de begeleiding en het leerplan. Ten einde de lezer een zeker beeld te geven, laat ik drie citaten
volgen: 'Avondscholieren zouden er ten zeerste bij gebaat zijn als zij twee dagdelen per week, gedu-
rende de avondstudie, betaald educatief verlof krijgen toegewezen.' 'Aangezien de meerderheid van de
stakers de studie staakt in het eerste studiejaar, met name in het eerste trimester, is begeleiding in die
fase van de studie van belang.' 'Een indeling in trimesters of semesters zou voor veel avondscholieren
een uitkomst kunnen zijn.'

Dat het boekje (hoofdstuk 2) een goed leesbare 'beknopte historische schets van het avondonderwijs'
bevat, draagt ertoe bij dat dit eindrapport méér is dan een opsomming van gegevens of een aaneen-
schakeling van tabellen.

Prof. Dr. C.F. van Parreren, geredigeerd en ingeleid door Drs. M.C. Schouten-van Parreren.
Wolters-Noordhoff Groningen 1981. ISBN 90 01 421180.

Is het een goed idee artikelen van een bekend onderwijspsycholoog te bundelen, zodat de verzameling
'kan gebruikt worden door (aanstaande) psychologen en pedagogen zowel op universitair als op MO-
niveau' (p. 5)? Men zou aan zo'n bundel minstens twee eisen moeten stellen, in vraagvorm geformu-
leerd:

2. Vormen zij in belangrijke mate een typering van het werk van de betrokken auteur?

Ter beantwoording van de eerste vraag bestaan geen waterdichte criteria. Relevant lijken echter: Is er
voldoende samenhang in de artikelen? Vertonen zij weinig herhalingen of overlap? Zijn de centrale
concepten helder beschreven? Wordt er een goed overzicht gegeven van het besproken onderzoek? Wij
zullen trachten daar in deze bespreking een antwoord op te vinden. De bundel vertoont volgens samen-
stelster een 'thematische' ordening in leerpsychologische, ontwikkeUngspsychologische en onderwijs-
psychologische artikelen, hetgeen een volgorde zou zijn 'van algemeen naar specifiek' (p. 6), een kwa-
lificatie die ons ontgaat.

In het leerpsychologische deel behoren de artikelen over 'Pluralisme in de leerpsychologie' en 'Sys-
teemscheiding' o.i. tot het beste dat Van Parreren heeft geschreven. Het artikel over 'Motivatie' dat wij
indertijd als lezing te Nijmegen hoorden voordragen, was toen interessant, maar zou men thans, nu een
uitgebreide onderzoeksliteratuur over motivatie in meer geavanceerde zin is verschenen, niet meer aan
de doelgroep moeten voorhouden.

In het vierde artikel over 'Het handelingsmodel in de leerpsychologie' legt Van Parreren een verbinding
tussen eigen werk en de Sovjet-leerpsychologie en geeft hij een globaal beeld van die benaderingswijze,
die in de beide onderwijspsychologische gedeelten in allerlei variaties aan de orde wordt gesteld, waar-

in nogal wat overlap zit. Het meest uitvoerig geschiedt dat in het derde deel in het niet oninteressante
artikel 'Onderwijspsychologie' dat overigens tevens het tekort manifesteert dat de meeste artikelen ver-
tonen: waar onderzoek wordt besproken, worden overwegend resultaten van onderzoek vermeld en
kan men óf het onderzoeksverloop in het geheel niet volgen öf door de uiterst beknopte weergave met
Zoveel moeite, dat men zich afvraagt hoe MO-studenten daarmee uit de voeten kunnen. De auteur
maakt er zich meermalen ook wat gemakkelijk vanaf met een hem typerende opmerking als: 'Het zou
te ver voeren veel ruimte in beslag te nemen om nauwkeurig weer te geven, wat Landa in deze 'cursus'
allemaal opnam' (p. 179). Zo'n formulering treft men in bijna elk artikel aan (zie ook p. 23,44, 50,
62, 85, 95, 135, 163, 186, 198), waarbij de (student)-lezers soms worden verwezen naar andere voor
hen niet zo gemakkelijk bereikbare publikaties, maar het meermalen louter met deze mededeling moe-
ten doen.

Zoals op meer plaatsen toont Van Parreren zich hier een 'ijveraar voor een pluralistisch standpunt in
de leerpsychologie' (p. 9) en vóór de Russische en tégen de Amerikaanse psychologie. De laatste
Wordt, voorzover behavioristisch, als 'rattenpsychologje' afgedaan (p. 29, 121, 194) of, voorzover in-
formatietheoretisch, van logicisme beticht, omdat ze "verregaande parallellen trekken tussen menselijk
denken en computerprogramma's' (p. 150). Meermalen zet hij zich met name af tegen Gagné, zich ba-
serend op diens 'Conditions of Learning' (2® druk 1970), zonder er acht op te slaan dat Gagné sedert
diens 'Essentials of learning...' een grote wending heeft gemaakt in cognitivistische richting, zoals met
name blijkt uit de 3® druk van diens 'Conditions', een jaar eerder gepubliceerd dan De Klerk's Inlei-
ding in de onderwijspsychologie die hij wel blijkt te kennen. Dat frappeert te meer, omdat Van Parre-
ren's 'bouwstenenmodel' (art. 2.1) verregaande overeenkomsten vertoont met het cumulatieve leermo-
del van Gagné, zoals ook Lesgold e.a. opmerkten in hun commentaar. De drie kenmerken die Van Par-
reren aan zijn eigen model toeschrijft ter onderscheiding van het model van Gagné: geen onwrikbare
structuur; totale beschikbaarheid van de hogere vaardigheden in een geïntegreerd geheel; het volledig
bereikt zijn van de activiteit op het niveau van de uitvoering zijn juist ook kenmerken van het leermo-
del van Gagné (3® druk).

Niet duidelijk wordt waarom dit artikel onder het hoofd 'Ontwikkelingspsychologie' wordt geplaatst.
Vermoedelijk hangt dat daarmee samen dat in de door Van Parreren besproken Russische psychologie
het onderscheid tussen leren en ontwikkeling minder tot uitdrukking komt dan hun verwevenheid. De
ln het interessante artikel 2.2 behandelde 'Niveaus in de ontwikkeling van het abstraheren' zou men
met een zeker recht ontwikkelingsniveaus kunnen noemen, maar het is jammer dat de empirische on-
derbouwing van dit 'verklarend model' in dit artikel niet mogelijk wordt geacht (p. 95). Waar dan wel.
Zou men in het belang van de MO-studenten willen weten!

Het onderdeel Onderwijsproceskunde (2 gedeelten) bevat een aantal voor de leek, dus voor de doel-
ÊToep aardige artikelen over de Russische onderwijspsychologie, die ook de eerder gesignaleerde zwak-
ten vertonen. Ook worden MO-studenten meermalen aan de hand van beweringen, niet aan de hand
Van kritische analyses op het spoor gezet dat de Russische benadering de 'Amerikaanse' zou overtref-
fen. Dat zou wellicht minder verbazen als de bijgevallen constructen uit de Russische psychologie, zo-
als oriënteringsbasis, verkorting van de handeling (soms is verkorting hetzelfde als herstructurering,
maar het heeft ook nog twee andere, weer onderscheiden betekenissen, zie o.a. p. 74/76), zone van de
naaste ontwikkeling e.a. niet zo globaal en weinig operationeel omschreven zouden zijn. Dan is het ook
begrijpelijk dat evaluatieonderzoek, evenals bij de Russen, minder hoog staat aangeschreven dan 'con-
structie'-onderzoek (o.a. p. 152).

daarom Van Parreren - niet wars van neologismen - de term onderwijsproceskunde verkiest boven
onderwijspsychologie wordt niet duidelijk, want zijn benaderingswijze onderscheidt zich niet wezen-
lijk van die in de 'instructional psychology'. Wenst hij ook in de benaming zich af te zetten tegen de
Westerse psychologiebeoefening?

Uit het bovenstaande moge zijn gebleken dat wij onze eerste vraag over de relevantie van het boekje
voor de doelgroep, niet in alle opzichten positief kunnen beantwoorden.

Voorafgaande aan de beantwoording van onze tweede vraag stellen wij het volgende: Het werk van
Van Parreren valt uiteen in zijn Amsterdamse en zijn Utrechtse periode. In de eerste periode kwam tot
stand wat o.i. het belangrijkste deel van zijn werk beslaat: zijn dissertatie 'Intentie en Autonomie' en
zijn tweedelige 'Psychologie van het Leren'. In een tijd toen de leerpsychologie in Nederiand, voorzo-
ver van enige betekenis, nog nagenoeg in de ban van het behaviorisme verkeerde, had Van Parreren de
moed zich, deels in aansluiting bij de Europese traditie van de denkpsychologie en deels ook van de
pestalt- en de veldpsychologie, op cognitivistisch standpunt te plaatsen of beter: de procesbenadering
ln onderzoek uit te bouwen. Hoewel in het voetspoor van de Europese traditie was hij daarmee zijn

tijd vooruit. Het heeft tot de zeventiger jaren moeten duren, tot men in Nederland, wederom Ameri-
kaanse ontwikkeUngen volgend, een cognitivistische en op het onderwijs georiënteerde leerpsychologie
tot ontwikkeling bracht. In zijn Utrechtse periode heeft Van Parreren de ontwikkeling van leerpsycho-
logie naar onderwijspsychologie eveneens doorgemaakt, daarbij geïnspireerd door de Soyjet-Russische
psychologie. Dat was zozeer het geval dat men zijn tweede periode zou kunnen typeren als zijn 'Russi-
sche' periode. Want hoewel ruim de helft van zijn publikaties tot de laatste periode behoren, heeft
slechts een klein deel daarvan betrekking op eigen onderzoek en bestaat het merendeel uit vertaling,
bewerking yan en toelichting op de Sovjet-psychologie, voorzover zijn werk niet van beschouwende
aard is.

In deze bundel is het evenwicht nog meer verschoven naar die Russische periode. Dat is spijtig, omdat
Van Parreren verdient in de herinnering te blijven als stimulator van procesgericht onderwijspsycholo-
gisch onderzoek in aansluiting bij Europese en Amerikaanse ontwikkelingen meer dan als propagan-
dist voor de Russische psychologie.

Wij kunnen dus helaas ook de tweede vraag niet onverkort positief beantwoorden.
Wordt zo'n bundel nodig geacht, dan is in dit opzicht een kans gemist.

Het Prof. Duijkerfonds is door de Universiteit van Amsterdam ingesteld om door het doen van (door-
gaans jaarlijkse) geldelijke uitkeringen de beoefening van de toegepaste psychologie te bevorderen.
Voor het jaar 1983 is een bedrag van ƒ 25.000,- beschikbaar ten behoeve van een of meer onderzoek-
projecten. De bedoeling is kwaUtatief goed onderzoek mogelijk te maken, dat anders niet gerealiseerd
zou worden omdat de middelen ontbreken.
Te denken valt bijvoorbeeld aan financiële steun voor:

- de kosten van een vporstudie of vooronderzoek, eventueel ook van de uitwerking van een onder-
zoekopzet

2. Aanvragen moeten gemotiveerd worden. Vermeld dient te worden wat de doelstelling van het
project is, de opzet en werkwijze van uitvoering, de duur,-de wijze van verslaglegging, de mede-
werkers en degene die verantwoordelijk is voor de uitvoering, en voorts een nauwkeurige begroting
van de kosten.

Tevens dient vermeld te worden waarom het project niet uit andere bron gefinancierd kan worden.

3. Aanvragen zullen door de Adviescommissie van het Prof. Duijkerfonds beoordeeld worden op:

- het aangevraagde bedrag (eventueel in het verband van de totale project-begroting).

De Adviescommissie wordt gevormd door de leden van het bestuur van de Stichting Instituut
voor Sociale en Bedrijfspsychologie aan de Universiteit van Amsterdam (ISBP), aangevuld met een
lid van de Wetenschapscommissie van de Subfaculteit Psychologie.

Schriftelijke aanvragen in 7-voud tot een maximum van ƒ25.000,- kunnen vóór 1 oktober 1982
worden gericht aan:

Na enige jaren ontwikkelingswerk door het Cito is de Entreetoets zesde leerjaar verschenen. Deze toets
•"aakt globaal duidelijk of en in hoeverre leerlingen nog tekorten vertonen in de beheersing van mini-
"laal vereiste vaardigheden op het terrein van de instrumentele vorming (taal, rekenen en informatie-
yerwerking) aan het begin van het zesde leerjaar ofwel halverwege of aan het einde van het vijfde leer-
jaar. Aan de hand van de afnameresultaten kan het onderwijs in de nog resterende maanden voor het
Verlaten van de basisschool op de behoeften van de klas als geheel of van individuele leerlingen worden
^gestemd.

Tegelijk met de materialen die nodig zijn voor het gebruik van de toetsopgavenboekjes, handleiding,
^ateriaal voor mechanische scoringsservice of handscoring - is de Verantwoording verschenen. Deze
Verantwoording geeft een volledig verslag van het ontwikkelingswerk en de resultaten van het onder-
hoek dat hierbij is verricht.

belangstellenden kunnen contact opnemen met het Cito, afdeling Basisonderwijs, Mw E. van der Veldt,
Postbus 1034,6801 MG Arnhem (tel. 085-45 55 55).

^än den Brink, W.P. & Koele, P. Statistiek voor psychologen. Een bundel artikelen aangeboden aan

Jan C. Spitz. Amsterdam, april 1982 (= Révész Berichten No. 36).
buitenhuis, A.F. Nadere analyse van toetsen voor begrijpend lezen. Instituut voor Onderwijskunde,

K.U. Nijmegen, 1981 (= Interne Mededelingen nr. 7).
Compaan, E. & de Kat, E. Motieven, motivatie en onderwijskeuzen I. (SVO-TP/MO-495). Amsterdam:

Stichting Centrum voor Onderwijsonderzoek, februari 1982.
Hermans, J.J. Niet-voortgezet onderwijs: Voortijdig schoolverlaten in het algemeen voortgezet onder-
wijs: omvang, aard en voorspelbaarheid. Lisse: Swets & Zeitlinger, 1981.
■'eugdwerkloosheid en beroepsopleiding. De sociale en materiële status van jongeren bij de overgang
van school naar werk. Rapport van een conferentie. Berüjn: Europees Centrum voor de Ontwikke-
ling van de Beroepsopleiding (CEDEFOP), 1982.
Leune, J.M.G. & van Wieringen, A.M.L. (red.) Onderwijsplanning als middel van onderwijsbeleid.
Bijdragen tot de Onderwijsresearchdagen 1981. Harlingen: Flevodruk Harlingen b.v., 1982 (= SVO-
reeks no. 55).

Watthijssen, M.A. J.M. De elite en de mythe: Een sociologische analyse van strijd om onderwijsveran-

dering. Deventer: Van Loghum Slaterus, 1982.
•leerling. Methoden en technieken van psychologisch onderzoek, deel 2: Data-analyse en psychometrie.
Meppel: Boom, 1981.

Nieuwenhuis, L. Praktijkleren in het MMNO/MSPO nieuwe stijl. Harlingen: Flevodruk Harlingen b.v.,
1982 (= SVO-reeks no. 59).
nderwijs in een multiculturele en multi-etnische samenleving. Adviesnota van de ad-hoc subcommis-
sie (taal)-onderwijs aan anderstaligen van de ACLO-moedertaal i.o. Enschede, 1981.
'^lannen van het Cito voor de jaren 1982-1986. Arnhem: Centraal Instituut voor Toetsontwikkeling,
maart 1982.

°oede, E. Mijn motivatie: Een analyse van motivatie in het onderwijs bij leerUngen en leerkrachten in
het AVO en MBO. Eindrapport van SVO-project TP/MO-480. Amsterdam: Stichting Centrum voor
Onderwijsonderzoek, februari 1982.
'»chmidt, H.G. (red.) Probleem-gestuurd onderwijs. Bijdragen tot de Onderwijsresearchdagen 1981.
HarUngen: Flevodruk HarUngen b.v., 1982 (= SVO-reeks no. 57).

Tordoii, A.C & Damhuis, R. Grammatika en vreemde-talenonderwi/s in de brugklas: Een onderzoek
naar de aansluiting van het moedertaalgrammatika-onderwijs op het vreemde-talenonderwijs. Am-
sterdam: Stichting Centrum voor Onderwijsonderzoek, januari 1982 (= SCO - rapport nr. 7).
d'Ydewalle, G., Degryse, M. & Swerts, A.' Intentional learning in text processing. Department of
Psychology, University of Leuven, 1982.

Dichtheid van het opvoedingsmilieu en attachment: een vooronderzoek, door L.W.C. Tavecchio en
M.H. van IJzendoorn

Het spel en zijn rol in de psychische ontwikkeling van het kind, door L.S. Vygotskij
Het beeld van leerkrachten over hun feitelijke beïnvloedingsmogelijkheden in de school en hun ver-
nieuwingsgedrag, door J. Mortier en J. Verhoeven

Kroniek: Korte gestructureerde oudercursussen, door A. van Londen en W.M. van Londen-Baarentsen

Het schoolonderzoek, een bekende formule met veel onbekenden, door J.F.M. Claessen en H. Keizer
Het oplossen van redactie-opgaven: een experimenteel onderzoek, door J.N. van den Berge-Scheijgrond
en MW. Bleek-Way

Over de zin van replicatie-onderzoek. Commentaar op het artikel van J.N. van den Berge-Scheijgrond
en M.W. Bleek-Way, door E. Assink en N. Verloop

Repliek op 'Over de zin van replicatie-onderzoek' van E. Assink en N. Verloop, door J.N. van den
Berge-Scheijgrond en M.W. Bleek-Way

Kroniek: Cognitieve en morele determinanten van leerprocessen in het kader van politiek-maatschap-

pelijke vorming: een symposium, door M.H. van IJzendoorn
Boekbesprekingen
Mededelingen

Ploegenarbeid en de schoolcarrière van kinderen: een exploratief onderzoek, door L. Caymax, A-
Maasen en L. Lagrou

Syntactische formuleervaardigheid en het schrijven van opstellen, door C. van Wijk en G. Kempen
Kronieken: Torsten Husén: portret van een veelzijdig onderwijskundige, door J.M.G. Leune

Het PME (Psychology of Mathematics Education)-Congres 1981, door M. Wolters en
S. Kemme
Boekbesprekingen
Mededelingen

Leermotivatie bij leerlingen van het algemeen vormend secundair onderwijs, door E. De Corte, D. Van
de Velde en M.J. Vanwijnsberghe

Formatieve evaluatie in de Curvo-strategie, door J. Terwei
Kronieken: Kunstzinnige vorming: proces en produkt, door M. van der Kamp
De ontwikkeling van een onderwijsleerpsychologie, door P. Span
Boekbesprekingen
Mededelingen

Oogbewegingsonderzoek: Methode,
Resultaten en Betekenis voor Onderzoek van
het Onderwijs

Eye movement research: method, results and significance for educational research.

This article reviews recent eye movement studies on reading, reading disabilities and informa-
tion processing in visual search, recognition and problem solving tasks. The article starts with a
discussion of instrumentation, measurement and validity in eye movement research. From
studies dealing with the non-reading tasks especially those relevant for training of (cognitive)
strategies for information processing are discussed. Throughout the review the interpretation of
eye movement behavior is emphasized. It is concluded that registration of eye movements can
contribute to research on information processing in academic performance and learning. Future
research possibilities are suggested.

Het bestuderen van kijicgedrag met behulp van oogbewegingsonderzoek is de laatste vijftien
jaar opnieuw in de belangstelling gekomen (Rayner, 1978a). Over het algemeen heeft dit
Onderzoek nog weinig rechtstreeks betrekking gehad op onderwijsleerprocessen. De vraag
kan dan ook gesteld worden of het oogbewegingsonderzoek iets kan opleveren of opgele-
verd heeft voor het onderwijs.

In dit artikel zal gepoogd worden duideüjk te maken, dat oogbewegingsonderzoek een
aanvulling kan zijn op andere methoden voor analyse van processen, die relevant zijn voor
de prestaties m school. Eerst zal in de sectie 'Methodologische aspecten van het oogbewe-
êingsonderzoek' in het kort enige basisinformatie over stimulusprestatie, meet- en ver-
Werkingstechnieken verstrekt worden. In deze sectie zal verder aandacht gegeven wor-
den aan enkele methodologische overwegingen bij de operationaÜsatie en vaüditeit van
het oogfixatieconcept.

In de volgende sectie 'Resultaten van het oogbewegingsonderzoek' zullen de vragen,
niethoden, resultaten en impÜcaties, die bij dit onderzoek aan de orde komen, besproken
Worden. Voor een uitvoerig overzicht van het recente oogbewegingsonderzoek in het
algemeen kan verwezen worden naar Rayner (197'8a). In het huidige artikel Ugt de nadmk
de mogeUjke relevantie voor onderzoek van onderwijsleerprocessen. De bespreking zal
heperkt worden tot onderzoek, waarin het oogbewegingsgedrag als component of indica-
tor van het aan de gang zijnde informatie opnemende en verwerkende proces wordt geob-
serveerd. DergeUjk onderzoek geeft meer aangrijpingspunten voor een leerprocesanalyse
dan bijvoorbeeld onderzoek naar laterale oogbewegingen. In dit laatste type onderzoek
Wordt nagegaan, hoe de voorkeur van proefpersonen (ppn), om m bepaalde situaties naar
links of rechts te kijken, samenhangt met bepaalde persoonUjkheidseigenschappen (b.v.
Otteson, 1980; Reynolds & Kaufman, 1980). Zo onderzochten Hustmyer et al. (1980)

de relatie tussen cognitieve stijl en laterale oogbewegingen. Weliswaar werd er geen samen-
hang met de richting van de oogbewegingen gevonden, maar de grootte van de laterale
oogbeweging bleek wel verband te houden met cognitieve stijl. Hoewel dergelijk onder-
zoek op zich interessante diagnostische instrumenten kan opleveren, wordt hiermee wei-
nig inzicht in het proces verkregen. Bij veel moderne apparatuur voor de meting van oog-
bewegingen kan ook gemakkelijk de pupilgrootte als indicator voor cognitieve processen
mee geobserveerd worden. Onderzoek waarin de pupilgrootte wordt gemeten (zie b.v.
Gardner et al., 1978) valt echter buiten het bestek van dit artikel.
In een laatste sectie zullen tenslotte enkele conclusies getrokken worden over de interpre-
tatiemogelijkheden van het oogbewegingsonderzoek en de bruikbaarheid van oogbewe-
gingsregistratie m toekomstig onderzoek op het gebied van onderwijsleerprocessen.

In het eerste gedeelte van deze sectie ?;al enige informatie over de instrumentatie bij dit
type onderzoek gegeven worden. In het tweede en derde gedeelte zal ingegaan worden op
respectievelijk de operationalisering en interpretatie van de oogfixatie als eenheid van ana-
lyse.

De gebruikelijke proefopstelling bij het oogbewegingsonderzoek bestaat uit voorzieningen
voor stimuluspresentatie, oogbewegingsdetectie, gegevensopslag en eventueel onmiddellij-
ke computerverwerking.

Stimuluspresentatie'. De aanbieding van stimulusmateriaal (leestekst, plaatjes enz.) kan
plaats vinden op papier, geprojecteerde dia's of via een beeldscherm. In deze volgorde ne-
men de mogelijkheden tot automatische besturing van de stimuluspresentatie toe. Bewe-
gende scenes kunnen met film of video aangeboden worden. Ook kunnen oogbewegmgen
bestudeerd worden tijdens realistische situaties, zoals autorijden (Blauw & Riemersma,
Noot 1)'. Eventueel kan het stimulusmateriaal afliankelijk van de kijkrichting van de
proefpersoon (pp) aangeboden worden. Een nadere toelichting op de procedure en het
gebruiksdoel van deze laatste stimuluspresentatietechniek zal gegeven worden in de ar-
tikelgedeelten die gaan over 'Interpretatie' en 'Lezen'. Een uitvoerige beschrijving van de
techniek is o.a. gegeven door Reder (1973) en McConkie et al. (1978).

Oogbewegingsdetectie. Bij de bespreking van de verschillende methoden (en'ook verder in
het artikel) worden enkele begrippen gebruikt, die vooraf enige verduidelijking nodig heb-
ben. De term 'blikpunt' verwijst naar het punt waar de pp in het visuele veld naar kijkt. Met

'fixatie van het hoofd' wordt bedoeld, dat het hoofd relatief onbeweeglijk is gemaakt met
behulp van een kin- en/of hoofdsteun. In gevallen waar extreme onbeweeglijkheid vereist is,
moet de pp tijdens de oogbewegingsregistratie in een afdruk van zijn of haar gebit (blijven)
bijten. Verder is het in het oogbewegingsonderzoek gebruikelijk de afstand tussen twee pun-
ten in het visuele veld aan te geven met de hoekafstand tussen hun respectievelijke projecties
op het netvlies. In de praktijk wordt deze afstand gemeten door de hoek te nemen die de
twee verbindingslijnen vanuit beide punten naar het oog met elkaar maken. Oogbewegin-
gen kunnen zo aangegeven worden met de afgelegde hoekafstand. De hoekafstand wordt
Uitgedrukt in hoek- of booggraden. Graden kunnen verder onderverdeeld worden in minu-
ten en seconden. De nauwkeurigheid van een oogbewegingsdetectiemethode wordt in
Overeenstemming met het voorgaande ook in graden uitgedrukt. Tenslotte worden in
Piguur 1 de delen van het oog aangegeven, die voor het oogbewegingsonderzoek het
belangrijkste zijn. Het licht van een object komt door de doorzichtige cornea het oog bin-
ten. Daar gaat het verder door de pupil en de lens en vormt een beeld (projectie) op het
netvlies. De fovea is het gevoeligste deel van het netvlies.

comea _

(fioornvHes) _

- oogzenuw

Detectie van oogbewegingen is op zeer verschillende manieren mogelijk. Voor een uitge-
breide uiteenzetting over werking, voor- en nadelen en kosten van de verschillende metho-
den kan verwezen worden naar Young en Sheena (1975) en, voor een meer beknopte
behandeüng, naar Breimer (Noot 2; Noot 3), Van Hout-Wolters (Noot 4) en Van Lies-
bout (Noot 5).

l^e apparatuur bestaat bij de contactlensmethode uit een contactlens op het oog en een
systeem, waarmee de positie van de lens gebruikt wordt om de oogbolstand vast te stellen,
^ij de electro-oculografïsche (EOG) methode worden, met electroden bij het oog, de
spanningsvariaties geregistreerd, wanneer het oog beweegt. In de limbusreflectiemethode

wordt de plaats van de limbus (de overgang tussen oogwit (sclera) en iris, zie Figuur 1),
met behulp van het verschil in lichtreflectie tussen iris en sclera, bepaald. Bij de comeale
reflectiemethode wordt de verandering van de oogbolstand afgeleid uit de verandering van
de weerkaatsingshoek van een Uchtbundel, die op de cornea (Figuur 1) gericht is. Deze
methode wordt ook gebruikt bij de pupilcentrum-comeale reflectiemethode. Met behulp
van een patroonherkenningsmethode wordt bovendien het pupilcentrum gevolgd. Door de
bescl^baarheid van de comeale reflectie en de pupilcentrumbepaling, kunnen bij deze
methode hoofd- en oogbewegingen onderscheiden worden. Ook bij de dubbel Purkinje
beeldmethode is dit onderscheid mogelijk door gebmikmaking van de comeale reflectie
en de reflectie van de achterkant van de ooglens.

Alle oogbewegingsmethoden hebben voor- en nadelen. Deze betreffen onder meer de
nauwkeurigheid, de complexiteit en de kosten van de apparatuur, de verwerkbaarheid van
de output en de belastmg van de pp. De contactlensmethode is bijvoorbeeld het nauwkeu-
rigst (tot op enkele boogseconden), maar is tevens een van de belastendste methoden voor
de pp, vanwege de irritatie van het oog en het risico van beschadiging van oogweefsel. De
pupilcentmm-corneale reflectiemethode daarentegen, vraagt een geringe of geen hoofd-
fïxatie, levert rechtstreeks het blikpunt, maar is complex en zeer kostbaar.

Opslag en verwerking. Bij de meeste apparatuur voor het meten van oogbewegingen
komen de horizontale en verticale coördinaten van de oogbolstand als electrische signalen
beschikbaar. De gegevens worden opgeslagen met behulp van een (analoge of digitale)
recorder of onmiddellijk verwerkt. De computer is vooral van belang voor datareductie
en, m combmatie hiermee, voor het creëren van interpreteerbare analyse-eenheden (fixa-
ties, fixatieduur, kijkpatronen enz.). Datareductie is noodzakeUjk vanwege de omvang-
rijke hoeveelheid data die een korte periode van registreren oplevert. Bij andere (niet-elec-
trische) outputvormen, zoals foto's of film, is handscoring noodzakeUjk. Aangezien dit
zeer bewerkelijk is, wordt de registratietijd kort gehouden of wordt slechts een deel ge-
scoord. Deze beperkmg is uiteraard niet of minder nodig bij voUedige verwerkmg per com-
puter. Maar ook dan kan de dataverwerking bewerkelijk zijn. De problemen liggen dan
meer op het vlak yan de koppeling van verschiUende electronische apparaten en de ont-
wikkeUng van computerprogrammatuur (Young & Sheena, 1975; Loftus, 1979). De pro-
blemen bij onmiddelUjke ('on-line') verwerking zijn daarbij groter dan bij verwerking ach-
teraf ('off-lme').

Er zijn verschiUende soorten oogbewegingen. Een uitgebreide beschrijving is te vinden bij
Young en Sheena (1975). Tot de belangrijkste grote oogbewegingen behoren in de eerste
plaats de saccaden. Deze worden verderop toegelicht. Dan zijn er de volgbewegmgen. Dit
zijn vloeiende oogbewegingen die de ogen maken tijdens het volgen van.een bewegend
object. Verder zijn er compenserende oogbewegingen, die tijdens hoofd- of Uchaamsbewe-
gingen, het oog op dezelfde plaats gericht houden. Ook deze bewegingen zijn gelijkmatig
van aard. Dat geldt ook voor de vergentiebewegingen. Hierbij bewegen de ogen in tegenge-
stelde richtmg om objecten dichtbij of veraf te fixeren. De nystagmusbewegingen bestaan
uit verschillende typen, maar hebben gemeen dat ze zowel vloeiende als sprongachtige
componenten bevatten. Een afzonderUjke bespreking van deze typen voert hier te ver.

Voor het type onderzoek, waar het in dit artikel over gaat, is van de grote oogbewegingen
aheen de saccade van belang. De saccade of oogsprong is een snelle sprongachtige beweging
Van de oogbol. Als gevolg van deze beweging wordt aan het einde van de saccade een
ander deel van het visuele veld op de fovea geprojecteerd dan voorafgaand aan de saccade.
Tussen deze bewegingen is het oog relatief bewegingsloos. Deze bewegingspauze heet fixa-
tie. Tijdens de saccade, die slechts enkele tientaUen milhseconden duurt, zijn er verschil-
lende mechanismen voor verantwoordelijk, dat er vrijwel niets gezien wordt (VoUonann
®tal., 1978). De lengte van de saccade kan variëren van 1 tot 40 graden (Young en Sheena,
1975). Tijdens het lezen is de gemiddelde saccadelengte 2 graden ofwel 8 tot 9 letters en
Dij het kijken naar plaatjes bedraagt de gemiddelde saccadelengte 3,5 graden (Rayner,
1978a). Bij het bekijken van een object dat stilstaat ten opzichte van het hoofd van de
Waarnemer, kunnen de ogen slechts in twee toestanden verkeren: in een toestand van fixa-
tie of in een toestand van saccadische beweging (Yarbus, 1967, pp. 105-106). Het is daar-
bij niet mogelijk van het ene fixatiepunt naar het andere een vloeiende in plaats van een
sprongsgewijze beweging te maken. Binnen de totale kijktijd bij lezen of plaatjes kijken
Verhoudt zich de tijdsduur waarin gefixeerd wordt tot de tijd waarin de saccaden plaats-
vinden als ongeveer 9 : 1 (Rayner, 1978a).

I^efinitie oogfixatie. In het voorgaande is reeds gesteld, dat de fixatie of oogpauze de
periode is na een saccade en voorafgaand aan de volgende saccade. In deze periode veran-
dert de oogbolstand vrijwel niet ten opzichte van de visuele stimulus. Een gefixeerde sti-
inulus is een stimulus, die gedurende de oogpauze op de fovea geprojecteerd bhjft en daar-
door met de grootst beschikbare waamemingsnauwkeurigheid geanalyseerd kan worden,
öe fovea beslaat ongeveer 1 tot 1,5 graden van het netvhes. Buiten de fovea hgt het para-
foveale gebied met een middeUijn van 10 graden. De rest van het netvhes heet het perifere
gebied (Bouma, 1978; Rayner, 1978a). De gemiddelde fixatieduur bedraagt bij het lezen
200 tot 250 msec en voor het bekijken van plaatjes 300 tot 350 msec (Rayner, 1978a).
Tijdens de fixatie zijn er zogenaamde miniatuur oogbewegingen: drift, microsaccaden en
tremor. Drift is een langzame random beweging binnen een gebied van 1 graad. Microsac-
caden zijn corrigerende oogbewegingen, die er voor zorgen dat hetzelfde deel van het visu-
ele veld op de fovea geprojecteerd blijft. De tremor heeft een frequentie van 30 tot 150
Hz en een amphtude die kleiner is dan een boogminuut. Van de meeste van deze bewegin-
gen is de persoon zich niet bewust en sommige zijn noodzakehjk om tijdens de fixatie iets
te kunnen zien (Yarbus, 1967). Er bestaat nog steeds verschil van opvatting over de beant-
woording van de vraag of drift dan wel microsaccaden een rol spelen in het instandhouden
Van de waarneming. Evenzo is nog niet duidehjk of microsaccaden, of driftbewegingen het
°og gericht houden op hetzelfde doel. (Zie voor deze meningsverschiUen de discussie tus-
sen Ditchbum (1980) enerzijds en Kowler en Steinman (1980) anderzijds.)
Omdat de verschiUende oogbewegingen tijdens de fixatie bmnen een gebied van ongeveer
1 graad bUjven, is voor het opsporen van een fixatie een nauwkeurigheid, waarmee afstan-
den kleiner dan een graad nog betrouwbaar gemeten kunnen worden, niet nodig (Young
^ Sheena, 1975). Duurt een pauze, gerekend vanaf het emde van de vorige saccade, korter
dan ongeveer 100 tot 150 msec, dan wordt geen informatie opgenomen (Russo, 1978).
I^e fixatie is dus een periode tussen twee saccaden, die lang genoeg duurt om informatie

te kunnen nemen (Yarbus, 1967).
Rekenmghoudend met het voorgaande kan een fixatie geoperationahseerd worden als een
periode, die minstens 100 tot 150 msec duurt, en waarin de oogbewegmgen beperkt zijn

tot een gebied, dat in lioekgrootte ongeveer overeen komt met de fovea. Algoritmen waar-
mee fixaties met behulp van computerprogramma's gedefiniëerd worden, bevatten dan ook
meestal een duurparameter en verplaatsingsparameters. De duurparameter spreekt voor
zich. De verplaatsingsparameters geven in verticale en horizontale richting het gebied aan
waarbinnen de oogbewegingen beperkt moeten blijven. Dit kan geschieden door te toet-
sen of een bepaalde oogbolstand in termen van kijkrichting minder dan het verplaatsings-
criterium afwijkt van het fixatiecentrum. Dit centrum kan het gemiddelde zijn van alle
achtereenvolgende kijkrichtingen, die binnen het criteriumgebied gebleven zijn. Een voor-
beeld van een dergelijk algoritme is te vinden bij Mandel (1979). Een andere operationali-
satie, die eveneens berust op de eerdergenoemde eigenschappen van de diverse oogbewe-
gingen, is de definitie van een fixatie als een toestand van laagste oogbewegingssnelheid
('zero-velocity'). Het algoritme bevat dan een snelheidscriterium, dat zodanig gekozen is
dat het lager ligt dan de saccadische snelheid (Reder, 1973).

Het operationaliseren van de fixatie is echter niet zonder problemen vanwege de keuze die
gedaan moet worden met betrekking tot de criteria (duur, verplaatsing en snelheid) en het
te gebruiken algoritme. Deze keuze is mede gebaseerd op de wens al dan niet microsacca-
den te registreren. Er zijn aanwijzingen dat microsaccaden verband houden met bepaalde
cognitieve activiteiten (Engel, 1977; McConkie, 1979; Rayner, 1979a). Registratie van
microsaccaden maakt de meetprocedure echter gecompliceerder (er is o.a. een veel grotere
nauwkeurigheid dan 1 booggraad nodig). De problemen van de juiste fixatiedefinite kun-
nen, indien de onderzoeksdoelstelUng dat toelaat, vermeden worden door de fixatie als
eenheid van analyse los te laten. Het alternatief is het kijkgedrag te registreren in termen
van bekeken doelen in het visuele veld (Rayner, 1979a). Doelen kunnen woorden, delen van
plaatjes enz. zijn. De verschillende oogbewegingstoestanden (fixatie en saccade) worden
daarbij genegeerd.

De reden, waarom oogfixaties geregistreerd worden, is meestal om te kunnen achterhalen
welk deel van het visuele veld de pp ziet, m.a.w. waar de pp aandacht aan geeft. In hoe-
verre mag bij de registratie van fixaties aangenomen worden, dat deze aangeven waar de
pp de visuele informatie opneemt?

Eenvoudige stippelpatronen bijvoorbeeld, kunnen nog tot 20 è 30 graden buiten het fixa-
tiepunt gediscrimineerd worden zonder dat oogbewegingen nodig zijn (Sanders, 1970).
Het gebied, waaruit informatie opgenomen kan worden, is dus niet beperkt tot een ge-
zichtshoek van 1 a 2 graden (de omvang van de foveale projectie), maar is, zoals ook ieder-
een intuïtief ervaart, veel groter. Sanders (1970; 1976) verdeelde het functionele gezichts-
veld in drie concentrische gebieden, te weten het stationaire veld, het oogveld en het
hoofdveld. In het hoofdveld is de hoekafstand tussen de stimuli zo groot, dat er hoofdbe-
wegingen nodig zijn om de stimuli (achtereenvolgens) te zien. In het oogveld zijn geen
hoofd-, maar wel oogbewegingen noodzakelijk. In het stationaire veld tenslotte, zijn noch
oog-, noch hoofdbewegingen nodig. In dit veld kan zonder verplaatsing van het fixatie-
punt informatie uit de periferie opgenomen worden. Het stationaire veld kan, zoals uit
het voorbeeld van de discriminatie van eenvoudige stippelpatronen bleek, relatief groot
zijn in vergelijking met het foveale gebied. Een oudere term voor de omvang van het ge-
bied waaruit in één blik informatie opgenomen kan worden is: waamemingsspanne. In

verschillende nog komende secties van dit artikel zal oogbewegingsonderzoek besproken
Worden, dat zich 'meer of minder exphciet met de waamemingsspanne beziggehouden
heeft. Met name is de laatste jaren veel onderzoek verricht naar de waamemingsspanne
tijdens het lezen.

Niet alleen is het van belang te weten tot hoever in de periferie informatieopname moge-
hjlc is, maar het is ook belangrijk te weten of het fïxatiecentrum altijd samenvalt met het
centrum van visuele aandacht. Het blijkt, dat een verschuiving in de aandacht naar een
hepaald deel van het visuele veld, niet samen hoeft te gaan met verplaatsing van de fixatie
naar dat punt (Bouma, 1976; Jonides, 1980). Remington (1980) toonde aan, dat de ver-
Plaatsing van het fixatiepunt en het aandachtspunt twee onafhankelijk van elkaar werken-
de mechanismen zijn. Relevante gebeurtenissen zetten eerst de verschuiving in het atten-
tiepunt in gang en daarna (eventueel) de verplaatsing van het fixatiepunt. Mackworth et
(1964) vonden dat ppn signalen m een vigilantietaak niet opmerkten, terwijl ze de sig-
nalen wel fixeerden.

In de genoemde onderzoekingen, die de dissociatie van aandachts- en fixatiepunt aantoon-
den, werden zeer eenvoudige stimuluspatronen gebmikt. Wanneer de informatiewaarde
Van de aangeboden stimuli toeneemt, blijkt het stationaire veld (het gebied waarbinnen
geen oogbewegingen nodig zijn voor het opnemen van informatie) in te krimpen (Bunt &
Sanders, Noot 6). Bij een verdere toename van de informatiewaarde is verplaatsing van het
fixatiepunt naar de aangeboden stimulus voor een adequate waarneming steeds noodzake-
Ujk. Perifere informatie blijft dan mogelijk nog wel een rol spelen in de planning van het
Volgende fixatiepunt. De correspondentie tussen aandachts- en fixatiepunt kan dus opge-
voerd worden door de ppn taken te geven, die veelvuldige fixaties vragen als gevolg van de
hoge informatiewaarde van de onderdelen van het visuele veld. Een andere manier is het
aanbieden van stimuh, die de ppn dwingen te fixeren wegens de slechte zichtbaarheid, bij-
voorbeeld door een laag contrast tussen figuur en achtergrond (Noton & Stark, 1971).
•lust en Carpenter (1976) schakelden perifere informatie uit, door alleen dat deel van het
stimulusveld zichtbaar te maken, dat de pp fixeerde. Dit gebeurde met behulp van de
techniek van fixatie-contmgente stimuluspresentatie, die gereahseerd werd met behulp
Van een on-line verbonden computer. Bij deze techniek kijkt de pp naar een beeldscherm
Waarop een stimulusveld gepresenteerd wordt. Met behulp van de oogbewegingsappara-
tuur wordt bepaald welk deel van het scherm door de pp gefixeerd wordt. Deze plaats
Wordt doorgegeven aan de computer, die alleen het gefixeerde deel op het scherm zicht-
baar maakt en de rest onderdrukt. Dit proces herhaalt zich steeds onmiddelhjk wanneer
een nieuwe fixatie door het systeem ontdekt wordt. Het op deze wijze uitschakelen van
Perifere mformatieverwerkmg beperkt wel de generaliseerbaarheid naar meer alledaagse
•^jksituaties. Maar daar gaat het Just en Carpenter ook niet in de eerste plaats om. Wat zij
met deze techniek willen bereiken is, dat er meer stappen in het aan de gang zijnde cogni-
tieve proces, in termen van afzonderUjke fixaties, observeerbaar gemaakt worden (Just &
Carpenter, 1976; Carpenter & Just, 1978). Een voorbeeld van een aUedaagse situatie waar
perifere informatieverwerking juist erg belangrijk is, is waarnemen tijdens het besturen
Van een auto (Blaauw & Riemersma, Noot 1).

Concluderend kan worden gesteld, dat onder bepaalde voorwaarden de correspondentie
tussen fixatie en attentie voldoende hoog is om het fixatiepunt als vaUde mdex voor het
punt van selectieve mformatieopname te kunnen beschouwen. Aan deze voorwaarden
Wordt onder meer voldaan als het stünulusmateriaal, gezien de taak die de pp heeft, rela-
tief complex is.

Niet alleen bij de plaats van de fixatie, ook bij de fixatieduur kan de vraag naar de mate
van synchroniciteit met het informatieverwerkende proces gesteld worden. Er bestaan
twee opvattingen over de fixatieduur (Rayner, 1978a, p. 630). De eerste is de zogenaam-
de 'cognitive-lag hypothesis'. Deze imphceert, dat de wissehng van fixatiepunten sneller
gaat dan de verwerking, zodat de laatste steeds achterloopt op de visuele informatieop-
name. De duur van een fixatie correspondeert in deze opvatting dus niet met het aan de
gang zijnde cognitieve proces. De tweede opvatting wordt aangeduid met 'process-monitor-
ing hypothesis'. In deze opvatting beïnvloedt het verwerkingsproces, dat tijdens de fixatie
aan de gang is, de lengte van de fixatieduur wel. Rayner (1978a; 1979b) concludeerde op
basis van een overzicht van relevant onderzoek, dat de fixatieduur tijdens het lezen beïn-
vloed wordt door het cognitieve proces tijdens de fixatie. Het standpunt dat de duur van
de fixatie los van het tegelijkertijd plaats vindende cognitieve proces tot stand komt, is
niet houdbaar gebleken. Er zijn echter ook aanwijzingen voor het ontbreken van een vol-
ledige conespondentie tussen fixatieduur en het cognitieve proces (zie b.v. Parker, 1978
en 0'Regan, 1980). Russo (1978) beredeneerde, dat een verbetermg van de conesponden-
tie tussen kijkgedrag en cognitief proces te verkrijgen is door een eenheid van Idjkgedrag
te specificeren die beter aansluit op een overeenkomstig element van het cognitieve pro-
ces. Dit kan, zoals Just en Carpenter (1980) dat deden, door fixaties samen te nemen hi
een grotere eenheid, die als element in het bestudeerde cognitieve proces zinvol interpre-
teerbaar is. In hun onderzoek naar het begrijpen van leestekst telden ze de duur van indi-
viduele fixaties per woord op tot kijkduur ('gaze duration') per woord. Ook berekenden
ze de totale kijkduur voor iedere (grammaticaal gedefinieerde) tekstsector. Russo en
Rosen (1975) bestudeerden oogbewegingen tijdens keuzeprocessen. De analyse van ver-
schihen in duur van individuele fixaties bleek niets op te leveren. Groepering van de fixa-
ties tot eenheden, die bij een bepaald element van het keuzeproces hoorden, leidde wel
tot significante verschillen in kijkduur.

Naast de betekenis van de plaats en de duur van de fixatie is het ook van belang te weten
op welke wijze de volgende fixatie tot stand komt. Waardoor worden lengte en richting
van de volgende saccade bepaald? Er bestaan verschiUende modeUen voor de sturing van
de oogbewegingen tijdens het lezen (Rayner, 1978a). Voor het model, waarin de ogen
zich zonder enige cognitieve controle over min of meer vaste afstanden langs de tekst be-
wegen, is geen ondersteuning te vinden in de beschikbare data (Rayner, 1979b). Saccade-
lengte en fixatieduur zijn te variabel en er is teveel onderzoek dat aanwijzingen voor het
bestaan van cognitieve controle geeft. In andere modellen worden de oogbewegingen ge-
stuurd door informatie uit het parafoveale of perifere gezichtsveld. Dergehjke informatie
kan bijvoorbeeld bestaan uit woordlengte of spaties. Ook zijn er modeUen waarin het vol-
gende fixatiepunt bepaald wordt op basis van begripsmatige verwerking van de tekst. De
keuze van het volgende fixatiepunt is daarbij een weerspiegehng van de voorspelling, die
de lezer op basis van de verwerkte tekst gemaakt heeft. Tenslotte zijn er nog de 'process-
monitoring' modeUen. In deze modellen komt de volgende fixatie uit op het punt, tot
waar de informatie tijdens de huidige fixatie verwerkt is. In dit model is er dan ook een
onmiddelhjke koppeling tussen oogbeweging en cognitief proces. Wordt dit laatste niet
verondersteld, dan bevat het model nog een buffer, waarin het wisselende-teveel aan op-
genomen informatie in afwachting van verdere verwerking opgeslagen wordt. Er zijn nog
geen doorslaggevende onderzoeksresultaten, die het mogehjk maken voor een van de ge-
noemde modellen of een ander model te kiezen. Zoals eerder gesteld, zijn er Avel voldoen-
de gegevens om het model van het constante oogbewegingspatroon te verwerpen. Ook zijn

er voldoende aanwijzingen waaruit geconcludeerd kan worden dat oogbewegingen tijdens
lezen onmiddellijk door de verwerkingsprocessen gestuurd kunnen worden (Levy-Schoen
& 0'Regan, 1979). Niet alleen bij het lezen maar ook bij het bekijken van plaatjes is de
invloed van cognitieve processen op de keuze van het volgende fixatiepunt aangetoond
(Loftus & Mackworth, 1978).

Eerder werd al, in verband met de relatie tussen cognitief proces en fixatieduur, de keuze
tussen individuele fixatieduur en totale duur van een groep fixaties ter sprake gebracht. In
samenhang met het probleem van de oogsturing maakten Levy-Schoen en 0'Regan (1979)
onderscheid tussen locale en globale maten voor oogbewegingsgedrag. Individuele fixatie-
duur fen individuele fixatielengte zijn locale maten. Globale maten zijn combinaties van
deze locale maten. Voorbeelden van dergelijke globale maten zijn: gemiddelde fixatieduur
per regel, gemiddelde saccadelengte, aantal fixaties en de totale kijktijd voor bepaalde ge-
bieden. Zo gebruikten Shebilske en Reid (1979) leessnelheid per zin, afgeleid van de tota-
le fixatietijd per zin, met succes als afhankelijke variabele. Dit is een voorbeeld van een
globale maat. Shebilske en Reid zijn het oneens met McConkie (1979), die stelde dat oog-
bewegingsdata pas voor de toetsing van theorieën over het lezen gebruikt kunnen worden,
^s duidelijk is wat precies per fixatie gezien wordt en hoe mentale processen het volgende
fixatiepunt in de tekst bepalen. Russo (1978) vindt het gebruik van samenvattende maten
^s gemiddelde fixatieduur, fixatiefrequentie en ruimtelijke verdeUng van de fixaties wei-
nig zinvol. Maar, zoals eerder vermeld, pleit hij wel voor het samennemen van fixaties in
cognitief interpreteerbare eenheden. Deze eenheden kunnen kijkduur binnen een bepaald
gebied (zie b.v. de 'gaze duration' van Just & Carpenter, 1980) of frequentie van of kijk-
duur in bepaalde fixatiesequenties (Rosen & Rosenkoetter, 1976; Russo & Rosen, 1975)
zijn. Het gebruik van meer globale maten voor oogbewegingsgedrag lijkt op zich aanvaard-
baar zolang aan de voorwaarde van Russo voldaan wordt: de maten moeten interpreteer-
baar zijn in het kader van het bestudeerde cognitieve proces. De keuze van de maat hangt
dan mede van de aard van dit cognitieve proces af Gaat het om verwerkingsprocessen van
laag niveau (b.v. woordherkenning), dan zijn locale maten nodig. Bij cognitieve processen
van hoger niveau (b.v. samenhang in de tekst begrijpen), zouden globale maten meer op
bun plaats zijn (Levy-Schoen & 0'Regan). De vraag is of in het laatste geval registratie van
oogbewegingsgedrag wel nodig is.

K^ort samengevat werden in verband met de interpretatie van het oogbewegingsgedrag be-
sproken: ten eerste, de waarnemingsspanne en de correspondentie tussen fixatiepunt en
plaats van selectieve informatieopname, ten tweede, het verband tussen cognitief proces
en fixatieduur, ten derde, de sturing van de saccadische oogbewegingen en tenslotte, de
Operationalisering van relevant kijkgedrag. Geconcludeerd kan worden, dat de interpreta-
tie van de fixatie afhangt van de aard en de aanbiedingswijze van de taak en de operatio-
nalisering van het kijkgedrag. De plaats van de fixatie kan een maat voor visuele aandacht
zijn. De duur van de individuele fixatie of van een groep of sequentie van fucaties kan een
ifidex voor het aan de gang zijnde cognitieve proces zijn. De aangetoonde, soms onmiddel-
lijke, invloed van het cognitieve proces op de oogbewegingen maakt het oogbewegingsge-
'Irag tot een belangrijk middel om cognitieve processen te bestuderen.

Allereerst zal oogbewegingsonderzoek bij lezen en leesmoeilijkheden besproken worden.
Daarna komt het onderzoek aan de orde, dat zich gericht heeft op processen van informa-
tieopname en -verwerking tijdens visuele zoek-, herkennings- en probleemoplossingstaken.

Eerder werd al vermeld dat het oog in 90% van de tijd gefixeerd is en in slechts 10% van
de tijd in beweging is. Tijdens deze beweging verplaatst het oog zich bij ervaren lezers over
een afstand van ongeveer acht letters (ofwel 1,2 woorden), met een range van 2 tot 18 let-
ters (Rayner, 1978a; Levy-Schoen & 0'Regan, 1979). Begirmende lezers hebben kortere
saccaden dan ervaren lezers. Voor de eerstgenoemden is de saccadelengte ongeveer drie
letters ofwel een half woord. De fïxatieduur bedraagt gemiddeld 200 tot 250 msec. De
beginnende lezer lijkt een langere gemiddelde fixatieduur te hebben, maar de relatie tus-
sen fïxatieduur en de ontwikkeling van de leesvaardigheid is nog niet geheel duidelijk
(Levy-Schoen & 0'Regan, 1979). Wanneer de tekst niet te ver beneden het leesniveau van
de gevorderde lezer ligt, wordt vrijwel ieder woord gefixeerd, met uitzondering van zeer
korte woordjes als Udwoorden (Just & Carpenter, 1980). Zoals reeds uit een eerdere op-
merking over de saccadelengte valt af te leiden, bedraagt het gemiddelde aantal woorden
per fixatie 1,2. Bij het lezen worden enkele specifieke oogbewegingen onderscheiden. In
de eerste plaats zijn dat de voorwaartse bewegingen. Dit zijn de normale saccaden in de
leesrichting. Verder zijn er de regressies of achterwaartse bewegingen. Regressies zijn kor-
te saccaden (met ongeveer de halve lengte van de voorwaartse saccade) tegen de leesrich-
ting in. Ze vinden gemiddeld ongeveer één keer per regel plaats (Levy-Schoen & 0'Regan).
Aangenomen wordt, dat regressies gemaakt worden wanneer de lezer moeite met de ver-
werking van de tekst heeft of wanneer het geplande fixatiepunt voorbijgeschoten wordt
(Rayner, 1978a). Tenslotte zijn er oogbewegingen ('return sweeps') die van het einde van
de vorige regel naar het begin van de nieuwe gemaakt worden. Daarbij is vaak nog een
kleine correctieve saccade naar links nodig als de return sweep het fixatiepunt niet ver
genoeg vooraan de regel gebracht heeft.

Met de introductie van een nieuwe stimuluspresentatietechniek door McConkie en Rayner
(1975) is in het leesonderzoek een interessante serie onderzoekingen gestart. Deze nieuwe
methode is verwant aan de fixatie-contingente stimuluspresentatietechniek die in de
vorige sectie besproken werd. Ook hier wordt stimulusmaferiaal, in dit geval tekst, onder
besturing van een computer via een beeldscherm aangeboden. Terwijl de pp naar het
scherm kijkt, verwerkt de computer de oogbewegingsgegevens. Op basis hiervan maakt de
computer de aanbieding van tekst afhankelijk van het kijkgedrag. Het signaal voor een ver-
andering in de stimuluspresentatie is in sommige experimenten de detectie van een nieuw
fixatiepunt en in andere gevallen de detectie van het begin van een saccade. De technolo-
gie is uitvoerig beschreven door McConkie et al. (1978).

In het onderzoek van McConkie en Rayner (1975) werd met behulp van deze techniek
alleen de tekst m en naast het fixatiepunt, ongewijzigd aangeboden. De tekst op de rest
van het scherm werd steeds op een of andere wijze vervormd. De vervorming bestond bij-
voorbeeld uit het vervangen van iedere letter door de letter 'x'. In alle condities bestonden
de vervormingen uit nonsense woorden of letterseries. Het deel dat ongewijzigd gepresen-

teerd werd, het zogenaamde venster, strekte zich een aantal letters links en rechts van het
fixatiepunt uit en kon in afmetingen gevarieerd worden. Wanneer de computer een nieuwe
fixatie ontdekte, dan werd het venster verplaatst naar het nieuwe fixatiepunt. Het onder-
zoek had tot doel vast te stellen tot hoever in de periferie informatie gebruikt wordt
door de lezer. Een van deze vormen van informatie is woordlengte. De woordlengte-infor-
matie uit de periferie was in de aangeboden tekst normaal aanwezig of werd onderdrukt
doordat de spaties en interpunctie tussen de woorden buiten het venster door letters ver-
vangen werden. Deze ingreep leidde bij een vensterbreedte van 25 letters of minder tot
een inkorting van de saccadelengte in vergehjking met de saccadelengte bij tekst zonder
vervanging van spaties en interpunctie. Bij een vensterbreedte van 31 letters of meer was
er geen verschil in saccadelengte. McConkie en Rayner concludeerden uit deze gegevens
dat ppn informatie over de woordlengte konden opnemen tot 12 a 15 letterposities (onge-
veer 4 graden) vanaf het fkatiepunt. Met een meer geavanceerde instrumentatie (andere
presentatie- en registratiemethoden) vonden o.a. Den Buurman et al. (1981) ook een
Waarnemingsspanne van 12 tot 15 letterposities vanaf het fixatiepunt. Ze hadden tekst
buiten het venster onleesbaar gemaakt door contrastvermindermg.
In het experhnent van McConkie en Rayner waren verder m sommige tekstvervormingen
de letters van de woorden buiten het venster veranderd, zonder de globale visuele woord-
vorm aan te tasten (b.v.: 'Graphology' werd vervangen door 'Cnojkaiazp'). In andere
tekstvervormingen werd de woordvorm juist wel veranderd (b.v. 'Graphology' in 'Hbfxwy-
syyo') of werden de letters door 'x'-en vervangen. Op basis van de resultaten (verschillen in
fixatieduur), die met deze experimentele manipulaties verkregen werden, concludeerden
McConkie en Rayner, dat specifieke letter- en woordinformatie niet verder dan 10 letter-
posities vanaf het fixatiepunt opgenomen werd. In plaats van te spreken van één waame-
niingsspanne, kan er volgens hen beter gesproken worden van verschiUende waamemings-
spannen tijdens het lezen. Overigens bhjkt het aantal letterposities, waaruit nog mforma-
tie opgenomen wordt, links van het fixatiepunt consistent klemer te zijn, dan rechts
(Bouma, 1976; Rayner, 1978a). 0'Regan (1980) had een wat andere werkwijze dan Mc-
Conkie en Rayner. Hij bood aUe tekst normaal aan, behalve in een klem (niet verschui-
vend) gebied van één of twee woorden. Wanneer de pp een saccade naar dit gebied maak-
te werd de vervorming ongedaan gemaakt. 0'Regan constateerde dat een combinatie van
visuele en Imguïstische informatie, binnen 6 a 7 letters vanaf het fixatiepunt, de duur van
de lopende fixatie en de lengte van de volgende saccade bepaalde. Buiten dh gebied was
alleen de woordlengte van invloed op de saccadelengte. Dit stemt globaal overeen met de
resultaten van McConkie en Rayner. Bij een nadere analyse vond 0'Regan echter, dat de
duur van de daarop volgende fixatie wel degelijk door linguïstische informatie, verder dan
6 letters van het huidige fixatiepunt, beïnvloed werd.

Jn het bovengenoemde onderzoek verkeerde de pp, naar de mening van Rayner (1978a),
hl een meer natuurhjke leessituatie, dan in onderzoek, waarbij de waamemingsspanne bij-
voorbeeld bepaald werd met kort aangeflitste woorden of letters tijdens tachistoscopische
presentatie. Volgens Rayner is dit oogbewegingsonderzoek daarom ecologisch vahder. Den
Buurman et al. (1981) wezen echter op een aantal verschUlen die er desondanks bestaan
tussen de experimentele leessituatie, zoals bij McConkie en Rayner, en de normale lees-
situatie. In hun eigen reeds eerder genoemde onderzoek konden Den Buurman et al. deze
VerschiUen beperken tot de wijze waarop de tekst gepresenteerd werd. De presentatie
^ond nl. nog wel op beeldscherm in plaats van op papier plaats.

moesten ppn een punt fixeren, waarna parafoveaal op het beeldscherm een woord gepre-
senteerd werd (Rayner et al., 1978, Rayner, 1978b; 1979b; Rayner et al., 1980). Dit
woord was gehjk aan of week op een systematisch gevarieerde wijze af van een zogenaamd
basiswoord. Wanneer het basiswoord b.v. 'ehest' was, dan kon het parafoveaal aangeboden
woord b.v. zijn: 'ehest' (gelijk aan basiswoord), 'chovt', 'chart', 'chfbt' of'ekovf. Als de
computer een saccade naar het parafoveaal aangeboden woord detecteerde, dan werd dit
woord vervangen door het basiswoord. Het parafoveale woord werd op 1, 3 of 5 graden
afstand links of rechts van het startpunt aangeboden. Rayner en zijn collega's wilden op
deze wijze een grotere experimentele controle verwezenhjken, dan met de eerder beschre-
ven techniek mogelijk was. Zo vroeg Rayner (1978b; 1979b) ppn te kijken naar het para-
foveale woord en daarna het woord, dat tijdens de saccade eventueel veranderd werd, te
noemen. De afhankelijke variabele was de tijd die tussen het emde van de saccade en het
begin van het noemen van het woord verliep ^noemtijd'). Op 5 graden van het fixatiepunt
waren er geen verschillen in noemtijd. Deze tijd bleef op 3 graden afstand ook nog gehjk,
als de aanvankelijk parafoveaal aangeboden woorden alleen in woordvorm ('ekovT) of in
begin- en eindletters ('chfbt') overeenkwamen met het basiswoord ('ehest'). Kwamen ze
echter in beide kenmerken ('chart', 'chovt' en 'ehest') overeen met het basiswoord, dan
werden de woorden op deze afstand sneller genoemd (Rayner, 1979b). Op 1 graad van
het fixatiepunt bleek in grote lijnen hetzelfde patroon van verschillen in noemtijd te be-
staan. Daarbij trad duidelijk de kortste noemtijd op wanneer het parafoveale woord gelijk
was aan het basiswoord.

In een fraaie serie experimenten konden Rayner et al. (1980) de aard van de parafoveaal
opgenomen informatie verder isoleren. Zij toonden aan, dat de beïnvloedmg van de noem-
tijd door het parafoveaal aangeboden woord, noch op basis van louter visuele informatie,
noch op basis van zuiver semantische informatie plaatsvond, maar op een verwerkingsni-
veau, dat daar tussenm hgt. Ook articulomotorische of fonetische overeenkomsten tussen
het parafoveaal aangeboden woord en het later gefixeerde basiswoord konden het effect
niet verklaren. Het bleek dat alleen de parafoveale mformatie uit de eerste letters van het
woord voor het effect verantwoordelijk was. Rayner et al. (1980) menen dat er een of
andere abstracte code van de beginletters van het parafoveale woord gemaakt wordt. Deze
code wordt opgeslagen en vervolgens geïntegreerd met de informatie die na de saccade
foveaal beschikbaar komt. De toepasbaarheid van dit model op de normale leessituatie
wacht nog op empirische verificatie. Het gebied waaruit wel lexicale of semantische infor-
matie verwerkt kan worden, zou volgens Rayner (1978a; 1978b) zich slechts uitstrekken
tot ruhn 1 graad vanaf het fixatiepunt. Het betreft dus hier het foveale gebied.
Tenslotte is in het kader van dit type onderzoek nog een eicperiment van Rayner et al.
(1978) vermeldenswaard. Door gelijktijdig links en rechts parafoveaal modificaties van
het basiswoord aan te bieden, konden zij aantonen, dat meer infonnatie opgenomen werd
uit het gebied, waarheen de oogbeweging nog plaats moest vmden, dan uit het gebied aan
de andere zijde van het fixatiepunt. Deze bevinding sluit aan op het in de vorige sectie ge-
noemde onderzoek, waaruit bleek dat attentieverschuivingen kunnen plaatsvinden zonder
verplaatsing van het fixatiepunt.

Wanneer de resultaten van het tot hier toe gerapporteerde leesonderzoek samengenomen
worden, dan zijn de volgende conclusies te trekken. De sturing van de oogbewegingen is in
belangrijke mate cognitief vafl aard. Fixatieduur is een van de oogbewegingsvariabelen, die
cognitief gecontroleerd worden. Vrijwel ieder woord, behalve zeer korte woordjes als hd-

Woorden, wordt gefixeerd mits de tekst niet te ver beneden het leesniveau van de lezer
ligt. Wanneer dit gevoegd wordt bij het feit, dat informatieopname alleen tijdens fixaties
gebeurt en dat de opname van semantisch verwerkbare informatie vrijwel beperkt is tot de
fovea, dan Ujkt oogbswegingsonderzoek interessant als techniek om aspecten van begrij-
pend lezen te onderzoeken.

Dit is precies wat Just en Carpenter (1980) deden. Zij toetsten een model voor leesbegrip.
Waarbij ze uitgingen van twee belangrijke veronderstellingen. Ten eerste namen ze aan, dat
ieder woord, dat de lezer ziet, onmiddelUjk geïnterpreteerd wordt, ook al maakt de lezer
daardoor voorlopige interpretatiefouten. Deze veronderstelling duidden ze aan met de
term 'immediacy assumption'. Hun tweede veronderstelling, de 'eye-mind assumption' im-
pliceerde, dat het oog net zolang op het woord gericht blijft als de verwerking van het
Woord (in samenhang met de voorgaande tekst) duurt.

De afhankelijke variabelen in hun onderzoek waren kijkduur per woord en kijkduur per
tekstsector. Kijkduur was de som van de duur van de individuele fixaties. Een tekstsector
Was een gedeelte met een bepaalde tekst-grammaticale rol, bijvoorbeeld een defmitie, oor-
zaak, gevolg enz. Just en Carpenter toetsten een model, waarin de kijkduur gerelateerd
werd aan verschillende processen die tijdens het lezen betrekking hebben op het gefixeer-
de woord. Ze stellen (p. 331) dat lezen gezien kan worden als een gecoördineerde uitvoe-
ring van verwerkingsstadia zoals woordencodering, lexicale toegang (lexical access), se-
mantische roltoekenning van de woorden in hun onderlinge relatie, en het koppelen van
informatie in een gegeven zin aan de vorige zinnen en vroegere kennis. Het model bevatte
een aantal factoren, die naar verwachting deze leesprocessen of processtadia zouden beïn-
vloeden. Omdat sommige factoren invloed zouden hebben op woordniveau en andere fac-
toren op grotere eenheden, werden zowel de kijkduur per woord, als per tekstsector ge-
meten. Factoren die op woordniveau van invloed kunnen zijn op processen van encode-
ring en lexicale toegang waren bijvoorbeeld: de nieuwheid van het woord, de lengte van
het woord in lettergrepen en de frequentie van voorkomen van het woord in de taal. De
grammaticale functie van het woord werd beschouwd als een factor die het proces van rol-
toekenning aan het woord beïnvloedt. Of het woord het laatste woord van een zin was en
of het woord de laatste van de alinea was, waren factoren die van belang werden geacht
voor het integreren van informatie uit verschillende zinnen. De factoren waarmee Just en
Carpenter kijkduur per tekstsector trachtten te verklaren waren de eerdergenoemde tekst-
grammaticale rol van de sector en een aantal factoren die ook in de analyse per woord
toegepast werden.

Deze factoren werden als predictorvariabelen ingevoerd in multiple regressieanalysen. Bij
de analyse op woordniveau bleken vrijwel alle factoren significant bij te drj^en aan de ver-
klaarde variantie van de kijkduur (totaal verklaarde variantie: 52%). In de analyse op sec-
torniveau waren alle regressiecoëfficiënten significant (totaal verklaarde variantie: 94%).
Op de specifieke inhoud van het psycholinguïstische model, waarvoor met deze resultaten
ondersteuning gevonden werd, zal hier verder niet ingegaan worden. In het kader van dit
artikel is het belangrijker, dat Just en Carpenter concludeerden, dat hun resultaten aan-
wijzingen gaven die de 'immediacy' en 'eye-mind' assumpties ondersteunen. Dat betekent
dus dat lezers een woord interpreteren terwijl ze het fixeren en het blijven fixeren zolang
de integratie met de voorgaande informatie nog niet afgerond is. Just en Carpenter stellen
(p. 350) dat dit proces voorkomt, dat lezers bij ambigue tekstgedeelten verschillende inter-
pretaties tegelijk moeten onthouden en pas aan het einde van een zin of zinsdeel deze
mogelijkheden kunnen gaan vergelijken om een keuze te maken. Dit proces vraagt dus een
relatief kleine geheugenbelasting en verwerkingscapaciteit.

Shebilske en Reid (1979) zochten steun voor de opvatting dat de lezer tijdens het lezen
een zogenaamde macrostructurele representatie van de tekst opbouwt. Deze macrostruc-
tuur bestaat uit hogere-orde conceptuele eenheden (hoofdonderwerpen uit de tekst), die
op hun beurt weer bestaan uit lagere-orde conceptuele eenheden (één of meer zinnen).
Eerder werd het bestaan van een dergelijke macrostructuur al afgeleid uit de antwoorden
die de persoon gaf naar aanleiding van vragen over de tekst. Shebilske en Reid wilden ech-
ter via een response, die tijdens het lezen observeerbaar was, aantonen dat de lezer deze
macrostructuur al tijdens het lezen en niet achteraf tijdens de beantwoording construeert.
Oogbewegingsgedrag zou naar hun mening de rol van een dergelijke response kunnen ver-
vullen. Op basis van een macrostructurele analyse van de tekst, onderscheidden ze zinnen
die direct en zinnen die indirect samenhingen met de macrostructuur. Wanneer één of
twee zinnen samen een hogere-orde concept vormden, werd de relatie met de macrostruc-
tuur direct genoemd. Ging het om 3 of meer zinnen, dan was er sprake van een indirecte
relatie. Verondersteld werd, dat de zinnen van het laatste type meer verwerkingstijd zou-
den vragen, bij het integreren tot een hogere eenheid, dan zinnen van het directe type.
Deze verwerkingstijd werd afgeleid uit de totale hoeveelheid kijktijd per zin (omgezet in
leessnelheid). De leessnelheid bleek bij directe zinnen inderdaad significant hoger te liggen
dan bij indirecte zinnen.

Rothkopf (1978) gaf ppn, bij het bestuderen van teksten, enkele leerdoelen op. De tek-
sten bevatten al dan niet informatie, die relevant was voor de leerdoelen. In zinnen met de
relevante informatie was onder meer de fixatiedichtheid groter en de fixatieduur langer.
De lezers verschilden echter zeer aanzienlijk in het patroon van oogbewegingsvariabelen
dat een effect van de leerdoelrelevante informatie liet zien. Vergelijkbare resultaten vond
hij bij de effecten van leesbaarheidsverschillen van tekst. Vanwege de grote mate van indi-
viduele variatie in het effect op de oogbewegingen, maant Rothkopf tot voorzichtigheid
bij het interpreteren van oogbewegingsgedrag als indicator van onderliggende processen bij
het leren van informatie uit tekst.

Enigszins verwant aan het laatste onderzoek is dat van Van Vianen (1978), waarbij lagere
schooUeerlingen eerst een tekst moesten lezen en daarna dezelfde tekst moesten leren om
na afloop een vraag te kunnen beantwoorden. In de leerfase, die volgde op een leesfase,
bleken de kinderen, in termen van oogbewegingen, leesgedrag te blijven vertonen. De be-
antwoording van de vraag over de leertekst gaf inzicht in de mate en de manier waarop de
leerlingen de tekst konden reproduceren. Op basis hiervan werden hoge en lage presteer-
ders onderscheiden. Analyse van de verschillen in oogbeweging van beide groepen leerlin-
gen gaf Van Vianen aanleiding te concluderen, dat een aantal veronderstelde activiteiten
van het lange-termijn-geheugen niet volledig weerspiegeld worden in de beweging van de
ogen, terwijl deze activiteiten nu juist de kemaspecten van het leerproces betreffen. Van
Vianen destilleerde uit de verbale antwoorden van de ppn ook gegevens op basis van een
kennisrepresentatiemodel voor het lange-termijn-geheugen. Haar conclusie met betrekking
tot de betekenis van de oogbewegingen zou misschien positiever kunnen zijn, waimeer,
analoog aan de werkwijze van Shebilske en Reid (1979) en Just en Carpenter (1980), in
verder onderzoek meer specifieke predicties, bijvoorbeeld uit het kennisreprésentatiemo-
del, getoetst zouden kunnen worden.

In het hier beschreven oogbewegingsonderzoek was geen sprake van aanbieding van tekst
op papier, zodanig dat de pp zonodig in de tekst kon strepen of schrijven. Moderne, nauw-
keurige apparatuur voor oogbewegingsregistratie verdraagt zich (nog) slecht meteenderge-

lijke tekstpresentatie. In het leesonderzoek, dat gericht is op de bestudering van verwer-
kingsprocessen tijdens het leren van studieteksten, wordt daarom vaak gezocht naar andere
meetmethoden, waarbij de genoemde tekstpresentatie wel mogehjk is (Van Hout-Wolters,
in voorbereiding).

In deze sectie werd eerst enige beschrijvende mformatie over het oogbewegmgsgedrag
tijdens het lezen gegeven. Vervolgens werd aandacht besteed aan onderzoek naar woord-
herkenningsprocessen met behulp van oogbewegingscontingente stünuluspresentatie. Het
Sing in dit onderzoek vooral om de hoeveelheid en soort informatie die per fixatie opge-
nomen wordt. Parafoveale informatie over woordlengte en -vorm büjkt door de lezer ver-
Werkt te kunnen worden. Maar voor het herkennen van de betekenis van het aangebodene
is fixatie nodig birmen een gebied, dat niet veel groter is dan de foveale projectie. Na een
tussentijdse samenvatting werd de conclusie getrokken dat oogbewegingsonderzoek van
belang kan zijn bij de bestudering van cognitieve processen tijdens begrijpend lezen. Dit
Werd geïllustreerd aan de hand van enkele onderzoekingen op dit gebied. In dit onderzoek
werd oogbewegingsgedrag met wisselend succes gebruikt voor toetsing van hypothesen
over begripsprocessen tijdens leesactiviteiten en tijdens het zoeken van gevraagde informa-
tie.

Het oogbewegmgsonderzoek bij leesmoeUijkheden heeft zich vooral gecentreerd rond de
volgende vragen. Waarin wijken slechte lezers en dyslectici af van normale lezers? Veroor-
zaken afwijkende oogbewegingen leesproblemen of zijn ze er eerder manifestaties van?
Kunnen er uit de resultaten van het oogbewegingsonderzoek behandelingsmethoden afge-
leid worden?

In vergehjking met goede lezers vertonen slechte lezers langere fixaties, meer regressies,
nieer fixaties en afwijkingen in het terugdraaien van de ogen aan het einde van de regel
naar het begin van de volgende (Rayner, 1978a; Elterman et al., 1980). Vanwege het ver-
schil m oogbewegingen tussen goede en slechte lezers, werden enkele decennia geleden
pogingen ondernomen de leesprestaties te verbeteren door het trainen van sneUere en soe-
pelere oogbewegmgen (Tmker, 1958; Woodworth & Schlosberg, 1965). De trainingen
Waren gericht op het verminderen van het aantal fixaties en regressies. Dit gebeurde door
hijvoorbeeld tijdens een leesoefening zinnen in een bepaald tempo te projecteren of door
Woorden gedurende een korte periode tachistoscopisch aan te bieden. In verscheidene on-
derzoekingen werden dergelijke tramingen vergeleken met leesoefeningen zonder deze
trainingen en met controle condities. De oogbewegingstramingen bleken niet tot betere
prestaties te leiden dan dezelfde leesoefeningen zonder deze tramingen (Tinker, 1958).
Bovendien waren deze oogbewegingstrainingen nogal mechanisch van aard en op verho-
og van de leessnelheid in plaats van het leesbegrip gericht (Tinker & McCuUough, 1968).
'Goede' oogbewegingen, zo stellen Tmker en McCuUough (p. 242), zijn symptomen van
leesefficiëntie maar dragen er niet fundamenteel aan bij.

De oorzaak-gevolg kwestie is echter nog steeds controversieel (Elterman et al.). De meeste
Onderzoekers hebben geconcludeerd, dat afwijkende oogbewegingen secundair zijn bij een
primaire stoornis in het leesbegrip, terwijl enkele anderen de gestoorde oogbewegingen als
Primahe oorzaak zagen. Elterman et al. redeneerden, dat een primahe stoomis in de controle
Van de oogbewegingen zich niet aUeen zou moeten uiten in een leestaak, maar ook in een

taak, waarbij geen leesbegrip nodig is. Ze verrichtten enkele gevalstudies en vonden bij de
laatstgenoemde taak zowel dyslectische ppn met, als dyslectici zonder afwijkende oogbe-
wegingen. Elterman et al. zien hun resuhaten als ondersteuning van de opvattmg dat aan
dyslexie verschihende oorzaken ten grondslag kunnen Uggen. Verwant hieraan is Rayners
(1978a) opmerking dat dyslectici niet als homogene groep behandeld mogen worden. Hij
meent dat de oorzaak-gevolg controverse ondermeer samenhangt met de gebrekkige defi-
niëring van dyslexie.

Bouma en Legein (1977) toonden aan dat 20 normaal intelhgente dyslectische kinderen,
geïsoleerd aangeboden letters even goed herkenden als 20 normaal lezende leeftijdsgeno-
ten (met een leesvoorsprong van drie jaar op de dyslectische kinderen). Werd de letter
echter ingebed tussen andere letters aangeboden, dan daalden de prestaties van de dyslec-
tische kinderen drastisch ten opzichte van de normaal lezende kinderen, echter aheen m-
dien de aanbieding niet foveaal, maar 1 graad vanaf het fixatiepunt plaats vond. Bouma en
Legein concludeerden, dat bij de dyslectische kinderen een soort van 'tunnel zien' be-
stond, d.w.z. de foveale verwerking vond bij dyslectische kinderen met een even grote
waarnemingsnauwkeurigheid als bij de normale lezers plaats, terwijl parafoveaal de presta-
ties beduidend minder waren. Hiermee in overeenstemming is de conclusie van Lefton et
al. (1978), dat slechte lezers minder fouten tijdens letterdiscriminatietaken maken, wan-
neer ze gedwongen zijn om iedere letter te fixeren. In het onderzoek van Bouma en Legein
vertoonden de normaal lezende kinderen, ten opzichte van een groep normaal lezende vol-
wassenen, dezelfde verschihen in verrichtingen als de dyslectische kinderen ten opzichte
van de normaal lezende kinderen. Bouma en Legein meenden hiermee aanwijzingen ge-
vonden te hebben, dat er bij dyslectische kinderen eerder sprake is van een rijpingsachter-
stand dan een specifieke stoornis.

Het is verleidelijk te concluderen, dat de aangetoonde gebrekkige parafoveale efficiëntie
van dyslectische kinderen een rol speelt in het ontstaan van de leesproblemen. In het eer-
der besproken onderzoek van McConkie en Rayner (1975) werden na het lezen van de
tekst aan de ppn vragen over de inhoud voorgelegd om het leesbegrip te meten. De mani-
pulaties met de omvang van het tekstvenster bleken niet van invloed op het leesbegrip te
zijn. Volgens Rayner en McConkie zou dit begrip dus niet afhankehjk van de waamemings-
spanne zijn.

Lefton et al. (1979) constateerden bij slechte lezers meer fixaties per regel, langere fixa-
ties en meer regressies per regel dan bij normaal lezende kinderen van dezelfde leeftijd.
Dit stemde overeen met eerder onderzoek. Bij een aantal van deze variabelen leken de
slecht lezende kinderen op een groep jongere normaal lezende kinderen, terwijl ze op
andere variabelen minder presteerden. Met name bleek dit het geval te zijn bij een aparte
analyse van de variabihteit van het aantal fixaties en het aantal regressies per pp. De intra-
individuele variabihteit in deze twee maten was groter bij de dyslectische kinderen dan bij
de normaal lezende vergelijkingsgroepen (leeftijdsgenoten, jongere kinderen en volwasse-
nen). Lefton et al. (1979) concludeerden op basis van het laatste, dat de oogbewegingen
van slecht lezende kinderen chaotisch en onsystematisch zijn, waardoor ze mpeihjkheden
hebben met het opnemen van informatie.

In een eerder onderzoek boden Lefton, Lahey en Stagg (1978; Lefton, 1978) ppn een
match-to-sample taak aan. In deze taak moesten de ppn groepen van vijf letters vergehj-
ken. Er waren vijf groepen letters: een standaard en vier altematieven. De ppn moesten
het alternatief kiezen, dat als enige gelijk was aan de standaard. De indeling in groepen
was hetzelfde als in het onderzoek van Lefton et al. (1979). De conclusies, die getrokken

werden op basis van een analyse van de sequentie van fixaties op standaard en alternatie-
ven, waren het interessantst. De volwassen ppn vertoonden een systematisch kijkpatroon,
Waarbij ze een sterk beroep op hun geheugen deden. Hun karakteristieke kijkpatroon be-
stond eruit eerst de standaard en daarna, achtereenvolgens, het eerste tot en met het geko-
zen alternatief te fixeren. Daarna werd teruggekeken naar de standaard en eventueel nog-
maals naar het gekozen (meestal ook juiste) alternatief. De normaal lezende derde en vijf-
de klassers (lagere school) vertoonden eveneens een systematisch kijkpatroon, waarbij een
veel kleiner beroep op het geheugen werd gedaan. Voor hun manier van kijken was het ty-
perend, dat na ieder gefixeerd alternatief de standaard opnieuw bekeken werd. Dat ge-
beurde tot en met het alternatief dat ze uiteindelijk kozen. De fixatievolgorde kon er b.v.
als volgt uit zien: standaard - eerste alternatief - standaard - tweede alternatief - stan-
daard - derde alternatief - standaard. De slecht lezende vijfde klassers bleken de eerste
fixaties nog wel systematisch uit te voeren, daarna werd hun kijkgedrag echter tamehjk
Willekeurig. De alternatieven werden niet meer op volgorde afgewerkt, maar meer op een
random-achtige wijze. Het aantal fouten bij het kiezen van het juiste alternatief lag bij
deze groep dan ook het hoogste van alle groepen. Lefton et al. (1978) wijten het instorten
van de kijkstrategie bij deze kinderen aan impulsiviteit en onmacht om de aandacht gedu-
rende langere tijd vast te houden. Zij concludeerden, mede op basis van eerder onderzoek,
dat de leesproblemen geen gevolg van een onbekwaamheid om letters te discrimineren wa-
ren, maar eerder veroorzaakt werden door een Onsystematische strategie bij het bekijken
van de letters. Naar de mening van Lefton (1978) heeft het daarom weinig zin om visueel
discrimineren te trainen. Letters discrimineren kunnen de leesgestoorde kinderen immers
Wel. Hoewel aan de leesstoornissen vaak een neurologisch defect ten grondslag zou kun-
nen liggen, lijkt het hem nuttiger het kind cognitieve controle technieken aan te leren.

Samenvattend kan het volgende gesteld worden. Onder bepaalde condities (foveale fixatie)
kunnen leesgestoorden even goed letters discrimineren als niet-leesgestoorden, hetgeen
niinstens tegen een eenvoudige opvatting van een perceptuele stoornis als oorzaak van het
leesprobleem pleit. Leesgestoorden wijken echter wel degelijk vaak af van normaal lezen-
den op een aantal verschillende oogbewegingsvariabelen. Er bestaan enige aanwijzingen
voor een causale rol van oogbewegingen in het ontstaan van leesproblemen. Maar de aan-
wijzingen voor het tegendeel zijn in grotere mate voorhanden (Rayner, 1978a).
Ook wanneer afwijkende oogbewegingen eerder als symptoom van de leesstoornis dan als
oorzaak beschouwd moeten worden, dan bestaat nog de mogelijkheid dat afwijkende kijk-
Patronen van een zodanige aard zijn dat ze het leesproces extra storen. Het onderzoek van
Lefton (1978; Lefton et al. 1978) leverde evidentie hiervoor. Remediatie ligt dan echter
niet op het vlak van de oculomotorische training, maar moet zich eerder richten op de
cognitieve sturing van het mformatie-zoekende kijkgedrag.

In dit gedeelte zal aangegeven worden hoe oogbewegingsonderzoek, bij het bekijken van
plaatjes en ander niet-leesmateriaal, toegepast is om processen en strategieën van infonna-
tieopname en -verwerking zichtbaar te maken. Eerst zal ingegaan worden op de functie
Van de fixatie tijdens het kijken naar het genoemde materiaal. Bij de bespreking van oog-
bewegingsonderzoek in de rest van deze sectie, wordt vooral aandacht geschonken aan

Strategieën van informatieopname en -verwerking, die min of meer in verband staan met
het tot stand komen van schoolprestaties.

Parker (1978) en Sigman en Coles (1980) gaven hun ppn visuele herkenningstaken. De
ppn moesten aangeven of plaatjes, die achtereenvolgens aangeboden werden, hetzelfde
waren als een eerder bekeken (maar niet meer zichtbaar) standaardplaatje. De onderzoe-
kers toonden aan, dat er mformatie afkomstig van het gebied buiten de fovea verwerkt
werd. Het bleek namelijk dat kritische details (dat zijn onderdelen van het plaatje die af
konden wijken van dezelfde onderdelen in het standaardplaatje) vaak niet gefixeerd hoef-
den te worden, om toch een juist antwoord te kunnen geven. De veranderde details in
Parker's onderzoek werden eerder gefixeerd dan andere details van de aangeboden figuren.
Vermoedens, die de pp kreeg op basis van niet-foveale verwerking van informatie uit kriti-
sche details, waren kennelijk van invloed op de plaats van de volgende fixatie. Dit gegeven
en de eerder genoemde resultaten, vormden voor Parker een ondersteuning van zijn model
voor het herkennen van plaatjes. Wanneer de pp een plaatje voorgelegd krijgt, waarvan hij
moet zeggen of het hetzelfde of anders is dan een eerder aangeboden plaatje, dan wikkelt
zich, volgens dit model, het nu volgende proces af. Uit een wijd gebied, dat niet beperkt
is tot het fixatiepunt, wordt informatie opgenomen. Vervolgens wordt deze informatie
vergeleken met de verwachting, die gebaseerd is op gegevens uit het geheugen. Wanneer
definitief een ontbreken van overeenstemming wordt ontdekt, dan wordt het proces be-
ëindigd en kan de pp antwoord geven. Wanneer deze constatering niet definitief is, dan
wordt de hypothese van ongelijkheid getoetst door het kritische detail rechtstreeks te
fixeren. Loftus en Mackworth (1978) bestudeerden de invloed, die de verwerking van
perifere informatie heeft op de bepaling van de locatie waar de volgende fixatie plaats zal
vinden. Zij toonden aan, dat deze beïnvloeding van cognitieve aard kan zijn. D.w.z., het
volgende fixatiepunt wordt niet alleen bepaald op basis van fysisch saillante cues in de
periferie, maar ook door de betekenis van de informatie buiten het fixatiepunt.
Oogbewegingen spelen niet alleen bij de opname, maar mogelijk ook bij de opslag en het
terugvinden van informatie een rol. Ppn blijken dikwijls stereotype kijkpatronen ('scan
paths') te hebben (Noton & Stark, 1971; Parker, 1978). Met behulp van deze kijkpatro-
nen zou de pp niet alleen een sequentie van visuele, maar ook van oculomotorische infor-
matie vastleggen. Notón en Stark toonden aan dat, bij het herkennen van plaatjes, dezelf-
de kijkpatronen voorkwamen als bij de eerste presentatie van de plaatjes. Deze kijkpatro-
nen waren pp-specifiek en binnen de pp ook per plaatje specifiek. Teicher et al. (1978)
bestudeerden eveneens dergelijke kijkpatronen. Hun ppn kregen horizontale rijen met let-
ter-cijfercombinaties aangeboden. Na het weghalen van dit stimulusmateriaal werd de pp
gevraagd de oorspronkelijke positie van een bepaalde combinatie op te noemen. Het bleek,
dat ppn dan vaak keken naar de positie, waar de combinatie gestaan had. Maar dat hielp
hun niet in het geven van een juist antwoord.

Met betrekking tot de interpretatie van oogbewegingen bij taken met plaatjes e.d. kuimen
de volgende conclusies getrokken worden. Cognitief relevante informatie wordt niet
alleen in het fixatiepunt, maar ook daarbuiten opgenomen. Maar zoals al eerder (in de
sectie 'Interpretatie') opgemerkt is, wordt het fixatiepunt belangrijker als centrum van in-
formatieopname, naarmate de stimulusconfiguratie complexer van aard is en uit minder
redundante elementen bestaat. In het algemeen geeft de fixatie niet alleen het stimulusge-
bied aan waaruit informatie opgenomen wordt of kan worden; de fixatie kan tevens een
bepaalde fase in een informatieverwerkend proces representeren. De motorische activiteit

bij een sequentie van fixaties, kan een bepaalde rol spelen bij de opslag en het terughalen
van informatie. Na deze conclusie komt nu onderzoek aan de orde met wat meer beteke-
nis voor de bestudering van onderwijsleerprocessen.

In het kader van het onderzoek naar de remediatie van leerproblemen, worden informatie-
verwerkende strategieën de laatste jaren steeds meer in de verklaring van deze problemen
betrokken en tot voorwerp van training gemaakt (Robinson & Robinson, 1976; Abikoff,
1979; Hall, 1980; McKinney & Haskins, 1980). Wilton en Boersma (1974) registreerden
bij normale en moeilijk lerende (mildly retarded) kinderen de oogbewegingen tijdens een
aantal Piagetiaanse conservatietaakjes. Ze wilden nagaan in hoeverre verschillen in kijk-
strategieën het verschil tussen conserveren en niet-conserveren konden verklaren. De ppn
kregen films te zien waarin bijvoorbeeld van twee dezelfde glazen, die even ver gevuld
Waren met water, er een leeggeschonken werd in een hoger en smaller glas. Zoals bekend
is, zeggen niet-conserverende kinderen, na een dergelijke transformatie, dat er in het ene
glas meer water zit dan in het andere. De niet-conserverende kinderen bleken vaker naar
bet getransformeerde (het water in het hoge glas) dan naar het ongetransformeerde ele-
ment te kijken. De conserverende kinderen bekeken beide typen elementen even vaak. In
Piagetiaanse terminologie: visuele 'decentratie' trad op bij de conserveerders en niet bij de
andere groep. Wanneer tijdens de transformatie de hoeveelheid echt veranderd werd, dan
keken ook de conserverende kinderen vaker naar het getransformeerde (en nu ook in hoe-
veelheid veranderde) element, dan naar het ongetranformeerde element. Bovendien ver-
toonden de conserverende kinderen een (psychofysiologisch gemeten) verbazingsreactie
(oriëntatie reactie) op de verandering. Verder kreeg in dit onderzoek een groep niet-con-
serverende kinderen een conservatietraining. Zowel de getrainde normale kinderen als de
getrainde moeilijk lerende kinderen bleken te zijn gaan conserveren. Daarbij werden tus-
sen de getrainde conserveerders en de niet-conserveerders ongeveer dezelfde verschillen in
oogbewegingen en andere variabelen gevonden als tussen natuurlijke conserveerders en
niet-conserveerders. De conservatietraining leidde dus tot een, via het oogbewegingsgedrag
observeerbare, 'decentratie' van visuele attentie. Uit de geregistreerde nonverbale gedra-
gingen, als oogbewegingen en oriëntatie reactie, leidden Wilton en Boersma af, dat de trai-
ning tot reële veranderingen in de cognitieve structuur en niet slechts in de verbale reac-
ties geleid had. Boersma en Muir (1975) toonden aan, dat het moeilijk lerende kinderen
ontbrak aan een effectieve visuele zoekstrategie. Het verschil tussen deze en normale kin-
deren lag niet in de mate, waarin een aangeboden plaatje bekeken werd, maar in de selec-
tie van de delen, die gefixeerd werden. De moeilijk lerende kinderen hadden meer moeite
de delen met de hoogste informatiewaarde te vinden dan de normale kinderen. Boersma
en Muir wilden rechtstreekse aanwijzingen vinden voor het in de discriminatieleertheorie
van Zeaman en House veronderstelde attentieprobleem bij geretardeerden. Daarom werd
bet kijkgedrag ook geobserveerd in een discriminatieleertaak. Tijdens deze taak bleken de
moeilijk lerende kinderen, in tegenstelling tot de normale ppn, minder op de cues te let-
ten, die relevant waren voor het maken van een juiste discriminatie.
I^e belangstelling voor strategieën van informatieopname en -verwerking komt met name
tot uiting in de omvangrijke hoeveelheid recente onderzoekingen naar de beïnvloedbaar-
heid van de door Kagan geformuleerde cognitieve stijldimensie 'impulsiviteit' (Wagner,
1976; Digate et al., 19/8). Impulsieve kinderen hebben lagere cognitieve prestaties en
schoohesultaten dan reflexieve (Wagner, 1976). In een situatie, waarin verscheidene ant-
antwoordmogehjkheden bestaan, kiezen impulsieve kinderen vaker foutief en sneller een
bepaalde oplossing dan reflexieve kinderen. De gebruikehjke taak, waarin dit gedrag zich

duidelijk manifesteert, is de match-to-sample taak. In een dergelijke taak krijgt de pp een
standaardplaatje en een aantal andere plaatjes aangeboden, waarvan er slechts één precies
gelijk is aan de standaard. De pp moet het plaatje aanwijzen, dat gelijk is aan het stan-
daardplaatje. De andere varianten wijken slechts op germge wijze van de standaard af. In
een aantal oogbewegingsonderzoekingen werd nagegaan in hoeverre visuele zoekstrategieën
verantwoordelijk waren voor de verschillende gedragingen van reflexieven en impulsieven
tijdens een match-to-sample taak (Drake, 1970; Zelniker et al., 1972; AuU et al., 1972;
Wagner & Cimiotti, 1975). In twee van de vier studies werd gevonden, dat impulsieve ppn
minder varianten bekeken, dan de reflexieve (Wagner & Cimiotti, 1975; Zelniker et al.,
1972). Daardoor konden ze ook niet over de informatie beschikken, die nodig was voor
een juiste keuze. Drake (1970) en Wagner en Cimiotti (1975) vonden aanwijzingen voor
specifieke zoekstrategieën. Reflexieven zouden vooral de varianten onder elkaar of met
de standaard vergelijken om op basis daarvan onjuiste altematieven uit de overblijvende
keuzemogehjkheden te kunnen elimineren. Impulsieve kinderen zouden eerder de eerste
variant kiezen, waaraan ze niet (oruniddelhjk) de verschillen met de standaard zien. Het
eerder (in de sectie 'Leesmoeihjkheden') besproken onderzoek van Lefton (1978; Lefton
et al., 1978) sluit op deze studies aan, omdat ook zij gebrekkige informatieverwerking (in
hun onderzoek gmg het om dyslexie) trachtten te verklaren met behulp van deficiente
kijkstrategieën. De constructie van trainmgen voor het aanleren of bevorderen van zoek-
gedragstrategieën is ongetwijfeld door dit onderzoek beïnvloed. De auteur van dit artikel
rondt momenteel een onderzoek af, waarin effecten van zoekgedragmgstrainingen op visu-
ele zoekstrategieën met behulp van oogbewegmgsanalyse bij moeihjk lerende kmderen
nagegaan werd.

In het kader van het 'aptitude-mstructional treatment interactions' onderzoek observeer-
de Snow (1978) oogbewegmgen tijdens de afname van enkele items uit een aantal tests
voor cognitieve vaardigheden. De gegevens over het oogbewegingsgedrag zouden meer m-
zicht moeten kunnen geven in de individuele verschillen in leergeschiktheid op het niveau
van de informatieverwerkende processen. Tevens werden er mtrospectieve gegevens verza-
meld. Deze zouden de gevonden oogbewegingspatronen kunnen helpen verklaren. Op
basis van voorlopige resultaten concludeerde Snow, dat oogbewegingsanalyse samen met
mtrospectieve gegevens aan het gestelde doel lijken te voldoen. Voor het koppelen van
retrospectieve gegevens aan oogbewegingsdata beschreef Russo (1979) een interessante
methode. Nadat de pp een antwoord gegeven had bij een op beeldscherm gepresenteerde
probleemoplossings- of keuzetaak, werden de gefixeerde gebieden opnieuw een voor een
m de oorspronkeÜjke fixatievolgorde aangeboden. Aan de pp, werd gevraagd zijn fixaties
te becommentarieëren. De pp kon de voortgang van de aanbieding daarbij zelfbesturen.
Analyse van oogbewegingsgedrag is verder toegepast bij probleemoplossingstaken als het
voorspellen van de volgende letter van een regelmatige serie letters (Teichner & Price,
1966), het oplossen van de Raven Progressive Matrices (Just & Carpenter, 1979), het her-
kennen van müntelijk geroteerde figuren (Carpenter & Just, 1978) en het oplossen van
anagrammen (Kaplan & Schoenfeld, 1966). Verder is het met behulp van oogbewegings-
registratie mogelijk gebleken verschillende keuze- en beoordelingsprocessen bij meerkeuze-
problemen zichtbaar te maken (Russo & Rosen, 1975; Rosen & Rosenkoetter, 1976).
Tot slot wordt nog enig onderzoek genoemd, dat enigszins buiten het voorgaande kader
valt. Schroeder (1968) toonde aan, dat oogbewegingen onder operante controle te bren-
gen zijn. Maier en Hogg (1974) verlengden met een operante techniek, de duur van het
kijken naar allerlei objecten bij hyperactive, ernstig zwakzinnige kinderen. In een vervolg-

onderzoek werd de transfer naar andere taken onderzocht (Hogg & Maier, 1974). Metho-
dologische problemen belemmerden echter het trekken van duidelijke conclusies over het
transfer-effect. Flagg (1978) rapporteerde over lopend onderzoek naar de oogbewegingen
van kleuters, die naar het kindertelevisieprogramma 'Sesamstraat' keken. Zij vermeldde
eerder onderzoek, waarbij de oogbewegingen van oudere kinderen geregistreerd werden
tijdens het kijken naar een ander televisieprogramma van Chidren's Television Workshop.
Slechte lezers bleken, meer dan de goede, bij het lezen afgeleid te worden door irrelevante
visuele informatie, die gelijktijdig op het scherm zichtbaar was. Kinderen, die nog niet
lezen konden, negeerden de letters vrijwel geheel. Deze bevindingen hadden invloed op de
inhoud van de nieuwe televisieprogramma's.

In dit deel, handelend over 'Visueel zoeken, herkennen en probleemoplossen', zijn studies
aan de orde geweest, waarbij de vraagstelling soms alleen betrekking had op de plaats die
in het visuele veld gefixeerd werd. Het ging daarbij om de vraag wat de pp ziet van het
aangeboden stimulusmateriaal. Vaak betrof de vraagstelling ook de aard van het proces
waarmee de opgenomen informatie verwerkt werd. Met deze vraagstellingen werden onder-
delen van enkele min of meer bekende theorieën, zoals van Piaget, Kagan en Zeaman en
House, getoetst. Met succes werden oogbewegingsdata gebruikt om verwerkingsprocessen
zichtbaar te maken. Dit maakt duidelijk dat cognitief georiënteerde theorieën in principe
openstaan voor toetsing met behulp van oogbewegingsgegevens. In principe, want of oog-
bewegingsonderzoek op zijn plaats is, hangt ten eerste af van de mogelijkheid of de theo-
rie als procesmodel geformuleerd of formuleerbaar is. Ten tweede moeten de procescom-
ponenten enige relatie met het visuele systeem hebben, om een functionele interpretatie
van het oogbewegingsgedrag mogelijk te maken. En tenstotte moeten de procescompo-
nenten niet reeds op een eenvoudiger wijze observeerbaar zijn. Een belangrijk voordeel
van oogbewegingsregistratie bij het bestuderen van processen is, dat de observaties van
moment tot moment informatie kunnen geven over het snel veranderende oogbewegings-
gedrag, waardoor de gang van het proces te volgen is. In tegenstelling hiermee kunnen bij-
voorbeeld uit de antwoorden, die een pp op probleemoplossingstaken geeft, de procescom-
ponenten niet rechtstreeks geobserveerd worden. Ze kunnen er slechts uit afgeleid wor-
den, bijvoorbeeld met behulp van een foutenanalyse. Natuurlijk kan men het proces trach-
ten te volgen door de pp bijvoorbeeld te vragen 'hardop te denken'. Dergelijke gedragin-
gen missen echter de natuurlijkheid van het steeds aanwezige oogbewegingsgedrag. Het ge-
vaar van het uitlokken van normaal niet aanwezige gedragingen is, dat ze het bestudeerde
gedrag storen of veranderen. Een en ander wil niet zeggen dat oogbewegingen steeds een-
duidig in termen van cognitieve processen interpreteerbaar zijn (zie hiervoor de eindcon-
clusie van Rayner, 1978a). Het kan dan ook van belang zijn naast het oogbewegingsgedrag
verschillende andere afhankelijke variabelen in het onderzoek te betrekken.
Het onderzoek, dat het meest relevant voor de onderwijssituatie leek, heeft hier de meeste
aandacht gekregen. Het betrof het onderzoek naar de mogelijk leerbare of veranderbare
strategieën van informatieverwerking, die op zich in verband staan met het leveren van
schoolprestaties. In geen enkel van deze oogbewegingsonderzoekingen werden echter
onderwijsleerprocessen zelf als object van onderzoek aangetroffen.

Het oogbewegingsonderzoek geeft de mogelijkheid gedrag te observeren waarin zich pro-
cessen manifesteren, die zonder deze methode minder gemakkelijk zichtbaar te maken
zijn. Er is een toenemende hoeveelheid kennis waarvan dan ook moeiUjk in te zien is, hoe
deze met andere methoden verkregen had kunnen worden. Voorzover het detecteren van
oogbewegingen weinig of niet in het onderzochte proces ingrijpt, is de methode ook eco-
logisch valider dan andere methoden, waarbij deze ingreep wel plaats vindt. Zoals reeds
eerder vermeld, noemden Den Buurman et al. (1981) echter een aantal factoren die bij
sommig oogbewegingsonderzoek met fixatiecontingente tekstpresentatie, de experhnen-
tele situatie anders deed zijn dan de normale leessituatie. Deze factoren betroffen onder
meer de strenge fixatie van het hoofd en de tekstpresentatie op een beeldscherm in plaats
van op papier. Shebilske en Reid (1979) gebruikten wel normaal getypte tekst op kaarten.
(Hoewel hoofdfïxatie en de vaste plaats van de tekstkaarten ook bij hen de situatie artifi-
cieel maakten.) Maar zij hanteerden daarentegen een globalere oogbewegingsmaat, nl. lees-
tijd per zin. Dat roep de vraag op, of de pp dan niet beter zelf de volgende zin, bijvoor-
beeld door een druk op de knop, op een beeldscherm kan laten verschijnen. De ingewik-
kelde oogbewegingsregistratie kan dan achterwege blijven, omdat de leestijd per zin ge-
operationaliseerd wordt, als de tijd tussen twee drukken op de knop. (Deze en andere niet-
oogbewegingsmethoden voor het meten van de leestijd per zin, zijn beschreven door Van
Hout-Wolters (in voorbereiding).) In het algemeen is juist het interessante van observatie
van oogbewegingsgedrag dat er, in tegenstelling tot response-intervaltijden, latentie- of re-
actietijden e.d., continu informatie beschikbaar komt. Uit deze informatie kan o.a. het
eenvoudige feit afgeleid worden of de pp tijdens de 'leestijd' wel echt naar de zin heeft
gekeken.

De hiervoor genoemde uitbreiding van kennis is in belangrijke mate te danken aan verbe-
terde registratietechnieken en de grotere beschikbaarheid van goedkope computers. Min-
stens zo belangrijk als de technologische vooruitgang, is de mate waarin de onderzoeker
kan beschikken over een model, waarin aangegeven wordt welke rol de diverse oogebewe-
gingsvariabelen birmen het bestudeerde proces hebben. De mogelijkheid tot een eenduidi-
ge interpretatie van het oogbewegingsgedrag wordt gemaximaliseerd, doordat de onafhan-
kelijke variabelen, de stimuluspresentatie, de afhankeUjke variabelen en de scoringstech-
nieken op basis van een dergelijke model gefundeerder gekozen kunnen worden. Het be-
toog van Russo (1978) is hiermee in overeenstemming. Aangezien naar zijn mening de
persoon met oogfixaties informatie verzamelt in het kader van een cognitieve strategie,
zou de interpretatie van de fixaties, de identificatie van de onderliggende cognitieve stra-
tegie moeten impUceren (p. 109). Dit betekent bijvoorbeeld, dat frequenties van oogfixa-
ties op bepaalde stimulusdelen soms minder informatief en interpreteerbaar zijn dan fixa-
tiesequenties. Belangrijk isook, dat aannamen gedaan worden of hypothesen gesteld worden
over de rol van de fixatie in het informatieselectieproces, gegeven de aard van het aange-
boden stimulusmateriaal. Deze veronderstellingen moeten betrekking hebben op de vraag
of er alleen foveale informatie-extractie plaatsvindt of dat er ook in de periferie van het
fixatiepunt informatie opgenomen wordt.

Of registratie van oogbewegingen voor de beantwoording van een vraagstelling toepasbaar
is, moet van te voren goed afgewogen worden. De informatiewinst, die de onderzoeker
met een oogbewegingsanalyse kan boeken, moet afgezet worden tegen de omvangrijke ex-
tra investeringen in tijd en geld, die deze techniek vraagt. Deze investeringen liggen vooral

op het gebied van software-ontwikkeling of -aanpassing. De aanpassing van de programma-
tuur is vaak het gevolg van het feit dat de huidige gebruiker niet over dezelfde vraagstel-
ling, onderzoeksopzet, combinatie van electronische apparatuur, computersysteem en
-capaciteit beschikt als de vorige gebruiker. Informatiewinst is er, wanneer andere metho-
den minder relevante data voor de vraagstelling opleveren dan oogbewegingsregistratie.
Wanneer deze winst niet te verwachten is, dan verdienen eenvoudiger methoden zeker de
voorkeur.

Voor het gebruik van oogbewegingsregistratie in het onderzoek van het onderwijs zijn een
aantal mogelijkheden denkbaar. Zo is na te gaan of oogbewegingsonderzoek van dienst
kan zijn bij het bestuderen van het differentieële effect van methoden voor (aanvankelijk)
lezen en bij het verbeteren van deze methoden. Naar analogie van het reeds eerder vermel-
de onderzoek van Just en Carpenter (1980), die een model voor leesbegrip toetsten, zou
het oogbewegingsgedrag dan ds indicator voor het leesproces gebruikt kunnen worden.
Hoewel Rothkopf (1978) een aantal problemen rapporteerde, zou verder onderzocht kun-
nen worden hoe ppn, naar aanleiding van vragen, informatie in de tekst opzoeken. Ook
ruimtehjk inzicht hjkt een interessant terrein van toepassmg, gezien het onderzoek van
Carpenter en Just (1978) naar het herkennen van ruhntelijk geroteerde figuren. Met in-
schakehng van een on-lme computer voor de onmiddelhjke verwerking van oogbewegmgs-
gegevens kan tijdens computer-assisted instruction (CAI) onderzocht worden, in hoeverre
te controleren is of alle aangeboden informatie (echt) bekeken wordt. De resuhaten van
een dergehjke controle zouden gebruikt kunnen worden voor het geven van feedback aan
de pp of zelfs voor fixatiecontingente stimuluspresentatie, zoals in de experimenten van
Rayner en McConkie. Mackworth (1974) wees in het algemeen op de mogelijkheden voor
de onderzoeker om, ten eerste, met behulp van oogbewegingsregistratie te controleren of
de pp de instructie opvolgt en, ten tweede, de kijkrichting te 'shapen' naar de relevante
gebieden. Het eerder vermelde onderzoek van Maier en Hogg is van dit laatste een voor-
beeld.

Wanneer oogfixaties rechtstreeks het doelgedrag in een training vormen (zoals in de laatst-
genoemde suggestie), dan zijn daar mmstens twee theoretische bedenkingen tegen aan te
voeren. In de eerste plaats bestaat het gevaar, dat bij het beïnvloeden van de plaats van de
fixatie, de informatie die daar opgenomen wordt niet past in het lopende informatiever-
werkende proces: de pp kan op dat moment niets met de nieuwe informatie doen. In de
tweede plaats is het niet denkbeeldig, dat het aandachts- en fixatiepunt gaan dissociëren:
de pp leert wel naar nieuwe gebieden te kijken, maar ziet daar niets. Uiteindelijk moet
experimentele verificatie uitsluitsel geven over deze trainingsmogehjkheid of, zoals Lefton
(1978, p. 235) het stelde: 'If you can train eye movements and get better performance,
why not do it?' Niettemin hjkt het veiliger naast rechtstreekse beïnvloeding van het kijk-
gedrag ook invloed op het centrale informatieverwerkende proces uit te oefenen door
feedback over de taakprestaties of strategie-mstruktie te geven.

Concluderend kan worden gesteld, dat de analyse van oogbewegingsgedrag een belangrijke
aanvuUing op het instrumentarium van het onderzoek van onderwijsleerprocessen kan
zijn. Voorbeelden van onderzoek, dat deze bewering rechtstreeks ondersteunt, zijn echter
schaars. Onderwijsleerprocessen zijn nog weinig voorwerp van oogbewegingsonderzoek
geweest. De huidige betekenis van het oogbewegingsonderzoek voor het onderzoek van
het onderwijs hgt dan ook meer in het aandragen van aanvullende informatie voor de theo-
rievorming, dan in het bestuderen van onderwijskundige interventies of situaties.

1. Blaauw, G.J. en Riemersma, J.B.J. Interpretation of roadway designs by an analysis of drivers'
visual scanning and driving behavior on straight and curved roadway sections, (Report ru. IZF-
1975-C5). Soesterberg: Institute for perception, TNO, 1975.

2. Breimer, II.J. Specifieke methoden ten behoeve van experimented onderzoek. Deel II. Oogbewe-
gingsregistraties. Tilburg: Sub-faculteit psychologie, 1978.

3. Breimcr, H.J. Techniques for measuring eye movements. Paper gepresenteerd tijdens de 21e Tagung
experimentell arbeitende Psychologen, Heidelberg, april 1979.

4. Van Hout-Wolters, B. Vastieggen van kognitieve processen bij het lezen van teksten. Nieuwsbrief
O.T.G. Onderwijsleerprocessen, 1981,5, IV 5-14.

5. Van Lieshout, E.C.D.M. Kort overzicht van de belangrijkste oogbewegingsregistratietechnieken.
Nijmegen: Instituut voor Orthopedagogiek, K.U., 1982.

6. Bunt, A.A. en Sanders, A.P. Informatieverwerking in het functionele gezichtsveld: Een overzicht
van de literatuur (Rapport no. IZF-1973 C-8). Soesterberg: Instituut voor zintuigfysiologie, TNO,
1973.

Abikoff, II. A. Cognitive training interventions in children: review of a new approach. Journal of learn-
ing disabilities, 1979,12, 123-135.

Ault, R.L., Crawford, D.E. & Jeffrey, W.E. Visual scanning strategies of reflective, impulsive, fast-
accurate, and slow-inaccurate children on the matching familiar figures test. Child development,
1912,43, 1412-1417.

Boersma, F.J. & Muir, W. Eye movements and information processing in mentally retarded children.
Rotterdam: Rotterdam University Press, 1975.

Bouma, 11. Perceptieve functies. In: J.A. Michon, E.G.J. Eijkman & L.F.W. de Klerk (KeA.),Handboek
der Psychonomie. Deventer: Van Loghum Slaterus, 1976, p. 229-286.

Bouma, H. Visual search and reading: eye movements and functional visual field: a tutorial review. In:
J. Requin (Ed.), Attention and performance VII. Hillsdale, N.J.: Erlbaum, 1978, p. 115-147.

Bouma, H. & Legein, Ch.P. Foveal and parafoveal recognition of letters and words by dyslexics and by
average readers. Neuropsychologia, 1977,15, 69-80.

Carpenter, P.A. & Just, M.A. Eye fixations during mental rotation. In: J.W. Senders, D.F. Fischer &
R.A. Monty (Eds.), Eye movements and the higher psychological functions. New York: Wiley,
1978, p. 115-133.

Den Buurman, R., Roersema, T. & Gerrissen, J.F. Eye movements and the perceptual span in reading.
Reading research quarterly, 1981,16, 227-235.

Digate, G., Epstein, M.H., Cullinan, D. & Switzky, H.N. Modification of impulsivity: Implications for
improved effenciency for exceptional children. The journal of special education, 1978,12, 459-468.

Ditchburn, R.W. The function of small saccades. Vision research, 1980,20, 271-272.

Drake, D.M. Perceptual correlates of impulsive and reflective behavior. Developmental psychology,
1970,2, 202-214.

Elterman, R.D., Abel, L.A., Daroff, R.B., Dell'Osso, L.F. & Bornstein, J.L. Eye movement patterns in
dyslexic children. Journal of learning disabilities, 1980,13,11-16.

Engel, F.L. Visual conspicuity, visual search and fixation tendencies of the eye. Vision research, 1977,
17, 95-108.

Flagg, B.N. Children and television: Effects of stimulus repetition on eye activity. In: J.W. Senders,
D.F. Fischer & R.A. Monty (Eds.), Eye movements and the higher psychological functions. New
York: Wiley, 1978, p. 279-291.

Gardner, R.M., Philip, P. & Radacy, S. Pupillary changes during itcallu^chMtsn.Jourrml of experi-
mental child psychology, 1978,25,168-172.

Hall, R.J. Cognitive behavior modification and informationprocessing skills of exceptional children.
Exceptional education quarterly, 1980,1, 9-15.

Hogg, J. & Maier, I. Transfer of operantly conditioned visual fixation in hyperactive severely retarded
children. American journal of mental deficiency, 1974, 79, 305-310.

Hustmyer, F.E., Nyberg, D.A. & Stennet-Mason, L. Differences in maximum extent of lateral eye
movement and relationship to field dependency and WAIS subtests. Perceptual and motor skills,
1980,57,731-734.

Jonides, J. Towards a model of the mind's eye's movement. Canadian journal of psychology, 1980,34,
103-112.

Just, M.A. & Carpenter, P.A. The role of eye-fixations research m cognitive psychology. Behavior
research methods & instrumentation, 1976,5, 139-143.

Just, M.A. & Carpenter, P.A. The computer and eye processing pictures: The implementation of a
raster graphics device. Behavior research methods & instrumentation, 1979,11,172-176.

Just, M.A. & Carpenter, P.A. A theory of reading: From eye fixations to comprehension./"sjcAo/o^i-
cal review, 1980,57, 329-354.

Kaplan, I.T. & Schoenfeld, W.N. Oculomotor patterns during the solution of visually displayed ana-
grams, yourna/o/expenmewfa/pjj'c/io/ogj', 1966, 72,447-451.

Kowler, E. & Steinman, R.M. Small saccades serve no useful purpose: Reply to a letter by R.W. Ditch-
burn. Vision research, 1980,20, 273-276.

Lefton, L.A. Eye movements in reading disabled children. In: J.W. Senders, D.F. Fischer & R.A. Monty
(Eds.), Eye movementsand the higher psychological functions. New York: Wiley, 1978, p. 225-237.

Lefton, L.A., Lahey, B.B. & Stagg, D.I. Eye movements in reading disabled and normal children: A
study of systems and strategies. Journal of learning disabilities, 1978,11, 549-558.

Lefton, L.A., Nagle, R.J., Johnson, G. & Fisher, D.F. Eye movement dynamics of good and poor
readers: then and novi. Journal of reading behavior, 1979,i/, 319-328.

Levy-Schoen, A. & 0'Regan, K. The control of eye movements in reading (Tutorial paper). In: P.A.
Kolers, M.E. Wrolstad & H. Bouma (Eds.), Processing of visible language. Vol. 1. New York:
Plenum Press, 1979, p. 7-36.

Loftus, G.R. On-line movement recorders: the good, the bad, and the ugly. Behavior research methods
& instrumentation, 1979,11,188-191.

Loftus, G.R. & Mackworth, N.H. Cognitive determinants of fixation location during picture viewing.
Journal of experimental psychology: Human perception and performance, 1978,4, 565-572.

Mackworth, II. Introduction. In: K.M. Wilton & F.J. Boersma, Eye movements, surprise reactions and
cognitive development. Rotterdam: Rotterdam University Press, 1974, p. 1-12.

Mackworth, N.H., Kaplan, I.T. & Metlay, W. Eye movements during vigilance. Perceptual and motor
skills, 1964,18, 397402.

Maier, I. & Hogg, J. Operant conditioning of a sustained visual fixation in hyperactive severely retard-
ed children. American journal of mental deficiency, 1974, 79, 297-304.

Mandel T.S. Eye movement research on the prepositional structure of short texts. Behavior research
methods & instrumentation, 1979,11,180-187.

McConkie, G.W. On the role and control of eye movements in reading. In: P.A. Kolers, M.E. Wrolstad
& H. Bouma (Eds.), Processing of visible language. Vol. 1. New York; Plenum Press, 1979, p. 37-48.

McConkie, G.W. & Rayner, K. The span of the effective stimulus during a fixation in reading, ftrcep-
tion & psychophysics, 1975, 77, 578-586.

McConkie, G.W., Zola, D., Wolverton, G.S. & Burns, D.D. Eye movement contingent display control in
studying reading. Behavior research methods & instrumentation, 1978,10,154-166.

McKinney, J.D. & Haskins, R. Cognitive training and the development of problem-solving strategies.
Exceptional education quarterly, 1980, i, 41-51.

Noton, D.& Stark, L. Eye movements and visual ^etcaipiion. Scientific American, 1971,224, 34-43.

0'Regan, J.K. The control of saccadic size and fixation duration in reading: The limits of linguistic
<xm\xo\.Perception <6 psychophysics, 1980,2<?, 112-117.

Otteson, J.P. Stylistic and personality correlates of lateral eye movements: A factor analytic study.
Perceptual and motor skills, 1980, 995-1010.

Parker, R.E. Picture processing during recognition. Journal of experimental psychology: Human per-
ception and performance, 1978,4, 284-293.

Rayner, K. Eye movements in reading and information processing. Psychological bulletin, 1978, 85,
618-660. (a)

Rayner, K. Foveal and parafoveal cues in reading. In: J. Requin (Ed.), Attention and performance VH.
Hillsdale, N.J.; Erlbaum, 1978, p. 149-161. (b)

Rayner, K. Eye movements and cognitive psychology: On-line computer approaches to studying
visual information processing. 5e/iav/brresearc/i methods & instrumentation, 1979,ii, 164-171. (a)

Rayner, K. Eye movements in reading: eye guidance and integration. In: P.A. Kolers, M.E. Wrolstad &
H. Bouma (Eds.), Processing of visible language. Vol. 1. New York: Plenum Press, 1979, p. 61-75.
(b)

Rayner, K., McConkie, G.W. & Ehrlich, S. Eye movements and integrating information across fixa-
tions. Journal of experimental psychology: Human perception and performance, 1978, 4, 529-544.

Rayner, K., McConkie, G.W. & Zola, D. Integrating information across eye movements. Cognitive
psychology, 1980,12, 206-226.

Reder, S.M. On-line monitoring of eye-position signals in contigent and non-contingent paradigms. Be-
havior research methods & instrumentation, 1973,5, 218-228.

Remington, R.W. Attention and saccadic eye movements. Journal of experimental psychology:
Human perception and performance, 1980, 6, 726-744.

Reynolds, C.R. & Kaufman, A.S. Lateral eye movement behavior in children. Perceptual and motor
1980,5(?, 1023-1037.

Robinson, N.M. & Robinson, H.B. The mentally retarded child. New York: McGraw-Hill, 1976.

Rosen, L.D. & Rosenkoetter, P. An eye fixation analysis of choice and judgement with multiattribute
stimulL iWemoo" & cognition, 1976, 4, 747-752.

Rothkopf, E.Z. Analyzing eye movements to infer processing styles during learning from text. In: J.W.
Senders, D.F. Fischer & R.A. Monty (Eds.), Eye movements and the higher psychological functions.
New York: WUey, 1978, p. 209-223.

Russo, J.E. Adaption of cognitive processes to the eye movement system. In: J.W. Senders, D.F.
Fischer & R.A. Monty (Eds.), Eye movements and the higher psychological functions. New York:
Wiley, 1978, p. 89-112.

Russo, J.E. & Rosen L.D. An eye fixation analysis of multialternative choice. Memory & cognition,
1975,5, 267-276.

Sanders, A.F. Some aspects of the selective process in the functional visual field. Ergonomics, 1970,
IS, 101-117.

Sanders, A.F. Verrichti^stheorie. In: J.A. Michon, E.G.J. Eijkman & L.F.W. de Klerk (Kei.),Hand-
boek de psychonomie. Deventer: Van Loghum Slaterus, 1976, p. 527-546.

Schroeder, S.R. & HoUand, J.G. Operant control of eye movements. Journal of applied behavior ana-
lysis, 1968,1,161-166.

ShebUske, W.L. & Reid, L.S. Reading eye movements, macro structure and comprehension processes.
In: P.A. Kolers, M.E. Wrolstad & H. Bouma (Eds.), Processing of visible language. Vol. 1. New
York: Plenum Press, 1979, p. 97-110.

Sigman, M. & Coles, P. Visual scanning during pattern recognition in chUdren and adults. Journal of
experimental child psychology, 1980,30, 265-276.

Snow, R.E. Eye fixation and strategy analyses of individual differences in cognitive aptitudes. In: A.M.
Lesgold, J.W. PeUegrino, S.D. Fokkema & R. Glaser (Eds.), Cognitive psychology and instruction.
New York: Plenum Press, 1978, p. 299-308.

Teichner, W.H., LeMaster, D.L. & Kirmey, P.A. Eye movements during inspection and recaU. In: J.W.
Senders, D.F. Fischer & R.A. Monty (Eds.), Eye movements and the higher psychological functions.
New York: WUey, 1978, p. 259-278.

Teichner, W.H. & Price, L.M. Eye aiming behavior during the solution of visual patterns. The journal
of psychology, 1966, 62, 33-38.

Tinker, M.A. Recent studies of eye movements in reading. Psychological bulletin, 1958,55, 215-231.

Tinker, M.A. & McCuUough, C.M. Teaching elementary >eading. (3rd ed.) New York: Appleton-Cen-
tury-Crofts, 1968.

Van Hout-Wolters, B. Methoden voor procesgericht onderzoek tijdens het bestuderen van studietek-
sten. In: M. van der Kamp & L. van der Kamp (KeA.), Methodologie van de onderwijsresearch.
Lisse: Swets & Zeitlinger, 1982, in voorbereiding.

Van Vianen, A.E.M. Een onderzoek naar het lees-leerproces van leerUngen van een 6e klas basisschool
met behulp van een oculometer en een kennisrepresentatietechniek. Tijdschrift voor onderwijsre-
search,1918,3,216-235.

Volkmann, F.C., Riggs, L.A., Moore, R.K. & White, K.D. Central and peripheral determinants of sac-
cadic suppresion. In: J.W. Senders, D.F. Fischer & R.A. Monty (Eds.), Eye movements and the
higher psychological functions. New York: WUey, 1978, p. 35-54.

Wagner, I. Aufmerksamkeitstraining mit impulsiven Kindern. Stuttgart: Klett, 1976.

Wagner, I. & Cimiotti, E. Impulsive und reflexive Kinder prüfen Hypothesen: Strategien beim Pro-
blemlösen, aufgezeignet an Blickbewegungen, Zeitschrift für Entwicklungspsychologie und Päda-
gogische Psychologie, 1975, 7, 1-15.

Wilton, K.M. & Boersma, F.J. Eye movements, surprise reactions and cognitive development. Rotter-
dam University Press, 1974.

Woodworth, R.S. & Schlosberg, H. Experimental psychology. (Rev. ed.) New York: Holt, Rinehart
and Winston, 1965.

Young, L. & Sheena, D. Survey of eye movement recording methods. Behavior research methods &
instrumentation, 1975, 7, 397-429.

Zelniker, T., Jeffrey, W.E., Ault, R. & Parsons, J. Analysis and modification of search strategies of
impulsive and reflective children on the matching famiUar figures test. Child development, 1972,
43, 321-335.

An earlier discussion of the Mokken scaling procedures in this journal ended with a paper by
Jansen, Roskam and Van den Wollenberg (1982). Section 1 of the present note points out
several instances of unconvincing arguments in that paper, and gives some rejoinders. Section 2
presents a discussion of, and some new statistical checks for, the double monotony or holomor-
phism of items. In section 3 the rationale of Mokken's requirements for H-coefficients is stated,
and it is discussed that any set of completely uruelated items fulfUls the requirements of a Rasch
scale. The final section argues that the scaling procedures of Mokken and Rasch can both be
usefully applied.

Jansen, Roskam & Van den Wollenberg (1982) wegen de Mokkenschaalanalyse en bevin-
den haar te hcht. In deze paragraaf worden enige bezwaren tegen hun weegprocedure in-
gebracht. Daarna zal in paragraaf 2 de dubbele monotonie en in paragraaf 3 de H-coëffï-
cient nader worden onderzocht; de conclusie van mijn herweging bUjkt üi paragraaf 4 te
zijn dat ik de schaalprocedures van Mokken en Rasch ieder op hun eigen manier bruikbaar
acht, voor hun eigen vorm van schaalconstructie.

Aan het begin van hun paragraaf 2 schrijven mijn opponenten dat zij ingaan op de presen-
tatie van de Mokkenschaalanalyse 'in de relevante bronnen, dat wil zeggen m de enige
voor raadpleging in aanmerking komende verhandelingen over deze schaaltechniek'. Dat
zijn dan Mokkens dissertatie, twee verouderde programmabeschrijvingen, en mijn weer-
woord Molenaar (1982) op Jansen (1982). Een potentiële gebmiker die zich afvraagt wat
de bedoelmg is van Mokkenschaalanalyse krijgt van mij de raad een actuele bron te raad-
plegen, bijvoorbeeld STAP User's Manual Vol. 4 (1980) of Stokman & Van Schuur (1980),
en voor zichzelf na te gaan of de kwalificatie 'de beschrijvmgen ervan als volstrekt onvol-
doende worden bevonden' daarop van toepassing is.

Ik vind het jammer dat mijn opponenten in Molenaar (1982) nogal eens iets anders lezen
dan er volgens mij staat. Ik geef enkele voorbeelden.

Voorbeeld 1. 'Molenaar stelt in paragraaf 1, ons inziens terecht, dat Mokken veel onnodi-
ge verwarring creëert'. De woorden 'veel' en 'onnodig' heb ik niet gebruikt; ik zeg alleen
dat drie termen in verwarrende afwissehng optreden en dat o.m. op pag. 182 een onjuiste
mdrak zou kunnen ontstaan. Van dat laatste maken mijn opponenten 'is ten onrechte de
mdmk gewekt'.

Voorbeeld 2. In het begin van 4.4 lees ik: 'Molenaar's bewering dat de Mokken-schaalpro-
cedure ook 'werkt' bij items met snijdende item-karakteristieke kurven, komt ons dan

ook voor als een lege bewering'. Er stond bij mij: 'Evenals bij het onderzoek van cumula-
♦

♦ Fac. der Sociale Wetenschappen, Vakgroep Statistiek en Meettheorie, Oude Boteringestraat 23,
9712 (3C Groningen.

tiviteit in Jansen (1981a) is het in de practijk voldoende dat zij elkaar niet snijden in het
gebied waarbinnen nagenoeg alle persoonsparameters liggen'. Ik pleit er zeker niet voor
om bij geconstateerde snijding toch met het Mokken-model te werken. In het wiskundig
model gelden eigenschappen zoals monotonie en niet-snijden onbeperkt; in de empirie
zijn zij (moeizaam en indirect) onderzoekbaar voor het gebied van persoonsparameters
waarbiimen waarnemingen zijn gedaan. Of zij daarbuiten geldig bUjven weten wij niet,
maar zolang de schaal ook niet daarbuiten wordt gebruikt doet dat niet terzake. De op-
merkingen van Jansen, Roskam & Van den WoUenberg m hun paragraaf 3 over 'tailored
testing' acht ik niet overtuigend: wie na wil gaan of een itemverzameling aan het Rasch-
model voldoet, moet geen proefpersonengroep gebruiken waarin de vaardigheidsspreiding
veel kleiner is dan de spreiding van de itemmoeiUjkheden, want dan worden de extreme
items niet serieus op de proef gesteld.

Voorbeeld 3. Mijn verwijzing naar een paragraaf uit Lord & Novick waar normaal verdeel-
de subjectparameters optreden wordt verkeerd begrepen als een verwijzing naar diverse
hoofdstukken waarin de itemkarakteristieke curven normale ogieven zijn. Terwijl Jansen
zijn betoog baseert op één - in mijn ogen nogal eigenaardige - kansdichtheid (zie mijn
fig. 1) en daaruit een dataset construeert, schrijven mijn opponenten nu

Allereerst dient te worden opgemerkt dat Molenaar zijn conclusies baseert op geconstrueerde
datasets, waarin de verdeling van de subjectparameters de normale was. Zijn conclusies moeten
dan ook steeds onder deze restrictie bezien worden.

Het strijdpunt is hier of bij een stel items die aan het model van Rasch voldoen toch zoda-
nig lage H-waarden kunnen horen dat zij geen Mokken-schaal vormen. Zoals in de volgen-
de paragrafen nog terugkeert blijft zo'n schaal voor elke verdeling van de subjectparame-
ters Rasch-homogeen en holomorf (al zal het onderzoeken van die eigenschappen voor de
ene verdeling makkelijker zijn dan voor de andere). Totdat mijn opponenten het tegen-
deel aantonen blijf ik van mening dat de H-coëfficiënten - die wel van de subjectverdeling
afhangen - alleen dan l^ag zijn wanneer de spreiding in de subjectparameters, ongeacht de
verdelingsvorm, zo klein is t.o.v. de spreiding in itemmoeilijkheden dat de resulterende
schaal als ondoelmatig moet worden beschouwd: te weinig spreiding in de totaalscore en
te veel extreme items waarvan noch de parameter, noch de passing in de schaal nauwkeu-
rig kan worden bepaald. Ik heb dit voor normale verdelingen doorgerekend, maar ik heb
geen reden om aan te nemen dat de conclusie voor een andere plausibele verdelingsklasse
anders zou uitvallen.

Voorbeeld 4. Herhaaldeüjk wordt gesteld dat ik gezegd of gesuggereerd zou hebben dat
er een ordening Guttman-Mokken-Rasch-Wood bestaat. Dat is niet mijn bedoeUng: er zijn
goede Mokken-schalen die matig of slecht in het Rasch-model passen, en Rasch-schalen
die matig of slecht aan de eisen van Mokken voldoen. Die laatste zijn meestal ondoelma-
tig, zie hierboven; de eerste laten een ordening (met enige meetfout) toe van subjecten en
items in die gevallen waarin het niet gelukt is aan de eisen van het Rasch-model te voldoen.
'Mokken als voorwas voor Rasch' wordt alleen als incidentele suggestie bij Mokken en
Henning gevonden, en speelt geen grote rol in de diverse toepassingen van Mokken-analyse
die ik ken. De Mokken-schaal is zwakker dan de Rasch-schaal in de zin dat de itemcurven
niet evenwijdig en logistisch behoeven te zijn, maar sterker in de zin dat via de eisen aan
de H-coëfflciënten een kleiner aantal schendingen van de Guttman-eigenschappen wordt
bereikt.

Ik acht het verstandig de rest van deze reactie te wijden aan wat de Mokken-schaal aan
nuttige eigenschappen heeft; mijn verdere bezwaren tegen het betoog van Jansen, Roskam
& Van den WoUenberg komen dan vanzelf aan de orde voorzover ze daarbij van belang
zijn.

In deze paragraaf wordt de datamatrix van de antwoorden van n personen op k items ver-
klaard vanuit een dubbel stochastisch model, waarin de personen als een aselecte steek-
proef uit een populatie van personen worden opgevat, de items vast gekozen zijn, maar bij
gegeven personen en items de antwoorden ook nog door een kansproces worden bepaald.
In de klassieke testtheorie produceert dat kansproces een bij de ware score op te tellen
meetfout, maar in de hier beschouwde latente trekmodeUen kan bij elke persoon en ehe
item een kans op het positieve antwoord worden gedefinieerd. Bij Guttman is die kans
steeds 1 of O, zodat een deterministisch model met steekproeffouten ontstaat; de door
Guttman beoogde ordening van personen én items op één latent continuum wordt echter
niet door steekproeffouten beïnvloed, afgezien van het mogehjk samenvahen van items in
sommige steekproeven.

Omdat steekproeffouten nooit tot een verklarmg van niet-schaalbare patronen m een
Guttman-schaal kunnen leiden, introduceert Mokken een dubbel stochastisch model zo-
als hierboven (bhjkbaar is dit mijn opponenten ontgaan). De aard van het kansproces waar-
doordezelfde persoon niet steeds dezelfde reactie op een item geeft, doet voor ons betoog
niet terzake, maar het hgt voor de hand in navolging van Lumsden (1978) aan fluctuaties
bij het antwoordend subject te denken.

Het zou instructief zijn de beide stochastische componenten te scheiden door herhaalde
afname van de vragenlijst bij dezelfde personen, maar evenals in de klassieke testtheorie
beletten effecten zoals herinnering, training en vervehng ons om het kansproces exact te
rephceren. Als we, in navolging van Mokken en Rasch, zowel het kansproces van de beant-
woording als de trekJcing van personen in het model verdisconteren, kunnen we in elk geval
naar andere personen én naar een andere afname generahseren, en bhjven we voor de
denkbeeldige herhaUng bij dezelfde personen aan de veihge kant. Een enkele keer wordt
ook naar een universum van items gegeneraliseerd, maar omdat daar zelden van een aselec-
te steekproef sprake is laten wij dit aspect buiten beschouwing.

De items worden verondersteld monotoon homogeen te zijn: homogeen in de zm dat de
waarde van het subject op één latente trek bepalend is voor de kansen op positieve ant-
woorden, en monotoon in de zin dat die kans per item een stijgende functie van de laten-
te trek is. De extra eis van holomorfie of dubbele monotonie formuleren we als volgt: laat
TTj (d) de kans zijn dat een persoon met trekwaarde 6 positief antwoordt op item i, dan
geldt:

Hieruit volgt dan dat in elke groep van personen item i niet makkelijker is dan item j: de
ordening van de holomorfe items is specifiek objectief, d.w.z. hangt niet af van de groep

personen waarbij we haar observeren. Merlc op dat we, wegens beperking tot een vaste
itemverzameling, holomorfie en dubbele monotonie kuimen identificeren. Eis (1) houdt
in dat de itemkarakteristieke curven elkaar wel mogen raken maar niet snijden; het is
mogelijk ook raking te verbieden maar onze formulering heeft het voordeel dat ook per-
fecte Guttman-items er aan voldoen.

Nu zal worden toegelicht hoe de door Mokken voorgestelde controle van de holomorfie
via de P- en Po-matrix kan worden uitgebreid en statistisch gefundeerd. De voorgestelde
procedure is niet bij Mokken te vinden: zij is recent bij mij opgekomen en mogelijk nog
voor verbetering vatbaar. Ik beschouw haar als een antwoord op de verzuchting 'regret-
fully no clear criteria have as yet been developed to determine whether small disturbances
in the monotony can be accounted for by by sample errors or not' (STAP User's Manual,
1980, pag. SCS 17).

Empirisch onderzoek naar holomorfie kan wegens het gestelde onder formule (1) onge-
veer analoge wegen bewandelen als empirisch onderzoek naar de passing van het Rasch-
model (en ontmoet dan ook soortgelijke problemen). Laat ttj resp. Try de kans voorstellen
dat een willekeurig persoon item i goed maakt resp. items i en j goed maakt; met ttj] note-
ren we de kans op item i goed en item j fout, enz. De door Mokken voorgestelde inspectie
van de P en Po-matrix berust nu op dezelfde gedachte als de door Van den WoUenberg
(1979) en Formann (1981) voor het Rasch-model voorgestelde splitter-item procedure.
Immers als tt; < ttj is er minstens één waarde Qq met tt; (0o) < '"'j (^o)- D^n moet volgens
(1) deze ordening ook gelden in de subgroep met item h goed, dus geldt Tr^i < 7rj,j (mono-
tonie in de P-matrix.); de ordening geldt ook in de subgroep met item h fout, dat wil zeg-
gen TThi <7rhj, maar als we links en rechts van Trj, aftrekken betekent dat Trfii > dus
monotonie in de Po-matrix waarin immers de fracties personen staan die beide items fout
hebben beantwoord.

In het onderzoek naar de passing van het Rasch-model wordt de gelijke verhouding van de
itemmoeilijkheden ook voor andere subgroepen van personen onderzocht, en het ligt voor
de hand dat na te volgen bij de gelijke ordening van de items in subgroepen in het holo-
morfie-onderzoek. Zo kan men de personensteekproef splitsen op een extern criterium,
zoals sexe of leeftijd, en op een intern criterium, zoals het totale aantal positief beant-
woorde items (als ruwe benadering voor de latente persoonsparameter). Bij elke spUtsing
hehoort, volgens (1), de ordening van de items in de subgroepen dezelfde te zijn.
Bij uitwerking van deze gedachte moet niet worden vergeten dat kleine schendmgen van
de verwachte volgorde een gevolg kunnen zijn van het al genoemde dubbele kansmecha-
nisme (steekproef van personen en kansproces per item per persoon). Een statistische
toets op holomorfie heeft, alweer analoog aan de situatie bij het Rasch-model, het gepos-
tuleerde model als nulhypothese: bij afwijkingen die groter zijn dan uit het kansmechanis-
me verklaarbaar zal geconcludeerd worden dat de holomorfie is geschonden. De toets
moet dus liefst een hoog onderscheidingsvermogen hebben, hoewel men bij zeer grote
steekproefomvangen misschien over eventuele kleine schendingen niet wakker zal Uggen.
Om veel mogelijke schendingen van (1) te kunnen ontdekken zou men de ordening in veel
subgroepen willen onderzoeken, maar dat heeft twee nadelen: bij heel veel splitsingen zul-
len er alUcht enkele significante afwijkingen van de ordening ontstaan door kanskapitalisa-
tie, en bij splitsingen in kleine groepen is de toets niet onderscheidend omdat de waargeno-
men fracties personen dan een grote toevalsfiuctuatie bevatten. Een extreem geval van het
laatste is de splitsing in n subgroepen van één persoon elk: dan heeft elke subgroep maar
één waarde van 0, wat voor controle van (1) ideaal lijkt. Helaas hebben we dan per 'groep'

maar één dichotome waarneming: de geschatte kans is noodzakeUjk geUjk aan 1 of O, en
er wordt bij die spUtsing dus uitsluitend onderzocht of aUeen maar perfecte Guttman-
patronen optreden. Dat is niet de bedoelmg, want holomorfie laat een beperkt aantal niet-
perfecte patronen toe: door de te kleine groepsgrootte (n= 1) zijn de kansen per item
veel te onbetrouwbaar geschat (namelijk met O en 1).

Wij zuUen nu nader onderzoeken hoe groot de subgroepen bij voorkeur moeten zijn om
vanuit de ordening van de steekproeffracties per item tot een statistische conclusie over
de ordening van de kansen per item te komen. Binnen een groep g van personen, hoe ook
gevormd, kan men de nuUiypothese iTj < ttj als volgt toetsen. Laat de vier mogelijke ant-
woordcombinaties op items i en j binnen de groep met frekwenties Ng^, Ngij, Nglj, resp.
Ng"i j zijn geobserveerd. De aantallen met geen resp. beide items goed bevatten geen infor-
matie over de ordening, en voorwaardelijk gegeven Ngjj + Ng[j = t heeft Ngij een bino-
miale verdeling met parameters t en tt; men toetst nu tt < met een eenzijdige tekentoets
(McNemar-toets voor afhankeÜjke proporties). De voorspelde ordening is in groep g aUeen
voor die itemparen duideüjk geschonden waarvoor Ngj] in die tekentoets significant gro-
ter is dan Ng i j. Combmatie van deze toetsen over itemparen is enigszins problematisch door
de onderlinge afhankelijkheid, maar zij bieden in elk geval de mogelijkheid om de door
Mokken aanbevolen visuele inspectie op monotonie te verfijnen tot een detectiemiddel
dat flagrante schendmgen onderscheidt van schendingen die gemakkelijk aan het kansme-
chanisme kunnen worden toegeschreven.

Analoog aan de toets van Andersen of de itemmoeiUjklieden tussen de subgroepen dezelf-
de zijn (op de normeringsconstante na) kan men aldus onderzoeken of de ordenmg tussen
de subgroepen dezelfde is. Het is daarbij niet nodig de ordening van de items in de gehele
groep als de ordenmg in de populatie te beschouwen: als twee items nagenoeg dezelfde po-
pulariteit hebben zou het kunnen gebeuren dat in aUe beschouwde subgroepen beide
ordeningen binnen de grenzen van de toevalsfluctuatie acceptabel zijn.
Zodra de indehng m groepen bemst op de behaalde score voor item i (of item j) leidt het
onderzoek naar Ui < nj natuurlijk tot artefacten. Zo kan men m plaats van de totale score
op alle k items beter de totale score op de k - 2 overige items als indelingscriterium
gebruiken, al is dat meer werk. Wanneer die overige items sterker met item i dan met item
j samenhangen, valt te verwachten dat TTj als functie van de restscore sneUer stijgt dan ttj;
als dit tot snijding leidt, is er een aanwijzing dat item j wegens schendmg van de holomor-
fie zou moeten worden verwijderd.

Bij splitsing van de personen naar totale score dient men uiteraard ook de monotonie van
de curve per item te onderzoeken: de kans om het item goed te maken behoort met de
totale en ook met de restscore te stijgen. De groepen van personen die na weglating van
item i een restscore r hebben (r = 0,1,..., k - 1) vormen geordende onafhankelijke steek-
proeven waarbinnen de stijging van de fractie met item i goed kan worden onderzocht
met de door De Jonge (1963, hoofdstuk 12) beschreven toetsen. Bij locaal onderzoek
voor twee opvolgende groepen toetst men of de twee kansen op item i goed gelijk zijn
tegen het alternatief dat de kans daalt met r (eenzijdige toets in een 2x2 tabel met inde-
hngen naar r en item i).

Niet elke holomorfe itemverzameling is een Mokkenschaal. De additionele eisen worden
geformuleerd in termen van de H-coëfficiènt van Loevinger. Tussen twee items is dat de

correlatie gedeeld door de maximaal mogelijke correlatie gegeven de marginale (Hy = phi/
phimax); voor één item resp. voor de schaal vormt men H; resp. H als een gewogen gemid-
delde van Hy-waarden. De complete omschrijving van een Mokkenschaal is nu (STAP
Manual, 1980, pag. SCS 16-17, hier verkort weergegeven): Een verzameling dichotome
items vormt voor een populatie personen een Mokkenschaal als

De eigenschappen a), b), c) zijn afhankelijk van de subjectenpopulatie, terwijl de holo-
morfie dit in principe niet is (de empirische verificatiemogelijkheden voor holomorfie
hangen trouwens wél van de kansverdeling van de latente parameter af). Meettheoretisch
is de toevoeging van de drie eisen dus een verzwakking t.o.v. de modellen van Guttman en
Rasch, die in prmcipe specifiek objectief zijn (alweer: niet in de verificatiemogelijkheden,
maar wel in hun theorie). Ik denk dat Mokken dit offer echter niet zonder redenen brengt;
ter toehchting dient de volgende stelling.

Stelling. Elke verzameling van stochastisch onafhankelijke items voldoet aan het Rasch-
model.

Bewijs. De realisering is identiek aan de realisering van een Rasch-schaal waarbij alle sub-
jecten exact dezelfde latente waarde hebben, en de logistische curve van elk item bij die
Waarde juist de hoogte van de itempopulariteit heeft.

In Molenaar (1982) heb ik abusievelijk deze situatie toegeschreven aan Wood (1978). Mijn
opponenten hebben gelijk dat bij Wood ook nog alle items even populair zijn, zodat elke
persoon bij elk item onafhankelijk met kans een 1 of een O scoort. De modificatie vol-
gens bovenstaand bewijs acht ik even prikkelend als de bijdrage van Wood: hoe kan zoiets
triviaals als volstrekt onafhankelijke realiseringen aan zo'n sterk model voldoen? In de
appendix geef ik nog wat aanvullende berekeningen. Hier volsta ik met de opmerking dat
elk meetmodel degenereert als er geen onderscheid tussen personen is (zo is in de klassie-
ke testtheorie de betrouwbaarheid nul als er geen variantie m de ware scores is). In elk
meetmodel streef ik naar locale onafhankelijkheid maar globale afhankelijkheid; het
Rasch-model wil zozeer populatie-vrij zijn dat de laatstgenoemde eigenschap niet wordt
onderzocht.

Omdat door de toevalsfluctuatie ook bij onafhankelijke items enige spreiduig m de totaal-
score zal ontstaan, die de onderzoeker ten onrechte aan spreiding op de latente eigen-
schap zal toeschrijven, verdient het dus aanbeveling steeds na te gaan of de items in de
gehele te meten groep personen wel positief samenhangen. Ik denk dat Gustafsson (1979)
daarom in zijn computerprogramma PML de biseriële correlaties en de KR-20 afdrukt;
Wanneer aan het Rasch-model is voldaan maar de items te weinig samenhangen kunnen zij
binnen de onderzocht groep te weinig onderscheid aanbrengen.

Het voorbeeld is kunstmatig: een groep personen die allen dezelfde waarde hebben op de
te meten latente trek zal uiteraard zelden of nooit voorkomen. Maar het is wel heel goed
denkbaar dat de variatie in vaardigheid aanzienHjk kleiner is dan de variatie in itemmoei-
lijkheid, en dat is ook voor de meting met een Rasch-schaal geen goede zaak: de geobser-
veerde spreiding in totale score, en ook de spreiding tussen personen in geschatte vaardig-
heidsparameter, berust dan grotendeels op toeval.

Mijn opponenten hebben gelijk als zij stellen dat de psychometrie, in de zin van klassieke
testtheorie, bij Mokken meespeelt in termen van eisen aan Hy (een soort inter-item corre-

latie). Hi (een soort item-rest correlatie) en H (een samenhang voor de gehele schaal).
Mokken geeft ook een procedure om Cronbach's alfa te schatten, en dat is allemaal niet ver-
delingsvrij. Maar de eisen a), b), c) hebben wél het nuttig effect dat ahe verfoeilijke Rasch-
schalen met te weinig spreiding in de latente parameter niet als Mokken-schaal worden
erkend, en zoals ik in mijn vorige bijdrage al betoogde valt daar ook niet zinvol mee te
meten. Het is dan ook niet zonder reden dat nulhypothesen zoals Hj = O en H = O moeten
worden verworpen, wil er van een Mokkenschaal sprake zijn.

Tot nu toe werd de H-coëfficiënt in deze paragraaf gepresenteerd als een middel om aan-
vuUende eisen te steUen aan een holomorfe itemverzamehng. Die presentatievolgorde vol-
doet het beste om duidelijk te maken waarom Mokken aUe genoemde eisen heeft inge-
voerd.

In de practijk van de schaalconstructie zal de controle op holomorfie voor alle oorspron-
kehjk afgenomen items een tamelijk langdurig proces blijven, zelfs wanneer het program-
ma MOKKEN SCALE zou worden uitgebreid met opties om naast de P- en Pq-matrbc de
in paragraaf 2 genoemde frequenties voor geschikte groepen te berekenen en de McNemar-
toetsen uit te voeren.

Daarom verdient het aanbeveling in de practijk eerst de zoek- of test-procedures gebaseerd
op de H-coëfficiënten te gebruiken, en de controle van de holomorfie-eis te beperken tot
de schalen die daaruit resulteren. Het valt namehjk te verwachten dat items die niet mono-
toon zijn of waarvan de curven elkaar snijden, in veel gevaUen al door de op H gebaseerde
eisen worden gesignaleerd. Hun samenhang met andere items die wel in de schaal thuisho-
ren zal namelijk bij flagrante schendmgen van de dubbele monotonie doorgaans niet al te
sterk zijn.

Niet elke Rasch-schaal is een Mokken-schaal: de extra eisen via de H-coëfficiënt sluiten
die Rasch-schalen uit waarbij de vaardigheid van de personen zo weinig variëert t.o.v. de
gebruikte items dat de totaalscore hoofdzakelijk door de meetfout variëert.
Niet eUce' Mokken-schaal is een Rasch-schaal: de extra eis van logistische itemcurven met
heUing 1 sluit die Mokken-schalen uit waarbij de curven, zonder elkaar te snijden, niet
allen evenwijdig en logistisch zijn.

De meting via een Rasch-schaal heeft belangrijke voordelen, omdat specifieke objectiviteit
zowel theoretisch als practisch wenselijk is, en omdat er veel bekend is over de statistische
eigenschappen van de schatters. De vaststelling of aan het model van Rasch is voldaan is in
verschiUende opzichten lastig. Zoals Van den WoUenberg (1979) al aantoonde zijn de
gebruUcehjke statistische toetsen niet in staat alle schendingen aan het licht te brengen.
Bovendien is de keuze van de groep personen waarbij deze toetsen worden berekend
helaas van doorslaggevende invloed op de conclusies over het al dan niet passen van het
Rasch-model. Die groep zal dan ook waar enigszins mogehjk representatief moeten zijn
voor de personen die later met de schaal worden gemeten, en in elk geval minstens dezelf-
de variatiebreedte moeten hebben: schendingen voor persoonsparameterwaarden die niet
vertegenwoordigd zijn vallen immers slecht te ontdekken.

In elk geval is het voor een zinvoUe meting van subjecten met een Rasch-schaal wensehjk
via itemcorrelaties of KR20 na te gaan of de items voor de beschouwde personen wel vol-
doende samenhang vertonen. Dat is wel geen eis voor het Rasch-model, dat immers popu-

latie-vrij is, maar wel van groot belang voor de interpretatie van de persoonsparameters,
zoals in de appendix toegelicht.

De procedure van Mokken heeft het voordeel dat deze eis van samenhang direct is inge-
bouwd. Bovendien is het opbouwen van een schaalbare deelverzamehng bij MOKKEN
SCALE eenvoudiger dan bij de mij bekende programmatuur voor het Rasch-model. Als
nadeel staat daar tegenover dat een Mokken-schaal die geen Rasch-schaal is slechts een
ordinale interpretatie toelaat. Waar het zonder verlies van vahditeit en betrouwbaarheid
mogelijk is tot een Rasch-schaal te komen, het zij direct, het zij door een Mokken-schaal
achteraf op zijn Rasch-eigenschappen te beproeven, verdient de meting volgens Rasch dan
ook de voorkeur.

In paragraaf 3 werd gesteld dat k stochastisch onafhankelijke items voldoen aan het Rasch-
model. Ter toeUchting volgen hier nog enkele berekeningen. Eerst worden de itemparame-
ters geschat en ingevuld in enige bekende aanpassingstoetsen; daarna wordt een numeriek
voorbeeld gerapporteerd.

Laat TTh de fractie personen zijn die item h goed maakt, en t^ = tth/CI - "'h) de bijbeho-
rende 'odds ratio'. Zoals gebruikelijk geven we met Xh = 1 resp. O aan dat een aselect ge-
trokken persoon item h goed resp. fout maakt. Wegens de onafhankehjkheid geldt voor
elke uit nullen en enen opgebouwde vector x van lengte k:

De kans dat iemand item i goed en item j fout heeft is ni (1 - ttj). Met de expliciete metho-
de (Fischer, 1974, par. 14.7) volgt voor de itemparameters ea(a =1,2,..., k) in een denk-
beeldige grote steekproef:

Waar n^j het aantal personen aangeeft dat item a wel en item j niet juist heeft beantwoord.

Vervolgens passen dezelfde methode toe in de subgroep van personen die precies r items

goed hebben (r = 1, 2, ..., k -.1). De kans op i goed, j fout en totaalscore r is de som van

waarin de uitdrukking sy symmetrisch is in i en j. Maar dat betekent dat in deze subgroep
weer (A.2) geldt, immers er ontstaat daar in het derde lid

maar s^j = Sj«. De verhouding van de itemparameters e^ is dus in de gehele groep precies
dezelfde als m de r® scoregroep. Afgezien van steekproefonnauwkeurigheden leveren daar-
mee de toets van Martin-Löf, de toets van Andersen op scoregroepen, de Qi-toets van
Van den Wollenberg en de BlNO-toets volgens Gustafsson exact de verwachte waarden
op: het model van Rasch bhjkt perfect te passen.

Een numeriek mini-voorbeeld ter verduidelijkmg. Stel dat drie Rasch-items met itempara-
meters ei = Vs, = 1 en 63 = 3 worden voorgelegd aan een groep van 128 personen die
allen vaardigheidsparameter 0 = 1 hebben. Via de formule

volgt datpi = Va, P2 = ^ en p3 = Wegens de locale onafhankelijkheid treedt het patroon
(1,1,0) dan op met kans x ^ x (1 - %) = V32 • Zo ontstaat de tabel van verwachte aan-
tallen personen voor elk van de acht patronen (tabel A-1).

Als m.en de datamatrix van deze patronen met deze frekwentie hüeest in het computer-
programma PML vindt men KR-20 = 0.012, maar de chikwadraatgrootheden van Ander-
sen en Martin-Löf, en de Qi van Van den Wollenberg zijn allen nul, en ook de binomiale
analyse per scoregroep per item laat een perfecte gelijkheid zien tussen de 'geobserveerde'
en de door het Rasch-model voorspelde proporties per item per scoregroep.

De analyse volgens (A.2) is ook eenvoudig na te gaan. In onderstaande matrices is telkens
het aantal personen nj j met item i goed en item j fout opgenomen, zoals dat volgt uit de
frekwenties per patroon.

Het is nu eenvoudig na te gaan dat de eerste gelijkheid in (A.2), de expliciete me-
thode om e„ te bepalen, in alle drie gevallen tot e^ = 62 = l, e^ = 2 leidt. Ook kan
men controleren dat de kans op item i goed in scoregroep r inderdaad gelijk is aan
^lïi^^iht, waar 7r de bekende symmetrische functies van de epsilons voorstellen.

Fischer, G. Einführung in die Theorie psychologischer Tests. Huber: Bern, 1974.

Formann, A.K. Über die Verwendung von Items als Teilungskriterium für Modellkontrollen im Modell
von Rasch, Zeitschrift ßr experimentelle und angewandte Psychologie, 1981, Band XXVIII, Heft 2.

Gustafsson, J.E. PML: A computer program for conditional estimation and testing in the Rasch-model
for dichotomous items. Reports from the Institute of Education, University of Göteborg, No. 85,
1979.

Jansen, P.G.W. De onbruikbaarheid van Mokkenschaalanalyse, Tijdschrift voor Onderwijsresearch,
1982,7,11-24.

Jansen, P.G.W., Roskam, E.E.Ch.I. & Van den WoUenberg, A.L. De Mokken schaal gewogen. Tijdschrift
voor Onderwijsresearch, 1982, 7, 31-42.

Jonge, H. de. Inleiding tot de Medische Statistiek, deel 1, Groningen: Wolters-Noordhoff, 1963.

Lumsden, J. Tests are perfectly reliable. British Journal of Mathematical and Statistical Psychology,
1978,57,19-26.

Molenaar, I.W. De beperkte bruikbaarheid van Jansen's kritiek. Tijdschrift voor Onderwijsresearch,
1982, 7, 25-30.

Molenaar, I.W. Some improved diagnostics for failure of the Rasch model. Heymans Bulletin Psycholo-
gische Instituten Groningen, HB-80-482-EX, 1980 (aangeboden aan Psychometrika).

STAP User's Manual, Volume 4 (Stochastic Cumulative Scaling, Mokken Scale, Mokken Test), Tech-
nisch Centrum FSW, Universiteit van Amsterdam, 1980.

Stokman, F.N. & Van Schuur, W.H. Basic Sealing, Quality & Quantity, 1980,14, 5-30.

Van den WoUenberg, A.L. The Rasch Model and Time Limit Tests, dissertatie, St. Studentenpers
Nijmegen, 1979.

Wood, R. Fitting the Rasch model - a heady tale. British Journal of Mathematical and Statistical
Psychology, 1978,31, 27-32.

In this note we discuss the use of parametric versus nonparametric procedures for testing
differences between levels of one-way classifications. Such classifications occur in educa-
tional research in both randomized experiments and comparative studies. In the first
situation the researcher wants to know whether or not an independent variable influences
a dependent variable, and if so to what extent. In order to allow for causal inferences, the
experimental units are assigned at random to the experimental conditions which represent
different levels of the independent variable. In a comparative study, on the contrary, the
researcher wants to assess to what degree existing populations differ with respect to a
variable of interest. The data consist of measurements of units randomly drawn from the
different populations..

In a randomized experiment the researcher wants to compare the means of hypothetical
populations, whereas in a comparative study the means of actual populations are com-
pared. Classical tests used in these situations are a /-test or a one-way analysis of variance,
depending on whether two or more populations are involved. These tests are parametric
in that they assume that the data are sampled from particular distributions with certain
known characteristics. More specifically in the case of the ^-test and the analysis of
variance, the observations are assumed (a) to be sampled from homogeneous normal dis-
tributions and (b) to exhibit independent error components. These parametric assump-
tions allow one to derive the samphng distribution of the test statistic. It is obvious that
all Statistical inference based on such a parametric test, is contingent on the validity of
the assumptions underlying the test.

Nonparametric or distribution-free tests, on the other hand, make no assumptions about
the specific form of the distribution from which the data are supposed to be sampled.
Therefore they are often considered as valuable alternatives to their parametric counter-
parts, especially in cases where the parametric assumptions are known to be seriously
violated. But, when the parametric assumptions are met, parametric tests usually are more
powerful than their nonparametric competitors, because they are based on more informa-
tion.

A special class of distribution-free tests are the randomization tests, originally introduced
by Fisher (1935) (for an extensive survey, see Edgington, 1980). These tests appear to be
in general at least as powerful as their parametric counterparts (Bradley, 1968). They are
discussed in the next section.

Author's address: Geert De Soete, Dienst voor Psychologie, Rijksuniversiteit Gent, Henri-Dunantlaan 2,

In order to illustrate the ideas behind Fisherian randomization tests, let us consider a
procedure for comparing the means of two populations, based on two samples with
respective sizes n and m. A randomization test for this situation is based on the fact that
Under the null hypothesis that the two samples are drawn from identical populations, all
(« + m)!/n!m! possible arrangments of the « + m observations in a group of« and a group
of m observations, are equally likely. Since randomization tests really test the equality of
the population distribution, it is important to choose a test statistic that is maximally
senshive to differences in the distribution characteristic of interest, i.e. the mean. Usually
a test statistic that is monotonically related to the statistic used in the corresponding
parametric case, constitutes a good choice. In our two-sample instance, the sum of the
scores in the first group is an appropriate statistic, since it is easy to compute and is
monotonically related to the r-statistic. By computing this statistic for all (« m)\jn\m\
possible arrangements, its exact sampling distribution can be determined. In practice,
it suffices to evaluate only those values that are equally or more extreme than the observed
Value. Note that the randomization test discussed above can be straightforwardly exten-
ded to deal with more than two samples (cf. Edgington, 1980; Willmes and Pyhel, 1981).
From the previous paragraph it should be clear that each dataset gives rise to a different
sampling distribution. Consequently each time the test is applied, the sampling distribu-
tion of the statistic must be determined anew. Mainly because of this computational
burden, Fisherian randomization tests have not enjoyed much popularity. In order to
circumvent the need for recalculating the distribution of the test statistic for each par-
ticular data set, Fisherian randomization tests have been replaced by rank-randomization
tests (cf. e.g. Bradley, 1968) and approximate randomization tests (Still and White, 1981).

Rank-randomization tests are not based on the raw observations themselves, but on their
ranks. Consequently, the sampling distribution does not depend anymore on the observed
data, but only on the sample sizes. An example of such a test is the Wilcoxon-Mann-
Whitney U test for comparing the means of two populations. Contrary to Fisherian
randomization tests, rank-randomization tests do not utilize all information contained in
the data. Therefore they tend to be less powerful than the Fisherian randomization tests.

Given the inferiority of rank-randomization tests when compared to Fisherian randomiza-
tion tests, one could question whether randomization tests based on the actual data
should not be used more often. Considering the widespread availability of high speed
computers, the computational load associated with these tests should - at least for small
samples - not be a real problem anymore. Green (1977) implemented a program for the
two sample test of location discussed above. Even if the number of possible arrangements
is as large as 8,000,000, the test does not require more than 20 seconds CPU time on a
DEC-system 10 computer. This illustrates that for small sample sizes Fisherian randomiza-

tion tests are quite feasible. It is important to notice that just when the sample sizes are
small, (a) parametric tests tend to be most susceptible to violations of the underlying
assumptions and (b) violations are least likely to be detected. Therefore, for small sample
sizes, Fisherian randomization tests seem to be a good choice.

If the sample sizes become large, exact randomization tests are not practical anymore.
One way out is to approximate the sampling distribution of the statistic by Monte Carlo
sampling (cf. Still and White, 1981). On the other hand, there is some evidence (Kemp-
thorne, 1955, 1975; Pittman, 1938) that as far as randomization tests for comparing
population means are concerned, the sampling distribution tends to approximate the
sampling distribution of the corresponding parametric test as the sample sizes increase,
provided of course that the same test statistic is used. Consequently, if the sample sizes
are large, the parametric tests can be safely apphed, without worrying much about
violations of the underlying assumptions.

Bradley, J.V. Distribution-free statistical tests. EnglewoodCliffs, N.J.: Prentice Hall, 1968.
Edgington, Tl.^. Randomization tests. New York: Marcel Dekker, 1980.
Fisher, R.A. The design of experiments. Edinburgh: Oliver & Boyd, 1935.

Green, B.F. A practical interactive program for randomization tests of location. American Statistician,
1977, Ji, 37-39.

Kempthorne, O. On the randomization theory of statistical inference./our/w/o/fAe/lmericfl« Statis-
tical Association, 1955,50, 946-967.
Kempthorne, O. Inference from experiments and randomization. In J.N. Srivastava (Ed.),/4 survey of

statistical design and linear models. Amsterdam: North-Holland, 1975.
Pittman, E.J.C. Significance tests which may be applied to samples from any populations. III. The
analysis of variance. British Journal of Mathematical and Statistical Psychology, 1981, 34, 243-
252.

Still, A.W. & White, A.P. The approximate randomization test as an alternative to the F test in analysis

of variance. British Journal of Mathematical and Statistical Psychology, 1981,34, 243-252.
Willmes.'K., & Pyhel, N. Permutationstests als Alternative zur Varianzanalyse - Der Split-Plot Ver-
suchsplan Zeitschrift far Sozialpsychologie, 1981,12,186-198.

Bij de Subfaculteit Opvoedkunde van de Faculteit der Sociale Wetenschappen bestaat een vacature
voor een

Deze hoogleraar maakt deel uit van de vakgroep Algemene Opvoedkunde, waarin zijn ondergebracht
de afdelingen Theoretische Opvoedkunde, Historische Opvoedkunde en Methodenleer/Statistiek.

De honorering van de te benoemen hoogleraar zal geschieden overeenkomstig de hoogleraarssalaris-
schaal A, waarvan het maximumsalaris gelijk is aan het maximum van schaal 152 BBRA.

Uw sollicitatie, vergezeld van een curriculum vitae en lijst van publikaties kunt u -
binnen 6 weken - richten aan de Secretaris van de Benoemingscommissie
drs.J. J. Hox, Subfaculteit Opvoedkunde, Prinsengracht 227, 1015 DT Amsterdam,
onder vacaturenummer 5597, bij wie u ook nadere inlichtingen kunt inwinnen.
Telefoon 020-525 3315.

Een structuurrapport met volledige profielschets kan bij de Secretaris van de
Benoemingscommissie worden opgevraagd.

Ook zij die de aandacht willen vestigen op mogelijke kandidaten kunnen zich
wenden tot de genoemde Secretaris.

Vergelijkenderwijs: onderzoek naar de invloed van metaforen op het leren
Van Spaendonck drukkerij, Tilburg, december 1980

In zijn dissertatie bespreekt Simons onderzoek naar de invloed van metaforen op het leren. Het boek
bestaat uit een theoretisch, een methodologisch en een onderzoeks deel. In totaal 9 hoofdstukken.
Het theoretisch deel beslaat hoofdstuk 1 t/m 4. In hoofdstuk 1 worden drie soorten onderwijskeniner-
ken onderscheiden: pre-instruktie, instruktie en postinstruktie-kenmerken. Dit proefschrift heeft be-
trekking op pre-instruktievariabelen, met name metaforen. Er wordt uiteengezet dat veel belang wordt
gehecht aan zgn. 'ecologische validiteit' en dat de LOR formulering (lees: Leerkenmerken, Onderwijs-
maatregelen en Resultaten van onderwijs) van het ATI model wordt aangehangen.
In hoofdstuk 2 wordt beschreven wat men wel en niet mag verwachten van dit soort onderzoek. Bo-
vendien wordt aangegeven hoe men dit soort onderzoek dient aan te pakken (correspondentieanalyse).
Hoofdstuk 3 begint met een ruime defmitie van metaforen: 'Metaforen, analogiën, vergelijkingen, gelij-
kenissen, parabels en dergelijke' worden niet van elkaar onderscheiden. In feite gaat het om een 'paral-
lelliteit tussen twee of meer verschijnselen of begrippen' (blz. 55). Vervolgens wordt een artikel van
Ortony besproken over metaforen. Daarna komen de theorieën van Mayer, Ausubel, Wittrock, Pask en
Davidson aan de orde voor zover ze van toepassing geacht worden op het functioneren van metaforen.
Geconcludeerd wordt tenslotte dat er behoefte is aan ATI-onderzoek.

Na een bespreking van wat onderzoek over metaforen (in ruime betekenis) wordt in hoofdstuk 4 ge-
steld dat meer aandacht moet worden besteed aan de variabele studietijd. Verschillen in studieresulta-
ten in verschillende experimentele condities zijn mogelijk het gevolg van verschillende studietijden.
Het methodologisch gedeelte bestaat uit hoofdstuk 5 en 6. In hoofdstuk 5 wordt o.a. aandacht besteed
aan de betekenis van voortoets gegevens en aan de wijze waarop men deze kan analyseren. Een ander
belangrijk deel van dit hoofdstuk bestaat uit een bespreking van multipele regressie als methode om
ATl-data te analyseren.

Hoofdstuk 6 wijdt een kritische bespreking aan vier verschillende methoden voor het controleren en
manipuleren van de variabele studietijd.

Het onderzoeksgedeelte bestaat uit 2 series van elk drie experimenten (hoofdstuk 7 en 8), gevolgd
door een algemene discussie (hoofdstuk 9).

- Het prescriptief gedeelte is goed uitgewerkt en kan sterk worden aanbevolen aan een ieder die zich
bezighoudt met het onderzoek op het gebied van tekstbestudering en/of ATI (hoofdstukken 2, 5
en 6).

- De keuze van leerlingkenmerken die volgens de correspondentie analyse op een beargumenteerde
wijze dient te gebeuren, wordt nogal eens onvoldoende gemotiveerd, of lijkt gezien de kwaliteit van
de gebruikte meetinstrumenen minder geschikt.

De verwachtingen die wij op grond van het prescriptieve gedeelte kregen t.a.v. het onderzoeksdeel,
bleken bij nader inzien te hoog gespannen. In het onderzoeksdeel wordt gesuggereerd dat de verschil-
lende experimenten min of meer in eikaars verlengde liggen. Er wordt gesproken over 'replikatie' (ex-
periment 2 zou een replikatie zijn van experiment 1) terwijl er maar liefst 10 verschillen worden gesig-
naleerd door de auteur zelf (zie blz. 182 e.v.). In deze opsomming zijn dan nog niet opgenomen de ver-
schillen die de autuer op blz. 180 en 181 noemt. Op twee belangrijke verschillen willen we vooral wij-
zen:

'...de metaforen werden aangepast. Op basis van o.a. de beoordelingen van de metaforen door de leer-
lingen werd slechts één metafoor gehandhaafd ("speculaas"). De ander 4 metaforen werden vervangen
door 2 nieuwe - aanzienlijk kortere -: het "eethuisje" en het "schoolfeest"'.

Ook de Spy Ring History test (9) werd 'verbeterd en vereenvoudigd' (opgenomen om operation learn-
ing en comprehension learning te meten). Deze aanpassingen hebben wellicht allerlei effecten gehad.

Bijv. blijkt nu operation learning .52 te correleren met comprehension learning (eerst was deze .17).
(Dit doet ons overigens afvragen wat de betrouwbaarheid van beide scores is in de verschillende experi-
menten. Mogelijk meten beide scores in de verbeterde versie hetzelfde.) Experiment 1 wijkt volgens
ons dermate af van experiment 2 dat van replicatie geen sprake kan zijn. Wij zijn niet verbaasd over
de tegengestelde resultaten, hoogstens over het gemak waarmee de auteur in experiment 2 zijn onder-
zoekshypothese wijzigt conform de resultaten uit experiment 1.

Een ander voobeeld van gebrek aan aansluiting is het volgende. In hoofdstuk 7 wordt o.a. geconclu-
deerd: 'De resultaten van de drie experimenten zijn met elkaar in overeenstemming, wanneer we aan-
nemen dat metaforen alleen tot prestatieverhoging leiden als er tijd beschikbaar is (en de leerlingen
bereid zijn deze tijd te investeren) om de metaforen op zich te bestuderen en om de metaforen met de
lesstof te vergelijken. Op basis van experiment 3 mag niet worden geconcludeerd, dat metaforen ineffici-
ënte hulpmiddelen zijn. Wellicht blijken ze bij langere nominale studietijden met proefpersonen die
bereid zijn die langere tijden te blijven studeren (bijvoorbeeld bij 'distributed practice'; verschillende
korte sessies aan dezelfde stof werken), wel efficiënt en effectief te zijn' (blz. 226). Bij het 1® experi-
ment uit hoofdstuk 8 lezen we dat er: '...werd gekozen voor een krappe studietijd die niet willekeurig
maar op basis van een vooronderzoek werd bepaald. Uit tabel 6.1 kan warden afgelezen, dat we in zo'n
geval alleen te maken kunnen krijgen met interpretatieprobleem A (als er geen significante verschillen
Worden gevonden kan dit te wijten zijn aan de te korte studietijden' (blz. 240).
Een laatste voorbeeld. Een conclusie uit experiment 1 luidt: 'Er dient een algemene intelligentietest te
Worden afgenomen, zodat kan worden nagegaan of interacties veroorzaakt kunnen zijn door intelligen-
tie' (blz. 178). Volgens opgave van de auteur is evenwel het testmateriaal in experiment 1 en 2 hetzelf-
de. Over algemene intelligentie wordt niet meer gesproken.

Met betrekking tot de andere experimenten volstaan we met de opmerking dat bij de introductie steeds
wordt gesteld dat het doel van het experiment is 'na te gaan of de eerdere resultaten ook gelden
voor...' Die eerdere resultaten zijn ons inziens in geen geval zo duidelijk dat onderzoek naar de reik-
wijdte van de resultaten reeds geboden zou zijn. Vervolgonderzoek zou zich veel meer dienen te
concentreren op het brengen van klaarheid in de resultaten. Wanneer bijvoorbeeld na de eerste twee
experimenten wordt geconcludeerd dat er behoefte is aan onderzoek naar betrouwbaarheid en validi-
teit van de Spy Ring History test dan wekt het bevreemding dat in experiment 3 een ander leerlingken-
merk wordt genomen. Een zinvoller vervolg van experiment 2 zou volgens ons geweest zijn een analyse
Van de in beide experimenten verzamelde gegevens over betrouwbaarheid en validiteit van de eerder
genoemde test. (In experiment 1 en 2 werd - aldus de auteur op blz. 155 - de Hidden Figures Test en
de DAT-analogieën subtest opgenomen als opvultaak én ter validering van de Spy Ring History test!)
Deze analyse zou dan eventueel nog gevolgd moeten zijn door een specifieker daarop gericht onder-
zoek.

Onze conclusie is dan ook dat correspondentie analyse op zich onvoldoende waarborgen biedt voor
goed ATI onderzoek. Noodzakelijk is een gerichte controle uit te voeren op de gebruikte meetinstru-
menten. De psycholoog als onderzoeker moet zijn traditionele ambachtelijke kwaliteit als instrument-
maker niet verwaarlozen.

De theorie m.b.t. de werking van metaforen afliankelijk van bepaalde leerllngkenmerken heeft weinig
diepgang. Zo wordt in experiment 1 zonder veel omhaal de hypothese gesteld: 'De effecten van meta-
foren zijn afhankelijk van de leerstijl van leerlingen: Comprehension learners profiteren er meer van
dan operation learners', (blz. 150) (activatie hypothese)'. In experiment 1 wordt deze hypothese niet
bevestigd. Geen nood. Nu geldt plotseling een supplantatie model. Wanneer ook dit in experiment 2
niet wordt bevestigd concludeert de auteur: 'Overigens zijn de bij de MAVO-Ieerlingen optredende in-
teracties nu wel in overeenstemming met de oorspronkelijke hypothese (blz. 197)'. En in experiment 3
Wordt vervolgens een ander leerlingkenmerk genomen. De auteur had beter de schijn van hypothese
toetsend onderzoek kunnen vermijden.

Tenslotte moet ons van het hart dat er een aantal slordigheden (onjuistheden en weglatingen) in de
tekst voorkomen. In de inleiding stelt Simons dat Onderwijspsychologisch onderzoek zoveel mogelijk
ecologisch valide én zoveel mogelijk intern-valide moet zijn: 'Steeds zal men moeten zoeken naar een
evenwicht' (blz. 13). Maatregelen gericht op ecologische validiteit ontbreken.

Op blz. 155 beweert de onderzoeker dat de HFT werd ontwikkeld om veld(on)afhankelijkheid te
meten. Dat is niet juist. Deze test is een van de subtests om 'fiexibility of closure' te meten in de Kit
of reference test for cognitive factors (zie French et al. 1963, waar niet naar verwezen wordt). Deze
tekst wordt wel vaak gebruikt om veId(on)afhankelijkheid te meten maar sinds Oltman et al. (1971) de
GEFT ontwikkelden als een objectief te scoren groepstest, verdient deze test de voorkeur, zoals blijkt
•ut onderzoek van Dumsha et al. 1973. Vreemd is dat het begrip veld(on)afhankelijkheid niet theore-
tisch wordt uitgelegd (zelfs een verwijzing naar b.v. Witkin et al. (1977), kan er niet af,) terwijl het wel

in 3 van de 6 experimenten bij het testmateriaal voorkomt. Eveneens is het vreemd dat een test (de
HFT) wordt opgenomen ter validering van een andere test (Spy Ring History), terwijl bij de rapporte-
ring van de resultaten slechts gesproken wordt over het hoofdeffekt van H.F.T. en de H.F.T. x condi-
tie-interacties, waarbij dan verwezen wordt naar Simons, et al. (1981) waar we lezen dat er in de expe-
rimenten van het proefschrift een interactie tussen functies van metaforen en veld(on)afhankelijkheid
werd verwacht.

Over de DAT analogiën subtest, ook opgenomen ter validering van Spy Ring History test, wordt bij de
resultaten van experiment 1 totaal niet gesproken (ook in de bijlage niet!). Overigens ontbreekt ook bij
de DAT bronvermelding.

Ook bij de introducties van andere tests is de auteur niet zorgvuldig. Op blz. 233 e.v. wordt de TLW
besproken. Deze bestaat uit 15 items. 5 items daarvan zijn afkomstig uit de Q.M.1. In dit kader vinden
wij de volgende constatering misleidend: 'White, Sheehan en Ashton (1977) rapporteerden acceptabele
gegevens m.b.t. interne consistentie en de betrouwbaarheid van de Q.M.I.' Hoe staat het met de be-
trouwbaarheid van de TLW is onze vraag.

Ook van 3 oude tests van Thurnstone wordt gesteld dat betrouwbaarheid en constructievaliditeit vol-
gens Thurnstone goed zijn. Bronvermelding ontbreekt.

Wanneer wij de balans opmaken: Een goed prescriptief gedeelte, maar de auteur had ons inziens de
experimenten beter kunnen presenteren als 6 losstaande onderzoeken over de functies van metaforen
en daarbij de prescripties m.b.t. de correspondentie analyse beter kunnen opvolgen dan nu uit de rap-
portering blijkt. We hebben waardering voor de wijze waarop de auteur onderzoek heeft gedaan op dit
gebied. De kracht van dit proefschrift was groter geweest wanneer het prescriptieve gedeelte gevolgd
was door een demonstratie van deze wijze van onderzoek doen aan de hand van een 6-tal experimenten
op het gebied van metaforen en hun funktie.

Dumsha. T.C., Minard, J. and Jun-ko McWiUiams. Comparison of two selfadministered field dependecy

me&smes. Perceptual and Motor Skills, 1973, iö, 252-254.
French, J.W., Ekstrom, R.B., and Prince, L.A. Kit of reference test for cognitive factors. Princeton:

Educ. Testing Service, 1963.
Oltman, P.K., Raskin, E. & Witkin, H.A. Group Embedded-figures Test. Palo Alto, Calif.: Consulting

Psychologists Press, 1971.
Simons, P.R.J., De Klerk, L.F.W. en Lodewijks, J.G.L.C. Aptitude-treatment interacties tussen veld-
(on)afhankelijkheid en onderwijskenmerken. Nederlands Tijdschrift v.d. Psychologie, 1981, 36,
317-326.

Witkin, H.A., Moore, C.A., Goodenough, D.R. and Cox, P.W. Field-dependent and fleldindependent,
cognitive styles and their educational implications. Review of Educational Research, 1977, 47,
1-65.

Leerstofsequenties: van conceptueel netwerk naar cognitieve structuur.
Proefschrift Katholieke Hogeschool Tilburg, mei 1981

'If I had to reduce all of educational psychology to just one principle, I would say this: the most
important single factor influencing learning is what the learner already knows. Ascertain this and teach
him', is het motto, ontleend aan Ausubel, dat Hans Lodewijks meegaf aan zijn dissertatie over leerstof-

sequenties. Of dit motto een rol gespeeld heeft bij het vervaardigen van voorliggende dissertatie weet
ik niet. Het kennisniveau van de leerling was in dit geval moeilijk vooraf te bepalen. Wel kan voor de
Psychologisch-geschoolde onderwijskundige gesteld worden dat hij/zij zonder veel moeite deze interes-
sante studie kan lezen en er ook nog wat van kan leren.

Na zijn opleiding in Utrecht en Amsterdam en zijn vorming bij prof. dr. L.F.W. de Klerk (tevens zijn
promotor) heeft Lodewijks met deze fraaie onderwijspsychologische studie zijn laatste universitaire
'examen' gehaald en bewezen zelfstandig onderzoek te kunnen verrichten.

Het proefschrift bevat negen hoofdstukken plus een engelse samenvatting, literatuurreferenties en bij-
lagen. Hoofdstuk 1 geeft met als uitgangspunt het motto, de vraagstelling van de studie; '...in hoeverre
Verschillende aanbiedingsvolgorden van conceptuele informatie tot verschillende cognitieve structure-
i^ngen van deze informatie bij de leerling leiden. De reeds bij de leerling aanwezige kennis (de voorken-
nis) speelt hierbij een belangrijke rol. Het effect van de aanbiedingsvolgorden is daar mede van afhan-
keUjk.

Hoofdstuk 2 'Keimisverwerving' en Hoofdstuk 3 'Leerstofsequenties' vormen te zamen het theoreti-
sche deel van de dissertatie als voorbereiding op de in hoofdstuk 4, 5 en 6 te bespreken experimenten.
Onder kennisverwerving moet worden verstaan de overdracht van kennis van de deskundige (de expert)
aan de leerling (de ondeskundige, de novice). Van de cognitieve structuur van de expert naar de cogni-
tive structuur van de leerling. De overdracht moet plaatsvinden door middel van een inhoudelijke struc-
tuur: '...een coherent en consistent geheel van te onderwijzen kennis (leerstof) zoals die zijn weerslag
vindt in bijvoorbeeld leerboeken en -materialen,...'. De taak waarvoor Lodewijks zich gesteld heeft, is
het optimaliseren van die inhoudelijke structuur, gegeven de voorkennis van de leerlingen.
In hoofdstuk 2 worden opvattingen besproken over structuren (theoretische, inhoudelijke, cognitieve)
en over de representatie van die structuren (kennisrepresentatie: mentale, conceptuele). Aan de orde
komen de eigenschappen van die structuren en de wijze waarop representaties daarvan geconstrueerd
kunnen worden. Veel aandacht wordt besteed aan de constructie van representaties van theoretische
en inhoudelijke structuren. De representaties van cognitieve structuren zijn minder gemakkelijk te con-
strueren, vandaar misschien de geringere plaats die daarvoor wordt ingeruimd. Een uitweiding over op-
vattingen en theorieën van Collins & Quillian, Anderson & Bower, Norman & Rumelhart en misschien
Kintsch zou hier op zijn plaats zijn geweest. Het probleem doet zich dan wel voor, zoals Lodewijks
terecht opmerkt, dat dergelijke benaderingen te microscopisch zijn om bruikbare toepassingen te cre-
ëren in het onderwijs. Waarschijnlijk kan hetzelfde gezegd worden van het gebruik van multidimen-
sionele schaaltechnieken, waarvoor L^ewijks in het kader van de bespreking van representaties van in-
houdelijke en cognitieve structuren wel de nodige plaats heeft ingeruimd. Hoofdstuk 2 draagt als titel
'Kennisverwerving'. In het hoofdstuk wordt gesproken van het verwerven van kennis, het verwerken
Van informatie, het kennisverwerkingsproces, het proces van kennisverwerving, kermisverwerking en
-verwerving, het te verwerken kennisbestand. Het door elkaar heen gebruiken van de termen verwer-
ving en verwerking kan verwarringen veroorzaken, te meer daar in het begin van het hoofdstuk verwer-
ken als een onderdeel van het kennisverwerven wordt omschreven.

De overdracht van kennis van de leerkracht naar leerling, van cognitieve structuur naar cognitieve struc-
tuur geschiedt zoals gezegd, via de inhoudeüjke structuur. In hoofdstuk 2 wordt daarom de nodige
aandacht geschonken aan benaderingen die te maken hebben met het optimaliseren van die inhoudelij-
ke structuur, in het bijzonder daar waar ze betrekking hebben op het probleem van de juiste volgorde
Van de leerstofelementen (het sequentiëringsprobleem). Een keuze in het onderscheid tussen leerstofaf-
hankelijke en niet-leerstofafhankelijke sequentiëringsprincipes wenst Lodewijks niet te maken. Beide
soorten komen derhalve aan bod. Een ander onderscheid, tussen sequentiëringen van leerstofinhouden
en sequentiëring van onderwijs(leer)activiteiten wordt door Lodewijks wel gemaakt en de inhoud van
hoofdstuk 3 is door de keuze tussen deze twee bepaald, namelijk, alleen sequentiëringen van leerstof-
inhouden komen aan bod. Een nogal hybride verzameling van opvattingen, benaderingen, theorieën
Volgt dan met het sequentiëren van leerstofelementen als doel, zoals Klauer (analytische versus synthe-
tische sequenties), Glaser (inductieve versus deductieve sequenties), successieve versus concentrische
sequenties, temporale versus thematische sequenties, Mayer (assimilation to schema) etc.. Lodewijks
eindigt hoofdstuk 3 met een poging tot integratie. De indeling in sequentiëringsprincipes van Posner &
Strike is daarbij de leidraad. Sequentiëringsprincipes voor leerstofonderdelen en niet voor onderwijs-
(leer)activiteiten, zoals aan het begin van hoofdstuk 3 beweerd wordt. Merkwaardig dat Nijhof & Reints
dezelfde indeling van Posner & Strike uitwerken naai sequentiëringsprincipes voor onderwijs(leer)acti-
viteiten. Waarom dan toch een dergelijk onderscheid? De woorden van Lodewijks ten aanzien van leer-
stofafhankelijk en niet-leerstofafhankelijk kunnen bij het onderscheid tussen leerstofsequentiëring en

onderwijssequentiëring herhaald worden: 'Theoretisch mag zo'n onderscheid te handhaven zijn, in de
praktijk stuit het op moeilijkheden'. Bovendien moet mijns insziens op cognitief-psychologische gron-
den een dergelijk onderscheid verworpen worden. De wijze waarop informatie verwerkt wordt en de
strategieën die de leerling daarbij hanteert zijn leerstofafhankelijk (zie Resnick). Bij het ontwerpen van
onderwijsleersituaties zal derhalve rekening gehouden moeten worden met de leerstofspecifieke aard
van informatieverwerking. Welbeschouwd impliceert de indeling van Posner & Strike dit ook.
Hoofdstukken 4, 5 en 6 bevatten 3 experimenten waarin sequentiëring van leerstofelementen onder-
zocht werd door communale (door de leerkracht bepaalde) sequentiëring te vergelijken met random
bepaalde sequentiëring (experiment 1), door autodeterminatie (door de leerling samengestelde volgor-
de) tc vergelijken met een communale en een random-volgorde (experiment 2), en door logische au-
todeterminatie (door de leerling bepaald op grond van de sterkte van de relaties tussen de begrippen)
-condities met elkaar te vergelijken (experiment 3). In alle drie experimenten betrof het een cursus na-
tuurkunde waarin een aantal fundamentele begrippen uit de electriciteitsleer geleerd moest worden. De
communale volgorde van de begrippen werd bepaald door VWO-docenten, die of gevraagd werden naar
de meest wenselijke aanbiedingsvolgorde (experiment 1), of gevraagd werden de begrippen te rang-
schikken van de meest eenvoudige tot de meest complexe (experiment 2). Misschien dat 'aanbiedings-
volgorde' (experiment 1) een addertje onder het gras inhoudt, in die zin dat hier sprake kan zijn van
een methodische sequentiëring (betrekking hebbend op de onderwijsleeractiviteiten) in plaats van de
door Lodewijks gewenste (leerstof) inhoudelijke sequentiëring? De random-volgorde werd bepaald op
grond van de alfabetische volgorde van de begrippen. De autodeterminatie-volgorde werd door de leer-
ling bepaald (experiment 2). Dt autodeterminatie-volgorden in experiment 3 waren aan restricties ge-
bonden door een vooraf door de experimentator bepaald en door de leerling te hanteren referentiëel
netwerk van begrippen.

De eerste indruk die door de resultaten wordt gewekt is: de leerlingen weten zelf bijzonder goed in wel-
ke volgorde ze de leerstofonderdelen moeten bestuderen. Laat ze de leerstof maar zelf ontdekken. Bij
nadere bestudering valt toch iets op. In experiment 1 wordt een vergelijking gemaakt tussen een com-
munale (door de leerkracht bepaalde) leerstofsequentie en een randomsequentie. Een op het eerste ge-
zicht onrechtvaardige vergelijking. De communale sequentie wordt vergeleken met een sequentie die in
het onderwijs ondenkbaar is, en zou derhalve a priori in het voordeel zijn. Dat er desalniettemin geen
verschil tussen beide sequenties gevonden wordt, doet des te meer twijfelen aan de door de VWO-do-
centen samengestelde volgorde. Experiment 2 en 3 bevestigen deze zienswijze, vooral wanneer de ver-
gelijking gemaakt wordt met de door de leerling zelf bepaalde volgorde (met of zonder restrictie). Een
voor onderwijsonderzoekers en -ontwikkelaars niet zo'n plezierige constatering, dunkt mij. Lodewijks
verwoordt dit probleem op bijzonder fraaie wijze aan het einde van hoofdstuk 5: 'De gevonden resulta-
ten werden geïnterpreteerd als een bevestiging van de verwachtiging dat onderwijsmaatregelen met
name effectief zijn naar de mate waarin zij rekening houden met individuele verschillen in voorkeruiis-
bestanden bij de leerlingen, dan wel de mogelijkheid bieden informatie op een wijze te verwerken die
congruent is met de habituele informatieverwerkingsstijl van leerlingen' (p. 149). Welke individuele ver-
schillen en welke informatieverwerkingsstijlen, is de volgende vraag. De rest van de dissertatie zou hier
antwoord op moeten geven. Hoofdstuk 7 en 8, respectievelijk getiteld 'Aptitude-treatment-interaction'
en 'Experiment (4): individuele verschillen en leerstofsequenties', bieden uitzicht op de mogelijkheden
en onmogelijkheden van het gebruik van het ATI-paradigma. In hoofdstuk 7 (dat ook voorkomt in de
dissertatie van Simons, collega-onderwijspsycholoog in Tilburg) gaat Lodewijks in op de misverstanden
met betrekking tot ATI, de voorwaarden die vervuld moeten zijn voor een juist gebruik van het ATI-
paradigma en voor een juiste interpretatie van ATI-resultaten. Het hoofdstuk eindigt met de door
Lodewijks en Simons ontwikkelde correspondentie-analysestrategie, een strategie die tien stappen om-
vat, inhoudende o.a. beschrijvingen en analyses van de leertaak, de leerling en de situatie (onderwijs-
maatregelen, instructievorm). In experiment 4 wordt deze strategie toegepast, althans Lodewijks be-
weert (op p. 236) dat met behulp van deze strategie een aantal leerlingkenmerken werd afgeleid. Hoe,
op welke wijze? Dat is voor de lezer verborgen gehouden. De hierboven vermelde interpretatie van
Lodewijks op grond van experimenten 1 tot en met 3 preludeerde reeds op de uitkomsten van experi-
ment 4 in hoofdstuk 8. Immers, in experiment 4 komen de leerlingkenmerken ruimschoots aan bod en
verwacht mocht worden dat de effectiviteit van onderwijsmaatregelen (in dit geval sequentiëring), re-
kening houdende met de individuele verschillen, vergroot zou worden. Het complexe en ingenieus op-
gezette experiment 4 geeft aanwijzingen hiervoor. Autodeterminatie bleek alleen in die gevallen tot
betere resultaten te leiden dan leerstofafhankelijke sequentiëring, wanneer een leerling hoog scoorde
op bepaalde tests. In het onderzoek werden individuele verschillen ten aanzien van voorkennis, induc-
tief en deductief redeneervermogen, structureringstendentie, faalangst, algemene aanleg en prestatie-

motivatie bepaald. Vooral leerlingen met een goed ontwikkeld inductief en deductief redeneervermo-
6®n hadden baat bij autodeterminatie. In hoofdstuk 9 'Algemene discussie' komt Lodewijks terug op
de resultaten van de experimenten en met name experiment 4. Experiment 4 nuanceert de conclusie
die uit experiment 1 tot en met 3 getrokken zou kunnen worden, dat leerlingen zelf het beste de volg-
orde van leerstofonderdelen kunnen bepalen. Een tweede nuance die Lodewijks ten aanzien van de re-
sultaten aanbrengt is dat het profijt van autodeterminatie weieens zou kunnen verdwijnen wanneer de
leerling minder goed gestructureerde leerstof of een omvangrijker leerstofpakket voorgeschoteld krijgt.
Lodewijks stelt dat op grond van zijn studie daarover geen uitsluitsel kan worden gegeven. Terecht,
omdat naar mijn mening het omgekeerde ook kan optreden, in die zin dat de leerling slecht gestructu-
reerde leerstof zelf structureert.

Het geheel overziend, kunnen we spreken van een zeer geslaagde onderwijspsychologische studie en
kunnen we èn de Tilburgse school onder leiding van prof. dr. L.F.W. de Klerk èn de Nederlandse On-
derwijspsychologie complimenteren met deze recente aanwinst. En de Nederlandse taal is enkele
Woorden van uitzonderlijke lengte rijker: curriculumontwikkelingsliteratuur, autodeterminatiecondi-
tles, informatieverwerkingsstijlen en leerstofanalysebenaderingen.

The first (1978) and the second (1980) 'Language & Language Acquisition' conferences took place on
we initiative of the Faculty of Psychopedagogy of the university of Möns (B).
The pragmatics & education workgroup of Communication & Cognition (Gent state university) organizes
■h cooperation with a.o. Möns a third conference. The theme will be:

|n every form of education verbal and/or non-verbal communication play an important part. Does
^guage - symbolization in general - function as a constituent, formative element or is it only a
•medium? What can pragmatics, as it manifests itself in linguistics, psycholinguistics, sociolinguistics,
clinical linguistics, language philosophy, logics etc., offer on this issue?

'^Part from general contributions in the field of psychopedagogy, linguistics, philosophy of language,
special education, etc. we are very interested in more specific papers on the verbal and non-verbal
Aspects of communication in education (on all levels and in normal as well as in pathological situations)
^d in scientific practice.

We also have in mind contributions which focus on the relevance of pragmatics for the acquisition of
skills (e.g. reading and writing) or for the learning and teaching of subjects (e.g. arithmetic, history,
oreign languages, geometry).

'^apers questioning the relation between pragmatics and research methodology are also extremely wel-
come (ethnography of communication, case studies, participant observation, etc.).
■^mong the invited speakers we mention Engels (B), Esperet (Fr), Gumperz (USA), Hymes (USA),
^nsky (USA), Papert (USA), Grize (Swi), Sinclair (UK), Stubbs (UK), Van Dijk (H).
t ne conference proceedings will be published.

In de periode 1982-1987 wordt een serie PAO-cursussen gegeven over methoden en technieken van
onderzoek. Deze cursussen zijn inleidend en hebben tot doel afgestudeerden in korte tijd bekend te
niaken met een aantal recente ontwikkelingen op het gebied van methoden en technieken.

Het cursusgeld bedraagt ± ƒ250,- per cursus, inclusief studiemateriaal, exclusief eventuele boeken.
Een folder met nadere gegevens over de cursussen is schriftelijk aan te vragen bij het SISWO, postbus
19079, 1000 GB Amsterdam.

- Elementaire statistische begrippen, 30 augustus-3september 1982, te Utrecht (basiscursus)

- Inleiding in wiskundige begrippen, 6-10 september 1982, te Utrecht (basiscursus)

- Designs voor sociaal- en gedragswetenschappelijk onderzoek, 3-7 januari 1983, te Amsterdam

- Kruistabellen en gegeneraliseerde lineaire modellen, 12-14 en 20-21 januari 1983, te Utrecht

Het volgen van de basiscursussen is géén toelatingsvoorwaarde voor de overige cursussen. Alle cursus-
sen kunnen als zelfstandige eenheid worden gevolgd.

Onlangs is verschenen: M.F. Steehouder & C.J.M. Jansen (red.): Taalbeheersing 1981. Lezingen op het
VIOT-taalbeheersingscongres op 8, 9 en 10 september 1981 aan de Technische Hogeschool Twente,
Uitgave van de Vereniging Interuniversitair Overleg Taalbeheersing (VIOT), Enschede 1981.

De bundel heeft 250 pagina's en bevat 30 bijdragen op Het gebied van Taalvaardigheid, Sociolinguïs-
tiek, Argumentatietheorie, Conversatie-analyse en Taalbeheersing & Psychologie.

Taalbeheersing 1981 is te bestellen door storting van ƒ 30,- (inclusief verzendkosten) op girorekening
4159658 t.n.v. Vereniging Interuniversitair Overleg Taalbeheersing te Utrecht.

The paper reexamines several controversies and dilemmas in the Uterature on evaluation, and
attempts to arrive at a comprehensive conception. Process versus product: the concept of
process evaluation is argued to be improper, whereas on the other hand product evaluation is
shown to be relative. Formative versus Summative: this distinction incorporates three very
subordinate and/or improper contrasts which may vary independently, and together mask the
distinction between Internal versus External evaluation. The latter may be overcome by securing
a committment of all parties involved. Finally, the Hard versus Soft methodology issue is
discussed, and a liberalized but incompromising solution is proposed. An integrative model of
evaluation is put forward which requires competing predictions of research outcomes but
does not demand prior conditional decisions.

Evaluatie is een begrip met veel gezichten, en als zodanig een bron van veel misverstand.
Er zijn globaal gesproken twee manieren om zo'n kameleontisch begrip vast te pinnen.
De eerste is specificatie. Door toevoeging van termen probeert men tot uitdrukking te
brengen wat men precies wil: summatieve of formatieve evaluatie, proces- of product-
evaluatie, 'goal-free' of 'responsive' evaluation, enz. enz. Er zijn momenteel enkele tien-
tallen dergelijke woordverbindingen in omloop (zie bijv. SVO, 1980). Vaak heeft men
met zulke specificaties bedoelingen van programmatische aard: men wil ermee bena-
drukken dat evaluatie 'eigenlijk' ten dienste moet staan van de uitvoerenden, gericht
moet zijn op het proces, impliciete doelstellingen in de overweging moet betrekken en
dergelijke. Aangezien echter doorgaans voor het andere standpunt ook veel te zeggen valt,
zijn zulke stellingnames weinig vruchtbaar. Ze komen bhjkbaar tegemoet aan een profile-
ringsdrang - vaak een sterk motief in een tak van wetenschap die in zijn puberteit ver-
keert. De gebruiker en het publiek hebben er weinig aan: die moeten arbitraire keuzes
maken in pseudodilemma's waarom ze niet hebben gevraagd.

Hier zal de tweede, moeilijke weg worden gekozen om evaluatie te definieren: geprobeerd
Zal worden de gemeenschappelijke kern op te sporen van de verschillende varianten van
evaluatie. Dat mag een erg abstracte en theoretische exercitie lijken, en dat is het ook;
maar het doel is erg praktisch. Dat is: via opruiming van pseudodilemma's (par. 1 t/m 4)
te komen tot een algemeen stramien voor evaluatie (par. 5).

Het eerste en wellicht hardnekkigste pseudodilemma betreft het onderscheid tussen
proces- en productevaluatie. Bij productevaluatie wordt beoordeeld in hoeverre bepaalde
doelstellingen inderdaad zijn bereikt; bij procesevaluatie wordt de manier waarop dat
Wordt geprobeerd beoordeeld.

Voor alles moet worden opgemerkt dat procesevaluatie niet meer kan zijn dan een afge-
leide van productevaluatie. Als doelstellingen worden bereikt zal het voornamelijk een
zorg zijn op welke manier dat gebeurt; als ze niet worden bereikt maakt het feit dat het
proces eventueel goed is verlopen bitter weinig verschil: de operatie is geslaagd, maar de
patiënt is overleden. Procesevaluatie kan hoogstens achtergrondgegevens leveren bij de
interpretatie van de resultaten van productevaluatie.

Bij nadere beschouwing is proces-'evaluatie' een misleidende term die alleen maar ellende
kan veroorzaken. Evaluatie is: een oordeel uitspreken over de waarde van iets. De manier
waarop, de middelen waarmee geprobeerd wordt een doel te bereiken zijn echter waarde-
neutraal: ze kunnen op zichzelf verwerpelijk of nastrevenswaardig zijn, maar in de con-
text van de doelstelling ontlenen

ze hun waarde of onwaarde geheel aan dat doel. Wan-
neer in die context een aparte waarde aan het middel wordt toegekend treedt de beken-
de verschuiving op waarbij het middel tot doel in zichzelf wordt. De term 'procesevaluatie'
werkt deze oneigenlijke promotie in de hand. Door procesevaluatie naast productevaluatie
te stellen opent men de deur voor betuttelaars en bureaucraten: immers, bureaucratie in
de ongunstige betekenis valt nauwkeurig te definieren als beleid waarbij het middel tot
doel is verheven.

Wat precies is de ellende die voortvloeit uit de bureaucratische substitutietruc? In het
algemene geval hebben middelen een losvaste relatie met het doel. Zij zijn niet noodzake-
lijk en niet voldoende voor het bereiken van dat doel, zodat procesevaluatie in feite
onrechtvaardig is. Verder belichaamt ieder middel andere doelen naast dat waarvoor het
wordt aangewend. Als het middel tot doel wordt verheven worden die andere doelen in
het kielzog meegepromoveerd. Als men pubhcaties weegt naar aantal pagina's stimuleert
men automatisch wijdlopigheid. Als men aantallen cursisten in de beschouwing betrekt bij
evaluatie van nascholing, stimuleert men populaire onderwerpen. Als men een significan-
tietoets gebruikt werkt men selectieve publicatie in de hand.

Kunnen we ermee volstaan, het begrip 'procesevaluatie' te dumpen op de schroothoop
van de geschiedenis? Alvorens dat te doen moeten we ons realiseren dat het alternatief,
productevaluatie, niet te verwezenlijken valt. Wat is een echte productvariable? Is dat, in
het geval van onderwijs, numeriek rendement? Of gemiddelde examenprestatie? Tevreden-
heid I5ij de deelnemers? De mate waarin het geleerde ook wordt toegepast? Is het, in het
geval van wetenschappelijk onderzoek, het aantal pubhcaties? De citatie-index? Onder-
scheidingen verleend aan de onderzoekers? Van ieder criterium, product of doelstelling
kan met goede argumenten worden beredeneerd dat hij op z'n best instrumenteel is ten
opzichte van een hoger doel. Het bedoelde product van nascholing van medici is verbete-
ring van de gezondheidszorg, zou men wellicht kunnen zeggen. Maar iedere poging tot
^concretisering zal meer of minder discussie oproepen. Het echte product bestaat alleen in
jüe limiet; wat geëvalueerd kan worden is nooit meer dan een surrogaat- of substituut-
iproduct.

Natuurlijk houdt deze relativering geen pleidooi in voor een lood-om-oud-ijzer-standpunt.
Procesvariabelen zijn te vergelijken met experimentele c.q. onafhankelijke variabelen,
productvariabelen met afhankelijke variabelen. Hoe moeihjk het ook is een valide afhan-
kelijke variabele te construeren, dat levert geen enkel excuus om alleen de experimentele
variabele te onderzoeken. De redenering dat een experimenteel effect zou zijn aangetoond
aangezien het gelukt is de experimentele groep anders te behandelen dan de controle-
groep, zou reeds door eerstejaars psychologiestudenten met hoongelach worden begroet
(des te verbazingwekkender is het dat procesevaluatie door iemand au serieux wordt

genomen). Er wordt hier slechts op gewezen dat productevaluatie ook inefficient en
onrechtvaardig kan zijn. Mensen die er lustig op los evalueren zijn of dom of slecht of
beide.

Ter nuancering zij in de eerste plaats opgemerkt dat niet evalueren ook ongewenst kan
zijn, in de zin van onrechtvaardig of oneconomisch. Er zal dus een afweging tussen twee
kwaden moeten worden gemaakt. Misschien is het juist om daarbij de bewijslast bij de
voorstanders van evaluatie te leggen, zoals Glass & Ellett (1980) doen: 'It (nl. evaluatie)
must do more good than harm, and it must treat persons justly' (p. 225).
De tweede nuancering is dat productvariabelen meer of minder ongelukkig kunnen
worden gekozen. Navragen of artsen nieuw aangeleerde methoden ook inderdaad toepas-
sen (Bender, 1979) is redelijkerwijs een meer eigenlijke vorm van evaluatie dan vragen of
ze tevreden waren over de betreffende cursus. Hoe dichter men in de buurt van het eigen-
lijke product komt, des te minder bezwaarlijk is evaluatie.

Hopelijk is genoegzaam aangetoond dat zowel 'procesevaluatie' als 'productevaluatie' mis-
leidende en gevaarlijke termen zijn. De oplossing is dan ook, beide voorvoegsels te
dumpen en gewoon van evaluatie of beoordeling te spreken. De termen hebben hun dienst
gedaan: ze hebben ons geattendeerd op fundamentele problemen die met evaluatie ge-
paard gaan. Ze leveren echter geen enkele bijdrage aan de oplossing daarvan; integendeel.
Voor aanwijzingen in de richting van een oplossing kan men te rade gaan bij een oudere
tak van de gedragswetenschap, de selectiepsychologie. De gedachte dat het 'ultimate
criterion' waaraan men een selectieprocedure zou willen toetsen in het algemeen niet in
handen is te krijgen, en dat met 'intermediate criteria' moet worden volstaan, is daar
allang gemeengoed. Een interessante consequentie is de gedachte, de selectieprocedure dan
ook niet aan een of enkele criteria op te hangen, maar naar constructvalidatie te streven.
Bentler & Woodward (1979) proberen inderdaad die gedachtengang over te brengen naar
de evaluatieresearch.

Een slotopmerking op dit punt betreft de vaagheid van doelstellingen, waar ieder gedrags-
wetenschappelijk onderzoeker op zijn tijd wel eens op schampert. Dat geschamper is onte-
recht. Hoe vager en ongrijpbaarder de doelstelling, des te kleiner is het gevaar dat men kan
menen een echte productevaluatie te hebben uitgevoerd.

De tweede hier te bespreken verkaveling is die tussen formatieve en summatieve evaluatie
(Scriven, 1967). In dat begrippenpaar lopen een aantal tegenstellingen door elkaar, waar-
van de meeste als niet-essentieel terzijde kunnen worden gesteld.

In de eerste plaats betekent formatieve evaluatie tussentijdse evaluatie, terwijl summatieve
evaluatie uiteindelijke evaluatie is. Scheerens (SVO, 1980) merkt hierover al op '... dat het
onderscheid tussen formatief en summatief (...) erg relatief is en wellicht alleen betekenis
heeft om kortere van langere feedback-cycli te onderscheiden'.

In de tweede plaats wordt formatieve evaluatie geassocieerd met aanpassing en verande-
ring, summatieve evaluatie met de beslissing tot voortzetting dan wel stopzetting. Ook
daartussen zijn uiteraard de overgangen vloeiend. Een afbouwperiode kan zo lang duren
dat intussen weer een beleidswijziging optreedt. Een verandering kan zo ingrijpend zijn
dat de activiteit in feite door een andere wordt vervangen.

In de derde plaats denkt men bij formatief eerder aan evaluatie van onderdelen, bij
summatief eerder aan evaluatie van het geheel. Aangezien echter het geheel ook weer
onderdeel is van een groter geheel, en aangezien een evaluatie, als het goed is, dat groter
geheel mee in ogenschouw neemt, is dit onderscheid behalve betrekkelijk ook nog mis-
leidend. Men zou hier dus beter kunnen spreken van een onderscheid naar aggregatie-
niveau: men kan een enkel toetsitem evalueren, of het Nederlandse onderwijsstelsel.
De drie genoemde onderscheidingen lopen niet noodzakelijk parallel. Men kan tussentijds
besluiten een activiteit geheel of gedeeltelijk stop te zetten, men kan uiteindelijk beslui-
ten het program in zijn geheel of op onderdelen aan te passen, enz. De tegenstelling tussen
formatief en summatief pleegt een koppelverkoop die het vaak toch al niet zo heldere
denken over evaluatie nog verder vertroebelt.

Een vierde tegenstelling die in 'formatief versus summatief' ligt besloten heeft te maken
met de vraag aan wiens adres de evaluatie gericht is. Evaluatie verwijst naar waarden-
stelsels, en verschillende betrokkenen houden er in het algemeen verschillende waarde-
systemen op na. In de eerste plaats is daar de geldgever, bijvoorbeeld de overheid, die zelf
weer een conglomeraat is van politieke en belangentegenstellingen. In de tweede plaats
zijn er de uitvoerders: bij het onderwijs de organisatoren, docenten, leerlingen. Dan is er
wat men zou kunnen noemen het publiek of het algemeen belang, eventueel maar niet
noodzakelijk vertegenwoordigd door de overheid. En tot slot is daar de evaluator, ook
iemand met een handel en een winkel, en volgens sommigen iemand met een stelling-
name, hoewel dat wellicht een beetje teveel van het goede is.

'Formatief betekent in dit verband dat de evaluatie refereert aan het waardensysteem van
de uitvoerder(s), 'summatief dat de evaluatie zich richt naar de sponsor. Tegen deze
achtergrond worden de mooie praatjes over formatieve en summatieve evaluatie opeens
duidelijk. De uitvoerder heeft in het algemeen gesproken belang bij voortzetting van de
activiteit, dus hoogstens bij tussentijdse en zeker niet bij uiteindelijke evaluatie, hoog-
stens bij aanpassing en verandering en zeker niet bij eventuele stopzetting, hoogstens bij
evaluatie op onderdelen en zeker niet bij evaluatie van de activiteit als geheel. De uitvoer-
der is dus als het ware de gelijkrichter in het boven gesignaleerde troebele veld van begrip-
pen. De sponsor is daarin de doorgaans verder verwijderde en zwakkere tegenpool.
Wat is 'de positie van de evaluator in dit krachtenveld? Dat hangt natuurlijk van allerlei bij-
zondere omstandigheden af In het algemeen gesproken echter wordt de evaluator welis-
waar door de sponsor betaald, maar is hij/zij voor de dagelijkse gang van zaken in sterke
mate afhankelijk van de medewerking van de uitvoerder. Als de sponsor er niet bovenop
zit zal de evaluatie meestal het karakter krijgen van een formatieve samenzwering tussen
evaluator en uitvoerder.

Ik ben geneigd de pleidooien voor soft methodology, subject-subjectrelaties, responsive
évaluation, hermeneutische en participerende benaderingen e.d. (voor een overzicht zie
SVO, 1980) primair op te vatten als de ideologische bovenbouw van die formatieve
samenzwering. De zachte aanpak is de beste garantie dat alles bij het oude blijft. Omge-
keerd kan men natuurlijk stellen dat de objectiverende benadering duidelijk gedacht is
vanuit de positie van de sponsor. Die steUing is echter onjuist'aangezien de evaluator, wil
wie dan ook van evaluatie iets wijzer worden, sowieso afstand zal moeten nemen. Op de
kwestie van soft versus hard methodology komen we verderop terug. Het kan echter geen
kwaad, alvast te signaleren dat daar oneigenlijke aspecten aan zitten.
Intussen moet wel worden geconcludeerd dat de termen formatief en summatief ook

beter uit het collectief geheugen kunnen worden gewist. Weliswaar is belangentegenstel-
ling tussen uitvoerder en sponsor bepaald niet triviaal of fictief, maar 'formatief versus
summatief' verduistert die tegenstelling in plaats van hem te expliciteren.

Uit de voorgaande paragraaf is overgebleven het onderscheid tussen evaluatie ten behoeve
Van de uitvoerder en van de geldgever, ook wel aangeduid met 'interne versus externe
evaluatie'. Het onderscheid heeft betrekking op de verschillende waarden die vanuit ver-
schillende gezichtspunten kunnen worden gehecht aan onderzoeksuitkomsten.
Een eerste, klassieke manier om deze tegenstelling te omzeilen is onderscheid te maken
tussen evaluatieonderzoek en evaluatie. De onderzoeker verzamelt de feiten, en wat er
verder gebeurt is niet zijn of haar zaak. 'How the information will eventually be used does
not define evaluation' (Morris & Fitz-Gibbon, 1978, p. 6; zie ook Glass & Ellett, 1980).
In de klassieke opvatting heeft evaluatie de betekenis van waardevrij onderzoek. De
nadelen van deze opvatting zijn bekend: de kans is groot dat de verzamelde informatie in
de bureauladen terechtkomt; het cynisme van de betrokkenen kan zelfs zover gaan dat bij
voorbaat evaluatieonderzoek door voorstanders van de activiteit louter als een schijncon-
cessie aan de tegenstanders, of door de tegenstanders louter als een manier om een slag
om de arm te houden wordt beschouwd.

Een tweede opvatting, die de tegenstelling inderdaad overbrugt, is de beslistheoretische
Waarvan Guttentag de meest uitgesproken vertegenwoordigster was. 'There is a sharp
test for (...) evaluative paradigms. If they produce information that is not used in program
decision - then they are not adequate paradigms' (Guttentag, 1977, p. 58). De beslis-
theoretische opvatting houdt feitelijk in dat de partijen van tevoren onderhandelen over
de vraag, welke beslissing zal worden genomen bij alle denkbare soorten onderzoeksuit-
komsten (als dat nl. achteraf nog moet gebeuren kan men ernaar fluiten). Het nadeel van
het rationele beslissingsmodel is dat het meestal onuitvoerbaar zal zijn (cf. Hofstee, 1980,
P- 118 e.v.): de evaluator beschikt doorgaans niet over de macht, in het gewoel van
strijdige belangen een dergelijk contract af te dwingen.

Hier wordt een derde, tussenliggende oplossing voorgesteld. Uitgangspunt is enerzijds dat
evaluatie weinig zin heeft als er geen garantie bestaat dat er enigerlei consequentie uit de
uitkomsten zal worden getrokken; anderzijds, dat het decisietheoretisch model teveel
vergt. De minimale consequentie is dat degene die bepaalde bevindingen niet had ver-
wacht ongelijk bekent (Hofstee, ibid.). Dat kan wederom aheen worden gegarandeerd als
van tevoren voorspellingen omtrent de uitkomst van het evaluatieonderzoek worden
Vastgelegd. De verdere uitwerking van deze oplossing komt aan de orde onder het hoofd
'geïntegreerd evaluatiemodel' (par. 5).

De reden om hoe dan ook de tegenstelling tussen interne en externe evaluatie te over-
schrijden is de volgende: evaluatie is praktisch en theoretisch gesproken alleen relevant
als de activiteit in kwestie voor- en tegenstanders kent (met alle nuanceringen van dien).
De bevindingen zuUen een rol moeten spelen in de discussie tussen proponenten en oppo-
nenten. Interne evaluatie zowel als externe evaluatie zijn dus alleen interessant wanneer er
nieningsverschiUen zijn. Maar als die er zijn, is het verschil tussen interne en externe
Waardensystemen louter een speciaal geval.

Het derde hier te bespreken pseudodilemma is de tegenstelling tussen harde en zachte
methodologie. In de vorige paragraaf werd al opgemerkt dat die tegenstelling oneigenlijk
is voorzover de uitvoerder eigenlijk helemaal geen evaluatie wil, en derhalve op een zachte
benadering aanstuurt.

Tegenover de zachte, alternatieve benaderingen staat de orthodoxe, waarvan de grondge-

(dachte als volgt kan worden weergegeven: evalueren kan alleen vergelijkenderwijs
gebeuren (Scriven, 1967); evaluatieonderzoek is dus een toepassing van de klassieke
experimentele proefopzet waarbij activiteiten als onafhankehjke variabele fungeren. Als
een zuivere experimentele opzet niet mogelijk is kan eventueel met quasi-experimenten
genoegen worden genomen, waarvan de inrichting dan echter liefst zo sterk mogelijk moet
zijn (zie o.a. Morris, 1978; Saxe & Fine, 1979; Hoole, 1978; Franco & Deblassie, 1979).
Vanuit deze opvatting komt men tot de uitspraak dat van het verrichte evaluatieonder-
zoek slechts zo'n 10% iets voorsteh (Abt, 1979; Cook & Cruder, 1979).
Ook in kringen echter van evaluatieonderzoekers die hun taak wetenschappehjk opvatten
rijzen twijfels aan de orthodoxe benadering. Guttentag (1977) attendeert erop '... that
hypothesis testing itself is an open-ended process, that observations themselves do not
imply or allow for any single unambiguous interpretation' (p. 56/57). Glass & Ellett
(1980) stellen: 'The consequence of asking about which conceptions of evaluation are
scientific is not that something is learned about evaluation, but that something is learned
about science'. De vraag is echter wat dat 'iets' is dat te leren valt. Vaak rijst de indruk
dat er alleen maar een pleidooi wordt gevoerd om de teugels van de methodologie een
beetje te vieren (zie bijvoorbeeld Wolf, 1979; Stanford Evaluation Consortium, 1976).
Als daar niet bij wordt verteld waarom en hoever, kan het paard onverhoeds op hol slaan.

Het omvattende gezichtspunt waaronder acceptabele 'liberaliseringen' kunnen worden
begrepen is naar ik meen het volgende: de wetenschappelijke vergelijking vindt plaats
tussen twee of meer hypothesen of voorspellingen (Hofstee, 1980; Koele, 1979), in plaats
van tussen experimentele en/of controlecondities. In plaats van een onderzoeker die ver-
schillende 'werkelijkheden' met elkaar vergelijkt, poneert dit evaluatiemodel twee partijen
wier voorspellingen aan een werkelijkheid tegen elkaar worden getoetst. Het experiment
kan worden opgevat als een speciaal geval van dat algemeen principe.
In de recente literatuur over evaluatie zijn legio voorstellen te vinden die preluderen op
dit weddenschapsmodel. Verschillende auteurs hebben voorgesteld evaluatie op te zetten
volgens het model van hoor en wederhoor (Levine, 1978; Owens, 1973). Deze rechtsgang
met een aanklager en een advocaat leidt er echter toe dat de rechter (sponsor) twee
'werkelijkheden' worden voorgehouden. En aangezien het bij evaluatie meestal niet gaat
om enkelvoudige vragen zoals 'heeft verdachte deze diefstal gepleegd', valt daartussen niet
goed rationeel te kiezen (cf Glass & Ellett, 1980). Een weddenschapsopzet vereist daaren-
tegen dat de tegenstanders zich van tevoren vastleggen op voorspellingen omtrent één en
hetzelfde verschijnsel, bijvoorbeeld: of invoering van de middefischool de afstand tussen
sociale klassen verkleint. Hiermee wordt ook een tweede bezwaar tegen het 'adversary
model' ondervangen, nl. dat het een verdubbeling van de onderzoekskosten met zich mee-
brengt (Popham & Carlson, 1977). In het weddenschapsmodel zijn de partijen de belang-
hebbenden, en is er maar één onderzoeker.

Mitroff e.a. (1977) lanceren in de context van planning en probleemoplossen een 'adver-

sarièle' methode die ze 'The Dialectic' noemen: bij 'intensely ill-structured' problemen
Worden voor ieder alternatief de rollen van voor- en tegenstander over de discussianten
verdeeld. Deze methode heeft echter in die vorm niet met evaluatie te maken; pas wan-
neer de argumenten in voorspellingen worden omgezet kunnen de gekozen oplossingen
Van het probleem worden geëvalueerd. De aanpak krijgt dan het karakter van een 'pre-
evaluation analysis'(Rutman, 1980).

De voornaamste liberalisering die het weddenschapsmodel met zich meebrengt is dat con-
trolegroepen of -condities niet meer onmisbaar zijn. Wolf (1979, p. 144) pleit voor fre-
kwentere toepassing van de one-shot case study; Scriven (1976, p. 110) heeft het over
microexperimenten voor het toetsen van minihypothesen. Deze pleidooien krijgen echter
pas zin als ze uit hun inductivistische context worden gelicht en verankerd worden in een
weddenschapsopvatting van evaluatie. One-shot studies en micro- experimenten bewijzen
nl. niets, logisch gesproken. Men kan er alleen iets mee aanvangen als er van tevoren uit-
eenlopende verwachtingen waren geformuleerd over de uitkomsten ervan.
De conclusie op dit punt kan zijn dat bepaalde suggesties voor een realistischer evaluatie-
opzet acceptabel worden binnen een weddenschapsopvatting van evaluatieonderzoek.
Weliswaar wordt daarin het inductiebeginsel prijsgegeven: het is niet mogelijk, iemand
achteraf alsnog dwingend conclusies op te leggen die uit het evaluatieonderzoek zouden
voortvloeien. Ook met de meest orthodoxe proefopzet echter was dat al niet het geval
(Hofstee, 1980); er is hier dus alleen sprake van het opofferen van een illusie. De winst
is hierin gelegen dat de liberalisering niet leidt tot uitholling van standaarden van weten-
schappelijkheid, die voor evaluatieonderzoek onverminderd van kracht zijn.

De opruimingswerkzaamheden die in de voorgaande paragrafen werden verricht kunnen
ongetwijfeld worden voortgezet. We gaan er echter van uit dat de voornaamste obstakels
om zicht te krijgen op evaluatie nu zijn gesloopt, en trachten nu nadere invulling te geven
aan het evaluatiebegrip dat zich aftekent.

1) Aanleiding om een evaluatie te ondernemen is meningsverschil of twijfel over een
uit te voeren activiteit: als die er niet zijn, valt niet goed in te zien waarom er geëvalueerd
zou moeten worden. Zelfs wanneer evaluatie routinematig zou worden ondernomen
zullen de meningsverschillen en twijfels alsnog zijn aan te wijzen, en als dat werkelijk niet
kan rijst inderdaad de vraag of de routine dan wel zin heeft.

De eerste stap in het evaluatiescenario is nu, de verschillende standpunten en verwachtin-
gen zoveel mogelijk aan concrete personen en instanties op te hangen. In de eerste plaats
werkt dat stimulerend op de kwaliteit van de planning (Mitroff e.a., 1979), in de tweede
plaats wordt zo de grondslag gelegd voor een evaluatie die in enig opzicht als bindend kan
worden ervaren.

Idealiter is de onderzoeker/evaluator als waarnemer of zelfs als technisch voorzitter bij de
planningsfase betrokken. Als dat niet zo is, dient hij/zij achteraf zoveel mogelijk inzicht te
krijgen in de gebezigde argumenten en uitgesproken verwachtingen.

2) De planningsfase loopt uit in een besluit tot starten van een bepaalde activiteit. Die
overgang kan natuurlijk meer of minder scherp zijn, en de plannings- en uitvoeringsfase
kunnen in de tijd overlappen. Voor het evaluatiescenario is het voldoende als geconsta-
teerd kan worden dat ergens een knoop is doorgehakt.

We zullen uitdrukkelijk niet de assumptie maken dat de partijen hebben besloten tot een
proef of een experiment, en nog minder dat ze zich bereid hebben verklaard een meer
definitief besluit van de uitkomst daarvan afhankelijk te stellen. Zulke experimenten en
zulke beslissingen zijn met een lampje te zoeken als het om enigszins belangrijke en (dus)
controversiële activiteiten gaat. Beleidsvoerders willen weliswaar nogal eens het woord
'experiment' in de mond nemen maar ze bedoelen daar bijna onveranderlijk iets anders
mee. Als men evaluatie tot echte experimenten zou willen beperken zou men evengoed
de winkel meteen kunnen sluiten.

In het algemene geval heeft een partij althans voorlopig zijn zin gekregen; evaluatie is een
concessie aan de verliezer. Opgemerkt werd reeds dat de uitvoerder in het algemeen ook
niet om evaluatie staat te popelen. Niettemin zal uiterlijk bij de start van de uitvoerings-
fase het evaluatieprogram moeten worden opgesteld: hoe later in de tijd dat gebeurt, des
te meer krijgt evaluatie een surrogaatkarakter.

Recentelijk is veel aandacht gegeven aan de wenselijkheid van 'preevaluation analysis' en
handgrepen daarvoor (Rutman, 1980). In het huidige scenario dient die analyse uit te
monden in concrete voorspellingen door de verschillende betrokken partijen. De vraag
is natuurlijk of dat lukt. Soms zal het machtsoverwicht van de voorstanders van de activi-
teit zo groot zijn dat echte evaluatie niet wordt gedoogd. In minder extreme gevallen
echter staat daar iets tegenover: ook de overwinnaars wensen in het algemeen althans
de schijn van rationaliteit te handhaven. Dat verlangen is de strohalm waaraan evaluatie-
onderzoek kan worden opgehangen.

3) Onder gunstige omstandigheden kunnen nu dus concurrerende voorspellingen
worden geformuleerd met betrekking tot het effect van de activiteit waarvoor is gekozen.
Met behoud van de relativering die is aangebracht ten aanzien van de bereikbaarheid van
echte productevaluatie, hebben deze weddenschappen betrekking op de verwachte of
beoogde effecten van de activiteit. Ze refereren m.a.w. aan doelstellingen.
Onnodig te zeggen dat het onderscheid tussen officiële, expliciete doelstellingen, impli-
ciete doelstellingen en neveneffecten hierbij een zoveelste pseudodilemma is: de voorspel-
lingen kunnen op alle drie slaan, en het adversariële script zal er doorgaans voor zorgen
dat dat ook gebeurt. Er is zelfs kans dat in dit scenario bepaalde oneigenlijke doelstellin-
gen bovên water komen. Onder oneigenlijke doelstellingen verstaan we doelstellingen die
door voorstanders van de activiteit als oneigenlijk worden beschouwd. Zo kan bijv. een
bepaalde partij (nu in de poUtieke betekenis) van een bepaalde maatregel op onderwijs-
gebied (verkleining van klassegrootte, invoering van de middenschool, selectie voor de
universiteit) een electoraal effect venvachten, maar tegelijk van mening zijn dat het van
cynisme zou getuigen dit onder de doelstellirïgen op te nemen. De tegenstander kan
echter die verwachting expliciteren.

Aangaan van weddenschappen vereist overeenstemming over de operationalisering van de
afhankelijke variabele. De pretenties waarmee de activiteit wordt ondernomen, en de
reserves van de tegenstanders en twijfelaars, moeten worden geconcretiseerd. Uiteraard is
die opgave een zoveelste potentieel obstakel bij evaluatieonderzoek. Ter geruststelling: als
de partijen elkaar niet op operationalisaties kunnen vinden is er geen basis voor evaluatie.
Bedacht moet worden dat de uitvoerders vrijwel altijd tevens partij zijn. De weddenschap
heeft dus niet zozeer het karakter van 'wedden dat dit gebeurt' als wel van 'wedden dat ik
dit kan', c.q. 'wedden dat jij dit niet kunt'. Deze vermenging van rollen zal inhouden dat
de tegenstander in het algemeen terecht geen genoegen neemt met 'zachte' afhankelijke
variabelen.

Gesteld dat het gelukt is operationaliseringen te vinden, dan dienen van de partijen ten-
slotte kansuitspraken te worden gevraagd over de mogelijke uitkomsten, zodat t.z.t. zal
kunnen worden uitgemaakt hoeveel gelijk iedereen krijgt. De technische problemen die
daarmee gepaard gaan hebben we elders behandeld (Hofstee, 1980).

Het hier in het kort geschetste scenario vertegenwoordigt naar ik meen een minimum uit
oogpunt van wetenschappelijkheid: er worden geen inducties of gevolgtrekkingen opge-
legd aan de partijen, laat staan dat er beslissingen aan de uitkomsten worden verbonden
met betrekking tot de geëvalueerde activiteit. Ook worden er geen belangentegenstel-
lingen onder tafel gepraat, zoals impHciet in vrijwel alle evaluatiemodellen gebeurt. Des-
ondanks eist het model vrij veel van de deelnemers. Levert die moeite iets op?
De opbrengst is in eerste instantie alleen dat een partij meer of minder gelijk krijgt (niet
eens: blijkt te hebben gehad). Gezien het feit dat intussen de te evalueren activiteit al is
ondernomen lijkt dit enigszins 'beside the point'. Het belang van de predictieve procedure
moet dan ook worden gezocht in het preventieve karakter ervan. Wie inderdaad althans de
schijn van rationaliteit wil ophouden zal er ook een hekel aan hebben, later ongelijk te
moeten bekennen. De sterkte van dit motief valt wellicht af te lezen aan de moeite die het
zal kosten de partijen op concrete voorspellingen te binden. Hoe meer moeite dat kost,
des te sterker is dan ook het preventief effect.

Tot slot: ook waar letterlijke toepassing van het model niet mogelijk is, kan het als aan-
knopingspunt dienen voor de opzet van evaluatieonderzoek. De onderzoeker moet zich
dan zoveel mogelijk inleven in de rollen van de verschillende betrokken partijen. Meer dan
een surrogaat kan dat niet opleveren, maar kosten-baten-analyse kan soms leiden tot voor-
keur voor het surrogaat.

Abt, C.C. Government constraints on evaluation quality. In: Datta & Perloff, 1979,43-52.
Bender, W., & Middelbeek, C. De Warffum-cursus: gezellig, maar steekje er ook wat van oipl Medisch

Contact, 1979, 42, 1347-1349.
Bender, W. Van nascholing tot samenscholing: een cursus voor huisartsen en speciaUsten. Medisch

Contact, 1980,50, 1565-1566.
Bentler, P.M. & Woodward, J. A. Nonexperimental evaluation research: contributions of causal

modeling. In: Datta & Perloff, 1979, 171 - 202.
Cook, T.D. & Gruder, Ch. Metaevaluationresearch. In: Sechrest, L., West, S.G., Philips, M.A., Reduer,

R. & Yeaton, W. (Eds.), Evaluation Studies Review Annual, Beverley HUls: Sage, 1979.
Datta, L.E. & Perloff, Ig.. Improving evaluations, Bevtüy Hills: Sage, 1979.

Franco, J.N. & DeBlassie, R.R. A modef for training community health researchers and evaluators.

Evaluation Quarterly, 1979,5,490-496.
Glass, G.V. & Ellett, F.S. Evaluation ttititch. Annual Review of Psychology, 1980,31, 211-228.
Guttentag, M. Evaluation and society. In: Guttentag, M. & Saar, S. (Edi.), Evaluation Studies Review
Annual. Beverly Hills: Sage, 1977.

Hofstee, W.K.B. De empirische discussie: Theorie van het sociaal-wetenschappelijk onderzoek.

Meppel: Boom, 1980.
Hoole, V. Evaluation research and development activities. Beverly Hills: Sage, 1978.
Koele, P. Afscheid van de nulhypothese. Kennis en Methode, 1979,3,446-458.
Levine, M. Adapting the jury trial for program evaluation. Evaluation of Program and Planning 1978
.7,177-186.

Witroff, J.J., Emshoff, J.R. & Kihnan, R.H. Assumptional analysis: a methodology for strategic
problemsolving. In: Datta & Perloff, 1979.

Owens, T. Educational evaluation by adversary proceeding. In: House, E.R. (Ed.), School Evaluation:
The Politics and Process. Berkely: McCutchan, 1973.

Popham, W.J. & Carlson, D. Deep dark deficits of the adversary evaluation model. Educational
Researcher, 1977,6, no. 6, 3-6.

Saxe, L. & Fine, M. Expanding our view of control group evaluations. In: Datta & Perloff, 1979,
61-69.

Stanford Evaluation Consortium. Review essay: evaluating the Handbook of Evaluation Research. In:
Glass, G.V. (m.). Evaluation Studies Review Annual, I. Beverly Hills: Sage, 1976.

Scriven, M. The methodology of evaluation. In: Stake, R. a.o. (Eds.), Perspectives on Curriculum
Evaluation. AERA Monograph Series on Evaluation, No. 1. Chicago: Rand Mc.Nally, 1967, 39-83.

Scriven, M. Maximizing the power of causal investigations: The modus operandi method. In: Glass,
G.V. i^A.), Evaluation Studies Review Annual, I. Beverly Hills: Sage, 1976.

A new multiple-choice test in a philosophy course is validated by comparing this test with an
essay question and a paper writing task for the same course, and with tests for three other
courses (mathematics, statistics and economics) in the first year of the study of Economics at
the University of Tilburg.

At first analysis the test appeared satisfactory with respect to item difficulty and internal
consistency. A second analysis was done using the multitrait-multimethod approach (Campbell
a^ Fiske, 1959). The essay test and the paper writing task showed more convergent and
dttriminant validity than the multiple-choice form, which appears to be quite another philos-
ophy test. A third qualitative validation, based upon the judgement of the teacher and his
objectives of teaching, did raise some principal objections against the two preceding psycho-
metric validation procedures, as basically developed for testing one homogeneous trait. Striving
towards internal consistency did lead to the elimination of good items of understanding and is
incompatible with the legitimate wish to examine more than one teaching objective. Further,
the multiple-choice test is an independent equally valid method for assessing the readiness of
students for the continued study of economics. The essay and the paper are primarily maintain-
ed because they measure production of meaningfull statements and further because the ac-
quaintance with study conceptions is a prerequisite for teachers to construct good multiple-
choice questions.

In december 1977 is door de vakgroep filosofie van de economische faculteit van de Kat-
holieke Hogeschool Tilburg een onderwijsinnovatie op kleine schaal doorgevoerd. Deze
bestond hierin dat in de propaedeuse het filosofie-tentamen voor de eerste maal gedeel-
telijk in de meerkeuze vorm werd afgenomen. Daarnaast bleven echter — uit voorzichtig-
heid en op principiële gronden - de twee reeds vroeger gehanteerde tentamenvormen in
gebruik, te weten: een werkstuk en een open vraag tentamen. In overleg met de docent is
besloten deze beperkte onderwijsinnovatie te evalueren d.m.v. (1) een item- en toetsana-
lyse en (2) de multitrek-multimethode benadering. We zijn er ons van bewust dat een lou-
ter psychometrische produkt-evaluatie wordt gepresenteerd die zich bovendien hoofdza-
kelijk op de behaalde cijfers baseert. Gezien het incidentele karakter van de evaluatie is
het nooit de bedoeling geweest om door middel van gesprekken of vragenlijsten meer in-
formatie te verzamelen met betrekking tot een mogelijke proces- en context-evaluatie.

1 Paper gepresenteerd op de Onderwijs Research Dagen te Leiden, 10-11 april 1980.

2 Wij willen dr. E. Berns die het filosofie-onderwijs verzorgde, en zijn student-assistent H. van Opstal
danken voor hun prettige en leerzame samenwerking. Vermeld zij ook dat W. Elsinga, tijdelijk me-
dewerker van het O.R.C., zich bij de verwerking van de gegevens verdiensteüjk heeft gemaakt.

Wel is achteraf met de docent de betekenis van het een en ander besproken waarvan de
weerslag in het tweede deel terug te vinden is (n.1. § 3). Paragraaf 2 bevat de psychome-
trische evaluatie van het meerkeuze tentamen, terwijl daarna in paragraaf 3 enkele relati-
verende kritische vragen worden gesteld omtrent de betekenis van psychometrische gege-
vens voor de beoordeling van de waarde van een toets. Ook reeds in de tweede paragraaf
komt de behoefte van de auteur tot uiting om te ontsnappen aan het beperkte gezichts-
veld van de klassieke item- en toetsanalyses, omdat hem dit voor een goede validering
noodzakelijk voorkomt. Daarbij wordt gebruik gemaakt van de zgn. multitrek-multime-
thode benadering van Campbell en Fiske (1959). Hierbij zijn de uitslagen van de studen-
ten voor het meerkeuze tentamen filosofie gecorreleerd met de andere uitslagen voor filo-
sofie (open vraag en werkstuk), alsook met die van andere vakken van de propaedeuse
economie (n.1. wiskunde, statistiek en economie). De verbreding van het blikveld bestaat
hierin dat na een klassieke analyse van de resultaten van de toetsafname(s), waarbij de
toets op zich zelf wordt beoordeeld op grond van de itemgegevens en de toetsgegevens (in
het licht van gangbare normen voor meerkeuze toetsen) nü ook de relatie met de andere
tentamens (m.n. de behaalde resultaten) in de beoordeling van de waarde van de gebruikte
meerkeuze toets wordt betrokken. Anders gezegd worden naast interne criteria, nu ook
externe criteria voor de toetsvaliditeit aangelegd: allereerst de andere tentamenuitslagen
voor filosofie en verder uitslagen voor andere vakken. Bij dit laatste is het mogelijk de
studieresultaten behaald middels de drie verschillende toetsvormen van filosofie onderiing
te vergelijken en met de resultaten behaald voor de andere vakken.

Als inleiding wordt eerst wat nadere informatie over de bestudeerde onderwijssituatie ge-
geven. Het studieprogramma van de propaedeuse economie van de Katholieke Hogeschool
te Tilburg bevat in het le semester 4 vakken: 1. filosofie, 2. wiskunde, 3. statistiek en 4.
economie. Tijdens de studiejaren 77/78 en 78/79 wordt het tentamen filosofie afgenomen
met drie tentamenvormen: a) een werkstuk, b) een meerkeuzetoets, c) een schriftelijke
open vraag. Het verband tussen de uitslagen van de verschillende onderdelen van vakken
wordt bij 320 studenten uit de propaedeuse 78/79 nagegaan. Het onderwijs in de filoso-
fie wordt als volgt gegeven en getentamineerd. De eerste 8 weken wordt er een hoorcolle-
ge gegeven aan ongeveer 300 studenten. In de coUeges worden de klassieke filosofische be-
grippen en thema's die in een daarnaast gebruikt boek in romanvorm worden behandeld,
systematisch uiteengezet. In het begin van het jaar worden er ook zeven studievragen
aan de studenten uitgedeeld, die gericht zijn op de filosofische inzichten van de auteur
van het genoemde boek. De studenten moeten er een vraag uit kiezen en als 'werkstuk'
schriftelijk beantwoorden. Hiervoor krijgen ze o.a. de gelegenheid begin november, wan-
neer ze 2 weken lang geen colleges hoeven te volgen.

Deze werkstukken van max. 700 woorden (d.i. 2 a 3 pagina's lang) worden nagekeken en
in november tijdens speciale werkcolleges besproken. Voor groepen van max. 50 studen-
ten worden dan de antwoorden besproken aan de hand van veel gemaakte fouten.
Na de werkcolleges in november volgt in december het eerste tentamen filosofie. De stu-
denten moeten dan een andere vraag kiezen uit de 7 dan die ze voor het werkstuk geno-
men hebben, en deze moet beantwoord worden (in 200 d 300 woorden, d.i. ongeveer één

tentamenvel) als schriftelijke open vraag. Daarnaast is er het multiple-choice tentamen dat
betrekking heeft op de in de hoorcolleges behandelde materie. In januari is er de mogelijk-
heid om deel te nemen aan een herkansing.
In schema ziet het verloop van het onderwijs er aldus uit:

Een gebruikelijke toetsanalyse m.b.t. de moeilijkheidsgraad en het functioneren van de af-
leiders (p- en a-waarden), item-restcorrelatie en de interne consistentie (KR-20) is uitge-
voerd op 4 tentamens, waarvan een overzicht in tabel 1.

Hier wordt slechts kort ingegaan op de toetsanalyses (voor een meer uitvoerig verslag zie
het rapport van Wijffels 1980). Er is gepoogd elke keer aan de hand van de gegevens van
de toetsanalyse en een bespreking daarvan de toets te verbeteren. Het tweedejaar (78/79)
is de toetslengte bovendien verdubbeld zodat een redelijke lengte van 40 items werd be-
reikt. De meest opvallende verbetering is de voortdurend stijgende waarde van de KR-20
(interne consistentie) die uiteindelijk een aanvaardbare waarde van 0,83 bereikt. Deze
stijging is gedeeltelijk te verklaren uit de parallel daarmee stijgende gemiddelde item-rest-
correlaties (RIR) en door de toetsverlenging (in het tweede jaar). Waren de toetsen echter
alleen maar verdubbeld, zonder dat ze op enige andere wijze zouden zijn veranderd (of
verbeterd'), dan zouden we in 78/79 slechts de waarden van 0,39 en 0,47 mogen ver-
Wachten (op basis van de waarden van 77/78 via de gekende formule voor toetsverlenging
van Spearman-Brown). Welnu, aangezien de waarden hoger liggen, moet de verklaring ook

elders gezocht worden, zoals in een homogenisering van de items naar inhoud, een meer
heterogene samenstelling van de groep studenten (grotere spreiding), en een betere formu-
lering van de items. De moeilijkheidsgraad van de tentamens is niet verbeterd in de zin
van dichter bij 0,625 (d.i. de optimale p-waarde voor items om goed te discrimineren);
wel zijn de toetsen het tweede jaar makkelijker (hogere p-waarden). De aantrekkelijkheid
van de alternatieven is overigens niet bijzonder goed, omdat er zelfs constant ongeveer
15% alternatieven zijn die niet (d.i. door 1% of minder studenten) gekozen worden. Der-
gelijke alternatieven sluiten dus niet aan bij gebruikelijke misverstanden onder studenten.
Dit punt bespreken we nader in het tweede deel. Zoals gezegd zijn de item-restcorrelaties
het tweede jaar verbeterd (waarden van gemiddeld 0,28 en 0,35), m.n. komen er geen ne-
gatieve Rjr-waarden meer voor (zoals wel in het le jaar). Dit betekent dat de toetsen dan
meer items bevatten die homogeen zijn naar inhoud d.w.z. op te vatten zijn als herhaalde
metingen van dezelfde kennis of vaardigheid. Dit draagt direct bij tot een hogere KR-20-
waarde. De schaduwzijde van dergelijke 'verbeteringen' bespreken we in het tweede ge-
deelte (par. 3.2.). De conclusie op basis van deze interne analyse is dat er een meerkeuze-
toets voor filosofie is op te stellen die redelijk beantwoordt aan de gangbare criteria, m.n.
wat betreft de interne consistentie.

Zoals gezegd wordt de psychometrische evaluatie niet beperkt tot de klassieke toetsana-
lyses maar wordt het perspectief verbreed tot wat Campbell en Fiske (1959) genoemd
hebben een 'convergente en discriminante validatie' van de toets. Hiervoor is een correla-
tiematrix (tabel 2) opgesteld met de bekende Pearson correlatiecoéfficiènten.

N.B. In tabel 2 moet men op de diagonaal (met streepjes: -) befrouwbaarheidscoëfficiën-
ten denken voor elk tentamen. Over de betrouwbaarheid van de tentamens, in de vorm
van correlatiecoëfficiënten berekend op basis van herhaalde afname in dezelfde of soort-
gelijke vorm is niets bekend. Alleen voor de meeurkeuzetoets filosofie beschikken we over
een schatting van dergelijke betrouwbaarheid in de vorm van de KR-20 index, een coëffi-
ciënt die eigenlijk - en dat is belangrijk - de mate van interne consistentie (homogeni-
teit) van de toets weergeeft.

Tabel 2 geeft een indruk van de validiteit van het meerkeuze tentamen filosofie. Hierbij
kunnen we kijken naar de mate van samenhang tussen de verschillende vormen van het
filosofietentamen (interna criteria), maar ook naar de samenhang van elke vorm met de
andere vakken (externe criteria). In de beschouwingswijze van Campbell en Fiske (1959)
is voor een volledig bevredigende validering van een meetmethode vereist dat i.v.m. de
convergente validiteit deze methode significant correleert met andere meetmethodes voor
dezelfde trek, én dat bovendien i.v.m. de discriminante validiteit die intercorrelaties gro-
ter zijn dan de correlaties van die methode met metingen van andere trekken (zeker als
die dan ook nog met andere methoden worden gemeten).

De gedachte die hier aan de basis ligt kunnen we aldus nader toelichten. De termen 'trek'
en 'methode' hebben in het onderwijs betrekking op resp. (studie-)vak en toetsvorm. Van
convergente validiteit kan worden gesproken als er relatief hoge correlaties optreden tus-
sen de uitslagen voor tentamens met verschillende toetsvormen voor hetzelfde vak. Dit is
echter niet de enige methode om aan te tonen dat een toets werkelijk meet wat men er-
mee bedoelt te meten (bijv. filosofiekennis). Een toets kan n.1. ongeschikt ('in-valide')
blijken omdat hij te hoog (n.1. hoger) correleert met toetsen die bedoeld zijn andere vaar-
digheden of kennis te meten (dan is er sprake van het ontbreken van discriminante vali-
diteit). Hierbij willen we de aandacht vestigen op het feit dat men bij de validering van
toetsen wezenlijk (per definitie) het onderwijsdoel en de functie van een toets in het on-
derwijs moet betrekken. Validiteit is derhalve geen eigenschap op zich van een toets, dit
in tegenstelling tot de betrouwbaarheid ervan.

Bekijken we nu in het licht van deze overwegingen de gegevens van de matrix (tabel 2).
De filosofie metingen correleren onderling weliswaar significant, maar deze coëfficiën-
ten zijn de laagste uit heel de matrix. Zo correleert de meerkeuzetoets filosofie lager met
de andere tentamens filosofie dan met wiskunde, statistiek of economie. Het werkstuk en
de open vragen echter correleren onderling hoger dan met de andere vakken. Zo be-
schouwd moet geconcludeerd worden dat het werkstuk en de open vraag meer (conver-
gente en discriminante) valide tentamenvormen zijn dan de meerkeuzetoets. Deze con-
clusie moet enigszins genuanceerd worden omdat het werkstuk eigenlijk ook sterk lijkt op
een open vraag. Hierdoor kan men een zekere correlafie verwachten. Daar staat echter te-
genover dat de activiteiten en omstandiglieden voldoende verschillend zijn om van ver-
schillende toetsvormen te mogen spreken.

Tot slot zij erop gewezen dat de correlatiematrix (tabel 2) hier op een intuitieve manier
is geraadpleegd m.b.t. de criteria van convergente en discriminante validiteit. Sommige au-
teurs hebben factoranalytische strategieën voorgesteld en besproken (zie o.a. Schmitt,
Coyle en Saari 1977). Hubert en Baker (1978) achten de meer intuïve manier van werken
Van Campbell en Fiske (1959) nog altijd waardevol. Zij hebben een non-parametrische in-
dex ontwikkeld om die werkwijze te formaliseren en statistisch de vraag te toetsen of
Zo'n matrix in zijn geheel aan de criteria beantwoordt. Hierop zijn we verder niet inge-
gaan, mede omdat de matrix (van tabel 2) slechts voor één vak meerdere (toets-)metho-
den bevat.

1. Zijn meerkeuze toetsen geschikt voor filosofie?
De interne analyse van de toets leert ons dat er een consistent meerkeuzetentamen filo-
sofie werd ontwikkeld (in 78/79). De toets voldoet dan ook in andere opzichten aan wat

men van dergelijke toetsen mag verwachten. De correlatie met de twee reeds bestaande fi-
losofie-tentamenvormen toont echter aan dat de meerkeuze toets niet erg valide is, d.w.z.
weinig verband houdt met de bestaande filosofietentamens.

Men moet echter bedenken, dat men hierbij de andere vormen als criterium hanteert om
de meerkeuze vorm te beoordelen. De rollen kunnen echter ook omgekeerd worden en
dan kan gesteld worden dat het werkstuk en de open vraag weinig verband onderhouden
met een objectieve en consistente filosofietentamenvorm, die de meerkeuze toets toch is.
In de probleemstelling (§1) werd gesteld dat 'uit voorzichtigheid en op principiële gron-
den' verschillende tentamenvormen naast elkaar gehandhaafd bleven. De voorzichtigheid
hield verband met de bij invoering van de nieuwe toetsvorm nog onbekende uitslag van
de psychometrische analyse. Was bijv. een hoge correlatie gevonden tussen de uitslagen
van de meerkeuze toets en de open vraag toets (of werkstuk) dan zou men — als er ten-
minste geen principiële bezwaren tegen zouden zijn - kunnen overwegen de open vragen
(of de werkstukken) door meerkeuze toetsen te vervangen. Dit zou een enorme tijdsbe-
sparing meebrengen, n.1. in het nakijken en scoren daarvan. Daar is natuurlijk de hoofdre-
den gelegen voor deze werkwijze in talloze kandidaatsopleidingen in het w.o. Er zijn ech-
ter wèl principiële gronden om het uitsluitend gebruik van meerkeuze toetsen in het on-
derwijs tegen te gaan.

De fundamentele vraag of men de meerkeuze toets kan beschouwen als een geschikte ten-
tamenvorm voor filosofie houdt n.1. verband met de doelstellingen die men (impliciet) of
expliciet) heeft met het vak èn met de mogelijkheden en beperkingen van- deze toets-
vorm. Voor een bespreking van het laatste verwijzen we naar elders (Wijffels, memo
697.79) maar samenvattend kan men stellen dat met een meerkeuze toets meer doelen
geoperationaliseerd kunnen worden dan men meestal meent (ook hogere cognitieve vaar-
digheden en niet alleen feitenkennis). Maar toch kan zo'n toets ook weer niet alles. Het
is evident dat bijvoorbeeld het produceren van een samenhangend betoog op basis van re-
levant uitgekozen informatie buiten het bereik van dergelijke toetsen valt. Neemt men
dergelijke vaardigheden ook op in de doelstelUngen van de vak, dan komt men er niet on-
der uit om van de studenten ook te eisen dat ze een betoog ontwikkelen in antwoord op
een open vraag of in de vorm van werkstukken (zie ook Mellenbergh, p. 6-7 in De Groot
en Van Naerssen, 1973). Dit is dan ook in de praktijk dikwijls de gewoonte zoals we tot
onze tevredenheid konden vaststellen bij bijvoorbeeld de juridische faculteiten in Neder-
land voor het vak Inleiding/Encyclopedie le jaar (zie het overzicht in memo 610.78 van
Wijffels). De docent filosofie die in onderhavjg onderzoek betrokken is, is ook van me-
ning dat de meerkeuze toets gecombineerd moet blijven met andere toetsvormen. We heb-
ben de indruk dat er in verschillende studierichtingen (of vakgroepen) op kandidaatsni-
niveau te licht van deze principes wordt afgeweken onder druk van de omstandigheden.

3.2. Gaat het streven naar een hoge KR-20 niet ten koste van goede vragen?
De docent heeft in besprekingen achteraf laten weten dat hij de ervaring heeft opgedaan
dat er ook voor filosofie redelijk verstandige vragen te stellen zijn in de meerkeuze vorm.
Hiervoor verwijst hij o.a. naar een vraag waar van de student geëist wordt dat hij bepaalde
inzichten in theorieën van Plato kan toepassen op opvattingen van andere wijsgeren. Het
oordeel van de vakdocent is volgens ons een belangrijke bron voor de validiteitsbeoorde-
ling van een toets. Het streven naar vragen van een hoger (cognitief) gehalte dan pure (fei-
ten)kennis en geheugen moet uiteraard aangemoedigd worden (zoals ook Wilbrink 1979
dat doet). Immers te vaak komt het voor dat er meerkeuze vragen gesteld worden van der-

gelijk triviaal gehalte, waarmee overigens niet beweerd wil worden dat die bij open vraag
tentamens niet gesteld zouden worden. Dit wordt trouwens door onderzoek bevestigd
(zie b.v. Dave, 1973).

Vanuit dit oogmerk heeft het streven naar een hoge KR-20 een duidelijke schaduwzijde.
Als docenten er met de nodige inspanning in slagen enkele verstandige (denk-)vragen in
een toets op te nemen, zullen dergelijke vragen meestal een - zij het hoopvol - minder-
heidsaandeel vormen in het geheel van de toets. Bij een itemanalyse kunnen die vragen lage
en zelfs negatieve item-restcorrelaties vertonen (waarmee aangegeven wordt dat ze weinig
of niet bij de rest passen). Het verwijderen of veranderen van die items is een middel om
de KR-20 te doen stijgen. Hiertegen willen wij echter, met Wilbrink (1979), steigeren.
Het klinkt namelijk heel verleidelijk dat men de 'betrouwbaarheid van zijn toets wil ver-
hogen' en we zullen niet ontkennen dat dit een loffelijk streven is en zelfs een noodzake-
lijke voorwaarde voor validiteit. Als men echter dit streven concretiseert door de KR-20
op genoemde wijze te verhogen dan vergeet men dat deze maat geen eigenlijke betrouw-
baarheidsmaat is, maar wel een maat van interne consistentie, die aangeeft in welke mate
alle items als herhalingen van dezelfde meting zijn op te vatten. In het onderwijs beschik-
ken we nu eenmaal over geen duidelijke hertesting- of parallel betrouwbaarheden van de
tentamens. De KR-20 is slechts als een schatting van de betrouwbaarheid op te vatten,
terwijl ze zelf iets anders is. In plaats van die enkele (heterogene) goede items te verwijde-
ren of 'aan te passen' kan men misschien zelfs beter de meerderheid van triviale vragen
elimineren om een meer valide toets te krijgen (in de veronderstelHng dat men in het
w.o. een verstandige beheersing van de studiestof van de studenten wil eisen). Wat we
hier als een theoretisch gevaar hebben beschreven deed zich in de praktijk ook voor. De
genoemde goede vraag over Plato had namelijk een negatieve item-restcorrelatie, alsook
andere vragen die de docent juist als goede aanwees.

En zoals we gezien hebben is de betrouwbaarheid (KR-20) van de meerkeuzetoetsen filo-
sofie de vier opeenvolgende keren van afname voortdurend gestegen (zie tabel 1). De do-
cent is van mening dat deze verhoging van de KR-20 vooral bereikt werd door de items
zodanig te 'verbeteren' dat ze inderdaad een homogener geheel vormen (KR-20 is zoals ge-
zegd in eerste instantie een maat van interne consistentie). In de praktijk betekende dit
echter dat dikwijls interessante denkvragen verwijderd of veranderd werden omdat die
als minderheid in een toets met veel vragen naar kennis van feiten, principes en inzichten
een heterogeen groepje vormden. Deze evolutie is natuurlijk te betreuren omdat het juist
het streven van veel docenten is om ook meerkeuze vragen van een hoger intellectueel
niveau te maken. Slagen wij daar niet in dan worden juist de vooroordelen bevestigd die
alom tegen deze toetsvorm bestaan.

3.3. Is de beoordeling van een multitrek-multimethodematrix niet sterk afhankelijk van
de onderwijsdoelstelling?

De beoordeling van de correlaties van de matrix (van tabel 2) in het licht van de validi-
teitsvraag van de meerkeuze toets is volgens ons geheel afliankelijk van de onderwijsdoel-
stellingen van de docent (of insteUing).

Allereerst binnen zijn eigen vak, zou hij bijvoorbeeld kunnen volhouden dat hij met de
meerkeuze toets eerder feitelijke kennis wil nagaan bij de studenten, terwijl er met open
vragen en werkstukken naar andere vaardigheden en kennis wordt gevraagd. De lage cor-
relaties staan deze interpretatie in elk geval niet in de weg. Hiermee wordt de eis van
convergente validiteit verlaten omdat hij niet langer op verschillende wijzen hetzelfde

pretendeert te meten. Een dergelijke handelwijze is op principiële (zie 3.1.) en diagnosti-
sche gronden best te verdedigen.

Bij de beoordehng van de discriminante validiteit komt de relatie ter sprake die dit vak
zou moeten onderhouden met de doelstellingen van het geheel van een vakkenpakket
(hier de propaedeuseopleiding economie). De eis dat de correlatie van een toets met an-
dere vakken lager dient te zijn dan met andere toetsen van hetzelfde vak, vooronderstelt
dat die andere vakken ook andere 'trekken' moeten meten bij de studenten. Een derge-
lijke eis is volkomen terecht voor een test voor bijvoorbeeld 'sociale intelligentie', wan-
neer men wil staande houden dat dit een onafliankelijke karaktertrek is t.o.v. bijvoorbeeld
algemene intelligentie (of voor een test van 'sociale dominantie' t.o.v. intelligentie of ang-
stigheid). Hier hebben we de situatie voor ogen dat men theoretisch onafhankelijk gepos-
tuleerde trekken met meerdere meetmethoden (testen) wil valideren, oftewel empirisch
als werkelijk bestaande, en meetbaar, wil bewijzen. Voor het onderwijs heeft men meestal
niet met deze situatie te maken en kan men zelfs beweren met een omgekeerde situatie te
doen te hebben. De praktijk van het onderwijs is toch zo dat de verschillende uitslagen
van een student worden samengevoegd om te beoordelen of een student (globaal) genoeg
geleerd heeft en daarom geschikt blijkt om de studie voort te zetten. In dit perspectief
kan men de verschillende studieresultaten opvatten als meerdere pogingen om te achter-
halen of de student een gemeenschappelijk algemeen doel bereikt: geschiktheid voor, en
voortgang in een bepaalde studiefase. Hoge onderlinge correlaties tussen vakken zijn
dan normaal en hoeven enkel die docenten (vakgroepen) te storen die dachten dat ze een
geheel andere leerstof aanbieden of totaal andere vaardigheden aanboren bij de studenten.
Tabel 2 leert ons dat het vak filosofie duidelijk minder met de (bestudeerde) rest van de
opleiding verband houdt dan de overige drie vakken. Over de waarde van het gekozen ex-
terne criterium, namelijk de andere vakken, voor de validering van de meerkeuze toets
filosofie kan dus getwist worden. Als men deze relatie belangrijk acht, stelt men zich in
feite op het standpunt dat de verschillende tentamens een gemeenschappelijk oogmerk
hebben. Dit kan zijn: het samen nagaan of een student geschikt is voor de verdere studie
in de economie. Dit standpunt lijkt ons overigens niet onredelijk. Bovendien kan men stel-
len dat'de docenten van de verschillende vakken ook de algemene studie-inzet (ijver, in-
spanning) van de studenten op verschillende manieren nagaan.

Het blijkt dat de meerkeuze toets even goed correleert met de rest van de opleiding als de
open vraag toets (het werkstuk correleert het minst).

Hiemit kan besloten worden, dat de meerkeuze toets filosofie in het kader van de doel-
stellingen van de propaedeuse opleiding econoinie even goed op z'n plaats is als de open
vraag toets filosofie. De meerkeuze toets heeft daarin zelfs een relatief specifiek andere
bijdrage te leveren (gezien zijn lage correlatie met de open vraag toets).

3.4. Is de vertrouwdheid met de denkwereld van studenten en vindingrijkheid bij het op-
stellen van de items niet een 'voor-waarde' voor de bruikbaarheid van toetsanalyses?
De nodige voorzichtigheid is dus geboden bij het interpreteren en gebmiken van resulta-
ten van toetsanalyses, zoals Rj^, KR-20 en correlaties. We kunnen echter verder gaan en
stellen dat het materiaal waarop de analyses worden uitgevoerd, de items n.1., van een
goed gehalte moet zijn en dat deze 'waarde' voorafgaat aan en conditioneel is voor de
waarde van de analyses. Voor het opstellen van goede items zijn meer zaken vereist: al-
lereerst vertrouwdheid met de denkwereld en uitdmkkingswijze van studenten en, ten
tweede, creativiteit en ten derde, grondige kennis van het vak bij het opstellen van de vra-
gen.

Wat betreft het eerste punt het volgende: om een goede meerkeuze vraag te maken moet
men behalve een 'stam' waarin een duidelijk probleem wordt gesteld ook plausibele aflei-
ders hebben (de alternatieven). Zo'n afleider moet voor een student die de stof niet goed
beheerst een plausibel antwoord lijken. Welnu, dan moeten de afleiders opvattingen be-
vatten die als gebruikelijke misvattingen circuleren onder de studenten. Deze opvattingen
leert men alleen dan kennen als men met de studenten contact onderhoudt, bijvoorbeeld
door middel van responsie- of werkcolleges. Maar ook in opstellen, werkstukken en schrif-
telijke antwoorden op open vragen kan men dergelijk materiaal verzamelen. Dit is dus een
reden te meer om naast meerkeuze toetsen andere toetsvormen, zoals open vragen te ge-
bruiken (die overigens voor dit doel, niet voor het tentamen moeten meetellen). Dit is o.a.
ook door Van Dorp (memo 432.77) en Gronlund (1976) benadrukt.
Voor de twee andere punten kunnen we vanuit een onverdachte hoek een passage citeren
van Davis (1965), die zijn sporen heeft verdiend op het gebied van de itemanalyse van ob-
jectieve toetsen. Hierin wordt een oproep gedaan om goede vragen te maken, waarvoor
de inzet en creativiteit van de vakdocent centraal staat. In de inleiding van zijn boek
'Item-analyse' schrijft Davis:

Het feit dat deze monografie grotendeels gewijd is aan statistische beschouwingen, wil niet zeggen
dat dit de enige belangrijke criteria zouden zijn bij testconstructie. Integendeel, het belangrijkste
probleem blijft het ontwerpen en het bewerken van de items. Zonder degelijk geconcipieerde items
kan geen enkele test geheel bevredigend zijn. De schrijver werd menigmaal teleurgesteld doordat
instellingen voor testconstructie bereid bleken honderden dollars te besteden om het nodige statis-
tische werk uit te voeren, terwijl het opstellen der items werd overgelaten aan hulpkrachten zonder
opleiding in het door de test bestreken vak of in het opstellen van items. Deze tendens is te betreu-
ren, want een verfijning van de statistische technieken in de testconstructie kan nooit onvolkomen-
heden in de items zelf compenseren, en nog minder een tekort aan vindingrijkheid en wetenschap-
peUjk gehalte, of slordigheden in de redactie of het persklaar maken. Al zijn voor het maken van
een test uiteraard kwantitatieve gegevens nodig, het bhjft toch in wezen een creatief proces. Elke
test weerspiegelt het psychologisch inzicht, de goede smaak, en de persoonlijkheid van zijn auteur.
Juist dit artistiek element maakt het vervaardigen van een test tot zo'n moeilijk en tegelijk fascine-
rend werk.

Campbell, D.T. en Fiske, D.W. Convergent and discriminant validation by the multitrait-multimethod

m2iüi\. Psychological Bulletin, 1959,56, 81-105.
Dave, K.H. Eine Taxonomie pädagogische Ziele und ihre Beziehung zur Leistungsmessung. In: Ingen-
kamp, R., Marsolek, Th. (hrsg.), Möglichkeiten und Grenzen der Testanwendung in der Schule.
Weinheim und Basel; Beltz Verlag, 1973, p. 149-161.
Dorp, C. van. Een manier om goede studietoetsen te maken. Tilburg: KHT/ORC, memo DOO/OR/
432.77, 1977.

Gronlund, Measurement and evaluation in teaching. New York: MacmiHan Publ. Co. Inc., 1976.
Hubert L.J. & Bakker, F.B. Analyzing the multitrait-multimethod msXiïx. Multivariate Behavioral Re-
search. 1978, 13, 163-179.
Mellenbergh, G.J. Waarom 'meerkeuzevragen?' In: De Groot, A.D., & Van Naerssen, R.F., Studietoet-
sen. Construeren, afnemen, analyseren. Den Haag: Mouton, 1973, p. 3-8.
Schmitt, N., Coyle, B.W. & Saari, B.B. A review and critique of analysis of multitrait-multimethod

matrices. Multivariate Behavioral Research, 1977,12, 447-478.
Wijffels, H. Betrouwbaarheid en nauwkeurigheid van meting (score). Tilburg: KHT/ORC, memo DOO/
OR/681.79, 1979.

Wijffels, H. Mogelijkheden en beperkingen van multiple-choice vragen. Tilburg: KHT/ORC, memo
DOO/OR/697.79, 1979.

Wijffels, H. Een onderzoek naar de validiteit van een meerkeuze tentamen filosofie. ORC-rapport

nr. 7, TUburg: KHT/ORC, 1980.
Wilbrink, B. Toetsen. (COWO-docentencursus, cursus 10). Amsterdam; U.v.A./C.O.W.O., 1978.

In this paper an elementary introduction in the theory of log-linear models is given. Log-linear
models are valuable in detecting structure in multi-dimensional tables. The theory is illustrated
with an example. This example concerns the relationship between advices for secondary
schools, testscores and several social-economical variables.

ln de sociale wetenschappen komt het nogal eens voor dat de te onderzoeken gegevens
van nominaal karakter zijn. Om de gedachten te bepalen kan men denken aan de situatie
waarin een aantal kinderen in de zesde klas van een lagere school ingedeeld wordt op een
aantal variabelen. In een onderzoek van Hoogstraten en Mellenbergh (1978) was één
variabele het onderwijzersadvies (hier gedichotomiseerd als al of niet naar de HAVO),
terwijl een andere variabele de toetsscore (gedichotomiseerd als laag en hoog) was. Door
de leerlingen in te delen op deze twee variabelen, elk met 2 niveaus, kan men een 2x2
kruistabel opstellen. Toetsing van de hypothese dat de variabelen onafhankelijk zijn
geschiedt dan met een x^-toets. Veronderstel echter dat de leerlingen nog op een derde
variabele in te delen zijn, bijvoorbeeld de situatie thuis, gedichotomiseerd als gunstig
(stimulering ouders) en ongunstig. De gegevens kunnen dan samengevat worden in een
2x2x2 tabel. Hoe moeten we deze gegevens nu analyseren? Is bijvoorbeeld de toets-
score onafhankelijk van de situatie thuis ongeacht het onderwijsadvies, of, zijn die twee
variabelen alleen onafhankelijk gegeven het advies, d.w.z. binnen de groep die wel (of
niet) naar de HAVO gaat? Zijn alle drie variabelen onafhankelijk van elkaar? Algemeen
gesteld: welke relaties (model) tussen de 3 variabelen geven de 'beste' beschrijving (verkla-
ring) van de gegevens?

In de volgende paragrafen wordt een inleiding' gegeven in het log-lineaire model; een
analyse methode die bij uitstek geschikt is helderheid te verschaffen over de relaties
tussen variabelen in meer- dimensionale kruistabellen.

Elementaire inleidingen in log-lineaire modellen zijn o.a. Fienberg (1977) en Everitt
(1977).

Allereerst zullen we het log-lineaire model inleiden aan de hand van een twee-dimensio-
nale tabel.

^ Adres auteur: Psychologisch Laboratorium, Universiteit van Amsterdam, Weesperplein 8, 1018 XA
Amsterdam.

We gaan er vanuit dat een bekend aantal van N kinderen in te delen is op 2 variabelen.
De geobserveerde aantallen zijn gegeven in de volgende 2x2 tabel.

De tabel bestaat uit observaties Xy, i, j = 1,2, waarbij Xjj het aantal kinderen in cel(i,j) is.
Dus X]j is het aantal kinderen in cel(l,l) dat naar de havo gaat en een hoge score op de
toets heeft. De som in de i"'*® rij is Xi+ (dus Xj + is het totale aantal kinderen dat naar de
Havo gaat), en de som in de j"''® kolom is x+j. Natuurlijk geldt dat Xi+ + X2+ = x+j +

Zoals bekend, kan de vraag of variabele 1 onafhankelijk van variabele 2 is getoetst worden
met een x^-toets met (2 - 1) (i - 1) = 1 vrijheidsgraad:

Het geschatte verwachte aantal waarnemingen my in cel(i,j) is, onder de aanname dat
variabele 1 onafhankelijk is van variabele 2, gelijk aan

Dit volgt uit het feit dat het verwachte aantal in cel(i,j) gelijk is aan de kans py om in
cel(i,j) te komen, keer het totale aantal N. Echter, indien variabele 1 onafhankelijk is
van variabele 2, dan geldt dat de kans py gelijk is aan de kans om in rij i te komen keer
de kans op rij j. Dus

Indien we van de beide zijden van de gelijkheid (2) de natuurlijke logaritme nemen, dan
ontstaat

We zien in (4) dat de logaritme van de geschatte frekwentie my een lineaire functie is van
een aantal grootheden. Dit suggereert dat we voor het onafhankelijksmodel het volgende
log-lineaire model voor de verwachte frekwentie my kunnen opstellen:

Voor de algemeenheid veronderstellen we dat de twee-dimensionale tabel gevormd wordt
door I rijen en J kolommen. De analogie van model (5) met een twee-weg variantieanaly-
tisch model zonder interactie valt op: In een variantieanalytisch model wordt de verwach-
te score op de afhankelijke variabele als een lineaire functie van een aantal modeltermen
geschreven; in het log-lineaire model wordt de logaritme van het verwachte aantal als een
lineaire functie van een aantal modeltermen geschreven: Deze analogie geldt ook voor de
defmitie van de u-termen in model (5): u is het algemeen gemiddelde van de logaritme van
de verwachte aantallen; Ui(i) is op te vatten als het 'effect' van de i"''® rij; U2(j) is het
'effect' van de j"''® kolom, en, omdat Ui(j) en U2(j) als afwijkingen van het algemeen ge-
middelde u gedefinieerd zijn, geldt:
I J

Met behulp van een I X J tabel van observatie {Xij}kunnen de parameters in het onafhan-
kelijkheidsmodel (5) geschat worden. Er geldt dan:

Met de in (1) genoemde x^ toets (met (I — I) x (J — 1) vrijheidsgraden) kan getoetst wor-
den óf het onafliankelijklieidsmodel een adequate beschrijving van de gegevens vormt. Stel
nu echter dat het model niet past\ d.w.z., variabele 1 is wel afhankelijk van variabele 2. De

(afhankelijkheid tussen variabele 1 en variabele 2 brengen we dan tot uiting door het toe-
voegen van een interactieparameter in model (5). Het model wordt dan

(8) log my = U -H Ui(i) + U2(j) + Ui2(ij) ,
waarin naast de restricties in (6) ook geldt

De parameters Ui2(ij) representeren de interactie effecten tussen variabele 1 en varia-
bele 2. Indien üi2(ij) = O dan zijn variabele 1 en variabele 2 onafhankelijk. Met behulp van
de schattingen üi2(ij) kan men onderzoeken welke cellen(i,j) bijdragen tot een (signifi-
cante) interactie. Het blijkt dat, onder zekere voorwaarden, üi2(ij) getransformeerd
kunnen worden tot standaardscores. Indien de absolute waarde van de standaardscores in
een cel(i,j) groter is dan 2 kan men stellen dat de desbetreffende cel(i,j) significant (op
5%) bijdraagt tot de interactie tussen variabele 1 en variabele 2.

In deze paragraaf gaan we er vanuit dat in het onderzoek drie variabelen een rol spelen.
Bijvoorbeeld:

We gaan er weer vanuit dat N personen (kinderen) ingedeeld worden in een 2 x 2 x 2 tabel
Van observaties {xjjk}. Dus Xui is het aantal kinderen met HAVO advies uit een 'hoge'
buurt en gunstige situatie thuis. Indien de variabelen onderhng onafhankelijk zouden zijn,
dan zal analoog aan de vorige paragraaf, voor het geschatte verwachte aantal kinderen in
cel(i,j,k) gelden:

Voor het verwachte aantal observaties my^ postuleren we, analoog aan (5), het volgende
log-lineaire (onafhankelijkheidsmodel):

Waarin u het algemene gemiddelde is, en waarin bovendien (voor een algemene I x J x K
tabel) de volgende restricties gelden:

Indien de drie variabelen niet onafhankelijk van elkaar zijn, dan zijn diverse andere

(i) VI (variabele 1; HAVO) hangt samen met V2 (variabele 2; Buurt) maar beide
variabelen samen hangen niet af van de derde variabele (Situatie)

(ii) VI en V2 zijn onafhankehjk van elkaar voor elk niveau van V3 (conditionele
onafhankelijl^eid)

(12) log mijk = u + Ui(i) + U2(j) + U3(k) + Ui2(ij) + U23(jk) + Ui3(ik) + Ui23(ijk),

In deze paragraaf komen 5 mogelijke basismodellen aan de orde. Elk model correspon-
deert met een hypothese over één of meer u-termen in model (12). Bijvoorbeeld: de
hypothese dat er geen 2e orde interactie is, is analoog aan de aanname dat U123 = 0.

Hypothese: H12,23,13> identiek aan U12 = U13 = U23 = U123 = O
Model: u-H Ui(i) + U2(j) + U3(k); notatie: [1], [2], [3]
Grafisch: (!)

Model 2: VI is afhankelijk van V2; tezamen zijn ze onafhankelijk van V3, of wat iden-
tiek is:

V2 en V3 zijn onafhankelijk en VI en V3 zijn onafhankelijk.
Hypothese: H,3_ 23; identiek aan U13 = U23 = u,23 = 0.
Model: [12], [3]
Grafisch:

De notatie [12] betekent dat de eerste orde interactie parameter Ujj, alsmede de 'lagere'
hoofdeffecten Ui(i) en U2(j) in het model zitten (hiërarchisch model).

Model 3: VI is onafhankelijk van V2 gegeven V3 (conditionele onafhankelijkheid)
Hypothese: H12; identiek aan Ujj = U123 = O
Model: [13], [23]
Grafisch:

Uit de graaf zien we dat indien punt 3, met de lijnen naar dat punt, verwijderd wordt, de
punten 1 en 2 niet meer verbonden zijn:

De interactie tussen VI en V2 loopt geheel via V3. In correlatietermen kunnen we stellen
dat de partiële correlatie tussen VI en V2 gegeven V3 nul is.

Geen 2-de orde interactie tussen de variabelen; d.w.z. elke interactieterm
tussen 2 variabelen wordt niet beïnvloed door de waarde van de derde varia-
bele.

Alle parameters (u-termen) worden in het model (12) opgenomen. De ^exc/zarre verwach-
te aantallen rhyk zijn nu precies gelijk aan de observaties Xy^, terwijl de x^ uit (1) dan
geijk is aan nul, zodat de passing perfect is.

Bij het verzamelen van nominale gegevens zijn drie verschillende steekproefopzetten

1. Poisson model: Er wordt aangenomen dat a) het aantal observaties x^t in cel(i,j,k)
een Poisson verdeling met gemiddelde mijk volgt, b) de IJK cel aantallen Xjjk zijn
oafhankelijk en c) het totale aantal observaties x+++ is apriori niet bekend.

2. Multinomiaal model: In dit model is apriori het totale observaties N wel bekend. Dit
model lag ten grondslag aan de vorige paragrafen. Het verwachte aantal observaties in
cel (i,j, k) is mjjk = N Pijk. Het aantal kinderen N wordt van te voren vastgelegd en is
dus niet afhankelijk van de resultaten in de steekproef, terwijl in het poisson model N
van te voren niet vastligt.

3. Product-Multinomiaal model: Om dit steekproef model duidelijk te maken, beschou-
wen we de variabele onderwijzersadvies (VI) als afhankelijke variabele en V2 en V3 als

onafhankelijke variabelen. Bovendien willen we een van te voren bekend aantal
kinderen die wel naar de HAVO gaan (xi++) en een bekend aantal kinderen die niet
naar de HAVO gaan (x2++), in het onderzoek betrekken. De opzet in een 2 x 2 x 2
tabel is dan als volgt:

De aantallen Xi++ en X2++ zijn in dit model apriori bekend, d.w.z. ze zijn niet afhankelijk
van de resultaten in de steekproef.

ln model 3: x 1++Ï ^2++ zijn gegeven;
ln model 2: Xn.+ + X2++ = N is gegeven;
In model 1: N = x+++ is niet gegeven.

Nu blijkt (Fienberg, 1977, p. 28) dat de (maximum likelihood) schattingen rhyk onder
alle steekproefmodellen aan elkaar gelijk zijn. Deze schattingen kunnen verkregen worden
met het computerprogramma ECTA of GLIM.

Zodra de schattingen rhjjk onder één van de 5 modellen uit paragraaf 5 verkregen zijn,
kunnen we de passing ('goodness-of fit') van het beschouwde model onderzoeken (Fien-
berg, 1977, p. 36). Twee passingsmaten zijn geschikt:

Het blijkt dat X^ en G^ beide bij benadering x^-verdeeld zijn met vrijheidsgraden gelijk
aan

df= aantal onafhankelijke cellen in de tabel - aantal onafhankelijk te schatten
parameters.

Stel dat in de UK tabel van paragraaf 4 het onafhankelijkheidsmodel 1 als kandidaat be-
schouwd wordt, stel bovendien dat het totaal aantal kinderen vooraf niet vastligt (Poisson-
steekproefmodel), dan is het aantal vrijheidsgraden gelijk aan

df=IJK- {1 + (I-l) + (J-l) + (K-l)} = IJK-I-J-K + 2.
In de 2 X 2 X 2 tabel waarin I = J = K = 2, is df = 4.

Verschillende strategiën zijn nu denkbaar om vanuit het meest algemene model [123] tot
het 'best passende' model te komen (zie bijv. Fienberg, 1977, p. 47, Andersen, 1980,
P. 186). In het algemeen is het verstandig een serie modellen te bezien, waarbij een vol-
gende in de reeks een speciaal geval is van het voorgaande. Bijvoorbeeld:

We gaan pas over naar hypothese Hu, 23 indien hypothese H12 niet verworpen is. We
kunnen nu onderzoeken of de overgang van een (geaccepteerd) model naar een specialer
(hypothetisch) model tot een belangrijke (significante) toename van de afwijkingsmaat x^
leidt. Indien die toename niet significant is, accepteert men het hypothetische model. Het
zoekproces stopt indien die overgang tot een significante verslechtering van de passing
leidt. Het specialere model wordt dan niet aanvaard en het oorspronkelijke model blijft
de beste beschrijving voor de gegevens.

Hoogstraten en Mellenbergh (1978) onderzochten de relaties tussen één afhankelijke
variabele en vier dichotome onafhankelijke variabelen. De variabelen waren

De observaties {xykim }, i = 1, 2, 3, 4; j, k, 1, m = 1, 2 vormen dus een 4 x 2 x 2 x 2 x 2
kruistabel. De onderzoeksopzet was van dien aard dat de totalen {x+jkim }, j, k, 1, m = 1,2
van te voren vastgelegd waren. Er is hier dus sprake van een product (van 2x2x2x2=16)
niultinomiaal steekproefmodel. Aangezien de u-termen welke horen bij de gefixeerde
marginalen (totalen) altijd in het model moeten zitten (Fienberg, 1977, p. 28), moet de
term U2345 (en z'n lagere orde termen) onder elk mogelijk model aanwezig zijn. Alleen
met die u-termen waarin de variabele 1 een rol speelt, bijvoorbeeld u,34 of Uj2, kan een
goed passend model gezocht worden. Opname van bijv. u,34 in het model impliceert dat
de tabel waarin opgeteld is over V2 en V5 nodig is voor de schatting van U134. Dus die
tabel, genoteerd als Tl34, bestaat uit observaties {xi+ki+}, i = 1,... 4, k, 1 = 1, 2. Tabel
TI34 bestaat dus uit 4 x 2 x 2 cellen. In tabel 1 staan de observaties {xi+ki+ }.

De tabel Tl34 ontstaat door samen te klappen over de tweede en vijfde variabele in
[12345]

Chi-kwadraten, aannemelijkheids-verhouding met aantal vrijheidsgraden (df) en rechter
overschrijdingskans (P) voor een aantal modellen.

Geschatte additieve parameters onder model V, ongestandaardiseerd en gestandaardiseerd
met standaardafwijking 1.

In tabel 2 worden resultaten van een aantal modellen vermeld. Alle modellen tonen een
goede passing. De maat hiervoor is de overschrijdingskans (P). Voor alle modellen is
P >.05. Hoogstraten en Mellenbergh (1978) gaan nader in op model V. Grafisch ziet dat
model er als volgt uit:

We zien dat V2 (eigenschappen), V3 (buurt) en V4 (toets) tesamen, V5 (thuis) onafhan-
kelijk van elkaar zijn gegeven VI (advies). D.w.z., verwijderen we VI, met de lijnen ver-
bonden met VI, uit het model, dan ontstaat:

Voor de interpretatie laten wij de auteurs uitgebreid aan het woord: 'Model V wordt
verder gebruikt voor interpretatie. Van belang zijn de tabellen [12], [13], [14], [15]
en [134]; naar analogie van de variantie-analyse: alle "hoofd-effecten" en het "inter-
actie-effect" van Buurt en Toets. Met elke advies-categorie in deze tabellen correspon-
deert een parameter, die gebruikt wordt om de waargenomen frequenties te reprodu-
ceren. De geschatte parameters uit model V werden gestandaardiseerd met een gemid-
delde O en standaardafwijking 1; de ongestandaardiseerde en gestandaardiseerde para-
meters staan in Tabel 3.

De interpretaties zijn vrij duidelijk. In de eerste plaats zou er sprake kunnen zijn van
enige interactie tussen de toetsscores en het sociale niveau van de buurt waar de onder-
wijzer werkt. Een interpretatie, die door Tabel 3 gesuggereerd wordt, is dat onderwijzers
uit buurten met een laag sociaal niveau leerlingen met lage toetsscores eerder het advies
Havo geven dan het advies vwo; onderwijzers uit buurten met een hoog sociaal niveau
geven leerlingen met hoge toetsscores eerder het advies havo dan het advies mavo. In

de tweede plaats blijken de lage of ongunstige polen van de afzonderlijke onafhankelijke
variabelen te leiden tot een vermindering van de adviezen VWO en HAVO, terwijl de hoge
of gunstige polen leiden tot een vermeerdering van deze adviezen. In de derde plaats
blijkt dat de invloeden van Buurt en Thuis gering zijn. De gestandaardiseerde schattingen
van de parameters voor de categorieën van de variabele Buurt liggen alle dicht bij de
waarde nul; voor geen enkele categorie van de variabele Thuis is de gestandaardiseerde
parameterschatting sterk verschillend van nul. Dit wijst er op dat de gegevens uit het expe-
riment waarschijnlijk ook adequaat beschreven kunnen worden met de Tabellen Tl 2, Tl4
en Tl 5 of misschien zelfs met alleen de tabellen T12 en T14. Zoals hiervoor reeds is opge-
merkt werd hiervan afgezien om de eventuele invloed van de combinatie van twee onaf-
hankelijke variabelen op het spoor te kunnen komen. In de vierde plaats ziet het er naar
uit dat de meeste invloed bij het geven van adviezen uitgaat van de eigenschappen van het
kind, gevolgd door de toetsscores, terwijl de omstandigheden thuis en het sociale niveau
van de buurt de minste invloed hebben.'

Het model dat correspondeert met T12, T14 en T15 is [12], [14] en [15].
Grafisch ziet dat model er als volgt uit:

Dit is een conditioneel onafhankelijkheidsmodel, omdat V2, V4 en V5 onafhankelijk zijn
gegeven VI; de interactie tussen V2, V4 en V5 gaat uitsluitend via VI.

In het voorafgaande is een inleiding gegeven in het log-lineaire model en een toepassing is
behandeld. Het aantal toepassingsmogelijkheden van het log-lineaire model in de sociale
wetenschappen is groot. Het is hier ondoenlijk daarvan een overzicht te geven. Een goede
bron daartoe is de al eerder genoemde literatuur.

Andersen, E.B. Discrete statistical models with social science applicationi. Amsterdam: North-Holland,
1980.

Everitt, B.S. The analysis of contingency tables. New York: Chapman and Hall, 1977.
Fienberg, S.E.'The analysis of cross-classified categorical data. Cambridge: The M.T.T. Press, 1977.
Hoogstraten, J., Mellenbergh, G.J. Relevante variabelen bij het doorverwijzen na de Lagere School;
Een Experiment. Tijdschrift voor Onderwijsresearch, 1978,5, 161-172.

In vele (sub-)faculteiten heeft men een punten- of credit-systeem ingevoerd. Elk punt
heeft de betekenis van een aantal uren studeren, bijvoorbeeld 40 uren (een werkweek).
Elk tentamen, practicum of werkstuk staat voor zoveel punten. In het totaal wordt de
student geacht een bepaald aantal punten per jaar te halen, bijvoorbeeld 42. Naast de
punten als maat voor de studietijd wordt nog een judicium gegeven, bijvoorbeeld A (uit-
muntend), B (goed), C (voldoende) en D (onvoldoende), dat een maat beoogt te zijn van
de kwaliteiten van de geleverde prestatie.

Historisch: Een docent plant een cursus voor vier weken nauwkeurig bestuderen van een
syllabus. Bij het tentamen zakt driekwart van de groep studenten. Er wordt druk uitge-
oefend op de docent om de slaaggrens te verlagen. Een half jaar later blijkt uit een ano-
nieme enquête dat men gemiddeld maar twee weken gewerkt had, misschien omdat men
oppervlakkig bestuderen gewend was bij veelleestentamens elders. Dit is slechts één van
de situaties waarbij de volgende oplossing van toepassing is.

Men kan theoretisch een verband leggen tussen puntental en judicium in die zin dat men
binnen bepaalde grenzen de student na het tentamen de vrijheid laat te kiezen tussen
enerzijds een aantal punten met een bepaald judicium en anderzijds een hoger aantal
punten met een lager judicium. De volgende tabel dient alleen om de gedachte te bepalen:
er zijn zes tentamenscore-niveaux en drie puntentallen. A, B en C zijn de judicia, een
streepje betekent 'komt niet voor' en een nul 'gezakt'.

In werkelijkheid hoeft men natuurlijk niet voor elk alternatief dezelfde niveaugrenzen te
handhaven, zoals duidelijkheidshalve hier wel het geval is.

Een dergelijke 'flexibele' punten- en judicium-bepaling heeft een aantal voordelen boven
de gebmikelijke 'rigide' regeling waarbij elk tentamen staat voor een vast aantal punten:
De studieduur kan bekort worden omdat de student 'zakken' (als hij zich geprepareerd
heeft) kan vermijden door een lager aantal punten te kiezen. De goede student kan

afkoersen op het 'cum laude' of desgewenst sneller afstuderen. In sommige studiepakket-
ten is bijv. slechts plaats voor een bepaald keuzevak van twee punten, bij andere afstu-
deerrichtingen is ruimte voor vier punten, enz. De hele studieregeling wordt flexibeler,
dus efficiënter.

Nu is dit alles zo simpel en vanzelfsprekend, dat ik dit 'flexibele alternatief niet aan de
lezers van het Tijdschrift voor Onderwijsresearch zou hebben voorgelegd, ware het niet
dat het idee sterke weerstanden blijkt op te wekken bij sommige docenten. De interes-
sante vraag is waar deze weerstanden vandaan komen.

Het gebruikelijk tegenargument is dat men 'zodoende' (in de tabel hierboven) ook wel 1
punt zou kunnen geven voor een raadscore of 5 punten voor een onmogelijk hoge score,
waar de toets niet meer betrouwbaar zou zijn. Maar uitdrukkelijk hebben we gesteld:
binnen bepaalde grenzen. Elke regeling leidt, buiten bepaalde grenzen tot het absurde.
Het feit dat buiten de gestelde grenzen een regeling absurd zou zijn is geen reden om deze
niet binnen de grenzen te gebruiken.

Laten we daarom liever het onderliggend 'model' van de 'flexibele regeling' nader
bekijken. Dat model is in principe dat van mijn eerder gepubliceerde 'tentamenmodellen',
d.w.z. de student leert de vaardigheid, de kennis in de betekenis van ware score op het
tentamen, met een holle leercurve. Hoe langer hij aan de voorbereiding besteedt, hoe
hoger (afgezien van meetfouten) de score op het tentamen. Er bestaat geen natuurlijke
grens op de ware-score-schaal, waarboven de student behoort te slagen en waarbeneden hij
behoort te zakken. Gebruikelijk is dat men een grens trekt waar een betrouwbare selectie
kan worden verwacht op grond van de items, en het aantal punten schat na informatie
over de tijd die de 'gemiddelde student' eraan heeft besteed, of, minder juist, aan de hand
van het aantal bladzijden en de geschatte moeilijkheden van boek of syllabus. Maar hoe
dan ook, als de student harder (langer) werkt, kan hij altijd een hogere score halen als hij
dat zou willen. (Althans bij de Sociale Wetenschappen, niet natuurlijk waar een specifieke
aanleg van overwegend belang is zoals bij de studies van muziek, schilderen of wiskunde).
Ook kan men nooit zeggen dat de student nu echt 'voldoende' weet; méér weten is altijd
beter (ook al omdat het dan beter beklijft): elke grens is principieel willekeurig. Er is,
in dit model, geen enkele reden om niet voor een hogere ruwe score een groter aantal
punten te geven bij eenzelfde judicium want een hoge score wijst immers op langer
werken (naast aanleg).

Het model met de leercurve leidt dus automatisch tot de flexibele regeling. Omgekeerd
kan men verwachten, hoewel dit niet wordt uitgesproken doch min of meer gevoelsmatig
blijft, dat aan de rigide regeling een ander leermodel ten grondslag ligt, en wel het beheer-
sings- of mastery-model. Er staat bij elk tentamen een natuurlijk punt op de score-schaal,
waarboven men van beheersing kan spreken. Het is nodig om steeds dat punt te bereiken,
desnoods door het tentamen vele keren over te doen. Nu het punt tussen slagen en zakken
vast ligt, staat ook het aantal punten vast.

Het mastery-model heeft zich in de laatste twintig jaar in grote populariteit kunnen
verheugen, en in zekere zin terecht. Het idee stamt uh de tijd toenKöhler's chimpansee
Sultan zijn stokken in elkaar paste om aan zijn banaan te kunnen komen. 'Inzicht'
ontstaat niet geleidelijk maar sprongsgewijs. Nadat het inzicht verkregen was beheerste
Sultan zijn stokkenvaardigheid. En 'mastery-learning' is en blijft belangrijk - doch dan
toegepast op micro-niveau, bij het aanleren van afzonderlijke vaardigheden zoals optellen,
differentiëren, enz. getoetst met formatieve toetsen. Er bestaat echter bij sommigen een
neiging om de mastery-idee ook op summatieve toetsen, zoals tentamens, toe te passen,

en daarin zit nu juist de fout. Het leidt tot de illusie dat ook bij summatieve toetsen
gesproken kan worden van een natuurlijk breekpunt op de kennisschaal, een soort sulta-
niaans inzicht dat de geslaagden zouden moeten bezitten in tegenstelling tot de gezakten.
Dat inzicht bestaat echter niet bij een min of meer omvangrijke stof, zoals bij elk tenta-
men, omdat een tentamen een mengsel meet van vele inzichten, die niet tegelijk optreden.
Nu zullen vele docenten van andere vakken nooit gehoord hebben van mastery-learning.
Toch hebben sommigen van hen m.i. intuïtief hetzelfde idee: dat er een natuurlijke grens
bestaat in hun vak tussen weters en niet-weters. Ik zou dan ook bij hen willen spreken van
wat men zou kunnen noemen de beheersingsmisvatting {mastery fallacy), die m.i. ten
grondslag ligt aan de rigide regeling van een vast aantal punten per tentamen.
Eigenlijk volgt de onvermijdelijkheid van een flexibele puntenregeling al uit het feit dat er
Veelleestentamens' bestaan naast 'precisietentamens'. Bij de eerste soort is het aantal
bladzijden per punt een veelvoud van dat bij de laatste soort. Uit boek of syllabus alleen
kan nooit het aantal punten geschat worden; men moet het soort vragen en de aftestgrens
kennen om een realistische schatting te kunnen maken. Maar dat betekent dat men
puntental en judiciumgrenzen kan verschuiven.

Rest mij nog het vermelden van een vermeend psychometrisch bezwaar dat tegen de
flexibele regeling zou kunnen worden gehanteerd en dat ik boven reeds even heb aange-
tipt: elk tentamen heeft een punt waarbij het maximaal betrouwbaar is (maximale infor-
matie verschaft). Als men verschillende aftestcriteria hanteert, kunnen er criteria bij zijn
met ontoelaatbare betrouwbaarheid. Dit stelt grenzen aan de toepassing maar aan het
begin werd al vermeld dat een regeling slechts gebruikt kan worden binnen bepaalde
grenzen. Men kan de items trouwens zo selecteren dat de toets voldoende betrouwbaar-
heid vertoont binnen het gehele beoogde gebied. Theoretisch zou men betere resultaten
krijgen met maximum likelihood scoring, d.w.z. de items krijgen een ander gewicht naar-
mate de student een andere keuze doet. Een dergelijke ondoorzichtelijke scoring zou
echter in de tegenwoordige situatie door de studenten worden afgewezen. Bij voldoende
voorlichting zou dat later anders liggen maar voorlopig zal men van gewone somscores
gebruik moeten maken.

Interne differentiatie. Over het ontwerpen van geïndividuahseerde onderwijsarrangemen-
ten

De dissertatie van Nuy komt voort uit de praktijk van zijn eigen onderwijservaringen. Zijn publikaties
uit het begin van de jaren 70 zijn daartoe kennelijk hulpbronnen geweest. Deze informeerden vooral
over 'mastery learning', in goed nederlands beheersingsleren. De studie van Nuy valt uiteen in drie
delen en heeft als hoofddoelstelling te laten zien hoe 'beheersbaar onderwijs' kan worden ontworpen,
met name aan de hand van zgn. onderwijsarrangementen (p. 7). Deel I gaat in op het ontwerp van ge-
individualiseerde onderwijsarrangementen. Basis voor dit hoofdstuk is het uitgangspunt dat onderwijs
op basis van wetenschappelijk gefundeerde inzichten beheersbaar te maken is. Nuy kiest daarmee voor
een onderwijstechnologisch uitgangspunt. Deel I beslaat een viertal hoofdstukken, waarin getracht
wordt dit uitgangspunt te verduidelijken. In hoofdstuk 1 gaat hij o.a. na wat sterke en zwakke differen-
tiatiesystemen zijn.

In hoofdstuk 2 legt hij keuzekriteria aan t.b.v. de selectie van een differentiatiesysteem (individualise-
ring, haalbaarheid en implementatievoorwaarden). Hoofdstuk 3 beschrijft in beknopt bestek de strate-
gie van beheersingsleren van B.S. Bloom, alsmede de invoeringsproblemen daarvan. Hoofdstuk 4 biedt
zicht op de gefundeerde inzichten op grond waarvan hij meent dat onderwijs beheersbaar te maken is:
curriculumtechnologische en onderwijspsychologische inzichten. Deel II beschrijft aan de hand van een
drietal uitvoerige hoofdstukken de invoeringsproblematiek van geïndividualiseerde onderwijsarrange-
menten. Hoofdstuk 5 behandelt het vraagstuk van het systematisch ontwerpen van onderwijs naar ana-
logie van de ontwerparbeid van ingenieurs.

Nuy tracht hierin een bijdrage te leveren voor een nadere systematisering en methodologische discipli-
nering van het ontwikkelingswerk voor onderwijskundigen. Hoofdstuk 6 is een nadere uitwerking,
maar vooral specifieke toespitsing van zijn inzichten omtrent het systematisch ontwerpen t.a.v. de
doelstellingenproblematiek.

In hoofdstuk 7 werkt Nuy de hanteerbaarheid van een doelstellingsinstrument verder uit voor leer-
krachten door een alternatief te schetsen voor de doelstellingencategorieën van Bloom.
In deel III wordt een onderzoek beschreven dat is opgezet volgens de strategie van beheersingsleren.
Hoofdstuk 8 situeert het onderzoek en geeft aan welke prescripties voor het onderwijsarrangement
beheersingsleren min of meer zijn afgeleid uit de voorgaande hoofdstukken (deel I). Hoofdstuk 9 geeft
de opzet van het onderzoek weer. Het is een opzet uit de onderzoekstraditie van de ATI-research, maar
in de Tilburgse variant van de Klerk (ROL-model). Hoofdstuk 10 tenslotte beschrijft de resultaten van
het onderzoek aan de hand van de verkregen data.

Het differentiatie-onderzoek in Nederland kent relatief weinig systematisch-empirische studies, zeker
op het terrein van het beheersingsleren. Alszodanig vormt deze dissertatie een aanvulling op de in
Nederland verrichte research. Nuy heeft echter niet uitsluitend een exploratief onderzoek gedaan,
maar ook getracht een bijdrage te leveren tot het meer systematisch ontwerpen van onderwijs aan de
hand van onderwijsarrangementen. In navolging van De Klerk verstaat hij daaronder de leeromgeving
die opzettelijk wordt gecreëerd om een leerproces in de richting van het gestelde doel te induceren (p.
2). De termen onderwijs en onderwijsarrangementen worden in deze studie afwisselend gebruikt en dat
is verwarrend. Duidelijk is immers dat het ontwerpen van onderwijs op macroniveau (onderwijsleerplan)
of mesoniveau (schoolwerkplan) een veel ruimer arsenaal aan uitgangspunten en middelen vergt. Nuy
werkt op het micro-niveau van de onderwijsleersituatie of hoogstens op het niveau van een cursus (leer-
gang).

Het ontwerpen van onderwijs (p. 3) kan dus niet uitsluitend of bij voorkeur het terrein van onderwijs-
psychologen zijn, maar ook van politici, schoolbesturen, onderwijskundigen, onderwijssociologen, eco-
nomen en juristen.

Voor het systematisch ontwerpen van onderwijs sluit Nuy in eerste instantie aan bij het werk van
Glaser (instructional design) (p. 4). Speurend in de onderwijswetenschap(pen?) wijst hij echter op een
tweetal deeldisciplines waaruit z.i. bruikbare prescripties zouden kunnen worden afgeleid voor het ont-
werpen van onderwijs vanuit een optimaliseringsstandpunt. Dit standpunt wordt omschreven als een
acceptatiefilosofie. 'Door verbetering van het klassikale onderwijsarrangement zullen meer leerlingen
goede studieprestaties leveren, zodat er minder geselecteerd behoeft te worden'. In feite voert Nuy een
pleidooi voor selectievrij onderwijs. Een principiële keuze tussen selectief en adaptief onderwijs maakt
Wj echter niet (p. 12 en 13). Hij wijst dit dichotomiserend denken van de hand, kennelijk vanuit een
Wcrementele innovatiestrategie (de weg van het haalbare).

Als selectiecriterium voor het afleiden van prescripties uit de onderwijswetenschappen hanteert Nuy
het systeem van beheersingsleren zelf. Hij wijst op een tweetal belangrijke elementen binnen het be-
heersingsleren: feed back en leerlingkenmerken (aanleg en motivatie).

'n plaats van te spreken van prescripties had Nuy er wellicht beter aan gedaan te spreken van indicaties
of signalen t.a.v. beide elementen. Ten eerste zijn de resultaten van onderzoek op het gebied van feed
hack en leerlingenkenmerken verre van eenduidig. Ten tweede zijn de aanwijzingen (voorzover daarvan
sprake is) zeer globaal. Preciese indicaties kunnen niet worden gegeven. Dit klemt te meer daar op het
gebied van onderzoek van leerlingkenmerken in relatie tot het gebruik van onderwijsarrangementen de
resultaten vaak tegenstrijdig zijn, in ieder geval niet eenduidig. Snow citerend (p. 75) stelt Nuy overi-
gens zelf vast dat ATI-bevindingen niet goed doorzien en verklaard kunnen worden.
Het spreken over Kll-theorie en het feit dat een dergelijke theorie zou aangeven hoe en waarom inter-
acties (tussen leerUngkenmerken en onderwijsarrangementen) tot stand komen is derhalve voorbarig.
(Ook Tobias gaf op de AERA-conferentie te Boston (april 1980) een sombere conclusie t.a.v. ATI-
research, een conclusie die niet meegenomen is in deze studie). ATI blijft beperkt tot een onderzoeks-
methode op basis van een vooronderstelde theorie over effektief (efficiënt) onderwijs. De opmerkingen
die worden gemaakt over aanleg, (faal-) angst en motivatie in relatie tot de leeromgeving blijven daarom
zeer speculatief.

Voorzover er sprake is van ATI-theorie (zeker niet DE ATI-theorie) (p. 94-95) bevindt deze zich in een
pre-embryonaal stadium en is zeker voor onderwijspraktijk niet van nut. Een heroriëntatie is daarom
•ngezet, niet in het minst door Glaser, Snow en Cronbach zelf.

Te Waarderen is de poging van Nuy om een ontwerpmethodologie te ontwikkelen voor het onderwijs-
kundig onwikkelingswerk als een zelfstandige methodologische weg naast die van de onderzoeksmetho-
dologie. Het ontwerpen van leerplannen en onderwijsomgeving bevindt zich in een nog tamelijk ama-
teuristisch stadium, met uitzondering wellicht van het werk van Gagné en Briggs (1979) dat men in
deze dissertatie node mist. Aansluitend bij het werk van Van den Kroonenberg (technisch ontwerpen
Voor ingenieurs) en enkele preliminaire opvattingen van Warries over een methodische aanpak bij leer-
hoekbeoordeling en leergangconstructie, tracht hij te komen tot een eerste ontwerp van een dergelijke
aanpak via bestudering van de evaluatiekunde en de besliskunde. Dit hoofdstuk moet als vingeroefening
Worden beschouwd. In elk geval heeft Nuy getracht aan de hand van een cyclisch model bestaande uit
de fasen planning, structurering, implementatie en recycling een van de implementatieproblemen bij
beheersingsleren te lijf te gaan.

ten van de belangrijke problemen die zich voordoen bij het vormgeven van beheersingsleren is de spe-
cificatie van leerdoelen voor een leertaak. Bloom heeft daartoe een analysetechniek ontwikkeld, die
door practici veelal als onhanteerbaar en onpraktisch wordt beschouwd.

Nuy stelt zich nu tot doel de techniek beter op de praktici toe te snijden. Uitgangspunt voor Nuy blijft
dat de leerkrachten zelf moeten kunnen construeren. Het dilemma dat zich dan voordoet is dat bekende
analytische procedures als van Bloom c.s. en Gagné-Briggs te moeilijk zijn, omdat een hoogwaardig
analytisch niveau en grondige psychologische voorkennis wordt voorondersteld. Anderzijds, praktische
ervaring met de uitkomsten van dit werk wijst uit dat zeer precies ontworpen sequensen op basis van
deze taakanalyse vaak niet worden uitgevoerd, ofwel omdat ze steriel zijn, dan wel omdat leerkrach-
Jen/docenten het zicht verliezen op de totaal structuur.

Nuy stelt daarom een vijftal eisen die voortgekomen zijn uit het KPC-project Individualisering (p. 126):
~ het doelbepalingsproces moet in teamverband plaatsvinden

de doelstellingenprocedure moet criteria aameiken aan de hand waarvan een in omvang beperkte
inhoud kan worden geselecteerd

- de leerkrachten dienen de doelstellingen zodanig te specificeren in de vorm van gedragsdoelstellin-
gen, dat ze als basismateriaal kunnen dienen voor de constructie van doelstellingsgerichte toetsen

- de procedure moet efficiënt zijn, moet gemakkelijk kunnen worden geleerd en toegepast.

Als oplossing voor zijn probleem ziet Nuy een strategie waarin een deductieve en inductieve werkwijze
bij het vaststellen van doelen (hijzelf formuleert leerplan?) wordt gevolgd t.a.v. themadoelen. Hij stelt
een eigen benadering voor en wijst op voordelen van zijn procedure die overigens nog bewezen moet
worden. Voorbeelden zijn overigens wel te vinden in het werk van Bijl en weer bij Gagné-Briggs (topic-
analysis). Tenslotte stelt Nuy een bewerkte doelstellingenmatrijs voor die aanmerkelijk globaler is en
voor leerkrachten wellicht meer bruikbaar dan Bloom's taxonomie.

De doclbepalingsproblematiek en de doelspecificatieproblematiek was voor Nuy de toetssteen voor
zijn methodologisch meer verantwoorde aanpak voor het ontwerpen. Is deze nu als geslaagd te beschou-
wen? Ten eerste legitimeert hij zijn procedure door een weergave van de bekende kritiek op de taxo-
nomie van Bloom, Op de tweede plaats heeft hij zijn werkwijze beproefd bij leraren in het voortgezet
onderwijs. Beziet men uiteindelijk de vragentypologie die tevoorschijn komt uit dit werk (p. 173) dan
moeten we vaststellen dat een viertal traditionele categorieën van gedragsdoelen tevoorschijn komt,
waarvan de specificatiegraad bij categorie 3 redelijk te noemen is, maar van de categorie 4 teleurstel-
lend.

Teleurstellend is ook zijn conclusie in de terugblik (p. 175) dat een meer methodologische aanpak van
het ontwikkelingswerk sterk afhankelijk is van intuïtie, ervaring en creativiteit, waar het de gedetail-
leerde invulling van onderwijs betreft.

In zijn exploratief onderzoek naar de relatie tussen aanleg en motivatie tot beheersingsleren reflecteert
hij over de samenhang tussen leerlingkenmerken onderling en de invloed van leerlingkenmerken via
beheersingsleren op de leereffecten. Dit onderzoek dat als zelfstandig deel gelezen kan worden, de rela-
tie met deel I is wel evident, lijkt voorzichtiger en gereserveerder t.a.v. de prescripties waarover hierbo-
ven geschreven werd. Bovendien wordt de ATl-research van kritische kanttekeningen voorzien en
wordt zelfs een licht pleidooi gevoerd voor meer kwalitatief gericht onderzoek (p. 177,187). De aan-
dacht die deze kwaUtatieve aspecten krijgen in dit onderzoek blijven, ondanks het belang dat Nuy
eraan toekent, matig.

Het onderzoek is opgezet volgens een pretest-posttest-control group design. Vergeleken werd beheer-
singsleren met traditioneel onderwijs (bij een cursus aardrijkskunde). Het verschil tussen de experimen-
tele en controle conditie bestaat daarin dat aan de experimentele conditie frequente diagnostische
toetsing is toegevoegd, alsmede extra hulp. In beide gevaUen gaat het derhalve om een gestructureerd
curriculum, waaraan voor de experimentele situatie extra kenmerken zijn toegevoegd. De leerUngvaria-
belen die zijn onderzocht zijn algemene aanleg en motivatie. De criteriumvariabelen zijn studiepresta-
ties en studietevredenheid. Het onderzoek werd uitgevoerd op een tweetal HAVO-VWO-scholen (brug-
klassen).

Uit de resultaten van het onderzoek bUjkt dat de experimentele groep tot significant betere studie-
prestaties kwam dan de controlegroep. Uit de toelichting bUjkt dat in de experimenteerklassen onge-
veer 20 % meer tijd aan de stof werd besteed d.m.v. het afnemen en klassikaal bespreken van de diag-
nostische toetsen. Individuele hulp werd niet gegeven. Geen conclusies zijn te trekken over studiete-
vredenheid.

Twee significante interactie-effecten werden gevonden: tussen studieprestaties en voorkennis en tussen
studieprestaties en prestatiemotivatie. De gegeven verklaringen voor deze interactie-effecten kunnen
aanleiding zijn tot nader onderzoek.

De studie van Nuy geeft een duideUjk beeld van de problemen waarmee een onderzoeker en ontwerper
worstelt wanneer hij gedifferentieerd onderwijs vorm wil geven. Vele problemen bUjven vooralsnog.
De spanning tussen wat praktisch wenseUjk is en wat theoretisch mogelijk is wordt in deze studie dui-
deUjk geëtaleerd.

Nuy noemt zijn studie Interne differentiatie. De ondertitel Ujkt meer adequaat. Bovendien bestaat er al
een werk van P. de Koning met dezelfde titel.

Voortijdig schoolverlaten in het Algemeen Voortgezet Onderwijs: omvang, aard en
voorspelbaarheid

Proefschrift, Rijksuniversiteit Utrecht, december 1981. Handelseditie: Swets & Zeitlinger
Lisse, 1981 (ƒ45,75)

De dissertatie van Hermans bestaat uit drie delen: theoretische verkenningen, empirische verkenningen
en actie-gerichte verkenningen. Ik zal deze drie delen achtereenvolgens bespreken en bekommentariëren.
Een eerste aspekt van de theoretische verkenningen betreft de definitie van voortijdig schoolverlaten.
Hermans definieert op pag. 8: 'Een voortijdige schoolverlater is een leerling die het schooltype waaraan
"ij begonnen is niet met succes voltooit'. In deze definitie staan de niet-uitgekomen verwachtingen van
eeti leerling en zijn omgeving centraal. Hermans geeft enige problemen aan in verband met deze defi-
nitie: leerlingen die voortijdig een onderwijstype verlaten ten gunste van een 'lager' onderwijstype (van
bijvoorbeeld havo naar mavo: de neerstromers of afstromers) of leerlingen die dit doen ten gunste van
een 'hoger' onderwijstype (de opstromers) vallen ook onder zijn definitie. Desondanks kiest hij voor
de 'brede' definitie.

Hoewel Hermans' definitie te verdedigen is, is het naar mijn mening juiste om voortijdig schoolver-
laten te beperken tot het zonder diploma verlaten van het (voortgezet) onderwijs: het 'uitvallen'.
Hiervoor zijn twee argumenten te noemen. Ten eerste: uit onderzoek is wel gebleken dat neerstromen
en uitvallen indikaties vormen van vergelijkbare achterliggende problemen, maar de konsekwenties ver-
schillen sterk: een afstromer kan nog een diploma behalen, een uitvaller (hoogst-)waarscliijnlijk niet
jneer. Dit onderscheid lijkt van belang omdat het percentage neerstromers tamelijk groot is (19.9% van
net totaal aantal voortijdige schoolverlaters: zie pag. 68). Ten tweede: het percentage opstromers in
net avo is wel gering (2.6%: zie pag. 68), maar opstromen is een aanwijzing dat het 'erg goed' gaat met
een leerling terwijl neerstromen inhoudt dat het 'slecht' gaat (in het onderwijstype waar de leerling

Het lijkt daarom beter om bij 'voortijdig schoolverlaten' onderscheid te maken tussen neerstromen (af-
stromen), opstromen en uitvallen.

Een volgend aspekt van de theoretische verkenningen is een schets van het probleemgebied van het
voortijdig schoolverlaten. Hier geeft Hermans een vrij omvangrijk overzicht van bijna alle Nederlandse
en een deel van de buitenlandse literatuur met betrekking tot (mogelijke) oorzaken van leerlingproble-
nien en voortijdig schoolverlaten. Dit goed leesbare overzicht is uitermate aan te bevelen voor degenen
''ie zich met leerlingen of leerlingproblemen bezig houden, met name omdat deze problematiek vanuit
verschillende invalshoeken (schoolsituatie, leerling, leraar) aan de orde gesteld wordt.
Bij de empirische verkenningen besteedt Hermans eerst aandacht aan de omvang van het voortijdig
schoolverlaten (volgens zijn definitie). Vervolgens doet hij verslag van een longitudinaal onderzoek
naar de met behulp van een vragenlijst gemeten schoolbeleving van ongeveer 500 leerlingen (van havo,
atheneum en gymnasium) en de relatie van deze schoolbeleving met het later plaatsvindende - al dan'
niet voortijdige - schoolverlaten. Dc leerlingen zitten op het moment van de eerste meting in de
tweede tot en met de vijfde klas. In totaal zijn 23 klassen uit 17 scholen bij het onderzoek betrokken.
Bovendien worden van de leerkrachten van deze leerlingen voorspellende oordelen gevraagd over het
eventueel voortijdig schoolverlaten van de leerlingen.

Uit de resultaten van dit onderzoek blijkt onder andere dat potentiële voortijdige schoolverlaters in
Vergelijking met succesvolle leerlingen: een negatiever beeld hebben van de eigen bekwaamheid op
School, zich minder betrokken voelen bij school, gemiddeld ouder zijn en vaker in het havo te vinden
zijn (pag. 97). Het al dan niet succesvol zijn op school heeft de relatief hoogste korrelatie met het
Voortijdig schoolverlaten (pag. 197).

De leerkrachten hebben elke leerling waaraan zij les geven beoordeeld wat betreft zijn kans op school-
succes. Deze beoordeling gebeurde met behulp van een vijfpuntsschaal (zie pag. 109). Omdat in de
middenpositie van deze schaal meerdere antwoordmogelijkheden zijn, heeft Hermans deze kategorie
JJ'eggelaten (zie pag. 110). Dit betreft 21% van het totaal aantal beoordelingen.
Deze verwijdering levert mijns inziens problemen op. In deze kategorie zijn namelijk ook antwoord-
"logelijkheden als: 'Ik weet het niet', of: 'Dat hangt van zoveel dingen af, ik kan er niets over zeggen',
opgenomen. Dit zijn voorspellingen waarin een leerkracht zegt géén uitspraak te kunnen doen. Het
gaat hier óók om oordelen! Omdat Hermans deze kategorie niet verder betrekt in het onderzoek,
^ordt het percentage juiste/onjuiste voorspeUingen gefiatteerd.

Hermans rapporteert (pag. 111) dat het percentage juiste leraarvoorspellingen 79 bedraagt. Dit is
echter alleen juist als aangenomen wordt dat leerkrachten géén gebruik maakten van de hierboven
weergegeven antwoordkategorieën. Gaat men er daarentegen van uit dat slechts deze antwoordaltema-
tieven bedoeld zijn, dan moeten deze 21% weer toegevoegd worden aan het totaal aantal oordelen. In
dat geval wordt het percentage 'juist' (zie pag. 110-111) berekend als (2023:3231) X 100 = 63. Het
meest waarschijnlijke is dat het percentage 'juist' varieert tussen de ondergrens van 63 en de boven-
grens van 79.

Dit percentage is aanzienlijk: leerkrachten blijken dus goed te kunnen voorspellen of leerlingen de
school al dan niet voortijdig zullen verlaten. Bij de door Hermans ontwikkelde 'thermometer' om voor-
tijdig schoolverlaten te voorspellen, neemt het gemiddeld leerkrachtenoordeel de voornaamste plaats in
ten opzichte van verschillende leerlingkenmerken.

De resultaten uit de empirische verkenningen lijken in het algemeen in overeenstemming met de
bestaande (onderzoeks-)literatuur. Met name de mate van succesvol zijn van een leerling blijkt van
belang voor de schoolloopbaan, terwijl leerkrachten een goed inzicht hebben in hoe het in dit opzicht
met een leerling zal gaan.

Het lezen van dit deel van de tekst wordt wat bemoeilijkt door niet-kloppende verwijzingen (pag. 86:
bijlage IV.3 moet zijn IV .4; pag. 92 voetnoot: bijlage IV. 2.d. moet zijn IV.3) of een niet direkt duide-
lijke indeling van bijlage IV.2 in a, b en c.

In de actie-gerichte verkenningen bespreekt Hermans enkele konsekwenties van de onderzoeksresulta-
ten voor het handelen van de leerkracht. Hij presenteert een groot aantal suggesties voor de onderwijs-
praktijk, die hij verbindt aan uit te voeren actie-onderzoek in school. Evenals in de theoretische ver-
kenningen komen hier de verschillende mogelijkheden voor een reduktie van leerlingproblemen aan
de orde. De bespreking wordt echter weinig toegespitst op de vraag hoe alle leerlingen de school
succesvol kunnen beleven, hetgeen verwacht zou kunnen worden naar aanleiding van het leerlingen-
onderzoek (:de beleving van het succesvol-zijn heeft de hoogste samenhang met het voortijdig school-
verlaten: zie boven).

De konklusies met betrekking tot dit proefschrift zijn dat het een goed leesbaar overzicht geeft van de
verschiUende aspekten van leerlingproblemen en het voortijdig schoolverlaten. Tevens is het als positief
te waarderen dat er longitudinaal onderzoek verricht wordt en dat leerlingen én leerkrachten aan het
onderzoek participeren.

Daarnaast üjkt het mij echter noodzakelijk dat het begrip voortijdig schoolverlaten slechts in de zin
van 'uitvallen' gebruikt wordt. Leerkrachten kunnen hoogstwaarschijnlijk minder goed voortijdig
schoolverlaten voorspellen dan Hermans stelt: de konsekwenties hiervan voor de voorspellende waarde
van de 'thermometer' zouden in een sekundaire analyse nagagaan kunnen worden. Reduktie van het
voortijdig schoolverlaten zou met name gezocht moeten worden in de kondities die nodig zijn om
elke leerling 'succesvol' te laten zijn, zodat hij zich ook zo kan voelen.

Dit boek, dat eerder diende als proefschrift aan de R.U. van Leiden, onderzoekt de rechtspositie van
de studenten in het wetenschappelijk onderwijs op een drietal terreinen. Het eerste is dat van de toela-
ting tot het wetenschappelijk onderwijs. Hier kon de schrijver zich in hoofdzaak beperken tot een
onderzoek naar en interpretatie van de geldende wettelijke regelingen. Naar Nederlands recht is een
toelatingsbeperking uitsluitend geoorloofd op grond van de Machtigingswet Inschrijving Studenten.
Wie niet tot een numerus fixus-studie wordt toegelaten kan in beroep gaan bij een beroepscommissie.
Maar omdat.ook deze commissie gebonden is aan de vastgestelde aantallen, zal zij - ook wanneer zij er
van overtuigd is dat de klager moet worden toegelaten - het beroep moeten afwijzen. Terecht meent
Cohen dat een dergehjk beroepsrecht niet veel voorstelt.

Het onderzoek op het tweede terrein, dat van het recht van de toegelaten studenten op goed onderwijs,
kon zich niet oriënteren op geldend recht en daarop gebaseerde jurisprudentie. Na algemene beginse-

len van behoorlijk onderwijs te hebben geformuleerd destilleert Cohen hieruit een drietal rechten: het
recht op deelname aan het onderwijs, het recht op kwalitatief behoorlijk onderwijs en het recht op
inspanning van de docent. Voor het recht op deelname aan het onderwijs kan het arrest van de Hoge
Raad van 13 januari 1978 steun bieden. Cohen bespreekt dit wachtlijst-arrest uitvoerig in het kader
van de toelating tot het w.o. en komt tot de conclusie dat het buitengewoon onwaarschijnlijk is dat er
omstandigheden denkbaar zijn waaronder een wachtlijst een geoorloofde inbreuk maakt op het recht
ex art. 77 bis WWO, dat de student voor het studiejaar, waarvoor zijn inschrijving geldt, het recht geeft
om aan het onderwijs deel te nemen.

Voor het recht op kwalitatief behoorlijk onderwijs en het recht op inspanning van de docent kan in
het geheel niet naar een wettelijke regeling of jurisprudentie worden verwezen. Een beroepsgang
binnen de universiteit is er niet. De auteur pleit er voor om de bevoegdheden van de commissie ex art.
40 WUB op dit stuk uit te breiden. Voor het overige zal de student het moeten hebben van de inbreng
van de studentengeleding in de diverse raden en besturen. De auteur ziet in onderwijscontracten, een
middel om de vrijblijvendheid van docenten én studenten die feitelijk de onderwijsverhoudingen in
hoge mate bepaalt, te ondervangen.

Ook op het derde terrein, waarop zijn onderzoek zich richt, nl. de rechtspositie van de student bij
examens, begint de auteur met het ontwikkelen van algemene beginselen, omdat een wettelijke
regeling ontbreekt. Hiertoe wendt hij zich eerst tot de algemene beginselen van behoorlijk bestuur.
Zorgvuldigheid, gelijkheid en vertrouwen lijken hem de beginselen, die het meest voor toepassing op de
gang van zaken bij examens in aanmerking komen. In mindere mate geldt dit voor beginselen als het
verbod van détournement de pouvoir en fair play. Vervolgens gaat de schrijver na of en in hoeverre
eisen vanuit een testtheoretisch standpunt aan examens kunnen worden gesteld. Hij baseert zich hier
vooral op het artikel van A.D. de Groot 'Some badly needed non-«tatistical concepts in applied
psychometrics' (Ned. Tijdschrift voor Psych., 25-6-1970, pg. 360-376). Deze beschouwingen leiden
tot het toevoegen aan de reeds gevonden beginselen van behoorlijke examinering van het zgn. kenbaar-
heidsbeginsel (bij de Groot transparantiebeginsel genoemd).

De aldus gevonden beginselen van behoorlijk bestuur, voorzover zij van betekenis kunnen zijn voor
examinering, plus het kenbaarheidsbeginsel, worden nu door de schrijver gehanteerd als bron voor het
opsporen van bij examinering geldende regels en als bron voor de wijze waarop de overheid meer in
het algemeen zou moeten handelen. De regels zullen echter slechts waarde hebben, indien zij in de
praktijk kunnen functioneren. Of dit zo is, tracht de schrijver te achterhalen door een analyse van de
hem ter beschikking gestelde uitspraken van commissies ex art. 40 WUB. De regels worden in drie
categorieën verdeeld, nl. procedureregels, regels van inhoud en vorm en beoordelingsregels. T.a.v. ieder
der regels wordt aangegeven wat de wettelijke grondslag is en in welk(e) beginsel(en) hij zijn grond-
slag vindt, waarna een of meer uitspraken van commissies ex art. 40 WUB worden vermeld, waarin de
regel wel of juist niet is gehanteerd. Het geheel biedt een uitstekend overzicht van en inzicht in de
rechtspositie van de Nederlandse student en van de mogelijke wijzigingen ten goede die daarin zouden
kunnen worden aangebracht. Een samenvattende beschouwing over macht en recht in het onderwijs
besluit het boek.

De schrijver heeft er zich niet toe beperkt zo nauwkeurig mogelijk het geldende recht te beschrijven.
Het ging hem ook en primair om het ontwikkelen van regels, die deel zouden moeten uitmaken van
examenreglementen en eventueel zelfs het Academisch Statuut. De aloude vraag of een dergehjke
activiteit als wetenschappelijk kan worden aangeduid dringt zich na het lezen van deze studie op, maar
Wordt door de schrijver zelf niet expliciet aan de orde gesteld. Geldend recht, jurisprudentie, onder-
wijskundige argumenten en rechtsbeginselen bieden het materiaal, waaruit de schrijver zijn - het moet
gezegd: helder en systematisch - betoog opbouwt. Het is materiaal van zeer onderscheiden karakter en
de schrijver is zich dit ongetwijfeld bewust geweest. Een aanleiding tot een wetenschapstheoretische
excursie zag hij daarin blijkbaar niet.

Voor de nog steeds te weinig omvangrijke onderwijsrechtelijke literatuur is dit boek een belangrijke
aanwinst. Een tot nu toe onvoldoende behandelde rechtsstof werd op verdienstelijke wijze in kaart ge-
bracht. Dat daarnaast ook het ius constituendum volop aandacht kreeg maakt het boek bruikbaar o.m.
binnen de universiteit. Het is bovendien goed geschreven, en dat kan niet altijd van dissertaties worden
gezegd.

Met dit boek richten de auteurs zich tot een 'ieder die geïnteresseerd is in verbetering en in onderzoek
daarnaar - dus ieder die geïnteresseerd is in problemen waar waarden, normen en kwaliteiten een domi-
nante rol spelen'. De vraag die in dit boek centraal staat is: hoe richten we onderzoek in, zo dat de
sterkste bijdrage tot aanpak van de sociale problematiek kan worden gerealiseerd?
Het boek handelt dus - zoals de auteurs zelf stellen - over onderzoek dat 'bijdraagt aan het versterken
van sociale verandering', dat bijdraagt aan 'het vergroten van menselijke sociale mogelijkheden'.
Er wordt gekozen voor onderzoek met een sociaal emanciperende doelstelling. De auteurs nemen bij
de verantwoording van deze keuze expliciet stelling tegen onderzoek ten behoeve van een soort alge-
hele kennisgroei en tegen de onderzoeker 'als zoeker naar het objectieve, als bestrijder slechts van voor-
oordeel en niet van macht' (pag. 45).

In hoofdstuk 1 wordt ingegaan op de problematiek van sociaal verbeteren en wordt tevens het kader
aangegeven waarbinnen 'onderzoek als steunactiviteit' wordt geplaatst. Hoewel diverse oorzaken wor-
den genoemd voor het stuk lopen van vele sociale veranderingen die als sociale verbeteringen zijn be-
doeld leggen de auteurs de klemtoon op het gebrek aan kennis van 'hoge kwaliteit'.
In hoofdstuk 2 wordt ingegaan op de consequenties die voortvloeien uit de keuze voor 'onderzoek als
steunactiviteit' voor de verbetering van de onderzoeksactiviteit zelf.

In hoofdstuk 3 wordt ingegaan op de aard van kennis, op de succes-steunende functie van kennis en
wordt een pleidooi gehouden voor onderzoek dat zich richt op vergroting van een speciaal type kennis-
bestand; kennis die door de auteurs wordt aangeduid als 'voorschriftkennis, of kennis als aanbeveling'.
In hoofdstuk 4 worden een aantal methodische richtlijnen behandeld voor de imichting van onderzoek
ten behoeve van sociaal verbeteren.

In hoofdstuk 5 worden de voordelen van de voorgestelde onderzoeksaanpak bij sociale verbeteringen
belicht.

In hoofdstuk 6 tenslotte wordt een aantal teksten gepresenteerd die zijn bedoeld om de diverse proble-
men bij verbeteren nog eens op een andere wijze te verduidelijken.

Hoewel het boek is geschreven door andragogen en bedoeld voor met name andragogen is het boek
zeker ook de moeite waard gelezen te worden door onderwijskundigen.

Met betrekking tot sociaal verbeteren en onderzoek stellen de auteurs het begrip 'kwaUteit' centraal.
Sociaal verbeteren wordt door de auteurs nogal verrassend formeel en waardeneutraal gedefinieerd,
namelijk als 'activiteiten in verband met sociale problemen'. Een sociaal probleem wordt dan gedefini-
eerd als een door een of meer individuen of groepen geconstateerde behoefte aan kwaliteitsverhoging,
in relatie tot handelingen in de praktijk, op een bepaald moment, in een bepaalde situatie.
Onderzoek is, volgens de auteurs, een activiteit die is gericht op meer weten, op toename van kennis,
op kwaliteitsverhoging van kennis. Als criterium voor kwaliteitsverhoging hanteren zij de mate waarin
de gebruikers ervan tot beter handelen of goed handelen kunnen komen.

Als criterium voor kwaliteit geldt dus de gebruikerswaarde van de kennis bij het oplossen van proble-
men. Ernstige bezwaren hebben wij tegen de wijze waarop het begrip kwaliteit door de auteurs wordt
gebruikt. Kwaliteitscriteria voor kennis hebben onzes inziens betrekking op het waarheidsgehalte van
kennisuitspraken. Met andere woorden kwaliteitscriteria hebben betrekking op waarheid van kennis-
uitspraken. De kwaliteit van het kennisaanbod is afhankelijk van het systeem van regelgeving volgens
welke onderzoek is opgezet en uitgevoerd, en dus is de waarheidspretentie van een kennisuitspraak uit
onderzoek alleen achterhaalbaar door het kennen van de gehanteerde^regels; regels die intersubjectief
zijn geaccepteerd op haar geldigheid; regels die bepalen waaraan een uitspraak moet voldoen om haar
als waar te kunnen aanvaarden. De overeenstemming over de geldigheid van deze regels is dan voor-
waarde om te komen tot overeenstemming over het waarheidsgehalte van een uitspraak.
Het is uiteraard te verwachten dat naarmate het kennisaanbod uit onderzoek meer overeenkomt met
de kwaliteitseisen die gebruikers daaraan stellen, deze kennis ook eerder gebruikt zal worden. Het is
dan ook aan te bevelen bij praktijkgericht onderzoek meer aandacht te besteden aan de kwaUteitseisen
die (potentiële) gebruikers (zullen) stellen aan het kennisaanbod, én zo mogeUjk rekening te houden
met deze kwaUteitseisen van gebruikers bij de opzet en uitvoering van onderzoek.

Toch hangt onzes inziens de gebruikerswaarde van kennis niet alleen af van de discrepantie tussen de
kwaliteitseisen die gebruikers stellen aan kennis én de kwaUteit van het kennisaanbod, maar ook van
het type kennis. Het is duidelijk dat kennis meer bruikbaar is bij de oplossmg van problemen naarmate
het voor gebruikers duideUjker is wat er (in het heden) moet gebeuren om (in de toekomst) een ge-
wenst effect te verkrijgen. Vanuit het praktisch nut beschouwd heeft een dergelijke voorspeUend ken-
nisaanbod de voorkeur boven verklarende, beoordelende en/of beschrijvende kennis.
Het kannen aanbieden van voorspellende kennis (die voldoet aan de kwaUteitscriteria die daaraan wor-
den gesteld) is sterk afhankeüjk van de kennis waarover we reeds beschikken en van aUerlei situationele
omstandigheden die verhinderen dat een zodanige onderzoeksopzet kan worden ontworpen dat uitvoe-
ring ervan leidt tot het kunnen doen van verantwoorde voorspeUende uitspraken.
Een ander punt van kritiek is dat de auteurs zich niet bekommeren om de tweeledige doelsteUmg van
sociaal onderzoek, en uitsluitend oog hebben voor de praktische doelsteUing van onderzoek. Zij bekom-
nieren zich niet om het probleem van de theoretische meeropbrengst; een probleem dat vanuit hun
visie op de functie van onderzoek büjkbaar niet bestaat.

Ondanks deze punten van kritiek is het zeker de moeite waard kennis te nemen van de vele goede aan-
heveUngen die worden gegeven voor het opzetten en uitvoeren van praktijkgericht onderzoek.

Een bundel artikelen over de ontwikkelingen in de onderwijskunde bij het afscheid van L.
^an Gelder als hoogleraar aan de Rijksuniversiteit te Groningen.
Groningen: Wolters-Noordhoff, 1981, 355 pp.

Professor VAN GELDER was op een bijzondere wijze verbonden met de ontwikkeUng van de onder-
wijskunde (OK) in Nederland en ook in Vlaanderen. Daarom verdient deze bundel meer dan een alge-
mene bekendheid.

in deze publikatie heeft Creemers zijn redactionele verantwoordeUjkheid vierdehg opgespUtst, nl.
Onder volgende hoofdingen:

2) onderwijsinnovatie o.r.v. N.A.J. Lagerweij;
curriculumontwikkeüng en -implementatie, o.r.v. K.J. Westerhof;
stagnaties m onderwijsleerprocessen, o.r.v. W. Meijer.

De keuze van de in deze 4 delen behandelde onderwerpen is gebaseerd op diverse overwegingen, zoals
de traditie binnen de Groningse vakgroep Onderwijskunde, de ervarmg en deskundigheid van medewer-
kers en de prioriteiten die t.a.v. een verdere ontwikkeling te stellen zijn.

Deze vier delen worden vooraf gegaan door een viertal bijdragen waarin een aantal aspecten van het
Werk van Van Gelder wordt beücht. Het nawoord wordt verzorgd door W.J. Brandenburg die, als coUe-
2a, de universitaire loopbaan van Van Gelder heeft meegemaakt.

in de eerste voorafgaande bijdrage geeft H. Van Gelder een gedetaUleerde biografische beschrijving van
het bewogen leven van zijn vader, tussen praktijk en wetenschap, gedurende de periode 1956-1964. Als
leerüng van Kohnstamm en Langeveld, als drager van een grote sociaüstische traditie, als ex-onderwij-
^er in de Amsterdamse volksbuurten, als schoolbegeleider avant la lettre en als organisator van vor-
■^ingswerk, heeft Van Gelder in zijn universitaire opdracht steeds een verbinding gemaakt tussen theo-
Jie en praktijk, tussen onderwijswetenschap cn maatschappelijke ontwikkeUng.

een tweede voorafgaande bijdrage wordt door Postma en Wardekker het 'Experimenterend verande-
"■en van onderwijs' aan de orde gesteld, o.m. door een vergelijking van de ideeën van Lakatos en Strike
"let die van Van Gelder. Hieruit bUjkt dat Van Gelder een fundamenteel aspekt heeft toegevoegd aan
het op de natuurwetenschappen gebaseerde denken van Lakatos. Van Gelder stelt het 'primaat van de
Praxis' als uitgangspunt, d.w.z. dat de concrete maatschappeüjke en poUtieke context onmisbaar is bij
Onderzoek en verandering van onderwijs.

Wijnen iiandelt in een derde bijdrage 'over het empirische karakter van de onderwijskunde', waarin o.m.
confrontaties worden betracht met de opvattingen van Knoers, De Groot en Hofstee. Hierbij wordt
geconcludeerd dat alleen bij een zeer ruime opvatting omtrent het begrip 'empirisch' er gronden aan-
wezig zijn om de OK in haar huidige vorm te beschouwen als een empirische wetenschap. Met betrek-
king tot de ontwikkelingen, die er op het gebied van de OK onderkend worden, zijn er geen duidelijke
aanwijzingen voor het steeds meer empirisch worden van de OK in een steeds meer toegespitste opvat-
ting van dit begrip empirisch. Deze conclusie moet worden gezien op de achtergrond van het voor de
OK kenmerkende spanningsveld tussen theorie en praktijk, waarbij de gevarieerdheid van aangeboden
vraagstellingen zo groot is geweest dat er nauwelijks tijd beschikbaar bleef om de 'voorlopige' antwoor-
den empirisch te onderbouwen. En dit laatste blijft toch een noodzakelijke opgave voor de weten-
schap.

Emmerij besluit de reeks voorafgaande bijdragen en handelt, in de lijn van Van Gelder, over de 'maat-
schappelijke relevantie van onderwijskunde - relatie tot het onderwijsbeleid'. Concreet wordt een
beleidsvoorstel uitgewerkt toegespitst op de middenschool en de volwasseneneducatie.

Een eerste deel wordt vervolgens gewijd aan het 'onderwijs als maatschappelijke institutie', een kern-
achtig onderdeel in het werk van Van Gelder. Als eerste in de reeks van een viertal bijdragen schetst
Riddersma een o.i. belangrijk algemeen theoretisch kader waarbinnen oorzaken èn richting van de ont-
wikkelingsdynamiek van het onderwijssysteem (aansluitend bij de zgn. maatschappelijke ongelijkheids-
benadering) tot object van onderzoek gemaakt kunnen worden.

Wigmans en Vos behandelen in hun artikel 'onderwijskunde in ontwikkeling' de wetenschapstheoreti-
sche discussie binnen de OK en analyseren hierbij de rol van wetenschappelijke kennis en van de ont-
wikkeling van de samenleving. Ook wordt de vraag gesteld naar de rol van opvoeding en onderwijs in
de ontwikkeling van kinderen naar volwassenheid.

Van Kemenade doorbreekt even de vanzelfsprekendheid van het onderwijs in de samenleving en zoekt
vervolgens naar de maatschappelijke ontwikkelingsmogelijkheden van het onderwijs. Hij acht daarbij
de noodzaak van het wetenschappelijk onderzoek naar het onderwijsbeleidsproces, als geïnstitutionali-
seerde vorm van beïnvloeding, zeer essentieel.

Tenslotte bespreekt Santema de specifieke relatie tussen onderwijs en arbeidsmarkt en legt daarbij de
nadruk op de mogelijkheid van decentralisatie van beleidstaken. Dit artikel is voor niet-Nederlandse
lezers nogal eenzijdig toegespitst op Nederlandse situaties waarbij het spel van afkortingen vermoeiend
werkt.

Een tweede deel stelt de 'onderwijsinnovatie' centraal zoals ze eveneens centraal stond in de aandacht
van Van Gelder. Dit thema wordt behandeld vanuit nogal uiteenlopende gezichtshoeken.
Brinksma opent de reeks met een sterk op Van Gelder betrokken en naar Nederlandse situaties verwij-
zend artikel over 'Van Gelder en het paedagogisch Centrum van het NOV'. Hieruit blijkt een (wellicht
al te) groot optimisme over de mogelijkheden van de onderwijswetenschappen.
Creemers, Van der Meulen, Pijl en de Vries maken duidelijk dat onderzoeksresultaten een bescheiden
rol spelen bij besUssingen over onderwijs en baseren zich hierbij op moeiUjkheden die zijn ondervonden
bij het 'Rion-onderzoek in het kader van onderwijsinnovatie'.

Lagerweij stelt een vraagteken, bij de 'onderwijsbegeleiding: van kunst naar kunde?'. Hij stelt vast dat
er een omvangrijk onderwijs-dienstverlenend apparaat is ontstaan en bevraagt vanuit de OK de profes-
sionele mogeUjkheden en kwaüteiten van d,», onderwijsbegeleiders.

Tenslotte maakt Peters de bijdrage duidehjk die vanuit de OK is geleverd aan onze kennis over de
ouderparticipatie, een in de zestiger jaren populair geworden vernieuwingsthema: 'Tien jaar ouderpar-
ticipatie - een tussenbalans'.

Een derde deel draagt de hoofding 'Curriculum-ontwUckeling en -implementatie' en poogt de volgende
aspecten te benadrukken:

- de actuele rolbepaüng van de leerkracht in het proces van curriculumontwikkeUng, -implementatie
en -evaluatie;

Sixma doorbreekt in een eerste bijdrage het model van didactische analyse dat vooral binnen het
onderwijs aan de pedagogische academies wordt gebruikt (Nederland en Vlaanderen) en brengt dit in
verbinding met de meest recente hteratuur.

Creemers, Hoeben en Westerhof stellen in een uitvoerig artikel vast dat het planningsgedrag van leer-
krachten met behulp van rationeel deductieve planningsmodellen niet adequaat wordt beschreven en
doen een ander voorstel.

Wildeboer onderzocht welke ontwikkelingen het leerplandenken in Nederland hebben beïnvloed en
nog zullen beïnvloeden en hij trekt hieruit enkele conclusies voor nog uit te voeren beleid.
De Block vraagt zich af hoe de relatie kan zijn of is tussen een centraal voorgesteld leerplan (gesloten
curriculum) en het curriculum-ontwikkelingswerk op school- en klassenniveau (open curriculum).
Meijnen en IJzerman maken kritische kanttekeningen bij een mogelijk al té technologische opvatting
Van het begrip curriculum en wijzen o.m. op de maatschappelijke bepaaldheid ervan.
De overige drie bijdragen benadrukken de samenhang tussen onderwijsvernieuwing en curriculumont-
wikkeling en zijn vooral toegespitst op de ontwikkeling binnen bepaalde vakgebieden. Meilink behan-
delt Van Gelders invloed op de beeldende vorming. Van Praag verwacht vervolgens van de OK een con-
sistente theorie over onderwijsleerprocessen in de beeldende vorming en tenslotte proberen De Jong en
Haanstra een discussie te structureren rond de doelstellingsaspecten van 'probleemoplossend handelen'
binnen het vakgebied algemene technieken.

Het vierde en laatste deel verzamelt een drietal bijdragen onder de hoofding 'Stagnaties in onderwijs-
leerprocessen'.

Tussen het door Van Gelder onderscheiden begrip 'pedologie' en de huidige benaming 'klinische onder-
wijskunde' (in Vlaanderen nog met argwaan bekeken) ligt een hele evolutie. De bijdragen in dit laatste
deel zijn o.m. hierdoor gekenmerkt.

Koster behandelt in de lijn van Van Gelder, de invloed van bepaalde onderwijskenmerken op het ont-
staan van stagnatie in leerprocessen. Differentiatie en individualisering worden als remedies hiertegen
bevraagd.

Ojemann geeft aandacht aan de complexiteit van de term diagnostiek en analyseert de procedurele en
procesmatige aspecten ervan.

Tenslotte benadrukken Bus, Meijer en Kruidenier de noodzaak van verdere theorie-ontwikkeling als
basis voor verantwoorde onderwijskundige diagnostiek en als dragende brug tussen diagnostiek en be-
slissing.

Tussen de verschillende hierboven bondig beschreven bijdragen is zelden veel samenhang te bespeuren.
Wellicht werden vooraf weinig of geen strakke afspraken gemaakt over de inhoud en de vormgeving.
Het voordeel hiervan is dat de lezer vanuit nogal uiteenlopende gezichtshoeken geconfronteerd wordt
met de voorgestelde thema's die alle wiUen getuigen van de veelzijdige interesse en aktiviteit van Van
Gelder en die tegelijktijd een opdracht inhouden voor de verdere ontwikkeling, uitwerking en toepas-
sing van de onderwijskunde. Tussen verleden en toekomst wordt aldus, met Van Gelder als rijke inspi-
ratie, de onderwijskunde een waardige opdracht.

Onderwijs, kwalifikatie en arbeidsmarkt
Nijmegen: Uitgeverij Link, 1981, ƒ24,50.

Voor de niet-ingewijde in de onderwijssociologie lijkt de congresbundel van de 4e onderwijssociologi-
sche conferentie dikwijls te gaan over een vreemde planeet, in plaats van over Nederland of West Euro-
Pa hic et nunc. Die vreemde planeet wordt gekenmerkt door een aantal opvallende ontwikkelingen of
verschijnselen.

a. De samenleving wordt keer op keer gereproduceerd in zijn klasseopbouw via de interne reproduktie
van de klassen: de kinderen uit de laagste klassen vormen weer de nieuwe laagste klassen enz. De

gigantische copiëermachine, die dat óf ongewild teweegbrengt óf daarvoor bewust is ingesteld heet
'onderwijs' (Bergenhenegouwen).

b. Deze ontwikkeling leidt tot het continueren van een ongelijkheid, die dus 'positioneel' is bepaald
(Tillekens en Bilkens, blz. 150). 'Vrije keuzen' zijn slechts schijn (Finn, blz. 69). Meritocratie
bestaat niet.

c. De indruk wordt gewekt dat managementstrategieën, die uiteindeüjk de vraag naar kwalifikaties op
de arbeidsmarkt bepalen, willekeurig van aard zijn.

Wat ik hierboven aanhaal zijn in feite beweringen in de bundel over de Nederlandse of Europese situa-
tie. Maar het blijft bij beweringen. Kwantificering van verschijnselen als de mate van reproduktie of de
mate van ongehjkheid, de mate van positionele en de mate van meritocratische bepaaldheid van een
plaats in de beroeps- of statushiërarchie ontbreekt volledig. BUjkbaar is de stap van het tijdperk van de
nominale schalen naar de ordinale (of welUcht naar de interval of ratio schaal) nog niet gemaakt. Ook
ontbreekt in de gehele bundel enige empirisch-statistische toetsing.

Het ontbreken van kwantificeringen voor de mate van reproduktie en ongehjkheid maakt het gebruik van
die begrippen inhoudsloos. In mijn ogen althans zal er altijd een zekere mate van maatschappehjke re-
produktie en ongeUjkheid zijn. De vraag is of het onderwijs die maatschappeüjke reproduktie van klas-
sen vergroot of juist verkleint, en welke dan de specifieke elementen in het onderwijs zijn die dat doen.
Of zou de impliciete verondersteUing zijn dat er pas dan een reproduktie-vrije samenleving zonder on-
gelijkheid zal zijn, als de reproduktie volstrekt 'random' zou zijn en er een volstrekt 'random' verdeUng
van beroepen en status zou bestaan: Baethge wekt die indruk, wanneer hij de daling van jeugdwerk-
loosheid in Duitsland rond 1977 kritisch bespreekt (blz. 111).

Positionele en meritocratische bepaling van iemands beroep en status zouden elkaar uitsluiten (TiUe-
kens en BiUces, blz. 150). Het Ugt echter eerder in de rede om beide elementen - in voor verschillende
individuen wisselende kombinaties - als verklaring voor beroepspositie of status te zien. Onderzoek
van Finn (blz. 68-84) lijkt dit te bevestigen. Sommige kinderen uit eenzelfde arbeiderscultuur blijken
een duidelijk andere school- en beroepsloopbaan te volgen dan andere. Desondanks volgt unverfrohren
de conclusie dat het de arbeiderscultuur (alleen) is waardoor (sommige) arbeiderskinderen weer arbei-
ders blijken te worden.

De grote onbekende in verschillende bijdragen (o.a. van Hoof, Christis e.a., Geurts, Geelen) is de vraag
naar kwalifikaties op de arbeidsmarkt. Dit is een uiterst belangrijk gegeven, waar het gaat over discre-
panties tussen vraag en aanbod op de arbeidsmarkt. Des te teleursteUender is het te moeten constate-
ren dat onbekend slechts een graadje bekender wordt. Het is niet de produktietechnologie, maar de
'managementstrategie' die de vraag naar kwalifikaties bepaalt. Maar hoe de managementstrategie tot
stand komt, of het gaat over een rationeel besUssingsproces of over willekeur en toeval, daarover geen
woord. Ofschoon, impliciet wordt wel aandacht gegeven aan dit aspekt. Zowel Van Hoof (blz. 36) als
Geurts <blz. 101-102) vinden dat maar eens meer naar de vraag naar kwaUfikaties moet worden geke-
ken om de vraag/aanbod discrepanties te voorkomen. BUjkbaar is de vraag naar kwalifikaties dus zon-
der maatschappeUjke gevolgen te sturen (?).

Zou een betere afstemming van onderwijs op de arbeidsmarkt dan niet gewenst zijn? Nee, vinden van

Hoof (blz. 25-26) en Geurts (blz. 100), want dat leidt tot een enge afstemming van onderwijs op de

direkte kwalifikatie-eisen die op de arbeidsplaats nodig zijn ('functionaUsering').

OnduideUjk bUjft waarom deze vraag dan niet conditioneel wordt bevestigd en beantwoord: ja, mits

ruimte voor flexibiliteit wordt ingebouwd en de nadruk ligt op her-, om- en bijscholing.

De onderwijssociologie is een nog jonge wetenschap met een grote rijkdom aan theoretische inzichten,

zoveel demonstreert de bundel van Kleijer e.a. Ik zie vooruit naar de empirische aanvuUing daarop.

Beukelaar, G. Van Donselaar, en L. Tavecchio
Die verdraaide werkelijkheid
Baarn: Arnbo, 1980

Met hun boek 'Die verdraaide werkelijkheid' proberen Beukelaar, Van Donselaar en Tavecchio te
bereiken 'dat iedereen als iemand hen weer eens probeert te overdonderen met onderzoeksresultaten ...
zal vragen hoe het onderzoek in elkaar zat en door wie ... het onderzoek is uitgevoerd'.
Er wordt ingegaan op de vraag (ondertitel van het boek) hoe de onderzoeker aan zijn gegevens komt.
In de inleiding wordt de lezer o.a. verteld dat onderzoeksresultaten kunnen variëren over onderzoekers
en dat leuzen als 'wetenschap zoekt de waarheid' niet voldoen als beschrijving van doelstellingen van
de wetenschap.

In het eerste hoofdstuk wordt een 'onderzoek in vogelvlucht' beschreven. Het beschreven onderzoek is
(met een aantal naamswijzigingen) onderzoek volgens De Groot's empirische cyclus.
In het tweede hoofdstuk worden observatiemethoden besproken en gekategoriseerd. De auteurs
noemen observaties al dan niet gestruktureerd, al dan niet participerend en er wordt onderscheid
gemaakt tussen enerzijds al dan niet openlijke observatie (de onderzoeker is bij de onderzochten al dan
niet bekend) en anderzijds al dan niet direkte observatie (wanneer geen respektievelijk wel technische
observatiemiddelen worden gebruikt).

Zo is het volgens de auteurs (vergelijk pagina 31) niet mogelijk dat een observatie zowel openlijk als
direkt is. Later in het hoofdstuk wordt ingegaan op beoordelingsschalen (rating scales). De auteurs
merken op: 'De betrouwbaarheid ...geeft ...vrij vaak problemen'. Echter, Nunnally (1967, p. 524)
merkt aangaande de betrouwbaarheid van rating scales op: 'One frequently finds ... a reliability of
above .80. Reliability then, usually is not a serious problem in the construction of summa ted attitude
scales'. Gegevens kunnen ook middels het vraaggesprek (hoofdstuk 3) en de vragenlijst (hoofdstuk 4)
worden verkregen. Er wordt ingegaan op de vorm der vragen (open/gesloten, direkt/indirekt) en op
problemen die bij de konstruktie en afname van de vragen en die bij de registratie van de antwoorden
op kunnen treden.

Na de hoofdstukken over gegevens verzameling volgen drie hoofdstukken over gegevensverwerking: de
Inhoudsanalyse (hoofdstuk 5), de Schaalconstructie (hoofdstuk 6), en de Test (hoofdstuk 7). Doel
van de inhoudsanalyse is het doen van uitspraken over kenmerken van de geanalyseerde tekst. Het
grote probleem bij de inhoudsanalyse is de lage validiteit. Niettemin lijken de auteurs voldoende ver-
trouwen in de methode te hebben. Zo vermelden zij: 'Door analyse van brieven ...Is hierover (namelijk
lidmaatschap van verzetsgroepen van N.S.B.-leden) zekerheid* te krijgen' (p. 83). Naast inhouds-
analyse propageren de auteurs ook andere methoden: 'Om ... uit te zoeken wie van twee schrijvers een
bepaald stuk heeft geschreven, kunnen we ... ook duimschroeven gebruiken'.... (p. 92).
In het hoofdstuk 'Schaalconstructie' worden kenmerken van meetschalen genoemd. Vermeld wordt
dat er meerdimensionele schaaltechnieken zijn en dat In werkelijkheid gedrag zelden of nooit door één
variabele wordt bepaald'. De vermelding dat meer-dimensionele modellen logische uitbreidingen van de
ééndimensionele schaahnodellen zijn (p. 98) vind ik wat karig. Er had misschien iets meer over faktor-
analyse (en M.D.S.) kunnen worden vermeld dan 'dat ze bestaan'.

Efficiëntie, standaardisatie, normering, objektiviteit, betrouwbaarheid en validiteit worden in het
hoofdstuk over de test genoemd. Hoewel een aantal koëfficiënten wordt vermeld, wordt niet duidelijk
gemaakt hoe ze worden berekend.

Ook ontbreekt (m.i.) de beroemde koëfficiënt a. 'Ontbreekt' omdat de parallel-test methode wèl
wordt genoemd. Tenslotte wordt de testbetekenis gerelativeerd door een aantal huilerige voorbeelden
te geven van wat er zoal mis kan gaan (zoals het verhaal van een meisje dat zelfmoord pleegde omdat
een ander meisje een hogere I.Q.-skore had dan zij).

In het achtste hoofdstuk wordt het probleem wannéér wélke methode moet worden gebruikt aange-
sneden. Volgens de auteurs is de mening van de onderzoeker over opbouw van de maatschappij en de
mens van invloed op het onderzoek. Belangrijke standpunten worden in dit verband gevonden in het
marxisme, de kritische psychologie en in het anti-humanisme. Ook kan men 'hard' of 'zacht' onder-
zoek doen. Er schijnt al tientallen jaren een hevig gevecht tussen de voorstanders van beide benade-
ringen te zijn (p. 134), hoewel beide benaderingen bruikbare informatie op kunnen leveren.

Tenslotte wordt in hoofdstuk 9 een pleidooi voor 'funderend onderzoek' gehouden. Doel daarbij is 'de
gegevens voor zich te laten spreken', waarbij het uitgangspunt wordt gevormd door een aantal voor het
onderzoeksobjekt belangrijk geachte (waarnemings-)kategorieën. Deze kategorieën worden steeds

omschreven en vormen tenslotte een theorie waaruit toetsbare hypothesen kunnen worden afgeleid.
Of deze methode van 'funderend onderzoek', zelfs wanneer 'getrainde onderzoekers', geld, tijd en
geduld worden geïnvesteerd een - zoals de auteurs stellen - 'betere' en begrijpelijker oplossing geeft
voor allerlei praktische problemen dan de 'gefundeerde wetenschappelijke methode' heb ik niet
kunnen ontdekken. Voorbeelden van een dergelijke methodenvergelijking kon ik niet vinden in die
verdraaide werkelijkheid

De indruk die het boek op mij heeft gemaakt zou aldus kunnen worden samengevat: Naast de boeken
die gepubliceerd zijn waarin een kritische kijk op de wetenschap wordt gepropageerd levert 'Die Ver-
draaide Werkelijkheid' geen nieuw standpunt. Sommige fasen van onderzoek worden te onvolledig of
oppervlakkig behandeld terwijl de grappig bedoelde stijl (vergelijk de duimschroeven) veel wordt
gebruikt en snel gaat vervelen. Ik zou niet goed weten wie ik het boek ter lezing zou aanbevelen.

Berkel, H.J.M. van. De toelating tot de tweede fase. Universiteit van Amsterdam, Centrum voor On-
derzoek van het Wetenschappelijk Onderwijs, 1982.

Boef-van der Meulen, S. & Bronneman-Helmers, R. Hoe verder? Advies over de nota 'Verder na de
basisschool. Sociaal en Cultureel Planbureau Rijswijk, 1982.

Groot, R. de & Paagman, C.J. Leervoorwaarden: Een orthopedagogisch-didaktische benaderingswijze
van kinderen met leermoeilijkheden. Groningen: Wolters-Noordhoff, 1982.

Jong, J.A. de (m.m.v. E. van Rossum & A. Verburgh). 'Ja, maar mijn mentor zegt...' Harlingen:
Flevodruk b.v. 1982 (= SVO-reeks no 62).

Jong, J.H.L. de & H.W.M. van den Nieuwenhof. Een experimentele luistervaardigheidstoets. Verslag
van de ontwikkeling van de pilot-toets Engels V^VO. Arnhem: Cito, mei 1982. (= Specialistisch
bulletin no. 14).

Jong, M.J. de (m.m.v. J. van der Tas). Wat hebben ze bereikt? Het onderwijsniveau van vijftienjarige
allochtone leerlingen. Erasmus Universiteit Rotterdam, Sectie Onderwijssociologie, Rotterdam,
april 1982.

Knip, H. Organisatie-studies in het onderwijs. Harlingen: Flevodruk b.v. 1982 (= SVO-reeks, no. 61).

Menkveld, H. (red.). Voortgezet speciaal onderwijs. Schetsen van mogelijkheden tot integratie. Gro-
ningen: Wolters-Noordhoff, 1982. (= Orthovisies no. 16).

Opleiding en tewerkstelling. Beroepsopleiding, nr. 8, mei 1982. Berlijn: Europees Centrum voor de
Ontwikkeling van de Beroepsopleiding.

OTG Motivatie in het Onderwijs, verslag over 1981, opzet voor 1982 en aanvulling op het programma.
Stichting Centrum voor Onderwijsonderzoek van de Universiteit van Amsterdam, Amsterdam.

Patry, J.L. (hrsg). Feldforschung: Methoden und Probleme sozialwissenschaftlichen Forschung unter
natürlichen Bedingungen. Bern, Stuttgart, Wien: Verlag Hans Huber, 1982.

Rink, J.E. (red.). Ontwikkelingen in de residentiële hulpverlening. Groningen: Wolters-Noordhoff,
1982. (= Orthovisies, no. 15).

Roozemond, N. Montessori en de nieuwe basisschool. Informatiepunt Basisonderwijs, Amsterdam,
1982.

Smits, B.W.G.M. Motivatie en meetmethode: Een cognitieve benadering. Lisse: Swets & Zeitünger,
1982.

Spiegel op de toekomst. Laatste advies van de Innovatie Commissie Middenschool. Onderwijscentrum
Zeist, 17 juni 1982.

Stimulans, informatieblad over de onderwijsstimulering, 6e jaargang nr. 2, maart/april 1982. Den

Haag: Werkverband van plaatselijke en regionale onderwijsadviescentra.
Vanderwilt, F. Vrij maarniet vrijblijvend. Informatiepunt Basisonderwijs, Amsterdam, 1982.

This course is intended for policy planners from national and regional education ministries and depart-
ments, and the staffs of their research and development units, and for university and college lecturers
in educational and social policy.
Topics to be discussed include the following:

- the types of structural frameworks within which educational research can most effectively be
organized.

- research practice in Scotland, illustrated by visits to organisations and study of research and
development programmes.

Applications should be made to: The British Council, Keizersgracht 343, 1016 EH Amsterdam.
Nieuwe SLO-brochure reeks: Kantlijnen

De sectie Mens- en Maatschappijvakken van de Stichting voor de Leerplanontwikkeling (SLO) is gestart
met een serie brochures, getiteld KantUjnen, die is opgezet om interessante ervaringen en ideeën die
opgedaan zijn in SLO-projecten breed te verspreiden.

De eerste publicatie in deze reeks heeft betrekking op het vak aardrijkskunde en is getiteld 'Hoe opvat-
tingen over onderwijs doorwerken'.
SLO, Postbus 2041, 7500 CA Enschede.

Van 25 tot 27 mei 1983 wordt aan de Rijksuniversiteit Limburg te Maastricht een symposium gehou-
den over het thema probleemgestuurd leren in medische en gezondheidszorgopleidingen.
Het symposium wordt georganiseerd door dc Task Force on Problem Based Learning, welke deel uit-
maakt van het Network of Community Oriented Educational Institutions for Health Sciences, in sa-
menwerking met het ministerie van Ontwikkelingssamenwerking.

Belangstellenden die voor dit symposium papers m.b.t. dc thema's 'probleemgestuurd leren' en/of

'medisch probleemoplossen' willen aanbieden, worden verzocht vóór 1 december a.s. de titel van de

De aanmeldingen dienen vergezeld te gaan van een korte inhoudsopgave van ten hoogste 200 woorden.

Overzicht van PAO-kursussen verzorgd door de vakgroep Methoden en Technieken van het Sociolo-
gisch Instituut van de R.U. Leiden.

8207 Conceptuele operationahsering van een probleem in sociaal (beleids)onderzoek

Inlichtingen: LISBON, Stationsplein 242, 2312 AR Leiden, tel. 071-148333, tst. 3163.

El'konins roltheorie van het spel: een kritische analyse, door C.F. van Parreren.

Wat leren kinderen op school? (I) Verslag van een literatuurstudie en een studiereis ter verkenning van
de mogelijkheden van een nationaal evaluatieproject in het funderend onderwijs, door J.M. Wijnstra.
Analyse en evaluatie van enige grondstellingen uit pedagogische opvattingen van J.D. Imelman, door D.
Huizinga.

Een reactie op Huizinga, Kanttekeningen bij 'Analyse en evaluatie van enige grondstellingen uit peda-
gogische opvattingen van J.D. Imelman', door J.D. Imelman.
Een 'redelijke' pedagogiek? Repliek op Imelmans reactie, door D. Huizinga.

Begrijpend lezen: communiceren en denken, door E. Bol, M. Gresnigt en A.P.J. Vroege.
Wat Ieren kinderen op school? (II), door J.M. Wijnstra.

Leren lezen in relatie tot aspecten van de cognitieve ontwikkeling, door R. Dekker.

A scale was constructed to measure well-being of students at schools. From a review of the relevant
literature it was concluded that this construct of well-being can indeed be reliably and validly
measured.

An experimental version of the scale was pretested on a small sample (N = 685), resulting in a
number of revisions. The revised scale was used on a large sample (7016 students) in a study of the
effects of school size. This last version was considered to be sufficiently reliable and valid to justify
its use for educational research purposes.

Zowel binnen als buiten het onderwijs is de overtuiging groeiende dat er in het (onderzoek van
het) onderwijs méér aandacht zal moeten worden besteed aan de affectieve aspecten aan
onderwijs dan tot nu toe gebruikelijk is geweest. Deze overtuiging wordt overwegend gevoed
door een drietal overwegingen. In de eerste plaats is in de laatste jaren veelvuldig het
standpunt ingenomen dat men, bij het vaststellen van de doelstellingen van het onderwijs, zich
niet zou moeten beperken tot alleen de 'traditionele' cognitieve doelstellingen; affectieve - (en
sociale) doelstellingen lijken een aan de cognitieve doelstellingen gelijkwaardige plaats in het
onderwijs te gaan krijgen. Een tweede reden voor deze opwaardering van affectieve doelstel-
lingen van onderwijs komt voort uit de ontwikkeling van inzichten dat cognitieve, affectieve,
en sociale vaardigheden zich niet onafhankelijk van elkaar ontwikkelen, maar dat stimulering
van de ontwikkeling van vaardigheden binnen het ene domein ook stimulerend zal werken op
de ontwikkeling van vaardigheden binnen het andere domein. Een derde ovrweging wordt
gevormd door de toenemende belangstelling voor de mogelijke oorzaken van verschillen in
ge(de)motiveerd zijn van de leeriingen in, vooral, het voortgezet onderwijs. De (te) grote druk
op de cognitieve ontwikkeUng in traditionele zin met verwaarlozing van de affectieve en sociale
aspecten aan het schoolleven zou, mede, een verklaringsgrond kunnen zijn voor een eventueel
afnemende motivatie van leerlingen in het voortgezet onderwijs, zoals deze vaak veronder-
steld wordt plaats te vinden. Als gevolg van de hiervoor geschetste belangstelling voor de
affectieve en sociale ontwikkeling van leerlingen op school, is de behoefte ontstaan aan in-
zicht in de determinanten hiervan, zowel op het niveau van de individuele leeriing als op het
niveau van de school. Een dergelijk inzicht met betrekking tot genoemde aspecten lijkt zowel

1 • Dit onderzoek is gefinancierd door zowel het Ministerie van Onderwijs en Wetenschappen als door de
Stichting voor Onderzoek van het Onderwijs (S.V.O.),
Adres auteur: R.I.O.N., Postbus 132. 9750 AC Haren.

voor onderwijsgevenden als voor onderwijsonderzoekers, alsmede voor degenen die het
onderwijsbeleid gestalte geven, van groot belang te zijn. Elders (Stoel, 1980a) is een overzicht
gegeven van de groepen van variabelen die in dat verband als de belangrijkste worden
beschouwd.

Een consequentie van deze ontwikkelingen is onder meer dat de 'vraag' naar methoden om
deze affectieve en sociale 'opbrengsten' van onderwijs in kaart te kunnen brengen, toeneemt;
men krijgt behoefte aan instrumenten die de verschillende aspecten hiervan kunnen meten.
De beschikbaarheid daarvan vormt een voorwaarde voor het kunnen doen van onderzoek dat
verder gaat dan een inventarisatie van opinies.

Ten behoeve van een onderzoek, dat is verricht aan het Research Instituut voor het Onderwijs
in het Noorden (R.I.O.N.), bleek het noodzakelijk een dergelijk instrument te ontwikkelen.
In opdracht van de Commissie Schoolgrootte Voortgezet Onderwijs heeft het R.I.O.N. een
onderzoek uitgevoerd naar de relatie tussen het welbevinden van leerlingen in het voortgezet
onderwijs en de grootte van de school waarop deze leerlingen onderwijs ontvangen. Deze
opdracht bracht met zich mee, dat het begrip welbevinden op een bevredigende manier
geoperationaliseerd diende te worden. In de volgende paragrafen wordt verslag gedaan van de
ontwikkeling van een schaal die dit welbevinden pretendeert te 'meten'.

Op het moment dat de opdracht van de Commissie Schoolgrootte V.O. werd aanvaard om een
onderzoek te verrichten naar de relatie tussen het welbevinden van leeriingen en de grootte
van de school waarop zij onderwijs ontvangen, deed zich het probleem voor, dat het begrip
welbevinden op een aanvaardbare manier in meetbare vorm uitgewerkt moest worden. Welbe-
vinden is evenwel, evenals bijvoorbeeld intelligentie, een construct en daardoor in principe
niet meetbaar. Men zal genoegen moeten nemen met indicaties. In dit verband zou men
kunnen zeggen dat als blijk van het al of niet hebben van een bepaald intelligentieniveau wordt
beschouwd: Het al of niet kunnen oplossen van voorgelegde problemen binnen een bepaald
tijdsbestek. Bij het uitwerken van het construct welbevinden in een meetbare vorm is een
analoge gedachtengang mogelijk: Wanneer men wil weten of een persoon zich al dan niet
welbevindt, kan men hem/haar bijvoorbeeld vragen naar zijn beleving van de verschillende
facetten van het leven. De mate waarin de positieve beleving de negatieve beleving (of
andersom) in aantal en intensiteit overheerst, geeft hierbij een indicatie van de mate van
welbevinden van betrokken persoon. Belangrijk bij een dergelijke uitwerking van het begrip
welbevinden is de keuze van de facetten die men opneemt in een instrument om deze beleving
te meten. Gezien de vraagstelling van het onderzoek is deze beleving vervolgens toegespitst op
de beleving van de school en het onderwijs in het algemeen, kortom op de schoolbeleving.
Door middel van een inventarisatie van bestaande schalen (vgl. par. 3) die, geheel of gedeelte-
lijk, de schoolbeleving van leerlingen pretenderen te meten, is getracht een overzicht te
verkrijgen van de verschillende facetten die men aan de schoolbeleving heeft onderscheiden.

Wanneer men, zoals hier het geval is, het welbevinden van een persoon definieert als de aan-
en/of afwezigheid van bepaalde positieve en/of negatieve belevingen en ervaringen, dan komt
men voor de vraag te staan hoe deze belevingen en ervaringen te definiëren. Met name moet

men zich de vraag stellen welke facetten een rol spelen in die belevings- en ervaringswereld van
personen. In dit verband zijn a priori de volgende facetten onderscheiden:
De beleving van:

Deze vijf facetten zouden een rol spe/en in iedere situatie en op elk tijdstip. Wel moet daarbij
de aantekening worden geplaatst dat de relatieve bijdrage van elk van deze componenten aan
het gevoel van welbevinden waarschijnlijk varieert met de situatie waarin en het tijdstip
Waarop men de betrokkenen naar hun welbevinden zou vragen, terwijl tevens de persoonlijk-
heid van de betrokkenen een rol zal spelen bij de relatieve bijdrage van elk van de facetten aan
het gevoel van welbevinden.

De in de vorige paragraaf gehanteerde begrippen 'situatie' en 'tijd' verdienen een nadere
toelichting. Wat betreft het begrip situatie moet men daarbij zowel denken aan unieke situaties
als aan (periodiek) weerkerende situaties. Een voorbeeld van de eerste categorie is de
welbekende ontmoeting met een onbekende in de trein. Voorbeelden van de tweede categorie
zijn situaties als de werksituatie, de thuissituatie, de vakantie- en weekendsituatie, maar ook
de schoolsituatie. De invloed van de situatie van de tweede categorie doet zich in onderzoek
op twee manieren gelden. In de eerste plaats zullen verschillende situaties op zich een
verschillende invloed hebben op de mate van welbevinden die een persoon ervaart, terwijl
daarnaast de situatie zelf invloed zal hebben op de manier waarop men over zijn belevingen en
ervaringen in die situatie rapporteert. Men zal zich over het algemeen op school meer of
minder welbevinden, dan wanneer men thuis, onder vrienden of op vakantie is, terwijl het
anderzijds waarschijnlijk is dat men andere antwoorden krijgt al naar gelang men iemand naar
zijn schoolwelbevinden vraagt in de schoolsituatie, de thuissituatie, wanneer men onder
vrienden is of wanneer men op vakantie is. De eerdergenoemde oorzaken van variaties in het
Welbevinden van personen dient men als een gegeven te beschouwen, het gaat hierbij om
variaties die in de werkelijkheid ook inderdaad bestaan. De daarna genoemde oorzaken van
variaties in de welbevindenrapportages zijn evenwel meer te beschouwen als een meetpro-
bleem.

Ook de factor tijd speelt in dit verband op verschillende manieren een rol. Wanneer men de
situatie constant houdt zal men fluctuaties in het welbevinden van personen kunnen constate-
ren, al naar gelang men zich kort of lang in de betreffende shuatie bevindt of al naar gelang de
fase waarin die situatie zich bevindt. Wanneer men de schoolsituatie als voorbeeld neemt kan
men in dit verband de vermoedelijke invloed noemen van het gegeven dat men de ene groep
leerlingen, leraren, etc. tijdens het tweede lesuur van een schooldag vragen stelt in verband
met zijn of haar welbevinden, terwijl een andere groep deze vragen tijdens het zevende of
achtste lesuur krijgt voorgelegd. Als fasen in de (school-)situatie kan men vervolgens de
verschillende vakken beschouwen die op de verschillende tijdstippen worden gegeven. Als
derde onderscheiding aan de factor tijd is de ontwikkelings-psychologische invloed te noemen;
mensen veranderen in de loop der tijd em daarmee waarschijnlijk hun beleving van de diverse

situaties waarin ze zich bevinden. Hetgeen hierboven uiteen is gezet heeft tot doel aan te tonen
dat hét welbevinden van een persoon niet bestaat en dat het irreëel zou zijn, wanneer men zou
trachten dit te meten. Door de variabele situatie en tijd echter constant, dan wel onder
controle te houden creëert men de mogelijkheid dit wel op een verantwoorde wijze te doen.

De in paragraaf 1 geschetste context waarbinnen de ontwikkeling van een vragenlijst om het
welbevinden te meten plaatsvond, maakt het duidelijk dat deze context de mogelijkheid bood
om op een verantwoorde manier onderzoek te doen naar een bepaald facet van het welbevin-
den van personen. In de eerste plaats was de situatie waarbinnen dat onderzoek zou moeten
plaatsvinden reeds gegeven, namelijk de school. In de tweede plaats lag het, gezien de
vraagstelling van het onderzoek, waarin de vragenlijst gebruikt moest worden, nogal voor de
hand om in de gegeven schoolsituatie alleen vragen te stellen over de belevingen van en de
ervaringen met betrekking tot die schoolsituatie, in verband met de eerder genoemde vijf
aspecten. Dit had tot gevolg dat in ieder geval de situatie waarin men zich bevond en de situatie
waarover men gevraagd werd identiek waren, hetgeen vanuit methodologisch standpunt
bezien wenselijk werd geacht. Dit betekent voor de uitwerking van de in 2.1. genoemde vijf
facetten dat:

- de beleving van zichzelf, van het eigen functioneren wordt toegespitst op de beleving van
zichzelf en het eigen functioneren in relatie tot de school;

- de beleving van de relaties met anderen wordt toegespitst op de beleving van relaties met
medeleerhngen, leraren en schooldirectie;

- de beleving van organisaties en stmcturen wordt toegespitst op de beleving van de school-
organisatie en de schoolstructuren;

- de beleving van de materiële wereld wordt toegespitst op de beleving van schoolgebouw en
school voorzieningen;

- de'beleving van het toekomstperspectief wordt toegespitst op de rol van de school hierin.

Door deze toespitsing van het welbevinden op de beleving van school en onderwijs wordt het
mogelijk om onderzoek naar het welbevinden van betrokkenen uit te voeren op een manier die
interpreteerbare resultaten oplevert. De redcipering die hierboven is gevolgd is in principe
toepasbaar in iedere situatie en op iedere situatie; dat hierboven de school als situatie is
gehanteerd vloeit voort uit de vraagstelling van het onderzoek waarbinnen deze vragenlijst
werd ontwikkeld. Iedere andere situatie zou even zo goed bruikbaar zijn geweest ter illustratie
van het feit dat welbevinden een situatie én tijdstip afhankelijk fenomeen is en derhalve slechts
bij onder controle houden van situatie en tijdstip verantwoord onderzoekbaar is.

Het inventariseren van bestaande schoolbelevingsschalen had, naast het verkrijgen van een
overzicht van de onderscheiden facetten aan de schoolbeleving, tevens ten doel na te gaan of
het mogelijk bleek te zijn om voldoende betrouwbare en valide schalen te constmeren, terwijl
het daarnaast de bedoeling was dat het literatuuronderzoek bestaande instrumenten zou
opleveren, die al dan niet na vertaling en/of bewerking van de afzonderlijke items, een

itempool zouden opleveren, die de basis zou vormen voor de te ontwikkelen schoolbelevings-
schaal.

/. Inventarisatie van gebruikte subschalen
In tabel 1 wordt het resultaat weergegeven van een inventarisatie van de gebruikte subschalen
in de diverse schoolbelevingsschalen (vgl. bijvoorbeeld: Beelick, 1973; Bouds, 1977; Damico,
1975; Drummond e.a., 1977; Khan en Roberts, 1975; Martin, 1975; Pemey, 1976; Pritchett,
1974; Rosenshine, 1973; Smits, 1976; Stans, 1975; Wagner, 1975, 1977; Wegner, 1976; Wolf-
gram en Ten Cate, 1980). Deze inventarisatie geeft een indicatie van de consensus die er tussen
de verschillende auteurs van de verschillende schoolbelevingsschalen bestaat ten aanzien van
de te onderscheiden facetten (subschalen) in verband met de schoolbeleving van leerlingen
(subschalen die door slechts één onderzoeker werden onderscheiden zijn niet opgenomen).

De hier weergegeven frequentietabel maakt duidelijk dat er slechts wat betreft het onderschei-
den van de subschalen 'beleving relatie met de leraar' en 'algemene beleving,van de school of
het onderwijs', in redelijke mate consensus bestaat.

De interne consistentie (a, split half of KR-20) van de instrumenten die door middel van het
literatuuronderzoek zijn opgespoord ligt over het algemeen rond .90, hetgeen als goed
beschouwd kan worden. Zoals te verwachten is, vallen de interne consistenties van de subscha-
'en wat lager uit, over het algemeen tussen de .70 en de .85, afhankelijk van de aard van de
subschaal. Zo blijken de interne consistenties van de subschalen 'leraar' en 'school in het
algemeen' meestal wat hoger uit te komen dan die van bijvoorbeeld de subschalen 'schoolorga-
nisatie'en'leerstof.

De betrouwbaarheid van de instrumenten, bepaald met behulp van test-hertestonderzoek,
'evert stabiliteitsscores op die variëren tussen de .64 en .88 na een interval van drie maanden en
tussen de .78 en .94 na een interval van vier weken. Ook in dit geval zijn er enkele indicaties dat
de stabiliteit van de scores per subschaal kan verschillen. Zo vindt Scherich (1975), afhankelijk
Van de subschaal, test-hertestcorrelaties die per subschaal, na een interval van een dag.

variëren van .75 tot .85. De hiervoor genoemde test-hertestcorrelaties geven aan dat dergelijke
schoolbelevingsschalen een redelijke tot goede betrouwbaarheid (kunnen) bezitten.

Het aantal onderzoekingen (vgl. Brown en Holzman, 1967; Carter, 1959; Davidson en Lang,
1960; Ducette en Wolk, 1972; Goldfried en D'Zurilla, 1973; Jackson en Lahardeme, 1967;
Pemey, 1975; Scherich, 1975; Smits, 1976) dat de validiteit van de gebruikte schoolbelevings-
schalen heeft onderzocht is, in vergelijking met het totale aantal in omloop zijnde schoolbele-
vingsschalen, betrekkelijk gering. De resultaten van deze onderzoekingen zijn echter niet
éénduidig. De gevonden correlaties tussen de subschalen van de schoolbelevingsschaal, waar-
van de validiteit werd onderzocht, met vergelijkbare subschalen van vergelijkbare andere
schoolbelevingsschalen, varieerden, afhankelijk van de subschaal en afhankelijk van het
onderzoek in kwestie, tussen de .38 en .75. De inschatting door leraren van de schoolbeleving
van hun leerlingen en de score van de betrokken leerlingen op een schoolbelevingsschaal
correleerde tussen de .29 en .55, terwijl de correlaties tussen de verschillende schoolbelevings-
schalen en schoolcijfers varieerden van .10 tot .43; van .09 tot .45 met gestandaardiseerde
achievement testscores; van -.02 tot .46 met de deelname aan activiteiten op school en van-. 12
tot .38 met absentie (vgl. met name het overzichtsartikel van Wagner, 1975).

Op basis van de in 2.3. en 3.1. weergegeven subschaalinventarisatie is een zestal subschalen
onderscheiden: algehele beleving van de school en het onderwijs zonder verwijzing naar
specifieke aspecten aan de school; beleving van het verstandelijke functioneren in de school;
beleving relaties met klasgenoten; beleving relaties met onderwijsgevenden; beleving van (de
zinvolheid van) de leerstof; algehele beleving van de school als organisatie gecombineerd met
de school als gebouw. In totaal kent de proefversie van de S.B.S. dus zes subschalen.

De itempool is tot stand gekomen door de items van de relevant geachte subschalen van
zeventien bestaande, voornamelijk niet-Nederlandstalige instrumenten samen te voegen.
Nadat (vrijwel) identieke items waren verwijderd, bleek een itempool over te blijven van
ongeveer 240 items.

Gezien de gehanteerde definiëring van schoolwelbevinden (par. 2.3.) was het noodzakelijk dat
het aantal geformuleerde items dat betrekking had op positieve belevingen, het aantal items
dat betrekking had op negatieve belevingen, in evenwicht hield. Aangezien in de itempool het
aantal beschrijvingen van negatieve belevingen overheerste, moest hierdoor een aantal items
afvallen. Daarnaast werden die items verwijderd die nadrukkelijk betrekking hebben op
meningen over hoe iets 'zou moeten zijn', terwijl het niet mogelijk bleek deze items te
formuleren in de gewenste zin. Het resultaat hiervan was dat een ruwe versie van de proefver-
sie van de S.B .S. ontstond, die een 120-tal items bevatte. Na verwijdering van niet eenduidig te
formuleren items en van items die te moeilijk werden geacht voor bepaalde subpopulaties van
de doelgroep, restten er 78 items die de proefversie van de S.B.S. uitmaakten.

Gezien het feit dat het bij de S.B.S. gaat om de individuele beleving van de leerling van de
verschihende facetten aan het schoolleven, worden de items in de ik-vorm geformuleerd. Het
gaat er in deze vragenlijst niet om wat de leerlingen denken dat anderen denken, ook niet om
hoe iets feitelijk 'is', maar om hoe hij of zij zelf de situatie ervaart en beleeft. Dat betekent dat
de items voornamelijk in de vorm van: ik vind dat...; ik heb het gevoel dat...; ik denk dat...
Worden geformuleerd. Er wordt dus heel bewust niet naar meningen gevraagd in de zin van: dit
is een vervelende school: mee eens - mee oneens, maar wel in de vorm van ik vind dit een
vervelende school: ja - nee, om de kans op verstandelijke, beredeneerde uitspraken te
verkleinen en ook om de afstand tussen de eigenlijke beleving door de leerling en de schriftelij-
ke weergave daarvan zo klein mogelijk te houden. Dit alles omdat de onderzoeker niet
geïnteresseerd was in de vraag of een school een vervelende school is, maar wel in de vraag of
de leerlingen haar als zodanig beleven.

Als schaalsoort is gekozen voor een vorm waarin na een statement, b.v.: 'ik vind het leuk op
school' vier antwoordalternatieven worden aangeboden die ofwel vragen naar de frequentie
Waarmee men dergelijke belevingen heeft, dan wel aangeven in welke mate men het met het
statement eens is. Het voordeel van het hanteren van een even aantal antwoordalternatieven
boven dat van het hanteren van een oneven aantal is het gegeven dat de betrokkene gedwon-
gen moet worden 'kleur' te bekennen. Het 'vlucht'-antwoord in het midden van de schaal
bestaat op deze manier niet.

Er is gekozen voor vier antwoordalternatieven in plaats van twee, zes, acht of meer alternatie-
ven, omdat in geval van gebruik van twee alternatieven het discriminerend vermogen van dc
items te gering werd geacht: men kan tussen ja en nee of eens en oneens geen nuanceringen
aanbrengen, terwijl het gebruik van zes of meer antwoordalternatieven niet meer informatie
zou opleveren, zo was de verwachting. Daamaast loopt men bij het hanteren van meer dan vier
antwoordalternatieven het risico dat de onbetrouwbaarheid van de verkregen antwoorden
vergroot zou worden, doordat meer antwoordalternatieven de leerlingen zouden kunnen
Verleiden tot het maar lukraak invullen van de schaal.

Het doel van het onderzoek met de proefversie is geweest om na te gaan of de vragenlijst als
geheel voldoende betrouwbaar (intern consistent zowel als stabiel) was, of de in de vragenlijst
gehanteerde formuleringen eenduidig en duidelijk waren voor de betrokkenen en of de in de
vragenlijst aangesneden aspecten in voldoende mate de schoolbeleving van leeriingen weerga-
ven.

Dit laatste is gebeurd door middel van de toevoeging van twee 'open' vragen aan de vragenlijst.
In deze vragen werd aan de leerlingen gevraagd welke aspecten aan het schoolleven er voor
zorgen dat zij het naar hun zin hebben op school en welke aspecten maken dat zij een hekel
hebben aan school. De antwoorden op deze vragen zouden een indicatie geven van de
(construct-) validiteit van de S.B.S.

Op een vijftal scholen, twee lts-en, één mavo en twee vwo-havo-mavo's, is de proefversie van
de S.B.S. afgenomen bij ruim 600 leeriingen uit het tweede en vierde leerjaar. De hertest is

afgenomen na een interval van vier weken, in steeds één klas van iedere school, afwisselend uit
het tweede en uit het vierde leerjaar, in totaal dus vijf klassen met in totaal ruim 120 leerlingen.
De schaal is bij voorkeur in afwezigheid van de leraar aan de leerlingen ter beantwoording
voorgelegd, teneinde sociaal-wenselijke beantwoording zo veel mogelijk tegen te gaan. Na een
korte introductie met betrekking tot het doel van het onderzoek, is een mondelinge instructie
gegeven ten behoeve van de invulling van de schaal, terwijl dezelfde instructie ook schriftelijk
is verstrekt. Vervolgens is de leerlingen gevraagd de vragen te beantwoorden en waar nodig
van commentaar te voorzien, wanneer de gebruikte formuleringen of onduidelijkheden van de
vraag daartoe aanleiding zouden geven. Waren alle vragen ingevuld, dan werden de leerlingen
gevraagd de open vragen te beantwoorden.

Na hoofdcomponentenanalyses met equimax rotatie op zes factoren is besloten een aantal
items uit de lijst te verwijderen en de subschaalstructuur te wijzigen. Op grond van de
resultaten is de subschaal leerstof niet teruggevonden in een van de door de hoofdcomponen-
tenanalyse gegenereerde lineaire combinaties. De items van deze subschaal laadden voorna-
melijk op de subschaal 'algemene beleving van de school'. De subschaal 'beleving relatie met
de leraar' bleek uiteen te vallen in twee factoren. De subschaalstructuur is op grond van deze
hoofdcomponentenanalyse gewijzigd in de aangegeven zin: de subschaal 'leerstof gaat op in
de subschaal 'algemene beleving van de school' en de subschaal 'beleving van de relatie met
leraren' valt uiteen in twee te onderscheiden subschalen. Op de ene factor werd vooral hoog
geladen door items die betrekking hadden op de leraar in zijn didactische taakgerichte rol. Op
de andere werd relatief hoger geladen door items die ingaan op de leraar als persoon. Met
behulp van factoranalyse volgens de multiple-group methode is nagegaan of deze gewijzigde
indeling in zes subschalen voldoende bestaansgrond heeft.

Het is pas zinvol om subschalen te onderscheiden die specifieke kenmerken van het construct
welbevinden kwantificeren indien de scores op de subschalen onafhankelijker van elkaar zijn
dan op grond van de interne consistentie van de subschalen verwacht mag worden. De
correlaties tussen items en subschalen dienen hoger te zijn wanneer het om een correlatie gaat
tussen een item en de subschaal waarvan dit item deel uitmaakt, dan wanneer het gaat om
corrélaties tussen het betrokken item en andere subschalen. Aan de hand van een multiple-
group ladingen matrix bleek dat geen enkel item lager correleerde met de eigen subschaal dan
met de overige subschalen. Na correctie van de geflatteerde itemtotaalcorrelaties tussen items
en de eigen subschalen door het berekenen van de betreffende itemrestcorrelaties bleek dat
negen items lager correleerden met de eigen subschaal dan met een of meer van de overigen.
Men kan dus zeggen dat het zinvol is gebleken^ de genoemde subschalen te onderscheiden.

De correlaties tussen de subschalen verstrekken eveneens informatie wat betreft de relatieve
onafhankelijkheid van de subschalen. Uit deze correlaties (zie tabel 2), maar ook uit de
multiple-group ladingen van de items uit de subschaal 'relatie klasgenoten' op de zes subscha-
'en blijkt duidelijk dat deze subschaal de meest onafhankelijke factor vormt van de S.B.S.
Op basis van de reacties van de leerlingen die de vragen uit de proefversie van de S.B.S.
hebben beantwoord, alsmede op basis van de factorladingen en/of itemrestcorrelaties zijn acht
items uit de proefversie van de S.B.S. verwijderd. Deze items bleken óf dusdanig onduidelijk
geformuleerd, gezien de reacties van de leerlingen en/of correleerden lager dan .15 met de
totaalscores en/of hadden een factorlading lager dan .25 op ongeroteerde factorladingenmatrix
van de hoofdcomponentenanalyse. In de meeste gevallen zijn de betrokken items op grond van
alle drie deze criteria uit de proefversie van de S.B.S. verwijderd.

Voor de totale schaal en ook voor de steekproef als geheel is een interne consistentie (a)
gevonden van .93. De alpha's voor de subschalen variëren tussen .67 en .86.

.86
.81
.83

.69

.72
.67

.89
.81
.83

.62

.72
.69

.81
.82
.80

.43

.66
.67

.88
.82
.72

.72

.75
.66

.86
.85
.84

.72

.73
.67

.81
.72
.78

.78

.72
.63

De test-hertestcorrelatie na een interval van vier weken, voor de totaalscore is .86, voor de
subschaalscores liepen deze uiteen van .61 tot .82.

Tevens is nagegaan of deze betrouwbaarheidsmaten verschilden voor de verschillende scholen
en schooltypen in de steekproef. Dit bleek niet het geval te zijn (vgl. tabel 3).

Voor de factoren schooltype, leerjaar en geslacht werden eenweg univariate variantie-analyses
uitgevoerd. Voor de factoren schooltype en leerjaar werden significante verschillen wat betreft
de schoolbeleving van leerlingen gevonden, terwijl dit voor de factor geslacht niet het geval
bleek te zijn. (vgl. tabel 5).

Op grond van het voorgaande moest geconcludeerd worden dat de 70 items die na selectie op
grond van leerlingbeoordeling, factorladingen en itemtotaalcorrelaties zijn overgebleven van
de geconstrueerde proefversie van de S.B.S., een intern consistente en redelijk stabiele schaal
vormen zowel voor wat betreft de schaal als geheel, als zij het in wat mindere mate, voor de
afzonderlijke subschalen. Door middel van een hoofdcomponentenanalyse kon de gehanteer-
de apriori indeling in subschalen gedeeltelijk worden teruggevonden, met dien verstande dat
de subschaal 'leerstof niet kon worden onderscheiden, omdat deze opging in de subschaal
'algemene beleving van de school', terwijl de sübschaal 'beleving van de relatie met de leraar'
uiteen bleek te vallen in twee subschalen te benoemen als 'beleving van de relatie met de leraar
als didacticus' en 'beleving van de relatie met de leraar als persoon'. Vervolgens heeft een
factoranalyse, uitgevoerd volgens de multiple-group methode, aangetoond dat er voldoende
aanleiding bestaat om deze gewijzigde indeling in subschalen zinvol te achten. Daarenboven
geldt ook dat de 'open' vragen die gesteld zijn aan de leerlingen de zinvolheid aantonen van de
gehanteerde subschaalindeling. De eerdergenoemde interne consistentie en stabiliteitsmaten
zijn dan ook berekend op basis van deze gewijzigde indeling in zes subschalen. Er is getracht
om een verbeterde versie van de S.B.S. alsnog uit te breiden met een opnieuw te vormen
subschaal 'leerstof. Dit gebeurde omdat de resultaten van het literatuuronderzoek zoals
beschreven in 3.3. daar aanleiding toe geven. Deze verbetering hoopte men te bewerkstelligen
door die items, die oorspronkelijk in deze apriori subschaal waren ondergebracht, maar te
hoog op de algemene subschaal laadden, door een herformulering die meer toegespitst is op de

beleving van de leerstof, zodanig te verbeteren dat zij alsnog in een subschaal 'beleving van de
leerstof kunnen worden ondergebracht. Ten aanzien van de subschaal 'beleving eigen verstan-
delijke functioneren' (academic self-concept) gold hetzelfde; door middel van het genereren
van aanvullende items in deze subschaal, diende men de kwaliteit van deze subschaal te
verbeteren. Voor de schaal als geheel heeft overigens gegolden dat, op basis van de reacties
van leerlingen bij de invulling van de schaal, de formuleringen van de afzonderlijke items zijn
aangepast. Met behulp van deze herziene versie van de S.B.S. is het eerder genoemde
schoolgrootte-onderzoek uitgevoerd. In de volgende paragraaf worden de resultaten weerge-
geven van een replicatie van het in dit hoofdstuk beschreven onderzoek op de herziene versie
van de S.B.S. vooreen geheel nieuwe en omvangrijke steekproef leerlingen.

/. Structuurverheterende versie van de S.B.S.
De verbeterde versie van de S.B.S. bestaat uit 80 vierkeuze vragen, verdeeld over zeven
subschalen. Ten opzichte van de proefversie van de S.B.S. zijn een aantal wijzigingen aange-
bracht. Door het beter uitwerken van een, ten opzichte van de proefversie, nieuwe subschaal
'beleving leerstof is de subschaal 'algemene beleving van de school' van dertien items terugge-
bracht tot zeven items. Daamaast is op basis van de antwoorden van leerlingen op de 'open'
vragen in het onderzoek met de proefversie het aantal items van diverse subschalen enigszins
uitgebreid. Ter illustratie wordt per subschaal een voorbeelditem weergegeven:

II Beleving van het eigen (verstandelijke) functioneren in de school (dertien items)

IV Beleving van de organisatie van de school alsmede de schóól als gebouw (negen items)

In 6.4. zal beschreven worden in hoeverre deze, als verbeteringen gedachte wijzigingen, in
psychometrische zin ook als zodanig beschouwd kunnen worden.

Het onderzoeksontwerp van het onderzoek naar schoolgrootte-effecten binnen welk kader dit
replicatie-onderzoek heeft plaatsgevonden, wordt hier niet beschreven aangezien dit van
weinig belang is voor de evaluatie van de S.B.S. (zie hiervoor Stoel, 1980a). Hier wordt
volstaan met de mededeling dat de steekproef bestond uit ruim 7.000 leerlingen, van beide
geslachten uit de eerste vier leerjaren van 89 scholen voor voortgezet onderwijs (lbo, mavo,
havo, vwo). Bij het berekenen van psychometrische gegevens over de S.B.S. is de steekproef
behandeld als één enkele groep.

Het verzamelen van de gegevens op de scholen is uitgevoerd door van de school onafhankelij-
ke enquêteurs. Deze hebben zowel de steekproeven op de scholen getrokken, als de afname
van de vragenlijst geleid. Op elke school is voor elk leerjaar een steekproef getrokken van
ongeveer twintig leerlingen uit de verschillende klassen binnen een bepaald leerjaar, door per
klas per leerjaar afhankelijk van het aantal parallelklassen, twee, drie, vier of vijf leeriingen
a-select uit iedere klas te trekken. Dit leverde per leerjaar een groep op die redelijk hanteer-
baar is en mogelijkheden biedt controle uit te oefenen over het juiste invullen van de
vragenlijst en het bijbehorende scoringsformulier. De afnametijd van de schaal bedraagt
ongeveer 30 minuten.

Om de zin van de verdeling van items over de zeven subschalen te toetsen is wederom een
factoranalyse volgens de multiple-group methode uitgevoerd. De subschalen vormden daarbij
de a-priori factoren. Voor de totale schaal alsmede voor de subschalen zijn alphacoëfficienten
berekend.

Twee items zijn uit de verbeterde versie verwijderd op grond van te hoge missing data
percentages (> 10%). Drie andere items zijn verwijderd op grond van hun te lage of negatieve
itemtotaalcorrelaties. De S.B.S. in de laatste versie bestaat daardoor uit 75 items.
De interne consistentie (alpha) voor de totale schaal in zijn herziehe vorm is .94. De alphacoëf-
ficienten voor de subschalen variëren tussen .74 en .83.

De resultaten van de multi-group factoranalyse wezen uit dat geen van de items met de
subschaal waarvan het betreffende item deel uitmaakt, lager correleert dan met één van de
overige subschalen. Na correctie van de geflatteerde itemtotaalcorrelaties bleek dat veertien
items lager correleerden met de eigen subschaal dan met één of meer van de overige subscha-

'en. Wanneer de verdeling van items over subschalen volgens een toevalsproces plaatsgevon-
den zou hebben, was de venvachtingswaarde van het aantal te lage correlaties 66 geweest. De
gehanteerde indeling in subschalen lijkt dus gerechtvaardigd. Evenals in het proefonderzoek
viel op dat de subschaal 'beleving relatie met klasgenoten' de meest onafhankelijke factor
vormt binnen de S.B.S. Dit bleek zowel uit de multiple-group ladingenmatrk als uit de
correlaties tussen de subschalen (zie tabel 6).

Teneinde de construct-validiteit van de S.B.S. te toetsen is nagegaan of de S.B.S. in staat is
verschillen aan te tonen tussen de in het (schoolgrootte-) onderzoek opgenomen niveaus van
factoren schoolgrootte, schooltype, urbanisatiegraad, leerjaar en sexe. Overeenkomstig de
resultaten van het elders (Stoel, 1980a) beschreven literatuuronderzoek naar de determinan-
ten van schoolbeleving zou men moeten verwachten dat de S.B.S. discrimineert tussen de
verschillende niveaus van de genoemde variabelen. De S.B.S. blijkt inderdaad te discrimine-
ren tussen de verschillende niveaus van de genoemde vijf variabelen (zie tabel 7) en wel op de
te verwachten manier.

Zo blijkt de schoolbeleving minder positief te worden naarmate de leerlingen zich in een hoger
leerjaar bevinden; blijken de leeriingen uit meer verstedelijkte gemeenten een minder positie-
ve schoolbeleving te hebben, terwijl jongens lager scoren dan meisjes. Daarnaast zijn ook
duidelijke verschillen in schoolbeleving voor leerlingen afkomstig van verschillende schoolty-
pen en scholen van verschillende grootte te constateren.

Hoewel een gedeelte van de items een niet eenduidig ladingenpatroon te zien geeft in de
multiple-group analyse, is de doelstelling om redelijk onafhankelijke subschalen te construe-
ren bereikt. Tevens kan de poging om alsnog een subschaal 'beleving leerstof toe te voegen
geslaagd worden geacht. De interne consistentie van de totale lijst en van de subschalen is ruim
Voldoende, ondanks de wat hoge p-waarden van veel items. Ten opzichte van de proefversie
^an de S.B.S. is de interne consistentie van een aantal subschalen verbeterd door het herfor-
muleren van een aantal items. Er zijn voldoende aanwijzingen dat de S.B.S. (construct-)valide

Aangezien op dit moment niet bekend is hoe gevoelig de schaal is voor het werkzaam zijn van
bepaalde sociaal wenselijk geachte, antwoordtendenties, is gebruik in individueel diagnosti-
sche settings af te raden. Voor researchdoeleinden lijkt de schaal geschikt, zolang de anonimi-
teit van degenen die de schaal voorgelegd krijgen is gewaarborgd.

Voor diagnostisch gebruik naar individuele scholen toe lijkt de schaal ook zijn diensten te
kunnen bewijzen, met name in de handen van - externe - schoolbegeleiders die zodanige
binding met de school hebben, dat de onafhankelijkheid van de betrokkenen, in de ogen van
de leerlingen, is gewaarborgd.

Beelick, D.B. Sources of student satisfaction and dissatisfaction. yo«r«a/c!/'£'rfMC(ir/ona//fe.vrarc/i, 1973
67,19-22 en 28.

Bounds, S.M. Assessment of student attitudes. Hampton: Thomas Nelson Comunity Coll., 1977, (ERIC
Document Reproduction Service No. ED 139487).

Brown, W.F., & Holtzman, W.H. Survey of study Habits and Attitudes (S.S.H.S.-Manual). New York:
The Psychological Corporation, 1967.

Carter, H.D. California Study Methods Survey (Manual). Los Angeles: California Test Bureau, 1958.

Damico, S.B. e.a. The measurement of pupils attitudes toward school: A handbook for teachers.
(Resource monograph no. 15. Florida educational research and development council). Gainesville:
Florida university, D.K. Youge Lab. School, 1975. (ERIC Document Reproduction Service No ED
159 193).

Davidson, H.H., & Lang, G.L. Childrens perception of their teachers feelings toward them related to
self-perception, school achievement and behavior. Journal of Experimental Education, 107-118.

Drummond, R.J. e.a. Stability and sex differences on the Coopersmith Self-Esteem Inventory for
students in grades two to twelve. Psychological Reports, 1977,40,943-946.

Ducette, J. en Wolk, S. Ability and achievement as moderating variables of student satisfaction and
teacher perception. Journal of Experimental Education, 1974,41,159-175.

Goldfried, M.R., & D'Zurilla, T.J. Prediction of academic competence by means of the S. S.H. A. yowrna/
of Educational Psychology, 64 (1973), 116-122.

Jackson, P.W., & Lahardeme, H.M. Scholastic success and attitude toward school in a population of sicth
gtaAets. Journal of Educational Psychology, 1967,58,15-18.

Khan, S.B., & Roberts, D.M. Structure of academic attitudes and study habits. Educational and
Psychological Measurement, 1975,35, 835-842.

Martin, J.W. A study of student attitudes in six suburban high schools. University of Illinois at Urbana
Champaign, Ed. D., 1975.

Pemey, J. The development and validation of the student opinion inventory factor scales. Educational
and Psychological Measurement, 1975,35,983-986.

Pemey, J. Measuring student attitudes: the student opinion inventory. N.A.S.S..P. Bulletin. 1976 60
(401), 55-59.

Pritchett, W.D. The relationship between teacher and student attitudes toward school. Dissertation
Abstracts International, 1974,1929-A.

Rosenshine, B. Teacher behavior and student attitudes revisited. Journal of Educational Psychology
1973,62, 177-180.

Scherich, H.H. The validation of a battery of scales for measuring educational attitudes. Southern
Illinois University, Ph.D, 1975.

Smits, J. A.E. School- en studievragenlijst. Handleiding. Berkhout Nijmegen B.V., Nijmegen, 1976.

Stans, P.A.H. Attitudes of eleventh-grade students in selected southern New Mexico public high
schools concerning some aspects of schoollife. New Mexico, Juli 1975.

Stoel, W.G.R. De relatie tussen de grootte van scholen voor voortgezet onderlijs en het welbevinden
van de leerlingen. Deel I: Resultaten van een empirisch onderzoek in de Nederlandse onderw ijssitua-
tie. Haren;R.I.O.N., 1980a.

Stoel, W.G.R. De relatie tussen de grootte van scholen voor voortgezet onderwijs en hel welbevinden
van de leerlingen. DeelH: De ontwikkeling van een schoolbelevingsschaal. Haren; R.I.O.N., 1980b.

Wagner, J. Schülereinstellung als Predictor des Schulerfolges; eine Übersicht. Psychologie in Erziehung
und Unterricht. 1975,22,295-313.

Wagner, J. Fragebogen Einstellung zur Schule. F.E.S. 4-6. Weinheim: Beltz Test GmbH, 1977.

Wegner, O.A. A study of students attitude toward school. Dissertation Abstracts International 1976
7655-A.

Wolfgram, P., & Cate, M.J. ten. Problemen van brugklasleerlingen. Groningen: Instituut voorontwik-
kelings- en persoonlijkheidspsychologie, 1980.

Recently Dirkzwager propagated in this Journal the Multiple Evaluation method of scoring
(probability scoring). In this paper the possibilities and limitations of Multiple Evaluation
are explored by means of computer simulation and intercorrelations of simulated true score,
subjective probability, raw score, log score, quadratic score and indication of certainty score.
It turns out that in favourable circumstances the scoring may enhance the test reliability, that
means both the logarithmic scoring, the quadratic scoring, and the certainty scoring (with
dichotomized probability scale). As for the certainty scoring, the simulation results are in close
agreement with results of empirical studies some years ago. All scores correlate high with each
other and with true score. The logarithmic score has the disadvantage of needing a correction
(as, indeed, proposed by Dirkzwager), so the quadratic score may be preferred, just as the
certainty score, which is the simplest of the three. However, it may be even more simple to
lengthen the test a bit, in stead of using complicated scoring methods.

Het is verheugend dat Dirkzwager(1981) weeraandachtvraagt voorde 'Probability scoring'
(Lord en Novick, 1968, p. 315) of 'Multiple evaluation' en dat hij het benutten hiervan
bij tests vereenvoudigd heeft door een programma te schrijven voor on-line computer
gebruik. Er zijn echter wel kanttekeningen te maken bij zijn artikel. Na die opmerkingen
zal ik in de volgende paragrafen rapporteren over een simulatiestudie, die enig licht kan
werpen op de mogeUjkheden en beperkingen van de probability scoring of de zeker-
aanduiding (die vooral in Nederland is onderzocht).

Zoals eerder is aangetoond (Van Naerssen, 1962) bestaat er theoretisch een oneindig
aantal scoringsformules waarbij men de proefpersonen de subjectieve kans op de juistheid
van een alternatief kan laten opgeven, zodanig dat de persoon er voordeel bij heeft om
zijn subjectieve kans eerlijk op te geven, d.w.z. de subjectief verwachte waarde van zijn
totale score wordt door die scoringsformules gemaximaliseerd. De eenvoudigste (of al-
thans eenvoudigst af te leiden) scoringsformules zijn de logarithmische en de kwadra-
tische.

De logarithmische scoringsformule heeft, zoals ook in het artikel van '62 vermeld werd,
het voordeel aan te sluiten bij informatie-theoretische begrippen: de score is (althans bij
een bepaalde versie van de logarithmische scoring) evenredig aan de bij de persoon aanwe-
zige informatie. Helaas heeft de logarithmische scoring een groot praktisch bezwaar, zoals
ook door Dirkzwager wordt erkend: als de persoon aan eeo alternatief een zeer geringe
kans toekent dan wordt zijn score (al te) zwaar negatief, wanneer die keuze nu juist het
goede alternatief blijkt te zijn. De score wordt zelfs min oneindig als de aangegeven kans
nul is. Om dit euvel te verhelpen stelt Dirkzwager een correctieformule op, die van belang
is bij aangegeven lage kansen. Daardoor wordt de methode echter ingewikkeld. Bovendien
is de correctie nog afhankelijk van een willekeurig in te stellen parameter. Handiger zou
het misschien geweest zijn wanneer hij was overgestapt op de kwadratische scorings-

formule. Daarbij komt men niet in de problemen bij extreem lage kansen. Bovendien
is deze scoring veel begrijpelijker voor de proefpersonen, namelijk voor die welke nog
nooit van logarithmen gehoord hebben of niet meer weten wat dat zijn (zoals zelfs onder
psychologiestudenten vóórkomt).

Bij de kwadratische scoring van meerkeuzetoetsen is de itemscore een lineaire functie van
zowel de sorr\ van de gekwadrateerde aan de foute altematieven gehechte subjectieve kan-
sen als van het kwadraat van hun som. Als de coefficienten van de hneaire functie 1 wor-
den gesteld (wat mag en handig is) dan wordt de formule:

Waarin pj de kansen zijn die de persoon gehecht heeft aan de foute altematieven. Door
differentiatie van de verwachte waarde kan men aantonen dat (ook) bij deze scorings-
formule de score maximaal is als de door de persoon opgegeven kansen gelijk zijn aan de
werkehjke kansen, dus als de persoon zijn kansen eerlijk opgeeft.

Pormule (1) is m feite identiek aan de ietwat anders geschreven formule (f) van Shuford,
Albert en MassengiU (1966), m welk artikel men ook de afleidingen kan vinden van de
kwadratische en de logarithmische formules.

Dirkzwager noemt het een nadeel van deze scoringsformule dat de score afhankehjk is van
de kansverdehng over de onjuiste altematieven. Bij zijn logarithmische scoring is de item-
score aUeen afhankelijk van de subjectieve kans van het juiste alternatief (de score is bij
hem lineair aan de logarithme van die ene kans).

Men kan het echter even goed zelfs een voordeel noemen dat de score afhankehjk is van
de verdehng over de kansen. Stel dat twee personen, A en B, dezelfde kans hechten aan
het juiste alternatief, maar A geeft de foute altematieven gelijke kansen terwijl B een
tweede alternatief meer kans geeft dan de andere. Bij de scoring van Dirkzwager krijgen
zij dezelfde itemscore, maar is dat terecht? B heeft ten onrechte nog enig geloof gehecht
aan het tweede alternatief. Hij moet hiervoor gestraft worden met een lagere score,
kan men redeneren, zoals dan ook gebeurt bij de kwadratische scoringsformule. Deze
redering vindt men ook bij Hofstee (1980, p. 91).

Wat betreft de zekeraanduiding geloof ik dat er sprake is van een misverstand wanneer
Dirkzwager meent dat dat iets heel anders is dan 'multiple evaluation'. De zekeraandui-
dmg is om praktische redenen ontstaan uit multiple evaluatie. Ik heb in 1960 dienstpUch-
tigen subjectieve kansen laten noteren bij de items van een verkeersregeltest (wel met
slechts twee altematieven, maar dat maakt hier geen verschil). Het bleek dat nauwelijks
andere dan 50% en extreme kansen werden aangestreept, om welke reden in het onder-
zoek (van Naerssen, 1963) ten slotte slechts de goed-score werd gebruikt. Later las ik dat
Edwards (1961) reeds had opgemerkt dat mensen niet zo gemakkehjk kansen kunnen
hechten aan gebeurtenissen. AUeen bij drie kansen lukt dat bhjkens empirisch onderzoek
redelijk: nul, 50 procent en 100 procent. Dit leidde er toe om de continue kansschaal
als het ware'te dichotomiseren tot een tweedehng: meer dan 50 procent en minder dan
50 procent. Hiermee was de 'zekeraanduiding' ontstaan (zie van Naerssen, 1966). Daarbij
is 'zekerheid' niet meer dan een naam voor de gedichotomiseerde variabele 'subjectieve
kans'. Dit kwam ook tot uitdmkking bij de uitleg aan de proefpersonen. De zekeraan-
duiding werd veel eenvoudiger geacht voor de proefpersonen om te begrijpen dan een
continue schaal, terwijl werd aangenomen dat dichotome of continue schaal nauwelijks
verschiUen zouden geven. Bovendien werd de zekerheidsaanduiding beter geacht, zoals

boven reeds werd opgemerkt, omdat de meeste mensen nauwelijks meer dan drie kan-
sen gebruiken, O, 50 en 100 procent.

Met de zekeraanduiding is in Amsterdam enige tijd empirisch onderzoek verricht. De be-
trouwbaarheid van toetsen bleek wat verhoogd (Van Naerssen en Van Beaumont, 1965)
en zelfs de validiteit (Mellenbergh, 1967). Ook kreeg de vorm van de utiUteitscurve van
testscores aandacht (Van Naerssen, Sandbergen en Bruynis, 1966), evenals de 'persoon-
lijkheidseigenschap 'weten wat men weet', geoperationaliseerd als de (phi-) correlatie
tussen goed en zeker (bijv. Van Naerssen, 1966). Hoewel het onderzoek met de zeker-
heidsaanduiding nog culmineerde in een proefschrift (Sandbergen, 1973) lieten De
Groot en Van Naerssen (1969) zich echter d voorzichtig uit over de verwachtingen. Het
leek er op dat de moeite van de toch wat ingewikkelder scoring (hoewel heel wat sim-
peler dan multiple evaluatie) en de uitvoerige uitleg vooraf slechts een beperkte verhoging
van betrouwbaarheid en vahditeit teweeg bracht, en dan nog alleen onder gunstige voor-
waarden (geen al te moeilijke of minder goede items). In de praktijk is het meestal een-
voudiger de test wat te verlengen.

Kunnen we nu ook gegronde verwachtingen koesteren ten opzichte van de multiple
evaluatie techniek, die zo geheel anders zou zijn dan de zekeraanduiding? Om mogelijk-
heden en beperkingen na te gaan van technieken zonder empirisch onderzoek, of vaak:
voorafgaand aan de laatste, is simulatie bijzonder geschikt. De uitkomsten van simulatie
zijn natuurüjk niet meer waard dan het model dat er aan ten grondslag ligt, maar men kan
trachten het model zo realistisch mogelijk te laten lijken. En dan heeft simulatie het grote
voordeel snel aanwijzingen te kunnen geven of (duur en tijdrovend) empirisch onderzoek
wel nut heeft, en zo ja onder welke voorwaarden.

Dit programma (afgedrukt in Van Naerssen, 1982) berekent, uitgaande van een hopelijk
tamelijk realistisch model, van psn a.h.w. gegenereerde personen een zestal verschillende
scores op its items (dezelfde items voor het zestal) met alt altematieven en daarna de in-
tercorrelaties tussen de zes scores, en dat bij rps repHcaties van het onderzoek. Ten slotte
worden gemiddelden en standaardafwijkingen berekend bij die replicaties om enig idee
te krijgen van de significantie van de bevindingen. Uit de correlaties (berekend over de
psn personen en dan gemiddeld over de replicaties) kan men conclusies trekken over (on)-
gelijkheid van eventuele onderliggende factdren en dat bij verschillende parameterwaar-
den.

Wat het model betreft, men weet dat personen, ook al weten ze eigenlijk niets van de exa-
menstof, toch verschillende kansen plegen te plaatsen bij de alternatieven, en wel op min
of meer 'random' wijze. Naarmate ze méér weten zal de toewijzing van de kansen minder
random worden maar zal één van de altematieven - voor de persoon hopelijk het goede
— een relatief grotere kans toegewezen krijgen. Vandaar dat'in het programma bij perso-
nen met een (op raden gecorrigeerde) ware score nul de subjectieve kansen toevallig geko-
zen worden (preciezer: uit een rechthoekige verdeling tussen O en 1, waarna ze door hun
som gedeeld worden). Voor alle personen wordt eerst de (toevalhge) hoogste kans nog
met een constante vermenigvuldigd, die evenredig is met de (gecorrigeerde) ware score,
alvorens er door de som gedeeld wordt. Voor de hoogstmogelijke relatieve ware score
(= 1) wordt de constante parameter suz (subjectieve zekerheid), genoemd. Deze zal geva-

rieerd worden. Zo wordt getracht de werkehjkheid meer te benaderen door enerzijds
rekening te houden met het bestaan van individuele verschillen, anderzijds met de ver-
wachting dat de toevalligheid afneemt met de (voor raden gecorrigeerde) ware score.
Om de zaken niet nodeloos te compliceren worden de items statistisch equivalent veron-
dersteld, zodat ook niet nog eens spreidingsmaten van itemmdices gevarieerd hoeven te
worden. Met andere woorden, het welbekende bmomiale model kan gehanteerd worden:
de personen hebben een gegeven verdeling over de ware score, en gegeven de ware score
is de ruwe score binomiaal verdeeld. De vorm van de ware-score-verdeling zal er weinig
of niets toe doen, bij dit onderzoek, alleen gemiddelde en spreidmg zijn van belang.
Gemaks- en duidelijkheidshalve wordt daarom uitgegaan van rechthoekige ware-score-
verdeling met te variëren ondergrens en range. Met die twee parameters kunnen name-
lijk moeihjke en gemakkehjke, betrouwbare en onbetrouwbare tests gesimuleerd worden.
De ondergrens moet uiteraard liggen bóven het omgekeerde van het aantal alternatieven.
De ondergrens wordt c genoemd.

Om het binomiale model te laten gelden wordt (bij elk item van elke persoon afzonder-
lijk) het hoogste van de alt subjectieve kansen tot juiste alternatief uitgeroepen met een
kans gelijk aan de ware score (die voor elke persoon gegenereerd wordt als een random
getal tussen onder- en bovengrens van de ware-score-range). Wordt niet het alternatief
met de hoogste subjectieve kans tot het juiste uitgeroepen, dan wordt een van de alt-1
andere altematieven tot het juiste verheven, en wel toevalhg (d.w.z. met gelijke kansen).
Uiteraard beschouwt iedere examinandus het alternatief met de hoogste subjectieve kans
als het (meest) juiste, dat bij zou aanstrepen wanneer de toets 'gewoon' zou worden afge-
nomen. Dit resulteert in de ruwe score. De subjectieve score is eenvoudig de kans door
het subject gehecht aan het juiste alternatief. De logscore (van Dirkzwager) is hiervan de
^ogarithme (het grondtal is onbelangrijk: alle logscores ajn evenredig aan elkaar). De
kwadratische score wordt berekend met formule (1). En ten slotte wordt de zekerheid-
score berekend met een constant Pz- Bij de scoring die vroeger het meest gebruikt werd
(bij 3, 4 of meer altematieven), nameüjk: goed+zeker = 2, goed-Honzeker = 1, fout-hon-
zeker = O en fout+zeker = -1 hoort een Pz = 0.5, d.w.z. als de kans gehecht aan het aan-
gestreepte alternatief groter wordt geacht dan 0.5 dan moet de pp het als 'zeker' aange-
ven (omdat dat voor hem het voordeligste is) en anders als onzeker. Bij dit simulatie-
onderzoek wordt dezelfde scoring toegepast, afliankelijk van het feit of de aan het juiste
alternatief gehechte kans groter of kleiner blijkt te zijn dan 0.5 (bij 3 of meer alternatie-
ven).

Gezien de wijze van totstandkoming kan het haast niet anders of alle zes de scores moeten
wel positief met elkaar correleren. Maar afliankelijk van de parameters kunnen deze cor-
relaties toch hoger of lager zijn. Bovendien is het mteressant te weten welke scores nu
juist het hoogst met elkaar correleren, en onder welke omstandigheden.
We zullen de ware score beschouwen als de 'wezenlijke' score, die echter onbekend is en
geoperationaliseerd wordt door de vijf andere scores. Daarbij heeft de subjectieve score
als enige het nadeel niet 'reproducerend' te zijn, d.w.z. het is geen optimale strategie om
deze eerlijk op te geven als de subjectieve score gebmikt werd voor beslissingen. De sub-
jectieve score kan natuurlijk wel eventueel benut worden als toegift bij research.
Om logscores van min of meer oneindig, of althans zeer lage, te vermijden werd niet de
correctie van Dirkzwager toegepast maar een doorzichtiger methode (die alleen bij simu-
latie toepasbaar is): wanneer de subjectieve kans bij het juiste alternatief kleiner blijkt
dan een in te voeren, te variëren parameter min, wordt a.h.w. het item door een ander
vervangen.

Een aantal controleberekeningen is altijd nodig voor men waarde kan hechten aan de uit-
komsten van een simulatiestudie. Het programma biedt meerdere controlemogelijkheden.
In de eerste plaats moet natuurlijk de gevonden gemiddelde ruwe score niet significant
verschillen van de gevonden gemiddelde ware score, en deze weer niet van het verwachte
gemiddelde, dat eenvoudig het midden is van de ingevoerde ware-score-range (bij de recht-
hoekige verdeling die we hebben aangenomen). Dit blijkt steeds mooi te kloppen, evenals
de uitkomst bij de volgende controle, die werd ingebouwd. Bij elke gegenereerde test
werd de betrouwbaarheid als Kuder-Richardson-21 berekend (21 en niet 20 omdat de
items statistisch identiek zijn, d.w.z. een persoon heeft bij ieder item dezelfde kans-op-
goed). Van deze 'empirische' betrouwbaarheidscoëfficiënten wordt evenals van de correla-
tiecoëfficiënten, over de replicaties gemiddelde en standaardafwijking berekend. Zo kan
worden nagegaan of dit gemiddelde significant verschilt van de a priori te verwachten be-
trouwbaarheid, die berekend kan worden als verwachte ware variantie gedeeld door de
verwachte test variantie, d.i. ware variantie plus foutenvariantie. Noemt men de boven-
grens van de ware-score-range b en de ondergrens c dan is de verwachte ware variantie
(b — c)^/12, terwijl de verwachte foutenvariantie berekend kan worden door integratie
van de foutenvariantie bij constante ware score p (dus van p(l - p)/n) van c naar b bij
constante ware-score dichtheid l/(b - c); n is hier het aantal items van de tests. Men
vindt:

Zoals reeds werd opgemerkt bleken de 'empirische' betrouwbaarheidscoëfficiënten steeds
vlakbij de a priori geschatte coëfficiënten te liggen.

Bovenstaande formules waren in het onderzoek vooral ook handig om van realistische
combinaties van b, c en n uit te gaan, d.w.z. combinaties, die betrouwbaarheidscoëfficiën-
ten zouden opleveren tussen 0.65 en 0.80; hogere waarden vindt de docent nauwelijks,
lagere maken de toets nutteloos. (Betrouwbaarheid is een noodzakeUjke, zij het niet vol-
doende voorwaarde voor nut).

In dit onderzoek werden de volgende parameters gevariëerd: de 'subjectieve zekerheid'
(suz), de laagste ware score (laag), de range van de ware scores (range) het aantal alter-
natieven (alt) en de minimum-kans die aan het juiste alternatief wordt gehecht (min).
Het heeft weinig zin om het aantal items (its), het aantal personen (psn) en het aantal
replicaties (rps) te variëren. Deze worden daarom constant gehouden, en wel resp. op 35,
50 (voor docenten normale waarden) en 10. Ook zou het onoverzichtelijke worden de
resultaten bij alle mogelijke combinaties van parameters te onderzoeken. Gekozen is
voor de 'standaardsituatie' met de volgende parameterwaarden (naast its = 35, psn = 50
en rps = 10) : laag = 0.4, range = 0.5, min = 0.1 en suz = 2. Dit laatste betekent, ter her-
innering, dat wie niets weet random kansen hecht aan de altematieven, en wie alles weet
de hoogste kans nog eens met twee vermenigvuldigt (alvorens alle 'kansen' nog door hun

som gedeeld worden). Behandeld worden dus de standaardsituaties en een aantal situaties,
die daarvan slechts verschillen wat betreft de waarde van één parameter.
In tabel 1 staan de gemiddelden (over de 10 replicaties) van de gemiddelde scores en hun
standaarddeviatie met daarachter de intercorrelaties tussen de zes scores (ware, subjectie-
ve, ruwe, log, kwadratische en zekerheid).

In tabel 2 staan analoge resultaten, maar het gaat hier niet om de gemiddelde waarden
maar om de standaarddeviaties (over de 10 rephcaties). Deze geven een indruk, of kunnen
eventueel gebruikt worden voor de berekening van de significantie van verschillen. Als
voorbeeld van dat laatste: De verwachte betrouwbaarheid (berekend met o.a. formule 2)
is 0.779. De 10 KR21 zijn gemiddeld 0.763 met st. dev. 0.043. De st. dev. van het gemid-
delde is dus 0.043/3 = 0.014 dus z = (0.779-0.763)/0.014 = 1.1, het verschil is niet sig-
nificant. Het kwadraat van de correlatie tussen ware en ruwe score levert een ongeveer
gelijke betrouwbaarheidsschatting nl:. 0.783.

Voor de uniformiteit zijn overal drie decimalen gehandhaafd, hoewel in sommige gevallen
(niet alle!) beperking tot twee decimalen juister zou zijn.

Hoewel alle correlaties hoog zijn, kan men toch een duidelijk cluster vinden. Subjectieve,
log- en kwadratische score correleren 0.994 of hoger. Deze scores correleren ook hoog
(minstens 0.909) met de ware score, hoger dan de ruwe score (0.885) en dat bewijst
hun bestaansrecht. Vooral de subjectieve score correleert hoog (0.933) maar, nogmaals,
deze is niet reproducerend. De zekerheidsscore correleert iets (maar niet significant) lager
met de ware score, (0.902) en ook hoger dan de ruwe score; dus ook de zekeraanduiding
lijkt mogelijk nuttiger wat betreft het uitsparen van items.

Standaarddeviaties van gemiddelden, van standaarddeviaties, en van de intercorrelaties van
zes scores _____

Het zou te veel ruimte vergen indien bij de variaties ook complete tabellen zouden wor-
den getoond. Volstaan wordt met het noemen van de belangrijkste verschillen.
Als de ondergrens van de ware scores verlaagd wordt tot 0.25 bij gehjkbhjvende range,
dan kan men bij keuzetoetsen verwachten dat de betrouwbaarheid iets afneemt. Boven-
dien bleek uit het empirisch onderzoek van Mellenbergh (1967) dat (bij moeilijker items)
de zekeraanduiding ongunstig werd beïnvloed: de zekerheidscore werd minder betrouw-
baar dan de ruwe score. Dit blijkt nu ook ahemaal uit de simulatie: de betrouwbaarheid
wordt 0.761, log- en kwadratische score correleren wat minder met de ware score (0.885),
maar vooral de zekeraanduiding (0.874), welke correlatie zelfs lager wordt dan die tussen
ruwe en ware score (0.879).

Anderzijds neemt de betrouwbaarheid toe bij verschuiving van de ware-score-range naar
boven (0.814 bij laag = 0.5, range = 0.5). Nu correleren, overeenkomstig de verwachting,
logscore (0.917), kwadratische score (0.918) en zekerheidscore (0.903) duidehjker
hoger dan de ruwe score (0.875) met de ware score.

Als men daarentegen de range vermindert tot 0.4 (bij laag = 0.4 weer) dan zal natuurlijk
de betrouwbaarheid vooral verlaagd worden. Dat gebeurt dan ook, KR21 wordt 0.684.
Maar de correlaties met de ware score van logscore en kwadratische score (0.861) en van
zekeraanduiding (0.855) bhjven hoger dan die van de ruwe score (0.837).
Verlaagt men de minimumkans (min) van 0.1 tot 0.01 dan levert dat nauwelijks veran-
deringen, behalve dan dat ahe correlaties met de logscore verlaagd worden, zoals ver-
wacht werd. Dit is immers de reden waarom Dirkzwager zijn correctie invoerde. De log-
score correleert bij deze min slechts 0.876. Nog dramatischer wordt deze achteruit-
gang bij min = 0.0001; de correlatie tussen ware en logscore is dan 0.841, tegenover
0.887 van ware score met kwadratische, 0.884 met ruwe en zelfs 0.895 met de zekerheid-
score, die blijkbaar relatief het minste last heeft van extreem lage subjectieve kansen, zo-
als ook begrijpelijk is.

Variatie van suz levert bij suz = 1 iets lagere correlaties tussen ware score enerzijds en de
subjectieve, de log- en kwadratische en de zekerheidscore anderzijds, suz = 4 daarentegen
iets hogere, maar de verschillen zijn gering (0.01). Bij suz = 10 gaat, zoals begrijpelijk
zal zijn, het nut van de subjectieve scoring weer verforen, de zekerheidscore wordt dan
identiek aan de ruwe score (r = 1.0000); terwijl ook de andere (kans-)scores daar nu
zeer hoog mee correleren (0.99).

Ten slotte werd nog nagegaan hoe de correlaties zouden zijn bij een dubbel aantal twee-
keuze-items: its = 70, alt = 2, met aangepaste ware-score grenzen. De ondergrens ligt nu
(volgens de raadcorrectieformule) bij 0.6 en de range is 0.333. Het bhjkt dat deze gelijk-
tijdige wijzigingen tot (practisch) geen veranderingen in de correlaties leiden, zij het dat
de betrouwbaarheid iets hoger wordt (KR21 = 0.794). Ook dit is in overeenstemming met

De hoge correlatie tussen zekerheidscore en ruwe score is geheel in overeenstemming met
het empirisch onderzoek van een vijftien jaar geleden. De simulatie toont dat ook log-
score en kwadratische score er hoog mee correleren. Doch de simulatie toont eveneens

dat alle drie de scores in gunstige gevallen (gemakkelijke items) hoger kunnen correleren
met de ware scores dan de ruwe scores dat doen, m.a.w. ze kunnen van nut zijn voor be-
trouwbaarheidsverhoging van de test, zoals vroeger ook al empirisch werd aangetoond bij
de zekeraanduiding.

Variatie van parameters geeft wel enige verschiUen, maar de trend bhjft ook dan dezelfde.
De kwadratische scoring bhjkt meestal even goed en bij lage min (minimumkansen van
het goede alternatieO zelfs duidehjk beter dan de logscore. Hiertegen kan gecorrigeerd
Worden, maar de correctie maakt de scoring weer (nodeloos) ingewikkeld en ondoor-
zichtig.

In het model is geen rekening gehouden met het o.a. door Edwards gesignaleerde ver-
schijnsel dat de meeste mensen nauwelijks meer dan drie kansen toepassen: O, 50 en 100
procent. Dit psychologische feit pleit enigszins voor gebruik van de zekeraanduiding,
die overigens bij de simulatie hoog correleert met de andere (subjectieve kans-)scores.
Erg veel kan men met al deze scores niet verwachten. Met een kleine verienging van de
test bereikt men met vermoedelijk minder moeite hetzelfde. Want al laat men de scoring
aan de computer over, de proefpersoon moet er toch langer over nadenken.
Onderwijskundig kan dat laatste zijn nut hebben, maar dat wordt in dit onderzoek in het
midden gelaten.

Dirkzwager, A. Multiple evaluatie in plaats van multiple choice. Tijdschrift voor Onderwijsresearch,
1981,6,230-245.

Edwards, W. Behavioral decision theory. Annual Review of Psychology, 1961,12,473-498.
Groot, A.D. De en R.F. van Naerssen. Studietoetsen construeren, afnemen, analyseren. Den Haag,
Mouton, 1969.

Lord, F.M. en M.R. Novick. Statistical theories of mental test scores. Reading, 1968.

Mellenbergh, G.J. Nieuwe ervaringen met een zekerheidsaanduiding bij tentamina in de meerkeuze-

yotm. Nededands Tijdschrift voor de Psychologie 1967,22,170-181.
Naerssen, R.F. van. A scale for the measurement of subjective probability. >lc/a Psychologica, 1962,
20,159-166.

Naerssen, R.F. van. Itemscoring met 'zeker' of 'onzeker'. Nationaal Congres Onderzoek Wetenschap-
pelijk Onderwijs, deel I. T.H. Eindhoven, 1966,177-190.
Naerssen, R.F. van. Een simulatieprogramma voor de evaluatie van multiple evaluatie. Memo D195,

Vakgr. Methodenleer, Subf. Psychologie, Univ. v. Amsterdam, 1982.
Naerssen, R.F. van en R. van Beaumont. Ervaringen met een zekerheidsaanduiding bij objectieve ten-
tamens. TVerfer/a^x/s Tijdschrift voor de Psychologie, 1965,20, 308-315.
Naerssen, R.F. van, S. Sandbergen en E. Bruynis. Is de utiliteitscurve van examenscores een ogief?

Nederlands Tijdschrift voor de Psychologie, 1966,21, 358-363.
Sandbergen, S. Zekerheidsaanduiding bij het meten van studieprestaties. Research Instituut voor de

Toegepaste Psychologie, Amsterdam, 1973.
Shuford, E.H., A. Albert, H.E. Massengrill. Admissible probabiUty measurement procedures. Psycho-
metrika 1966,31, 125-145.

Enige tijd geleden werd in dit tijdschrift de vraag aan de orde gesteld hoe men kennis en inzicht
op een bepaald gebied zou moeten meten (Dirkzwager, 1981). De conclusies werden met
empirische gegevens onderbouwd. Aansluitend daarop heeft Van Naerssen (1982) een simula-
tieonderzoek gedaan op grond waarvan twijfel aan de juistheid van deze conclusies kan
ontstaan: Multipele Evaluatie zou niet noemenswaard beter zijn dan Multiple Choice. Kriti-
sche beschouwing leert echter dat Van Naerssen's simulaties modelmatig onvoldoende gefun-
deerd zijn om deze twijtel aan de merites van Multipele Evaluatie als toetsingsmethode te
rechtvaardigen.

Verschillende procedures p zijn denkbaar die leiden tot een bepaalde score, Sp. Het is niet
ongebruikelijk te veronderstellen dat een proefpersoon een ware score S,^, 'heeft', waama de
vraag ontstaat welke procedure de 'beste' Sp oplevert, dat wil zeggen, een Sp waamit S,,, 'zo
goed mogelijk' berekend kan worden. Deze laatste vraag wordt beantwoord door de correlatie
tussen een uit Sp te berekenen schatting van S^^, te correleren met de ware score S,,,. Een
probleem met empirisch onderzoek is dan, dat deze laatste onbekend is. Dit probleem kan
ondervangen worden door uit te gaan van verondersteld? bekende waarden van S^ en deze
vervolgens middels een model van het testgedrag van de proefpersoon en van het scoringsge-
drag van de beoordelaar om te zetten in een Sp om tenslotte de correlatie te berekenen. Dit
wordt simulatie genoemd en men kan de computer zeer goed gebruiken om een willekeurige
verzameling van proefpersonen, elk getypeerd door een 'ware score' S^,,, te genereren en de
berekeningen uit te voeren volgens de gegeven modellen om te komen tot waargenomen scores
Sp en correlaties tussen Sp en S,^,. De resultaten van een dergelijk onderzoek zeggen alles over
het gebruikte model, en slechts voor zover dit model werkelijkheidswaarde heeft iets over de
werkelijkheid. Wanneer Van Naerssen (1982) dus op grond van een dergelijke computersimu-
latie conclusies trekt over de te gebruiken scoringsprocedures is het alleszins de moeite waard
na te gaan op welk model zijn resultaten gebaseerd zijn en of deze geen artefact zijn van zijn
modelkeuze.

Evenals Dirkzwager (1981) gaat Van Naerssen er van uit dat de scoring gebaseerd is op door de
proefpersonen te rapporteren kansen Pj bij alternatieven i van muhiple choice testvragen (één
en slechts één alternatief is het juiste). Zijn 'ruwe' score is evenredig met wat wij de multiple
choice score noemden S^e (het aantal items waarvoor de pp de hoogste kans toekende aan het
juiste alternatief), zijn logarithmische score is evenredig met onze multipele evaluatie score
(Sme)- Daarnaast berekent hij ook nog een 'subjectieve score' Sp (de kans die voor het juiste
alternatief is ingevuld), een kwadratische score (evenals de logarithmische score zelf-
reproducerend maar volgens Van Naerssen eenvoudiger te berekenen) en een zekerheidsscore

Sz- Deze laatste wordt per item als volgt samengesteld (waarbij P^ de kans voor het juiste
alternatief is en Pf de hoogste kans die aan een onjuist alternatief is toegekend):

Door Van Naerssen wordt nu onderzocht welk van deze scores (scoringsprocedures) de
hoogste correlatie geeft met de ware score. Van Naerssen's conclusie is dat de correlaties
steeds zeer hoog zijn en niet noemenswaard van elkaar verschillen, zodat men vrij is een keuze
te maken, waarbij de zeer eenvoudige multiple choice Sn,^ de voorkeur verdient. Alleen al het
feit dat de verwachte Sp, S^c en S^ een lineaire functie is van S^ c.q. Pj, en S^^ en S^e resp. een
kwadratische en een logaritmische, geeft reden tot de veronderstelling dat de correlatie
coëfficiënt (die berust op een veronderstelde lineaire functie) voor deze laatste twee scores een
onderschatting van het feitelijke verband zal geven.

Ernstiger kritiek is mogelijk omdat Van Naerssen's conclusies berusten op de veronderstelling,
dat de relatie tussen de ware score S^ en de te rapporteren kansen P; in het model juist is
Weergegeven, en dat deze onafhankelijk is van de gekozen scoringsmethode. Dit laatste is
echter, zoals door Dirkzwager (1981) betoogd wordt, niet het geval en zelfs bijzonder onwaar-
schijnlijk wanneer de proefpersonen de test aan de computer maken en dooriopend geïnfor-
meerd worden over het onder een bepaalde scoringsprocedure te behalen aantal (straf)pun-
ten, afhankelijk van de kansen die zij invullen. Van Naerssen gebruikt echter in zijn model
voor alle scoringsprocedures dezelfde methode om van de ware score van de proefpersoon te
komen tot zijn antwoord op de test. Het wordt dus de moeite waard om na te gaan of deze
methode een bepaalde scoringsprocedure niet bevoordeelt.

Allereerst dienen we na te gaan wat Van Naerssen bedoelt met de term 'ware score'. In zijn
simulatie wordt het alternatief waaraan de pp de hoogste kans Pj toekende, met een kans w
gemarkeerd als het juiste alternatief. Dat betekent dus dat de ware score w gedefinieerd is als
de kans dat de pp bij geforceerde keuze het juiste alternatief zou kiezen.
Dit komt overeen met de kans dat (bij scoring) dat alternatief juist zal blijken te zijn, gegeven
de informatie waarover de proefpersoon beschikt (deze informatie omvat in ieder geval het
gegeven dat één van de gegeven k alternatieven het juiste is). Dat is een juist uitgangspunt.
Nu is het echter niet zo dat Van Naerssen met behulp van deze 'ware score' op een rationele en
inzichtelijke wijze de 'subjectieve kansen' Pj bepaalt, die, als antwoord van de proefpersoon,
de basis vormen voor de verschillende te berekenen scores. Deze subjectieve kansen worden
verkregen volgens een vrij willekeurige procedure die voor test-items met vier alternatieven als
volgt is samen te vatten:

4. bepaal volgens een toevalsprocedure aan welk van de vier alternatieven de hoogste kans Pj
wordt toegekend: aan het juiste alternatief met een kans w en aan een onjuist alternatief
met een kans (l-w)/(4-l). Aan de overige alternatieven worden de resterende kansen
willekeurig (met een kans van 1/3) toegekend.

Welk proefpersoongedrag wordt hier gesimuleerd en is het waarschijnlijk dat reële proefper-
sonen dit gedrag vertonen? Op het eerste gezicht lijkt het alsof proefpersonen op een volledig
willekeurige ('erratic') wijze kansen toekennen, de relatie met de ware score, met zijn
feitelijke mate van kennis en inzicht, is op zijn minst ondoorzichtig. Bij kritische beschouwing
wordt deze indruk versterkt. Stap 1 t/m 3 genereert een (volgens verwachting ongeveer
uniforme) volledig willekeurige kansverdeling (met dus een te lage hoogste kans voor het juiste
alternatief als de ware score hoog is). Alleen stap 4 geeft een realistische relatie met de ware
score w maar ook hier is de feitelijke waarde van Pj voor het juiste alternatief (afgezien van het
feit dat het 'de grootste' is) geheel onafhankelijk van de feitelijke waarde van w. Dit simuleert
een vorm van gedrag dat afgestemd is op MC-scoring (van Naerssen's ruwe score): ken aan het
alternatief dat je veronderstelt juist te zijn een willekeurige kans toe, als hij maar hoger is dan
de kansen voor de andere alternatieven. De 'ingevulde' kansen bevatten dus geen extra
informatie over de ware score, boven die, die met MC-scoring geëxtraheerd wordt, en het
behoeft geen verbazing te wekken dat onder dit niet-realistisch model scoringsmethoden die
met deze extra informatie (indien aanwezig) wèl rekening houden, het in deze simulatie niet
duidelijk beter doen dan MC-scoring.

Men zou kunnen tegenwerpen dat in stap 2 de ware score w wel degelijk invloed heeft op de
hoogte van de in te vullen kansen Pj. Dat is juist, maar men vrage zich af wat voor invloed dat
dan wel is. Wanneer w kleiner is dan .5 wordt de hoogste kans uit de - volgens verwachting
ongeveer uniforme verdeling - gereduceerd tot een fractie van de oorspronkelijke waarde, de
verdeling van Pj gaat dus meer de uniforme verdeling benaderen. De interpretatie is dat
proefpersonen gesimuleerd worden, die bij weinig kennis en inzicht (een lage w) voorzichtiger
gaan antwoorden. Bij hoge waarden van w (groter dan .5) wordt de oorspronkelijk hoogste
kans echter vergroot (ongeacht of hij in stap 4 aan een juist of een onjuist alternatief wordt
toegekend), de interpretatie is dat proefpersonen gesimuleerd worden, die bij een hoge ware
score (veel kennis en inzicht) onvoorzichtiger te werk gaan en hun kennis (niet realistisch) gaan
overschatten. Van Naerssen berekende in zijn simulatie geen realisme scores maar men kan op
goede gronden aannemen dat zijn gesimuleerde proefpersonen zich wat dit betreft geheel
anders gedragen dan de reële proefpersonen waarover Dirkzwager (1981) rapporteerde: daar
bleek uit empirisch onderzoek dat juist proefpersonen met weinig kennis en inzicht (een lage
w) door onvoorzichtige zelfoverschatting hun Multipele Evaluatie score verlaagden, terwijl
proefpersonen met een hoge score juist realistischer, voorzichtiger antwoordden en mede
daardoor hogere ME-scores behalen. Het effect zal zijn dat Van Naerssen in zijn simulatie
lagere correlaties tussen de ware score en de log-score (Multipele Evaluatie) zal vinden, dan
wanneer hij een realistischer model van het proefpersonengedrag gebruikt zou hebben. Het
gedrag dat van Naerssen simuleert houdt in het geheel geen rekening met de pay-off zoals bij
ME-scoring gerealiseerd (wat reële proefpersonen met een hogere ware score wèl kunnen
doen) en is uitsluitend afgestemd op MC-scoring. Het hoeft dus geen verbazing te wekken dat
zijn resultaten geen verbetering te zien geven als men in plaats van MC-scoring ME-scoring
toepast.

Een ander kenmerk van de simulatie waardoor de resultaten waarschijnlijk een vertekend
beeld geven van de werkelijkheid ten gunste van scoringsmethoden die volgens Dirkzwager
(1981) inferieur zijn, is Van Naerssen's behandeling van zeer lage kansen. Hij heeft een wat
irrationeel bezwaar tegen het gebruik van een in Dirkzwager (1981) voorgestelde tolerantiepa-
rameter, maar dat is het punt niet: in feite bevoordeelt hij de logaritmische scoringsprocedure
door items met een zeer lage kans (kleiner dan min = .10) te verwaarlozen als ze volgens zijn

toevalsprocedure gegenereerd worden. Dit blijkt wanneer hij minder 'tolerant' wordt en min
op .01 of zelfs .001 stelt: dan wordt de correlatie tussen '- /are score' en log-score drastisch
lager. Dat roept de vraag op wat het effect is van de zeer lage kansen op het juiste antwoord die
net iets hoger zijn dan min: ook deze zullen de correlatie tussen ware score en log-score
drastisch verlagen. Nu zal dat in reële situaties zelden voorkomen, alhans bij proefpersonen
met een hoge ware-score: zeer lage kansen worden dan voornamelijk toegekend aan alterna-
tieven waarvan het overduidelijk is dat ze onjuist zijn, niet aan alternatieven die in aanmerking
komen voor de proefpersoon om juist te zijn. De vraag is of Van Naerssen's gesimuleerde
proefpersonen zich op een overeenkomstige rationele wijze gedragen. Dat is niet het geval.
We zien in stap 2 dat juist proefpersonen met een hoge w kansverdelingen produceren met
extreme waarden voor Pj. Dat is op zich juist want zij zijn in staat te zien dat een bepaald
alternatief absoluut niet juist kan zijn (dat hoeft maar voor één van de onjuiste alternatieven te
gelden). Wanneer zij nu de hoogste kans aan het juiste alternatief toekennen is er niets aan de
hand, maar in het andere geval (kans daarop (l-w)/3) wordt deze zeer lage kans met een even
grote waarschijnlijkheid aan willekeurig een van de resterende alternatieven toegekend.
Waaronder het juiste. Dat impliceert dat een proefpersoon volgens Van Naerssen, wanneer
men het foute alternatief van zijn keuze uit het item zou schrappen, plotseling niet meer kan
discrimineren tussen de overige altematieven, waaronder het juiste: de kans dat de zeer lage
kans aan het juiste alternatief wordt toegekend is dan 1/3. Dat een proefpersoon zich in de
werkelijkheid zo gedragen zou is alleen maar waarschijnlijk als hij één alternatief een zeer
hoge kans geeft en zijn keuze over de overige uniform verdeelt {alle andere alternatieven zeer
lage kansen). Wanneer hij weliswaar de hoogste kans aan een fout alternatief toekent, maar
ook een tweede alternatief een duidelijk hogere kans geeft dan de overige, dient dit serieus
genomen te worden en in het model te worden gehonoreerd met een hogere kans-op-juist voor
dat alternatief: nu krijgt alleen het eerste alternatief met de hoogste kans dit 'voordeel'. Een
oplossing zou kunnen zijn de ware score S^ te definiëren als de kans P; dat een proefpersoon
het juiste alternatief uit een oneindig grote verzameling altematieven weet aan te wijzen
(open-end situatie), te stellen dat, als slechts de keuze uit k altematieven gegeven wordt en zijn
ware score w gehjk aan O is, hij met een kans 1/k het juiste alternatief kan aanwijzen en dat, als
er slechts één alternatief is (k= 1) hij (uiteraard) met een kans P, = 1.0 dat alternatief als het
juiste aanwijst. Verder zal hij als w = 1.0, ongeacht het aantal alternatieven, altijd het juiste
moeten kunnen aanwijzen (P^ = 10).

Een eenvoudige formule voor de kans, dat het alternatief met de hoogste subjectieve kans het
juiste alternatiefis, die aan deze voorwaarde voldoet, is:

De procedure om op meer realistische wijze het proefpersoongedrag te simuleren zou dan
kunnen zijn:

1. trek een willekeurige kansverdeling, kansen P, voor alle alternatieven i, 1 = 1,2 . .k en een
willekeurige ware score w (O < w < 1)

4. als X < (1/k) (1 - w''-') + w'''"*'"' markeer dan het gekozen alternatief (met kans P;) als juist

6. herhaal dit vanaf stap drie, tot één van de alternatieven als het juiste is aangewezen.

Voor items met vier altematieven, gerangschikt naar afdalende ingevulde kansen Pj, geeft dit
bij verschillende waarden voor w de volgende feitelijke kansen op juist (die de proefpersoon
dus, als hij realistisch was, had moeten invullen):

Tabel 1. 'Ware' (subjectieve) kansen p bij gegeven ware score w voor items met vier altema-
tieven.

Als dit model klopt blijkt er uit, dat bij realistische invulling van de kansen de kansverdeling
over de foute alternatieven zeker niet uniform is, iets wat in Van Naerssen's simulatie over het
algemeen wel het geval is en wat bij kwadratische scoring gehonoreerd wordt met een hogere
score. Dit werkt bij ME-scoring vooral ten nadele van de betere proefpersonen en verlaagt
derhalve de correlatie met de log score.

De simulaties van Van Naerssen hebben meer kenmerken waardoor ME-scoring niet uit de
verf kan komen. We noemen het feit dat hij items gebruikt die 'statistisch equivalent' zijn, dat
wil zeggen dat een proefpersoon in relatie tot alle items van de test steeds dezelfde ware score
heeft, steeds evenveel kennis en inzicht heeft, zodat hij alle items op dezelfde manier zou
moeten invullen. Een voordeel van Multipele evaluatie is nu juist dat de proefpersoon kan
differentiëren: voor sommige items waarbij hij (weet) te weinig kennis en inzicht te hebben
(heeft) om ze goed te beantwoorden, kan hij risicoloos een uniforme kansverdeling opgeven,
hij wordt dan niet afgestraft voor een 'fout' antwoord; bij items waar hij terzake kundig is (een
hoge ware score heeft) kan hij veel 'risico' nemen en veel bonus-punten halen: die items maakt
hij niet fout (en hij wordt dus ook niet afgestraft), omdat hij het juiste antwoord weet. Om een
goede keuze te maken op welke items hij wèl en op welke hij niet met veel 'risico' zal inzetten
(hoge kansen toekennen aan het waarschijnlijk juiste alternatief) dient hij in het gebied
waarover de test handelt (en in zijn kennis van Hat gebied) een goed inzicht te hebben (een
hoge ware score). Het verband tussen 'realisme' en 'ware score' (ook als deze onafhankelijk
van realisme met MC-scoring gemeten worden) toont aan dat dit bij reële proefpersonen zo in
zijn werk gaat (Dirkzwager, 1981). Van Naerssen houdt hier bij zijn simulaties geen enkele
rekening mee, een factor die de correlatie tussen een ware score en waargenomen score bij
gebruik van ME zou verhogen varieert hij niet; de 'moeilijkheid' van de items zou onafhanke-
lijk van de ware score (de globale capaciteit van de proefpersoon) gevarieerd moeten worden.

Deze overwegingen suggereren een aanvulling van de hierboven gesuggereerde methode om
het proefpersoongedrag op een realistische wijze te simuleren. Onder de voorgestelde proce-
dure worden de in te vullen kansen Pj in stap 1 willekeurig (dat wil zeggen onafhankelijk van de
ware score w) getrokken. Dit betekent dat voor proefpersonen met een hoge score de
ingevulde scores waarschijnlijk een onrfmchatting geven van zijn ware kennis (een schatting
van realistisch in te vullen kansen geeft tabel 1) en voor proefpersonen met een lage ware score
een meer realistische weergave (namelijk een ongeveer uniforme verdeling). Uit empirisch

onderzoek blijkt echter dat, vooral voor proefpersonen met een lage score, vrijwel uitsluitend
van overschatting van de eigen kennis sprake (Dirkzwager, 1981, realismescores a hebben een
gemiddelde van .71 en een spreiding van .16). Beter is het derhalve per proefpersoon en per
item een willekeurige 'ware realismescore' a te trekken uit N (.71, .16) en een willekeurige
'ware score' om vervolgens ware subjectieve kansen Qj te berekenen voor alternatieven
' = 1, ..., k met de procedure:

Welke onder andere de waarden uit tabel 1 oplevert. Vervolgens moeten de door die proefper-
soon ingevulde kansen Pj berekend worden, rekening houdend met zijn score op 'realisme'.
De formule die daarvoor gebruikt zou moeten worden is:

(zie Dirkzwager, sept. 1981), maar we moeten rekening houden met het feit dat P; moet liggen
tussen O en 1: een proefpersoon kan bij een hoge ware subjectieve score zijn kennis niet meer
overschatten (voor Q; = 1 kan Pj nooit hoger worden dan 1, voor Qj = O kan geen lagere P;
worden opgegeven). Dit impliceert restricties voor de toegestane waarden van a, deze moet
random getrokken worden, zo dat:

Waarbij Qg de grootste en Qm de kleinste waarde van de ware subjectieve kansen Qj is.
Wanneer hieraan niet voldaan is wordt opnieuw een andere waarde voor a getrokken.
Wanneer op deze manier het invullen van kansen door de proefpersonen gesimuleerd is kan
vervolgens conform de stappen 2 t/m 6 bepaald worden welk alternatief in feite als juist
gerekend moet worden.

Gezien het feit dat de ware scores over de items variëren zal voor de berekening van de
correlaties per proefpersoon een gemiddelde waarde van deze ware itemscores genomen
moeten worden als de ware score S,^; om het verband met de logaritmische score Sn,^ zo goed
mogelijk te meten met de correlatiecoëfficiënt zal men hiervoor de waarde

Samenvattend kan gesteld worden dat het model waarop Van Naerssen's simulatie berust
systematisch afwijkt van de werkelijkheid in een richting ten voordele van mc en ten nadele
van me. Het zou interessant zijn de simulatie te herhalen met de hier voorgestelde wijzigingen
en de resultaten dan te vergelijken met resultaten van empirisch onderzoek, met name wat de
(correlaties met de) realisme score betreft en wat de gemiddelde en spreidingen van de mc en
de me scores betreft op verschillende niveau's van de ware score: het zou kunnen blijken dat
Me, met name voor de hogere niveau's, een betere schatting is van de ware score.

Dirkzwager, A. Multiple Evaluatie in plaats van multiple choice. Tijdschrift voor Onderwijsresearch
1981,0,230-245.

Naerssen, R.F. van. Multiple Evaluatie en Zeker-aanduiding. Tijdschrift voor Onderwijsresearch, 1982
7,256-263.

Het recenseren van een pubülcatie met een omvang van ruim 500 pagina's waarin zeer
uiteenlopende onderwerpen worden behandeld, zoals in 'Een luis in de pels' gebeurd is, is een
onmogelijke opgave. Ik vrees dat de lezer van dit tijdschrift deze recensie uitsluitend als een
onvoldoende poging moet zien. Een poging van de recensent om in te schatten wat deze lezer
interessant zou vinden.

'Een luis in de pels' bevat het eindverslag van het Geon-project. De afkorting 'Geon' staat voor
'Programma Gedifferentieerd Onderwijs voor kinderen van 4-8 jaar'. Het Geon-project is één
van de drie grote innovatieprojecten destijds opgezet in het kader van - wat tegenwoordig heet
- het onderwijsstimuleringsbeleid. In dit eindverslag blikken de wetenschappelijk projectlei-
der en de evaluator terug op de periode 1969-'80. Dat gebeurt onder een viertal hoofdthema's:
beleid, project-functioneren, programma en evaluatie-onderzoek. Deze thema's worden be-
handeld in het kader van hoofdstukken over het tot stand komen van het project, de algemene
taakstelling (voorkomen of verminderen van het falen van kinderen in het onderwijs) en
organisatiestructuur; over de algemene opzet van het project: de voorgenomen curriculumont-
wikkeling voor 4-8 jarigen (een cognitief stimuleringsprogramma, een programma ter bevor-
dering van het zelfstandig werken, een programma om probleemgedrag te beschrijven en een
programma ter intensivering van de contacten ouders-school, om de belangrijkste curricula te
noemen); over de te volgen ontwikkelingsprocedure en formatieve evaluatie (waarover het
verslag rijkelijk vaag is); over de summatieve evaluatie van het project (waaraan veel aandacht
bestee'd wordt); en tenslotte over de verspreiding van de projectresultaten (via opleidingen en
via een gerichte verspreiding door begeleidingsdiensten).

In het 'Tijdschrift voor Onderwijsresearch' is naar mijn mening een bespreking van het
research-technische deel van het eindverslag op zijn plaats. Dat is vooral te vinden in de
hoofdstukken over het evaluatieonderzoek dat'door het project verricht is. Alvorens ik die
bespreek eerst enkele opmerkingen over de overige thema's uit het eindverslag. De beide
auteurs hebben een manmoedige poging gedaan om een gedetailleerd beeld van het Geon-
project, zoals dat de afgelopen jaren gefunctioneerd heeft, te geven. Zij zijn daarbij de kritiek
op eigen werk niet uit de weg gegaan en hebben ook kritiek van anderen opgenomen en waar
terzake weerlegd resp. overgenomen. In deze zin maakt het eindverslag de indruk van een
doordachte en eerlijke publikatie. De hoeveelheid informatie over het project, ontwikkelings-
gang, de vele problemen, de al dan niet geslaagde oplossingen daarvan, geven de lezer een
goede indruk van wat er allemaal komt kijken bij dit soort - naar Nederlandse maatstaven -
grote projecten. Wat er allemaal geregeld, opgelost en beheerst moet worden. Wat er allemaal
verkeerd kan gaan enz. Daar ik aanneem dat de meeste onderwijsonderzoekers met deze
problematiek niet al te veel geconfronteerd zijn, is alleen daarom voor hen dit boek al een

'must'. Dat is liet ook i.v.m. de worsteling die met name de evaluator van het project heeft
moeten voeren om het evaluatie-onderzoek gestalte te geven.

De betrekkelijkheid van allerlei methodologische voorschriften wordt overduidelijk bij het
dooriezen van de daarop betrekking hebbende hoofdstukken. Als ik juist over dit evaluatie-
onderzoek enkele opmerkingen maak, staat ook de betrekkelijkheid daarvan - gezien hetgeen
ik zojuist gezegd heb - voorop.

Als ik het evaluatie-onderzoek, waarin de invloed van het Geon-project nagegaan moest
worden, tot op het meest operationele niveau 'uitbeen', is er ongeveer het volgende gebeurd.
(Dit 'uitbenen' is noodzakelijk omdat het verslag op dit punt lang niet altijd even helder is,
hetgeen te betreuren valt). De evaluatiecriteria liggen op een of andere wijze opgesloten in de
gehanteerde meetinstrumenten: intelligentietests, een toets voor begrijpend lezen en verwij-
zingen naar het buitengewoon onderwijs. De beide auteurs beschouwen echter in feite alleen
de intelligentietest als belangrijk voor de evaluatie (zeker gezien de aandacht die zij daaraan
besteden). Ik sluit me hierbij aan.

Als op operationeel niveau een intelligentietest gebruikt wordt om de invloed van een project
te 'evalueren', dan zou vastgesteld dienen te worden, hoe hoog de doelgroep van dat project
moet scoren op deze test om het project als geslaagd te beschouwen: gelijk aan het landelijke
gemiddelde, gelijk aan het gemiddelde van kinderen uit hogere sociale milieus, gelijk aan een
waarde X waardoor een duidelijk positieve invloed op de leerprestaties mogelijk wordt? Een
dergelijke meer preciese doelomschrijving ontbreekt. De wijze waarop de intelligentietest nu
gebruikt wordt, kan slechts dienen om na te gaan öf de Geon-programma's/begeleidinge.d. als
totaal invloed gehad hebben of niet. De grootte noch het belang van deze invloed worden dan
duidelijk. Er is uitsluitend sprake van de traditionele causale vraag of de gemiddelde vooruit-
gang van de experimentele groep groter is dan die van de controlegroep. Zo'n vraagstelling
impliceert een beperkte opvatting van evaluatie. Kernpunt daarvan zou m.i. moeten zijn, de
vraag of de intelligentie voldoende gestegen is (in de doelgroep) om het falen van de kinderen
uit die doelgroep te voorkomen resp. te verminderen. De relatie tussen leerprestaties en
intelligentieverbetering had daartoe nagegaan moeten worden. Dat is op zichzelf geen heksen-
toer. hoewel wèl arbeidsintensief.

Naast deze opmerkingen over de criteriumproblematiek is een opmerking over de gekozen
proefopzet noodzakelijk. Deze opzet was-zie de vorige alinea-erop gericht aan te tonen dat
er een causaal verband bestaat tussen het gevolgd hebben van de Geon-programma's e.d. en
een winstscore op een intelligentietest. Verder heeft men geprobeerd aan te tonen dat er
enkele jaren later daartussen nog een of ander verband aanwezig was. Ten einde deze beide
zaken na te gaan is een op het oog vrij ingewikkelde proefopzet gekozen.
Allereerst wordt de doelgroep gedefinieerd: door kleuterieidsters geselecteerde probleemkin-
deren. Daarvan worden een experimentele en een controlegroep geformeerd (niet a-select
omdat dat onuitvoerbaar is). Vervolgens trekt men ook nog een steekproef uit alle kleuters uit
de scholen die aan het project meedoen (zowel met experimentele als met controle kleuters);
in deze steekproef kunnen öök kinderen terecht komen die al in de experimentele groep zijn
opgenomen. Deze steekproef wordt eveneens gesplitst in kleuters die op een school zitten die
met het Geon-programma werkt en kleuters die op een controle-school zitten.
Wij krijgen dan de volgende groepen:

— een aselecte steekproef kleuters uit alle scholen die met Geon samenwerken (waarin ook
doelgroepkinderen terecht kunnen komen);

- een aselecte steekproef met kleuters uit alle scholen die niet met Geon samenwerken maar
die wel doelgroepkleuters voor de controlegroep leveren.

Men meet al deze kinderen op vier-, zes- en achtjarige leeftijd. De resultaten van die metingen
worden per schoolbegeleidingsdienst die een bepaalde groep scholen begeleidt (zogenaamde
regio) in het eindverslag weergegeven. Zij worden bovendien nog eens gesplitst in zgn. rondes,
omdat in een aantal regio's gedurende opeenvolgende jaren kleuters getest zijn van steeds een
andere generatie.

Deze op het oog nogal ingewikkelde opzet leidt tot onduidelijke conclusies, omdat deze
conclusies gebaseerd worden op de testscores per regio per onderzoeksjaar, waarbij bovendien
ook nog vergelijking plaatsvindt met de aselecte steekproeven. Waarom trekt men een
steekproef uit alle kleuters? Dat heeft alleen zin als het doel van het project geweest zou zijn de
intelligentiescore van de doelgroepkinderen gelijk te maken aan die van alle kleuters. Men had
dan met de gemiddelde intelligentie van alle kleuters kunnen vergelijken. Een ander doel kan
ik er niet voor bedenken. Aan alle vergelijkingen met de steekproef van kinderen uit de
scholen waarop met het Geon-programma gewerkt wordt, kleeft bovendien het bezwaar dat
vergeleken wordt met een groep waarin öök de experimentele kinderen opgenomen zouden
kunnen zijn (nl. als die toevallig in de steekproef terecht gekomen zijn). Wat wordt er dan
eigenlijk vergeleken?

Het presenteren van de evaluatiegegevens per regio èn nog gesplitst naar onderzoeksjaar (als
er meer dan één generatie kleuters onderzocht is) is op zichzelf uitstekend, als maar eerst een
totaalplaatje gegeven wordt. Het ligt voor de hand om alle kinderen uit de doelgroep die via
het Geon-programma beïnvloed zijn in één experimentele (en niet in regio x onderzoeksjaar =
7 groepen) onder te brengen en alle doelgroepkinderen die niet zijn onderzocht in een
controlegroep (en niet in 4 controlegroepen) en vervolgens de gemiddelde winstscores in beide
groepen te vergelijken. Eventuele verdere detaillering kan daamä - na vaststelling van het
hoofddeffect - worden aangebracht. Een dergelijke totaalvergelijking blijft nu achterwege. Ik
heb die vergelijking voor mezelf gemaakt en kom dan tot de volgende conclusies (zie figuur 1):

Fig. I. Resultaten Geon-evaluatie m.b.v. intelligentietest en quasi-experimenteel 'untreated control
group design with pre- and pattest'.

- er is spralce van een quasi-experimenteel 'untreated controi group design with pre- and
posttest' met alle voor- en nadelen vandien, w.o. het al of niet statistisch kunnen toetsen
(daarop ga ik nu niet in);

- bij de experimentele groep is sprake van een stijging met 11 punten en bij de controlegroep
is sprake van een stijging met 3 punten: het Geon-project heeft dus een positieve invloed
gehad.

Nu zijn er bij dit soort designs allerlei interpretatieproblemen. In het eindverslag bespreken de
beide auteurs 22 valkuilen van quasi-experimenteel onderzoek (overigens zonder dat ten
aanzien van de meeste van deze valkuilen duidelijk wordt op welke wijze die met het gebruikte
design vermeden, opgelost e.d. worden). Op enkele valkuilen wordt wel uitvoerig ingegaan,
waaronder die van de regressie naar het gemiddelde. Daarover wil ik ook nog enkele opmer-
kingen maken. De vraag is of de regressie naar het gemiddelde niet het geconstateerde
positieve effect zou kunnen verklaren. De beide auteurs maken zich daarover naar mijn
mening te veel zorgen.

Natuurlijk zijn de kleuters geselecteerd op basis van het feit dat zij door hun leidster als
'problematisch' gezien worden. Er bestaat - zoals beide auteurs ook zelf constateren - een
relatie tussen intelligentiescore èn de selectie door de kleuterieidsters. Doordat de probleem-
kinderen geselecteerd zijn door de leidsters, is impliciet geselecteerd op een lage intelligentie.
Kleuterieidsters kunnen zich vergissen: zij zijn niet geheel 'betrouwbaar' (in testtheoretische
zin). Er zullen dus kinderen ten onrechte als probleemkinderen geselecteerd zijn. Bij de
voormeting met de intelligentietest zullen - vanwege de niet volledige betrouwbaarheid
daarvan - ook ten onrechte sommige kinderen een te lage intelligentiescore gekregen hebben.
Als dat dan bovendien de kinderen zijn die ten onrechte geselecteerd zijn, dan is te verwachten
dat bij de natest deze kinderen so-wie-so hoger zullen scoren en zal dan het gemiddelde van de
experimentele groep stijgen zonder dat dat aan het Geon-project toegeschreven kan worden.
Als wij nu nogmaals fig. 1 bekijken, moeten wij constateren dat een volledige verklaring door
een dergelijke regressie-werking niet erg aannemelijk is. Immers, het gemiddelde van de
experimentele groep zou naar een hoger gemiddelde moeten 'regresseren'. Het is bepaald niet
aannemelijk te verwachten dat dit hogere gemiddelde nog hoger zal zijn dan dat van de toch al
(op de voortest) hoger scorende controlegroep. Dat zou echter wèl moeten als statistische
regressie moet verklaren waarom de experimentele groep de controlegroep overstijgt. Als ooit
een volledige verklaring door regressie naar het gemiddelde onaannemelijk is, dan is het wel in
dit geval. Wij kunnen dus volhouden dat er sprake is van een echt effect van het Geon-
programma. (Ik laat de overige 'valkuilen' buiten beschouwing).

Een laatste opmerking over de evaluatie betreft het op langere termijn bewaard blijven van de
voorsprong in intelligentie van de experimentele groep. In het Geon-project is dat nagegaan
door nogmaals een intelligentietest (zij het een andere dan bij eerdere metingen gebruikt is in
verband met geschiktheid voor de te onderzoeken leeftijdsgroep) af te nemen op achtjarige
leeftijd. Van de resultaten daarvan wordt evenmin een totaalplaatje gepresenteerd. Ik heb er
zelf eentje gemaakt (zie tabel 1).

Tabel 1. Follow-up vergelijking experimentele- controlegroepen van achtjarige leerlingen.

Uit deze tabel kan maar één conclusie getrokken worden: het positieve verschil ten gunste van
de experimentele groep is verdwenen. (Daar een andere I.Q.-test gebruikt is, kan geen directe
vergelijking met de scores op zesjarige leeftijd gemaakt worden, daartoe zouden eerst via een
lineaire regressievergelijking voorspelde scores opgesteld moeten worden).
Concluderend moet helaas gesteld worden dat het Geon-project wel een positieve invloed
heeft op zesjarigen, maar dat deze invloed op achtjarige leeftijd niet meer terug te vinden is.
Deze conclusie wijkt af van die welke de beide auteurs trekken als zij de afzonderlijke regio's
bekijken en concluderen dat 'de vooruitgang van alle projectgroepen in elke regio boven die
van alle vergelijkingsgroepen ligt' (pag. 324). Hoe spijtig het ook is, deze conclusie wordt mijns
inziens niet door de feiten ondersteund.

Ik zou deze bespreking willen besluiten met - nogmaals - op te merken dat het eindverslag van
het Geon-project zeer de moeite waard is in verband met de grote hoeveelheid informatie over
uiteenlopende terreinen die erin verwerkt is en waaruit de successen en tegenslagen van veel en
hard werken blijken. Overigens laat dit onverlet dat met name de evaluatieopzet en de op basis
van de evaluatie getrokken conclusies voor verbetering vatbaar geweest zouden zijn.

Stokking, K.M., & Vries, A.K. de. Een luis in de pels. Eindverslag van het GEON-project. 's-Gravenha-
ge: Staatsuitgeverij; 1981 (= S.V.O.-reeks, no. 48).

Volgen op een afstand; een cross-sectionele en semi-longitudinale studie naar de cognitieve

Lisse: Swets & Zeitlinger, 1981, xiv + 229 pp. (Sociaal-wetenschappelijke proefschriften

De ontwikkelingspsychologie richt zich volgens Leppers op de 'fundamentele ontogenetische vraag'
naar 'gedrags(veranderingen) als functie van de aeef)tijd' (p. 12). In deze opvatting van ontwikke-
üngspsychologie levert Leppers' proefschrift (promotoren: prof. dr. J.M. van Meel en prof. dr. Ph.C.
Stouthard) ongetwijfeld een belangwekkende bijdrage aan het wetenschapsgebied. Het bevat namelijk
vele tabellen waarin gemiddelde scores op een aantal cognitieve maten zijn opgenomen bij opeenvol-
gende leeftijdsgroepen moeihjk lerende en normale kinderen (geboortejaren: 1962, 1959, 1956, 1953).
Het grootschalige onderzoek, dat mogehjk is geworden door een omvangrijke subsidie van ZWO, is
behalve cross-sectioneel vanwege de verschiUende leeftijdsgroepen tevens 'semi-longitudinaal', omdat
aUe subjecten op twee tijdstippen werden onderzocht (1975/1976 en 1978/1979). De cognitieve ma-
ten hebben betrekking op intelUgentie, veldonafhankeUjkheid, reflexiviteit/impulsiviteit, stress-toleran-
tie, verbale en non-verbale divergente productie, hypothetico-deductief denken, visueel en auditief
korte-termijn-geheugen. Hoewel de keuze van de onderzoeksgroepen en de wijze waarop de data-
verzameüng heeft plaatsgevonden waardering verdient, geeft Leppers' studie op andere punten aan-
leiding tot kritiek.

Uitgangspunt vormen de bevindingen van Nemeth en Verbraak (1972) en anderen, dat 'de frequenties
van geregistreerde zwakzinnigheid - en met name die van moeihjk lerenden - na de lagere school-
leeftijd sterk teruglopen' (p. 4). Leppers interpreteert dit als volgt: 'Op 25-jarige leeftijd werd dus nog
maat de helft teruggevonden van het aantal moeiUjk-lercnden dat op 13-jatige leeftijd werd geregis-
treerd' (p 4) Zijn op vele plaatsen herhaalde probleemsteUing betreft de vraag, in hoeverre de cogni-
tieve ontwikkeUng een verklarende faktor vormt bij het teruglopen van de geregistreerde frequenties.
De eindconclusie luidt, dat er in absolute zin sprake is van cognitieve groei, aangezien de gemiddelde
scores op de cognitieve maten ook bij moeiUjk lerenden stijgen, en dat de cognitieve ontwikkeUng
'beoordeeld naar die absolute maatstaf (...) wel degelijk een verklarende faktor vormt' (p. 182).
Allereerst valt op dat de auteur vrij kritiekloos omspringt met het gegeven van de dalende frequen-
ties van geregistreerde zwakzinnigheid. Zoals hij zelf opmerkt, wijken de frequenties in verschillende
onderzoeken nogal van elkaar af. Registratie Ujkt een tameUjk rekbaar begrip. Problematisch is ook,
welke criteria voor zwakzinnigheid dooi ambtelijke instanties worden gehanteerd. Het lijkt aanneme-
lijk dat zwakzinnigheid in relatieve zin wordt gehanteerd, d.w.z. een achterbUjven in inteUectueel ni-
veau ten opzichte van een algemeen bevoUcingsgemiddelde of ten opzichte van de steeds hogere
eisen die de moderne samenleving aan haar leden stelt (zie ook Leppers, p. 2-3). In deze relatieve
interpretatie kan een absolute cognitieve groei dus geen verklaring vormen voor de dalende frequen-
ties. Er zou minstens in relatieve zin een verbetering bij de moeiUjk-lerenden moeten optreden. Een
relatieve toename ten opzichte van de vergelijkingsgroepen werd in het onderzoek echter niet gevon-

Aannemend dat 'registratie van zwakzinnigheid' duidehjk omschreven is en dat de cross-sectioneel
gevonden dalende frequenties geen artefact vormen, dan mag dit gegeven nog niet longitudinaal
geïnterpreteerd worden. Het feit, dat onder de 13-jarigen van nu een hoger percentage geregistreerde
zwakzinnigen optreedt dan onder de 25-jarigen van nu, impUceert nog niet dat het cohort 13-jarigen
minder geregistreerde zwakzinnigen zal opleveren wanneer het de leeftijd van 25 jaar heeft bereikt.
De hypothese, dat een (longitudinale) afname in registratie verklaard wordt door een toename in
cognitief niveau, gaat dus uit van een onbewezen stelUng.

Voor toetsing van deze hypothese zou daarom aUereerst bij een of meer cohorten moeiUjk-lerenden
registratie op latere leeftijd(en) moeten worden nagegaan om deze vervolgens voor individuele subjec-

ten te relateren aan cognitieve toename in het tijdsinterval. Om voor alternatieve verklaringen te
controleren zouden tevens andere intra-individuele en historisch-maatschappelijke variabelen in het on-
derzoek betrokken moeten worden. Een dergeUjk onderzoek is door Leppers niet uitgevoerd. De regis-
tratie-variabele en eventuele andere verklarende variabelen komen in zijn onderzoek niet voor.
Merkwaardig genoeg bevat het onderzoek wel aanwijzingen voor alternatieve verklaringen, waar overi-
gens geen aandacht aan wordt geschonken. Op p. 33 en 35 vindt men de weigeringen (candidaat zelf,
ouders candidaat, partner candidaat) om aan het onderzoek deel te nemen bij de oorspronkeÜjke
steekproeven moeilijk-lerenden. De percentages laten zowel voor mannen als vrouwen een duideUjke
stijging zien bij toenemende leeftijden (mannen: 14, 20, 23, 25; vrouwen: 6, 26, 32, 36). Bij de tweede
meting kwam er voor de oudste leeftijdsgroep vrouwen nog een aanzienhjk percentage extra weigerin-
gen door de partner bij. De redenen tot weigering zouden ook heel goed een eventuele verminderde
registratie kunnen verklaren. Dit is door Leppers echter niet nagegaan.

De eindconclusie, dat het cognitieve niveau een verklarende faktor vormt voor de teruglopende fre-
quenties, tracht Leppers nog aannemelijk te maken door te wijzen op het vrij gunstige beroepsniveau
en het lage werkloosheidspercentage van de onderzochte groep moeilijk-lerenden (p. 182). Beroeps-
niveau en werkloosheid worden dus gehanteerd als een soort indicatoren voor registratie. Hij verzuimt
daarbij om op individueel niveau na te gaan, of een hoog beroepsniveau en het hebben van werk in-
derdaad samengaan met cognitieve groei. Zonder een analyse op individueel niveau kan de afwezigheid
van enig verband of zelfs een verband in omgekeerde richting niet worden uitgesloten.
Samenvattend moet worden vastgesteld, dat het onderzoek slechts zeer zijdeUngs betrekking heeft op
de probleemstelling en dat de eindconclusie in ieder geval niet uit het onderzoek voortvloeit. Men
vraagt zich af, of Leppers er niet beter aan had gedaan zijn probleemsteUing te beperken tot hetgeen
in de ondertitel van zijn proefschrift staat vermeld: een beschrijving van de ontwikkeling van moeilijk-
lerenden op een aantal cognitieve variabelen.

Het voordeel van de gekozen cross-sectioneel/longitudinale onderzoeksopzet boven een louter cross-
sectionele is, dat de ontwikkelingscurven kunnen worden opgebouwd uit longitudinale deelcurven
zodat correctie voor (cohort-specifieke) niveau-verschillen tussen leeftijdsgroepen mogelijk wordt.
Hiervan maakt Leppers echter geen gebruik. Hij presenteert alleen tabeUen met gemiddelden, uitge-
splitst naar experimentele/controle-groep (bedoeld is het onderscheid mocilijklerenden/normale kin-
deren), leeftijdskategorie, meettijdstip en geslacht. Een eenvoudige grafische weergave in ontwik-
kelingscurven vindt men bij hem niet, noch gecombineerd cross-sectioneel/longitudinaal noch louter
cross-sectioneel.

Het is voor de lezer op die manier erg lastig een goed inzicht te krijgen in de ontwikkeüng van af-
zonderlijke cognitieve variabelen (bijv. absolute of relatieve groei en op welke leeftijd precies?) en ver-
schillen tussen variabelen. Wel wordt uitgebreid statistisch getoetst volgens een 2x4x2-factoriële
herhaalde-metingen opzet (experimenteel/controle x leeftijd x meettijdstip). De betekenis van statis-
tische toetsen is echter beperkt, zeker wanneer ze niet naar leeftijd worden gespecificeerd (bijv. via
grafisch weergegeven intervalcurven; zie Oud, 1981, p. 281). Een significant verschil tussen experi-
mentele en controle-curve zegt bijv. weinig, wanneer men niet weet hoe en waar in het leeftijdsbe-
reik. Localisatie op bepaalde leeftijden via inspectie van de data (bijv. p. 59) is statistisch geen juiste
procedure.

Het is weinig informatief om telkens te vermelden, dat de moeilijk-lerenden significant lager scoren
dan de vergelijkingsgroepen, zeker omdat 'de variabelen juist van aanvang af zo zijn geselecteerd,
dat zij goed discrimineren tussen beide groepen' (p. 167). Een van de weinige variabelen, waarop de
experimentele groep enkele keren hoger scoort dan de controle-groep betreft originahteit van teke-
ningen (p. 117). Originahteit büjkt hier echter gedefinieerd als het produceren van tekeningen die
weinig voorkomen bij de controle-groep. Dit is dus evenmin een verbazingwekkend resultaat.
In het laatste hoofdstuk wordt via factor-analyse op de onderzochte variabelen de cognitieve struc-
tuur van moeiüjk-lerenden met die van de controle-groep vergeleken, waaruit wordt geconcludeerd
dat de overeenkomst vrijwel perfect is. Er zou dus weUswaar verschil in niveau zijn tussen de groe-
pen maar geen verschil in structuur. Men mist op p. 160 zowel iedere aanduiding over de gevolgde
schattingsprocedure als meer geavanceerde methoden om het aantal factoren te bepalen, terwijl het
aantal factoren toch een essentieel element vormt bij de vergeUjking van factorstructuren. De auteur
Ujkt voorbij te gaan het belangrijke werk van Jöreskog en Sörbom (1978) op dit terrein. Onjuist is
verder de verondersteUing, dat overeenkomst in factorstructuur voor een oorspronkeÜjke en een
voor leeftijd gecorrigeerde partiële correlatie-matrix zou bewijzen, dat de factorstructuur voor iedere
leeftijdskategorie identiek is (p. 186).

Het boek valt op door een wijdlopige schrijftrant, bijv, bij de opsomming van hypothesen die in wezen
telkens op hetzelfde neerkomen en bij de weergave van de toetsingsresultaten. Door een en ander in
overzichtelijke tabellen onder te brengen zou het boek aanmerkelijk dunner zijn uitgevallen en aan hel-
derheid hebben gewonnen. Ook door het weglaten van niet beargumenteerde kritiek aan het adres van
leerkrachten en onderzoekers en overbodige zinnen als: 'Alleen al de methodologische complicaties
die zich bij een dergelijk onderzoek kunnen voordoen treden zo rijk geschakeerd, en vaak ook uit de
meest onverdachte hoeken naar voren, dat men voortdurend op zijn hoede dient te zijn om niet in
valstrikken bekneld te raken, of in kuilen terecht te komen waaruit geen opstaan mogelijk is' (p. 25),
Leppers laat niet na bij voortduring te wijzen op de praktische relevantie van zijn studie. Het blijft
echter grotendeels bij vaag aangeduide mogelijkheden of aanbevelingen die moeilijk uit het onderzoek
kunnen worden afgeleid, bijv. dat er meer aanleiding zou zijn het MLK-onderwijs met het reguliere
lager onderwijs te integreren dan het LOM-onderwijs. Hoewel ongetwijfeld in de toekomst op deze
studie zal worden teruggegrepen om wetenschappelijke redenen, is een direct praktisch nut voor de
hulpverlening onwaarschijnlijk.

Jöreskog, K.G., and Sörbom, D. EFAP; Exploratory Factor Analysis Program. Chicago: National

Educational Resources. 1978.
Németh, S.M., and Verbraak, P.A.M. Eindrapport Landelijk Opsporingsonderzoek Geestelijk Ge-
handicapten, deelL Tilburg, 1972.
Oud, J.H.L. Onderzoek van orthopedagogische en onderwijskundige interventies aan de hand van
tijdreeksen: een Manova-procedure. Tijdschrift voor Onderwijsresearch, 1981, 6, 267-291.

Adviesnota van de ad-hoc subcommissie (taal-)onderwijs aan anderstaligen van de Aclo-
moedertaal i.o. Enschede.

Adviescommissie voorde leerplanontwikkeling Moedertaal, 1982.
(SLO, postbus 2041, 7500 CA Enschede, ƒ 7,25).

Deze adviesnota van de al jaren in oprichting verblijvende Aclo-moedertaal is in maart 1982 aan de
staatssecretaris Hermes aangeboden. En hoewel op blz. 111 vóór de lange lijst van aanbevelingen gesteld
wordt dat niet alle maatregelen veel extra geld kosten, lijkt me de vrees gerechtvaardigd dat zelfs deze
voor het grootste gedeehe zullen vallen onder het snoeimes van de bezuinigingen.
De adviesnota kan in zekere zin gezien worden als een nadere concretisering van de in het Beleidsplan
culturele minderheden in het onderwijs (1981) geformuleerde uitgangspunten. In zekere zin, want de
commissie gaat in haar stellingname t.a.v. intercultureel onderwijs veel verder dan het wat halfslachtige
standpunt van het ministeriële plan.

In het inleidende hoofdstuk verontschuldigt de commissie zich voor de 'sporen van haast' (stijl, overlap)
en inderdaad is het ene hoofdstuk wat 'puntiger' dan het andere, maar over het geheel genomen moet de
commissie gecomplimenteerd worden met de grote mate van helderheid. M.i. is de commissie erin
geslaagd de omvangrijke en gecompliceerde problematiek van de anderstalige leerling in het onderwijs
(in de nota wordt hier voornamelijk onder verstaan het 'leerplichtig' onderwijs) duidelijk in kaart te
brengen. Degenen die niet zo goed zijn ingevoerd in deze problematiek vinden hier een overzicht van
relevante factoren van doelstellingen en methoden betreffende het onderwijs aan de allochtone leeriin-
gen. Bovendien maakt de commissie duidelijk dat ze van een visie op dat onderwijs uitgaat en waarom ze
van die visie uitgaat.

In het eerste hoofdstuk wordt de samensteUing van de commissie gegeven (linguïsten, onderwijskundi-
gen, onderwijsgevenden) en een schets van de werkwijze met de problemen die de commissie daarbij
ondervond. '... het advies richt zich op beleid en (biedt) weinig oplossingen voor de directe problemen
waar de scholen en onderwijsgevenden voor staan' (blz. 12).

Het tweede hoofdstuk bevat een opsomming van de doelgroepen (mediterrane groeperingen, ex-kolonia-
le groeperingen, chinese groeperingen, vluchtelingen). Opgemerkt zou kunnen worden dat de commissie
zich in dit hoofdstuk niet altijd op de meest actuele informatie baseert. In dit hoofdstuk worden ook de
variabelen besproken die differentiatie in het onderwijs aan anderstaligen met zich mee brengt (nationa-
liteit; culturele achtergrond en religie; maatschappelijke positie; discriminatie; moedertaalachtergrond;
verblijfsduur in Nederland; onderwijservaring; taalvaardigheid bij schoolentree,; attitude van leerkracht
en leerling; woonomgeving en huisvesting; schoolsituatie en sekse).

Het derde hoofdstuk is te beschouwen als het kernstuk van de nota: 'de beschrijving van voorwaarden
voor onderwijs dat als doelstelling heeft een bijdrage te leveren aan de volwaardige deelname van
minderheden in onze samenleving', (blz. 13).

De hoofdstukken vier, vijf en zes zijn te beschouwen als uitwerkingen van deze voorwaarden. Hierbij
komen resp. aan de orde 'eigen taal en cuhuur', 'Nederlands als tweede taal' en 'intercultureel onderwijs'.
Hoofdstuk zeven is een samenvatting in de vorm van concrete aanbevelingen aan de minister en de SLO.

De commissie verwerpt de huidige wijze van opvang van de allochtone leerling in het onderwijs, omdat
daarin de problematiek te sterk vereenvoudigd wordt tot een 'taalprobleem' en te eenzijdig de nadruk
wordt gelegd op 'aanpassen' aan de Nederlandse situatie/cultuur. De commissie wijst er terecht op dat de
in het beleidsplan voorgestane acculturatie meer is dan 'aanpassen aan de Nederlandse situatie': 'Accultu-
ratie betekent een werkelijke verandering van een cultuur en niet alleen 'leren kennen', 'openstaan voor.'
(blz. 54). Dit betekent dat multicultureel onderwijs niet alleen een zaak is voor allochtone leerlingen en
zich niet beperkt tot x uur van het rooster, maar dat het alle leerlingen betreft bij alle vakken.
In een multiculturele en multi-etnische samenleving moet uitgegaan worden van de gelijkwaardigheid van
dc culturen en van de leerbehoeften van alle leerlingen. Dit betekent dat de mono-culturele en etnocentri-
sche uitgangspunten van het Nederlandse onderwijssysteem op de helling moeten.
Welke consequenties dit voor het onderwijs heeft wordt uitvoerig toegelicht in de nota. De financiële
consequenties van al hetgeen wordt voorgesteld blijven op de achtergrond, maar zijn ongetwijfeld
gigantjsch.

Voor wie verlegen zit om onderzoeksvragen, is de adviesnota een rijke bron van ideeën. Dc commissie

- onderzoek naar de primaire socialisatie van migrantenkinderen in Nederland en de consequenties
daarvan voor de beginsituatie binnen het Nederlandse onderwijs.

- onderzoek dat leidt tot de ontwikkeling van werkvormen die verschillen in conceptualisering, denk- en
leerprocessen aan het licht brengen en onderzoek dat leidt tot ontwikkeling van werkvormen die deze
verschillen helpen overbruggen.

Het is te hopen dat deze adviesnota bijdraagt tot een snelle aanpak van het onderwijsprobleem aan
anderstaligen. De nota is er concreet genoeg voor.

OntwikkeUngen in het onderzoek naar prestatiemotivatie. Theorie, meetmethode en toepas-
sing in het onderwijs.
Lisse: Swets en Zeitlinger, 1979.

In dit boek wordt een gedegen overzicht gegeven van de vele theorieën en meetinstrumenten die met
betrekking tot het begrip prestatiemotivatie werden ontwikkeld. De voortgang op dit terrein in het
Nederlandstalige gebied wordt geschetst tegen de achtergrond van het werk van toonaangevende buiten-
landse researchgroepen zoals die van Atkinson in de Verenigde Staten en Heckhausen in de Bondsrepu-
bliek Duitsland.

De redacteur en het voorbeeldig interdisciplinair en interacademiaal samengestelde team van auteurs
(Nijmeegse en Leuvense pedagogen, psychologen cn onderwijskundigen) hebben een goede poging
gedaan de abstracte theorie te vertalen naar toepassingsgericht onderzoek in de prestatiesituatie bij
uitstek: de school. , , • ,

Hoewel het boek door de complexiteit van het onderwerp met gemakkelijk is, kan het nuttig zijn voor
zowel onderzoekers als practiserende pedagogen, psychologen en onderwijskundigen, die zich gecon-
fronteerd zien met een groeiende stroom publicaties over de complexe samenhang tussen capaciteiten,
motivatie- en situatiefactoren enerzijds, en prestaties anderzijds. Ook de onderwijsgevenden zullen
gebaat zijn bij een grondig overzicht van de ontwikkelingen op dit terrein.

Vooral voor de laatste categorie lezers is het van belang, dat de statistische technieken die in een aantal
hoofdstukken worden gebruikt zoveel mogelijk verbaal worden omschreven. Toch is er bepaald geen
sprake van een populair wetenschappelijk werk, dat men vlot doorleest. Nu is dit ook niet de bedoeling
van de redacteur geweest, maar hier en daar leidt de compacte, vaktechnische schrijfstijl tot onnodig
gecompliceerde en daardoor vage formuleringen. Bijvoorbeeld op pagina 26, waar gesproken wordt over
'de interne cognitieve diversiteit van de prestatiethematische kind-wereld relatie'.
De hoofdstukken waarin de auteurs resultaten van eigen onderzoek bespreken, worden vaak gekenmerkt
door een openhartige en zelfkritische schrijftrant, en zijn naar mijn smaak hier en daar prematuur.
Voorbeelden, die verderop nog ter sprake komen zijn: de verslaggeving van het vaak moeizame proces
van vragenlijstconstructie en de rapportage van de teleurstellende effecten van motivatietraining.
Het eerste deel van het boek behandelt de theorie. In hoofdstuk I wordt door de Bruyn een algemeen
overzicht gegeven van de ontwikkelingen in de prestatiemotivatie-theorie. Uit de ideeën van McClelland,
Atkinson en Heckhausen wordt een algemeen referentiekader gedistilleerd. Daarin wordt prestatiegemo-
tiveerd gedrag opgevat als het resultaat van een wisselwerking tussen zgn. intrinsieke prestatiemotieven
(het motief om succes te bereiken en het motief om mislukking te vermijden) en de perceptie van de
situatie. Naast intrinsieke motieven spelen ook extrinsieke motieven (verwachtmg van goedkeuring,
promotie e.d.) bij het presteren een rol. .

In hoofdstuk 2 gaat Lens nader in op de recente theorie van Atkinson, met wie hij enige tijd samenwerkte.
De auteur geeft een verhelderende uiteenzetting over de ingewikkelde relatie tussen capaciteit, motiva-
tie taakkenmerken, succesvenvachting en prestatie. In Atkinson's theorie heeft prestatiemotivatie
enerzijds invloed op de efficiëntie waarmee een eenmalige prestatietaak wordt uitgevoerd; daarbij is
sprake van een curvilineair verband. Lens laat zien welke implicaties dit model heeft, met name voor de
capaciteitenmeting. Zo zal de score op een intelligentietest zowel bij degenen met een te hoog, als bij
degenen met een te laag motivatieniveau een onderschatting vormen van de werkelijke begaafdheid.
Anderzijds heeft prestatiemotivatie invloed op prestaties die zich uitstrekken over langere periodes: de
•cumulatieve prestaties'. Bij zulke in de onderwijsleersituatie frequent voorkomende prestaties is de
hoeveelheid tijd die wordt besteed van belang, en die is rechtstreeks afhankelijk van de intensiteit van de
motivatie Als nu het verband tussen motivatie en een eenmalige (test)prestatie kromlijnig, en dat tussen
motivatie en een cumulatieve prestatie lineair zou zijn, dan zou dit volgens Lens betekenen dat bij
personen met eenzelfde begaafdheidsniveau een testprestatie met gecorreleerd is met, of niet voorspelt
voor een cumulatieve prestatie. Afgezien van het feit dat Lens hier de mogelijke aanwezigheid van een
kromlijning verband tussen test en criterium over het hoofd ziet, is de genoemde implicatie nogal triviaal.
Ook uit de klassieke testtheorie volgt immers dat als men de 'ware' capaciteit constant houdt een test niets
voorspelt omdat alleen de toevalsvariantie overblijft. Een algemeen probleem lijkt me hoe het onderha-
vige model getoetst kan worden: Hoe moet een begrip als 'werkelijke capaciteit' worden geoperationali-
seerd en wat is een cumulatieve prestatie precies (een serie eenmalige prestaties)? Bij de toetsing en

toepassing van het model in praktijksituaties lijkt de vorming van een 'naar werkelijke capaciteiten
homogene groep' uiterst lastig. Enerzijds omdat 'werkelijke capaciteiten' moeilijk vastgesteld kunnen
worden, anderzijds omdat bestaande groepen (zoals studenten) niet alleen zichzelf al hebben geselecteerd
op grond van capaciteiten maar ook op grond van eerdere cumulatieve prestaties (en dus mede op
prestatiemotivatie). Dat intellectuele prestaties via een omgekeerd U-vormig verband met prestatiemoti-
vatie samenhangen is een assumptie die empirische toetsing behoeft. Terwijl intelligentiescores niet
bruikbaar geacht worden voor het voorspellen van cumulatieve prestaties, zijn ze blijkens het vervolg van
Lens' overzicht wel nuttig om uit te maken welke verwachting leerlingen hebben van succes in hun
dagelijkse schoolactiviteiten.

In de rest van het hoofdstuk wordt onder meer een voor het onderwijs relevante vraag besproken,
namelijk welke effecten kunnen worden verwachten van het plaatsen van leerlingen in wat betreft
capaciteiten homo- of heterogene klassen ('ability grouping'). Tevens wordt een uitbreiding van Raynor
van Atkinson's formele model behandeld. Daarin ligt de nadruk op taken in levensechte omstandigheden.
Hoofdstuk 3 is geheel gewijd aan het onderscheid tussen intrinsieke en extrinsieke motivatie. De auteur.
Slothouwer ziet 'dwang' als kern van de extrinsieke motivatie: extrinsiek gemotiveerd gedrag komt
onafhankelijk van de persoonlijke voorkeur tot stand. Het onderscheid wordt besproken in het licht van
een drietal psychologische theorieën: de attributietheorie, de competentietheorie cn dc verwachtings-
thcorie.

Vervolgens doet Slothouwer verslag van een experiment, waarin wordt getracht de verschillende opvat-
tingen over intrinsieke en extrinsieke motivatie empirisch te verifiëren. Het is jammer dat het lezen wordt
bemoeilijkt door het compacte, vaktechnische taalgebruik. Zo luidt een gedeelte van de eerste hypothese:
'taakkenmerken die leiden tot de attribuering van taakinhoudelijke of taakexteme doelen hebben geen
invloed op oorzakelijkheidsattributies of attributies over de relatie tussen taak en intra- of extrapersoon-
lijke doelen'. Als het de lezer vergaat zoals ondergetekende zal pas na bestudering van de vrij eenvoudige
condities de strekking van de nodeloos complex geformuleerde hypothesen duidelijker worden.
Het onderzoek, hoewel in beginsel vernuftig opgezet, is in technisch opzicht niet vlekkeloos: de diverse
afhankelijke variabelen (motivatie, taakattitude e.d.) zijn met een zeer gering aantal vragenlijstitems
geoperationaliseerd, gegevens over betrouwbaarheid en validiteit ontbreken, en een varianticanalyse op
verschilscores is dubieus. De resultaten zijn niet overtuigend: effecten zijn vaak significant voor het ene
vragenlijstitem, maar niet voor het andere, terwijl beide als operationalisatie voor dezelfde variabele
gelden. Sommige resultaten zijn moeilijk interpreteerbaar, of triviaal, zoals de conclusie dat proefperso-
nen in de 'extern oorzakelijke conditie' (deelname aan het experiment verplicht) vinden dat de beslissing
om aan het experiment mee te doen werd opgedrongen ('persoonlijke oorzakelijke attributie'). De
diverse hypothesen worden gedeeltelijk gesteund, en zoals de auteur zelf aangeeft hebben de conclusies
een voorlopig karakter.

Het tweede deel van het boek handelt over de verschillende meetmethoden: projectieve technieken en
vragenlijsten.

In hoofdstuk 4 geven de Bruyn, Alberts en Peters een helder overzicht en evaluatie van dc belangrijkste
methoden om prestatiemotivatie te meten. De nadruk valt daarbij eerder op de vraag in hoeverre de
methoden inhoudelijk en formeel aansluiten op de theoretische uitgangspunten, dan op de traditionele
psychometrische criteria. Een interessant instrument is bijvoorbeeld de semi-projectieve methode van
Heckhausen's medewerker Schmalt. Bij deze methode, die is gebaseerd op een interactionistisch uit-
gangspunt zijn naast diverse prestatiethematische responsen diverse prestatiesituaties (in de vorm van
plaatjes) vertegenwoordigd. Het is echter de vraag of de steekproef van situaties representatief is. Een
dergelijke kanttekening maken de auteurs onder meer ook bij de prestatiemotivatie schalen uit de
bekende vragenlijsten van Hermans: de Prestatie Motivatie Test (PMT) en de Kinderversie, de PMT-K.
De auteurs concluderen dat het probleem van een representatieve staalkaart van situaties vooralsnog niet
is opgelost. Het is een goede gedachte van de auteurs geweest aan het eind van het hoofdstuk als bij een
consumentengids een samenvatting te geven, waarin de sterke en zwakke punten van dc methoden op een
aantal criteria worden vergeleken.

In hoofdstuk 5 nemen Wels, Heymans, van den Munckhof en Terra de kwaliteit, met name de 'begripsva-
liditeit' van de PMT-K op de korrel. Onder andere vechten de auteurs de pretentie aan, dat de
Prestatiemotivatieschaal extra variantie in studieprestaties kan verklaren boven de variantie die al door
intelligentiefactoren wordt verklaard. Zij voeren aan dat waar (door Hermans) significant positieve
correlaties worden gerapporteerd tussen de P-schaal en studieprestaties, het veelal gaat om rapportcij-

fers, d.w.z. beoordelingen door leerkrachten; correlaties tussen de P-schaal en hardere metingen van
studieprestaties zijn aanzienlijk lager. De kritiek stoelt mede op de resultaten van eigen onderzoek naar
de ontwikkeling van de cognitieve functies, schoolprestaties en persoonlijkheidskenmerken bij kinderen
(het 'Nijmeegse groeionderzoek').

In paragraaf 4.3. stellen de auteurs dat 'uit een oogpunt van begripsvalidering in discriminatief kader' mag
worden verwacht dat er lage correlaties zullen zijn tussen de PMT-K schalen en een aantal cognitieve
functies: 'Lage correlaties maken het mogelijk de alternatieve hypothese, dat het door de PMT-K schalen
gemeten testgedrag verklaard kan worden door intelligentie(-aspecten) te verwerpen'. Hierbij wordt
vergeten dat een correlatie niets zegt over de richting van het verband. Dat er geen invloed van cognitieve
functies (ik zou liever spreken van teslprestaties) op de PMT-K scores verwacht zou mogen worden ben ik
met de auteurs eens, maar een verband in omgekeerde richting is wèl waarschijnlijk: in een eerder
hoofdstuk werd immers betoogd dat cognitieve prestaties niet vrij van invloeden van motivatiefactoren
zijn. Overigens bleken de correlaties laag. en verschillend voor jongens cn meisjes te zijn. Wel wordt
meegedeeld, dat bij uitsluiting van proefpersonen met niet-stabiele motivatiescores hogere correlaties
worden verkregen, maar deze worden helaas niet gerapporteerd.

Een soortgelijke aanvechtbare redenering treffen wc elders in de paragraaf aan. Zo wordt geconcludeerd
dat jongens met een hogere intelligentie een tendens vertonen om lagere scores op de negatieve
faalangstschaal te behalen. Een andere interpretatie lijkt ook mogelijk, namelijk dat jongens met lagere
faalangst hogere scores op intelligentietests behalen.

Een belangrijke paragraaf is ook die, waarin wordt nagegaan of de PMT-K schoolsucces bij kinderen (van
10-16 jaar) kan voorspellen onafhankelijk van intelligentie. Wels et al. kiezen daarbij voor objectieve
schoolvorderingentoetsen als criteria. Rapportcijfers, waarmee Hermans bij voorkeur zou werken,
worden minder geschikt geacht, vanwege hun geringe onderlinge vergelijkbaarheid. Dit moge op zich
juist zijn, maar naar mijn smaak is de relevantie van rapportcijfers groter.

De resultaten zijn zeer gecompliceerd. Ze zijn mede afhankelijk van de sexe der leeriingen, verschillen in
intelligentie, sociale wenselijkheidsscores en stabiliteit van de prestatiemotivatie over de tijd. De auteurs
concluderen dat uit de resultaten van het groeionderzoek geen steun voor de predictieve validiteit van de
P-schaal t.a.v. schoolprestaties valt af te leiden, wanneer men althans de bijdrage van intelligentie
nivelleert. Het praktisch gebruik van de P-schaal als diagnostisch instrument bij het persoonlijkheids- of
schoolonderzoek wordt door de auteurs ontraden. De schaal zou eerder zoiets als conformisme aan de
prestatiesfeer van de school meten dan prestatiemotivatie. Dit betekent overigens niet dat dc PMT-K
waardeloos zou zijn, omdat de faalangstschalen van deze test wat betreft validiteit aanmerkelijk beter
voor de dag kwamen.

Hermans de nestor van het Nederlandse prestatiemotivatie onderzoek, dient in hoofdstuk 6 zijn critici
van repliek Zijn voornaamste punt komt naar voren in het volgende citaat (pag. 167): 'het feit dat
schoolvorderingen bepaalde voordelen hebben, bijvoorbeeld op punten van vergelijkbaarheid en stan-
daardisatie, neemt niet weg dat belangrijke beslissingen worden genomen op grond van rapportcijfers als

Hermans beschouwt rapportcijfers als grove indicatie van de wijze waarop de prestaties van de leerling
beoordeeld worden, en is van mening dat vanuit het oogpunt van ajn.svmmahditeit ook 'pedagogische'
cijfers als criteria geschikt zijn, misschien zelfs méér geschikt dan objectieve schoolvorderingen tests. Dc
opmerkingen van Hermans in dit verband over het door elkaar halen van predictieve- en constructvalidi-
teit snijden mijns inziens hout, evenals zijn commentaar over het wat ondoordachte gebruik van de term
'cognitieve functies' door zijn critici.

Het derde deel van het boek heeft betrekking op de toepassing van de theorieën en meetmethoden in het

Veenman en Bergen beschrijven in iwofdstuk / enkele mogelijkheden voor leerkrachten om de taakgc-
bonden motieven van leeriingen in ondenvijsleersituaties te beïnvloeden. De auteurs geven een overzicht
van de oorzaken van dc vaak gesignaleerde terugloop van de motivatie van de leerlingen voor hun taken
op school en noemen enkele strategieën ter bevordering van de prestaticmotivatie. Leraren zouden
idealiter hun leeriingen moeten stimuleren realistische doelen te stellen en zichzelf verantwoordelijk voor
hun prestaties te voelen. Hiertoe zouden maatregelen kunnen bijdragen, die betrekking hebben op de
leerstofinhoud de onderwijsvorm en het onderwijsgedrag. Heckhausen's procesmodel met als centrale
motivatiebegrippen 'hoop op succes' en 'vrees voor mislukking', fungeert naast ideeën van Atkinson,
Weiner en deChamis als theoretisch kader waarmee een praktijkvoorbeeld (een 'approach-avoidance'
conllict van een leerling die moet kiezen tussen gaan zwemmen met een vriend of z'n huiswerk maken)

wordt geïnterpreteerd. De casus heeft tot doel de diverse processen welke bij onderwijsleersituaties
doorgaans een rol spelen te illustreren. De auteurs gaan verder na hoe twee ideaaltypen leerlingen
(succesgemotiveerde resp. mislukkingsgemotiveerde, op het vermijden van mislukking gerichte leerlin-
gen) zich - vooral in cognitief opzicht gedragen op de verschillende componenten van het procesmodel.
Een incon.sequentie die wc in het boek vaker aantreffen is dat bij de operationalisering van de genoemde
ideaaltypen gebruik gemaakt wordt van de in het voorgaande hoofdstuk gewraakte P-schaal. Aanbevolen
wordt mislukkings-gemotiveerde (d.i. hoog faalangstige en laag prestatiegemotiveerde) leerlingen een
bepaald type taak en een specifieke terugkoppeling te geven. Impliciet wordt hier dus een heel praktisch
diagnostisch gebruik van de PMT geadviseerd.

In het laatste deel van het hoofdstuk wordt een poging gedaan om de diverse motivatiebegrippen te
koppelen aan het onderwijsgedrag van de leraar. Dit tegen de achtergrond van het werkklimaat in dc klas
en het uitdagingskarakter van dc schoolse taak als randvoorwaarden.

Uitgaande van de opvattingen van deCharms beschrijven de auteurs twee programma's gericht op
zelfstandigheidstraining van de leerhng. In beide cursussen (van medewerkers aan resp. de KU Nijmegen
en de RU Leiden) wordt door o.a. het trainen van taakzelfstandigheid getracht de persoonlijke verant-
woordelijkheid van de leerling te bevorderen. Voorts geven de auteurs wegen aan om ongunstige effecten
van onrealistische verwachtingen van de leraar op de prestaties van de leerling (o.a. de zichzelf waarma-
kende voorspelling) tc voorkomen. Zo kan het nuttig zijn de leraar informatie tc verschaffen over z'n
onderwijsgedrag in de klas. Hieraan zou kunnen worden toegevoegd dat de psychodiagnostiek wellicht
kan bijdragen tot een realistische beeldvorming bij de leraar over zijn leerlingen.
De wijze waarop de auteurs praktische richtlijnen voor het handelen in de klas uit de theorie afleiden is
weliswaar creatief, maar sommige adviezen zijn wat triviaal (bijvoorbeeld de opmerking dat negatieve
persoonsgerichte bevestiging moet worden vermeden, omdat de leerling als persoon daardoor wordt
gedevalueerd). De auteurs beseffen hoe moeilijk het zal zijn de optimale onderwijsgedragingen elke dag
in de les toe te passen. Bovendien zijn ze zich bewust dat het niet zeker is of optimaal onderwijsgedrag
rechtstreeks leidt tot meer gemotiveerd gedrag van alle leerlingen en of de invloed op de motivatie sterk
genoeg is om naast een verondersteld gunstig effect op dc pcrsoonlijkheidsontwikkeling ook effect op de
schoolresultaten te hebben. Op pag. 212 wordt hiervoor ecn negatieve indicatie gegeven, al is het laatste
woord hier uiteraard niet over gezegd. Door deze onzekerheden kan de lezer een gevoel krijgen dat de
vele pagina's theorie in feite ontoereikend zijn. Toch vormen zij een goede informatiebron bij eventuele
verdere researchinspanningen.

In hoofdstuk 8 bespreekt Bergen (inmiddels auteur van een uitstekend proefschrift over een verwant
onderwerp (evaluatie-angst), dat in de SVO-reeks verscheen) een viertal trainingsprogramma's. Deze
zijn erop gericht om verandering aan te brengen in de motivatiestructuur van leerlingen. Drie program-
ma's werden in het buitenland ontwikkeld, één in Nederland (het Nijmeegse programma).
Ook Bergen realiseert zich dat bij toepassing van de motivatie-trainingsprogramma's in het onderwijs de
vraag opkomt wat het effect daarvan is op dc schoolprestatie van leerlingen. Reeds voordat Bergen de
trainingsprogramma's behandelt, spreekt hij de verwachting uit dat door motivatietraining de schoolcij-
fers van de leerlingen niet spectaculair zullen stijgen, aangenomen dat zo'n stijging het meest geëigende
criterium is om het effect van trainingen tegen af te zetten. Schoolcijfers komen immers tot stand door
meerdere factoren dan motivatie, namelijk andere pcrsoonseigenschappen (zoals intelligentie) en de
leeromgeving. Bovendien zouden de bestaande meet-lnethoden wellicht niet in staat zijn om de relaties
tussen motieven en schoolresultaten zichtbaar te maken. De auteur verwijst daarbij naar hoofdstuk vier.
Merkwaardig is dat in hoofdstuk vijf wordt verwezen naar Hermans, die juist wel significante relaties
tussen rapportcijfers en prestatiemotivatie-scores vond. Dit is een voorbeeld van ecn gebrek aan integra-
tie van de hoofdstukken, voortkomend uit het feit dat het boek de bundeling is van het werk van
verschillende researchteams.

Uit de literatuur blijkt dat, afhankelijk van de theorie verschillend wordt gedacht over de veranderbaar-
heid van motieven. Zelfs in de beschrijving van Heckhausen's cognitieve prestatiemotivatie-systeem (een
systeem van zelfbevestiging dat zichzelf in stand houdt en steeds minder toegankelijk wordt door
beïnvloeding) klinkt twijfel aan dc veranderbaarheid door. In theorie lijkt slechts een beperkt aantal
(mislukkingsgemotiveerde) leerlingen baat te zullen hebben bij motivatietraining. Er zijn namelijk nogal
wat randcondities waaraan voldaan moet zijn. Deze betreffen de leeftijd, intelligentie en motiefscore van
de leerling, de duur van de mislukkingservaring, etc.

Het doel van de trainingsprogramma's die Bergen onderling vergelijkt is dat de leerlingen door herstruc-
turering van de leeromgeving en van de cognitieve processen in taaksituaties hun mogelijkheden optimaal

kunnen gebruiken, waardoor zij op sciiool beter presteren. Het beoogde effect wordt slechts in één
programma (dat gebaseerd is op de theorie van dcCharms) bereikt. Het Nijmeegse trainingsprogramma
heeft als doelgroep leraren en leeriingen ('under-achievers') van de onderbouwklas in het voortgezet
onderwijs. De auteur acht de resultaten bemoedigend: de leraren maken zich (o.a. via micro-teaching) de
kennis en de vaardigheden eigen die vanuit theoretisch standpunt van belang zijn om de taakgcbonden
motieven van de leerlingen te beïnvloeden. Er zijn echter geen duidelijke effecten van de training op de
motiefscores van de leeriingen en de schoolresultaten (rapportcijfers). Integendeel: er werden zelfs
tendenties gevonden dat leeriingen van getrainde leraren wat achteruit gingen. Het probleem van de
transfer naar de lespraktijk van alle dag is ook bij dit programma niet opgelost. De leraren, hoewel
positief gestemd over de training, ervaren dit duidelijk als een moeilijkheid. Op pagina 260 wordt de
verwachting geformuleerd, dat 'indien leraren dc strategieën beheersen die van belang zijn bij de
begeleiding van leerlingen, en de leerlingen zich geplaatst zien voor schoolse taken met een uitdagingska-
rakter dan zullen uiteindelijk ook de schoolresultaten van de leerlingen moeten verbeteren". Wat
verderop vermaant de auteur echter dat het niet realistisch is om erg teleurgesteld te zijn als directe
effecten op schoolresultaten uitblijven, omdat bekend is dat deze effecten zelden worden gevonden.
Desondanks kan ik een gevoel van teleurstelling niet van me af zetten: Wat is de waarde van de hele
onderneming dan nog? , . „ „ ■

Eenzelfde gevoel hield ik over na bestudering van hoofdstuk 9, waarin De Bruyn mgaat op de vraag welke
kenmerken van de doceerstijl van invloed zijn op dc prestatiemotivatie van de leeriingen. Het uitgangs-
punt is interactionistisch: prestatiegemotiveerd gedrag wordt veroorzaakt door een wisselwerking tussen
prestatiemotivatic (een persoonlijkheidstrek) èn de prestatiesituatie. Vanuit dit standpunt heeft de
auteur getracht een diagnostisch instrument te ontwikkelen voor de manier waarop leeriingen dc klasscsi-
tuatie percipiëren. Centraal daarin staan aspecten van de doceerstijl van de leraar, d.w.z. dc persoonlijke
manier van omgaan van de leerkracht met de leeriingen, en niet zozeer het didactisch gedrag.
De auteur heeft bewust gekozen voor het vaststellen van doceerstijl via waarneming en beoordeling dtxjr
de leeriingen zelf in plaats van externe observatoren. Deze keuze wordt met valide argumenten verde-
digd: Waargenomen doceerstijl is relatief gemakkelijk te meten, cn is tevens een relevante variabele die
in directe relatie staat tot de motivatie van de leeriing. Een bezwaar lijkt me echter dat wanneer de
leeriingen zelf zowel hun prestatiemotivatie als de doceerstijl beoordelen, er gemakkelijk spurieuze
correlaties tussen beide variabelen kunnen worden gevonden. Bovendien zouden, zoals de auteur zelf
onderkent, de beoordelingen van de doceerstijl gekleurd kunnen worden door de motieven en attituden
van de leerling, terwijl het onderzoek juist gericht is op de invloed van doceerstijl op dc motivatie.
De ontwikkeling van het beoordelingsinstrument blijkt moeizaam te verlopen. In eerste instantie werden
items geformuleerd waarin concrete prestaticsituaties (zowel positieve als negatieve) zijn beschreven. De
items waren gegroepeerd in 15 inhoudelijke categorieën, en vormen een (positieve) prestatiesituatic-
vragenlijst en een (negatieve) faalsituatie-vragenlijst. Het is overigens niet duidelijk of het hier gaat om
één of twee verschillende bipolaire dimensies. De schalen bleken voldoende discriminatievermogen,
interne consistentie en stabiliteit te bezitten. Het wekt dan ook verbazing, dat alvorens de validiteit van
deze toch veelbelovende instrumenten te onderzoeken, werd besloten een nieuw instrument te construe-
ren, met als uitgangspunt Heckhausen's zelfbevestigingstheorie. Sommige items werden uit de bovenge-
noemde, eerste versie overgenomen, andere items werden toegevoegd. Ditmaal werden zeven aprioristi-
sche categorieën of subschalen onderscheiden. Ter controle werd een schaal 'attitude t.a.v. de leerkracht'

De^i^eu^e'^beoordelingslijst differentieerde redelijk tussen de doceerstijlen van de verschillende leer-
krachten; de beoordelingen waren betrekkelijk stabiel. De interne consistentie van de aprioristische
(conceptuele) schalen was echter onaanvaardbaar laag, zodat de schalen niet als reële beoordelingsdi-
mensies konden worden opgevat. ,, ..

De theorie die diende om de eerste versie van de vragenhjst te laten vallen, voldoet klaarblijkelijk óók
niet De auteur voert vervolgens een exploratieve clusteranalyse uit, waarbij vier itemclusters worden
geïdentificeerd die nog steeds een lage interne consistentie hebben. Even verderop wordt weer gewag
gemaakt van twee zeer homogene itemclusters die verschillende prestatiegenchtc doceerstijlen weerspie-
gelen De auteur lijkt niet zeker tc zijn over de vraag welke vorm van itemclustering nu de voorkeur
verdient: Bij een volgende fase van het onderzoek, waarin de objectiviteit van de beoordelingen wordt
vastgesteld worden antwoorden op de afzonderlijke items, in plaats van schaalscores geanalyseerd.
Het is de vraag of 'onafhankelijkheid van kenmerken van de leeriing zelf, een reëel criterium is voor de
objectiviteit van de door de leerlingen gegeven beoordelingen. De doelstelling van het gehele onderzoek

was immers: de identificatie van kenmcrlten van de prestatiesituatie, zoals die relevant is voorde leerUng.
Objectiviteit van de beoordeling in de zin van onafhankelijkheid van persoonlijke kenmerken der
beoordelende leerlingen valt dus nauwelijks te verwachten.

Uit dc resultaten blijkt, dat de responsen op bijna alle beoordelingsitems zwak, maar wel significant
samenhangen met de 'totale persoon', d.w.z. een combinatie van de onderzochte persoonskenmerken
(intelligentie, prestatiemotivatie, faalangst, attitude ten aanzien van de leerkracht, enzovoort). Daarbij is
het zo, dat de antwoorden op de items uit de zeven conceptuele beoordelingsschalen (waarom niet de vier
meer homogene empirische schalen?) door verschillende persoonskenmerken worden bepaald. De
auteur concludeert dat de relatief geringe samenhang tussen dc 'totale persoon" en de motivatiesituatie-
items in de meeste schalen wordt veroorzaakt door het effect van attitude ten opzichte van de leerkracht
cn intelligentie.

Voor mij is de interpretatie die De Bruyn van zijn resultaten geeft toch niet zo evident. Symbolisch is
wellicht de drukfout op pag. 297, waar wordt geconcludeerd dat de items van de motivatiesituatic
vragenlijst over het algemeen voldoende afhankelijk (bedoeld wordt owafhankelijk) zijn van persoons-
kenmerken om bruikbare informatie te bevatten over de kenmerken van de waargenomen doceerstijl.
Naar mijn smaak zou de auteur ook hebben kunnen concluderen tot niet-volledige objectiviteit. De
gevonden correlaties zijn immers significant, en zouden wellicht bij sommering van items tot schaalscorcs,
door de grotere betrouwbaarheid aanzienlijk hoger uitvallen.

Ook het onderzoek naar de validiteit van de vragenlijst is wat rommelig. Eerst worden de goed tussen
doceerstijlen discriminerende items gescoord op basis van de richting van de samenhang met het resultaat
op een taal- en rekentoets. Vervolgens wordt meegedeeld dat de somscores op deze (geselecteerde) items
per klas (gecorrigeerd voor intelligentie, prestatiemotief en faalangst, niet voor attitude t.o.v. de leer-
kracht) een hoge correlatie vertonen met de somscores op de toets. Dit resultaat lijkt veelbelovend, maar
wordt niet gekruisvalideerd. Bovendien ligt de veronderstelling voor de hand dat de invloed van de
waargenomen doceerstijl op de prestaties verloopt via de motivatie van de leerlingen, hetgeen niet kon
worden hard gemaakt. De veronderstelling wordt getoetst d.m.v. een moderatoranalyse op de relatie
tussen motiefscores en rapportcijfers (in plaats van toetsresultaten). Terecht meent de auteur, dat de
rapportcijfers waarschijnlijk gevoeliger zijn voor de eventuele wisselwerking tussen doceerstijl cn motiva-
tie dan uitslagen op de toets. Maar als rapportcijfers inderdaad een meer relevant criterium vormen (heeft
Hermans toch gelijk?), dan begrijp ik niet waarom de vragenlijst werd gevalideerd tegen toetsresultaten.
Als één der variabelen bij de analyse werd de PMT-K prestatiemotivatie-score verkozen, omdat deze
volgens de auteur merendeels significante correlaties met rapportcijfers laat zien. Eerder in het boek werd
de relatie met rapportcijfers weinig consistent en irrelevant geacht.

Resultaat van het onderzoek was dat de correlatie tussen de motiefscores en rapportcijfers niet significant
verschillend was bij klassen met resp. hoge en lage somscorcs op de motivatiesituatie-vragenlijst. De
conclusie van De Bruyn (pag. 301) dat een aantal doceerstijlkenmcrken van invloed bleken te zijn op de
relatie'tussen motief en prestatie is mijns inziens dan ook niet terecht. Zeker niet, wanneer men in
aanmerking neemt, dat geen gegevens werden geleverd waaruit zou kunnen blijken dat de doceerstijl
direct de prestatiemotivatie bevordert.

Het feit dat interessante suggesties voor verder onderzoek worden gedaan, bijvoorbeeld onderzoek naar
het oordeel over dc doceerstijl door externe observatoren, versterkt slechts de indruk van voorlopigheid
die dit hoofdstuk nalaat.

Resumerend kom ik tot de volgende conclusie. Er is sprake van een boek dat rijk is aan informatie en
haast meer vragen oproept dan beantwoordt. Het geeft een vrij volledig literatuuroverzicht. Een enkel
thema ontbreekt, bijvoorbeeld dat van de sexeverschillen in prestatiemotivatie, en het door Horner
geïntroduceerde begrip 'fear of success' bij meisjes. De redacteur geeft aan dat de meeste hoofdstukken
als zelfstandige eenheden gelezen kunnen worden. Het is juist dat het boek kan dienen als 'reader', maar
hierdoor is er enerzijds sprake van doublures bij de behandeling van de theorie, anderzijds van een niet
optimale afstemming van de hoofdstukken. De gebrekkige integratie is naar mijn mening een zwakke
kant van het boek. Maten die in het ene hoofdstuk worden becritiseérd (de P-schaal van de PMT,
schoolcijfers) worden bij in een ander hoofdstuk gerapporteerd onderzoek zonder bezwaar gebruikt. Dit
geeft de lezer een gevoel van onzekerheid, te meer daar de resultaten van het onderzoek gericht op de
toepassing van de theorie in het onderwijs, zoals onderzoek naar het effect van motivatietraining, vaak
tegenvallen. Een integratief slothoofdstuk zou de waarde van het boek hebben verhoogd. Ondanks deze
bezwaren is dit toch een nuttig boek: Voor onderzoekers kan het dienen als bron van hypothesen voor
(voortgezette) research; voor studenten is het een goed overzicht van het complexe terrein van de theorie

TordL'n VooHeren ^ dît werkteen uitdaging allerlei processen m hun omgang met de leerhngen
te onderkennen, en zo nodig bij testuren.

Wat is Onderwijssociologie is de oratie die J.M.G. Leune op 11 september 1980 uitsprak aan de
Erasmus Universiteit ter gelegenheid van de aanvaarding van het ambt van gewoon hoogleraar in de
onderwijssociologie. Deze bespreking had eerder dienen te verschijnen. Hoewel voor de vertraging een
goede reden te geven is, past mij toch een verontschuldiging aan het adres van de lezers van dit blad en
vooral aan de auteur.

Als onderwijspsycholoog begon ik deze oratie met enige nieuwsgierigheid en ook wel scepsis te lezen:
hebben sociologen inderdaad iets van belang bij te dragen aan de studie van het onderwijs. Mijn
nieuwsgierigheid werd beloond en mijn scepsis gelogenstraft: deze oratie geeft een helder beeld van wat
sociologen in principe hebben bij te dragen aan onze kennis en begrip van het onderwijs en zij heeft mij
ervan overtuigd dat de sociologische benadering van groot belang is. Ik geef kort een overzicht van wat
achtereenvolgens ter sprake komt.

De auteur begint met een definitie van de onderwijssociologie: '(D)e wetenschap van de sociale determi-
nanten en sociale functies van georganiseerde en geprofessionaliseerde socialisatie" (p. 3). Zo'n van
jargon stijfstaande definitie in de aanvang van een uiteenzetting doet het ergste vrezen, maar dat blijkt
verderop geweldig mee te vallen. Bij het gewichtig klinkende 'georganiseerde en geprofessionaliseerde
socialisatie' gaat het eenvoudig om schools onderwijs. Met 'socialisatie' wordt bedoeld 'overdracht van
waarden, normen, kennis en vaardigheden' en die overdracht wordt 'georganiseerd en geprofessionali-
seerd' genoemd om de school te onderscheiden van andere, informele manieren waarop mensen van
elkaar leren.

Vervolgens legt de auteur uit wat hij bedoeld met 'sociale determinanten' van onderwijs. Hij maakt
daarbij een onderscheid tussen externe en inteme sociale determinanten. Bij de eerste gaat het om de
wijze waarop 'de omringende maatschappelijke orde (zich weerspiegelt) in onderwijsdoelstellingen en
-structuren' (p. 6). De samenleving heeft invloed op het schoolwezen, maar die invloed is, aldus de auteur,
minder simpel dan het lijkt en dan sommigen graag denken. Voor wat het eerste betreft wijst hij op het
bestaan van 'cultural lag', die maakt dat het onderwijs nogal eens achter de maatschappelijke feiten
'aanhinkt' (p. 7); wat het tweede betreft wijst hij op de eenzijdigheid van hen die onder de maatschappelij-
ke determinanten uitsluitend oog hebben voor economische factoren (p. 8).

Met interne determinanten bedoelt de auteur, dat 'gevestigde belangen van bestaande schoolsystemen',
in het bijzonder van de mensen die er werken, een belangrijke invloed hebben op de wijze waarop het
onderwijs is ingericht en op dc doelen die men zich stelt (p. 10). Bij de bestudering van determinanten
van onderwijs komen volgens de auteur niet alleen het meso- en macro-niveau, d.w.z. het niveau van de
onderwijsinstelling en het niveau van het onderwijsbestel als geheel, voor bestudering door sociologen in
aanmerking, maar ook het micro-niveau, d.w.z. wat er in de klas gebeurt. Hij verzet zich tegen de
gedachte dat het micro-niveau het exclusieve terrein van onderwijspsychologen en didactici zou zijn. Ik
wil hem op dit punt geenszins tegenspreken, maar merk op dat zijn aanduiding van wat op dit niveau dan
het specifiek sociologische onderwerp van aandacht zou moeten zijn (p. 11), niet zo duidelijk is als wat hij
daarover zegt voor beide andere niveau's. Als voorbeeld van sociologisch onderzoek naar sociale
determinanten bespreekt de auteur in een afzonderlijke paragraaf het werk op het gebied van de
sociaal-gedetermineerde ongelijkheid van onderwijskansen (pp. 13-15).

Vervolgens komen de sociale functies van onderwijs ter sprake, d.w.z. 'de gevolgen van onderwijs voor de
wijze waarop mensen met elkaar samenleven'. Een van die sociale functies is de 'reproductiefunctie'
d.w.z. de neiging van het onderwijs de nieuwe generatie te modelleren naar de oude. Aldus zou onderwijs

conserverend werken. Leune's zeven argumenten tegen de gedachte dat onderwijs noodzakehjkerwijze
conserverend werkt, beschouw ik als het interessantste en belangwekkendste deel van zijn oratie.
Wat vind ik van het geheel? Ik vind het een nuttige en instructieve apologie voor de onderwijssociologie.
Voor sociologen, neem ik aan, zal deze oratie weinig nieuws bevatten en sociologiestudenten zullen van
het onderwerp allicht meer moeten weten. Maar voor andere beoefenaars van de onderwijswetenschap-
pen dan sociologen, is deze oratie een uitstekend middel om in kort bestek inzicht te krijgen in wat men
van onderwijssociologen kan verwachten.

Heb ik dan helemaal geen kritiek? Weinig. Ik noem niettemin twee punten. Ten eerste, hoewel ik mij
realiseer dat onderwijs reeds lang de aandacht van sociologen heeft gehad, zie ik toch een element van
geschiedvervalsing in de wijze waarop (op p. 16) Durkheim en Mannheim 'onderwijssociologen' worden
genoemd. Aldus wordt aan de onderwijssociologie als zelfstandig specialisme toch een langere geschiede-
nis toegekend dan zij in werkelijkheid heeft. Men zou zich kunnen afvragen waarom, als D. en M. al
onderwijssociologen waren, Leune in 1980 nog eens uitvoerig moet gaan uitleggen waarover dit vak gaat.
Mijn tweede punt van kritiek betreft de stijl van de oratie. Die is grotendeels duidelijk en zakelijk, maar
toch ook wel saai. Het wordt allemaal bloedserieus gebracht, er kan nergens een geintje af. Maar hoe
serieus ook gebracht, deze oratie is nuttige lectuur.

Bogaards, P. Moderne vreemde talen op school. Een studie betreffende determinanten van succes bij het
leren van Frans in de brugklas. Harlingen, Flevodruk b.v., 1982 (= SVO-reeks no. 64).

Dekkers, H. & Soest, W. van. Een evaluatiegericht ondenoeic school-practiciim professionele vor-
ming. Derde onderzoek Nieuwe Lerarenopleiding. Nijmegen/Amsterdam: NIVOR/SCO, 1982.

Gruijter, D.N.M. de. Tentamineren en heslissen. Tentamens met goed of fout gecodeerde itemantwoor-
den; een cijfermatige analyse. Hariingen: Flevodruk, 1982. (= SVO-reeks no. 63).

Koele, P. Gissen en heslissen. Een methodologische analyse van een onderzoeksparadigma. Proefschrift,
Universiteit van Amsterdam, 1982.

Krogt', F.J. v.d. & Weijzer, W.P. Variaties in schoolorganisaties. Een gedetailleerde beschrijving van de
onderwijskundige en organisatorische inrichtingen en daarmee samenhangende problemen van drie
scholen voor voortgezet onderwijs (VWO/AVO). Hariingen: Flevodruk, 1982 (= SVO-reeks no. 60).

NIVOR 1967-1982. Een brochure ter gelegenheid van de opheffing van het NIVOR. Nijmegen: Nijmeegs
Instituut Voor Onderwijsresearch, mei 1982.

Pinxteren, H. e.a. Het LOGO-project Nijmegen. Deel la, Proefproject: Achtergronden en uitgangspun-
ten. Vakgroep Sociale Psychologie, K.U. Nijmegen, juni 1982 (LOGO Memo 01).

Pijning, H.F. Beweging en psychologie. Een handelingspsychologische interpretatie van het bewegen.
Groningen: Wolters-Noordhoff, 1982.

Samson, G.M.H. AV-media in de Open Universiteit. Mediakenmerken, mediafuncties, mediumkeuze.
Utrecht: Stichting Film en Wetenschap, 1982.

Spiecker, B., Levering, B., & Beekman, A.J. (Red.) Theoretische pedagogiek. Meppel/Amsterdam:
Boom, 1982.

Stichting voorde Leerplanontwikkeling. Jaarverslag 1981. Enschede: SLO, mei 1982.

Swart, H.A.P. Over het begrijpen van menselijk gedrag. Meppel, Amsterdam: Boom, 1982.

Vliet, G. van. Denken en doen hij experimenteel onderzoek. Een inleiding tot het begrijpen en zelf
verrichten van experimentele research in de gedragswetenschappen. Groningen: Wolters-Noordhoff,
1982.

Wolff-Albers, A.D., & Crombag, H.F.M. (Red.). Visies op onderzoek in enkele sociale wetenschappen:
Pre-adviezen ten behoeve van de beleidsnota maatschappij- en gedragswetenschappen. 's-Graven-
hage: Staatsuitgeverij, 1982.

De tweedelige, losbladige Docentengids voortgezet onderwijs verschijnt onder auspiciën van de Vereni-
ging Samenwerkende Landelijke Pedagogische Centra. Aflevering 21 van juli 1982 bevat de volgende
nieuwe of gedeeltelijk nieuwe artikelen: Examens, HBO (toelating), Inrichting Scholengemeenschap-
pen AVO! LBO I (leerlinglessen) en // (leraarlessen), LEAO, LHNO (in rubriek 2: Wettelijke regelin-
gen); Voortgezet basisonderwijs (in rubriek 3: Macrostructuren en ontwikkelingen); CEVO, O&W,
Onderwijsraad. Onderwijswinkels (in rubriek 4: Organisaties en commissies); Project Arheidserva-
ringsteren (in rubriek 7: Projecten)', Diploma's (in rubriek 9: Schoolpraktijk)-, Informatica, Maatschap-
pijleer. Muziek (in rubriek 10: Vakken). De DGVO is een uitgave van Van Loghum Slaterus te Deventer.
Te bestellen bij de boekhandel (ƒ 160,-).

Bij de Subfaculteit Psychologie van de Universiteit van Amsterdam zijn de volgende Révész-Berichten
verschenen:

36. Statistiek voor psychologen: een bundel artikelen aangeboden aan Jan C. Spitz. De bundel bevat de
volgende bijdragen: W.P. van den Brink, Voorbereidingsleren; F.H. Comelisse, Drogredenen en statis-
tiek; A.D. de Groot, 2x2 = ? 7±2. Over twee bij twee-schema's als onderzoeks- en leermiddel; J. van
Hee'rden & Joh. Hoogstraten, De marges van statisticofobie; P. Koele, De drie-item studietoets; G.J.
Mellenbergh, Statistische psychologie en maatschappelijke relevantie; A.R.W. Muijen, Zij die reeds
gestorven is groet u: Jan en de VPO; R.F. van Naerssen, Het genereren van data voor het afnemen en
toetsen van studenten; P. Vijn, Het dualiteitsprincipe; H.C.M. Vorst, Naar een methodologie van
literatuuronderzoek.

37. J. van Heerden and Joh. Hoogstraten, The differential effect of induced response sets in a question-
naire without questions.

38. J.A.M. Lankrijer en A. Nijssen, Lichaamsoppervlakte verzorging (LOV) van de laboratorium rat
gedurende het etmaal.

39. P.C.M. Molenaar, Enige ontwikkelingstheoretische aspecten van de procesanalyse van psychothera-
pieën.

40. H.J. Smeets, Wie van de drie is Karen Horney? Over een Neo-Freudiaanse neurose-theorie.

Deze berichten kunnen verkregen worden bij Mevr. M. Cocnradi ('sochtends: Psychologisch Laborato-
rium, UvA, Kamer 447, Weesperplein 8,1018 XA Amsterdam; tel.: 020-5253603). De prijs van bericht
nr. 36 is ƒ 4,50 (bij aflialcn) of ƒ 6,80 (bij verzenden); de overige berichten zijn gratis.

Sinds 1981 geeft het Cito toetsen voor begrijpend lezen uit voor de leerjaren 3,4 en 5 van het basisonder-
wijs. De toetsen verschaffen inzicht in het algemene niveau van leeriingen op het terrein van het
begrijpend lezen halverwege en aan het einde van de leerjaren drie, vier en vijf. Bovendien verschaffen ze
informatie over de voortgang van individuele leeriingen.

Thans is ook de verantwoording bij deze toetsen gereed gekomen. Deze bevat informatie over de toetsen
met betrekking tot de doelstelling, de samenstelling, de vooronderzoeken, het ijkingsonderzoek, de
frequentieverdelingen, de betrouwbaarheid en de validiteit.

Belangstellenden kunnen contact opnemen met het Cito, afdeling Basisonderwijs, Mw E. van der Veldt,
Postbus 1034, 6801 MG Arnhem (tel. 085-455555).

De data van de beide basiscursussen zijn veranderd. De basiscursus Statistiek wordt nu gegeven van 6 t/m
10 december 1982 te Utrecht; de basiscursus Wiskunde van 13 t/m 17 december 1982 te Utrecht.
De overige cursusdata zijn onveranderd:

- Designs voor sociaal- en gedragswetenschappelijk onderzoek, 3-7 januari 1983, te Amsterdam

- Kruistabellen en gegeneraliseerde lineaire modellen, 12-14 cn 20-21 januari, te Utrecht

De cursussen zijn inleidend en hebben tot doel afgestudeerden in korte tijd bekend te maken met een
aantal recente ontwikkelingen op het gebied van methoden en technieken van onderzoek. Alle cursussen
kunnen als zelfstandige eenheid worden gevolgd.

Een folder met nadere gegevens over de cursussen is schriftelijk aan te vragen bij: SISWO, postbus 19079,
HKM) GB Amsterdam.

Selecteren van kerngedeelten in teksten. Bruikbaarheid van tekstanalyse- en beoordelingsmethoden voor
onderzoek naar de verbetering van tekstbestudering, door B. van Hout Wolters en B. Weltens.
Kroniek: Het Mavoprojekt, een grootschalig innovatieproject, door F.J. Kiene en B.A.M. van Velzen.

Onderzoek naar de behoefte aan onderwijs in dc moderne vreemde talen; behoeften en beleid, door T. A.
Maas-de Brouwer.

Doorwerking van onderzoek in beleid; het geval van de moderne vreemde talen, door M. Melissen
Onderwijskundige verbeeldingskracht. Elliot Eisners bijdragen tot de onderwijskunde, door N. Deen.

	Aantal	jongens (n = 1023)			meisjes (n = 978)			(Mj - Mm)
	opg.	P	M	s	P	M	s	Sj-Hm
Eindtoets Basisonderwijs	180	.776	139.67	26.46	.753	135.50	26.41	0.16
Taal	60	.769	46.17	8.84	.783	47.00	8.08	-0.10
Rekenen	60	.778	46.65	10.64	.729	43.77	11.39	0.26
Informatieverwerking	60	.781	46.85	9.20	.745	44.72	9.21	0.23
Natuur, Mens en Mij.	60	.776	46.55	8.45	.682	40.93	8.91	0.62
Natuur	20	.790	15.79	2.94	.705	14.11	3.21	0.53
Mens en Maatschappij	40	.769	30.75	6.16	.671	26.82	6.49	0.59

H.b.s.		prestatieniveau
	negen	acht	zeven	zes of minder	totaal
1- arbeider of lagere employees 2- middenstand, boeren en tuinders 3. middelbare employees 4. hogere beroepen	17o 3% 4% 5%	6% 5% 2% 8%	9% 10% 6% 8%	10% 4% 4% 9%	32% 22% 16% 30%
totaal	19%	21%	33%	27%	100% = 124
Gymnasium	negen	acht	zeven	zes of minder	totaal
1- arbeider of lagere employees 2- middenstand, boeren, tuinders middelbare employees 4. hogere beroepen	13% 7% 9% 22%	6% 1% 3% 12%	4% 3% 6% 3%	1% 0% 1% 9%	24% 11% 19% 46%
totaal	51%	22%	16%	11%	100% = 69

		Tabel 8
	TENTAMENRESULTATEN BIJ DRIE TWEEDEJAARSTENTAMENS VAN
	VOORMALIGE TIJDSCHRIJVERS & OVERIGE GEWONE STUDENTEN
		Voormalige	Overige ge-
		tijdschrijvers	wone studenten
	Aantal deelnemers	77	180
	Aantal geslaagd	21	65
BW	% geslaagd	27,3	36,2
	Gemiddeld cijfer	4,43	4,69
	Standaarddev.	1,52	1,47
	Aantal deelnemers	59	147
	Aantal geslaagd	17	53
BP	% geslaagd	28,8	36,1
	Gemiddeld cijfer	5,03	5,29
	Standaarddev.	1,07	1,03
	Aantal deelnemers	57	135
	Aantal geslaagd	27	77
IPR	% geslaagd	46,8	57,0
	Gemiddeld cijfer	5,56	5,62
	Standaarddev.	1,76	1,63

Combinatie Toets en Buurt
ongestandaardiseerd	-0,26	0,27	-0,03	0,02
gestandaardiseerd	-0,50	1,08	-0,13	0,06
Eigenschappen (ongunstig)
ongestandaardiseerd	-1,05	-0,74	0,29	1,50
gestandaardiseerd	-2,06	-3,00	1,40	5,12
Buurt (laag)
ongestandaardiseerd	-0,39	-0,04	0,18	0,25
gestandaardiseerd	-0,77	-0,16	0,86	0,87
Toets Gaag)
ongestandaardiseerd	-0,58	-0,55	0,34	0,79
gestandaardiseerd	-1,13	-2,25	1,67	2,68
Thuis (ongunstig)
ongestandaardiseerd	-0,52	-0,25	0,27	0,50
gestandaardiseerd	-1,01	-1,01	1,29	1,71

	j=l	2	3	4	5	6	7
1= 1	0.37	0.40	0.51	0.59	0.65	0.69	0.72
2	0.17	0.54	0.39	0.48	0.55	0.60	0.62
3	0.11	0.16	0.71	0.35	0.42	0.47	0.50
4	0.06	0.09	0.12	0.84	0.29	0.33	0.37
5	0.03	0.04	0.06	0.07	0.92	0.21	0.24
6	0.02	0.02	0.03	0.03	0.03	0.96	0.13
7	0.01	0.01	0.01	0.01	0.01	0.01	0.99

if	score <15
•	<statement>
•	<statement>
else
•	<statement>
•	<statement>
endif

		pi	p2	p3	P4
w =	.05	.36	.30	.24	.10
w =	.10	.43	.31	.20	.06
w =	.20	.55	.30	.13	.02
w =	.50	.81	.17	.02	.00
w =	.70	.93	.07	.00	.00
w =	.90	.99	.01	.00	.00

Xl			Xj		X3
Kv	Kn	C	C	VP	Kvi	Vp	KV;
r	r	ZN	ZN	w	r	w	b
r	b	B	B	n	b	w	r
b	r	Z	Z	n
b	b	BN	BN	w

		pi	p2	p3	P4
w =	.05	.36	.30	.24	.10
w =	.10	.43	.31	.20	.06
w =	.20	.55	.30	.13	.02
w =	.50	.81	.17	.02	.00
w =	.70	.93	.07	.00	.00
w =	.90	.99	.01	.00	.00

		pi	p2	p3	P4
w =	.05	.36	.30	.24	.10
w =	.10	.43	.31	.20	.06
w =	.20	.55	.30	.13	.02
w =	.50	.81	.17	.02	.00
w =	.70	.93	.07	.00	.00
w =	.90	.99	.01	.00	.00