Een twee-maandelijks tijdschrift voor onderzoekers van onder-
wijs, gewijd aan theoretische, methodologische en profes-
sionele problemen in de onderwijsresearch.

Bert Creemers
Hans F.M. Crombag
Jaap Haantjes (S.V.0.•
waarnemer)

Johan Hoogstraten (secre-
taris)

Robert F. van Naerssen
Marinus J.M. Voeten (se-
cretaris)
Peter Weeda
Wynand H.F.W. Wijnen

Tijdschrift voor Onderwijs-
research is een uitgave van
de Stichting Onderwijsre-
search. De uitgave wordt
mode mogelijk gemaakt
door een subsidie, verleend
door de Stichting voor On-
derzoek van het Onderwijs
te 's-Gravenhage.

Bos, J.Z?e Snel, J. 173
Breuker, Joost & Van der Roest, Wim. Conceptual structure of texts: A study

in the validity of scoring essay examinations 10
Brouwer, Ulbe & Vijn, Pieter. Het empirisch onderscheidingsvermogen van

Geer, J.P. van de. Multiple regression with two blocks of predictor variables 56
Groeneboom, P., Hoogstraten, Joh., Mellenbergh, G.J. & Santen, J.P.H. van.
Relevante variabelen bij het doorverwijzen na de lagere school; een corre-

Gruijter, Dato N.M. de. A Bayesian approach to the passing score problem 145
Gruijter, Data N.M. de. A criterion-referenced point biserial correlation

coefficient 257
Hamaker, Christiaan.Z/e Oostendorp, Herre van 113
Hoogstraten, Joh. & Mellenbergli, G.J. Relevante variabelen bij liet doorver-
wijzen na de lagere school;een experiment 161
Hoogstraten, Joh.Z/e Groeneboom,P. 262
Koele, P. & Vorst, H.C.M. Een Individueel Studie Systeem Statistiek beproefd 97
Lutje Spelberg, H.C. & Rotteveel, H.J. De voorspellende waarde van de Gro-
ninger Schoolvorderingentoets 3
Mellenbergh, G.J. Z/e Hoogstraten, Joh. 161
Mellenbergh, GJ.Z/e Groeneboom, P. 262
Molenaar, Ivo W. & Tomas, Arend. Psychometrics in subgroups, or regression

Molenaar, Ivo-W. Test expectancy and test performance'... and test choice 193
Naerssen, Robert F. van. Een voorbeeld van simulatie ter controle van empi-

risch-statistisch onderzoek 49
Oostendorp, Herre van & Hamaker, Christiaan. De invloed van explicitering

Santen, J.P.H. van.Z/e Groeneboom,P. 262
Snel, J.; Bos, J.; Uylings, R.& F^as, J.G.A. Achievement motivation in children

Vianen, A.E.M. van. Een onderzoek naar het lees-leerproces van leerlingen v^
een 6e klas basisschool met behulp van een oculometer en een kennis-repre-

Wesseling, Hans. Z/e Wijnstra, Johan M. 124
Wijnstra, Johan M.; Floor-Gaastra, Hanneke; Buter, Piet & Wesseling, Hans.

Groot, A.D. de. Waarvan hangt de reserve-uitkomst af.' 138
Gruijter, Dato N.M. de. De relatie tussen prediktieve validiteit en de omvang

van de intellektuele reserve 236
Jansen, C.& Woudstra, E. De cloze procedure, een bruikbare maat voor schrif-
telijke taalvaardiglicid? 87
Lievens, S., Steverlinck, H. & Verhoeven, C. T-quotes bij scheve distributies 82
Meerum Terwogt-Kouwenhoven, Kath. Evaluatie en de herprogrammering 182
Mooy, A.J. Response-snelheid in een postenquete 187
Naerssen, Robert F. van. Grafieken van de schatting van Bimbaum's item-in-

formatiemaat. Een antwoord aan de Gruijter 37
Naerssen, Robert F. van. Lokale discriminatie bij twee- en vierkeuzetoetsen 131
Naerssen, Robert van. Een snel programma voor de simulatie van een gege-
ven test 281
Roe, R.A. Antwoord aan De Groot 141
Steveriinck, H.Z/e Lievens, S. 82
Verhoeven, C. Zie Lievens, S. 82
Vroon, P.A. Enkele kanttekeningen bij het onderzoek naar de herkomst van

Dronkers, Jaap. Bespreking van Maatschappelijke achtergronden van intellek-
tuele ontwikkeling, een empirisch onderzoek naar de invloed van stants-
specifieke opvoeding op de ontwikkeling van intelligentie en leerprestaties
doorG.W.Meynen 92

Koele, Pieter. Bespreking van Individuele Studie Systemen in het tertiair on-
derwijs; Een overzicht door R.F. van Rookhuijzen, Tj. Plomp en A. Pilot 142
Mellenbergh, G.J. Bespreking van Advances in Psychological and Educational

Vaags, D.W. Bespreking van Het functioneren van terugkoppeling in het we-
tenschappelijk onderwijs. Twee voorafgaande voorwaarden door P. Buis 191
Wijnen, Wynand H.F.W. Bespreking van Een kleine zoölogie van het onder-
wijs onder redactie van H.F.M. Crombag en T.M. Chang 237
Wollenberg, A. van der. Bespreking van Mathematical Models for Social
Psychology door W.F. Kempf & B.H. Repp (eds.) 91

Na afsluiting van de tweede jaargang van het Tijdschrift voor Onderwijsresearch heeft de
redactie zich opnieuw bezonnen op het gevoerde beleid. Zij is daarbij tot enkele conclu-
sies gekomen, waarvan kennisname ook voor de lezers van belang zou kunnen zijn. Ter
inleiding daarop enkele gegevens.

In de redaktionele inleiding in nr. 1 van jaargang 1 werd gesteld, dat het Tijdschrift voor
Onderwijsresearch de volgende soorten artikelen een plaats wil geven:

2. artikelen waarin mathematische, statistische of psychometrische methoden 'vertaald'
worden voor onderzoekers van onderwijs;

4. empirische studies over onderwijs, die van belang zijn of instructief kunnen zijn voor
onderzoekers van onderwijs;

5. overzichtartikelen, waarin reeksen samenhangende onderzoeken in een theoretisch of
methodologisch perspectief worden geplaatst, dan wel hteratuurstudies die een nieuw
hcht werpen op bepaalde terreinen van onderwijskundig onderzoek;

6. artikelen betreffende onderzoeksaanpak, voorbereiding en beheer van onderzoekspro-
jecten.

Het is interessant te zien hoe de verschillende soorten bijdragen nu in werkelijkheid
vertegenwoordigd waren in de eerste twee jaargangen. Onderstaande tabel geeft daarvan
een overzicht.

De in de tabel weergegeven gegevens over de eerste jaargang waren ook al opgenomen in
de redactionele inleiding in nr. 1 van jaargang 2. Toen verbond de redactie daaraan de
conclusie, dat onderzoekstechnische (methodologische, statistische en psychometrische)
bijdragen een te dominante plaats innamen. De cijfers betreffende de tweede jaargang
laten zien, dat in die situatie weinig verandering gekomen is: verslagen van empirische
studies komen in de tweede jaargang iets meer voor, maar de dominantie van onderzoeks-
technische bijdragen is groter dan de redactie zich had voorgenomen.
Is dat nu te wijten aan een falend beleid van de redactie op dit punt? Naar mijn mening
niet: het beleid werd grotendeels gedicteerd door het aanbod van artikelen. Ondanks

gerichte pogingen onderzoekers te stimuleren verslagen van resultaten van empirisch werk
aan het tijdschrift aan te bieden, heeft dit nauwelijks geresulteerd in een evenwichtiger
aanbod. De resultaten van empirisch onderwijskundig onderzoek worden veelal in gesten-
cilde rapporten met een beperkte oplage gerapporteerd en in Nederland (en België?) ont-
breken blijkbaar de traditie en noodzaak om voor een ruimer forum te treden. De redactie
acht dat een betreurenswaardige stand van zaken.

Dat brengt ons tot een ander punt: constateerden wij bij het ingaan van de tweede
jaargang een toename in het aanbod van kopij, thans blijkt een afname van het aanbod,
die de redactie zorgen baart. Voor auteurs heeft dit inmiddels een positieve kant: de
'pubHcation lag' is aanzienlijk teruggelopen.

Ondanks het voorgaande is de redactie tot de conclusie gekomen, dat de gekozen redactie-
formule juist is en dat geen verandering daarin dient te worden aangebracht. Uit eigen
waarneming weet de redactie, dat er in ons taalgebied voldoende werk geschiedt dat in
principe voor rapportage in het Tijdschrift voor Onderwijsresearch in aanmerking komt.
Toch kan dit tijdschrift niet voortbestaan wanneer wij onze stencilcultuur niet doorbre-
ken. Wie werk gedaan heeft waarin hij gelooft, moet voor het forum van zijn vakgenoten
willen en durven treden. Dit tijdschrift is daartoe een uitgelezen mogelijkheid.

Instituut voor Orthopedagogiek; Bureau Gemeentelijk Adviseur Voortgezet Onderwijs; beide te Gro-
ningen

The predictive validity of the Groningen School Achievement Test (SVT) is the subject of this
study. The SVT consists of two parts, 'language' and 'arithmetic', and is administered each
school year in the sixth grade of the elementary school. The purpose of the SVT is to decide for
each pupil which type of secondary school is the best for him or her.

The main results, based on 3 samples of respectively 515, 646 and 828 pupils, are as follows:
The mean product-moment coefficient of correlation between SVT total score and school
succes was .64 The total percentages 'good', 'moderate' and 'bad' predictions of school success,
based on SVT scores, were 58, 28 and 14. The authors concluded that the SVT has proven to
be a good instrument, in comparison with other school achievement tests, used in the Nether-
lands.

Elk jaar staan honderdduizenden ouders en duizenden leerkrachten voor de moeilijke
keuze welke school voor voortgezet onderwijs hun kind respectievelijk leerUng nu moet
gaan volgen. Die keuze wordt des te klemmender, omdat zij voor een aanzienlijk gedeelte
de latere mogelijkheden van het kind bepaalt.

De feitelijke schoolkeuze kan opgevat worden als een resultante van een groot aantal
factoren, waarvan met name het advies van het hoofd van de afleverende school en de
resultaten van een toelatingsonderróek veel, zoniet een beslissende invloed hebben.
Voor toelating tot het VWO, HAVO, of MAVO is naast het advies van het hoofd der
school een toelatingsonderzoek vereist ('besluit VWO/HAVO/MAVO', 1965), waarbij ge-
kozen kan worden: een schoolvorderingentoets, een psychologische test, een proefklas, of
een toelatingsexamen. De gemeente Groningen en omgeving heeft sinds het schooljaar
1968/1969 gekozen voor een schoolvorderingentoets.

Eind 1974 is door B&W van de gemeente Groningen een opdracht gegeven aan de Ge-
meentelijk Adviseur Voortgezet Onderwijs een onderzoek uit te voeren naar de voorspel-
lende waarde van de schoolvorderingentoets. Dit onderzoek is uitgevoerd en elders uit-
voeriger gerapporteerd (Rotteveel en Lutje Spelberg, 1975).

De schoolvorderingentoets, zoals die in Groningen wordt afgenomen (verder te noemen:
SVT), is samengesteld uit de onderdelen 'taal' en 'rekenen'. De items van de SVT worden
ieder jaar opnieuw opgesteld. De SVT wordt zowel evaluerend als selecterend gebruikt.
Evaluerend in die zin dat SVT-uitslagen de onderwijzers informatie geven over hun onder-
wijseffectiviteit, selecterend in die zin dat op grond van een SVT-uitslag een schooltype
op het voortgezet onderwijs wordt geadviseerd. Dat advies is in zoverre bindend, dat, bij

overeenstemming ervan met iiet advies van liet hoofd der lagere school, geen HAVO/VWO
kan worden gekozen als een 'lager' schooltype wordt geadviseerd.

De SVT-scores op 'taal' en 'rekenen' worden op een gedeeltelijk compensatoire wijze
omgezet tot een advies (gedeeltelijk compensatoir houdt hier in: een lage score op 'taal'
kan slechts gecompenseerd worden door een hoge score op 'rekenen' als deze taaiscore
boven een bepaald minimum ligt, en omgekeerd). Elk jaar worden de normen voor het
advies opnieuw vastgesteld en resulteren in een indeling in vier categorieën:

De te voorspellen variabele is, in de meest ruime zin: succes op het voortgezet onderwijs.
Na overwegingen betreffende betrouwbaarheid en vergelijkbaarheid van schoolcijfers voor
vakken op de verschillende schooltypen, werd besloten 'schoolsucces' uit te drukken in de
eenvoudige, maar eenduidige maat: schooltype en klas waarin een leerhng zich bevindt op
het moment van onderzoek.

Voorkomende categorieën zijn dan b.v.: MAVO-2, Gymnasium-4 en LBO-1. Voor gebruik
in kruistabellen kon met deze operationalisatie worden volstaan, ten behoeve van correla-
tieberekening zijn de categorieën gerangordend d.m.v. paarsgewijze vergelijking door een
zestal ter zake deskundig geachte personen, op het criterium: 'voor een categorie vereist
intellectueel niveau'. Uit de verkregen rangordes is een gemiddelde rangorde berekend,
volgens welke getallen aan de categorieën zijn toegekend (zie tabel 1). De gemiddelde
interbeoordelaarscorrelatie had de waarde .96.

Als achtergrondvariabelen zijn gekozen sociaal milieu, advies van het hoofd der lagere
school (advies HdS) en geslacht. Het sociaal miheu is op een< zespuntsschaal uitgedrukt
vanuit gegevens over het beroep van de vader (vaste verzorger) van de leerhngen, met
behulp van de I.T.S.-beroepenklapper (1971). Het advies HdS hield een uitspraak in over
de geschiktheid van een leerling t.a.v. LBO, MAVO, HAVO of VWO.

De onderzoekspopulatie bestaat uit alle groningse leerhngen op het openbaar en bijzonder
onderwijs, op wie vanuit de SVT te maken voorspellingen toepasbaar zijn, gerekend over
alle jaren waarin de SVT wordt of zal worden toegepast.

Gemiddelde rangordes schoolsuccescategorieën met de toegekende rangcijfers. De rang-
cijfers bij jaar 1971 zijn met 2 vermenigvuldigd om gebroken getallen te vermijden.

De steekproef bestond uit alle leerlingen waarvan op het moment van onderzoek (peilda-
tum: december 1974) gegevens te verkrijgen waren over zowel SVT-resultaten als over
schoolsucces op het voortgezet onderwijs. Het resultaat was dat in de steekproef
1970/1971 het vroegste cursusjaar van afname van de SVT was, namelijk het jaar waarvan
op het voortgezet onderwijs nog leerlingen konden worden aangetroffen op de peildatum.
Uiteindelijk zijn drie SVT-afnamejaren in het onderzoek betrokken: 1970/71,1971/72 en
1972/73.

Deze steekproeven zijn niet aselect (maar 'willekeurig' in termen van Van den Ende en
Verhoef (1973, p. 296), namelijk samengesteld uit de voorhanden zijnde leerUngen), het-
geen inhoudt dat generalisaties van de onderzoeksresultaten strikt genomen niet via de
inductieve statistiek zijn te maken. De steekproeven werden voldoende representatief
geacht om de onderzoeksresultaten voor de populatie van toepassing te laten zijn (zie
paragraaf 7). De SVT-uitslagen en adviezen van schoolhoofden werden verkregen uit de
administratie van de basisscholen, gegevens over schoolsucces en de achtergrondvariabelen
d.m.v. een vragenlijst, afgenomen aan leerlingen op het voortgezet onderwijs.

In het onderzoek zijn opgenomen 515 leerlingen die in 1971, 646 leerHngen die in 1972
en 828 leerlingen die in 1973 de SVT maakten. MiUeugegevens konden van respectievelijk
335, 412 en 562 leerlingen worden verkregen. Een eenduidig advies van het hoofd van de
lagere school was bekend van respectievelijk 123, 127 en 240 leerlingen. Uit kruistabellen
tussen SVT-kwalificaties en schoolsuccescategorieën werden percentages 'juiste', 'matige'
en 'onjuiste' voorspellingen berekend. Voorbeeld van een 'juiste' voorspeUing is: een

leerling met SVT-kwalificatie 3 (d.w.z. geschikt voor HAVO/VWO), die na 4 jaar in
Atheneum-4 zit; voorbeeld van een 'matige' voorspelling is: een leerhng met SVT-kwahfi-
catie 3, die na 4 jaar in HAVO-3 zit; voorbeeld van een 'onjuiste' voorspelling is: een
leerling met SVT-kwahficatie O (d.w.z. ongeschikt voor MAVO), die na 4 jaar in Gymna-
sium-4 zit. Voor precieze definiëring van de begrippen 'juiste', 'matige' en 'onjuiste'
voorspelhng zie Rotteveel en Lutje Spelberg (1975). De percentages staan vermeld in
tabel 2.

De resultaten die via correlatiebereking werden verkregen staan in tabel 3 vermeld.

Onderzoeksresultaten in correlatiecoëfficiënten. Alle waarden zijn met 100 vermenigvul-
digd. De met * aangegeven waarden zijn partiële correlaties, waarbij milieu is uitgepartiali-
seerd.

Zoals men in tabel 3 kan zien, hebben de correlaties van de SVT-variabelen met schoolsuc-
ces hoge waarden (.51 a .68). Vergeleken met onderzoek van anderen (zie b.v.: Bos, 1974,
p. 112; Groen, 1967, p. 123 e.v.; Gerdes en Rotteveel, 1973; Nijsse, 1975), kan gezegd
worden dat de SVT een gelijke of hogere voorspellende waarde blijkt te bezitten.
Bij interpretatie van de gepresenteerde correlatie-coëfficiënten moet men zich echter wel
realiseren dat ze gecontamineerd zijn: In het huidige schoolsysteem gaat de overstap naar
een hoger schooltype practisch altijd gepaard met een vertraging van minstens één jaar.
Omdat in het onderhavige onderzoek het schoolsucces wordt uitgedrukt in het bereikte
niveau in een vaste periode (voor de drie onderzoeksgroepen respectievelijk 4, 3 en
2 jaar), is bij het bezit van een lagere SVT-kwahficatie de maximaal te bereiken schoolsuc-
cesscore lager dan bij het bezit van een hogere kwalificatie. Voorbeeld: Een leerling die op

het voortgezet onderwijs in de brugklas LBO begint, kan na vier jaar nooit in Gymnasium-
4 zitten. Een en ander betekent dat er bij voorbaat al een verband tussen SVT en
schoolsucces bestaat (eerste contaminatiefactor).

Dit effect zou kleiner geweest zijn als het uiteindelijk schoolsucces als criterium kon
worden genomen, maar dan nog zal het op de SVT gebaseerde advies door self-fulfilling
prophecy, posthumuseffecten en dergelijke de score op dit criterium voor een deel bepa-
len Óweede contaminatiefactor).

Een indicatie voor de grote van het effect van deze twee contaminatiefactoren is de
discrepantie tussen de oorspronkelijke correlaties enerzijds en de binnen een schooltype
te berekenen, voor restriction of range te corrigeren, correlaties anderzijds (Hofstee,
persoonlijke mededeling). Het gaat hier om correlaties tussen SVT-variabelen en school-
succes, nu echter berekend binnen de groepen leerlingen die als brugklaskeuze respectieve-
lijk LBO (LBO-groep), MAVO (MAVO-groep) en HAVO/VWO (HAVO/VWO-groep) ko-
zen, gecorrigeerd voor de restriction of range van de SVT-variabelen, op de wijze zoals
door Guilford is beschreven onder 'Case 1' (Guilford, 1965, p. 342 e.v.). Case I heeft
betrekking op een situatie waar de range wordt beperkt van één van beide met elkaar te
correleren variabelen. Strikt genomen zou hier 'Case III' (ibid, p. 344) van toepassing zijn:
beperking van de rang van een derde variabele (hier: brugklaskeuze). Dit is hier practisch
gezien niet mogelijk, omdat van deze derde variabele de range beperkt wordt tot 1 of
2 categorieën. De door ons geconstateerde sterke samenhang tussen brugklaskeuze en
SVT-scores rechtvaardigt ons inziens toepassing van 'Case 1'. Tabel 4 geeft de resultaten
van deze berekeningen.

Correlaties van SVT-variabelen (taal, rekenen en totaal) met schoolsucces, berekend over
alle leerlingen en binnen de groepen LBO-, MAVO- en HAVO/VWO-leerlingen, na correc-
tie voor restriction of range.

Uit tabel 4 blijkt in de eerste plaats dat op één na alle correlatiecoèfficiënten lager zijn
geworden, hetgeen verklaard kan worden vanuit genoemde contaminatiefactoren.
In de tweede plaats blijkt uit tabel 4 dat de correlaties bij de LBO-groep het meest
verschillen van de oorspronkelijke, die bij de HAVO/VWO-groep het minst. Dit verschijn-

sel laat zich mogelijk verklaren vanuit de hiervoor genoemde eerste contaminatiefactor:
Bij de HAVO/VWO-groep heeft de SVT een betere gelegenheid zijn voorspellende waarde
te tonen dan bij de LBO-groep, omdat leerlingen uit eerstgenoemde groep meer variatie
op de variabele 'schoolsucces' kunnen vertonen dan leerlingen uit laatstgenoemde groep.
Dit laatste maakt dat wij geneigd zijn de correlaties binnen de HAVO/VWO-groep als
meer reahstische vahditeitsschattingen te beschouwen dan die binnen de MAVO- en de
LBO-groep.

Zoals blijkt uit tabel 3 had de variabele 'miheu' met de voorspellende en de te voorspellen
variabelen correlaties in de orde van grootte van .35 a .40. De voorspellende waarde van
de SVT, uitgedrukt in correlatiecoëfficiënten, is nagenoeg onafhankelijk van 'milieu',
zoals blijkt uit een vergelijking van de partiële met de oorspronkelijke correlaties tussen
SVT en schoolsucces.

Het advies HdS correleerde ongeveer evenhoog met schoolsucces als de SVT-totaalscore
en vrij hoog met de overige SVT-variabelen. Deze hoge positieve correlaties zijn waar-
schijnhjk te verklaren uit het feit dat in een aantal gevallen de uitslag van de SVT reeds
bekend is bij de onderwijzer of het hoofd der school, voordat hij zijn advies geeft; als
zodanig bestaat het gevaar van beïnvloeding.

De variabele 'geslacht' tenslotte bleek niet samen te hangen met de onderzoeksvariabelen,
zoals uit tabel 3 bhjkt.

De SVT moge een zekere voorspellende waarde hebben, over de kwaliteiten als selectie-
middel kon vanuit het onderzoek uiteraard geen uitspraak worden gedaan; het is de vraag
of percentages 'ongeschikte' leerlingen in het vervolgonderwijs zullen veranderen als de
toelatingsnormen worden verschoven. Wat er bekend is over factoren die een rol spelen bij
beoordelingsgedrag op scholen (cf. De Groot, 1966), wijst er sterk op dat deze vraag
ontkennend moet worden beantwoord.

Zoals in paragraaf 2 reeds is opgemerkt, is een SVT-advies 'geschikt voor MAVO' of lager,
in zoverre bindend dat, in overeenstemming ervan met het advies van het hoofd der
school, geen HAVO/VWO brugklas mag worden gekozen. Als het advies van het hoofd der
school in dit opzicht niet overeenstemt met het SVT-advies, geeft de uitslag van een
mondeling toelatingsexamen de doorslag. Uit de onderzoeksgegevens blijkt nu dat van de
leerlingen met het advies 'geschikt voor MAVO' of lager, er ongeveer twee maal zoveel in
de HAVO/VWO brugklas komen als er een mondehng toelatingsexamen hebben afgelegd
(resp. ± 12 en ± 6%). Een en ander wijst er op dat in een aantal gevallen de regels rond het
SVT-advies niet consequent worden toegepast.

De SVT bevat slechts een taal- en een rekenen-component. Gezien de evaluatieve functie
die de SVT mede heeft, is het de vraag of deze beperkte samenstelling daarvoor voldoende
is. Het is ook de vraag of deze samensteUing voldoende is voor voorspelling van schoolsuc-
ces op het voortgezet onderwijs na vier jaar. Zo lijkt, althans op het VWO de inhoud van
het onderwijs na vier jaar in behoorlijke mate een beroep te doen op de ruimtelijke
intelligentiefactor (Kema, persoonlijke mededeling).

Ten aanzien van de generaliseerbaarheid van de onderzoeksresultaten kan gezegd worden
dat de laagste milieu-categorieën ondervertegenwoordigd leken. Het effect daarvan op de
generahseerbaarheid van de gevonden vahditeitscoëffïciënten bleek zeer gering te zijn,
zoals bleek uit berekeningen binnen de milieu-categorieën. In de tweede plaats bleken de

LBO-leerlingen ondervertegenwoordigd te zijn. Het effect daarvan is geschat door het
aantal LBO-leerlingen nog sterker te verminderen (aselect) en de berekeningen opnieuw
uit te voeren. Een en ander bleek geen invloed te hebben op de uitkomsten.
Het onderzoek naar de voorspellende waarde van de SVT maakte deel uit van een serie
onderzoeken over selectiemomenten in het onderwijs. Resultaten van deze serie onderzoe-
ken zijn samengevat in de gemeentelijke nota: 'Kiezen of gekozen worden' (1976). Deze
nota dient als leidraad in de discussie over te voeren beleid terzake van selectie in het
onderwijs. In de nota wordt uitgebreid ingegaan op mogelijke vervanging van de school-
vorderingentoets door andere middelen, zoals een proefklas, zonder argumenten hiervoor
te ontlenen aan de resultaten van het SVT-onderzoek. Men krijgt de indruk dat, hoe de
onderzoeksresultaten ook mochten zijn uitgevallen, voor vervanging van de SVT zou
worden gepleit. Nu de SVT als redelijke voorspeller uit het onderzoek te voorschijn komt,
worden argumenten gezocht in de vermeende kwaliteiten van andere middelen. Gezien
vanuit het 'adversaire' model voor toegepast wetenschappelijk onderzoek (Hofstee, 1976),
is het hier weergegeven onderzoek in feite nutteloos geweest: Koppeling van uitkomsten
en beleid is niet vooraf bepaald en blijkt achteraf kennelijk niet aanwezig te zijn. Gezien
vanuit een algemener kader is dit onderzoek wel zinvol geweest: Het heeft (weer eens)
aangetoond dat een schoolvorderingentoets een goede voorspellende waarde kan bezitten.

Bos, D.J. Schoolkeuzeadviezen, een resultatencontrole na 5 jaar. Den Haag: Mouton, 1974.

F^nde, H. van den en M. Verhoef. Inductieve Statistiek. Amsterdam: Elsevier, 1973.

Gerdes, H. en H.J. Rotteveel. De invloed van het sociale milieu op het doorstromingsproces van l.o.
naar v.o., Groningen: scriptie Sociologisch Instituut, 1973.

Guilford, J.P. Fundamental statistics in psychology and education. New York: McGraw-Hill, 1965.

Hofstee, W.K.B. Hoe nuttig is onderwijsresearch. In: Congresboek Onderwijsresearchdagen, 1976,
22-28.

Kiezen of gekozen worden, discussienota over enkele selectiemomenten in het onderwijs. Groningen,
1976.

Nijsse, M. Intelligentie en schoolprestaties in de brugklas van het AVO en VWO. Groningen: Subfacul-
teit P.A.W., 1975.

Rotteveel, H.J. en H.C. Lutje Spelberg. De voorspellende waarde van de schoolvorderingentoets. Gro-
ningen: Bureau Gemeentelijk Adviseur Voortgezet Onderwijs, 1975.

Conceptual Structure of Texts; A Study in the
Validity of Scoring Essay Examinations^

Centrum voor Onderzoek van het Wetenschappelijk Onderwijs (COWO), Universiteit van Amsterdam
Wim van der Roest

In this study the effect of using a method for scoring essay examinations was investigated. This
method is based upon a system which aims at representing the conceptual structure of a text in
a language-free and content-free vray. The system is derived from recent ideas about representa-
tion of knowledge. It was our hypothesis that using this system (more specifically: a conceptual
schema constructed by means of this system) would increase the inter-rater reliability and the
construct-validity of the ratings.

Construct-validity was operationalized by means of constructed texts, which contained pre-
specified errors (simulation-texts). The task of the raters was to identify errors and to score the
essays accordingly. Both simulation texts and natural texts, collected from students participa-
ting in a regular examination, provided the essays to be scored.

The experimental group (7 subjects) scored the texts according to a conceptual schema. A
control group (7 subjects) did the same, but used a verbal schema. The instructions for each
group were as similar as possible.

Inter-rater reliability turned out to be higher in the control group than in the experimental
group, but for construct validity the reverse was the case. Two explanations for this somewhat
paradoxical outcome are discussed and a global revision of the system is suggested, where more
emphasis should be put upon distinguishing categories of relations than upon categories of
concepts.

Hie advance of multiple choice examinations has diminished the interest in essay exami-
nations for testing knowledge or insight. There are reasons to regret this development
(Wilbrink, 1977). An important motive to prefer multiple-choice questions is the fact that
many disturbing factors may influence the scoring of essays, which decrease the reliabihty
and vahdity of the measurement to an unacceptable degree. Particularly, in scoring some-
what extended texts there is the problem that by the way the student expresses his
conceptualizations, judges may be easily tempted into attaching non-intended interpreta-

1. An earlier version of this paper was read by the second author at the 'Onderwijsrdsearchdagen
1976' in Groningen (April 1976). The authors wish to thank drs. Chr. Hamaker (Psychological Labora-
tory, University of Amsterdam) for his advices and moral support, and the psychology students, who
participated as subjects in this'experiment. A more detailed report of the experiment is available, in
Dutch, at the COWO, Oude Turfmarkt 149, Amsterdam.

tions to an essay. This is the consequence of (among other things) the fact, that the use of
language is to a large extent based upon the principle that the reader/listener has to
supplement from his knowledge information which the writer/speaker presumes to be
known, as the next expression demonstrates:

This text implies that 'he' has missed an earlier train. This presupposed information can
be deleted from the text when the potential readers know what trains, stations and times
of departure are, and how they function. A student, writing an essay, is pre-eminently in
the situation where he may suppose his reader familiar with the subject matter. By this
principle language is an extremely efficient, but suggestive and sometimes imprecise
means of communication.

In this study we tried to eliminate this language-spell by focussing the attention of the
judges on the conceptual structure underlying the text.

Text and its conceptual basis are not isomorphic. The sequential nature of language
forces us to express successively what is at least a multi-dimensional structure of concepts
and relations (Frijda, 1972). Figure 1 presents a (hypothetical) structure; C symboUzes a
concept, ^ a relation.

An equivalent linearization of this representation is expressed, for instance, by the follow-
ing sequence:

Text understanding can be conceived of as translating such a sequence back into a
structure. But it is more. The structure must fit into the already extant knowledge of the
reader. Or, in other words, besides the message, the news, the text also contains anchoring
points, references to what is supposedly already known. Text can contain news in two
ways (generally both ways at the same time):

ITie expressed concepts are known (CI through C7; each relation is identifiable), but
their configuration is new.
For instance:

In this expression the meaning of the indicated concepts is known, but the news consists
of the specific combination.

(5) Chi-square is a measure for the discrepancy between expected and observed frequen-
cies

The distinction between these two ways is relative: new combinations of known concepts
can always be considered as a new concept, whether it has a name or not. The point is
that the conceptual structure of a text carries the information, which the writer/speaker
wants to communicate.

Of course, this view on the relation between text and conceptualization is incomplete. As
said before, parts of a conceptualization will be deleted because they are considered
trivial and known. On the other hand, language provides for various means for facilitating
conceptual reconstruction, as, for instance, function words (cf Schmidt, 1976) and syn-
tactical constructions, as embedding and indicating topic-comment relations. However,
particulary lacking is a description of the process of text understanding (Breuker, van
Dijk & Utrecht, 1977; Kintsch & van Dijk, in preparation). But for this study these
specifications are not required.

What is more important is a theory that describes how the structure of conceptualizations
can be represented. During the last decennium, in cognitive psychology and artificial
intelligence a number of ideas and specified theories about representing knowledge have
been developed. Generally, knowledge is represented in the form of propositions (or its
graphic equivalents). In the older theories propositions consisted of a concept and a
predicate, and a predicate of a relation and another concept (or an attribute and a value).
Because the concept in a predicate may itself contain one or more predicates, complex
embedded structures can be constructed.

In later years many new constraints were introduced, particulary under the influence of
Schank's Conceptual Dependency Theory (Schank, 1972, 1975) and the procedurally
oriented representations of Winograd (1972). These constraints had their origin in no-
tions, or intuitions, about the categories people use to interpret their physical and social
environment, (cf. Levelt (1973, III) these categories can be called 'naive'; see also Miller &
Johnson-Laird, 1976). It is assumed that people distinguish between states and events;
that they perceive causal relations between events or that events are conditioned by
specific purposes, etc. Although researchers differ greatly in their specific theories, there
is some consensus on global and central aspects (see, e.g. systems by Schank (1972,
1975), by Norman, Rumelhart & the LNR Research Group (1975), Meyer (1975), Rieger
(1976), Utrecht & Koster (1976) and see also articles in Bobrow & Collins (1975)). These
global aspects can be summarized as follows:

- In a proposition the denoted action or state determines the relations the participating
concepts hold among themselves. Or, put in other words: the action forms the plot.

according to whicti tlie various specific concepts play a role relative to one another.
These roles have a superficial resemblance to the concept 'case' in linguistics. For
instance in:

Frederick plays the role of actor in relation to the action which transfers an object, kiss,
to the indirect object or, recipient, Angelica. Note, that the action is not 'to kiss', but a
more primitive, or abstract form: 'to transfer'. Note also that this representation does not
indicate the interactive character of kissing, where Angelica should be an actor as well.
There is no complete consensus about which roles can be distinguished.
Several types of relations can connect propositions, as there are: conjunction and disjunc-
tion, and various types of conditional relations, as CAUSE, PURPOSE ENABLEMENT,
etc (Abelson, 1973; Rumelhart, 1975; Meyer, 1975; Rieger, 1976; Utrecht & Koster,
1976).

Generally, these representation systems form the heart of computer programs for inter-
preting natural language input, but they have a much wider applicability (Breuker, 1976).
They can be used 'by hand', as an instrument for conceptual analysis, which produces
.language-free descriptions in terms of conceptual structures. Language-free means, in this
context, that the system assigns to paraphrases, — i.e. texts with the same message —,
identical descriptions.

The responses to essay-questions, that ask for reproductions, can be viewed as paraphrases
to the original text, when these responses are correct. The degree of conceptual similarity
between the original text and the reproduction can be established by comparison of the
conceptual structures, as they can be distilled from the texts by means of a conceptual
analysis. This notion forms the basis of this study.

In this study a system for the representation of knowledge was used, that was developed
at the COWO, University of Amsterdam (Breuker, 1976). This system was designed to
represent content aspects of educational objectives. For a number of reasons this system
appeared to be less applicable to this practical purpose (a more suitable version is tried
out; Breuker, 1977).

We present here the main categories and relations on which the system is based. There are
concepts (C), states (S), changes of state (P) and events (E). The major rules of this
'conceptual grammar' are:

2. A change of state consists of an antecedent and a consequent state, which are con-
nected by a transformation-operator (=>). E.g. [SI =;■ S2] = PI

3. An event consists of one or more conditional states, which are connected with a
change of state by conditional relations. E.g.

There are several types of conditional relations.
4. An event, change of state or state can be rewritten as a concept. For instance, the
concept 'Second World War''denotes an enormous amount of events (depending on the
subjects personal knowledge).

The system contains a number of other relations and quantifiers. The series of symbols,
which are produced by the system, are similar to algebraic expressions, that are the result
of abstractions from reasoning problems, put in natural language. Cows and horses be-
come 'a' and 'b', or may be added under a conceptual supercategory (e.g. cattle). So the
system not only produces 'language-free', but also 'content-free' descriptions: attention is
focussed on the presence of concepts and their relative structure. Conceptual structures
(henceforth: schema's) are unambiguously comparable relative to these two aspects.

The reliabihty of scoring multiple-choice examinations is generally situated near 100%.
This tells httle about the reliability of a multiple-choice test as an instrument for mea-
suring performance. Scoring reliability is only one of the conditions for reliable measure-
ment. However, depending on the objectives tested for (or the construct validity aimed
at) a particular indicator for measuring rehability can be considered adequate to justify
the use of a test. When, for instance, the subject matter is intentionally heterogeneous
(e.g. capita selecta), indicators which are based upon the relatedness of items (homogenei-
ty) are only of limited use. The uncritical use of indicators of reliability has the additional
effect that often little attention is paid to the vahdity of the test. Particularly in com-
posing multiple-choice tests this can be the case. Items are often selected on the basis of
their correlation with' other items, rather than on the basis of considerations about their
content (cf. RovinelU & Hambleton, 1977). However, the construction of essay items
poses considerably less problems, than that of multiple-choice items, so that temptations
towards improper selections and biases, as a result of non-equivalent alternatives, can be
avoided. There are other important advantages, that compensate for the lower scoring
reliability and for the fact that it is often difficult to assess reliability of measurement
(Wilbrink, 1977).

A compromise, which combines the advantage of easy item construction and less response
restrictions with reliabihty indications similar to multiple-choice examinations, is an es-
say-examination, that requires short answers at a maximum length of one or two sen-
tences. Inter-rater reliability is generally high (between .70 and .90), but there are still
some disadvantages to these telegraphese responses. Because knowledge is never isolated,
any question, how simple it may be, has the potential to elicit an elaborate answer. When
the student is forced to present a short answer, he is not only faced with the problem of
what knowledge to retrieve, but also of what to select from this. He has to express only
those conceptualizations, which are supposedly sufficient for the teacher to interpret as

the intended ones. This selection may be guided by false assumptions, which decreases
the validity of the test. This validity may also be reduced, when scoring consists only of
counting the presence of certain words (concepts). Finally, short-essay items must refer
to easily definable conceptualizations: particularly, details of the subject matter are of
this character. So there is a chance, although less than m constructing multiple choice
items, that the student is tested on his knowledge about byways and that the test is not
representative for the subject matter.

Long essay items pose less restrictions. However, when they ask for productions, i.e. the
construction of new conceptualizations on the basis of what has been learned, instead of
reproductions, it will be difficult to draw up a model-text. So this study is restricted to
reproduction-items.

— an increase in construct validity, because scoring would be hmited to the conceptual
aspects, independent of the use of language to express these conceptualizations.

The texts to be scored were prepared in the following manner. From a textbook (Lindsay
& Norman, 1972, pp 41/42) a text was selected about after-effects in visual perception.
This text was part of a regular, undergraduate examination for psychology students at the
University of Amsterdam. Immediately after this examination students were asked to
participate in this study and to answer a question about this visual after-effect. The
students were instructed to formulate their answers as elaborately as possible. They were
told that their participation would have no influence on the results of their examination.
Sixty out of approximately hundred students responded to this request.
The question to be answered by the students was formulated in such a way, that a
complete and correct answer would cover the conceptual content of the selected model-
text. From these sixty texts, ten texts were selected for the scoring experiments. At face
value, these texts covered a wide range of poor to completely correct responses. These
texts are referred to as student-texts. In order to have a criterion for the assessment of the
validity of scoring, ten simulation-texts'\Nexe constructed by the experimenters on the
basis of the experimental scoring-rules. Every simulation text was the expression of (a
part of) the schema of the model-text, so that the conceptual content of the simulation-
texts was well-specified in advance, and, therefore, its 'true'-score as well. In order to
prevent stylistic idiosyncrasies etc, which would distinguish the simulation-texts from the
student-text, the sentences to express these conceptual structures were taken from the
fifty remaining student texts. Each judge received all twenty texts to be scored, in
random order.

Two groups of judges participated in the experiment: a control group and an experimen-
tal group. Both groups received the same texts to be scored.

Subjects from the experimental group received a description of the representation system

(with an extensive explanation), the scoring rules for intrusions and omissions (see be-
low), the model-text from Lindsay & Norman and its schema to study at home. After
studying this written material, a group session followed to discuss problems, lasting two
hours. This was followed by the experimental session, in which the subjects compared the
texts with the schema. The comparison procedure was as follows: The subject put a
transparent piece of paper on the schema. On this paper he copied those concepts and
relations he could identify in the text to be scored. The result of this procedure is a
conceptual structure of this text, according to our representation system. The amount of
overlap between the model schema and the schema of the text to be scored indicates the
conceptual reproduction score. Missing concepts or relations are omissions. When on the
place of a concept or a relation another concept or relation was found, this was called an
intrusion. On the base of a well specified scoring system omissions resulted in a score. The
intrusions were to be notified by the subjects, but had no influence on the score. It is
very difficult to design a scoring system for intrusions and intrusions hardly occurred in
the texts to be scored.

Subjects from the control group received a verbal schema, a summary of the model text.

The Structure of this verbal schema corresponded closely to the representation schema of
the experimental group, so that the scoring systems were almost similar. The main differ-
ence is the fact that in the explanation no reference could be made to 'formulas', but to
verbal expressions. These subjects also received an amount of written material to study at
home. This packet had almost the same number of pages as that of the experimental
group. It consisted of copies of literature about problems of scoring essay examinations, a
description of omissions and intrusions and the model-text. During the group session the
verbal schema and its related scoring system were formulated. This session was followed
by the experimental sessions, in which the control subjects scored the twenty texts on the
basis of the verbal schema and the scoring system.

This procedure deviated in one important aspect from our original plan. Originally we
intended not to give the raters of the experimental group ready-made schema's, but they
should have constructed these themselves. In this way, the subject would have been
experienced in applying the representation system, instead of recognizing its products
(even one single product) and its referents. Each subject then would have constructed his
own model-schema and schema's of the text to be scored. These schema's would have
provided insight in the aptitude of the subjects to apply the system, in the process of how
a conceptual structure is abstracted from a text, and in the scoring-process itself. But
there was not enough time to execute this plan. It would have taken the experimental
subjects at least a full week to learn how to abstract representation schema's from various
texts independently.

All 14 subjects (7 in each group) were graduate psychology students, majoring in Method-
ology at the University of Amsterdam. They were recruited in the following way. From a
list of all students, majoring in Methodology, students were randomly assigned to one of
the two groups. Then they were telephoned and asked to participate in this study.
Parricipation was voluntary; no money or study compensation was offered.

As an index for the degree of agreement to assess inter-rater reliability we used the
following formula:

This index of agreement is from Lu (1971) and based upon a within rated object variance
under the assumption of maximum entropy. This index can range from 1 to 0. Zero
indicates no agreement; the scores were randomly assigned. One means maximum agree-

ment: the observed within rated object (or: error) variance is zero. All indices in table 2
are significantly different from zero (p < .01).

The differences between these inter-rater agreement indices can be tested. The form of
the distribution can be deduced in the following way:

s?/Gfj forms a chi-square distribution, with df = n(m-l), where m is the number of sub-
jects (judges) and n the number of objects (texts).

A =-—— equals 1 -——, therefore 1 - A = -—— forms also a chi-square distribution.

Then therafto,--;-—— , follows an F-distribution, with dfe and dfc degrees of

freedom where Aexp = index of agreement in the experimental group, dfc = the number
of degrees of freedom in the experimental group. Aeon = index ofagreement in the control
group, and dfc = the number of degrees of freedom in the control group. The F-values are
presented in table 3.

As an index of one of the operationalizations of construct vaHdity a criterion-referenced
measure of variance was used, developed by Livingston (1972):
(Yi - Yc)'

-, where yj is the score by the subject, y^ is the criterion or 'true' score of the

simulation- text, and m is the number of subjects. It was assumed that the smaller the
variance the more valid the scoring procedure. The smaller this index the less the scores
deviate from the criterion-score.

Another index for construct validity is the (rank-) correlation between the scores by the
subjects and the criterion-score over the 10 simulation-texts. This gives also an impression
of the differences between the subjects (see for instance the third subject in the experi-
mental group).

As table 2 shows the reliability of scoring is higher for the control group, than for the
experimental group, which is contrary to our hypothesis. But the construct validity of the
scores, as operationalized by the criterion-scores of the simulation-texts, is higher for the
experimental group than for the control group. Table 4 shows that the variance of the
scores by the subjects around the criterion-score is smaller for the experimental group
than the control group for 7 out of 10 texts. For 2 texts, where the reverse is the case,
the criterion-score was 10, i.e. completely correct. But the experimental group appeared
to be very sparing in this score, probably because the experimental scoring procedure is
aimed at 'look-for-the-error', so that every ambiguous or unclear statement in the text is
used to satisfy this 'critical scoring' attitude (see also table 1).

There are at least two explanations for this paradox between the indices for reliability
and validity.

The first one is that the system contributes nothing to the improvement of the scoring
procedure; it obstructs it even slighly, because it increases disagreement between judges,
which can be caused by the fact that each subject has his own interpretation about the
use of the experimental scoring procedure. The higher validity, then, is an artefact, caused
by the fact that the simulation-texts were constructed on the basis of the same system, as
the scoring-procedure. This is suggested by the fact that the student-texts are scored less
rehably, than the simulation texts (see table 2 and table 3), which could mean that the
simulation-texts are artificially made to 'fit' the requirements of the scoring procedure.
But the same difference is observed for the control-group, so that only the uninteresting
conclusion is justified that the student- and simulation-texts differ, in such a way the
latter allow for a somewhat more consistent scoring. Therefore, another explanation
seems somewhat more plausible, if only because it is more in accordance with our as-
sumptions.

The relation between reHability and vahdity, as measured in this study, can be stated in
the following way. The subjects in the control group agree more often in scoring not
intended, i.e. not valid, differences between the texts than the subjects in the experimen-
tal group. These not intended differences may be elicited by the style, the specific use of
language, in the texts; exactly those differences which the scoring procedure of the
experimental group tried to eliminate. However, one should be careful to generahze from
this study, as from any study where the representativeness of the material used is hard to
assess (Clark, 1973). We used only one model-text.

The above mentioned comforting explanation does not alter the fact that we are disap-
pointed about the defective reliability of the experimental scoring; in its absolute value as
well as relative to the control-group performance. It is true' that the control group re-
ceived training, instructions and scoring-procedures which are far superior to what is
general practice, but we got some doubts about our system.

Generally, representation systems are considerably more specified than ours, particulary
regarding the nature of relations. In order to keep our system simple and convenient, we
introduced a very restricted amount of specifications. A consequence of this may have
been, that the subjects were forced to wriggle their interpretations of the texts into the
Procrustes bed of the system, where one subject severed the heads and another the legs.
The system derives its power from the systematic way it confronts a text with questions
about the conceptual structure underlying it. But we have the suspicion, that the ques-
tions our system ehcits are not the most relevant ones. To ask oneself whether a state-

ment refers to a state or an event appears to have less analytic consequences, than the
question of what type of relation is indicated between two concepts. When interpretation
is performed by computer, conceptual and relational categories must be completely spe-
cified, but when this is done 'by hand' and the gap between language and conceptualiza-
tion has to be bridged with the inferences the subject makes, then it becomes essential
which questions will guide these inferences in an optimal way. Questions about relational
categories, then, seem more appropriate than a number of formal conceptual categories
with which the system is equipped now. These considerations form the point of departure
for the development of another system (Breuker, 1977).

Abelson, R.P. The structure of belief systems. In R.C. Schank & M.K. Colby (eds) Computer Models
of Thought and Language, San Francisco; Freeman, 1973.

Bobrow, D.G. & Collins, A.M. (eds). Representation and Understanding, New York: Academic Press,
1975.

Breuker, J.A. Twee systemen voor het weergeven van de inhoudelijke struktuur van teksten. Paper for
symposion on Textstructure', Utrecht, 1976.

Breuker, J.A. In kaart brengen van leerstof, Kursus 4, COWO-Docentenkursus. Universiteit van Am-
sterdam, 1977.

Breuker, J.A., van Dijk, T.A. & Utrecht, L.C. Tekstverwerking. ZWO-Subsidieaanvraag, Stichting voor
Psychonomie. Instituut voor Cognitie Onderzoek, Universiteit van Amsterdam, 1977.

Clark, H.H. The language-as-fixed-effect-fallacy; a critique of language statistics in psychological re-
search. Journal of Verbal Learning and Verbal Behavior, 1973,72,335-359.

Frijda, N.H. Simulation of long-term memory, Psychological Bulletin, 1972, 77, 1-31.

Kintsch, W. & van Dijk, T.A., Toward a model of text comprehension and production. Working
paper. University of Colorado/Universiteit van Amsterdam, in preparation.

Levelt, W.J.M. Formele Grammatica's in Linguïstiek en Taalpsychologie, (deel Hl) Deventer; van Log-
hum Slaterus, 1973 (English translation; Mouton, The Hague, 1976).

Lindsay, B.J. & Norman, D.A. Human Information Processing, New York; Academic Press, 1972.

Livingston, S.A. Criterion referenced appUcation of classical test theory, Journal of Educational Mea-
surement, 1972, 9, 13-27.

Lu, K.H. A measure of agreement among subjective judgements. Educational and Psychological Mea-
surement \91\,31, 75-84.

Meyer, B.J. The Organization of Prose and its Effects on Memory, Amsterdam: North Holland, 1975.

Miller, G.A. & Johnson-Laird, P.N. Language and Perception, Cambridge, MA: Harvard University
Press, 1976.

Norman, D.A., Rumelhart, D. & The LNR-Research Group, Explorations in Cognition, San Francisco;
Freeman, 1975.

Rieger, C. An organization of knowledge for problem solving and language comprehension. Artificial
Intelligence, 1976, 7, 89-127.

Rovinelli, R.J. & Hambleton, R.K. On the use of content specialists in the assessment of criterion-re-
ferenced test item validity. Tijdschrift voor Onderwijsresearch, 1977,2, 49-60.

Rumelhart, D. Notes on a sciiema for stories. In D.G. Bobrow & A.M. Collins (eds) Representation and
Understanding, New York: Academic Press, 1975.

Schmidt, Ch.F. Understanding human action. In J.S. Carroll & J.W. Payne (eds) Cognition and Social
Behavior. Hillsdale NJ: Erlbaum, 1976.

Utrecht, L.C. & Koster, Ch. COLAPAR, Princiepes voor een kognitieve taalontleder. Amsterdam, Rap-
port FL 28.8.76.198, Psychologisch Laboratorium, Universiteit van Amsterdam, 1976.

WUbrink, B. Het verborgen vooroordeel tegen andere dan meerkeuze vragen, Onderwijsresearchdagen
77, Amsterdam, Stichting Onderwijsresearch, 1977.

Winograd, T. Understanding natural language. Cognitive Psychology, 1912,3, 1-191.

Instituut voor Pedagogische en Andragogische Wetenschappen Vakgroep Ontwikkelingspsychologie
Rijksuniversiteit Utrecht

Davydov c.s. about the relation between education and cognitive development. A journeyreport

In this article we want to give an idea about the thoughts of a progressive educational psycholo-
gist in the U.S.S.R. on the relation between cognitive development and education.
On our trip to Moscow we discussed this subject with Davydov and two of his colleagues,
Mikulina and Zak, who are very interested in cognitive development. The talks with Davydov
about the subject were very general. He told us some more about the difference between
theoretical and empirical generalization to be used as a psychological base for the introduction
of 'new math' ideas in the elementary school. Mikulina is doing research on the subject in a
more specific part of mathematics education, namely the solving of verbal problems. Strongly
related to this subject is the topic of reflection of action and thought. Zak is doing research on
reflection vwth children of 7-10 years in the experimental school in Moscow (where the try-outs
of the experimental programs take place) and in traditional schools.

In dit artikel wil ik een kort verslag geven van de gesprekken met V.V. Davydov en twee
gepromoveerde medewerkers van Davydov, t.w. H. Mikulina en A.Z. Zak. Daarna zal ik
trachten enige vergelijkingen te trekken tussen uitgangspunten die de basis zijn voor
onderwijsvernieuwing in de Sovjetunie (c.q. de groep Davydov) en de uitgangspunten, die
Nederlandse onderwijsvemieuwingsbewegingen veelal kenmerken. Hiermee wil ik geen
'oost-west vergelijking' en ook geen vergelijking tussen de Sovjetunie en Nederland geven.
Dit is niet mogelijk en bovendien niet zinnig. Net zo min als er sprake is van een Neder-
landse onderwijspsychologie, is er sprake van een Russische onderwijspsychologie. Met
name Davydov (maar ook Gal'perin) merkte verschillende keren op dat zijn werk door
menig 'traditioneel' psycholoog niet in dank afgenomen wordt.

1 De reis heeft in maart 1977 plaatsgevonden samen met Annecoos Vuurmans en Jo Nelissen, beide
werkzaam aan het Schooladviescentrum (rekensectie) te Utrecht.

In het door ons drieën samengestelde reisverslag zijn behalve een uitgebreidere weergave van de in dit
artikel opgenomen gesprekken, ook nog lesverslagen van de experimenteerschool no. 91, in Moskou en
gesprekken met Gal'perin, Venger en Ajdarova opgenomen.

In 1969 is er in Tbilisi een congres gehouden met als onderwerp: experimenteel onder-
zoek naar de problemen bij de vernieuwing van het basisonderwijs. Davydov heeft op dat
congres een lezing gehouden met de titel: 'Problemen bij het onderzoeken van de relatie
onderwijs en cognitieve ontwikkeling'. Ik zal in dit hoofdstuk zowel van de lezing als van
het reisverslag gebruik maken.

In de lezing zegt Davydov dat in de maatschappij de neiging bestaat steeds meer te
specialiseren. Deze ontwikkeling zien we ook in het onderwijs. Alles wordt onderverdeeld;
er komen speciale klassen, speciale scholen etc. Aan de andere kant is er een veralgeme-
ning van het onderwijs waar te nemen, d.w.z. de algemene vorming wordt uitgebreid en
geïntensiveerd. (Ons klinkt dit alles niet onbekend in de oren, zie ook Zonneveld, 1977,
P. 9).

Het onderwijs komt nu voor het probleem te staan de leerlingen methodes te geven,
waarmee ze zich zelfstandig nieuwe kennis kunnen eigenmaken. Zowel in de pedagogie als
in de psychologie heeft men het belang van het opvoeden tot 'zelfstandig denken' al veel
eerder ingezien. Een belangrijke component van het zelfstandig denken is het kunnen
omgaan met middelen en methodes om de structuur van de theoretische kennis te achter-
halen, het kunnen analyseren van de opbouw van begrippen in hun systemen (zo veron-
derstelt b.v. een actieve beheersing van de grondslagen van de huidige wiskunde een goede
kennis van het axiomatische karakter ervan). Uiteindelijk komt het erop neer dat niet
alleen inhouden, maar ook vormen van kennisstructuren geleerd worden. In de filosofie
wordt dit reflectie genoemd op de kenprocessen zelf. In het gesprek met Zak komen we
hierop terug.

Dat er in het onderwijs weinig sprake is van zelfstanding denken, vindt volgens Davydov,
zijn oorzaak in het feit dat psychologen, pedagogen en didactici impliciet of expliciet
uitgaan van een empirische theorie over het denken.

De empirische denktheorie houdt in dat de mens door direct waarneembare eigenschap-
pen van objecten te vergelijken, de gelijke (is gemeenschappelijke) eigenschappen kan
vinden en deze met een woord aanduiden.

Deze algemene eigenschap die dan geassocieerd wordt met een bepaald woord, vormt de
inhoud van het begrip. Dankzij op deze wijze gevormde begrippen, kunnen we de ons
omgevende objecten en verschijnselen min of meer nauwkeurig systematiseren en klassifi-
ceren, op grond van de hiërarchie van uiterlijke kenmerken.

Doordat men impUciet of expHciet de empiristische theorie aanhangt, leidt dit voor de
onderwijspraktijk tot de volgende verschijnselen: er wordt geen onderscheid gemaakt
tussen empirische en theoretische begrippen, waardoor een onkritische houding van de
leerlingen t.o.v. hun leefwereld ontstaat; de functie van de aanschouwelijkheid en het
vergelijken als activiteit bij de begripsontwikkeling wordt in sterke mate overdreven. Het
'schoolse denken' wordt beperkt tot het opstellen van verschillende klassificatieschema's
aan de hand van uiterlijke kenmerken van objecten. Bovendien wordt het idee gewekt, dat
het intensiveren van het theoretische deel van de kennis tot stand komt door het aantal
verbale, 'abstracte' definities te laten toenemen zonder dat deze enige steun in de werke-
lijkheid vinden.

Volgens El'konin is deze empiristische theorie wel een oude, maar nog lang geen verouder-
de theorie. Het onderwijs dat uitgaat van de empiristische theorie, kan de leerhngen alleen
maar empirisch denken bijbrengen.

We moeten naar middelen en methodes zoeken die de leerlingen theoretisch leren denken.
Het onderwijs dat een dergelijk proces tot stand brengt zal tot een ander verloop en een
ander tempo van de cognitieve ontwikkeling leiden.

Toch kun je je afvragen, zo gaat Davydov verder, of het theoretisch denken dan niet op de
middelbare school ontwikkeld wordt. Zijn antwoord hierop is, dat het theoretisch denken
wel ontwikkeld wordt maar lang niet bij alle leerlingen en het verloop spontaan en
onsystematisch van karakter is. Dat er soms van zo'n ontwikkeling sprake is, komt door-
dat op de middelbare school de grondbeginselen van de wetenschap gedoceerd worden,
die kunnen leiden tot de ontwikkeling van wetenschappelijke of theoretische begrippen
en tot een theoretische benadering van de werkelijkheid. En dat leidt weer tot de ontwik-
keling van het theoretische denken.

Het probleem is nu dat de manier waarop leerstofmhouden overgedragen moeten worden,
geformuleerd is door een didactiek die uitgaat van de empiristische theorie van het den-
ken. Deze didactiek houdt geen rekening met de logische en psychologische kenmerken
van theoretische begrippen en de daarbij behorende werkvormen. Daarom kan zij niet die
katalyserende werking hebben, die zij zou moeten hebben. Wel is het zo, zegt Davydov,
dat veel academici de laatste tijd nogal wat kritiek hebben op de onderwijsprogramma's
vanwege het gebrek aan wetenschappelijkheid. We worden ons er nu van bewust, dat het
samenstellen van een onderwijsprogramma, dat een afspiegeling moet zijn van de stand
van zaken van de wetenschap, een apart logisch en psychologisch probleem vormt. Een
probleem dat zeker niet alleen door sociale wetenschappers opgelost kan worden. Hier is
de samenwerking met de vakdidactici onontbeerlijk.

Kruteckij (1968) heeft een constaterend onderzoek gedaan naar de resultaten van middel-
bare scholieren in het wiskundeonderwijs. De leerlingen die de wiskunde als vak het beste
beheersen (dit aantal is klein) zijn in staat de wiskundestof theoretisch te benaderen,
terwijl de middelmatige en minder begaafde leerlingen (dit aantal is zeer groot) hiertoe
niet of nauwelijks in staat zijn.

Het typerende kenmerk van het theoretisch denken en van een theoretische benadering
(in het gesprek met Zak komen we hier nog op terug) is het kunnen analyseren van een
concreet probleem, zodanig dat de interne en wezenlijke relaties naar voren gehaald
worden, die ten grondslag liggen aan de vele afzonderlijke verschijnselen van dit probleem
en andere analoge problemen. Daardoor zouden de leerlingen a.h.w. ter plaatse een aantal
problemen kunnen generaUseren. De leerling hoeft de problemen niet meer op hun uiter-
Hjke eigenschappen te vergelijken om ze zodoende te kunnen klassificeren.
Ons instituut, vervolgt Davydov, is nu al een aantal jaren bezig onderzoek te doen naar
methodes en middelen om het theoretische denken bij met name basisschoolleerlingen, te
ontwikkelen. Het eigenaardige van dit onderzoek is dat het alleen maar plaats kan vinden
in speciaal georganiseerd experimenteel onderwijs. Willen we n.1. onderzoek doen naar de
ontwikkeling van het theoretisch denken, dan moeten we de leerlingen eerst theoretisch
leren denken. Op deze manier kunnen we de ingewikkelde relatie die er bestaat tussen
onderwijs en cognitieve ontwikkeling onderzoeken (het hoofddoel van het onderzoek).
We zetten daarmee het onderzoek van Vygotskij, zoals hij dat in de jaren '30'begonnen is,
voort. Ph. Kohnstamm, Davydov wel bekend, heeft in de jaren '30 soortgelijk onderzoek
opgezet (zie Wolters 1976). Volgens Vygotskij is onderwijs een noodzakelijke voorwaarde
voor de cognitieve ontwikkeling. Het onderwijs kan als zodanig de cognitieve ontwikke-
ling van het individu bepalen. Deze theorie van Vygotskij is voor Davydov c.s. de basis van

waaruit hij de verandering in de ontwikkeUng van het denken en de cognitieve ontwikke-
Ung, zoals die door ons experimenteel onderwijs wordt aangebracht, bestudeert.
Aan deze theorie moeten we een aantal aspecten onderscheiden. In de eerste plaats zijn
het onderwijsproces en de cognitieve ontwikkeling niet identiek. Het onderwijs wordt bij
Vygotskij opgevat als iets wat identiek is aan 'het verwerven van maatschappelijke ervarin-
gen'. Dit verwerven vindt plaats, zowel in de spontane dagelijkse omgang van het kind met
de volwassenen en hun 'ervaringen', als in het onderwijs. De 'ontwikkeUng'behoudt zijn
volledige betekenis die tot uitdrukking komt in wetmatige, kwalitatieve verschuivingen
van niveaus. Deze verschuivingen komen natuurlijk niet tot stand als gevolg van het zich
eigen maken van een wiUekeurig begrip of waardigheid. Zij kunnen zich aUeen voordoen
als er sprake is van: ten eerste het verwerven van een systeem van kennis en vaardigheden
en ten tweede het verwerven van algemene denkoperaties die ten grondslag liggen aan dat
systeem. Met andere woorden, we moeten het effect van de verwerving van de afzonder-
Ujke begrippen strikt scheiden van het effect van de ontwikkeling (Kostjuk, 1967).

In een andere theorie, zoals die o.a. door Piaget wordt aangehangen, wordt de cognitieve
ontwikkeling gezien als een geheel zelfstandig proces dat eigen interne wetmatigheden
heeft, die in principe onafhankelijk zijn van onderwijs. Het onderwijs heeft invloed aUeen
maar op de uiterlijke bijzonderheden van het proces en het kan het tijdstip waarop de
stadia verschijnen, vertragen of versnellen. De opeenvolging van de stadia en de psycholo-
gische kenmerken ervan, kan het onderwijs echter niet veranderen.
Het is duidelijk, dat de theorie van Piaget over de ontwikkeling van het denken, de
mogelijke invloed van het onderwijs minimaUseert. Dat wil niet zeggen dat al het onder-
zoek dat Piaget heeft gedaan en nog doet, geen waarde heeft. Integendeel, Vygotskij heeft
mede dankzij de resultaten van het onderzoek van Piaget, zijn zo vruchtbare theorie
kunnen ontwikkelen. En ook wij (de groep van Davydov) maken nog steeds een dankbaar
gebruik van de zo kundige analyses die Piaget geeft van de denkactiviteiten van het jonge
kind. Zo is Piaget b.v. een van de eersten geweest, die inzag dat de ontwikkeUng van het
getalbegrip, in feite een bijzondere synthese is van twee operaties, t.w. klassificeren en
seriëren (Piaget 1959 en 1955). Ook toont Piaget aan dat deze operaties niet bij alle
kleuters volwaardig en in voldoende mate ontwikkeld zijn.

Nu worden de juiste handelingen, waardoor een synthese van deze operaties mogelijk
wordt en het getalbegrip zich ontwikkelt, op school niet behandeld. In plaats hiervan
moet het kind het getal afleiden op grond van het vergelijken van groepen objecten van
verschillende soort, die weer uit afzonderlijke objecten bestaan. Deze tegenstrijdigheid
was voor Piaget aanleiding om het volgende te stellen: 'Het is een grote vergissing te
denken, dat het kind het getalbegrip en ook andere wiskundige begrippen alleen maar in
het onderwijs verwerft. Integendeel, deze begrippen ontwikkelen zich bij het kind in hoge
mate zelfstandig, onafhankelijk en spontaan'. (Piaget 1953, Russische vertaling 1966
p. 133).

Nu al laat veel onderzoek zien dat de werkelijke cognitieve ontwikkeUng niet zo verloopt
als men tot nu toe met name in de ontwikkelingspsychologie en didactiek dacht. (Voor
een analyse van dit probleem, zie Wolters 1977).

In het experimentele onderwijs, zoals dat opgezet is in experimenteerscholen in Rusland,
moeten de leerUngen inzicht krijgen in algemene verbanden en relaties, die zo in de
directe waarneming niet naar voren komen. Dat betekent wel, dat de leerstofinhouden zo
herzien moeten worden, dat daaruit modellen af te leiden zijn die deze verbanden en
relaties weergeven.

Het samenstellen van leerstofmhouden die aan deze eisen voldoen, geeft een onderwijs-
systeem waarin basisschoolleerlingen vaardigheden en begrippen kunnen hanteren die tot
op heden alleen middelbare scholieren hanteren.

In het gesprek met Mikuhna (3) is te lezen dat zevenjarigen in de wiskundelessen systema-
tisch kennismaken met algemene relaties tussen grootheden en hun eigenschappen en het
uitdrukken hiervan in lettersymbolen.

In de 2e en 3e klas leren de leerhngen opgaven oplossen met letters als gegevens d.m.v. het
opstellen van een vergelijking. Dankzij dit onderwijs wordt de kloof tussen rekenen en
algebra kleiner en kan het kind de algebraïsche methode veel eerder gebruiken dan vroe-
ger.

In de dialectische logica worden twee denkvormen onderscheiden aldus Zak, nl. het
empiristische denken en het theoretische denken. Zijn instituut is het meest geïnteres-
seerd in en doet onderzoek naar de tweede denkvorm: het theoretische denken. Zak's
interesse gaat met name uit naar reflectie als een belangrijk moment in het theoretische
denken.

Allereerst gaf Zak aan hoe in de dialectische logica deze twee denkvormen onderscheiden
worden.

Het algemene doel van zowel het empiristische als het theoretische denken van de mens is
het bestuderen van de hem omringende objecten en verschijnselen. Het empiristische
denken resulteert in het abstraheren en definiëren van nieuwe klassen van verschijnselen
en objecten. Het resultaat is empirische kennis waarin het kenobject beschouwd wordt
door de mens als gevormd, onveranderlijk en voor iedereen op dezelfde manier waarneem-
baar. Deze kennis kan niet de oorzaken van de herhaalbaarheid van verschijnselen verkla-
ren, omdat de functie van deze kennis slechts het controleren van de rationele inhoud is;
een inhoud die d.m.v. onze zintuigen ontdekt en bepaald wordt.

Het specifieke doel van het theoretische denken is het 'waarneembare proces te herleiden
tot het werkelijke wezenlijke proces (of beweging)' (Marx en Engels). Dit doel wordt
bereikt in een gaan van abstract naar concreet, dat specifiek is voor het theoretische
denken (Il'enkov 1960). In de theoretische kennis worden de ontstaans- en ontwikkelings-
wijzen van objecten en verschijnselen weerspiegeld.

Schematisch kunnen we dit als volgt weergeven: de mens, het^subject, is in staat dankzij
zijn verstand, de objecten en verschijnselen om hem heen te reconstrueren en eventueel te

laatste, het denken over zijn handelingen,
noemen we reflectie: 'Reflection on recon-

Heel duidehjk komen de specifieke eigenschappen van deze denkvormen naar voren als de
mens problemen oplost. Gaat de mens op empiristische wijze een reeks verwante proble-
men oplossen dan wordt iedere opgave als een afzonderlijke en nieuwe opgave beschouwd en
via trial and error opgelost. De serie opgaven wordt als een toevallig conglomeraat be-

schouwd. Gaat de mens op theoretische wijze deze opgaven oplossen dan is het mogelijk
de gegevens en de relatie in één opgave te analyseren en te abstraheren, waardoor de
oplossing van die opgave onmiddellijk een algemene betekenis krijgt. Deze oplossingswijze
wordt toegepast op de aanverwante opgaven (de klasse). In dit geval is de reeks opgaven
voor de mens een systeem van probleemsituaties.

Het oplossen van de opgaven met de theoretische denkvorm onderscheidt zich het duide-
hjkst van de empiristische denkvorm door het reflectieve moment dat karakteristiek is
voor de theoretische denkvorm. Reflectie wordt in de filosofie gedefinieerd als: 'het
volledig bewust nadenken van de mens over het hoe en wat van zijn handeling; hij is zich
bewust van de daarbij gehanteerde regels en schema's'. (Il'enkov 1966). Deze reflectie,
zien we tijdens het theoretisch oplossen van opgaven op het moment dat de mens denkt
over de manier van oplossen en de inhoud van de oplossing als denkhandeling.
Meestal associëren we het woord reflectie met moraal en ethiek maar ook bij het theore-
tisch oplossen van opgaven treedt reflectie op.

Zak (1976) werkte met 7-lOjarige kinderen aan kunstmatige problemen om reflectie als
kenmerkend moment van het theoretisch denken onderzoekbaar te maken.
De kinderen kregen de volgende vier problemen op te lossen:

Alle vier de opgaven zijn in twee stappen op te lossen door achtereenvolgens steeds twee
letters van plaats te verwisselen. Opgave 1 kan b.v. als volgt opgelost worden.

De kinderen kregen de symbolen op kaartjes en de kaartjes konden verlegd worden.
(Eenzelfde type probleem vinden we ook bij Puskin (1969) en verder doet het geheel een
beetje denken aan onze schuifspelletjes.)

Tijdens het eerste deel van het experiment lossen de kinderen na een gegeven voorbeeld
de vier opgaven op (individueel met proefleider). Daarna wordt tijdens het tweede deel
van het experiment aan de proefpersoon gevraagd de opgaven te klassificeren, d.w.z. ze
moeten aangeven welke twee opgaven op elkaar lijken.

Op grond van het soort klassificatie kan dan geconcludeerd worden of er sprake geweest is
van reflectie of niet.

De opgaven zijn nl. zo samengesteld dat er twee typen klassificatie mogelijk zijn nl. op
grond van de uiterlijke vorm (is formele klassificatie). Hierin worden 1 en 3, en 2 en 4
samengenomen. (De kinderen letten op letters en cijfers).

Bij de andere klassificatie letten ze op de oplossingsmethode (is inhoudelijke klassificatie).
Hierbij worden 1 en 4, en 2 en 3 samengenomen. 1 en 4 horen bij elkaar omdat dezelfde
omwisseling plaatsvindt.

Geven de proefpersonen in het tweede deel van het experiment de inhoudelijke klassifica-
tie i.p.v. de formele klassifïcatie, dan betekent dat dat deze proefpersonen reflectie verto-
nen, immers verondersteld wordt dat een dergelijke klassifïcatie alleen maar mogelijk is na
een analyse van of denken over hun eigen handelingen om tot de oplossing te komen.
Al de ppn. die de formele klassifïcatie gegeven hadden vroeg de pl. of ze nog op een
andere manier konden klassificeren.

Vervolgens vraagt de proefleider o.a.: 'Hoe heb je de eerste opgave opgelost?' Het meest
voorkomende antwoord van de experimentele groep - afkomstig van de experimenteer-
school no. 91 in Moskou — luidde: 'Ik verwissel de buitenste en de binnenste kaartjes'.
Het meest voorkomende antwoord van de controlegroep — afkomstig van een traditionele
school in Moskou — luidde: 'Ik verwissel kaartje N met kaartje B, en kaartje C met kaartje
A'.

Op grond van de kwalitatieve analyses van de gegevens, voor het grootste gedeelte be-
staande uit een scoring van het type antwoorden dat gegeven wordt, meent Zak het
volgende te mogen zeggen:

- de ppn. uit de experimentele groep kennen het oplossingsprincipe d.w.z. ze hanteren
een algemene oplossingsmethode.

- de ppn. uit de controlegroep kunnen alleen de oplossing geven van iedere afzonderlijke
opgave. Ze waren b.v. niet in staat om b.v. de Ie en de 4e opgave in een groep onder te
brengen.

Bovenstaand experiment was een individueel experiment. In de modificatie werd het
experiment klassikaal gedaan. De ppn. kregen de vier problemen op papier (i.p.v. de
symbolen op kaartjes) en hen werd gevraagd de oplossingsstappen schriftelijk weer te
geven. Het tweede deel van het experiment bestond uit een aantal schriftelijk gestelde
vragen waarin weer gevraagd werd naar klassificatiecriteria (zie boven). Uit de beantwoor-
de vragen is weer af te leiden of het kind reflecteert of niet. Dit klassikale onderzoek is
gedaan in de 3e klassen van een traditionele school en van de experimenteerschool no. 91
in Moskou. In de 3e klas van de traditionele school gaf 50% van de leerlingen antwoorden,
waaruit blijkt dat ze reflecteren, in de experimenteerschool 80% (verschil is significant).

Zak wil zijn onderzoek naar reflectie bij kinderen in drie richtingen uitbreiden.

Het onderzoek naar reflectie bij verschillende typen problemen. Hij denkt daarbij met
name aan problemen als:

Onderzoek naar condities waaronder reflectie optreedt. Zak heeft het icfee dat met
name modellen van situaties (grafieken, schema's) en het modelleren van situaties (het
maken van schema's en grafieken) belangrijke condities zullen zijn.
Zo is het mogelijk om een model (tekening) van een tafel te maken maar ook is het
mogelijk een model te maken van het bouwen van een tafel.

Waarschijnlijk is het dan mogelijk aan de hand van het begrip model vier reflectieni-
veaus te onderscheiden, nl.:

4. Gebruikmaken van een model van beide, zowel object als handelingen met het
object (optimale reflectie).

3.1. Onderscheid leer- en practische opgaven en de theoretische generalisatie in het
wiskunde-onderwijs

Het onderwerp waar Mikulina zich mee bezighoudt is het onderzoek naar de ontwikkeling
van het denken bij kinderen in de leeftijd van 7-10 jaar. In de sovjet-psychologie is
gebleken, dat de denkontwikkeling gestimuleerd kan worden door kinderen objecten (of
leerstof) theoretisch te laten bekijken ofwel ze theoretisch te leren generaliseren.
Mede vanuit een practisch argument heeft Mikulina haar onderzoek naar de denkontwik-
keling opgezet voor een specifiek leerstofgebied nl. het oplossen van redactieopgaven. Dit
practische argument heeft te maken met het onderscheid dat in de Sovjet-Unie gemaakt
wordt tussen leer- en practische opgaven.

De titel van haar proefschrift luidt dan ook Psychologische voorwaarden bij het samen-
stellen van leeropgaven. In Hoofdstuk I wordt een analyse gegeven van de psychologische
en didactische literatuur op het gebied van het oplossen van redactieopgaven. Uit deze
literatuur blijkt dat men een onderscheid maakt tussen leer- en practische opgaven.
Als regel verstaat men onder leeropgaven die opgaven, waarmee de leerlingen kennis en
vaardigheden verwerven. De practische opgaven zouden die opgaven zijn, die zogenaamd
alleen vragen om het toepassen van die al verworven kennis en vaardigheden. Alleen al
door de wijze waarop de definitie voor deze beide opgaven geformuleerd is, wordt al
duidelijk dat Mikulina het met dit onderscheid absoluut niet eens is. Zo lijkt het haar
volkomen onzinnig te stellen, dat bij het oplossen van practische opgaven iets van een
leerproces (wat dan ook) zou ontbreken en dat er bij het oplossen van leeropgaven geen
sprake zou zijn van het toepassen van kennis.

Dit onderscheid als zodanig kennen wij in de nederiandse onderwijssituatie niet. Het
onderscheid wat het meest nabij komt is het onderscheid dat wij maken in instructiestof
(b.v. cijferopgaven) en verwerkingsstof (b.v. redactieopgaven). In traditionele zin gaat het
in beide opgaven om het verkrijgen van een uitkomst en niet direct om de manier waarop
die uitkomst verkregen is. Het toepassen of het verwerven van kennis en vaardigheden zijn
in feite bijproducten van het vinden van die uitkomst.

We zien nu, dat MikuUna om de theoretische generalisatie binnen bovengenoemd leerstof-
gebied te bewerkstelligen in grote lijnen de volgende maatregelen neemt:

1. Het samenstellen van opgaven die het kind dwingen tot theoretische generalisatie.

3. Het samenstellen van een aantal concrete didactische werkvormen, waardoor de kinde-
ren die algemene oplossingsmethode leren beheersen.

Het leerstofgebied waar Mikulina zich mee bezighoudt is het oplossen van redactieopga-
ven op de basisschool, waarbij gebruik gemaakt moet worden van de rekenkundige opera-
ties optellen en aftrekken.

Een speciale bijzonderheid, en ook de moeilijkheid bij het oplossen van redactieopgaven
is, aldus Mikuhna, het omzetten van de tekst in een formule. Nu moet je je gaan afvragen
hoe die onderwijssituatie moet zijn om te bevorderen dat de kinderen leren de tekst in
een formule om te zetten. In vroeger onderzoek hebben Mikulina en haar collega's ont-
dekt, dat het werken met 'kleine getallen' de kinderen niet richt op de algemene relaties
tussen de grootheden in een opgave, maar op de bijzondere en concrete relaties.
Door deze houding kiezen de kinderen ook vaak de verkeerde rekenoperaties als ze
opgaven met 'grote getallen', waarvan ze de kwantitatieve betekenis zich niet kunnen
voorstellen, moeten oplossen. Om de leerlingen te richten op de algemene relaties tussen
de grootheden moeten we die relaties direct in een bepaalde vorm presenteren. Deze
algemene relaties tussen grootheden worden het duidelijkst als in redactieopgaven de
gegevens door letters en niet door getallen aangeduid worden.

Hierin verschilt Mikulina in opvatting van Mencinskaja en Moro (1965) die stellen dat het
rekenen met getallen een basis vormt voor het letterrekenen. Davydov (in: Van Parreren
1972) heeft daarentegen laten zien dat lettersymbolen een functie kunnen hebben bij het
beschrijven van relaties tussen grootheden, nog vóórdat de kmderen met getallen kennis-
gemaakt hebben. Door het doen van dergelijk onderzoek waarbij het zgn. letterrekenen
centraal staat, hebben zij experimenteel kunnen aantonen dat kinderen al zeer jong met
symbolen kunnen omgaan en in sommige omstandigheden dingen doen die onmogelijk
lijken in Piagetiaanse opvattingen (zie ook Assink en Verloop, 1977).

3.3. Theoretische generalisatie en het experimenteel onderzoekprogramma van Mikulina

Mikulina leert in haar experimentele programma leerlingen de zgn. directe en indirecte
redactieopgaven oplossen. De opgaven konden m.b.v. de rekenkundige operaties optellen
en aftrekken worden opgelost. Een voorbeeld van een indirecte opgave is:

'Er stonden a bonïen. In de herfst zijn er nog een aantal bomen bijgeplant. Op dat moment ston-
den er b bomen. Hoeveel bomen zijn er in de herfst geplant?'
In deze opgave correspondeert de term die de veranderingen aangeeft niet met de ver-
wachte rekenkundige operatie, d.w.z. bijplanten geeft in dit geval niet aan dat er opge-
teld moet worden, er moet juist afgetrokken worden. Dit is wel het geval in een zgn.
directe opgave. De directe vorm bij bovengenoemde opgave isr

'Er stonden a bomen. In de herfst zijn er b bomen bijgeplant. Hoeveel bomen staan er nu in
totaal?'

In het traditionele rekenonderwijs worden de indirecte opgaven als duidelijk moeilijker
ervaren dan de directe, niet in de laatste plaats, omdat voor het oplossen van de indirecte
opgave een andere oplossingsmethode onderwezen wordt dan voor de directe. Dit voorzo-
ver er überhaupt sprake is van onderwijs in het oplossen van redactieopgaven - de
kinderen zeggen dat ze goed moeten lezen, is geen onderwijs geven!
Welnu, de directe en de indirecte opgaven verschillen qua structuur niet essentieel. De
algemene relatie waar beide opgaven verbijzonderingen van zijn is de deel-geheel-relatie.
D.w.z. de leerlingen moeten door het onderwijs inzicht krijgen in deel-geheel-relaties. Het

onderwijs in de relatie-eigenscliappen van iiet model 'sec' dient als basis voor het onder-
wijs in een algemene oplossingsmethode voor dit soort opgaven. Voor een samenvatting
van de uitwerking van dit programma zie Wolters (jan. 1977) en Jansen en Wolters (april
1977).

Welke zijn nu die kenmerken in het onderwijs die typerend zijn voor het theoretische
generaliseren?

Het theoretisch kunnen generaliseren wordt bereikt door het denken van de leerhngen
binnen het leerstofgebied te sturen van algemeen naar bijzonder. Voor het genoemde
leerstofgebied betekent dit, dat de leerlingen eerst onderwijs krijgen in de algemene
eigenschappen van de deel-geheel-relatie (sec) en dan in de algemene oplossingsmethode,
die natuurlijk zeer nauw samenhangt met het onderwijs in de deel-geheel-relatie en daarna
pas concrete opgaven leren oplossen.

Bij dit alles wordt eerst met letters gewerkt en daarna pas met getallen.
De algemeenheid van de oplossingsmethode wordt voor de kinderen duidelijk zodra ze
ontdekken dat twee elementen van een relatie iedere waarde kunnen hebben maar dat de
waarde van het derde element eenduidig bepaald wordt door de andere twee (het gaat hier
om een geheel dat bestaat uit twee delen).

Behalve de kwantitatieve resultaten is ook een belangrijke aanwijzing voor het beheersen
van een algemene oplossingsmethode het aanwezig zijn van reflectie over deze methode
bij de leerlingen. (Zie ook Zak).

De leerlingen uit de experimentele klassen (Ie en 2e) verwezen bij het verklaren van hun
handelingen voortdurend naar de deel-geheel-relatie.

De leerlingen uit de controleklassen en 2e) gaven op vragen naar verklaringen ant-
woorden, waaruit bleek dat ze zelf oplossingsregels verzonnen hadden. Deze correspon-
deerden echter niet met hun eigenlijke oplossingsmethode. Veel voorkomend antwoord
was 'anders krijg je geen uitkomst'.

Ook kregen deze proefpersonen een aantal Piaget-opgaven te maken die stoelen op de
deel-geheel-relatie. In de experimentele eerste klassen werden deze opgaven door 70% van
de leerlingen opgelost, in de controle-eerste klassen door 23,8%.

Nog een belangrijke opmerking aangaande de theoretische generalisatie. De theoretische
generalisatie wordt bewerkstelligd door binnen het leerstofgebied te gaan van algemeen
naar bijzonder. In bovengenoemd leerstofgebied betekent dit dat het onderwijs start met
de deel-geheel-relatie en dan pas overgaat in de verbijzondering van deze deel-geheel-rela-
tie in de vorm van directe en indirecte redactieopgaven. Gelijktijdig hiermee wordt eerst
met letters gewerkt en dan pas met getallen om de leerlingen te richten op de analyse van
de gegevens (kenmerk van de algemene oplossingsmethode) en niet op de uitkomst.
Dit alles wil niet zeggen dat er niet concreet gewerkt werd. Met name in de eerste fase van
het onderwijs wordt m.b.v. materiële handelingen aan concreet materiaal de algemene
eigenschappen van de deel-geheel-relatie duidelijk gemaakt. Wel wordt daarna zoveel mo-
gelijk doelbewust gewerkt met abstract, afgeleid materiaal b.v. in de vorm van schema's en
grafieken.

De Russische psychologie geniet in Nederland een toenemende belangstelling. Deze be-
langstelling is niet alleen van theoretische aard, maar juist ooit sterk gericht op onderzoek
naar mogelijklieden van practische toepassing. Dat deze belangstelHng nuttig is, werd ook
nog eens door Vos uiteengezet (J. Vos, 1977).

Wij menen echter ook op een mogelijk gevaar van deze groeiende belangstelling te kunnen
wijzen, nl. het gevaar dat de belangstelling nogal eenzijdig blijkt. Uit de behoefte aan een
betere onderwijstheorie wordt dan ook vaak volstaan met de toepassing van de theorie
van de trapsgewijze procedure van Gal'perin.

Garperin zelf, maar ook Davydov maakten duidelijk dat aan de toepassing van deze
procedure een belangrijk proces voorafgaat. Dit proces is gericht, zoals we gezien hebben,
op de analyse van de leerstofmhouden.

In alle gesprekken werd aangegeven dat onderzoek uitwijst, dat het verloop van de cogni-
tieve ontwikkeling niet een autonoom proces is, zoals Piaget veronderstelt. Piaget wil in
feite slechts het onbeïnvloede denken, het 'typisch kinderlijke' denken, bestuderen. In
Moskou werd deze visie als onvruchtbaar afgewezen. De karakteristieken van het kinder-
lijke denken ontstaan niet zo maar, maar worden sterk medebepaald door wat volwasse-
nen (in het onderwijs) met kinderen doen. Het uitgaan van de 'leefwereld van het kind'
ziet b.v. Davydov dan ook slechts als algemene voorwaarde. Deze leefwereld, de manier
waarop 'tegen de wereld' wordt aangekeken, de omgang met elkaar etc., wordt door
volwassenen medebepaald.

Dit wordt vaak in Nederlandse onderwijsvernieuwingsbewegingen vergeten, met als gevolg
dat aangesloten wordt bij de beperkte, traditionele leefwereld, zoals volwassenen vinden,
dat die bij kinderen moet ontstaan (al geschiedt dit onbewust).

Aansluiting bij de leefwereld van het kind betekent dus dat we niet alleen aansluiten bij
wat volwassenen met kinderen gedaan hebben, hoe ze met kinderen zijn omgegaan (b.v. in
het onderwijs), maar óók dat we aansluhen bij wat in het onderwijs en tijdens die omgang
nagelaten is. En dit kin wel eens meer zijn, dan we denken! We sluiten dus ook aan - om
het wat gechargeerd te zeggen - bij het resultaat van ons gebrekkig pedagogisch functio-
neren.

Een volgend onderwerp betreft de vraag naar de zelfstandigheid van kinderen. Opleiden
tot zelfstandigheid is, zoals bekend, een veel beleden ideaal van onderwijsvernieuwers en
staat als doelstelling bij iedere leerkracht hoog genoteerd.

Over de vraag op welke wijze die zelfstandigheid bereikt kan worden, bestaat minder
overeenstemming. Naar onze mening wordt dikwijls vergeten, dat zelfstandigheid (in den-
ken, in probleem oplossen, in discussiëren en omgaan met elkaar etc.) een proces veron-
derstelt. Kinderen zelfstandig problemen laten oplossen middels de zelf-ontdek-proce-
dure, kan een belangrijke doelsteUing zijn, maar is pas dan mogelijk, wanneer de kinderen

de (denk-) instrumenten hebben verworven om inderdaad creatief en zelfstandig proble-
men aan te pakken.

Eerst dan wordt zelf-ontdekken boeiend, uitnodigend en interessant. Wij menen dat op
deze wijze wordt gewerkt op de Russische experimenteerscholen. Zelfstandigheid wordt
niet verondersteld, maar in factoren ontleed en op basis daarvan krijgt het proces in
onderwijsleersituaties gestalte als totaalaanpak.

Een belangrijk element vormt de aandacht voor praten met elkaar, en luisteren naar
elkaar. De leerlingen maken bijvoorbeeld hun wiskundeopgaven samen. Al discussiërend
en luisterend worden de problemen gezamenlijk opgelost. Men zou kunnen zeggen dat de
sociale vorming verweven is met het gehele onderwijsgebeuren. De sociale vorming is geen
geïsoleerd doel op zich, maar vloeit voort uit en is een wezenlijk onderdeel van de manier
van werken.

Assink, E..M.H. en N. Verloop, Het aanleren van deel-geheel-relaties in het aanvankelijk rekenonder-
wijs. Ped. Stud. 1977, 54, 130-142.

Davydov, V.V. Psychologische capaciteiten van leerlingen uit de onderbouw bij het leren van wiskun-
de. Moskou, 1969 (in het russ.)

Davydov, V.V. Problemen bij het onderzoek van de relatie cognitieve ontwikkeling en onderwijs.
Tbilisi, 1969. (Vertaald door: Zuzana Bradova en Miriam Wolters, Vakgroep Ontwikkelingspsycho-
logie, l.P.A.W. Utrecht.)

Elkonin, D.B. en V.V. Davydov (ed.). Psychologische problemen van het leren bij jongere leerlingen.
Moskou, 1962 (russisch).

hihelder, B. en J. Piaget, De genese van elementaire logische structuren. Moskou 1963. (Oorspronke-
lijke publicatie: La genese des structures logiques elémentaires. Classifications et sêriations. Neu-
chätel, 1959.)

Il'enkov, E.V. Dialectiek van het abstracte en het concrete. In: K. Marx,//ef Kapitaal. Moskou 1960.

n'enkov, E.V., Historische problemen bij de logica als object van wetenschap. Voprosy Filosofii 1966,
7.

Jansen, M. en M. Wolters, Toetsing van een leergang redactieopgaven. Congresboek O.R.D. april 1977,
112-117.

Kostjuk, G.S., De ontwikkelingspsychologie van het kind in de Sovjetunie. Voprosy Psichologii, 1967,
no. 6.

Kruteckij, V.A., De psychologie van wiskundige vaardigheden bij leerlingen. Moskou 1968. (Engelsta-
Uge publicatie: The psychology of mathematical abilities in schoolchildren. Chicago 1976.)

Mikulina, G.G., Psychologische voorwaarden bij het samenstellen van leeropgaven. Samenvatting dis-
sertatie. Moskou 1973 (in het russ.).

Parreren, C.F. van & J.A.M. Carpay, Sovjet-psychologen aan het woord. Groningen, 1972.

Puskin, V.N. Onderzoek van het denken als proces. Voprosy Psychologii,1969, no. 6. In: C.F. van
Parreren & W.A. van Loon-Vervoorn, Teksten en Analyses Sovjet-psychologie. 1: Denken. Gronin-
gen, 1975.

Piaget, J., Hoe zich bij kinderen mathematische begrippen vormen. Voprosy Psichologii, 1966, no. 4.
(Engelstalige publicatie: How children form mathematical concepts. Scientific American, 1953.)

Vygotskij, L.S. Verzameld psychologisch onderzoek. Moskou 1956. (Samengevatte engelstalige publi-
catie: (L.S. Vygotskij) Thought and language. Cambridge (Mass.) 1962. Duitstalige publicatie:
(L.S. Vygotskij) Denken und Sprechen. Berhn (DDR) 1964.)

Wolters, M.A.D., Ph. Kohnstamm en L.S. Vygotskij over de relatie: cognitieve ontwikkeling en onder-
wijs. Ped. Stud. 1916,53, 126-131.

Wolters, M., Het oplossen van mathematische problemen op de basisschool. Geanalyseerd en onder-
zocht vanuit ontwikkelingspsychologisch perspectief. Interimrapport IV. Januari 1977.

Wolters, M.A.D., Mathematische problemen, oplossingsmethoden en de cognitieve ontwikkeling van de
leerlingen van de basisschool. Ped. Stud. 1977 54 no. 9.

Zak, A.Z., Psychologische bijzonderheden van het theoretisch oplossen van opgaven. Novye issledova-

nija vpsichologii 1976, 2,17-21.
Zonneveld, L., De schoolverlaters worden het bos in gestuurd. De groene Amsterdammer. 10-8-1977.
p. 9.

Onlangs heeft Van Naerssen (1977) materiaal gepubhceerd t.b.v. een optimale vraagselek-
tie bij een vaste aftestgrens. Van Naerssen formuleert het probleem in termen van een
latent trekmodel. Dit is nodig omdat bij verschillende keuzen van vragen de ware skores
variëren. Zijn resultaten kunnen op twee punten gerelativeerd worden. Ten eerste, indien
men een vast kriterium op de latente trekschaal veronderstelt, is bij een gegeven verdeling
van latente trekwaarden, de selektieverhouding niet zoals Van Naerssen veronderstelt,
konstant; de verhouding varieert met de nauwkeurigheid van de test. Ten tweede, het
kriterium dat Van Naerssen bij de vraagselektie voorstelt, de helling van de itemkarakteris-
tieke kurve bij een gegeven latente-trek-kriterium, dient gerelativeerd te worden. In deze
notitie wordt deze laatste stelling uitgewerkt.

Cronbach en Warrington (1952) komen aan de hand van simulatie tot de konklusie dat
indien het de bedoeling is F procent van de getesten af te wijzen, de vragen zo gekozen
moeten worden dat personen op de F-de percentiel een kans van een half of iets meer -na
korrektie voor gokken — hebben om de vragen goed te beantwoorden. Dat betekent dat
de optimale vragen niet die vragen zijn met de grootste helling bij de F-de percentiel; de
optimale vragen zijn iets naar rechts verschoven. Waarom dit zo is, kan het beste aan

li (ö) = {rr E(xl0) }^/a^(xl0) geeft aan hoe nauwkeurig vraag i meet ter hoogte van
00

schaalwaarde 6. De informatiefunktie van de totale test lt(0) is gelijk aan de som van de
informatiefunkties van de afzonderlijke vragen. De maximale aannemelijkheidsschatter 6
van d is asymptotisch normaal verdeeld rond 6 met variantie 1/It (0). De informatiekurve
geeft dus heel goed aan bij welke schaalwaarden een vraag het nauwkeurigst is. Birnbaum
(1968, p. 463) geeft de informatiekurven van vragen die een gisparameter bevatten. De
grootste informatie wordt bereikt rechts van het buigpunt b (waarbij b de moeilijkheids-
parameter is).

Cronbach en Warrington's artikel ging uit van een normgeoriënteerd testgebruik. Indien
een (latent trek)kriterium vastligt, Ugt een enigszins andere presentatie voor de hand.
Birnbaum (1968, p. 450) geeft de beste waarde van de moeilijkheidsgraad b in het geval
personen t.a.v. een vast kriterium geklassificeerd moeten worden. Hij toont aan dat die
vragen optimaal zijn die een maximale I bij het kriteriumnivo hebben. Dat betekent dat b
gelijk is aan het kriterium voor vragen met een symmetrische vraag karakteristieke kurve
zoals het gewone logistische of normaal ogief model (zonder gisparameter). Dit resultaat
geldt slechts onder bepaalde veronderstellingen. Het belangrijkste is dat impliciet het
veriies voor beide soorten foute klassifikaties gelijk is.

Birnbaum houdt geen rekening met eventuele reeds aanwezige kennis over de verdeling
van de vaardigheid in de groep te testen personen. Dit soort informatie kan van belang
zijn en de keuze van vragen beïnvloeden. Wij weten immers dat voor elke persoon die test
het meest nauwkeurig is waarbij de informatiefunktie de grootste waarde aanneemt bij
het vaardigheidsnivo dat overeenkomt met dat van de persoon in kwestie. Op deze weten-
schap is het toegesneden of'tailored' testen gebaseerd. Indien de test voor iedere persoon
gelijk is, verwacht men dat die test het nauwkeurigst is waarvoor de informatie het hoogst
is bij het gemiddelde vaardigheidsnivo. Dit gegeven is, indien de test gebruikt wordt om
personen m.b.t. een vast latent-trekkriterium te klassificeren, niet zonder meer relevant.
Het heeft immers geen zin om de nauwkeurigheid van de test te verhogen binnen de range
van vaardigheden waar de meeste geteste personen in vallen, als het kriterium relatief ver
van deze range afligt en de vergroting van de nauwkeurigheid in dat gebied nauwelijks
gepaard gaat met een drastische vermindering van het aantal foute klassifikaties: het
aantal foute klassifikaties voor personen die binnen deze range vallen, is reeds gering. Het
is echter wel mogelijk dat een lichte verschuiving van het punt waar de vragen het meest
nauwkeurig zijn, van het kriteriumnivo af naar het gemiddelde een beter klassifikatieresul-
taat oplevert aangezien de toename van klassifikatiefouten bij personen met een vaardig-
heid rond het kriteriumnivo meer dan goedgemaakt wordt door een afname van het aantal
klassifikatiefouten bij de grotere groep personen die vaardigheden hebben die dichter bij
het gemiddelde liggen. Tot een zeker nivo kan deze tendens sterker zijn naarmate klassi-
fikatiefouten bij degenen die verder van het kriterium liggen, zwaarder tellen dan klassifi-
katiefouten bij degenen die een vaardigheid hebben die nauwelijk van het kriteriumnivo
afwijkt. Enkele simpele berekeningen van mijn hand bevestigen deze suggestie. Om mis-
verstanden te vermijden: dit resultaat geldt alleen als caesuur en kriteriumnivo identiek
zijn. Het ligt voor de hand dat een besliskundig optimale caesuur verder van het gemiddel-
de afligt dan het kriterium. Een vaste selektieverhouding, waarbij het percentage gezakten
gelijk is aan het percentage personen dat niet voldoet, zoals Van Naerssen voorstelt, is in
besliskundig opzicht beter dan een vaste caesuur gelijk aan het kriterium (hoewel niet
optimaal).

Birnbaum, A. In Lord, F.M. en Novick, M.R. Statistical theories of mental test scores. Reading, Mass.:
Addison-Wesley, 1968.

Gonbach, L. J. en Warrington, W.G. Efficiency of muhiple-choice tests as a function of spread of item

dUncunics. Psychometrika, 1952, i 7, 127-147.
Van Naerssen, R.F. Grafieken voor de schatting van de helling van de item-karakteristieken. Tijdschrift
voor Onderwijsresearch, 1977, 2, 193-201.

GRAFIEKEN VOOR DE SCHATTING VAN BIRNBAUM'S ITEMINFORMATIEMAAT
Een antwoord aan De Gruyter

De grootheid S in van Naerssen 1977 (en in de grafieken hieronder) is de selectieverhou-
ding waar men a.h.w. op mikt; het is de proportie personen met een ware score boven de
ware aftestgrens, dus de juiste selectieverhouding bij een volkomen betrouwbare toets. De
optimale selectieverhouding verschilt van deze 'ware selectieverhouding'; zij is namelijk
extremer naarmate de toets minder betrouwbaar (of valide) is, zoals o.m. uiteen is gezet
in van Naerssen 1965, p. 372. Daardoor is de naam 'selectieverhouding' voor S te vaag en
had inderdaad beter vermeden kunnen worden, hetgeen de strekking is van de Gruijter's
(1978) eerste relativering.

Wat zijn tweede opmerking betreft, de helling (het differentiaalquotiënt) van de hemka-
rakteristiek werd in mijn artikel gekozen om met behulp van grafieken te schatten uit
p-waarde en itemtrekcorrelatie omdat het verband daarvan met mijn begrip 'lokale be-
trouwbaarheid' (van Naerssen 1977a) het meest doorzichtig is. Vermoedelijk is Birn-
baum's iteminformatiemaat 1 (0) een betere index voor itemselectie dan de helling d (6)
van de itemkarakteristiek (d.i. de kans p (0) het item goed tè beantwoorden als functie
van de trekwaarde (0), zoals de Gruijter terecht opmerkt. Deze I (0) verkrijgt men door
het kwadraat van d (0) te delen door het product p (0) (1-p (0)) (dit is, althans bij de
dichotome items waartoe we ons beperken, de itemvariantie gegeven 0). Met hetzelfde
model van Urry zijn nu grafieken berekend (voor het computerprogramma zie van Naers-
sen 1977c) en getekend, die een schatting geven van Birnbaum's iteminformatiemaat uit
p-waarde en (op valsheid en attenuatie gecorrigeerde) itemtestcorrelatie, d.i. de geschatte
item-trek-correlatie, en wel voor dat viertal ronde waarden van I (0) (.6, .2, .05 en .01)
waarbij de curven in de tekeningen ongeveer op gelijke afstanden van elkaar staan. Om
deze waarden te vergelijken met die van d in de grafieken van mijn vorig artikel kan men
bedenken dat I minstens gelijk is aan 4(P, welke minimumwaarde bereikt wordt bij p (0)
= .5. Naarmate de p-waarde extremer is en/of S (dus 0) extremer is, is ook p (0) extremer
en daardoor I groter. Dit verklaart waarom de krommen van I vaak rechter (minder
gebogen) zijn en vooral bij extreem hoge p-waarden omlaag buigen.
Voor het overige valt juist de grote overeenstemming op tussen de krommen van d en I
maar ook dat is heel begrijpelijk: het product p (ö) (1-p (0)) is immers over een groot
gebied van p (0) tamelijk constant en neemt alleen bij extreme p (0) duidehjk af. Mogelijk
maakt het dan ook weinig uit of men items selecteert met Birnbaum's informatiemaat dan
wel met de helling van de itemkarakteristiek, maar dit zal uiteraard empirisch beslist
moéten worden omdat het afhangt van de configuratie van de geobserveerde itempunten
in het p-rjg -vlak.

Bimbaum, A. Some latent trait models and their use in inferring an examinees abihty. In: Lord, F.M.
and Novick, M.R. Statistical theories of mental test scores. Reading: Addison-Wesley, 1968.

Gruijter, D.N.M. de. Optimale vragen bij selectie van personen op basis van een vast kriterium. Tijd-
schrift voor Onderwijsresearch, 1978, 3, 35-36.

Naerssen, R.F. van. Enkele eenvoudige besUskundige toepassingen van tests en selectie. Nederlands
Tijdschrift voor de Psychologie, 1965, 20, 364-380.

Naerssen, R.F. van. Lokale betrouwbaarheid, begrip en operationalisatie. Tijdschrift voor Onderwijs-
research, 1977a, 2,111-119.

Naerssen, R.F. van. Grafieken voor de schatting van de helling van itemkarakteristieken. Tijdschrift
voor Onderwijsresearch, 1977b, 2, 193-201.

Naerssen, R.F. van. Birnbaum's informatiemaat berekend uit p-waarde en itemtestcorrelatie. Memo
D 153. Vakgroep Methodenleer, Subfaculteit Psychologie, Universiteit van Amsterdam, 1977c.

Innovatieproject Amsterdam
Deel I: Bronnenboek
Deel II: Tussenstand
Amsterdam: Van Gennep, 1977

In beide delen over het Innovatieproject Amsterdam doet Van Calcar verslag over de ontwikkelingen
tot 1974. In het Bronnenboek is materiaal verzameld dat uitgewisseld is tussen de subsidiegevers en het
project. In Tussenstand wordt verslag gedaan van de voorgeschiedenis, uitgangspunten, activiteiten en
evaluatie-opzet van het project.

Het Bronnenboek laat aan de hand van een aantal orginele documenten zien dat als subsidiegevers en
subsidie-aanvragers het niet altijd met elkaar eens zijn, er allerlei vertragingen in de voortgang van het
project kunnen optreden.

interes.santer is Tussenstand. Mijn bespreking zal daarom hoofdzakelijk daaraan gewijd zijn. Een derge-
lijk boek is vanuit verschillende standpunten te bespreken. Je kunt bewondering hebben voor het vele
werk van het project, je kunt de vlotte verteltrant van Van Calcar bewonderen of de fraaie kleuren-
foto's die hij heeft laten opnemen. Gezien de aard van het tijdschrift waarin deze bespreking plaats-
vindt, heb ik gekozen voor het nagaan in hoeverre door het Innovatieproject gebruik gemaakt is van
beschikbare onderzoeksgegevens en in hoeverre de door het project gehanteerde onderzoeksstrategieën
adequaat zijn.

In de eerste vijf hoofdstukken wordt zeer uitvoerig ingegaan op de voorgeschiedenis van het Innovatie-
project Amsterdam. Eveneens wordt ingegaan op de daaraan ontleende uitgangspunten. Als belangrijk
onderdeel van de voorgeschiedenis worden de Enschedese begeleidingsonderzoeken uit de jaren
1962-1968 beschreven. Zeer uitvoerig beschreven zelfs. Verder worden de werkzaamheden van de
Amsterdamse noodadviesdienst (1970-1971) aan de orde gesteld en worden gegevens gepresenteerd
van onderzoeken naar de lees- en schrijfprestaties van kinderen uit kansarme groepen. Op basis van
deze onderzoeken en op basis van de ervaringen opgedaan in Enschede en met de noodadviesdienst
wordt een aantal uitgangspunten geformuleerd waaraan een project gericht op het blijvend verminde-
ren van de onderwijsproblemen van arbeiderskinderen zou moeten voldoen.

De relatie tussen de onderzoeksgegevens en een aantal uitgangspunten is lang niet op alle plaatsen even
duidelijk. Uit de Enschedese onderzoeken blijkt bijvoorbeeld dat remcdièle hulp aan individuele leer-
lingen niet erg succesvol is, terwijl dat bij de uitgangspunten (blz. 19) wel wordt genoemd: 'hulp voor
kinderen met moeilijkheden'. Daarmee wordt op die plaats individuele begeleiding, i.c. remediele hulp,
bedoeld. Andere uitgangspunten zijn nauwelijks op onderzoeksgegevens gebaseerd. Zo wordt er gespro-
ken over de band tussen school en buurt (blz. 18). Daarbij wordt opgemerkt: 'Herkenning van de eigen
wereld is een belangrijke voorwaarde om met plezier op school te zijn'. Dan lijkt me de vraag op zijn
plaats waarop dit uitgangspunt gebaseerd is. De gegeven argumentatie, dat een kind zo ook leert
praten, komt mij niet overtuigend over: op welke onderzoeksgegevens kan men zich baseren? Een
ander uitgangspunt, dat systeem- en individuele begeleiding geïntegreerd moeten worden, wordt zeer
uitvoerig geïllustreerd aan de hand van één casus (34 pagina's lang). Op zichzelf een boeiend verteld
verhaal van de belevenissen van een jongen met gedragsproblemen. Echter, geen geval waaruit overdui-
delijk de noodzaak van integratie tussen de systeem- en de individuele begeleiding kan blijken. Daar-
voor zijn de twee inleidende bladzijden veel overtuigender dan de gevalsbeschrijving zelf.
Als ik probeer mijn mening te formuleren over de eerste vijf hoofdstukken die de voorgeschiedenis en
uitgangspunten van het Innovatieproject beschrijven, dan valt mij allereerst op dat zij een mengeling
bevatten van gedegen onderzoek op basis van bruikbare toetsen, van opgedane ervaringen die niet
nader onderzocht zijn, van vooropgezette meningen (die niet door onderzoek gesteund worden, of
zelfs worden tegengesproken zoals in het geval van remediële hulp) en van casuïstiek. Hoewel het
ontstaan van een dergelijke menging heel begrijpelijk is, gezien de turbulente ontwikkelingen die dit en

soortgelijke projecten hebben doorgemaakt, zou het zeker mogelijk geweest zijn om een steviger
empirische basis voor het project te leggen. Daartoe zou meer systematisch kennis genomen moeten
zijn van de onderzoeksliteratuur die beschikbaar was tijdens de start van het project en die beschikbaar
kwam tijdens de ontwikkeUng van het project. In plaats van een verdere illustratie van deze stelhng te
geven aan de hand van de hoofdstukken over de voorgeschiedenis en uitgangspunten van het project,
zou ik in deze verdere illustratie willen voorzien aan de hand van de activiteiten die door het project
ondernomen zijn.

In de tweede vijf hoofdstukken wordt verslag gedaan van de middelen en initiatieven die het Innovatie-
project ontwikkeld heeft. Ter sprake komen: de activiteiten op de kleuterschool en in de eerste klas,
het denken over de integratie tussen beide, de activiteiten ten behoeve van het taal- en rekenonderwijs
en de activiteiten ter bevordering van de samenwerking tussen school, gezin en buurt.
De activiteiten voor de kleuterschool betreffen hoofdzakelijk het ontwikkelen en implementeren van
themaboeken waarin - uitgaande van hetgeen zich in de buurt afspeelt - allerlei wereldverkennende,
expressieve en schoolvoorbereidende onderwerpen aan de orde komen. Een duidelijke opbouw van de
leerstof heb ik bij Van Calcar niet kunnen terugvinden. Het is me daarentegen opgevallen dat veel
nadruk wordt gelegd op het gebruik van de taal als communicatiemiddel. Een van de redenen daarvoor
is de uitstekende basis die dat heet te zijn om de zin van het schrift en het leren schrijven te ervaren.
Dat zou in het bijzonder voor het onderdeel correspondentie gelden. Uit onderzoek van o.a. Sixma
(1973) is bekend dat deze variabele als voorbereiding voor 'het schrift' (i.c. het leren lezen) vrijwel niet
van belang is.

De activiteiten voor de eerste klas zijn eveneens in de vorm van themaboeken gegoten. De thema's
hebben weer betrekking op onderwerpen uit de buurt. Omdat Van Calcar hier evenmin een nauwkeu-
rig overzicht van de leerstof geeft, heb ik die themaboeken zelf doorgenomen. Daarbij blijkt dat van de
analytisch-synthetische leesmethode van Caesar een soort globaalmethode gemaakt is. Daarvan is be-
kend dat zwakke lezers er slecht mee leren lezen (Chall, 1967).

Als van Calcar dan ook (overigens zeer geringe) vooruitgang meet ten gevolge van het invoeren van o.a.
de themaboeken, lijkt het mij, dat deze vooruitgang eerder aan de invoering van de methode Caesar is
toe tc schrijven, dan aan de themaboeken. Het is zelfs niet uitgesloten te achten dat de vooruitgang
groter geweest zou zijn zönder de themaboeken.

Van Calcar noemt als middel tot vergroting van het zelfstandig werken in de onderbouw de kaarten-
bakken van Van Wijck (1975). De kaarten uit deze bakken dienen de differentiatie en zijn zelfstandig
verwerkbaar. Er wordt weer geen leerstofoverzicht gegeven. Ik heb daarom de kaarten zelf bekeken. Ik
heb daarbij moeten concluderen dat weer van een sterk globaliserende benadering is uitgegaan èn dat
de technische leesinhoud niet goed aansluit bij hetgeen in de klas aan leesmoeilijkheden op basis van de
methode Caesar wordt onderwezen.

Concluderend moet ik steUen dat ten aanzien van de activiteiten in kleuterschool en eerste klas geldt
dat veel te weinig informatie wordt geboden over de leerstofopbouw (daarentegen zijn wel fraaie
kleurenfoto's van leerüngenwerk afgebeeld, een unicum in dit type pubhkaties) en dat - voor zover ik
het kan overzien - te weinig rekening gehouden is (misschien, kon worden) met de onderzoeksresul-
taten die in de literatuur voorhanden waren of in de loop van het project voorhanden gekomen zijn.
Tenslotte dat een heel plausibele alternatieve verklaring voor de geringe verbetering van de leespresta-
ties de invoering van de Caesar-methode is en niet de invoering van de themaboeken.
Ten aanzien van de rekenactiviteiten in de hogere klassen, kan ik betrekkelijk kort zijn. Van Calcar zelf
concludeert al dat daarin géén vooruitgang plaatsgevonden heeft als gevolg van de zogenaamde Amster-
damse Reken Aanpak. Deze ARA draagt een sterk differentiërend karakter. Behalve dat differentiatie
leidt tot meer organisatorische activiteit van de leerkracht (zie bijvoorbeeld het recente onderzoek van
Apelhof, 1977), is vrijwel nooit aangetoond dat de leerprestaties erdoor stijgen. Dat het ook met de
ARA niet gebeurt, hoeft daarom geen verwondering te wekken. Ik ben het oneens met de conclusie
van Van Calcar (blz. 250) dat handhaving van het niveau (d.w.z. géén vooruitgang) van de rekenpresta-
ties positief gewaardeerd moet worden, omdat veel tijd besteed is aan andere activiteiten. Als Van
Calcar wil dat de doorstroming van arbeiderskinderen naar de hogere vormen van het voortgezet
onderwijs bevorderd wordt (en dat wil hij, zie blz. 166) dan moeten ook de rekenprestaties stijgen. Er
lijkt me daarom weinig reden voor een positieve waardering.

In het hoofdstuk over de nieuwe taalaanpak in de hogere klassen ben ik het spoor bijster geraakt. En

dat ondanks de spoorboekjes die Van Calcar ter beschikking stelt om, uitgaande van een zich in een of
andere communicatie voordoend taalprobleem, naar een deelleergang over te stappen die dat probleem
oplost. Ik heb nog net de theoretische uitgangspunten kunnen begrijpen. Die komen erop neer, dat
door de materiële omstandigheden waarin arbeiderskinderen opgroeien, zij op een andere manier van
hun taal gebruik maken dan kinderen uit andere milieus. En, dat er voor gezorgd moet worden dat dus
de materiele armoede opgeheven moet worden. Dan kan de taal uit de arbeidersgroepen zich ontwikke-
len tot de cultuurtaal. Opvoeders en taalleraren kunnen daarbij helpen o.a. door de taal te laten leren
vanuit de behoefte aan communicatie (en nog d.m.v. vijf andere voorwaarden die ik niet zal aanhalen).
Afgezien van de vraag of deze stelling juist is, vraag ik me af: waar en hoe vind ik dit concreet terug in
de traditionele taalmethodes die volgens Van Calcar wel gebruikt moeten worden. Wordt hier geen spel
met woorden, een typisch middle class spel overigens, gespeeld?

Het laatste hoofdstuk over de activiteiten van het project betreft de relaties tussen school, gezin en
buurt. Het Innovatieproject heeft deze relaties altijd sterk benadrukt. Van Calcar beschrijft een aantal
activiteiten en ervaringen die met het opbouwen van deze relaties te maken hebben. Op zichzelf zeer
interessant. Ik heb er niettemin een tweetal problemen mee: veel van deze activiteiten lijken zo
incidenteel, niet systematisch; maar vooral, wat kan de effectiviteit ervan zijn? Over dat laatste worden
geen gegevens verstrekt. Het is ook geen onderdeel van de evaluatie-opzet ten behoeve van het totale
project. Hoeveel ouders participeren er in de klassen, hoeveel kinderen bezoeken de huiswerkklassen,
wat leveren de deelname aan ambtelijke projectgroepen, het overleg met het maatschappelijk werk
op? Is er sprake van een systematische samenwerking tussen school- of clubhuis of gaat het om af en
toe eens een projectOe)? Zijn er uitgeprobeerde handleidingen voor het individueel (blz. 329) respec-
tievelijk het systematisch gezinsbezoek (blz. 335)? Op welke wijze helpt het Innovatieproject de ou-
dercommissies, of overlegt het er alleen mee?

Kortom: veel van dit type activiteiten lijkt me maar in geringe mate effectief; de activiteiten lijken me
bovendien niet voldoende systematisch van aard om zelfs maar enige effecten te kunnen sorteren.
Mij is bij het doornemen van de hoofdstukken over de activiteiten van het project sterk opgevallen hoe
weinig klaarblijkelijk gebruik gemaakt is van de moderne onderwijskunde die theorieën voor het
construeren en formatief evalueren van curricula levert. Het overwegen van tenminste de mogelijkheid
om daarvan gebruik te maken, had zeker moeten plaatsvinden.

In het laatste hoofdstuk komt de evaluatie-opzet van het Innovatieproject ter sprake. Deze valt in drie
onderdelen uiteen: de systeem-, de doel- en de toonevaluatie. Bij de systeemevaluatie gaan het erom de
effectiviteit na te gaan van de activiteiten die zich richten op instituties (in de evaluatie-opzet tot één
institutie beperkt: de school); bij de doelevaluatie gaat het om de effectiviteit van de activiteiten die
zich richten op de leerlingen; bij de toonevaluatie gaat het vooral om de satisfactie van de direct
betrokkenen. De toonevaluatie moet door deze betrokkenen zelf uitgevoerd worden.

Ik vind het eigenlijk niet zo zinvol om te oordelen over de voorgestelde evaluatie-opzet. In zijn
voorwoord schrijft Van Calcar namelijk (blz. XVII) dat de evaluatieplannen niet geheel volgens de
beschrijving zullen worden uitgevoerd. Hoe ze dan wel uitgevoerd zullen worden, is beschreven in de
'Nieuwsbrief 1976-1977 no. 1'. Ik heb deze brief opgevraagd maar tot op heden niet ontvangen. Ik
beperk me daarom tot enkele zeer algemene kritiekpunten op de evaluatie-opzet.:

- Waarom wordt als evaluatiecriterium niet het percentage doorstromers naar de hogere vormen van
voortgezet onderwijs gehanteerd?

- Onduidelijk is door middel van welke objectieve analysetechnieken de componenten van de sy-
steemevaluatie aan die van de leeriingenevaluatie verbonden zullen worden.

- Hoe wordt het model over de samenhang tussen milieu- en omgevingskenmerken van de leerUng,
zijn prestaties en zelfbeeld (blz. 409) getoetst. Is dat zelfbeeld wel zo belangrijk als wordt voorgege-
ven (zie bijvoorbeeld de E.T.S. Head Sart Longitudinal Study).

- Worden met de argumentatie: er spelen veel te veel variabelen bij het verklaren van onderwijspresta-
ties een rol, die kun je toch niet allemaal controleren, daarom controleren we er maar geen enkele
(blz. 394), kind en badwater niet gelijktijdig weggegooid? Een zeer belangrijke verklarende variabele
als voorkennis zou zeker statistisch gecontroleerd moeten worden.

Gegeven de criteria vraarop ik deze bespreking heb willen geven (is er gebruik gemaakt van voorhanden
onderzoeksgegevens èn in hoeverre zijn de onderzoeksstrategieën van het project adequaat), moet
geconcludeerd worden dat het project met betrekking tot beide criteria meer had kunnen realiseren,
dan het feitelijk gedaan heeft.

Appelhof, P.N. Effekten van een curriculum-innovatie. Utrecht: I.P.A.W., 1977.
Chall, J. Learning to read, the great debate. New York: McGraw-Hill, 1967.
Sixma, J. Leesvoorwaarden. Groningen: Tjeenk Willink, 1973.

Frarts van Nederlanders; toetsing van de tussentaalhypothese
's-Gravenhage: Staatsuitgeverij, 1977

In dit boek wordt een onderzoek beschreven dat betrekking heeft op een analyse van uitingen van
Nederlanders in het Frans. In 1972 en 1973 volgden in totaal 222 cursisten de ongeveer 20 uur
durende televisiecursus En Francais op het I.T.T. van de Katholieke Universiteit van Nijmegen. De
cursisten waren allen volwassen Nederlanders die gedurende meerdere jaren geen systematisch onder-
vrtjs in het Frans hadden gevolgd. De cursus omvat 20 televisielessen van ruim 30 minuten, 20 geluids-
banden van gemiddeld 20 minuten en 5 cursusboekjes (totaal 160 pag.), waarbij zonder leraar werd
gewerkt. Het doel van de cursus is het verbeteren van de spreek- en luistervaardigheid van het Frans in
alledaagse communicatiesituaties bij volwassen Nederlanders met enige kennis van het Frans. Voor en
na het volgen van de cursus werd een toets afgenomen, die ondermeer een vrije en een gebonden
spreektoets omvatte. De aldus verkregen gegevens dienden als materiaal voor het onderzoek.
De algemene vraagstelling luidt: welke kenmerken heeft het Frans van Nederlanders en is aantoonbaar,
dat leerders van een vreemde taal in hun taalgedrag minder systematiek vertonen dan de hypothese van
de tussentaal doet vermoeden?

Beide aspecten van de vraagstelling worden in het onderzoek uitgewerkt in een taalkundige classificatie
van fouten in de uitingen (fouten in de uitspraak, lexicale en grammaticale fouten), die vervolgens
(leer)psychologisch worden geïnterpreteerd met het doel een beschrijving van oorzaken te geven. Op
grond van de verklaring van fouten wordt getracht na te gaan of de oorzaken in een systematisch beeld
gevat kunnen worden, waardoor zicht kan ontstaan op de processen die aan de productie van uitingen
ten grondslag liggen. De auteur baseert zich daarbij op een uitgebreide en gedegen bespreking van de
problematiek van de foutenanalyse van uitingen in een vreemde taal, inzonderheid met betrekking tot
gesproken uitingen. Hiervoor wordt mede met het oog op verder onderzoek op dit gebied een bijzon-
der interessant classificatie-systeem met een beschrijvingsalgoritme ontwikkeld. Dit behoort tot een
van de meest waardevolle bijdragen van het onderzoek. Men kan natuurlijk in discussie treden over de
zin van een dergelijke verenging van het onderzoek tot uitsluitend het taalkundig aspect van de
onderzochte uitingen (behalve dan dat onbegrijpelijke uitingen bij de vrije spreektoets niet nader
vrorden geanalyseerd). Op dit punt schiet de auteur toch wel tekort, juist gezien zijn eigen kritiek op
het zg. competence-performance model. Echter in het boek wordt duidelijk dat de analyse van het
materiaal zonder rekening te houden met communicatieve kriteria anders dan taalkundige normen
reeds een zeer complexe zaak is.

Het uiteindelijke doel van het onderzoek is om te komen tot aanbevelingen voor het onderwijs.
Daarom wordt in het onderzoek aandacht besteed aan zg. hardnekkige fouten, d.w.z. fouten die
blijven bestaan ondanks de omstandigheid dat daar in de cursus veel aandacht aan wordt besteed. Ook

het opsporen van de oorzaken van fouten kan perspectieven bieden op de preventie dan wel het
kureren daarvan.

In hoeverre op basis van dit onderzoek veel gezegd kan worden over hardnekkige fouten en over
systematische veranderingen in taalgedrag als effect van de cursus is overigens nog maar de vraag,
aangezien de vrij korte duur van de cursus voor cursisten ais in dit onderzoek (relatief lange tijd geen
onderwijs in het Frans gehad hebbende) inhoudt dat zij primair hun kennis 'opfrissen' en waarschijn-
lijk niet zoveel echt nieuwe zaken onder de knie krijgen. Dit is in overeenstemming met het gegeven
dat vooral de woordkennis bij de cursisten vooruit gaat.

De algemene conclusies van het onderzoek zijn, dat het foutengedrag van de ppn. sterker blijkt samen
te hangen met interferenties van het Nederlands dan met overgenerahsaties van regelmatigheden in de
doeltaal, terwijl daarnaast in de producten een sterke neiging tot reductie valt te bespeuren (d.w.z. het
weglaten van taalelementen). Voorts geeft het geanalyseerde materiaal volgens de auteur nauwelijks
enige empirische fundering van dc tusscntaalhypothese, tenzij het begrip tussentaal anders wordt
gedefinieerd.

Indien wc het onderzoek methodologisch bekijken, dan zijn er nogal wat schoonheidsfouten aan te geven.
Om te beginnen is naar onze mening getracht teveel vragen op te hangen aan de gekozen methode van
analyse van het materiaal. Het onderzoek van de tussentaalhypothese draagt daardoor het karakter van
een ondergeschoven kind en moet ook als strikt onvoldoende worden beschouwd. Er zijn bijv. vrijwel
geen eenduidige kriteria aangegeven voor de toetsing van de tussentaalhypothese, zodat de conclusies
die hieromtrent naar voren gebracht worden ongefundeerd zijn. Bovendien is de gekozen methode
inadequaat; zeker indien zoals hier gebeurd de fouten van dc ppn. op een hoop geveegd worden, terwijl
er duidelijk sprake is van een zeer heterogene groep. Om de hypothese te toetsen zou per pp. gekeken
moeten worden naar alle taalkundige karakteristieken van de uitingen (en niet alleen naar de fouten),
teneinde te trachten zo iets als productie-systemen op te stellen die het taalgedrag van individuen
kunnen beschrijven. Dat dit een zeer gecompliceerde bezigheid is komt ook in dit boek naar voren,
wanneer wordt ingegaan op procesvariabelen. Deze weg is dus zeer moeilijk begaanbaar. De vraag komt
dan ook op, waarom niet met grammaticaliteitsoordelcn van de ppn. is gewerkt.

Bij dc beschrijving van het Frans van Nederlanders is nagegaan bij de vrije spreektoets of er samenhang
bestaat tussen verschillende foutencatcgorieën. Dit is gedaan d.m.v. een faktoranalyse. Deze analyse
doet echter tamelijk gebrekkig aan. Ten eerste ziet het er niet naar uit dat elke pp. evenveel tot het
materiaal heeft bijgedragen. Immers de ene pp. zal ongetwijfeld meer gezegd hebben dan de andere.
Daardoor zijn de reacties van de ppn. niet meer vergelijkbaar. Hiermee is bij de analyse evenwel geen
rekening gehouden. Ten tweede worden er zowel bij de voor- als bij de natoets vijf faktoren getrokken,
die gezamenlijk rond de 40% van de totale variantie verklaren. Nu kan men hier verschillend over
denken, maar doorgaans, wordt het toch niet verstandig geacht om nog met faktoren te werken die
minder dan 10% van de variantie verklaren. Maar men dient zich in elk geval te realiseren dat het risico
bestaat dat men werkt met statistische artefacten. Deze kwestie speelt hier nog eens extra, aangezien
bij een clusteranalyse van de gebonden spreektoets op zowel de voor- als de nameting bleek dat er
slechts sprake was van één cluster. Het lijkt dan toch enigszins merkwaardig dat er bij de vrije
spreektoets vijf faktoren een rol spelen. In elk geval had deze discrepantie besproken moeten worden.
Bij de faktoranalyse van de vrije spreektoets is een methode gebruikt om de faktormatrix van de
natoets te roteren naar de matrix van de voortoets. Vervolgens is 'op het oog' gekeken of de faktorla-
dingen van de verschillende onderdelen een overeenkomstig beeld te zien geven. Deze manier van
vergelijken is in hoge mate intuïtief. De vraagt dringt zich op waarom niet gebruik is gemaakt van een
moderne statistische methode van longitudinale faktoranalyse.

Over het totaal genomen ontstaat de indruk, dat de auteur een enthousiaste en zeer inventieve (toege-
past) taalkundige is, die de durf heeft gehad een zeer complex probleem aan te pakken en dat in een
aantal opzichten ook voortreffelijk heeft gedaan. Zeker kan dit onderzoek een nieuwe impuls geven
aan het onderzoek van het leren en onderwijzen van een vreemde taal. Met name kan de poging van de
auteur om een taalkundige en een psychologische analyse van het materiaal te geven - teneinde een
indruk te krijgen van de processen die aan uitingen ten grondslag liggen en de ontwikkelingen daarvan
- als voorbeeld dienen voor andere onderzoekers. Echter op het punt van methodologie laat de auteur
het nogal afweten. Dit is kennelijk niet zijn sterkste zijde. Daardoor heeft dit onderzoek ongetwijfeld
aan waarde ingeboet.

D.N.M. de Gruyter, & L.J.T. van der Kamp (Eds.)
Advances in Psychological and Educational Measurement
London: Wiley, 1976.

Dit bock bevat de verslagen van de bijdragen aan het 'Second International Symposium on Educational
Testing', gehouden in 1975 te Montreux. Het boek is uitermate belangwekkend, omdat het een
demonstratie is van een aantal nieuwe opvattingen en benaderingen, die naar mijn mening een bijzon-
der grote invloed kunnen hebben op het empirisch onderzoek in de gedragswetenschappen.
In het eerste deel van het boek wordt de Bayesiaanse statistiek aan de orde gesteld. Dit gedeelte begint
met een aardige inleiding door Jackson; Novick geeft daarna een overzicht van de gebieden waarop de
Bayesiaanse statistiek toegepast kan worden in de onderwijs-mect-kunde. Rouanet, Lépine en Pelnard-
Considcrc bespreken het gebruik van 'Bayesfiducial' intervallen als alternatief voor significantie-toet-
sen. Een beetje merkwaardig vind ik dat dergelijke intervallen geplaatst worden tegenover significantie-
toetsen uit de klassieke statistiek; m.i. moet men ze plaatsen tegenover de betrouwbaarheidsintervallen
uit de klassieke statistiek. Dc problemen klevend aan significantie-toetsen kunnen bestreden worden
binnen een besliskundige aanpak van het toetsen van hypothesen (Ferguson, 1967; Cohen, 1969)
zonder een beroep te doen op de a priori verdeling. De bijdrage van Hambleton, Swaminathan en
Algina is meer specialistisch van karakter: zij behandelen het schatten van de ware score en het
toewijzen aan de kondities gezakt en geslaagd bij criterium-georiënteerde toetsen; daarbij wordt vooral
aandacht besteed aan de Bayesiaanse procedures, die hiervoor ontwikkeld zijn. Mijn indruk is dat de
laatste twee jaar vooral aandacht is besteed aan de besliskundige benadering bij criterium-georiënteerde
toetsen, zonder gebruik van a priori informatie van de Bayesiaanse statistiek (Huyhn, 1976; MacReady
& Dayton, 1977; Van der Linden & Mellenbergh, 1977, 1978). Verder valt in dit artikel op dat de
auteurs het begrip betrouwbaarheid voor criterium-georiënteerde toetsen definiëren als consistentie
van beslissingen: criterium-georiënteerde toetsen zijn betrouwbaar als bij het afnemen van dezelfde test
in beide gevallen dezelfde beshssingen genomen worden. Dc validiteit van een criterium-georiënteerde
toets wordt gedefiniëerd als de mate waarin de genomen beshssingen juist zijn. Tegen deze definities
zijn nogal wat bezwaren aan te voeren.

In het tweede gedeelte komt het meten van veranderingen ter sprake. Het meten van veranderingen is
een klassiek psychometrisch probleem waarvan lange tijd gedacht is dat er geen bevredigende oplossin-
gen mogelijk zijn. Door Roskam wordt een overzicht gegeven van de verschillende multivariate technie-
ken, die gebruikt zijn of gebruikt kunnen worden. In de overige bijdragen wordt telkens een manier
getoond waarop oplossingen van het probleem van het meten van veranderingen gevonden kunnen
worden. Bock benadrukt dat verandering gemeten moet worden per individu en niet - zoals meestal
het geval is geweest - per groep. Hij bespreekt een algemene vorm van een groeicurve en het schatten
van de parameters van deze curve voor individuen. Zijn bijdrage toont, evenals bijvoorbeeld het boek
van Glass, Wilson en Gottman (1975), dat het wel degelijk mogelijk is statistische en psychometrische
modellen te hanteren voor de bestudering van het gedrag van één persoon. Het artikel van Fischer
betreft de bijdrage, die latente trek theorie, met name het model van Rasch, kan leveren voor het
meten van veranderingen. Hij bespreekt twee uitbreidingen van het Rasch-model, die gebruikt kunnen
worden om vast te stellen of er sprake is van verandering op een latente variabele. Het eerste model is
zeer restrictief in die zin dat zowel de praetest als de posttest moet voldoen aan het Rasch-model; het
tweede model is veel minder restrictief omdat deze eis niet gesteld wordt. Jöreskog en Sörbom laten
zien hoe het mogelijk is de coëfficiënten voor de regressies van latente variabelen bij een tweede
meting op dezelfde latente variabelen bij een eerste meting te schatten. De meest belangwekkende
bijdrage is mijns inziens het artikel van Sörbom. Hij toont aan hoe naast bovengenoemde coëfficiënten
het tevens mogelijk is de veranderingen in de gemiddelde scores van de latente variabelen bij verschil-
lende groepen te schatten.

Het derde gedeelte heeft als thema de generaliseerbaarheidstheorie. Er zijn overzichten door van der
Kamp en door Cronbach. Cardinet, Tourneur en Allal laten zien dat de generaliseerbaarheidstheorie
nog algemener gesteld kan worden. Zij tonen aan dat men, naast de generahseerbaarheid van de skore
van een persoon ook de vraag kan stellen naar de generahseerbaarheid van de score per item. Vanuit dit
gezichtspunt is het mogelijk de generaliseerbaarheidstheorie verder te generaliseren (Mellenbergh,
1977). Een toepassing van de theorie wordt gegeven door Hill. De Gruyter bespreekt het vaststellen
van de efficiëntie van een test als studenten geklassificeerd worden in de categorieën geslaagd en
gezakt.

In het laatste gedeelte komt 'item banking' aan de orde; hierover worden overzichten gegeven door
Choppin en door Wood. Zij wijzen beiden op het belang van latente trek theorie voor het schatten van
parameters van items uit een bank. Shoemaker bespreekt het nut van 'matrix sampling' voor het
schatten van de moeilijkheidsgraad van items uit een bank. Pandey en Carlson rapporteren een simula-
tie-studie betreffende de optimale proefopzet van een 'matrix-sampling'-onderzoek. Ahmann en Lar-
son tenslotte rapporteren over het projekt 'National Assessment of Educational Progress'. Hun bevin-
dingen zijn nogall somber: 9-, 13-, en 17-jarigen presteren in 1973 minder op 'science' items dan 9-,
13-, cn 17-jarigen in 1969; er is in deze periode een achteruitgang in kennis wat betreft dit onderwerp.
Samenvattend: dit is een belangwekkend boek, vooral doordat het een aantal nieuwe ontwikkelingen
schetst.

Cohen, J. Statistical power analysis for the behavioral sciences. New York: Academic Press, 1969.

Ferguson, T.S. Mathematical statistics: a decision theoretic approach. New York: Academic Press,
1967.

Glass, G.V., Willson, V.L., & Gottman, J.M. Design and analysis of timeseries experiments. Boulder:
Colorado Associated University Press, 1975.

Huyhn, H. Statistical considerations of mastery scores. Psychometrika, 1976,41, 65-79.

MacReady, G.B., & Dayton, C.H. The use of probabilistic models in the assessment of mastery. Jour-
nal of Educational Statistics, 1977, 2, 99-120.

Mellenbergh, G.J. The replicability of measures. Psychological Bulletin, 1977, 84, 378-384.

Van der Linden, W.J. & Mellenbergh, G.J. Optimal cutting scores using a linear loss function. Applied
Psychological Measurement, 1977,1, 593-599.

Van der Linden, W.J., & Mellenbergh, G.J. Coefficients for tests from a decision theoretic point of
view. Applied Psychological Measurement, 1978, 2 (in press).

Op 15, 16 en 17 maart 1978 Nederlandstalig Gezelschap voor de Vergelijkende Studie

van Onderwijs en Opvoeding, in samenwerking met het Departement Didactiek en Kritiek van de
Universitaire Instelling Antwerpen, zijn derde conferentie.

Het thema van de conferentie is: 'Onderwijsvernieuwing in Europa: de sleutelfunctie van de leerkrach-
tenopleiding'. Bedoeld worden de opleidingen van alle onderwijsgevenden voor het kleuter-, het basis-
en het secundair onderwijs.

Tijdens de laatste decennia hebben een groot aantal vernieuwingen in het onderwijs plaats gehad. In de
internationale onderwijskundige hteratuur wordt er steeds op gewezen dat het slagen van een
onderwijsinnovatie sterk afhankelijk is van de leerkracht. Het belang van het thema is dan ook zonder
meer duidelijk.

Deze conferentie richt zich tot beleidsmensen, inspectieleden en allen die betrokken zijn bij de
opleiding en begeleiding van onderwijsgevenden.

Universitaire Instelling Antwerpen
Aulagebouw
Universiteitsplein 1
2610 - WILRIJK

Inschrijving voor België: door storting of overschrijving van
600,-Fr voor - ledeffvan het Gezelschap

op nummer 230-0041410-11 van Wielemans F.J.W., N.G.V.O., Dekenstraat 28-30, 3000 - Leuven
Inschrijving voor Nederland: door storting of overschrijving van
ƒ40,- voor - leden van het Gezelschap

op Algemene Bank Nederland, Gironummer 328.588 Laren (NH) ten gunste van rekeningnummer

Voor overnachting in een hotel kan bemiddeld worden, bij voldoende aantal inschrijvingen in één hotel
genieten de deelnemers van een speciale congresprijs.

De FSW-vakgroep i.o. organiseert cursussen, primair bestemd voor degenen die bij een onderzoeksin-
stelling of onderwijsinstelling zelf op methodologisch terrein werkzaam zijn, en van de recente ontwik-
kelingen op de hoogte willen blijven. Het aangeboden pakket omvat dan ook vooral geavanceerde
onderwerpen. In de meeste gevallen zal het zelf uitwerken van opdrachten, met behulp van standaard
computerprogrammatuur, een belangrijke aanvulling vormen op zelfstudie en hoorcollege. Tenzij an-
ders aangekondigd vormt een cursus een aaneengesloten blok van enkele dagen; dit beperkt de reistij-
den en bevordert het onderling contact van de deelnemers.

De deelnemers betalen de kosten van documentatie en een bijdrage in de organisatiekosten, en eigen
reis en verblijf; gevorderde studenten kunnen nä overleg ook deelnemen, tegen gereduceerd tarief.
3-7 april 1978: Computer Assisted Bayesian Statistical Methods (CADA)

Docent: Dr. Charles Lewis, Univ. of Illinois
10-11 april 1978: Advanced Bayesian Statistical Methods, voor deelnemers die al eerder een CADA-
cursus volgden.
Docent: Dr. Charles Lewis
8-11 mei 1978: Analysis of Covariance Structures and Factor Analysis (EFAP, COFAMM, LIS-
REL).

Docent: Dr. Karl G. Jöreskog, Univ. of Uppsala. Cursus in samenwerking met de
Interfaculteit Econometrie en met steun van de Sociaal-Wetenschappelijke Sectie
van de Vereniging voor Statistiek; vereist intensieve voorbereiding
mei of sept. 1979 Multivariate Lineair Models (MULTIVARIANCE).

Docent: Dr. Jeremy D. Finn, State University of New York at Buffalo
sept, of mei 1979: Multidimensional Scaling with applications in the social sciences.

Docent: Dr. Anthony P.M. Coxon, University of Cardiff
zomer 1980: Grafentheorie en sociale netwerken (GRADAP).

Voor de cursussen van Lewis en Jöreskog kan men zich aanmelden bij Mw. W. Lakerveld, FSW, Oude

Boterinéestraat 23, Groningen. Men ontvangt dan documentatie en een inschrijfformuher.

Met name voor de cursus van Jöreskog geldt dat het aantal deelnemers beperkt zal zijn.

Voor dc cursussen in 1979 en 1980 hebben de docenten toegezegd, maar staan nog geen data vast;

men kan zich op een verzendlijst laten plaatsen, waardoor men t.z.t. een soortgelijke aankondiging als

Vereniging Universitaire Leraren Opleiding Nederland VULON
Kongres Verzorging van Onderwijs

Van 22 t/m 24 februari 1978 zal dc Vereniging Universitaire Leraren Opleiding Nederland (VULON)
in hotel Troelstra-oord te Beekbergen een kongres organiseren.

Het doel van het kongres is vooral de opleiders van leraren aan universiteiten en hogescholen duidelijk
te informeren over de aktiviteiten van de instellingen, die zich bezig houden met ondersteuning (d.m.v.
onderzoek), ontwikkeUng (d.m.v. leerplan- en toetsontwikkeling), begeleiding en vernieuwing van
onderwijs, de zgn. verzorgingsstruktuur. Ook de samenwerkingsverbanden binnen de verzorgingsstruk-
tuur zuUen op die dagen nader worden belicht, terwijl voorts getracht zal worden enige relaties tussen
de universitaire lerarenopleidingen en de instellingen werkzaam in de verzorgingsstruktuur tot stand te
brengen.

Kontakten voor andere informatie en aanmelding: Sekretariaat VULON-kongres, Technische Hoge-
school Eindhoven, Postbus 513, Algemene Onderwijskundc/HG 8.79, Eindhoven, telefoon:
040-4 7 2889.

Beroepsopleiding. Informatiebulletin van het Europees Centrum van de Ontwikkeling van de Beroeps-
opleiding, 1977, no. 1.

Meijnen, G.W. Maatschappelijke achtergronden van intellektuele ontwikkeling, Groningen: Wolters-
Noordhoff, 1977 (= Empirische studies over onderwijs-24).

Moor, R.A. de. De ontwikkeling van een onderwijsmodel. Een programma van onderzoek op het
gebied van het onderwijs. Amsterdam, Noord-Hollandse Uitgevers Maatschappij, 1977 (= Koninklij-
ke Nederlandse Akademie van Wetenschappen, Sociaal-Wetenschappelijke Raad, Werkdocumenten
nr. 5).

Nienhuis, L.J.A. Het toetsen van spreekvaardigheid: Een onderzoek uitgevoerd voor het Frans ten
behoeve van het schoolonderzoek moderne vreemde talen, 's-Gravenhage: Staatsuitgeverij, 1977 (=
SVO-reeks no. 8)

Sanders, C., Eisenga, L.K.A. & Rappard, J.F.H. van. Inleiding in de grondslagen van de psychologie.
Deventer: Van Loghum Slaterus, 1977.

Simon, H. A. Models of discovery. Dordrecht : Reidel, 1977 (= Synthese Library 114 ; Boston studies in
the philosophy of science 54)

Spada, H. & Kempf, W. (eds.) Structural models of thinking and learning. Bern: Huber, 1977.

Tijdingen nr. 7 van het Centraal Bureau voor de Studie van het Universitair Onderwijs, R.U. Gent.

Ven, A.H.G.S. van der. Inleiding in de schaaltheorie. Deventer: Van Loghum Slaterus, 1977.

To test the validity of research designs, computer simulation is proposed as a methodological
tool. As an example, a statistical test used to refute the well-known model of knowledge or
random guessing was examined. By generating scores using a combination of the normal ogive
model and the model of knowledge or random guessing, the statistical test was replicated. The
generated data fitted the empirical data fairly well, and also led to the rejection of the null
hypothesis. It is therefore impossible to attribute the rejection of the null hypothesis to the
invalidity of the model of knowledge or random guessing. The rejection must thus be the result
of an erroneous design. The reasons thereof are discussed.

Simulatie van psychometrische of didakometrische processen door het genereren van
scores door de computer is een techniek, die vermoedelijk steeds meer zal worden toege-
past naarmate computertijd goedkoper wordt. Met simulatie kunnen problemen worden
opgelost, die te gecompliceerd zijn om op de gewone wijze (afleiding van formules) te
kunnen worden aangepakt. Zo werd onlangs gerapporteerd over een onderzoek naar de
mate van benodigde aftestgrensverhoging bij invoering van meer herkansingen in een nogal
ingewikkelde propedeuseregeling, zodanig dat het gemiddeld niveau van de geslaagden
constant zou blijven (Van Naerssen, 1976). Simulatie kan echter ook nuttig zijn bij
relatief eenvoudige problemen, zoals het volgende.

Het voorbeeld betreft de controle van een ter beoordeling aangeboden, als hypothesetoet-
sing bedoeld onderzoek. Hoewel direct het vermoeden bestond dat eigenlijk de verkeerde
hypothese was getoetst, werd besloten tot simulatie over te gaan om hierover volledige
zekerheid te krijgen, èn omdat zo'n onderzoek wellicht een grotere overtuigingskracht
heeft dan het alleen aanwijzen van eventuele methodologische tekortkomingen. Men zou
kunnen blijven twijfelen aan de effecten'van de methodologische fouten, of menen dat
spijkers op laag water worden gezocht.

Een auteur evalueert een door een ander verricht en anoniem gerapporteerd onderzoek
naar de invloed van raden bij een 50-item-vierkeuzetoets:

'Een steekproef van 1400 leerlingen werd verdeeld in twee groepen: een groep L met scores
kleiner dan of gelijk aan 16 en een groep H met hogere scores. In groep L zaten 280 kandidaten.
Juist deze kandidaten zouden in belangrijke mate moeten hebben geraden. De meerkeuzevragen
werden gerangschikt naar toenemende p-waarde. Vervolgens werden steeds 5 vragen samen
genomen, en van deze groepjes werd bepaald welke gemiddelde p-waarden werden behaald door
groep L en door groep H. Het resultaat werd in een diagram weergegeven (zie fig. 1). Als raden
inderdaad een belangrijke rol speelt, zal de lijn voor groep L moeten liggen rondom de horizon-
tale lijn met als waarde 0,25. Dit geldt vooral voor de moeilijke vragen, dus voor het begin van
de lijn.'

In werkelijkheid blijkt de gemiddelde p-waarde als functie van de naar moeilijkheid ge-
rangschikte vraaggroepjes zowel bij groep H als bij groep L hneair oplopend te zijn. Dit
resultaat zou suggereren dat raden geen rol speelt, maar toont het uiteraard nog niet aan.
De auteur tracht nu door hypothesetoetsing aan te tonen dat het model van weten of
blind raden onjuist is. Zijn nulhypothese luidt ruwweg: Iedere leerling is bij een vierkeuze-
vraag een 'weter' en heeft dan de vraag zeker goed beantwoord, of een 'niet-weter' en
heeft dan een kans van 0,25 om het item goed te beantwoorden.

Tegenover deze nulhypothese stelt hij een hypothese Hj waarbij ook half-weters worden
onderscheiden, die elimineren en raden, en een H2 waarbij de leerling altijd meent dat hij
de juiste mogelijklieid gekozen heeft en dus nooit echt raadt: de hypothese van de
misverstanden. Hoe plausibel deze alternatieve hypothesen ook zijn, het gaat hier verder
alleen om de verwerping van de nulhypothese (raden tegenover niet raden). Daarvoor
kiest de auteur een vierkeuzetoets, die door een redelijk groot aantal personen is gemaakt
(N = 803) met betrekkelijk lage scores zodat er inderdaad bij Hq veel geraden moet
worden. Het gemiddelde is 20^1 goed van de 40 items. De standaarddeviatie van de
scores bedraagt 5,62 en de KR20-betrouwbaarheid 0,74. Itemnummer, p-waarde en item-
test-correlatie staan in de eerste drie kolommen van tabel 1.

De auteur redeneert nu aldus: Stel we nemen een niet te kleine subgroep leerlingen met
scores rond de raadscore (40/4 = 10). Deze groep zou onder Hq bij elk item raden. Het
gevolg is dat bij die subgroep de p-waarden toevallig rond de 0,25 verdeeld zijn. Wanneer
men deze p-waarden (pl) in een figuur afzet tegen die berekend bij de overige leerlingen
zal er een puntenwolk moeten ontstaan, die men zich gestrooid om de lijn pl = 0,25 kan
denken. Onder de hypothese H^ daarentegen kan men een puntenwolk verwachten die
gestrooid is om een kromme, van het punt pn = Pl = o tot pn = Pl = 1-
Als maximumscore van de lage groep werd de score 13 gekozen, die 86 personen oplever-
de voor de lage groep. De p-waarden werden berekend voor de lage en de hoge groep.
Deze staan in de kolommen 4 en 5 van tabel 1. De hiermee getekende puntenwolk lijkt
precies op die welke verwacht werd onder hypothese Hj, maar de auteur berekent ook
een significantieniveau, waarbij Hq verworpen wordt. Daartoe beschouwt hij de 20 moei-
lijkste vragen (dit zijn hier de 20 vragen met de laagste Pn, in de tabel aangegeven met een
ster), waarbij men kan aannemen dat er in de lage groep practisch alleen geraden wordt.
Het beantwoorden van deze 20 vragen door de 86 personen van de lage groep kan dus
onder Ho worden opgevat als een binomiaal kansexperiment, dat 20 maal 86 = 1720 maal
wordt uitgevoerd met een kans 0,25. De binomiale verdeling kan worden benaderd met
een normale verdeling met hetzelfde gemiddelde (1720/4 = 430) en dezelfde standaard-
afwijking (de wortel uit 1720 x 0,25 x 0,75 ~ 18,0). De som van de 20 p-waarden bij de
lage groep is 3,39 dus bij die groep is de totale score 86 maal zoveel, of 292. De z-score is
dus (292430)/18,0 = -7,68 wat overeenkomt met een zeer laag significantieniveau. De
nulhypothese, en daarmee het model van weten of bUnd raden, zou dus met zeer veel
vertrouwen kunnen worden verworpen. De lage groep heeft gemiddeld een significant
lagere score gehaald dan bij raden verwacht wordt. Dit zou alleen verklaard kunnen
worden door 'misverstanden' omtrent de items.

Indien men in de sociale wetenschappen een zeer extreem significantieniveau vindt dan
duidt dit meestal op het intrappen van een open deur. Eigenlijk wordt hier een heel
andere hypothese getoetst dan bedoeld werd, en wel: 'De hele groep personen met de
laagste scores raadt bij elk item'. Dat is iets anders dan het model van weten of blind
raden: 'Elke persoon kan een item weten, en dan beantwoordt hij het goed, of niet weten,
en dan raadt hij "blind" naar het antwoord'. Volgens dit laatste model kunnen de per-
sonen met extreem lage scores wel degelijk sommige items weten, maar zij hebben ge-
woon pech gehad bij het raden van de items die zij niet weten, zodat zij scores kunnen

halen beneden de raadscore. Doordat de lage groep gedefinieerd werd aan de hand van de
scores haalt men er juist deze peciihebbers uit: men kapitaliseert op fouten, toevallig-
heden. De lage p-waarden bij de lage groep kunnen een artefact zijn van de gebruikte
methode. Berekent men namelijk p-waarden voor groepen met dezelfde scores dan is de
gemiddelde p-waarde van zo'n groep gelijk aan de betreffende score (Lx)rd en Novick,
ch. 16), dus uiteraard ligt dan dc gemiddelde p-waarde bij relatieve scores onder de 0,25
eveneens onder de 0,25.

Men kan ook denken: de auteur heeft mogelijk te veel vertrouwd op waarden, die van
steekproef tot steekproef kunnen veranderen. Zijn steekproef is wel voor Nederlandse
maatstaven tamelijk groot (N = 803) maar misschien kan men dit probleem alleen met
zée'r grote steekproeven aanpakken. Zo vermelden Lord en Novick (1968, p. 363) een
onderzoek naar p-waarden als functie van de score bij een steekproef van 103275 leerlin-
gen!

Dit zijn echter slechts vermoedens. Om zekerheid te krijgen werd het onderzoek herhaald
met gesimuleerde scores, die voldoen aan het model van weten of blind raden. Wanneer
deze gesimuleerde scores ongeveer eenzelfde puntenwolk tussen de pn en de Pl opleveren
als het empirisch onderzoek en tot een ongeveer even significante verwerping van de
nulhypothese leiden, dan pas kan men zeggen dat het empirisch materiaal evengoed
verklaard kan worden met het model van weten of blind raden: met andere woorden, dan
is men er pas zeker van dat het empirisch onderzoek niets heeft aangetoond.

Hierbij werd gebruik gemaakt van het normaalogief model (Lord en Novick, hoofdst. 16),
d.w.z. aangenomen wordt dat 1) de personen normaal verdeeld zijn over een 'onder de
toets liggende trek', 2) de items alleen deze trek meten (geen andere gemeenschappelijke
factoren hebben), 3) de kans p dat een persoon een item weet een normaalogieffunctie is
(= cumulatieve normale verdehngsfunctie) van zijn trekwaarde en 4) als een persoon een
item weet hij het goed zal beantwoorden, zo niet dan raadt hij met een kans gelijk aan één
gedeeld door het aantal alternatieven. Elk item heeft in dit model twee parameters, een
discriminatieindex a (die vooral positief correleert met de itemtestcorrelatie) en een moei-
lijklieidsindex b (die vooral negatief correleert met de p-waarde). Bovendien heeft de test
nog een parameter c (= 1/(aantal alternatieven)). Een gevolg van deze aannamen is dat
elke persoon bij elk item een kans moet hebben om dit item goed te beantwoorden, die
groter is dan c, namelijk c + (l-c)p.

De parameters a en b van de items werden geschat meteen methode van Urry (1974), -
ook beschreven in Van Naerssen (1977). (Het programma staat in Memo D 140) - uit de
p-waarden en item-testcorrelaties van de steekproef; hierbij werden p-waarden beneden de
c (0,25) tot 0,251 verhoogd en biseriële itemtestcorrelaties van maximaal 0,99 toegelaten.
Deze 'afrondingen' leidden in 7 gevallen practisch tot Guttman items (a > 7). De para-
meters a en b staan in de kolommen 6 en 7 van de tabel.

Nu werden voor 803 (gesimuleerde) personen de trekwaarden berekend als toevallige
trekkingen uit een standaardnormale verdehng (programma D 148, zie literatuur). Van
elke persoon werd de itemscorevector gegenereerd; d.w.z. bij elk item werd nagegaan of
de met het normaalogiefmodel (gecombineerd met 'weten of blind raden') berekende
kans om het item goed te beantwoorden (gegeven de trekwaarde, a, b en c) groter was dan
een toevallige trekking uit een rechthoekige verdeling tussen O en 1 (hem goed) dan wel

kleiner (item fout). De testscores werden natuurlijk berekend als som van de itemscores.
Net als bij het empirisch onderzoek werd een lage groep gevormd door personen met
scores van hoogstens 13 en werden de p-waarden berekend bij de lage groep (kolom 8) en
bij de hoge groep (kolom 9). De lage groep bestond hier uit 67 personen.
In figuur 1 is van de 40 items pl afgezet tegen pn, zowel bij het empirische onderzoek
(kruisjes) als bij het simulatieonderzoek (stippen).

Men ziet dat de met simulatie gevonden punten geen ander beeld vertonen dan de empi-
risch gevonden punten. Ook onder de hypothese Hq lijkt de puntenwolk te lopen van pn
= Pl = O tot Ph = Pl = 1, en niet zoals verondersteld werd rond de horizontale lijn door
Pl=0,25.

Voorts werden, als bij het empirische onderzoek, de 20 items met de laagste p^ geselec-
teerd. Dit bleken dezelfde items te zijn als bij het empirische onderzoek, behalve dat item
39 vervangen moest worden door item 32. Als men weer veronderstelt dat onder Hq de
(nu 67) personen bij de 20 items steeds een kans van 0,25 zouden hebben om het item
goed te beantwoorden, dan zou de totale score 335 zijn en de standaardafwijking 15,85.
Van deze groep is de totale gesimuleerde score echter slechts 251,25. Het verschil is
significant met een z-waarde van -5,28, en dit is ook zéér significant. Toch werd het
weten of blind raden ingebouwd in de simulatie, zodat daar de oorzaak niet kan liggen.
De oorzaken werden reeds genoemd in par. 3.

Een van de bij het empirisch onderzoelc gemaakte fouten was dat de p-waarden berekend
werden bij dezelfde test als waarmee de groep in een lage en een hoge subgroep was
verdeeld. Daardoor ontstonden de bij de lage groep extreem lage p-waarden, die de auteur
verleid hebben tot de veronderstelling dat de lage groep bij de moeilijkste 20 items niet
geraden heeft maar door een 'misverstand' het verkeerde alternatief gekozen heeft. Om
dit verschijnsel aan te tonen werden nog van dezelfde personen de itemscores gegenereerd
op een paralleltest, d.w.z. een test met dezelfde itemkarakteristieken (grafieken die de
kans-op-goed geven als functie van de trekwaarde). De personen werden nu weer inge-
deeld volgens de score op de eerste test (X), maar de p-waarden werden berekend bij de
paralleltest Y. Deze p-waarden staan in de kolommen 10 en 11 van de tabel. Dergelijke
p-waarden zou de auteur ook empirisch gevonden hebben als hij een paralleltest gebruikt
had. Men ziet dat hier veel minder p-waarden onder de 0,25 gevonden worden, deze zijn
ook niet extreem laag, en zij zouden gemakkelijk geïnterpreteerd kunnen worden als
'toevallig laag' hoewel de kans om het item goed te beantwoorden steeds groter is dan
0,25.

De passing (fit) van het model kan worden beoordeeld na vergelijking van een aantal
empirische steekproefwaarden en de overeenkomstige gesimuleerde waarden:

Voorts kan men de p-waarden vergelijken van tabel 1 (de kolommen 5 en 8). En tenslotte
blijkt de passing uit een vergelijking van de empirische en de berekende frekwentieverde-
ling. Kortheidshalve worden in tabel 3 alleen de cumulatieve relatieve frekwenties vermeld
bij de scores 5,'10, 15, 20, 25, 30 en 35. De eerste kolom heeft betrekking op mij door
het Centraal Instituut voor Toetsontwikkeling (CITO) welwillend verstrekte gegevens,
berekend bij een populatie van 11250 personen, waarvan de groep van 803 weer een
steekproef was voor de auteur van het besproken onderzoek. De cumulatieve frekwenties
van de derde kolom zijn berekend door het programma D 140 en die van de 4e en 5e
kolom door het programma D 148 met de gesimuleerde scores X en Y.

Voor het beoogde doel is de passing vermoedelijk zeer goed. Dat betekent dat eventuele
kritiek op de gebruikte methode van Urry om de itemparameters te schatten en op de
'afronding' tot p-waarden boven de 0,25 en biseriële correlaties onder de 0,99 hier geen
hout snijdt. Er is aangetoond dat er een verzamehng itemparameters a en b bestaat, met
een c bij elk item van 0,25, waaruit de gevonden groep p-waarden kan worden verklaard,
evenals het zeer significante verschil tussen de bij een binomiaal kansexperiment verwach-
te gemiddelde score bij de lage groep en het empirisch gevonden gemiddelde.
Tenslotte nog een opmerking over het verwerpen van modellen. Nog niet zo lang geleden
meende men dat een model (hypothese, theorie) moest worden veriaten zodra het door
empirisch onderzoek was verworpen (onwaarschijnlijk gemaakt). Volgens een modernere
opvatting (Lakatos, bijv. 1970) moet een model alleen verlaten worden ten gunste van een
ander model, dat meer verschijnselen verklaart d.w.z. voorspelt. Het model van weten of
blind raden is een zeer handig model, dat veelvuldig gebruikt wordt omdat men er veel
mee kan doen, berekenen, voorspellen. Het moet volgens de klassieke opvatting verwor-
pen worden omdat het bijv. imphceert dat de foutieve alternatieven even vaak gekozen
worden, wat duidelijk niet het geval is (Lord en Novick, p. 309). Maar alternatieve hypo-
thesen zoals de genoemde Hi en H2 leiden (nog) niet tot (betere) voorspellingen. Daarom
blijft men het model van weten of blind raden terecht gebruiken.

Lakatos, I. Wetenschapsfilosofie en wetenschapsgeschiedenis. Meppel: Boom, 1970. (Vertaald uit:
Lakatos en Musgrave, Criticism and the growth of knowledge.)

Lord, F.M. en Novick, M.R. Statistical theories of mental test scores. Reading: Addison Wesley, 1968.

Naerssen, R.F. van. Computersimulatie bij het onderzoek van tentamenregelingen. T. v. Onderwijs-
research, 1976, / , 112-117.

Naerssen, R.F. van. Lokale betrouwbaarheid en utiliteit van de selectie. Memo D 140, Vakgr. Metho-
denleer, Subf. Psychol. Univ. v. Amsterdam.

Naerssen, R.F. van. Grafieken voor de schatting van de helling van itemkarakteristieken. T. v. Onder-
wijsresearch, 1977,2, 193-201.

Naerssen, R.F. van. Een voorbeeld van simulatie ter controle van empirisch-statistisch onderzoek.
Memo D 148, Vakgroep Methodenleer, Subfaculteit Psychologie van de Universiteit van Amster-
dam, 1977a.

Urry, V.W. Approximations to item parameters of mental test models. Educational and Psychological
Measurement, \91A,34, 253-269.

Using a numerical example, four possible approaches are discussed for the case where we have
one dependent variable y, depending upon two sets of predictor variables X, and Xj. The four
approaches arc;

It is shown that approaches (3) and (4) are very intimately related. It is also shown how
approach (1) can give more insight in the underlying structure than the usual rather superficial
'step-up' or 'step-down' methods. Approach (2), in this specific case, could be a rather prag-
matic short-cut method to answer one specific question (the relative weight of the contribution
of X, compared to that of Xj).

For the educational researcher it is not an uncommon situation that he wants to investi-
gate how a certain 'dependent variable' is determined by other variables, where those
other variables can be distinguished into natural groups. In this paper we shall distinguish
only two of such groups.

An example is that the dependent variable is school performance (of children), and the
question is to what extent performance depends upon Child's home (as measured by a
number of variables, such as parental occupational status, etc.) on the one hand, and
school characteristics (again measured by a number of variables) on the other. Classical
multiple regression analysis does not really answer such a question. In classical multiple
regression analysis the usual approach- is roughly as /ollows. One first calculates the
squared multiple correlation with respect to the home variables alone (say, with result
.53); next the squared multiple correlation with all variables (.59, say); and then the
difference between the two (.59 - .53 = .06) is taken as an index of what school variables
do in addition to home variables (in the example this is not much, and the rash conclu-
sion would be that performance depends on home variables, but not on school variables
in so far as the latter are different from home variables). The weakness^of the procedure
reveals itself if we reverse rôles: first calculate the squared multiple correlation with
school variables (.29, say) and then take the difference (.59 - .29 = .30) as an index of
what home variables do in addition to school variables (in the example the rash conclu-
sion would be that they do about as much as the school variables themselves, a conclusion
that is obviously in confiict with the eariier one).

Let us first introduce some terminology and notation. The n observations on the depen-
dent variable (performance) will be notated as a vector y. The m 'predictor' variables are
given in an n X m matrix X. This matrix is partitioned into two blocks of columns, first
the m, columns Xi, then the m2 = m - mi columns X2. For the remainder of this paper
we shall always assume that y and X are given in terms of deviations from the column
means.

It is well known that regression can be represented geometrically as a projection. The
vector y and the m vectors x can be seen as vectors in an n-dimensional space Sn. In Sn
the vectors in X span a subspace of dimensionality m (we ignore degenerate cases where
the subspace has lower dunensionality). If y is not fully predictable from X, then y will
be a vector not contained in the subspace spanned by X. We then can decompose y into
two components: one (which we shall call the image of y with respect to X, and indicate
as yPX) that is located in the X-space, and the second (the anti-unage of y with respect to
X, notated as yAX) orthogonal to the space of X. The squared length of yPX divided by
the squared length of y itself, then is the squared multiple correlation (we shall abbreviate
smc). Or, equivalently, the cosine of the angle between y and yPX is the multiple correla-
tion. The situation is pictured in figure 1 (for the case that X has only two columns).

In this paper we shall not bother the reader much with algebraic detail.' However, it is
useful to note that

where it is assumed that Xj is of full column rank so that the inverse of X^'X, does in
fact exist.

1 In this paper we omit rigorous proofs, and very often we shall present results without showing how
they are computed. A report that gives more details is in preparation; its title will be 'Decompositon of
a dependent variable with partitioned independent variables'. Interested readers can ask for a copy by
writing to the Department of Datatheory, c/o Centraal Reken Instituut, Wassenaarseweg 80, Leiden.

When X is partitioned into two blocks Xi and Xj, then these two blocks span each their
own subspace in the first with dimensionality mi, the second with dimensionality
m2. We shall assume, just for convenience, that m, > m2. It then is possible to decom-
pose Xl into two sets of mi vectors, obtained by decomposing each vector Xij into its
components x,jPX2 and XijAX2, or, in matrix notation

In Sn, Xl will span a subspace with dimensionality m2, in fact the same subspace as
spanned by X2 (assuming, still, that mi > mj). rji will have dimensionaUty mi, and this
subspace is fully orthogonal to that of Xi • Also, X2 will have dimensionality m2 (a
subspace of Xi), and orthogonal to Xi we have the m2 - dimensional subspace X2 •
X as a whole spans a subspace of dimensionaUty m = mi -h m2, the same space as spanned
by Tji and 772, jointly. When, however, we take Xi and X2 together, their dimensionaUty is
2m2. Writing x = (Xi .X2). and T7 = (rji ,r]i), we therefore have a subspace r?Ax of dimen-
sionaUty mi - m2. It is, in fact, the component of Xi that is orthogonal to X2 •
Figure 2 gives an illustration for mi = 2, m2 = 1.

In the sequel we shall often have to talk about sums of squares. We shall use the notation
SS(y) for the sum of the squared elements in y; similarly we have notations as SS(yPX),
etc. An SS of a vector corresponds geometrically to its squared length.

In § 1 we used a simple numerical illustration which now can be given with more formal
notation. Without loss of generality, let SS(y) equal 1 (i.e., y is 'standardized'). Then
SS(yPX) is the smc of y with respect to X, and in the example SS(yPX) = .59. SS(yPXi)
equals .53, the difference .59 - .53 = .06 then equals SS(yP772 ).
In fact:

The example is copied from Noonan and Wold (1976). X, contains three variables related
to the child's 'home':
Xn father's occupation
Xi2 father's education
Xi3 mother's education
X2 contains two variables related with 'school':
X21 remedial teaching score (inversed)
X22 teacher's post secondary training

The dependent variable y, finally, is the child's score in a science performance test.
The correlation matrix is given in table 1. The numerical illustrations used before, refer to
this example; they are summarised in figure 3, and the geometrical illustration is given in
figure 4.

We hasten to add that we use the example only for illustrative purpose, and without
concern for its substantive aspects. The data stem from a project of the International
Association for the Evaluation of Educational Achievement (lEA)^. They refer to the
research done in England, over 146 different schools, and about 30 fourteen year old chil-
dren for each school. The correlations in table 1, refer to data aggregated to the level of
schools, so that in this respect the population size is 146.

2 Information about the lEA projects can be obtained from lEA, Institute for the Study of Inter-
national Problems in Education, Stockholm University, Fack, S-104 05 Stockholm 50, Sweden.

Both figure 3 and 4, however, are far from complete. Without introduction of details, we
present the full scheme in figure 5. Inspection of that scheme produces the following
comments.

First of all, we find that SS(yPXi) = .5278, a substantial value for the home variables.
The school variables add little to it (SS(yP7?2) = .0605); in other words, the school
variables have little that is not already present in the home variables. On the other hand,
the home variables are in themselves also partly predictors of school variables, and partly
they are unrelated with school variables. The dependent variable y depends mainly on the
first part: Xr > with SS of .5235. The part of the home variables unrelated to school (this
is7jAx)has nothing to do with y (SS(yPT?Ax) = .0043). In other words, the home variables
are predictors of y exactly in so far as they are also predictors of school variables.
Now let us have a look at the other wing. There is an effect of school (SS(ypX2) =
.2851), but the home variables add something to it (SS(yPr?i) = .3032). What do they
add? First, of course, the extent to which y depends on home variables unrelated to
school (tjAx), but in addition the extent to which y depends on the 'home variables as
predictor of school', in so far this is not already contained in the school contribution
itself After all, X2 is only a predictor of school, and not school 'itself; it therefore has
components unrelated to school. What we find, again, is that what the home variables add
(SS(yPT?i)) comes mainly again from home variables as related to school.

Figure 6: Geometrical representation of fig. 5. Note that figure 4 is embedded in figure 6. The dotted
lines should be seen as orthogonal to the plane of drawing. Numbers indicate length of vector (square
root of SS). These numbers correspond with multiple correlations.

Taking additive contributions it is possible to test the effect as in ANOVA. Table 2 gives
one of the possibihfies.

Figure 6 gives a geometrical representation of how the vectors we have distinguished are
interrelated in Sn.

SS(yPx), of course is a compound effect; we can look upon it as the smc if for home
variables we had taken only the component X2 (home variables as school predictors).
The conclusion therefore, is clear: y depends mainly on the home variables, but precisely
on that aspect of the home variables from which also schoolvariables can be predicted.
The contribution of school itself seems indirectly to depend itself on home variables, as if
school variables are mediating between home .nd performance.

The analysis described above, pictured in figure 4, is called the 'analysis of variance
approach', because it decomposes the variance of y into a number of portions, many of
them with additive properties as illustrated in the figure.

Some questions remain unanswered. For ^e thing, what is the relative contribution of
X, and Xz ? Can we express it as a sort of regression equation? Secondly, to what extent,
really, depends the smc on the fact that there is covariance between Xi and Xj ?
The latter question is sometimes falsely answered by taking SS(yPX) - (SS(yP7?i) +
SS(yPr}2)). In the example: .5883 - (.3032 + .0605) = .2246. This however is incorrect,
since tj, and t?2 are correlated among themselves. We shall come back to the question in
§ 7 and § 8.

The other question (can we write a regression equation to indicate the relative importance
of home versus school?) is answered by applying one of Wold's NIPALS procedures (in
fact, the simplest form of NIPALS). Very simply, the idea is: let us predict y from yPXj
and yPXz- The correlation between these two vectors can be found to be .4373. Since we
already know the smc's of y with respect to Xi and X2 (they are .5278 and .2851,
respectively), we also have the correlations between y and yPXi or y and PX2 (.7265 and
.5339). In the usual way we therefore can calculate the regression equation, which be-
comes y = .61(yPXi) + .27(yPX2), where the regression weights apply to the standardised
versions of yPXj and yPXz.

The corresponding smc SS(yP(yPXi, yPX2)) becomes .5856. This is lower than SS(yPX),
for obvious reasons. After all, y, defined above, is the projection of y on the plane
spanned by yPXi and yPXz, and there is no reason why yPX should be located exactly in
that plane. In fact, one can imagine situations where yPX is rather far away from the
plane, in which case the NIPALS smc can be much lower than the classical smc. Whether
such a weird configuration ever occurs in practice, is another matter (not too often,
probably).

Anyway, the regression equation says that home variables carry more weight in that
equation than school variables.

To what extent does the smc of y depend on covariance between the two predictor
sets? As an introduction to the full answer, we first take the simplest case, where m, =
m2 = 1.

Figure 7 gives a picture of the constellation. In that picture yPX is given the notation Xb,
where b is the 2 x 1 vector of the weights (b = (X'X)"'X y)-Also drawn are the two
vectors xb and 17b; obviously Xb= xb + 7?b. xb is the component of Xb that is derived from
the mutually predictable components Xi and x2 of each vector x. It therefore seems
reasonable to say that SS(xb) is a sort of measure for the extent to which SS(yPX)
depends on correlation between Xi and X2. In fact, if this correlation is zero, then also
SS(xb) is zero. If the correlation is one, then Xb = xb. In the intermediate cases it can be
shown that SS(xb) = r^^ .SS(yPX), where r^ is the correlation between x, and X2.

Figure 7: Image of y on a plane spanned by two x-
vectors. The vector yPX is given as Xb; it has two (non
orthogonal) components xb and rjb.

As an alternative approach to our problem, we can apply canonical analysis to X, and
X2, first. I.e., we determine transformation matrices V, and V2, in such a way that
V'l X'l X2 V2 is a diagonal matrix P of canonical correlations, whereas Vi Xi X, V, = I and
also V2X2X2V2 = I. Realise that XiV, spans the same space asX, itself, and therefore
yP(Xi Vi) = yPXi; similar for yPX2 = yP(X2 V2 ).

What the canonical transformation does, in fact, is that it produces in Sn a set of
orthogonal planes. The first plane is spanned by the vectors XiVn and X2V21 with
correlation ; orthogonal to this plane a second plane is obtained with the vectors
X2VJ2 and X2V22 with correlation P2. etc. When mi > m2, we shall obtain m2 such
planes. In addition, we shall be left with m, - m2 single vectors X, v,j (j = "12 +1,... m, )
which have no partner in X2. In our numerical example the results are the following. For
Vi we have

Now we shall look at projections of y on these canonical planes. Since the planes are
orthogonal, SS's of images of y on the succesrive planes are additive portions of SS(yPX).

In so far as in Xj single vectors are left without partners in Xj, images of y on such
vectors also have the additive property with respect to yPX. In fact, for each canonical
plane we have the situation pictured in fig. 7.

In the home/school example, we have two canonical planes, and one single vector in X,
orthogonal to Xz and therefore without partner. This single vector, obviously, is t?Ax,
the same as in the analysis of variance approach; its SS there can be found to be .0043.
For the image of y on the first canonical plane we find an SS of .5838; for the second
plane this SS equals .0002. The reader can verify that the three SS's in fact do add up to
SS(yPX): .5838 + .0002 + .0043 = .5883.

We also see that most of SS(yPX) depends on the first canonical plane. Actually, figure 7
is a picture of what happens in that plane, on scale (and where x, in the figure represents
the first canonical variate in Xi, while X2 is the corresponding canonical variate of X2.
For this first plane, therefore, the extent to which the image of y on it depends on
covariance between the two canonical variates, equals (.4315)^ (.5838) = .1087. For the
second canonical plane the contributions are negligible; in the example the first canonical
plane tells the whole story, for all practical purposes.

We also can write a regression equation for y with respect to the first pair of canonical
variates. The correlations between y and these variates can be calculated to be .72 and
.53, respectively; given that the canonical variates have a correlation .43 between them,
regression weights can be computed. They are .61 for the first canonical variate, .27 for
the second. Again the preponderance of home variables over school variables is revealed.

The canonical approach shows that it can be helpful to structure the X space m some
way, as a preliminary to the regression analysis. Could the same be achieved by a sort of
factor analysis on X? Factor analysis, of course, is one of those tools tliat are all too often
used blindly, and it is certainly wrong to think that any kind of factor analysis would be
helpful in the specific situation we are discussing here.

In very general .terms, factor analysis creates new vectors, called factors, in the space
spanned by X. Usually, such factors are taken as orthogonal vectors. This makes it
possible to represent each vector x in terms of its coordinates on the factors.
Let us call the factors Z, with Z'Z = I. Factor loadings then are obtained by calculating
X'Z, and when we normalise X in such a way that X'X has unit diagonal, such loadings can
be interpreted as correlations between an x and a z.

When the matrix X can be partitioned into two blocks, the factorial analysis should
somehow account for that. The most appropriate factor analysis then is a generalised
image factor analysis. Image factor analysis was introduced by Guttman (1953, 1960), for
the situation where there is no partitioning of X into~blocks. Take some vector Xj then
Guttman defines the image as the projection of Xj on the space spanned by all other
x-vectors. He defines the anti-image as the component of x; orthoggnal to all other
x-vectors. Our generalisation is that we keep to the definition of image and anti-image as
given in section 2 of this paper. Guttman's unage factor analysis then becomes a special
case, namely the case that X is partitioned into m blocks, one block for each column.
In agreement with Guttman's approach, our image factor analysis concentrates on the 77's.
In fact, our image factor analysis is just a principal components analysis applied to
U"'t?'t2U''. Here tj't?, of course, is just the variance-covariance matrix for the t}'s. We still

have to define U"'. To do that, we first define a matrix U^ as follows: U^ is the
superdiagonal block matrix of rj'rj. I.e., if in tj't? we replace all elements in tj'i r?2 and tj'zTJi
by zero's, then we obtain U^. Obviously, U^ contains a square mj x m, matrix at the
upper left (giving the variance-covariance matrix t?i't?i), and a square m2 x m2 matrix at
the lower right (the variance-covariance 772172). These two diagonal blocks we shall call
U,, and , respectively.

Now define U"' as a matrix that satisfies U"'U^Lr' = I. Uf' also will be a superdiagonal
matrix with Ul'UiUf' = I; similarly for U2~'. In fact, the transformation 771 tJf' results
in a set of mj unit normalised orthogonal vectors, which span the same space as Xi itself
Similariy for the transformation 772112"'. The matrix U~'77'77U"' therefore will have super-
diagonal blocks equal to the identity matrix.

Suppose now that we solve the principal components equation U '77T7U 'Q = QA"' (in
which A"' is a diagonal matrix with eigenvalues in descending order, whereas Q is the unit
normalised matrix of eigenvectors; i.e., Q'Q = I). It then can be shown that
Fx = UQA'/^

Table 3 gives the results for the numerical example. To each of the three factor matrices
we also have added a row with loadings related to y. In Fx this row gives the loadings for
y itself (correlations between y and the principal factors z, to Zs). The y row in F^ is
obtained by postmultipUcation with A"'; that in Fx is obtained by subtraction.
Naturally, the sum of the squared elements of the y-row in Fx gives the smc again
(.5883). If we write yPX = X)3, with (3 = (X'X)-'X'y, then the sum of the squared
elements of the y-row in Ftj gives the value of SS(T?j3); the corresponding sum in Fy gives
SS(x/3).

We know from the canonical analysis that the first canonical plane contained most of the
story. This result is repeated in the factor analysis, since z, and Z; span the same plane as
the first pair of canonical variables. Figure 8 gives the illustration; note that figure 7 is
embedded in figure 8. Several things can be noted in this figure.

First from the y-row in Fx we find that a regression equation for y is y = — .178 Zj
+ .743 Z5, with smc of (.178)^ + (.743)^ = .5838. This regression equation is in fact
identical with the one mentioned at the end of section 8. Its interpretation also is the
same, of course, home variables have more weight than school variables. In the equation
here this appears from the negative weight for Zj (inspection of Fx shows that Zi
distinguishes school variables with positive loadings from home variables with negative
loadings). The more substantial positive weight for Z5 in the equation, though, shows that
Z5 is the more important factor, and loadings of X in Z5 show that Z5 measures what all
x-variables have in common, and which is also shared by y.

Secondly, we note that all vectors in X, and X2 are located on the first canonical variate
XiVii. The reason for this is simple: remember that the three canonical variates X, V,
span the same space as Xi itself; also X1V12 and XiV,3 are orthogonal to the first
canonical variate for Xj (pictured in figure 8 as X2 Vji ). It follows that the projecrions of

Xi on the first canonical plane must coincide with the XiVn canonical variate. The same
then is true for the projection of X2, since these vectors are embedded in the Xj space.
Equivalently, we find that the projections of X2 and Xi will all coincide with the second
X2V21 canonical variate.

A similar argument shows that all vectors 771 will be projected on a single dimension in
the first canonical plane (orthogonal to X2V21), whereas all projections of 772 will be
located on a dimension orthogonal to XiVn . Figure 8 gives all these details, and also
demonstrates that each x-vector is decomposed in its x and 7? component according to a
rectangular decomposition, and therefore with additive SS's.

Thirdly we want to relate the first canonical plane to the results of the ANOVA approach
as given in figure 5. Actually, the canonical plane reduces X, to the single canonical
variate Xj Vn , that also represents X2 • Also, X2 is reduced to the single dimension of the
other canonical variate which also covers Xi • Corresponding SS's can be calculated (e.g.,
SS(yP(XiV,,)) = (y'XiVii)^, where (y'XiVii ) is directly obtained as a weighted sum of
the correlations between Xi and y, with Vn as the vector of weights). These SS's are
given in figure 9.

Comparing figures 5 and 9, we see that the reduction of the dimensionahty of X to the
first canonical plane produces hardly any loss at aU. The only difference is that SS(yPr?2)
= .0605 in fig. 5, becomes .0603 in fig. 9; whereas yPX2 = .2851 in fig. 5 becomes .2849
in fig. 9. The derived effect is that SS(yPx) goes from .5840 to .5838.

In our conclusions we first of all want to make the warning that the situation becomes
considerable more comphcated when the X's are partitioned into more than two blocks.
For one thing, the sunple canonical approach then fails: there is no unambiguous canoni-
cal solution for more than two sets of variables. The image factor approach remains valid.

but its simple relations to canonical analysis, of course, will vanish. Also, NIPALS will
become more complicated, same for the analysis of variance approach. Nevertheless,
generalizations to more than two blocks of predictors are not impossible.
A different generalization would be to multivariate regression problems; i.e., where there
is not just one dependent variable y, but more than one. Speaking in general terms, in the
univariate case we can calculate various smc's (the over-all smc, or that with respect to the
first canonical plane etc.); in the multivariate case the approach would be to find a
weighted compound of the y's in such a way that for that weighted sum, the wanted smc
becomes maximal.

Again an other type of generalization is obtained if the x's are not numerical observa-
tions, but when X contains dummy codes; for instance, codes that distinguish between
various experimental treatments. The four approaches we have sketched above then
remain valid, but would be applied within the context of analysis of variance (in particu-
lar, the unbalanced case of ANOVA).

Looking back now at the univariate case with only two blocks of predictors, we conclude
that the canonical approach and the image factor analysis approach are very intimately
related, to the point of being ahnost interchangeable. The ANOVA approach reveals other
aspects of the underlyuig structure. However, as shown in section 9, the ANOVA results
can be decomposed into separate additive structures for each canonical plane.
Regression equations for the dependent variable on Xi and X2 can be f ound from the
canonical analysis, or the unage analysis. An other way to obtain such a regression
equation is to apply NIPALS, where, however, not much is revealed about the underlying
structure.^

Guttman, L. Image theory for the structure of quantitative variates. Psychometrika, 1953, 18
277-296.

Guttman, L. The matrices of linear least-squares image analysis. The British Journal of Statistical

Psychology, 1960, 7 J 109-118.
Noonan, R., Wold,'H. NIPALS path modelling with latent variables. Institutionen for Internationell
Pedagogik, Stockholms Universitet, 1976 (in press in: Scandinavian Journal of Educational Re-
search).

3 This is not a general statement about NIPALS procedures. In fact. Wold has made it very clear that
he wants to present a whole array of procedures for exploratory analysis, and our example is just one
of the simplest of them (A321, in Wold's taxonomy).

The usefullness of educational research raises doubts in many respects. At present in the
Netherlands an attempt is made to set about those problems through the introduction of a
nation-wide system of researchprogramming. Programming of research is defined in the cycle:
setting of priorities - drafting of research programs - optimizing the particular circumstances
for the research implementation - evaluation and feed-back to the priorities.
Opinions differ as to the true meaning and effects of programming. The first part of the article
deals with the analysis of the concept of programming in terms of the programobject, the
institutions entrusted with programming, the types of researchprograms and five models de-
scribing programming as a research activity.

The second part of the article refers to the effects of the implementation of the programming-
system in the researchsystem. Lack of qualified manpower, limited bearing of research on
poUcy and practice and lack of quality criteria seem to menace the programming system in the
same way as they do the research, the latter being the patient for whom programming should be
therapy.

Twijfelen aan iiet nut van onderwijsresearch is tegenwoordig een gangbaar en achtens-
waardig verschijnsel geworden. De jaarlijkse congressen over onderwijsresearch plegen er
een vast openingsritueel van te maken (ORD verslagen '75 en '76). Naast de verkennings-
commissie sociaal wetenschappelijk onderzoek heeft een aparte verkenningscommissie
onderwijsresearch zich aan de problematiek gewijd, terwijl tegelijkertijd de SVO een
evaluatie-onderzoek financierde naar de kwaliteit van de op de eerste ORD gepresenteerde
onderzoeken (Van der Kamp, 1975).

Parallel aan deze kritische bezinningsactiViteiten wordt er ook gewerkt aan partiële oplos-
singen. Waar Trip in zijn wetenschapsbeleidsnota's de onderwijsresearch nog betrekkelijk
links liet liggen, investeren de onderwijswetenschappers al veel tijd in de constructie van
nieuwe onderwijskunde-opleidingen, zijn er nieuwe verspreidingskanalen gemaakt, zoals
het Tijdschrift voor Onderwijsresearch en de SVO-reeks en poogt men projectleiders bij te
scholen.

Deze activiteiten zijn echter slechts gerommel in de marge vergeleken bij de energie, die
gestoken wordt in het op gang brengen van de programmering van het onderwijsonder-
zoek. Mijlpaal is het verschijnen van de door vele concepten en overleguren voorafgegane
nota Programmering van Onderwijsonderzoek (1976), kortweg Programmeringsnota ge-
noemd. Tot nu toe zijn de verwachtingen redelijk optimistisch. Zowel de Verkennings-
commissie Onderwijsresearch (1976) als de Raad voor Advies van het Wetenschapsbeleid
(1977) laten zich in positieve zin uit over deze programmeringsinitiatieven.
Is de programmering nu inderdaad het passende antwoord op de klachten van onderzoe-
kers en onderzoeksconsumenten over sociaal wetenschappelijk onderzoek, zoals geïnven-
tariseerd door Van der Kamp en Scheerens (1976):

Een bhk op deze niet geringe lijst doet vrezen, dat de programmeringsformule slechts een
beperkt deel van de klagers de mond zal kunnen snoeren. Niettemin worden er uitgebrei-
de investeringen gedaan in de programmeringsondememing, hetgeen op zich van meet af
aan een kritische aandacht rechtvaardigt.

Aanleidingen voor structurele wijzigingen in de Nederlandse onderwijsresearch zijn er
voldoende. Of programmering daarvoor nu de aangewezen weg is, is echter nergens aange-
toond. Integendeel, over de betekenis van het verscliijnsel, zowel in inhoudehjke zin 'wat
is programmering?' als in effectieve zin 'wat doet programmering?', is nog veel onduide-
lijklieid. Hier wordt een poging gedaan om althans die onduidelijklieid nader te structu-
reren middels een analyse van het begrip of verschijnsel programmering en middels een
beschouwing over de vraag of enkele van de genoemde klachten (in)variabel zullen zijn
onder structurele wijzigingen van het onderzoekssysteem.

Ondanks de definiëring van de termen onderzoeksprogramma en onderzoeksprogramme-
ring in de op zich toe te juichen begrippenhjst bij de Programmeringsnota (blz. 75), blijkt
het op de eerste twee pagina's (blz. 11 en 12) om nogal uiteenlopende zaken te gaan:

'programmeren is niet liet vaststellen van onderzoeksprogramma's die alles vastleggen ... het gaat bij
programmeren om zaken als: het formuleren van prioriteiten, het aangeven van rslevante onderzoeks-
onderwerpen, het bevorderen van de forumfunctie, het stimuleren en uitvoeren van goede plannen en
het afremmen van plannen met een te geringe opbrengst. Programmeren is met andere woorden het
voorbereiden en uitvoefen van een beleid van differentiële steun aan en stimulering van onderzoek.
Programmering moet de mogelijkheid geven op de meest verantwoorde wijze keuzen te doen tussen
bestedingsalternatieven.'

b. een instrument ter optimalisering van de randvoorwaarden voor onderzoek (beleid van
steun aan onderzoek)

Deze drieslachtigheid is ook in het daadwerkelijke onderzoeksbeleid terug te vinden. De
meerjarenplannen van instituten en sectoronderzoeksgroepen vertonen onmiskenbaar
trekken van planmatigheid; door middel van financiële meerjarengaranties en bevordering
van de infrastructuur worden de randvoorwaarden voor onderzoeksinstellingen verbeterd;
de plaats van onderzoeksaanvragen'op een wachtlijst in afwachting van subsidiëring door
de SVO is afhankelijk van de plaats die die onderzoeken in een programma innemen.
De vraag wat programmering inhoudt, is hiermee nog niet beantwoord, doch uiteengelegd
in een drietal deelvragen.

In navolging van de officiële definiëring in de genoemde begrippenlijst blijft deze begrips-
analyse beperkt tot programmering in de betekenis van planning.

Van Houten (1974) kategoriseert vier soorten planning naar algemene intentie: program-
mering, korrektieve planning, ontwikkelingsplanning en planning als veranderingsstrategie.
Onderscheid tussen deze planningsvormen kan worden gemaakt naar de verhouding tussen
planningsvorm en nagestreefde situatie.

Korrektieve planning gaat uit van de principiële juistheid van het bestaande en kan gericht
zijn op crisisbestrijding, crisisbeheersing en wederopbouw. Het typerende van ontwikke-
lingsplanning is, dat men wel een beeld heeft van de ideale situatie, die ook elders is
gerealiseerd, maar die fundamenteel afwijkt van de huidige situatie. Planning als verande-
ringsstrategie richt zich op fundamentele veranderingen, waarbij er geen sprake is van een
empirisch gegeven referentiepunt.

Bij programmering is 'de centrale vraag, hoe gegeven doeleinden door een optimaal ge-
bruik van gegeven middelen binnen een bepaald tijdsbestek kunnen worden gerealiseerd ...
Programmering is een nogal neutraal instrument van een enigszins conservatieve signa-
tuur.' (Van Houten, 1974, blz. 101).

Het aan de programmering toegedichte conservatisme vloeit voort uit het onverlet laten
van de doeleinden. Volgens de programmeringsnota maakt de prioriteitenstelling en daar-
mee deels de doelbepaling echter wel deel uit van het programmeringsproces getuige het
fasemodel voor programmering: behoeftensignalering discussie en advisering prioritei-
ten -> programmavorming ^ programmavaststelling ^ programma-uitwerking en subsi-
diëring programma-uitvoering en bijsturing (Programmeringsnota, blz. 25).
Afgezien van de zinvolle afgrenzing van andere planningsvormen is de omschrijving van
Van Houten toch veel te ruim. Hoogerwerf (1972) gebruikt ongeveer dezelfde bewoor-
dingen als hij beleid omschrijft.

Hoewel de oorsprong van de populariteit van onderzoeksprogrammering nergens is na te
trekken, lijkt het niet onwaarschijnlijk, dat de wetenschappelijke status van de 'scientific
research programs' (Lakatos, 1970) hierbij een rol heeft gespeeld. De ontwikkeling van
een wetenschap kan over een geruim aantal jaren beschreven worden in termen van
onderzoeksprogramma's, gekenmerkt door positieve en negatieve heuristieken. Onder-
zoeksprogramma's verschaffen de methodes en ideeën om probleemstellingen af te leiden
uit voorgaand onderzoek en tot zinvolle probleemverschuivingen te komen. Binnen de
veelal toepassingsgerichte onderwijsresearch zou men de ATI (Aptitude-Treatment-Inter-
action) zo'n heuristiek kunnen noemen, die na een periode van opgang toch negatief
begon te werken (Cronbach, 1975). De beschrijvende betekenis van de term 'research-

program' als historische verklaring voor de ontwikkelingsgang der wetenschappen is echter
ook ontoereikend om een actieve beleidsvoering inzake onderzoek te beschrijven.
Ten einde toch enige greep te krijgen op het verschijnsel wordt hier getracht op een viertal
eenvoudige vragen een antwoord te verschaffen:

Onderzoek als programmeringsobject heeft een reeks aangrijpingspunten. Programmering
kan betrekking hebben op bijvoorbeeld doelen, probleemvelden, probleemstellmgen, on-
derwijssectoren, onderwijsvakken, onderzoeksthema's, methode's, verspreiding van resul-
taten en zelfs onderzoekers. Als men een onderzoeksprogramma op de meest eenvoudige
wijze definieert, nl. als een geordende verzameling van onderzoekingen, dan komt het
object van programmering tweeledig tot uiting: het kenmerk van het onderzoek zelf en
het ordenend principe. De mate waarin beide elementen aanwezig zijn, kan verschillen. Zo
is het programma van sociaal wetenschappelijk onderzoek met betrekking tot de arbeids-
markt (Ruiter, 1973) vooral gebaseerd op de keuzen van probleemvelden, zoals de sociale
infrastructuur van de arbeidsmarkt, de allocatie van arbeid en de flexibiliteit van arbeid.
Een duidelijk ordeningsprincipe anders dan de a priori bepaling van dc maatschappelijke
relevantie ontbreekt.

Een ander extreem voorbeeld is het onlangs uitgebrachte programma van onderzoek op
het gebied van het onderwijs betreffende de ontwikkeling van een onderwijsmodel (De
Moor, 1977). Hier worden in een model leeriingvariabelen, schoolvariabelen, organisato-
rische en bestuurskundige variabelen alsmede economische variabelen ondergebracht. De
ordening van dit programma is evident, echter er worden geen onderzoekingen als pro-
grammaobject omschreven.

Ten aanzien van de landelijke innovatieprojecten is de programmering van onderzoek het
verste gevorderd bij de sectoronderzoeksgroep participatieonderwijs (vgl. het desbetref-
fende meerjarenplan, 1976). De centrale aspecten van het innovatieproject, de zogenaam-
de objectvelden, vormen het ordeningsprincipe voor de eigenlijke onderzoekingen, geken-
merkt door het probleemgebied, waarop ze betrekking hebben. Zo worden binnen het
objectveld programma-ontwikkeling de probleemgebieden persoonlijke en maatschappe-
lijke begeleiding en de beroepenoriëntatie onderzocht en ^)innen het objectveld evaluatie
de probleemgebieden stimuleringsstrategie en over-all evaluatie.

De term probleemgebieden is tevens een illustratie van de tweevoudige betekenis die er
aan het begrip onderzoeksthema, centraal in de programmeringsnota van de SVO, gehecht
kan worden. In de derde versie van het meerjarenplan van het Kohnstamm Instituut (1978)
wordt een onderscheid gemaakt naar thema's voor onderzoek, die ontleend zijn aan de
wetenschapsontwikkeling van de (interdisciplinaire) onderwijskunde en aan de onderwijs-
ontwikkeling. De thema's van het meerjarenplan van de SOG-P zijn practisch allemaal
ontleend aan de onderwijsontwikkeling.

Vooralsnog lijkt er een overmaat te bestaan aan programmeringsobjecten en zullen de
ordeningsprincipes, die meestal aan een specifieke probleemsituatie ontleend zijn, hierop
geen sanerende werking hebben.

Programmeren als activiteit veronderstelt uitvoerders, mensen binnen bepaalde instanties
die op zijn minst op grond van enige informatie een stuk schrijven en dat als onderzoeks-
programma betitelen. Globaal zijn er een drietal programmeringsniveau's te onderschei-
den:

1. het landelijke niveau, waar instanties als de SVO, de SLO en O & W de subsidies
toewijzen

2. het niveau van de sectoronderzoeksgroepen, in de toekomst wellicht de onderzoeks-
themagroepen, waar de subsidies verdeeld moeten worden

3. het niveau van de onderzoeksinstantie, instituut of vakgroep, waar de subsidies worden
besteed.

Kennelijk stimuleert de besteding van subsidie het snelst tot programmeren (vgl. Meer-
jarenplannen 1976 en 1977 Kohnstamm Instituut) en gaat de verdeling van subsidies met
zoveel haken en ogen gepaard, dat er naast de sectoronderzoeksgroepen speciale pro-
gramma-adviescommissies moeten worden ingesteld.

Beziet men de programmeringsactiviteiten op de verschillende niveau's, dan lijkt er een
parallel te bestaan met de programmeringscyclus. De prioriteitenstelling is duidelijk een
zaak van het hoogste niveau, waar het ministerie van O & W het onderzoek rondom de
landelijke innovatieprojecten prioriteert. Ook op landelijk niveau georganiseerde instan-
ties zoals een TCP, een CLEP of een onderwijsraad stellen zulke prioriteiten. De SVO
kondigde een nationaal onderzoeksprogramma aan (vgl. programmeringsnota), doch voor-
lopig lijkt ook zij zich te beperken tot prioriteitenstelling in de vorm van wachtlijsten en
in de vorm van continuering van de bestaande organisaties en mankracht.
De opstelhng van de programma's zelf is des onderzoekers, in voortdurend overleg onder-
ling en met onderwijsbeleid, verzorging en praktijk.

De problemen met de sectoronderzoeksgroepen lijken een gevolg van een rolvermenging,
waarbij op ée'n niveau de prioriteitenstelling, de programma-opstelling en de programma-
uitvoering worden verzorgd. De instelling van programma-adviescommissies als reactie
daarop, houdt overigens het niet denkbeeldige gevaar in, dat de PAC's zich beperken tot
prioriteitensteUing en de sectoronderzoeksgroepen tot programma-uitvoering. De pro-
grammering zelf zou dan uit de boot vallen. In dit verband is de ontwikkeling bij de
Programma Advies Commissie Onderzoek Open School interessant, waar, relatief onaf-
hankelijk van onderzoeksuitvoering, een onderzoeksprogramma wordt ontwikkeld.

Onderzoeksprogramma's kunnen al dan niet tegelijkertijd verschillende gedaantes aan-
nemen. Veelal betreft het mengvormen, doch er zijn wel karakteristieken te onderschei-
den.

- De meest gebruikelijke vorm heeft het karakter van een beargumenteerde planning en
past waarschijnlijk het best in de definitie van een onderzoeksprogramma volgens de
programmeringsnota. De onderzoekingen worden verondersteld binnen een bepaalde
tijd uitgevoerd te worden (vgl. Meerjarenplannen Kohnstamm Instituut en sectoronder-
zoeksgroep participatieonderwijs).

- Een onderzoeksprogramma kan de gedaante aannemen van een assortiment van moge-
lijk uit te voeren onderzoekingen. Vooral landelijke onderzoeksprogramma's kunnen

dit karakter dragen. Voorbeelden zijn de reeds genoemde programma's van de S.W.R.
voor het onderwijs en voor de arbeidsmarkt en in de Verenigde Staten brengt het NIE
(National Institute of Education) geregeld zogenaamde RFP's uit (Requests for Pro-
posal) waar onderzoeksinstanties op kunnen intekenen ten einde binnen zo'n program-
ma passende onderzoeken uit te voeren.

- Een programma kan ook de vorm aannemen van een probleemanalyse van maatschap-
pelijke discrepantiedoelen (discrepantie tussen feitelijke en gewenste situatie) in een
bepaald onderzoeksterrein, terwijl topologische overwegingen zoals de witte plekken-
strategie eveneens een rol kunnen spelen: sectoren van het onderwijs die tot nu toe
onderzoek moesten ontberen, dienen prioriteit te krijgen in een onderzoeksbeleid
(Rapport Verkenningscommissie Onderwijsresearch, 1976). De onderzoeksprogram-
ma's van het Kohnstamm Instituut, zoals die deel uit maken van de derde versie van
het instituutsmeerjarenplan, krijgen meer dan voorgaande jaren het karakter van een
bescheiden probleemanalyse, waarin op grond van afwegingen van gewenst en mogelijk
onderzoek een globale onderzoeksrichting wordt aangeduid.

— Een andere aanpak is die van de discussienota. Van Oijen (1975) stelde zo'n pro-
gramma op voor het schriftelijk onderwijs. Vooral in zo'n discussienota komen de
andere karakteristieken: assortiment, probleemanalyse en planning, tegelijkertijd aan
de orde.

Warries (1977) stelt terecht, dat programmering vooral een kwestie is van contacten en
onderhandelen. Uiteraard kan in dit bestek geen complete analyse worden gegeven van
het geheel aan denkpatronen en handelingen, waarmee een gedrag tot programmering
bestempeld kan worden. Er wordt slechts een bescheiden poging gewaagd om enkele
gedragspatronen, karakteristiek voor programmeren, te onderscheiden, omdat ze moge-
lijkerwijs een heuristische functie kunnen hebben. In het Kohnstamm Instituut zijn, ten
behoeve van de vijfde fase in de programmeringscyclus, de evaluatie, een vijftal program-
meringsmodellen ontwikkeld. Alle vijf hebben ze betrekking op de situatie waarbij pro-
gramma-ontwikkeling en onderzoeksuitvoering nauw samenhangen.

Een programmeringsstrategie volgens het teleologisch model komt veelal neer op het
formuleren van wetenschapstheoretische en maatschappelijke uitgangspunten, afleiding
van lange, middellange en korte termijndoelen, tenslotte een vertahng naar onderzoek,
zoals dat in uitvoering zou moeten worden opgenomen. Centraal in deze benadering staat
dus de te voeren doelstellingendiscussie en een daarvan afgeleide weerkerende deductie
naar korte termijndoelen en concrete onderzoeksstappen.

Een tweetal voorbeelden illustreren dit model, waarbij uiteraard de beperking, dat de
handelingen gedestilleerd moeten worden uit de schriftelijke neerslag.
In de bijlage SKOOP en PROGRAMMERING bij een onderzoeksprogramma 'Leren uit
ervaring in kindercentra en basisschool' geeft Jansen (1977) een historische en syste-
matische analyse van een poging tot onderzoeksprogrammering. Vanuit het SKOOP-
project, een onderzoek naar opvattingen over opvoeden bij peuter- en kleuterleidsters,
zijn een drietal onderzoeksprogramma's ontwikkeld. De tweede versie daarvan vertoont
sterke trekken van het teleologische model. Er is een apart hoofdstuk gewijd aan onder-

wijs en onderzoeksfilosofie. Er wordt aangegeven welke doelen in het onderwijs moeten
worden nagestreefd om tot een democratiserend opvoedings- en onderwijssysteem te
komen. Tussen de onderwijsdoelen en de doelen van het onderzoek wordt een intiem
verband gelegd. De herdefiniëring van het projectplan geschiedt in termen van expliciete
kennistheoretische en maatschappeUjke keuzen.

Overigens hoeft de teleologie, de perspectiefaanduiding, niet noodzakelijkerwijs in de
hierboven genoemde termen te geschieden. Bij De Moor (1977) is de doelstelling geëxplici-
teerd in het ontwikkelen van een onderwijsmodel, waarin de gegevens over het onderwijs
die voor het beleid van belang zijn, in samenhang zijn samengebracht. Het programma
refereert amper aan de huidige situatie en stand van zaken in de onderwijsresearch. De
doelstelling, een nationaal onderwijsmodel, staat voorop.

De opvatting dat onderzoeksprogramma's uit een reeks beslissingen bestaan, die telkenjare
opnieuw ter discussie kunnen staan, nodigt uit tot een besliskundig evolutionair organi-
satiemodel. De term evolutionair is gekozen als tegenstelUng tot de term teleologisch (vgl.
Snellen, 1975) ten einde het groeikarakter van de programmering aan te geven. Kenmer-
kend voor het evolutionaire model is de plaats die de uitgangspunten en de doeleinden in
het proces van onderzoeksbeleidsvorming innemen. Ze gaan er namelijk niet aan vooraf,
maar maken deel uit van dat proces.

Dit model beschrijft meer de totstandkoming van een programma dan de schriftelijke
neerslag ervan. Typerend is bijvoorbeeld de situatie, waarbij de doelstellingen van onder-
zoeksprogramma's verwoord zijn in termen van onderzoeksopbrengsten en de obligate
beleidsaanbeveUngen. Wanneer de keuzes voor onderwijsterreinen en onderzoeksthema's
tijdens de onderzoeksuitvoering plotseling moeten wijzigen, heeft dit onmiddellijk effect
op de doelformulering. BijsteUing van een onderzoeksprogramma op basis van het beslis-
kundig evolutionair model komt dan ook neer op het opsporen van keuzemomenten, het
aandragen van alternatieven, zowel voor keuzen op het concrete handelingsniveau als op
het niveau van doelen en uitgangspunten, en het hernieuwd kiezen voor uitgangspunten,
programmadoelen, onderzoeksdoelen, probleemsteUingen, onderzoeksopzetten, e.d.

Dit programmeringsmodel gaat ervan uit, dat toegepast onderzoek iets is, dat mensen
doen, althans zo goed mogeUjk proberen te doen. Een van de grondgedachten bij de
programmering van onderzoek is de continuïteit van onderzoek en stabilisering van onder-
zoeksbemanning. Uit een diagnose van gemaakte fouten in het onderzoek in het verleden
is iets te leren omtrent de beste te bewandelen weg in de toekomst gegeven een bepaalde
onderzoekssituatie en bepaalde onderzoekers.

Deze programmeringssituatie maakt een evaluatie van onderzoek of sterkte-zwakte-ana-
lyse van een onderzoeksorganisatie noodzakeUjk, evenals een analyse van de te onderzoe-
ken problemen. Het gaat er dan om de juiste combinatie van onderzoek en problemen te
vinden. In managementUteratuur wordt zoiets wel het vinden van de juiste produkt-
markt-combinaües genoemd (Wissema, 1977). Uiteraard spelen dergelijke overwegingen
ahijd een rol bij acquisitie van onderzoek, doch ze vormen in deze uitgewerkte vorm
hoogst zelden een basisprincipe van een onderzoeksbeleid. De reeds genoemde analyse van
Jansen (1977) is er een voorbeeld van.

Bepaalde elementen van het diagnostisch feed-back model, zoals de op landeUjk niveau te
nemen beslissingen om instituut x wel en instituut y niet bepaalde onderzoekingen te

laten uitvoeren op grond van ervaringen met die instituten, kunnen wel degelijk cruciaal
zijn in een programmeringsbeleid. De SVO-nota personele kontinuïteit en instituutspro-
grammering in ontwikkeling (1977) laat deze beleidslijn zien.

Ondanks klachten over eigengereidheid van onderzoekers was en is het niet ongewoon dat
onderzoeksinstellingen, nu eenmaal van subsidies economisch afhankelijk, alle onderzoek
aannemen, dat op enigermate bevredigende wijze de continuïteit van het onderzoeksbe-
drijf waarborgt. Zo'n onderzoeksinstantie stelt zich dan, in parlementaire bewoordingen,
dienstbaar op ten opzichte van beleids- en praktijkwensen. Een sectoronderzoeksgroep zal
de onderzoekswensen inventariseren bij de innovatie-experimenten alvorens tot program-
meren over te gaan.

Een dergelijk denken in termen van de dienstbaarheid van het onderzoekssysteem aan het
maatschappelijk systeem is uiteraard te extrapoleren in de tijd. Programmering is het juist
inschatten, wanneer welke informatie uit onderzoek wenselijk zou zijn, maar ook, wan-
neer welke subsidiegevers op het idee komen, dat bepaalde onderzoeken de moeite van
het subsidiëren waard worden. Toepassing van toekomstonderzoek, zoals Delphimethode
en brainstorms, inhoudsanalyses van beleidsnota's leveren de stof op tot een empirisch
gefundeerde inschatting van toekomstige onderzoeksbehoeften. Dat hier vooroordelen
van mensen kunnen gaan meespelen, toonde Van Borselen (1975) aan. De neiging om
eigen interessegebieden en ervaringen een hogere prioriteit toe te kennen en het verband
tussen leeftijd en voorkeur voor meer of minder vernieuwend onderzoek bij de bepaling
van een onderzoeksbeleid, werd door hem empirisch bevestigd.

De veronderstelling dat geplande onderzoeken in een onderzoeksprogramma ook inder-
daad conform dat plan uitgevoerd worden, kan over enige jaren wellicht gelogenstraft
worden. Krathwohl (1977, blz. 9) vermeldt de tegensteUing tussen de rationalistische
programmeurs en de incrementalisten: 'those who believe that anything other than fairly
loose, shortrange programming is not only a waste of time, but also likely to result in
imaginative research'.

Een onderzoeksprogramma is ook op te vatten als niets meer maar ook niets minder dan
een drie of viertal lopende onderzoeksprojecten binnen een bepaald onderwijsterrein of
gecentreerd rond een onderzoeksthema, die verondersteld worden een vervolg te krijgen.
Daar bestaan ook wel ideeën over, doch de energie moet worden gestoken in de versprei-
ding van (tussentijdse) onderzoeksresultaten. Door intensieve contacten tussen onder-
zoekers en omgeving komen relevante nieuwe onderzoeksvragen vanzelf in het vizier. De
loop van het onderzoeksprogramma past zich op natuurlijke wijze aan bij de omgeving
waar het onderzoek voor bedoeld is. Goed onderzoek doen is een noodzakelijke voor-
waarde voor goed onderzoek gaan doen.

levert vooralsnog een soortgelijk kaleidoscopisch beeld op als dat, waarvan de onderwijs-
research tot nu toe beticht werd (Van Gelder, 1974). De conclusie lijkt gewettigd, dat
programmering nu nog niet verder is dan het aangeven van een nieuwe structuur, waar-
binnen de 'let many flowers bloom' beleidsstrategie nog welig kan tieren.
De hierboven weergegeven onderscheiding van objecten, niveau's, verschijningsvormen en
programmeringsmodellen is niet meer dan een eerste aanzet om zicht te krijgen op de
ontwikkelingen. Op dit moment vormt naast de nog korte ervaringen vooral het feit, dat
de programmering nog onvoldoende gemeengoed is geworden in de onderwijsresearch, een
beletsel om aanbevelingen te doen. Normatieve regels zijn overigens best te ontwikkelen:
problemen als de afstemming tussen de drie programmeringsniveau's worden overkome-
lijker, wanneer er per niveau verschillende objecten worden geprogrammeerd; binnen elk
programmeringsmodel zullen de verschijningsvormen verschillend gewaardeerd worden; het
kameleonmodel zou als de enige realistische benaderingswijze verdedigd kunnen worden.
De ontwikkehng van een methodologie voor programmering is bij lange na nog niet
opportuun. Met de opstelhng van dergelijke regels wordt niet aUeen een te zware wissel
getrokken op te summiere ervaringsgegevens, maar zou ook ten onrechte de indruk geves-
tigd kunnen worden, dat programmering een doel in zichzelf vormt. Per slot van rekening
ging en gaat het om beter onderzoek. Uit de klachtenlijst (Van der Kamp en Scheerens,
1976) wordt voor beschikbare mankracht, relevantie en criteria nagegaan of programme-
ring inderdaad iets uit zal halen.

Wordt de opleiding van onderzoekers over het algemeen ontoereikend geacht, een belang-
rijk deel van deze gevoelde tekorten heeft ook nog eens betrekking op mondehnge en
schriftelijke uitdrukkingsvaardigheid en op snelle en efficiënte informatieverzameling. Dit
nu zijn juist elementaire handehngen voor een onderzoeker die programmeringsarbeid
gaat verrichten. Als Warries (1977, blz. 135) stelt dat het beleid erop gericht is om door
het ontslaan van de onderzoekers X, Y en Z de onderzoekers P, Q en R aan te stellen, dan
gaat hij voorbij aan een wellicht nog gebruikelijker beleid: geef onderzoekers X, Y en Z
geen subsidie meer voor onderzoek, maar zet ze aan de programmeringsarbeid. Het is de
vraag of het laatstgenoemde personeelsbeleid niet nog ernstiger gevolgen heeft dan het
eerste.

Binnen de beschikbare mankracht is er dan nog het probleem van de taakuitbreiding. In
snel tempo wordt het complex van overlegstructuren in de onderwijswereld uitgebreid.
Overleg op zich is een onontbeerlijke zaak voor toegepast onderzoekswerk, maar wanneer
iedere overlegsituatie structureel wordt ingebouwd in het onderzoekssysteem, een nieuwe
verzorgingsstructuur voor het onderzoek (wellicht worden er de komende jaren een tien-
tal secretarissen voor onderzoeksthemagroepen aangetrokken), dan kan in advertenties de
eis van kennis van methoden en technieken voor aankomende onderzoekers wellicht beter
vervangen worden door ervaring met studentenvakbondswerk.

De conclusie van de Verkenningscommissie Onderwijsresearch (1976), dat de uitbreiding
van het budget voor onderwijsresearch niet aanbevelenswaardig is, geeft mede voedsel aan
de veronderstelling, dat klachten over beschikbare mankracht geen kwantitatief, maar een
kwahtatief probleem vormen. De snelle doorstroming van onderzoekers naar universiteit
en verzorgingsstructuur heeft in het verleden natuurlijk de onervarenheid van het onder-
zoekersbestand bevorderd. Programmering van onderzoek heeft in deze onmiskenbaar een

bestendigend effect, vooral wanneer de instituten en vakgroepen erin slagen om met de
SVO een arbeidsplaatsenovereenkomst af te sluiten in de vorm van meerjarencontracten.
De klachten over de beschikbare mankracht zullen met de invoering van de program-
meringsstructuur waarschijnlijk afnemen, ervan uitgaande, dat onderzoek als leerproces
zijn vruchten afwerpt. Alleen zal het de vraag blijven, of de conjunctuur en de arbeids-
marktsituatie voor onderwijswetenschappers niet de verklarende factor voor deze (tempo-
rele) relatie vormen.

Is de kwaliteitsbeoordeling van onderzoek al een uiterst complexe zaak (Van der Kamp,
1975), dit geldt dan des te sterker voor de beoordeling van onderzoeksprogramma's. In
het begin van dit artikel is al gesignaleerd, dat programmering een instrument in handen
van beleidvoerders kan zijn om beslissingen over aanbesteding van onderzoek te nemen.
Hoogstwaarschijnlijk is programmering dan ook een terecht antwoord op de klacht over
gebrek aan criteria voor beoordeUng van onderzoek. Het criteriumprobleem is daarmee
echter niet opgelost, maar wordt verschoven naar het niveau van de programmabeoorde-
ling.

Tindemans (1976) noemt de diversiteit van de beslissingssituatie en de potentiële me-
ningsverschillen tussen beoordelaars kenmerkend voor de problematiek van onderzoeks-
beoordeling. Ten aanzien van onderzoeksprogramma's zou de problematiek dan ook moe-
ten toenemen. Het door Weinberg (1976) genoemde onderscheid naar interne en externe
criteria is hier van belang. Bij de keuze tussen rivaUserende onderzoeksprogramma's moe-
ten externe criteria de doorslag geven.

De zwaarwegendheid van de prioriteiten in het programma en de mate waarin bijgedragen
wordt aan buurtwetenschappen, (de formulering is van Weinberg; in de onderwijsresearch
wordt waarschijnlijk gekeken naar de onderzoeksthematische aansluiting bij andere pro-
gramma's) zouden de voornaamste externe criteria kunnen gaan vormen.
Bij de interne criteria, houdt een programma op zich voldoende beloften in om gesubsi-
dieerd te worden, ligt het criteriumprobleem moeUii'-'er. Niet alleen de inschatting van de
merites van summier weergegeven onderzoekingen, maar ook nog eens de in de program-
meringsnota genoemde samenhang tussen die onderzoekingen, vormen objecten van be-
oordeling. Of de samenhang bestaat uit complementaire probleemstellingen, uit de deduc-
tie van deeldoelen van een algemeen doel, uit een topografische dekking van een onderwijs-
sector, uit elkaar opvolgende onderzoekscycU (De Groot, 1961), uit convergerende
operaties (Beijk, 1977), is niet bekend.

Toch is de situatie minder somber dan op het eerste gezicht lijkt. De uit te spreken oor-
delen over subsidiëring zijn weliswaar verstrekkender, omdat er meer geld mee is gemoeid,
maar nemen ook drastisch in aantal af, of dragen het procesmatige karakter van een
jaarlijks terugkerende voortgangsbeslissing. Verder is het niet ondenkbaar, dat program-
mering juist een ordenende werking heeft op de diversiteit van de besUssingssituatie. In
het teleologische model staan uitgangspunten en doelstellingen centraal,'bij het evolutio-
naire model wordt nadruk gelegd op de keuzemomenten, bij het diagnostische model
moet er helderheid zijn over de kwaliteiten van de uitvoerende instantie, enz.
Programmering Ujkt deels een adequaat antwoord op het criteriumprobleem in zijn alge-
meenheid.

De relevantie van onderzoek maakt enerzijds deel uit van het criteriumprobleem, ander-
zijds is de gebrekkige relevantie van onderzoek (zie bijv. Hoogerwerf, 1974) een probleem
van veel grotere importantie. Programmering zou het middel bij uitstek moeten zijn om
de relevantie van onderzoek op een aanvaardbaar peil te brengen (vgl. Programmerings-
nota, Rapport Verkenningscommissie Onderwijsresearch). De langzamerhand platgetreden
kloof tussen onderzoek enerzijds en beleid en praktijk anderzijds zou door een reeks
onderzoeksprogramma's gedempt moeten worden.

De beschouwing over de invloed van de programmering op de klachten over relevantie
blijft hier beperkt tot de maatschappelijke relevantie, zoals die is te onderscheiden van de
theoretische relevantie (voor nadere begripsaanduiding zij onder meer verwezen naar Van
der Kamp, 1975, blz. 4145).

Volgens de nota wetenschapsbeleid van minister Trip (1975), kan de maatschappelijke
relevantie van onderzoek tot zijn recht komen, als de behoeften van (groeperingen) in de
samenleving voldoende duidelijk zijn om er onderzoeksprogramma's op te baseren en als
de onderzoekers daaraan willen meewerken. De levendige discussies rondom de Contou-
rennota doen vermoeden dat het maatschappelijke forum wel eens een grote diversiteit
aan behoeften ten toon zal spreiden, terwijl er binnen het wetenschappelijke forum ook
verschillende stromingen zijn (vgl. Wardekker, 1977), die zaken als maatschappelijke
weerbaarheid, machtsrelaties en ontplooiing van de persoonlijkheid op uiteenlopende
wijze zullen bevoorkeuren.

Koster en Creemers (1971) meenden een oplossing te geven met het gebruik van maat-
schappelijke discrepantiedoelen als voornaamste keuzecriteria voor een onderzoeksbeleid.
Zij gingen daarbij echter wel voorbij aan de discrepanties binnen die doelverzameUng. De
ervaringen met de sectoronderzoeksgroepen doen het vermoeden rijzen dat, naarmate het
maatschappelijke belang van onderzoeksonderwerpen toeneemt, de opstelling en beoor-
deling van onderzoeksprogramma's neteliger wordt.

De meest eenvoudige variant van het relevantieprobleem: onderzoekers houden zich met
onderwerpen bezig, die langs democratische weg prioriteit in maatschappelijk opzicht
hebben verworven, lijkt wel oplosbaar middels programma-adviescommissies (ervan uit-
gaande, dat hun samenstelling democratische oordeelsvorming mogelijk maakt) en mid-
dels behoeftenpeilingen, zoals Doornbos (1967) die al uitvoerde. Is dit echter niet een
schijnoplossing? Programmering heeft immers betrekking op een veelvoud van mogelijke
objecten. BehoeftenpeiHngen, zo ze al uitvoerbaar zijn, zullen wellicht het belang van
bepaalde onderwijsproblemen (doorstroming, keuzeprocessen, schoolorganisatie), het be-
lang van onderwijssectoren (moeder-MAVO's, Open School, onderbouw basisschool) en
het belang van problemen in de relatie onderwijs-maatschappij (onderwijs en maatschap-
pelijke ongelijkheid, deelname vrouwen aan onderwijs, relatie onderwijs-arbeidsmarkt) tot
uitkomst hebben. Het is maar de vraag of dergelijke prioriteiten verenigbaar zijn met de in
het wetenschappelijk forum gewenste afstemming tussen onderzoeksthema's, onderwijs-
kundige theorievorming, fundamenteel en toegepast onderzoek.

De relevantieproblematiek wordt ook verder gecompliceerd door de verschillende niveaus
van programmering. Het Scylla en Charibdis van de grootschaligheid en de kleinschalig-
heid van de programmering duikt hier op. SVO, O en W, de RAWB, ze kunnen allen een
nationaal onderzoeksprogramma opstellen; de onderzoekers X, Y en Z met hun veldcon-
tacten en praktische onderzoekskennis kunnen eveneens een onderzoeksprogramma op-
stellen, maar dan voor een beperkte sector van het onderwijsonderzoek. Krathwohl

(1977) vermeldt de ervaringen met de RFP's van het NIE, waar een toenemend aantal
onderzoekers toch maar de voorkeur geeft aan het uitvoeren van eigen onderzoeksideeën
in plaats van de landelijk uitgestippelde onderzoeksheleidslijnen te volgen.
Een grootschalig onderzoeksprogramma, zoals dat voor onderzoek van de arbeidsmarkt,
(waar de situatie essentieel anders is, omdat daar amper sprake was van een reeds aan-
wezig projectenbestand) zal binnen het onderwijsresearchsysteem wel eens voornamelijk
een papieren bestaan kunnen gaan leiden. Mentink (1976) toonde dit aan in een analyse
van de programmeringservaringen van SVO, waar scheiding tussen het onderzoeksproces
en het programmeringsproces een van de verklarende factoren voor het mislukken van
eerdere programmeringspogingen bleek te zijn.

Kleinschaligheid kan leiden tot een verstarring van het projectenbestand in de Nederland-
se Onderwijsresearch in die zin, dat elk project met een programmatische sluier wordt
getooid en er in wezen niets veranderd.

Een laatste en zeker niet het minst belangrijke relevantieprobleem dat de programmering
zal oproepen, is de discrepantie tussen verwachtingen en werkelijke opbrengsten van
onderzoek. De klachten over gebrekkige relevantie van onderzoek hebben zeker niet
alleen betrekking op de gekozen onderzoeksonderwerpen, maar vooral ook op de uitein-
delijke opbrengsten. De afstand tussen de opbrengsten en de onderzoeksvoornemens is bij
onderzoeksprogrammering nog veel groter geworden. Eigenlijk is alleen het kameleon-
model, voor zover men dat nog programmering kan noemen, hier een remedie tegen.

Het mankrachtprobleem, het relevantieprobleem en het criteriumprobleem behoorden tot
de diagnose, op grond waarvan er een nieuwe structuur voor de onderwijsresearch nodig
werd geacht. Binnen de programmeringsstructuur zijn deze problemen vooralsnog in bijna
even hevige mate aanwezig.

Is de diagnose al juist, dan blijft het nog de vraag of deze homeopatische geneeswijze een
effectvolle therapie vormt.

De voorgenomen evaluatie van de programmering (Programmeringsnota, blz. 39) in het
jaar 1979 kan wellicht uitwijzen of in ieder geval de therapie, bijvoorbeeld door het
oproepen van nieuwe randvoorwaarden, tot beter onderzoek heeft geleid.

Beijk, J. Convergerend operationalisme: Een dwingende strategie voor de gedragswetenschappen,
Nederlands Tijdschrift voor de Psychologie en haar grensgebieden, 1977, 173-185.

Borselen J.W. van, Human Bias in R & D policy-making, proefschrift. Rijksuniversiteit Groningen,
1975.

Cronbach, L.J. Beyond the Two Disciplines of Scientific Psychology. American Psychologist, 1975,
30, 116-127.

Gelder, L. van. Onderwijsbeleid en onderwijsvernieuwing, van pedagogische wenselijkheid tot maat-
schappelijke noodzaak. Groningen: Wolters-Noordhoff, 1974.

Hoogerwcrf, A. Beleid belicht. Deel 1; sociaal wetenschappelijke beleidsnanalyse. Alphen a/d Rijn:
Samsom, 1972.

Houten, D. van. Toekomstplanning, Planning als veranderingsstrategie in de welvaartsstaat. Meppel:
Boom, 1974.

Jansen, K. Skoop en programmering; een historische en systematische analyse van een poging tot
onderzoeksprogrammering, deel 11 c, Meerjarenplan Kohnstamm Instituut, 1978.

Kamp, M. van Ati. Evaluatie Onderwijs Research. Amsterdam: Kohnstamm Instituut, 1975.

Kamp, M. van der en J. Scheerens, Klachten over Sociaal-Wetenschappelijk Onderzoek. Amsterdam,
1976, stencil.

Koster, K. en B. Creemers. Enkele kriteria voor een onderzoeksbeleid in de onderwijsresearch, Pedago-
gische Studiën, \91\,48, 342-357.

Krathwohl, D. Improving Educational Research and Development, Educational Researcher, 1977, 6,
no. 4, blz. 8-14.

Lakatos, J. Falsification and the Methodology of Scientific Research Programs. In: Lakatos, I., and
A. Musgrave, Criticism and the Growth of Knowledge. Cambridge: University Press, 1970.

Mentink, D. Programmering van Onderwijsonderzoek op landelijk niveau, een eerste verkenning. In:
Congresboek ORD 1976. Groningen.

Ministerie voor Wetenschapsbeleid. A'bfa Wetenschapsbeleid, Den Haag: Staatsuitgeverij, 1975.

Moor, R.A. de. De ontwikkeling van een onderwijsmodel; een programma van onderzoek op het gebied
van het onderwijs. Koninklijke Nederlandse Akademie van Wetenschappen, Sociaal Wetenschappe-
lijke Raad. Amsterdam: B.V. Noord-Hollandsche Uitgevers Maatschappij, 1977.

Oijen, P. van. Discussienota Kiso '75-'80, Een programma voor onderzoek van het schriftelijk onder-
wijs. Kiso-rapport 3, Amsterdam: Kohnstamm Instituut, 1975.

Raad voor Advies van het Wetenschapsbeleid, Advies inzake het rapport van de Verkenningscommissie
Onderwijsresearch, Den Haag, 1977.

Ruiter, R. Programma van sociaal-wetenschappelijk onderzoek met betrekking tot de arbeid en de
arbeidsmarkt. Koninklijke Nederlandse Akademie van Wetenschappen, Sociaal Wetenschappelijke
Raad. Amsterdam: B.V. Noord-Hollandsche Uitgevers Maatschappij, 1973.

Sektor Onderzoeksgroep Participatie Onderwijs, Meerjarenplan I977-I980, Meerjarenplan vooronder-
zoek in het innovatieproject Participatie Onderwijs. Nijmegen: NIVOR, 1976.

Snellen, I.Th.M. Benaderingen in strategieformulering. Een bijdrage tot de beleidswetenschappen.
Alphen a/d Rijn: Samsom, 1975.

Stichting voor Onderzoek van het Onderwijs, Programmering van Onderwijsonderzoek, Een raamwerk
voor de programmering van het onderzoek in het kader van de doelstelling van de S. V.O., Den
Haag: Staatsuitgeverij, 1976.

Stichting voor Onderzoek van het Onderwijs, Personele kontinuïteit en instituutsprogrammering in
ontwikkeling. Den Haag, S.V.O., 1976.

Tindemans, P.A.J. Inleiding, In: Mulder, J.M. de, en E.P. Visscher. Op weg naar criteria voor onder-
zoeksbeleid. OTO cahiers 1, Groningen: Wolters-Noordhoff, 1976.

Verkenningscommissie Onderwijs Research, Onderwijsonderzoek in Nederland. Den Haag: Staatsuit-
geverij, 1976.

Wardekker, W. Opvattingen over wetenschappelijk werken in het onderwijs. Kennis en Methode, 1977,

Warries, E. Nopens de ontwikkeling van een researchbeleid. Tijdschrift voor Onderwijsresearch, 1977,

Weinberg, A.M. Criteria for scientific choice. In: Mulder, J.M. de, en E.P. Visscher. Op weg naar
criteria voor onderzoeksbeleid. OTO cahiers 1, Groningen: Wolters-Noordhoff, 1976.

Wissema, J.G. De praktijk van strategische beleidsvorming. Intermediair, 1977, 18, blz. 1-9 en 53-55.

Laboratorium Toegepaste Psychologie, Rijksuniversiteit Gent en Centrum voor Bedrijfspsychologie
Securex-Gent

In de testpraktijk valt het op dat veel empirisch bekomen distributies scheef, bimodaal of
in ieder geval niet normaal verdeeld zijn. Hiervoor zijn verschillende oorzaken aan te
geven:

1. Het sample is niet representatief voor de bedoelde totaalpopulatie. Dit komt neer op
een foutieve sampling of verkeerde samenstelHng van de steekproef.

2. Het meetinstrument of de test zelf voldoet niet aan de gangbare vereisten inzake
testconstructie nl. verdehng van de moeilijkheidsgraad, intercorrelaties tussen de items
en de wisselwerking tussen moeilijkheidsgraad en intercorrelaties.

3. Reële werking van externe, doch moeilijk te isoleren intervenierende variabelen, die de
gemeten veranderlijke daadwerkelijk en onlosmakelijk beïnvloeden in de richting van
niet-normahsatie.

Toch blijft het de vraag om de rangorden of ruwe uitslagen van verschillende subjekten op
verschillende tests onderling te vergelijken. Dit wordt bereikt door transformatie van die
ruwe uitslagen in een éénvormige en éénduidige schaal, hetzij een hneaire transformatie,
of een genormaliseerde standaardschaal.

Indien men zekerheid heeft dat de a-normaliteit van de bekomen distributie toe te schrij-
ven is aan hoger genoemde redenen (1 en of 2), en dat de gemeten dispositie in de
werkelijke totaalpopulatie normaal verdeeld is, dan verdient het aanbeveling een transfor-
matieprocédé te gebruiken, dat de vorm van de empirische distributie normaliseert. Met
andere woorden, wanneer men alle redenen heeft om aan te nemen dat de veranderlijke in
de totale populatie wèl normaal verdeeld is, dan worden bij een normering de ruwe scores
beter getransformeerd in genormaliseerde standaardscores en niet in lineair afgeleide stan-
daardscores. Lineaire transformatie van ruwe scores veronderstelt immers dat de empi-
risch bekomen distributie dezelfde is als de distributie van de gemeten variabele in de
totale populatie. Indien men echter alle redenen heeft om te veronderstellen dat de
oorsprong van de scheve distributie te herleiden is tot bovenvermelde punten 3) of 4), en
dat de a-normaliteit van de verdehng dus een juiste weergave is van de werkelijkheid,
gebruikt men beter een lineaire transformatie. Alsdan is normalizering niet verantwoord
omdat men de werkelijkheid niet respecteert. Bij lineaire transformatie van zowel een
normale als schuine yerdeling in standaardscores, hebben de eenheden of de afstanden op
de ruwe schaal, en deze op de hneair afgeleide standaardschaal, proportioneel of in
verhouding een identieke waarde of betekenis. Bij normahsering van een normaal ge-
spreide uitgangsdistributie is dit uiteraard ook zo, maar niet meer bij normalisering van

een scheve empirische uitgangsverdeling. Lineaire transformatie vertoon derhalve belang-
rijke beperkingen: wanneer het er alleen op aankomt prestaties van een subjekt op een
bepaalde variabele te vergelijken met de uitslagen van een normeringsgroep met betrek-
king tot die variabele, dan kunnen we, zelfs bij een niet-normale uitgangsverdeling, lineair
afgeleide standaarduitslagen toepassen; ook al is de empirische distributie 'ten onrechte'
niet normaal of scheef. Men begaat geen grote fout, ook al is normalisering in dat geval
ten volle aangewezen.

De moeilijkheden worden echter quasi onoverkomelijk wanneer wij met Hneair afgeleide
standaarduitslagen prestaties van een subjekt op verschillende variabelen of tests willen
vergelijken. Daarvoor moet immers aan twee fundamentele vereisten voldaan zijn:

- de populatie waaruit de distributies van de uitslagen afkomstig zijn, moet voor de
veranderlijken, die verschillende tests meten, een gelijk gemiddelde en een gelijke
spreiding vertonen.

- de distributies van die verschillende veranderlijken moeten qua scheefheid en welving,
zeer gelijkaardig zijn.

In de werkelijkheid komt het echter zeer zelden voor dat experimentele distributies voor
deze statistische parameters op alle gemeten disposities identiek zijn, zodat men vaak bij
lineaire transformatie appels voor peren neemt, en omgekeerd. Stel dat een normgroep bij
een test voor verkoopinzicht een negatief scheve verdeling vertoont en bij een test voor
leidinggeven een positief scheve verdeling. Bij de test voor verkoopspzicht zuHen extreem
lage lineaire standaardscores voorkomen en bij de test voor leidinggeven extreem hoge
lineaire standaardscores. Indien iemand op beide tests dezelfde standaardscore behaalt,
kan daaruit niet worden afgeleid dat hij op de twee tests dezelfde relatieve positie in-
neemt, of dat zijn geschiktheid voor verkoop even groot is als zijn potentialiteit tot
leidinggeven. Een lineaire standaardscore T 40 voor leidinggeven is dan in feite een line-
aire standaardscore in zwakker resultaat dan een uitslag T 40 voor verkoopsinzicht. Daar-
om geldt als stelregel: wanneer er geen reden bestaat om aan te nemen dat de onderzochte
disposities niet normaal verdeeld zijn in de populatie: normaliseer de ruwe scores! Te
meer daar stilzwijgend wordt aangenomen dat de meeste psychische dimensies in realiteit
normaal verdeeld zijn. Toch ontmoet men veel lineair afgeleide z-scores, Stanines, C-
scores, T-quotes, zelfs I.Q' s. De meest voor de hand liggende reden hiervoor is dat
normalisering meer berekeningswerk vraagt dan lineaire transformatie.
Nochtans, is de lineaire transformatie praktisch altijd minderwaardig aan normalisering,
wanneer het interdistributionele vergelijken betreft. Is nu een genormaliseerde T beter
dan een genormaUseerde Z of een C-score, een Stanine of een genormaliseerde I.Q.? Zo
mag het niet gesteld worden. Op zichzelf zijn deze genormaliseerde standaardscores gelijk-
waardig, maar het ene type is meer aangewezen dan het andere, al naargelang de omstan-
digheden. Het was McCall, die rond 1920 de T-scalering concipieerde bij de constructie
van leesvaardigheidstests voor de basisschool. McCall ontwerpt zijn nieuwe schaal als een
eresaluut over Thorndke en Terman, die hij afkorte tot T-schaal (Kries en Krus, 1977). De
oorspronkeHjke T-schaal was gebaseerd op scores van leesvaardigheidsproeven bij 500
twaalfjarigen. Hij vergeleek de resuhaten van andere leeftijdsgroepen met deze twaalf-
jarigen. In de Amerikaanse testpraktijk worden T-scores meestal bepaald als Hneair ge-
transformeerde standaardwaarden, die zich onderscheiden van de lineaire Z-waarden,
doordat hun gemiddelde 50 en niet O bedraagt, en hun 6 10 en niet 1. Eén van de
kenmerken van de T-schaal is haar brede reikwijdte. T-quotes zijn derhalve aangewezen bij
onderzoek van grotere heterogene groepen, en wanneer de onderzoeker een meetinstru-
ment gebruikt waarvan de schaalbreedte in ruwe uitslagen groter is dan het bereik van de

Standaard T-schaal. Het gebruik van T-scores is niet zinvol wanneer het bereik van de ruwe
uitslagen kleiner is dan dat van de T-standaardschaal. In dat geval zou de T-score een
geforceerde, niet-verantwoorde verfijning weergeven van de uitslagen. Bij testing van zeer
homogene groepen met een meetinstrument dat wel aan deze voorwaarde voldoet, loopt
men soms toch het gevaar dat de SD van de ruwe scores kleiner is dan 10 (= SD van de
T-schaal). Ook in dat geval wordt het gebruik van T haarklieverij. Ook de standaardfout
van meting SE m (standard error of measurement) van de test moet men in het oog
houden. In principe mogen standaarduitslagen geen grotere nauwkeurigheid van discrimi-
natie pretenderen dan de SE m aangeeft. Diverse auteurs zoals Ley, Garrett, Lienert en
Guilford geven aan hoe genormaliseerde T-quotes te berekenen.

Een genormaliseerde T-quote is een 'area transformed score'. Zij geeft de 'area' of de
oppervlakte aan die in een theoretisch normale curve beantwoordt aan de cumulatieve
proportie van de overeenkomstige ruwe score. Normalisatie van ruwe uitslagen wordt
teweeggebracht door de cumulatieve proportie van elke uitslag om te zetten in een stan-
daard-afwijking op grond van de eigenschappen van de normale curve. Ley (1972) stelt
voor genormaliseerde T-quotes te berekenen als de distributie van ruwe uitslagen niet
normaal is. Dit is goed als algemene uitgangsregel, maar toch zal dit, zoals hoger vermeld,
niet in alle gevallen verantwoord zijn. De niet-normahteit van de ruwe distributie kan
immers de werkelijke weergave zijn van de eigenschappen van de onderzochte groep of te
wijten zijn aan onafscheidelijke faktoren die de onderzochte dimensie beïnvloeden. Gar-
rett (1970, p. 318) schrijft in dit verband: 'T-scaling forces normality upon the scores of a
frequency distribution and is unwarranted if the distribution of the trait in the popula-
tion is not normal.' Wanneer echter, zoals gezegd, de empirische distributie ten onrechte
scheef is, moet men normaliseren. Guilford (1965, p. 523) geeft een voorbeeld van een
experimentele distributie, die hij 'seriously skewed' noemt en die hij tot T-waarden nor-
maliseert. Lienert (1969) citeert ook een voorbeeld van een bimodale verdehng, die in
T-waarden wordt omgezet.

Voor de berekening nu gaat Ley als volgt te werk: ruwe uitslag omzetten in een percen-
tiel, het percentiel in een 'genormaliseerde' Z-score en T te berekenen volgens de gewone
formule 50 + 10 Z. Ook Lienert volgt deze werkwijze, doch bepaalt de genormaliseerde Z
vanuit het cumulatief procent van de ruwe scores. Dit cumulatief procent is een 'rectified'
cumulatief procent (RC %) en komt overeen met een intervalgrens. Bij normalisatie
werken wij immers met intervallen (areas) en niet met eenheden van uitslagen.
Lienert neemt als intervalgrens het middelpunt van elke twee opeenvolgende cumulatieve
proporties, onmiddellijk omgezet in een cumulatief procent, volgens de formule:

f = de frequentie van de beschouwde ruwe score.
Garrett (1970) doet hetzelfde, doch neemt de cum f van de ruwe score 'onder' de be-
schouwde score als vertrekpunt, volgens de formule;

waarin: cum f os = de cum f van de ruwe score onmiddellijk onder de beschouwde ruwe
score.

f = de frequentie van de beschouwde ruwe score.
Men kan ook het gemiddelde nemen van twee opeenvolgende cumulatieve proporties vol-
gens de formule:

Garrett geeft bovendien tabellen waarbij de T - waarde direkt kan afgelezen worden uit
het cumulatief procent.

Guilford neemt de hoogste intervalgrenzen als startpunt. De T - uitslag die overeenkomt
met de cumulatieve proportie wordt afgelezen van tabellen. Guilford stelt voor als onder-
deel van de berekeningsprocedure de gevonden T-scores grafisch uit te zetten tegenover de
ruwe scores, om ook T-quotes te kunnen bepalen die overeenstemmen met ruwe uitslagen
die 'niet' in het normsample voorkwamen. Men kan echter ook onmiddellijk genormaH-
seerde T-quotes grafisch bepalen door middel van probabiliteitspapier. Grafische bepaling
van genormaliseerde uitslagen verdient de voorkeur: toevallige schommelingen en kleine
onregelmatigheden in de distributie van de feitelijke frekwenties worden afgezwakt, gepo-
lijst of weggewerkt, naast het genoemde voordeel van gemakkelijke extrapolatie om T-
scores te bekomen van ruwe uitslagen die in de feitelijke proefgroep niet aanwezig waren
(cfr. Coetsieren Lagae 1961).

Vooral bij scheve verdelingen is de grafische bepaling van T-quotes zeer aanbevelenswaar-
dig. Bij niet grafische normalisering van niet-normale distributies van test-uitslagen loopt
men nog al eens het gevaar verschillen in T-uitslag te interpreteren in reële verschillen in
bekwaamheid of aanleg, daar waar die verschillen gewoon te wijten zijn aan kleine ver-
schillen in groepering van proefpersonen, vooral aan de distributie-uitersten. Hoe groter
de groepering van proefpersonen rond bijvoorbeeld een hoge ruwe uitslag, hoe lager de
T-uitslag van een bepaalde proefpersoon die zo een hoge ruwe score behaalt, daar waar
diezelfde proefpersoon met dezelfde ruwe score en bij een geringere groepering van ande-
re proefpersonen rond die ruwe score, een overeenkomstig hogere T-uitslag zou behalen.
Dit is natuurlijk niet zo erg wanneer men iedere T-uitslag aangeeft met onmiddellijke
vermelding ook van de detailHstische fenomenen van de ruwe distributie.
Op die wijze verhoogt de kans dat men iedere T-quote juist interpreteert, doch daar mist
de T-quote haar doel: zij wil voor elke test hetzelfde betekenen, onafhankelijk van bij-
voorbeeld groeperingsverschijnselen in de feitelijke distributies. Daarom doet men er goed
aan zoveel mogelijk T-quotes grafisch te bepalen, omdat dan dit nadeel van verschillen in
groepering door het grafisch polijsten min of meer wordt gladgestreken of zelfs opgehe-
ven. Verschillen in groepering verwijzen naar de relatieve verhouding van de aantallen.
Ook het absolute aantal proefpersonen of de grootte van de groepen heeft op zichzelf een
weerslag op de genormaliseerde uitslagen. T-quotes zijn aangewezen wanneer genormah-
seerde uitslagen worden berekend op grote groepen. Hoe groter het aantal gevallen in de
distributie hoe groter het bereik van de genormaliseerde uitslagen. Nu is de T-schaal zeker
breed genoeg om elke variatiebereik behoorlijk op te vangen. Doch wanneer men genor-
maliseerde T-uitslagen van verschillende tests vergelijkt en wanneer dit T-uitslagen bere-
kend werden op groepen van uiteenlopende grootte, dan loopt men weer het gevaar
verschillende T-uitslagen van één persoon op de diverse tests te interpreteren als reële
verschillen daar waar die verschillen tot stand kwamen door de uiteenlopende grootte van

de normsamples. Hier kan een grafische bepaling van de T-quotes niets aan verhelpen.
Men moet er steeds voor zorgen dat de genormahseerde T-quotes van verschillende tests
die men wil vergelijken, berekend worden op uitslagen van groepen die ongeveer even
groot zijn.

Coetsier, L. en Lagae, C. Frustratie-Studie, een experimentele bijdrage tot de Jeugdpsychologie, Gent;

Mededelingen Laboratorium Toegepaste Psychologie, 1961.
Garrett, WM. Statistics in psychology and education. London: Longmans, 1970 (6de uitgave).
Guilford, J.P. Fundamental statistics in psychology and education. New York; McGraw Hill Book
Company, 1965.

Krus, D,J. en Krus, P.H. Lost: McCall's T-score: Wnyl Educational and Psychological Measurement,
1977,57,257-261.

Ley, P. Quantitative aspects of psychological assessment. London: Duckward, 1972.
Lienert, G. Testaußau und Testanalyse. Weinheim: Verslag Juhus Beltz, 1969.
McCall, W.A. How to measure in education. New York: Macmillan, 1922.
McCall, W.A. Measurement, New York: Macmillan 1939.

In een recent nummer van dit tijdschrift concludeert Wijnstra (1977) op grond van
literatuurgegevens en eigen onderzoek dat de cloze procedure beschouwd kan worden als
'een zeer bruikbare maat voor schriftelijke taalvaardigheid', en voorts dat 'toepassing van
de cloze procedure met vierkeuze-antwoorden bij grotere groepen voordelen kan opleve-
ren bij de scoringsprocedure'. In deze reactie zullen we proberen aan te tonen dat deze
twee conclusies vooralsnog niet houdbaar zijn; in par. 1. zullen we ingaan op de bruik-
baarheid van de cloze procedure; in par. 2 zullen we de door Wijnstra aanbevolen meer-
keuze-variant bespreken.

In Carroll (1972) worden een aantal eisen geformuleerd waaraan een bruikbare (schrifte-
Ujke taalvaardigheids-)toets zou moeten voldoen, nl. betrouwbaarheid, generahseerbaar-
heid, gemakkelijke toepasbaarheid en validiteit. Nu is er wat betreft de eerste 3 eisen
Nu is er wat betreft de eerste 3 eisen weinig op de cloze procedure aan te merken; de pro-
blemen liggen op het terrein van de validiteit van de toets. Wijnstra gaat daar tamelijk uit-
gebreid op in; hij noemt in dat verband de hoge correlaties die zijn gevonden bij onder-
zoek waarbij nogal uiteenlopende toetsen als kriteriumtoets zijn gebruikt. Zo-noemt hij bij
de bespreking van Levin (1965) standaardproefwerken voor lezen, taal en Engels, luister-
vaardi^eidstoetsen en woordenschattoetsen; bij de bespreking van de resultaten van Wijn-
stra en Van Wageningen (1973), Buter et al. (1976). en Wijnstra (1976) worden o.a. Spaan-
se en Nederlandse lees- en luistervaardigheidstoetsen, een woordenschattoets, een werk-
woordentoets en een ClTO-eindtoets basisonderwijs als kriteriumtoets naar voren gebracht.
Waar Wijnstra echter geen aandacht aan besteedt, is het probleem van de theoretische va-
liditeit van al die toetsen, inclusief de cloze procedure, anders gezegd de vraag of mag
worden aangenomen dat bij die toetsen de schriftelijke taalvaardigheid van de ppn. wordt
gemeten. Zolang die vraag niet bevredigend kan worden beantwoord is voorzichtigheid bij
het gebruik van de cloze procedure geboden.

Wijnstra geeft helaas geen aanwijzingen op dit punt: hij geeft niet aan wat hij onder
schriftelijke taalvaardigheid verstaat, en maakt (dus) ook niet duidelijk of bv. een werk-
woordentoets en een 'standaard' proefwerk ons iets kunnen zeggen over de schriftelijke
taalvaardigheid en zo ja wat dan precies. Nu dient te worden vermeld dat, bij ontstentenis
van een enigszins ontwikkelde lees- c.q. teksttheorie, van geen enkele tot dusver ontwik-
kelde taaivaardigheidstoets kan worden aangeduid welke aspecten van de schriftelijke
taalvaardigheid er precies worden gemeten (zie ook Zondervan en Van Caldenborgh
(1971)), zodat de cloze procedure niet bij voorbaat een slechtere toets zou zijn dan zijn
soortgenoten.. Realistischer echter dan de cloze procedure een zeer bruikbare methode
voor het meten van schriftelijke taalvaardigheid te noemen lijkt ons de conclusie dat de
cloze procedure ongeveer hetzelfde meet als toetsen die tot nu toe, bij gebrek aan beter,
als maten voor schriftelijke taalvaardigheid door het leven gaan.

In 4. 'Slot' zegt Wijnstra dat liet voordeel van de cloze procedure (tenminste bij de
open-antwoord versie) de eenvoudige constructieprocedure is; daartegenover zou echter
het nadeel staan van de vele tijd die de skoring vergt, tenminste wanneer zgn. 'semantische
skoring' wordt toegepast. Om een minder tijdrovende skoring te bereiken wordt een
meerkeuze-variant bepleit. Wijnstra geeft daarbij toe dat dan de constructie weer meer tijd
kost, maar stapt daar verder vrij gemakkelijk overheen.

In Lohman (1976) wordt verslag gedaan van een tamelijk uitgebreid CITO-onderzoek naar
de bruikbaarheid van de cloze procedure als methode om het tekstbegrip van niet-native
speakers te toetsen. Om de correctie te vereenvoudigen (en wellicht op grond van Porter
(1976), die de meerkeuze-variant om meer theoretische redenen aanbeveelt voor niet-
natives) is in dat onderzoek de vierkeuze-variant gehanteerd. In de slotconclusie van het
CITO-verslag wordt meegedeeld dat gebleken is dat 'het construeren van cloze meerkeuze-
toetsen nauwelijks eenvoudiger is dan het maken van traditionele toetsen', en dat 'de
meerkeuzevorm moet worden afgeraden'. Belangrijk lijkt in dat verband vooral dat 'het
vinden van alternatieven, die niet verdedigbaar en toch aantrekkelijk zijn, ook voor een
vakteam uitermate lastig is'.

Om bovengenoemde redenen lijkt het twijfelachtig om de meerkeuze-variant aan te be-
velen; bovendien echter betekent toepassing van deze variant automatisch dat de methode
van semantische skoring wordt losgelaten, de methode die bij de open-antwoord variant
teveel tijd zou vergen. Het gemak immers van de meerkeuze-variant berust erop dat
slechts één alternatief juist is; het principe van de semantische skoring berust op precies
het tegenovergestelde: ook benaderingen (synoniemen e.d.) worden goedgekeurd.
Een erg voor de hand liggende uitweg is een open-antwoord variant van de cloze proce-
dure waarbij 'exacte skoring' wordt toegepast: zowel de constructie-procedure als de
skoring zijn zeer eenvoudig en kosten nauwelijks tijd, en o.a. uit Levin (1965) blijkt, zoals
Wijnstra zegt, dat met de exacte skoring vrijwel hetzelfde wordt gemeten als met de
(theoretisch wellicht aantrekkelijker) semantische skoring.

De validiteit en daarmee de bruikbaarheid van de cloze procedure lijken vooralsnog du-
bieus; mocht men toch besluiten de cloze procedure als meetinstrument te gaan hanteren,
dan moet (in ieder geval bij moedertaalsprekers) de open-antwoord variant met exacte
skoring worden aanbevolen.

Buter, P.M., Wesseling, H. en Wijnstra, J.M., Het van huis uit friestalige kind in hét nederlandstalige
basisonderwijs. Interimrapport V projekt Friesland. Utrecht: Instituut voor Pedagogische en Andra-
gogische Wetenschappen, 1976.

Carroll, J.B., Defining language comprehension: some speculations. In: J.B. Carroll and Roy
O. Freedle (eds.). Language comprehension and the acquisition of knowledge. Washington D.C.:
V.H. Winston & Sons, 1972.

Levin, L. Cloze procedure: studier av en metod att mäta elevers spräkförstaelse resp. texters lasbarhet.
Göteborg: Pedagogiska Institutionen, 1965.

Lohman, W.J.B., De cloze test als tekstbegriptoets? CITO Memo 162. Arnhem: Centraal Instituut voor
Toetsontwikkeling, 1976.

Porter, D., Modified Cloze Procedure: A More Valid Reading Comprehension Test. English Language

Teaching Journal. 1976,50, 151-155.
Wijnstra, J.M., Het gebruik van de Qoze Procedure als Maat voor Schriftelijke Taalvaardigheid, Tijd-
schrift voor Onderwijsresearch, 1911,2, 262-269.
Wijnstra, J.M., Het onderwijs aan van huis uit friestalige kinderen, 's Gravenhage: Staatsuitgeverij,
1976.

Wijnstra, J.M. en Van Wageningen, N., The cloze procedure as a measure of first and second language
proficiency. Utrecht: Instituut voor Pedagogische en Andragogische Wetenschappen, 1973 (sten-

Zondervan, F. en Van Caldenborgh, P., Leesbaarheidsformules, constructie en betrouwbaarheid.
Spektator, 1971/1972, 6,341-351.

Dit proefschrift geeft een tamelijk volledig beeld van de didakometrie, afgezien van de itemconstructie.
Het eerste deel (72 p.) wordt samengevat onder de noemer nauwkeurigheid van tentamens, het tweede
deel (16 p.) gaat over getrapt tentamineren en het derde deel (26 p.) over verschillende generaliseer-
baarheidsanalyses betreffende een bepaald tentamen met open vragen. Bij dit laatste hoofdstuk hoort
ook een analyse van covariantie-structuren en het eindigt met een berekening van het aantal foutieve
klassificaties bij aanname van een tweedimensionaalnormale verdeling tussen score cn ware score.
In het beschouwde geval leidt gelijkstelling van aftestgrens met ware aftestgrens tot ongeveer eenzelfde
percentage foutieve klassificaties als de berekening bij een met de regressie-vergelijking geschatte ware
aftestgrens. (Het is, tussen haakjes, begrijpelijk, dat auteurs speciaal hun eigen voorkeursgebied con-
trasteren met wat genoemd wordt de klassieke testleer. Zo stelt de Gruijter de generaliseerbaarheids-
theorie tegenover de klassieke testleer, terwijl een auteur als Fischer deze juist onderbrengt bij de
klassieke testleer en hiertegenover alleen de latente trekmodellen stelt als niet-klassiek.)
Ook het tweede deel bevat een interessante eigen bijdrage. Bij de voorgestelde tweetrapsmethode
worden geen assumpties verricht over de waarde van itemparameters en in plaats van regressie wordt
gebruik gemaakt van 'ekwivalering', en een bekende restriction-of-range formule. De uitkomsten wor-
den geplaatst naast die met verschillende methoden op grond van het model van Rasch. De gelijkheid
van de sigma's van Rasch bij twee verschillende groepen is mooi (maar viel de promovendus toch
tegen). Het valt overigens op dat bij gebruik van het Raschmodel nog vaak ad hoe besUssingen moeten
worden genomen.

De nadruk ligt op het eerste deel. Ook hier toont de schrijver zijn belezenheid op psychometrisch
gebied en voegt hij op vele plaatsen eigen vindingen toe. (Er zijn 140 literatuurverwijzingen, waarvan
82 titels jonger dan 10 jaar.) Een juist onderscheid wordt gemaakt tussen doel en aard van de toetsings-
procedure; beide kunnen relatief of absoluut zijn. Een relatieve procedure kan ook gebruikt worden
ten behoeve van een absoluut doel en een absolute procedure voor een relatief doel. Het constant
houden van de normen met verschillende (ook eigen) ekwivaleringaprocedures wordt uitvoerig behan-
deld. Daarnaast wordt nog een eigen slaag-zak-grens-methode gelanceerd waarbij de absolute gren^ Cq
OT de grens waarbij rekening wordt gehouden met verschillend niveau van beide groepen (Cq + X, -
X,) op een bepaalde manier gewogen worden opgesteld, rekening houdend met de nauwkeurigheid van
de bronnen, d.w.z. de gewichten zijn omgekeerd evenredig met de variantie van resp. gemiddelde
itemmoeilijkheid en gemiddelde score.

Een interessante p.vagraaf is ook die welke de besliskundige aspecten behandelt bij slaag-zak-beslissin-
gen. De utiUteitswinst wordt geprezen als een beter alternatief voor de door verschillende auteurs
voorgestelde betrouwbaarheidsmaten voor kriterium-georiënteerde tests. Formules voor utiliteitswinst
bij een bivariaatnormale verdeling tussen score en utiliteit (ware score) worden afgeleid voor dit soort
toetsen. Daarbij wordt echter niet vermeld dat het alleen zin heeft om te spreken over utiliteit ten
opzichte van een a priori strategie, in casu 'niemand laten slagen' (als de gemiddelde utiliteit van de
groep negatief is) of 'iedereen laten slagen' (als die utiliteit positief is). Ook zou het eigenlijk niet nodig
geweest zijn over de utiliteit van de niet-geselecteerde groep apart aannamen te verrichten, als direct
gesproken zou zijn van de utiliteit van laten slagen ten opzichte van laten zakken. Het is misschien niet
erg zinvol om te spreken over utiliteit van slagen en zakken op zich zelf (hoewel vele auteurs dat
doen), alleen hun verschil is van belang.

Zodra waarden een rol spelen ontstaan als gewoonlijk verschillen in opvatting, zoals hier bij het
probleem van de aftestgrens bij eerste gelegenheid en herkansing. Men kan beide grenzen besliskundig
berekenen maar 'het laten, zakken van studenten uit de slechte groep bij kritieke scores die voor de
studenten in de goede groep slagen betekenen, is onaanvaardbaar'. Dat is kennelijk zo wanneer het,
zoals in vele discussies in de V.S., groepen betreft van verschillend ras, maar hier heeft de slechte groep
uit vrije wil gekozen voor uitstellen en eerst alle kansen gehad om bij de eerste gelegenheid tentamen te
doen.

Iven aardige analyse wordt gegeven van drie methoden van caesuurversehuiving bij testverlenging.
Hieruit blijkt bijv. dat de aftestgrens uitgedrukt in z-scoies (dus relatief t.o.v. de groep) bij constante
ruwe-scorc-aftestgrens precies in tegenovergestelde richting verschuift dan bij de besUskundig juiste
methode (met maximale utiliteit).

Tenslotte wordt ook enige aandacht besteed aan de utiliteit bij de combinatie van twee toetsen,
conjunctief of compensatorisch. Natuurlijk is het onmogelijk om in een proefschrift alle aspecten van
een wetenschapsgebied als de didakometrika te vermelden. De Gruijter behandelt heel wat. Sommige
onderwerpen worden slechts even genoemd, zoals het binomiale foutenmodel. De toepassingen van het
normaalogiefmodel of het logistische model mankeren echter geheel, waarschijnlijk vanwege de moei-
lijkheden bij de parameterschattingen. Jammer is dat hij zich niet heeft ingelaten met pogingen om
tentamens ook systeemtheoretisch te benaderen, hoewel louter verbale aanzetten als die van Carroll en
Bloom wel even genoemd worden. Men kan er natuurlijk over twisten of dit nog wel psychometrische
aspecten zijn.

Het boek is niet alleen nuttig voor didakometrici; ook studenten in de psychologie of de onderwijskun-
de zouden er van kunnen profiteren, althans van grote gedeelten, hoewel het natuurlijk niet direkt
voor een didactisch doel geschreven is. Het is echter zeer helder geformuleerd. Concurrerende metho-
den worden objectief behandeld en men mist gelukkig geheel de propagandistische toon, die men in
sommige andere proefschriften aantreft. De zinsbouw is fraai, maar het woordgebruik is soms discuta-
bel. De recensent behoort niet tot die puristen die te keer gaan tegen alle anglicismen in het psycholo-
genbargoens. Ekwivaleren en calibrcren mag best. Maar nu eens summeren (p. 49) en dan weer somme-
ren (p. 61) voor doodgewoon optellen, is toch wel wat overdreven. Ook is het jammer dat niet overal
het paginanummer staat bij verwijzingen naar boeken en dat de betekenis van gebruikte symbolen niet
wat vaker herhaald wordt; acht bladzijden terug slaan om op te zoeken wat ook al weer R (p. 86)
betekent zou bijv.niet nodig moeten zijn geweest.

Al met al een nuttig boekje voor ieder die met didakometrische of psychometrische problemen te
maken heeft.

Kempf, W.F. & Repp, B.H. (eds.)
Mathematical Models for Social Psychology
Bern: Verlag Hans Huber, 1977

Dit boek is een vertaling en bewerking van een eerdere uitgave van Kempf, Probabilistische Modelle in
der Sozialpsychologie (Bern, H. Huber, 1974). De onderhavige uitgave is een reader bestaande uit
negen hoofdstukken, drie meer dan de duitse versie bevatte.

Wie aan de hand van de titel zou veronderstellen dat hier een min of meer uitputtende behandehng
geboden wordt van de gangbare mathematische modellen in de sociale psychologie, komt bedrogen uit.
Het boek behandelt in wezen slechts twee soorten van modellen. Op de eerste plaats zijn daar de
modellen gebaseerd op de speltheorie, op zichzelf een belangrijke en interessante tak van de mathema-
tische psychologie, die evenwel voor beoefenaren van onderwijs-research vooralsnog minder relevant
zijn. Voor deze modellen worden drie hoofdstukken (100 bladzijden) ingeruimd. Twee van de drie zijn
ten opzichte van de vorige editie nieuw. De overige zes hoofdstukken (grofweg 200 bladzijden) zijn
gecentreerd rond de specifiek objektieve modellen (de familie van Rasch-modellen).
Het lijkt dat bij de samenstelling van dit boek, meer de beschikbaarheid van artikelen een leidraad is
geweest, dan de behoefte aan een systematische presentatie van modellen voor sociaal psychologische
fenomenen. Wellicht is voor een reader het kader waarbinnen de diverse artikelen zijn ondergebracht
van minder belang en moeten we ons meer richten op de kwaliteit van de afzonderlijke artikelen.
Ons bepalend tot de eerste zes hoofdstukken, welke voor onderwijs-research het meest relevant lijken,
kan het oordeel zonder meer positief zijn. In hoofdstuk 1 presenteert W.F. Kempf een dynamisch
model voor het meten van traits. Hier wordt het principe van lokaal stochastische onafhankelijkheid
verruimd, zodanig dat gedragssequenties toegankelijk worden voor specifiek objektieve modellen (in
hoofdstuk 111 beschrijft Kempf samen met Hampapa de mathematica nodig voor specifiek objektieve
parameter schatting.) Dit model slaat een brug tussen de Markov modellen enerzijds en de (psychome-
trische) Rasch-modellen anderzijds, als zodanig betreft dit een theoretisch zeer interessante aanzet.

Hoofdstuk n is de presentatie door E.B. Anderson van het multikategorieel Rascli-model inklusief
conditionalmaximum hkehhood procedures en een model test. Dit artikel van Anderson, de man die
de statistische fundering voor specifiek objektieve parameter-schattingsprocedures aanreikte, kan op
voorhand reeds als een 'classic' betiteld worden. Deze laatste term lijkt ook niet overdreven voor
hoofdstuk IV, waar G.H. lüscher een hele serie lineair logistische modellen behandelt, door hem ont-
wikkeld voor de analyse van attitude en gedragsveranderingen onder invloed van kommunikatie. Het
zou ondoenlijk zijn deze modellen één voor één de revue te laten passeren. We moeten volstaan met
de opmerking dat dit type modellen een groot toepassingsgebied lijken te bezitten voor de analyse van
gedragsveranderingen.

Hoofdstuk V en VI bevatten toepassingen van specifiek objektieve modellen en wel variaties op respek-
ticvelijk het dichotome (simpele) Rasch-model en het Poisson-model met separeerbare parameters,
eveneens eertijds door Rasch geïntroduceerd.

Gevraagd om een algemene samenvatting van het boek, meen ik dat gezegd mag worden dat het als
systematische presentatie van een vakgebied niet voldoet; daarentegen is de kwaliteit en het belang van
de diverse hoofdstukken zeer groot.

Maatschappelijke achtergronden van intellectuele ontwikkeling, een empirisch onderzoek
naar de invloed van de statusspecifieke opvoeding op de ontwikkeling van intelligentie en
leerprestaties

Groningen: Wolters-Noordlioff, 1977, 275 pp. (ƒ39,-) Empirische Studies over Onder-
wijs, nr. 24.

Deze Groningse dissertatie begint met een uitvoerig literatuuroverzicht van binnen- en vooral buiten-
lands onderzoek naar de allocatiefunctie van het onderwijs, de ongelijkheid van onderwijskansen en de
relaties tussen sociale status, gezinssocialisering en intellectuele vaardigheden. Op grond van de aldus
samengevatte onderzoeksresultaten formuleerde Meynen drie probleemstellingen (pag. 70).

A. In hoeverre kan de statusspecifieke verdeling van intellectuele vaardigheden bij de aanvang van het
basisonderwijs worden toegeschreven aan statusspecifieke socialiseringsprocessen?

B. Maken de statusspecifieke socialiseringsprocessen deel uit van een meer omvattend status gebonden
waarden- en oriëntatiepatroon, dat tevens richtinggevend is voor de visie op andere maatschappe-
lijke verschijnselen?

C. Zijn er enige, met name structurele, factoren aan te geven, die als de sociale determinanten van de
status gebonden socialiseringsprocessen kunnen worden aangemerkt?

Uit deze drie probleemstellingen werden vervolgens een aantal hypothesen afgeleid. De data, nodig
voor de toetsing van deze hypothesen, verzamelden Meynen en zijn studenten in 1972/1973 bij 728
eerste-klas leerlingen uit de stad Groningen en bij hun ouders. In mei 1975 werd (bijna) dezelfde groep
leerlingen nogmaals ondervraagd en getest. Door de keuze van zijn meetinstrumenten (intelligentie- en
schoolvorderingen toetsen; attitude- en gedragsschalen; achtergrondgegevens) is het een kwantitatief
onderzoek geworden, waarin relatief geavanceerde statistische technieken worden gebruikt. De ruimte,
beschikbaar voor een recensie is te klein voor een bespreking van de vele gebruikte data en technieken.
Ik volsta hier met het vermelden van de belangrijkste onderzoeksresultaten met betrekking tot de
genoemde probleemstellingen. Voor het overige verwijs ik naar een verslag van een SlSWO-studiebijeen-
komst over dit boek, georganiseerd onder auspiciën van de stuurgroep Onderwijssociologie (Dronkers,
1977).

- Het effect van socialiseringsprocessen op de ontwikkeling van de intellectuele vaardigheden bleek
minder dan verwacht mocht worden, gelet op in de literatuur gerapporteerde bevindingen. De
gezamenlijk gerapporteerde opvoedingskenmerken voorspelden de intelligontiescore niet noemens-
waardig beter dan het sociale miheu waartoe het kind behoorde (blz. 129).

- De milieuspecifieke waardenoriëntaties inzake de opvoeding maken inderdaad deel uit van een
algemener milieuspeeifiek oriëntatiepatroon (blz. 140-141).

- Vooral de verschillen in cognitieve kenmerken tussen de sociale milieus (opleiding, graad van
algemene informatie en graad van informatie over opvoedingsproblemen), zijn enige structurele
determinanten, die de milieuspecifieke opvoedingsoriëntaties kunnen verklaren. De directe invloed
van het gezin van herkomst, en de werkomstandigheden van de vader op opvoedingsoriëntaties is
gering. De indirecte invloed van het miheu van herkomst is echter groot door het verschil in
genoten opleiding (blz. 161).

Deze studie van Meynen is voor diegenen, die geïnteresseerd zijn in empirisch, kwantitatief onderzoek
naar de invloed van gezinskenmerken op de ontwikkeling van intellectuele prestaties van 6- tot 8-jari-
gen is een belangrijk boek, vooral door zijn poging bestaande inzichten in één onderzoek samen te
brengen. Lezers, die slechts snel kennis willen maken met de belangrijkste resultaten, zullen waar-
schijnlijk snel verdrinken in de vele tabellen en languitgesponnen tekst van dit boek. De Nabeschou-
wing (blz. 200-206) is te vaag om deze lezers houvast te bieden.
Vier belangrijke aspecten van dit onderzoek wil ik hier nog aanstippen:

1. de geringe betekenis van verklarende waarde van de onafliankclijke variabelen;

Eén van de opvallendste conclusies uit deze studie is, dat de gezinskenmerken (leesniveau; opvoedings-
informatie; rolstructuur moeder en kind; cultuur-pedagogisch niveau; waardenoriëntaties van de
ouders) en de milieukenmerken (opleiding, beroepsniveau, werkomstandigheden) tezamen zo weinig
variantie verklaren in de intelligentiescores op 6-jarige leeftijd (17 tot 23% verklaarde variantie) en op
8-jarige leeftijd (60% verklaarde variantie, ondanks de opname van de LQ.-score op 6-jarige leeftijd in
de vergelijking) (blz. 193-195). Deze conclusie is, ondanks zijn negatief karakter, opvallend.
Het belang van milieu- en gezinskenmerken voor de intellectuele ontwikkeling, dat vele (buitenlandse)
auteurs wetenschappelijk bewezen achten, wordt door dit onderzoek niet bewezen. Er zijn wel rede-
nen aan te geven waarom de resultaten van dit onderzoek zo tegen vaUen: de uitval van het panel, het
niet-corrigeren voor onbetrouwbaarheid, het gebruik van attitude-meting als substituut voor gedrags-
meting en het op één continuum plaatsen van ver.schUIende sociale milieus of klassen. Al deze redenen
nemen echter niet weg dat uiteindelijk slechts weinig variantie in de intelligentiescores zal worden
verklaard. Er is daarom behoefte aan een theoretische herbezinning op de betekenis van 'verklaarde
variantie'.

Wanneer kan men zeggen dat een aantal onafhankelijke variabelen voldoende variantie verklaren? In de
discussie rond Jencks' Inequahty (1972) is dit de 'geluk'-verklaring van de onverklaarde variantie. Moet
en kan de verklaarde variantie echter in alle gevallen hoog zijn? Men mag verwachten dat de verklaarde
variantie in bepaalde gevallen niet hoog kan worden. De mogelijkheden van handelende personen om
relatief autonoom vorm en richting te geven aan bepaalde situaties en processen, kunnen sterk verschil-
len, afhankelijk van de mate van opgelegde structurering van deze situaties en processen. In sterk
gestructureerde processen en situaties zullen de varianties van de afhankelijke variabelen hoger kunnen
zijn dan in weinig gestructureerde. Gezinsopvoeding en de vroege intelligentie-ontwikkeling kunnen
voorbeelden zijn van weinig gestructureerde situaties. De schoolse socialisatie en de latere intelligentie-
ontwikkehng zijn daarentegen voorbeelden van sterk gestructureerde processen.

Gezien de thans bereikte resultaten moet thans gestart worden met een ander type onderzoek. Kwali-
tatief onderzoek, op basis van de differentiethese, kan de invloeden van het gezin op de intellectuele
ontwikkeling wellicht beter begrijpen en verklaren dan kwantitatief onderzoek op basis van de defi-
ciè'nticthese. Een studie van Labov (1972) kan hierbij als voorbeeld dienen. Onderzoeksvoorstellen in
deze richting moeten de nodige aandacht ktijgen.

De studie van Meynen kan beschouwd worden als een voortzetting van het 'Verborgen Talentproject'
van Van Heek e.a. (1968). Ook nieuwe buitenlandse inzichten worden door Meynen met behulp van
zijn data opnieuw onderzocht. Men kan hem verwijten dat hij daardoor geen 'nieuwe' resultaten
presenteert. Dit verwijt lijkt mij niet terecht. Meynen onderzocht de invloed van gezinskenmerken op
de intellectuele prestaties bij het begin van het lager onderwijs. Dit komt bij Van Heek e.a. niet
uitvoerig aan de orde. Zij concentreerden zich vooral op de overgang lager- middelbaar onderwijs.
Meynens resultaten kunnen dan ook als aanvulling beschouwd worden. Ook is het noodzakelijk na te
gaan of buitenlandse onderzoeksresultaten opgaan voor de Nederlandse situatie. Vaak worden ze

zonder nader onderzoek ten onrechte geldig verklaard voor de Nederlandse situatie. Een goed voor-
beeld daarvan is het reeds genoemde boek van Jencks (zie de Jong en Dronkers, 1977). Meynen voegt
daar een ander voorbeeld aan toe. Het effect van socialiscringsprocessen op de ontwikkeUng van
intellectuele vaardigheden bleek, gelet op de buitenlandse onderzoeksresultaten, teleurstellend. Het
nauwgezet repliceren en controleren van deze resultaten is de grootste verdienste van Meynens studie.
Zijn resultaten zijn een waarschuwing voor snelle citeerders.

Regelmatig wordt in dit boek vermeld dat bepaalde interessante aspecten niet nader onderzocht
konden worden, omdat de universitaire financiële middelen dit niet toestonden. Gezien de hoge
kwaliteit van dit onderzoek en de relatief grote stroom onderzoeksgeld voor para-univer.sitairo institu-
ten, is dit geldgebrek een testimonium paupertatis van het subsidiebeleid ten liehoeve van het universi-
taire onderwijs-onderzoek van S.V.0.

Dronkers, J. Studiebijeenkomst over Maatschappelijke achtergronden van intellectuele ontwikkeling,

SlSWO-studiebijcenkomsten Onderwijssociologie nr. 6, 1977.
Heek, K. van, e.a. Het verborgen talent, Meppel: Boom, 1968.

Jencks, C., e.a. Inequality. A reassessment of the effect of family and schooling in America. New
York: Basic Books, 1972.

Jong, U. de, en Dronkers, J. Een verslag van een studiebijeenkomst over Inequahty, SlSWO-studie-

bijeenkomsten Onderwijssociologie nr. 2, 1977.
Labov, W., iMnguage in the Inner City, studies in the black-english vernacular. Philadelphia: University
of Pennsylvania Press, 1972.

een onderzoek uitgevoerd voor het Frans ten behoeve van het schoolonderzoek moderne
vreemde talen

Met dit proefschrift van Nienhuis, dat verschenen is in de SVO-dissertatiereeks, een onderdeel uit het
SVO-publikatiebeleid dat inmiddels zijn bestaansrecht verworven lijkt te hebben, is een belangrijke
bouwsteen toegevoegd aan het al bestaande instrumentarium voor het toetsen van taalvaardigheid.
Inventarisaties van het onderzoek op het terrein van het vreemde-talenonderwijs hebben geleerd dat de
konstruktie van toetsen een belangrijke plaats inneemt in het speurwerk dat op dit gebied verricht
wordt.

Het proefschrift van Nienhuis is het verslag van een onderzoek, dat naar opzet en uitvoering aan
professionele maatstaven voldoet en dat bovendien een hoge praktijk relevantie bezit. Ook de kompak-
te wijze van rapporteren verdient waardering. ••

De aanleiding tot het onderzoek waarvoor in 1973/'74 al voorstudies werden verricht, was en is
gelegen in het feit dat in het Eindexamenbesluit mavo-havo-vwo een eigen plaats is ingeruimd voor
spreekvaardigheid als onderdeel van het schoolonderzoek.

Een operationele omschrijving van wat met spreekvaardigheid wordt bedoeld, ontbreekt. Als gevolg
van deze lacune zijn in de praktijk van het schoolonderzoek tal van varianten voor het toetsen van
spreekvaardigheid tot ontwikkeling gekomen. Uit de verslagen van het schoolonderzoek blijkt niet 'wat
de leerhng moet presteren om een voldoende te behalen, waarschijnlijk is dit een kwestie van ervaring
of van intuitie' (p. 10).

Doel van het onderzoek (Van Nienhuis is 'gegevens te verkrijgen op grond waarvan aanbevelingen
kunnen worden gedaan voor het toetsen van spreekvaardigheid in een moderne vreemde taal' (p. 1).

Een van de eerste problemen waarmee de auteur werd gekonfronteerd was de omschrijving van de term
spreekvaardigheid. Terecht ons inziens is niet gekozen voor een definitie in termen van taalelementen

- grammatica, vocabulaire, uitspraak e.d. - maar voor een situationele omschrijving: 'het op zodanige
v;ijze mondeling beheersen van de vreemde taal dat in die taal informatie kan worden overgebracht,
waarbij geen specifieke kennis, anders dan van die taal en van de eigen situatie en onmiddellijke
maatschappelijke omgeving, wordt verondersteld, en waarvoor geen specialistisch taalgebruik is vereist,
in gesprekken die gevoerd worden met één persoon en waarbij luistervaardigheid geen rol van betekenis
speelt, over onderwerpen die aanleiding geven tot meer konkreet taalgebruik (havo) of meer abstrakt
(vwo) taalgebruik (p. 21).

Uitgaande van deze definitie heeft de auteur een uitvoerige rondgang gemaakt in de hteratuur, op zoek
naar aanwijzingen voor het toetsen van spreekvaardigheid (hoofdstuk 2). Voor het betrouwbaar toet-
sen van spreekvaardigheid blijken globale, direkte tests de beste mogelijkheden te bieden.
Nadat eenmaal gekozen was voor de globale, direkte benaderingswijze, is uitgebreid geïnventariseerd op
welke wijze de betrouwbaarheid van open-end-tests kan worden opgevijzeld. Deze excursie op het
terrein van de betrouwbaarheidstheorie en het betrouwbaarheidsonderzoek levert soms verrassende
resultaten op. Wat te denken van de op onderzoek gebaseerde konklusie dat beoordelingsschalen voor
spreekvaardigheid beter uit een even aantal klassen kunnen bestaan dan uit het gebruikelijke oneven
aantal?

Hoofdstuk 3 gaat over de opzet van het onderzoek en de konstruktie van de tests. Als critcriumtest,
die zo veel mogelijk geënt is op de eerder gegeven omschrijving van spreekvaardigheid, is gekozen voor
een 'interviewgesprek waarbij steeds dezelfde gespreksleidster aan elk van de leerlingen een aantal
vragen stelt: deze vragen zijn dezelfde voor alle leerlingen; alle antwoorden worden op de band
opgenomen en door meerdere onafhankelijke van elkaar werkende beoordelaars beoordeeld' (p. 77).
Tegenover deze criteriumtest werden de volgende tests geplaatst:

- test la. Deze test komt overeen met de gangbare praktijk op het schoolonderzoek, waarbij de
leerling een tekst inziet, de inhoud samenvat, vragen over de tekst beantwoordt, alsmede vragen
naar aanleiding van het in de tekst behandelde onderwerp;

- test Ib. Naar opzet is deze test gelijk aan test la, maar de beoordeling vindt niet globaal, maar
analytisch plaats; uitspraak, zinsbouw e.d. worden afzonderlijk beoordeeld.

- test 2a. De leerlingen krijgen een reeks plaatjes - visuele stimuli - voorgelegd die een bepaald
verhaal uitbeelden. Over deze plaatjes worden vragen gesteld waarbij de beoordelaar beschikt over
modelantwoorden;

- test 2b. De leerlingen krijgen vragen voorgelegd, terwijl tegelijk erbij woorden of woordgroepen
worden aangeboden die de inhoud van het te geven antwoord voorstruktureren.

Alle tests werden met grote nauwkeurigheid ontwikkeld en beproefd in een vooronderzoek. Het eigen-
lijke onderzoek is afgenomen bij telkens 91 examenleerlingen van havo en vwo (hoofdstuk 4). Zoals
verwacht korreleerden - zonder korrekties - test 2a en 2b het hoogste met de criterium score (± 0.80).
Test la en Ib bleven hier met 0.70 bij achter. Met behulp van multiple-regressie-analyse (blz. 129,
169) is geprobeerd te achterhalen welke van de analytische elementen - grammatica, uitspraak, e.d. -
volgens de beoordelaars het belangrijkst is voor de criteriumscore. Hierbij wordt gekeken naar de
regressiegewichten, terwijl aan de korrelaties van de predictoren met de regressievariabele geen aan-
dacht wordt besteed. Afgezien van deze werkwijze zijn de andere analyses voor het bepalen van
validiteit en betrouwbaarheid op een verantwoordé wijze uitgevoerd. Bij de betrouwbaarheidsanalyses
bleken zich test 2a en 2b gunstig te onderscheiden van de testvormen la en Ib: de alpha-coëfficiënten
bedroegen respektievelijk ± 0.90 en 0.70.

Het plaatsen van inhoudelijke kanttekeningen bij de publikatie van Nienhuis ligt buiten onze kompe-
tentie. Wel zouden we enkele vragen willen stellen. Naar de mening van de auteur korrespondeert de
door hem gegeven definitie van spreekvaardigheid met de belangrijkste vorm van spreekvaardigheid.
Wat wordt hier met belangrijkste bedoeld? Gaat het om de meest voorkomende vorm van spreekvaar-
digheid? Gaat het om de meest natuurlijke vorm van spreekvaardigheid? Gaat het om die vorm van
spreekvaardigheid die ten grondslag ligt aan andere vormen?

Een tweede vraag heeft betrekking op de gevolgen van het voorstel van Nienhuis om de testvormen 2a
en b te introduceren in het scholenonderzoek. Is het gevaar niet reëel dat het door Nienhuis gesigna-
leerde terugslageffekt - anticiperen in het onderwijs op de testvorm van het eindexamen - gaat
optreden? Een derde vraag die al langer bij ons leeft en die door de publikatie van Nienhuis nog eens is
toegespitst, houdt verband met de aanwezigheid van spreekvaardigheid in het eindexamenprogramma
voor tal van schooltypen. In verschillende eindexamenbesluiten wordt spreekvaardigheid genoemd
zonder dat enigszins omlijnd is wat hiermee wordt bedoeld. Voor de andere vaardigheden geldt mutatis
mutandis hetzelfde. Wordt het niet hoog tijd dat deze eindtermen van het vreemde-talenonderwijs
strakker worden omschreven?

Geprogrammeerde Instructie of Tekst + Vragen? Gïonmgin-. Wolters-Noordhoff, 1977 (=
Empirische Studies over Onderwijs, no. 25).

Buis, P. Het functioneren van terugkoppeling in het wetenschappelijk onderwijs: twee voorafgaande
voorwaarden. Proefschrift, Universiteit van Amsterdam, 1978.

Kobus, J.A. Verslag van de kursus Educational Technology in Higher Education gehouden van 13
maart - 1 april 1977 te Newcastle upon Tyne. Onderwijskundig Centrum CDO/AVC, Technische
Hogeschool Twente, no. 34, 1977.

Leeuw, L. de. Multipele regressie analyse - Een alternatief voor variantie analyse. Voor- en nadelen
van beide methoden, in het bijzonder m.b.t. de problematiek der veranderingsscores en aptitude-
treatment interaktie onderzoek. (Als bijlagen zijn toegevoegd twee voor de PDP-12 geschreven
Fortran-programma's, ter berekening van differentatiatiegebieden voor ATI in geval van twee treat-
ments, één kriterium en één resp. twee predictorvariabelen). Amsterdam: Vrije Universiteit, Sub-
faculteit Psychologie, Vakgroep Functieleer en Methodenleer, 1977.

Mettes, C.T.C.W., Pilot, A., Roosink, H.J. Het leren oplossen van problemen in de thermodynamika.
Derde tussentijds verslag. Onderwijskundig Centrum CDO/AVC, Technische Hogeschool Twente,
no. 36, 1977.

De voortgezette beroepsopleiding in Frankrijk. Beroepsopleiding, Informatieblad, Commissie van de
Europese Gemeenschappen, Supplement, 1977.

Smuling, E.B. Diadetraining 'Geven van hoorcolleges'. Onderwijskundig Centrum CDO/AVC, Tech-
nische Hogeschool Twente, no. 35, 1977.

Wit, O. de. Begeleiding en begeleidingseffekten in de eerste twee leerjaren van het lager onderwijs.
Enschedese onderzoekingen. Amsterdam, 1977.

Vakgroep Methodenleer, Psychologisch Laboratorium van de Universiteit van Amsterdam

A Personalized System of Instruction for Introductory Statistics (PSl) was constructed and
presented to a selected group of psychology students (A'^ = 41). The PSI-course consisted of six
learning units. The unit mastery performance standard was at least nine out of ten Two-choice
items correct. Three parallel tests made repeated testing possible. Within a period of six months
there were 24 weekly opportunities for testing.

Achievement, amount of study time used, and opinions on instruction of mastery-taught stu-
dents were contrasted with comparable data of a group of traditionally taught and examined
students (N = 33). Both groups used a study guide and could attend a series of 18 lectures.
More PSI students reached the course requirements and their achievement level determined by
two traditional examinations was comparable to that of the nonmastery-taught students. The
PSl students needed more time to prepare their examinations. In general they spread their
preparations over the complete period of six months, whereas the nonmastery-taught students
intensified their preparations just before the examinations. PSl students reacted more favour-
ably to their experiences than did the nonmastery group of students.

Interpretation of the results is somewhat vitiated by the quasi-experimental design and the
consequent lack of experimental control.

In 1975 is aan de subfaculteit Psychologie van de Universiteit van Amsterdam gestart met
de ontwikkehng van een Individueel Studie Systeem Statistiek (ISS-Statistiek) voor
eerstejaars psychologie-studenten. In het cursusjaar 1975/76 is als eerste stap in deze
ontwikkeling de studiestof voor het propedeutische vak statistiek in een eenheden-struk-
tuur (15 eenheden) aangeboden aan een kleine groep eerstejaars. Bij de behandeling van
elk van de 15 eenheden kregen deze studenten een deel van de studiehandleiding. Deze
groep studenten noemen we in dit artikel de Tentamengroep. In het cursusjaar 1976/77 is
het propedeutische vak statistiek in een ISS-vorm gepresenteerd; wederom aan een be-
perkt aantal eerstejaars. Deze groep noemen we de ISS-groep. De deelnemende studenten
van beide jaren hadden zich opgegeven voor extra begeleidend onderwijs bij de bestude-
ring van de statistiekstof. Beide groepen zijn onderwerp geweest van naar opzet en uitvoe-
ring vergelijkbaar evaluatief onderzoek. Het belangrijkste verschil in de behandehng van
beide groepen is gelegen in de wijze van toetsing en de daarmee verbonden terugkoppeling
op de leerresultaten. Voor de Tentamen-groep gold het vigerende tentamen systeem; voor
de ISS-groep het ISS-toetsysteem.

In dit artikel worden de resultaten van beide groepen studenten naast elkaar gezet, ten-
einde een voorlopige indruk te krijgen van de effectiviteit van een Individueel Studie
Systeem.

1 We zeggen dank aan drs. P. Rathod voor de verwerking van een deel van dc gegevens en aan dr.
Joh. Hoogstraten voor zijn kommentaar bij eerdere versies van het verslag.

Volgens verscliillende auteurs (Block & Burns, 1976; Bloom, 1976; Plomp, 1974; Ver-
reck, 1973; e.a.) kan verwacht worden dat in een individueel Studie Systeem vergeleken
met 'andere' onderwijsvormen:

— de studieresultaten, in termen van het percentage geslaagden en de scores op leer- en
retentiematen, tenminste zo goed zijn als bij andere onderwijsvormen, maar veelal
beter;

— studenten achteraf menen meer tijd te hebben besteed aan de stof en meer kennis en
begrip van het betreffende onderwerp te hebben verkregen;

— studenten gunstig oordelen over de individualisering naar tijd en tempo, de opbouw
van de stof, de inhoud van de studiestof zelf, de wijze waarop de toetsing is geregeld,
het informele contact met assistenten en docenten; kortom: studenten kiezen zo mo-
gelijk eenzelfde opzet voor andere vakken;

— begeleidend onderwijs voornamelijk in het begin een belangrijke stimulans tot studeren
betekent;

— het percentage uitvallers moeilijk valt te voorspellen; soms worden méér, soms minder
uitvallers gemeld in de vergelijkingen met andere onderwijsvormen.

In het wetenschappelijk onderwijs wordt bij docenten en studenten soms de opinie ge-
hoord dat een ISS te schools zou zijn, gericht op het aanleren van eenvoudige, weinig
intellectuele vaardigheden en te weinig selectief zou zijn.

In het hier te beschrijven onderzoek naar de effectiviteit van een ISS wordt voornamelijk
aandacht besteed aan de onderwijsresultaten van beide groepen, de tijdbesteding van
studenten en hun opinies omtrent belangrijk geachte aspekten van het onderwijs. De
pretenties van de vergelijkende analyse zijn echter beperkt omdat de opzet en uitvoering
van het evaluatieve onderzoek in deze ontwikkelingsfase ondergeschikt is gebleven aan de
'ambachtelijke' doelstelhng: constructie van een ISS-Statistiek.

De propedeuse psychologie aan de Universiteit van Amsterdam bestaat uit zeven onder-
delen, waarvan Statistiek er één is. Het onderwijs in de statistiek wordt gegeven aan de
hand van het boek van Spitz (1971). Toetsing vindt plaats met behulp van twee tenta-
mens, tentamen A en B genoemd. Het A-tentamen heeft betrekking op de eerste acht
hoofdstukken van het boek en bestaat uit twintig vierkeuze-items, het B-tentamen heeft
betrekking op het hele boek en bestaat uit ± vijf vraagstukken. De score voor het A-tenta-
men is het aantal goed beantwoorde items, voor het B-tentamen kan men een score tussen
O en 20 behalen. De uiteindehjke score (X) voor het onderdeel statistiek is een gewogen
som van de scores op A- en B-tentamen: X = A + B. Deze score wordt geïnterpreteerd
als ware het de score op een toets van dertig vierkeuze-items. In het propedeusesysteem
wordt een score van 21 of hoger als voldoende gekenmerkt. Een score hoger dan 16 en
lager dan 21 kan gecompenseerd worden met een hoge score op een ander propedeuse
onderdeel, zolang de totaalscore voor de zeven onderdelen een bepaald minimum bereikt.
Een score van 16 of lager is een niet te compenseren onvoldoende.
De beide statistiektentamens worden elk drie keer afgenomen; de eerste gelegenheid is in
januari/februari, de tweede in april, en de derde (de officiële herkansing) in juni. Men mag

pas een B-tentamen afleggen indien men een A-tentamen heeft gedaan. Een groot aantal
psychologiestudenten doet in januari het A-tentamen, in april het B-tentamen en gebruikt
eventueel de herkansing om één van beide tentamens over te doen. Deze strategie sluit aan
bij het tempo waarin het onderwijs (theorie- en werk-college) wordt gegeven; in januari is
de A-tentamenstof behandeld, in april het hele boek. Half november, ± twee maanden
nadat de colleges zijn begonnen, worden gewoonlijk werkgroepjes gevormd voor studen-
ten die moeilijkheden met de stof ervaren.

Beide groepen studenten die zich in 1975/76 en in 1976/77 aanmelden voor de werk-
groepjes, kregen de stof in afzonderlijke leertaken aangeboden. De bespreking van de stof
was gefaseerd in één leertaak of eenheid per week. Na de bespreking van een eenheid
diende deze door de studenten bestudeerd te worden en konden de daaropvolgende
zitting van de werkgroep (één week later) vragen over de betreffende eenheid gesteld
worden. Tijdens het tweede uur van de zitting werd dan de stof van de volgende eenheid
besproken; enzovoort. Bij de bestudering van de stof per eenheid kon gebruik gemaakt
worden van een studiehandleiding. In 1975/76 werd deze handleiding tijdens de bespre-
king van de eenheid uitgedeeld; in 1976/77 werd de handleiding in zijn geheel bij de
inschrijving verstrekt. In beide jaren werden 18 bijeenkomsten gehouden c.q. colleges
gegeven. Het ondersteunend onderwijs was in beide jaren in grote lijnen vergelijkbaar. Het
belangrijkste verschil tussen beide groepen betrof de wijze van toetsing van kennis en
begrip van statistiek. De studenten van de Tentamengroep Statistiek 1975/76 dienden de
beide statistiek tentamens af te leggen en/of van de herkansingsmogelijkheid gebruik te
maken. De studenten van de ISS-statistiek 1975/76 dienden zes toetsblokken te door-
lopen. In deze groep werd de toetsing geïntegreerd in het leerproces. Hiermee werd
beoogd een meer stringente controle over en besturing van het onderwijs-leerproces bij de
individuele studenten te bewerkstelligen. Elk toetsblok van het ISS omvatte een deel van
de stof en elke toets bestond uit tien tweekeuzevragen, waarvan er tenminste negen goed
beantwoord moesten worden om toegang te krijgen tot de volgende bloktoets. Bijna elke
week in een periode van 26 weken was er gelegenheid een toets af te leggen. Direkt na het
inleveren van de antwoorden op de tien vragen ontving de student per computer terug-
koppeUng in de vorm van het aantal goed beantwoorde vragen en de onderwerpen van de
onjuist beantwoorde vragen. Deze laatste vorm van terugkoppeling hield dus het advies in
wat van de stof nogmaals bestudeerd moest worden, indien meer dan één van de tien
vragen fout beantwoord was. Had men meer dan drie toetspogingen per blok nodig om dit
criterium te bereiken, dan werd de toetsing en terugkoppeling door de docent zelf ter
hand genomen, tot volledige beheersing van de stof door de student werd bereikt. Men
was geslaagd voor het propedeuse-onderdeel statistiek indien men uiterlijk 29 april 1977
voor het laatste blok was geslaagd. De score (tussen de 21 en de 30) was afhankelijk van
het totaal aantal toetspogingen dat men had ondernomen. Wie op genoemde datum nog
niet voor het laatste blok was geslaagd moest in de normale herkansing aan het A en
B-tentamen meedoen; wie op die datum niet voor het laatste, maar wel voor het één na
laatste blok was geslaagd ontving een score van 16 voor het A-tentamen en moest in de
herkansing het B-tentamen afleggen.

Verder moet opgemerkt worden dat de docent in beide jaren een structurerende, samen-
vattende taak had tijdens behandehng van de stof en een uitleggende, het leerproces

ondersteunende rol bij de bespreking van de vragen over de bestudeerde eenheid. Gedu-
rende het ISS in 1976/77 werden de adviserende en ondersteunende activiteiten versterkt
door het invoeren van extra spreekuren van twee docenten, waarvan op ruime schaal
gebruik werd gemaakt.

De groep studenten in 1976/77 heeft een onderwijs-leerproces gevolgd dat o.i. voldoet
aan het basispatroon van het ISS (zie bijvoorbeeld Van der Klauw en Plomp, 1973): (1)
individualisering naar tempo en tijd, (2) systematische terugkoppeling, (3) verdeling van
de leerstof in geordende eenheden, (4) voortgang van de ene naar dc volgende eenheid,
indien de voorgaande wordt beheerst, (5) studie materiaal geschikt voor zelfstudie, (6)
automatisering van het systeem en (7) een meer het leerprocesondersteunende taak van de
docent. In 1975/76 waren deze elementen - op (3) na - niet of nauwelijks aanwezig.

Er werden drie evaluatieve variabelen onderscheiden: onderwijsresultaten, opinies en tijd-
besteding.

De onderwijsresultaten werden bepaald aan de hand van de percentages geslaagden en de
prestaties op de gebruikelijke A- en B-tentamens statistiek. De groep 1975/76 legde deze
tentamens uiteraard op normale wijze af in de maand april aan het einde van de cursus.
Deelnemers aan de groep 1976/77 werden door de docent verzocht deze tentamens te
maken, en wel een A-tentamen (hetzelfde als dat van de groep 1975/76) nadat ze voor het
vijfde toetsblok waren geslaagd, en een B-tentamen (een parallelversie van het B-tentamen
uit april 1976) nadat ze voor het zesde blok waren geslaagd. De docent motiveerde het
verzoek door te vermelden dat hij een indruk wilde krijgen van de prestaties op een
gewoon A- respectievelijk B-tentamen om daarme iets te weten te komen omtrent de
effectiviteit van het ISS.

Een indruk van de tijdbesteding van de studenten werd verkregen uit de door de student
dagelijks ingevulde lijstjes, waarop aangegeven moest worden hoeveel uur per dag werd
besteed aan statistiek (opgesphtst in theorie bestuderen en sommen maken) en aan de
andere propedeutische vakken.

Opinies over de onderscheiden eenheden, en bij de groep 1976/77 over de onderscheiden
toetsblokken, werden ook uit vragenlijstjes verkregen. Aan het eind van de cursus werd in
een afsluitende en uitgebreide vragenlijst geïnformeerd naar diverse aspecten van het
onderwijsleerproces. Aan de orde kwamen o.a. studiem^ethodiek, gevolgde onderwijs,
wijze van toetsing, mate van beheersing van de stof en de houding ten aanzien van de
studiestof De vragen zijn voor een belangrijk deel ontleend aan eerdere onderzoekingen
op dit gebied (Van Rookhuijzen & Koopman, 1973; Van Hees & Koopman, 1975).

Over het algemeen zijn in de werkgroepjes statistiek studenten met een A/a-opleiding, en
studenten die via een colloquium doctum tot de studie zijn toegelaten, sterk oververtegen-
woordigd. In de Tentamengroep 1975/76 (n = 33) bleek zelfs niemand een B/j3-oplei-
ding te bezitten. Van de 47 studenten die terecht kwamen in de ISS-groep 1976/77

bleken er zes ook al in de Tentamengroep 1975/76 gezeten te hebben. De resultaten van
deze personen zijn niet in onze analyse opgenomen. Van de 41 overigen hadden er 16 een
B/j3-opleiding: hun resultaten zullen steeds apart van die van de 25 overigen worden
vermeld. Tabel 1 geeft een overzicht van de samenstelling van de groepen waarbij de
aantallen mannelijke en vrouwelijke studenten met een B//3-opleiding tussen haken zijn
vermeld en niet in de percentages zijn opgenomen.

Zoals uit de percentages blijkt, verschillen de groepen studenten, waarvan de gegevens in
de navolgende tabellen direct met elkaar worden vergeleken, enigszins in vooropleiding.

In tabel 2 staat vermeld: de percentages studen,ten die deelname aan de cursus voortijdig
beëindigden (uitvallers); de percentages studenten die eind april een voldoende prestatie
(een score van 21 of hoger voor A + B tentamen, respectievelijk voor alle zes toetsblokken
geslaagd) hadden geleverd; en de percentages studenten die op die datum een onvol-
doende prestatie hadden geleverd (een score van 20 of lager, resp. niet alle toetsblokken
dooriopen).

De resultaten zoals weergegeven in de tabellen 2 en 3 tonen aan dat van de ISS-groep in

ieder geval meer studenten zijn geslaagd dan van de Tentamengroep 1975/76^. Het gemid-

2 Van de 25 ISS-deelncmers hebben twee in het geheel niet aan de toetsing deelgenomen (8% uitval-
lers), vijf van de zeven studenten met 'onvoldoende prestatie' hebben één, hooguit twee toetsblokken
doorlopen. Men kan de gegevens van de ISS-groep op een andere wijze dan in tabel 2 is gebeurd
weergeven: 28% uitgevallen (7 studenten: 2 zonder toetsresultaten en 5 die ten hoogste twee toets-
blokken hebben doorlopen), 8% met onvoldoende resultaat (2 studenten, die binnen de cursusperiode
vijf i.p.v. zes toetsblokken hadden doorlopen) en 64% met voldoende resultaat.

Resultaten van de groepen 1975/76 en 1916171 op de A- en B-tentamens statistiek.

deld niveau van de ISS-groep op A- en B-tentamen ligt iets boven dat van de tentamen-
groep 1975/76: interpretatie van deze vergelijking wordt uiteraard bemoeilijkt door het
feit dat niet alle ISS deelnemers zo'n tentamen hebben willen of kunnen afleggen. Uit de
resultaten wordt verder duidelijk dat studenten met een B//3-opleiding in het ISS uitste-
kend presteren.

Van de 23 deelnemers aan de Tentamengroep 1975/76 die in april A- en B-tentamen
aflegden hebben er 21 aan het tijdbestedingsonderzoek meegedaan; van de 33 studenten
in de ISS-groep die alle toetsbloÜcen doorliepen heeft er één niet meegedaan. In tabel 4
staat het gemiddeld aantal uren per week besteed aan statistiek-theorie, statistiek-sommen
maken, en bestudering van overige vakken samengevat.

Opvallend is dat de studenten in de ISS-groep (de B//3 mensen duidehjk uitgezonderd)
over de hele linie wat meer tijd aan hun studie - dus ook aan andere vakken dan statistiek
- hebben besteed dan de deelnemers aan de Tentamengroep 1975/76; waaruit afgeleid
kan worden dat het ISS op zich waarschijnlijk niet tot grotere tijdbesteding heeft geleid.
Wat de verdeUng van de studietijd over het studiejaar betreft zijn er interessante verschil-
len. Deelnemers aan de Tentamengroep 1975/76 besteedden duidelijk de meeste tijd m

Onderzoeksgroep

Tentamengroep 75/76
(n = 21)

ISS-groep 76/77
(n=17)

ISS-groep 76/77
(B/P groep; n= 15)

Tijdbesteding van studenten van de Tentamengroep Statistiek 1975/76 en van het ISS-Statistiek
1976/77

april, gedurende de weken vlak voor de tentamens. Bij de ISS-groep was de studietijd
meer over het jaar gespreid, met uitschieters in de periodes onmiddeUijk na tentamens
over andere propedeutische vakken dan stadstiek. Dat neemt niet weg dat veel studenten
in het ISS toch in tijdnood kwamen, en binnen relatief korte tijd in april nog over twee
blokken een toets moesten afleggen. De indruk bestaat dat een aantal deelnemers aan het
ISS niet in staat is geweest optimaal van de individualisering naar studietijd en -tempo te
profiteren.

Uit de responsen op de eindvragenlijsten van beide onderzoeksgroepen bleek op vrijwel
alle punten tevredenheid over het gegeven onderwijs. Véél opvallende verschillen tussen
de groepen zijn dus niet aanwezig. Bij vergelijking van de antwoorden van beide groepen
bleken de studenten van het ISS:

- het tempo van leren nog minder in gelijke tred te kunnen houden met de behandehng
van de leerstof (dan de groep in 1975/76);

- vaker te menen dat zij de studietijden en het -tempo zelf konden bepalen; hoewel dit
vaak afhing van het succes bij het afleggen van de toetsblokken;

- vaker te menen dat zij (aanzienlijk) méér tijd aan de bestudering van de stof hebben
besteed dan andere studenten en dat dit ten koste is gegaan van de voorbereiding op de
tentamens van andere propedeutische vakken;

- vaker en in sterkere mate op te geven dat zij voqr andere propedeutische vakken dan
statistiek regelmatig gewerkt hebben;

- minder ongunstig over statistiek te oordelen en vaker het nut van dit vak voor psycho-
logen te bevestigen.

Ten aanzien van de meningen over de wijze van toetsing bestaan vrij grote verschillen
tussen de groepen. Deelnemers aan de Tentamengroep 1975/76 vonden de toetsing (met
A- en B-tentamen) niet gunstig geregeld, en niet bijzonder stimuleren tot goede bestude-
ring van de stof; ze zouden liever meerdere toetsen over kleine delen van de stof afleggen.
Deelnemers aan het ISS, die dus zes toetsen moesten afleggen over kleine delen van de
stof, oordeelden positiever over de toetsingswijze: ze vonden de toetsing over het alge-
meen goed geregeld, en ook stimuleren tot grondige bestudering.

Het Ujkt er dus op dat het ISS, waar het de toetsing betreft, in belangrijke mate tegemoet
komt aan de wensen van de studenten. Daarbij moet evenwel opgemerkt worden dat er
toch een vrij groot aantal studenten in het ISS was dat de toetsingen, met name door het
vereiste hoge beheersingsniveau, met enige angst tegemoet zag. De diagnostisch bedoelde
aanwijzing dat het betreffende onderwerp nog verder moest worden bestudeerd werd
door de studenten toch als 'zakken' waargenomen, met alle emotionele consequenties van
dien. Ter iUustratie een schriftelijke verzuchting van een student:

'al die kapotte weekenden, de spanningen voor en tijdens de toetsen en de depres-
sies als je gezakt bent.'

De vergelijking van de resultaten van de Tentamengroep 1975/76 en de ISS-groep
1976/77 heeft samenvattend het volgende opgeleverd. Het percentage geslaagden lag in de

ISS-groep beduidend hoger dan bij de Tentamengroep. De studenten die in het ISS
geslaagd waren bleken eenzelfde kennis- en begripsniveau bereikt te hebben als de studen-
ten in de Tentamengroep. De studenten in het ISS besteedden meer tijd aan statistiek èn
aan andere vakken dan de studenten uit de Tentamengroep; bovendien spreidden ze de
werktijd aan statistiek meer uit over de gehele cursusperiode. Niettemin kwamen velen
aan het eind van de cursus in tijdnood. De studenten in het ISS beoordeelden de wijze
waarop de toetsing was geregeld over het algemeen positiever dan de studenten uit de
Tentamengroep. Als algemene conclusie kan gesteld worden dat de resultaten van de
vergelijkende analyse op het eerste gezicht niet ongunstig zijn voor het ISS. Met betrek-
kmg tot de interpretatie van de gegevens moeten nog enkele kanttekeningen gemaakt
worden.

Uit de gegevens van de studentenadministratie van de Subfaculteit blijkt dat de prestaties
op de vroeg in het cursusjaar afgenomen tentamens in de psychologie-onderdelen van de
propedeuse in 1976/77 aanmerkelijk beter zijn dan in 1975/76; wat de oorzaak van dit
verschil ook mag zijn, het kan in ieder geval mede een verklaring zijn van het geringe
aantal uitvallers in het ISS 1976/77. Verder hebben niet alle ISS-deelnemers een A- en
B-tentamen afgelegd - het is niet onaannemelijk te veronderstellen dat vooral studenten
die het gevoel hadden de stof slecht te beheersen niet op het verzoek van de docent om
die tentamens te maken zijn ingegaan. Bij een nadere analyse van de gegevens van respon-
denten en nonrespondenten kon deze hypothese van selectieve uitval redelijkerwijs niet
uitgesloten worden. Heeft de hierboven gesuggereerde selectie van personen plaats gevon-
den dan zijn de gemiddelden van de ISS-groep in tabel 3 geflatteerd. Tenslotte bleek aan
het eind van de ISS cursus dat een onbekend gebleven aantal studenten in ieder geval bij
het zesde (laatste) toetsblok, en mogelijk ook bij het vijfde, een vorm van samenwerking
bereikt had die erop gericht was de inhoud van en de juiste antwoorden op de toetsitems
van die blokken te achterhalen. Zeker bij de laatste twee toetsgelegenheden waren de vragen
van beide toetsblokken aan veel deelnemers bekend. Dat bleek uit de merkwaardig korte
tijd die men nodig had om de toets te maken en de geringe mate waarin kladpapier werd
gebruikt. Direkte observatie van overleggende studenten in de koffiekamer en de belen-
dende café's bevestigde (te laat) de bange vermoedens. Tijdens een evaluatie-bijeenkomst
na afloop van de cursus werd een en ander niet door de betrokkenen ontkend. Exacte
gegevens ontbreken echter. Het is niettemin duidelijk dat tijdens de laatste toetsblokken
geen betrouwbare controle op beheersing van de stof mogelijk is geweest. De indruk
bestaat dat, indien de bedoelde controle wèl aanwezig zou zijn geweest, het percentage
geslaagden binnen de vastgestelde cursusperiode lager zou liggen dan het in tabel 2 ver-
melde gegeven. Eens te meer blijkt het noodzakelijk middels o.a. een groot aantal parallel-
items en allerlei administratieve maatregelen het bestand van toetsvragen te beschermen
tegen georganiseerde aanvallen van gebruikers.

Tenslotte willen we wat betreft het onderzoek naar de effectiviteit van het ISS het
volgende opmerken. Uit het gedetailleerd overzicht van Van Rookhuijzen, Plomp & Pilot
(1977) blijkt dat er in het nederlands wetenschappelijk onderwijs ruim 40 cursussen
volgens het ISS-principe zijn opgezet. De rapportage van evaluatief onderzoek blijft daar
echter ver bij achter; hetgeen zelfs een globale oordeelsvorming omtrent 'de bruikbaarheid
van ISS in het nederlandse wetenschappelijk onderwijs ernstig bemoeilijkt. De in Neder-
land uitgevoerde en gerapporteerde onderzoeken (Braak, 1974; dc Bruijne, 1976; Van
Hees & Koopman, 1975; Pilot, 1973;Plomp, 1974; Van Rookhuijzen & Koopman, 1973;
Verreck, 1973) hebben in belangrijke mate hun stempel gedrukt op de verdere ontwikke-
ling van het ISS in het wetenschappelijk onderwijs. Echter wal betreft het onderzoek -

voor zover er sprake was van groepsvergelijkingen - hebben de auteurs zich moeten
beperken tot wat Campbell & Stanley (1963) aanduiden met quasi-experimentele onder-
zoeksontwerpen. Verreck (1973, p. 25) en Plomp (1974, p. 189) wijzen er op dat de
meerderheid van de in de literatuur vermelde studies over ISS tekortkomingen in ontwerp
en controle vertonen. In een recent overzicht van ISS-studies van Block & Bums (1976)
blijken van de 24 bruikbaar geachte 'PSI cognitive studies' er slechts vijf een experimen-
teel ontwerp te hebben. Later wordt in dit overzicht gerapporteerd dat er bij drie van de
vijf experimenten onder ISS-condities méér proefpersonen de cursus voortijdig hebben
beëindigd dan onder de controle conditie het geval was. Omdat selectieve uitval van
proefpersonen in deze drie studies niet kan worden uitgesloten zijn de gerapporteerde
bevindingen onzeker. Het is van groot belang dat evaluatief onderzoek naar de relatieve
effectiviteit van Individuele Studie Systemen wordt uitgevoerd en gerapporteerd; in het
bijzonder goed gecontroleerd onderzoek met een experimenteel karakter. Dat aan deze
voor de hand liggende wens van onderzoekers van het wetenschappelijk onderwijs niet
licht voldaan wordt, blijkt wel uit het bovenstaande. Ook het hier besproken onderzoek
vertoont leemten in controle. Echter, de gegevens zijn in grote lijnen in overeenstemming
met die uit de betreffende literatuur en geeft daaraan op een bescheiden en geëigende
wijze steun.

Block, J.H. & Burns, R.B., Mastery learning. In: L.S. Shulman (eA), Review of Research in Education,
vol. 4, Itasca, 111.: Peacock, 1976, 3-49.

Bloom, B.S. Human Characteristics and School Leaming, New York: McGraw-Hill, 1976.

Braak, L.H. Geïndividualiseerde onderwijssystemen, konstruktie en besturing. Proefschrift, T.H.-Eind-
hoven, 1974.

Bruijne, H. de. Blokken in het Onderwijs, Proefschrift, Groningen: Tjeenk-Willink, 1976.

Campbell, D.T. & Stanley, J.C. Experimental and quasi-experimental designs for research on teaching.
In N.L. Gage (ed). Handbook of Research on Teaching. Chicago: Rand McNally, 1963.

Hees, E.J.W.M. van & Koopman, W.D., Evaluatieverslag Socstat 1973; evaluatie van de SPS-kursussen
Statistiek 1973 voor Sociologiestudenten aan de K.H.T. Rapport 3, Tilburg: Onderwijs Research
Centrum, Katholieke Hogeschool Tilburg, 1975.

Klauw, CF. van der & Plomp, Tj., Individuele Studiesystemen (ISS). In: W.M. van Woerden,
T.M. Chang & L.J.M. van Geuns-Wiegman, Onderwijs in de maak, Utrecht/Antwerpen: Aula, het
Spectrum, 1973.

Pilot, A. Enkele resultaten van het individueel studiesysteem materiaalkunde. Enschede: T.H. Twente,
CDO bulletin no. 8, 1973.

Plomp, Tj. De ontwikkeling van een Individueel Studie Systeem; Konstruktie en evaluatie van een
kursus wiskunde voor de propedeuse aan de Technische Hogeschool Twente. Proefschrift VUA.
Groningen: Tjeenk Willink, 1974.

Rookhuijzen, R.F. van & Koopman, W.D., EvaluatieverslagPsystat 72l73; Evaluatie van de SPS-kursus
Voor psychologiestudenten van de K.H.T. Rapport 1, Tilburg: Onderwijs Research Centrum.
Katholieke Hogeschool Tilburg, 1973.

Rookhuijzen, R.F. van. Plomp Tj. & Pilot, A. Individuele Studie Systemen in het tertiair onderwijs;
een overzicht. Groningen: OTO-cahiers, Wolters-Noordhoff, 1977.

Spitz, J.C. Statistiek voor psychologen, pedagogen en sociologen. Amsterdam-Brussel: Agon Elsevier,
1971.

Verreck, W.A. Individualisering in het wetenschappelijk technische onderwijs. Proefschrift, Eindhoven:
Technische Hogeschool Eindhoven, 1973.

Het Empirisch Onderscheidingsvermogen van
Twee Procedures in 'Restriction of Range'
(case 1)'

In a small sample situation a comparison was made between two procedures in a restriction of
range problem (case 1). The aim was to test H„ : p = 0. Comparison was focused on the
empirical power of the two procedures. Attention was also paid to the efficiency of the Pearson
estimator. When the population correlation is small, a t-test based on the complete observations
is preferable to the procedure suggested by Gullickson and Hopkins (1976).

'Restriction of range' is een veel voorkomend verschijnsel. Elshout (1977) verzucht:
'Restriction of range is a fact of life in educational psychology'.

Het gaat hier om het probleem waarin een proefpersoon twee tests gemaakt heeft, de
skores worden aangeduid met y (de criteriumvariabele) en x (de selector variabele). Ech-
ter de informatie op één variabele, zeg y, is alleen aanwezig voor x groter (of kleiner) dan
een gegeven Xq. Men spreekt hier van direkte selectie, ofwel 'case 1', in tegenstelling tot
indirekte selectie, ofwel 'case 2', waarbij die skores op de selectorvariabele x ontbreken,
waarvoor geldt dat x groter is dan een gegeven Xq . Twee zaken zijn in het geding: de vraag
of de populatie-correlatie coëfficiënt, p, al dan niet nul is en de schatting van p. Wat
betreft de toetsing is door GuUickson en Hopkins (1976) de volgende toetsingsgrootheid
voorgesteld:

Hierin is r^ de correlatie in de geselecteerde steekproef, R^ de schatter van p met behulp
van een correctie formule van Pearson:

waarin S de standaarddeviatie van x is in de complete steekproef s de standaarddeviatie
van X in de geselecteerde steekproef, N het totaal aantal waarnemingen en N-2 het aantal
vrijheidsgraden voor de toets.

Elshout, van Overbeek, Roe en Vijn (1979) doen in een commentaar op Gullickson en
Hopkins (1976) het voorstel de gebruikelijke t-toets te nemen:

De toetsmg geschiedt op n-2 vrijheidsgraden, met n gelijk aan het aantal complete waar-
nemingsparen. In de afleiding van deze toetsingsgrootheid behoeft er over de marginale
verdeUng van de x-skores geen aanname gemaakt te worden (Elshout et. al, 1979).
In de simulatie wordt de procedure van Gullickson, tg en in het vervolg G genoemd,
vergeleken met de meest conservatieve procedure tR, in het vervolg met K aangeduid.

Bij de toetsmg van Hq : p = O tegen H, : p q zijn twee besUssingen mogeUjk : Ho niet
verwerpen of Hq wel verwerpen. Er zijn dan twee soorten fouten mogeUjk : de fout van
de eerste en de fout van de tweede soort.

Het onderscheidingsvermogen van een toets is de kans op het terecht verwerpen van de
nuUiypothese, in de tabel: 1 - /3. Elstrodt en Mellenbergh (1978) wijzen op het belang
van het onderscheidingsvermogen bij het gebruik van statistische toetsingen. In een simu-
latie is de juiste hypothese, of Hq óf Hj bekend. Zo is voorp = O de nulhypothese waar
en voor p O de alternatieve. Trekt men. een aantal steekproeven (in de simulatie 200)
van paren (x, y) uit een populatie met gegeven p en toetst men op een nominaal signifi-
cantieniveau van a, dan is bij p = O de proportie (onjuiste) verwerpingen van Hq het
empirisch significantieniveau. Voor p kan voor elke p de proportie (terechte) verwer-
pingen van Ho bepaald worden. Zet men grafisch p uit tegen deze proportie dan ontstaat
de empirische onderscheidingskromme. De onderscheiding bij p = O is het empirisch
significatievermogen. De vraag naar de kwaUteit van de procedures G en K kan beant-
woord worden met behulp van deze onderscheidingskrommen: hoe groter het onder-
scheidingsvermogen of anders gezegd, hoe hoger de onderscheidingskromme Ugt des te
beter de procedure.
Aangezien S > s en N > n volgt dan:

hl de procedure G wordt er sneller verworpen dan in K, het valt daarom te verwach-
ten dat de empirische onderscheidingskromme van G 'hoger' ligt dan die van K. Naast

toetsing zal ook de correctieschatter Rc vergeleken worden met Tc op grond van twee
efficiëntiematen.

Hx = ßy = O, Ox = CTy = 1, waarbij p respectievelijk de waarde O, .1, .2, .3, .4, .5, .6, .7,
.8, .9 en .99 aanneemt.

2. Die y-waarden worden weggelaten, waarvoor geldt dat de bijbehorende x > Xq is. De
waarde van Xo wordt bepaald door de selectiegraad 1 - y, waarin de restrictiegraad 7
gedefinieerd is door:

3. Voor 7 wordt .1 en .5 genomen. De waarde .1 betekent dat 10% van het totale aantal
paren (x, y) alleen de x-skore bevat, wat als grote selectie beschouwd kan worden
(Gullickson en Hopkins, 1976). De waarde van .5 betekent strenge restrictie, ofwel
50% 'missing'. De steekproefgrootte N, kan de waarde 27 en 52 aannemen.

4. Toetsing van p = O vindt plaats op a = .05 en .01. Voor beide procedures G en K wordt
bijgehouden of de toetsing al dan niet significant was. Voor elke combinatie van p, 7
en N worden 200 steekproeven getrokken.

5. Voor gegeven p, 7 en N wordt geteld hoe vaak de nulhypothese verworpen wordt. Het
empirisch onderscheidingsvermogen voor een bepaalde waarde van p is het aantal
(juiste) verwerpingen gedeeld door 200.

J)aarnaast is speciale zorg besteed aan het simuleren zelf. Daartoe werd de gemiddelde
correlatie in de totale steekproef vergeleken met de populatie p. Het verschil was kleiner
dan 1%. Bovendien zullen (in de grafieken) ook de onderscheidingskrommen voor de
totale steekproeven vermeld worden. Zij zouden voor elke procedure als bovengrens
moeten fungeren.

Gullickson en Hopkins (1976) hebben zich met het onderscheidingsvermogen niet bezig
gehouden.

2. Bij zwakke restrictie 7 = .10 is het verschil klein, wat bovendien afneemt bij toene-
mende N. Dit geldt zowel voor a = .05 als bij a = .01.

3. Het verschil is substantieel bij kleine N en grote restrictie Voor N = 27, 7 = .50, a = .05
en p = .6 is dat verschil .655 - .285 = .37. Dat verschil wordt kleiner bij toenemende
N, zo is bij N = 52 het verlies door 'K' te gebruiken .27. Te anticiperen valt dat bij
steekproefgroottes, gangbaar in onderwijskundig onderzoek, zeg N ongeveer 100 en
bescheiden restrfctie dit verschil verdwijnt. Vergelijking met de onderscheidings-

2 In de tekst worden exacte simulatieresuhaten vermeld; er zijn dan kleine verschillen mogelijk met
de figuren. Daarin worden door een reeks punten de desbetreffende krommen getrokken.

kromme zonder restrictie (de gestippelde lijn) geeft een aanzienlijk verschil te zien, bij
N = 27, a = .05, van .265 voor 'G' en van .635 voor 'K'. Bij N = 52 is het verschil .135
voor 'G'. Bij een bescheiden correlatie, zeg p = .40, is het verschil voor 'G', met N = 52
en a = .05, gehjk aan .38. Ofwel, beide procedures vertonen geen rooskleurig beeld. Er
is dus alle reden nieuwe procedures te ontwikkelen die beter onderscheiden.

4. Verrassend is dat, voor alle kombinaties, er een mterval is, waar voor G de empirische
onderscheidingskromme bij sterke restrictie hoger ligt dan die bij zwakke restrictie en
dus ook hoger dan die bij geen restrictie De gewone t-toets vertoonde dit verschijnsel
niet, ze bhjft keurig onder de (gestippelde) kromme van het onderscheidingsvermogen
bij geen restrictie.^

3 Deze krommen zijn alleen in de figuren 1 en 2 vermeld; ze verlopen analoog in de figuren 3 en 4.

Zo is het betreffende interval bij 'G', N = 27, a = .05 gelijk aan (O, .35). De oorzaak
ligt aan het feit dat, bij 'G', het aantal vrijheidsgraden, N-2, konstant is voor elke
afknotting, terwijl in de gewone t-toets, 'K', het aantal vrijheidsgraden, n-2, afhankelijk
is van de restrictiegraad. We noteren r'^ als de schatting van de correlatie, gebruik
makend van de complete steekproef, bij 7 = .50, terwijl rc de schatting van p bij 7 =
.10 is. Een hoger onderscheidingsvermogen voor 7 = .50 ontstaat indien:

Dit kan zich (zoals uit de simulatie bleek) voordoen bij lage populatiecorrelatie. Wanneer
de correlatie toeneemt verdwijnt het 'snijeffect'; de onderscheidingskromme bij 7 = .50
komt keurig onder die van 7 = .10. Op grond van het grotere empirische significantie-
niveau en het 'snijeffect' zouden wij het gebruik van de procedure van Gullickson en
Hopkins (1976) niet willen aanbevelen.

Naast toetsing is zeker schatting van de popularie correlatie zinvol. In de procedure van
Gullickson en Hopkins (1976) wordt daartoe de correctie van Pearson gebruikt: Rc. In de
conservatieve procedure gebruiken we r^. Voor de restrictie wordt per simulatierun de

correlatie in de steekproef berekend: r (i), i = 1.....200. A'a restrictie worden dan r,. (i) en

Rc (i) berekend. De vergelijking van Rc en rc wordt gedaan aan de hand van een maat: de
relatieve efficiëntie, gedefinieerd als:
200 200

In deze 'absolute' maat wordt elke afwijking even zwaar geteld. Om de beslissing echter
niet aan één maat op te hangen wordt er ook een 'kwadratische' maat berekend genoteerd
als cok en cjq. In deze maat worden grote afwijkingen zwaarder (dan in de absolute
maat) geteld. Hiertoe worden in (8) en (9) de afwijkingen gekwadrateerd. Figuren 5, 6, 7
en 8 geven de resultaten voor een aantal combinaties.

Overduidelijk bUjkt hieruit dat de waardering van de schatter, rc of Rc, sterk afhangt van
de gebruikte maat. De absolute maat, r , waardeert beide schatters hoger dan de kwadra-
tische, co, en dit effect wordt sterker bij toenemende restrictie. Echter, in alle combina-
ties, blijkt dat de schatter van Pearson, R^, niet uniform beter is dan de gewone steek-
proef correlatie rc. Van Overbeek (1975) kwam op een wat andere wijze tot een soort-
gelijke conclusie. We zien dat voor 7= .1, O <p < .5 en N = 27 de rc het'beter' doet dan
Rc, onder beide operationalisaties van de maat.

Het verschijnsel trad ook bij grotere N (zie figuur 7 en 8), zowel voor 7 = .1 als bij 7 = .5.
De grenswaarde tendeerde dan richting nul. Indien de populatie correlatie laag is, zeg p
ongeveer .25, kan ré (de schatter van p bij een selectiegraad van .50) groter zijn dan rc,
wat bij grotere restrictie tot groter onderscheidingsvermogen leidde. We zien dan uit (8)
dat:

Ofwel, de relatieve efficiëntie bij 7 = .50, t'k, is kleiner dan die bij 7 = .10. Vergelijking
van de figuren 5 en 6, alsmede 7 en 8 maakt dat duidelijk. Omgekeerd volgt uit (9) dat bij
lage correlatie

waarin R'^ de correctieschatter van Pearson bij 7 = .50 is. Dit was de oorzaak van het
'snijeffect' in de empirische onderscheidingskrommen van de 'G' procedure. Bij lage corre-
latie en milde restrictie, zeg p = .2 en 7 = .1, bleek de 'winst' aan waardering voor 'K', tr

- cjk. door de absolute maat te gebruiken wat groter te zijn dan de 'winst' voor 'G'. Dit is
te begrijpen doordat (zoals uit de simulatie bleek) onder de Pearson schattingen er nogal
wat uitschieters waren, deze uitschieters worden in de kwadratische maat extra zwaar
geteld. In ieder geval kan men stellen dat de correctieschatter R,, alleen efficiënt is bij
hoge correlatie.

Al met al is het niet zo éénduidig twee procedures te vergelijken. Bij toetsing biedt een
gecorrigeerde toets enige voordelen, tenminste als we zouden weten dat p groot was, wat
meteen de toetsing overbodig maakt.

Bij flinke steekproefgrootte en bescheiden restrictie kunnen we net zo goed de gewone
t-toets gebruiken. Bij gebruik van deze toets komen we niet in de situatie dat we het
onderscheidingsvermogen drastisch kunnen verbeteren door veel waarnemingen weg te
gooien. Bovendien zit het empirische significantieniveau dichter tegen het nominale ni-
veau. Wel is er op grond van het bescheiden onderscheidingsvermogen, alle ruimte voor
het ontwikkelen van nieuwe procedures.

De correctieschatter van Pearson bleek bij lage correlatie ronduit slechter te zijn dan de
correlatie geschat uit de complete steekproef. Dit trad op onder twee operationahsaties
van een vergelijkingscriterium.

Elshout, J.J. Predicting the Validity of Predictors of Academic Performance. Tijdschrift voor Onder-
wijsresearch, 1977, 2, 24-31.

Elshout Jan, van Overbeek Henny, Roe Rob, Vijn Pieter. Testing the hypothesis that RHO = O in
selected samples (case 1). Te verschijnen in: Educational and Psychological Measurement, 1979.

Elstrodt, M., & Mellenbergh, G.J. Eén minus do vergeten fout. Nederlands Tijdschrift voor de Psycho-
logie, 1978, 33, 33-49.

Gullickson, A. and Hopkins, K. Interval Estimation of Correlationcoefficients corrected for Restric-
tion of Range. Educational and Psychological Measurement, 1976, 36, 9-25.

Van Overbeek, H.J. Een onderzoek naar Restriction of Range bij RHO = 0. Doktoraal Werkstuk
(1975).

In this experiment, the effcct of the explicitation of the structure of a text on retention was
investigated.

Fourteen content categories (macrocategories) were proposed to describe the structure of a text
on empirical research. Three of these categories arc 'Theory', 'Method' and 'Conclusion'.
Fourteen first year psychology students read a text from a psychology textbook in which the
content categories were cued by adding statements such as 'This hypothesis was investigated by
the following method...' and eleven subjects read the unmodified text. All subjects were
requested to write a summary of the text during the study session. Two weeks later retention
was measured with a free recall task and a fill-in-thc-blank test.

It was predicted that the group that read the text with the explicit structure would a) show
more agreement with regard to propositions included in the summary and b) show better
retention on both of the retention measures.

No significant differences were found on any of the dependent measures. In the discussion it is
suggested that spontaneous mental activities during reading may be a more powerful influence
on what is retained, than explicitation of structure.

Algemene informatie over de wereld speelt een belangrijke rol bij het begrijpen en ont-
houden van nieuwe informatie. Dit inzicht is in zeer uiteenlopende modellen verwerkt.
Enkele voorbeelden zijn: de rol van anker-ideeën in de cognitieve structuur in de theorie
van Ausubel (1968), de rol van een netwerk-achtig semantisch geheugen in artificiële
intelHgentie (Frijda, 1972; Anderson, 1976; Lindsay en Norman, 1972) en het met deze
laatste opvatting nauw verwante idee dat het geheugen is opgebouwd uit 'frames' of
'scripts' (Minsky, 1975;Schank, 1975).

Door verschillende onderzoekers is naar voren gebracht dat bij het lezen van geschreven
teksten algemene informatie bij de lezer over de structuur van teksten zou kunnen bij-
dragen tot het begrijpen en onthouden van de gelezen informatie. Deze opvatting is vooral
uitgewerkt voor verhalend proza. (Kintsch en Van Dijk, 1975; Kintsch, 1976; Rumelhart,
1975; Mandler en Johnson, 1977; Thorndyke, 1975 en 1977).

Volgens Kintsch en Van Dijk zou de algemene informatie over de structuur van een
vertelling de vorm hebben van een macroschema. Dit macroschema specificeert welke
soorten informatie in een vertelling voorkomen, en in welke volgorde. Deze typen infor-
matie worden macrocategorieën genoemd. Een verhaal begint met de macrocategorie
'Setting', waarin informatie wordt gegeven over de plaats waar en de tijd waarin het
verhaal zich verder gaat afspelen, alsmede een beschrijving van de hoofdpersoon of-perso-
nen. Na de macrocategorie 'Setting' volgen in het verhaal een 'Inleiding', een 'Compli-
catie' en een 'Oplossing'.

Volgens Thorndyke (1975) zou de algemene informatie over de structuur de vorm hebben
van een generatieve grammatica. Resultaten van onderzoek van Thorndyke (1975) en
Bower (1976) toonden aan dat de mate van begrijpelijkheid en de mate van 'recall' van
verschillende teksten afhankelijk is van de mate waarin de structuur van het verhaal
overeenkomt met de structuur, zoals die gegeven is door de verhaalgrammatica.
Aan de generatieve grammatica wordt door deze onderzoekers overigens dezelfde rol bij
het lezen, begrijpen en onthouden van verhalen toegedacht als door Kintsch en Van Dijk
aan het macroschema. Macroschema en grammatica bevatten 'slots' (macrocategorieën),
en tijdens het lezen wordt getracht de bij iedere 'slot' passende informatie te vinden.
Deze gedachtengang werd door Kintsch en Van Dijk (1975) getoetst in een onderzoek
waarin een groep een verhaal uit de Decamerone las, waarvan de structuur overeenkomt
met het vcriiaalmacroschema. Een andere groep las een Indiaanse legende, met een struc-
tuur die hiervan afwijkt en die bij de onderzoeksgroep onbekend verondersteld mocht
worden.

Uit de theorie kon nu de voorspelling afgeleid worden, dat de Decameronegroep in hoge
mate zou overeenstemmen in welke informatie in een samenvattingstaak, direct na het
lezen, gereproduceerd zou worden. Bij de Indiaanse-legende-groep zou minder overeen-
stemming moeten bestaan, omdat hier geen algemene informatie over de structuur van het
verhaal beschikbaar is, en dus geen overeenstemming over de macrocategorieën, die het
skelet van de legende vormen. Deze voorspelling kwam in het onderzoek uit.
Door Kintsch en Van Dijk werd de aanwezigheid van een macroschema als interne con-
ditie gevarieerd door een tekst met een bekende en een tekst met een onbekende struc-
tuur aan proefpersonen aan te bieden.

In ons onderzoek is de structuur als externe conditie gevarieerd; we hebben een tekst aan
één groep aangeboden met expliciete vermelding van de macrocategorie waartoe elk stuk
informatie behoorde, en aan een andere groep zonder een dergelijke exphciete vermel-
ding.

Exphcitering van het macroschema zou op drie wijzen een positieve invloed kunnen
hebben op het lezen en onthouden van de tekst.

In de eerste plaats kan het de lezer die nog weinig ervaring heeft met teksten van het type
dat men hem aanbiedt, helpen bij het construeren van een toepasselijk macroschema.
Hiertoe kan verder bijgedragen worden door proefpersonen vóór de eigenlijke leestaak een
uiteenzetting te geven van de macrocategorieën die voorkomen in de tekst die zij gaan
lezen. In ons onderzoek hebben wij dat dan ook gedaan.

In de tweede plaats kan explicitering van de structuur de lezer tijdens het lezen helpen te
herkennen tot welke macrocategorie de informatie in dè tekst behoort. Dit is vooral van
belang wanneer in de tekst in dit opzicht enige ambiguïteit voorkomt.
In de derde plaats kan de proefpersoon erbij gebaat zijn als hij/zij bij de herinneringstaak
kan beschikken over een duidelijk macroschema. Dit kan dan dienen als een soort in-
houdsopgave van het geheugen, waaraan gemakkelijk afgelezen kan worden welke typen
informatie achtereenvolgens gereproduceerd moeten worden.

De vraag of een effect van het eerste type optreedt is door ons onderzocht door te
bepalen in hoeverre proefpersonen overeenstemmen in de informatie die zij opnemen in
hun samenvatting. Naar analogie van de voorspelling in het onderzoek van Kintsch en Van
Dijk verwachtten wij dat de experimentele groep meer overeenstemming zou vertonen in
de proposities die in de samenvatting worden opgenomen dan de controle groep.
In de retentie-metingen kunnen invloeden van alle drie typen tot uiting komen.

Proefpersonen. Aan het onderzoek namen 25 eerstejaars psychologie-studenten deel, die
als onderdeel van het propaedeutisch jaar verplicht zijn als proefpersoon aan onderzoek
deel te nemen. Van de 30 proefpersonen die voor dit onderzoek hadden ingetekend,
kwamen er 5 niet opdagen, en omdat de proefpersonen al van tevoren door het lot aan de
beide onderzoekscondities waren toegewezen, kon daardoor een ongelijke verdeling ont-
staan over de experimentele groep (n = 14) en de controle groep (n = 11).

Materiaal. Voor het onderzoek werd een tekst gekozen uit het studieboek 'Human Infor-
mation Processing' van Lindsay en Norman (1972). Het gekozen fragment gaat over het
onderwerp 'Chemische processen bij het geheugen' en is door ons voor dit onderzoek in
het nederlands vertaald. Met opzet kozen wij een tekst van gemiddelde moeilijkheid, die
representatief geacht kan worden voor teksten waarmee studenten in hun studie te maken
krijgen. Voorts is de tekst zo gekozen dat wij konden aannemen dat de proefpersonen
met de inhoud ervan niet bekend zouden zijn, en dat die toch voor hen interessant en
begrijpelijk zou zijn.

De inhoud is in het kort: de veronderstelling dat chemische stoffen, zoals RNA, een rol
spelen bij het geheugen is onderzocht door te trachten deze stoffen over te brengen van
een dier dat een leertaak had gedaan naar een dier dat niet getraind was; een aantal van
deze onderzoeken wordt beschreven; in sommige gevallen is er geheugen-overdracht ge-
constateerd, maar de experimenten bleken moeilijk te repliceren, en hun betekenis is
vooralsnog dubieus. De lengte van het fragment is ongeveer 1450 woorden.
In een voorfase van het onderzoek hebben we na bestudering van een aantal teksten over
empirisch psychologisch onderzoek een systeem van inhoudscategorieën (macrocate-
gorieën) geconstrueerd. Er worden 14 macro-categorieën onderscheiden:

Theoretische Achtergrond, Vraagstelling, Hypothese, Voorspelling, Methode, (met
daarbinnen Input, Organisme, Output en Naam Onderzoeker), Resultaten, Theore-
tische Interpretatie, Conclusie, Evaluatie en Observaties.

De tekst werd herschreven tot enkelvoudige zinnen en -bijzinnen. Van elk van deze
informatie-eenheden werd vastgesteld tot welke macrocategorie deze behoorde. Daarna
kon de experimentele tekst samengesteld worden. Hiertoe werden de belangrijkste macro-
categorieën, zoals Theoretische Achtergrond, Vraagstelling, Methode, Resultaten, Con-
clusie en Evaluatie onderling verbonden met standaard formuleringen. Een voorbeeld is de
volgende zin uit de experimentele tekst: 'Deze vraagstelling werd met de volgende me-
thode onderzocht'.

Na deze omwerking was de lengte van de tekst ongeveer 1650 woorden. Bovendien werd
aan de experimentele groep, voorafgaand aan de eigenlijke tekst, een globale beschrijving
aangeboden van het macroschema (ongeveer 150 woorden). De experimentele en de con-
trole tekst vertonen dus een verschil van 350 te lezen woorden. Dit hjkt ons niet bezwaar-
lijk omdat het lezen van 350 woorden bij een normale leessnelheid 1^-2 minuten in beslag
neemt, en het hier uitsluitend niet-inhoudelijke tekst-delen betreft.
Beide condities lazen, ook vóór de eigenlijke tekst, een korte inleiding op het onderwerp,
noodzakelijk om het ontbreken van een context te compenseren (ongeveer 200 woorden).
Voor details over de materialen: zie van Oostendorp (1977).

Procedure. Het experiment bestond uit 2 zittingen. Het tijdsinterval tussen de beide zit-
tingen was 2 weken. De proefpersonen namen bij beide zittingen allen tegelijk in één
collegezaal aan het experiment deel. In zitting 1 begonnen zij met het lezen van de
instructie, waarna zij 60 min. tijd kregen voor het bestuderen van de inleiding en de tekst
en het maken van een samenvatting. Deze studietijd was vastgesteld naar aanleiding van
proefzittingen met vier proefpersonen, die allen de taak in 60 minuten konden voltooien.
Dc instructie liet de proefpersonen betrekkelijk veel vrijheid bij het uitvoeren van deze
taken. We gaven de voorkeur aan een experimentele situatie waarin normale studie-om-
standigheden zoveel mogelijk benaderd werden. De volgende suggesties en richtlijnen
waren in de instructie aan de proefpersonen verwerkt:

a Hen werd aanbevolen eerst de tekst helemaal door te lezen en daarna te beginnen met

het maken van de samenvatting,
b De lengte van de samenvatting moest ongeveer 400 woorden zijn, en dat zou ongeveer

1 a blz. zijn op het vel dat zij kregen om de samenvatting op te schrijven,
c De samenvatting moest de hoofdzaken uit de tekst bevatten en zelf een samenhan-
gende tekst zijn, leesbaar ook voor iemand die de oorspronkelijke tekst niet kende.
Aan de proefpersonen werd de keuze gelaten of zij de tekst in eigen woorden wilden
samenvatten dan wel zinnen uit de tekst overnemen,
d Als een proefpersoon binnen 60 min. klaar was met de samenvatting, werd hem aange-
raden de rest van de tijd te besteden aan het nog eens doorlezen van de tekst en het
controleren van de samenvatting,
e Aan de proefpersonen werd meegedeeld dat zij tijdens de tweede zitting, twee weken
later, een aantal taken in verband met deze tekst zouden moeten uitvoeren, waaronder
het beantwoorden van vragen.
We hebben de indruk dat de proefpersonen de instructie goed begrepen, en zich redelijk
nauwkeurig aan de richtlijnen gehouden hebben. Alle proefpersonen op één na besteed-
den de volle 60 minuten aan het maken van de samenvatting en het bestuderen van de
tekst.

Aan het eind van zitting 1 werden de proefpersonen dringend verzocht in de tijd tussen de
beide zittingen niet met elkaar over het onderzoek te praten.

In zitting 2 was Üe eerste taak van de proefpersonen alles op te schrijven wat zij nog
wisten van de bestudeerde tekst. Voor deze herinneringstaak (free-recall) kregen zij
25 min. Vervolgens werd een kennistoets afgenomen. Dit was een invultoets, die op de
volgende wijze was geconstrueerd. Van de controle tekst werd een uitgebreide samenvat-
ting gemaakt (ongeveer 750 woorden), waarin geen aanduidingen van macrocategorieën
voorkwamen. Uit iedere zin van deze samenvatting wSrden één of twee woorden of
woord-combinaties weggelaten, en vervangen door een streep. De weggelaten woorden
waren steeds inhoudelijk centrale begrippen, 34 zelfstandige naamwoorden, 7 werk-
woordsvormen en 13 bijvoegelijke naamwoorden. In totaal bevatte de toets 54 open
plekken. De taak van de proefpersonen was, de weggelaten woorden of synoniemen in te
vullen. De proefpersonen beantwoordden deze toets in 20 min.

Scoring. Voor de scoring van de samenvattingen en de herinneringsprotocollen werd de
tekst opgedeeld in 160 informatie-eenheden, die we model-proposities genoemd hebben.
De meeste model-proposities bestaan uit 2 concept-namen verbonden door een relatie,
b.v. 'De unieke genetische informatie voor elk organisme wordt opgeslagen in geweldig
grote moleculen'. In iedere propositie werd döor een onderstreping van enkele woorden
een kern-zin aangegeven. In het voorbeeld is de kern-zin 'genetische informatie wordt
opgeslagen in moleculen'.

Het vaststellen van de kem-zin gebeurde op basis van het oordeel van de onderzoekers
over het belang van de informatie. Daarom werd b.v. het adjectief'genetische' wel, en de
woorden 'geweldig grote' niet tot de kern-zin gerekend.

Bij de scoring werd nu van elke propositie in een samenvatting of een 'free-recall' protocol
vastgesteld of deze geheel of gedeeltelijk overeenkwam met één van de model-proposities.
Daarbij werden de volgende scorings-categorieën gehanteerd:

1 Equivalent (EQ): de protocol-propositie bevat dezelfde informatie als de kern-zin van
de model-propositie.

2 FOUT: veranderingen, weglatingen en toevoegingen die resulteren in een protocol-
propositie die strijdig is met de corresponderende model-propositie.

3 REST: veranderingen, weglatingen en toevoegingen die resulteren in een protocol-
propositie die niet strijdig is met de corresponderende model-propositie, maar toch
ook niet alle informatie bevat van de kernzin.

4 Elaboratie (EL): protocol-proposities die niet terug te vinden zijn in de lijst van model-
proposities, maar die er niet mee in strijd zijn. Het kan hier b.v. gaan om het expHci-
teren van denkstappen.

5 Strijdige elaboratie (SEL): proposities als bij EL, maar in deze categorie zijn ze wel
strijdig met de bestudeerde tekst.

Bij het scoren werden binnen sommige van deze categorieën nog fijnere onderscheidingen
gemaakt, maar voor de analyses is de hier gegeven vijfdeling gebruikt, (zie; Van Oosten-
dorp, 1977).

De samenvattingen en de herinneringsprotocollen zijn door 2 beoordelaars (de beide
auteurs) 'blind' en onafhankelijk van elkaar gescoord. Om een indruk te krijgen van de
in ter-beoordelaarsbetrouwbaarheid werd Cohen's kappa berekend (Cohen, 1968). Bij de
samenvattingen was kappa 0,76 en bij de herinneringsprotocollen 0,69. Deze waarden zijn
redelijk hoog als men de moeilijkheid van de scoringstaak in het oog houdt; ze zijn echter
aan de lage kant als men moet vertrouwen dat beide scoringen tot gehjke conclusies zullen
leiden. Daarom zijn alle analyses over beide scoringen afzonderlijk uitgevoerd, waarbij
echter steeds gelijke conclusies bereikt werden. Dat was de reden om in het vervolg van
dit verslag te volstaan met het vermelden van de uitkomsten van één van beide beoorde-
laars.

Voor de analyse van de overeenstemming tussen proefpersonen bij de samenvattingen was
een tweedeling 'aanwezig'-'afwezig' voldoende. Bij deze analyse wordt nagegaan in hoe-
verre proefpersonen dezelfde informatie uit de tekst belangrijk genoeg vinden om in de
samenvatting op te nemen. Als 'aanwezig' werden alle model-proposities gerekend, die als
EQ, REST of FOUT gescoord waren, omdat ook de als FOUT gescoorde proposities er,
naar onze mening op duiden dat de proefpersoon de onjuist weergegeven tekst-informatie
van belang vindt voor de samenvatting. Alle overige model-proposities worden als 'afwe-
zig' gerekend. EL- en SEL-proposities werden bij deze analyse buiten beschouwing gela-
ten, omdat zij geen informatie uit de tekst bevatten.

Voor de analyse van de herinneringsprotocollen werden twee indices voor kwaliteit ont-
wikkeld. In de eerste plaats een Absolute Score (AS);

waarin n(EQ), n(REST) en n(EL) zijn het aantal als EQ, REST en EL gescoorde proposi-
ties. In de formule voor AS wordt dus aan proposities die in belangrijke mate overeen-
komen met de tekstinformade een groot gewicht toegekend, en aan alle andere juiste
informatie in het protocol een kleiner gewicht.

In principe kan AS onbeperkt groot worden. In ons onderzoek is de hoogste bereikte
waarde 64. In de hoogte van AS speelt de lengte van het protocol een belangrijke rol.
Enerzijds is dit goed, omdat een proefpersoon die zich veel herinnert daarvoor beloond
moet worden; maar anderzijds meenden we ook dat een kort protocol met uitsluitend
juiste informatie vanuit een bepaald gezichtspunt beter is dan een zeer lang protocol met
relatief veel onjuiste informatie. Om ook dit type kwahteit tot uiting te laten komen,
gebruikten we naast AS ook een Relatieve Score (RES):

waarin n(prop) is het aantal scoringen dat aan een protocol is toegekend. De maximale
waarde van RES is 2, een waarde die bereikt wordt wanneer alle informatie in een
protocol als EQ beoordeeld is.

Het is in principe mogelijk een oneindig aantal kwahteitsmaten te construeren. We hebben
aangenomen dat de twee gekozen exemplaren redelijk representatief zijn voor het univer-
sum. In de discussie komen we hierop nog terug.

Voor de scoring van de invultoets werd een codeboek samengesteld, mede op grond van
een aantal proefafnames van de toets. Het codeboek gaf aan welke antwoorden goed en
welke fout gerekend moesten worden.

Goed gerekend werden over het algemeen ook parafrasen van het letterlijke antwoord.
Aan de hand van dit codeboek bleek een vrijwel objectieve scoring mogelijk; slechts
in enkele gevallen was het onzeker of een antwoord juist was of niet. De antwoorden
werden 0-1 gescoord en de maximale score bedraagt derhalve 54. De scoring is door één
beoordelaar uitgevoerd. De homogeniteit van de invuhoets, berekend met KR20, is 0.81.

De samenvattingen. De gemiddelde lengte van de samenvattingen was 323.6 woorden in
de experimentele groep (range 151-465 woorden); het gemiddelde in de controle groep
was 386.5 woorden (range 291-557 woorden). Dit verschil in lengte zou ontstaan kunnen
zijn door tijdgebrek in de experimentele conditie ten gevolge van de lengte van de tekst.
De experimentele tekst was immers 350 woorden langer dan de tekst van de controle
groep. We hebben echter een aanwijzing dat de experimentele groep niet in tijdnood
gekomen is: in de controle groep maakten 6 van de 11 proefpersonen (55%) een volledige
samenvatting, in de experimentele groep waren dit er 9 van de 14 (64%). Daar staat weer
tegenover dat ook de gemiddelde lengte van de volledige samenvattingen in de controle
groep groter is dan die van de vohedige samenvattingen in de experimentele groep (412.8
tegen 356.8).

De analyse van de samenvatting is erop gericht vast te stellen in hoeverre proefpersonen in
elk van de onderzoeks-condities overeenstemmen in de proposities die zij in de samenvat-
ting opnemen. Verondersteld werd immers dat deze overeenstemming groter zou zijn voor
de experimentele groep dan voor de controle groep.

De analyse kon niet over ahe 160 model-proposities worden uitgevoerd, omdat een vrij
groot aantal samenvattingen niet compleet was. Alle 11 proefpersonen uit de controle
groep waren tenminste tot aan propositie no. 106 gekomen; in de experimentele groep
was dit voor 12 van de 14 proefpersonen het geval. Omdat voor deze analyse gelijke
aantallen proefpersonen in elke der vergeleken groepen noodzakelijk waren, werden van

de experimentele groep de beide te korte samenvattingen en nog een derde samenvatting
die door het lot werd aangewezen, niet in de analyse betrokken. En de analyse werd
uhgevoerd over de eerste 106 proposities van de lijst. De gevolgde werkwijze had tot doel
het aantal proefpersonen en het aantal proposities in de analyse te maximahseren. Het
verwijderen van de korte protocollen kan geleid hebben tot een hchte vertekening van de
resultaten.

Van elk van de proposities werd vastgesteld in hoeveel samenvattingen hij 'aanwezig' was.
Deze telling werd afzonderlijk verricht voor de experimentele en de controle conditie.
Het resultaat van deze telling is voor elke propositie een score tussen O en 11 voor elk van
de beide onderzoeksgroepen.

hl Tabel 1 zijn deze scores samengevat in een cumulatieve frequentieverdeling. Aan de
tabel kan worden afgelezen dat slechts één propositie in alle 11 samenvattingen van de
experimentele groep voorkwam, terwijl dat voor de controle groep voor 4 proposities het
geval was. De tabel laat zich verder op dezelfde wijze lezen.

In Figuur 1 zijn de cumulatieve proporties getekend. Zowel in Tabel 1 als in Figuur 1 zijn

de proporties bereidend niet over alle 106 proposities, maar over het aantal proposities dat
in de betreffende conditie tenminste éénmaal in een samenvatting was opgenomen.
Op deze gegevens is de toets van Kolmogorov-Smimov (Siegel, 1956) toegepast. Deze
toets is bedoeld om op grond van de frequentie-verdeHng in twee steekproeven na te gaan
of de veronderstelling dat de steekproeven uit dezelfde populatie afkomstig kunnen zijn,
kan worden verworpen.

Voor de data uit Tabel 1 kan worden berekend dat chi^ = 1,66 (df = 2) en die waarde is
verre van significant. De hypothese dat de experimentele groep meer overeenstemming
vertoont in de proposities die in de samenvatting worden opgenomen dan de controle
groep wordt door de verkregen data niet ondersteund.

De herinneringstaak. De gemiddelde lengte van de herinneringsprotocollen is 220,9 woor-
den voor de experimentele groep (range 171-326 woorden) en 222.6 woorden voorde
controle groep (range 122427 woorden). Aan de hand van de scores op de herinnerings-
taak en de invultoets is vervolgens nagegaan of een gunstig effect uitging van explicitering
van de tekststructuur op het onthouden van de informatie uit de tekst.
Voor de herinneringsprotocollen zijn per proefpersoon twee scores beschikbaar, AS en
RES.

De verschillen tussen de gemiddelden werden getoetst met een t-toets. In beide gevallen
zijn de verschillen niet significant.

De invultoets. De resultaten van de invultoets staan vermeld in Tabel 3.
Ook hier is de t-waarde niet significant.

De veronderstelling dat expliciteren van de tekst-structuur zou leiden tot betere retentie
wordt door de gegevens niet ondersteund.

De belangrijkste analyses hebben geen significante verschillen tussen de onderzoeks-
condities opgeleverd. Men zou kunnen opmerken dat de vermelde resultaten alle in de
verwachte richting gaan, en dat het niet bereiken van een conventioneel significantie-
niveau daarbij misschien toegeschreven moet worden aan de geringe 'power' van een toets
met slechts 25 proefpersonen. De resultaten van de scoring door de andere beoordelaar
geven echter overwegend verschillen in de tegenovergestelde richting te zien. Geconclu-
deerd moet dus worden dat met dit materiaal en voor deze groep studenten het exphcite-
ren van de tekststructuur geen positieve invloed heeft op het onthouden van het bestu-
deerde materiaal. Alvorens in te gaan op mogelijke oorzaken hiervoor, dient te worden
gewezen op een verschil dat bij verdere exploratie van het verzamelde materiaal aan het
hcht kwam. Van alle proefpersonen werden gegevens opgevraagd met betrekking tot de
op een vijftal propaedeutische tentamens behaalde resultaten. Voor elk van deze groepen
werden de correlaties van deze studieresultaten met de scores op AS en RES berekend. Bij
de controle groep waren deze correlaties gemiddeld sterk positief (gemiddelde over
10 correlaties: 0,58), en bij de experimentele groep gemiddeld bijna nul (gemiddelde over
10 correlaties: 0,06).

Wanneer men deze informatie combineert met het gegeven dat de gemiddelden van AS en
RES van beide onderzoeksgroepen vrijwel gelijk waren, dan kan geconcludeerd worden
dat de naar studie-resultaten gemeten zwakke studenten het in de experimentele conditie
beter deden dan in de controle conditie, terwijl de betere studenten het juist in de
controle-conditie beter deden dan in de experimentele conditie.

Gemiddelden op AS en RES voor de groepen met studieresultaten onder
resp. boven de mediaan¹

1 Aantallen proefpersonen tellen niet op tot totale aantallen per conditie,
omdat niet van alle proefpersonen volledige gegevens over studieresultaten
beschikbaar waren.

Dit wordt geïllustreerd in Tabel 4. In die tabel zijn de gemiddelden op AS en RES voor de
beide condities opgesphtst in afzonderiijke gemiddelden voor de groepen met studieresul-
taten onder, resp. boven de mediaan. Hoewel dit verschil het conventionele niveau van
significantie benadert, dient het toch met terughoudendheid te worden geïnterpreteerd
omdat het hier een bij exploratie gevonden verschijnsel betreft (De Groot, 1956). Deson-
danks is het nuttig hierbij toch een tweetal opmerkingen te plaatsen.
In de eerste plaats sluit de bevinding dat vooral zwakke studenten baat hebben bij structu-
rering van een studie-tekst aan bij ander onderzoek. Zo vonden Ausubel en Fitzgerald

(1962), en Ausubel en Youssef (1963) dat verbaal minder begaafde proefpersonen een
grotere score-winst bereikten bij het lezen van een tekst met een zgn. 'organizer' dan
verbaal begaafden. Later zijn op dit punt echter tegenstrijdige bevindingen gerapporteerd
(zie Cronbach en Snow, 1977 en Barnes en Clawson, 1975).

In de tweede plaats zou het feit dat goede studenten het in de controle conditie beter
doen dan in de experimentele conditie kunnen worden toegeschreven aan een eigenschap
van de formule AS en RES.

In die formules krijgt een propositie waarvan de kernzin volledig in het herinneringsproto-
col voorkomt een gewicht 2, en een minder voUedige weergave een gewicht 1. Men kan
echter verdedigen dat in een goed protocol juist informatie uit verschillende zinnen van de
oorspronkelijke tekst wordt samengevoegd tot globale samenvattende uitspraken. In zo'n
goed protocol komen dan weinig gevallen voor waarbij de kern-zin van een propositie in
zijn geheel weergegeven wordt. En daardoor zou een goed protocol dan op de door ons
gebruikte kwahteits-indices lager uitkomen dan een slechter protocol, waarin de belang-
rijkste proposities uit de gelezen tekst min of meer woordelijk zijn overgenomen.
De gedachtengang kan worden samengevat door te zeggen dat de werkelijk goede samen-
vatting en het werkelijk goede herinnerings-protocol bij de door ons gebruikte kwahteits-
indices enigszms in het nadeel zijn.

Deze verondersteUing zou met een nieuwe analyse nader bekeken kunnen worden. We
hebben echter de indruk dat de kwahteit van de samenvattingen en de herinnerings-proto-
coUen in de scores AS en RES voldoende tot uiting komt. In het bijzonder hebben wij de
indruk dat wanneer proefpersonen meer globale uitspraken hebben opgeschreven, deze
nogal eens onnauwkeurig zijn en bovendien weinig samenhang met de rest van de samen-
vatting of het protocol vertonen, zodat in die gevallen zeker geen sprake is van producties
van hoge kwaliteit.

Tenslotte willen we enkele opmerkingen maken over de mogehjke oorzaken van het
uitbhjven van steun voor onze verondersteUingen m dit onderzoek.
In de eerste plaats kan de mogelijkheid geopperd worden dat ook in de oorspronkelijke
tekst de structuur dermate duidehjk is dat exphcitering daaraan weinig of niets kan
toevoegen. Het boek van Undsay en Norman wordt algemeen geprezen als een goed
studieboek, en hef is dan ook een reële mogelijkheid dat de tekst in dit opzicht ongeluk-
kig gekozen was.

In de tweede plaats is het mogelijk dat de samenvattingstaak die in de eerste zitting
tijdens het lezen moest worden uitgevoerd de proefpersonen ook in de controle conditie
gedwongen heeft tot een zekere mate van structurering van de informatie. Dit zou ertoe
geleid kunnen hebben dat de retentie in de controle conditie verbeterd is, waardoor een
eventueel retentie-verhogend effect van het geëxphciteerde macroschema in de experi-
mentele groep niet geconstateerd kan worden door een vergelijking met de controle
groep.

En tenslotte is het natuurhjk mogelijk dat onze theoretische gedachtengang onjuist is, en
dat dus het kunnen beschikken over een macroschema geen belangrijke factor in het leer-
en reproductieproces vormt.

Er zijn verschillende alternatieven. WeUicht speelt de inhoudehjke structuur van de infor-
matie een belangrijker rol dan de formele structuur zoals die in het macro-schema is
weergegeven.

Of, verwant daarmee, proefpersonen hebben een eigen idiosyncratisch macroschema voor
het verwerken van informatie, en het opdringen van een uniform macroschema aan aUe
proefpersonen zal misschien voor sommigen van hen wel voordelig zijn, maar anderen

slechts hinderen. Ook zou het zo kunnen zijn dat een algemeen macroschema wel van
belang is bij het lezen van een tekst, maar dat de informatie in een tekst beter onthouden
wordt wanneer de proefpersoon zich moet inspannen om het macroschema te herkennen
en van de informatie in de tekst vast te stellen tot welke categorie die behoort, dan
wanneer het de proefpersoon te gemakkelijk gemaakt wordt (zie Frijda, 1977).
Op grond van de informatie, die we uit dit onderzoek verkregen hebben, is het niet
mogelijk uit deze verklaringen er één te kiezen als meer waarschijnlijk dan de andere.

Anderson, J.R. Language, Memory and Thought. Hillsdale, New Jersey: Lawrence Erlbaum Associates,

Ausubel, D.P. Educational Psychology: A Cognitive View. New York: Holt, Rinehart & Winston Inc.,
1968.

Ausubel, D.P. and Fitzgerald, D. Organizer, general background and antecedent learning variables in

sequential verbal learning. Journal of Educational Psychology, 1962, 53, 243-249.
Ausubel, D.P. and Youssef, M. The role of discriminability in meaningful verbal learning. Journal of

Educational Psychology, 1963, 54, 331-336.
Barnes, B.R. and Clawson, E.U. Do advance organizers facilitate learning? ^ev/evv of Educational Re-
search, 1975, 45, 637-659.
Bower, G.H. Experiments on Story Understanding and Recall. Quarterly Journal of Experimental

Psychology, 1976, 28, 511-534.
Cohen, J. Weighted Kappa: nominal scale agreement with provision for scaled disagreement or partial

ctaAW. Psychological Bulletin, 1968, 70, 213-219.
Cronbach, L.J. and Snow, R.E. Aptitudes and Instructional Methods. New York: Irvington Publishers,

Frijda, N.H. Simulation of Human Long Term Memory. Psychological Bulletin, 1972, 77, 1-31.
Frijda, N.H. Memory processes and instruction. Paper presented at NATO International Conference on

Cognitive Psychology & Instruction, Amsterdam, 1977.
Groot, A.D. de, De betekenis van 'significantie' bij verschillende typen onderzoek. Nederlands Tijd-
schrift voor de Psychologie, 1956,11 398-409.
Kintsch, W. Memory for Prose. In: C.N. Cofer (cd.) The Structure of Human Memory. San Francisco:

Freeman & Company, 1976.
Kintsch, W. and van Dijk, T.A. Comment on se rappelle ct on résumé des histoires. Langages, 1975, 9,
110-128.

Lindsay, P.H. and Norman, D.A. Human Information Processing. An Introduction to Psychology. First

Edition, New York: Academic Press, 1972.
Mandler, J.M. and Johnson, N.S. Remembrance of things parsed: story structure and recall. Cognitive

Psychology, 1977, 9, 111-151.
Minsky, M. A Framework for Representing Knowledge. In: P.H. Winston (ed.) The Psychology of

computer vision. New York: McGraw-Hill, 1975.
Oostendorp, H. van, Het effect van structuur-explicitering van een studietekst op de retentie. Docto-

raalwerkstuk Psychologisch Laboratorium Universiteit van Amsterdam, 1977, FL.26.4.77.211.
Rumelhart, D.E. Notes on a Schema for Stories. In: D.G. Bobrow and A. Collins (eds.) Representation

and Understanding. New York: Academic Press, 1975.
Schank R.C. The Structure of Episodes in Memory. In: D.G. Bobrow and A. Collins (eds.) Represen-
tation and Understanding. New York: Academic Press, 1975.
Siegel, S,. Nonparametric Statistics for the Behavioral Sciences. New York: McGraw-Hill, 1956.
Thorndyke, P.W. Cognitive Structures in Human Story Comprehension and Memory. Doctoral Disser-
tation, Stanford University, 1975.
Thorndyke, P.W. Cognitive Structures in Comprehension and Memory of Narrative Discourse. Cogni-
tive Psychology, 1977, 9, 77-110.

Johan M. Wijnstra, Hanneke Floor-Gaastra, Piet Buter & Hans Wesseling
Vakgroep Onderwijskunde, iPAW, R.U. Utrecht

In this paper a procedure for measuring overall speaking proficiency is presented for use with
elementary .school children.

The procedure requires the child to describe each time one out of four pictures in such a way
that the listener can choose the right picture.

Some data are presented on validity and reliability. Although there remain questions, it is
concludcd that the vahdity and reliability of the new procedure are at a reasonable level.

In doelstellingenomschrijvingen voor taalonderwijs wordt over het algemeen als uiteinde-
lijk doel een zeker niveau van beheersing van de vaardigheden luisteren, spreken, lezen en
schrijven geformuleerd, waarbij het gebruik van deze vaardigheden voor het tot stand
brengen van communicatie wordt benadrukt. Dat wil natuurlijk niet zeggen dat deze
doelstellingen ook altijd werkelijk richting gevend zijn geweest voor de vormgeving van
het taalonderwijs.. Het accent lag (en ligt) dikwijls op kennis en correct gebruik van
taalelementen buiten een reële gebruikscontext. Dit geldt in nog sterkere mate voor het
onderzoek van de taalvaardigheid.

Bij het onderzoek van de spreekvaardigheid wordt in veel gevallen meer aandacht geschon-
ken aan vorm- en inhoudskenmerken van de geproduceerde taal (correctheid, grammati-
caliteit, syntactische complexiteit, woordenschat e.d.) dan aan de vraag of er communi-
catie tot stand komt. Concrete toetsprocedures hiervoor ontbraken tot voor enkele jaren
grotendeels. In het project Friesland (S.V.O.-project 0 181)' werd besloten een dergelijke
toetsprocedure voor spreekvaardigheid te ontwikkelen, voortbouwend op het werk van
Glucksberg et al. (1966) en Samuels et al. (1969).

In dit artikel zullen we de ontwikkelde procedure, het zg. Radiospel, bespreken. Daaraan
voorafgaand wordt in par. 2 eerst aandacht besteed aan de procedures van Glucksberg en
Samuels.

1. In het project Friesland zijn ongeveer 240 kinderen, afkomstig van het Friese en Utrechtse platte-
land, gevolgd in hun schoolsucces en taalontwikkeling van het eind van dc kleuterschool tot en met de
derde klas van de lagere school.

Zie voor een beschrijving van de opzet en de resultaten van het project: Wijnstra (1976).

Glucksberg et al. (1966) ontwikkelden het communicatiespel 'stack the blocks'. De proef-
personen zitten tegenover elkaar, maar kunnen elkaar niet zien doordat er tussen hen een
scherm is geplaatst. De spreker haalt uit een voorraaddoos een blok, beschrijft de (ab-
stracte) figuur op het blok en steekt dit op een stok. Op grond van de beschrijving kiest
de luisteraar uit zijn zichtbare voorraad van zes blokken het passende blok en plaatst dit
ook op een stok. Aan het einde van de taak, als alle zes de blokken beschreven zijn,
worden de stokken met elkaar vergeleken.
Het spel werd in twee variaties gespeeld:

Bij het spel mag de luisteraar zich niet tot de spreker richten, b.v. om nadere informatie te
vragen. In de eerste variatie gaat het om een beoordeling van de spreker. Het probleem
hierbij is dat bij een foute keuze van de luisteraar het niet duidelijk is of die foute keuze
terug te voeren is op de formulering van de spreker of de interpretatie van de luisteraar. In
de tweede variafie is de procedure voor het kind een 'gewone' luistertoets (decoding-
taak). In beide gevallen is er echter sprake van afhankelijkheid van items. Wanneer in het
begin de goede blokken door de luisteraar worden gekozen, wordt de toevalskans dat ook
daarna de goede blokken worden gekozen, automatisch groter. Wanneer er foute keuzen
worden gedaan, moeten er noodzakelijkerwijze meer fouten volgen.
Nadere informatie over onderzoeken waarin deze procedure is gebruikt, is te vinden bij
Krauss& Glucksberg (1969). _

Samuels et al. (1969) gebruiken in een eerste experiment een decoding-taak met een
bandrecorder in de rol van spreker. De opzet is verder gelijk aan het onderzoek van
Glucksberg et al. (1966). In een tweede experiment wordt de procedure geviajzigd. In
plaats van blokken worden nu twee-dimensionale afbeeldingen van de figuren gebruikt. In
de decoding-taak nummert het kind de figuren, in de encoding-taak moet het de figuren
beschrijven voor andere kinderen (niet aanwezig), alles weer met behulp van band-
recorders. De beschrijvingen worden achteraf gescoord op een 1 O-puntsschaal. In de pro-
cedure van Samuels et al. (1969) blijft ook de afhankelijkheid van items een probleem.

Om de gesignaleerde problemen (interpretatie, afhankelijkheid van items) zo veel mogelijk
te vermijden, werd in het project Friesland gekozen voor een encoding-taak in de vol-
gende vorm. Per item krijgt het kind een blad met vier plaatjes voor zich. Deze plaatjes
bevatten grotendeels dezelfde elementen, maar de configuratie van de elementen verschilt
op enkele dimensies, bijv.:

Het kind wordt gevraagd een van de plaatjes zodanig te beschrijven dat later iemand die
naar de band gaat luisteren (een volwassene), kan bepalen welk plaatje het kind moest
beschrijven^.

2. Naderhand bleek dat Upshur (1971) een soortgelijke procedure had ontwikkeld voor volwassenen.

In 1973 werd een eerste versie van het radiospel geconstrueerd met twintig items -
waarvan veertien met afbeeldingen van concrete situaties en zes met abstracte figuren —
voor gebruik aan het einde van het eerste leerjaar basisonderwijs. In mei 1973 werd het
radiospel bij de aan het project deelnemende kinderen tweemaal afgenomen. De afname
gescliiedde door studenten van pedagogische akademies die hiervoor een speciale instruc-
tie hadden ontvangen. De eerste afname (radiospel 1) vond bij de Friese kinderen in het
Fries plaats, de tweede afname (radiospel 2) bij alle kinderen in het Nederlands. Bij de
tweede afname werd hetzelfde materiaal gebruikt. Per item moest echter een ander van de
vier plaatjes worden beschreven.

De scoring vond plaats vanaf de band door twee onafhankelijke beoordelaars. Bij de
scoring werd nagegaan of met de door het kind gegeven informarie inderdaad alleen maar
het aangewezen plaatje kon worden gekozen. Voor iedere correcte beschrijving werd één
punt toegekend. Wanneer de beoordelingen niet overeenstemden, nam een derde beoor-
delaar de beshssing.

Op grond van de ervaringen in klas 1 (1973) werd in 1974 een tweede versie geproduceerd
met twintig items. In deze versie zijn de abstracte figuren vervallen. Het nieuwe radiospel
werd in mei 1974 volgens hetzelfde afnameschema afgenomen bij dezelfde kinderen aan
het einde van de tweede klas basisonderwijs. Voor het scoren van de tweede versie (1974)
werden de banden eerst uitgetypt en daarna op dezelfde wijze gescoord. Door de ervarin-
gen van het voorgaande jaar werd aan de instructie van de beoordelaars meer aandacht
besteed. Na proefscoring van een aantal protocollen vond een bespreking plaats om richt-
lijnen op te stellen voor twijfelgevallen.

In klas 3 (1975) werd de tweede versie opnieuw gebruikt, waarbij echter alleen een
afname in het Nederlands plaats vond. Van de gebruikte items waren er in het vooraf-
gaande jaar elf tijdens de eerste afname gebruikt en negen tijdens de tweede afname. De
afname en de scoring verliep verder op dezelfde wijze als in het vorige jaar.
Ten behoeve van een parallelonderzoek in 1975 werd een vorm van het radiospel ontwik-
keld voor gebruik in het zesde leerjaar. Van de twintig items waren er zes afkomstig uit
het radiospel voor klas 3. Dit radiospel werd in april 1975 afgenomen bij 150 zesdeklas-
sers, afkomstig van dezelfde scholen als in het hoofdonderzoek. De afname- en verwer-
kingsprocedures waren analoog aan die in klas 3.

In dit artikel zullen we alleen aandacht besteden aan de kwahteit van de toetsprocedure,
met name de betrouwbaarheid en validiteit. Voor de vergelijking tussen de Friese en
Utrechtse groepen zij venvezen naar het eindverslag van het project (Wijnstra, 1976). Ook
voor de resultaten van een aantal secundaire analyses zij verwezen naar het eindverslag en
Wijnstra & Buter (1977).

Bij de presentatie van de gegevens uit de diverse analyses wordt steeds uitgegaan van de
Utrechtse groep. Deze gegevens worden voor een deel in tabelvorm meegedeeld. In de
tekst zal worden aangegeven in hoeverre de analyses op het materiaal van de Friese
groepen hiermee overeenstemmen (drie groepen met in totaal ongeveer 150 kinderen).

De betrouwbaarheid van de scores kan op verschillende manieren worden benaderd. In
deze paragraaf zullen we aandacht besteden aan de interbeoordelaarsbetrouwbaarheid, de
interne consistentie, de parallelbetrouwbaarheid en de stabihteit.

Bij de scoring van de in klas 1 m 1973 afgenomen eerste versie werden de zes items met
abstracte figuren niet In de verwerking opgenomen, omdat deze items bij nader
inzien te moeilijk bleken. Deze versie werd gescoord vanaf de band door twee onaflianke-
hjke beoordelaars. Beoordelaar A en B kwamen bij radiospel 1 in 91% van de gevallen tot
overeenstemming. Bij de scoring van radiospel 2 lag dit percentage voor de beoordelaars A
en C op 81. In de volgende jaren zijn de banden steeds eerst uitgetypt. Dit leidde in alle
gevallen tot overeenstemmingspercentages boven de 90. Dit mag als redelijk worden be-
schouwd m de gegeven situatie. Upshur (1971) vond in zijn onderzoek een 'scorer re-
hability' van 0.99, maar de opdracht voor de (volwassen) proefpersonen in zijn onderzoek
was om in één zin het aangewezen plaatje te beschrijven. Een dergelijke nauw begrensde
opdracht werd bij het radiospel niet toegepast en het is de vraag of dat bij de kinderen die
aan het project Friesland hebben deelgenomen, mogelijk zou zijn geweest. Hierdoor ont-
staan echter wel problemen voor de beoordelaars, omdat de beschrijvingen niet ahijd
consistent bhjken uit te vallen.

De mteme consistentie van de toetsprocedure werd bepaald met formule 20 van Kuder en
Richardson. De resuhaten zijn samen met enkele andere basisgegevens opgenomen in
tabel 1.

De interne consistentie ligt op een aanvaardbaar niveau. Bij de Friese groepen waren de
resultaten vergehjkbaar.

In tabel 2 worden de correlaties tussen de verschillende afnames in de klassen 1, 2 en 3
vermeld (voor klas 6 zijn deze gegevens niet beschikbaar).

De correlaties tussen de eerste en de tweede afname in resp. klas 1 en 2, kunnen worden
opgevat als indices voor de parallelbetrouwbaarheid. Deze liggen voor de Friese groepen
op hetzelfde niveau als bij de Utrechtse groep (0.60-0.80) en mogen als redelijk worden
beschouwd. De correlaties tussen de klassen kunnen geïnterpreteerd worden als stabili-
teitscoëfficiënten. Tussen klas 1 en 2 is bij de Utrechtse groep de correlatie te verwaar-
lozen, tussen klas 2 en 3 ligt de correlatie vrij hoog. Voor deze verschillen is moeilijk een
verklaring te geven. Het beeld dat de Friese groepen op dit punt geven, komt hiermee niet
overeen. Voor deze groepen variëren de coëfficiënten tussen 0.30 en 0.55, wat aan de lage
kant is.

Tot slot van deze paragraaf wordt in tabel 3 de verdeling van de p- en rjt-waarden weer-
gegeven.

De meerderheid van de p- en rjj-waarden hgt op een aanvaardbaar niveau. De gegevens van
de Friese groepen stemmen sterk overeen met de in de tabel vermelde gegevens van de
Utrechtse groep.

In deze paragraaf zullen we eerst aandacht besteden aan de samenhang tussen het radio-
spel en andere verbale maten. Daarna komt de samenhang met leeftijd aan de orde.
Het radiospel is bedoeld om spreekvaardigheid in de zin van het begrijpelijk kunnen
formuleren van een boodschap, te onderzoeken. Grammaticaliteit, variarie in woorden-
schat, e.d. worden niet in de beoordeling betrokken. Binnen het project Friesland werd
indertijd verondersteld dat het op deze manier onderzoeken van de spreekvaardigheid een
dimensie zou toevoegen aan het gebruikelijke onderzoek naar de kennis en het correct
kunnen gebruiken van taalelementen buiten een reële gebruikscontext. Vanuit deze ge-
dachtengang zou er tussen de score op het radiospel en andere maten, die meer op kennis

van taalelementen gericht zijn, weliswaar een positieve korrelatie moeten optreden, maar
van beperkte omvang. Met een meer globale, overall beoordeling van de spreekvaardigheid
daarentegen zou een sterker verband moeten blijken.

In het project Friesland is in klas 3 en 6 een aan Flavell et al. (1968) ontleende procedure
toegepast die bedoeld is om de spreekvaardigheid in dezelfde zin als het radiospel te
onderzoeken. De correlaties tussen de scores op het radiospel en de communicatietaak
van Flavell hggen tussen O en 0.35 voor de verschillende groepen. De oorzaak hiervan ligt
waarschijnhjk voor een deel in de betrouwbaarheid van de communicatietaak. In een
onderzoekje bij 17 zesdeklassers werd een herhaalbetrouwbaarheid gevonden van 0.26,
tegenover 0.71 voor het radiospel (tijdsduur tussen de afnames 4 maanden). In dit ver-
band is het jammer dat geen andere overall maten voor spreekvaardigheid in de analyses
konden worden betrokken.

De correlaties tussen de score op het radiospel en verschillende mondehnge en schrifte-
lijke elemententoetsen variëren vrij sterk tussen de verschillende groepen en tussen de
klassen 1, 2 en 3 (0-0.60; ongeveer de helft van de coëfficiënten > 0.30). De correlaties
met begrijpend lezen, stellen en verbale intelligentie hggen in dezelfde orde van groottëTiT
vertonen overeenkomstige fluctuaties.

Uit principale componentenanalyses op de correlatiematrices komt naar voren dat het
radiospel in klas 1 in drie van de vier groepen een (nagenoeg) zelfstandige factor vormt,
terwijl in één groep het radiospel in een mondelinge verbale factor is opgenomen. In
klas 2 domineert het radiospel een factor waarop ook andere verbale maten laden, vooral
mondelinge. In klas 3 is het radiospel opgenomen in een verbale faktor, waarop zowel
mondehnge als schriftelijke verbale maten hoog laden. Deze andere maten laden in veel
gevallen ook hoog op een andere verbale (schoolvorderingen) factor (vgl. Wijnstra, 1976,
pp. 181-185). In klas 6 komen de correlatiepatronen en de factoranalyses het meest over-
een met het hier geschetste beeld voor klas 3 (vgl. Wijnstra & Buter, 1977).
Uit deze factoranalyses komt - zoals men zou kunnen verwachten - naar voren dat het
radiospel een zekere eigenheid heeft en gedeeltelijk iets anders meet dan andere verbale
maten. Tussen de klassen treden evenwel verschillen op in de mate van dwarsverbindingen
met die andere maten. Hiervoor is moeilijk een verklaring te geven. Het zou erop kunnen
wijzen dat het radiospel niet m alle jaren dezelfde vaardigheid meet. Dit zijn echter
speculaties die niet hard gemaakt kunnen worden, omdat ook andere verschuivingen in de
factorstrukturen optreden.

In verband met de validiteit van het radiospel zijn ook de onderzoeken van Wesselmg-
Tomesen (1974) en Wesseling & Wesseling-Tomesen (1975) van belang. Wesseling-Tome-
sen (1974) vond bij derde- en vijfdeklassers een duidehjk verschil in score op het radiospel
tussen kinderen met lage en hoge schoolprestaties ten gunste van de laatste groep. Wesse-
hng & Wesseling-Tomesen (1975) vergeleken drie groepen leerlingen van l.o.m.-scholen
met in leeftijd, resp. vorderingenniveau overeenkomende groepen leerlingen van lagere
scholen. Zij vonden een tendens dat de leerlingen van l.o.m.-scholen systematisch lager
scoorden.

Tenslotte zullen we nog aandacht besteden aan de vraag of het radiospel ook als ontwik-
kehngsmaat gebruikt kan worden. We mogen aannemen dat de spreekvaardigheid samen-
hang vertoont met andere leer- en ontwikkelingsprocessen bij kinderen en dat oudere
kinderen gemiddeld genomen een grotere vaardigheid zullen hebben dan jongere kinderen.
Noch voor de Utrechtse kinderen, noch voor de Friese groepen is evenwel met het
radiospel progressie aantoonbaar tussen het einde van het tweede en derde leerjaar. De in
klas 6 afgenomen versie had zes items gemeenschappelijk met het in klas 3 afgenomen

radiospel. De gemiddelde p-waarde van deze items bedroeg in klas 3 0.55, in klas 6 is dit
0.78. In het reeds aangehaalde onderzoek van Wesseling-Tomesen (1974) bedraagt het
verschil in gemiddelde p-waarde tussen klas 3 en 5 over 20 items 0.10 (0.59-0.69).
Dit alles wijst erop dat met het radiospel slechts over vrij lange periodes gerekend, ontwik-
keUng in de spreekvaardigheid zichtbaar kan worden gemaakt.

Hoewel ten aanzien van de validiteit en betrouwbaarheid van het radiospel vragen blijven
bestaan, mag gesteld worden dat het als instrument redelijk aan de verwachtingen heeft
voldaan. Voor groepsvergelijkend onderzoek lijkt het een redelijk betrouwbaar en vaUde
instrument. Voor individueel gebruik zou eerst verder onderzoek noodzakelijk zijn.
Voor onderzoek naar de ontwikkeling van de spreekvaardigheid is het radiospel waar-
schijnlijk minder geschikt, ahhans bij kinderen die de betreffende taal als moedertaal
hebben geleerd of een vergelijkbaar beheersingsniveau hebben verworven. Het radiospel
zou eventueel wel een geschikt evaluatiemiddel kunnen zijn om de ontwikkeUng van de
spreekvaardigheid te volgen bij het leren van een vreemde taal.

Flavell, J.H., Botkin, P.T., Fry, C.L. jr., Wright, J.W. and Jarvis, P.E. The development of role-taking
and communication skills in children. New York: Wiley, 1968.

Glucksberg, S., Kraus, R.M. and Weisberg, R. Referential communication in nursery school children:
method and some preliminary findings. Journal of Experimental Child Psychology, 1966, 3,
333-342.

Krauss, R.M. and Glucksberg, S. The development of communication: competence as a function of
age. Child Development, 1969, 40, 255-267.

Samuels, M., Reynolds, A.G. and Lambert, W.E. Communicational efficiency of children schooled in a
{oieign\angadL$ct Journal of Educational Psychology, 1969, 60, 389-393.

Upshur, J.A. Productive communication testing: progress report. In G.E. Perrcn and J.L.M. Trim
{edi.). Applications of Linguistics. London: Cambridge University Press, 1971, 435-441.

Wesseling-Tomesen, M.A. Kommunikatievaardigheid bij kinderen. Utrecht: Pedagogisch Seminarium,
1974 (M.O.-B scriptic Orthopedagogiek).

Wesseüng, H. en Wesseling-Tomesen, M. Taal en kommunikatie. Utrecht: Instituut voor Pedagogische
en Andragogische Wetenschappen, 1975.

Wijnstra, J.M. Het onderwijs aan van huis uit friestalige kinderen, 's Gravenhage: Staatsuitgeverij,
1976.

Wijnstra, J.M. en Buter, P.M. Enkele aantekeningen bij het gebruik van de gemiddelde zinslengte als
maat voor taalontwikkeling. Nederlands Tijdschrift voor de Psychologie, 1977,32, 123-133.

Onlangs vergeleek ik het discriminerend vermogen van twee- en vierkeuzetoetsen (van
Naerssen 1976) aan de hand van Lord's index D uit 1952. In tegenstelling tot eerdere
artikelen over dit onderwerp werd hierin rekening gehouden met de aftestgrens. Inmiddels
heeft Lord (1977) over het optimale aantal alternatieven gepubliceerd, en daar zou zijn
'approach IV' tot vergelijkbare resultaten moeten leiden. Ook hij houdt het product van
aantal alternatieven en aantal items constant. Hij berekent dan voor een bepaalde 'Scho-
lastic Aptitude Test' met het model van Birnbaum (in Lord en Novick, 1968) de relatieve
efficiëntie als functie van de trek. Terwijl echter mijn conclusie was dat twee-keuze-toet-
sen steeds efficiënter waren dan de overeenkomstige vierkeuzetoetsen, en wel des te meer
naarmate de items moeilijker waren of de personen zwakker, concludeert Lord:

'The effect of decreasing the number of choices per item while lengthening the test proportion-
ately is to increase the efficiency of the test for high-level examinees and to decrease its
efficiency for low-level examinees'.
De oorzaak van dit verschil moet gezocht worden in de wijze waarop als het ware uit twee
tweekeuze-items één vierkeuze-item wordt samengesteld. Bij Lord geschiedt dit door in
het logistische model Cj = 0,5 te vervangen door Cj = 0,25. Dit komt op hetzelfde neer als
het gebruik van het model van weten of blind raden. In mijn model echter werd aangeno-
men dat twee beweringen werden samengevoegd zodat de kans om het vierkeuze-item
goed te beantwoorden voor elke persoon het kwadraat is van zijn kans om een tweekeu-
ze-item goed te beantwoorden. Vermoedelijk zal in de realiteit soms het ene model van
samenvoeging beter voldoen en soms het andere model. Alleen empirisch onderzoek kan
hierover beslissen.

Het effect van de twee berekeningswijzen kan duidelijk worden getoond met behulp van
de lokale betrouwbaarheid (van Naerssen 1977), die hieronder bepaald wordt met het
binominale foutenmodel (zie Lord en Novick, 1968, ch. 23). Het computerprogramma
(D 149) berekent uit een discrete warescoreverdeling de verdelingsmatrix tussen ware
score en geobserveerde score; daaruit de verwachte ware score voor elke geobserveerde
score; dan de lokale betrouwbaarheid als het verschil tussen opeenvolgende ware-score-
schattingen; en ten slotte de scoreverdeling door optelling over de rijen van de matrix. Het
aantal tweekeuze-items is 50. Het aantal discrete waarden van de ware score is 39 (nogal
willekeurig maar het doet er weinig toe). De vorm van ware-scoreverdeling is resp. platy-
curtisch (fig. 1), ongeveer normaal (fig. 2) en scheef naar links (fig. 3). In de figuren zijn
deze verdelingen met stippen aangegeven (de functie O- Het betreft hier echter eigenhjk
'ware weet-scores', p, dat wil zegpn de ware scores liggen bij tweekeuze-items tussen 0,5
en 1, en zijn te berekenen als 5 + ïp = t.

De kromme A stelt de lokale betrouwbaarheid voor van-de 50-item tweekeuzetoets, de
krommen B en C hebben betrekking op 25-item vierkeuzetoetsen. Bij B is (als bij Lord)
de ware score gelijk aan (3p + l)/4 (verg. de bekende raadcorrectie bij vierkeuze-items),
maar bij C is deze gelijk aan t^.

Om de effecten bij twee- en vier-keuzetoetsen vergelijkbaar te maken, hoewel de scorever-
delingen verschillend zijn, zijn op de horizontale as niet de scores zelf afgezet maar de
relatieve cumulatieve scores, of zo men wil (practisch) de percentielscores.-
Men ziet dat over het hele scoregebied de 50-item tweekeuzetoets superieur is aan de
25-item vierkeuzetoets C, precies zoals langs geheel andere weg in mijn vorig artikel werd
aangetoond. Maar volgt men het model van weten of blind raden dan komt men op de
kromme B, die zich gedraagt als in Lord (1977), d.w.z. in het hoge (percentiel)-
scoregebied is de tweekeuzetoets eveneens beter, maar in het lage scoregebied verdient de
vierkeuzetoets de voorkeur.

Vergelijkt men de krommen B en C dan kan men concluderen dat vierkeuze-items van het

type 'A is waar, B is waar, A en B zijn waar, noch A noch B is waar', welke type model
heeft gestaan in mijn vorig artikel, efficiënt zijn als de p-waarde hoog is (de groep hoog
scoort) maar relatief inefficiënt als de p-waarde laag is.

Uiteraard ziet men ook geïllustreerd hoe de lokale betrouwbaarheid samenhangt met de
ware (weet-)scoreverdeling: als de laatste symmetrisch is wordt de hoogste betrouwbaar-
heid bereikt in het hoge scoregebied (doordat de invloed van het raden daar gering is),
maar een tweede effect lijkt te zijn: hoe kleiner de dichtheid van een gebied van de
ware-scoreverdeling, hoe hoger de overeenkomstige lokale betrouwbaarheid.

Lord, F.M. Optimal number of choices per item - a comparison of four approaches. Journal of

Educational Measurement, 1977,14, 33-38.
Lxjrd, F.M. and Novick, M.R. Statistical theories of mental test scores. Reading, Addison-Wesley,
1968.

Naerssen, R.F. van. Discriminerend vermogen van toetsen met twee- en met vier-keuzeitems. Tijd-
schrift voor Onderwijsresearch 1976,1, 269-272.
Naerssen, R.F. van. Betrouwbaarheid: Begrip en Operationalisatie. Tijdschrift voor Onderwijsresearch
1977,2, 111-119.

Psychologische tijdschriften ontvangen veel meer artikelen dan ze kunnen plaatsen. Eén
van de belangrijkste criteria die tal van tijdschriftredakties hanteren om uit te maken of
een manuscript geschikt is voor publikatie, is de significantie van de gerapporteerde
resultaten (Bakan, 1967). Er is een duidelijke tendens om slechts onderzoeken met signifi-
cante resultaten te publiceren. Net als de Amsterdamse psychologie studenten (van Heer-
den en Hoogstraten, 1978) vindt men onderzoek een stuk interessanter als de resultaten
ervan significant zijn.

Aangezien het publiceren voor de wetenschapper niet van belang ontbloot is zal menig
onderzoeker, door ervaring wijs geworden, al snel slechts zijn significante bevindingen
rapporteren. Hij zal de neiging vertonen data die niet bijdragen tot significantie te nege-
ren. Hij zal overgaan op een eenzijdige toetsing als een tweezijdige niet tot significantie
leidt. Als de ene techniek geen significantie oplevert dan doet de andere dat wellicht wel.
Hij zal dan aannemelijk maken dat die laatste techniek prima past bij zijn probleemstel-
ling. Voor voorbeelden van dit gedrag kan met te rade gaan bij onder meer Barber (1976)
en Mahoney (1976).

Deze jacht op significanties kan er toe leiden dat de kans op de fout van de eerste soort
bij gepubliceerd onderzoek veel groter is dan de gekozen 5 procent. Hiermee worden de
poten onder de laatste zekerheid van het wetenschapsbedrijf weggezaagd. De vast gekozen
kans op een fout van de eerste soort is niet vast.

Er zijn nog vele andere oorzaken waardoor de kans op een fout van de eerste soort groter
is dan men denkt. Een, niet onbelangrijke, ontstaat bij het gebruik van parametrische
statistische technieken. Een voorbeeld om dit duidelijk te maken. Stel dat een onder-
zoeker gebruik maakt van de t-toets voor twee onafhankehjke steekproeven. Het gebruik
van deze toets stelt aan de data de volgende eisen:

Is aan één of meerdere van deze eisen niet voldaan en heeft men niet precies even grote
steekproeven dan is a vele malen groter dan men denkt, zoals gebleken is uit simulatie-
onderzoek. Kiest men a = 0,01 bij de toetsing dan is het zeer wel mogelijk dat de
werkeUjke a twintig maal zo groot is. Kiest men a = 0,05 dan zou de werkelijke a wel
eens 0,25 kunnen zijn, dus vijf maal zo groot (Havhcek en Peterson, 1974).
De gemiddelde onderzoeker toetst in de loop van zijn leven zeer dikwijls op significantie.
Vaak zelfs tientallen malen binnen één onderzoek. Stel dat hij bij al deze toetsingen de
kans op een fout van de eerste soort a gelijk kiest aan 0,05. Dan is het niet onredelijk,
gezien de bewuste dan wel onbewuste manipulaties die de onderzoeker uitvoert zowel bij
het verzamelen der data als bij bewerking daarvan, om aan te nemen dat de werkehjke
kans op een fout van de eerste soort gemiddeld rond de 0,25 zal liggen. Dit impliceert dat
één op iedere vier onderzoekssituaties waarin de nulhypothese waar is, ten onrechte
significante resultaten oplevert. Deze toevalsresultaten worden vervolgens haastig gepubli-
ceerd. De tijdschriften worden op deze wijze voor een groot deel gevuld met ten onrechte
verworpen nulhypothesen. De daarop gebouwde theorieën zijn vaak aardig maar onjuist.
Neyman zegt 'The error that a practicing statistician would consider the more important
to avoid (which is a subjective judgement) is called the error of the first kind' (Owen,
1976). Het hjkt nauwehjks een subjectief oordeel. Is eenmaal significantie gerapporteerd
dan stopt verder onderzoek. De ten onrechte gevonden resultaten worden zelden gecon-
troleerd en bhjven onderdeel van het wetenschapsbedrijf uit maken. In dit Ucht bezien is
het maken van een fout van de tweede soort minder ernstig. Het onderzoek wordt dan
immers vaak voortgezet.

Is een en ander niet zwaar overdreven? Neen, de gedachte dat de fout van de eerste soort
als de zwarte dood door onze hteratuur waart, wordt bevestigd door een analyse van
artikelen uit het Journal of Abnormal and Social Psychology, jaargang I960, door Cohen
(1962). Hij bekeek zeventig artikelen waarin significante resultaten gerapporteerd werden.
Bij al'deze artikelen was het onderscheidingsvermogen bijzonder laag. Dat wil zeggen dat
de kans om de nulhypothese te verwerpen, als de nulhypothese onwaar is, erg klein is.
Dus zelfs al zouden de nulhypothesen bij deze zeventig onwaar zijn, dan is het zeer
onwaarschijnhjk dat men dat met de gebruikte opzet ook had kunnen aantonen. Toch
werd er zeventig maal significantie gevonden. VerÜaring: voor een groot deel fouten van
de eerste soort!

Soortgelijke onderzoeken zijn sindsdien voor andere tijdschriften uitgevoerd onder meer
door Brewer (1972), Brewer en Owen (1973), Chase en Chase (1976) en Elstrodt en
Mellenbergh (1978). De resultaten van deze analyse laten hetzelfde beeld zien.
Ruwweg vallen de artikelen in tijdschriften waarin significanties worden gerapporteerd in
drie categorieën in te delen:

a) significanties ten gevolge van de fout van de eerste soort. Veruit de grootste categorie.

Een voorbeeld: door zeer grote aantaUen waarnemingen te beschouwen toont men aan
dat het gemiddelde in een populafie niet 100 is maar 100,1.

Professor Molenaar pleitte er onlangs in het colloquium van de vakgroep Methodenleer
van de subfakulteit Psychologie van de Universiteit van Amsterdam voor om voornamehjk
eenzijdige toetsingen uit te voeren. De onderzoeker dient over een theorie te beschikken
die het duidehjk maakt in welke richting hij verwacht dat de resultaten uit zuUen vallen
(Molenaar, 1977). Ik ben het met hem eens. Toch zijn er ook argumenten voor een
tweezijdige toetsing aan te voeren waarbij dan wel sterk op de relevantie gelet moet
worden. Met behulp van een voorbeeld zal ik aangeven waarom. Stel dat ik de hypothese
H : p = 2 toets. Als ik dit tweezijdig doe zal ik verwerpen, indien de gevonden steekproef-
fractie veel kleiner dan wel veel groter dan \ is. Stel dat ik door het optreden van de fout
van de eerste soort de hypothese verwerp op grond van een door mij gevonden steekproef-
fractie, die dicht in de buurt van de nul hgt. Mijn resultaten worden gepubliceerd. Een
andere onderzoeker rephceert, o wonder, mijn onderzoek. Ten gevolge van de fout van de
eerste soort vmdt hij opnieuw significantie. Zijn steekproeffractie ligt dicht in de buurt
van de 1. Zijn resultaten worden gepubhceerd. Een controverse is geboren en het onder-
zoek zal worden voortgezet. Daarmee wordt voorkomen dat mijn resultaten zonder meer
worden aanvaard en bijgezet in het wetenschappelijk museum.

De werkelijke waarde van a hangt af van de gekozen waarde van a. Een motivatie voor de
keuze van a is dus van het grootste belang. Meestal kiest men a gelijk aan 0,05 of 0,01.
Waarom? Historisch te verklaren willekeur is het antwoord. Enig speurwerk leert dat deze
getaUen voor het eerst opduiken in een artikel van Fisher uit 1926 getiteld 'The arrange-
ment of field experiments'. Fisher geeft een voorbeeld van een boer die een hectare grond
bemest, terwijl de ernaast liggende hectare grond niet bemest, maar overigens op dezelfde
wijze behandeld wordt. De oogst op de bemeste hectare valt 10% hoger uit. Is dit nu het
resultaat van de bemesting of van andere factoren zoals ligging en verschil in grondsamen-
stelhng? Fisher merkt dan op dat, als de boer in de afgelopen 20 jaar met dezelfde
behandeling van de beide stukken grond nooit een verschil in opbrengst van 10% heeft
weten te bereiken, het wel erg toevallig zou zijn als het nu opgetreden verschil niet door
de bemesting te verklaren zou zijn:

"... the evidence would have reached a point which may be called the verge of significance; for it
is convenient to draw the line at about the level at which we can say: "Either there is something
in the treatment or a coincidence has occurred such as does not occur more than once in
twenty trials". This level, which we may call the 5 per cent point, would be indicated, thou^i
very roughly, by the greatest chance deviation observed in twenty successive trials. If one in
twenty does not seem high enough odds, we may, if we prefer it, draw the line at one in fifty

(the 2 per cent point) or one in hundred (the 1 per cent point). Personally, the writer prefers to
set a low standard of significance at the 5 per cent point, and ignore entirely all results which
fail to reach this level.'

Tot zover Fisher. Het is duidehjlc waaraan we het 5% niveau te danken hebben. Het is
direct gerelateerd aan de levensduur van de mens. Een boer rond 1900 zal niet snel op
meer dan twintig jaar bewerking van zijn land terug kunnen kijken. Vandaar deze keus
van Fisher. Had hij een voorbeeld met een schildpad gekozen dan zouden onze normen er
nu heel anders uitzien. Het zou geleid hebben tot een gemiddeld vijfmaal kleiner signifi-
cantie niveau. In onze bibUotheken zou slechts een klein deel staan van wat ze nu
bevatten aan boeken en tijdschriften.

Er zijn vele verbeteringen mogelijk en voorgesteld om iets aan de bovengenoemde proble-
men te doen. Zie bijvoorbeeld Koele (1977) in dit tijdschrift. Op één, sterk verwaarloosde,
wil ik de nadruk leggen. Zowel onderzoeken die significante resultaten opleveren, alsook
onderzoeken die dat niet doen, moeten zo veel mogelijk gerepliceerd worden. En dan wel
in de constructieve zin (Lykken, 1968). Slechts op deze wdjze kan de invloed van het
toeval op de psychologie, en dus ook op de onderwijsresearch, ontmaskerd worden.

Bakan, D. Tlie test of significance in psychological research. In: On method. San Francisco: Jossey-
Bass, 1967, 1-29.

Brewer, J.K. On the power of statistical tests in the American Educational Research Journal. American
Educational Research Journal, 1972, 9, 391-401.

Brewer, J.K. and Owen, P.W. A note on the power of statistical tests in the Journal of Educational
Mcusmcment. Journal of Educational Measurement, 1973,10, 71-74.

Chase, L.J. and Chase, R.B. A statistical power analysis of applied psychological research. Journal of
Applied Psychology, 1976, 61, 234-237.

Cohen, J. The statistical power of abnormal-social psychological research. A review. Journal of Abnor-
mal and Social Psychology, 1962,65, 145-153.

Elstrodt, M. en Mellenbergh, G.J. Eén minus de vergeten fout. Nederlands Tijdschrift voor de Psychol-
ogie, 1978, ii, 3349.

Fisher, R.A. The arrangement of field experiments. J. Ministry Ag., 1926,33, 503-513.

Havlicek, L.L. and Peterson, N.L. Robustness of the t-test: a guide for researchers on effect of viola-
tions of assumptions. Psych. Reports, 1974,34, 1095-1114. -

Heerden, J.H. van en Hoogstraten, J. Significance as a determinant of interest in scientific research.
European Journal of Social Psychology, 1978,5, 141-143.

Koele, P. Over foute beslissingen bij nulhypothesetoetsing. Tijdschrift voor Onderwijsresearch, 1977,
4, 185-188.

Lykken, D.T. Statistical significance in psychological research. Psychological Bulletin, 1968, 70,
151-159.

Mahoney, M.J. Scientist as subject: The psychological imperative. Cambridge, Massachusetts: Ballin-
ger, 1976.

Molenaar, W. Ik word ziek van de statistiek, of: er van weten zonder ernaar te handelen. Mens en
Maatschappij, 1977, 58;71.

Owen, D.B. On the history of statistics and probability. New York: Marcel Dekker, 1976.

Bi] de vakgroep Psychometrie, Statistiek en Modelvor-
ming van de Subfaculteit bestaat een vacature voor de
functie van

het leiding geven aan het onderzoek van de vakgroep
PSM op het gebied van de psychometrie en het advi-
seren bij onderzoeksprojecten van andere vakgroepen
binnen de Subfaculteit Psychologie

het deelnemen aan activiteiten op het gebied van be-
stuur en beheer ten behoeve van de vakgroep en de
Subfaculteit Psychologie.

een afgestudeerde in de Sociale Wetenschappen, bij
voorkeur een psycholoog/oge die gepromoveerd is op
een onderwerp uit de psychometrie of een daaraan
verwant gebied. Ook zij die binnenkort op een derge-
lijk onderwerp zullen promoveren, worden uitgeno-
digd te solliciteren.
Onderwijservaring is zeer gewenst.

01823-2851 (privé).
Zowel zij die belangstelling voor deze funktie hebben
alsook degenen die de aandacht willen vestigen op
mogelijke kandidaten kunnen zich tot vier weken na
het verschijnen van deze advertentie richten tot de
voorzitter van de benoemingsadviescommissie, p/a
Drs. F. Holtzer, Subfaculteit Psychologie, St. Jacobs-
straat 14, Utrecht.

Sollicitaties dienen vergezeld te gaan van een curri-
culum vitae en een lijst van publicaties. _

'hoog' (h) indien X > X^
'hoog' (h) als (b.v.) in hoogste klasse
'hoog' (h) als "geslaagd" (b.v. VHMO)

Gaan we hiervan uit dan is het hele materiaal waarmee de berekeningen worden uitge-
voerd weer te geven als een achttal basis-frequenties, met als som de grootte van het
gehele materiaal. We schrijven ze als A, B, C, D met een index 1 voor 'hoog' en 2 voor
'laag' op de Y-variabele (milieu), als volgt

Pihh=Ai Phhh=^i Fhhi=Di

1. Is het nu wel of niet juist (Roe (1977) vs. Van Meerem en Van Peet (1976)) dat de
'intellectuele reserve', zoals gedefinieerd en berekend door Van Meerem en Van Peet, wel
moet dalen naarmate de validiteit van de predictor toeneemt, vice versa? Is hier sprake
van een bevinding met empirische betekenis of — zoals velen vermoedden — van een
betrekkelijk simpel algebraïsch artefact dat bij 'redelijke' waarden van de desbetreffende
gegevens wel moet optreden?

2. Bij de bedoelde reserve-berekening hebben we te maken met een drie-variabelen-pro-
bleem. Bij de berekeningen zijn zij alle drie gedichotomiseerd:

3. Deze acht frequenties zijn nu te groeperen in 2 x 3 twee-bij-twee-tabellen, die het
(correlatieve) verband aangeven tussen telkens twee variabelen, als de derde variabele
hetzij 'hoog' hetzij 'laag' is. Voor ons betoog hebben wij er maar drie van de zes nodig:

4. Hoe zit de Reserve-formule in elkaar? De gedachte die eraan ten grondslag ligt is in
termen van het bovenstaande simpel uit te drukken. Aangenomen wordt, dat wat in de
hoge milieu-groep (Y > Yc) mogelijk is gebleken, qua succes (Z > Z^) van redelijk
begaafden (X > Xc), namelijk de gevonden relatieve succesfrequentie:

1 In het volgende zijn mede ideeën van anderen verwerkt (Van Peet, Roe, en O. Kamstra met name);
waarvan acte.

ook mogelijk kan worden gemaakt in de lage milieugroep (Y < Y^). Zou dat lukken dan
zou het mogehjk zijn de totale relatieve frequentie van succes (Z > Z^) ongeacht miheu
(Y), voor redehjk begaafden (X > Xc), dus de frequentie fj:

door 'aanboren van de reserve' op te voeren tot het niveau van fi = Bj : (B, + Dj).
Definieert men nu Reserve'^ als de relatieve grootte van de mogehjk geachte toename, dus
als (fl — f2) : fl, dan wordt de formule:

5. De formule is doorzichtiger te maken door algebraische vereenvoudiging, namelijk
tot:

en vervolgens door invoering van relatieve frequenties ten opzichte van de totale frequen-
tie van 'redehjk begaafden', die we M zullen noemen:

Schrijven we de relatieve frequenties met kleine letters (dus— = bj, enz.) dan is (2) als
volgt te schrijven: ^

6. Wat gebeurt er nu als men de vahditeit van de predictor - de begaafdheidsbepahng -
opvoert; of concreter: als men een minder vahde predictor (X) door een meer vahde
predictor vervangt, met behoud van dezelfde waarden voor Xc, Yc en Z^p. Deze hand-
having spreekt wat Yc en Zc betreft vanzelf: de aangenomen milieu- en succescriteria
blijven dezelfde; en wat de predictor betreft, is het reëel om de vergehjking uit te voeren
met eenzelfde relatieve frequentie van 'redelijk begaafden'.

Gegeven de onscherpte en de onduidelijke relevantie van de aangenomen milieu-grens (in
een continuum) enerzijds, en gegeven de algemene ervaring met vahdatie-onderzoek an-
derzijds, mag men er van uitgaan dat een 'betere succesvoorspeller' zowel in de hoog- als
in de laag-miheugroep beter voorspelt — zij het welhcht in verschillende mate. Omdat de
randfrequenties in de tabellen 1 en 2 dezelfde bhjven, behoeft men nu slechts (2x) één
onbekende frequentieverhoging, V (of verlaging, -V), in te voeren om de tabehen met
betere predictor,\', te kunnen uitschrijven; zie tabellen 4 en 5:

2 Definitie en formule behoren bij de hier weergegeven hypothetische gedachtengang - die zelf
nauwelijks deugt, gegeven de imperfectie van onze bepalingen van 'voldoende begaafdheid'. Men zit
met zijn schatting op de verkeerde regressielijn; maar dat is een ander probleem.

Voor X' wordt de Reserve-uitkomst, als we weer op relatieve frequenties (kleine letters)
overgaan, dan als volgt:

Hieruit is onmiddellijk te zien dat, wat de noemer betreft, de verhoging van de validiteit
tot een lagere reserve moet leiden. Alleen zou het kunnen zijn dat de teller dit effect te
niet doet.

De eerste twee termen vormen de 'oude' teller; daar komt iets bij en daar gaat iets af.
Over de relatieve grootte van Vj en Vj is op voorhand weinig te zeggen - dat hangt ervan
af of de predictor beter (of slechter) werkt in de hogere of in de lagere milieu-groep —
maar dat geldt niet voor de grootte van (bi + dj) en (b2 + d^). Dat zijn namelijk,
respectievelijk, de relatieve frequenties van hogere X-scores in de hoge en lage milieu-
groep (Y). Gaan wij uit van de normale bevinding dat er relatief meer 'redelijke begaafd-
heid' (gemeten met X) in de hogere dan in de lagere milieu-groep voorkomt, dan is aan te
nemen dat (bj + dj) in het algemeen groter zal zijn dan (b2 + d2). Laten we de v-grootte
buiten beschouwing — op goede gronden, zie boven — dan betekent dit, dat er meer van
de 'oude' tellerwaarde wordt afgetrokken, dan erbij wordt opgeteld. De T van (6) zal dus
in het algemeen kleiner zijn dan de teller van (4); ergo: ook dit werkt in de richting van
verlaagde reserve bij verhoogde validiteit.

7. Is hier onderuit te komen? Als men nu eens een predictor had die wèl (valide) 'rede-
lijke begaafdheid' m?t, maar 'milieu-vrij' was, dan zou^men toch geen systematisch ver-
schil mogen verwachten tussen de X-plus-frequenties van hoog en laag milieu; dus bj + dj

We komen in de buurt van Roe's redenering - maar daarmee nog niet van de waarheid.
Allereerst dit: gelijkheid van b, + dj en bi + d^ zou alleen te verwachten zijn als de
predictor (voor begaafdheid) statistisch onafliankelijk zou zijn van milieu-verschil. Dat
houdt in dat men zou uitgaan van de 'sociale nulhypothese', dat het milieu van de ouders
in het geheel niets te maken kan hebben met de (verdeling en het gemiddelde niveau van)
de aanleg van de kinderen. Poneren van zo'n statistische onafhankelijkheid is: het doen
van onderzoek vervangen door het poneren van een a priori - een a priori, waarvoor
hoogstens politieke maar in ieder geval geen wetenschappelijke argumenten zijn aan te
voeren. Integendeel, vrijwel alles wat we van genetica en uit zeeën van empirisch test-
onderzoek en analyses daarvan weten, pleit daar tegen.

Minder dwaas is de gedachte dat men eigenlijk predictoren zou moeten hebben die experi-
menteel onaßankelijk van milieu-invloeden zijn. Dan zou men eindeUjk eens direct kun-
nen nagaan hoe het precies staat met de nature-nurture-vraag; in ons geval zou het dan op
de grootte van het verschil (b, + d,) - (bz + dj) aankomen - dat dan geheel aan
statistische aanlegsverschillen tussen kinderen uit verschillende miheus zou kunnen wor-
den toegeschreven. Helaas is dit, zoals we weten, een schone droom: 'experimentele
milieuvrijheid' van verstandelijke prestatiematen is (in onze cultuur) niet te realiseren.
Dit laatste betekent dat wij geen middelen hebben om 'milieu-contaminatie' uit te sluiten;
we kunnen alleen met meer of minder milieu-afhankelijkheid werken. Voor de praktijk
van reserve-schattingen - als uitgevoerd met onze formule - houdt dit eens te meer in dat
wij ook wat de teller van onze breuk betreft (5), geen mogelijkheid hebben om 'onder'
het validiteitseffect 'uit te komen'. De conclusies zijn, dat, bij de gegeven berekenings-
wijze:

1. een reserveschatting tot stand komt, die systematisch en sterk (via noemer en teller)
afhangt van de validiteit van de predictor waarmee 'redelijke begaafdheid' wordt gemeten:
hoe hoger de validiteit des te lager de gevonden reserve;

2. deze niet weg te werken afhankelijkheid een artefact van de berekeningswijze is, dat
licht werpt op de serieuze defecten ervan.

Meeren, L.M. van & Peet, AJ. van. Intellectuele reserve als indicatie voor gelijkheid van kansen.

Tijdschrift voor Onderwijsresearch, 1976, 241-255.
Roe, R.A. Het schatten van intellectuele reserves. Tijdschrift voor Onderwijsresearch, 1977, 2,
120-131.

Ik ben het met De Groot en met Van Meerem en Van Peet (TOR, 1976, 1, 241-255)
geheel eens wanneer zij willen beweren dat er gevallen zijn waarin meer valide prediktoren
tot hogere reserve-schattingen leiden. Dat zijn dan die gevallen waarin sprake is van
milieu-gevoeligheid van de prediktoren (mijn artikel in TOR, 1977, 2, 120-131 geeft een
voorbeeld).

Mag men nu stellen dat dus de reserve van de validiteit afhangt? Naar mijn mening niet,
ook al komt milieu-gevoeligheid nog zo vaak voor. Er zou alleen iets voor te zeggen zijn
wanneer men zou aannemen dat milieu-gevoeligheid onontkoombaar is, maar is zulk een
aanname nu juist niet - want wat zegt het erfelijkheidsonderzoek precies? dat het niet
anders kan? - een politiek a priori?

De auteurs geven een overzicht van 29 cursussen van instituten van tertiair onderwijs die sinds 1970 in
Nederland en België volgens overeenkomstige onderwijskundige principes zijn opgezet. Op de theore-
tische achtergronden van deze onderwijskundige principes wordt niet ingegaan; de auteurs pretenderen
niet meer dan een volledig en gedetailleerd overzicht te geven, dat '(...) de docent, die het opzetten van
een ISS-kursus overweegt, de informatie (verschaft) die nodig is om de invoering van de kursus een
grote kans op sukses te geven.' (pag. 7). Ik denk dat deze pretentie inderdaad wel waar te maken is,
vooral wanneer de betreffende docent goede nota neemt van de Knelpunten die de auteurs in het
laatste hoofdstuk opsommen.

Naar aanleiding van het knelpunt 'Het konstrueren van toetsen' wil ik een aanvullende opmerking
maken. Hofstee (1975) heeft al gewezen op problemen bij de psychometrische item analyse van
toetsen bij beheersingsleren. Een ander probleem lijkt mij dat van de betrouwbaarheid van de beslissing
omtrent het beheersingsniveau van de student. Deze zal, bij het gebruikelijke geringe aantal meerkeuze-
vragen per toets, alarmerend laag zijn (Van den Brink en Koele, 1978). Dat betekent dat met name
voor studenten met een beheersingsniveau rond het vereiste niveau (op zich al een niet geringe
prestatie) de toetsprocedure een nogal grillig karakter heeft: nu eens slagen, dan weer zakken, etc. De
door de auteurs gerapporteerde algemene onvrede van ISS-studenten over de kwaliteit van de
studietoetsen hjkt me in dit licht bezien dan ook niet verwonderlijk, en alleszins terecht. Bezinning op
dit aspect van de toetsingsprocedure is zeker noodzakelijk.

Individuele Studie Systemen in het tertiair onderwijs is een informatief boek, prettig en overzichtelijk
geschreven, en aan te bevelen voor iedereen die in vernieuwingen in het onderwijs is geïnteresseerd.

Brink, W.P. van den,'en P. Decision making in achievement testing. Ongepubliceerd manuscript.
Universiteit van Amsterdam, 1978.

Hofstee, Willem K.B., Toetsbetrouwbaarheid bij Mastery Learning, Tijdschrift voor Onderwijsresearch,
1975,7,4345.

Van de eerste jaargang van Tijdschrift voor Onderwijsresearch (1975/1976) is nog een klein aantal
volledige exemplaren voorradig. Deze zijn nu verkrijgbaar tegen de gereduceerde prijs van 20 gulden (+
verzendkosten).

Bestellingen kunnen worden gericht aan: Stichting IVlO, Maerlanthuis, postbus 37, Lelystad.
Nieuw tijdschrift voor onderzoek van het lezen

Tlie first issue of T)te Journal of Research in Reading appears early in 1978. This new journal, which
will be pubhshed twice a year, will be principally devoted to reports of empirical studies in reading and
related fields, and informed reviews of relevant literature. It is also intended to mclude brief research
notes (including abstracts of theses), notices of conferences (including calls for papers), and reviews of
books and published research reports. The main language of tlie journal will be English but some
articles may be in French.

Also there will be substantial summaries in French of most of the contents, and English summaries of
articles pubhshed in French. The journal is supported fmancially by tlie United Kingdom Reading
Association but has an Editorial Advisory Group which includes representatives from several European
countries. It is hoped that the journal will help to provide a forum for European researchers into
reading, although an international readership is anticipated.
A style sheet is available for those interested in contributing to the journal.
Please request this from: A.K. Pugh, Editor: The Journal of Research in Reading,
The Open University, Fairfax House, Merrion Street, Leeds. LS2 8JU, Great Britain.

Nadere inUchtingen: J. Ulijn, Vakgroep Toegepaste Taalkunde, T.H. Eindhoven, Postbus 513, Eind-
hoven, teL 472914.

Ter gelegenheid van het tienjarig bestaan organiseert het Centraal Instituut voor Toetsontwikkeling
(CITO) op 4 en 5 oktober 1978 een symposium, gewijd aan het thema 'Leerplanevaluatie'.
Aan de orde zullen komen problemen rond centralisatie en decentralisatie van leerplanevaluatie als-
mede vraagstukken op methodologisch terrein.

Deelname aan het congres geschiedt op invitatie: diverse instellingen en personen in Nederland ontvan-
gen tijdig een uitnodiging.

Naast Nederlandse sprekers zijn ook enkele buitenlandse onderzoekers uitgenodigd.

Zij die door een paperlezing aan het symposium willen bijdragen, worden verzocht contact op te nemen

Er bestaat vooral belangstelling voor rapportage van case-studies en voor bijdragen op het gebied van
instrumentontwikkeUng.

Het Prof. Duijkerfonds is door de Universiteit van Amsterdam ingesteld om door het doen van
(doorgaans jaarlijkse) geldelijke uitkeringen de beoefening van de toegepaste psychologie te bevorde-
ren.

Voor het jaar 1978 is een bedrag van ƒ 25.000,- beschikbaar ten behoeve van een of meer onderzoek-
projecten. De bedoeling is kwalitatief onderzoek mogelijk te maken, dat anders niet gerealiseerd zou
worden omdat de middelen ontbreken. Te denken valt bijvoorbeeld aan financiële steun voor

2. Aanvragen moeten gemotiveerd worden. Vermeld dient te worden wat de doelstelling van het
project is, de opzet en wijze van uitvoering, de duur, de wijze van verslaglegging, de medewerkers
en degene die verantwoordelijk is voor de uitvoering, en voorts een nauwkeurige begroting van de
kosten. Tevens dient vermeld te worden waarom het project niet uit andere bron gefinancieerd kan
worden.

3. Aanvragen zullen door de Adviescommissie van het Prof Duijkerfonds beoordeeld worden op

- het aangevraagde bedrag (eventueel in het verband van de totale projectbegroting).

De Adviescommissie wordt gevormd door de leden van het bestuur van de Stichting Instituut voor
Sociale en Bedrijfspsychologie aan de Universiteit van Amsterdam (ISBP), aangevuld met een lid
van de Wetenschapscommissie van de Subfaculteit Psychologie.

4. Schriftelijke aanvragen tot een maximum van ƒ25.000,- kunnen - vóór 1 sept. 1978 worden
gericht aan:

De Adviescommissie van het Prof. Duijkerfonds, t.a.v. Dr. A. Jansen, p.a. Stichting ISBP, Keizers-
gracht 649, Amsterdam, tel.020-525.3528.

Berge, Jos M.F. ten. Optimizing factorial invariance. Proefschrift, R.U. Groningen, 1977.
Beroepskeuzevoorlichting en beroepsopleiding van vrouwelijke werknemers. Brussel: Commissie van de

Europese Gemeenschappen, 1976.
Beroepsopleiding, Informatiebulletin van het Europese Centrum voor de Ontwikkeling van de Beroeps-
opleiding, 1977, nr. 3-4 (de opleiding van vrouwen binnen de Europese Gemeenschap).
Geffen, L.M.H.J., van. De keuze van werk: ontwikkeling van een model, een meetinstrument en een

begeleidingsmethodiek. Culemborg: Schoolpers b.v., 1977.
Horst, W. ter. Het herstel van het gewone leven. Groningen: Wolters-Noordhoff 1977 (= Orthovisies-5).
Leraren bij het avondonderwijs. Een verslag van een onderzoek onder leraren bij het avond-MAVO,

-HAVO en -VWO. Amersfoort. Studiecentrum NCVO, Avondscholenprojekt (SVO-0303), 1978.
Meerem, L.M. van & Tordoir, A. Descriptieve analyse van leerboeken. SVO-projekt 0257, Interimrap-
port III. Afsluiting van de fase 'taalmethoden basis-onderwijs,' Amsterdam, R.I.T.P.
Pel, P.C. Project leerplan MLK scholen. Verslag van activiteiten en resultaten over de periode maart

1976 tot cn met juni 1977. Rotterdam: Gemeentelijk Pedologisch Instituut, 1977.
Peschar, Jules. Milieu School Beroep. 2e aangevulde en verbeterde drujc. Groningen: Uitgeverij Erich

Konstapel b.v., 1978 (ISBN 90 6293 001 8)
Rookhuyzen, R.F. van. Plomp, Tj. & Pilot, A. Individuele studie systemen in het tertiair onderwijs.

Een overzicht. Groningen; Wolters-Noordhoff, 1978 (= Serie OTO-cahiers, no. 3).
Spaandonk, J.W.M., van (red.). Herverkaveling hoger onderwijs. Persoonlijke reacties op de nota Hoger
Onderwijs in de Toekomst. Groningen: Wolters-Noordhoff, 1978. (= Serie OTO-cahiers, no. 2.)

Cutting scores may be determined by means of relative or absolute methods. Often a mixture of
these extreme methods seems more appropriate. Some hybrids are proposed based on a Baye-
sian approach to the problem. The relation with some well-known equating procedures is
discussed.

Which cutting score to use for a particular examination is not an easy decision to make.
Of course there are some very important aspects that one has to consider while making a
decision conceming the examination for a particular course, such as the kmd of goals one
sets for the course, the level of difficulty of the examinations, the expectancy of the
students' possible achievements and the relative losses of wrong pass and fail decisions.
We shall consider the situation in which a certam range of possible passing scores has
already been determmed. Then it is possible to make use of the so-called absolute ap-
proach, an approach in which only one pass level is used for all examinations. Whenever
the exammations have a large variation in difficulty level, the absolute approach seems an
unreasonable procedure to use. When in this situation the different groups of examinees
are known to be comparable, raw score differences between examinations are almost
completely determined by differences between examination forms. When this is the case,
a relative procedure for determining the passing score is more adequate. In the past many
proposals for setting the passmg score were either relative or absolute.
In practice both difficulty level of examinations and the mean level of groups of students
vary. Thus a procedure lying between the extreme absolute and the extreme relative
procedures would be more appropriate. This idea is expressed by e.g. Ebel (1972), 'to
keep the amount of content knowledge, and the proportion of passes and failures within
what seems to be reasonable bounds while making allowance for the unavoidable errors of
measurement... would seem to have considerable merit as a rational solution to a difficult
problem'. (Ebel, 1972, p. 495). This Ime of reasoning is followed mtuitively by many
teachers.

Recently a hybrid approach has been suggested by De Gruijter (1977, p. 38-39). In this
article the proposal to combme relative and absolute information is worked out. More-
over the results are compared with some equating methods.

Let us suppose that examinations differ in level of difficulty, but not in scale. Further,
assume that the measurement of the achievement of examinees is not influenced by
random error. Then the mean score of examinee group i can be decomposed according to
the following additive model:

in which J-, is the achievement level of group i - the expectation of Xj over examination
forms - and 6j is the relative easiness of the examination taken by group i. The parameter
5i can be conceived as a disturbance, 6; = Xj -Tj.

We assume that we have no a priori reason to believe that a particular group of examinees
is better or worse than other groups;groups are exchangeable, except with respect to the
number of examinees in a group. The same goes for the examinations, we have no prior
knowledge with respect to the relative easiness of a particular examination, i.e. the
examination effect can be conceived as random error. However, we assume that we know
the variation between groups and between examinations. The prior information for Xj is
supposed to be N^'a^), where Nj denotes the group size; this means that individual
examinees can be considered as sampled from a normal distribution with known mean ^
and known variance a^. The disturbance 5 is distributed N (0, a|). Given this prior
information and the examination results for group i, we can obtain the posterior estimate
of Tj (Jackson, 1976, p. 6):

This estimate is a weighted average of the prior mean p. and the sample mean Xj, the
weights being the precisions of the two kinds of information, in other words the inverses
of the respective variances.

By means of (2) we can correct the passing score Cq, which has been determined without
taking the relative easiness Sj into account:

The passing score Q is thus a weighted average of the absolute passing score and the
relative passing score, the weights being the precisions of the absolute and relative infor-
mation.

Case I was based on the unreaUstic assumption that one is completely sure about the
values ju, a^ and a|. Now we are ready to dispense with this assumption. First, let us
assume that we have no complete knowledge of the real value of p. The more examina-
tions one has given the more precise the knowledge about ju. In this case only one change
in (2) is necessary (Jackson, 1976, p. 14); ju should be replaced by

With a uniform prior of ii, meaning that we have no prior information with respect to the
location of /t, all information is contained in the examination results X; and we can start
with i equal to one in (5). Otherwise we start with i = 0, ho and w© where N (jjiq, Wq')
conveys the prior information about fi.

Next, we can dispense with the assumption that oj and al are known. We do this by
specifying prior distributions for a^ and a|. The parameter a^ has an inverted chi square
distribution (v^, A^)! ^'s distributed X"^ (ug, Xg). Here Vj and Ug are degrees of
freedom indicating the precision of the prior knowledge; X^/u^ and Xg /ug can be regarded
as prior estimates of a^ and . The estimarion of Sj is done by solving a set of equarions,
known as the Lindley equations, iteratively (Jackson, 1976, p. 15).
We will not go into the details of this whole procedure. We wdll formulate a model II
analysis instead.

When the number of examinations increases, prior information becomes less important.
Finally an ordinary ANOVA will ^ve accurate estimates of o^ and Og. Table 1 gives
the relevant ANOVA for equal number of examinees. In the equal N case (2) can now be
rewritten as:

Table 1

ANOVA for n examinations.

MS	df	E(MS)
B (within)	n-1
W (within)	n(N-l)

Formula (7) is the sample version of the well-known Kelley estimate.
Until now we have been assuming that measurement is not influenced by random error,
which means that the reliability of the examinations should be equal to one. In case the
reliability is not close to one, o^ in table 1 should be replaced by a^ = oy + Og,
^^4lere a^ is the variance of the errors of measurement. Furthermore which is the

ratio of estimated true variance to estimated true variance plus variance due to other
sources, should be defmed as:

The component a\ can be estimated from an internal analysis of the examinations:
is the ordmary generalizabihty coefficient.

Formulas (7), (8) and (9) can also be used when the number of examinees in the different
groups varies. Then N denotes the number of examinees of the examination for which an
adjusted passmg score is to be determined. However the ANOVA in table 1 has to be
changed shghtly. A kind of mean Nj should be used as coefficient for al in this table. The
correct value is

where n equals the number of examinations (compare this with factor 'A' in: Scheffe,
1959, p. 254)

If Co is chosen before the true value of /n is known, it is possible to find Cq unreasonably
high or unreasonably low when more information about y. becomes available. Hofstee
(1973) considers this possibility after criticizing the customary equating approach in
which the passing level is determined once and for all. Hofstee argues that mformation
from new groups of examinees should be incorporated in the passing score. More specifi-
cally, he proposes passing scores for two successive groups which are in our notation:

This means that the passing score should be determined in relation to the population of
potential examinees: it lies a distance d, chosen by the examiner, below the population
mean. The first estimate of /i equals Xj and the second^ estimate, incorporing data from
two exammations, equals (NiXi + N2X2)/(Ni + N2): thus the mean of each examination
is weighted by the number of examinees. Ihe optimal weights, however, are (N"' al +
Og)'^ (using a^ mstead of aj m formula 6); so only in the case that 05 equals zero (and
all weights are multiphed by d^) they are equal to Nj.

Further it is unlikely that one is prepared to change Cq as much as n' changes. It is
reasonable to suppose that Cq is chosen in accordance with the prior estimate jno of /j:
the difference do = f/Q - Cq is fully acceptabel. In case the posterior esthnate of is
different from po» it is hkely that one is only prepared to add a fraction a of (ji' — Ho) to
Co, where a is to be determined by the examiner:

The hybrid models of the previous paragraphs are based on the idea that no specific
information about the groups of examinees or about the examination forms is available.
Sometimes more information about the quality of a group of students and/or the relative
easiness of an examination form is known (or can at least be made available). In some
cases an objective 'anchor' for comparing groups of examinees is available, such as results
on an examination for another course with known characteristics.

Assume that group i, existing of N examinees, has a mean score y; on an anchor test,
while the population mean equals y.. In this case the prior estimate ofTj does not equal
ji but:

mean true score for groups of N examinees, T^j^^, on the mean score of those groups on
the anchor test, y(N). It is well-known that the variance of y/^j, Oy equals hT'Oy.
Furthermore, the covariance of T(j^) and for groups of size N, 0(7, jO(n)' equals
N"' a(T, y). In order to show this, we take, without loss of generahty, the deviation scores
^(N) and^(N) instead of T(n) and y(N). Now we have:

where the expectation is taken over all possible combinations of N examinees from an
infinite population. Furthermore a(r, y) can be replaced by a(x, y), because:

If we drop the assumption that examinations are randomly sampled, the passing score will
be:

which is a simplified version of Lord's equating formula based on the random sampling of
groups assumption (Lord, 1955; see also Angoff, 1971, p. 577). The hybrid counterpart,
for equal numbers of examinees, using (3) and (7) is:

in case the estimates r-j^j^j^) and x. from (7) can assumed to be equal on both occasions.
Van Naerssen (1966) suggested an equating procedure whenever the assumption that
groups are random samples does not hold. The anchor Y is a common subtest of examma-
tions Xl and X2. The equating formula reads in a simplified version (the same standard
deviations for both groups):

De Gruijter (1971) demonstrated that equating should involve the true score scale. So in
(20)

ST(x)/sT(y) = Sx-y/r^/syv/r^ should be used instead of Sx/Sy. According to Angoff
(1953) n = Sx(x)/sT(y) can be estimated by

which is a simplified version of AngofPs equating formula (Angoff, 1971, p. 582).
Discussion

The procedures for determining the passing score discussed here, differ in nature and the
amount of information they use and therefore in their accuracy. It is e.g. in the hybrid
procedure not possible to obtain a higher passing score for a group with a lower mean
score.

In practice the assumptions of the hybrids will practically never be fuUfilled. Take for
instance examinations with different proportions of students who have failed on one or
more previous occasions. In case this group of students has a different level of achieve-
ment than the group of students who have a first try at the exam, the randomness
assumption for examinees clearly does not hold. Nevertheless there are many situations in
wdiich the hybrids can be considered as approximate solutions for the passing score
problem and more defensible than the ordinary absolute or relative solutions.

Still, more accurate pass/fail decisions are possible. The optimal passing score for lower
scoring groups is higher than for groups with higher achievements. The optimal passing
score is however rarely used in connection with ordinary examinations, since it is based
on the (a priori) assumption that examinees within a group are exchangeable. This might
be a useful startmg point for 'the decision maker but it mi^t be an unacceptable idea for
some of the examinees (Jackson, 1976, p. 13). Should we nevertheless use this option in
connection with the hybrid procedure for determining the passing score, then the final
passing score will be closer to an absolute passing score.

Angoff, W.H. Test reliabUity and effective test length. Psychometrika, 1953,18, 1-14.

Angoff, W.H. Scales, norms and equivalent scores. In R.L. Thorndike (Ed), Educational measurement,
Washington D.G: American Council on Education, 1971.

Ebel, R.L Essentials of educational measurement. Englewood Qiffs: Prentice Hall, 1972.

De Gruijter, D.N.M. Het handhaven van normen bij studietoetsen door toetsvergehjking. Nederlands
Tijdschrift voor de Psychologie, 1971, 26, 480490.

Hofstee, W.K.B. Een alternatief voor normhandhaving bij toetsen. Nederlands Tijdschrift voor de
Psychologie, 1973, 28, 215-227.

Jackson, P.R The philosophy and methodology of Bayesian inference. In D.N.M. de Gruijter and
LJ.Th. van der Kamp (Eds.), Advances in psychological and educational measurement. London:
Wiley, 1976.

Lord, F.M. Equating test scores - a maximum likehhood solution. Psychometrika, 1955, 20, 193-200.

Van Naerssen, R.F. Het handhaven van eenmaal aangenomen normen bij opeenvolgende objektieve
toetsen. Paedagogische studiën, 1966, 43, 312-320.

In classical test theory, the observed score X is written as the sum of Ihe true score T, a fixed
value per individual, and the measurement error E. The equations g E = 0 and p(T,E) = 0,
'are taken to hold in every nonnull subpopulation' (Lord & Novick, 1968, p. 56).
What happens to these equations when the subpopulation is defined as all individuals with
observed scores^ a fixed interval? The reader may wish to write down his educated guess for
the values of ^E and p(T,E) calculated for persons scoring between 90 and 110 on a stan-
dard l.Q. test. Table 2 of this note will show whether his guess was a good one.
Although the general nature of such results follows directly from the restriction a < T + E < b
and from the Kelley formula for regression to the mean, the Uterature seems to offer no
detailed presentation of the consequences. The results of this note should encourage correct
inferences among aU educational researchers that split their subjects into high, medium and low
scores on the basis of some fallible measurement X.

Section 1 contains a fairy tale and an intuitive example, followed by an indication of problem
classes affected by the results.

Section 2 outlines the calculations leading to the moments in subgroups displayed in Table 2.
Section 3 discusses the distribution of the measurement error given the true score and given a <
X < b. Finally Section 4 gives a link with the weU known Kelley formula for regression to the
mean. The results of this paper hold only for the scores on which the division into subgroups
took place: Cor new observations of the same variable on the same persons the assumptions of
classical test theory will not be affected.

Once upon a time the King of Educademia observed that"the cows of his farmers weighed
so little that selling their meat by the pound did not bring prosperity to the owners. He
discussed this with the physician of the court, and it was decided to run an experiment on
a random sample of three hundred cows: they would be stimulated by having one of the
royal musicians play a tune while they were fed.

The King, who loved to have music during his own dinners, felt sure that this would help.
The royal physician, however, politely observed that the effect of the music might also
depend on the initial weight of the cow. It was therefore decided to divide the cows upon
their arrival in very-meager cows, meager cows, and normal-or-even-fat cows, and to
calculate the weight gain in each group separately.

As none of the weighing scales in the palace was large enough to weigh even a thin cow,
initial and final weights were determined by the falUble method of making the cow walk

back and forth through the royal stable, after which the physician wrote down his best
guess for its number of pounds. The physician swore to the king that this rough pro-
cedure would not bias the results, as long as the errors (that he would undoubtedly make)
would be independent and have the same distribution symmetric around zero for any true
weight of the cow.

The present sad but simple story should remind you of how things went wrong when the
King believed his doctor's report that the lowest weight group had gained on the average
twenty pounds by the music and the middle group ten pounds, wheras the heaviest cows
had kept a stable weight: the physician's error theory was correct for a statement on all
cows, but not for his subgroups formed on the basis of fallible measurements.

Suppose that the standard psychometric assumptions hold for the measurement X = T +
E in a certain population; it is no restriction to take ^X = 100 and a^(X) = 225.
What happens when p(T,E) is calculated for subgroups selected on their values of X,
say X < 90,90 < X < 110 and X > 110?

For an intuitive explanation we consider a simplified situation. Let there be no more than
eleven pairs of persons, with true scores per pair equal to 80, 84, 88, 92,..., 116, 120, and
let each measurement error be -i-5 and -5, for the two members of any pair. The observed
score X for our 22 persons becomes:

The simphfied example has overall uncorrelated T and E, but it also exhibits the effect of
subdivision on the basis of the observed scores: the person with 88 — 5 remains in the low
group X < 90, but his 'counterpart' with 88-1-5 enters the middle group 90 < X < 110.
As the same holds for 92 — 5 and 92 -h 5, negative measurement errors will be over-
represented at the high end of the low group. Similarly, the lowest true scores m the
middle group will all correspond to positive errors, and the true scores of 108 and 112 to
negative errors: their counterparts 108+5 and 112 + 5 are not in the middle group but in
the X > 110 group. Selection on observed score therefore entails selection on measure-
ment error: within subgroups true score and error are no longer uncorrelated.
It will be clear that this holds true only if X is the score on which the division mto
subgroups took place. The intention is division on T, which would not produce correla-
tion, but which is impossible as T is unobservable. More important, for any new measure-
ments of the same variable, whether in a subgroup, in the total group or for new indi-
viduals, the measurement error can again be assumed to be independent of the true score
and to have expectation zero. The present note, therefore, does not argue that standard
psychometric theory is wrong when it stipulates such relations to hold in every nonnull
subpopulation. But in subgroups formed on the basis of already observed scores, in-
ference inadvertently based on classical test theory could be rather misleading.

The Standard form of this chance capitalization, illustrated in the fairy tale of the feeding
cows, is well known under the name of'regression to the mean'. Our further exploration
centers on some consequences that are less directly accessible.

In educational research a fallible measurement X is regularly used for a division into
subgroups, or even for the selection of the only group on which other variables will be
measured. Some effects of such subdivisions and selections have been investigated (see
e.g. Lord & Novick, 1968, Ch. 6, or Aitkin, 1964), but numerous applied studies seem to
neglect that the standard assumptions of classical test theory, if valid in the total popula-
tion, are bound to be wrong in such subpopulations.
Among the errors that could be committed, let us mention just a few:

(i) assessment of the rehabiUty of X for the subgroup, by coefficient alpha, spHt-half or
test-retest;

(ii) use of Kelley's formula to predict regression to the subgroup mean (open question: if
some person belongs to the total group, the subgroup, and several subsubgroups, to
which mean should his estimated true score regress?);

(iii) comparison of the validities of X and of a fresh predictor Z for a criterion Y, after
selection on X;

(iv) analyses based on gain scores. If observation at a later time point produces a score X'
= T' + E', the covariance of a third variable A with the difference X' - X can be
written as

In the total group the last two terms vanish under the usual assumption that the errors E
and E' are pure noise. In subgroups based on X, however, the negative correlation be-
tween T and E leads to a non-vanishing •^(A,E) in the usual situation that T and A are
correlated. An example is Meijnen (1977): in his study of the relation between parental
attitudes A and I.Q. gain between ages 6 and 8, he splits up his pupils according to an
observed I.Q. at age 6 of below 90, above 110 and in between. A detailed investigation of
this bias would go beyond the scope of this note.

Let us first convert the ad hoc example of Section 1 into a model permitting a serious
evaluation of the relation between T and E in subgroups. Let Vxx' denote the reUability
of the test X. To our previous assumptions ^X = 100 and a^ (X) = 225 we add that T
has a normal (100,^^) distribution and E has a normal (0,7^) distribution, where - 225
Pxx'> T^ = 225 (l-PxxO and T and E are independent.

Recall that in the doubly stochastic psychometric model an observed value of X is
obtained by first random selection of a person from a population of individuals on which
a non-observable random variable T is defined, foUowed by addition, within this indi-
vidual, of a normally distributed measurement error E to T; the two random processes are
independent. Next we may study the conditional joint distribution of T and E obtained
by imposing the condition a<X = T-i-E<bon the joint distribution of T and E just
defined.

Within the subgroup Gab defined by a < X = T + E < b, we shall evaluate some moments
of the form ^ TiEJ (ij = 0,1,2) from which p(T,E) follows. Such moments conditional
on a.< X < b will be denoted by ab' > Pab • will be clear that

where the constant Cab. servmg to make the total probability equal to unity, is just the
double integral for the case i = j = 0, which means that Cab i® the probability P(a < X <
b) that a 'random person' has a score between a and b.

The integral over the variable e in the second line of (1) will be expressed in terms of the
standard normal cumulative distribution function <1> and its density 0, defined by

For j = 1 we shall use that the standard normal probability density has derivative (z) =
-z0 (z). Taking e/7 = z we obtain

note that the integration of 0" produces terms with 0' (y) which equals -y0(y).
Thus the double integral in (1) has been reduced to an integral over t, the integrand of
which is proportional to the product of t' and0((t-lOO)/j8) and a linear combination of <i>
or (p evaluated at (a-t)/7 and (b-t)/7. Such integrals were evaluated by numerical integra-
tion after replacing the transcendental function $ by the ratio of polynomials given by
Hastings (1962).

All moments ^abT'Ei (ij = 0,1,2) needed for Pab(T,E) were computed with absolute
precision of at least 10"' for the four reliability values listed in Table 1. The results are
listed in Table 2 for the groups with X < 90, 90 < X < 110, 80 < X < 120 and X < 90
respectively. The actual value a = 0.0 was used in stead ofa = -°o in the numerical
integration, similarly b = oo was replaced by b = 200.0, and a continuity correction of .5
was used because we were interested in an application to sociological data where the
reported I.Q.scores were rounded values. Values for some other groups like X < 110 or X
> 110 are easily obtained from symmetry arguments.

Table 2 shows clearly that strong negative correlations between true score and error can
be expected, not only for groups in the middle where truncation affects both tails, but
also for low or high I.Q. groups. If admission to a particular type of high school were
exclusively regulated by a minimum score of 90 on an I.Q.test with reUability .8, the
expected measurement error in the admitted group would be + 1.2 and not zero, and the
error would correlate -0.24 with the true score. Note that in the first and second block
and the last two Unes in the table the total variance a^j, (X) is even less than the true
score variance a^i, (T): the regression to the mean beats the subtraction of error.
The situations described in the table, believed to be representative of many appUcations
of test scores for subgroups, can be viewed as an intermediate case between

The negative correlations just presented are by no means an adequate description of the
conditional expectation of E given T = t and a <X < b, as this regression function is not
linear, sometimes not at all linear. In Figures lb and 2b it is graphed for two combina-
tions of Pxx', a and b; immediately above it we display the conditional probability den-
sity of T, obtained from Bayes' theorem:

f(t I a < X < b) = f(t)P (a < X < b I T = t)/P (a < X < b) .
Because P(a<X<b|T = t) = P (a-t < E < b-t), one obtains

It follows from the integrations discussed in Section 2 that the regression function is

It is displayed as a solid curve in the two figures lb and 2b. It should be compared to the
linear regression:

which is also displayed and which differs markedly from it. The condition a < X < b
leads to the boundaries E = a-t and E = b-t drawn in the graphs. The conditional distribu-
tion of E given T = t and a < X < b is a normal distribution with mean 0 and variance y^
- (l-PxxO'^x restricted to a-t < E <b-t. This distribution can be rather skewed; the
dotted vertical lines give the interquartile region of this distribution for some selected
values of t.

In this section we shall write p for the reliability Pxx'- The results will not be affected by
the restriction a < X < b. By substitution of X-T for E, the joint probabihty density of X
and T is seen to be

see e.g. Novick & Jackson (1974, page 140) and use of p = p^/225 and 1 - p = 1225,
allows us to divide out the unconditional density of X which is^y^(100; 225), and to
obtain that

The conditional expectation is of course just Kelley's 50 years old formula for the
regression to the mean, and the standard error of the estimate is also found in many
psychometric textbooks.

Given X = x, the error E = x-T is a sunple linear function of T, which therefore obeys

This alternative form of Kelley's formula can be used to assess directly how much mea-
surement error has contributed to an observed score of x.

Hastings Jr, C Approximations for Digital Computers. Princeton University Press, 1962.
Lord, F.M. & Novick, M.R. Statistical Theories of Mental Test Scores, Addison-Wesley, 1968.
Meijnen, G.W. Maatschappelijke achtergronden van intellektuele ontwikkeling: een empirisch onder-
zoek naar de invloed van de statusspecifieke opvoeding op de ontwikkeling van intelligentie en
leerprestaties, Wolters-Noordhoff, 1977.
Novick, M.R. & Jackson, P.H. Statistical Methods for Educational and Psychological Research,
McGraw HiU, 1974.

Joh. Hoogstraten en G.J. Mellenbergh
Psychologisch Laboratorium, Universiteit van Amsterdam

The assignment of elementary school pupils to secondary school types; an experimental study

Fourty elementary school teachers were asked to assign eight fictitious male pupils to one of
four secondary school types. The characteristics of the pupil and the situation at home respec-
tively were either favourable or unfavourable, whereas pupil's scores on a well-known standard
achievement test were either relatively high or relatively low. Moreover, the social level of
teacher's school was also either low or high. This resulted in a 2x2x2x2 design with the profile
of one pupil per eel and repeated measures on teachers. Results of tests of log-linear models for
the contingency table indicated that all four independent variables effected the advices of
teachers. Pupil characteristics were considered most important and test scores appeared more
important than the situation at home. The influence of the social level of teacher's school was
less influential. Teachers were also divided into four rather homogeneous groups with respect to
the social level of their schools. Within these groups no strong individual differences between
the advices of the teachers were found. When asked to tank order ten sources of information,
e.g. situation at home, pupil and parents preferences, and pupil sexe, teachers indicated only a
low appreciation of test scores. It was argued that in this direct registration teachers were at
least partly led by social desirability and emotionally toned objections towards the disputed
standard achievement test.

Van naar schatting een kwart miljoen zesde kiassers moet jaarlijks worden beslist welke
onderwijsinstelling aansluitend op de lagere school zal worden bezocht. Het karakter van
deze gebeurtenis is even massaal als gecompliceerd op het niveau van de mdividueel uit te
brengen adviezen. Vele categorieën van belangstellenden zijn daarbij te onderscheiden:
leerlingen, ouders, klasse-onderwijzers, hoofden van scholen en vervolgscholen. De belan-
gen van deze betrokkenen zullen niet altijd parallel lopen. Zo hoeft de wens van de ouders
niet steeds overeen te stemmen met de gedachten die de onderwijzer koestert omtrent een
passend vervolg van de schoolloopbaan. En zo zullen de ontvangende scholen ongaarne
zien dat de hen toegewezen leerlingen op formele capaciteitscriteria tekort schieten,
hoezeer ouders en adviesgevers er ook van overtuigd kunnen zijn dat hun keuze de juiste
is. De mate waarin de onderscheiden instanties mvloed mogen en kunnen uitoefenen en
de wijze van consultatie van betrokkenen zijn nog verre van duideUjk. Vaststaat dat van
een gestandaardiseerde, uniforme procedure geen sprake is. Van school tot school wordt
verschillend gedacht over zaken als de noodzaak van individuele voorlichting aan ouders
en leeriingen, de waarde die aan extern verkregen toetsinformatie moet worden toegekend
en de betekenis van aanvuUend onderzoek naar de intelligentie van de leerlingen. Zo bleek
uit onderzoek onder Amsterdamse onderwijzers dat iets minder dan 70% van hen de

leerlingen laat oefenen met toetsopgaven van voorgaande jaren, terwijl circa 30% volstaat
met een inleidend praatje of behandeling van de instructie. Algemener gesteld, onduidelijk
is welke soorten van informatie expliciet worden toegelaten tot het besluitvormingsproces
of juist als irrelevant terzijde worden gelegd en welke niet evident onderkende overwegin-
gen daarin een rol spelen. Wat het laatste betreft valt aan te nemen dat de preoccupaties
en vooroordelen van alle betrokkenen divers van aard zijn en moeilijk registreerbaar in
hun relatie tot het gegeven advies.

Aan onderzoek op het hiervoor beschreven terrein heeft het niet ontbroken. Onder meer
heeft men in het verleden aandacht geschonken aan de invloed van milieu-aspecten op het
onderwijzersadvies (van Heek, 1968; Oosterbaan, 1973), de structuur van enkele instru-
menten waarop de adviezen veelal mede gebaseerd zijn (Sandbergen, Elshout, Akkerman
en van Peet, 1972; Lutje Spelberg en Rotteveel, 1978) en de mate waarin tussen advies-
categorieën kan worden gedifferentieerd op basis van persoonlijkheidsgegevens, inteUigen-
tiescores en schoolvorderingenprestaties (Groeneboom, Hoogstraten, Mellenbergh en van
Santen, 1978). Voorts werd door Bos en Warries (1971) onderzoek gedaan naar het
verband tussen het eerste, voorlopige advies en het tweede, definitieve advies, en inventa-
riseerde Warries (1972) de beweegredenen van onderwijzers om leeriingen met accepta-
bele schooltoetsprestaties toch het MAVO-advies te onthouden. Voorbeelden van experi-
menteel (veld-)onderzoek op dit gebied zijn ons niet bekend. In het algemeen besluit de
onderzoeker tot correlationele analyses van gegevens die niet door hem zelf werden
verzameld (schooltoetsgegevens, intelligentiescores, onderwijzersadviezen, e.d.) of langs
administratieve weg werden verworven (sexe-gegevens, milieu-indelingen, opleidingsniveau
ouders e.d.). Aan dergelijk onderzoek kleeft het principiële bezwaar dat de belangrijkste
gegevens, bedoeld worden de adviezen en toetsscores, niet bijeengebracht worden in
omstandigheden die onder controle staan van de onderzoeker; deze wordt immers pas
actief in een volgende fase. Toch zou het geen kwaad kunnen eens naast een onderwijzer
te gaan zitten die voor de taak staat de vooriopige of definitieve adviezen te bepalen. Zijn
introspecties in deze omstandigheden voegen allicht nuttige informatie toe aan hetgeen
langs andere weg bekend of waarschijnlijk is geworden.

In het onderstaande zal verslag worden gedaan van een experiment dat nu al weer geruime
tijd geleden plaatsvond.' Van een viertal factoren werd nagegaan of het advies van de
onderwijzer er beshssend door zou worden bei'nvloed. Drie factoren hadden betrekking
op leeriingkarakteristieken, resp. de omstandigheden thuis, de eigenschappen van het kind
en zijn of haar prestaties op de schooltoets. Steeds werd een positieve en een negatieve
variant onderscheiden. Van elke factor werd verondersteld dat de positieve informatie
aanleiding zou geven tot een gunstiger onderwijzersadvies dan de negatieve. Tenslotte
werd nog een indeling aangebracht binnen het sociale niveau van de school waarvan de
adviserende onderwijzers, hier optredend als proefpersoon, deel uitmaakten. Veronder-
steld werd dat ook hiermee een factor werd geïntroduceerd die op zichzelf staand dan wel
verbonden met één der andere factoren van invloed zou zijn op de hoogte van het
onderwijzersadvies.

1 Het experiment maakte deel uit van een onderzoek dat op initiatief en onder supervisie van de
eerste auteur werd uitgevoerd door een viertal 2®- en 3®-jaars psyehologie-studenten: Niels Brouwer,
Kees Caljé, Tina van Moorsel en Ruud Sillman (1973). Wij zijn deze studenten dank verschuldigd.

hl het onderzoek was sprake van twaalf fictieve leerlingen. Voor elk van deze leerlingen
werd informatie gegeven via een getypte kaart. De groep leerhngen valt uiteen in acht
leerhngen voor het onderzoek en vier afleiders. Voor het genereren van de mformatie over
de acht leerhngen werd gebruik gemaakt van drie onafhankelijke variabelen, ieder met
twee niveau's. In de eerste plaats 'Toetsscore': de ruwe en percentielscore op de school-
toets. Het niveau 'hoog' van deze variabele is geoperationaliseerd als een percentielscore
boven de 50 en 'laag' als een percentielscore onder de 50; de gebruikte percentielscores
zijn: 73, 68, 75, 66, 41, 37, 38 en 35. De ruwe scores werden aan de percentielscores
aangepast onder de vermelding dat de maximale score, evenals de percentielscore geba-
seerd op enkele taal- en rekenonderdelen, 210 bedroeg. De tweede onafhankelijke varia-
bele is de 'Eigenschappen van het kind'. Er werd een beschrijving gemaakt van eigenschap-
pen met als elementen: werklust, doorzettingsvermogen, omgang met klasgenoten, intel-
lectuele capaciteiten en schoolprestafies. Bij vier leerhngen werd vermeld dat de eigen-
schappen boven het gemiddelde zijn en bij de overige vier dat zij onder het gemiddelde
zijn. De derde onafhankelijke variabele wordt gevormd door de 'Omstandigheden bij het
kind thuis', met als omschrijving: stimulering door ouders, behuizing en de voorkeur van
de ouders wat betreft voortgezet onderwijs. Ook hier werd bij vier leerlingen aangegeven
dat de omstandigheden gunstig zijn, terwijl bij de overige vier werd aangegeven dat de
omstandigheden ongunstig zijn.

De gegevens van de acht leerlingen werden op systematische wijze gegenereerd binnen een
2x2x2 proefopzet: er is één leerling met een lage toetsscore, eigenschappen onder het
gemiddelde en omstandigheden ongunstig, één leerhng met een hoge toetsscore, eigen-
schappen onder het gemiddelde en omstandigheden ongunstig, etc. Voor elk van de
fictieve leerhngen werd een advies voor het voortgezet onderwijs gevraagd in de volgende
categorieën: VWO (1), HAVO (2), MAVO (3) en LAVO/LBO (4). Ter illustratie volgt hier
een voorbeeld van een fictieve leerhng:

Omstandigheden bij het kind thuis: gunstig
Eigenschappen van het kind: boven gemiddelde
De toetsscores:
Ruwe score: 172
Percentielscore: 55

De omschrijvingen van de factoren had de onderwijzer op een aparte bladzijde voor zich
hggen. Aan de opdrachten ging een uitvoerige instructie vooraf waarin o.m. een uitge-
breide beschrijving van de factoren was opgenomen en waarin gesteld werd dat alle
kinderen jongens waren. Het eerst aangeboden kind was een afleider (zie boven).
Uit de m het telefoonboek vermelde basisscholen in Amsterdam werd een aselekte steek-
proef van 52 scholen getrokken; 14 scholen weigerden mee te werken en bij twee scholen
werkten meer dan één onderwijzer aan het onderzoek mee. In totaal werd medewerking
verkregen van 40 zesde klas onderwijzers. Alle betrokken onderwijzers hadden m 1971,
1972 of 1973 adviezen uitgebracht.

Bij een beschouwing van het totale materiaal blijkt dat in twee gevallen geen advies is
uitgebracht. Bovendien blijkt dat in vijftien gevallen de onderwijzer geen keus heeft
kunnen maken tussen twee aangrenzende advies-categorieën. In deze gevallen werd per
leerling geloot tussen beide categorieën om toch een éénduidige indeling te verkrijgen. Het
resultaat van deze procedure was dat tienmaal een leerling in de lagere en vijfmaal in de
hogere van beide aangrenzende advies-categorieën werd ingedeeld. Verder werden de buur-
ten van de scholen waar de betreffende onderwijzers lesgeven verdeeld naar sociaal niveau.
Dit gebeurde op grond van de rangschikking van buurten naar sociaal niveau door het
Bureau van Statistiek van de gemeente Amsterdam (1972): hoog sociaal niveau van een

De frequenties van de adviezen gegeven door 40 onderwijzers, uitgesplitst naar vier variabelen. Tussen
haakjes staan in twee decimalen de frequenties gereproduceerd op grond van model V, nadat alle waar-
genomen frequenties met 0,5 verhoogd zijn.

buurt is gedefinieerd als een rangnummer boven de mediaan en laag als een rangnummer
beneden de mediaan. De criteria waarvan men zich daarbij bedient hebben onder meer
betrekking op telefoonbezit, opleidingsniveau en beroepsniveau. In het experiment is
sprake van één afhankelijke variabele (Advies) met vier dichotome onafhankelijke varia-
belen: Omstandigheden bij het kind thuis (Thuis), Eigenschappen van het kind (Eigen-
schappen), Scores op de schooltoets (Toets) en Sociaal niveau van de buurt van de school
van de onderwijzer (Buurt). De basisgegevens zijn de frequenties in een vijf-dimensionele
tabel (Tabel 1).

Tabel 1 bevat alle informatie, die verkregen is in het experiment. Daar de cellen in de
tabel uitgesplitst zijn naar de nlveau's van alle vijf variabelen zullen we deze tabel aandui-
den als Tl2345, waarbij de nummers betrekking hebben op de nummers van de variabe-
len, zoals vermeld in Tabel 1. Door de tabel samen te klappen over één of meer variabelen
- d.w.z. door de frequenties op te tellen over de betreffende variabele(n) - ontstaan
nieuwe tabellen; deze tabellen bevatten minder informatie dan T12345 omdat zij hieruit
afgeleid worden. Een voorbeeld is de tabel, die ontstaat door de frequenties in Tabel 1 op
te tellen over de vier advies-categorieïin; deze tabel wordt aangeduid met T2345 omdat
Tl2345 samengeklapt is over de eerste variabele. T2345 is de tabel vermeld onder de
kolom 'Totaal' in Tabel 1; de tabel bevat geen relevante informatie over het geven van
adviezen en is geheel bepaald door de opzet van het experiment. Een ander voorbeeld is
de tabel, die ontstaat door de frequenties in Tabel 1 op te tellen over de variabelen
Eigenschappen, Buurt, Toets en Thuis; deze tabel wordt aangeduid met Tl omdat
T12345 samengeklapt is over de tweede, derde, vierde en vijfde variabele. Tl is de tabel
vermeld onder de rij 'Totaal' in Tabel 1. Deze tabel bevat wel relevante informatie,
namelijk de frequenties waarmee de verschillende adviezen voorgekomen zijn.
Bij de analyse kan men zich de vraag stellen welke samengeklapte tabellen voldoende

informatie bevatten om de frequenties in de volledige tabel Tl2345 op adequate wijze te
kunnen reproduceren. De analyse wordt gestart met de — door de opzet van het experi-
ment bepaalde - tabel T2345 en de tabellen T12, T13, T14 en T15; de laatste vier
tabellen zijn weergegeven in Tabel 2. Er werd aangenomen dat in het experiment het
advies gegeven door de onderwijzer aan de ene leerling onafhankelijk is van dat gegeven
aan een andere leerling. Onder deze aanname is het met behulp van het log-lineaire model
(Bishop, Fienberg & Holland, 1975) mogelijk op grond van de informatie in de tabellen
T2345, T12, T13, T14 en Tl 5 de frequenties in T12345 te reproduceren. Als dat goed
lukt dan bevat een model gebaseerd op T2345, T12, T13, T14 en T15 blijkbaar genoeg
informatie om de gegevens van T12345 adequaat te beschrijven. Het model kan getoetst
worden door, onder aanname van het model, de chi-kwadraat van de aannemelijkheidsver-
houding te berekenen. Als de rechter overschrijdingskans van de chi-kwadraat groot is,
wordt het model geaccepteerd als een adequate beschrijving van de gegevens. De bereke-
ningen kunnen uitgevoerd worden met het programma ECTA^. Om een technische reden

- in Tl2 komt een frequentie O voor waardoor het aantal vrijheidsgraden gewijzigd wordt

- werden ahe frequenties in de cellen van T12345 (Tabel 1) met 0,5 verhoogd. De waarde
van chi-kwadraat voor de aannemelijkheidsverhouding, onder de aanname van een model
gebaseerd op T2345, T12, T13, T14 en T15, is 27,21 met 33 vrijheidsgraden (rechter
overschrijdingskans: 0,612). Het model levert dus een goede beschrijving van de gegevens.
De interpretatie hiervan is als volgt. T2345 is niet interessant omdat deze tabel, zoals
reeds opgemerkt, geen relevante informatie bevat. Wel mformatief zijn T12, T13, T14 en
Tl 5. Deze tabellen representeren de invloed van de onafhankelijke variabelen afzonderiijk
op het advies. Men kan de informatie in deze tabellen vergelijken met de hoofd-effecten
uit de variantie-analyse. Blijkbaar geeft een model met uitsluitend 'hoofd-effecten' een
goede beschrijving van de gegevens.

De passing van het bovengenoemde model is zeer goed. Het is nu mogelijk dat uit de reeks
tabehen T12, T13, T14 en Tl 5 één of meer tabellen verwijderd kunnen worden en de
resterende tabellen nog voldoende informatie bevatten om de gegevens adequaat te be-
schrijven. Om echter zoveel mogelijk informatie uit het materiaal te verkrijgen, werd de
vraag gesteld of het ook zinvol zou zijn de invloed op het advies van telkens twee
onafhankelijke variabelen in combinatie te beschouwen. Daartoe werden enkele nieuwe
modellen gepostuleerd waarbij telkens twee onafhankelijke variabelen werden gecombi-
neerd, bij voorbeeld het model gebaseerd op T2345, T134, T12 en T15; T134 staat in
Tabel 3, terwijl men T12 en T15 vindt in Tabel 2. Dit model bevat alle informatie van het
vorige model (gebaseerd op T2345, T12, T13, T14 en Tl5) omdat men door samenklap-
pen over respectievelijk de vierde en de derde variabele uit T134 de tabellen T13 en T14
verkrijgt. Het model bevat echter meer informatie dan het vorige omdat het ook de
combinatie van de derde en vierde variabele bevat; men kan de informatie over deze
combinatie vergelijken met de interactie van twee variabelen in een variantie-analyse. De
waarden van chi-kwadraat en de bijbehorende overschrijdingskansen van alle mogelijke
modellen waarbij telkens twee onafhankelijke variabelen zijn gecombineerd, staan in Ta-
bel 4. Alle modellen geven een goede beschrijving van de gegevens. Men kan nu nagaan of
één der modellen II tot en met VII een verbetering is ten opzichte van het oorspronkelijk
model I: het verschil in chi-kwadraat tussen model I en één der modeUen II tot en met VII is
in grote steekproeven bij benadering chi-kwadraat verdeeld met een aantal vrijheidsgraden

2 De berekeningen met het programma werden verricht door Jeroen Pannekoek in het kader van een
doctoraal-stage onder supervisie van de laatstgenoemde auteur; ook hem zeggen wij hiervoor dank.

gelijk aan het verschil in vrijheidsgraden van beide modellen. Alleen model V blijkt enige
verbetering te geven ten opzichte van model I: het verschil van de chi-kwadraten is 6,26
en het verschil m vrijheidsgraden 3; de bijbehorende rechteroverschrijdingskans is 0,0966.
De goede passing van model V blijkt ook uit het feit dat de waargenomen frequenties m
Tabel 1 (elk verhoogd met 0,5) zeer goed gereproduceerd worden met behulp van het
model: in Tabel 1 staan tussen haakjes de op grond van model V gereproduceerde fre-
quenties in twee decimalen.

Model V wordt verder gebruikt voor interpretatie. Van belang zijn de tabellen T12, T13,
Tl4, Tl5 en Tl34; naar analogie van de variantie-analyse: alle 'hoofd-effecten' en het
'interactie-effect' van Buurt en Toets. Met elke advies-categorie in deze tabellen corres-
pondeert een parameter, die gebruikt wordt om de waargenomen frequenties te reprodu-
ceren. De geschatte parameters uit model V werden gestandaardiseerd met een gemid-
delde O en standaardafwijking 1; de ongestandaardiseerde en gestandaardiseerde parame-
ters staan in Tabel 5.

De interpretaties zijn vrij duidelijk. In de eerste plaats zou er sprake kunnen zijn van enige
interactie tussen de toetsscores en het sociale niveau van de buurt waar de onderwijzer
werkt. Een interpretatie, die door Tabel 3 gesuggereerd wordt, is dat onderwijzers uit
buurten met een laag sociaal niveau leerlingen met lage toetsscores eerder het advies
HAVO geven dan het advies VWO; onderwijzers uit buurten met een hoog sociaal niveau
geven leerlingen met hoge toetsscores eerder het advies HAVO dan het advies MAVO. In
de tweede plaats blijken de lage of ongunstige polen van de afzonderlijke onafhankelijke
variabelen te leiden tot een vermindering van de adviezen VWO en HAVO, terwijl de hoge
of gunstige polen leiden tot een vermeerdering van deze adviezen (zie: Tabel 2). In de
derde plaats bhjkt dat de invloeden van Buurt en Thuis gering zijn. De gestandaardiseerde
schattingen van de parameters voor de categorieën van de variabele Buurt liggen alle dicht
bij de waarde nul; voor geen enkele categorie van de variabele Thuis is de gestandaardi-
seerde parameterschatting sterk verschillend van nul. Dh wijst er op dat de gegevens uit
het experiment waarschijnlijk ook adequaat beschreven kunnen worden met de Tabellen
T12, T14 en T15 of misschien zelfs met alleen de tabellen T12 en T14. Zoals hiervoor
reeds is opgemerkt werd hiervan afgezien om de eventuele mvloed van de combmatie van
twee onafliankelijke variabelen op het spoor te kunnen komen. In de vierde plaats ziet hét
er naar uit dat de meeste mvloed bij het geven van adviezen uitgaat van de eigenschappen
van het kind, gevolgd door de toetsscores, terwijl de omstandigheden thuis en het sociale
niveau van de buurt de minste mvloed hebben.

Dit laatste punt werd wat nader onderzocht door de gegevens op nog een andere wijze te
analyseren. Men kan zich afvragen hoe goed het advies van de onderwijzers voorspeld kan
worden als men weet tot welke cel van de proefopzet een leerling behoort. Stel dat men
niet weet tot welke cel een leerling behoort. Uit de rij 'Totaal' van Tabel 1 blijkt dat het
advies MAVO de hoogste frequentie heeft; de beste voorspelling voor het advies is dus
MAVO. Voor een leerhng, die tot de gunstige en hoge categorieën van alle onafhankelijke
variabelen behoort (laatste rij van Tabel 1), is de frequentie van het HAVO-advies het
hoogst. Als men dus weet dat een leeriing op alle onafhankelijke variabelen tot de hoge of
gunstige categorie behoort dan is de beste voorspelling het advies HAVO. De maat lambda
is gedefinieerd als de relatieve verbetering in het voorspellen van de adviezen op grond van
kennis van de rij ten opzichte van het ontbreken van deze kennis; lambda is O als kennis
van de rij niet helpt bij het voorspellen van het advies en lambda is 1 als het advies perfect
voorspeld kan worden uit de kennis van de rij (Bishop, Fienberg & Holland, 1975, p. 388,
389). De coëfficiënt is voor T12345 (Tabel 1) 0,338: als men weet tot welke rij van

Tabel 1 .een leerling behoort dan doet men in 33,8% van de gevallen een betere voorspel-
hng over het advies dan wanneer men niet weet tot welke rij de leerling behoort. Om na te
gaan hoe sterk elke onafhankelijke variabele bijdraagt aan de voorspelbaarheid van de
adviezen werd telkens Tabel Tl2345 uit Tabel 1 samengeklapt over één der onafhanke-
hjke variabelen; er ontstaan dan de tabellen T1234, T1235, T1245, T1345. Voor deze
tabellen werd lambda berekend; de gegevens staan in Tabel 6.

Aangezien het mogelijk werd geacht dat de onderwijzers wemig onderscheid maken tussen
de adviezen VWO en HAVO werden alle berekeningen ook uitgevoerd nadat deze beide
categorieën samengevoegd waren tot één categorie; de resultaten staan eveneens in Ta-
bel 6. Uit deze tabel blijkt opnieuw dat de eigenschappen van het kmd de sterkste invloed
hebben: verwijderen van deze variabele doet de voorspelbaarheid van de adviezen sterk
afnemen. Daarna volgen in de rangorde van belangrijkheid der variabelen de toetsscores en
de omstandigheden thuis. De variabele sociaal niveau van de buurt waar de onderwijzer
werkt heeft de minste invloed: verwijderen van deze variabele doet de voorspelbaarheid
van de adviezen niet sterk afnemen. Wat betreft het samenvoegen van de adviezen VWO
en HAVO bhjkt dat dit in alle gevallen de voorspelbaarheid van de adviezen verhoogt; de
rangorde van de belangrijkheid der variabelen blijft dezelfde.

Het is hiervoor gebleken dat het sociaal niveau van de buurt waar de onderwijzer werkt
weinig invloed heeft op het geven van schoolkeuze-adviezen. Het is echter denkbaar dat er
andere variabelen zijn aan de kant van de onderwijzer, die invloed hebben op het uitbren-
gen van de adviezen. Indien dit het geval is moeten er tussen onderwijzers, die werken op
scholen uit buurten met ongeveer hetzelfde sociale niveau, individuele verschillen bestaan.
Om dit te onderzoeken werden de 40 onderwijzers verdeeld in vier groepen naar sociaal

Pearson chi-kwadraten met aantal vrijheidsgraden (AV), rechterover-
schrijdingskans (P) en lambda voor vier groepen onderwijzers inge-
deeld naar sociaal niveau van de buurt van de school; tussen haakjes
staat het aantal onderwijzers per groep.

niveau van de buurt van de school. Per groep werd een frequentie-tabel samengesteld met
in de rijen de onderwijzers en in de kolommen de advies-categorieën, waarbij - vanwege
het geringe aantal VWO-adviezen - de HAVO en VWO categorieën samengevoegd werden.
Per groep werden berekend de Pearson chi-kwadraat en lambda voor voorspelling van de
advies-categorie als men weet welke onderwijzer het advies uitbrengt. De gegevens staan in
Tabel 7. Hieruit blijkt dat er alleen voor de groep onderwijzers van scholen uit het laagste
sociale niveau op 5% niveau een significante waarde van chi-kwadraat is. Aangezien slechts
één van de vier chi-kwadraten significant is op 5% niveau ziet het er naar uit - zeker
vanuit een multivariaat gezichtspunt — dat er in het algemeen per groep slechts vrij
geringe individuele verschillen bestaan.

De resultaten van het experiment laten tenminste drie conclusies toe. Ten eerste geldt
voor enkele onderzochte factoren dat zij duidelijk invloed uitoefenen op de hoogte van
het verstrekte advies. Boven het gemiddelde liggende eigenschappen van het kind en
relatief hoge toetsscores leiden er toe dat de onderwijzer een gunstiger advies uitbrengt
dan in het geval van de tegengesteld geoperationaliseerde varianten. Opmerkelijk is, ten
tweede, de afwezigheid van interactie-effecten. Op één uitzondering moet in dit verband
worden gewezen. Onderwijzers uit buurten met een laag sociaal niveau verwerken hoge
respecrievelijk lage toetsscores waarschijnlijk op een wat andere wijze dan hun collega's
uit buurten met een hoog sociaal niveau. Het lijkt er op dat de eerstgenoemde categorie
onderwijzers wat eerder besluit tot een HAVO-advies dan tot een VWO-advies terwijl
onderwijzers uit buurten met een hoog sociaal niveau eerder besluiten tot een HAVO-
advies dan tot een MAVO-advies. Ten derde kunnen aan de resultaten indicaties worden
ontleend omtrent het relatieve belang van de vier onafhankelijke factoren. Illustratief
daarvoor is vooral Tabel 6. De eigenschappen van het kind oefenen aanwijsbaar de meeste
invloed uit, de invloed van de toetsscores is wat groter dan de invloed van de omstandig-
heden thuis en het buurtniveau heeft de minste invloed op het gegeven advies. Met name
is van belang de constatering dat de toetsscores meer invloed uitoefenen dan de omstan-
digheden thuis, omdat uit een ander onderdeel van het onderzoek van Brouwer, Caljé,
Sillman en Van Moorsel (1973) juist het tegengestelde resulteerde. De onderwijzers wer-
den in dit onderdeel verzocht een tiental factoren te ordenen naar de waarde die men er
bij de advisering aan hechtte. De beoordeelde factoren, gepresenteerd in volgorde van
belangrijkheid volgens de onderwijzers, luidden als volgt; het getal achter iedere omschrij-
ving geeft aan hoeveel onderwijzers dit aspect een eerste of tweede plaats toekenden:

1. karaktereigenschappen van het kind zoals gedrag, vlijt, doorzettingsvermogen (36);

3. de huiselijke omstandigheden van het kind, zoals medewerking van de ouders, studeer-
mogelijkheden thuis (6);

Opvallend is vooral de geringe waardering van de twee aspecten die op de schooltoets
betrekking hebben. Geen enkele onderwijzer kende de percentielscores een eerste of
tweede plaats toe, terwijl de omstandigheden thuis in de totale rangschikking een derde
plaats krijgen toegemeten. Gaf men bij de meer verdekte experimentele benadering de
voorkeur aan de toetsscores boven de omstandigheden thuis, hier geeft men expÜciet te
kermen de toetsscores slechts matig te kunnen appreciëren. Deze afwijzing van de toets-
scores als nuttige bron van mformatie heeft ongetwijfeld ook een gevoelsmatige compo-
nent. Confrontatie van de onderwijzers met een aantal beweringen inzake de toets (bijv.
'De inhoud van de toets sluit goed aan bij de stof die op de lagere scholen onderwezen
wordt') toonde aan dat de onderwijzers daaromtrent overwegend negatieve gevoelens
koesteren. Verder bleek ons uit de reacties op enkele andere beweringen dat het meren-
deel van de onderwijzers een goed begrip van de betekenis van percentielscores ontbeert.
Bovendien geldt voor de onderwijzers uit de buurten met een laag sociaal niveau dat de
toetsscores van hun leerlingen in de regel aan de lage kant liggen. Ook dit gegeven kan als
gedeeltelijke verklaring gelden voor de afwijzing van de toetsscores.
Naar aanleiding van de boven vermelde rangorde nog het volgende. De onderwijzers
stelden dat zij de intellectuele capaciteiten van het kind van groot belang achtten, 22 van
hen plaatsten dit aspect zelfs als eerste of tweede. Daarbij dient echter te worden beseft
dat de onderwijzers in de regel slechts een gebrekkig inzicht hebben in de intelhgentie van
hun leerlingen. Uit het onderzoek van Groeneboom et al. (1978) kwam naar voren dat de
mening van de onderwijzer omtrent de relatieve intelligentie van zijn leerlingen meer
overeenstemming vertoonde met hun ISI-schoolvorderingen-prestaties dan met de ISl-
intelligentiescores. Het is niet ondenkbaar dat de onderwijzers zich bij de gevraagde
rangordening toch niet geheel hebben kunnen losmaken van hetgeen bekend staat als
sociale wenselijkheid. De hoge waardering van de voorkeur van ouders en kind en de
extreem lage appreciatie van het gegeven dat de leerling een jongen of meisje is wakkeren
vermoedens in deze richting aan. De experimentele benadering is ongetwijfeld minder
gevoelig voor sociaal wenselijke reacties.

Maar ook ten aanzien van de resultaten van het experiment moeten enkele relativerende
kanttekeningen worden geplaatst. In tegenstelling tot het meeste andere onderzoek op dit
gebied (zie Inleiding) ging het in dit geval om fictieve leerlingen en werd de onderwijzer
verzocht een advies uit te brengen in het besef dat daaraan geen consequenties verbonden
waren. Het artificiële karakter hiervan kan aan meerdere aspecten worden geïllustreerd:
de leerlingen waren allen jongens, de advisering was beperkt tot vier categorieën, de ruwe
en percentielscores werden in slechts één getal uitgedrukt en het bereik van deze scores
viel bovendien in een beperkt gebied. Aan de onderwijzers is het niet-levensechte van de
situatie niet voorbij gegaan. Uitspraken als 'Dit is niet echt, dit is kunstmatig, ik kan me
moeilijk voorstellen met zo'n kind te doen te hebben' en 'Moeilijk hoor, met deze paar
gegevens en zo vage informatie', illustreren dit. Tegenover het onmiskenbare verlies aan
levensechtheid staat echter wmst aan experimentele controle en beheersing van de onder-
zoeksomstandigheden. Zeker wanneer een en ander verfijnd zou worden, bijvoorbeeld
door verwerking van de gegevens tot geconstrueerde profielen van de 'echte' leerhngen
van een onderwijzer en uitbreiding van het aantal adviescategorieën, kan het bereik van
deze experimentele benadering aanmerkelijk verbreed worden. En daarmee zou tenmmste
één vruchtbare mogelijkheid zijn toegevoegd aan het reeds beschikbare arsenaal aan on-
derzoeksmiddelen rond het probleem van de adviestoekenning aan het eind van de lagere
school.

Bishop, Y.M.M., Fienberg, S.E., & Holland, P.W. Discrete multivariate analysis. Cambridge, Massa-
chusetts: MIT Press, 1975.

Bos, J., & Warries, E. De functie van een toetsprogramma: de Amsterdamse Schooltoetsen in 1969 en
1970. Amsterdam: R.I.T.P., 1971.

Brouwer, N., CaJje, K., van Moorsel, T., & SiUman, R. Onderwijzers en Hun schoolkeuze-adviezen.
Amsteidam: Psychologisch Laboiatoiium, 1973.

Bureau van Statistiek van de gemeente Amsterdam, 'De Amsterdamse schooltoets, 1969', op grond van
cijfers. Amsterdam, 1972.

Groeneboom, P., Hoogstraten, J., Mellenbergh, G.J., & van Santen, J.P.H. Relevante variabelen bü het
doorverwijzen na de lagere school; een correlationele analyse.
1978 (in voorbereiding).

Lutje Spelberg, H.C., & Rotteveel, H.J. De voorspellende waarde van de Groninger Schoolvorderingen-
toets. Tijdschrift voor Onderwijsresearch. 1978,3, 3-9.

Oosterbaan, J.W., De Amsterdamse Schooltoets in 1969 in relatie tot enige conclusies van 'Het verbor-
gen talent'. Sociologische Gids, 1973, 20, 88-97.

Sandbergeh, S., Elshout, J.I., Akkerman, T., & Peet, A.v. Enkele relaties tussen een intelligentietest en
een studietoets. Nederlands Tijdschrift voor de Psychologie, 1972, 27, 509-529.

Warries, E. Goede prestaties maar ongeschikt voor MAVO. Amsterdam: R.LT.P., 1972.

Achievement Motivation in Children
Measured with the Dutch Version of the
Gitter-Test by Schmalt'

A Dutch translation of the Gitter-test by Schmalt, an objective questionnaire to measure
achievement-motivation was filled in by 236 secondary school pupils.
Reliability was sufficiently high, and social desirability tendencies were absent.
No consistent factor structures could be found for different subgroups (age or sex) and for
different parts of the test. Validity coefficients were all non-significant. With this state of affairs
it is not recommended to use this test in applied settings.

We were interested in achievement motivation in a physical education context (Kemper,
1974). The Gitter-test of Schmalt (1973) which measures among other things achieve-
ment-motivation in sport and school activities might be promising for our aims.
This test, based on the projective technique with an objective scoring, consists of
18 drawn figurative pictures of an essentially ambiguous nature. This offers the Ss the
opportunity to project their needs, motives, interests etc. into the pictures. Although the
structure of the pictures might limit the kind of reactions of the Ss, it has the advantage
for the Ss that common topics will be discovered easier or may be even predicted.
Each of the pictures represents a different situation, but in sets of three they cover
specific areas of interests or activities: manual, music, school, self, helping and sports.
Schmalt selected 18 statements (= items) (see appendix). These statements are supposed
to be principally disjunctive and fit to each figure. The task of the S is to indicate for
each picture whether each statement fits. The possible perception of relations between
situations and achievement relevant experiences were seen by Schmalt as similar to the
methodological approach of Kelly (1955) the so-called grid (Gitter) repertory technique.
The test can be scored in a completely objective way from 0 to 18. Another advantage is
the possibility of enibedding concepts relevant to achievement motivation into the state-
ments.

Fourteen of the 18 items concerned two facton: hope for success (HS), which is similar
to achievement motivation and fear of failure (FF), which corresponds to the concept of
debilitating anxiety of Hermans (1970). There are four achievement motivation irrelevant
statements or items. According to Schmalt (1975) HS correlates with the achievement
motivation factor of TAT.

1 This research was performed in cooperation with the other members of the team for investigation
into the physiological psychology of physical education of the University of Amsterdam: Dr.
H.C.G. Kemper, R. Verschuur, Dr. L.W.C. Tavecchio and P.G. Splinter, Laboratory of Psychophysiol-
ogy (Prof. dr. P. Visser) and Coronel Laboratory (Prof. dr. R.L. Zielhuis)„University of Amsterdam.

A factor analysis (extraction by principal axes method with varimax rotation) of the
original 'Gitter' of Schmalt reproduced the HS-factor, but showed a split of the FF-factor
into two factors: a feeling of incompetence Fi and a specific fear of failure F2 (see
table 4). The HS-factor was considered by Schmalt (1975) as a concept of a good compe-
tence and a goal-directed mastery of more difficult tasks.

The Fl-factor was named the concept of the missing of skill and of the initiation of
efforts to avoid failure.

The F2-factor was named fear of failure. Ss were 139 pupils (60 boys and 79 girls) of the
3rd and 4th forms of an elementary school.

From the two original factors Schmalt formed 4 testscales: hope for success (HS) fear of
failure (FF), total motivation (TM = HS + FF) and netmotivation (NM = HS - FF).

The 'Gitter' of Schmalt was validated on 9-11 years old Ss. Since our version was meant
for children of 12 to 19 years old, the test instruction was adapted to this group. To
compare 'our resuhs with those of Schmalt, the data were analyzed in a similar way as
Schmalt did.

Subjects were 128 boys and 108 girls from a secondary school in a medium sized town.
This sample was subdivided in one group of 102 Ss, 17 and 18 years old, and another of
134 Ss, 12 and 13 years old.

- a test-retest reliability (n = 58) with a 7-week interval, compared to an 8-week interval
of Schmalt (table 1)

According to Nunnally (1967) in basic research a reliability of .60 or .50 will suffice
though in applied setting a rehabihty of .80 is just high enough. As the figures of
reliability m our situation are only used for theory forming, without practical conse-
quences for the Ss, we conclude that the test is sufficiently reliable.

In the study of Schmalt the he-test of Ascherieben (1970) was used to measure the
degree of social desirability and its correlation with the scales of the Gitter. This lie-test
of Ascherieben was vahdated in other situations. We preferred Hermans' (1967) Social
Desirability test (n = 59), a validated version of the test developed by Crowne and
Marlowe (1964). No significant SD-tendencies were present.

On the basis of the sizes of the eigenvalues it would have been plausible to use a
2-factorial solution (eigenvalue > 2.0; explained variance of 42.3%) or a 5-factorial solu-
tion (eigenvalue > 1.0 with an explained variance of 63.5%).

However, because of comparability with the results on the original version of the Gitter-
test as a first approach the same factor-analytical method was used, i.e. principal compo-
nent analysis and rotation of the first three components to simple structure according to
the varimax criterion.

Since we planned to use the 'Gitter' in a longitudinal study at a secondary school, it was
also important whether a consistent factor-structure could be found for subgroups dif-
ferent in age and/or sex.

The results of the factor analysis show that the variance explained (50.4%) by the three
factors is of the same magnitude as in Schmalt's study (40.9%) It has to be said that the
level of explained variance in traditional questionnaires of test-anxiety and achievement
motivation is usually not the half of that.

In order to compare our factor solution with Schmalt's, we used as criteria for a good
item: a loading >.45 on one factor and <.25 on the other factor(s) and if the loading on
some other factor >.25 to use the item only, if the difference between loadings >.30.
Although these criteria are subjective and arbitrary, we think that we took sufficiently
and safely account of the lower loadings (see also Van Kampen, 1976). With these criteria
in mind we conclude that the factor structure is unstable.

As a second factor analytical approach, an orthogonal congruent transformation (Van
Veen and Joor, 1974) was used, based on the method of Green (1952). The results
(table 4) show no big improvement in comparison to the varimax rotation.
The conclusion is, that the factor structure of the whole test in our samples is weak and
besides corresponds weakly with the one found by Schmalt. This is also illustrated by the
sometimes substantial loadings of the same item on other factors.
The intercorrelation of the HS- and FF-scale corresponds with this conclusion.
It shows a weak independency of each other.

Other interests in the 'Gitter' were its possible use in a longitudinal study in mixed
classrooms. For this reason it is important to know if similar factor structures can be
found in young (n = 134) and older (n = 102) subjects, and in boys (n = 115) and girls (n
= 93f

In summary the factor analytical results from the whole test, based on our criteria
indicate that consistent factor loadings were found for 8 items in the young and old
subgroup and for 2 items for boys and girls of both age groups.

The foregoing resuUs conceming our sample and subgroups from our sample lead us to
two conclusions: (a) the 'Gitter'-test has no consistent factor structure, assuming that the
unique variances of the items are unaffected by selection of the samples for this investiga-
tion and (b) the 'Gitter'-test is suited to discern the developmental pattern through
groups.

Our plans were to use the Gitter-test in a physical education context. For this reason we
chose to factor analyze the following, 4 areas of interest together: helping, selfactivity,
school and sporting on deleting the pictures corresponding to other situations. The fac-
tors were extracted for the whole sample (n = 236), and for the subgroups boys (n = 115)
and girls (n = 93) (see table 6). Moreover, the area of sporting was factor-analyzed (n =
236) separately. Summarizing, it can be stated that no consistent or substantial loading of
the items on the three aspects of achievement motivation, as interpreted from the factor-
analytical results by Schnialt (1973,1975) could be found.

2 A complete table of loadings of the items on the three factors can be obtained on request from the
authors.

u
>

x;
o

■s

«4-1

s
is

•o
§

•a

E
•g

•E

t/3

•a

ed M

00 o
c S"

T3
° g

3 "O

II
Is

o o

E
%

•a

c
«

■S

"3
»

E
E

Schmalt used as an external criterion the arithmetic mean of the marks for arithmetics,
national geography and the native language (German). Beside this, an intelligence ques-
tionnaire was taken. The values of both were transformed and subtracted. This difference
is positive (D-h) if the achievementscore is higher than the intelligence score and v.v. (D-).
As it is known that the validity and reliability of schoolmarks are subjects for suspicion
we decided to use the following perhaps more valid criteria:

1) The class-teachers of 7 classes (n = 185) were asked to judge the degree of motivation
of the 5 highest and 5 lowest motivated pupils of each of the 7 classes (n = 7 x 10 =
70), scored on an eleven point rating scale. The teachers were explicitly instructed not
to take account of the intelligence of the Ss.

3) The .transformed difference score between the Weight-Adjusted Oxygen Uptake (W-A
VOimax) (Katz, 1972) and the distance completed in the 12 min. run-walk test
(Cooper, 1968). The maximal O2-uptake measured during standardized tests on a
treadmill is a valid measurement of the aerobic power (Astrand, 1970). Also the
12 minute runwalk test (distance in meters) measures aerobic power. In highly moti-
vated Ss this Cooper-test has a high correlation with the VOjmax; with a lower
morivarion of the S, the difference between 12' run and the W-A VOjmax will in-
crease. Thus, this difference may be considered as an objective measurement of
achievement motivation (Kemper, 1974).

The results in table 7 show that no correlation is significant. Thus there is no conclusive
evidence about the validity of the test with the used external criteria. What the 'Gitter'-
test really measures is a matter of further research.

Although the results of reliabiUty and social desirability tendencies were satisfactory, we
have to conclude from the factor-analyses and the validity coefficients that it is doubtful
that this Dutch version of the *Gitter'-tcst can be used to measure achievement moti-
vation in different experimental populations.

The discrepancy is obvious between our results and those of Schmalt, but the following
points merit discussion:

1. An important difference lies in the present analytical approach with the one of
Schmalt namely that we required an invariant factor-structure in our sample along
such. parameters as age and sex. This information was omitted in Schmalt's paper
(1975), although he mentioned the factor structure as very stable in boys and girls, at
different ages, in different samples and in replications.

2. Conceming the factor-analytical approach itself, Schmalt remarked that a 3 factorial
solution has to be accepted as most optimal. No figures, however, are shown to
support this opinion.

3. A point of possible deviation from Schmalt's results is the difference in age. Schmalt
used Ss of about 9-11 years old, our Ss were 12 to 19 years old. Although the effort of
Schmalt to combine the projective technique with an objective scoring is praiseworthy,
it might have the disadvantage that the stimulus material (the drawn pictures) is
perceived specially by older Ss as rather naive. This was observed during the adminis-
tration of the test. In how far this has affected the results cannot be discovered from
the scores. Maybe the non-consistent factor structure for old and young Ss is due to
this, the mterrelationships among the items are different in the different experimental
subgroups or the variances of the items are different from each other.

4. As far as the validity studies are concerned we have no reliable indications of the
validity of the used external criteria. This fact could have contributed in a negative
way to our results.

The translated version of the Gitter-test to measure achievement motivation administered
to secondary school pupils appears to be reliable and insensitive to social desirabihty
tendencies. The test has an inconsistent factor structure. The problem of validity could
not be solved satisfactorily.

Whether the approach of a projective technique combined with an objective scoring to
measure achievement motivation in several areas of mterest will be fruitful, is a matter for
further research.

Text of the 18 statements of the Dutch version of the Gitter-test.
Hij voelt zich er prettig bij.

Hij denkt: 'Ik wil het Uefst iets doen, wat een beetje moeilijk is'.
Hij wil liever helemaal niets doen.

Hij denkt: 'Als het erg moeilijk is, probeer ik het beslist langer dan anderen'.
Hij denkt, dat hij het niet kan.

This research was supported by a grant from the Foundation for Educational Research and the
Ministry of Health and Environmental Hygiene in The Hague, The Netherlands (project 0185).
We acknowledge Drs. H. Elffers and E. Opperdoes of the Mathematical Centre of the University of
Amsterdam for their statistical advices and the teachers and pupils of the 'Scholengemeenschap Ber-
trand Russell' in Krommenie for their willingness to cooperate in this experiment.

Ascherieben, K. Entwicklung eines Lügen-Scores zur Messung von Simulationstendenzen. Zeitschrift
für Entwicklungspsychologie und Pädagogische Psychologie, 1970,2, 39-47.

Ästrand, P.O. & Rodahl, K. Textbook of Work Physiology. McGraw-Hill, New York: 1970.

Cooper, K'.H. A means of assessing maximal oxygen uptake. Journal of the American Medical Asso-
ciation, 1968, 203, 201-204.

Green, B.F. The orthogonal approximation of an oblique structure in factor analysis. Psychometrika,
1952, 7,429-440.

Hermans, H.J.M. A questionnaire measure of achievement motiwation. Journal of applied Psychology,
1970,54,353-363.

Hermans, H.J.M. Prestatiemotief en faalangst in gezin en onderwijs. Amsterdam: Swets en ZeitUnger,
1971.

Kampen, D. van, De Personality Questionnaire van Eysenck en Eysenck: Een factor-ananlytisch onder-
zoek. Nederlands Tijdschrift voor de Psychologie, 1976, 31, 23-34.

Katz, N. Correlational versus ratio adjustments of body weight in exercise-oxygen studies. Ergonomics,
1972,75,671-680.

Kemper, H.C.G. e.a. Invloed van extra lichamelijke oefening. Haarlem: De Vrieseborch, 1974.

Schmalt, H.D. Die Gitter Technik, ein objektives Verfahren zur Messung des Leistungmotivs bei Kin-
dern. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 1973, i, 231-252.

Schmalt, H.D. Das L.M. Gitter, ein objectives Verfahren zur Messung des Leistungsmotivs bei Kindern.
Intern Rapport, Psychologisches Institut, Rühr-Universität, Bochum, B.R.D., 1975.

Veen, F.B. van & Joor, Th.M. Procrustes rotation for matrices. Users Guide, Rijswijk: Control Data
Services, 1974.

Kath. Meerum Terwogt-Kouwenhoven
Subfaculteit psychologie. Universiteit van Amsterdam.

Sinds 12 november 1975 is, zoals bekend, de wet Herstructurering wetenschappelijk
onderwijs van kracht. Hierin zijn de wijzigingen vastgelegd van de Wet op het Wetenschap-
pehjk onderwijs en van de Wet universitaire bestuurshervorming. Naast een aantal secun-
daire wijzigingen is de meest ingrijpende wijziging de beperking van de cursusduur van alle
studierichtingen en de beperking van de inschrijvingsduur voor de studenten:
artikel 77 ter. 1. stelt: 'De inschrijvingsduur voor de propedeutische en doktorale fase
bedraagt in totaal twee jaren meer dan de cursusduur voor die fasen tesamen'.
Moge dit op zichzelf een eenduidige maatregel zijn, waarvan het effect op allerlei facetten
van het studeren vrij eenvoudig zou kunnen worden nagegaan, de maatregel alszodanig
heeft echter aanleidmg gegeven tot een heel complex van andere maatregelen, voortvloei-
end uit de hierdoor voor vele studierichtingen ontstane noodzaak het studieprogramma te
moeten veranderen. Vanwege deze noodzaak hebben velerlei instanties (de minister, de
academische raad, de commissie voorbereiding herprogrammering wetenschappelijk on-
derwijs, colleges van besturen etc.) de gelegenheid aangegrepen om verdergaande maatre-
gelen te (laten) nemen of te adviseren. Dit gehele kluster van maatregelen, die per studie-
richting en/of per (sub)faculteit verschillend kunnen zijn, kunnen we aanduiden met de
'herprogrammermg'. Daarbij komt nog, dat deze herprogrammermg plaats vindt in een
organisatorische-situatie, die ook van (sub)faculteit tot (sub)faculteit verschilt, niet alleen
vanwege de structurele variatie, maar ook vanwege het feit dat zij zich bevinden in
uiteenlopende fasen van invoering van de WUB.

Wanneer de artikelen betreffende de cursus- en inschrijvingsduurbeperkingen van kracht
worden (naar het zich momenteel laat aanzien in september 1979) zullen er overal geheel
of gedeeltelijk gewijzigde studieprogramma's en andere maatregelen van start gaan (behal-
ve aan die subfaculteiten, waar men al eerder met een 'nieuw' programma is begonnen).
Tevens worden dan ook de artikelen van kracht, waarin wordt gesteld dat de studierich-
tingen verslag moeten doen van de 'bevindingen' na drie maanden en na het verstrijken
van de gezamenlijke inschrijvingsduur voor de propedeutische en doktorale fase, waarbij

De wet schrijft dus voor, dat elke studierichting verslag doet van haar 'bevmdingen' met
de ingevoerde maatregelen. Hieraan kleven twee problemen.

Ten eerste de vaagheid van wat de wet voorschrijft; welke bevindingen worden bedoeld,
tot op welk nivo van specificiteit moeten zij worden beschreven, om wiens bevindingen
gaat het (staf, studenten, evaluator). Een belangrijk punt hierbij is tevens, dat maatregelen
allerlei gevolgen kunnen hebben, bedoelde en onbedoelde, of dat de gevolgen ervan geheel
uitbhjven; dit laatste kan alleen worden nagegaan als er een duidehjk zicht is op de 'oude'
situatie.

Een tweede probleem is de gecomphceerdheid van de nieuwe situatie, waarin sprake is van
maatregelen op grond van de herstructurering, herprogrammering en bestuurshervorming.
De verantwoordelijke instantie (we zullen hem de 'evaluator' noemen) voor het verzorgen
van bovengenoemd verslag bevindt zich kortom in een netehge situatie, die gekenmerkt
wordt door vaagheid en gecomphceerdheid. Daarbij komt, dat hij theoretisch bijzonder
slecht is uitgerust; beschrijvingen van algemene effecten van het invoeren van 'vernieuwin-
gen' bestaan praktisch niet en beschrijvingen van lokale evaluatie-procedures worden ge-
karakteriseerd door hun beperkte generaliseerbaarheid. Waar hij het mee moet doen zijn
vage indrukken, zoals b.v. dat aanvankelijk geconstateerde effecten na verloop van tijd
blijken te zijn verdwenen, dat de omstandigheden waaronder de evaluatie plaats moet
vinden praktisch nooit enigszins 'zuiver' zijn te creeeren, en andere onbehagelijkheden. De
geconstateerde vaagheid en gecomphceerdheid in de situatie van de herprogrammering
brengt echter vooral met zich mee, dat het moeilijk te bepalen valt wat er nu eigenhjk
geevalueerd moet worden. Welke vragen kan men zich stellen, welke informatie kan wel
of niet verzameld worden gezien de structurele en andere beperkingen en welke vragen
kunnen nog zinvolle informatie opleveren in een situatie waarin van geen enkele maatregel
op zichzelf het effect kan worden vastgesteld omdat dit effect niet meer te onderscheiden
valt van dat van andere maatregelen.

Wanneer er gevraagd wordt om verslag te doen van de bevindingen met een aantal geno-
men maatregelen, waardoor een veranderde situatie is ontstaan, dan zal het duidelijk zijn
dat deze evaluatie in de eerste plaats gericht moet zijn op het bepalen van het effect van
deze maatregelen.

We hebben reeds opgemerkt, dat maatregelen echter allerlei soorten effecten kunnen
sorteren. Eén van de mogelijkheden is dan om na te gaan of het beoogde effect bereikt is.
In feite is dit een merkwaardig geval. Er van uitgaande, dat maatregelen niet willekeurig
aan doelsteUingen gekoppeld worden, zou dit soort evaluatie eigenlijk overbodig behoren
te zijn; in alle redelijkheid en op grond van maximale deskundigheid genomen maatrege-
len bereiken hun doel, ofwel men zou moeten weten wat het effect van een maatregel is
alvorens hem te nemen. Dit is slechts in twee gevallen reahseerbaar n.1. als er voldoende
algemene onderwijskundige kennis aanwezig is waar adequate doel-middelen koppelingen
uit geput kunnen worden of wanneer er van tevoren met bepaalde middelen is geëxperi-
menteerd. Aan beide voorwaarden is echter niet of nauwelijks voldaan, waar nog bij
komt, dat van de schaarse onderwijskundige kennis slechts in geringe mate gebruik wordt
gemaakt. Om een voorbeeld te noemen, de keuze van vormen van onderwijsbegeleiding
lijkt meer geleid te worden door ideologische overwegingen dan door onderwijskundige
inzichten. Van de 'kennis', dat de begeleidingsvorm op het leerresultaat op dit nivo van
onderwijs nauwelijks van invloed is, schijnt men maar geen gebruik te willen maken; van
bepaalde begeleidingsvormen gaat nog steeds een zekere heilsverwachting uit. Zolang

meerdere middelen tot hetzelfde doel kunnen leiden en omgekeerd met een bepaald
middel meerdere doelen verwezenlijkt kunnen worden is het nog steeds nuttig door
middel van evaluatie-onderzoek na te gaan of de beoogde effecten bereikt zijn.
Naast bedoelde effecten kunnen maatregelen ook aanleiding geven tot onbedoelde effec-
ten. Deze zijn vaak zeker zo interessant, maar stellen de evaluator voor het probleem hoe
ze op te sporen, in welke richting ze te zoeken.

Het vaststellen van bedoelde effecten kan op twee manieren gebeuren, n.1. door ze te
vergelijken met een van tevoren gesteld kriterium of door ze te vergelijken met de effec-
ten van 'andere' maatregelen, c.q. een situatie waarin deze maatregelen niet genomen
waren. Voorlopig bepaalt dit alles echter niet meer dan de aard van de te stellen evaluatie-
vragen; welke vragen er gesteld kunnen worden blijft nog een probleem.
In zijn nota 'Oriënterende informatie over onderwijs evaluatie' geeft Camstra (1976) een
aantal kriteria voor evaluatievraagstelhngen. Eén van de belangrijkste daarvan is, dat evalu-
atievraagstellingen zich alleen zouden moeten richten op reeel veranderbare aspecten van
het onderwijs. Op zichzelf is dit een zinvol uitgangspunt. In een situatie echter, waarin
kortelings een heel komplex van veranderingen heeft plaats gevonden, die bovendien deels
wettelijk zijn vastgelegd, is dit niet zo'n zinvol kriterium meer; de mogelijkheden en
bereidheden tot nieuwe veranderingen op grond van de ervaringen met pas ingevoerde
veranderingen zijn aan hun plafond. Een mogelijkheid, die de evaluator ten dienste staat
om tot een zinnige evaluatievraagstelling te komen, bestaat uit een orientatie op de
vigerende evaluatie-modellen (waarbij de term 'model' voorlopig misplaatst is). Een goed
overzicht van deze modellen geeft de Roo (1977).

Men kan onderscheiden experimentele modellen (in hoeverre zijn bepaalde van tevoren
vastgestelde leerdoelen bereikt), modellen die gericht zijn op de inrichting en het funktio-
neren van het totale onderwijsprogramma en onderwijsproces en modellen, waarin een
evaluatieve begeleiding wordt voorgestaan van het totale renovatieproces en waarin de
evaluator in alle fasen van dit proces informatie verzamelt.

De Roo stelt echter, dat de beste vorm van evaluatie afhangt van de problemen, die men
met evaluatie wil oplossen, waarmee de kring weer gesloten is en we weer bij het uitgangs-
punt zijn beland. Bovendien is de toepasbaarheid van deze modellen ook afhankelijk van
de positie, die de evaluator inneemt in de renovatie- en onderwijsstructuur en van de fase,
waarin de evaluator bij het renovatieproces betrokken wordt. Doelstellingen moeten bij-
voorbeeld operationahseerbaar zijn om onderzocht te kunnen worden op hun mate van
verwezenlijking en de situatie, waarin deze doelsteUingen verwezenlijkt moeten worden,
moet zodanig manipuleerbaar zijn, dat een experiment (al is het maar volgens een quasi-
experimenteel design) reahseerbaar is; begeleiding van het totale renovatieproces is alleen
mogelijk als de evaluator tijdig wordt ingeschakeld en bepaalde bevoegdheden krijgt toe-
gewezen om beleidsvormend en sturend op te treden.

Voor het ontwikkelen van een strategie voor het bepalen van evaluatievragen hebben we
slechts de beperkende omstandigheden uiteen gezet; reductie van de geconstateerde vaag-
heid en gecompliceerdheid is hiervan nog geenszins het gevolg.

Een zinvolle strategie voor een evaluator in een dergelijke situatie zou kunnen bestaan uit
het plegen van een grondige analyse van de situatie, waarin hij zich in concreto bevindt en
de positie, die hij daarin inneemt. Aan de onderwijssituatie, die hiervoor als uitgangspunt
dient, laten zich een aantal aspecten onderscheiden, die een dergelijke analyse kunnen
vergemakkelijken.

De relevante onderwijsaspecten laten zich op de volgende wijze beschrijven:
Binnen een bepaalde organisatie-structuur 0), waarin bevoegdheden en betrokkenheden
zijn vastgelegd kan men de volgende aspecten onderscheiden, zoals b.v. door Glaser al in
1962 is geformuleerd in het volgende model:

Nagegaan moet worden welke maatregelen er genomen zijn en in welke aspecten van de
onderwijssituatie ze primair hebben ingegrepen. Uit dit model kan men dan afleiden op
welke aspecten deze maatregelen invloed zouden kunnen hebben.

Een voorbeeld: de maatregel tot beperking van de studieduur grijpt primair in op het
vaststellen van de resultaten; het studieresultaat wordt primair bepaald door het studie-
tempo. De maatregel is niet bedoeld om in te grijpen in het begin-gedrag van de studen-
ten. Toch kan dit hiervan het gevolg zijn, zoals uit het model valt af te lezen. In het hcht
van de minder gunstige studie-omstandigheden zullen wellicht minder mensen geneigd zijn
nog aan een studie te beginnen en de studenten, die dit wel doen zullen dan ook waar-
schijnlijk over andere eigenschappen beschikken dan die van de studenten-populatie tot
nu toe, waarvan het studieresultaat primair werd bepaald door het studienivo. Er kan dus
van de maatregel een selectieve werking uitgaan, waardoor het effect gunstig zou kunnen
worden beïnvloed, met dien verstande dat dit effect in feite wordt bepaald door een
onbedoeld neven-effect.

Nagaan welke maatregelen er in het kader van de herstructurering en herprogrammering
allemaal genomen zijn kan op zichzelf een zware taak zijn. Een prettige bijkomstigheid is,
dat de herprogrammering zich in bijna alle gevallen in een aantal duidelijk omschreven
fasen heeft afgespeeld. Ook de argumentatie (indien aanwezig) voor het nemen van be-
paalde maatregelen speelt een rol van betekenis. Daarnaast zijn van belang de omstandig-
heden waaronder de maatregelen!ingevoerd worden; ook hiervan is het effect afhankelijk.
Is men in staat de Gordiaanse knoop enigszins te ontwarren, dan heeft men een uitgangs-
punt om verdere stappen te overwegen.

Het hanteren van dit model maakt het mogelijk de bronnen van bedoelde en onbedoelde
effecten op te sporen en de wegen, waarlangs zij tot stand gekomen zouden kunnen zijn.
Daamaast kan men proberen binnen het gehele kluster van maatregelen een bepaald
patroon te ontdekken. Het hgt b.v. voor de hand uit te gaan van de wettelijke herstructu-
rering; deze maatregel is immers de aanleiding geweest voor allerlei mogelijke uitwerkin-
gen op een lager nivo.

De herstructurering is een maatregel om de studieduur te beperken. Het ligt in de rede om
deze studieduur dan ook als belangrijkste afhankelijke variabele te kiezen, ook al omdat
'het verslag van de bevindingen' aanleiding mag zijn om de geïnstitutionahseerde cursus-
duur aan te toetsen.

Het verloop van de studiegang wordt daarmee de centrale vraagstelhng; de problematiek
van de studievertraging en studieuitval dient zich aan. Hoewel er het nodige onderzoek is
verricht op dit gebied (een aardig overzicht hiervan is gemaakt door van Berkel, 1977) kan

niet anders geconcludeerd worden dan dat men hier te maken heeft met een uiterst
diffuus probleem.

Bij oppervlakkige analyse van het studieverloop van studenten blijkt dat er twee soorten
studievertraging te onderscheiden zijn n.1. vertraging door een te laag studietempo (de
studenten doen te weinig tentamens end. of zij nemen er teveel tijd voor) en vertraging
doordat men vaak onderdelen moet overdoen (studenten, die het vereiste nivo niet halen).
In de literatuur kan men een zeer groot aantal factoren aantreffen, die genoemd worden
in verband met studievertraging. Een onderscheid naar vertragingspatroon of naar de
studie-fase waarin de vertraging wordt opgelopen wordt zelden gemaakt. Het is echter
zeer waarschijnhjk, dat de verschillende vertragingspatronen, zoals boven geschetst, ver-
schillende oorzaken hebben. De oorzaken van studievertraging kunnen uit verschihende
bronnen voortkomen, zoals valt af te leiden uit het aangehaalde onderwijs-model van
Glaser. Zowel de doelstellingen, de eigenschappen van de betrokken studenten, de onder-
wijsprocedures, het vaststellen van de resultaten en niet in de laatste plaats de wijze
waarop deze verschillende onderwijsaspecten op elkaar zijn afgestemd kunnen bronnen
van studievertraging zijn. Ten onrechte wordt echter vaak aangenomen, dat de onderwijs-
procedures de belangrijkste factor zijn in het oplopen van studievertraging en dat door
een eenvoudige ingreep in deze onderwijsprocedures de gehele problematiek opgelost zou
kunnen worden (vgl. Vorst, 1978).

Een deugdelijke analyse van de problematiek van de studievoortgang als centraal uitgangs-
punt in de evaluatievraagstelling kan aanleiding zijn tot het formuleren van vragen op het
nivo van programma-onderdelen of min of meer afgeronde programma-fasen, zoals de
propedeuse; de mogehjke bronnen van vertraging dienen hierbij als leidraad.
Op deze wijze kan een hierarchie van vragen worden geconstrueerd, waarop de eigenlijke
evaluatie gebaseerd kan worden. Welke vragen uiteindelijk in aanmerking komen om
onderzocht te worden wordt bepaald door de locale situatie waarin de evaluator zich
bevindt: welke informatie is voor hem toegankelijk.

Bovendien zal hij toch ook altijd willen proberen het uiteindelijke evaluatie-onderzoek
zodanig op te zetten, dat het resultaten oplevert die niet alleen van nut zijn voor de
specifieke situatie waarin ze verworven zijn; de locale problematiek zal per studierichting
variëren, maar het centrale probleem is een probleem waar zij zich aUen voor gesteld zien.

Berkel, H.J.M. van. Studievertraging en voortijdige studiebeeindiging. Een literatuurstudie. COWO,
Univ. V. A'dam, 1977.

Camstra, B. Oriënterende informatie over onderwijs evaluatie. COWO, Univ. v. A'dam, 1976.
Glaser, R. Psychology and instructional technology, in: Glaser, R. (ed.) Training, Research and Edu-
cation, Pittsburg, 1962.
de Roo, A.A. Informatie + Oordeel = Evaluatie. Onderzoek van Onderwijs, 6, no. 3, 1977.
Vorst, H.C.M. Studietempo, onderwijsfactoren en persoonskenmerken (in voorbereiding).

Nijmegen, Instituut voor Toegepaste Sociologie (ITS), sektie onderwijs-research.

In een postenquéte (vragenlijsten per post aan potentiële respondenten toegestuurd) is het
veelal moeilijk de response op een akseptabel niveau te krijgen. De response-percentages
liggen vaak tussen 40 en 50, wat een reden is om een postenquéte af te wijzen tenzij via
speciale procedures een hoog response-percentage verkregen kan worden of informatie
over de non-respondenten beschikbaar is (Kerlinger, 1973, p. 414).
Naar de procedures om een hoog response-percentage in een postenquéte te verkrijgen
wordt onderzoek verricht: zie Blumberg et al. (1974), Zo slagen DiUman et al. (1974) er
in response-percentages tussen 70 en 75 te verkrijgen. Met name een 'persoonlijke'
benadering en een intensieve follow-up zijn in dit verband essentieel.
Informatie over de non-respondenten kan verkregen worden met verschillende methoden:
zie Daniel (1975), Fuller (1974) en Mandell (1974). Eén van de in de literatuur
genoemde methoden is, dat men zich baseert op de hypothese dat degenen die in het
onderwerp van de vragenlijst geïnteresseerd zijn in bepaalde opzichten een ander ant-
woordpatroon hebben, en dat deze personen zowel eerder als vaker reageren (Blumberg et
al., 1974, p. 117; Fuller, 1974, p. 242). Informatie afkomstig van respondenten die (zeer)
traag hun vragenlijst terugsturen wordt dan beschouwd als indikatief voor de informatie
die non-respondenten gegeven zouden hebben als zij wel aan het onderzoek hadden
meegewerkt (Moser, 1968, p. 136).

Zo haalt Cochran (1963, p. 356) een onderzoekje aan waarin in een survey aan fmitkwe-
kers onder andere gevraagd wordt hoeveel fmitbomen zij bezitten. De populatiegegevens
over het aantal fruitbomen zijn bekend (gemiddeld 329). De fruitkwekers die reageerden
op de eerste toegezonden vragenlijst waren in het bezit van 456 fruitbomen; degenen die
reageerden op de tweede en derde hen toegezonden vragenlijst hadden resp. 382 en 340
fruitbomen. De non-respondenten bezaten er gemiddeld 290. Ook Kish (1965) geeft enige
onderzoeksresultaten: het snel reageren op een verzoek tot deelname hangt positief samen
met het al dan niet bezitten van bepaalde objekten (i.c. een tuin, p. 544) of met de mate
waarin men in bepaalde opzichten sukselvol is (i.c. suksesvol jager zijn, p. 546-547). Het
blijkt dus, dat het tijdstip van reageren in een postenquéte samenhangt met de skores op
(bepaalde) variabelen in de betreffende vragenlijst. In deze onderzoeksresultaten wordt
gesuggereerd, dat 'geïnteresseerd zijn in het onderwerp van de vragenlijst' (zie de boven-
staande hypothese) betekent: 'positieve aspekten met betrekking tot het eigen prestige
kunnen weergeven'.

Er gebeurt echter ook onderzoek waarin deze aspekten van het eigen prestige niet op de
voorgrond treden. De vraag die dan rijst is of in dit soort onderzoek het tijdstip van reageren
samenhangt met bepaalde variabelen in de vragenlijst, en zo ja welke betekenis aan deze
samenhangen moet worden gegeven.

In deze notitie wordt aan de hand van een exploratief onderzoekje getracht indikaties te
geven voor het antwoord op deze vraag. Het betreft hier indikaties, omdat in materiaal-
exploratie een exact interpretatie van de betekenis van gevonden signifikanties niet
mogelijk is daar het totaal aantal nulhypothesen onbepaald is (de Groot, 1956, p. 404).

Eventuele signifikanties dienen dus slechts de hypothese-vorming omtrent relaties tussen
responsesnelheid en antwoordpatronen in de vragenlijst.

Bij het onderzoek is gebruik gemaakt van data die verzameld zijn in het onderzoek naar
doelstellingen en organisatie-aspekten met betrekking tot ontwikkeUngen naar het partici-
patie-onderwijs (S.V.0. - projekt P.O. - 0364). Informatie over dit onderzoek - dat
betrekking heeft op onderwijsinstellingen voor partieel leerplichtigen en degenen die daar
het onderwijs verzorgen - is te vinden in: Biermans en Mooij (1976), Mooij (1977),
Biermans et al. (1977), Mooij (1978), en in het eindrapport dat in 1978 verschijnt.

Voor het onderzoek onder onderwijsgevenden zijn a-selekte steekproeven getrokken uit
landelijke adressenbestanden van vormingswerkers voor jeugdigen en docenten verbonden
aan streekscholen voor beroepsbegeleidend onderwijs (hbo). De response wat betreft
volledig ingevulde vragenlijsten is voor vormingswerkers en docenten bbo resp. 58,8 % en
54,1 %. De gemiddelde response voor beide groepen is 56,5 % (n = 585).
De response ligt dus boven de door Kerlinger (zie hiervoor) genoemde percentages, maar
beneden die van Dillman et al. (1974).

Van 11 respondenten kon niet vastgesteld worden in welke week van de 7 weken durende
dataverzamelingsfase een vragenlijst ontvangen is. Voor de overige respondenten is de
variabele response-snelheid geoperationaliseerd als het volgnummer van de week waarin de
vragenlijst binnen kwam.

Vervolgens zijn voor beide groepen respondenten apart (vormingswerkers (n = 305) en
docenten bbo (n = 269)) Pearson korrelaties berekend tussen alle vragenlijstvariabelen en
deze response-snelheid. De resultaten uit deze lineaire analyse betreffen de tweezijdige
getoetste r-waarden (signifikant indien P < .05). De aantallen signifikante samenhangen
zijn voor de vormingswerkers 14 en voor de docenten bbo 12 (uit 220 korrelaties). Op
grond van toeval worden 11 (= .05 x 220) signifikante korrelaties verwacht, een aantal dat
overeenstemt met de gevonden aantallen. Dit is hier echter niet relevant; aan de orde is, of
uit deze samenhangen een 'beeld' te konstrueren is dat richtinggevend is voor in volgend
onderzoek te toetsen voorspellingen omtrent de relaties tussen de gedragsvariabele res-
ponse-snelheid en vragenlijstvariabelen (die weinig tot geen aspekten van eigen prestige
vertonen).

In inhoudelijk opzicht zijn de gevonden signifikanties - voor elke groep respondenten
afzonderlijk - samen te vatten als volgt.

Bij vormingswerkers is sneller responderen gerelateerd aan een grotere mate van perceptie
dat de bbo-partner samenwerking bemoeilijkt en uitstelt, en een belangrijker vinden van
doelstellingen omtrent machts- en belangentegenstellingen in het onderwijs aan partieel
leerplichtigen.

Bij docenten bbo hangt sneller responderen samen met het voorstander zijn van uitbrei-
ding van de partiële leerplicht, van samenwerking met meerdere onderwijstypen, en de
mate van het oneens zijn met de stelling dat samenwerking tussen vormingswerk en bbo in
het belang is van het bbo. Daarnaast is er verband tussen sneller responderen en het
belangrijker vinden van integratie van theorie en praktijk in programma's en een grotere
deehiame aan gezamenhjke aktiviteiten met het vormingswerk en tevens aan werkgroepen
op het eigen vakgebied.

De interpretatie van deze samenhangen vindt plaats in het licht van de ontwikkeling in het
part-time onderwijs. Deze ontwikkelingen betreffen de geleidelijk diepgaander samenwer-
king tussen streekscholen voor bbo en vormingsinstituten voor jeugdigen (die volgens het

huidig beleid uit moet monden in mtegratie). Door verschillende oorzaken is deze
samenwerking voor het vormingswerk (voorlopig) een reddmgsboei om het hoofd boven
water te houden, terwijl dit voor de streekscholen geen rol speelt: zie Biermans en Mooij,
1976, bijlage 1; Mooij, 1978, tabellen 5,6 en p. 17-18.

De gevonden korrelaties bij de vormingswerkers kunnen erop wijzen, dat relatief snel
gerespondeerd wordt door degenen die de urgentie van deze samenwerking onderkennen
en gevoehg zijn voor machts- en belangentegenstelUngen (zowel m deze samenwerking, als
wat betreft hun relevantie voor het onderwijs). Snel responderen hjkt dus samen te
hangen met de veronderstellmg het eigen belang te dienen door te responderen en zo de
eigen mening kenbaar te maken. Bij de docenten hbo hangt sneller responderen samen
met: zijn vóór samenwerking met meerdere onderwijstypen, het ontkennen van het eigen
belang m de samenwerkmg met het vormingswerk, en zijn tégen dwingende overheids-
maatregelen om integratie tot stand te brengen van vormingswerk en middelbaar beroeps-
onderwijs (een vaak genoemd alternatief voor de mtegratie van vormingswerk en streek-
scholen voor hbo). Sneller responderende docenten stellen zich in meer opzichten breed en
open op: zij willen de onderwijsprogramma's verbeteren, werken samen met het vormings-
werk, en nemen deel aan werkgroepen. De mdruk ontstaat dat docenten snel responderen
wanneer zij open staan voor onderwijsvemieuwmg en deze (willen) reahseren, maar
tegelijkertijd hun eigen belang niet gebaat zien bij een exclusieve samenwerking met het
vormingswerk.

De inhoudelijke interpretatie van de signifikante samenhangen suggereert dat degenen die
sneller responderen degenen zijn die hun eigen belang weerspiegeld zien in het (voor-
naamste) onderwerp van de vragenlijst.

Er is dus aanleidmg te veronderstellen, dat er (minstens) twee faktoren een rol spelen in
de response-snelheid in een postenquête. Deze twee faktoren zijn: de mate waarin men
positieve aspekten van het eigen prestige kan weergeven, en de mate waarin men het eigen
belang weerspiegeld ziet in het onderwerp van de vragenlijst.

Het is bij een postenquête mogehjk om verschillende voorspellmgen te formuleren (op
basis van deze twee faktoren of één faktor) wat betreft samenhang tussen res-
ponse-snelheid en vragenlijst-variabelen. Toetsing van deze voorspelhngen wijst dan uit
welke relaties gekonfirmeerd worden, en exploratie van het overig materiaal leidt even-
tueel tot de ontdekking van andere faktoren. Op deze wijze kunnen de faktoren samen-
hangend met response-snelheid gekonstrueerd en gevahdeerd worden, en dit zou impli-
katies kunnen hebben voor de interpretatie van non-response (zie het begin van deze
notitie). Het zal evenwel duidelijk zijn, dat onderzoek naar non-response vooralsnog niet
vervangen kan worden door onderzoek naar response-snelheid.

Biermans, H.W.M. en Mooij, A.J, Onderzoek naar doelstellingen en organisatieaspekten met betrekking
tot ontwikkelingen naar het participatieonderwijs. Interimverslag, Nijmegen: ITS, 1976.
Biermans, H., Mooij, A., Michiels, L., van Middelkoop, R., Wielders, P., Regionale samenwerking in
1977. Nijmegen: ITS, 1977.

Blumberg, H.H., Fuller, C., Hare, A.P. Response rates in postal surveys. The public Opinion Quarterly,
1974,55,113-123.

Daniel, W.W. Nonresponse m sociological surveys. A review of some methods for handhng the
problem. 5ocio/o^'cj; methods and research, 1975,5, 291-307.

DiUman, D.A., Carpenter, E.H., Christenson, J.A., Brooks, R.M. Increasing mail questionnaire re-
sponse: a four state comparison. American Sociological Review, 1974,39, 744-756.
Fuller, C.H. Weighting to adjust for survey nonresponse. The Public Opinion Quarterly, 1974, 38,
239-246.

Groot, A.D. dé. De betekenis van 'significantie' bij verschillende typen onderzoek. Nederlands

Mandell, L. When to weight: determining nonresponse bias in survey data. The Public Opinion
Quarterly, 1974, JS, 247-252.

Mooij, A.J. Samenwerking van onderwijsgevenden uit beroepsbegeleidend onderwijs en vormingswerk:
een pilot study. Paper t.b.v. Onderwijsresearchdagen. Nijmegen: ITS, 1977.

Mooij, A.J. Docenten bbo en vormingswerkers over onderwijs aan partieel leerpüchtigen. Paper t.b.v.
Onderwijsresearchdagen. Nijmegen: ITS, 1978.

Het functioneren van terugkoppeling in het wetenschappelijk onderwijs. Twee voorafgaande voor-
waarden.

Op een studiekonferentie in 1971 kwam de vraag ter sprake hoe terugkoppeling in het wetenschappe-
lijk onderwijs geoptimaliseerd zou kunnen worden.

Buis, een van de deelnemers aan de konferentie nam de handschoen op om 'hetgeen we blijkens het
voorafgaande allang wisten' op een rij te zetten. Hij besloot tot een 'probleemgericht onderzoek met
een multidiscipUnair tintje' over te gaan.

Het resultaat van dit onderzoek werd vastgelegd in een dissertatie waarin verslag wordt gedaan, niet
van eigen laboratorium- of veldonderzoek, maar van de konstruktie van een theoretisch kader, het op
basis daarvan analyseren van ongeveer 150 publikaties, hetgeen leidde tot het formuleren van tien
vuistregels voor het geven van terugkoppeling in het universitaire onderwijs, waaruit tenslotte hypothe-
sen afgeleid kunnen worden voor nader onderzoek.

In het eerste deel van het proefschrift wordt de probleemstelling uitgewerkt en duidelijk gemaakt dat
het probleemgerichte karakter van de studie tot uiting komt in de vraag hoe te komen tot een
praktisch hanteerbare reeks vuistregels aan de hand waarvan men de terugkoppeling beter kan laten
funktioneren. Daarnaast wordt het multidisciplinaire element van het onderzoek geadstrueerd. Bij de
konstruktie van het theoretisch kader is namelijk niet alleen uitgegaan van de onderwijskunde, c.q.
(leer-)psychologie, maar ook cybernetika, argumentatietheorie en psychiatrie leverden een bijdrage.
Volgens de schrijver vloeide deze benadering logisch voort uit de probleemstelling, bovendien hoopt hij
ook een multidisciplinaire lezerskring te bereiken.

Omdat het probleemveld een 'mer ä boire' is, wordt het ingeperkt door de in de titel genoemde twee
voorafgaande voorwaarden die vervuld moeten zijn wil men van het funktioneren van terugkoppeling
kunnen spreken. De voorwaarden zijn; (1) het scheppen van een situatie waarin de potentiële informa-
tie-ontvanger zich daadwerkelijk voor terugkoppeling openstelt, en (2) indien deze situatie is gescha-
pen, dient de informatie op zodanige wijze te worden aangeboden, dat de ontvanger er iets mee kan
doen.

In het tweede deel van de dissertatie wordt de theoretische basis gelegd door een interessante, krea-
tieve kombinatie van elementen uit de systeembenadering, de cybernetika, de kategorieën van De
Groot met betrekking tot onderwijsdoelstellingen (met name "verrassingen aangaande mijzelf), de
argumentatietheorie van Perelman en psychiatrie, met name de pathologische kommunikatie. In het
kader van deze bespreking zou het te ver voeten uitgebreid in te gaan op de erudiete wijze waarop Buis
uit deze benaderingen een multidisciplinair theoretisch kader formeert.

Belangrijk is dat hij op deze wijze op het spoor komt van twee, in de psychologische literatuur over
terugkoppeling verwaarloosde funkties: de vitale en de sociale funktie. Drie eenvoudige werkhypothe-
sen worden uit bovengenoemd referentiekader afgeleid namelijk: (1) bij het doen van uitspraken
omtrent eigenschappen van deelnemers aan leer/doceerprocessen lijkt grote terughoudendheid gebo-
den; (2) het verdient sterk aanbeveling terugkoppelingssituaties zodanig in te richten dat geboden
informatie door de ontvangers als voldoende lonend, respektievelijk voldoende relevant, respektievelijk
niet te 'ego-bedreigend' wordt ervaren, en (3) het verdient sterk aanbeveling om aan de terugkoppeling
een zodanige specificiteit te geven dat recht wordt gedaan aan het, in beginsel gedifferentieerde, c.q.
meerdimensionele repertoire van deelnemers aan het leer/doceerproces.

De drie hypothesen worden in het derde deel van de studie getoetst tegen inhoud van empirische
onderzoekingen op het gebied van terugkoppeling.

De resultaten van deze analyse leiden tot het formuleren van hoofdkonklusies met betrekking tot de
drie uit de werktheorie afgeleide beweringen en tot een soort checklist, die bestaat uit tien vuistregels
voor het geven van terugkoppeling in het universitaire onderwijs. Samengevat luiden deze regels: begin
met terugkoppeling op de dag dat het onderwijs begint; geef specifieke terugkoppeling; niet vrijblij-

vend; geen oneigenlijk gebruik; minimaliseer de 'ego-bedreiging'; vermijd pseudo-terugkoppeling; de
frekwentie ervan te baseren op eommonsense; het is een middel en geen doel; zeer geschikt instrument
voor terugkoppeling is in beginsel de objektieve studietoets, en tenslotte hantere men daarbij een
'minimaal' uitslagenformulier.

In het laatste hoofdstuk wordt tenslotte een (geslaagde) poging ondernomen om, teruggrijpend op de
methodologische uitgangspunten uit deel I, deze voor psychologen toch wat ongewone aanpak, nog-
maals methodologisch te funderen. Interessant is hierbij de poging hypotheses te formuleren die in
verder onderzoek getoetst kunnen worden. Buis toont duidelijk aan dat vooral in drie richtingen
vervolgonderzoek gewenst is, bijvoorbeeld in welke onderlinge verhouding de drie komponenten 'door-
breking vrijblijvendheid', 'specificiteit' en 'kwantitatieve informatieverrijking' de effektiviteit van te-
rugkoppeling bepalen.

Door de prettige schrijfwijze, zonder overbodig vakjargon, is het boek zeker geschikt voor meerdere
doelgroepen. Zowel docenten uit verschillende vakgebieden als onderzoekers in het onderwijs krijgen
een systematisch overzicht in 'hetgeen iedereen eigenlijk allang wist'. Voor onderzoekers kan het een
inspiratiebron zijn om laboratorium- of veldexperimenten uit te voeren, waartoe de schrijver in zijn
werksituatie niet in staat was.

Qombag, H.F.M. & Chang, T.M. (red.). Een Icleine zoölogie van het onderwijs. Leiden: Leidse Univer-
siteitspers, 1978.

Jansen, G.G.H. An application of Bayesian statistical methods to a problem in educational mea-
surement. Proefschrift, R.U. Groningen, 1977.

Leune, J.M.G. Sociologie van Onderwijsbeleid; enkele opstellen. Mededelingen van het Sociologisch
Instituut van de Erasmusuniversiteit Rotterdam nr. 24 april 1978.

Onderwijs, Sociologie en Ongelijkheid. Naar een programmering van ondenoek^betreffende de relatie
tussen onderwijs en maatschappelijke ongelijkheid. K.U. Nijmegen: Onderzoeksgroep Onderwijs en
maatschappelijke ongelijkheid, 1978.

Rosier, Malcohn J. Early school leavers in Australia. (= lEA Monograph Studies no. 7) Stockhdhn:
Almquist&Wiksell, 1978.

Smuling, E.H. Doceervaardigheden. Projektverslag over de ontwikkeling van een docententraining ge-
richt op het geven van hoorcolleges. Onderwijskundig Centrum CDO/AVC, T.H. Twente, no. 37,
maart 1978.

Ulijn, J.M. Frans als vreemde taal in een ingenieursopleiding: een onderzoek naar de leesvaardigheid.
Proefschrift K.U. Nijmegen, 1978.

For an investigation reported in the November issue of this journal (Peeck and Knippenberg,
1977), some alternative statistical analyses are proposed. It will be argued that replacement of
an overall analysis of variance by tests of more specific hypotheses, following from theory,
often leads to a substantially more powerful statistical test. The paper by Peeck and Knippen-
berg, who kindly gave access to their data, merely serves as an example, and the main conclu-
sions of their puclication are not disputed.

Peeck and Knippenberg (1977) asked four groups of 18 students each to study a text.
Three groups had been told that they would be tested by a multiple choice test (group 1),
a constructed response test (group 2) and the request to summarize the text (group 3),
respectively; a control group (group 0) received no information. Afterwards, all students
took a test of 20 multiple choice items (score Xj), a test of 20 constructed response items
(score Xj), a recall test of section headings (score X4) and the task of summarizing three
paragraphs of the text (score X3), in the same fixed order as given here.
The authors compared the four group means by a one-way fixed effects analysis of
variance, for each of the four variables Xj separately. They found F = 10.06, df = 3/68, p
< .01 forX4, and F < 1 for the other variables. ForX4 'further analysis with the Tukey
procedure showed the SUM condition' (our group 3) 'to be significantly superior on this
part of the posttest, in comparison to the three other conditions, which did not differ
significantly from one another'.

In the present note altemative statistical analyses wil be proposed. Analysis of variance
seems to be the universal tool of experimental psychology, but it will be argued that a
more specific form of hypothesis testing could result m a substantial gain of power. The
fact that this pomt is made with respect to the Peeck and Knippenberg paper should not
be taken as indicating below average quaUty of their statistical analysis; the use of the
Tukey procedure and the presentation of means and standard deviations in more detail
than F and MS values could even be quoted in their favor.

Test expectancy theory would be a very poor psychological theory if it just stated that
the presence and the nature of information about the coming test, at the stage of learn-
ing, would have 'some' mfluence, in whatever direction, on the average test score. Al-
though the present author is a statistician and not an educational psychologist, he feels
free to infer that subjects informed that a test of type j will be given, are predicted by the
theory to obtain higher scores on this test than subjects without such mformation. How
people will score on test type j after having prepared themselves under the wrong impres-

sion that they would get a different test, of type j' j, is another matter. One of our
proposed tests has optimal power under the assumption that wrong information has the
same effect as no information. One could also predict a mild positive effect (reduction of
anxiety at the learning stage) or a mild negative effect (shock at the discovery of decep-
tion and of preparation for the wrong task type).

The data collected by Peeck and Knippenberg cannot produce reliable information on
this point, because all students took all tests, in the same fixed order. It is not reported
when and how this obligation was disclosed to the students, or how they reacted. Within
each group the mean percentage of the highest possible score decreases as time goes on
from Xl via X2 and X4 to X3: is this fatigue or are all students better trained in multiple
choice tests? Even if no information was given to the control group, its members might
consider multiple choice more probable than summary writing?

Without further speculations about improved designs, we propose in Table 1 a model for
analysis of the data as published. Let Xjj denote the score on test Xj for a person in group
j. We shall denote the control group mean by jUjo, the effect of correct information by ft
and the effect of incorrect information by 7;. It simplifies later calculations to express the
effects in units of the within groups standard deviation a; (assumed constant across
groups) and to assume that the two kinds of wrong information have the same effect. For
the sake of comparability of results, there will be no questioning of Peeck and Knippen-
berg's assumptions of normality, homoscedasticity and independence between subjects.
In section 3 we shall fix ft and 7; at some values that-could be reasonably expected, and
calculate the power of the F-test used by Peeck and Knippenberg. It will be compared to
the power of the following more specific tests:

1) a one-sided t-test Ti of ft = Oagainst ft > 0, ignoring 7;, comparing the i-th correct
information group to the control group;

2) a one-sided t-test T2 of ft = 7i = 0 against especially ft > 0,7i = 0, comparing the i-th
correct information group to the three other groups;

3) a one-sided t-test T3 of ft = 7; = 0 against especially ft > 0, 7, = -ft/4, chosen because
the present author believed that incorrect information would have a negative effect, of
a size roughly one quarter of the possitive effect of correct information.

The derivation of the group mean weights in the numerator of T3 will be given as an
illustration of how prior expectations about the ratio 7j/ft can be exploited for maximiza-
tion of power. The table in section 3 will also illustrate how much power is lost when
such prior expectations would turn out to be wrong.

This paper does not advocate that a researcher use all three tests Th (h = 1, 2, 3)
simultaneously. An educational psychologist studying test expectancy is advised to
choose his t-test based on his knowledge or expectation of the relative size of the effects
ft and 7j. This could be one of our Th but also a different linear combination. The only
reason to present three cases in this paper is that this gives an impression of the power of
such tests under various alternatives.

If the theory would predict an ordering or partial ordering of the group means without
any information about the size of their differences, two other tests are worth mentioning.
The first is a most stringent somewhere most powerful test proposed by Schaafsma
(1966, Ch. 5), for which a computer program KSOTEST is available in the program
library LISTOR of Groningen University. Roughly speaking it uses a hnear combination
of the sample means into a t-statistic with optimal weights determined from the sample.
The second is a likelihood rario test proposed by Bariow, Bartholomew, Bremner and
Brunk (1972, Ch. 3). As the power of both tests, and for the latter even the critical
values, are not easy to obtain, there will be no more discussion on those tests here: it
would violate the expository character of this paper.

In this section we consider one fixed variable Xj, for which we shall take Xj. Generaliza-
tion to other values of i is straightforward. Power will be calculated under the standard
ANOVA assumptions: all observations independently and normally distributed with
means as in Table 1 and the same variance a] across groups. Note that both independence
and homoscedasticity do not hold when more than one index i is considered simulta-
neously in section 4, but here we consider a univariate test for fixed index i = 1.
The first two columns of Table 2 describe the hypothetical state of affairs with respect to
the group means. Without looking at the data, we decided that a score gain by correct
pre-information of .8 times the standard deviation was implausibly high, and that good
performance of the tests in cases j3i = .5 and (3i = .2 would be desirable. It appeared to us
that the effect of wrong information would probably be much smaller, and this guided
our choice of values for 7, displayed in the second column.

For the F-test with 3 and 68 degrees of freedom used by Peeck and Knippenberg, the
power was obtained by entering Table 8.3 of Cohen (1969) with the effect size

This is calculated from the assumed (3i and 7,; the grand mean /jj. is /ijo + (/3i + 27,)
ai/4. Note that the noncentrality, as defmed by most other authors, would then be 0 =
f\/l8 for our case of four groups of size 18 each. The fifth line of Table 2 now tells that
if in reahty (3i = .5 and 7, = -.2, then f = .29 and the standard F-test with significance
level a = .05 has a probability .49 of (righteously) rejecting the null hypothesis that all
cell means are equal for variable X,.

For the one-sided t-tests the power was obtained from Table 2.3 of Cohen (1969), where
two populations means, /u^ and jUb say, are compared on the basis of random samples of
size n^ = ng. Cohen'defines the effect size as d = (fx^ - A<b) /o, where o denotes the
unknown but common standard deviation. We shall consider three cases.

As the difference of the two independent group means Xu. - Xio. based on 18 observa-
tions is normal with mean j3, Oj and variance 2a,/18, we define our first test statistic as

is the pooled estimate for a,. If four groups are available and one is willing to take the
homoscedasticity assumption seriously, this is an improvement over the more common
t-test for two means from independent samples that would sum over j = 0 and 1 in (3)
and divide by 34. As the difference in power of df = 34 and df = 68 is small, Cohen's
tables were entered with n^ = ns = 18 and effect size dj = |3i.

All t-tests presented in this paper are based on the pooled estimate (3) for the within-
groups variance. This is the best strategy when the homoscedasticity is indeed correct; it
is robust to violations of this assumption only if the sample sizes are equal and the sample
means in the numerator have coefficients with the same absolute value. In this investiga-
tion there are four samples of size 18, but in Tj and T3 below the coefficients are
unequal. A simulation study by Kohr and Games (1977) then suggests the superiority of
the Welch test, which replaces the pooled estimate by a weighted combination of the
sample variances and adapts the degrees of freedom. For comparability with the original
F-test and ease of presentation, this valuable suggestion is not followed in the present
paper.

The contrast X,,. - (Xjo. + X12. + Xj 3.) /3 has mean fiiOi - IjiOi/S and variance
2a] 127. Our second test statistic

is optimal when = 0, but remains powerful as long as the effect 7i is of smaller order
of magnitude than /3i. For the power calculation the non-central t-distribution of T^ with
df = 68 was reduced to the format of Cohen's tables by'taking hypothetical sample sizes
i^A = Hb = 35 and a corresponduig effect size

Suppose that the proportionality tactor k =7i/|3i were known. Without loss ofgenerality
we may write the contrast as (2 + c) X] 1. - cXjo. - X] 2. - Xj 3.; we want to determine c
such that the test of = 71 = 0 against (3i > 0, 71 = kPi < 0 has maximum power. Our
contrast has the mean'(2 + c - 2k) /?i aj and variance ( (2 + c)^ + c^ + 2) CTj/IS. Thus the
squared noncentrality is seen to be proportional to

Tlie derivative with respect to c of this expression turns out te be zero for c = 2k - 2, a
minimum, and for c = (1 + 2k)/(1 - 2k), a maximum.

It is not unreasonable to expect that false pre-information has an adverse effect on test
scores that is much smaller than the positive effect of correct information. We therefore
derived our third test statistic from the hypothetical value k = -.25, with optimal c =
1/3:

Note that the expected value of the numerator equals 7j3i - 671, which is negative only
in the very unlikely case that 71 > 7|3, /6. Our one-sided test based on T3 thus has some
power against all reasonable alternatives, and similarly for T2 and Tj.
The power of test T3 is found by entering Cohen's table with hypothetical sample sizes
"a = "b = 35, corresponding to df = 68, and the adapted effect size

(ii) T2 and T3 are rather more powerful than the F-test unless the score is raised by
incorrect information roughly as much as by correct information.

(iii) Ti is more powerful than the F-test unless incorrect information lowers the score
substantially.

(iv) T2 and T3 should be preferred to Ti unless incorrect information produces a sub-
stantial increase of the score.

(v) T2 should be preferred to T3 unless incorrect mformation produces a clear decrease
of the score.

Power of ANOVA (F) and of three one-sided t-tests (T, ,Tj .T,) for some hypothetical values of the
effects (3, and 7, introduced in Table 1.

If one is willing to say that test expectancy theory predicts effects of the Idnd incor-
porated in the table excluding the (improbable) = 71 lines, the use of a suitable
one-sided t-test is seen to lead to a power increase which is substantial, and badly needed.

Although our one-sided t-tests are superior to analysis of variance for a large class of
alternatives, this does not mean that the conclusions of Peeck and Knippenberg were
wrong. We have calculated the three statistics Tj, T2 and T3 for each of the four scores Xj
(see Table 3), and reach the same conclusion that only the headings score X4 exhibits
significant differences.

In the second half of Table 3 we give the effects as estimated from the data. With an
exception for P4 they are extremely small. Taking into account that the standard error of
such estimates is (2/18)"'^^= 1/3, there is no reason to assume different effects for different
kinds of wrong information: the pairs of 7; values are closely together (and also close to
0). The general effect of pre-information on test scores can be assessed to have httle
practical importance. This follows perhaps most clearly from the 90 per cent confidence
intervals, which are far more informative that the 'F-df-p-ritual' so commonly found in
scientific journals.

The following thoughts occurred to us after inspection of the data, kindly made available
by the authors. In the sense of Hemelrijk (1958), they can thus provide at most 'statis-
tical detection' and not 'statistical proof.

First of all, group 2 contains a very low score vector (8, 0, 1, 1) and group 1 a rather low

score vector (13, 4, 1, 1). Within those groups the skewness ofXi andXj is -1.6 and
—1.8, the kurtosis is 5.7 and 7.8, respectively. As rejection, or winsorization, of outliers is
debatable in samples of size 18, we leave it at the remark that the presence of two very
low scores in groups 1 and 2 could have introduced some randomization error. We have
not tried to correct for general group level.

Secondly, both the original analysis and our re-analysis has been for one variable at a
time. A muUivariate analysis of the four scores, which are positively correlated, is not an
easy task. One multivariate analysis of variance has a similar drawback as four univariate
ones: it rejects whenever there is some difference on some test score between some pair
of groups. Let us briefly discuss some combination procedures that might give more
information about test expectancy effects.

A quick and dirty test of the combined null hypothesis (j3j = 0 and ft - 7i = 0 for i = 1, 2,
3, 4), against the aUernative that all these quantities are positive, can be based on the
probability Pj that the group mean Xij. is larger than the other three group means Xy. for j
i. This probability is 1/4 under Hq and exceeds 1/4 under Hj. The remarkable fact that
the stated event occurs in the actual data for all i = 1,2, 3, 4, however, does not have a
probabihty of (1/4)"* under Ho, because of the positive dependence between the scores.
But by such dependence, if Xj ]. is larger than X, j. for j 1, the probability increases that
X21. is the largest among theX2j., and the probability thatX2 2. is the highest becomes
even less than 1/4. If there are no effects, there will still be positive dependence between
the four scores, due to randomization errors leading to differences between groups in
overall performance level. But as illustrated above, this would induce a bias in the direc-
tion of the same group having the highest mean for all i simultaneously.
The reasoning breaks down for the Headings score which is the highest in the same group
(j = 3) as the Summary score. Leaving it out, on the argument that to no group a
Headings recaU was announced during the preparation, we are left with the conclusion
that the event 'the highest mean onX, is found in group 1, onX^ in group 2, onXs in
group 3' has under Hq a probabihty of exceedance of at most (1/4)^ = .016.
The reasoning could be generalized to the t-statistics Tj, which have negatively covarying
numerators. If they were independent, we could follow the recommendation by Ooster-
hoff (1969, p. 128-129 and p. 4) for the unequal variances (across i) case and use Fisher's
omnibus test based on the probabilities of exceedance. The combined null hypothesis,
again leaving out X4, would be rejected if

The left hand side can be calculated to equal 8.50, and has a probability of exceedance of
.20 in the x^ distribution with df = 6. It is not clear how much lower this would be when
the negative dependence could be brought in.

Finally we have considered summation for i = 1, 2, 3 of the test statistics T2 (Xj)
themselves. We are able to take the estimated contribution of the negative covariance into
account if we sum the numerators instead of the Tj (Xj) themselves:

divided by its estimated standard deviation then tums out to be 1.55, and aU three
summands are positive. In such a sum, however, one large positive contribution could
sweep away two moderate negative ones, and the test would also reject in such cases.

Moreover, the value of 1.55 for a roughly standard normal variate seems to carry the same
message as above: the effects may have the right direction, but they are very small.
If it were possible to equate the scores of one subject on the four tests Xj into one
common performance scale, a new and promising class of statistical procedures could be
derived, which would use the fact that every subject in the experiment more or less serves
as its own control. It is very plausible, however, that some students perform relatively
better on test X,, say, and others relatively better on test X3, say. Moreover, no external
information on objective standards of performance on the tests is available. Therefore we
have not followed the suggestions by Schaafsma and his co-workers for tests based on
preliminary equating of the four scores per subject.

It is well known that many psychological experiments lead to inconclusive results, partly
because the statistical tests used are not powerful enough. With the Peeck and Knippen-
berg study as an example, this note contains a plea for replacing analysis of variance by
tests more specifically geared to what the theory predicts. Table 2 Ulustrates that this
could lead to a substantial power gain for a large class of alternatives. Analysis of variance
continues to be the proper tool for situations where little or nothing is known beforehand
about the direction and size of the experimental effects, but such situations should be
rare because previous theoretical or experimental evidence is available.

Tlianks arc due to Anne Boomsma and Charlie Lewis for some valuable suggestions, to Max Booleman
for some calculations, and to Willem Schaafsma and his co-workers for a stimulating discussion on
various mathematical aspects of the problem.

Barlow, R.E., Bartholomew, D.J., Bremner, J.M. and Brunk, H.D. Statistical Inference under Order
Restrictions, New York: Wiley, 1972.

Cohen, Jacob. Statistical Power Analysis for the Behavioral Silences, New York: Academic Press,
1969.

Hemelrijk, J. Statistische proefopzetten: bewijs en detectie, Statistica Neerlandica, 1958,12, 111-118.

K.ohr, Richard L and Games, Paul A. Testing Complex A Priori Contrasts on Means from Independent
Sampler. Journal of Educational Statistics, 1977, 2, 207-216.

Oosterhoff, J. Combination of one-sided statistical tests, MC Tract 28, Mathematisch Centrum, Am-
sterdam, 1969.

Peeck, J. and Knippenberg, W.J.M. Test Expectancy and Test Performance, Tijdschrift voor Onderwijs-
research, 1977, 2, 270-274.

Schaafsma, W. Hypothesis testing problems with the alternative restricted by a number of inequalities,
thesis, Groningen: Noordhoff, 1966.

A procedure to measure reading ability by having subjects answer questions about texts was
validated against theoretical criteria. These criteria were: knowledge and reading experience,
reading speed, and difference between variance of reading speed within groups of readers with
higher and lower measured reading ability. The hypotheses were that readers with more knowl-
edge and reading experience are better readers, that better readers read faster and that the
variance of reading speed of readers within a group of better readers is smaller. In addition to
this, research was done on the teachability of an algorithm for the evaluation of answers to
questions and the effect of this teaching on the performance of pupils (first grade highschool)
on the test. The object of this experiment was to establish whether the ability to formulate
correct answers can be trained separately i.e. whether this ability can be considered a factor
relatively independent from reading ability.

The first questions were tested in an experiment with 49 highschool pupils. The test consisted
of 5 texts with 6 questions each. The total score (established on the basis of a highly reliable
evaluation algorithm) was used to estimate the reading ability of the pupils. The teachability of
the algorithm was tested in a second experiment with 128 highschool pupils (an experimental
group of 64 and a control group of 64).

The results of the experiments showed that the vahdity and the exactness of the measuring
procedure are not without problems, but possibly acceptable. On the basis of instruction and
training of the application of the algorithm the performance of the pupils increased by about
70%. This indicates that the ability to formulate correct answers can be trained separately. This
contains a serious problem for the exactness and the vahdity of the measuring procedure. More
research is necessary with a broader range of reading tasks, in order to produce more exact
estimarions of the exactness and the validity of the procedure used.

In een project dat gericht is op de systematische ontwikkeling van de leesvaardigheid van
leerlingen op de basisschool (zie Bol 1976; Bol, Kollen en Leistra 1976,1977) loopt men
al direct tegen het probleem aan, dat men het vermogen van leerlingen om geschreven
teksten begrijpend te lezen meetbaar moet kunnen maken, teneinde in staat te zijn
eventuele vorderingen in kaart te brengen of om experimentele en controle groepen
onderhng te vergelijken. In de praktijk van het leesonderwijs en het leesonderzoek zijn
hiervoor een aantal methoden ontwikkeld (voor een overzicht zie Aamoutse en Mommers
1977 blz. 59 e.v.), die alle neerkomen op het beoordelen van prestaties van lezers in het
kader van specifieke leestaken (bijv. het geven van een samenvatting van een tekst, het
aangeven van de hoofdgedachte, het invullen van weggelaten woorden e.d.). Aan de
betrouwbaarheid van de gebruikte methoden wordt als regel voldoende aandacht geschon-
ken, maar de validering komt er dikwijls zeer bekaaid af. Dat is voor een deel ook wel te
snappen, aangezien de theorie van het begrijpend lezen nog volledig in de kinderschoenen
staat.

Doorgaans wordt er van uitgegaan, dat begrijpend lezen stoelt op een verzameling van
verworvenheden in de vorm van Icennis en vaardigheden (eventueel nog attituden), zoals
kennis van de wereld, kennis van semantische strukturen, taalbeheersing, de vaardigheid
om verbanden te leggen tussen uitspraken of tussen groepen van uitspraken, de vaardig-
heid om de optiek van de schrijver op het spoor te komen enz. Echter, er bestaat geen
onderiinge overeenstemming omtrent het bestand van kennis en vaardigheden dat in het
begrijpend lezen moet functioneren, zomin als men het er over eens is of begrijpend lezen
een optelsom is van een aantal vaardigheden, of dat het eigenlijk één vaardigheid is, dan
wel dat begrijpend lezen is gebaseerd op een systeem van hiërarchisch geordende deelvaar-
digheden (vgl. Aarnoutse en Mommers 1977, blz. 45 e.v.). Dit betekent dat men verschil-
lende modellen hanteert voor het proces van het begrijpend lezen, ofwel dat men daarom-
trent geen enkel duidelijk beeld heeft. Uit de literatuur blijkt dat het laatste als voomaam-
ste oorzaak van de diversiteit in opvattingen gezien moet worden, aangezien men elkaar
nauwelijks bestrijdt aan de hand van expliciete proces-modellen. Het meten van begrij-
pend lezen komt derhalve in feite neer op het beoordelen van de uitkomsten van vrijwel
onbekende informatie-verwerkingsprocessen. Daardoor is het in elk geval niet mogelijk
om theoretisch verantwoorde kritische metingen te verrichten.

Bij het meten van leesvaardigheid baseert men zich in de praktijk doorgaans min of meer
exphciet op de volgende redenering (vgl. Bol 1974). Elke tekst verwijst naar en geeft een
beschrijving van een (stukje) objectieve (= intersubjectieve) wereld, die tot het cultuur-
bezit behoort van een bepaalde gemeenschap. Ervaren en deskundige lezers zijn voldoende
in de cultuur ingevoerd (zijn mede drager van de cultuur) om al lezende te kunnen
vaststellen welke wereld vanuit welke optiek wordt beschreven in een gegeven tekst en
wat er over die wereld precies wordt gezegd op grond van welke overwegingen (zoals deze
tekst een stukje beschrijving geeft van de wereld van het onderzoek van begrijpend lezen).
Zulke lezers kunnen bij zichzelf vaststellen wat een gegeven tekst te bieden heeft en aan
de hand daarvan welomschreven leestaken formuleren met het doel om vast te stellen of
andere lezers (bijv. leerhngen op school) in staat zijn de betreffende tekst in een aantal
opzichten te begrijpen. Indien die andere lezers de taken naar genoegen uitvoeren, dan
wordt geconcludeerd dat ze de tekst met begrip hebben gelezen.

Dit is ongetwijfeld een legitieme wijze van werken, aangezien 'deskundigen' uiteindelijk
zichzelf slechts als norm kunnen gebruiken om te bepalen of anderen op adequate wijze
omspringen met cultuurgoed. Maar de problemen ontstaan, wanneer men zich baserend
op uitspraken omtrent de mate waarin lezers een gegeven tekst (of verzameling daarvan)
hebben begrepen tot uitspraken wil komen omtrent het vermogen van die lezers om
(bepaalde soorten van) teksten begrijpend te lezen (d.i. het theoretisch begrip 'leesvaardig-
heid'). Want dan komt men met vragen te zitten als; op welke kennis en vaardigheden
doet een gegeven leestaak een beroep, hoe moet men de prestaties van lezers dan beoor-
delen om een valide beeld van dergelijke theoretische variabelen te verkrijgen, kan men op
grond van dat beeld besluiten tot v^de uitspraken omtrent de leesvaardigheid e.d.? Als
extra moeilijkheid komt daar nog bij, dat de leesvaardigheid van een lezer als een dyna-
misch gegeven moet worden gezien (de leesvaardigheid ontwikkelt zich), waardoor men te
maken krijgt met het principe van de onzekerheid of tolerantie van metingen (vgl. Same-
roff 1975).

Op grond van empirisch onderzoek hebben we getracht op een aantal van dit soort vragen
een antwoord te geven m.b.t. een methode waarbij lezers antwoorden moeten geven op
vragen over teksten. Met name is getracht een betrouwbaar en valide beoordehngssysteem
te ontwikkelen, enige theoretische kriteria te vinden om de validiteit van de gebruikte

methode te kunnen bepalen en tenslotte na te gaan of de vaardigheid om correcte ant-
woorden te formuleren een aparte bron van variantie vormt, zodat deze vaardigheid
speciaal kan worden aangeleerd.

Uit onderzoek is bekend dat enerzijds verband bestaat tussen leestempo en leestaak
(Rothkopf 1972, Samuels en Dahl 1975) en anderzijds verband bestaat tussen leestempo
en leesvaardigheid (Rothkopf 1972). Bij relatief moeilijke taken (doordat de tekst en/of
de opdracht moeilijk is) is het leestempo laag en minder goede lezers lezen langzamer dan
goede lezers. Smith (1973) geeft evenwel aan dat het leestempo niet al te laag mag zijn,
omdat anders de informatieverwerking hapert. Nu wordt algemeen aangenomen dat ken-
nis een zeer centrale rol speelt bij het begrijpend lezen. Voldoende kennis is op z'n minst
een noodzakelijke voorwaarde om goed en vlot te kunnen lezen. Indien we aannemen dat
begrijpend lezen een proces is, waarbij de lezer nieuwe kaders schept waarbinnen uitspra-
ken geïnterpreteerd kunnen worden (accomodatie), dan wel waarbij de lezer uitspraken
interpreteert en inpast binnen bekende kaders (assimilatie) (vgl. Aamoutse en Mommers
1977, Bol 1977), dan is begrijpend lezen een creatieve bezigheid met een sterk probleem-
oplossend karakter (hypothesevormend en -toetsend, zie Bol 1976), die zeker niet volle-
dig door de linguïstische vorm van een tekst gedetermineerd verioopt. Begrijpend lezen
kan dan worden gezien als een complexe vaardigheid berustend op een systeem van door
oefening onderhng gecoördineerde deelvaardigheden, die een rol spelen bij het gebruiken
en toepassen van kennis in het kader van leestaken. Bovendien is het van belang op te
merken dat leestaken niet alleen om een gesystematiseerde inzet van kennis vragen, maar
voor de lezer ook weer nieuwe kennis kunnen opleveren. Welnu, hoe groter het kennis-
bestand is van een lezer en hoe meer deze kennis heeft gefunctioneerd in het kader van
leestaken (leeservaring), hoe meer de leesvaardigheid zich kan hebben ontwikkeld tot een
goed geautomatiseerd en hecht systeem van onderiing gecoördineerde deelvaardigheden
(waarin ook nieuwe vaardigheden een plaats kunnen krijgen). Een dergelijke ontwikkeling
houdt in, dat het verwerken van teksten en het daardoor opdoen van nieuwe kennis steeds
sneller en soepeler kan verlopen. De hierboven aangegeven verbanden tussen leestempo
enerzijds en leesvaardigheid en leestaak anderzijds kunnen op deze manier zo ongeveer
worden begrepen. Mede rekening houdend met de noodzaak van een minimum tempo is
het mogelijk om de veronderstelling te opperen, dat er voor een gegeven leesvaardi^eid
en een gegeven leestaak een gebied bestaat waarbinnen het leestempo optimaal is voor een
adequate verwerking van de informatie door de lezer.

Accepteren we nu vervolgens de gedachte dat iedere tekst objectieve eisen stelt aan een
lezer (gezien de karakteristieken van het taalsysteem, de kennis en het denken als cultuur-
producten, vgl. Lompscher 1968,1972, Vygotskij 1964), dan is het mogelijk te veronder-
stellen dat relatief goede lezers (uit een homogene groep wat betreft kennis en leeserva-
ring) beter in staat zijn zich af te stemmen op de eisen van een leestaak dan relatief
slechte lezers dat kunnen. D.w.z. dat relatief slechte lezers uit zo'n groep minder relevante
en meer irrelevante activiteiten voltrekken dan relatief goede lezers. Dit zou betekenen
dat hoe minder de leesvaardigheid is ontwikkeld, hoe minder duidelijk er een gebied is aan
te geven, waarbinnen het leestempo voor een gegeven groep van lezers en een gegeven
leestaak zal vallen.

Tegen de hierboven geschetste achtergrond is het mogelijk om een methode voor het

meten van de leesvaardigheid te valideren. In dit onderzoek wordt een methode bekeken,
waarbij leerlingen teksten moeten lezen en de daarbij behorende vragen moeten beant-
woorden. De prestaties van de leerhngen op een dergelijke taak worden als indicatief
gezien voor hun leesvaardigheid. Dit is als volgt te verdedigen. In de ontwikkeling van de
taal vormt de monoloog een afgeleide van de dialoog (zie Bol 1977) en de geschreven
monoloog ontstaat doordat een schrijver zich verstaat met een denkbeeldige gesprekspart-
ner. De lezer van zijn kant moet zich kunnen verplaatsen in de positie van de schrijver in
relatie tot zijn eigen positie om te kunnen bepalen met welke vragen de schrijver heeft
geopereerd om tot zijn uitspraken te komen en hoe die uitspraken onderling precies
samenhangen. M.a.w. het kunnen opereren met vragen in verband met de interpretatie van
teksten lijkt een zeer belangrijk aspect van de leesvaardigheid (zie ook Drop en De Vries
1977). Natuurlijk zijn niet alle soorten van vragen in samenhang met een gegeven tekst
van gelijk belang. Het is derhalve wel noodzakelijk om teksten en vragen nader te specifi-
ceren om te kunnen komen tot een meetmethode, die theoretisch gezien voorlopig een
acceptabele indruk maakt. Daarbij is het tevens noodzakelijk om te bepalen hoe de
antwoorden op de vragen bij teksten beoordeeld moeten worden. In dit onderzoek heb-
ben we getracht een methode te ontwikkelen die aan deze eisen voldoet.
Om de validiteit van de gehanteerde methode te bepalen in empirisch onderzoek, kunnen
we gezien het voorafgaande de volgende theoretische kriteria aanleggen. Ten eerste ver-
schillen in kennis en leeservaring tussen lezers, ten tweede verschillen m leestempo en ten
derde verschillen in variantie tussen leestijden van teksten binnen verschillende groepen
van lezers (opm. leestijd en leestempo hangen direct met elkaar samen). We gaan uit van
de volgende formele (implicatieve) struktuur in de samenhang tussen de diverse varia-
belen:

1) Is aantoonbaar- dat lezers met meer kennis en leeservaring (en dus met een grotere
leesvaardigheid) betere toetsresultaten behalen, dan lezers met minder kennis en lees-
ervaring?

2) Is aantoonbaar dat lezers met meer kennis en leeservaring sneller lezen, dan lezers met
mmder kennis en leeservaring, terwijl de toetsresultaten van de eerste groep beter zijn
dan die van de tweede groep?

3) Is aantoonbaar dat lezers met meer kennis en leeservaring als groep minder variantie
vertonen in hun leestijden van teksten, dan groepen met minder kennis en leeservaring,
terwijl de eerste groep betere toetsresultaten heeft dan de tweede?

Uit de tweede en de derde vraag kunnen we nog twee sterkere onderzoeksvragen afleiden

door de impUcatie 'grotere leesvaardigheid ^ betere toetsresultaten' om te-keren.

4) Is aantoonbaar dat lezers met betere toetsresultaten sneller lezen, dan lezers met
slechtere toetsresultaten?

5) Is aantoonbaar dat lezers met betere toetsresultaten als groep minder variantie verto-
nen m hun leestijden, dan een groep van lezers met mindere toetsresultaten?

Tenslotte moeten we nog nagaan of de toetsresultaten van lezers beïnvloed kunnen wor-
den door ze te leren aan welke eisen antwoorden op vragen volgens deskundige beoorde-
laars moeten voldoen. Het is nl. niet onmogelijk, dat er groepen van lezers bestaan die in
principe in staat zijn om de adequate antwoorden op vragen te geven aan de hand van in
teksten gegeven informatie, maar die niet precies weten wanneer een antwoord aan de
gestelde eisen voldoet. Dit zou betekenen dat de leesvaardigheid van dergelijke lezers op
basis van hun prestaties bij het beantwoorden van vragen over teksten te laag wordt
ingeschat. Onze laatste onderzoeksvraag is daarom;

6) Is aantoonbaar dat de toetsresultaten van lezers in positieve zin beïnvloed kunnen
worden door ze te leren aan welke eisen antwoorden op vragen volgens deskundigen
moeten voldoen?

De zes onderzoeksvragen zijn in twee experimenten aan de orde gesteld (Bolsius 1975,
Willems 1977). In beide experimenten werd gewerkt met zakelijke teksten (dus geen
verhalen), waarover steeds drie soorten van vragen werden gesteld met betrekking tot de
zakelijke inhoud (in feite wordt in de taak slechts op een beperkt gedeelte van de leesvaar-
digheid een direct beroep gedaan). Deze drie soorten van vragen zijn de volgende:

1) Vragen naar kategorieën, d.w.z. vragen die betrekking hebben op definities, kenmerken
en eigenschappen van zaken, gebeurtenissen, activiteiten e.d. (bijv. Waaraan kun je een
vis herkennen?);

2) Vragen naar vergelijkingen, d.w.z. vragen die betrekking hebben op overeenkomsten en
verschillen tussen zaken e.d. (bijv. Wat zijn de verschillen tussen konijnen en hazen?);

3) Vragen naar verklaringen voor gebeurtenissen en activiteiten (bijv. oorzaken, redenen,
motieven e.d.).

Deze soorten van vragen zijn gekozen, omdat ze betrekking hebben op semantische varia-
belen die de verbanden tussen meerdere uitspraken in een tekst kunnen behelzen. De
antwoorden op de gestelde vragen zijn gescoord volgens onderstaand schema (zie sche-
ma 1), dat is opgesteld op basis van een semantische en logische analyse van vragen
(zogenaamde w-h vragen ds waarom, waarmee, hos, /zoeveel e.d.) en aan de hand van
gesprekken met docenten uit het voortgezet onderwijs over de gewichten van beoorde-
hngskriteria, zoals die door hen worden gebruikt.

Een antwoord is ongeldig indien het niet aansluit op de gestelde vraag (bijv. Hoe oud ben
je? Antw.: 10 kilo) en een antwoord is fout indien de verschafte informatie niet overeen-
komt met de informatie in de tekst (bijv. Hoe hoog is de Domtoren? Antw.: 5 meter).
Voorts kan een antwoord geldig zijn, maar de informatie uit de tekst onvolledig weer-
geven. Daarnaast is het mogelijk dat een antwoord al dan niet letterlijk uit de tekst is
overgenomen. En tenslotte kan een antwoord overbodige informatie bevatten, d.w.z.
informatie waamaar niet is gevraagd. Uit het schema blijkt welke gewichten aan de diverse
kriteria worden toegekend. Indien tevoren voor de gebruikte vragen concreet wordt aan-
gegeven welke elementen de antwoorden moeten bevatten, dan blijkt deze scoringsme-
thode zeer betrouwbaar. Bij herhaling is een interbeoordelaarsbetrouwbaarheid gevonden
van ruim .90 (pearson product moment correlatie).

Het eerste onderzoek (zij het niet in de tijd; Willems 1977) vond plaats met lln. van de
eerste, tweede en derde klas van een MAVO-school te Utrecht. Het doel was een ant-
woord te vinden op de eerste vijf onderzoeksvragen. Alle lln. kregen zes teksten aange-
boden met elk zes vragen (twee van elk type), waarvan de eerste tekst fungeerde als een
oefentekst. De teksten werden voor alle lln. in dezelfde volgorde aangeboden op zes
verschillende dagen verspreid over twee weken. De lengte van de teksten bedroeg zes- a
zevenhonderd woorden. Qua vorm en inhoud hepen de teksten sterk uiteen, teneinde een
beeld te krijgen van het tekstbegrip bij verschillende soorten van teksten (vgl. Wesdorp
1974). Bij het beantwoorden van de vragen mochten de lln. de teksten raadplegen, waflr
zij moesten de teksten eerst lezen voordat zij de vragen kregen. De leestijden en de
antwoordtijden werden gemeten met behulp van een digitale klok, die eUce vijf seconden
een ander cijfer vertoonde. De lln. moesten per blz. aan het begin en aan het eind
aangeven welke de stand van de klok was. De tijden voor het lezen en voor het beant-
woorden van vragen waren vrij.

Het tweede onderzoek (Bolsius 1975) vond plaats met lln. van de eerste en de tweede klas
van een MAVO-school te Den Bosch. Hiervan fungeerden de lln. van de eerste klas als
experimentele groep en de lln. van de tweede klas als controle groep. Alle lln. kregen een
voor- en een natoets. Daarvoor werden twee gelijkwaardige teksten van ongeveer
1000 woorden over leven in de woestijn gebruikt met elk 16 vragen, samengesteld uit de
drie genoemde soorten. Volgens een Latijns vierkant kreeg de helft van de experimentele
en van de controle groep de ene tekst als voortoets en de andere tekst als natoets, terwijl
de andere helft van de experimentele groep en van de controle groep dit omgekeerd
kregen. De experimentele groep (drie eerste klassen) kreeg na de voortoets een vijftiental

lessen van 50 minuten gericht op het stellen van vragen bij teksten en het beantwoorden
daarvan met behulp van het beoordelingsschema van antwoorden (zie schema 1). De
controle groep kreeg geen speciale lessen, maar normaal taal- en leesonderwijs).
Voor de proefpersonen in beide onderzoeken zie tabel 1 en 2.

De antwoorden van de ppn. in het eerste onderzoek werden gescoord volgens het schema
(zie schema 1) door een getrainde beoordelaar. Een enkele beoordelaar leek acceptabel
gezien de grote betrouwbaarheid van de scoringsmethode. Voorts werden op basis van de
door de lln. genoteerde klokwaarden de tijden bepaald voor het lezen van de teksten en
voor het beantwoorden van de vragen. Deze tijden werden uitgedrukt in eenheden van vijf
seconden (dus een leestijd van 30 wil zeggen 150 sec.)

De antwoorden van de vragen in het tweede onderzoek werden volgens het schema
gescoord door vier onafhankelijke beoordelaars, waarvan de gemiddelde score werd be-
paald (de Pearson p-m-correlatiecoëfficiënten, lagen boven .90).

Uit een eerste analyse van de antwoorden bleek dat tien van de dertig vragen ongeschikt
Waren. Deze vragen waren voor een deel te moeilijk en voor een deel gaven ze bij de lln.
aanleiding tot misverstanden. Daardoor bleven er van één tekst vijf vragen over, van drie
teksten vier vragen en van één tekst drie vragen. De drie soorten van vragen bleven in alle
gevallen voldoende vertegenwoordigd.

Om te beginnen is nagegaan of de drie soorten van vragen correleren (d.w.z. deels hetzelf-
de meten; de vragen worden immers geacht een beroep te doen op leesvaardigheid),
terwijl ze anderzijds ook op verschillende aspecten van de leesvaardigheid inspelen. De-
zelfde vraag is vervolgens gesteld t.a.v. de vijf teksten.

Uit tabel 3 blijkt dat de drie soorten van vragen onderling significant positief correleren,
maar tevens dat ze elk een duidelijk specifieke bijdrage tot de variantie leveren. Dit
bevestigt dat ze gezamenlijk een meer genuanceerd beeld kunnen geven van de leesvaardig-
heid. Het lijkt derhalve zinnig per tekst steeds met de gemiddelde score van de vragen per
pp. te werken (omdat de teksten niet evenveel vragen hebben, werken we niet met de
som-score).

Aan de hand van de gemiddelde scores per tekst is vervolgens een faktor-analyse over de
vijf teksten uitgevoerd (SPSS, type PA2, varimax-rotatie).

We zien dat de vijf teicsten uiteen vallen in drie groepen (a, b), (c) en (d, e). Dit wijst erop,
dat de drie groepen van leestaken een verschillend beroep doen op de kennis, op de
belangstelhng, of op de taalbeheersing van de pp. Op grond van een analyse van de vorm
en de mhoud van de teksten is dit niet eenduidig te bepalen. Maar hoe dit ook zij, het lijkt
acceptabel dat de prestaties van de ppn. over vijf teksten totaal inderdaad een exacter
beeld geven van hun leesvaardigheid, dan hun prestaties op een enkele tekst. Deze totaal-
scores zullen dan ook worden gehanteerd als maat voor de leesvaardigheid. Aan de hand
van deze maat zullen de vijf onderzoeksvragen nader worden bekeken.
Om onderscheiden groepen van lezers te verkrijgen in relatie tot kennis en leeservaring,
gaan we ervan uit dat verschil in leeijaar op school in dit opzicht een voorlopig acceptabel
kriterium is. Immers lln. zullen doorgaans meer leeservaring hebben en meer kennis heb-
ben verworven naarmate ze in een hoger leerjaar zitten.

Het totale beeld van de gegevens in tabel 5 lijkt de eerste drie onderzoeksvragen aardig te
bevestigen. De leesprestaties nemen toe met het hoger worden van de leerjaren, de lees-
tijden nemen af (al verstoort klas 2 dit beeld) en de varianties van de.leestijden nemen
ook af (maar de verschillen m variantie zijn niet significant). Tenemde te bepalen of de
andere verschillen significant zijn, is een variantie-analyse uitgevoerd (SPSS-Anova). Daar-
toe werden de lln. mgedeeld naar klas (K) en naar snelle, middelmatige en langzame lezers
(L).

Het verschil in leesprestatie tussen de klassen blijkt wel significant, maar het verschil in
leesprestatie tussen snelle, middelmatige en langzame lezers niet. Er blijkt geen significant

interactie-effect te bestaan. Indien we de leestijden van de klassen met elkaar vergelijken
met behulp van een t-toets, dan blijken er evenmin significante verschillen te bestaan.
Opvallend in tabel 5 is voorts, dat de varianties van de leesprestaties afnemen met het
toenemen van de leerjaren. Om de betekenis daarvan zichtbaar te maken delen we de lln.
van de klassen gezamenlijk in drie groepen in: de groep in het eerste kwartiel (slechte
lezers), de groep in het tweede en derde kwartiel (middelmatige lezers) en de groep in het
vierde kwartiel (goede lezers).

Indien we bedenken dat de maximale leesscore voor een leerling 45 is (nl. 5 x 9, zie onder
tabel 3), dan is duidelijk dat geen enkele leerling meer dan de helft van dat maximum
behaalt. Voorts blijkt uit tabel 7, dat de verschillen tussen de klassen voornamelijk zijn
gelegen in de aantallen relatief slechte lezers. Dit kan betekenen dat alleen de slechtste
lezers hun leesvaardigheid ontwikkelen op school, of dat de slechtste lezers worden weg-
geselecteerd (denk de 9 11. uit de linker kolom van de eerste klas weg en men verkrijgt het
beeld uit de derde klas), dan wel dat de beoordeling van de prestaties zo streng is dat het
nauwelijks mogelijk is een hoge score te halen. Het onderzoek van Bolsius (1975) weerlegt
de laatste mogelijkheid (zie onderzoek 2), zodat de beide eerste mogelijkheden (of een
combinatie daarvan) overblijven. Het is overigens interessant op te merken, dat Bolsius
precies hetzelfde beeld vond bij de lln. uit zijn eerste en tweede klassen. Dit betekent dat
verschillen in leerjaar niet zo'n goede indicatie geven voor verschillen in leesvaardigheid
tussen lln. M.a.w. verschil in leerjaar lijkt een te zwak kriterium voor het bestaan van
(voor de gebruikte leestaken geschikte) verschillen in kennis en leeservaring (en daarmede
leesvaardigheidsverschillen). Daarmede komen de eerste drie onderzoeksvragen op losse

schroeven te staan. Het Ujkt derhalve nuttiger de vierde en vijfde onderzoeksvraag in
behandeling te nemen.

Ten eerste gaan we na of relatief goede lezers sneller lezen dan relatief slechte lezers.
Een t-toets levert op, dat het verschil tussen de goede en de middelmatige lezers signifi-
cant is (t = 2.65, p < .05, eenzijdig) en de overige verschillen niet. Nu zijn de groepen
slechte en goede lezers vrij klein (resp. 12 en \3), zodat het voorlopig aanvaardbaar is om
te stellen dat de verkregen gegevens nog niet in tegenspraak zijn met de veronderstelde
samenhang tussen leesvaardigheid en leestempo. Daarbij schijnt het dan wel zo te zijn dat
tempoverschillen pas aan het Ucht treden wanneer de-beste lezers uit de groep worden
vergeleken met de rest (t = 2.42, p. kl. dan .05 eenz.). De vraag is nu of de relatief sneUe
lezers dit bij alle vijf de teksten zijn, of dat hun totale leestijd laag is doordat ze enkele
teksten zeer snel lezen. Om dit te bepalen hebben we de correlaties berekend tussen de
leestijden (T) van de vijf teksten.

De correlaties tussen de vijf leestijden blijken vrij hoog te zijn, zodat het relatieve leestem-
po van de lln. kennelijk een tamelijk constant gegeven is. Nu kan het zijn dat een aantal
lln. de strategie volgen om de teksten steeds snel door te lezen en deze daarna aan de hand
van de vragen zorgvuldiger te bekijken (en dat juist de goede lezers deze strategie hante-
ren). Dan zou sneller lezen niet corresponderen met beter lezen. Indien dit het geval is,
dan moeten de leestijden (T) en de antwoordtijden (B) negatief correleren.

Indien er al verband bestaat tussen leestijden en de antwoordlijden, dan is dit eerder
evenredig dan omgekeerd evenredig. M.a.w. de snelle lezers hebben als regel zeker niet
meer tijd nodig om de vragen te beantwoorden dan de langzame lezers. De relatieve
antwoordlijden van de lln. blijken overigens ook tamelijk constant, al is de samenhang
tussen de antwoordlijden minder duidelijk dan tussen de leestijden (zie tabel 11).
Voorts blijken per tekst bekeken de correlaties tussen leesscores en leestijden zowel als
antwoordlijden zwak negatief (in beide gevallen tussen de -.05 en -.20). Dus sneUere
lezers en snellere beantwoorders zijn nog geen betere lezers.

Om de vijfde onderzoeksvraag te beantwoorden (is de variantie van de leestijden per tekst
binnen de groep van goede lezers kleiner dan die binnen de groepen van de minder goede
lezers) zijn de varianties van de leestijden per tekst en per groep bepaald.

Aan de hand van een F-toets bhjkt dat de verschillen tussen G en M niet significant zijn,
dat tussen G en S eenmaal een significant verschil bestaat nl. bij tekst a (F = 10.76, p kl.
dan .01) en dat tussen M en S het verschil driemaal significant is nl. bij a, b en e (resp. F =
16.61, p < .01; F= 3.09, p < .05; F = 3.61, p < .05). Dit levert een zwak positief
antwoord op de gestelde vraag op. Het blijkt dan wel dat op dit punt voornamelijk de
zwakke lezers zich onderscheiden van de rest. De variantie binnen deze groep is bij alle
vijf de teksten het grootst van alle drie de groepen.

Indien men aanneemt dat de varianties van G en S niet verschillen en dat de gevonden
verschillen op toeval berusten, dan is de kans om vijf maal in successie een grotere
variantie te vinden voor S dan voor G gelijk aan .031. Neemt men hetzelfde aan voor G, M
en S, dan is deze kans om vijf maal in successie voor S de grootste variantie te vinden
gelijk aan .004. M.a.w. het lijkt verantwoord te concluderen dat de variantie van de
leestijden van de groep lezers uit het eerste kwartiel (S) groter is dan die variantie binnen
de andere groepen (M en G) en dat dit verschil niet uitsluitend aan het toeval mag worden
toegeschreven.

De kernvraag van dit onderzoek is of gezien de resultaten van de voor- en de natoets een
effect van de lessen over het beantwoorden van vragen aantoonbaar is.
Dc onderverdeling exp. 1, con. 1 en exp. 2, con. 2 (elke groep bevat 32 lln.) hangt samen
met het gekruiste gebruik van de teksten in voor- en natoets. Aan de hand van t-toetsen
blijkt dat de verschillen tussen de totalen van de vraagtypen en de som-score daarvan op
de voor- en de natoets sterk significant zijn (de kleinste t waarde = 2.0, < dan .01,
eenzijdig) met uitzondering van de vergelijkingsvragen bij de controle conditie. Echter het
is onmiddellijk zichtbaar dat de verschillen bij de experimentele conditie veel groter zijn
dan bij de controle conditie. Variantie-analyses over de voortoets en over de natoets
leverden op, dat er geen verschil bestaat tussen de teksten, dat de controle groep op de
voortoets significant hoger scoort dan de experimentele groep (p < .001), maar dat de
experimentele groep op de natoets daarentegen significant hoger scoort dan de controle
groep (p < .00001). De toename in score is voor de experimentele en controle groep resp.
71% en 3%, hetgeen een frappant verschil genoemd mag worden. Interessant is bovendien
nog dat de laagste scoorders van de experhnentele groep op de natoets hoger scoren dan
de hoogste scoorders van de controle groep. Het lijkt derhalve verantwoord te conclude-
ren dat onderzoeksvraag zes positief beantwoord mag worden.

Gezien de resultaten van het onderzoek is het niet mogelijk eenvoudige uitspraken te
doen omtrent de validiteit van de gehanteerde meetprocedure voor de bepaling van de
leesvaardigheid.

Om te beginnen valt nog wel te begrijpen dat verschil in leerjaar op school een redelijk
kriterium is voor het bestaan van kennisverschihen tussen Un., maar dit in-mindere mate is
voor verschillen in leeservaring. Een kind dat thuis veel leest kan meer leeservaring hebben
dan een ouder kind dat thuis zeer weinig leest. Dus dat leerjaar niet zo goed correspon-
deert met gemeten leesvaardigheid is acceptabel. Maar het wekt enige bevreemding dat de
gemeten leesvaardigheid van de goede lezers uit de diverse klassen nauwelijks verschilt,

immers in iedere klas zullen lln. zitten die thuis vrij veel lezen. Dit kan betekenen dat de
meet-procedure de leesvaardigheid zeer onnauwkeurig of maar ten dele meet, maar ook
dat kennis en leeservaring noodzakelijke en voldoende voorwaarden zijn om een zeker
niveau van leesvaardigheid te bereiken en onvoldoende voorwaarden zijn om dat niveau te
overschrijden. Indien dit laatste het geval is, dan moet het mogelijk zijn om d.m.v.
systematisch leesonderwijs een ander beeld te verkrijgen. In de toekomst kan het project
'begrijpend lezen' (S.V.0. 0275) hier meer helderheid verschaffen. Dat de gehanteerde
meet-procedure een redelijk valide inschatting geeft van de leesvaardigheid behoeft dus
nog niet te worden verworpen.

In ons onderzoek hebben we gewerkt met groepen lezers die wat betreft kennis en
leeservaring aanzienlijk homogener zijn, dan de groepen die door Rothkopf en door
Samuels en Dahl zijn onderzocht. Dit kan verklaren (naast het feit dat met vrij kleine
groepen is gewerkt) waardoor de verschillen in leessnelheid tussen de groepen lln. met
onderscheiden gemeten leesvaardigheid niet zo groot zijn. Indien het juist is dat slechte
lezers allerlei irrelevante leesactiviteiten ontplooien (hetgeen door dit onderzoek wordt
bevestigd), dan zullen er onder de slechte lezers ook een aantal zijn die juist vrij snel lezen
(in feite te snel), zodat de snelheid van de relatief goede lezers minder tot zijn recht komt.
Wanneer heterogene groepen worden vergeleken dan zal dit minder spelen. Deze gedach-
tengang wordt gesteund door de bevinding dat snelle lezers geen goede lezers behoeven te
zijn, terwijl de goede lezers in vergelijking met de rest wel snellere lezers zijn. M.a.w. de
validiteit van de meet-procedure lijkt op dit punt acceptabel.

De vergelijking tussen de groepen lezers met verschillende gemeten leesvaardigheid levert
met betrekking tot de variantie van de leessnelheid (leestijd) binnen de groepen op, dat
met name de slechte lezers zich onderscheiden van de rest volgens verwachting. Echter het
feit dat de drie groepen (evenals in het liierboven besproken geval van de leessnelheid)
slechts in twee groepen onderscheiden kunnen worden, wijst in de richting dat de metin-
gen toch vrij onnauwkeurig of globaal weergeven hoe het met de leesvaardigheid van de
lln. is gesteld. Alleen een extreem (nl. de groep slechte lezers) onderscheidt zich. Maar
hier moet natuurlijk ook niet uit het oog worden verloren dat de gevonden waarden van
de leesprestaties slechts de onderste helft van de totale schaal beslaan. Het is niet uitgeslo-
ten dat de leesvaardigheid van de relatief goed presterende lln. absoluut gezien nog betrek-
kelijk onontwikkeld is, zodat de verschillen tussen de drie groepen van lln. niet zo groot
zijn. Echter het is mogelijk dat de groep van slechte lezers een aantal zeer slechte lezers
bevat, waardoor deze groep zich toch kan onderscheiden van de rest t.a.v. de variantie van
de leessnelheid binnnen de groep. Daar komt nog bij dat de groep van middelmatige lezers
tweemaal zo groot is als de groepen van goede en slechte lezers. De variantie in zo'n groep
kan wat kleiner uitvallen, doordat de invloed van een extreem hoog of laag scorende
leerling (op leessnelheid) zich daar minder doet gevoelen. Alles bij elkaar genomen is het
niet noodzakelijk aan te nemen dat de gehanteerde meet-procedure onnauwkeurig is en
evenmin dat de procedure niet-vahde is.

Uit het tweede onderzoek is naar voren gekomen dat de prestaties van lln. gemeten
volgens de gebruikte procedure zeer sterk kunnen stijgen als gevolg van een oriëntering op
de beoordehngskriteria van de antwoorden op vragen. Nu Ujkt het niet zo waarschijnlijk
dat het mogelijk is om de leesvaardigheid van lln. in een vijftiental lessen op een hoger
plan te brengen. Het is daarom acceptabeler aan te nemen, dat de vaardi^eid om de
antwoorden op vragen op hun waarde te beoordelen (volgens de gehanteerde normen) een
aparte faktor is, die de gemeten prestaties mede kan bepalen. Het is evenwel onwaar-
scliijnlijk dat de procedure uitsluitend deze vaardigheid meet, gezien de samenhang van de

prestaties met de leestempo- en variantiematen. Ongetwijfeld weerspiegelen de prestaties
ook een meer algemene vaardigheid, al is niet uit te maken hoe algemeen die vaardigheid
is (bijv. leesvaardigheid of meer specifiek de vaardigheid om teksten inhoudelijk te verwer-
ken). We zien hier een problematiek analoog aan de problemen bij het meten van intelli-
gentie. De gegevens van het tweede onderzoek wijzen erop dat de lln. meer hebben
geleerd dan het beoordelen van antwoorden op vragen, nl. dat ze tevens hebben geleerd
om zelf betere antwoorden te geven. Dit zou kunnen betekenen dat bij deze lln. de
vaardigheid om teksten (inhoudelijk) te verwerken en de vaardigheid om correcte en
volledige antwoorden te formuleren min of meer onafhankelijk van elkaar kunnen zijn.
Ook de gegevens uit het eerste onderzoek wijzen in deze richting. Enerzijds bleek er
weinig samenhang te bestaan tussen leestijden en antwoordlijden, terwijl er anderzijds
nauwelijks systematische verschillen bestaan tussen de drie groepen van lezers in de ant-
woordlijden en de varianties daarvan (zoals bij de leestijden wel het geval was). Gecom-
bineerd duiden de gegevens van het eerste en tweede onderzoek in de richting, dat de
antwoordvaardigheid bij lln. uit de lagere regionen van het A.V.O. onvoldoende is en dat
deze vaardigheid eerst ontwikkeld en voorts geïntegreerd zal moeten worden in de vaar-
digheid om teksten inhoudelijk te verwerken. Indien dit correcte veronderstellingen zijn,
dan moet aantoonbaar zijn dat lezers, die hebben geleerd om antwoorden te beoordelen
en dit toe te passen op hun eigen antwoorden op vragen in het kader van leestaken,
samenhang vertonen tussen leestijd en antwoordtijd (d.w.z. dat een positieve correlatie
gevonden wordt). Tevens zou dan moeten blijken dat groepen relatief goede lezers (ge-
meten volgens de in dit onderzoek gebruikte procedure) minder variantie vertonen in
antwoordlijden, dan groepen relatief slechte lezers. Dit onderzoek is nog niet uitgevoerd.
Samenvattend menen we te mogen stellen dat de procedure voor het meten van leesvaar-
digheid een aantal vragen heeft opgeroepen, maar dat voorshands een redelijke nauwkeu-
righeid en validiteit daarvan niet tot de onmogelijkheden behoort. Een kwantitatieve
schatting kunnen we niet geven, gezien de aard van de kriteria die slechts op groepen en
niet op individuen kunnen worden toegepast. Om tot kwantitatieve uitspraken te kunnen
komen zal het pakket van leestaken ongetwijfeld met moeilijker en gemakkelijker taken
moeten worden uitgebreid, zodanig dat een breed scala van lezers op een totaal-schaal kan
worden ingepast. Door een dergelijke schaal te relateren aan tempo- en variantiematen
voor groepen en eventueel nog aan andere kriteria moet het mogelijk zijn om tot exacte
uitspraken omtrent nauwkeurigheid en vaUditeit te komen. Dit vraagt om een uitgebreid
onderzoek.

Onderzoek is gedaan naar de validiteit van een bepaalde procedure om de leesvaardigheid
te meten aan de hand van vragen bij teksten, waarop door lezers een antwoord moet
worden gegeven. De verkregen antwoorden van 49 MAVO-lln. in het eerste onderzoek en
128 MAVO-lln. in het tweede onderzoek werden volgens een specifiek schema gescoord.
In het eerste onderzoek kregen de lln. vijf teksten met steeds drie soorten van vragen. De
lèestijden en antwoordlijden werden gemeten. De totaal-scores over de vijf teksten wer-
den als schatter van de leesvaardigheid gehanteerd. Het doel van dit onderzoek was om na
te gaan of de verwachte verbanden tussen leesprestaties enerzijds en andere gegevens
anderzijds (leeservaring en kennis, leestempo en variantie van de leestijden binnen onder-
scheiden groepen van lezers) aantoonbaar waren. Het doel van het tweede onderzoek was

om na te gaan of antwoordvaardigheid apart geoefend kan worden en als aparte faktor
een bijdrage tot de prestaties kan leveren.

Uit de resultaten bleek dat de nauwkeurigheid en de validiteit van de gehanteerde proce-
dure niet zonder problemen zijn, maar dat er voorlopig geen termen aanwezig zijn om de
procedure een redelijke nauwkeurigheid en vahditeit te ontzeggen. Tevens bleek dat ant-
woordvaardigheid apart verbeterd kan worden en dat deze vaardigheid naast een meer
algemene vaardigheid (bijv. het verwerken van de inhoudelijke informatie van teksten) de
prestaties van lezers kan bepalen. Een suggestie was dat een uitgebreider pakket van
leestaken zal moeten worden opgesteld, teneinde een breed scala van lezers op een schaal
te kunnen inpassen met het doel om te kunnen komen tot kwantitatieve schattingen voor
de nauwkeurigheid en de validiteit van de procedure.

Aarnoutse, C.A.J. en M.J.C. Mommers. Een onderzoek naar de mate waarin een aantal doelstellingen
van begrijpend lezen wordt bereikt. S.V.O.-project 0298, deelrapport. Nijmegen: K.U., Instituut
voor Onderwijskunde, 1977.

Bol., E. Begrijpend lezen: onderzoek en onderwijs. Ned. Tijdschrift v.d. Psychologie, 1974 29,
673-683.

Bol. E. Begrijpend lezen op de basisschool. Pedagogische Studiën, 1976, 53, 1-12.

Bol, E., E.M. Kollen en J. Leistra. Begrijpend lezen, S.V.O.-project 0275. Tussenrapport. Utrecht, juli
1976.

Bol, E., E.M. Kollen en J. Leistra. Begrijpend lezen, S.V.O.-project 0275. Tussenrapport. Utrecht,
augustus 1977.

Bolsius, R. Begrijpend lezen. Doctoraalscriptie, Psych. Lab. Rijksuniversiteit Utrecht 1975.

Drop, W. en J.H.L. De Vries. Taalbeheersing; handboek voor taaihantering. Groningen, 1977.

Lompscher, J. e.a. Zur Entwicklung geistiger Fähigkeiten. Berlijn: Volk und Wissen, 1968.

Lompscher, J., e.a. Theoretische und experimentelle Untersuchungen zur Entwicklung geistiger Fähig-
keiten. Berlijn: Volk und Wissen, 1972.

Rothkopf, E.Z. Structural text features and the control of processes in learning from written mate-
rials. In: J.B. Carroll en R.O. Freedle (eds.). Language comprehension and the acquisition o/A:«ow/-
etfee. Washington; Winston, 1972.

Sameroff, A.J. Early influences on development: fact or (mcyl Merill-Palmer Quarterly, 1975, 21,
267-294.

Samuels, S.J. en P.R. Dahl. Establishing Appropriate Purpose for Reading and Its Effect on Flexibility
of Reading Rate. Journal of Educational Psychology, 1975, 67, 38-43.

Smith, F. Psycholinguistics and reading. New York; Holt, Rinehart and Winston Inc., 1973.

Wesdorp, H. Het meten van de productief-schriftelijke taalvaardigheid. Directe en indirecte methoden:
'opstelbeoordeling'versus 'schrijfvaardigheids-toetsen'. Purmerend: Muusses, 1974.

Willems, M. Begrijpend lezen. Stageverslag, Psych. Lab. Rijksuniversiteit Utrecht, 1977.

Een Onderzoek naar het Lees - Leerproces
van Leerlingen van een 6e Klas Basisschool
met behulp van een Oculometer en een
Kennisrepresentatietechniek

A study of learner activities in reading by means of an oculometer and a technique to represent
knowledge

This article deals with a processanalytic study of learner activities in reading. These activities are
only partly observable, so we have to deal also with imperceptible learning activities. Tlie
observable activities have been investigated by means of an oculometer experiment, in which
tlie eye movements were registrated while the pupü was learning a text. Our purpose was to
find out in what way the information reception strategies are of central importance for obtain-
ing good performances. The imperceptible activities have been investigated by means of a
technique to represent knowledge. It was assumed that the suggestions about the processing
operations during learning can be generated from the memory structure which has been con-
structed during learning a text. By means of a comparison of someone's memory representation
of a text with the logical and semantic structure from which the text was generated, an attempt
was made to reconstruct the processing operations a person performs.

Next, the analysis of visual input and the analysis of represented knowledge were taken to-
gether. It was assumed that there exists a connection between direction of the eye movements
and the cognitive processing of the learning material. The following experimental set up was
used. Pupils of the sixth grade of a primary school learned a written text, during 30 minutes.
After learning time they had to respond to a number of questions about the text, in an
extensive way. Tlie answers of the pupils were transformed into representation schemes. These
were analysed by means of the scheme of the text structure. Twelve pupils were selected for the
oculometer experiment, divided in two groups, based on maximum differences between the
groups. Tliese twelve pupils had to learn a second text, but now at the Technical University. At
that moment the eye movements were registrated during reading and learning. After the experi-
ment the pufjils had to answer a question about the text. These answers were analysed in the
way indicated. The analysis of results suggested that the learning activities of the low per-
formers are mainly determined by the visual rehearsal activities, while the learning activities of
the high performers are determined by 'something more' than only these rehearsal activities. By
means of our experiment we cannot answer the question what exactly this 'more' means. We
have to conclude that the movements of the eyes fail to uncover a number of Long Term
Memory activities. In other words, there seems to be no specific strategy of perception during
the learningprocess.

Zowel in het onderwijs als in het onderzoek concentreert men zich in de regel op leer-
prestaties en niet op het leerproces, dat aan de geleverde prestaties ten grondslag ligt.
Onderzoek in het verleden heeft zich geconcentreerd op het variëren van een aantal
condities in het leermateriaal van de leerling ter verhoging van de leerprestaties.
De ideeën met betrekking tot het scheppen van condities zijn eerder ontstaan uit sug-
gesties over dat lees- leerproces dan uit elementair onderzoek naar het lees- leerproces.

Vanaf 1965 zijn, vooral in Amerilca, een groot aantal onderzoelcen verricht naar de
effelcten van het toevoegen van vragen aan een tekst, de zogenaamde 'adjunct questions'.
Het tekst + vragen (T + V) onderzoek is gebaseerd op de veronderstelling dat door middel
van vragen de tekstinspektie- en -verwerkingstechnieken van de leerling beïnvloed kunnen
worden. Er daarmee impliciet van uitgaande dat de verschillen tussen goede en slechte
leerlingen mede veroorzaakt worden door die verschillen in technieken.
In dit onderzoek stonden die veronderstelde verschillen in tekstinspektie- en -verwerkings-
technieken centraal. Wij zijn hierbij echter afgeweken van de 'conditievariërende onder-
zoeksmethode'. Het betreft hier een procesanalytische studie, waarbij het verzamelen van
gegevens over de aard van de aktiviteiten van de lerende die het leren doen ontstaan
centraal staat.

Wij kunnen deze aktiviteiten onderscheiden in waameembare en niet-waarneembare leer-
aktiviteiten. Op deze beide terreinen heeft het onderzoek zich bewogen.

Een aantal gedragingen van de leerlingen tijdens het leerproces zijn door de leerkracht
goed waar te nemen. Bijv. wel/niet geconcentreerd, motorische onrust etc. Iets wat in
principe waar te nemen is, maar zeer moeilijk als observatie gerealiseerd kan worden is het
'kijkgedrag' van de leeriing. Tijdens het leren van een tekst is de leerling lezend bezig. Bij
het lezen bewegen de ogen sprongsgewijs over de tekst (saccade). De sprongen worden
gescheiden door oogpauzes (fixaties), het netvliesbeeld staat dan vrijwel stil. Het opnemen
van tekstinformatie geschiedt voornamelijk gedurende een dergelijke oogpauze.
Er zijn een aantal maten waarop oogbewegingsgegevens geanalyseerd kunnen worden: de
lengte van de saccades, de fixatietijd en -plaats, het aantal regressiebewegingen (terug-
waartse saccades). In eerste instantie zal de leerling tijdens het leren regel voor regel
lezend bezig zijn, van boven naar beneden, maar later zal hij belangrijke zaken uit de tekst
frekwenter gaan bekijken, zo werd verondersteld in dit onderzoek.
Er is voldoende gebleken dat de gemiddelde voortgang van de ogen over de tekst gelijke
tred moet houden met de kognitieve verwerking. Bij plotselinge herkennings- of begrips-
moeilijkheden is de oogsturing wel degelijk kognitief bepaald (de Klerk & Oostlander,
1976). Dit werd eveneens geïllustreerd in onderzoeken van Anderson (1937), Smith
(1971) en Petruk en Skakun (1975).

De voomaamste tekstopname vindt plaats tijdens de oogpauze. Zo'n fixatie kan men
opvatten als louter opname van tekst als ook denken over tekst. Dit laatste wordt bepaald
door de inhoud van de tekst en het doel van het lezen.

Een manier om het kijkgedrag van de leerling tijdens het leerproces te bestuderen is het
doen van oogobservaties door middel van een zogenaamde oculometer.
Een oculometer (Honeywell Mark II) is aanwezig op de Technische Hogeschool te Delft.
De geobserveerde persoon zit tijdens de observatie in een redelijk komfortabele stoel en
rust met zijn hoofd in een hoofdsteun. Tijdens het lezen/leren worden de oogbewegingen
geregistreerd via een kamera etc., worden vastgelegd op een videoband en omgezet in
computergegevens. Op een monitor ziet men een bewegend puntje. Dit puntje stelt het
centrum van het bhkveld op dat moment voor.

Het Ieren van een geschreven tekst kan men opvatten als een kommunikatieproces. De
zender (de schrijver) brengt een boodschap over op de ontvanger (de lezer). Volgens
Frederiksen (1972) kan het 'begrijpen' van een tekst opgevat worden als het proces
waarin een lezer poogt de kennisstruktuur van een schrijver af te leiden door de linguis-
tische boodschap, de kontextuele informatie en zijn eigen kennis als gegevensstruktuur
vanwaamit de afleidmg gemaakt moet worden, te gebruiken. Deze opvatting over het
proces van begrijpen wordt gedeeld door Breuker en Camstra (1976). Zij verstaan onder
het proces van begrijpen: de transformatie van natuurlijke taal in interne representaties.
'Leren' zien zij als 'de konstruktie van een konceptuele representatie van een zeker
kennisveld in het hoofd van de leeriing, zodat de leerhng kan handelen met deze represen-
tatie, bijv. met het oog op een specifieke leertaak'. Een lezer transformeert de ontvangen
natuurlijke taalprodukties m een semantische vorm. Daarna wordt de geïnterpreteerde
semantische mformatie in zijn semantisch geheugen opgenomen.

De kennisstruktuur van een schrijver wordt neergelegd in zijn tekst. Frederiksen (1975)
heeft een model ontworpen door middel waarvan de struktuur van een tekst beschreven
kan worden. Een semantische netwerkstruktuur is onderdeel van dit model, dit is een
verzameling van relaties die koncepten met elkaar verbinden en gebeurtenissen of toestan-
den weergeven. De kernbegrippen met betrekking tot een semantisch netwerk zijn kon-
cept en relatie. Een koncept is het 'kleinste' element van een semantische inhoud, dat
object is van een operatie in geheugenprocessen en processen met betrekking tot het
begrijpen van tekstmateriaal. Een relatie wordt gedefinieerd door twee of meer koncep-
ten. De aaneenschakehng van koncepten via relaties definieert een semantisch netwerk.
Een manier om metingen te verkrijgen van de prestaties van leerhngen als gevolg van
geheugenprocessen is in het onderwijs en onderzoek het stellen van vragen over de bestu-
deerde tekst. Het stellen van specifieke vragen kan echter opgevat worden als het gedeelte-
Ujk opnieuw aandragen van kennis, omdat de vragensteller - om nu eenmaal een ant-
woord te ontlokken - informatie in de vraag moet verwerken.

Bovendien hebben de vragen slechts betrekking op een gedeelte van de bestudeerde tekst.
M.a.w. deze methode is niet voldoende vaUde, wanneer men als doel heeft te onderzoeken
wat de verwerketjde operaties zijn die een persoon aan een tekst verricht. De suggesties
over de verwerkende operaties moeten afgeleid worden uit de geheugenstruktuur, die
iemand als gevolg van de bestudeerde tekst heeft opgebouwd. Zicht op de struktuur krijgt
men onvoldoende door het stellen van vragen.

Door vergeUjking van iemands geheugenprestatie van een tekst met de logische en seman-
tische struktuur van waaruit de tekst werd gegenereerd, pioet het mogeUjk zijn een begin
te maken met de rekonstruktie van de verwerkende operaties die een persoon aan een
tekst verricht om de geheugenstruktuur van de tekst te kunnen afleiden. Een strategie om
metingen te verkrijgen van de prestaties als gevolg van begrips- en geheugenprocessen is
dan ook:

b. Een procedure ontwikkelen om het protokol van het individu (dit is zijn rekonstruktie
van de input) te skoren.

De konstruktie van het tekstmateriaal houdt het benoemen van de koncepten en de
relaties tussen die koncepten van de tekst in. Breuker (1976) en Frederiksen (1975) doen
hieromtrent suggesties. Zij maken echter gebruik van een verschillend notatiesysteem. In
ons onderzoek hebben wij deze twee notatiesystemen met elkaar trachten te kombmeren.

a. Het notatiesysteem van Breuker (1976); deze illustreert de aanwezigheid van kon-
cepten, relaties en processen.

b. het notatiesysteem van Frederiksen (1975); deze gaat dieper in op de aard van de
relaties en processen.

Aan kennis zijn twee aspekten te onderscheiden. Een statisch deel en een dynamisch deel.
Het statische deel geeft aan wat konstant bUjft of wat konstant is op dit moment. Alle
uitspraken die statische kennis bevatten worden toestanden (T) genoemd. Een toestand
wordt gekarakteriseerd door twee koncepten die een statische relatie met elkaar aangaan.
Breuker noemt hierbij twee typen relaties: eigenschapsrelaties en tijd-ruimte relaties. Een
eigenschapsrelatie is een relatie tussen twee of meerdere koncepten, waarbij aan het eerste
koncept (Kl) een specifikatie wordt toegekend door middel van een tweede koncept
(K2). Men noteert dit als K1(K2). Wanneer voor het bestaan van een dergelijke relatie een
specifieke konditie aanwezig is, dan wordt deze konditie vermeld door middel van een pijl
tussen konditie en toestand K3 -> K1(K2). Tijd-ruimte relaties geven aan op welk tijdstip
of plaats een koncept zich bevindt. Deze relaties worden uitgedrukt met een plus teken
tussen de koncepten (Kl + K2).

Toestanden kunnen veranderen in nieuwe toestanden. Een dergelijke toestandsverande-
ring wordt wel gebeurtenis (G) of proces (P) genoemd. Een toestandsverandering vindt
plaats onder invloed van kondities. Een gebeurtenis bestaat dus uit twee komponenten.

a. Konditie(s). Er zijn een aantal gradaties in kondities die de mate van invloed van de
konditie op de toestandsverandering aangeven. Wanneer een konditie 'voldoende voor-
waarde' is voor de toestandsverandering dan wordt dit als volgt aangegeven: Kl -> K2.
Wanneer een konditie 'noodzakelijk, maar onvoldoende' is voor de toestandsverande-
ring dan wordt dit als volgt aangegeven: K1~~^K2. Meestal bestaat een tekst uit een
keten van toestandsveranderingen. Dergelijke temporele relaties in gebeurtenisstruktu-
ren worden van hnks naar rechts / van boven naar beneden aangegeven. Tegelijk
verlopende gebeurtenissen worden met een verbindingshaakje geschreven, als volgt

- een transformatie (=>); d.i. de operatie die aT in kT verandert.
Een toestandsverandering is dus voor te stellen als aT => kT.

Een toestandsverandering bestaat in feite uit de ontkenning (~) van de antecedente
toestand: aT => ~ aT.

Tenslotte worden in het notatiesysteem van Breuker nog de zogenaamde kwantoren
gebruikt. Bijv. de V voor vele, vaak, de meeste etc.

Evenals Breuker maakt Frederiksen onderscheid tussen toestanden en gebeurtenissen. De
toestanden (statische relaties - SR) kunnen van een verschillende aard zijn.
a. Deel-geheel (SR - d,g); Een SR kan specificeren dat met een objekt, een ander objekt
dat een deel is van het eerste objekt, verbonden wordt. Voorbeeld: Een vogel heeft
vleugels.

b. Classificaties (SR - c); Een SR kan specificeren dat een verzameling van Objekten een
andere verzameling van Objekten als deelverzameling heeft óf dat een verzameling van
Objekten een deelverzamehng is van een grotere klasse van Objekten. Voorbeeld: Een
kanarie is een vogel.

c. Attribuut (SR - a); Een SR kan specificeren dat een objekt met een attribuut verbon-
den is. Voorbeeld: Kanaries zijn geel.

d. Symbohsche inhoud (SR - si); Een SR kan, wanneer een objekt symbolisch is, de
symbolische inhoud van het objekt specificeren. Voorbeeld: Het boek gaat over China.

e. Lokatief (SR -1); Een SR kan specificeren dat een objekt een ruimtelijke lokatie heeft.
Voorbeeld: De kanarie zit in de kooi.

f. Temporeel (SR -1); Een SR kan specificeren dat een objekt een lokatie in de tijd heeft.
Voorbeeld: De kanarie fluit drie uur per dag.

Binnen een gebeurtenis maakt Frederiksen onderscheid tussen casusrelaties (case relations
- CR) en identificerende relaties (IR). Casusrelaties specificeren een kausaal systeem. Een
casusrelatie kan een aktie zijn die een verandering in een toestand of proces bewerkstelligt
(CR - r,f) óf een aktie die geen verandering teweegbrengt (CR - p,f). De identificerende
relaties onderscheiden een aktie of klasse van akties van andere klassen van akties. Binnen
de identificerende relaties kan onderscheiden worden naar classificatie (IR - c), attribuut
(IR - a), lokatie (IR -1) en tijd (IR -1).

Voorbeelden van bovenstaande zijn: CR - r,f: De man brak het raam. CR - p,f: De man
ademt. IR-c: De vrouw repareerde de auto door de krukas te verplaatsen. IR-a: De
man reed tussen de 55 en 60 km. per uur. IR -1: De hond rende door de tuin. IR -1: Het
kind brak het raam om zes uur.

Het onderzoek richtte zich enerzijds op een analyse van de visuele input, anderzijds op
een analyse van de gerepresenteerde kennis in het 'Long Term Memory'. Via deze beide
analyses werd getracht tot een beschrijving te komen van de tussenliggende processen. De
onderzoekster verwachtte door deze benadering een beter beeld met betrekking tot het
lees- leerproces te krijgen dan de in onderzoek gebruikelijke retentiemetingen tot nu toe
hebben opgeleverd.

a. Hoe wordt de geleerde kennis gerepresenteerd? Onderscheiden leerlingen zich naar
specifieke kenmerken van deze representaties?

b. De visuele aktiviteiten van de leerhng tijdens de lees- leerfase. Zijn er specifieke leer-
strategieën te onderscheiden aan de hand van fixatiepunten en sturing van de oog-
sprongen?

c. Welke verbanden zijn aanwezig tussen de visuele aktiviteiten en de uiteindelijk gerepre-
senteerde kennis? Worden de koncepten met een hoge fixatiekoncentratie eerder ge-
reproduceerd dan de koncepten met een lage fixatiekoncentratie?

d. Is de leeraktiviteit te beïnvloeden? Welke voorspehingen met betrekking tot die beïn-
vloeding kunnen worden opgesteld? M.a.w. leveren zij aanwijzingen op voor de vraag
welke handehngen en operaties de leerlingen moeten leren beheersen om te komen tot
beheersing van de leerstof?

Zoals reeds eerder is opgemerkt beweegt het onderzoek zich op twee terreinen: de niet-
waarneembare en de waarneembare leeraktiviteiten. In het onderzoek waren dan ook
twee fasen te onderscheiden.

Aan leerlingen van een zesde klas basisschool te Delft werd een leertekst voorgelegd.
Tijdens de leerfase waren de leerlingen vrij aantekeningen over de leerstof te maken, als
hulpmiddel bij het leren. Na een leertijd van 30 min. werden de leerlingen verzocht om
aan de hand van een aantal summiere vragen datgene op te schrijven wat ze geleerd en
onthouden hadden. Van alle antwoorden van de leerUngen werden representatieschema's
gemaakt. Deze werden vergeleken met de oorspronkelijke tekststruktuur.
Op basis van verschillen tussen leerlingen werden twaalf leerlingen geselekteerd, bestaande
uit twee groepen van zes leerUngen, waarbij deze groepen maximaal verschilden op een
aantal aspekten.

De tijdens de leerfase gemaakte aantekeningen werden eveneens in de analyse van ge-
gevens betrokken.

De twaalf leerUngen kregen een soortgelijke opdracht als in de klas, echter nu op de
afdeling Industriële Vormgeving van de Technische Hogeschool te Delft. Een leertekst ter
grootte van een halve bladzijde werd voor de leerling op een scherm geprojekteerd. Om
het gevaar van discrepantie tussen leertekst op school (fase 1) en leertekst op de T.H.
(fase 2) te voorkomen, werd de laatste leertekst gekonstrueerd, analoog voor wat betreft
struktuur, maar anders van inhoud vergeleken met een gedeelte van de eerdere leertekst.
De leerling kreeg de opdracht de tekst éénmaal hardop te lezen en vervolgens deze
gedurende 5 minuten te leren. Van iedere leerling werd een video-opname gemaakt en
door de computer werden aUe vereiste gegevens vastgelegd. Na de leertijd kreeg de leerUng
één globale vraag voorgelegd over de leertekst. Van het antwoord van de leerUng werd
wederom een representatieschema gemaakt. Deze werd vergeleken met de gegevens die
computer en videoband opleverden.

Ten behoeve van de eerste fase werd een tekst gebruikt over het dier 'de kwal'. Bij het
zoeken naar een geschikte tekst werd rekening gehouden met een aantal punten.

a. Het vermijden van verschillen tussen leerlingen in voorkennis ten aanzien van het
gekozen onderwerp.

c. Het afstemmen van de aard en struktuur van de tekst op de voor de leerUngen 'nor-
male' teksten.

De kriteria die gehanteerd werden bij de selektie van de tekst voor de tweede fase van
onderzoek waren gelijkluidend. Een aantal extra punten waren nog van belang. AUereerst
de eis dat de tweede tekst voor wat betreft de inhoud en struktuur vergelijkbaar zou zijn

met de eerste tekst, zodat de invloed van de variabelen inhoud en struktuur van de tekst
daarmee gereduceerd werd. De keuze viel op een tekst over de mktvis.
Ten tweede zou de leertijd m de tweede fase slechts beperkt zijn tot 5 minuten. Een
langere leertijd werd in deze onderzoekssituatie niet verantwoord geacht. Hoe kan men
echter voor 5 minuten een nog zinvolle tekst samenstellen? Dit probleem werd opgelost
door een volledige tekst uit te zoeken, overeenkomstig de tekst van de eerste fase. Een
gedeelte van die tekst werd gebruikt als leertekst (in de 5 minuten), de rest van de tekst
diende als inleiding op de leertekst, zodat de leerhng niet geheel onverwacht met het
onderwerp tijdens de leertijd gekonfronteerd werd.

Aanvankelijk bestond het idee om bij de toetsing geen vragen te gebruiken dan alleen de
instruktie - alles op te schrijven wat onthouden was. Dit om toevoeging van informatie in
de vraagstelling te voorkomen. Deze manier van toetsing stuitte echter op het bezwaar dat
de leerling een dergelijke aanpak niet gewend was. Uiteindelijk werden ten behoeve van de
eerste fase van onderzoek vier open vragen gekonstrueerd. De vier vragen hadden betrek-
king op de vier onderdelen uit de tekst. Zij konden op deze manier de leerling nog wat
steunpunten bieden, zonder te veel informatie te bevatten.

Bovenstaande gold evenzeer voor de tweede fase van onderzoek. Nu betrof het echter
slechts één vraag namelijk die over het leergedeelte van de tekst. Deze vraag werd overeen-
komstig de vraag uit de eerste fase gekonstrueerd.

Het onderzoek richtte zich op leerlingen van een zesde klas basisschool m Delft. Gezien
de ügging van de school vonden wij het aannemelijk dat het grootste gedeelte van de
leerhngen op deze school uit een midden-milieu afkomstig is. Dit werd door de leerkrach-
ten ook bevestigd.

Wij hadden in dit onderzoek te maken met 29 proefpersonen, bestaande uit 11 en 12-ja-
rige leerlingen. •

Bij de beschrijving van de tekst in schematische vorm is als volgt te werk gegaan. Breuker
(1976) en Frederiksen (1975) namen in hun notatiesysteem de zin als betekeniseenheid.
Een tekst werd aanvankelijk beschreven als een geheel van afzonderlijke zinnen. Per zin
werden de elementen volgens de voorschriften genoteerd. Achteraf konden dan tussen de
zinnen verbindmgslijnen van bijvoorbeeld kausale aard ontstaan óf konden zinnen in één
notatie worden samengevat. Bijvoorbeeld de zm: 'De inktvis heeft tentakels' = K1(K2) én
'Aan de tentakels /itten zuignappen' = K2(K3), kan worden herschreven als:
Kl {K2(K3))'. Dit is ook onze werkwijze geweest. Achter iedere zin werden de katego-
rieën van Frederiksen genoteerd. Deze laatste notermg kwam niet in de uiteindelijke
tekststruktuur terecht wegens mogelijk ontstane onoverzichtelijkheid. Tussen de zinnen

werd gezocht iiaar overeenkomende koncepten en tussenliggende relaties. M.a.w. de zin-
nen werden in een struktuur samengevat. Zie de bijlagen 1 t/m 4 op pag. 234 en 235.

a. Hoeveel en welke koncepten, processen en relaties worden in de representatieschema's
van de leerlingen weggelaten?

b. Hoeveel van de in de representatieschema's aanwezige koncepten, processen en relaties
hebben een gewijzigde vorm gekregen, afwijkend van de letterlijke tekst (intrusies)?

c. Zijn er leerhngen die een wijziging hebben aangebracht in de totale tekststruktuur,
door bijvoorbeeld de volgorde van gebeurtenissen te wijzigen?

d. Welke leerlingen hebben koncepten en processen weggelaten die door de groep als
belangrijk worden gezien (dit zijn de koncepten en processen die een hoge totaalscore
krijgen in de groep)?

f. Is er verband tussen de aantekeningen tijdens de leerfase en het reproduceren van
koncepten, processen en relaties?

g. Welk verband bestaat er tussen de resuhaten behaald na de leerfase en de resuhaten op
toetsen technisch en begrijpend lezen?

Voor iedere leerling werd een doorschijnend blaadje op de oorsponkelijke tekststruktuur
geplaatst. Door middel van een verschillend gebruik van kleuren werden daarop de door
de leerling genoemde koncepten, processen, relaties, omissies en intrusies aangegeven.
Deze uiteindelijk verkregen tekstrepresentatieschema's waren de basis voor verdere ge-
gevensverwerking en dienden ter beantwoording van de vraagstellingen a t/m g. De aan-
tekeningen van de leerfase werden eveneens in schema gezet en werden vervolgens verge-
leken met de representatieschema's.

Voor de volledigheid van gegevensverzameling werd getracht van iedere leerling gegevens
met betrekking tot de vaardigheden technisch en begrijpend lezen te verkrijgen.

De oogbewegingsobservaties hadden als doel te achterhalen in hoeverre er sprake is van
een kijk (= leer?) strategie bij de leerling tijdens het leren. Daartoe behoort men allereerst
te weten wat de normale leesakt is van de leerling, om dan later tijdens de leerfase te
kunnen spreken van een, onder invloed van de leertaak, verkregen bijzondere kijkstra-
tegie. Deze bijzondere kijkstrategie kan tot uitdrukking komen in:

a. Een doorbreking van het lezend bezig zijn, m.a.w. niet meer regel voor regel lezen,

- met een tijdens de leerfase gewijzigde leeshouding ten opzichte van de leesfase,
bijvoorbeeld verandering van fixatietijden en saccadelengten.

- met een tijdens de leerfase veranderende leeshouding (= veranderende oogbewe-
gingen). Fixatietijden en saccadelengten kunnen bijvoorbeeld anders zijn aan het
eind van de leerfase dan aan het begin.

- met het tijdens de leerfase al dan niet accentueren van bepaalde koncepten, door
langer fixeren.

a. Wat is de gemiddelde fixatietijd en saccadelengte van de leerling tijdens het hardop
lezen van de tekst. Hoe is de verdehng van die fixatietijden en saccadelengten?

b. In hoeverre verandert de leeshouding (uitgedrukt in fixatietijden en saccadelengten)
van de leerhng tijdens het hardop lezen?

c. Blijven de leerUngen tijdens de leerfase lezend bezig? Zo nee: worden er verbindingen
gelegd tussen bepaalde delen van de tekst?

d. Wat is de gemiddelde fixatietijd en saccadelengte van de leerling tijdens het leren van
de tekst? Hoe is de verdeling van fixatietijden en saccadelengten?

f. In hoeverre verandert de leeshouding tijdens het leren ten opzichte van de leeshouding
tijdens het hardop lezen?

g. Krijgen koncepten die in de tekst herhaald worden, op den duur ook minder fixatie-
concentratie?

h. Wat is voor iedere leerhng de totale fixatietijd op ieder koncept in de tekst?

Na de leerfase moesten de leerlingen een vraag beantwoorden over de tekst. Van deze
reproduktie van het leermateriaal werd wederom een kennisrepresentatieschema gemaakt.
Aan de hand van deze schema's en de oogbewegingsgegevens werd antwoord gezocht op
de vraag of koncepten met een hoge fixatieconcentratie naar verhouding ook eerder
gereproduceerd worden dan de koncepten met een lage fixatieconcentratie. Naast vragen
met betrekking tot niet-waarneembare en
waarneembare leeraktiviteiten was het van
belang te weten in hoeverre de eerste fase
van onderzoek met de tweede fase te verge-
lijken was. Uit tabel 1 blijkt dat de repro-
dukties uit de eerste fase overeenkwamen
met die uit de tweede fase. R stelt hierbij het
aantal gereproduceerde relaties voor, K het
aantal gereproduceerde koncepten en P het
aantal gereproduceerde processen.

Correlatiematrix van de Relatie-, Koncept-
en Processkores in school- en T.H. situatie.

School	T.H.	R	K	P
R		86	59	90
K		89	62	92
P		76	47	85

De weergave van resultaten neemt in het voUedige onderzoeksverslag¹ een aanzienlijke
mimte in. Dit wordt deels veroorzaakt door de hoeveelheid gegevens en deels door het
feit dat een gedeelte van de gegevens ook grafisch weergegeven dienden te worden. Wij
zuUen ons hier echter drastisch moeten beperken. Wij zuUen ons in hoofdzaak richten op
de beantwoording van de vraagsteUingen a t/m c uit paragraaf 1.3. Waar mogeUjk (als de
ruimte dit toelaat) zuUen de resultaten ook visueel worden weergegeven.

Door vergelijking van ^iemands geheugenrepresentatie van een tekst met de logische en
semantische struktuur van waaruit de tekst werd gegenereerd, is getracht een begin te

maken met de rekonstruktie van de verwerkende operaties die een persoon aan een tekst
verricht om de geheugenstruktuur van de tekst te kunnen afleiden. Daarnaast was in dit
onderzoek van belang in hoeverre leerlingen zich onderscheiden naar specifieke keimier-
ken van de representaties.

Wy konstateerden aanmerkelijke verschillen tussen leerlingen in de door de leerling be-
haalde totaalskores R(relatie), K(koncept) en P(processen). Deze verschillen waren een
eerste basis voor leerlingenselektie.

Over het algemeen hielden de leerlingen zich aan een letterlijke weergave van koncepten
etc. Struktuurwijzigingen kwamen eveneens weinig voor.

Opvallend was dat er koncepten in de tekst voorkwamen die door vrijwel aJle leerlingen
gereproduceerd werden, daarnaast waren er koncepten die door vrijwel geen der leerlingen
genoemd werden. M.a.w. de verwerking van tekstinformatie wordt beïnvloed door de aard
van de koncepten. Tot de veelvuldig gereproduceerde koncepten behoorden veelal de voor
de leerling 'nieuwe begrippen', m.a.w. begrippen waarvan niet te verwachten is dat zij tot
het vocabulair van de leerling behoren (zoals pohep, larve, klok- of parapluvorm, holte-
dier). Daarentegen werden koncepten die meer in het dagelijks taalgebruik verankerd
liggen verhoudingsgewijs minder gereproduceerd (zoals mensen, bang, in de zomer, nare
beesten).

Hieruit zou men de voorzichtige konklusie kunnen trekken dat leerlingen tijdens de
verwerking van tekstmateriaal zich blijkbaar sterk richten op de verwerking van nieuwe
koncepten en de verankering daarvan in het geheugen.

Daarnaast lijkt de reproduktie van leermateriaal eveneens beïnvloed te worden door de
aard van de relaties. Opvallend is bijvoorbeeld dat de in de tekst frekwent voorkomende
relaties ook naar verhouding meer door leerhngen gereproduceerd worden dan de in de
tekst weinig voorkomende relaties. Enerzijds is dit niet zo verwonderlijk, aangezien de
frekwent voorkomende relaties tenslotte het karakter van de leerstof bepalen. Anderzijds
echter wordt de relatie CR - p,f, die een geringe positie inneemt wat betreft voorkomen in
de tekst, naar verhouding frekwent gereproduceerd.

Dit laatste suggereert dat de leerlingen over het algemeen geneigd zijn casusrelaties, waar-
bij de aktie geen verandering in een toestand of proces bewerkstelligt, in meerdere mate te
reproduceren in vergelijking met andere relaties, ongeacht het al dan niet frekwent voor-
komen van deze relatie in de tekst.

Zoals reeds eerder vermeld hebben wij de door de leeriingen gemaakte aantekeningen
tijdens de leerfase eveneens in de gegevensanalyse betrokken. Wij meenden dat een ana-
lyse van de aantekeningen ons zicht kon verschaffen op wat de leerUngen in de tekst
belangrijk vonden met het oog op de leertaak. Bovendien is het aannemelijk dat de
gemaakte aantekeningen voor een groot gedeelte weer terug te vinden zullen zijn in de
reprodukties, daar deze fragmenten uit de tekst extra aandacht hebben gehad.
Van de 29 proefpersonen maakten er 20 aantekeningen. Er deden zich tussen leerlingen
nogal verschillen voor in de hoeveelheid informatie die aangetekend werd.
Wanneer wij hoogpresterende (-^) leerUngen en laagpresterende (-) leerUngen op basis van
de hoeveelheid gereproduceerde leerstof onderscheiden, dan blijkt dat de (-h) leerUngen
geneigd zijn méér aantekeningen te maken dan de (-) leerUngen. Bij tweezijdig toetsen
(T-toets) bleek dit verschil echter niet signifikant (a < .20).

Vervolgens werd nagegaan welk percentage van de in de aantekeningen voorkomende
relaties ook in de reprodukties te vmden waren.

Wanneer we (-h) en (-) leeriingen vergelijken dan kunnen we zien dat (+) leerlingen meer
van hun aantekeningen later ook reproduceren dan (-) leerlingen. Dit verschil bleek

signifikant (a < .02). M.a.w. de tijdens de leerfase extra benadrukte informatie wordt
door (+) leerlingen méér gebruikt dan door (-) leerlingen. Kennelijk moet er nog meer
gebeuren voor het onthouden van de informatie, dan de herhalmg van informatie-stimuli
alleen.

(-) Leerlingen onderscheiden zich van (-h) leerlingen in het geringe aantal gereproduceerde
Tabel 2.

Stem-and-leaf displays* van het aantal relaties in de aantekeningen,in %van
het totaal aantal relaties in de tekst.

* Tukey, J.W. Exploratory data analysis, Addison-Wesley Pubhshing Com-
pany, 1977.

Stem-and-leaf displays van het aantal overeenkomende relaties in aanteke-
ningen en reprodukties, in % van hef aantal relaties in de aantekeningen.

Stem-and-leaf displays van het aantal relaties in de aantekeningen, in % van
het aantal gereproduceerde relaties.

relaties. Restte dan ook de vraag: hoeveel % van de gereproduceerde relaties er in de
aantekeningen voorkwamen.

Uit tabel 4 blijkt dat (-) leerlingen naast de gemaakte aantekeningen nog maar weinig van
de overige (niet aangetekende) relaties onthouden in vergelijking met (+) leerlingen. De
verschillen zijn echter niet signifikant.

Tenslotte bhjkt nog dat de veelvuldig aangetekende, maar naar verhouding minder gere-
produceerde, relaties veelal toestandrelaties betreffen. Daarentegen worden casus en iden-
tificerende relaties naar verhouding weinig aangetekend, maar veel gereproduceerd.

Zijn er specifieke strategieën in tekstopname te onderscheiden aan de hand van fixatie-
punten en sturing van de oogsprongen? Dit spitst zich uiteindelijk toe op de vraag in
hoeverre de kognitieve verwerking van tekstmateriaal geïllustreerd wordt in de beweging
van de ogen.

De hierna te noemen resultaten hebben slechts betrekking op acht leerlingen. De gegevens
van vier leerlingen gingen verloren door storing tijdens het experiment.

Allereerst hebben wij onderzocht wat de normale leesakt is van de leerhng, om dan later
tijdens de leerfase te kunnen spreken van een onder invloed van de leertaak verkregen
bijzondere kijkstrategie. De verschillen tussen (+) en (-) leerlingen tijdens het hardop
lezen van de tekst manifesteerden zich voornamelijk in een verschil in fixatietijden. De
hogere fixatietijden waren in meerdere mate vertegenwoordigd bij de (-) dan bij de
(+) groep. Verschillen tussen beide groepen met betrekking tot saccadelengten waren
minder evident. Naarmate de leerling in de tekst vordert zal het 'begrijpen' een grotere rol
gaan spelen. In hoeverre de leesattitude (in de vorm van oogbewegingen) hierbij verandert,
was een volgend onderwerp van studie.

Ter beantwoording van deze vraag werd de tekst (arbitrair) in drie delen verdeeld. De
gemiddelde fixatieduur en saccadelengte werden afzonderlijk voor deze drie delen bere-
kend en zichtbaar gemaakt door een grafische weergave van de relatieve frekwentiever-
deling van fixatietijden en saccadelengten. De beschikbare ruimte laat het niet toe dit ook
hier zichtbaar te illustreren.

Gebleken is dat de gemiddelde fixatieduur van deel 1 naar deel 2 en van deel 2 naar deel 3
wisselend af- of toeneemt. Dit is voor iedere leeriing verschillend. De verschillen in fixatie-
duur tussen (+) en (-) groep bUjven over het algemeen bestaan.

Ook de verandering in saccadelengte is voor iedere leerling zeer wisselend. Groepsverschil-
len met betrekking tot verandering in leesattitude zijn over het algemeen niet te konsta-
teren. Voor beide groepen geldt, dat het gewicht van de modus in de frekwentieverdeling
geringer wordt, met name van deel 2 naar deel 3, m.a.w. de spreiding rond die modus
wordt groter: er komt een sterkere wisseling van oogbewegingen als reaktie op de tekst.

Van de leerfase werden onder andere dezelfde gegevens geanalyseerd als van de hardop-
leesfase. Dit waren achtereenvolgens gemiddelde fixatieduur, gemiddelde saccadelengte en
attitudeverandering naarmate de hoeveelheid verwerkte tekst.

De oculometergegevens illustreerden duideUjk dat alle leerlingen tijdens de leerfase blijven
lezen, d.w.z. de tekst van boven naar beneden, regel voor regel, van links naar rechts
bekijkend. Tijdens de leerfase laat de verdeling van fixatietijden en saccadelengten geen

opvallende verschillen tussen (+) en (-) leerlingen zien. Met betrekking tot de attitude-
verandering tijdens het leren konstateerden wij dat de fixatietijden korter worden en
saccadelengten groter. Dit geldt voor de (-) leerlingen wat sterker dan voor de (+) leerlin-
gen.

Wij hadden aanvankelijk verondersteld dat er leerlingen zouden zijn die het regel voor
regel lezen tijdens de leerfase achterwege zouden laten en nog alleen dié tekstgedeelten
zouden inspekteren, die zij voor de leertaak van belang achtten. Deze veronderstelling
werd niet bevestigd. In hoeverre was er dan in vergelijking met de leerfase nog sprake van
een aanpassing van de leerling aan de leeropdracht?

Gebleken is dat laagpresterende leerlingen hun leeshouding, van de hardopleestaak naar de
leertaak wat sterker wijzigen dan hoogpresterende leerlingen. Dit bleek uit het feit dat de
afname van gemiddelde fixatietijd wat sterker was voor de (-) groep dan voor de
(+) groep, én uit het feit dat de toename van gemiddelde saccadelengte wat groter was
voor de (—) groep. De saccades tijdens de leerfase waren t.o.v. de leesfase ook wisselender
van lengte. Hieruit zou men kunnen afleiden dat de aktiviteiten van de leerling zich niet
blijven beperken tot het herlezen van tekstmateriaal alléén.

Tot zover hebben wij nog uitsluitend de wat algemene verschillen in lees- en leerhouding
van leerlingen weergegeven. In hoeverre kunnen deze verschillen in verband worden ge-
bracht met de te leren tekst?

Een aantal koncepten werden in de tekst diverse malen herhaald. De meest voorkomende
koncepten waren inktvis, schaaldier, prooi en vangarmen. De fixatietijd met de daarbij
behorende frekwentie werd genoteerd voor ieder van de coördinaten van deze koncepten
(zie tabel 5). De verschillen in fixatietijd tussen de coördinaten van eenzelfde koncept
worden hoofdzakelijk veroorzaakt door de frekwentie waarmee die coördinaat bekeken
wordt. De coördinaten met de meeste frekwentie, en dus met de meeste fixatie, komen
wisselend vooraan, in het midden of meer achteraan in de tekst voor. Hieruit zou men
kunnen afleiden dat de plaats van een meerdere malen voorkomend koncept in de tekst
bepalend is voor de mate van fixatieconcentratie. Een andere mogelijkheid is de volgorde
van de fixaties op deze koncepten, bij herhaald doorlezen van de tekst.
Een voorbeeld van een opeenvolging is te zien in de figuren 1 en 2 voor het koncept
schaaldier.

Opvallend is dat bij de (-) groep, veel duidelijker nog dan bij de (+) groep, de fixatie-
pieken meer vooraan liggen en verder in de leerfase slechts zwakjes worden herhaald,
terwijl dit bij de (-h) groep meer over de leerfase verdeeld ligt. Direkt na een hoge fixatie-
duur is bij beide groepen een sterke daling van deze fixatieduur te zien (veelal naar 0).

Worden de koncepten met een hoge fixatieconcentratie naar verhouding ook eerder ge-
reproduceerd dan de koncepten die een lagere fixatieconcentratie hebben?
De gegevens hieromtrent werden als volgt verkregen. Van ieder koncept werd genoteerd
welke oppervlakte (uitgedrukt in coördinaateenheden) dat koncept in de tekst inneemt.
Van iedere leerling werd een lijst gemaakt van niet-gereproduceerde koncepten. Van deze
koncepten werd het totaal aan tekstmimte berekend. Het totaal van fixatietijd werd per
koncept voor iedere leerling genoteerd en geordend naar gereproduceerde en niet-gerepro-
duceerde koncepten. De fixatietijden van gereproduceerde koncepten werden gesommeerd
en gedeeld door het totaal aan ingenomen ruimte in de tekst. Ditzelfde werd gedaan voor

Fig. 1. Verdeling van fixatieduur bij herhaald lezen m.b.t. het koncept 'schaaldieren' van de vier
hoogpresterende leerlingen, waarbij de onderscheiden lijnen in de figuur ieder een afzonderlijke leer-
ling voorstellen.

Het koncept 'schaaldieren' kwam achtereenvolgens vier maal op verschillende plaatsen in de tekst voor
(de getallen 1 tjm 4).

De leerlingen verschillen echter in het aantal malen herlezen van de tekst (lx, 2x etc. lezen).

2. verdeling van fixatieduur til herhaald lezen m.b.t. het koncept 'schaaldieren'. Van de vier

de niet-gereproduceerde koncepten. Op deze manier verkregen wij de gemiddelde fixatie-
tijd per coördinaateenheid voor gereproduceerde en niet-gereproduceerde koncepten. Een
aantal koncepten die aanvankelijk waren aangemerkt als intrusies hebben wij in tabel 6 bij
de gereproduceerde koncepten gevoegd. Een voorbeeld is het koncept 'giftige vloeistof
dat door de meeste leerlingen als 'gif werd gereproduceerd.

Gebleken is dat laagpresterende leerlingen over het algemeen langer op gereproduceerae
koncepten fixeren dan op niet-gereproduceerde koncepten. Voor hoog presterende leer-
lingen is dit laatste minder evident.

De beantwoording van vraagstelling d uit paragraaf 1.3. zal middels de hierna volgende
diskussie aan de orde komen.

Gezien het exploratieve karakter van dit onderzoek en het gering aantal proefpersonen,
kunnen de resultaten geen aanleiding geven tot definitieve uitspraken over de onderzochte
leeraktiviteiten. De vraag: wat de leeraktiviteiten inhouden, kan vanuit dit onderzoek
slechts beantwoord worden door middel van een aantal suggesties in de richting van de
oplossing van een dergelijke probleemstelling. Vanuit de reproduktieresultaten kwam naar
voren dat de leerling zich kennelijk sterk richt op de verwerking en het onthouden van
nieuwe koncepten. Deze nieuwe koncepten worden in de tekst veelvuldig in de vorm van
eigenschapsrelaties beschreven en juist deze eigenschapsrelaties worden door de leerhngen
nog eens extra herhaald in de vorm van gemaakte aantekeningen.

De nieuwe koncepten worden eveneens veelvuldig gereproduceerd, echter niet meer in de
vorm van de oorspronkelijke eigenschapsrelaties.

Het betrof in dit onderhoek teksten met een procesmatig karakter. Dit karakter komt ook
naar voren in de kennisrepresentades. Dit geheel duidt op een verwerking van informatie
tijdens het leerproces in de volgende richting. De leerling koncentreert zich aanvankelijk
op nieuwe koncepten in de vorm van eigenschapsrelaties, maar plaatst dit nieuw geleerde
in de loop van het leerproces in de procesbeschrijvmg (het uiteindelijke karakter van de
tekst). Die aspekten van de procesbeschrijvmg die slechts weinig nieuwe koncepten bevat-

ten worden wellicht daardoor in minaere mate onhouden. De laagpresterende leerhngen
onhouden bijvoorbeeld maar weinig van de niet-herhaalde (aangetekende) informatie.
Daamaast echter levert de herhaling van informatiestimuli voor iedere leerling een ver-
schillend aandeel in het uiteindelijk onthouden van de informatie. M.a.w. herhaling alléén
is niet voldoende. Hier manifesteert zich duidelijk een verschil in de verwerking van
informatie.

De verwerking van nieuwe koncepten levert voor de laagpresterende leerlingen kennelijk
meer problemen op, want zij zijn minder in staat deze later te reproduceren. Te venvach-
ten is dat daardoor ook de overige informatie nog eens extra weinig kans krijgt te worden
verwerkt tijdens het leerproces.

Dat er tijdens het leerproces in zekere zin sprake is van een selektieve informatie-opname
wordt wel geïllustreerd in de sterkere wisseling van oogbewegingen als reaktie op de tekst,
naarmate de hoeveelheid verwerkte tekst groter wordt. Dit wordt eveneens bevestigd door
het verschillend reageren van hoog- en laagpresterende leerlingen op de zogenaamde her-
halende koncepten (koncepten die in de tekst meerdere malen voorkomen).
De laagpresterende leerling lijkt meer gericht te zijn op het opnieuw herkennen (herhalen)
van tekstinformatie, terwijl de hoogpresterende leerling zijn kortere of langere fixaties
meer doel geeft, het denken over de tekst. Dit bhjkt wel uit de regelmatig langere fixaties
op de herhalende koncepten.

liuter visuele herhahng van koncepten levert voor laagpresterende leerlingen een grotere
bijdrage tot de leerprestatie dan voor hoogpresterende leerlingen, want de koncepten die
zij minder fixeren (dit is minder frekwent bekijken, omdat het totaal aan fixatietijd
hoofdzakelijk wordt bepaald door de frekwentie waarmee het koncept bekeken wordt)
worden verhoudingsgewijs ook minder gereproduceerd. Wij doen de suggestie dat de
leeraktiviteit van de laagpresterende leerlingen voornamelijk bepaald wordt door deze
visuele herhalingsaktiviteit, terwijl de leeraktiviteit van hoogpresterende leerlingen door
nog 'iets meer' bepaald wordt dan deze visuele herhalingsaktiviteit. De vraag wat dit 'iets
meer' dan inhoudt, hebben wij middels ons onderzoek niet kunnen beantwoorden.
Wij moeten konstateren dat een aantal veronderstelde aktiviteiten van het Long Term
Memory niet volledig weerspiegeld worden in de beweging van de ogen. En deze aktivitei-
ten hjken nu juist de kernaspekten van het leerproces te betreffen.

Anderson, I.H. Studies in the eyemovement of good and poor readers. Psychological monographs,
192,1,48-i, 1-35.

Breuker, J.A.; Camstra, B. Concept based computer assisted instruction, COWO rapport 7601 - 01,
Amsterdam, 1976.

Breuker, J.A.; Hamaker, C; Roest, W. van de, Een onderzoek naar de validiteit van beoordelingen van
essay-vragen aan de hand van een conceptueel representatieschema, COWO rapport 75-03-01, Am-
sterdam, 1976.

Brus, B.Th.; Voeten, M.J.M. Een-minuuttest, verantwoording en handleiding, Nijmegen: Berkhout,
1973.

Frederiksen, CH. Effect of task-induced cognitive operations on comprehension and memory pro-
cesses. In R.O. Freedle and J.B. Carroll (eds.), Language comprehension and the acquisition of
knowledge. New York: John Wiley and Sons, 1972.

Frederiksen, CH. Representing logical and semantic structure of knowledge acquired from discourse.
Cognitive Psychology, 1975, 7, 371-458.

Klerk, L.W.F. de; Oostlander, A.M. Het leren van concepten en beoordelingsregels. In J.A. Michon,
E.G.J. Eijkman & L.F.W. de Klerk (red.). Handboek der Psychonomie, Deventer: Van Loghum
Slaterus, 1976, 388-413.

Petruk, M.W.; Skakun, E.N. The infrared computer based oculometer In: Lecarne and Lewis (eds.),

Computersin education, Amsterdam 1975, 295-300.
Smith, F. Understanding reading. A psycholinguistic analysis of reading and leaming to read. New
York; Holt, Rinehart & Winston, 1971.

Een inktvis leeft hoofdzakelijk van kreeft en schaaldieren. Hij eet ook wel dode diertjes die in het
water zweven. Vaak gaat de inktvis op de loet liggen om een voorbijkomend schaaldier tc vangen. Op
het juiste moment belaagt hii zijn nietsvermoedende prooi. De inktvis is dan ook een aktief jager. Om
zo'n schaaldier te vangen is de inktvis uitgerust met tien vangarmen. Aan het uiteinde van de vangarm
zitten de zuignappen. Wanneer de prooi nadert worden de twee langste vangarmen ontrold. De zuig-
nappen zetten zich vast op de prooi en houden deze klemvast. Het dier voelt dat het gevangen is en
begint te spartelen. Hierdoor gebruikt de inktvis ook nog eens zijn andere vangarmen om de prooi
extra stevig vast te houden. De vangarmen brengen de prooi naar de mond. Daar wordt er een giftige
vloeistof in het lichaam gespoten. Deze giftige vloeistof wordt in de mond gemaakt. Hoe het wordt
ingespoten is niet bekend. De hoeveelheid gif is voldoende om de prooi onmiddellijk te verlammen.
Het schaaldiertje is nu reddeloos verloren. De inktvis heeft een snavel in zijn mond. Met deze snavel
breekt hij de prooi en haalt hem met de tong leeg. Het leeghalen wordt vergemakkelijkt door de ruwe
rasp op de tong van de inktvis; dit zijn een groot aantal scherpe tandjes. In de maag wordt de prooi
gedeeltelijk verteerd. Niet verteerbare delen komen in de darm terecht.
Via het spijsverteringskanaal wordt de ontlasting uit het lichaam verwijderd.

DE RELATIE TUSSEN PREDIKTIEVE VALIDITEIT EN DE OMVANG VAN DE
INTELLEKTUELE RESERVE

Onlangs heeft De Groot (1978) naar aanleiding van artikelen van Van Meerem en Van
Peet (1976) en Roe (1977) op basis van een eenvoudig rekenschema gepoogd om aan te
tonen dat de voorspelde intellektuele reserve daalt met de validiteit van de prediktor. Aan
zijn benadering van het vraagstuk kleven enkele bezwaren.

Zo lijkt het voor een vergelijking tussen de voorspelde reserves onjuist om een relatief
reservebegrip (formule 1) te introduceren; dit betekent dat de noemer in (4) en (5) een
dubieuze waarde heeft.

Bovendien is het onjuist om te veronderstellen dat de percentages personen met hoge
prediktorskores in de hoge en lage milieugroep gelijk blijven als de validiteit van de
prediktor verandert. Roe merkt op dat in een door hem verricht onderzoek de lagere
milieugroep relatief lagere skores behaalt bij de meer valide prediktor. Dit betekent dat bij
de meer valide prediktor minder geschikten in de lagere milieugroep worden gevonden en
mede vanwege het feit dat deelname aan een hogere vorm van voortgezet onderwijs met
geschiktheid samenhangt, een lagere reserve.

Het is een voor de hand liggend verschijnsel dat groepen die verschillende gemiddelde
skores op een prediktor hebben, op een meer valide prediktor nog meer verschillen. Het is
- binnen de kontekst van het onderzoek naar intellektuele reserve - wat opvallender dat
de prediktie van schoolsukses verbetert door het opnemen van 'milieu' als prediktor-
variabele (Van Weeren, 1968). Dit gegeven betekent dat indien men aparte prediktiefor-
mules voor verschillende miheugroepen zou opstellen, de verkregen regressielijnen niet op
elkaar zouden vallen. Alvorens men aan deze verschillen substantiële konklusies verbindt
(zoals Van Kemenade en Kropman (1968) die een schatting van de reserve maken met
weglating van bijv. 'milieu' uit de prediktieformule, als het ware om de reserve te schatten
in het geval 'milieu' als extra determinant van toekomstige schoolprestaties naast reeds
behaalde schoolse prestaties uitgeschakeld kan worden), zou men moeten overwegen in
hoeverre dergelijke verschillen door een statistisch artefakt ontstaan: verschillende milieu-
groepen regresseren immers naar hun eigen populatiegemiddelden (De Groot en Van Peet,
1975).

De bovenstaande bewering dat groepen meer verschillen op meer vahde prediktoren, is
overigens geen wet van Meden en Perze'n. Het is mogelijk dat een prediktor minder vaÜde
is omdat hij diskrimineert tegen personen uit de lagere milieugroep. Vervanging van een
dergelijke prediktor door een prediktor die vrij is van de systematische vertekening van de
mogelijke prestaties^van de lager scorende groep en daardoor meer valide, levert een
relatief kleiner verschil tussen beide milieugroepen op.

Groot, A.D. de. Waarvan hangt de reserve-uitkomst af? Tijdschrift voor Onderwijsresearch, 1978, 3,
138-141.

Groot, A.D. de, en Peet, A.A.J. van. Enkele kanttekeningen bij het proefschrift van J.L. Peschar: Mi-
lieu, School en Beroep. Tijdschrift voor Onderwijsresearch, 1975, 1, 36-39.

Kemenade, J.A. van, en Kropman, J.A. Verborgen talenten? Kritische kanttekeningen bij een onjuiste
interpretatie. Sociologische Gids, 1972,19, 219-228.

Meerem, LM. van, en Peet, A.J. van. Intellectuele reserve als indicatie voor gelijkheid van kansen.
Tijdschrift voor Onderwijsresearch, 1976, 1, 241-255.

Roe, R.A. Het schatten van intellectuele reserves. Tijdschrift voor Onderwijsresearch, 1977, 2,
120-131.

Weeren, P. van. De uitkomsten van het psychologisch onderzoek omtrent milieu, schoolkeuze en
schoolgeschiktheid in Amsterdam, Twente, Friesland en Noord-Brabant. In: F. van Heek, e.a.. Het
verborgen talent. Meppel: Boom, 1968.

Crombag, H.F. en Chang, T.M. (Eds.):
Een Kleine Zoölogie van het Onderwijs.
Universitaire Pers, Leiden, 1978, pp. 249.

'Een kleine zoölogie van het Onderwijs' is een bundel opstellen, die door de medewerkers van het
Bureau Onderzoek van Onderwijs van de Rijksuniversiteit Leiden werd gepubhceerd bij gelegenheid
van het tienjarig bestaan van het Bureau.

Een eerste globale kennismaking, maar zeker ook een tweede meer gedetailleerde lezing laat de indruk
achter, dat het alleszins de moeite waard was de opstellen te bundelen. Wat thema-keuze en aanpak
betreft laat het boek een goede en gezonde variatie zien. Meer fundamentele beschouwingen worden
afgewisseld met bijdragen, die toegesneden zijn op de onderwijspraktijk van alledag, strikt onderwijs-
kundige bijdragen worden aangevuld met mogehjkheden vanuit economie en rechtsgeleerdheid.
Op basis van de plaats van herkomst zou men wellicht een anders-geaarde pubhkatie hebben mogen
verwachten. Van een Bureau Onderzoek van Onderwijs had men in sterkere mate een bundeling van
verricht onderzoek kunnen verwachten en zeker het Leidse Bureau zou daarmee weinigen hebben
verrast. Het presenteren van empirisch verzamelde gegevens maakt slechts sporadisch deel uit van het
geheel. Het zou overigens onjuist zijn hieraan de konklusie te verbinden, dat de betekenis van de
bundel hierdoor zou worden afgezwakt. Verjaardagen zijn een uitstekende gelegenheid voor een nadere
bezinning op eigen aktiviteiten, verworvenheden en toekomstplannen. In dit opzicht voldoet de 'kleine

Het systematiseren van verworvenheden, zoals dat b.v. door De Gruijter en Vemhout gebeurt,
onderscheidt zich in dit opzicht van de meer taakstellende beschouwingen van Cohen en van der Drift.
Ook in nog andere opzichten mag men zich op de nodige variatie instellen. De gedegen en soms wat

benadering van Crombag. Waar men bij Blom en van der Drift wel eens de indruk over houdt, dat er
wellicht toch nog andere mogeUjkheden zijn, wordt deze ruimte nauwelijks nog gelaten door de
opstellen van b.v. Cohen en Langerak.

De lezers zullen ongetwijfeld nog meer variaties en dünensies onderkennen dan hier beknopt worden
aangeduid.

Het is een goede gedachte geweest de bundel - bij wijze van voorwoord - te voorzien van een
boekbespreking. Een dergelijke taak overlatend aan Hofstee heeft dan als bijkomend voordeel, dat het
nog fraai verwoord wordt ook. Bezwaarlijk is overigens wel, dat er voor andere boekbesprekingen niet
bijzondfer veel ruimte meer overblijft.

De Stichting heeft tot taak het ontwerpen en (doen) uitvoeren van het beleid met betrekking tot het
onderwijsonderzoek in Nederland. Ter vervulling van deze taak financiert, coördineert, bewaakt, pro-
grammeert en draagt zij mede zorg voor de verspreiding van de resultaten van het onderwijsonderzoek,
dat uitgevoerd wordt door een aantal instituten en vakgroepen. Zij verricht tevens een aantal centrale
ondersteuningsfuncties ten behoeve van het onderwijsonderzoek.

Het beleid van de Stichting vraagt van de medewerkers onder meer activiteiten op het gebied van de
beoordeling van onderzoeksvoorstellen en -resultaten, alsmede van de bewaking van lopende onder-
zoeksprojecten.

Ten dienste van deze activiteiten kent de Stichting momenteel de afdeling Projectenbeheer.
Voor deze afdeling worden gevraagd:

De coördinator wordt belast met het bewaken van de ten dele uitbestede beoordeling van onderzoeks-
voorstellen en onderzoeksresultaten. Hij ontwerpt en evalueert beoordelingsinstrumenten en -proce-
dures. Hij rondt bovendien de beoordelingsadviezen af ten behoeve van de directie. Hij werkt nauw
samen met een pool van externe adviseurs alsmede met medewerkers binnen het bureau van de Stich-
ting. In afwachting van een reorganisatie van het bureau fungeert de coördinator tevens als plaatsver-
vangend hoofd van de afdeling Projectenbeheer.

Projectbewakers hebben tot taak de aanvragen voor subsidiëring van nieuwe onderzoeksprojecten te
begeleiden en de voortgang en kwaliteit van uitvoering van lopende onderzoeksprojecten te bewaken
en daarover te rapporteren. Hiertoe onderhouden zij regelmatig contacten, zowel schriftelijk als mon-
deling met de aanvragers en uitvoerders van projecten.

Zij treden mede op als secretaris van begeleidings- en stuurcommissies voor lopend onderzoek. Zij ver-
schaffen mede gegevens aan de ook in deze advertentie gevraagde coördinator onderzoeksbeoordeling,
onder wiens leiding de inhoudelijke beoordeling tot stand komt. Zij werken nauw samen met de afde-
ling Financiële Administratie van het bureau.

In 1979 wordt bij de Stichting een reorganisatie van het bureau verwacht. Gegadigden voor de aange-
boden functies moeten voldoende aanpassingsvermogen en creativiteit bezitten om een reorganisatie
binnen een bestuurUjk-administratief apparaat te helpen realiseren.

ad 1. Voor de coördinator onderzoeksbeoordeling wordt gedacht aan een senior onderzoeker, die te-
vens management-ervaring heeft opgedaan.

Hij moet afgestudeerd zijn in één der sociale wetenschappen en belangstelling hebben voor het
Nederlandse onderwijs en de ontwikkeUng van de onderwijswetenschappen. Bovendien zal hij
moeten beschikken over goede contactuele eigenschappen en goede schriftelijke uitdrukkings-
vaardigheid. Grondige actieve en passieve kennis van het Engels strekt in verband met interna-
tionale contacten tot aanbeveüng.

ad 2. Voor de projectbewakers wordt gedacht aan een academische of daaraan gelijkwaardig te achten
opleiding. Voor hen zijn contactvaardigheid, uitstekend mondeling en schriftelijk uitdrukkings-
vermogen en affiniteit voor het werken in een beleidsorganisatie, die mede zorg draagt voor on-
afhankelijke wetenschapsbeoefening, van groot belang.

De aanstelling en bezoldiging vinden plaats volgens de bij het Rijk geldende normen. In het algemeen
wordt het ARAR gevolgd. De Algemene Burgerlijke Pensioenwet is van toepassing.
Salaris is afhankelijk van opleiding, ervaring en leeftijd. Dit wordt ontleend aan het universitaire ran-
genstelsel.

Schriftelijke sollicitaties binnen 14 dagen na het verschijnen van deze advertentie richten
aan de SVO, t.a.v. de adjunct-directeur, drs. J. Haantjes, Postbus 19050,2500 CB 's-GRA-
VENHAGE.

Voor de lezer die in globale zin geïnformeerd wil worden over de inhoud, het volgende:
De bundel wordt ingeleid door een voorwoord van de hand van Hofstee. Lezers, die de gekozen titels
voor de afzonderlijke hoofdstukken te weinig informatief vinden, kunnen het voorwoord als een
nadere gids hanteren.

Blom besteedt aandacht aan het doceren van docenten. Op grond van gegevens uit de historie
konkludeert hij, dat het universitaire onderwijs - in tegenstelling tot b.v. het basisonderwijs - in de
loop der eeuwen betrekkelijk weinig veranderingen heeft ondergaan. Het feitelijke gegeven, dat het
leren doceren geen deel uit maakt van de opleiding van universitaire docenten wordt daarbij als een
belangrijke verklarende factor aangevoerd. Dat een en ander uitmondt in een pleidooi voor cursussen
voor docenten is niet verwonderlijk. De vraag naar het wat en het hoe van dergelijke cursussen komt
echter maar zeer beperkt aan de orde.

Chang schreef een opstel over het lezen van problematische teksten. Opvattingen van taalpsychologen en
taalfilosofen over taal en denken vormen het vertrekpunt van zijn betoog. Uitgaande van taalpsycholo-
gische en taalfilosofische opvattingen wordt aan de hand van voorbeelden aangegeven, op welke wijze
men zou kunnen komen tot theorievorming voor het begrijpen van teksten. Voor de niet ingevoerde
lezer is de bijdrage van Chang verre van eenvoudig, onder meer vanwege het kompakte taalgebruik. De
keuze van een — verre van gemakkelijk - onderwerp speelt hierbij een niet onbelangrijke rol.
Cohen geeft een nadere uitwerking van het contract-begrip, zoals dat binnen het onderwijs een rol zou
kunnen spelen. Het onderscheid tussen sterke en zwakke contracten wordt nader uitgewerkt, nadat
gekonstateerd is, dat het Nederlandse onderwijs vooral door zwakke contracten wordt gekenmerkt.
Uitgewerkt wordt verder, op welke wijze sterke en zwakke contracten het beste in het onderwijs
aangewend zouden kunnen worden. Dit opstel is een verfrissende aanzet tot veranderingen, waarvan
men alleen maar met grote belangstelling een nog verdere uitwerking voor het onderwijs wenselijk zou
vinden.

Crombag probeert vervolgens nogal wat relativiteit ten aanzien van het onderwijs aan de lezer te slijten.
Met trefzekere en rake beeldspraken zet hij vraagtekens achter een niet gering aantal onderwijskundige
'zekerheden'. De beschreven problemen krijgen mede door de soms provocerende formulering een
uitnodigend karakter. De aangereikte oplossingen zijn niet in alle gevallen overtuigend en sterk
onderbouwd. Zo is het bijvoorbeeld niet te verwachten, dat het bestuderen van het leerproces bij
leerlingen zal leiden tot het beantwoorden van de vraag, wat er zoal geleerd zou moeten worden.
Inspirerend is het opstel wel en niet alleen vanwege de titel.

van der Drift benadert het onderwijs vanuit economisch gezichtspunt. De sterk gestegen kosten vragen
maatregelen, die lang niet altijd zachtaardig zullen kunnen zijn. Het doorvoeren van deze maatregelen
door middel van strakke planning, het hanteren van de geldkraan of het veranderen van de organisatie-
struktuur worden in het opstel als niet afdoende gekwalificeerd. Gepleit wordt voor een sterk
gedecentraliseerde besluitvorming inzake de reahsering van onderwijs- en onderzoeksdoelen. Bij de
decentrale universitaire organen zou een belang bij doelmatigheidsverbetering gekweekt moeten
worden. Ook hier een waardevolle suggestie, die men graag in een nog verdere uitwerking zou willen
terugzien.

de Gruijter verduidelijkt enkele hoofdproblemen op het gebied van slagen en zakken in het onderwijs.
Hij doet dit op een zakelijke en heldere manier. Te stellen eisen, optimale beslissingen, het handhaven
van normen en de complicaties van het behoren tot een bepaalde groep van studenten worden
achtereenvolgens aan de orde gesteld. Wie nu eindelijk eens vial weten, hoe een beslissing over slagen en
zakken genomen moet worden, vindt in dit opstel geen pasklare oplossing. Wie zichzelf wil behoeden
voor een al te Uchtvaardig grijpen naar één oplossing doet er goed aan dit opstel zorgvuldig te lezen.
Langerak gaat nader in op hetgeen we met het geheugen zoal kunnen doen en vooral op de vraag, op
welke wijze het geheugen feitelijk wordt gebruikt. Onderscheid maken tussen korte-termijn en
lange-termijn geheugen is daarbij een belangrijke zaak. Het minder bekende onderscheid tussen
episodisch geheugen en semantisch geheugen wordt vervolgens verduidelijkt en met onderzoeksresulta-
ten geadstrueerd. De stand van zaken op bovengenoemde gebieden wordt zakelijk en helder uiteenge-
zet.

Vemhout bespreekt en systematiseert de mogelijkheden en onmogelijkheden van audio-visuele midde-
len. Docenten, die nog niet of nauwelijks omtrent A.V. geniformeerd zijn, vinden hier een goed
uhgangspunt. De daarna besproken toepassingsmogelijkheden zullen ook voor docenten-met-ervaring
nieuwe ideeën bevatten. Het moeilijke probleem van 'wanneer-wat' wordt door de auteur niet uit de
weg gegaaij. Met gegevens van de Open Universiteit wordt een lijst van criteria aangereikt. De gegeven
opsomming lijkt niet altijd sluitend, maar is als vertrekpunt voor onderzoek zeker van belang.
Vos besluit de bundel met een opstel over motivatie. Het voortdurend leggen van relaties tussen een
min of meer abstracte theorie en de onderwijsrealiteit van iedere dag is een bijzonder aantrekkelijk

aspect van deze afsluitende bijdrage. Begrippen, die binnen het onderwijs nogal eens worden gebruikt,
worden op belangrijke wijze met elkaar in verband gebracht. Het lezen van deze bijdrage zal docenten
tot het inzicht kunnen brengen, dat op het gebied van de motivatie sommige zaken toch anders werken
dan zij altijd al gedacht hadden.

De mdrukken samenvattend overheerst het kenmerk van variatie, zoals dat eerder werd aangeduid.
Belangrijk is misschien de constatering, dat het lezen van het gedenk-boek allerminst spijtige gevoelens
achterlaat. Hoewel men wellicht een grotere hoeveelheid onderzoek zou hebben verwacht, is het
geboden alternatief allerminst teleurstellend.

Het gebodene is veeleer onderwijskundig van aard en niet zozeer een bundeling van onderwijsresearch.
De grote variëteit zal er toe leiden, dat niet alles voor iedereen even interessant is. Het geheel bevat
echter meer dan voldoende aanknopingspunten om een nadere kennismaking te rechtvaardigen.

Voortbouwend op de programmeringsnota van eind 1976 wil de Stichting voor Onderzoek van het
Onderwijs omstreeks het einde van dit jaar enkele nieuwe onderzoeksthemagroepen (OTG) tot ontwik-
keling brengen. Daarmee worden bedoeld landelijke samenwerkingsverbanden van onderzoekers en
andere terzake kundigen die streven naar verbetering van de onderzoeksopbrengst op door hen zelf
afgebakende themagebieden.

Momenteel bestaat er slechts één OTG, nl. rond het onderwerp 'Motivatie in het onderwijs'.
Om te komen tot een keuze van onderwerpen heeft de S.V.O. een enquête opgesteld die voorgelegd is
aan een a-selekte steekproef van onderwijsonderzoekers en andere onderwijsdeskundigen. De onder-
vraagden dienen (in twee ronden) uit 52 onderwerpen de twee meest geschikte te selecteren.

De Vakgroep Statistiek en Meettheorie van de FSW R.U. Groningen organiseert in 1979 de volgende
cursussen:

1) MULTIVARIANCE, docent Jeremy D. Finn, State University of New York at Buffalo. Een cursus
met practicum van dag over talrijke multivariate technieken waaronder: univariate en multivariate
regressie-analyse, een-weg multivariate variantie-analyse, contrasten-analyse, discriminant-analyse,
geneste proef^opzetten, herhaalde metingen. De cursus is toegesneden op het verantwoord leren werken
met deze technieken binnen het programmapakket MULTIVARIANCE en gaat niet diep in op de
wiskundige theorfe. Aan de deelnemers wordt tevoren bepaalde literatuur ter bestudering verstrekt.

maandag 21 mei t/m zaterdagochtend 26 mei 1979, Hemelvaartsdag vrij.
bij voldoende belangstelling is er een parallclcursus op
dinsdag 15 mei t/m zaterdagochtend 19 mei 1979.
Bij opgave kunt U voorkeur c.q. onmogelijkheid voor één van beide weken aangeven. Kosten ƒ75,-
(studenten ƒ 25,-).

2) MULTIDIMENSIONAL SCALING, AoccnX Anthony P.M. Coxon, University College Cardiff. Deze
cursus zal zich vooral richten op de modulen van het zgn. 'Coxon-pakket' voor afbeelding van gelijke-
nis en/of preferentiedata, met hun sociaalwetenschappelijke toepassingen. Een definitieve cursus-
beschrijving wordt in october verwacht.

3) De bekende, cursus BAYESIAANSE STATISTIEK gebaseerd op het CADA-pakket van Novick c.s.
wordt gedoceerd van 2 t/m 6 april 1979 door Dr. Charles Lewis enjot Prof. Dr. W. Molenaar.
Kosten: ƒ25,- (studenten ƒ 10,-).

Opgave en inhchtingen bij Mw. W. Lakerveld, Vakgroep Statistiek & Meettheorie FSW, tel. 050
115260, Oude Boteringestraat 23, 9712 GC GRONINGEN.

Wegens het beperkte aantal deelnemers geschiedt plaatsing in volgorde van binnenkomst. Inschrijving
kan uitsluitend d.m.v. een inschrijvingsformuüer, verkrijgbaar bij Mw. Lakerveld. Ook degenen die zich
eerder al op andere vwjze hebben aangemeld, dienen een inschrijvingsformulier te gebruiken. Betaling
van het cursusgeld kan geschieden door overmaking van het bedrag op postgironummer 826171 van de
Rijksuniversiteit Groningen; t.n.v. kostenplaatsnummer 086001 P.A.O.-cursussen Statistiek.

The effect of introducing more rigorous examinations in the first year of psychology training
and fixed planning of course units in the second year on rate of study was evaluated by
analyzing the mean number of credit points of three groups of psychology students. The
freshmen of 1971 took the original preliminary examinations, those of 1972 and 1973 the
more rigorous examinations. In the second year the remaining students of 1971 (N = 167) and
1972 (N = 157) studied according to their own plans, whereas the 1973 group (N = 178)
followed a planned program of required courses. The quarterly gains of the three groups were
nearly the same in mean number of credit points during a period of two and a half years. Sex
and age made no difference; previous training was related to small differences in rate of study.
Immediate success on the prehminary examinations and an early start in the second year
appeared to be correlated with a high rate of study in the third year.

In het onderzoek naar studiesucces kan een groot aantal variabelen zijn betrokken: bio-
logische en sociale factoren, schoolprestaties, cognitieve, motivationele en emotionele ken-
merken, omgevingsfactoren en factoren verbonden met het onderwijs en de onderwijsin-
stelling. Als criterium voor studiesucces of academische prestaties wordt in het algemeen
het behalen (of niet) van bepaalde afsluitende examens gehanteerd en - minder frekwent
- de studieduur. Voor zover statistisch interessante correlaties konden worden aange-
toond, bleek het percentage gemeenschappelijke variantie zelden boven de 10% uit te
komen (Crombag, Gaff & Chang, 1975; Elshout & van Loo, 1977). Mogelijk is dit gebrek
aan sterke verbanden tussen relevant geachte variabelen en studiesucces te wijten aan het
ongedifferentieerde criterium. Het uiteindelijke succes van de studie valt pas jaren na het
begin vast te stellen.

Dat zoiets betrouwbaar valt te voorspellen of dat de relevante invloeden op studiesucces
achteraf zijn te achterhalen moet ernstig worden betwijfeld (zie ook Elshout, 1976).
In het onderhavige onderzoek is een poging ondernomen tussentijds studiesucces als
criteriumvariabele te hanteren. Het studietempo Ujkt een geschikte indicator voor tussen-
tijds studiesucces. Studietempo heeft zelfs enkele belangrijke voordelen boven meer gang-
bare criteria voor studiesucces als het (niet) behalen van afsluitende examens of studie-
duur. Onder voorwaarde dat de opleiding bestaat uit een aantal min of meer afzonderlijke
onderdelen en enige vrijheid in studietempo toelaat, kan gesteld worden dat:

1. Dr. Joh. Hoogstraten en dr. G.J. Mellenbergh ben ik dank verschuldigd voor hun commentaar bij
eerdere versies van het verslag.

- studietempo een superieure indicatie voor studiesucces is omdat daarin rekening wordt
geliouden met de studieprestatie als zodanig èn met de tijd waarin deze is geleverd;

Door deze eigenschappen lijkt studietempo voorshands een meer handzame en gedifferen-
tieerde maat voor studiesucces.

Het studietempo of de studievoortgang per tijdseenheid is veelal moeilijk vast te stellen
omdat de onderdelen van een opleiding geen vergelijkbare eenheden vormen. Daarvoor
zijn oplossingen te vinden; bijvoorbeeld door studenten of docenten de afzonderiijke
cursussen, practica, tentamina, e.d. op studielast te laten beoordelen (zie Meuwese &
Crombag, 1964). Elk onderdeel van de studie ontvangt afhankelijk van de beoordeling een
studielastscore. Het studietempo kan vervolgens uitgedmkt worden in het aantal behaalde
studielasteenheden per tijdseenheid.

Bij de studie psychologie aan de Universiteit van Amsterdam vormt de vaststeihng van het
studietempo minder problemen omdat de relatieve zwaarte van de studieonderdelen door
de studieleiding is bepaald en vastgelegd in een zogenaamde studiepuntenregeling. Het
studietempo laat zich dan eenvoudig uitdmkken in het aantal behaalde studiepunten per
week. De vraagstelling van dit onderzoek is nu in hoeverre dit studietempo beïnvloed
wordt door onderwijsveranderingen en in hoeverre dit afhankelijk is van persoonskeimier-
ken als sexe, vooropleiding, leeftijd en studieprestaties aan het eind van het eerste cursus-
jaar.

Door toevallige omstandigheden was het mogelijk aan de subfaculteit Psychologie van de
Universiteit van Amsterdam het effect na te gaan van twee onderwijs-veranderingen op
het studietempo. Eén verandering hield een verzwaring van de propedeuse in en de andere
betrof de programmering van het onderwijs in het tweede cursusjaar.
De propedeuse psychologie aan de Universiteit van Amsterdam bestond in 1971 uit de
bestudering van vier vakken en het maken van een scriptie. De toetsing van de vier vakken
geschiedde met behulp van tien tentamens. Het vak 'Inleiding in de Psychologie' omvatte
twee boeken en twee syllabi, werd getoetst met behulp van zes deeltentamens en besloeg
ongeveer 40% van de studietijd. De zes tentamens betroffen steeds een afzonderlijk deel
(100-200 blz.) vaade totale stof In 1972 werd deze wijze van tentaminering vervangen
door drie cumulatieve tentamens. Het eerste tentamen omvatte ongeveer één derde deel
van de stof; het tweede twee derde en het derde tentamen de gehele stof Het totaal
aantal tentamenvragen bleef identiek aan dat van het voorgaande jaar; 180 vierkeuzevra-
gen. Ook de verdehng van de vragen over de stof bleef ongewijzigd.
Vanaf 1971 bestond het 'programma' van de postpropedeutische prekandidaatsfase van
de studie uit een reeks tevoren gepubhceerde tentamendata, data van colleges en inteken-
gelegenheden voor practica. Het was de bedoeling dat studenten uit deze gegevens voor
zichzelf een passend studiepakket samen stelden. Veelal moesten studenten in deze situa-
tie de aandacht en studie-inspanning gedurende enkele maanden spreiden over meerdere
vakken. In 1974 werden vier blokprogramma's georganiseerd waarbij voorbereidingspe-

rioden voor tentamens en practicumperioden afwisselend na elkaar in de tijd waren vast-
gesteld. Voor de betreffende vakken werden tijdens de vastgestelde voorbereidingsperio-
den begeleidende colleges georganiseerd. De voorbereidingsperioden werden volgens de
puntenregeling vastgesteld: voor een vak van vijf punten was een voorbereidingsperiode
van vijf werkweken uitgetrokken. Het 'onderzoeksontwerp' ziet er als volgt uit:

De studenten die zich in 1971 voor het eerst voor de psychologiestudie aanmeldden,
werden middels zes afzonderhjke deeltentamens over de stof van 'Inleiding in de Psycho-
logie' getoetst en kregen in het tweede cursusjaar een ongestructureerde reeks tentamen-
data en practicumperioden aangeboden, waaruit zelf een programma kon worden samen-
gesteld. De tweede jaargroep, bestaande uit studenten die zich m 1972 voor psychologie
lieten inschreven, werd met behulp van drie tentamens getoetst over een toenemend deel
van de stof van 'Inleiding in de Psychologie' en de studenten van deze jaargroep stelden in
het tweede cursusjaar zelf een studiepakket samen uit de geboden mogehjkheden. De
studenten van de derde jaargroep, die in 1973 met de studie startten, legden in de
propedeutische fase onder meer drie cumulatieve tentamens af en hadden m het tweede
cursusjaar de keuze uit vier blokprogramma's. Nagegaan werd wat het effect was van deze
verschillen in 'behandehng' op de kwantitatieve studieprestaties per tijdseenheid in de
postpropedeurische voorkandidaatsfase van de studie. Verder kon per jaargroep nagegaan
worden in hoeverre de sexe, de leeftijd bij het begin van de studie en de vooropleiding van
de betreffende studenten samenhangen met verschillen in studietempo. Deze persoons-
kenmerken zijn bij elke studie-administratie bekend en spelen bij onderzoek naar studie-
succes een belangrijke rol. Verondersteld wordt dat verschillen in deze kenmerken samen-
gaan met verschillen in meer psychologische variabelen als kennis, capaciteit en studie-
motivatie. Bij de bespreking van de resultaten van dit onderzoek zullen we hierop nader
ingaan.

De onderzoeksgroepen bestonden uit een selectie uit drie jaargroepen of cohorten psycho-
logiestudenten van de Universiteit van Amsterdam. Omdat het hier gaat om het studie-
tempo van studenten in het tweede en derde cursusjaar zijn alleen studenten in het
onderzoek opgenomen die, al dan niet na een herkansing, tot de postpropedeutische
prekandidaatsfase van de studie zijn toegelaten. Uitgesloten zijn verder:

- studenten die elders de propedeuse hebben afgelegd en de studie aan de Universiteit
van Amsterdam met het tweede jaar begonnen,

-- studenten met gehele of gedeeltehjke vrijstellingen voor propedeutische vakken,

- studenten die meer dan één jaar nodig hadden om de propedeuse met succes af te
ronden.

Onder studietempo wordt hier verstaan het aantal studie-onderdelen dat per tijdseenheid
met succes wordt afgesloten. Voor een nadere specificatie neemt de studieregelmg een
belangrijke plaats is. Voor de prekandidaatsfase van de studie Psychologie aan de Univer-
siteit van Amsterdam geldt een zogenaamde studiepuntenregelmg ('credit point system').
De relatieve zwaarte van elk studie-onderdeel is daarbij uitgedrukt in een aantal punten.
Elk punt zou ongeveer staan voor één werkweek van 40 studie-uren. De regehng gaat
ervan uit dat een cursusjaar 42 werkweken omvat. Voor het kandidaatsexamen dient men
een studieprogramma van 126 studiepunten met succes te hebben doorlopen. De nomi-
nale cursusduur van het prekandidaats is drie jaar. Het propedeutisch examen valt in het
eerste jaar en omvat 34 studiepunten; de resterende 92 studiepunten zouden gedeeltelijk
nog in het eerste en verder in het tweede en derde cursusjaar behaald moeten worden.
Globaal ziet het prekandidaatsprogramma er als volgt uit:

- 13 punten voor een verdiepingsprogramma als voorbereiding op de specialisatie (hoofd-
richting) en

Volgens de gedachtengang achter deze studiepuntenregelmg is het mogelijk het studie-
tempo uit te drukken in het aantal behaalde studiepunten per tijdseenheid. De gegevens
voor de vaststelling van het studietempo werden ontleend aan de studie-administratie van
de subfaculteit en tot maart 1976 bijgewerkt. Het materiaal werd met behulp van een
daartoe ontwikkeld computerprogramma verwerkt. Uit het ruwe materiaal werd een
steekproef getrokken en werden de onderzoeksgegevens met behulp van de studiekaart op
juistheid gecontroleerd.^ Drie soorten fouten moesten geconstateerd worden: fouten van
de onderzoekers bij het aflezen van de studiekaart, ponsfouten en correcties van de
studiekaart doör medewerkers van de studie-admmistratie in de periode tussen het beëin-
digen van het verzamelen van de gegevens (maart 1976) en de controle (september 1976).
In 20 van de 53 gevallen werden afwijkmgen m de aantallen studiepunten gevonden. De
afwijkingen op de berekende puntentotalen lagen tussen de 0,7% en de 2,2%. De correla-
tie tussen de berekende en gecorrigeerde puntentotalen was .98. De berekende totalen
waren steeds lager dan de gecorrigeerde en bleken niet" systematisch verdeeld te zijn over
de groepen studenten.

2. In het kader van hun prekandidaatsopleidmg psychologie hebben de volgende studenten het mate-
riaal verzameld: A. Haselager, H. Huiskes, A. Lemmers, M. Ott, A. op den Weegh (1975), P. Barends,
E. van Berkum, L. van der Griend, A. Meurs, H. Schmidt en L. de Vries (1976). Het programma is ont-
wikkeld door J.D. Krol en aangepast door L. Storm en C.J.G. van de Wijgaart. De controle is uitge-
voerd door mevrouw 1. Grünfeld, medewerkster van het Bureau Studiezaken.

Vóór dat het effect van de onderwijsveranderingen op het studietempo kan worden
vastgesteld, is het noodzakelijk te controleren in hoeverre deze faktoren daartoe in staat
geacht kunnen worden. Met betrekking tot de verandering van tentaminering in de pro-
pedeutische fase kunnen de tentamenuitslagen aanwijzingen geven over de effectiviteit
van deze maatregel. Ten aanzien van de invoering van het blokonderwijs is deelname van
de betreffende studenten aan één van de blokprogramma's een noodzakelijke voorwaarde
voor de vaststelling van het effect ervan. Dat de wijziging in tentaminering niet zonder
gevolgen is gebleven bhjkt wel uit een vergeÜjking van de propedeuse-resultaten van de
drie jaargroepen in onderstaande tabeL

Het percentage gezakten en het percentage personen dat de studie voortijdig staakte steeg
in 1972 aanzienlijk. In 1973 bleef het percentage gezakten 10% hoger dan in 1971: het
percentage stakers bleef op hetzelfde niveau. De uitslagen op de afzonderlijke tentamens
Waren in overeenstemming met deze gegevens. De percentages gezakten voor de zes ten-
tamens in 1971 waren gemiddeld 8% en die voor de drie tentamens in 1972 èn 1973
waren 13%. De gemiddelde percentages studenten met een voldoende score waren in de
opeenvolgende jaren respectie'ieÜjk: 76%, 55% en 51%. De afzonderlijke tentamens van
andere vakken dan 'Inleiding in de Psychologie' waren in 1972 en 1973 zelfs iets beter
gemaakt dan in 1971. Het lijkt dus alleszins redelijk aan te nemen dat de verschillen in
propedeuse-resultaten hoofdzakeUjk veroorzaakt zijn door verschillen in de wijze van
tentaminering van één vak. Verwacht werd dat deze verschillen effect zouden hebben op
het studietempo gedurende het postpropedeutisch prekandidaats-programma. De studen-
ten van de jaargroepen 1972 en 1973 zouden sneller moeten studeren dan die van
jaargroep 1971, omdat door de cumulatieve tentaminering de betreffende studenten zich

beter moesten voorbereiden op de tentamens en strenger geselecteerd waren tijdens de
propedeuse.

De mate waarin studenten in feite gebmik hebben gemaakt van de blokprogramma's kon
vastgesteld worden aan de hand van antwoorden op een enquête-vraag, verzameld aan het
einde van het tweede cursusjaar voor jaargroep 1973. In mei 1975 werd een omvangrijke
vragenlijst over de studie psychologie gestuurd aan alle postpropedeutische prekandidaten
(Van der Doef, 1976). Van de aangeschreven studenten retoumeerde 67% de enquête. In
een algemeen deel van de Ujst was de volgende vraag opgenomen:

Bijna 60% van de respondenten van jaargroep 1973 gaf aan dat zij één van de blokpro-
gramma's volgden; 29% maakte een eigen studieplan en 12% studeerde wanneer het goed
uitkwam. Van beide andere jaargroepen bleken de studenten in respectievehjk bijna 60%
en 80% van de gevallen een eigen programma samen te stellen; respectievehjk 40% en 18%
studeerde zonder plan. Ondanks het feit dat twee blokprogramma's (III en IV) speciaal
voor derde- respectievelijk vierdejaars van de jaargroepen 1971 en 1972 waren opgesteld
gaf hooguit 3% van de respondenten van beide jaargroepen op dat zij in een of andere
vorm een blokprogramma volgden. Gezien deze verschillen in deelname aan de blokpro-
gramma's en het verwachte positieve effect van blokonderwijs op het studietempo kon
voorspeld worden dat de studenten van jaargroep 1973 aanzienhjk meer studiepunten per
tijdseenheid zouden behalen dan die van de beide andere jaargroepen. Dus verschillen in
resultaten van de jaargroepen 1971 en 1972 zuUen hooWzakelijk in verband gebracht
worden met de cumulatieve tentaminering; de verschillen tussen de jaargroepen 1972 en
1973 met de blokprogrammering en die tussen jaargroepen 1971 en 1973 met de combi-
natie van cumulatieve tentaminering en blokprogrammering.

In tabel 2 worden de resultaten per jaargroep weergegeven. Op halQaarlijkse meettijdstip-
pen, uitgaande van 42 werkweken per jaar, is voor elke jaargroep het gemiddelde aantal
behaalde studiepunten berekend. Bij de jaargroep van 1971 kon dat voor drie jaar worden
vastgesteld, voor jaargroep 1972 gedurende twee jaar en voor 1973 één jaar.
De verschillen per jaargroep zijn marginaal, niet in de voorspelde richting en voor zover
aanwezig na het tweede studiejaar verdwenen. De medianen van de' aantallen behaalde
studiepunten geven eenzelfde beeld te zien als bij de gepresenteerde rekenkundige gemid-
delden. Na 84 weken (dus na twee jaar) zijn de mediane waarden: 60,3 (1971), 61,0
(1972) en 60,9 (1973). Na 126 weken studie: 85,3 (1971) en 84,0 (1972); na 168 weken
123,6(1971).

Bij de presentatie van de gegevens in Tabel 2 is geen rekening gehouden met de verschil-
lende tijdstippen waarop studenten — bijvoorbeeld via herkansingstentamens — de pro-

Studievoortgang in aantaUen behaalde studiepunten van drie jaargroepen psychologie-
studenten (UvA)

Pedeuse kunnen behalen. Bovendien kan men aanvoeren dat de propedeutische punten
(34) van 1972 en 1973 door uivoering van de cumulatieve tentaminering een hogere
'intrinsieke' waarde hebben dan die van 1971. Tenemde beide aspecten m de analyse te
elimineren is bij de berekenmg van de gegevens voor Figuur 1 het aantal studiepunten van
elke student bepaald vanaf het moment (nul) dat de propedeuse is behaald. Weergegeven
zijn steeds de gemiddelde aantallen studiepunten op vier meettijdstippen per studiejaar.

De overeenstemming in studietempo van de studenten van jaargroep 1971 en 1972 is
opvallend te noemen. Drukt men het studietempo uit in het gemiddeld aantal studiepun-
ten per week dan bhjkt deze ratio over de onderzochte perioden en de drie jaargroepen
opvallend constant te zijn met waarden tussen 0,51 en 0,57. Een uitzondering vormt het
tempo 21 weken na het behalen van de propedeuse. In de jaargroepen van 1971 en 1972
is een halfjaar na de propedeuse een kortstondige inzinking te zien: het studietempo is
naar 0,36 (1971) en 0,37 (1972) gezakt. In de jaargroep van 1973 treedt dit minder sterk
op; het studietempo is 0,47.

De konklusie uit deze gegevens moet zijn dat de methode van tentaminering tijdens de
propedeutische fase en de daarmee gepaard gaande selectie geen zichtbaar effect heeft
gehad op het studietempo in de daarop volgende fase. De blokprogrammering in het
tweede cursusjaar heeft mogehjk een (gering) effect gehad op het studietempo in die
periode. Een half jaar na de propedeuse bleken de studenten van de jaargroep van 1973 2
studiepunten (0,10 punt per week) meer behaald te hebben dan de studenten van beide
andere jaargroepen. Een jaar na de propedeuse is deze winst afgenomen tot 0,74 studie-
punt (0,02 studiepunt per week).

In Tabel 3 is een samenvatting gegeven van de studievoortgang van de studenten van de
drie jaargroepen, onderverdeeld naar sexe, vooropleiding en leeftijd. In de tabel zijn de
gemiddelden gepresenteerd van de behaalde studiepunten na 126 studieweken voor de
jaargroepen van 1971 en 1972 en na 84 weken studie voor de jaargroep van 1973. Uit de
gegevens op eerdere tijdstippen in de studie bhjkt dat direkt na de propedeuse weinig
verschillen in de aantallen behaalde studiepunten bestaan en dat het studietempo van de
onderscheiden groepen - evenals bij de afzonderlijke jaargroepen - stabiel is.
Vrouwelijke studenten van jaargroep 1971 behaalden 0,04 studiepunt per week meer dan
de mannelijke studenten, in jaargroep 1972 0,02 punt minder en in jaargroep 1973 nog
geen 0,01 punt minder. In de gegevens is geen eenvoudig, systematisch verschü in studie-
tempo tussen beide sexe te vinden.

Met betrekking tot de vooropleiding zijn vier categorieën gevormd: studenten met een B-
of beta-vooropleiding, studenten met een A- of alpha-vooropleiding, studenten met een
HBO (Sociale of Pedagogische Academie) en een restcategorie bestaande uit studenten
met uiteenlopende vooropleidingen, die via een 'colloquium doctum'-regeling tot de sub-
faculteit waren toegelaten. Geheel onverwacht blijkt dat de HBO-studenten in eUc van de
drie jaargroepen sneller studeerden. Het betreft hier echter een kleme groep van 9-11
studenten en de verschillen met andere groepen zijn niet groot; gemiddeld respectievelijk
0,11, 0,01 en 0,03 studiepunt per week. De studenten met een B/beta-vooropleiding
studeerden wehswaar in elk van de drie jaargroepen sneller dan studenten met een A/al-
pha-v00topleiding, maar ook liier zijn de verschillen niet groter dan gemiddeld 0,04 stu-
diepunt per week. Dergelijke verschillen waren direkt na de propedeusé ook aanwezig.
Wat betreft de leeftijd aan het begm van de studie zijn wederom vier categorieën aange-
houden. De categdrie van jongste studenten, die direct van de middelbare school met
de studie zijn begonnen, blijkt in twee jaargroepen het snelst te studeren. Echter de
verschillen met de andere leeftijdscategorieën zijn marginaal (0,01 punt per week) en m
jaargroep 1973 bhjkt deze leeftijdsgroep gemiddeld 0,03 studiepunt per week achter te
zijn gebleven op de snelste leeftijdscategorie. Leeftijd bhjkt niet op een stabiele wijze

samen te hangen met studietempo. Een directe vergelijking van de jaargroepen op tijdstip
126 is niet mogelijk gezien de korte studieduur van jaargroep 1973 op het moment van
onderzoek. De gegevens van jaargroepen 1971 en 1972 op tijdstip 84 - de laatste,
betrouwbare gegevens na één jaar blokprogramma voor jaargroep 1973 - leveren geen
verrassingen op ten opzichte van de gegevens van beide jaargroepen in Tabel 3. Vergeleken
over de drie jaargroepen geven de studievorderingen van de onderscheiden groepen weinig
belangrijke verschillen te zien. Twee uitzonderingen vallen op. De 20 studenten van de
leeftijdscategorie 25-29 van jaargroep 1972 bUjven gemiddeld meer dan 7 punten achter
op dezelfde groep van 1971 (n = 31) en bijna 9 punten op die van 1973 (n = 22). De
groep studenten met een HBO vooropleiding van jaargroep 1971 (n = 9) heeft gemiddeld
ruim 10 punten meer behaald dan de HBO-groep van 1972 (n == 9) en bijna 7 punten meer
dan die van 1973 (n = 11). Het lijkt moeilijk deze verschillen in termen van de vraagstel-
ling te interpreteren.

Twee aspecten in het studieverioop in de eerste anderhalfjaar bleken in voorgaand onder-
zoek (Schuurman, 1974) belangrijke voorspellers van het studietempo verderop in de
studie. Allereerst is dat het succes bij de propedeuse: studenten die op grond van de eerste
tentamengelegenheden slaagden voor de propedeuse hielden in het algemeen een hoger
studietempo aan in het tweede en derde cursusjaar dan studenten die na deelname aan de
herkansing geslaagd waren voor de propedeuse. Een tweede aspect dat samenhing met het
studietempo was het tijdstip waarop de studenten deebamen aan het Experimenteel

Figuur 2 Studievoortgang in aantallen behaalde studiepunten van vier onderscheiden groepen studen-
ten van jaargroep 1971 (n = 166)

Practicum. Studenten die dit onderdeel van 16 studiepunten na de propedeuse deden
studeerden sneller dan studenten die zich eerst op andere onderdelen richtten en pas
(veel) later in de studie het Experünenteel Practicum volgden.

In Tabel 4 zijn per jaargroep zes groepen studenten onderscheiden. Twee hoofdgroepen
bestaan uit enerzijds studenten die direct bij de eerste tentamengelegenheden zijn geslaagd
voor de propedeuse en anderzijds uit studenten die daarvoor de herkansingsprocedure
moesten gebmiken. Beide groepen zijn verder onderverdeeld naar deelname aan het Ex-
perimenteel Practicum (EP): Studenten die het tweede studiejaar begonnen zijn met
deelname aan het EP (EP dkect na propedeuse), studenten die gestart zijn met de voor-
bereiding van tentamens en deehiame aan het EP hebben moeten uitstellen (EP later) en
studenten die het EP nog niet hebben gevolgd of dit niet met een voldoende beoordelmg
hebben afgesloten. De samenhang tussen deze aspecten van het verloop van de studie met
het studietempo is het best vast te stellen na ruim twee jaar studie. Dan hebben de meeste
studenten van een jaargroep de kans gehad het EP met succes af te sluiten. In Tabel 4 zijn
de gemiddelde aantallen behaalde studiepunten voor de twee 'oudste' jaargroepen weer-
gegeven.

Duidehjk bhjkt dat vanaf het begin van het tweede studiejaar een verschil bestaat van
gemiddeld 0,10 studiepunt per week tussen de twee propedeuse-groepen. Het studietem-
po van de studenten die direct na de propedeuse het EP volgden en die dit uitstelden
verschilt systematisch over de jaargroepen (ook die van 1973); de grootte van het verschil
varieert nogal: 0,02-0,10 studiepunt per week. De groepen studenten die het EP (nog)
niet volgden, bleven ernstig achter. Een aantal studenten van deze laatste categorie bleek
de studie te hebben gestaakt.

In Figuur 2 is de studievoortgang voor vier onderscheiden groepen van de jaargroep 1971
op zes halfjaarhjkse meetpunten weergegeven. De groepen zijn als volgt samengesteld:

De resultaten van dit onderzoek zijn als volgt samen te vatten. Het studietempo na de
propedeuse van psychologiestudenten, die zich in de periode van 1971-1973 lieten in-
schrijven aan de Universiteit van Amsterdam en die de propedeuse in één jaar behaalden,
bleek per jaargroep vrij stabiel te zijn en ongeveer de helft van hetgeen in de studieregehng
is vastgelegd. Noch verzwaring van de propedeutische tentaminering, noch uivoering van

3. De resultaten van één student zijn buiten beschouwing gelaten; deze had als enige de propedeuse
via de herkansing gehaald en vervolgde het tweede studiejaar direct met het EP; een logische, weinig
Voorkomende mogelijkheid.

blokonderwijs in het tweede cursusjaar, of sexe, leeftijd en vooropleiding van de student
bleek een belangrijk en systematisch veiband te houden met het studietempo. Succes
tijdens het eerste jaar en een adequate start in het tweede bleken samen te gaan met een
hoger studietempo tot aan het emd van de prekandidaatsstudie. Deze resultaten zijn
opmerkehjk te noemen. Opmerkelijk omdat er argumenten waren voor relatief sterke
samenhangen tussen studietempo en de in het onderzoek betrokken aspecten. Zo was de
verwachting dat de cumulatieve tentaminering van een deel van de propedeuse een posi-
tief effect zou hebben op de studievoortgang na de propedeuse. Deze veronderstelling is
ontleend aan de redenering die ten grondslag lag aan de uivoering van dit tentamensy-
steem. De belangrijkste argumenten waren:

- de tentamenstof zou door de herhaalde bestudering beter beklijven en op meer geïnte-
greerde wijze geleerd worden, hetgeen de studie m een latere fase ten goede zou
komen;

- door de geleidehjk toenemende hoeveelheid stof zouden kwalitatief betere studiemet-
hoden door de studenten ontwikkeld moeten worden, hetgeen een meer passende
voorbereiding zou vormen op de studietaken in het tweede en derde cursusjaar;

- de cumulerende hoeveelheid te bestuderen stof zou aan de studenten hogere studie-
eisen stellen, die meer vergehjkbaar zouden zijn met die van tentamens na de prope-
deuse;

- studenten die aan dergehjke studie-eisen niet konden of wilden voldoen zouden geen
toegang hebben tot het vervolg van de studie.

Hoe plausibel deze argumenten ook mogen klinken, de bevindingen van dit onderzoek
geven géén steun aan deze gedachtengang. De cumulatieve tentaminering lijkt direkt
effect te hebben gehad op de propedeuseresultaten. Echter, de beter voorbereide en de
strenger geselecteerde groep studenten behaalde na de propedeuse geen hoger studietem-
po dan de groepen studenten die de niet-cumulatieve tentaminering hadden ondergaan.
Ook de invoering van blokonderwijs m het tweede cursusjaar ten behoeve van de studen-
ten van de derde in het onderzoek opgenomen jaargroep was onderbouwd met onderwijs-
kundige en leertheoretische argumenten.

Wijnen (1973) geeft een overzicht van de voordelen van blokonderwijs. In vergelijking
met onderwijs,^ waarbij studenten de aandacht gedurende een periode van maanden over
meerdere vakken moeten spreiden, rekent Wijnen bij het blokonderwijs de volgende pun-
ten tot de voordelen:

- het spreiden van de aandacht en studie-mspanning over een langere periode werkt
vergeten in de hand. Bij het van buiten leren van elementen van de stof loopt men
groot risico het eerste deel te zijn vergeten vóór men aan het eind van de leerperiode is.

- bij de zogenaamde hogere leerprocessen is het gunstig gedurende een langere periode
geconcentreerd bezig te zijn met één taak tegeUjkertijd;

- de voorbereiding op één tentamen biimen een bepaalde (blok)-periode vraagt geen
nodeloos ingewikkelde tijdplanning van de student zoals wel het geval is bij de voorbe-
reiding op meerdere tentamens aan het eind van het academisch jaar;

- het onderwijs is effectiever mdien het aangeboden wordt op het moment dat de stof
bestudeerd wordt;

- het onderwijs kan in een korte periode meer gericht en efficiënt gegeven worden.
Verder hadden de blokprogramma's een eenvoudige, heldere structuur en waren de onder-
delen afwisselend van inhoud en type werk (practisch werk en zelfstudie). Het was duide-
Ujk wat van de student geëist werd: voorbereiden van tentamens door zelfstudie en het
volgen van begeleidende coUeges binnen een bepaalde termijn. Tijdens dit onderwijs werd

de stof volgens een gepubliceerd schema besproken en werd met nadruk de mogehjkheid
geboden vragen te stellen over het bestudeerde. De voorbereidingstijd werd afgesloten met
een tentamengelegenheid; daarna volgde de voorbereidmgsperiode voor een ander ten-
tamen of een practicumperiode. Deze kenmerken - eenvoudige structuur, afwisselende
werkzaamheden, sterke fasering en duidelijke eisen - worden in het algemeen gezien als
opthnaliserend voor de studievoortgang (CVHWO, 1974, p. 20). Ook is het van belang
voor de interpretatie van de onderzoeksbevhidmgen te weten dat aan de introductie van
het blokonderwijs veel aandacht was besteed. De vier blokprogramma's werden als advies-
pakketten m verschillende media (Vorst, 1974 a en b) aangekondigd en de opzet ervan
uitgelegd. AUe geslaagden voor de propedeuse 1973/74 ontvmgen een circulaire met
gedetailleerde mformatie. De studenten werden verzocht met behulp van een bijgesloten
invulformuher aan te geven welk blokprogramma zij zouden gaan volgen. Ongeveer 80%
van de aangeschreven studenten maakten een voorlopige keus bekend en aan het eind van
het jaar bleek ongeveer 60% van mening dat zij één van de blokprogramma's gevolgd
hadden. Een gebrek aan deelname aan het blokonderwijs kan moeilijk als een verklarmg
gezien worden voor de gevonden onderwijsresultaten.

Wat de persoonskenmerken betreft het volgende. Het ligt voor de hand dat deze factoren
van invloed kunnen zijn op het studietempo. Mannehjke studenten zijn m het algemeen
meer gericht op prestaties m de studie, hebben een meer voor de studie geschikte voorop-
leidmg en maken de studie vaker af (Elshout & van Loo, 1977). Jongere studenten
hebben meer recente leerervarmg, kunnen daardoor een effectieve aanpassmg aan de
studie-eisen reahseren en hebben mmder vaak verplichtmgen m werkkrmg en/of gezm die
kunnen mterfereren met de studie. Studenten met een B- of beta-vooropleidmg zullen
ininder moeihjkheden ondervinden met een groot aantal 'technische' onderdelen van de
studie psychologie. Ook op deze punten gaf het onderzoek geen bevestigmg; er konden
geen belangrijke verschillen in studietempo worden aangetoond tussen de onderscheiden
groepen. Wel werd enige systematiek m het studietempo van de studenten met verschillen-
de typen vooropleidmgen aangetroffen.

Uitemdehjk bleek het studietempo na ruim drie jaar studie het best te voorspellen uit
eerder m de studie geleverde prestaties. Het studiesucces gedurende het eerste jaar en een
adekwate studieplanning aan het begin van het tweede jaar correleren met het aantal
behaalde studiepunten m het verder verioop van de kandidaatsfase; de berekende correla-
tiecoëfficiënten liggen in de buurt van respectievelijk .40 en .15. Het percentage verklaarde
variantie m behaalde studiepunten voorspeld uit een combinatie van beide factoren (zie
Figuur 2) is aanvankehjk 35% en later, na vier jaar studie, 17%. Het is verieidelijk dit
gegeven te mterpreteren in termen van persoonhjkheidskenmerken van studenten. Be-
kwame en hl studieprestaties geïnteresseerde studenten zouden er een hoger studietempo
op na houden. Dat zij bekwaam zouden zijn, zou moeten bhjken uit het feit dat deze
studenten de propedeuse bij de eerste tentamengelegenheid behaalden. Dat ze gericht
zouden zijn op studieprestaties, zou mede geconcludeerd kunnen worden uit het feit dat
deze studenten deehiame aan het Experünenteel Practikum niet uitstelden, ondanks het
feit dat dit onderdeel 16 weken lang een volledige werkweek in beslag neemt. Een derge-
hjke mterpretatie wordt echter zelden bevestigd door predictie-onderzoek waarbij per-
soonlijkheidskenmerken met behulp van tests worden vastgesteld (Crombag, Gaff &
Chang, 1975; Elshout & van Loo, 1976).

Enkele meer algemene verklaringen voor de bovengenoemde onderzoeksbevhidmgen kun-
nen niet onvermeld bhjven. Het behoort tot de mogehjkheden dat de m het onderzoek
betrokken onderwijsfactoren en persoonskenmerken niet of nauwehjks samengmgen met

verschillen in studietempo na de propedeuse, omdat de studie psychologie in deze fase
geen differentiërende eisen stelt aan de studenten. De studiepunten-regeling stelt een
gewenst studietempo vast (42 studiepunten per jaar); maar er is geen toezicht op de
nalevmg ervan. Wel wordt van de beursstudenten (ongeveer 40% van deze jaargroepen)
vereist dat zij tenminste 31 studiepunten per jaar behalen. Bij het ontbreken van expli-
ciete eisen omtrent het studietempo stellen de studenten dat zelf vast zonder dat de
genoemde faktoren daar kennelijk belangrijke invloed op uitoefenen. De antwoorden op
de vragen in de eerder genoemde enquête van van der Doef (1976) geven daar wel
argumenten voor. Desgevraagd gaf 70% van de reagerende studenten op mmder dan 40
uur per week te werken en 57% wenste van de studie geen dagtaak te maken. Verder gaf
60% van de respondenten aan dat zij nevenactiviteiten verrichtten, die de studievoortgang
zouden belemmeren en 59% dat zij het gewenste studietempo niet konden opbrengen. De
helft van de respondenten vond het niet nodig het kandidaatstentamen in korte tijd te
behalen en wederom 50% meende dat de studiestof voor hen gemakkelijk te verwerken
was. Uit deze gegevens valt af te leiden dat een aanzienlijk deel van de studenten met
betrekking tot de studie niet het achterste van de tong laat zien.

Een tweede alternatieve verklaring voor het ontbreken van de gezochte samenhangen is de
veronderstelÜng dat de onderwijsveranderingen geen effect hebben gehad op de gehele
jaargroep als zodanig, maar wel in interactie met de persoonskermierken sexe, leeftijd en
vooropleiding. Met behulp van variantie-analyse is in het materiaal steun gezocht voor
deze interactie-interpretatie. Een analyse over aUe factoren tegelijkertijd (jaargroep, sexe,
leeftijd en vooropleiding; een 3x2x4x4 design) was niet mogelijk omdat 22 cellen zonder
waarnemingen bleken en de aantaUen rephcaties zeer ongelijk waren (Kn<34). Vier
univariate analyses met steeds drie factoren werden uitgevoerd op het aantal behaalde
studiepunten na I5, 2 en l\ jaar studie (tijdstippen 63, 84 en 105). Geen interacties van
betekenis konden worden geconstateerd. Een derde verklaring voor het ontbreken van de
voorspelde verschiUen in studietempo is het gebrek aan controle in het onderzoek. Onder
meer doet zich dit gebrek aan controle voor bij de 'recrutering' en deelname van de
proefpersonen, de condities in het onderwijsveld en de vaststeUing van het studietempo.
De drie onderzochte jaargroepen kunnen aan het begin van het eerste jaar verschiUend zijn
samengesteld door wisselende krachten (o.a. plaatsingsconmiissies) die van invloed zijn op
de inschrijving van eerste jaars. Tijdens de propedeutische fase en in de onderzoeksperiode
- tweede en derde studiejaar - kan selectieve uitval de samensteUing van de jaargroepen
ten opzichte van eUcaar hebben veranderd. Beziet men bijvoorbeeld de verdeUng van de
studenten per jaargroep over beide sexen, de leeftijds- en vooropleidingscategorieën in
Tabel 3 dan vallen enkele verschuivingen op. Er is vanaf 1971 een dalend percentage
studenten met een A/alpha-vooropleiding te constateren en een groeiend aantal jongere
studenten. Voor selectieve uitval na het eerste jaar Ujken geen directe aanwijzingen aan-
wezig. In de drie jaargroepen had respecrieveÜjk 5%, 8% en 6% van de studenten na 2\
jaar buiten de 34 punten van de propedeuse geen studieresultaten geboekt en 5-6% had
daarnaast slechts 8 of mmder studiepunten behaald.

Wat het uiteindeUjk verschil in samensteUmg van de jaargroepen betekent voor de onder-
zoeksbevindmgen is niet met zekerheid vast te steUen. Bij de vergehjking binnen de
jaargroepen bUjken sexe en leeftijd niet samen te gaan met verschiUen in studietempo. Het
is moeilijk in te zien waarom de onderzoeksresultaten anders zijn uitgevaUen omdat de
samensteUing van de jaargroepen op deze factoren niet geheel vergehjkbaar zijn. Voorop-
leiding gaat wel samen met een gering verschil in studietempo. In jaargroepen 1972 en
1973 zijn de studenten met een B/beta-vooropleiding ruimer vertegenwoordigd (± 60%)

dan in jaargroep 1971 (46%). Op grond van dit gegeven kan men verwachten dat in beide
eerdergenoemde jaargroepen gemiddeld een hoger studietempo wordt bereikt. Echter dat
IS alleen voor jaargroep 1973 het geval in de eerste helft van het tweedejaar. Mede gezien
het tijdehjke karakter van de verhoging van het studietempo is het niet waarschijnlijk dat
dit een gevolg is van verschillen in samensteUing van betreffende jaargroepen,
l-'e onderwijsprogramma's die de drie jaargroepen volgden vielen eveneens buiten de con-
trole van de onderzoeker. Elk jaar worden wel enkele onderdelen naar inhoud en moeilijk-
heidsgraad veranderd. Het is niet ondenkbaar dat dit heeft geleid tot een relatieve verzwa-
ring of verhchting van het gehele programma voor één of twee jaargroepen. De jaarhjkse
Wijzigingen van het onderwijs kunnen niet alleen de vergelijkbaarheid van de jaargroepen
afgetast hebben, maar kunnen ook repercussies hebben voor het studietempo. Verzwa-
nng van een jaarprogramma bij een gelijk blijvend aantal studiepunten brengt een relatieve
onderschatting van het studietempo met zich mee. Vergelijking van de studie-onderdelen
behorend tot het propedeutische en postpropedeutische prekandidaatsonderwijs van de
betreffende jaren gaf geen aanwijzingen dat er belangrijke verschillen in zwaarte hebben
bestaan. In de blokprogramma's waren wel meer college-uren opgenomen. Aangezien deze
een begeleidende en toehchtende functie hadden en in de totale voorbereidingstijd een
gering aandeel vormden, Ujkt het twijfelachtig dat dit verschil in onderwijsdichtheid op
Zich bij de verblokking van het onderwijs tot een verzwaring van het programma heeft

Op de reaUsering van de beide onderwijsveranderingen en de daaraan ten grondslag Uggen-
de gedachtengang is hier uitgebreid ingegaan omdat bovenstaande resultaten mogelijk
"npUcaties kunnen hebben voor de herprogrammering. Nu de maximaal toegestane studie-
duur in de wet wordt vastgelegd en het aanbevolen wordt dat 90% van de aankomende
studenten bmnen deze periode afstudeert, is het noodzakelijk dat het studietempo ver-
hoogd en gekanaUseerd wordt. Indien men bereid is de strekking van bovenstaande bevin-
dingen niet geheel als typisch voor de psychologie-studie of psychologie-studenten van de
Universiteit van Amsterdam te beschouwen, dan is het de vraag of verhoging en kanaUse-
nng van het studietempo bereikt kan worden met het type programmawijzigingen, dat
hier besproken is.

Crombag, H.F., J.G. Gaff I& Ten M. Chang. Study Behavior and Academic Performance. Tijdschrift

voor Onderwijsresearch, 1975,1, 3-14.
"oef, P.L.M. van der. Onderzoek naar Studiemotivatie, Amsterdam: Werkstuk, Subfaculteit Psycholo-
gie van de Universiteit van Amsterdam, 1976.
fc-lshout, J.J. Predicting the vahdity of predictors of Academic Performance. Tijdschrift voor Onder-
wijsresearch, 1977,2, 24-31.
tlshout, J.J. & S.M. van Loo, Long Range Prediction of Academic Success of Male and Female

Psychology Students. Tijdschrift voor Onderwijsresearch, 1977, 2, 104-110.
Haan, H. de. Jaarverslag 1977 Bureau Studiezaken Subfaculteit Psychologie, Universiteit van Amster-
dam, 1978.

Meuwese, W.A.T. & H.F.M. Crombag. De bepaUng van gemiddelde voorbereidingstijden voor tenta-
mens en praktika. Eindhoven: rapport 6, Groep Onderwijsresearch, T.H. Eindhoven, 1964. (Zie
ook in: van Woerden, Chang & van Geuns-Wiegman, 1973, 205-215).
schuurman, R. Elink. Studievertraging, een nadere analyse van studieresultaten van twee jaargroepen
prekandidaatsstudenten psychologie. Amsterdam: Werkstuk, Subfaculteit Psychologie van de Uni-
versiteit van Amsterdam, 1974.
Vorst, H.C.M. Blokprogramma's in het Prekandidaats. Spiegeloog, 1974a, 2, 8-9.

Vorst, H.C.M. Studiegids 1974-75 Amsterdam: Subfaculteit Psychologie van de Universiteit van Am-
sterdam, 1974b, 54-56.

Wijnen, W.H.F.W. Blokonderwijs In: W.M. van Woerden, T.M. Chang & L.J.M. van Geuns-Wiegman
(Eds): Onderwijs in de maak, Utrecht: Het spectrum, 1973,318-328.

In this paper a coefficient for criterion-referenced measurement is proposed. It is based on a
linear loss function and further on the assumption that the regression of true scores on observed
scores is linear. The coefficient can be regarded as an alternative for the well-known coefficient
of Livingston.

Witilin tiie area of criterion-referenced measurement several coefficients have been de-
veloped to reflect the accuracy of pass/fail decisions more adequately than an ordinary
reliability coefficient. The best-known of these coefficients is the coefficient proposed by
Livingston (1972):

In this criterion-referenced 'reliability' coefficient the deviations are taken from the crite-
rion Cx instead of fiom the mean Mx • Only in case Cx equalsMx this coefficient equals the
ordinary rehability coefficient. Perhaps its square-root is more interesting because it can
be regarded as a criterion-referenced correlation between observed and true scores:

Hambleton and Novick (1973) criticize' Livingston's approach since he faUs to use a
proper loss function for the decisions made: the size of (X - Cx), used in e.g. formula
(2), should not be relevant because only the dichotomy pass/fail matters. De Gruijter
(1976) suggests therefore that in case a linear loss function seems appropriate, a kind of
Point-biserial should be used instead of (2). Such a coefficient will be developed below.

Livingston does not differentiate between the criterion Cj and the passing score Cx-
Since these two score levels are generaUy not equal, they will be treated separately here.
The utility of a decision - the reverse of the loss - is supposed to be:

The expected utihty of the decisions made by means of a test of n questions equals;

where fx denotes the proportion of examinees with a score equal to X. In order to
compute U it is generally necessary to estimate the bivariate distribution of T and X. This
is not necessary, however, m case the regression of T on X is linear; only this specific
instance will be treated here. This same simplifying assumption is introduced by Van der
Linden and Mellenbergh (1978, p. 131). In Cronbach and Gleser (1965, app. 1) the
linearity of the regression follows from the assumption that the predictor and criterion
have a bivariate normal distribution; in theh model the utility is computed only for X >

where f_is the proportion of examinees with scores lower than Cx, f+ is the proportion
of examinees with scores equal to or greater than Cx, M-is the mean observed score of the
first group and is the mean observed score of the second group of examinees. Making
use of the fact that f_= 1 - f+ and f_jLi_ = - f+ju+, (6) becomes:

where z^^ = - Mx)/ox- Thus the utility of the decision procedure - for a fixed
distribution of true scores — is related to the square root of the test reliabihty, the
distance between //x the criterion performance, and the choice of the cutting score.
One can optimize the utility (8) by choosing an appropriate passmg score C. As can be
seen from (4), this is C* which satisfies E (T | C*) = Ct-

One reason for not using coefficient (8) for evaluatmg a test procedure, is the fact that an
unstandardized coefficient gives interpretation problems. Therefore several transforma-
tions have been suggested in order to obtain an mdex confined to the interval from zero
to one (possible negative sample values excepted). Van der Linden and Mellenbergh (1978)
propose the coefficient:

where R = - U is the risk of the test procedure, Rn is the risk in case T and X are
stochastically independent and R,, is the risk in the no-error case. In computing the values
of R<, and Rn the same passing score on which one has decided for the computation of R
is used, although one can vary the passing score with the test reliability (this is incor-
porated in a coefficient proposed by Huynh, 1976). For the computation of R<; Van der
Linden and Mellenbergh use equation 5 with Pxx equal to one; one can interprété this as
if in the errorless case the true score distribution is set equal to the observed score
distribution. In doing so, one obtains a nice and simple result, namely 5(t,x) = Pxx- Here
an alternative standardization is proposed which departs from statistics of the actual true
score distribution. It is the point biserial analogous to (2). First a dichotomy D is intro-
duced:

In computing the variance of D, the deviations of scores D from zero are taken instead of
from D, which means that the criterion-referenced variance of D equals one. The crite-
rion-referenced covariance between D and T now equals U (using (3) to (8)). The cri-
terion-referenced point biserial k (D,Tx) equals:

This formula has, just as (2), an upper Umit of one, which can be shown using the
Cauchy-Schwartz inequality. Besides it has the advantage that its optimal value is reached
for the same cutting score as the optimum of the unstandardized coefficient U, since in a
specific situation the denominator of (11) is fixed. The coefficient's proporties differ
somewhat from Livingston's coefficients. Take for instance Ct = Mx, and the extra
condition f+ = .5. Then (11) becomes:

So (12) does not reduce to an ordinary reliability coefficient or its square root with a
maximum equal to one, in case X = Cj. Our formula in this special case is, however,
related to Harris' index of the efficiency of mastery tests (Harris, 1974), the square of the
point biserial between the dummy variable D and the test scores. In case f+ equals .5 rpbis
equals:

which differs from (12) only by a factor Vpxx- This stems from the fact that Harris uses
the observed score variance instead of the true score variance in the denominator of his
index and further from the fact that he estimates the mean true score in the upper and
lower groups by and instead of using Kelley's estimate. The disadvantage of Harris'
index is that for two tests the same value is obtained m case of identical observed score
distributions and proportions passed while the reliability of the tests may differ.

A criterion-referenced test index has been developed for the situation in which the
regression of T on X is linear. However, the proposed coefficient can also be used in case
the regression of T on X is nonhnear. In this case (4) should be used for the computation
of the utility instead of (7). Methods have to be developed for the estimation of E (T|X)
in (4). Some work has already been done in this area (e.g. Van Naerssen, 1977).
In case the test is one of several test forms which vary in difficulty level, the above does
not apply. In that case the criterion can only be defined meaningfully on the universe
score scale, where generalization has taken place over test forms. Brennan and Kane
(1977) therefore propose a more general index than Livingston's formula (our formula 1)
in which variation of tests in difficulty level is incorporated by the addition of a term
represenfing the variation in difficulty level of tests_to the denominator of (1). The
population mean /ix is estimated by the sample mean X. The mean X is, however, not an
accurate estimate of Hx because its value is not only influenced by sampling of examinees
but also by the unknown difficulty level of the test. Only after several tests have been
administered, one is able to get a reasonable accurate estimate of px- Whenever one has
such an estimate, and it differs from the sample mean of the test at hand, probably
largely due to the difficulty level of this particular test, one should consider the possi-
bility of adjusting the passing score (De Gruijter, 1978).

In principle it is possible to incorporate variation m test difficulty also in the proposed
formulas (8) and (11). In that case Pxx, Mx, and z^^ have to be replaced by popula-
tion estimates generalizing over exammees and test forms.

Brennan, R.L and Kane, M.T. An index of dependability for mastery tests. Journal of Educational
Measurement, 1977,14, 277-289.

Cronbach, LJ. and Gleser, G.C. Psychological tests and personnel decisions (2nd ed.). Urbana: Uni-
versity of Illinois Press, 1965.

De Gruijter, D.N.M. The accuracy of an achievement test when comparing students to a standard of
performance. In D.N.M. de Gruijter and LJ.Th. van der Kamp (Eds.), Advances in psychological
and educational measurement. London: Wiley, 1976.

De Gruijter, D.N.M. A bayesian approach to the passing score problem. Tijdschrift voor Onderwijs-
research, 1978,5, 145-151.

Harris, CW. Some technical characteristics of mastery tests. In C.W. Harris, M.C. Alkin and W.J. Pop-
ham (Eds.), Problems in criterion-referenced measurement, CSE Monograph Series in Evaluation,
University of California, Los Angelos, 1974.

Hambleton, R.K. and Novick, M.R. Toward an integration of theory and method for criterion-refer-
enced tests. Journal of Educational Measurement. 1973,10, 159-170.

Huynh, H. On mastery scores and efficiency of criterion-referenced tests when losses are partially
known. Paper presented at the Annual Meeting of the American Educational Research Association.
San Francisco, 1976.

Van der Linden, W.J. and Mellenbergh, G.J. Coefficients for tests from a decision theoretic point of
Vk'm, Applied Psychological Measurement, 1978, 2, 119-134.

Livingston, S.A. Criterion-referenced applications of classical test theory. Journal of Educational Mea-
surement, 1972, 9, 13-26.

Van Naerssen, R.F. Lokale betrouwbaarheid: begrip en operationalisatie. Tijdschrift voor Onderwijs-
research, 1911, 2,1X1-119.

P. Groeneboom, Joh. Hoogstraten, G.J. Mellenbergh en J.P.H. van Santen'
Psychologisch Laboratorium, Universiteit van Amsterdam

The assignment of elementary school pupils to secondary school types; a correlational study

In a sample of 135 sixth grade pupils relationships were explored between personality, intelli-
gence and achievement measures and the allocation to one of six secondary school types.
Results of discriminant analyses indicated that personality scores predict only a trivial portion
of pupil assignment, whereas achievement and intelligence measures can be used effectively to
differentiate between the various categories. Within the capacity measures it appeared that the
correlation of intelligence total scores and subtest scores and the discriminant function was
appreciably less substantial than the correlation of scholastic achievement testscores and the
discriminant function. Tliis finding was supported by the fact that achievement total testscore
correlates higher with teacher-judgment of pupil-intelligence than the intelligence total test-
score. Additional discriminant analyses of two school types at a time demonstrated that the
school types break up into two subgroups: one with two school types emphasizing intellectual
skills and one with three school types emphasizing practical and manual skills. Tlie intelligence
and achievement measures distinguish clearly between these subgroups, but they do not distin-
guish the school types within each subgroup.

Aan het einde van. de zesde klas van de lagere school dient van iedere leerling te worden
bepaald op welk type vervolgschool hij zijn schoolcarrière het best kan voortzetten. Over
de feitehjke procedure die schoolleiding en/of klasse-onderwijzer volgen bij het uitbren-
gen van de leerling-adviezen bestaat nog veel onzekerheid, welke variabelen daarbij pri-
mair bepalend zijn is evenmin duidelijk. Weliswaar doet het Cito, dat jaarlijks het beken-
de Schooltoets-gebeuren organiseert, hieromtrent enkele aanbevelingen maar aangenomen
kan worden dat althans een deel van de scholen c.q. onderwijzers eigen procedures aan-
hangen en dat om die reden veel variatie bestaat wat betreft de procedure die men volgt
en de variabelen die men al dan niet tot de besluitvorming toelaat.
De problematiek kan op verschillende niveau's worden benaderd. Men kan zich richten op
het analyseren van de procesmatige kant, dus: hoe gaat de schoolleiding te werk, in
hoeverre maakt men bewust van bepaalde soorten informatie wel of niet gebruik, in welke
mate betrekt men ouders en kinderen bij de besluitvorming, etc., het onderzoek kan ook
bestaan uit een statistische analyse van een aantal gegevens, die men over ouders, kind of
school ter beschikking heeft, in hun relatie tot de feitelijk gegeven doorverwijzing. Van
het eerste type onderzoek zijn ons weinig voorbeelden bekend. Statistische analyses wer-

1. Drs. P. Groeneboom is thans werkzaam bij het Mathematisch Centrum te Amsterdam, drs.
J.P.H. van Santen is verbonden aan de University of Michigan.

den uitgevoerd door o.m. Oosterbaan (1973) en Sandbergen, Elshout, Akkerman en van
Peet (1972).

Oosterbaan richtte zich op de invloed van het milieu op het soort advies dat gegeven
wordt. Hij constateerde o.m. dat de resultaten op de jaarlijkse schooltoets in volksbuurten
lager liggen dan in wijken met beter gesitueerden en dat ouders uit lagere milieu's in het
geval van een twijfeladvies relatief vaker het laagste geadviseerde type voortgezet onder-
wijs kiezen en ouders uit hogere milieu's juist het hoogste. Hoewel van Heek (1968)
meent dat de invloed van de factor milieu op de doorstroming van lager naar voortgezet
onderwijs nihil is, lijkt Oosterbaan de onjuistheid van deze stelling overtuigend te hebben
aangetoond.

Sandbergen et al. was het er vooral om te doen via een factor-analyse de structuur te
analyseren van enkele instrumenten waarop men een beroep kan doen bij het geven van
de adviezen, nl. de schooltoets en een intelligentietest (G.A.L.O.). Onder meer werd
geconcludeerd dat 'De adviezen van onderwijzers voor een vervolgschool van de zesdeklas-
sers verklaard (kunnen) worden door verbale, ruimtelijke en numerieke factoren, met een
nadruk op de verbale factor' (blz. 528). Analyse van de schooltoets wees uit dat de
subtoetsscores op een enkele uitzondering na het best waren te voorspellen op basis van
de verbale intelligentiefactor.

Het onderzoek waarvan hier verslag wordt gedaan had de bedoehng na te gaan wat de
relevantie is voor het leerlingadvies van een groot aantal capaciteits- en persoonlijkheidsge-
gevens met als centrale vraag in hoeverre men op grond van deze gegevens kan differentie-
ren tussen de advies-categorieën. Het behoeft geen betoog dat het gestelde probleem te
complex van aard is om slechts via één onderzoeksbenadering te worden onderzocht.
Interviews met ouders, leerlingen en onderwijzers, het protocolleren van het besluitvor-
mingsproces, correlationele analyses van verkregen gegevens en experimenteel onderzoek
vormen naast elkaar passende technieken om ons inzicht op dit terrein te vergroten. Een
additioneel probleem bij dit alles is gelegen in de schaal waarop de advies-categorieën zijn
gemeten. Vanwege het niet-kwantitatieve karakter van deze schaal werd besloten in het
onderhavige geval voornamelijk gebmik te maken van discriminant-analyse (zie verder par.

Van 152 zesde klassers van vier amsterdamse lagere scholen, in totaal zes klassen, werden
de volgende gegevens verkregen.

a middels de Amsterdamse Biografische Vragenlijst voor kinderen (Wilde en van Dijl,
1967) werd een viertal variabelen gemeten: neurotische labiliteit (N en NS), introver-
sie-extraversie (E) en testattitude (T);
b de P.M.T. voor kinderen (Hermans, 1971) werd gebruikt bij het meten van: het presta-
tiemotief (P), negatieve en positieve faalangst (F- en F+), de gecombineerde faalangst-
score (Fc) en sociale wenselijkheid (SW);
c de I.S.I. (vorm II, Snijders en Weiten, 1968) werd eveneens afgenomen. Vijf subtests
hebben betrekking op schoolvorderingen-prestaties, nl. rekenen-cijferen, rekenen-re-
daktie, taai-spelling, woordbeeld dictee en taai-stillezen. In combinatie resulteren deze
tests in de schoolvorderingen-index (S.I.). Drie I.S.I.-subtests hebben betrekking op
intelligentie, nl. tegenstellingen, draaien en soortbegrip woorden. Tezamen vormen
deze testjes de verkorte intelligentie-index (I.I.);

d vier rapportcijfers, over het schooljaar gemiddeld, werden in de analyse opgenomen:

geschiedenis, aardrijkskunde, rekenen en taal;
e de Schooltoetsen-basisonderwijs leverden naast een negental subtoetsscores twee tota-
len op, totaal-taal en totaal-rekenen;
f van iedere leerling werd zowel het eerste advies verkregen als het tweede, meer defini-
tieve advies: 1 (VWO), 2 (HAVO), 3 (MAVO), 4 (LAVO), 5 (LEAO), 6 (Lager Midden-
standsonderwijs), 7 (Lager Land en Tuinbouwonderwijs), 8 (Lager Technisch Onder-
wijs), 9 (Lager Huishoud- en Nijverheids Onderwijs), 10 (Individueel Beroepsonder-
wijs). Hierbij moet worden aangetekend dat de twijfeladviezen buiten beschouwing
zijn gebleven. Bovendien bleken de categorieën 5, 6, 7 en 10 zo weinig leerhngen te
tellen dat moest worden besloten de analyse slechts uit te voeren voor de categorieën
1,2,3,4, 8 en 9.

De onder a, b en c vermelde tests werden afgenomen als onderdeel van elders gepubliceerd
onderzoek (Hoogstraten, 1976). Bij de A.B.V., P.M.T. en de subtoetsen van de School-
toets werden ruwe scores gebruikt, in het geval van de l.S.I.-subtests standaard-scores met
gemiddelde 10 en standaardafwijking 3. De totalen van de Schoohoets werden in percen-
tielen gegeven, de totalen van de LS.I. zijn standaard-scores (gem. 100, s.d. 15). Een
uitvoerige beschrijving van de steekproef wordt gegeven door Hoogstraten (1976).

In een aantal onderzoekingen is het advies gehanteerd als een min of meer kwantitatieve
variabele: door het gebruik van bijvoorbeeld product-moment-correlatie-coëfficiënten
wordt aangenomen dat de variabele advies minstens gemeten is op een interval-schaal.
Sandbergen et al. (1972) en Bos en Warries (1971) kenden het advies VWO de score 1 toe,
het advies VWO/HAVO de score 2, het advies HAVO de score 3 etc. Er is bij de toeken-
ning van deze scores op geen enkele wijze gepoogd de scores af te beelden op een
kwantitatieve schaal; er is dan ook geen reden om aan te nemen dat bijvoorbeeld het
verschil in scores tussen VWO (score 1) en HAVO (score 3) gelijk is aan het verschil in
scores tussen HAVO (score 3) en MAVO (score 5). Door Sandbergen et al. (1972) werd
bovendien aan de leerlingen van wie het advies onbekend was de score O toegekend. Om
na te gaan of dit veel invloed kan hebben op de correlatie-coëfficiënt werd door ons een
fictieve capaciteitsscore gegenereerd voor telkens één leerling van elke advies-categorie.
Het verschil m correlatie-coëfficiënt, berekend met en zonder de leerling met advies
'onbekend' (score 0), was .20, hetgeen er op wijst dat de invloed aanzienlijk kan zijn.
Oosterbaan (1973) kende op dezelfde wijze scores toe aan de advies-categorieën als Sand-
bergen et al. (1972) en Bos en Warries (1971). Hij beschouwde de scores echter alleen als
volgorde nummers in een rangordening en berekende rang-correlatie-coëfficiënten. Zelfs
de aanname dat de advies-categorieën een rangordening vormen is echter aanvechtbaar. In
ons materiaal werden per aidvies-categorie de gemiddelde scores op de intelhgentie en de
schoolprestatie berekend; deze staan voor het tweede advies in Tabel 1.
Hieruit bhjkt dat de rangnummers van de gemiddelde scores van de advies-categorieën
VWO, HAVO en MAVO altijd dezelfde zijn. De rangnummers van de gemiddelde scores
van de adviezen LAVO, Lager Technisch Onderwijs (LTO) en Lager Huishoud- en Nijver-
heidsonderwijs (LHNO) wisselen nogal eens. De categorieën VWO, HAVO en MAVO
vormen blijkbaar een éénduidige ordenmg naar intelligentie en schoolprestaties; bij de
categorieën LAVO, LTO en LHNO is er echter geen éénduidige ordening naar deze
variabelen.

In dit onderzoek werden de advies-categorieën beschouwd als nominale categorieën zon-
der de aanname van rangordening. De scores op de overige variabelen (tests, toetsen en
rapportcijfers) werden echter behandeld als variabelen gemeten op een intervalschaal. Wat
betreft de totaalscore op de schooltoets is dit in strikte zin niet juist: de scores zijn
percentielen en deze hebben per definitie alleen de eigenschap van rangordening; de ruwe
scores waren echter niet bekend. Ten aanzien van de scores op de overige variabelen kan
in ieder geval wel worden aangenomen dat zij gerangordend zijn. Er is echter geen poging
gedaan om aannemelijk te maken dat de afstanden tussen de scores op een variabele
onderling vergelijkbaar zijn. De rapportcijfers zullen in het algemeen gerangordend zijn in
één klas; het is echter de vraag of de rapportcijfers van klas tot klas vergelijkbaar zijn.
Ondanks dit probleem werd aangenomen dat de rapportcijfers van alle leerlingen gemeten
zijn op één interval-schaal.

Omdat de advies-categorieën hier zoals gezegd werden opgevat als nominale categorieën is
een mogelijke techniek om de gegevens te analyseren discriminant-analyse.
In een discriminant-analyse worden in een steekproef een aantal onderiing ongecorreleer-
de lineaire combinaties van de waargenomen variabelen uit een populatie geschat zodanig
dat de advies-groepen maximaal van elkaar verschillen op elk van deze combinaties. Het
aantal van deze funkties, waarop de advies-categorieën op een bepaald niveau significant
van elkaar verschillen, wordt bepaald met de beschrijvende grootheid V van Bartlett.
De interpretatie van de resultaten van een discriminant-analyse is niet zonder problemen.
In de eerste plaats zijn de gewichten, die in de discriminant-analyse berekend worden,
vrijwel niet te interpreteren. In dit onderzoek zijn de interpretaties dan ook gebaseerd op
een inzichtelijker maat namelijk de correlatie-coëfficiënten tussen enerzijds elke variabele
afzonderiijk en anderzijds de discriminant-funktie. Deze coëfficiënten zijn gebaseerd op
de covariantie-matrices per advies-categorie en niet op de covariantie-matrix berekend
over alle leeriingen; deze laatste procedure is namelijk niet correct omdat daarbij uitge-
gaan wordt van gelijke groepsgemiddelden.

In de tweede plaats weet men, als een discriminant-funktie significant is, dat er verschillen
zijn tussen de advies-categorieën; men weet echter nog niet welke categorieën van elkaar

verschillen. Daarom werden als aanvulling discriminant-analyscs uitgevoerd tussen alle
mogelijke paren advies-categorieën.

In geval van twee advies-categorieën leidt een discriminant-analyse tot precies dezelfde re-
sultaten als Hotelling's T^ (Tatsuoka, 1971, paragraaf 6.6). In geval van paarsgewijze ver-
gelijkingen tussen advies-categorieën werd daarom Hotelling's T^ berekend. Er zijn zes
advies-categorieën zodat er vijftien paarsgewijze vergelijkingen tussen advies-categorieën
gemaakt kunnen worden. Om te voorkomen dat er te veel op kans gekapitaliseerd wordt,
werd de volgende strategie gehanteerd. Eerst werd nagegaan of de discriminant-funktie
voor alle zes advies-categorieën significant was op 5% niveau. Indien dit het geval was,
werden paarsgewijze vergelijkingen uitgevoerd met Hotelling's T^. In het algemeen wer-
den deze alleen geïnterpreteerd als ze significant waren op 1% niveau. In de derde plaats
kan men onderzoeken welke variabelen vooral verantwoordelijk zijn voor een significant
resultaat. In dit onderzoek werd in geval van paarsgewijze vergelijkingen telkens één
variabele verwijderd en bij de resterende variabelen werd opnieuw Hotelling's T^ bere-
kend. Vergelijking van de overschrijdingskansen van de toetsingsgrootheid vóór en na
verwijdering van een variabele maakt duidelijk of de variabele van belang is. Een aantal van
de bovengenoemde problemen komen uitvoerig aan de orde in paragraaf 4. Lezers, die niet
geïnteresseerd zijn in deze - merendeels technische - verantwoording kunnen deze para-
graaf overslaan en verder gaan bij paragraaf 5 waarin de resultaten besproken worden.
Tenslotte maken we nog een opmerking over het gebruik van discriminant-analyse. Vaak
worden de percentages correcte en foutieve toewijzingen aan categorieën berekend. Deze
zijn vooral van belang in predictie-situaties, waarbij een discriminant-funktie gebruikt
wordt om voorspellingen te doen over toekomstig gedrag. In dit onderzoek ligt de nadruk
op de relaties tussen de variabelen en de advies-categorieën en werd daarom geen gebruik
gemaakt van de percentages juiste en onjuiste classificaties.

Er zijn verschillende manieren om het discriminant-analyse model in te voeren. We zullen
hier het model beschouwen als een speciaal geval van kanonieke correlatie analyse.
Van elke leerling uit de steekproef hebben we twee typen gegevens:
1®) Rapportcijfers en scores op ISI, schooltoets, PMT en ABV.
2®) De advies-categorie die aan deze leeriing is toegekend.

Stel dat er p variabelen Mp •••jJüp van het eerste type zijn (stochastische variabelen wor-
den onderstreept). Deze variabelen zullen we beschouwen als 'voorspellers', nl. voorspel-
lers van de advies-categorie die aan een leerling wordt toegewezen. De advies-categorieën
kunnen we representeren door q = K-1 criterium variabelen: een leerUng krijgt een score 1
op de j® criterium variabele als aan hem/haar de j® advies-categorie is toegekend voor 1 < j
< K-1, de andere criterium scores hebben dan de waarde 0; een leeriing, toegewezen aan
de K® advies-categorie, heeft score O op elke criterium variabele (zie bijv. Tatsuoka (1971,
p. 177 e.v.)). In ons geval is steeds p > q.

Om nu de samenhang tussen de voorspellers en criterium variabelen zo overzichtelijk
mogelijk te beschrijven is het gebmikelijk om schattingen te maken van de kanonieke
correlaties tussen de variabelen (in de populatie). Tevens worden hierbij schattingen ge-
maakt van z.g. kanonieke variabelen, dat wil zeggen Uneaire combinaties van de oorspron-
keUjke variabelen, die de correlatiestructuur van de kanonieke correlaties bezitten. Deze

kanonieke variabelen vertegenwoordigen in feite een nieuw coördinatenstelsel in de ruim-
te van variabelen.

Teneinde wat precieser de methode te beschrijven voeren we enige notatie in. Laat voor
een aselect (uit de populatie) getrokken leerlmg U, = (Uj,..., Up)' de vector van voorspel-
lende variabelen zijn en Uj = (Up+i) —»Mp+q)' de vector van criterium variabelen (de
getransponeerde van een vector of matrix geven we aan met een accent). Hierbij beperken
we de 'populatie' van leerlingen tot leerlingen uit de K in het onderzoek beschouwde
advies-categorieën. Laat verder EA de verwachting (het 'populatie-gemiddelde') van een
stochastische vector A aanduiden, D(A) de covariantiematrix van zo'n vector en C(A,B) =

(cij)i = ,..... m; j = 1, ..., n de matrixvancovarlanties tussen A = (aj, ..., am)' en B =

(b,,..., b„)' voor twee stochastische vectoren A en£ (N.B. met deze notatie geldt dus
D(A) = C(A,A)). Het door ons gehanteerde model kan nu geschreven worden in de
volgende vorm:

waarbij O een vector van nullen voorstelt, ft = (m, ftp)' de verwachtingsvector van Uj en
i' = (fl, ...,fq)' de verwachtingsvector van U^ is. Het is duidelijk dat D(y,) = D(Vj),
D(y2) = D(V2) en C(yi,U2) = C(Vi,V2), dat wil zeggen: de covariantiestructuur kan
geheel beschreven worden in termen van Vj en Vj. Als V = (Vj' | V2')' en E = D(V), geldt
dus

Laten nu Xj > ... > Xp de eigenwaarden van de matrix A = Sj} 2i2 ^21 zijn met
bijbehorende eigenvectoren Lj t/m Lp en laten Xi > ... > Xq de eigenwaarden van de
matrix B = S22 "^21 ^12 zijn met bijbehorende eigenvectoren Mj t/m Mq (de
eigenvectoren Li t/m Lp zijn lineair onafhankelijk, evenals de eigenvectoren Mi t/m Mq).
Er kan worden aangetoond dat de eigenwaarden van de matrix B gelijk zijn aan de
grootste eigenwaarden van de matrix A, zodat we deze eigenwaarden met dezelfde letters
kunnen aanduiden. De eigenvectoren worden zó gestandaardiseerd dat ^(L'i Vi)2 = l,i =

1.....p, £'(mJ Yi)^ = 1, i = 1,..., q en zodat de correlatie tussen L,' Yi cn Mj Y2 groter of

Stel nu dat L'Yi en M'Ys twee willekeurige lineaire combinaties van de elementen van
Yi respectievelijk Y2 zijn. Dan geldt dat de correlatie tussen L'Yi en M'Y2 hoogstens
gehjk kan zijn aan de correlatie tussen Li' Yi en Mj Y2> dat wil zeggen de correlatie
tussen Ll' Vj en mJ V2 is maximaal voor alle zo te vormen Uneaire combinaties. Als
L' Vl ongecorreleerd is met Li' Vi en M'V2 ongecorreleerd met Mi' V2 is de correlatie
tussen L'Yi en M'Y2 hoogstens gelijk aan die tussen L2' Yt en Mj Y2- De eigenvectoren
Ll,..., Lp en Ml,..., Mq bepalen de kanonieke variabelen L^ Ui, i = 1,..., p en M] 1)2, j =
1,..., q waarvoor geldt

waarbij de positieve wortel uit Xj en p de correlatie tussen twee variabelen aanduidt
en waarbij de correlatie tussen L|Vi en M5V2 maximaal is onder alle zo te vormen paren
L'Yi en M'V2 die ongecorreleerd zijn met LjVi, j < i en MjV2, j < i respectievelijk. De
correlaties .^/X^ heten kanonieke correlaties (voor een uitvoeriger behandeling zie Rao
(1973, p. 582 e.v.) en Anderson (1958, hoofdstuk 12)).

Laten 5 = LSYi , i = 1,.., p en yj = MiV2, i = 1,..., q de kanonieke variabelen zijn. Zij ver-
der X = (xi,..., Y= (yi,..., Yq)',Z, de pxp-matrixZ, = (Lj |...|Lp)' tnM de qxq-matrix
M = (Ml |...|Mq)'. Dan kunnen we de kanonieke variabelen als funkties van Vj en V2
schrijven op de volgende manier.

Aangezien LenM uit lineair onafhankelijke eigenvectoren bestaan, zijn L en M niet-singu-
her. We kunnen dus de 'oude' variabelen Vj en V2 als volgt in termen van de 'nieuwe' ka-
nonieke variabelen X en Y schrijven.

waarbij H = en K = Af"'. Voor de oorspronkelijke variabelen Ui en 02 geldt dus
iy.=M+Hx

De relaties (3) en (4) geven inhoud aan de uitdrukking 'overgaan op nieuwe coordinaten'.
Het is duidelijk dat L'iUj en M'iy2 twee lineaire combinaties van de oorspronkelijke va-
riabelen zijn die een maximale correlatie hebben onder alle zo te vormen paren L'Uj en
M'Uj. Dus M'ii' + L'i(yi-M) is de beste lineaire voorspeller gebaseerd op Uj van de line-
aire combinatie van criterium variabelen Miy2 en M1Ü2 is de lineaire combinatie van cri-
terium variabelen die het best voorspeld kan worden uit Uj. Een zelfde redenering geldt
voor L^yi en M'2y2 (onder de voorwaarde Ljyi ongecorreleerd met L'iUi en M^ya on-
gecorreleerd met Miya) en de redenering kan op de voor de hand liggende wijze worden
voortgezet voor L'sUi en M3y2 enz. Omdat de 0-lcriterium variabelen in ons geval een
mdeling in groepen aangeven, worden de kanonieke variabelen L'iyi t/m LqUi discrimi-
nant-funkties genoemd.

We komen nu aan het belangrijkste punt: de interpretatie van de discriminant-funkties.
Hierbij kan een procedure gevolgd worden die analoog is aan de methodes om orthogona-
le factoren te interpreteren in een factor-analyse model. Om een factor te interpreteren
kijkt men naar het type van de variabelen die hoge schattingen van de correlaties met de
factor vertonen. Dit betekent in feite dat men in een factor-analyse model van de vorm

Z = AF + E, geïnteresseerd is in de coëfficiënten van de matrix A. Als we nl. de gebruike-
lijke aannames D(F) = I (= de identiteits-matrix), C(F,E) = O en D(E) = '>1' = een diago-
naalmatrix maken, geldt voor de matrix van covarianties tussen Z en F; C(Z,F) = A. Dat
wil zeggen: de correlatie van een variabele z; uit Z en een factor uit F wordt gegeven
door de coëfficiënt ay uit matrix A gedeeld door de standaardafwijking van de variabele Zj.
Op analoge wijze kunnen we in het model (4) schrijven

waarbij XO = (xi,.., Xq)', H = (Hj IH2) gesphtst is in een eerste stuk gevormd door een
pxq-matrix Hj en een tweede stuk gevormd door een px(p-q)-matrix H2 en E= HzX^^^
met = (xq + i,.., Xp)'. Aangezien X uit ongecorreleerde componenten bestaat zijn
XO en E ongecorreleerd. Omdat verder de varianties van de variabelen Xj gelijk zijn aan
1, wordt de correlatie tussen een variabele u; en een 'discriminant-funktie' (of kanonieke
variabele) Xj gegeven door het element hy van de matrix H^ gedeeld door de standaard-
afwijking van de variabele Uj, voor i < p, j< q. De methode van interpretatie van de resul-
taten van mterpretatie van de resultaten van een discriminant-analyse via (schattingen
van) correlaties tussen de oorspronkelijke variabelen met een discrimmant-funktie wordt
bijvoorbeeld besproken (en aanbevolen) in Bargmann (1971).

Hoewel het dus o.i. voor de hand ligt om de resultaten van een discriminant-analyse te in-
terpreteren aan de hand van schattingen van correlaties tussen oorspronkelijke variabelen
en discriminant-funktie, heerst er een tamelijk wijdverbreide mening dat de interpretatie
gebaseerd zou moeten worden op schattingen van de elementen ly van de matrix L in (2),
eventueel 'gestandaardiseerd' door te vermenigvuldigen met de standaardafwijkingen van
de oorspronkelijke variabelen (zie bijv. Tatsuoka (1971, p. 163)). Tegen deze methode
zijn ernstige inhoudelijke bezwaren aan te voeren. Terwijl de getallen hy van de matrix Hj
in (5) een directe maat zijn voor de samenhang tussen de oorspronkelijke variabelen u; en
de discriminant-funkties xj (Hj is nl. de matrix van covarianties tussen de oorspronkelijke
variabelen en de discriminant-funkries), is een getal ly uit de matrix L slechts een maat
voor de partiële samenhang van x, en uj als we de regressie op de variabelen Uk voor k j
elimineren. Want veronderstel dat, op basis van de variabelen Uk voor k # j, x, =
Sk^jttkUk-Hao de beste lineaire voorspeller van x; is en üj = 2k#jiSkyk+|3o de beste line-
aire voorspeller van uj ('beste' wil in dit verband zeggen dat E{xi — Xi)2 en /^(üj — uj)^
minimaal zijn). Dan is het getal ly gelijk aan de covariantie tussen de residuen x; — xj en
Uj — Uj gedeeld door de variantie van Uj — üj. Als a(w) de standaardafwijking van een sto-
chastische variabele w aanduidt en cov (v,w) de covariantie tussen twee stochastische va-
riabelen V en w, dan is de 'gestandaardiseerde gewichtscoëfficiënt' dus gelijk aan lycr(Uj) =
cov(xi - üi,Uj - üj)a(uj) / a^ (uj - üj) (in een steekproef berekent men natuuriijk slechts
schattingen van Ijj en a(uj)).

Het is duidelijk dat de coëfficiënten ly, al dan niet 'gestandaardiseerd', tamelijk lastig te
interpreteren zijn en in hoge mate afhangen van de onderlinge correlaties tussen de varia-
belen U] t/m Up. Het lijkt ons dan ook volkomen onjuist om de grootte van deze coëffi-
ciënten te gebruiken als maat voor het 'relatieve belang van de variabele voor de discrimi-
nant-dimensie' (zoals bijv. in Tatsuoka (1971, p.169 en 170)). Als een discriminant-funk-
tie x; bijv. voord te maken heeft met 'rekenvaardigheid' en onder de variabelen Uj een aan-
tal rekentestjes voorkomen, is het mogelijk dat de gewichten ly van sommige of zelfs alle
rekentestjes laag zullen zijn omdat de partiële correlatie met de discriminant-funktie
klein is (in feite zagen wij in ons onderzoek bij het schatten van deze gewichten exact de-

ze verschijnselen optreden). Wij zullen ons daarom bij de interpretatie van de (schatting
van de) discriminant-funktie niet op schattingen van deze gewichten baseren.
Tenslotte zuUen we kort ingaan op het schattings- en toetsingsprobleem bij discriminant-
analyse. Als we een steekproef hebben met nj kinderen uit categorie j voor j = 1,..., K
(nj O voor elke j), kunnen we (conditioneel op de gevonden aantallen nj) een variantie-
analytisch model van de volgende vorm opstellen

Hierbij is /ijj de verwachting van variabele Uj voor kinderen die tot categorie j behoren,
Yijk de score van de k® leerhng uit de j® groep op variabele i en e^k een restterm zodanig
dat (eijk,..., epjk)' een p-dimensionale N(0,Si i .2)-verdehng heeft voor elke j en k met

Laat nu verder yjj. het gemiddelde van de scores van leerlingen uit de j® groep op de i® va-
riabele voorsteUen en Yj.. het gemiddelde van alle leerhngen op de i® variabele. Dan wordt
de 'binnen som van kwadraten en kruisproducten matrix' B= (bhO gegeven door

De matrix B heeft een centrale Wishart Wp (n,2i i .2)-verdehng met n = N-K. De matrix T
is stochastisch onafhankelijk van B en heeft een (mogelijk) niet-centrale Wishart
Wp(q,2ii.2;f2)-verdeling, waarbij q = K-1 en de matrix Q. van niet-centrahteitsparame-
ters gegeven wordt door

met 7?j = Onji - Ml,..., Mjp - Atp)' voor j = 1,...,K, dat wil zeggen tjj representeert het verschil
in categorie-gemiddeldes jUjj en totaal-gemiddeldes Mi (in de populatie). Als Mjj = Mi, voor
j = 1,...,K en i = l,...,p, bestaat de matrix D, uitsluitend uit nullen en heeft Teen centrale
Wishart Wp(q,2i i.2)-verdeling. Er kan worden aangetoond, dat het aantal kanonieke cor-
relaties ongelijk aan nul (in de populatie) gelijk is aan het aantal eigenwaarden ongelijk
aan nul van S2. Dit aantal is tevens gelijk aan de rang van fi. Men spreekt in dit verband
ook van 'aantal discriminantdimensies'.

Laten nu di > ... > dq de grootste eigenwaarden van de matrix fr'T zijn. Dan kan een
hypothese over de 'dimensie' (d.w.z. de rang) van getoetst worden met behulp van de
hkelihood-ratio (L.R.)-toets. De L.R.-toets voor de hypothese H^ dat de rang van fi ge-
hjk is aan m (met m < q) heeft de vorm

Onder Hm heeft <N - 1 - (p + K) / 2}Sn bij benadering een x^ (p-m) (q-m)-verdehng. De-
ze toetsingsgrootheid wordt wel Bartlett's V genoemd. We merken hier terzijde op, dat de
bewering in Tatsuoka (1971, p. 164), dat de termen log (U dj) en log (1-h dk) statistisch
onafhankelijk zijn voor j ^ k, onjuist is. De juiste simultane verdeling van de eigenwaar-
den ongelijk aan nul van de matrix B-'T wordt bijvoorbeeld gegeven in James (1964, p.
486, formule (74)).

De gebruikelijke schattingen van de vectoren Lj, die de 'gewichten' Ij; van de kanonieke
variabelen (discriminant-funkties) Xj = LjUi bepalen voor j = l,...,q, worden nu geleverd
door de eigenvectoren Lj van de matrix JB-i T (deze schatters zijn op een schaalfactor na
bepaald). Als diag (^ de diagonaal-matrix met op de diagonaal de diagonaalelementen bü
van B voorstelt, wordt de vector van correlatie-schattingen £ = (rij,...,Xpj)' van de correla-
ties Pij van de oorspronkelijke variabelen Uj, i = l,...,p met de discriminant-funkties Xj,
j = l,...,q, gegeven door

(zie Bargmann (1970, p. 53, (5.2))). In het speciale geval van twee groepen is de vector^j
van correlaties Xii, i = l,...,p evenredig met de vector van 'gestandaardiseerde' verschillen
in gemiddelden (yn. - Yia.) /ii. waarbij

Stel nu dat de hypothese //q (rang f2 = 0) verworpen kan worden. Men weet dan nog niet
welke groepsverschillen voor het verwerpen van //g verantwoordelijk zijn. In ons onder-
zoek werden daartoe voor alle paren van groepen de waarden van Hotelling's T^ bekeken
(zie § 3). Verder kan men onderzoeken welke variabelen vooral verantwoordelijk zijn
voor de verwerping van //q . Daartoe werd in het geval van paarsgewijze vergelijking steeds
één variabele verwijderd en bij de resterende p-1 variabelen de toetsingsgrootheid opnieuw
berekend, na eliminatie van de regressie op de weggelaten variabele. Als de overschrij-
dingskans na verwijdering van een variabele niet veel groter of zelfs kleiner wordt dan de
overschrijdingskans vóór verwijdering van de variabele, is het waarschijnlijk niet verstandig
om deze variabele deel uit te laten maken van de discriminant-funktie. Indien de over-
schrijdingskans na verwijdering van een variabele veel groter is dan vóór verwijdering dan
moet men de variabele juist handhaven: de variabele draagt blijkbaar iets bij tot het
onderscheid tussen de advies-categorieën. Men spreekt bij de toepassing van deze techniek
wel van de 'test for additional information' (Rao, 1973,

par. 8c.4, 8d.3). In het algemeen
komen de resultaten van deze analyses, zoals te verwachten valt, overeen met de groottes
van de schattingen van de correlaties tussen de (voorspellende) variabelen en de discrimi-
nant-funktie: bij een hoge correlatieschatting is na verwijdermg van de variabele een
sterke stijging van de overschrijdingskans te constateren. De resultaten zijn natuurlijk niet
in overeenstemming met de groottes van de gestandaardiseerde gewichtscoëfficiënten.
Terwijl bij de 'test for additional information' alleen de regressie op de weggelaten varia-
bele wordt geëlimineerd, wordt bij de gestandaardiseerde gewichtscoëfficiënt van één
variabele in feite de regressie van deze variabele op alle andere geëlimmeerd.

De aantallen proefpersonen voor de zes advies-categorieën waarop de analyse betrekking
had zijn vermeld in tabel 2.

Over een tweetal groepen variabelen werd nu eerst een discriminant-analyse uitgevoerd:
a de subtestjes ISI en de subtoetsen van de Schooltoets, in totaal 17 variabelen;
b de totalen ISI, de totalen Schooltoets, de rapportcijfers en de persoonlijklieidscores, in

totaal weer 17 variabelen.
Voor groep a bedroeg Bartlett's V voor het eerste advies 234.91 en voor het tweede advies
255.09 (df = 85; p < 0.005); voor groep b respectievelijk 235.59 en 288.42 (df = 85; p <
0.005). Voor het eerste advies werd in beide analyses op 5% niveau slechts één discrimi-
nant-funktie geïdentificeerd; voor het tweede advies voor groep a één discriminant-funk-
tie op 5% niveau en voor groep b twee discriminant-funkties op 5% niveau maar slechts
één op 1% niveau. De correlaties tussen de zeventien variabelen en de eerste discriminant-
funktie zijn vermeld in Tabel 3, voor groep a, en in Tabel 4 voor groep b.
Wat betreft de subtestscores lopen de correlaties weinig uiteen. Negatieve waarden komen
in het geheel niet voor, slechts voor twee tests is de correlatie niet groter dan .30.
Opmerkelijk is wel dat dit in beide gevallen intelligentiesubtests betreft, nl. soortbegrip
woorden en draaien. De gegevens die zijn opgenomen in Tabel 4 zien er minder globaal
uit. De groep persoonlijkheidsgegevens wordt in belangrijkheid volledig overschaduwd
door de capaciteitsgegevens. Opnieuw valt op dat de correlatie van het ISI-intelligentie-in-
dex met de somscore vergeleken met de prestatie-variabelen aan de lage kant blijft.
De analyse zal nu worden voortgezet voor een viertal groepen van variabelen. We zagen
dat de persoonlijkheidsgegevens gekoppeld aan capaciteitsgegevens slechts een zeer gerin-
ge bijdrage leverden aan de discriminant-funktie; de correlaties met die funktie varieerden
van .125 (P) tot -.131 (Fc). Op de negen persoonlijkheidsaspecten afzonderlijk zullen nu
verschillende analyses worden- uitgevoerd om te bezien (a) of men op basis van uitduitend
deze gegevens kan differentiëren tussen (de) onderscheiden advies-categorieën en (b) wat
het relatieve belang van iedere variabele is zowel wanneer het gaat om de zes categorieën
als geheel als in het geval een vergelijking wordt gemaakt tussen specifieke advies-catego-
rieën.

Om soortgelijke redenen zullen ook resp. de ISI-subtests en de schoolsubtoetsen, waar-
over op grond van de in tabel 3 vermelde gegevens weinig kan worden gezegd, apart
worden bekeken. Tot slot zal een groep variabelen worden onderscheiden, waarvan op
voorhand kan worden aangenomen dat de daarin gebundelde informatie zich het best
leent om tussen de categorieën te kunnen differentiëren. Bedoeld worden de twee ISI-to-
talen, de twee toetstotalen en de rapportcijfers rekenen en taal. Weliswaar blijkt uit tabel

4 dat ook de beide andere rapportcijfers fioog met de discriminant-funktie correleren,
maar de gevonden waarden blijven toch onder die van rekenen en taal terwijl bovendien
de vergelijkbaarheid tussen de drie samenstellende delen van de groep variabelen, ISI-
Toets-Rapport, groter is wanneer geschiedenis en aardrijkskunde buiten beschouwing
bhjven. In tabel 5 zijn de resultaten samengebracht van de discriminant-analyses voor de
genoemde vier groepen.

Bartlett's V bedroeg bij het eerste advies 63.85 (df = 45; p < 0.05), bij het tweede advies
86.57 (df = 45; p < 0.005). Op 5% niveau bleek in beide gevallen slechts één discriminant-
funktie significant te zijn. De relatieve inbreng van iedere variabele, blijkend uit de corre-
latie met de discrhninant-funktie, loopt weinig uiteen. Als enige uitzondering kan worden
gewezen op de variabele testattitude, die met name bij het eerste advies slechts zeer laag
correleert met de discruninant-funktie. Hoewel niet bijzonder overtuigend kan dus op
basis van de gemeten persoonlijkheidsaspecten worden gedifferentieerd tussen de zes
advies-categorieën. Daarmee is uiteraard nog niet gezegd dat ook tussen ieder categorieën-
paar kan worden onderscheiden. Inspectie van de gemiddelden suggereert wel bepaalde
tendenties. Met name het VWO lijkt zich op enkele variabelen van de overige groepen te
onderscheiden; lagere gemiddelden op enkele 'angst'-variabelen, zoals F-, Fc, N en NS en
juist wat hogere op F+ en het prestatiemotief (P). Wat het eerste advies betreft echter

■n
-a

S
>

•c

werd Hotelling's T^, de toetsingsgrootheid bij de tweegroeps discriminant-analyses, geen
enkele maal significant, bij het tweede advies gebeurde dit slechts in een beperkt aantal
gevallen.

Bartlett's V is voor het eerste advies 190.69 (df = 45; p < 0.005) en voor het tweede
advies 211.11 (df = 45; p < 0.005). Slechts één discriminant-funktie bleek op 5% niveau
significant te zijn. Uit de correlaties met de discriminant-funktie valt af te lezen dat ieder
van de negen subtoetsen samenhangt met deze funktie, alleen bij stillezen-klein is de
coëfficiënt kleiner dan .40. Tussen de analyses uitgevoerd voor de twee adviezen bestaan
geen opvallende verschillen. Uit de via tweegroeps discriminant-analyses gemaakte vergelij-
kingen tussen de diverse categorieënparen komt duidelijk naar voren dat op grond van
deze schoolvorderingengegevens niet kan worden onderscheiden tussen de VWO- en de
HAVO-categorie, of tussen de categorieën LAVO, LTO en LHNO onderling. Voor zover
zich tussen categorieën VWO en HAVO verschillen voordoen hebben die betrekking op
alle subtoetsen en wel ten gunste van de VWO-categorie. Tussen LAVO, LTO en LHNO
bestaan geen duidelijke verschillen, hoewel de leerlingen uit categorie LHNO wat lager
scoren op de drie rekensubtoetsen dan de leerlingen in de beide andere categorieën. Duidelijk
is overigens dat VWO-categorie op alle subtoetsen de hoogste gemiddelde score behaalt,
hetgeen eveneens geldt voor categorie HAVO versus MAVO en MAVO versus de overige
drie categorieën.

Bij het eerste advies was Bartlett's V 149.28 (df = 40; p < 0.005); bij het tweede advies
171.63 (df = 40; p < 0.005). Ook in dit geval werd op 5% niveau slechts één discriminant-
funktie gevonden. Blijkens de in tabel 5 opgenomen correlatie-coëfficiënten zijn vooral de
subtests die behoren tot het schoolvorderingendeel verantwoordelijk voor de mogelijkheid
op grond van deze variabelen tussen de advies-categorieën te differentiëren. Verreweg de
laagste bijdrage aan de discriminant-funktie wordt geleverd door subtest draaien. We zien
bij deze subtest dat het verschil in gemiddelden kleiner is dan bij de andere subtests, met
name categorie LHNO behaalt een opmerkelijk hoge score op draaien. M.u.v. 'draaien'
lopen de gemiddelden op dezelfde wijze af als in het geval van de schoolsubtoetsen: VWO
> HAVO > MAVO > LAVO, LTO en LHNO. De laagste pmiddelden, hoewel taai-spel-
ling daar een uitzondering op vormt, worden gevonden bij advies-categorie LHNO. Ook
wanneer we kijken naar de resultaten van de discriminant-analyses per categorieënpaar
vallen overeenkomsten met de schoolsubtoetsen op: geen significante discriminant-funktie
waar het gaat om categorieën VWO versus HAVO of tussen LAVO, LTO en LHNO
onderiing, wel daarentegen bij de overige tweegroepsvergelijkingen.
Op slechts twee uitzonderingen na geldt dat het verwijderen van één der intelligentie-sub-
tests er niet toe leidt dat daarmee ook het significante onderscheid verdwijnt. Taai-stille-
zen lijkt zich in dit opzicht te scharen bij de intelligentie-subtests.

Samenvattend kan worden opgemerkt dat voor zover een significant onderscheid tussen
specifieke categorieën aantoonbaar is niet steeds dezelfde ISI-subtests daar in hoofdzaak
voor verantwoordelijk zijn. M.b.t. de intelligentie-subtests is duidelijk dat de rol daarvan
bij het differentiëren tussen de zes Cito-advies-categorieën ten achter bUjft bij de subtests
die deel uitmaken van het schoolvorderingengedeelte.

Ook in dit geval werd op 5% niveau slechts één discriminant-funktie significant. Bartlett's
V was bij het eerste advies 187.49 (df = 30; p < 0.005) en bij het latere advies 211.11 (df
= 30; p < 0.005). We zien nogmaals een bevestiging van het feit dat de rol van de
ISI-intelligentie geringer is dan van de overige capaciteitsgegevens die meer betrekking
hebben op schoolvorderingsaspecten. Met name bij het 2e advies zijn het, afgezien van de
schoolvorderingen-index van de ISI dat de grootste bijdrage aan het onderscheid levert,
vooral de rekenscores die een belangrijke rol spelen. Het rapportcijfer rekenen bijv. speelt
een wat grotere rol dan het taalcijfer, het rekendeel van de schooltoets is van meer belang
voor het onderscheid tussen de categorieën dan het taalgedeelte. De verschillen in gemid-
delden vertonen opnieuw het volgende patroon: VWO > HAVO > MAVO > LAVO, LTO
en LHNO. Met uitzondering van de rapportcijfers zijn de gemiddelden in categorie LHNO
zeer duidelijk het laagst. Het meest opvallende resultaat van de uitgevoerde tweegroeps-
discriminant-analyses is wel dat, anders dan bij de beide andere groepen capaciteitsvaria-
belen, een significant onderscheid kan worden gemaakt tussen de VWO-categorie en de
HAVO-categorie, echter uitsluitend bij het tweede advies, zij het niet op het hier aange-
houden 1% niveau maar slechts op 5%. De correlaties tussen de zes variabelen en de
discriminant-funktie zijn opgenomen in tabel 6.

Opmerkelijk is vooral de geringe rol van de ISI intelligentie-index en van het rapportcijfer
taal dat bij veel van de andere tweegroepsvergelijkingen een belangrijke bijdrage aan het
onderscheid levert. De correlatie van de ISI schoolvorderingen-index, ofschoon bij het
eerste advies nog de belangrijkste rol spelend, blijft bij het later afgegeven advies onder de
correlaties die de beide toetsscores opleveren. Het taalgegeven van de Schooltoets heeft in
dit geval de meeste betekenis.

Meer algemeen blijkt uit de tweegroepsvergelijkingen de geringe rol van de beide rapport-
cijfers en de intelligentie-index. In slechts een enkel geval heeft het elimineren van één van
deze variabelen tot resultaat dat het significante onderscheid wegvalt. Bij die vergelijking
waarbij de MAVO-categorie betrokken is, lijkt de schoolvorderingen-index de meeste
betekenis te hebben, in enkele andere vergelijkingen (bijv. VWO versus HAVO, LAVO of
LHNO; HAVO versus LHNO) is de belangrijkste rol weggelegd voor de toetsgegevens.

Het valt moeilijk vol te houden dat bepaalde advies-categorieën bestaan uit leerlingen die
zich in termen van de hier gemeten persoonlijkheidsaspecten duidelijk (gemiddeld) onder-

scheiden van andere categorieën. Wat betreft de P.M.T. noemt Hermans de P-schaal
'steeds een valide predictor t.a.v. rapportcijfers', hetgeen van bijv. de SW-schaal niet kan
worden gezegd (Hermans, 1971, blz. 91). De validiteit van P t.o.v. het criterium rapport-
cijfers wordt lager, naarmate de correlatie tussen P en SW hoger is. Bij onze steekproef
bedroeg de p.m.c.-coëfficiënt tussen P en SW .267, wat overeenstemt met hetgeen Her-
mans in een reeks van onderzoeken heeft gevonden (range: .24 tot .78). Bovendien lopen
de correlaties van resp. de P- en de SW-schaal met de rapportcijfers min of meer parallel
met Hermans' resultaten, nl. van .14 tot .28 voor de P-schaal en -.05 tot -.30 voor de
SW-schaal. Er is een zeer zwakke tendens, dat leerlingen die lager scoren op de SW-schaal
of hoger op de P-schaal betere rapportcijfers behalen dan degenen die resp. hoger of lager
op de betreffende schalen scoren. Een soortgelijke, maar zoals bleek niet 'hard' te maken
tendens zien we ook bij de advies-categorieën. De beide hoogste categorieën, VWO en
HAVO, omvatten leerlingen die wat lager scoren op sociale wenselijkheid dan de leerlin-
gen uit de overige vier categorieën, die ongeveer op hetzelfde niveau zitten. Wat de
P-schaal betreft geldt in zekere zin: hoe hoger prestatie-gemotiveerd, hoe 'gunstiger' het
advies, althans wanneer we letten op de categorieën VWO, HAVO en MAVO versus de
overige drie.

Meest opmerkelijk aan de resultaten is wel de geringe betekenis van de ISI-intelligentie bij
het onderscheiden tussen de hier bekeken zes Cito-advies-categorieën. Het verschil qua
gemiddelde intelligentie tussen de VWO en de HAVO-categorie bijv. bedraagt slechts 2.87,
terwijl bij schoolvorderingen het verschil oploopt tot 9.62 punten. Toch is het mogelijk
op grond van alleen de ISI-intelligentie-tests te onderscheiden tussen de adviesgroepen.
Dit bleek uit een één-factor multivariate variantie-analyse waarbij de advies-groepen van
het eerste advies opgevat werden als niveau's van de faktor en de intelligentie-fests als
afhankelijke variabelen; de overschrijdingskans van de gevonden F-waarde is 5 x 10"®. De
relatief geringe bijdrage van de ISI-intelligentie ten opzichte van de ISI-schoolvorderingen
en de Schooltoets werd aangetoond met drie multivariate covariantie-analyses waarbij de
advies-categorieën van het eerste advies weer opgevat werden als de zes niveau's van één
faktor. Hiertoe werden telkens de variabelen van één groep uit Tabel 3 (ISI-schoolvorde-
ringen, ISI-intelligentie, Schooltoets) gehanteerd als covariaten, terwijl de tests uit één van
beide of beide overige groepen gebruikt werden als afhankelijke variabelen. Alvorens een
multivariate covariantie-analyse uit te voeren werd eerst simultaan getoetst of de regressie
coëfficiënten van alle covariaten gelijk' aan nul zijn; deze nulhypothese werd in alle
gevallen verworpen op een significantie-niveau van 1%. Bovendien werd simultaan voor
alle covariaten getoetst of de regressie-coëfficiënten van de advies-groepen aan elkaar
gelijk zijn. Deze nulhypothese werd in geen enkel geval verworpen op een significantie-
niveau van 10%. De resultaten van de multivariate covariantie-analyses staan in Tabel 7.
Hieruit blijkt dat als men de ISI-intelhgentie-tests als covariaten gebruikt de groepen nog
steeds sterk verschillen op ISI-schoolvorderingen en Schooltoetsen. Als men daarentegen
ISI-schoolvorderingen of Schooltoetsen als covariaten gebruikt dan zijn er geen verschillen
meer op de ISI-intelligentie. Bovendien blijkt in deze laatste twee gevallen dat uitbreiden
van de afhankelijke variabelen Schooltoetsen respectievelijk ISI-schoolvorderingen met de
ISI-intelligentie het onderscheid tussen de groepen juist doet afnemen. Tenslotte werd
nog voor elk van de drie groepen covariaten een univariate covariantie-analyse gedaan met
telkens één afhankelijke variabele. Als de ISI-schoolvorderingen als covariaten werden
opgenomen dan zijn er op 5% niveau geen significante verschillen tussen de adviesgroepen
op de afzonderlijke ISI-intelligentie-subtests, terwijl er in het algemeen op 5% niveau wel
significante verschillen zijn op de afzonderlijke Schooltoetsen; een uitzondering hierop
vormt, zoals reeds in de discriminant-analyses naar voren is gekomen, de toets stillezen-

klein. Als men de Schooltoetsen als covariaten neemt dan zijn er op 5% niveau geen
significante verschillen tussen de groepen bij de ISI-intelligentie subtests, terwijl er bij de
ISI-schoolvorderingen op 5% niveau aUeen significante verschillen zijn bij de subtests
taaispelling en woordbeeld dictee. Als men tenslotte ISI-intelligentie als covariaten op-
neemt dan zijn er op vrijwel alle ISI-schoolvorderingentoetsen en Schooltoetsen signifi-
cante verschillen op 5% niveau. We willen in dit verband op het volgende wijzen. De
onderwijzers van de deelnemende klassen werd, op één uitzondering na, gevraagd hun
leerlingen te ordenen op 'intelligentie'. De verkregen rangorde werd gecorreleerd met de
feitelijke scores op ISI-intelligentie en ISI-schoolvorderingen, het resultaat is opgenomen
in Tabel 8.

De opinie van de. onderwijzer inzake de relatieve intelhgentie van zijn leerlingen vertoont
duidelijk meer overeenstemming met hun schoolvorderingenprestaties dan met de intelli-
gentiescores. Het mag dan ook geen verbazing wekken dat dit gebrek aan inzicht m de
inteUectuele vermogens van de leerlingen weerspiegelt wordt in de uitgebrachte adviezen.
Hoewel voor wat betreft intelhgentie dus niet overtuigend levert een ordening van de
gemiddelden voor willekeurig welke capaciteitsvariabele steeds het volgende patroon op:
VWO > HAVO > MAVO > LAVO, LTO, LHNO. De verschillen tussen de laatste drie
categorieën zijn weliswaar gering maar zijn in enkele gevallen toch aanwijsbaar ten nadele

van categorie LHNO. Op de beide ISI-totalen en de twee toetstotalen blijft het gemiddel-
de van deze advies-categorie aanzienlijk onder dat van de overige categorieën. Anders ligt
dat wanneer we kijken naar de rapportcijfers, waar de rollen van LAVO, LTO en LHNO
omgekeerd zijn. In het bijzonder het hoge gemiddelde rapportcijfer taal van de categorie
LHNO valt hierbij op. Wanneer we bedenken dat deze categorie voor 94% uit meisjes
bestaat en categorie LTO uitsluitend jongens telt, en wanneer we bovendien bedenken dat
reeds diverse malen is geconstateerd, dat meisjes juist op enkele taaionderdelen hogere
scores behalen dan jongens (zie b.v. Kohnstamm, 1973, blz. 359) dan lijkt het gevonden
verschil ten gunste van het LHNO voldoende verklaard. In een eenzijdige samenstelling
van de categorieën LTO en LHNO qua sexe-verdeling werd overigens aanleiding gezien
deze groepen ook gecombineerd in de analyse te betrekken.

Dit leverde geen nieuwe gezichtspunten op. De LAVO categorie bleek zich opnieuw bij
geen van de groepen variabelen duidelijk te onderscheiden van de gecombineerde catego-
rie LTO/LHNO welke op basis van de tweegroeps discriminant-analyses wel viel af te
grenzen van de categorieën VWO, HAVO en MAVO.

Ondanks de grote mate van overlap tussen de categorieën, blijkend uit de variantie rond
de gemiddelden, vormen de onderscheiden groepen capaciteits-variabelen een solide basis
om tussen deze adviescategorieën te kunnen discrimineren. Veel minder duidelijk is ech-
ter, zij het m.u.v. intelligentie, hoe de voorspellers naar belangrijkheid moeten worden
geordend, zeker wanneer we er van uitgaan dat een aantal relevante gegevens buiten
beschouwing zijn gebleven. Het spreekt immers vanzelf dat we hier slechts een beperkt
aantal noncognitieve variabelen hebben geanalyseerd. Bij het toekennen van een advies
kan de onderwijzer zich, al dan niet in overleg met ouders en leerling, op allerlei gegevens
verlaten. Kwantitatieve gegevens die de onderwijzer ter beschikking staan zijn rapportcij-
fers en toetsscores, maar zijn uiteindelijk oordeel wordt vermoedelijk door veel meer
factoren beïnvloed. Zo kan hij bepaalde verwachtingen koesteren over uiteenlopende
schoolontwikkelingen van jongens en meisjes, kan hij denken aan omstandigheden thuis,
(bijv. mogelijkheden tot studeren), zich in meer of mindere mate laten leiden door de
voorkeur van ouders en leerling, en houdt hij mogelijk rekening met allerlei noncognitieve
karakteristieken als vlijt, concentratievermogen, etc. Een descriptie van de Cito-advies-
categorieën in termen van dit type factoren in combinatie met capaciteitsaspecten zou
wellicht tot duidelijker profielen leiden dan nu het geval is. De reikwijdte van het beschre-
ven onderzoek is ook om een andere reden aan beperkingen onderhevig. Aansluitend op
hetgeen daaromtrent in de inleiding werd gesteld moet worden beklemtoond dat meerde-
re onderzoeksbenaderingen op dit veld van onderzoek kunnen worden toegepast. Discri-
minant-analyse is, net als de door Sandbergen et al. aangewende factor-analyse, een voor-
beeld van de correlationele aanpak en kan om die reden slechts in beperkte zin inzicht
verschaffen. Het besluitvormingsproces zelf en vooral de niet expliciet gemaakte elemen-
ten die daarbij een rol spelen laten zich op deze wijze niet onderzoeken, de predictieve
waarde van de uitgebrachte adviezen evenmin. En tenslotte moet worden afgewacht in
hoeverre op dit gebied ook experimenteel veld-onderzoek zinvol is naast statistische ana-
lyses van het type dat in dit artikel werd gepresenteerd (Hoogstraten en Mellenbergh,
1978).

Anderson, T.W. An introduction to multivariate statistical analysis. New York: Wiley, 1958.
Bargmann, R.E. Interpretation and use of a generalized discriminant function. In R.C. Bose, l.M.
Chakravarti, P.C. Mahalanobis, C.R. Rao & K.J.C. Smith (Eds.), Essays in Probability and Statis-
tics. Chapel Hill: The University of North Carolina Press, 1970.
Bos, J. & E. Warries. De functie van een toetsprogramma: de Amsterdamse Schooltoetsen in 1969 en

Hermans, H.J.M. Prestatiemotief en faalangst in gezin en onderwijs. Amsterdam: Swets en Zeitlinger,

Hoogstraten, Joh. Alleen of met z'n tweeën. Groningen: H.D. Tjeenk Willink, 1976.

Hoogstraten, Joh. & Mellenbergli, G.J. Relevante variabelen bij het doorverwijzen na de lagere school;

een experiment. Tijdschrift voor Onderwijsresearch, 1978, ï, 161-173.
James, A.T. Distribution of matrix variates and latent roots derived from normal samples. Annals of

Mathematical Statistics, 1964, J5,475-501.
Oosterbaan, J.W. De Amsterdamse Schooltoets in 1969 in relatie tot enige conclusies van 'Het verbor-
gen talent'. Sociologische Gids, 1973, 20, 88-97.
Rao, C.R. Linear statistical inference and its applications (2nd ed.). New York: Wiley, 1973.
Sandbergen, S., J. Elshout, T. Akkerman & A. van Peet. Enkele relaties tussen een intelligentietest en

een studietoets. Ned. Tijdschrift voor de Psychologie, 1972,27, 509-529.
Snijders, J.Th. & V.J. Weiten. De I.S.L-verantwoording en handleiding. Groningen: Wolters-Noordhoff,
1968.

Tatsuoka, M.M. Multivariate analysis: techniques for educational and psychological research. New
York: Wiley, 1971.

Wilde, G.J.S. & H. van Dijl, Voorlopige handleiding bij de Amsterdamse Biografische Vragenlijst voor
kinderen. Amsterdam: van Rossen, 1967.

Voor vele doeleinden, onder meer het nagaan wat de beste methode is van equivalering, of
het plaatsen van de aftestgrens, kan het van nut zijn om een gegeven testsituatie, met
name daarbij de itemscores, te simuleren (bijv. van Naerssen 1978). Een eenvoudig doch
vaak te grof model hiertoe is het bmomiale foutenmodel. Fijnere modeUlen, waarmee
men de werkelijkheid beter kan nabootsen, zijn het normaalogiefmodel en het daarop
hjkende model met logistische itemkarakteristieken. Bij een precieze methode vertaalt
men item voor item de p-waarden en itemtestcorrelaties in moeihjkheidsmdices bj en
discriminatieindices aj met behulp van tijdrovende maximum-Ukelihood-technieken. Het
hier te beschrijven programma gaat echter niet zover dat het alle items zelf precies tracht
na te bootsen maar wil een test genereren, die hetzelfde gemiddelde en dezelfde stan-
daardafwijking heeft van de p-waarden èn bovendien van de itemtestcorrelaties als de
gegeven test. Zo'n test lijkt dus aanmerkehjk meer op de gegeven test dan die welke wordt
opgeroepen met het bmomiale model, waarbij men hnmers de spreidmg van p-waarden en
itemtestcorrelaties niet in de hand heeft.

In het onderhavige programma worden de itemscores gegenereerd met behulp van het
logistische model: de personen zijn (logistisch-)normaal verdeeld over de trek 0; voor een
gegeven waarde van 6 is de kans om een item goed te beantwoorden onafhankeUjk van die
van de andere items; de kans om een item goed te beantwoorden is een logistische functie
van de trek 6, met drie itemparameters: de boven reeds genoemde aj en bj, en voorts de
kans bij onemdig lage trekwaarde c. De laatste wordt constant verondersteld, en wel 0.5
bij twee-keuze-items, o.25 bij vierkeuze-items, 1/vbij v alternatieven.
De vorm van de verdeling van de a; en bj bij de k items, en de correlatie tussen de a; en b;
kunnen wiUekeurig worden aangenomen. Aangenomen wordt dat deze verdelmgen recht-
hoekig zijn en dat de correlatie nul is: de punten ajbi van de k items worden m concreto
voorgesteld als de kmispunten op een rechthoekig rooster van n^ horizontale en n^
vertikale Ujnen; ng en n^ moet men bij het programma invoeren als gehele getaUen
dichtbij de wortel uit k, zodat n^ x n,, geUjk is aan k. Bij bijv. 40 items bUjkt het er
(gelukkig) practisch niet toe te doen of men n^S kiest en n^S of juist omgekeerd.
Voor de omzetting van de logistische modelparameters tot de gewone p-waarde en item-
trekcorrelatie (overeenkomend met de itemtest - productmomenten, maar dan gecorri-
geerd voor valsheid en attenuatie; zie bijv. de Groot en van Naerssen 1975, p. 317, of
Henryssen 1971, p. 151) wordt gebmik gemaakt van de formules van Urry (voor een
afleiding zie van Naerssen 1977). Deze formules worden dus niet gebruikt voor de omzet-
tmg van p-waarden en itemtestcorrelaties in a; en bj, want dat is voor sommige combma-
ties niet mogeUjk (omdat zij bij toeval niet m het normale model passen); omzettmg van
a; en bj m p en rj^ is echter wel altijd mogeUjk.

Het programma begint met een bepaalde, vermoedeUjk veel voorkomende, combinatie van
gemiddelde en spreidingsbreedte van de n^ verschillende a; en de n,, verschillende bj,
berekent voor de k combinaties (items) met de Urry-formules de p-waarden en de item-

trekcorrelaties, en hiervan weer de twee gemiddelden en standaardafwijkingen. Bhjkt de
gemiddelde p-waarde lager (hoger) dan de opgegeven waarde dan wordt de gemiddelde b;
een vaste fractie imb (increment gemiddelde b) kleiner (groter) gemaakt, echter alleen als
de gemiddelde bj niet reeds kleiner (groter) is dan een bepaalde reeds onwaarschijnlijk
lage (hoge) waarde, namelijk -2 (+2). Op analoge wijze wordt de spreidingbreedte van de
b; gestuurd d.m.v. de standaardafwijking van de p-waarden, waarbij een maximumbreedte
van 6 wordt aangehouden. Het gemiddelde van de a;, die geacht wordt tussen O en 3 te
moeten liggen, wordt gestuurd met de gemiddelde itemtrekcorrelatie (geschat als gemid-
delde itemtestcorrelatie gecorrigeerd voor valsheid en attenuatie in het model), en de
spreidingsbreedte van de aj, die niet zo groot mag zijn dat negatieve aj's kunnen ontstaan,
met de standaardafwijking van deze gecorrigeerde correlaties. De vier incrementen zijn zo
gekozen dat, i.v.m. de aannamen van het model, een redelijke nauwkeurigheid van het
resultaat gecombineerd wordt met een snelle berekenmg. Na het aanbrengen van de vier
kleme veranderingen worden de p-waarden en itemtrekcorrelaties opnieuw berekend, enz.
Dit deel van het programma eindigt zodra alle vier de indices reeds minstens eeiunaal door
de gegeven waarde heen zijn gegaan. Het bhjkt dat een 100-500 herhalingen practisch
altijd voldoende zijn.

Na het vinden van de gemiddelden en spreidmgsbreedten van de aj en b; worden met deze
waarden in het tweede gedeelte van het programma met de k combinaties en met het
logistische model (en een random number generator) itemscores gegenereerd bij 50, 100
...., maxn personen, waarbij na elke groep van 50 de p-waarden en productomoment-
item-test-correlaties gecorrigeerd voor valsheid en attenuatie worden berekend. Dit ter
controle, want deze waarden moeten binnen de grenzen van de gewenste nauwkeurigheid
overeenkomen met de ingevoerde waarden.

Het programma geeft ten slotte nog naast de in het eerste deel berekende p-waarden en
itemtrekcorrelaties van de k items ook de gegenereerde p-waarden en gecorrigeerde item-
testcorrelaties zelf, berekend bij de maxn personen, en dan nog de frekwentieverdeling bij
deze grootste groep.

De controle met het genereren van de itemscores is vooral daarom gewenst omdat niet alle
vier de belangrijke indices constant zijn als het aantal personen n toeneemt. Het bhjkt dat
wel de gemiddelde score, dus ook de gemiddelde p-waarde, de standaardafwijking van de
scores, de betrouwbaarheid (KR-20), de standaardafwijking van de p-waarden en de ge-
middelde gecorrigeerde itemtestconelatie zich niet of nauwehjks wijzigen met n, maar
met de standaardafwijking van deze correlaties is dat wèl het geval: hoe kleiner n, hoe
meer deze standaardafwijking geïnflateerd is. Wat men eigenÜjk als input moet opgeven
bij het programma zijn de waarden van de indices bij n oneindig. Wat gemiddelde en
standaardafwijking van de p-waarden betreft kan men vermoedelijk gerust de gevonden
steekproefwaarden opgeven, maar voor de standaardafwijking van de gecorrigeerde item-
testcorrelaties moet men een lagere waarde opgeven dan die welke in de steekproef is
gevonden. Het programma toont nu ook hoe deze waarden met n afnemen. Voorlopig kan
men voorzichtig aannemen dat als de n van de steekproef 50 is dan moet men 50% van de
gevonden waarde van de st.afw. van de gecorrigeerde itemtestcorrelaties nemen als schat-
tmg van die bij n oneindig; bij n = 100 70%, bij n = 200 80%, bij n = 500 90% en pas bij n
= 1000 100%, maar dit kan wel eens anders uitvallen en juist daarom is dit tweede
gedeelte van het programma onmisbaar¹.

1 Het (Pascal)-programma genaamd D 163A is verkrijgbaar bij de vakgroep Methodenleer, Weesper-
plein 8, Amsterdam. Het berekenen van onderstaand voorbeeld kostte 23 sec. Central Processor tijd op
een CDC CYBER 73-28.

Voorbeeld: Veronderstel dat een te simuleren 40-item-test in een bepaalde steekproef een
gemiddelde en standaardafwijking van de p-waarden vertoont van 0.7 resp. 0.15, en een
gemiddelde gecorrigeerde itemtestcorrelatie van 0.3. Volgens boenstaande regel schat men
de standaardafwijking van de itemtestcorrelaties bij een oneindig grote groep op 0.1. Met
deze gegevens berekende het programma met n^ = 5 en nj, = 8 eerst een gemiddelde aj van
0.69 met een spreidingsbreedte van 1.11, en een gemiddelde bj van -0.59 met een
spreidingsbreedte van 3.696 (de breedte van a wordt hier aangenomen als het product van
n^ en het verschil da tussen opeenvolgende a^ analoog wordt de breedte van b gedefi-
niëerd). Deze input staan op de eerste regel van onderstaande tabel. Op de volgende regels
staan de uit de gesimuleerde itemscores berekende testindices, na de eerste 50, 100,200,
500 en 1000 gesimuleerde personen. In dit voorbeeld komt de sr bij n = 1000 goed
overeen met de input-waarde 0.1. Is dit niet het geval dan zal men het programma nog een
of meer keren moeten draaien met nieuwe schattingen van sr.

Om te zien m hoeverre bij de 40 items de uit de gesünuleerde itemscores bij n = 1000
berekende p-waarden en gecorrigeerde itemtestcorrelaties afwijken van de in het eerste
programmadeel met de Urry-formules uit de aj en bj berekende p-waarden en itemtrek-
correlaties, werden ten slotte nog gemiddelden en standaardafwijkingen van de overeen-
komstige verschillen berekend. De uit simulatie gevonden p-waarde bhjkt gemiddeld iets,
namehjk 0.011, lager te liggen dan de met Urry berekende p-waarden en de correlaties
bhjken gemiddeld eveneens iets namelijk 0.005, lager te zijn dan de Urry-waarden. In
beide gevallen is de standaardafwijking van de 40 verschillen slechts 0.044 (tegen 0.15 van
de p-waarden zelf en 0.1 van de correlaties zelf), maar p-waarden noch correlaties verschil-
len significant.

Henryssen, S. Gathering, Analyzing and Using Data on Test Items. In: Thorndike, R.L. Educational

Measurement, 2nd. ed. Washington, 1971.
Groot, A.D. de, en R.F. van Naerssen 1974. Studietoetsen construeren, afnemen, analyseren, 2e dr..

Den Haag; Mouton, 1974.
Naerssen, R.F. van. Grafieken voor de schatting van de helling van itemkarakteristieken. Tijdschrift

voor Onderwijsresearch, 1977, 2 193-201.
Naerssen, R.F. van. Absolute of relatieve aftestgrens - een verkenning met simulatie. Tijdschrift voor
Onderwijsresearch in druk.

ENKELE KANTTEKENINGEN BIJ HET ONDERZOEK NAAR DE HERKOMST VAN
INTELLIGENTIEVERSCHILLEN

De vraag naar de aard en de lierkomst van intelligentie is belangrijk, controversieel en
politiek beladen. Wanneer mocht blijken dat onze verstandelijke vermogens voornamelijk
erfelijk bepaald zijn, kan dat bij behoud van de bestaande omgevingsvariatie consequen-
ties hebben voor het regeringsbeleid inzake de structuur van het onderwijs, de financiering
van compensatieprogramma's en verschillende vormen van paedagogisch onderzoek (vgl.
Eysenck, 1975 en Jensen, 1972). Op dit moment bestaat er geen eenstenunigheid over de
aard van het intellect, wat moge bUjken uit het gegeven dat zowel één als 120 factor
theorieën worden aangehangen. Ten aanzien van de verschillen tussen mensen is in het
verleden vaak gesproken in termen van tweedelingen zoals erfelijkheid en milieu. Vooral
in recenter tijd menen sommigen dat het samenspel tussen kind en omgeving (de inter-
actie- en covariantietermen) van groot belang is voor de verstandelijke ontwikkeling (zie
bijv. Zajonc en Markus, 1975; Riksen, 1977). Anderen stellen zich op het standpunt dat
modellen die berusten op het uitsplitsen en optellen van variantiecomponenten bij de
huidige stand van kennis op dit gebied nog nauwelijks kunnen worden opgesteld (vgl.
Anastasi, 1976; Jaspars, 1977).

Vele sociale wetenschappers sinds Galton die de erfeUjkheidshypothese hebben verdedigd
steunen ten dele op een statistisch verschijnsel dat regressie (drang) naar en egressie
(eveneens drang) vanuit het gemiddelde wordt genoemd (zie bijv. Eysenck, 1972; de
Groot en van Peet, 1974). Het fenomeen speelt zich af binnen één persoon, bij correlaties
tussen eigenschappen van verschillende groepen personen, en bij herhaalde meting van een
eigenschap binnen één groep. (Voor een meer formele behandeling raadplege men Cole-
man (1968).

Tversky en Kahneman (1974) maken gewag van een opvoedkundige regel in een centrum
voor de opleiding van piloten. Bij het leren vliegen schijnt de belangrijkste moeilijkheid te
zijn dat men te allen tijde zachte landingen dient te maken. De instructeurs hadden nu
geobserveerd dat het belonen van een zeer goede landing vaak gevolgd werd door een
slechtere prestatie, en dat omgekeerd het afstraffen van een harde landing vervolgens een
verbetering te zien gaf. De aldus ontdekte 'wet' luidde dat leerprestaties werden bevor-
derd door afstraffing en tegengewerkt door prijzende woorden. De auteurs noemen deze
gedachtengang onjuist, en terecht. Wat is mmiers het geval? De hardheid van een landing
is het resultaat van een groot aantal deels onafhankeUjke factoren die mee of tegen
kunnen zitten. Te denken valt aan zijwind, concentratie, een bobbel op het grasveld,
hoeveelheid slaap, enz. Wanneer een groot aantal landingen wordt gescoord, blijkt een
piloot een zeker gemiddeld prestatieniveau te hebben waarbij zo nu en dan slechte en

goede uitschieters voorkomen. Deze worden veroorzaakt door het feit dat de diverse
factoren die een rol spelen soms toevallig m dezelfde richtmg wijzen. De kans dat alle
invloeden echter gunstig of ongunstig zijn is heel klem zodat herhahng van een daverende
klap of een boterzachte landmg onwaarschijnhjk is. Omdat de instructeurs dit niet door-
zagen, kwamen zij tot hun onverantwoorde opvoedkundige aanbeveling die m de praktijk,
maar dat kon ook niet anders, leek te kloppen. In zijn algemeenheid kunnen we stellen
dat bij metingen van complexe prestaties waarbij vele variabelen onafhankehjk van elkaar
een rol spelen (en dat geldt naar algemene opinie ook voor een intelligentiemetmg) de
kans op een extreem hoge of lage score betrekkehjk kleüi is. Dit betekent dat bij een
volgende metmg de score meer m de richtmg van het (persoonhjk) gemiddelde komt
(regressie naar het gemiddelde). Omgekeerd kan iemand zo nu en dan best een positieve
of negatieve uitschieter vertonen (egressie vanuit het gemiddelde). Een dergelijk proces is
in zekere zm even toevaUig als het werpen met een dobbelsteen.

Dit type drang naar het gemiddelde staat centraal bij de erfehjkheidshypothese over
mteUigentie. De correlatie tussen het IQ van ouders en hun kinderen hgt m de buurt van
+ 0,5. Wanneer men nu een grote groep ouders naar IQ uitsphtst en het IQ van hun
kinderen beziet, vmdt men een resultaat dat in figuur 1 enigszins gestileerd is uitgebeeld
(vgl. Eysenck, 1975). De groep ouders met een IQ van 100 krijgen kmderen met eveneens
een gemiddelde van 100. Intelligente ouders hebben echter gemiddeld dommere kmderen,
en domme ouders krijgen kinderen die gemiddeld inteUigenter zijn dan zijzelf (in beide
gevallen regressie naar het gemiddelde, ofwel IQ = 100). We zien dat de regressie ouder-
kind sterker is naarmate de ondergroep extremer in de verdehng zit. Kinderen van ouders
met een zeer hoog of zeer laag IQ vertonen een verschil van wel 15 punten, maar dit
krimpt m tot slechts 5 punten bij waarden die zich in de buurt van het gemiddelde
bevinden. Eysenck (1975) en vele anderen zien dit verschijnsel als een aanwijzmg voor de
vererving van mtelUgentieverschillen. Hoe is immers, zo zegt Eysenck, te verklaren dat
kmderen van inteUigente ouders ondanks optünale scholings- en opvoedmgsmogehjkheden
dommer worden en omgekeerd?

De figuur kan de indruk wekken dat intelligentieverschillen na enkele generaties zijn
uitgewist. Wat er volgens Eysenck et al. gebeurt, is uitgebeeld in figuur 2. We zien dat de
kinderen van de middelmatig inteUigente ondergroep verspreid worden over de verschil-
lende IQ klassen. De variatie Ugt echter symmetrisch om de oorspronkelijke waarde zodat
het gemiddelde van ouders en kinderen 100 bUjft. Er zijn veel minder zeer inteUigente
ouders (en dus ook minder kmderen) en een deel van hen heeft een lager IQ (regressie).
Hetzelfde geldt voor de relatief domme ouders die gemiddeld mteUigentere küideren
krijgen.

De figuur toont dat zich redistributie voordoet, d.w.z. het gemiddelde en de variantie van
de verdeling bhjven constant en de geschiedenis herhaalt zich (de kinderen krijgen weer
kinderen die regressie vertonen, enz.). Over de interpretatie van deze gegevens laat
Eysenck geen misverstand bestaan. Op pag. 132 schrijft hij: 'ToevalUge genenspUtsmgen
en nieuwe genencombmaties zijn voor deze effecten verantwoordeUjk; genetisch gezien is
dit precies wat verwacht zou worden'. Eysenck bedoelt dat mteUigentie zgn. polygene-
tisch bepaald zou worden, d.w.z. er is sprake van een groot aantal genen waarvan de
effecten klein, vergehjkbaar, onafhankeUjk en additief zijn en die - m onze termmologie

- mee of tegen kunnen zitten. Volgens Eysenck is de regressie dus te danken aan de
genen die voor een voortdurende herverdeling van intelhgentie zorgen (en volgens
Eysenck ook voor inkomen, beroep en sociale klasse), en hij voegt toe dat geen sociaal
systeem het kan halen bij de genadige genetische wetten die er voor zorgen dat strikt
genomen geen kastensysteem kan ontstaan.

Tenemde het mes aan twee kanten te laten snijden stelt Eysenck voorts dat het verschijn-
sel ook een /«directe aanwijzing bevat voor de juistheid van zijn theorie. De regressie gaat
volgens hem hjnrecht in tegen hetgeen op grond van een omgevingstheorie (wat dat ook
moge zijn) verwacht zou worden. Opmerkingen met een vergelijkbare strekking vmdt men
bij de Groot en van Peet (1974). Jensen (1972) grijpt m dit kader terug op Galton, Burt
en de erfehjkheidsleer. Hij stelt dat de regressie bij mteUigentie vergelijkbaar is met die
van hchaamslengte en postuleert dat de laatste goed past in een polygenetisch model.
Jensen vermeldt echter niet dat de genetica nog steeds geen bevredigend model op heeft
kunnen stellen over de (vererving van) lengte, om nog maar te zwijgen over veel minder
grijpbare factoren zoals inteUigentie (vgl. Lewontin, 1975). Bij een discussie over dit
punt merkte Eysenck op dat hchaamslengte nu juist zo'n goed voorbeeld is omdat de
meting daarvan niet met fouten van betekenis is behept. Dit is echter in zoverre niet aan
de orde dat ook bij lengte de correlatie veel kleiner is dan 1. De analogie-redenering lijkt
derhalve weinig krachtig. Wat zou er aan de hand kurmen zijn?

De correlatie tussen het IQ van ouders en kinderen ligt in de buurt van + 0,5. Als we het
IQ van een groep ouders hebben gemeten en gaan kijken hoeveel kinderen weUc IQ
hebben, vinden we een puntenwolk van een type dat in tabel 1 met simpele getaUen is
weergegeven. De gestippeld weergegeven regressielijn geeft, uitgaande van het IQ van de
ouders, de 'beste gok' weer ten aanzien van de score van hun kinderen. We zien dat ouders

met een IQ van 100 kinderen hebben met een gelijk gemiddelde. Bij ouders met een IQ
van 70 voorspellen we bij de kinderen een waarde van gemiddeld 85 (dus 15 punten
'winst'), en omgekeerd 'verhezen' de kinderen van ouders met een IQ van 130 gemiddeld
15 punten, een en ander zoals ook weergegeven in figuur 1 en qua strekking overeen-
komend met figuur 2. De tabel toont dat regressie naar en egressie vanuit het gemiddelde
op kunnen treden als a) de correlatie onvohnaakt is en b) we een lineaire predictor
gebruiken om op grond van het een iets over het ander te zeggen.

Als sprake is van variabelen die normaal verdeeld zijn (hchaamslengte, borstomvang) of
die in een normale verdeling worden geperst (die van het IQ) kan de mate van regressie
met een vuistregel worden aangegeven. Bij een correlatie van 0,5 zal de afwijking van het
gemiddelde van de kinderen ongeveer de helft zijn van de afwijking van het gemiddelde
van de ouders. We zien in figuur 1 inderdaad dat ouders met een IQ van 120 kinderen
krijgen die gemiddeld ongeveer 10 punten terugwijken. Dankzij het feit dat de correlatie
tussen ouders en kinderen betrekkelijk laag is, is er regressie. De moeilijkheid is echter dat
correlaties en de verschijnselen die daarmee samenhangen niets zeggen over oorzaken.
Regressie is een oud en berucht statistisch probleem dat als zodanig voor geen enkele
theorie pleit. In een recent artikel wekt Eysenck (1977) op het eerste gezicht de indruk
dat een kiem van twijfel m hem is gezaaid. Na zijn argumenten over het polygenetisch
model nogmaals te hebben weergegeven schrijft hij op pag. 13: 'It is sometimes suggested
that the phenomenon (fig. 1) is merely a statistical artifact, due to statistical regression
produced by the observed correlation between parents and children. This is not an ex-
planation because it takes for given some of the things that require explanation, such as

Gestileerde relatie tussen het IQ van ouders en hun kinderen, uitgaande van een correlatie r = + 0,5.

the maintenance, from generation to generation, of equal IQ variances, or the existence of
marked social mobility'. Dit nu Ujkt op een ietwat onredelijke wijze van argumenteren.
De constructie van het meetinstrument en de bewerking van de scores is immers zodanig
dat de gegevens in een normale verdeUng gepast kunnen worden. De tests worden na
verloop van tijd wel opnieuw gemaakt of bijgesteld, maar men zorgt er voor dat het
gemiddelde (100) en de variantie (meestal 15^ = 225 IQ punten) behouden bUjven.
InteUigentie, zo zegt Jensen terecht, is evenals electriciteit gemakkeUjker via operationele
definities te vangen dan nauwgezet te omschrijven. Voorts geldt ten aanzien van de sociale
mobiUteit dat gedacht zou kunnen worden aan hetzelfde mechanisme dat bij de vUegtuig-
landingen ter sprake kwam: de sociale klasse wordt bepaald door een groot aantal facto-

ren die mee of tegen Icunnen zitten met als gevolg dat sociale mobiliteit wellicht ten dele
een variant is van in essentie hetzelfde regressiefenomeen. De ouder-kind regressie bij
mteUigentie vinden we terug m de vader-zoon regressie met betrekking tot beroepsgroe-
pen ahas sociale klasse (zie hiervoor Eysenck, 1975).

Als een groep jonge küideren twee keer wordt getest vmden we na een pauze van een
aantal maanden een test-hertest correlatie van ten hoogste ongeveer 0,6. Dit lage getal
heeft weUicht verschiUende achtergronden. Een reden zou kunnen zijn dat e.e.a. voort-
vloeit uit de onbetrouwbaarheid van de test. Een dergelijke opmerkmg is echter nauwe-
lijks terzake omdat de onbetrouwbaarheid deel uitmaakt van het fenomeen dat we onder-
zoeken. (Volgens Hopkms (1969) geldt dat de test-hertest correlatie toeneemt naarmate
de pauze tussen de metmgen korter is. De geringe waarde die we bij jonge kinderen vmden
m geval van een hermetmg na enkele maanden tot jaren, wordt volgens velen voor een
belangrijk deel veroorzaakt door de griUigheid van de mtellectuele ontwikkeUng, dan wel
door de omstandigheid dat een test voor een kind van drie jaar uit andere typen items
bestaat dan een test voor een ouder kind.) Stel dat zowel bij de pre- als de posttest een
normale verdeUng wordt gekozen met een gemiddelde van 100 en een standaarddeviatie s
= 15 (wat voor de meeste tests geldt). De standaard-schattingsfout (s is dan ongeveer
s„(l-r^)r 12 IQ punten. In figuur 3 is uitgebeeld dat Is ongeveer 68% omvat van het
oppervlak onder de normale verdeUng, met 2s correspondeert ongeveer 96% en met 3s
ongeveer 100% (in feite iets mmder, we hebben afgerond). We bekijken een groep kmde-
ren die bij de eerste test aUemaal 70 scoorden. De regressie voorspelt dan dat hun afstand
tot het gemiddelde bij de hertest m zal krimpen tot gemiddeld 100 - (0,6 x 30) = 82. We
verwachten dus dat zij een gemiddelde zuUen scoren van 82 IQ punten met een standaard-
deviatie van 12 punten. In figuur 3 zien we dat 84% (34 + 34+ 14 + 2) een 'winst' boekt
van 1 IQ punt of meer, de helft (34 + 14 + 2) krijgt er 12 punten of meer bij, 16% (14 +

Figuur 3. Oppervlak onder de normale verdeling tot 3 standaarddeviaties (s) met te verwachten
nieuwe IQ waarden bij een test-hertest correlatie r = + 0,6.

2) gaat 24 punten of meer omhoog en rond 2% krijgt er bij de hertest 36 punten of meer
bij en wordt van diep debiel dus boven normaal. Het omgekeerde wordt verwacht bij de
intelhgente kinderen met een IQ van 130: 2% van hen verüest bij de hertest 36 punten of
meer en zakt dus naar een subnormaal niveau.

Deze variant van regressie heeft een vervelende rol gespeeld bij pogingen tot het verhogen
van het IQ. Immers, als de groep met een IQ van 70 op de eerste test verkozen wordt om
deel te nemen aan een compensatie-programma, is de kans groot dat men een significante
verbetering aantreft. Deze behoeft echter niets met de behandeling te maken te hebben
gehad en zou evengoed opgetreden kunnen zijn als tijdens de periode tussen de tests niets
met de kinderen was gedaan. Men zal tegenwerpen dat een controlegroep uitsluitsel kan
verschaffen. In beginsel is dat juist, maar ook dan zijn fouten mogelijk. Een onderzoeker
observeert dat kinderen uit de middenklasse een IQ van gemiddeld 100 hebben, terwijl
kinderen uit een lagere sociale klasse gemiddeld 80 scoren. Hij besluit kuideren met een
IQ van omstreeks 80 van beide groepen extra onderwijs te geven of een leerpil te verschaf-
fen. De uitkomsten zullen zijn dat de kinderen uit de middenklasse wat mtelligenter zijn
geworden en dat de anderen op hetzelfde niveau zijn gebleven. Een dergelijke uitkomst
hgt voor de hand omdat de kinderen van de eerste groep extreem lage scores te zien gaven
t.o.v. het gemiddelde van hun populatie zodat zij regressie naar het gemiddelde konden
vertonen. De tweede groep bevond zich echter in de buurt van het gemiddelde en was dus
niet in de gelegenheid regressie te laten zien. Deze fout is o.a. bij het project Head Start
vaak gemaakt (zie Campbell en Erlebacher, 1975). Verschillende methodische ingrepen
zijn tegen dit soort artefacten bestand (Stanley, 1967; Molenaar en Tomas, 1978). De
simpelste is dat men groepen samenstelt op basis van grote, volgens het toeval uit verschil-
lende populaties getrokken steekproeven waarna de exemplaren op grond van lotmg over
experimentele- en controlegroep worden verdeeld.

Correlaties zeggen niets over oorzaken. Evenmin verschaffen verschijnselen die met onvol-
maakte correlaties te maken hebben (zoals regressie naar het gemiddelde) informatie over
het mechanisme dat daarvoor verantwoordelijk is. Als De Groot en van Peet (1974,
Eysenck (1975) e.a. stellen dat figuur 1 niet door een milieutheorie verklaard kan wor-
den, bewijzen ze daarmee nog niets met betrekking tot het aanlegmodel. Het laatste kan
juist zijn, maar dat hoeft niet. Men zou immers ook kunnen zeggen dat kinderen van
intelligente ouders gemiddeld lager scoren omdat zij een groot deel van het etmaal m een
intellectueel minder sthnulerende omgeving (buurt, Sthool, sportclub, verdere familie)
doorbrengen en omgekeerd. Noch het een, noch het ander laat zich dnect vanuit regressie
aantonen. Dat drang naar het gemiddelde met toeval te maken lijkt te hebben, zegt niets
over genencombinaties, miheu of wat dan ook.

De genetici beschouwen de regressie als een inhoudehjk argument voor hun theorie. Dat is
al zo sinds Galton die er op voorhand van overtuigd was dat mteUigentieverschillen
erfelijk waren. De gang van zaken zou eigenlijk omgekeerd moeten worden: pas op het
moment dat het erfeÜjkheidsmodel klopt, zou men misschien kunnen overwegen de re-
gressie te mcorporeren. Tot dusver wordt met twee maten gemeten. Zonder dat men weet
of, en zo ja op welke wijze, vele (?) genen met de ontwikkeling van verstandelijke vermo-
gens te maken hebben, wordt de regressie alvast opgevat als een emphrisch argument.
Zodra een onderzoeker uit een ander kamp beweert dat het IQ verhoogd kan worden tot

buiten de 10 ä 20% variantie die de genetici voor omgevingsvariabelen reserveren, wordt
hij neergesabeld door de regressie op te vatten zoals dat hoort, d.w.z. als een statistisch
verschijnsel dat tot artefacten kan leiden. Men vindt deze teneur bij Eysenck (1975),
Jensen (1972), alsook in de discussie tussen De Groot en Van Peet enerzijds en J.L. Pe-
schar anderzijds in dit tijdschrift, 1975. Of er voldoende aanwijzingen zijn om een erfe-
Üjkheidstheorie aan te gaan hangen is een ander verhaal.

Anastasi, A. Common fallacies about heredity, environment, and human behavior. In: W.A. Mehrens
(Ed.) Readings in measurement and evaluation in education and psychology. New York, Holt
Rinehart and Winston, 1976.

Campbell, D.T. & Erlebacher, A. How regression artifacts in quasi-experimental evaluation can mistak-
enly make compensatory education more harmful. In: E.L. Struening en M. Guttentag (Eds.)
Handbook of evaluation research. London, Sage Publication, 1975.

Coleman, J.S. The mathematical study of change. In: H.M. Blalock en A.B. Blalock (Eds.) Methodolo-
gy in social research. New York, McGraw-Hill, 1968.

Eysenck, H.J. Intelligence, education and the genetic model. Ongepubliceerd manuscript, Leiden,
1977.

Groot, A.D. de & Peet, A.A.J. van De toekomst van de individuele verschillen. R.I.T.P. memorandum
46, 1974.

Hopkins, K.D. Regression and the matching fallacy in quasi-experimental research. The Journal of
Special Education, 1969, 3, 4, 329-336.

Jaspars, J.M.F. Onderwijs en de IQ controverse. Weekblad voor leraren, sept. 1977.

Lewontin, C. Genetic aspects of intelligence. Ann. Rev. of Genetics, 1975, 387-405

Molenaar, I.W. & Tomas, A. Psychometrics in subgroups, or regression to the mean revisited. Tijd-
schrift voor Onderwijsresearch, 1978, 4, 152-160.

Riksen-Walraven, J.M.A. Stimulering van de vroeg-kinderlijke ontwikkeling. Amsterdam, Swets en
Zeitlinger, 1977.

Stanley, J.C. Problems in equating groups in mental retardation research. The Journal of Special
Education, 1967,7, 241-256.

Tversky, A. & Kahneman, D. Judgement under uncertainty: heuristics and biases. Science, 1974,185,
1124-1131.

Zajonc, R.B. & Markus, G.B. Birth order and intellectual development. Psychological Review, 1975,
82, 74-88.

Herverkaveling hoger onderwijs; persoonlijke reacties op de Nota Hoger Onderwijs in de
Toekomst

'HerverkaveHng hoger onderwijs' is een bundehng van kritische opstellen, waarin twaalf auteurs -
vogels van diverse pluimage - de Nota' Hoger Onderwijs in de Toekomst (H.O.T.-nota) onder een
multi-disciplinaire microscoop leggen.

Hun kritiek is veelal constructief; steeds ongezouten; de argumentaties waarop de conclusies stoelen
lijken zorgvuldig te zijn opgezet. Stilistisch valt, hier en daar, ook nog wel iets te beleven. Daar het in
het kader van een boekbespreking minder zinvol lijkt een soort samenvatting van de essays na te
streven - de materie is complex; de (twaalO invalshoeken zijn heterogeen - moeten we ons beperkin-
gen opleggen. Door uit het geheel een aantal saillante uitspraken te lichten, hopen we de lezer althans
wat sfeer te laten proeven.

De onderwijspolitieke ontwikkelingen gaan snel. Op het moment dat deze boekbespreking wordt
geschreven rolt 'Hoger Onderwijs voor Velen' van de persen van de Staatsuitgeverij. De vraag kan rijzen
of kritische reacties op de onder Van Kemenade in januari 1976 - en dat lijkt al weer erg lang geleden
- uitgebrachte H.O.T.-nota, niet goeddeels achterhaald zijn. We menen dat dit om tenminste twee
redenen niet het geval is. In de eerste plaats vormt de problematiek, aangesneden in de H.O.T.-nota,
een topic dat nauwelijks minder 'hot' is, dan twee of drie jaar geleden. In de tweede plaats vertonen
veel van de in 'Herverkaveling hoger onderwijs' gebundelde bijdragen een zodanige diepgang en kwali-
teit dat bepaald niet van verbale ééndagsvliegjes kan worden gesproken. Maar de lezer moet zelf maar
oordelen.

J. Dronkers komt in een bijdrage getiteld 'Grenzen aan het hoger onderwijs' tot de slotsom dat de
bewindslieden zich ten onrechte op de vraag hebben geconcentreerd hóe het hoger onderwijs voor
velen er in de toekomst uit moet zien, maar zich onvoldoende hebben beziggehouden met de vraag óf
het mogelijk zal zijn binnen het hoger onderwijs voor velen de consequenties op te vangen van de
maatschappelijke verhoudingen, gesymbohseerd in de sleutelmacht van het onderwijs en de sociale
ongelijkheid. 'De grenzen van de mogelijkheden van het onderwijs als correctiemiddel op onze maat-
schappelijke tegenstellingen, lijken bereikt' aldus de slotzin van zijn conclusie.

A.M.P. Knoers vergelijkt de auteur van de H.O.T.-nota met baron Hausmann (de magistraat die Parijs
zijn brede boulevards gaf): 'Hier is een architect aan het werk geweest of liever wellicht een planoloog
of stedebouwkundige die de grote lijnen schetst van de 'onderwijsstad" van de toekomst. Deze stad
kenmerkt zich door brede boulevards en ruime gebouwen, meer dan door het rommelige - maar
misschien toch leefbaarder en veel kleuriger - gewirwar van kleine behuizingen en optrekjes.' Knoers
signaleert een aantal knelpunten in de H.O.T.-nota, waarbij hij zich met name bevreesd toont dat de
doorstromingskansen vanuit de - als eindopleidingen geplande - algemene opleidingen wel eens gering
zouden kunnen zijn.

A. Wattel komt tot de conclusie dat de voorgestelde hervormingen binnen de huidige arbeidsstructuur
niet tot positieve resultaten zullen leiden. Wat de algemene opleidingen betreft zullen - naar zijn
oordeel - de programmamakers, werkgevers en vooral de overheid hun best moeten doen deze oplei-
dingen voldoende niveau te geven en voldoende aantrekkelijk te maken.

W.H.F.W. Wijnen heeft waardering voor de verfrissende kant van de voorstellen. Zo spreekt de in de
nota gegeven aanzet tot een denken over onderwijs in zijn gerichtheid op sectoren van maatschappe-
hjke activiteit, hem bijzonder aan. Zijn hoofdgrieven zijn echter, dat de nota weinig mogelijkheden
voor verkennende experimenten biedt en zo sterk op organisatorische, beheerstechnische en bestuur-
lijke regehngen is gericht.

P.J. Zandbergen plaatst b.m. kritische kanttekeningen bij de conceptie van algemene hogere opleidin-
gen, waarbij hij zich afvraagt of er überhaupt behoefte aan dit type opleidingen bestaat. Sprekend over
de nota in zijn totahteit, vreest genoemde auteur dat de voorgestelde eenheid van stelsel slechts een
eenheid van wetgeving zal worden en daarmee fictie, geen werkelijkheid.

De rij wordt gesloten door de onderwijsjournaUst J.W.M. van Spaandonk, over wie in het voorwoord

wordt opgemerkt dat men hem eens de 'grootste leek die het meest van onderwijs weet' heeft ge-
noemd. Geïnspireerd door de Franse socioloog Alain Touraine, geeft Van Spaandonk een schets van de
richting waarin het hoger onderwijs in de toekomst zich zou kunnen (moeten) ontwikkelen.

'Wij moeten echter proberen nieuwe universiteiten van de grond te krijgen met de dubbele taak ten
eerste om wetenschappelijke kennis voort te brengen en ten tweede om de voorwaarden kritisch te
onderzoeken waaronder die kennis maatschappelijk wordt gebruikt.'
Aldus de uitspraak waarin zijn betoog uitmondt.

Een paar algemene opmerkingen tot slot. Het is één van de verdiensten van de bundel 'Herverkaveling
hoger onderwijs', waarin uiteraard de integratie tussen het W.0. en het H.B.0. één van de centrale
thema'S'vormt, dat nu eens niet universitaire zegslieden de boventoon voeren, maar ook auteurs die
terdege in de wereld van het H.B.0. ingevoerd zijn (A.M.L. van Wieringen, W.C.M. van Lieshout,
K.J. Braakman, e.a.) rijkelijk aan het woord komen.

Een punt van kritiek op de opzet van het boek mag echter niet ontbreken. De redacteuren van
'Herkaveling hoger onderwijs' hebben gemeend aan de eigenlijke reeks bijdragen een voorwoord, een
inleidende samenvatting èn een samenvatting van de H.O.T.-nota zelf - in totaal zo'n kleine veertig
bladzijden - te moeten laten voorafgaan. Nu is, gezien de aard van de materie, het streven om de lezer
een soort leidraad vooraf te bieden op zich lofwaardig. De ernstige vraag luidt echter of men in dit
streven niet te vèr is gegaan. Ter adstructie van deze opmerking het volgende. Op blz. 17 kan men o.m.
lezen dat drs. J.A.M. Weterman - deskundig op het gebied van onderwijs en vorming voor volwassenen
en op het gebied van sociaal-pedagogisch onderwijs in het H.B.0. - de zaak vanuit algemeen maat-
schappelijk perspectief gaat benaderen. Op blz. 19 wordt vermeld hoe de visie van drs. J.A.M. Weter-
man aansluit bij een bepaald samenlevingsmodel. De geduldige lezer die tot blz. 28 is gevorderd, alwaar
hij verneemt dat Weterman voor meer mogelijkheden voor integratie tussen W.0. cn H.B.0. zal pleiten,
begint zich zo langzamerhand af te vragen wat Weterman er nu zelfvan vindt. Als hij dan op blz. 49 is
beland, het begin van het eigenlijke boek, wordt het opstel van Weterman weer voorafgegaan door een,
bijna een gehele bladzijde omvattende samenvatting: 'Drs. J.A.M. Weterman bespreekt in deze bijdra-
ge ...', etc., etc.

Ondanks deze tot slaperigheid stemmende exegeses vóóraf, is 'Herverkaveling hoger onderwijs' een
lezenswaardig boek. Van Kemenade c.s. kunnen tevreden zijn. Hun nota heeft (alsnog) een stuk schrijf-
en denkwerk van behoorlijke kwaliteit op gang gebracht. Zij krijgen (achteraO overvloedige feedback.
En is dat niet één van de beste dingen die een (bewinds)man kunnen overkomen?

De ontwikkeling van een onderwijsmodel. Een programma van onderzoek op het gebied
van het onderwijs.

Kon. Ned. Aicad. van Wetenschappen. Sociaal-Wetenschappehjke Raad. Amsterdam: N.H.
Uitg. Mij. 1977.

Zoals in het Voorwoord wordt meegedeeld vormt dit 'werkdocument' de afsluiting van de werkzaam-
heden van de Commissie Programmering Onderzoek van het Onderwijs, die in 1973 door de SWR werd
ingesteld. Leden waren, behalve prof. De Moor, voorzitter en schrijver van het rapport, de heer
drs. R. Ruiter, prof. dr. J.A. Stalpers en dr. H.J. Scheffer, secretaris van de SWR.
Blijkens hetzelfde Voorwoord hoopt de SWR met dit werkdocument (nr. 5) 'soortgelijke resultaten' te
bereiken met betrekking tot het onderwijs als eerder bereikt werden met betrekking tot de onderwer-
pen 'arbeidsmarkt' en 'milieubeheersing'. Dit houdt in dat de Commissie en de Raad hopen dat ook dit
werkdocument zal leiden tot een 'nationaal programma' van onderzoek, 'dat de grondslag kan leggen
voor een nationaal, samenhangend beleid met betrekking tot het onderwijs' (p. 6). De pretentie van dit
rapport, althans de door de SWR verhoopte invloed ervan, is dus niet gering. Zij ligt trouwens in de lijn
van de eigen taakstelling van de SWR: 'het sociaal-wetenschappelijk onderzoek en zijn nut voor het
beleid te bevorderen'.

In verband hiermee - en omdat dit niet een wetenschappelijke pubhkatie maar een beleidsrapport is -
wordt dit een ongebruikelijk soort recensie. Een rapport als dit 'roept vele vragen op'; een aantal
daarvan zal ik stellen en beknopt beantwoorden. Dat hjkt een belangrijker zaak dan het leveren van
detailkritiek op de inhoud.

Dat hangt van de definities van beide begrippen af. In Nederland is de onderwijskunde, vooral op
meso- en micro-niveau, op gang gebracht door psychologen en pedagogen; maar dat zijn veeleer
beoefenaars van de 'gedragswetenschappen' (die zich primair met individuen bezig houden) dan van de
'sociale wetenschappen' in engere zin (die zich primair met instituties en maatschappelijke processen
bezig houden).

In ieder geval niet wat de eerstgenoemde categorie betreft; de gedragswetenschappen zijn nauwelijks
vertegenwoordigd. Onder de ruim twintig leden van de Raad treft men slechts twee psychologen aan
(Duijker en Wijngaarden) en één (ortho-)pedagoog (ZuithofQ. Onderwijskundigen zijn zij geen van
drieën. Maar ook wat betreft de sociale wetenschappen in engere zin is in de SWR (behalve De Moor en
Van Heek) weinig onderwijskundige competentie te vinden.
Vraag 3: Rekent de SWR zelf de onderwijskunde tot zijn terrein?
Blijkbaar wel. Gezien het antwoord op vraag 2 moet men echter naar de motieven raden.
Mogelijkheden zijn: (1) 'ruime' definitie (zie vraag 1); (2) de mening dat onderwijsdeskundigheid niet
nodig was voor dit commissiewerk; (3) dc overtuiging ook zo een positieve bijdrage te kunnen leveren
tot 'bevordering van het sociaal-wetenschappelijk onderzoek', etc., ook op dit gebied.
Andere mogelijkheden zijn: (4) annexatie, althans een greep naar de macht - in de lijn van de
algemene machtsstrijd die de daarop niet ingestelde gedragswetenschappen al lang aan het verhezen
zijn, zeker qua beleidsinvloed, en zeker (ook) op onderwijsgebied; (5) bevorderen van de onderwijs-
sociologie en van de bemoeienis met onderwijsproblemen van andere sociale wetenschappen in engere
zin; (6) werkverschaffing voor de onder (5) aangeduide categorieën; (7) streven naar een nieuw
SWR-prestige-succes; (8) ontbrekend inzicht, met name in de inadequate samenstelling van de SWR -
als hij zich tot zulk werk geroepen voelt.

Tussenvraag (zonder nummer): Is het aardig om zulke dingen op papier te zetten (die 'andere moge-
lijkheden')?

Neen. Maar het is wel eens nodig om ook onaardige mógelijke psychologische interpretaties van sociale
gebeurtenissen en processen onder ogen tc zien.

Behalve prof. De Moor, (onderwijs-)socioloog, waren er geen onderwijskundigen Ud van.

Vraag 5: Is de Commissie te rade gegaan bij Nederlandse instanties en deskundigen op het gebied van

Nauwelijks. De Commissie belegde één vergadering met genodigden uit de wereld van de onderwijskun-
de met het doel reacties te krijgen op een toen nog niet definitieve versie van het werkdocument.
Verder moet er eerder enig contact met SVO zijn geweest maar dit had (voor zover ik het heb
begrepen) alleen een oriënterend karakter.

De Commissieleden hoopten vooral reacties en (detail-)kritiek te krijgen op de inhoudelijke kanten van
De Moor's onderwijsmodel. Dat kregen ze niet. De genodigden hoopten vooral: (1) hun gram te
luchten (vragen 2 tot 5), kort maar duidelijk; (2) gehoor te vinden voor hun fundamentele bezwaren
tegen bepaalde uitgangspunten van de Commissie. Hun verwachtingen met betrekking tot (1) werden
begrijpelijkerwijs vervuld, met betrekking tot (2) echter niet. Voor die kritiek - waarover straks meer
- toonde de Commissie géén begrip. Ook in het verslag van de bijeenkomst - dat ik vergeefs heb
getracht te amenderen - komen de argumenten die de genodigde onderwijskundigen naar voren
brachten niet adequaat tot uiting; de SWR wete dat.
Vraag 7: Was die vergadering soms een 'zoethoudertje'?

Dat is weer zo'n 'lelijke' interpretatie (zie Tussenvraag), die men gerust mag afwijzen. Dat doe ik ook;
maar er blijft wel enige twijfel bestaan. In ieder geval werd die indruk gewekt - met name door het
feit dat in het nu voo^thggende, definitieve rapport niet eens melding wordt gemaakt van de bijeen-
komst.

Vraag 8: Welke uitgangspunten van de Commissie (in het werkdocument) werden vooral aangevoch-
ten?

(1) De onderwijskundigen die kritiek leverden, hadden weinig vertrouwen in de diagnose - "versnip-

pering' hoofdoorzaak van kwaUteitstekorten - en nog minder in de prmcipièle tlierapie: 'grootschahg-
heid' zal (vanzelO verbetering brengen.

(2) De onderwijskundigen vonden het onjuist dat de Commissie niet in haar studie had betrokken, en
dat het rapport heenloopt over, het probleem dat zij het belangrijkste achtten: dat van de organisatori-
sche (en fmancierings-)randvoorwaarden die vervuld moeten zijn wil men kwalitatief goed onderzoek
van de grond krijgen - in het bijzonder in de gecompliceerde situatie van het onderwijsonderzoek.

(3) De onderwijskundigen deelden niet het - door vorige SWR-(prestigc-)successen overigens wel
'begrijpelijke' - enthousiasme van de Commissie voor een 'nationaal programma', naar bestaand mo-
del, te superponeren over alles wat er al is en gebeurt in de onderwijsresearch en -beleidswereld.

(4) De onderwijskundigen hadden in het bijzonder ernstige bezwaren tegen het creëren van nóg een
geldstroom erbij, zeker als de middelen, na overleg tussen instanties, uit verschillende bronnen moeten
komen. Hoofdoverweging daarbij was: hoe meer geldstromen en hoe meer instanties, des te geringer
wordt de kans op een goede kwaUteitscontrole.

(5) Sommige onderwijskundigen gingen hierbij zo ver dat zij zeiden: Liever geen geld voor onderzoek,
en liever geen onderzoek, dan onderzoek waarbij de organisatie- en financieringsvorm niet op voorhand
garandeert, dat het mogelijk zal zijn subsidiëringsvporwaarden positief te gebruiken voor bevordering
en optimalisering van de samenwerking en voor bewaking van de wetenschappelijke kwaliteit. Zij
herinnerden er in dit verband aan dat SVO twaalf jaar geleden juist voor dit doel was opgericht, maar
nu wordt klein gehouden en gepasseerd.

(6) De onderwijskundigen waren niet overtuigd van de wijsheid van de keuze vóór 'uitgaan van
beleidsbehoeften', in tegenstelling tot (wat het werkdocument noemt) 'uitgaan van de theorievorming';
zij achtten het alternatief verkeerd gesteld cn de keuze gevaarlijk - gevaarlijk uit een oogpunt van
bevordering van kwalitatief goed onderzoek op het gebied van het onderwijs.

Vraag 9: BUjven deze ter vergadering geuite bezwaren overeind staan nu het definitieve rapport uit is,
en: in het licht van latere ontwikkelingen?

Onverminderd; deels in versterkte mate. 'Onverminderd' voor wat betreft de punten (1) t.m. (5): de
tekst van het werkdocument is in deze opzichten niet veranderd; de Nederlandse situatie ook niet
(afgezien van de grotere schaarste aan middelen). 'In versterkte mate' voor wat betreft punt (6), cn wel
ten gevolge van de recentelijk uitgekomen 'Nota: Meerjarenplan Sociaal Onderzoek en Beleid' van de
Minister voor Wetenschapsbeleid, waaruit een verderfelijke apeliefde voor de sociale wetenschappen
spreekt. Zie hiervoor: A.D. de Groot, Apeliefde voor de gammawetenschappen; kritiek op een beleids-
nota (GMG-Memorandum nr. 03, Amsterdam 1978; tevens 'm Intermediair, 1 september 1978).
Vraag 10: Staat er dan niets méér in het definitieve werkdocument dan destijds in de ter vergadering
gepresenteerde versie?

Jawel. De laatste honderd (van de 160) pagina's van het werkdocument worden in beslag genomen
door een 'Bibliografie van onderzoek op het gebied van het onderwijs'. De verdienste van die bibliogra-
fie is dat zij een indruk geeft van de grote omvang van de bestaande bedrijvigheid. Maar daarmee is het
ook gezegd. Qua professionele verzorging vormen deze honderd pagina's helaas een anti-reclame. Er is
geen toelichting bij: niets over herkomst, bedoeling, definitie van 'onderzoek'; geen aanduiding van
criteria en lacunes; geen jaartallen en uitgevers bij de genoemde publikaties; geen namenregister. De
verantwoordelijkheid voor deze negatieve aanwinst ligt, zo moet men aannemen, bij de SWR en niet bij
SWIDOC, waar de gegevens klaarblijkelijk vandaan komen.
Vraag 11: Wat is de hoofdgedachte van het rapport eigenlijk?

Behalve de aanbeveling dat er een nationaal programma moet komen vooral deze: dat het een goed
idee is de programmering te baseren op een 'onderwijs-model'. De schrijver ontwikkelt zijn model in
het, belangrijkste en langste, hoofdstuk II: Een programma van onderzoek (p. 25-54). Het culmineert
in een schema (p. 54), waarin het hele systeem, met zijn hoofdonderdelen (basis-, voortgezet en tertiair
onderwijs), met de betrokken instanties en met name de belangrijkste probleemgebieden erbij, over-
zichtelijk is bijeengebracht. Men kan niet zeggen (en de tekst zegt ook niet) dat dit 'onderwijs-model'
al een programma is; het moet tot een echt programma worden uitgewerkt - op een wijze die qua
organisatorische opzet in hoofdstuk III: De opbouw en uitvoering van het programma (p. 55-60) in
grote lijnen beschreven staat.

Vraag 12: Wat heeft men aan zo'n onderwijsmodel als basis voor programmering?
Het is een soort kaart, die de geografie van het hele probleemveld toont, met de grove contouren van
sub-probleemgebieden en aanduidingen van witte plekken erin. Het model biedt een globaal overzicht
van wat je allemaal zou kunnen aansnijden, qua onderzoek. Het echte programmeren zou dan bestaan
uit het stellen van prioriteiten: welke 'tekorten aan kennis', waar gelokaliseerd, moeten het eerst
worden weggewerkt? Zo'n kaart kan een nuttig hulpmiddel zijn; al vraagt men zich wel af of het een
goed idee was dit model 'een programma' te noemen.

Voor een wat grondiger analyse van 'wat men eraan heeft' doet men er goed aan allereerst te vragen:
Wat staat er niet op de kaart? respectievelijk: Zijn er belangrijke problemen die op zo'n gemengde
kaart (structuur, instanties, probleemvelden) niet kunnen staan? Denkt men hierover na, dan blijkt het
niet moeilijk voorbeelden te bedenken van belangrijke onderzoeksproblemen die op deze wijze niet in
kaart te brengen zijn - ook niet in de andere schema's (b.v. het variabelenschema op p. 52) die in het
werkdocument te vinden zijn. B.v.: het 'motivatieprobleem'. Een model (of een kaart) is uit de aard
der zaak gebaseerd op structuur- en/of begripsmatige indelingen - die inadequaat kunnen zijn in die
zin dat zij wat er niet in past aan het gezicht onttrekken.

De principiele zwakte van De Moor's sociologisch-organisatorisch geïnspireerde model is te vergeüjken
met die van een staatkundige wereld- of landkaart, als men die (ook) wil gebruiken.voor natuurkundig-
aardrijkskundig en geologisch onderzoek. Zelfs als men al weet wat men wil gaan onderzoeken - b.v.
dc geologische structuur van een bergketen die zich niets van grenzen aantrekt - heeft men weinig aan
zo'n kaart. Gebruikt men hem om problemen te signaleren en daarop een prioriteiten-beleid te bou-
wen, dan is de zwakte nog veel ernstiger.
Vraag 13: Wat kan men niet doen met zo'n model?

Het antwoord ligt al grotendeels besloten in het vorige: (1) denkfouten vermijden; (2) de relevantie
van de te verkrijgen kennis vaststellen - beleids-, maatschappelijke, maar ook wetenschappehjke
relevantie; (3) prioriteiten vaststellen. Dat (3) niet mogelijk is, is al gezegd; maar ook de noodzakelijke
basis daarvoor (2) is niet uit het model te halen. Het echte programmeren moet dus nog beginnen.
Maar nog belangrijker en ernstiger is (1) - zie vraag 14.
Vraag 14: Welke denkfouten bedreigen de gebruiker van zo'n model?

(1) Wat er niet in staat wordt vergeten; wat niet op de kaart staat wordt niet gezien. Consequentie in
dit geval: een sociologisch-organisatorisch geïnspireerde kaart belemmert de perceptie van (b.v.)
psychologisch-onderwijskundige problemen.

(2) Zo'n kaart, met 'witte plekken', bevordert de neiging tot inadequate volledigheidsdrang: vullen
van zichtbare 'lacunes' in onze kennis ongeacht dc vraag of die kennis (beleids-)nodig is en/of (weten-
schappelijk) interessant.

(3) 'Kijken naar het model' (door het beleid, met de onderzoeker als tweede man) komt licht in de
plaats van echt zoeken naar echt goede formuleringen van echte, onderzoekbare en vruchtbare proble-
men (echt zoeken door de onderzoeker, met het beleid als tweede 'man').

(4) Het model gaat fungeren als een oppervlakkige, wetenschappelijk inadequate theorie die het echte
theoretische denken belemmert, althans niet stimuleert.

Ja! Als het maar niet 'de theorievorming' in de bestaande disciplinaire kaders is (psychologie, sociolo-
gie, agologie) maar in het kader van onderwijskunde: theoretisch denken ten behoeve van de ontwikke-
ling van een op het objekt 'onderwijs' (en 'onderwijssysteem') gerichte theorie en basisbegrippen, in
termen waarvan je zonder voortdurende misverstanden, vaagheden en inconsistenties, problemen kunt
analyseren, bespreken en, waar nodig, onderzoeken.

Vraag 16: Als, zoals uit het voorgaande is af te leiden. De Moor's model-aanpak alleen een beperkt
nut heeft en grote risico's van verkeerd gebruik inhoudt, kan men dan op een betere manier program-
meren? En zo ja, hoe?

Het antwoord op de eerste vraag is bevestigend; het antwoord op de tweede zou een nieuw exposé
vereisen. Dat kan hier niet worden ontwikkeld (zie echter o.m. A.D. de Groot, Strategieën voor
Forumconvergentie (Ned. Tijdschr. Psychol. 1977, 32, 7, 397-421) en het al genoemde GMG-Memo-
randum nr. 03). De hoofdgedachte is echter in een paar zinnen uit te leggen.

Tegenover de 'geografische' benadering, met de hierboven genoemde bezwaren, stel ik een 'probleem-
gerichte' benadering. Daarbij is dan een 'probleem' niet een of ander 'tekort aan kennis' (dat uit een
witte plek blijkt) en ook niet iets waarmee een beleidsinstantie 'het moeilijk heeft'. Een probleem is
dan bij definitie een relevante en theoretisch goed gestelde en onderzoekbare vraagstelling. 'Echte'
wetenschappen tonen een ontwikkeling die zich laat beschrijven in termen van zulke probleitien,
waaraan opeenvolgend gewerkt wordt. Zulke problemen doen zich niet 'vanzelf voor; zij ontstaan
door doordenking en herhaalde herformulering van de meer oppervlakkige 'tekorten' en 'moeilijkhe-
den'. Zij komen voort uit probleemanalyses, uitgevoerd door de beste beschikbare onderzoekers in
nauw samenspel met de relevante doelgroepen uit het (tweede en) 'derde publiek' - waarvan 'het
beleid' er één kan zijn.

Kortom, men moet niet uitgaan van een soort inventaris, of kaart, d.i. van vragen als: wat je allemaal
zou kunnen onderzoeken, waar kennis-tekorten liggen, welk actueel informatietekort iemand - be-
leidspersoon of onderzoeker - nu hindert of belemmert. Men moet uitgaan van de vraag welke

problemen, naar liet oordeel van onderzoekers cn onderzoeksconsumenten, wetenschappelijk en/of
maatschappelijk, brandend zijn; en van de vraag hoe men die zo kan analyseren en herformuleren dat
- eventueel - erop gericht onderzoek, gegeven de middelen en gesteld de randvoorwaarden, een
opbrengst kan opleveren aan generaliseerbare kennis, instrumenten en/of lering, waar we echt wat aan
hebben.

Vreemd genoeg is dit waarschijnlijk niet in strijd met wat De Moor c.s. in werkelijkheid willen. Maar de
lezers weten dat niet en kunnen dat niet uit de tekst van het werkdocument opmaken. De samenstel-
lers hebben - minstens - de accenten verkeerd gelegd en de randvoorwaarden verwaarloosd.
Vraag 1 7: Is dit werkdocument een belangrijk rapport?

Helaas alleen in die zin, dat de vrees gewettigd lijkt dat het invloed zal hebben, vooral in combinatie
met de al genoemde Nota (meerjarenplan). Daar staan veel 'erger' dingen in dan verkeerd gelegde
accenten en verwaarloosde randvoorwaarden, namelijk concrete beleidsvoornemens met een onheil-
zame strekking. Misschien is er echter nog iets tegen tc doen - met vereende krachten.

De ondertitel van deze Nijmeegse dissertatie is tevens haar kortste samenvatting: onderzoek bij blinde
kinderen naar de samenhang van verbale intelligentie, de haptische waarneming cn de leeftijd met het
lezen van brailleschrift. Het boekje geeft evenwel aanzienlijk meer dan het verslag van dit onderzoek.
In het eerste hoofdstuk wordt een overzicht gepresenteerd van de literatuur over de braillecode en het
braillelezen. Op dit gebied is het merendeel van het onderzoek niet gemakkelijk toegankelijk; dit
selectief bij elkaar gebracht te hebben is een van de verdiensten van de auteur. Vervolgens worden de
beschikbare gegevens over het proces van het leren braillelezen geordend tegen de achtergrond van drie
leesmodellen, één aangaande de didactiek (Gray-Robinson), één informatieverwerkingsmodel
(J. Mackworth) en één psycholinguïstisch model (Goodman). De keuze van de modellen is arbitrair,
maar naar mijn oordeel verantwoord. Tal van empirische resultaten kunnen er in worden geplaatst,
vooral in het tweede model. Toch blijven de pogingen hier en daar schetsmatig. Een voorbeeld hiervan
is dat juist de zorgwekkende traagheid van het braillelezen (een factor 3 langzamer dan het lezen van
'zwartschrift') niet voldoende d.m.v. de gekozen modellen wordt opgehelderd. Voorafgaand aan het
onderzoek wordt nog verslag gedaan van een volledige inventarisatie van de in Nederland gebruikte
onderwijsmethoden d.m.v. een gestructureerd vraaggesprek met alle leerkrachten die in 1970 betrok-
ken waren bij het leren braillelezen. Ofschoon dit verslag niet erg overzichtelijk is, lijken mij de
gegevens van grote waarde omdat over de methodiek van het braille-onderwijs in Nederland nauwelijks
blijkt te zijn gepubliceerd.

Bij het eigenlijke onderzoek, dat zeven van de elf hoofdstukken van de dissertatie bestrijkt, zijn alle
120 nederiandse blinde kinderen van 6 tot 15 jaar met een normale intelligentie en zonder andere
handicaps betrokken. Het onderzoek pakt twee typen vragen aan. Het eerste type betreft een vergelij-
king tussen blinde en ziende kinderen, met name wat betreft de samenhang tussen 'technisch' en
'begrijpend' lezen. Bij het normale leren lezen daalt met de oefening de correlatie hiertussen snel en
steil. Van groot belang is nu dat er bij het leren lezen van braille veel langer een samenhang blijft
bestaan tussen deze twee maten voor leesprestaties. Lezers van brailleschrift blijven bij het verwerken
van tekst kennelijk aanzienlijk langer afhankelijk van het kunnen herkennen van (delen van) woorden;
blijkbaar vereist de braillecode veel meer ervaring dan zwartschrift alvorens zij 'automatisch' wordt
verwerkt. De implicatie is o.m. dat het aanvankelijk leesonderwijs aan blinden geacht moet worden
niet één jaar te duren, maar ongeveer vier jaar.

Het tweede type vragen gaat in op de samenhang tussen prestaties in het braillelezen enerzijds met de
haptische vaardigheid, de verbale intelligentie, de leeftijd en het mechanisme van de hand- en vinger-
bewegingen tijdens het braillelezen anderzijds. Met behulp van verschillende, niet altijd systematisch
toegepaste multivariate technieken wordt aangetoond dat het haptisch onderscheidingsvermogen

slechts matig correleert met braille-leesprestaties; de correlatie tussen verbale intelligentie en braille-
lezen is hoger. Opvallend is een samenhang tussen cijfers inprenten en leesprestaties bij Winden. De
suggestie dat dit het gevolg kan zijn van een relatief sterk beroep op het korte-duur geheugen tijdens
het opnemen van de braillecode lijkt mij bijzonder interessant. Het blijkt dat gezichtsresten nauwelijks
bijdragen tot goede leesprestaties. Dit in tegenstelling tot de wijze waarop dc handen en de vingers
worden gebruikt. Evenals de geringe bijdrage van het haptisch onderscheidingsvermogen per se onder-
streept dit dc functie van de actieve opname-strategie bij het verwerken van de linguïstische informa-
tie: een uiterst belangrijk resultaat. Het laatste empirische hoofdstuk gaat in een replicatie-onderzoek
na of braillelezen met de wijsvinger beter gaat dan met de middelvinger, links beter dan rechts, en met
twee handen beter dan met één. Alleen het eerste en het laatstgenoemde verschil blijken zonder
voorbehoud te bestaan. Dit hoofdstuk vertoont overigens slechts een minimale samenhang met de
voorgaande. Het empirische werk is helaas over de hele linie niet sterk gestructureerd.
Het slothoofdstuk geeft nog eens aan wat de onderzoeksresultaten kunnen betekenen voor het blin-
denonderwijs. Nog eens, want op heel wat plaatsen heeft Mommers zijn geïnvolveerdheid in de onder-
wijspraktijk al doen bhjken door praktische verwijzingen naar onderwijssituaties. In alle bescheiden-
heid wordt daarbij opgemerkt dat zijn bevindingen wel geen spectaculaire veranderingen zullen teweeg-
brengen in het blindenonderwijs. Ik ben bang dat hij gelijk krijgt, eenvoudig omdat de onderwijsprak-
tijk niet zo ver afstaat van wat thans maximaal haalbaar lijkt. Met sommige didactische suggesties,
zoals bv. het eenvoudig houden van de zinsstructuur van de oefenstof (bij gelijkhouden van de interes-
santheid van de stof, moeten we hopen) zal het blindenonderwijs meer direct zijn voordeel kunnen
doen dan met de tip bij achterbUjvende lezers aandacht te besteden aan het functioneren van het
korte-duur geheugen. Van groot belang vind ik de suggestie bij blinden het lezen maximaal hypothese-
toetsend tc laten verlopen langs alle beschikbare cues (semantisch, syntactisch) en dus met een mini-
mum aan zintuiglijke informatie-verwerking, omdat daarjuist bij het braillelezen de bottleneck schijnt
te zitten. Maar foutieve woord-identificaties op basis van bijna alleen de context, zullen talrijk zijn; en
als nu terugspringen en herziene identificatie niet 'onmiddellijk' maar tastenderwijs verlopen, zoals dat
bij braillelezen nu eenmaal het geval is, zullen hier toch weer extra problemen opdoemen, vrees ik.
Er is wat betreft de tactiele waarneming (of de 'haptiek' - een term van Révész), maar bitter weinig
bekend over bv. verschillen tussen temporele en spatiele stimulatie en kenmerken van de eerste stadia
van informatieverwerking. Op deze punten kan een uitbreiding van onze kennis ons t.z.t. misschien in
staat stellen de visuele handicap beter aangepast te compenseren. Het is eigenlijk treurig dat wij aan de
grote vondst van Braille - puntpatronen aanbieden i.p.v. letters in rehëf - in de afgelopen 150 jaar
nauwelijks iets hebben kunnen verbeteren of toevoegen. De reden is ons gebrek aan inzicht en aan
visie, waardoor tot nu toe slechts belabberde 1 : 1 compensatie geboden wordt. Weliswaar worden geen
letters gebruikt, maar de tekens staan evengoed woord na woord in regels alsof het gedrukt stond! Een
afstemming van het medium op de mogelijkheden van de compenserende modaliteit enerzijds en dc
complexe processen die zich bij de informatie-verwerking voordoen anderzijds, zal pas een ware
doorbraak betekenen.

Het boekje, dat bepaald niet als handboek of studieboek geschreven is, en dat ook niet altijd even
gemakkelijke leesstof biedt, is uitermate nuttig voor studenten en wetenschappers die in de braillecode
en in het blindenonderwijs, met name dat in Nederland, zijn geinteresseerd. Voor degenen die met
soortgelijk onderzoek verder willen gaan zal het nodig zijn ook de afzonderlijke rapporten van het
SVO-project te raadplegen, want détailgegevens bevat deze dissertatie maar weinig. De onderwijsprak-
tijk zal vooral op een 'incidentele' wijie van de vruchten van d'eze studie profiteren; een handleiding
voor het braille-onderricht is nooit het oogmerk van de auteur geweest.

De Nederlandse Stichting voor Psychometrie is op 23 maart 1977 opgericht. De stichting heeft tot
doel de bevordering van de psychometrie in de meest uitgebreide zin des woords. Met ingang van 7
september 1978 is het bestuur als volgt samengesteld:

D.N.M. de Gruijter (R.U. Leiden), voorzitter;
J.M.F. ten Berge (R.U. Groningen), sekretaris;
W.J. van der Linden (T.H. Twente);

Het sekretariaat is gevestigd op Oude Boteringestraat 34, 9712 GK Groningen, tel. 050-116204.
Eerste aankondiging vamle Vierde Onderwijssociologische Conferentie

Op initiatief van de Stuurgroep Onderwijssociologie, het inter-universitair samenwerkingsverband van
onderwijssociologen, zal op 11 en 12 juni 1979 in het Conferentiecentrum Woudschouten te Zeist de
Vierde Onderwijssociologische Conferentie worden gehouden. Het thema van de conferentie is Onder-
wijs-K walificatie-Arbeidsmarkt. Vanuit een onderwdjssociologisch perspectief zal een verbinding wor-
den gelegd tussen nieuwe theoretische benaderingen van het begrip kwalificatie en aanzetten tot
onderzoek van de relatie onderwijs-arbeidsmarkt, waarbij het meer dan alleen om de aansluitingspro-
blematiek gaat.

De voorbereidingscommissie is bezig met een introductie op en inhoudelijke uitwerking van het thema.
Begüi oktober zal dit beschikbaar komen en kan hei worden aangevraagd door allen, die een bijdrage
aan de conferentie willen leveren.

Nadere mededelingen over programma en aanmelding volgen nog. Voor aanvragen en verdere inlichtin-
gen kunt U contact opnemen met:

SISWO, Oude Zijds Achterburgwal 128, 1012 DT Amsterdam (Telefoon: 020-240075)
Ontvangen publicaties

Borgesius, T.G. Een empirisch onderzoek naar het correctie voor raden scoringssysteem. KathoUeke

Universiteit Nijmegen, Instituut voor Onderzoek van het Wetenschappelijk Onderwijs, juni 1978.
Bos, D.J. Empirisch doelstellingen-onderzoek voor het moedertaal-onderwijs (Samenvattend eindver-
slag). S.V.O.projekt 0259. Amsterdam: RITP, 1978.
Bos, D.J. Verslag van een studiebezoek aan NIE, NAEP en CSE in de U.S.A. Amsterdam: RITP, 1978.
Bos, D.J. Corporaal, A.H., Hoeksma, A. & Verloop, N. Een eerste aanzet tot een deelplan onderzoek in
het kader van de ondersteuning ten behoeve van de ontwikkelingsexperimenten KLOS/PA (con-
cept). Amsterdam: RITP; Leiden: RU; Vakgroep Onderwijskunde; Nijmegen: N.LV.O.R., januari
1978.

Brus, B.Th. Zoekend naar een derde weg. Studies met betrekking tot de betekenis van wetenschappe-
lijk onderzoek voor de onderwijspraktijk. Tilburg: Zwijsen, 1978.
Brus, B.Th. Didaktiek naar menselijke maat. Een perspektief? Tilburg, Zwijsen, 1978.
Brus, B.Th. Leren bij Husserl. Tilburg, Zwijsen, 1978.

Qaessen, J.F.M., Galen, A.M. van, & Oud- de Glas, M.M.B. De behoeften aan moderne vreemde talen.
Een onderzoek onder leerlingen, oud-leerlingen en scholen. Nijmegen: Instituut voor Toegepaste
Sociologie, mei 1978 (= Studies over het onderwijs in de moderne talen, deel IV).

Qaessen, J.F.M., Galen, A.M. van, & Oud-de Glas, M.M.B. De behoeften aan moderne talen. Een on-
derzoek onder stafleden en studenten van universiteiten en hogescholen. Nijmegen: Instituut voor
Toegepaste Sociologie, mei 1978 (= Studies over het onderwijs in de moderne talen, deel V).

Qaessen, J.F.M., Galen, A.M. van, & Oud-de Glas, M.M.B. De Behoeften aan moderne vreemde talen.
Een onderzoek onder bedrijven en overheidsdiensten. Nijmegen: Instituut voor Toegepaste Socio-
logie, juni 1978. (= Studies over het onderwijs in de moderne vreemde talen, deel VI).

Commentaar SVO op de nota Meerjarenplan Sociaal Onderzoek en Beleid, SVO memo no 1.

Compaan, E. & Soest, W. van. Voortgezet onderzoek NLO. Analyse van commentaren uit het Inven-
tariserend Onderzoek NLO (deelrapport). Amsterdam: RITP, juni 1978.

Estgen, N. Het schoolsysteem en de beroepsopleiding in het Groothertogdom Luxemburg. Supplement
bij Beroepsopleiding, Informatieblad. Brussel: Commissie van de Europese Gemeenschappen, 1978.

Eindeksamenkandidaten in het avondonderwijs. Amersfoort: Studiecentrum NCVO, Avondscholen-
projekt. Cahier no 7, mei 1978.

Groot, A.D. de. Hoe schakelt men W.O. ,en H.B.O. aan elkaar? GMC-memorandum nr. 1 Universiteit
van Amsterdam, mei-juni 1978.

Groot, A.D. de. Hoe moeilijk is een tertiaire opleiding? Heymans Bulletins HB-78-365-EX. Groningen;
Psychologische Instituten R.U. Groningen, juli 1978.

Kaldenbach, H.K.F. & Timmer, J. Project Schagen. Eindrapportage Deel lil Procesevaluatie. Amster-
dam: Algemeen Pedagogisch Studiecentrum, aug. 1978.

Nijhof, W.J. Interne Differentiatie als een innovatie. Den Haag: Staatsuitgeverij, 1978 (= S.V.O.-reeks
no. 9).

Noordam, A., Ploeg, T.v.d., & Bos, D.J. Instrumenten voor procesevaluatie in onderwijsvernicuwings-
experimenten. Verslag over een deelstudie-project in het kader van de experimenten Middenschool.
Amsterdam: RITP, juni 1978.

Oud, J.H.L. Systeemmethodologie in sociaal-wetenschappelijk onderzoek. Nijmegen: Alfa, 1978.

Roede, E Themagroep motivatie in het onderwijs (SVO-0420) rapportage over de periode 1-1-1977
tot 1-4-1978. Amsterdam: RITP, mei 1978.

Slavenburg, J. (red.). Het project Onderwijs en Sociaal Milieu. Een bundel artikelen opgedragen aan dr.
Jan Grandia bij zijn afscheid als projectleider. Tilburg: Zwijsen, 1978.

Studiestakers in het avondonderwijs. En verslag van een onderzoek onder avondscholieren die hun
MAVO-, HAVO- of VWO-studie voortijdig beëindigen. Amersfoort: Studiecentrum NCVO, Avond-
scholenprojekt. Cahier no 8, juni 1978.

Tomas, CL. De beroepsopleiding in België. Supplement bij Beroepsopleiding, Informatieblad. Brussel:
Commissie van de Europese Gemeenschappen, 1977.

De vijfde fase van het doelstellingenonderzoek Ubbo Emmius/RION: De eerste verwerkings- en analy-
sefase./nfenrnrappo/t DOOTÄ 78-7, Haren: RION, mei 1978.

De zesde fase van het doelstellingenonderzoek "Ubbo Emmus/RION: De tweede beoordelingsfase.
Interimrapport DOUER 78-10. Haren: RION, juni 1978.

Wesdorp, H. Evaluatietechnieken voor het moedertaalonderwijs. Een inventarisatie van beoordelings-
methoden voor de stelvaardigheid, het begrijpend lezen, de spreek-, luister- en discussie-vaardigheid.
(Eindrapport SVO-project 0385). Amsterdam: RITP, aug. 1978.

WegbUjvers van het avondonderwijs. Een verslag van een onderzoek onder personen, die zich inschrij-
ven aan een avondschool voor MAVO, HAVO, of VWO, maar van een daadwerkelijk begin afzien,
in vergelijking met degenen die wel beginnen. Amersfoort: Studiecentrum NCVO, Avondscholen-
projekt Cahier no. 6, mei 1978.

Wolters, M. Van rekenen naar algebra. Een ontwikkelingspsychologische analyse. Proefschrift, R.U.
Groningen, 1978.

■ Bij A.E.M. van Vianen, Een onderzoek naar het lees-leerproces van leerlingen van een 6e klas basis-
/ school met behulp van een oculometer en een kennisrepresentatietechniek, september 1978.

Tabel 2
Percentages 'juiste', 'matige' en 'onjuiste' voorspellingen van schoolsucces op basis van de
SVT-kwalificatie.
jaar:	1971	1972	1973	totaal
'juiste' voorspellingen:	51%	56%	65%	58%
'matige' voorspellingen:	33%	30%	23%	28%
'onjuiste' voorspellingen:	16%	14%	12%	14%

r	figuur 5
le
S = .9
c = .25
	/ /05 ^
		P

	is waar	H, is waar
H„ niet verwerpen	juiste beslissing	fout van de tweede
	met kans 1 - a	soort, met kans ^
wel verwerpen	.fout van de eerste	juiste beslissing
	soort, met kans a	met kans l - p

GROEP	X	AS sd	t(df=23)	x	RES sd	t(df=23)
Experimentele	33,93	13,74		1,21	0,23
(n = 14)			.02 n.s.			.48 n.s.
Controle	33,81	13,78		1,15	0,39
(n = ll)

80-5	= 75	96-5 =	91	112-	5 =	107
80 + 5	= 85	96 + 5 =	101	112 +	5 =	117
84-5	= 79	100 - 5 =	95	116-	5 =	111
84 + 5	= 89	100 + 5 =	105	116 +	5 =	121
88-5	= 83	104 - 5 =	99	120-	5 =	115
88 + 5	= 93	104 + 5 =	109	120 +	5 =	125
92-5	= 87	108-5 =	103
92 + 5	= 97	108 + 5 =	113

Categorie		Jaargang 1			Jaargang 2
	Artikelen	N&C	Boekbespreking	Artikelen	N&C	Boekbesprekingen
1 en 2	11	3	5	12	5	4
3	2	1	1	1	0	0
4	4	6	1	7	0	4
5	1	0	0	0	0	0
6	0	2	0	2	4	0
Overige	0	2	0	0	2	2
Totaal	18	14	7	22	16	10

jaar 1971		jaar 1972		jaar 1973
nominale	ordinale	nominale	ordinale	nominale	ordinale
categorie	school-	categorie	school	categorie	school-
schoolsucces	succes	schoolsucces	succes	schoolsucces	succes-
	score		score		score
LBO-2	2	brugklas	1	LBO-1	1
MAVO-2	4	LBO-2	2	MAVO-1	2
LBO-3	7	MAVO-2	3	HAVO/VWO-1	3
HAVO-2	7	LBO-3	4	LBO-2	4
VWO-2	10	HAVO-2	5	MAVO-2	5
MAVO-3	12	VWO-2	6	HAVO-2	6
LB04	14	MAVO-3	7	VWO-2	7
HAVO-3	16	HAVO-3	8
MBO 1	18	VWO-3	9
MAV04	20
VWO-3	22
HAV04	24
VWO-4	26

Table 1
Mean scores
texts	control group	experimental group
student-texts	4.40	4.11
simulation-texts	6.94	6.07
over-all	5.67	5.09

Thuis (5)	Toets (4)	Buurt (3)	Eigenschap- pen (2)	VWO	HAVO	Advies (1) MAVO	LAVO/LBO	Totaal
ongunstig	laag	laag	ongunstig	0	0	5	14	19
				(0,01)	(0,26)	(5,89)	(14,84)
ongunstig	laag	laag	gunstig	0	3	14	3	20
				(0,45)	(4,76)	(13,72)	(3,08)
ongunstig	laag	hoog	ongunstig	0	0	8	12	20
				(0,08)	(0,28)	(7,26)	(14,38)
ongunstig	laag	hoog	gunstig	1	4	14	1	20
				(2,17)	(4,00)	(13,45)	(2,37)
ongunstig	hoog	laag	ongunstig	0	1	8	11	20
				(0,23)	(1,55)	(10,33)	(9,88)
ongunstig	hoog	laag	gunstig	1	12	7	0	20
				(2,79)	(9,94)	(8,55)	(0,73)
ongunstig	hoog	hoog	ongunstig	0	2	9	9	20
				(0,41)	(3,88)	(9,35)	(8,36)
ongunstig	hoog	hoog	gunstig	3	13	4	0	20
				(2,85)	(14,33)	(4,46)	(0,35)
gunstig	laag	laag	ongunstig	0	0	8	12	20
				(0,09)	(1,01)	(8,12)	(12.78)
gunstig	laag	laag	gunstig	0	10	8	1	19
				(1,45)	(8,97)	(9,28)	(1,30)
gunstig	laag	hoog	ongunstig	0	0 -	6	14	20
				(0,49)	(0,98)	(9,18)	(11.35)
gunstig	laag	hoog	gunstig	6	6	8	0	20
				(6,26)	(6,73)	(8,11)	(0.89)
gunstig	hoog	laag	ongunstig	0	4	12	4	20
				(1,11)	(4,34)	(10,36)	(6,19)
gunstig	hoog	laag	gunstig	7	9	4	0	20
				(5,87)	(12,18)	(3,76)	(0^20)
gunstig	hoog	hoog	ongunstig	0	10	8	2	20
				(1,58)	(8.70)	(7,52)	(4,20)
gunstig	hoog	hoog	gunstig	5	15	0	0	20
				(5,15)	(15,09)	(1.68)	(0,08)
		Totaal		23	89	123	83

Hoogstraten & Mellenbergh					167
Tabel 3
De tabel T134 ontstaan door samen te klappen over de tweede en vijfde variabele in T12345 (Tabel 1).
VWO		HAVO	MAVO		LAVO/LBO
Toets			Buurt
laag hoog Tot.	laag	hoog Tot. laag		hoog Tot.	laag hoog Tot.
laag 0 7 7	13	10 23	35	36 71	30 27 57
hoog 8 8 16	26	40 66	31	21 52	15 11 26
Totaal 8 15 23	39	50 89	66	57 123	45 38 83
Tabel 4
Chi-kwadraten aannemelijkheids-verhouding met			aantal vrijheidsgraden
(AV) en rechter overschrijdingskans (P) voor een aantal modellen.
Model			x' AV	P
I T2345 T12 T13	T14	T15	27,21 33	0,612
11 T2345 T123 T14	T15		26,04 30	0,673
111 T2345 T124 T13	T15		23,60 30	0,790
IV T2345 T125 T13	T14		24,38 30	0,755
V T2345 T134 T12	T15		20,95 30	0,889
VI T2345 T135 T12	T14		25,71 30	0,690
VII T2345 T145 T12	T13		24,25 30	0,761
Tabel 5
Geschatte additieve parameters onder model V, ongestandaardiseerd en gestandaardiseerd met stan-
daardafwijking 1.
				Advies
		VWO	HAVO	MAVO	LAVO/LBO
Combinatie Toets en Buurt
ongestandaardiseerd		-0,26	0,27	-0,03	0,02
gestandaardiseerd		-0,50	1,08	-0,13	0,06
Eigenschappen (ongunstig)
ongestandaardiseerd		-1,05	-0,74	0,29	1,50
gestandaardiseerd		-2,06	-3,00	1,40	5,12
Buurt (laag)
ongestandaardiseerd		-0,39	-0,04	0,18	0,25
gestandaardiseerd		-0,77	-0,16	0,86	0,87
Toets (laag)
ongestandaardiseerd		-0,58	-0,55	0,34	0,79
gestandaardiseerd		-1,13	-2,25	1,67	2,68
Thuis (ongunstig)
ongestandaardiseerd		-0,52	-0,25	0,27	0,50
gestandaardiseerd		-1,01	-1,01	1,29	1,71

x'	AV	P	\
15,58	16	0,483	0,195
23,14	20	0,282	0,222
21,71	18	0,245	0,184
33,62	18	0,014	0,150

	(+) leerl.	midden-leerl.	(-) leerl.
0		5	5
1	7 2	4 9 3	5 2
2	8	3 6 4 3	0 6
3	1
4	5	3
5		7

o		\|fSfn»0»OVO<N \|<NCOCO VÖOOf-'W^ON
o	s, tu	Ifofoiorj-'ocn «-Hcn^mTt-Hvors
a> Q, O O O	w	— fS^ tSTf^O^ i-ii-M IfS \|<S(S 1 f^io leo 1
a> Q, O O O	3,	fr>rsji-t^(Nr-0 r4v£)mt> »oio «N
X rs Th a> Si
X rs Th a> Si	•O	o^ooofSuofSfN oocovoo i>vo\or-Tt
a>	<4-4	rttsvDON v^rofsr^m «ovotS'-^-^
a>	tu	o^ r^ 00 rf xn rf ^Tj-uor- foooot^rs ^^^
^ Ti 0)	<4-1
^ Ti 0)	y b	lovor-vooN fs vooocomr-
c^ TH a> ^ a a>		^ oo ^ vof^'^fs^ 1
c^ TH a> ^ a a>	T3 U.'
^ (N
1	73 tl-'	sdooooonf'»

O	•T3 tu	»oforj-oocs ^ r-i CA ^ ^ ^
ca CJ c § O		ors^r-'tofoo ^Ttr-r- TJ-<NOOO<NO^(N orj-f^órf «rsmr^cnTt-^t rorti-ncs r^mro-Hrt^f^^co
"03 £		^(NfO'ttt-^^ro ^(NTJ-^ r^iOvooOOOT-HïSTt* TJ-IOIOOOOO
'S ^ « .2 1 1 1 1 -O 1 1 1 1 ^ 1

CR-p,f,	CR-p,f	P.o	IR-1
CR-p,f,	SR-1	P„(?)	CR-r,f	7
CR-p,f		K,3 + K,4	SR-1
CR-p,f,	SR-1	K,3 P,j	CR-r,f
IR-c		K, {K,J + K„	SR-d,g,	SR-1
	CR-p,f	P.3	CR-r,f
		P,4 ,	CR-r,f
SR-d,g,	SR-1	K, {K,, (K,,)}	SR-d,g,	SR-d,g
IR-1,	CR-p,f	^17 = Kij	=
CR-p,f	CR-p,f	P.s+K.,	IR-1
CR-P,f,	CR-r,f, CR-r,f	Kjo + Kj,	IR-1
CR-P,f,	CR-r,f, CR-r,f	P.e + K„	CR-p,f,	IR-1

Tabel 3 Discriminant-analyse over sub tests, correlaties met discriminant-funktie			Tabel 4 Discriminant-analyse over totalen, rapport- cijfers en pers. l.h. scores, correlaties met discriminant-funktie
	Ie advies	2e advies		Ie advies	2e advies
ISI-schoolv.:			P.M.T. -P	.125	.137
- rek. cijf.	.478	.523	-F-	-.122	-.075
- rek. red.	.449	.526	-F+	.104	.090
- taal spel.	.530	.521	- Fc	-.131	-.092
- woordb. diet.	.483	.501	- S.W.	-.122	-.123
- taalstiU.	.329	.377	A.B.V. -N	-.068	-.033
			- NS	-.114	-.136
ISI-intell:			- E	.115	.104
- tegenstell.	.314	.375	-T	-.041	-.061
- soortb. wrdn.	.259	.294
- draaien	.116	.115	Rapport:
			- rekenen	.435	.364
Schooltoets:			- taal	.455	.340
- spelling:	.534	.522	- gesch.	.369	.381
- taal 1	.425	.471	— aardr.	.382	.355
- taal 2	.474	.487
- still.gr.	.380	.410	ISI:
- still, kl.	.336	.357	- schoolv.	.711	.686
- rek. 1	.513	.568	- intell.	.328	.329
- rek. 2	.608	.631
- rek. 3	.487	.541	Schooltoets:
- alg. kennis	.436	.484	- taal	.595	.611
			- rekenen	.681	.676

n	m	sd	kr20	mp	sp	mr	sr
_	_	—	—	.700	.150	.300	.100
50	28.52	6.02	.821	.713	.155	.331	.210
100	27.68	6.17	.824	.692	.161	.332	.141
200	28.14	5.84	.805	.704	.158	.316	.124
500	28.44	5.58	.786	.711	.153	.302	.110
1000	28.17	5.77	.797	.704	.151	.309	.104