Een twee-maandelijks tijdschrift voor onderzoekers van onder-
wijs, gewijd aan theoretische, methodologische en profes-
sionele problemen in de onderwijsresearch.
BIBLIOTHEEK DER
RIJKSUNIVERSITEIT
JAARGANG 2
1977
Redactie
Bert Creemers
Hans F.M. Crombag
Jaap Haantjes {S.V.O.-
waarnemer)
Johan Hoogstraten (secre-
taris)
Stefaan Lievens
Robert F. van Naerssen
Marinus J.M. Voeten (se-
cretaris)
Egbert Warries
Wynand H.F.W. Wijnen
Tijdschrift voor Onderwijs-
research is een uitgave van
de Stichting Onderwijsre-
search. De uitgave wordt
mede mogelijk gemaakt
door een subsidie, verleend
door de Stichting voor On-
derzoek van het Onderwijs
te 's-Gravenhage.
RIJKSUNIVERSITEIT TE UTRECHT
-ocr page 2-Tijdschrift voor Onderwijsresearch 2 (1977), nr. 294.
INHOUD JAARGANG 2, 1977
Artikelen
Brink, W.P. van den. Het Verken-Effect 253
Eerland, E. Zie Klerk, L.F.W. de 208
Elshout, Jan., & Loo, S.M. van. Long Range Prediction of Academic Success
of Male and Female Psychology Students 104
Fokkema, Sipke, D. Doelstellingen van Onderzoek van Onderwijs 145
Hambleton, Ronald K. Zie Rovinelli, Richard J. 49
Kerlinger, Fred N. The influence of Research on Educational Practice 241
Klerk, L.F.W. de, & Eerland, E. De invloed van Item-Feedback op de Opname
en Opslag van Zinvolle Leerstof 208
Knippenberg, W J.M. Zie Peeck, J. 270
Koppelaar, Henk, Linden, Wim J. van der, & Mellenbergh, Gideon J. A
Computer-Program for Classification Proportions in Dichotomous Deci-
sions Based on Dichotomously Scored Items. 32
Linden, Wim J. van der. Zie Koppelaar, Henk 32
Loo, S.M. van. Zie Elshout, Jan 104
Mellenbergh, Gideon J. Zie Koppelaar, Henk 32
Naerssen, Robert F. van. Lokale Betrouwbaarheid: Begrip en Operationalisa-
tie 111
Naerssen, Robert F. van. Moeite en Tijd bij Conjunctieve en Compensatori-
sche Combinatie van Twee Toetsen 165
Naerssen, Robert F. van. Grafieken voor de Schatting van de Helling van
Oud, Johan H.L. De Analyserichting bij Causale Hypothesen 2
Peeck, J. Preinstructional Strategies and Extra Reading Time in Learning
Peeck J. & Knippenberg, W.J.M. Test Expectancy and Test Performance 270
Roe, R.A. Het Schatten van Intellectuele Reserves 120
Rovinelli, Richard J., & Hambleton, Ronald K. On the Use of Content
Specialists in the Assessment of Criterion-Referenced Test Item Validity 49
Schoemaker, Marieke. Testlengte bij Absoluut Meten: De Methode van
Vliet, G. van. De Cesuur Voldoende/Onvoldoende Gebaseerd op het Idee van
het Selektie-Vrije Kontrakt 16
Wilmink, F.W. Publikatie van Tentamenvragen en de Tentamenskore 157
Wijnstra, Johan M. Het Gebruik van de Cloze Procedure als Maat voor
Schriftelijke Taalbeheersing 262
Zwarts, Michel. Betrouwbaarheidsonderzoek met behulp van de Generaliseer-
baarheidstheorie 61
Zwarts, Michel. Toetsing van een Model op Metingen Binnen-de-Subjecten 172
295 Notities en Commentaren
Bouhuys, Peter A.J. Onkruid in de Proeftuin 233
Bruyne, Henk de. Zomaar wat vragen... Oftewel enkele vingeroefeningen van
Everwijn, S.E.M. Studietijdmetingen: Problemen en Oplossingen 181
Hofstee, W.K.B. Methodologische Notities naar aanleiding van een Enquête-
Onderzoek naar Meningen van VWO-eind-examinandi over Selektie en
Holleman, J.W. Hoger Cursusrendement door Contract-Onderwijs 275
Koele, P. Over Foute Beslissingen bij Nulhypothesetoetsing 185
Kooyman, E.C. & May, W. Onderzoek van Post Academisch Onderwijs 37
Kouwenhoven, Kath. Is Toegepast' Onderzoek Noodzakelijkerwijs van
Mindere Kwaliteit? 280
May, W. Zie Kooyman, E.C. 37
Meerem, Leendert van, & Peet, Arie van. Antwoord aan Soutendijk 181
Opbouw van een SVO-beleid van Selektieve Ontwikkeling 136
Peet, Arie van. Zie Meerem, Leendert van 181
Samenvatting van de Forumdiscussie ORD'77 154
Soutendijk, Sibe. Gelijkheid van Kansen of Gelijkwaardigheid van Onderwijs-
mogelijkheden 179
Veling, Ipe H. Studietoetsen: Homogeen of Heterogeen? 79
Vijn, Pieter. De Kansen op Intellectuele Reserve 276
Warries, Egbert. Nopens de Ontwikkeling van een Researchbeleid 132
Willems, J. Reaktie op 'Onkruid in de Proeftuin' 235
Boekbesprekingen
Blom, S.J.M. Bespreking van Educatioml Psychology door N.L. Gage & E.C.
Corten, JJ.R.M. Bespreking van Schooltcacher: A Sociological Study door
Dronkers, Jaap. Bespreking van Onderwijsbeleid onder druk door J.M.G.
Dronkers, Jaap. Bespreking van Andere wijs over Onderwijs door J. Brands,
G. Egas, Sj. Karsten en E. Wendrich 238
Dijkstra, G. Bespreking van Alleen of met z'n tweeën door Joh. Hoogstraten 189
Hofstee, W.K.B. Bespreking van Dilemma's in Sociaal-Wetenschappelijk On-
derzoek door K. Soudijn 46
Hout-Wolters, Bernadette van, & Staak, Jan van der. Bespreking van Het
leesbaarheids-onderzoek door P. van Hauwermeiren 42
Naerssen, Robert F. van. Bespreking van Inleiding in de grondslagen van de
Psychologie, door C. Sanders, L.K.A. Eisenga en J.F.H. van Rappard 283
Staak, Jan van der. Zie Hout-Wolters, Bernadette van 42
Veldhuyzen, Niels H. Bespreking van Einführung in die Theorie psycholo-
gischer Tests door G. Fischer 141
Wijnen, Wynand H.F.W. Bespreking van Blokken in het Onderwijs door
Beoordelaars
Bij de beoordeling van manuscripten werd medewerking verleend door:
Drs. J. ten Berge |
Tijdschrift voor Onderwijsresearch 2 (1977), nr. 1.
Bij het afsluiten van de eerste jaargang van het Tijdschrift voor Onderwijsresearch heeft de
redactie geprobeerd zich een oordeel te vormen over het tot dusver gevoerde beleid.
Beziet men de eerste jaargang, dan kunnen de daarin verschenen artikelen (Notities en
Commentaren buiten beschouwing gelaten) grofweg als volgt worden getypeerd.
Type Aantal
Modellen van belang voor onder wij sk. onderzoek 2
Geschiedenis onderwijskunde 1
Inhoudeüjk onderwijsk. onderzoek 4
Is deze typering juist, dan blijken psychometrische verhandelingen verre in de meerder-
heid te zijn. Voeg daarbij de twee statistische artikelen, dan zou het de redactie niet
verbazen als veel lezers het tijdschrift te technisch in de zin van wiskundig zouden vinden.
Het overwegen in de eerste jaargang van technische artikelen is niet een gevolg van een
uitgesproken voorkeur in de redactie voor dit soort bijdragen, maar grotendeels een
functie van het aanbod van manuscripten. Zeker, artikelen betreffende psychometrische
onderwerpen en methoden van het verwerken van gegevens horen naar het oordeel van de
redactie ih het tijdschrift thuis. In de eerste jaargang is de vertegenwoordiging van dit
soort artikelen echter onevenwichtig.
De redactie verwacht dat dit euvel zich in de naaste toekomst ten dele vanzelf zal
herstellen. De variatie in de aangeboden kopij lijkt ;roter te worden. De redactie wil die
ontwikkeling ook graag nadrukkelijk stimuleren d or te stellen dat empirische studies op
het terrein van de onderwijsresearch en theoretische verhandelingen die een bijdrage
kunnen leveren aan de empirische onderwijskunde welkom zijn. Anderzijds is het geens-
zins de bedoeling auteurs van methodologische en psychometrische bijdragen af te
schrikken. Het Tijdschrift voor Onderwijsresearch zal voortgaan hen een onderdak te
bieden.
Het snel groeiende aanbod van kopij (en de gemiddelde lengte daarvan) leidt tot het
oplopen van de 'publication lag'. In de tweede jaargang zal de redactie daar weinig aan
kunnen doen. Zij is voornemens te bezien of het aantal beschikbare bladzijden voor de
derde jaargang kan worden vergroot. Voor het ogenblik wijst de redactie erop, dat
belangrijke resultaten in de rubriek 'Notities en Commentaren' sneller gepubliceerd
kunnen worden, en dat auteurs er verstandig aan zouden doen voor artikelen een lengte
Van 2500 woorden niet te overschrijden.
Prof. Dr. Pieter J.D. Drenth heeft wegens andere werkzaamheden de redactie verlaten.
Tot nieuw redactieUd is benoemd Dr. Johan Hoogstraten. Deze heeft de taak van
secretaris overgenomen van Dr. Robert F. van Naerssen.
2 Tijdschrift voor Onderwijsresearch 2 (1977), nr. 1.
De Analyse-richting bij Causale Hypothesen
Johan H.L. Oud
Instituut voor Orthopedagogiek, Katholieke Universiteit Nijmegen
With the aid of examples it is demonstrated, that the same data can give quite different results,
depending on the direction, in which they are analysed. In agreement with the econometrician
Wold it is argued, that the choice of the direction of analysis should depend on the hypothe-
sized causal direction. Attention is drawn to problems, arising in the situation where samples
are selected from subpopulations, defined by the effect-variable. For this situation in 2 x 2-
tables the difference in proportions on a logistic scale is recommended as a possible method of
analysis.
1 Achtergrond en doel
Een veelgebruikte onderzoeksprocedure bestaat hierin, dat groepen subjecten met ver-
schillende gradaties van een problematisch verschijnsel worden samengesteld en vergele-
ken m.b.t. mogelijk oorzakelijke variabelen. Eventueel gevonden verschillen in groeps-
gemiddelden of -proporties worden vervolgens op signifikantie onderzocht. In longkanker-
onderzoek vormt men b.v. een groep longkanker-patiënten en een groep gezonde perso-
nen en vergelijkt de proporties straffe rokers in beide. In onderzoek naar leerstoomissen
neemt men vaak groepen kinderen, die zich onderscheiden naar aanwezigheid en mate van
stoomis (b.v. diepgestoord, lichtgestoord, normaal) en voert op test-resultaten, die moge-
lijke oorzaken meten (intelligentie-niveau, taai-niveau, etc.), variantie-analyse uit. Om na
te gaan, of bepaalde gedragsstoornissen bij kinderen aan gezinsomstandigheden zijn te
wijten, zal men gemakkelijk een aantal kinderen nemen mét en een aantal zónder de
betreffende stoomis en hen vervolgens skoren op schalen, die het problematisch karakter
van het gezm trachten te meten, waarbij de groepsgemiddelden weer aan een F- of t- toets
worden onderworpen. Een signifikante uitkomst vormt niet alleen aanleiding tot aanname
van de hypothese, dat de gevormde groepen verschillen in hun gemiddelden op de
mogelijk oorzakelijke variabelen, maar men ziet er meestal ook een ondersteuning in voor
de hypothese, dat de betrokken variabelen inderdaad oorzaak zijn van het problematisch
verschijnsel.
Typerend voor de gegeven voorbeelden is,^ dat I) groepen (van meestal ongeveer gelijke
grootte) worden gevormd op basis van een gevolg variabele Y, die 2) in de analyse als
onafliankehjke variabele optreedt, terwijl de hypothetisch oorzakelijke variabelen X de
rol van afhankelijke variabelen krijgen. Deze procedure wordt uitsluitend toegepast in
non-experimenteel onderzoek. In experimenteel onderzoek worden juist onderzoeksgroe-
pen onderscheiden m.b.t. de behandelingsvariabele X, die niet alleen als oorzaak wordt
gehypothetiseerd maar ook als onafhankelijke variabele in de analyse wordt betrokken,
terwijl de groepen m.b.t. de gevolg-variabele Y (als afhankelijke variabele) onderiing
worden vergeleken.
Oud
Aan de hand van voorbeelden zal worden aangetoond, dat dezelfde data geheel verschil-
lende resultaten kunnen opleveren, indien zij met X of met Y als afhankelijke variabele
worden geanalyseerd. In overeenstemming met de econometrist Wold wordt betoogd, dat
de analyse-richting zowel in experimenteel als non-experimenteel onderzoek de gehypo-
thetiseerde causaliteitsrichting dient te volgen. Hoewel dit keuze-probleem van de analyse-
richting al eerder is onderkend en bovendien de oplossing min of meer voor de hand ligt,
wordt er in de praktijk van het sociaal-wetenschappelijk onderzoek nog vaak geen
rekening mee gehouden, wellicht omdat het probleem een aantal paradoxale kanten
vertoont. Men kiest vaak de onjuiste analyse-richting, ook in situaties waarin een analyse
in de juiste richting geen enkel bezwaar kan oproepen.
Vervolgens zal worden gewezen op de voornamelijk negatieve konsekwenties van Wold's
benadering voor die onderzoekssituatie, waarin onderzoeksgroepen zijn gevormd op basis
van de gevolg-variabele Y. In het geval van dichotome variabelen X en Y wordt voor die
onderzoekssituatie het gebruik van het verschil in proporties op een logistische schaal
aanbevolen.
Vooraf nog dit. Het is al vaak herhaald, dat regressie-coëfficiënten, correlatie-coëfficiën-
ten en andere maten voor de aard en sterkte van een verband geen causaliteit aantonen.'
Ook de procedures, die in dit artikel worden aanbevolen, zijn niet in staat een causale
hypothese te bewijzen. Zij beogen alleen die informatie uit de onderzoeksdata te distille-
ren, die relevant is voor de gehypothetiseerde causaliteitsrichting. Er zal in dit artikel ook
geen aandacht worden geschonken aan de statistische controle-procedures, die beogen het
effect van externe variabelen op de hypothetische gevolg-variabele uit te zuiveren en die
rnet name in het non-experimentele onderzoekstype noodzakelijk zijn, waar een hypothe-
tisch oorzakelijke variabele gemakkelijk met externe variabelen kan samenhangen. In dit
artikel gaat het uitsluitend om de analyse-nc/ifm^ bij causale hypothesen.
2 Wold's oplossing
2.1 De oorzaak-gevolg relatie
De Zweedse econometrist Herman Wold geeft ook in het geval van non-experimentele
analyse een 'experimentele' interpretatie aan causale verbanden. Causale verbanden zijn
voor hem 'stimulus-response relations in genuine or fictitious experiments' (1969,
P- 449). Hij voegt eraan toe: 'conceptually and formally, there is no difference between
cause-effect hypotheses in experimental and non-experimental situations' (1969, p. 450).
Een eigenschap, die een causaal verband in ieder geval moet bezitten, is predictiviteit, te
omschrijven als:
a specified change of the causal variable, subject to constant conditions in other respects, will be
followed or accompanied by a change in the effect variable in accordance with the established
relationship (1969, p. 451).
Predictiviteit wordt juist onderzocht door onderzoeksgroepen te vormen (liefst middels
randomisering in een experiment) en deze te onderscheiden m.b.t. de oorzakelijke
Ook de bijbehorende statistische toetsen zijn niet in staat onderscheid te maken tussen causale en
"iet-causale verbanden. Zie de discussie rond het artikel van Selvin (1957), die is opgenomen in
•Morrison and Henkei (1970) en o.a. behandeld door Gattung (1967, p. 358-389) en in Nederland door
^an den Ende en Verhoef (1973, p. 245-260).
Analyse-richting bij Causale Hypothesen
variabele X en vervolgens na te gaan, of X als onafhankelijke variabele genomen verschil-
len laat zien en voorspellingen mogelijk maakt m.b.t. de waarden van de als afhankelijke
variabele optredende gevolg-variabele Y.
2.2 Omkeerbaarheid van causale verbanden
Sommige causale verbanden zijn omkeerbaar. Zo heeft het deterministisch causaal ver-
band, uitgedrukt in de lineaire mathematische funktie
[1] Y=f(X)=a-HbX
als omkeerfunctie f'
waarin X een afhankelijke en Y een onafhankelijke variabele is. Met f en f' correspon-
deert e'e'n en dezelfde lijn in de cartesische ruimte. Wold noemt een dergelijk verband
'formeel omkeerbaar' en als de omkeerfunktie bovendien een causale interpretatie toelaat
'causaal omkeerbaar'. Een kwadratische funktie Y = a bX + cX^ heeft geen omkeer-
funktie, althans niet over het hele bereik van X-waarden, omdat bij één bepaalde
Y-waarde in het algemeen niet één maar twee of geen X-waarden horen. Het zal duidelijk
zijn, dat een (formeel of causaal) omkeerbaar verband altijd middels de omgekeerde
procedure (gevolg Y als onafhankelijke en oorzaak X als afhankelijke variabele) onder-
zocht kan worden: [1] kan immers langs [2] worden afgeleid. Een voorbeeld is het
verband tussen druk P en volume V volgens de wet van Boyle - PV = cT - onder con-
stanthouding van de temperatuur T:
P = f(V) = cT^ ^ V = r' (P) = cT^
Het verband is omkeerbaar: men kan P als afhankelijke maar ook als onafhankelijke
variabele in de analyse betrekken. De omkeerbaarheid is bovendien causaal interpreteer-
baar: men kan door het bewegen van een hefboom V instellen en P passief aflezen, maar
ook omgekeerd P instellen en V passief aflezen. Slechts formeel omkeerbaar is het
verband tussen product PV enerzijds en T anderzijds:
PV=f(T) = cT-^T=f' (PV)=-^PV
Men kan T variëren en het effect op product PV vaststellen, eventueel onder constanthou-
ding van P of V, maar niet omgekeerd PV variëren om de temperatuur T te veranderen.
Het in omgekeerde richting geformuleerd verband is niettemin de omkeerfunctie f' van f
en als zodanig bruikbaar om de waarde T behorend bij iedere gevonden waarde PV uniek
te bepalen.
De moeilijkheid is, dat deterministische verbanden zelden worden gevonden in de sociale
wetenschap. Men mag al blij zijn met een stochastisch verband tussen twee variabelen X
en Y:
Y = f(X) + e
♦ E(Y X)=f(X)
[3]
-ocr page 9-Oud
Hierin wordt fout-komponent e toegelaten en niet Y zelf maar de conditionele verwach-
tingswaarde E(YIX) als een funktie van X gespecificeerd. De stochastische versie van [1]
luidt bijv.
[4]
[5]
Y=a+bX+e
E(Y X) = a + bX
In tegenstelling tot een deterministisch verband is een stochastisch verband nooit omkeer-
baar.
X = a' + b'Y + e
E(XlY) = a' + b'Y
Het in omgekeerde richting geformuleerd verband [5] tussen X en Y kan nl. wat de
specificatie in termen van E(X | Y) betreft nooit een omkeerfuncfie zijn van [4], tenzij
fout-komponent e met zekerheid de waarde O aanneemt, in welk geval [4] overgaat in [1]
[5] in [2]. Voor e O corresponderen met [4] en [5] verschillende lijnen in de carte-
sische ruimte. Dit geldt evenzeer voor de regressielijnen bij schatters Y = a + bX en
a + 6'y van [4] en [5] in een steekproef Zo vindt men in fig. 1 twee verschillende
regressielijnen: (l)voor de regressie met Y als afhankelijke variabele en (4) voor de
•■egressie met X is afhankelijke variabele.
302 Analyse-richting bij Causale Hypothesen l
Tevens vindt men in fig. 1 twee verschillende krommen (2) en (5) met resp. Y en X als
afhankelijke variabele: kromme (2) verbindt de gemiddelden Y(X) met X als onafhanke-
lijke variabele en (6) de gemiddelden X(Yj_met Y als onafhankelijke variabele.
Ten slotte zijn ook de waarden Y(xi en X(yi) - de gemiddelden binnen X-intervallen Xj
en Y-intervallen y, - niet steeds omkeerbaar in de zin, dat interval y\ waar Y(xi) toe
behoort een waarde X(yi) opl^ert binnen interval xj; dat gaat in de figuur alleen op
voor waarden Y(x2) = 35 en XCyj) = 9.11 met resp. Xj-interval [6, 10] en y2-interval
[25, 40]. Het laatste komt overeen met de constatering, dat regressielijnen in verschillen-
de richting altijd één punt gemeen hebben.
2.3 Het regressie-keuze probleem
Niet-omkeerbaarheid van stochastische verbanden zoals [4] en [5], waardoor het ene in
het algemeen niet uit het andere kan worden afgeleid en dus evenmin op indirecte wijze
onderzocht, sluit overigens niet uit dat de betrokken regressiefunkties omkeerfunkties
hebben. De omkeerfunkties van de regressiefunkties in [4] en [5] bestaan. Zij luiden resp.
[6] X = -| + |e(YIX) (vgl. [4])
[7] Y = E(Y|X) (vgl. [5])
Deze omkeerfunkties zijn bovendien praktisch toepasbaar. Is [4] de formulering voor het
causaal verband en als zodanig door onderzoek ondersteund, dan kan men middels [6] de
oorzaak X behorend bij verwacht gevolg E(yIX) weer terugvinden of 'retrodiceren'.
Eenzelfde retrodictief karakter krijgt [7], indien [5] het causale door onderzoek onder-
steunde verband zou formuleren.
Regressiefunkties in verschillende richting kunnen dus ieder hun eigen omkeerfunktie
hebben, hoewel zij voor e O nooit omkeerfuncties van elkaar zijn: [4] met coëfficiën-
ten a en b is niet geÜjk aan [7] met coëfficiënten - a'/b' en 1/b' en evenmin [5] met a' en
b' aan [6] met - a/b en 1/b.
Dat dezelfde data klaarblijkelijk twee verschillende regressielijnen opleveren voor e # O,
werd in de econometrie lange tijd als een moeilijk oplosbare paradox beschouwd en is
uitpngspunt geweest voor een centrale ontwikkelingslijn in dat vak (Wold, 1969, p. 443).
Wold legt de oorsprong van het z.g. regressie-keuze probleem bij de Deense economist
Mackeprang, die in 1906 middels regressie-analyse de prijs-elasticiteit van koffie wilde
vaststellen op basis van Engelse jaar-data 1824-1852 (X en Y waren een bepaalde
transformatie van resp. de prijs en de vraag). Gebruik makend van zowel [4] als [7] kwam
hij tot twee geheel verschillende waarden: .83 voor 1/b' in [7] was bijna dubbel zo groot
als .42 voor b in [4]. 'Asking "Which elasticity should we choose?" Mackeprang replied
"Both!" and this is the last word of his book' (Wold, 1969, p. 442).
Precies hetzelfde keuze-probleem doet zich voor in de testkonstruktie bij de berekening
van leeftijdsnormen. Stel, dat op de X-as in fig. 1 leeftijden zijn uitgezet en op de Y-as de
ruwe skores van een test. De beide lijnen (4) en (1) geven voor bijv. ruwe skore 50 de
nogal uiteenlopende leeftijdswaarden X = 4.17 + .119 x 50 = 10.1 met schattingen voor
Oud 7
a' en b' in [5] en X = - 16.09/2.14 + (1/2.14)50 = 15.8 met schattingen voor teller en
noemer van — a/b en 1/b in [6]. Welke waarde moet nu als norm worden gekozen:
geprediceerde leeftijd X voor Y = 50 (ruwe skore Y onafhankelijke variabele) of geretrodi-
ceerde leeftijd X voor Y = 50 (leeftijd X onafhankelijke variabele)? Ook op basis van
krommen (5) en (2) verschillen de waarden aanmerkelijk: 11.2 (de gemiddelde leeftijd
X(V) binnen de groep met Y = 50 als ruwe skore) en 13.8 (de leeftijd X van de
leeftijdsgroep met als gemiddelde ruwe skore Y(X) = 50) en het keuze-probleem doet zich
dus opnieuw voor.
fold's antwoord is simpel: kies evenals in experimenteel onderzoek de hypothetisch
Oorzakelijke variabele als onafhankelijke variabele (regressor) en de hypothetische gevolg-
variabele als afhankelijke variabele (regressand):
In other words, the problem is not one of 'choice of regression' but rather one of choice of cause-effect
hypothesis (1969, p. 443).
Omdat Mackeprang de invloed wilde vaststellen van prijs X op de vraag naar koffie Y, had
hij X als regressor met b = .42 als elasticiteitswaarde moeten nemen. Omdat leeftijd X
invloed kan uitoefenen op test-prestatie Y maar niet andersom, is retrodictieve vergelij-
king X = - 16.09/2.14 + (1/2.14) Y het meest adekwaat met X = 15.8 als norm bij deals
Predictand V opgevatte ruwe skore 50.
Bovenstaande oplossing voor het regressie-keuze probleem is geformuleerd voor bivariate
eausale hypothesen (behalve de gevolg-variabele Y slechts één oorzakelijke variabele X),
'iiaar kan gemakkelijk gegeneraliseerd worden naar hypothesen met meerdere tegelijk
optredende oorzaken variabelen Xi, Xj,.... In non-experimenteel onderzoek met
Ongerandomiseerde data betekent de beperking tot één oorzakelijke variabele X een vaak
ontoelaatbare simplifikatie. De regressie-analyse met één regressor moet dan door
multipele regressie-analyse met meerdere regressors worden vervangen. Het regressie-keuze
probleem heeft echter ook hier een eenvoudige oplossing: kies de gevolg-variabele als
■"egressand en de oorzakelijke variabelen als regressors. Veel moeilijker is de situatie in het
geval van multirelationele modellen, met name de z.g. interdependente, waarbij Y in
eenzelfde model tegelijk als gevolg van X en als oorzaak van X wordt gehypothetiseerd
(zie bijv. Mosbaek and Wold, 1969). Men kan zich voorstellen, dat in het voorbeeld met Y
gedragsgestoordheid van kinderen en X als mate van gezinsproblematiek een multi-
relationeel interdependent model realistischer zou zijn: X niet alleen oorzaak van Y maar
» andersom ook oorzaak van X. In dat geval moeten echter de normale regressie-procedu-
res vervangen worden door veel ingewikkelder schattings- en toetsingsprocedures, waarop
m het kader van dit artikel niet kan worden ingegaan.
^ Het probleem van de analyse-richting in drie onderzoekssituaties
De konsekwenties van Wold's benadering zullen hier slechts worden gespecificeerd voor
de eenvoudige unirelationele bivariate X-Y-hypothesen met X als oorzaak en Y als gevolg,
hoewel zij direct generaliseerbaar zijn naar het unirelationele multivariate geval met
meerdere oorzakelijke variabelen X. Drie situaties zullen worden onderscheiden:
O er is één onderzoeksgroep gevormd rechtstreeks uit de totale populatie, terwijl X- en
Y-waarden achteraf worden vastgesteld.
304 Analyse-richting bij Causale Hypothesen l
II) er zijn onderzoeksgroepen gevormd op basis van de X-variabele, d.w.z. er zijn vooraf
vastgestelde aantallen eenheden binnen vooraf vastgestelde X-waarden of intervallen
Xj van X-waarden gekozen,
III) er zijn onderzoeksgroepen gevormd op basis van de Y-variabele, d.w.z. er zijn vooraf
vastgestelde aantallen onderzoekseenheden binnen vooraf vastgestelde Y-waarden of
intervallen yj van Y-waarden gekozen.
De bedoeling van situatie II en III is bijna altijd om ondanks aanmerkelijke proportionele
verschillen in de populatie als geheel toch tot redelijk grote en ongeveer gelijke onder-
zoeksgroepen te komen binnen alle X- of x,- c.q. Y- of y^waarden. De proportie
longkanker-patiènten bijv. is in de Nederiandse populatie als geheel bijzonder klein, zodat
situatie I geen of slechts een zeer klein aantal longkanker-patiënten zou opleveren. Als het
erom gaat oorzaken X voor longkanker Y op te sporen, zal men vaak geneigd zijn situatie
III te volgen en X-waarden vaststellen bij een ongeveer even grote groep longkanker-
patiënten als gezonde personen.
Bij de nu volgende bespreking van situaties I, II en III zal worden uitgegaan van de
assumptie, dat aselect waarnemingsparen <X, Y> zijn getrokken uit een bivariate <X, Y>-
verdeling (situatie I) of dat aselect waarnemingen Y c.q. X zijn getrokken uit conditio-
nele Y- c.q. X- verdelingen in die verdeling, gegeven bepaalde vooraf gekozen X-waarden
of -intervallen c.q. Y-waarden of -intervallen (situaties II en III). In situatie II en III wordt
de resulterende steekproef vaak gestratificeerd genoemd en in het algemeen zal deze
disproportioneel zijn, indien gelijke of ongeveer gelijke aantallen zijn getrokken binnen de
X- c.q. Y-condities.
3.1 Situatie I: één onderzoeksgroep
Causale hypothesen met X als oorzaak en Y als gevolg vereisen regressie-analyse van Y op
X en niet van X op Y. Dat betekent in fig. 1 diw: (1) regressie-lijn = a -H 6 X met
bijbehorende r of (2) kromme van gemiddelden Y(X) met bijbehorende^tj i.p.v. omge-
keerd (4) of (5). Wil men variantie-analyse toepassen na vorming van een beperkt aantal
groepen op één van de variabelen X of Y, dan moeten die groepen_worden gevormd
binnen X-intervallen Xj en moet (3) worden berekend - gemiddelden Y(xi) met bijbeho-
rende F-ratio en^r* - i.p.v. omgekeerd vorming van groepen binnen Y-intervallen y\ en
berekening van (6).
2. Zie voor rj bijv. Edwards (1967, p. 136-142). Terwijl r' de proportie variantie geeft, verklaard door
de best-passende r^hte lijn, geeft rj' de proportie, verklaard door de best-passende kromme, t.w. die
van gemiddelden Y(X). Tenzij de best-passende rechte lijn tevens de best-passende kromme is -
Y(X)=Y=a+bX -, geeft tj een hogere waarde dan r. Men kan tj beschouwen als de muUipele
correlatie-coëfficiënt R, behorend bij de best-passende hoogste-graad polynoom Y = a + b, X + b, X'
+ bj X' +... (de hoogste graad is k-1, waarin k hft aantal verschillende Y-waarden in de steekproef-
data). Niet-lineaire analyse in termen van een lagere-graad polynoom geeft een proportie verklaarde
variantie R', waarvoor geldt: r' <R» . Zie bijv. KerUnger and Pedhazur (1973, p. 208-214).
3. Zie voor de intra-klasse-correlatie r* bijv. Blalock, p. 268. Het verdient altijd aanbeveling om een
variantie-analyse te completeren met een of andere bijbehorende coëfficiënt zoals de intra-klasse-corre-
latie r*. Signijikantie van de F-ratio is nl. niet alleen afhankelijk van de gevonden verschillen tussen
gemiddelden Y(xi) maar ook in hoge mate van de steekproefgrootte, zodat een signifikante F-ratio kan
samengaan met een tamelijk onbetekenend verband tussen groepsindeling xj en Y. r* geeft een maat
voor de sterkte van dat verband zoals r en rj een maat geven voor het verband in termen van resp.
best-passende rechte lijn en best-passende kromme.
Oud
De data in fig. 1 tonen aan, dat in omgekeerde richting van X op Y c.q. y; hogere waarden
van Tj, r* en F kunnen resulteren en daardoor een geflatteerd beeld m.b.t. de causale
richting van X naar Y. De waarden van T?,r* en F in omgekeerde richting vormen in feite
geen enkele ondersteuning voor de causale hypothese met X c.q. x] als oorzaak en Y als
gevolg. In het bijzonder kan de F-ratio in omgekeerde richting signifikant zijn, zonder dat
die in de juiste richting met gevolg-variabele Y als afliankelijke variabele signifikant is.
Uiteraard kan ook een niet-signifikante F-ratio in omgekeerde richting samengaan met een
signifikante in de juiste richting.
Een typisch voorbeeld van zo'n analyse in omgekeerde en onjuiste richting vindt men in
het artikel 'Study behavior and academic performance' van Crombag et al (1975), eerder
verschenen in dit tijdschrift. Onderzocht werd, of 'study behavior of students affects their
academic performance' (p. 3), zodat 'study behavior' moet worden aangemerkt als hypo-
thetische oorzaak X en 'academic performance' als hypothetisch gevolg Y, In het
onderzoek werden betrokken 'all first year students in four departments of Leyden
University' (p. 4), zodat situatie I van toepassing is. X werd gemeten middels 15 'study
behavior scales' 5-6) en Y middels 'tests in a number of courses' (p. 4). Deze laatste
Werden gebruikt om een dichotomie: yi ('pass') en yiCfail') te definiëren.
In tabel 3 van het artikel (p. 9) worden de gemiddelden X(y,) en X(y2) gegeven voor alle
15 schalen in de 4 afdelingen en worden de verschillen X(yj) - X(y2) getoetst. Slechts 14
Van de 60 verschillen bleken signifikant (p <.05; tweezijdig). Hoewel de X-variabelen in
de analyse als afhankelijke variabelen werden genomen, concluderen de auteurs, dat deze
'do not appear to be predictive of performance' (p. 13)^De vraag is echter, of een analyse
in de juiste richting op basis van gemiddelden Y(xi) en Y(x2 ) niet meer (of misschien ook
minder) signifikante verschillen had laten zien.
Anders dan de coëfficiënten r\ en r* geeft de lineaire coëfficiënt r per definitie in beide
richtingen dezelfde waarde en is als volgt gerelateerd aan regressie-coëfficiënten b en 6'
[8] fYx = rxY = V (6 • 6') dus 6 = ""XY
Het keuze-probleem van de analyse-richting heeft geen betrekking op r. Vanwege de
symmetrie in de definitie van r kan het geen verschil maken, of X dan wel Y als
afhankelijke variabele is gekozen. Eén en dezelfde r^-waarde resulteert en deze geeft een
schatting van zowel de proportie verklaarde Y-variantie door E(YIX) = a + bX als de
proportie verklaarde X-variantie door E(XIY) = a' + b'Y.
In de praktijk van het sociaal-wetenschappelijk onderzoek wordt r ook vaak berekend,
indien het verband slechts bij benadering lineair is of indien men onzeker is over de
lineaire aard van het verband. O.a. Lord and Novick (1968, p. 263-264) achten het
gebruik van een lineaire benadering te rechtvaardigen, althans in predictie-onderzoek, r is
dan te interpreteren als schatter van de proportie voorspelde Y-variantie door best-passen-
de predictie-lijn.
[9] Yp, = a-HbX
of X-variantie door
[10] Xp, = a' + b'Y
-ocr page 14-10 Analyse-richting bij Causale Hypothesen l
Hier in situatie I resulteren nog geen bijzondere schattingsproblemen, indien lineaire
benadering [9] c.q. [10] de plaats inneemt van een echt lineair verband Y„ = E(Y 1 X) =
a + bX c.q. Xjj = E(X I Y) = a' + b'Y.
3.2 Situatie II: onderzoeksgroepen X c.q. x,-
Evenals in situatie 1 moeten en kunnen hier (1), (2) en (3) in fig. 1 worden berekend, als
het gaat om een causale hypothese met X als oorzaak en Y als gevolg. Door de
verschuiving van aantallen eenheden over de X-schaal (sommige X- c.q. Xj-waarden zijn
over- of ondervertegenwoordigd als gevolg van de keuze-procedure) moet wel m.b.t. (1)
gelden, dat de regressie van Y op X in de populatie inderdaad lineair is. Situatie II is
m.a.w. niet bruikbaar om de coëfficiënten in lineaire benadering [9] te schatten. Overver-
tegenwoordiging in de steekproef van X-groepen met verwachte Y-waarden E(YIX), die
van lineaire predictie-waarden Yp^ afwijken, zou immers tot te hoge of te lage schattin-
gen van regressie-coëfficiënt b in [9] kunnen leiden. In geval Ypr = E(YlX), is niet meer
van belang, uit welke X-groepen de steekproef-eenheden afkomstig zijn, althans niet met
het oog op zuiverheid en consistentie van b.
Voor een zuivere schatter geldt, dat de verwachte waarde gelijk is aan de populatie-waar-
de; voor een consistente schatter, dat deze bij het toenemen van de steekproefgrootte in
waarschijnlijkheid convergeert naar de populatie-waarde. De normale kleinste-kwadraten
schatter b is onder voorwaarde Yp, = E(Y1X) zuiver, d.w.z. Eb = b, en onder bepaalde
additionele consistentie-voorwaarden tevens consistent, d.w.z. plim b = b (Theil, 1971,
p. 109-113 en 362; Johnston, 1972, p. 274-275).
Wel kan het met het oog op de nauwkeurigheid van een schatter verschil maken, uit welke
X-groepen de steekproef-eenheden afkomstig zijn, indien nl. de Y-varianties binnen de
X-groepen ongelijk zijn. Men kan zo onder voorwaarde Yp^ = E(YIX) situatie II volgen
om vooral eenheden uit X-groepen te trekken met kleine Y-varianties en daardoor een
nauwkeurigere schatting b te verkrijgen. Voor analyse (2) of (3) in fig. 1 zjl de str^egie
juist omgekeerd zijn. Men zal hier zo nauwkeurig mogelijke schattingen Y(X) of Y(xi)
willen verkrijgen voor alle X- of Xj-groepen en daarom de groepen met hoge Y-varianties
oververtegenwoordigen in de steekproef.
Er is een bijzondere <X, Y>verdeling, nl. de bivariaat-normale, waarvoor per definitie
geldt: Ypf = E(YIX). Indien een dergelijke verdeling wordt aangenomen, kan en moet in
situaties I en II lineaire analyse (1) worden uitgevoerd in plaats van (2) of (3).
Analyses (4), (5) en (6) volgen hier in situatie II niet alleen de verkeerde analyse-richting
bij causale hypothesen met X als oorzaak, maar vanwege de verschuiving van aantallen
eenheden over de X-schaal zijn de verwachte waarden en waarschijnlijkheidslimieten van
de schattingen in het algemeen niet meer gelijk aan die in situatie I. Eventuele zuiverheid
en consistentie in situatie I komt hier dus te^vervallen, zodat het gevaar van onjuiste
conclusies op basis van de omgekeerde analyse-richting eerder groter is dan in situatie I.
3.3 Situatie III: onderzoeksgroepen Yc.q. yi(X en Ypolytoom)
Deze situatie is voor polytome variabelen X en Y (variabelen X en Y met meer dan twee
waarden) en meer dan twee groepen Xj en yi - in fig. 1 zijn 3 groepen Xj en 3 groepen
yi onderscheiden - bijna hopeloos.
___ 11
Causale hypothesen met X als oorzaak vereisen ook hier analyses (1), (2) of (3). Analoog
aan situatie II hoeven door een verschuiving van aantallen eenheden over de Y-schaal (4),
^ (6) hun eventuele zuiverheid en consistentie niet te verliezen, maar wel is dat in het
algemeen met (1), (2) en (3) het geval.
Men zou kunnen proberen b in (1) met behulp van [8] uit 6' in (4) en r^ af te leiden.
Uder voorwaarde Xpr = E(XIY) en de additionele consistentie-voorwaarden is 6' in ieder
geval consistent: plim b' = b' met dezelfde waarschijnlijkheidslimiet b' als in situatie I:
P lm b ijj = piini 6'j = b'. Zou tevens gelden plim r^ni = plim r^i, dan volgt vanwege
P]im b„, = plim [(l/b'„,)r^„] = (1/plim 6'„,) plim r^n :
Phm b„i = plim b,.
e afgeleide b in situatie III zou dus niet meer of minder consistent zijn dan b in
Situatie I.
Toepasbaarheid van de indirecte procedure betekent overigens, dat 6 net zo gemakkelijk
rechtstreeks berekend kan worden zoals in situatie I en II. Terwijl echter de consistentie
vanbii berust op lineariteitsassumptie Yp, = E(Y | X) wordt hier voor het bewijs van
plim bjjj = plim bj gebruik gemaakt van lineariteitsassumptie Xpr = E(X | Y) in omgekeer-
de richting én van plim r^ni = phm r^,.
Formuleren we r^ als de proportie verklaarde X-variantie in de steekproef:
r =[s2(X)-s^(X-X))/[s='(X)],
dan geldt:
plim r^i„ = plim r^,
^dien zowel plim s^„ (X-X) = plim s^, (X-X) als plim s^„ (X) = plim s^ (X).
an het eerste wordt voldaan onder 1) de lineariteitsassumptie Xp^ = E(XIY) in combina-
^e met 2) de assumptie van een constante conditionele X-variantie al (X) binnen alle
'-condities. Bewijsbaar is dan onder de additionele consistentie-voorwaarden:
f m (X-X) = plim s^ (X-X) = al (X).
^ders dan Johnston (1972, p.276) eist Theil (1971, p.378) tevens een identieke
Verdeling van e = X-E(X | Y) binnen Y-condities.
^an het tweede kan eigenlijk alleen worden voldaan door bij de samenstelling van de
steekproef in situatie III de steekproefvariantie s^ni (X) te laten overeenkomen met de
Populatie-variantie a^ (X): 3) s^ii (X) - a^ (X). Afhankelijk van de vooraf gekozen
y-waarden stelt dit bepaalde eisen aan de proportionele verdeling van steekproef-eenhe-
en over de verschillende Y-condities en in het algemeen zal het niet meer mogelijk zijn
gelijke aantallen uit alle Y-condities te trekken.
^ conclusie moet zijn, dat in het polytome geval voor situatie III alleen lineaire analyse
U) als mogelijkheid overblijft en dan nog slechts onder een drietal zeer restrictieve
assumpties. Als een bivariaat-normale <X, Y>-verdeling wordt aangenomen, waarin per
efinitie de regressies in beide richtingen lineair en de conditionele varianties in beide
■"ichtingen constant zijn, is vanzelf voldaan aan assumpties 1) en 2) maar moet nog de
^tig te realiseren variantie-controle 3) worden uitgevoerd. Wil men toch niet-lineaire
analyse (2) of (3) uitvoeren met voldoende eenheden in speciale Y-kategorieën (bijv.
ernstige gradaties van een bepaald problematisch verschijnsel, die echter in de populatie als
geheel vrij zeldzaam zijn), dan is het enige alternatief, dat men situatie II volgt en met
anie ook groepen samenstelt uit die X- of Xi-kategorieën, waarin relatief grote aantallen
12 Analyse-richting bij Causale Hypothesen l
met de betrokken Y-waarden zijn te verwacliten. Als het bijv. gaat om intelligentie- of
taai-niveau als hypothetische oorzaak X en men wil voldoende gevallen van ernstige
leergestoordheid Y in de steekproef betrekken, zou het aanbevehng verdienen om vooral
voldoende grote groepen met zeer lage intelligentie- of taai-niveaus samen te stellen, bijv.
uit b.1.0.- en l.o.m.-scholen.
Dat de conclusie voor lineaire analyse (1) iets positiever uitvalt dan voor analyses (2) en
(3) mag op het eerste gezicht verwonderlijk lijken, aangezien (2) en (3) immers behandeld
kunnen worden als bijzondere gevallen van lineaire regressie-analyse (zie bijv. Kerlinger
and Pedhazur, 1973). Het verschil schuilt hierin, dat in (1) slechts één regressor-variabele
X optreedt, waardoor r dezelfde waarde aanneemt als in omgekeerde richting. Bij een
regressie-analytische behandeling van (2) of (3) wordt de oorspronkelijke onafhankelijke
variabele vervangen door meerdere regressor-variabelen. De resulterende multipele correla-
tie-coëfficiënt R hoeft niet gelijk te zijn aan die in omgekeerde richting bij een regressie-
analytische behandeling van (5) of (6).
3.4 Situatie III: onderzoeksgroepen Y(Xen Y diehotoom)
Minder hopeloos is situatie III in het geval van twee dichotome variabelen X en Y (bijv. X
= 1,0: wel of geen straffe roker, Y = 1,0: wel of geen longkanker) of na dichotomisering
van oorspronkelijk polytome variabelen (bijv. studie-motivatie X in x = 1,0: hoge en lage
studie-motivatie, studie-prestatie Y in y = 1,0: hoge en lage studie-prestatie).
Er bestaat nl. een maat voor het verband tussen dichotome variabelen, t.w. A, die niet
alleen op zich vaak geschikter is dan de veelgebruikte maat S maar bovendien in situatie
III op dezelfde wijze als in situatie I en II, zonder speciale voorwaarden en in beide
richtingen geschat kan worden.
Terwijl 6 rechtstreeks het verschil geeft tussen de proporties pi.i = p(Y = llX = 1) en
Pi.o = p(Y = 1 lx = 0) (bijv. de proporties longkanker Y = 1 onder straffe rokers X = 1 en
geen straffe rokers X = 0)
worden die proporties in A in eerst logistisch getransformeerd in z.g. 'logits' Xi.i en Xi.o
[12] A = X,.. -X..o=log^'-log^
Po.1 Po.0
waarin po.i = 1 - Pi.i, Po.o = 1 - Pi.o en log x = In x.
A is in feite coëfficiënt b voor X = 0,1 in het 'loglineaire' of 'lineair-logistische' model'1
Xix = log^ =a + bX
Po.x
Oud 13
In het algemene loglineaire model blijft X niet noodzakelijk beperkt tot een dichotome
variabele X = 0,1 en kan X bovendien staan voor een hele reeks variabelen (b voor een
hele reeks coëfficiënten). Rechtstreeks in termen van pj.x en po.x uitgedrukt
Pi.x= e" + + + bX) en PO.X = 1/(1 + e" ^
blijkt het verband met de logistische functie A (x) = e^/(l + e^).
Voor X = 0,1 volgt: Xi.o = a, Xi.i = a + b en A = Xi.i - Xi.o = b.
Logits komen op een constante 1/.607 na vrij nauwgezet overeen met z.g. 'probits' of bij
de proporties behorende z-waarden in de cumulatieve normaal-verdeling (Cox, 1970,
P- 27-28).' A is dan ook bij benadering als volgt gerelateerd aan het verschil op de
z-schaal, althans voor niet al te extreme waarden van pi.i en p,.o:
[131
Hoewel 5 in feite coëfficiënt b is in Yp^ = a + bX voor dichotome variabelen X en Y en
m
Voor dergelijke variabelen bovendien per definitie geldt Yp^ = E(YIX) = a + bX, is 6 i
veel gevallen toch niet zo geschikt als maat voor het verband. Dit hangt hiermee samen,
dat de maximale waarde van S anders dan in het polytome geval van b nooit boven 1.00
uitkomt en ook bij een maximaal verband (de longkanker-patiënten zoveel als mogelük
onder de straffe rokers) zelfs lager dan 1.00 uitkomt, indien de marginale proporties p i
P^i (totale proportie longkanker-patiënten en totale proportie straffe rokers) ongelijk
^ijn- A is niet aan een dergelijk maximum gebonden: met bijv. 5 = .03 - .01 = .02 (drie
maal zoveel longkanker-patiënten onder de straffe rokers) correspondeert A = 1.12.
5 verschilt ook in dit opzicht van b in het polytome geval, dat formule [8] in situatie 111
per definitie geen consistente schatter 5 = (1/6') r^ voor 5 oplevert. Weliswaar is 6 een
consistente schatter van 6' (het verschil in proporties in omgekeerde richting met Y als
onafhankelijke variabele), maar dat is vanwege het noodzakelijk inconsistente karakter
van r (in het geval van dichotome variabelen vaak tp genoemd) niet voldoende. De
inconsistentie van r = in situaties II en III is een gevolg van het feit, dat de Y- c.q.
X-varianties binnen de X- c.q. Y-kategorieën funkties van proporties pi.i en pi.o zijn,
t.w. Pu (i.pj j) en pi.o (1-Pi.o), en dus ongelijk voor pi.i # pi.o. De over- en onderver-
tegenwoordiging van X- c.q. Y-kategorieën in situatie II en III leidt daardoor in de limiet
tot een te lage of te hoge r-waarde.
In zijn boekje over de analyse van dichotome data in het kader van het loglineaire model
vermeldt Cox expliciet als één van de voordelen van A de toepasbaarheid in situatie III:
14 Analyse-richting bij Causale Hypothesen l
Thus, to summarize, if we are ultimately interested in regarding W as a response and U as a
conditioning variable, but in fact the sampling is based on the inverse scheme of fixing W and
observing U, the difference on a logistic scale, but not on any other, can be estimated' (Cox 1970
p. 23).
Niet alleen mist A het kunstmatige maximum, dat 5 als gevolg van dichotomise ring bezit,
maar de schatter is ook 1) ongevoelig voor de gekozen analyserichting en 2) ongevoelig
voor over- en ondervertegenwoordiging van X-kategorieën in situatie 11 én Y-kategorieën
in situatie III. Indien de steekproefproporties worden geschreven in termen van absolute
celfrequenties a, b, c, d (zie tabel 1):
a c b d
Pi.i ~ a + c' Po-i ~ ~ bTd* ~ bTd ^^ onafhankelijke variabele)
a . b
Pi.i =
cTd^ ~ cTd ^^ onafhankelijke variabele)
blijkt de ongevoehgheid voor de gekozen analyse-richting als volgt
A = log / - log / = logf - log^- = log|^
A' = [(d^) / - / = < - 'osi = logf
De ongevoeligheid voor over- en ondervertegenwoordiging van X-kategorieën met resp.
faktor f en g blijkt rechtstreeks, indien a, b, c, d in log worden vervangen door fa, gb,
fc, gd. Analoog volgt de ongevoeligheid voor over- en ondervertegenwoordiging van
Y-kategorieën in situatie III.
Tabel 1 De waarden van r, 6 en A in drie onderzoekssituaties (I, II en III) in tegengestelde | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Oud 15
Een en ander is aan de hand van een getallenvoorbeeld verduidehjkt in tabel 1, waarbii in
situaties II en III is over- en ondervertegenwoordigd met resp. faktor f=3 en . r is on-
gevoelig voor richting maar geeft in situatie II en III andere waarden dan in situatie
I- 5 geeft in situatie II dezelfde waarde als in situatie I maar in situatie III een waarde, die
dubbel zo groot is. A is de enige maat, die overal dezelfde waarde geeft, zowel in
Verschillende richtingen als in verschillende situaties.
Literatuur
Bishop, Y.M.M., Fienberg, S.E., and Holland, P.W. Discrete multivariate analysis. Cambridge (Mass.):
MIT Press, 1975.
Blalock, H.M., Jr. Social statistics. New York: McGraw-HUl, 1960.
Cox, D.R. The analysis of binary data. London: Methuen, 1970.
Crombag, H.F., Gaff, J.G., and Chang, T.M. Study behavior and academic performance. Tijdschrift
voor Onderwijsresearch, 1975, i, 3-14.
Edwards, A.L. Statistical methods. 2nd ed.. New York: Holt/Rinehart and Winston, 1967.
Ende, H. van den, en Verhoef, U , Inductieve statistiek voor gedragswetenschappen, Amsterdam: Agon
Elsevier, 1973.
Galtung, L Theory and methods of social research. Oslo: Universitetsforlaget, 1967.
Haley, D.C. Estimation of the dosage mortality relationship when the dose is subject to error.
Technical Report No 15, Stanford (Calif.): Stanford University Applied Mathematics and Statis-
tics Laboratory.
Johnston, J. Econometric methods. 2nd ed.. New York: Mc Graw-Hill, 1972.
Kerlinger, F.N., and Pedhazur, E.J. Multiple regression in behavioral research. New York: Holt/Rine-
hart and Winston, 1973.
Lord, F.M., and Novick, M.R. Statistical theories of mental test scores, Reading: Addison-Wesly, 1968.
Molenaar, W. De logistische en de normale kromme. Nederlands Tijdschrift voor de Psychologie, 1974,
29, 415-420.
Morrison, D.E. and Henkei, R.E., (eds.) The significance test controversy. Chicago: Aldme, 1970.
Mosbaek, E.J., and Wold, H. Interdependent systems; structure and estimation. Amsterdam: North-
Holland Publ. Co., 1969.
Wackett, R.L. The analysis of categorial data. London: Griffin, 1974.
^Ivin, H.C. A critique of tests of significance in survey research, ^mmca« Sociological Review. 1957,
22, 519-527.
TheU, H. Principles of econometrics. New York: Wiley, 1971.
Wold, H. Mergers of economics and philisophy of science. Synthese, 1969,20,427-482.
Wold, H. Cause-effect relationships; operative aspects. In: Suppes, P., Henkin, L., Moisil, Gr.C., and
Joja, A., (eds.), Logic, methodology and philosophy of science IV. Amsterdam: North-Holland
PubL Co., p. 789-801.
Manuscript ontvangen l-I2-'75
Definitieve versie ontvangen I4-9-'76
16 Tijdschrift voor Onderwijsresearch 2 (1977), nr. 1.
De Cesuur Voldoende/Onvoldoende gebaseerd op
het idee van het Selektievrije Kontrakt:
Een Empirische Grens
G. van Vliet
Vakgroep Psychologie van Arbeid en Organisatie, Katholieke Universiteit Nijmegen
This study is concerned with the problem of determining the borderhne between satisfactory
and unsatisfactory results on objective achievement tests after the preliminary examination of
the first year. When education is selection-free for everybody who passed this first-year-
examination (De Groot, 1972), the passing of the other achievement tests should be only a
matter of adequate preparation.
In this investigation adequacy of preparation was examined in a group of third year psychology
students, by having them study in the laboratory itself. From this group preparation time was
recorded and quality of preparation was checked by means of four part-tests with the same
kind of questions as the ultimate achievement test. The part-tests were also distributed to the
students who did not participate in the above mentioned laboratory group.
In advance a guarantee was given that the lowest score on the ultimate achievement test of the
laboratory-group would be judged as just sufficient (the borderline), but only if the person with
that score succeeded on the four part-tests. The requirements of the part-tests should be
reasonable in the eyes of the laboratory group and in the eyes of the responsible teacher.
The essence of this method is to find, before the ultimate achievement test, an agreement
between the ideas of the students about the way of preparing (time, quaUty) and the
quality-level which the teacher considers necessary.
The approach in this method seems useful in case of a new curriculum in which it is uncertain
what the capabilities of the students are. Furthermore it can clarify situations with a rather high
percentage of failure, in which teacher and students apparently have different ideas about
quaUty and time of preparation.
1 Inleiding
Bij een universitaire opleiding zou men ervan verzekerd moeten zijn dat de voor een
propedeutisch examen geslaagde studenten een zeker minimum aan studiekapaciteiten
bezitten. Dit minimum zou landelijk en van jaar tot jaar konstant moeten zijn. Een
manier om dit in zekere mate te realiseren werd voorgesteld naar aanleiding van een
onderzoek naar de cesuurbepaling bij tentamens in de propedeutische fase (Van Vliet,
1975). Het volgende onderzoek tracht aansluitend op het idee van een selektievrij
kontrakt (De Groot, 1972) de cesuur voldoende/onvoldoende bij een tentamen nè de
propedeuse empirisch te funderen. Bij een selektievrij kontrakt gaat men er vanuit dat na
een ingangsselektie, die fungeert als selektiedrempel, de student geschikt is voor het
programma tot en met het verwerven van het diploma. Selektie onderweg komt niet voor.
Van Vliet __"
De docenten hebben de taak de studenten op te leiden tot en met het afsluitend examen,
terwijl de studenten moeten meewerken, d.w.z. het georganiseerde onderwijs zo goed
mogelijk moeten volgen inklusief eventuele steunprogramma's. Hoewel er bij de betrok-
ken studie - de psychologie-opleiding in Nijmegen - tot dan (1972) en ook tot nu toe
(1976) weinig of geen sprake is van een selektievrij kontrakt na de propedeuse (de
selektiedrempel), verleende de verantwoordelijke hoogleraar toestemming voor dit onder-
zoek. Afgesproken werd de grens voldoende/onvoldoende te verbinden aan de tentamen-
Prestaties van een groep studenten waarvan was nagegaan of zij zich voldoende hadden
voorbereid. Met name de laagste skore uit die groep zou de grens vormen.
2 Opzet van het onderzoek
Het onderzoek had betrekking op het derdejaarstentamen Psychologie van Arbeid en
Organisatie'. Onder de studenten die hieraan deelnamen werd een stencil verspreid met
het verzoek mee te werken aan een onderzoek gericht op het vinden van een meer
verantwoorde grens voldoende/onvoldoende voor tentamens. Aan een random samenge-
stelde groep studenten zou de garantie worden gegeven te slagen voor het uiteindelijke
tentamen indien een viertal voortgangstoetsen voor ± 85% goed zou worden beantwoord.
De cesuur voldoende/onvoldoende voor het uiteindelijke tentamen zou worden bepaald
n.a.v. de door die groep geleverde prestaties op dit tentamen.
Veertig random (elke 6e student) uit de administratie getrokken studenten werden
schriftelijk gevraagd zich op het laboratorium op het tentamen voor te bereiden waarbij
zij vier studietoetsen moesten passeren. Alles zou worden gedaan om aan de eigen
studiewijze en -omstandigheden tegemoet te komen. Twintig studenten konden om
verschillende redenen niet meedoen (andere tentamens, werkstudent, vrij willen zijn,
etc.). Met één vrijwilliger mee ontstond een onderzoeksgroep van 21 ppn. Drie van hen
wilden besüst thuis studeren, de 18 anderen studeerden op het laboratorium. Van allen
werd de studietijd bijgehouden. Eén uur bruto studietijd betekent 45 minuten met de stof
hezig zijn en 15 minuten pauzeren.
De tentamenstof 'Psychology at work' van P.B. Warr (ed.), 1971, 391 pag., en 'Organiza-
tional Psychology' van E.H. Schein, 1970, 130 pag., werd opgespHtst in vier ongeveer
gelijke delen waarover steeds een voortgangstoets moest worden afgelegd. Hiervoor waren
iedere week negen mogelijkheden. Voor elke toets werd een uiterste datum vastgesteld.
Hierna werd de toets (en de paralleltoets) met antwoorden aan alle 212 studenten ter
beschikking gesteld. De vierde toets werd één dag voor het tentamen afgenomen tijdens
een gezamenlijke zitting en ging vergezeld van een enquete over de wijze van tentamen-
voorbereiding.
De procedure bij de toetsafname was als volgt. De ppn. skoorden zelf (onder toezicht)
hun antwoorden op de ca. 12 vragen per toets, door ze in het boek op te zoeken. Bij drie
of meer fouten diende de student de desbetreffende bladzijden opnieuw te bestuderen
Voor de beantwoording van parallel-vragen. Deze antwoorden moesten voor 100% goed
2ijn, hetgeen in de praktijk betekende dat wanneer de student twijfelde aan zijn antwoord
bij werd verzocht de betrokken passages nog eens door te nemen. Deze procedure leidde
ertoe dat slechts één student bij de parallelvragen nog twee fouten maakte. Toen hij o.g.v.
Voor uitvoerige gegevens zie G. van Vliet, Intern Rapport K.U. Nijmegen, 1976
-ocr page 22-18 Cesuur voldoende/onvoldoende
de tevoren gestelde regel wilde stoppen werd hij verzocht aan te blijven omdat uit zijn
studie-uren voldoende inzet bleek en anders het gevaar van normverhoging dreigde.
Bij de gezamenlijk afgelegde laatste toets werd herhaald dat deelname aan het tentamen
de volgende dag voorwaarde was om te slagen en dat het definitieve cijfer afhankelijk was
van de relatieve positie t.o.v. de grenspersoon (-personen). Verzocht werd de stof (met het
oog op een hoger cijfer) voorzover men gewend was te doen, nog eens door te nemen.
3 Resultaten
De kwaliteit van de grens voldoende/onvoldoende is afhankelijk van de wijze waarop het
onderzoek is verlopen. Daarom volgen naast tabel 1 nog enkele gegevens.
Slechts een enkele keer moest men gebruik maken van de laatste gelegenheid voor een
toets. Dit geeft de indruk dat men kennelijk wat betreft de eerste drie toetsen het eigen
studietempo heeft kunnen volgen. Uit het betrekkelijk matige gebruik van parallelvragen
valt af te leiden dat er redelijk serieus werd voorbereid.
Tabel 1
Overzicht per pp. van zijn gemiddeld propedeusecijfer, behaald tentamencijfer, benodig-
de studietijd, aantal fouten in vier toetsen, benodigde paralleltoetsen.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Deze persoon behaalde van de bestudeerde groep de laagste skore 'op het tentamen nl. 23 goed. |
Van Vliet "
Overigens is liet gebruik van parallelvragen uiteraard afhankelijk van het aantal vragen in
, Het inspelen op het type en niveau der vragen zal vermoedelijk ook een rol
ebben gespeeld in het verloop van het gebruik van de parallelvragen: bij de eerste toets
Uo vragen) moésten 16 van de 21 ppn. parallelvragen beantwoorden, bij de tweede toets
UI vragen) 11 ppn., bij de derde toets (10 vragen) 4 ppn., bij de laatste gezamenlijk
a gelegde toets (13 vragen) 15 ppn. Dit laatste vrij grote aantal is wellicht mede ontstaan
oordat niet iedere pp. geheel klaar was met zijn voorbereiding.
at denken de studenten zelf van deze wijze van tentamenvoorbereiding? Hebben zij en
m.n. de grenspersoon(-personen) zich beter voorbereid en is er dus sprake geweest van
erhoging van de norm? De resultaten van een anonieme enquete aan het eind van de
Vierde toets leverden het volgende beeld op.
h'^j"^ h ^oudt u zich voor een volgend tentamen nogmaals op deze wijze willen voorbereiden ook al
• " liet de garantie te zullen slagen door het voldoen aan de voortgangstoetsen?
ja: 8 studenten; nee: 7 studenten; weet niet: 3 studenten.
^oag 2. Denkt u als deelnemer aan dit onderzoek dat u op dit moment de stof beter beheerst dan in
oe situatie dat u zich thuis had voorbereid?
eel beter: 1; iets beter: 8; even goed: 3; iets minder: 5; veel minder: 1.
''"ag 3. Denkt u dat u efficienter gestudeerd hebt dan anders, c.q. dan in de situatie dat u zich thiiis
zou hebben voorbereid?
^eel efficiënter: 2; iets efficienter: 8; even efficient; 5; iets minder efficient: 3; veel minder efficient:
^raa^ 4. Denkt u dat u nu prettiger hebt gestudeerd vergeleken met de situatie dat u zich thuis zou
nebben voorbereid?
prettiger: 0; iets prettiger: 3; even prettig: 5; iets minder prettig: 6; veel minder prettig: 4.
"'■«a? 5. Denkt u op dit moment meer vergeten te zijn van de stof van de eerste twee voortgangstoet-
en dan in de situatie dat u zich thuis zou hebben voorbereid?
eel meer vergeten: 2; iets meer vergeten: 9; evenveel vergeten: 6; iets minder vergeten: 1; veel minder
^«tgeten: 0.
Bovenstaande cijfers en bij de enquete geschreven commentaren geven aanleiding tot de
Volgende opmerkingen.
1- Een verrassend groot aantal studenten (8) heeft kennelijk enige steun bij de studie
^odig. Motieven van de jazeggers op deze vraag zijn o.a.: prettig onder dwang studeren
Ux), deze wijze van voorbereiden geschikt voor bepaalde tentamens (3x), zelftoetsing
Verhoogt motivatie (lx), stof in delen bestuderen werkt gunstig. Motieven van de
neezeggers: kost meer tijd dan thuis studeren (5x), tijdslimieten zijn hinderlijk (2x).
2. De indruk bestaat dat men zich niet beter voorbereid heeft dan thuis (zie ook vraag
3 en 4. Het merendeel der ppn. heeft efficienter (10 tegen 3) maar wel minder prettig
gestudeerd (ook 10 tegen 3).
"" De opgegeven redenen van het vergeten der stof waren o.a.: de stof niet meer
Jierhaald (3x), geen tijd voor herhalen (2x), thuis wordtt stof meer als geheel bestudeerd
tijd tussen studie en tentamen nu langer (lx), door slaaggarantie treedt vergeten
eerder op (lx).
Ivvaalf studenten hadden geen relevant commentaar op het onderzoek als geheel. Vijf
noemden de mogelijkheid van fraude, vier van hen schreven over te moeilijke of niet-
relevante vragen.
20 Cesuur voldoende/onvoldoende
De vraag rijst nu welke persoon of personen het waren die de ondergrens vormden op het
tentamen en was van hun tentamen-prestatie de bedoelde cesuur voldoende/onvoldoende
af te leiden?
Het tentamen bestond uit 47 vragen, juist/onjuist en multiple choice, 212 studenten
namen er aan deel. De hoogste tentamenskore bedroeg 39, de gemiddelde skore was 28.9,
de spreiding 4.1 en de betrouwbaarheid .50 (KR-20). De prestaties van de bestudeerde
groep in vergelijking met die van de andere deelnemers zijn weergegeven in tabel 2.
Tabel 2
Vergelijking prestaties van de bestudeerde groep met die van de overige tentamendeelne-
mers.
tentamenskore
20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
skorefrekwentie overige
deelnemers n= 191 4 4 7 8 10 9 10 15 20 14 19 18 16 11 11 6 2 2 3 2
skorefrekwentie bestudeerde
groep n = 21 1 2 2 5 2 3 1 1 1 1 2
In tabel 2 is te zien dat de gezochte cesuur beneden de 23 vragen goed moest liggen,
omdat de laagste skore van de groep deelnemers aan het onderzoek 23 bedroeg. Hoe juist
of onjuist is deze grens? Stel dat deze student de laatste dag de stof niet meer had
doorgenomen terwijl hij dat anders wel deed of dat hij vermoedde tot de laagste skoorders
te behoren en op het tentamen zijn best niet had gedaan in de wetenschap toch geslaagd
te zijn, etc. Welke checks waren er om tot een zo juist mogelijke aftestgrens te komen?
Allereerst werd vergeleken met voorgaande jaren. Indien 22 goed als onvoldoende werd
beschouwd zou dit keer 7% een onvoldoende krijgen, tegen gemiddeld 14% in voorgaande
jaren. Dit gaf het gevoel dat de grens nogal laag lag. Het lage percentage zou enigszins
verklaard kunnen worden uit het feit dat bekend was dat de ondergrens gevormd zou
worden door studenten die gecheckt waren op voldoende voorbereiding. M.a.w. het aantal
gokkers zou kleiner kunnen zijn dan gewoonlijk. Dat er nauwelijks onvoorbereide studen-
ten deelnamen kan ook worden afgeleid uit het ontbreken van extreem lage skores (20,
door 4 studenten behaald) en het minder geleidelijk aflopen hiervan dan de hoge skores.
De lage skores lopen ook minder geleidelijk af dan van soortgelijke tentamens bekend is.
Een tweede check bestond uit een vergelijking van de laagste laboratoriumgroepskore (23)
met de dichtsbijzijnde skores (2 keer 25). Hieruit krijgt men de indruk dat de pp. met
skore 23 vermoedelijk normaal zijn best heeft gedaan op het tentamen.
Als derde check werd nagegaan of de skore van 23 redelijk was in het licht van de bij deze
persoon verzamelde gegevens. In tabel 1 is te zien dat zijn gemiddeld propedeusecijfer 5.8
bedraagt, het laagste gemiddelde waarmee men nog-kon slagen. Het gemiddelde van de
2ejaars tentamens bedraagt 6 (hoogste cijfers na enkele herkansingen). De studietijd
(8 uur) is redelijk. Het aantal fouten in de toetsen wijst op een niet gemakkelijk studeren
(14). Hetzelfde geldt voor het aantal benodigde paralleltoetsen (3). Hieruit kan worden
opgemaakt dat deze pp. in het verleden en ook bij dit tentamen een grenspersoon is
geweest.
Een vierde check was het nader bekijken van de enquete-antwoorden van deze pp. (de
-ocr page 25-Van Vliet "
meeste ppn. hadden vrijwilhg hun naam bij de enquete geschreven). De antwoorden
waren: iets betere beheersing van de stof en evenveel vergeten van de eerste 2 toetsen dan
in de situatie van thuis voorbereiden.
Als laatste check werd de persoon opgebeld met de mededeling dat een aantal deelnemers
aan het onderzoek gevraagd werd te vertellen hoe ze zich de laatste dag voor het tentamen
hadden voorbereid. Zijn antwoord luidde dat hij alles had doorgenomen met in het
achterhoofd de wetenschap geslaagd te zijn, verder had hij op het tentamen rustig gewerkt
maar wel zo goed mogelijk.
Het geheel van bovenstaande gegevens overziend werd, na overleg in breder kader, de
grens voorzichtigheidshalve gesteld op 24 antwoorden goed is voldoende. De grens-per-
soon met 23 goed kreeg uiteraard ook een voldoende.
4 Discussie
De weergegeven wijze van cesuurbepaling is een middenweg tussen een absoluut en een
relatief referentiepunt. De docent stelt nl. expliciet een aantal eisen door de aard van de
toetsvragen en het aantal dat men goed moet hebben om verder te mogen. De studenten
zullen beginnen met een gemiddelde manier van studeren kwa tempo en nauwkeurigheid.
Op grond van de resultaten bij de eerste toets zal de student zijn studiewijze aanpassen: hij
zal nauwkeuriger en langzamer gaan studeren of juist vlugger en oppervlakkiger. Vindt hij
<le vragen te moeilijk of niet essentieel dan kan hij dat kenbaar maken zodat de docent
hiermee rekening kan houden bij de volgende toetsen. De docent kan zijn eisen bij een
toets matigen voor één of meer studenten indien hij zeker weet dat de studenten zich
adekwaat voorbereiden, hetgeen hij o.a. zou kunnen afleiden uit het aantal studie-uren.
Komt hem dit als te gering voor dan kan hij zijn eisen bij de volgende toetsen handhaven.
Ijjkt het aantal studie-uren redelijk dan zal hij zijn eisen moeten afstemmen op de
geleverde prestaties. De kern van de methode berust dus op het lang vóór het tentamen
onderUng afstemmen van de eisen (absoluut referentiepunt) en de prestaties van de
studenten in de gegeven onderwijssituatie (relatief referentiepunt).
Een bezwaar tegen deze methode zou de vrees onder studenten kunnen zijn dat zij die op
het laboratorium studeren de norm omhoog zullen brengen. De medewerking van studen-
ten kan hiervan afhangen. Uit de enquete valt op te maken dat deze vrees in het
onderhavige onderzoek ongegrond is geweest. Omdat ieder onderzoek zijn eigen situatie
heeft is het zeker aan te bevelen de stofbeheersing op een of andere manier na te gaan.
Studenten die bevreesd zijn voor een verhoogde norm kan men vragen zelf als pp. mee te
werken aan het onderzoek.
Een interessant punt is het nagaan tot welke cesuur de methode van Wijnen leidt. Wijnen s
beslissingsregel (1974) luidt: iemand wordt afgewezen wanneer met een waarschijnlijk-
heid van 95% kan worden gezegd dat zijn prestatie niet kan worden gezien als een
toevalsafwijking van de prestatie van een voor deze onderwijssituatie typische kandidaat
(d-i. van de gemiddelde prestatie). De juist onvoldoende skore zou bij Wijnen zijn: het
gemiddelde minus twee keer de standaardmeetfout, dit is 23. In het weergegeven onder-
zoek werd 22 als onvoldoende skore gevonden. Hoewel het verschil in konkrete aftest-
grens zeer gering is, is er een groot verschil in de wijze waarop beide zijn bepaald. Wijnen
veronderstelt immers een adekwate voorbereiding, in onze studie is die adekwaatheid
metterdaad gecheckt. Wijnen's veronderstelling lijkt juist te zijn, ware het niet dat in de
22 Cesuur voldoende/onvoldoende
door ons uitgevoerde studie waarscliijnlijlc niet of nauwelijks studenten zaten die Iret
zonder serieuze voorbereiding probeerden. Dit zou zijn af te leiden uit het eerder
gereleveerde kommentaar van een student en uit het abrupt afbreken van de skoreverde-
ling aan de onderkant. Overigens blijft een vergelijking met Wijnen's procedure zinvol al
was het slechts om de eenvoud van die methode.
De voorgestelde methode van cesuurbepaling kan waarschijnlijk eenvoudiger toegepast
worden. De kern is dat de docent zekerheid moet hebben dat een aantal marginale
studenten redelijk hebben gestudeerd. Er kan niet worden volstaan met één marginale
student omdat van tevoren niet bekend is wie op het betreffende tentamen de laagste
skore zal behalen. Of het verstandig is alleen met grenspersonen, b.v. 6, te werken is een
vraag met verschillende aspekten. Het aantal is aantrekkelijk klein maar deze studenten
lopen gevaar een bepaald etiket te krijgen en afhankelijk van het studieklimaat, zijn ze
misschien eerder bereid tot onderlinge afspraken dan een wat heterogener samengestelde
groep.
Of het redelijk studeren moet worden gecheckt met voortgangstoetsen en het bijhouden
van studie-uren of alleen door het laatste zal afhangen van de situatie. Zo lijkt een check
met voortgangstoetsen in het tweede jaar eerder wenselijk dan b.v. in het 5e jaar. Meestal
evenwel zal de docent een zeker niveau van stofbeheersing voor ogen staan en zal hij er
goed aan doen dit niveau d.m.v. een aantal toetsen expliciet te stellen.
De hier beschreven methode van cesuurbepaling lijkt zinvol toepasbaar wanneer er sprake
is van een nieuw curriculum of een nieuw onderdeel daarin. In dat geval is het moeilijk te
voorspellen welk minimumniveau op een tentamen gevraagd kan worden. Alleen empi-
risch onderzoek lijkt dan een afdoend antwoord te kunnen geven. Voorts heeft de
methode wellicht enige toepasbaarheid in die gevallen waar gezien het grote zakpercenta-
ge de eisen en de prestaties nogal divergeren. Aan de hand van voortgangstoetsen kan men
tot een betere afstemming van eisen en mogelijkheden komen. Tevens kan men m.b.v. de
methode de zwaarte van studie-onderdelen vergelijken en daardoor verantwoorder leer-
plannen ontwikkelen.
In verband met de herprogrammering van het universitair onderwijs nog het volgende. Als
men daarbij uitgaat van het studietempo behorend bij het normstudent-percentiel 75 (De
Groot, 1976) zou dit in de hier bestudeerde, tamelijk representatieve groep, overeenko-
men met 65 uur (de uren zijn m.b.v. prikklok bijgehouden). Elf van de 21 studenten
hadden meer tijd nodig. Zeven studenten hadden zelfs méér dan 1/3 van de normtijd
extra nodig (meer dan 87 uur). Veronderstellen we dat deze studenten ook bij andere
vakken tot de langzameren behoren en dat de afstudeerrichtingen een ongeveer gelijke
moeUijksgraad hebben, dan zal de geplande studieduur van drie jaar na het propedeutisch
examen voor de normstudent, met één jaar (is eenderde) uitloop voor de langzamere
student, door 33% van de hier bestudeerde psychologiestudenten overschreden worden.
Uitgaande van maximaal vier jaar na de propedeuse lijkt dit alleen haalbaar bij een
aanzienUjk verzwaarde ingangsselektie die nog zwaarder zal moeten zijn indien men wil
werken met een selektievrij kontrakt. In dat geval zal men immers ook de geschikt
geachte wat langzamere student binnen de inschrijvingsduur tot en met de eindstreep
moeten brengen.
Van Vliet "
Literatuur
Groot, A.D. de. Selectie voor en in het hoger onderwijs, een probleemanalyse. 's-Gravenhage:
Staatsuitgeverij, 1972. , , ..,, j ,
Groot, A.D. de. Denkschema's voor (her)programmeerders. In 'Onderwijsresearch en praktijk , deel 2.
Delftse Universitaire Pers, 1976.
■Vliet, G. van. Tentamennorm, studiecapaciteit en voorbereiding in het eerste jaar. Tijdschrift voor
Onderwijsresearch, 1975,1.26-35. .
Vliet, G. van: De cesuur voldoende/onvoldoende gebaseerd op het idee van het selektievnje kontrakt:
een empirische grens. Intern rapport A.0.01, Psych. Lab.K.Un. Nijmegen, 1976.
Wijnen, W.H.F.W.: Onder of boven de maat. een methode voor het bepalen van de grens voldoende!
onvoldoende bij studietoetsen. Proefschrift, Amsterdam, Swets & Zeitlinger, 1971.
Manuscript ontvangen 20-5-'76
definitieve versie ontvangen 2-10-'76
24 Tijdschrift voor Onderwijsresearch 2 (1977), nr. 1.
Predicting the Validity of Predictors of Academic
Performance
Jan Elshout
Instituut voor Cognitie Onderzoek (I.C.O.)
Universiteit van Amsterdam1
To be able to conclude anything firm about either a predictor or a criterion from the
correlation between the two, a whole range of conditions must be met. Those conditions, which
are in effect predictors of validity, are discussed, with the emphasis on the educational
situation.
In the very first issue of this journal Crombag, Gaff and Chang (1975) reported on the
predictive validity for academic success of several tests and of a study habit questionnaire
administered in the departments of Medicine, Psychology, Chemistry, and Law of the
University of Leiden (class of '69). They summarize their findings as follows: '... in all
departments academic performance is hardly predictable; it does not matter how much a
student studies, whether he is more intelligent than his fellow students, or more motivat-
ed.' (op. cit., p. 13). This is strong language, and their conclusion is in the same vein:
'Maybe it is time we face the facts: academic success is to a large extent a matter of
chance, or largely dependent on irrelevant factors, or both.' Clearly, the customary
relationship between predictors and criterion has been reversed here. In this case the
Dutch University system is put into the dock, and the tests serve as both judge and jury.
This reversal need not bother us, however, since there is nothing obligatory about the
customary relationship. Nor are we concerned with achieving concurrence with the
judgement of Crombag c.s. that: 'If sensible relations do not show up spontaneously,
maybe we should find ways for producing correlations where they should be, if education
is to be a rational enterprise' (op. cit.; final sentence, italics added by us). Undoubtedly,
those who follow the current vogue of dismissing all psychological tests (and, of late, even
tests of achievement (Levine, 1976)) as irrelevant and unfair in the context of education,
will not concur! Many contemporary educators clamour for a revolution when validities
'spontaneously show up' where, according to Crombag c.s., 'they should be'. Our point
of interest is this: judgements of 'rationality' or 'irrationality' and other such value
judgements, are not passed on the vahdity coefficient as such, but on the state of affairs
that is inferred to exist from these coefficients. In this paper we will concem ourselves
with the basis for this inference: what allows us to conclude anything about an educa-
tional criterion (about the nature of the task, the factors, involved, etc.) on the basis of
an empirical relationship?
1 I am indebted to Ch. Koster for purifying the english text.
-ocr page 29-Elshout 3^1
It seems obvious that inferences of the type meant should be based on a body of
knowledge about the conditions on which the validity of educational predictors depend.
Such a theory would in effect predict what validities are to be expected from various
instruments in various educational settings. Given the validities, and other relevant
information, the same theory would allow us to infer certain properties of the predictors
and/or criterion, as the case may be.
In the following paragraphs we will outline such a theory. Much of what we have to say is
not new. Dispersed throughout the literature on educational and industrial testing much
"lay be found that is pertinent to our concern. It seems worthwhile to bring it all
together.
>
principles of predicting test-validity
I The principle of similarity
The most general principle of predicting test validity may well be the following: the more
alike the testing situation is to the criterion situation, the higher the validity. We can
analyse this general principle into several components.
Similarity of Content. Validities tend to be higher the greater the similarity between
the type of information the predictor test asks questions about and the type of
information made use of and/or imparted by the instructional process. Tests about XYZ
tend to predict achievement in XYZ best.
Similarity of Process. By process we mean the operations the subject has to perform
in the testing situation: solving problems, learning by heart, comparing on fine detail,
evoking from long term memory, etc. Validities will tend to be higher if the processes
evoked by the predictor tests are the same as the processes that lead to achievement.
The moderate success of attempts at differential prediction should warn us that the
similarity of content and process are but two of the factors that determine validity.
Together, these two components of the general principle of similarity do, however, seem
to offer a partial explanation of some well documented trends. First, it is generally
accepted that tests of eariier achievement (earher formal learning) predict academic
criteria better than tests of basic intellectual abilities (eariier informal learning? ), and
that this gap in predictive performance widens as our subjects grow older and get further
along in the educational system.
On a micro-level this was demonstrated by Gagné and Paradise (1961), who showed that
in an hierarchical process of instruction the correlation between the speed of mastering
level n and the level attained at level n-i is a decreasing function of i. This means of course
that the correlation with basic abilities will be highest in the first stages of instruction and
will then gradually taper off.
Two reasons for the influence of the similarity of content and process can be given. First,
because of the relative stability of our intellectual make-up, anything that has contributed
to the predictor test score (basic abilities, interest, etc.) can be expected to contribute
again when similar leaming takes place. This explanation seems to be in order when we
predict facility in learning a third language from achievement in a linguistically unrelated
26 Predicting the Validity of Predictors
second language. Secondly, in most cases a more direct relation will exist in the sense that
the repertory (knowledge, skills) tapped by the predictor test will be directly useful: if
one already knows, one does not have to learn. Both explanations probably apply when
earlier mathematics achievement is used to predict later achievement in a connected field
of mathematics.
1.3 Similarity of Format. We use format here in a very inclusive sense, meaning every-
thing that makes a test a test. Tests are standardized.
This means a number of things.
a. The tasks are the same for every subject.
b. The time allotment is the same for every subject.
c. The time allowed is fully used by all.
d. The dimensions underlying the scoring system (correct - incorrect, fast - slow) are
the same for all subjects.
e. The norms applied are uniform: same performance, same score.
f. The tests are constructed to give a good mapping of the relative distances of the testees
on the underlying continuum.
g. Tests are constructed to be homogeneous, so that there really is a continuum
underlying them and it is not possible to compensate not having apples by having a lot
of grapes.
h. Tests, and the testing situation are designed to obtain the optimal performance from
the subjects.
The principle of similarity of format predicts that the more the educational process
resembles a test in the respects a to h, the higher the obtained validities will be. No
educational system is a test, but some seem to come close to being one. Bos (1974)
reports a correlation of .75 between prognosis at age ± 12 and the level reached in the
Dutch secondary school system five years later (N = 2395). The findings of Verhage et al.
(1962) point in the same direction. In the manual of their Groninger Intelligentie Test
they report a mean I.Q. of ± 127 for the academic group in their normative sample, with
a standard deviation that is nearly halved. To obtain a restriction of range of this
magnitude by indirect selection a very powerful instrument of selection is necessary
indeed (r >.90). The instrument in this case would seem to be the Dutch secondary
school system since there is hardly any selection within the tertiary system (see Crombag,
op. cit.). It appears that the Dutch secondary school system functions (or had, at least,
functioned at that time) as a machinery that sorts every individual into the category that
corresponds to his optimal intellectual level, by step-wise, standardized, selection. Also,
part of the success of the U.S. Air Force classification testing program can be ascribed to
the similarity of the military educational system to mental testing in the above respects:
well-designed and tested materials, good instruction and programming, standardized
achievement testing, and a near guarantee for optimal performance of the students. Two
examples of what is possible under such circumstances will suffice: the mean correlation
of .53 (269 classes, total N ± 25000) of the pilot stanine with primary training success of
pilots (reported in Guilford, 1956), and the median R of .75 for 36 Airforce Technical
Specialties of the Battery AC-2A indices (total N: 11615), reported by Brokaw (1960).
The Dutch University system clearly belongs at the other end of the dimension 'standard-
ized vs non-standardized'. This system allows so much freedom to students and teachers
Elshout 3^1
alike that none of the criteria a to h are met. In many curricula there is a surface
standardization (especially in the first year) that seems to go far. The third criterion is
never met, however, because time limits are seldom set and if they are, the time allowed is
very ample. First year psychology students of the University of Amsterdam use, on the
average, only about one third of the time allowed them by the curriculum (Van Hemert
et al., 1971). Study rimes vary greatly. On these grounds alone any hope of finding
Sizable validhies should be abandoned.
fhe educational process may be dissimilar in format to the typical testing situation in
may ways. A few of these merit special attention. In a test the tasks set are typically the
same for every testee. This means that everyone must meet the same demands making use
of the same resources. If the group is heterogeneous in certain ways (e.g. age, sex, nature
of previous education) the possibility exists that tasks which are nominally the same for
everyone may not be psychologically so. Elshout and Van Loo (1976), for instance,
found low to moderate validities for male students and generally lower, in some cases
even negative correlations for the same tests in the female group, when having obtained a
degree in psychology (> M.A. level) within a period of 12 years (! ) was used as a
criterion. Clearly the 'same task' criterion is not met here. This criterion is also violated,
as Well as the criterion (g) of homogeneity, when the regulations allow for compensating
low achievement in subject X with high achievement in subject Y. When the effort
extended is uniformly distributed, but especially when the students can really choose
their X and Y, validities will be lowered. When students are allowed to specialize to some
degree (e.g. research vs applied, etc.), the same effect will be obtained. The criterion of
equality of norms (e) of course implies that the difficulty levels of the courses followed
should be the same for all students. In many situations, however, we find that students
can choose, or are directed to courses of widely varying levels without this showing up in
any way: widely differing levels of achievement are mapped into the same grades and
degrees.
2 The degree of the restriction of r^e
Restriction of range is a fact of life in educational psychology. Most often it is effected
hy what amounts to indirect selection. Elshout and Roe (1973) give tables for the effect
of differing degrees of restriction of a selector x on the correlation between y and z (e.g.
predictor and criterion), for different degrees of correlation Txy and r^z in the popula-
tion. Indirect selection can lead to higher predictor validities, but for all practical
purposes one can think of restriction of range (by direct or indirect selection) as an
iniportant factor in depressing validities. Restriction of range is a very troublesome matter
because we seldom possess data of sufficient quantity on a preselection sample and on a
selected one to make a trustworthy correction by one of the well-known formulae.
Without such correction the effect of differential restriction of range will often make the
patterns of obtained validities utterly unintelligible. Just how important a factor is
restriction of range in educational research? The halving of the standard deviation of IQ
for the academics (eariier mentioned c.f. Verhage) seems to point to a degree of
restriction that leaves little chance for any appreciable (> .30) vahdity to show up. The
Groninger Intelligentie Test I.Q., however, is a composite based on a number of subtests
that cover a large range of mental abilities. In terms of Guilfords's Sl-model the following
28 Predicting the Validity of Predictors
factors are each represented by one subtest: speed of closure (CFU), figural classification
(CFC), spatial orientation (CFS), visuahzation (CFT), numerical facihty (NSI/MSI),
verbal comprehension (CMU), verbal relations (CMR), general reasoning (CMS) and
ideational fluency (DMU). One would expect the restriction of range to be, on the whole,
less severe for the subtests than for the composite test since their correlation with the
selector, which may be assumed to be factorially complex, will be lower. Also, the near
halving of the IQ-standard deviation probably exaggerates the real restriction because of
ceiling effects on some of the tests. Since the relevant data are not given, no precise
estimate is possible by this route. The data given by Bos (op. cit.) on the separate
vahdities of the psychological tests which were used by him are more helpful. From those
data we can conclude that, even under the severest selection, the produced restriction
would be no more than 21 percent for IQ, 12 percent for Verbal level, 5 percent for
Spatial level, and 13 percent for Quanritative level. We may conclude that restriction of
range is a factor to be reckoned with when we are working with selected groups, such as
University students. However, except in special cases, it can be no more than a partial
explanation when vahdities fail to show up at all, 'spontaneously' or otherwise.
3 Backing by specifically directed preparatory research
Best results can be expected when the testing and validation procedures are specifically
designed for the institution which will take part in the validation study. Validity can, in a
manner of speaking, be exported, but at a price, unless procedures are carefully adapted
on a number of points to the local situation by preparatory research.
3.1. Although educational administrators will undoubtedly be interested in 'everyone' in
a certain year group, it would certainly be unwise to include everyone who is registered.
For instance, it happens to be the case that in the last few years a certain percentage (10
to 20) of the whole first year group of psychology students at the University of
Amsterdam does not partake in any of the six parts of the first year examination. Should
we consider them 'failures' and include them in our sample? Also: should we distinguish
between students of 'normal age' (17 to 22 yrs) and older students (every year some of
the 60+ age group show up)? Should we include students who are in fact recidivists from
a previous year? Only specific preparatory research will provide the answer to the
question that is most important to the definition of the sample: how to define a group of
which it may be said with some confidence that its members are, indeed, psychologically
'in the same boat'?
3.2. Tests and other instruments that have been specifically tailored to a particular
institution and a particular target-group have (ceteris paribus) the edge in validity on
general purpose instruments. Tests should not be chosen because they are available and
look promising, but should be constructed (or adapted) according to a plan that is based
on an analysis of the local situation (tasks to be performed, kind of students). This is true
of tests of abihty and of achievement, and probably more so of instruments of the
selfreport type. General purpose tests of Neuroticism have, for instance, repeatedly failed
to show any validity for criteria on the University level. Still, university psychologists and
deans of students report that a sizable number of students have study problems of
Elshout 3^1
neurotic origin. It might be worth our while to construct an instrument that does not try
to cover every possible manifestation of the general trait Neuroticism, but focuses instead
on study problems.
Every effort to improve the criterion will pay off in validity. If we are not in the
position to supervise the construction of the achievement tests to be used, we should at
least know how they were constructed, how reliable they are, what they are specifically
sfter, et cetera. If judgemental procedures play a part, the training of the judges should be
recommended or, if they will not sit still for this, at least their judgemental behaviour
should be analyzed so that certain adjustments (e.g. standardizing the scores per judge,
weighing for optimal reliabiUty, etc.) can be made.
Of prime importance is to discover beforehand what the institurion is 'really after'.
Elstrodt (1969), for example, reports a number of sizable negative correlations between a
number of Structure of Intellect type tests and ratings of performance of students at a
(sub-university level) school of Architecture. The lowest correlation (-.47) was found
between a test of general reasoning and overall performance. The same test had modera-
tely high positive validities for the grades previously obtained by the same students in
Technical secondary school. At the time we 'explained' this phenomenon by a process of
differential selection. That explanation still stands; but we now also know that this school
Was in the grip of a 'cultural revolution' at the time. The elements of construction in
design (solidity, economy, keeping the rain out, etc.) were thought of as largely unimpor-
tant. What was held to be important is difficult to describe. One may gain an impression
of this from the discription of the 'final task' ('afstudeeropdracht') which was assigned to
one of the students: to introspect on his 'experience of space' while standing under cover
of a bedsheet in the middle of the moors. One should not be astonished that those who
abide by their slide rule and stress tables experience some difficulty in obtaining good
grades in this kind of curriculum. Also, very much worth our attention is the way the
institution keeps record of the student performance: do they record failures and scores
obtained at the first attempt? How much of a backlog does it have? Can we safely
conclude that what is 'on the cards' correctly mirrors the 'status praesens'? Unfortuna-
tely in many institutions this will not be the case.
4 The changeability of people
People do change over a period of time, and more importantly, they differ in rates of
change. Because of this the matrix of intercorrelations between psychological measures
taken at different points in time show the so called hyperdiagonal form: the closer in time
that measures are taken, the higher their intercorrelation. If the process of development is
of the cumulative type, as is the case in the building up of an intellectual repertory, the
correlations also will tend to become higher at later stages. Furthermore, in general,
intellectual measures will show higher intercorrelation than measures of personality,
attitude, etc. This could mean that in those latter areas the rate of change is greater and it
could also mean that there is greater instability of scores (oscillation around a shifting
'true' score) due to short term influences. The hyperdiagonal form enables us to predict
that higher validities will be obtained as the time range over which the predictions are
made becomes shorter. For certain measures (such as IQ) this effect will be more
pronounced at younger ages where differences in the rate of change are greatest.
30 Predicting the Validity of Predictors
5 The form of the relationships, homocedasticity, and matters of scale and distribution
J.J. Though we are not aware of any demonstrated case of departure from linearity in
educational vaUdity research, for the sake of completeness we mention the obvious fact
that the product moment coefficient only expresses the linear component of a relation-
ship.
J.2. What have been demonstrated are departures from homoscedasticity. Ouweleen
(1948) found students of greater ability to be spread over a greater range of academic
performance than students of lesser abihty. This undoubtedly depresses the correlation.
Possible explanations for this phenomenon may be grouped under the heading of one
general principle. Stated metaphorically: if one has wings one may or may not fly,
depending on a host of factors; but without wings flight is impossible. Where this
principle holds we will, in fact, have a situation in which the eariier mentioned principle
of 'format' is violated. In the ideal (test-like) situation, the same factors should, to the
same degree, be at work in every possible subgroup of the population. There should be no
moderator effects.
J.S. The product moment correlation can only reach its highest value when both marginal
distributions have strictly the same form, and when measurement is on a continuous scale
(e.g. if achievement is measured on a A to E scale, r-max is .94). Departures from this rule
can lead to drastic reductions in validity. This is particularly troublesome if the criterion
is one of the family of productivity measures, like the number of articles written or the
number of patents obtained since in these cases the distribution of the criterion scores
will most often be extremely skewed.
To take a log-transform does not seem to help much. Burt (1943) explains the skewed-
ness of such real-life criteria by stating that productivity is the product of ability and
other independent factors, such as interest. Multiphcation does indeed produce skewing.
Not only does skewing in itself depress validity, but the multiplication process behind it is
also a violation of the principle of optimal performance and will lower the validity
further.
Conclusion
We may summanze our results thus far by stating that validities will be higher the more
similar the student and the educational criterion becomes to the testee and the test,
respectively. We illustrated most of our points with results from research on tests of
ability and previous achievement. However, by stretching our terms somewhat, we can
also apply the general principle to the validity of other types of prediction in instruments.
The generally recognized superiority of so-called biographical inventories (i.e. above
general purpose tests of personality, interests, etc., sometimes even above tests of ability)
does not stem from their being biographical in any strict sense but from the direct
relevance to the criterion situation of the ground which is covered by the questions asked.
When, for instance, one is interested in predicting Mathematical creativity, one should
require proof from the person that he has been mathematically creative in the past, that
Elshout 3^1
he still is in the present, and that he has great confidence that he will continue to be so in
the future.
Readers who have followed us this far will not be surprised by our parting admonition to
education researchers never to rely on validities to show up spontaneously. Validities are
designed-in (and can be designed-out of) the educational situation. The only thing they
ever seem to do spontaneously, is vanish — when the researcher happens to look the other
Way.
fios, D.J. Schoolkeuze-adviezen. Den Haag: Mouton, 1974.
Biokaw, L.D. Suggested Composition of Airman Classification Instruments U.S.A.F., 1960. WADD-
TN-60-214.
C. AbUity and income. Brit. J. Educ. Psychol, 1943,13, 83-98.
Crombag, H.F., Gaff, J.G. and T.M. Chang. Study behavior and academic performance. Tijdschrift
voor Onderwijsresearch. 1975,1, 3-14.
tlshout, J.J. and S.M. van Loo. Long range prediction of academic success of psychology students;
men and woman considered separately. Manuscript submitted to this journal,
tlshout, J.J. and R. Roe. A population model for restriction oi tange. Psychological and Educational
Measurement, 1973, 53-62, spring,
t-lstrodt, M. Onderzoek naar figurale vaardigheden bij architectuur studenten. Doctoraal werkstuk,
Psyeh. Lab., U.V.A., 1969.
"-•agne, R. and N. Paradise. Abilities and learning sets in knowledge acquisition. Psychol. Monographs,
.1961, 75, no. 518.
Guilford, J.P. Fundamental Statistics in Psychology and Education. Tokyo: Mc Graw-HUl, 1973.
"emert, N. van et. al. Beweegredenen, ijver en betrokkenheid bij Ie jaars psychologiestudenten.
Verslag mentorgroep. Psych. Lab. U.v.A., 1971.
Levine, M. The academic achievement test: its historical context and social functions. American
Psychologist, 1916, 31, 228-2iS.
Ouweleen, H.W. Onderzoek naar de studiegeschiktheid van aankomende studenten. Ned. Tijdschr. v.
Psychologie, \9A8, 3,119-206.
Verhage, F. and J.Th. Snijders. Groninger Intelligentie Test, Amsterdam: Swets en Zeitlinger, 1962.
'Manuscript ontvangen 31-8-'76
32 Tijdschrift voor Onderwijsresearch 2 (1977), nr. 1.
A Computer-program for Classification Proportions
in Dichotomous Decisions based on Dichotomously
Scored Items*
Henk Koppelaar
Wim J. van der Linden
State University at Utrecht, The Netherlands
Gideon J. Mellenbergh
University of Amsterdam, The Netherlands
From the binomial error model and an assumption for dichotomously scored items it follows
theoretically that the distribution of the total test score is the negative hypergeometric
distribution. The total testscore is used for classifying subjects in two categories: 'accepted'
subjects (with score above a cutting score on the test) and 'not accepted' subjects (with scores
below the cutting score). Furthermore, a value on the latent variable is fixed in advance:
subjects above this value are 'suitable' and subjects below are 'not suitable.' Using parameter
estimates from the data the program computes the negative hypergeometric distribution.
Moreover, it computes the classification proportions: p (suitable, accepted), p (suitable, not
accepted), p (not suitable, accepted), and p (not suitable, not accepted).
Introduction
In this article a program is described for computing classification proportions for
situations in which
(a) a latent variable can be dichotomised in the categories 'suitable' and 'not suitable';
(b) the latent variable is measured by an instrument composed of items that are scored 0
or 1;
(c) the total score on the measurement instrument is the unweighted sum of the item
scores;
(d) a subject is 'accepted' if his total score is higher than a cutting score; otherwise he is
'not accepted.'
This situation can be represented in a twofold table:
" We thank Fred N. Kerlinger for his editorial comments.
-ocr page 37-'koppelaar. Van der Linden & Mellenbergh 33
Latent Variable
Not suitable Suitable
Accepted Not Accepted |
| ||||
The cells are filled with proportions: po. and p.o can |
Classification Proportions
The following notation will be used:
: number of items in the measurement instrument;
: observed total score of subject i (x; = 0, 1,... n);
: true proportion of items answered correctly by subject i (0 < t-j ^ 1);
: probability density of r;
: cutting score on the measurement instrument (c = 1,2,... n);
: cutting score on the latent variable r (0 < d < 1);
n
Xj
Ti
• VUltltig dl^V^lW «Jit LilV XUWVXI
"(x) : probability density of x.
Assuming that the conditional distribution of the observed score, given the true score, is
binomial, and that the regression of the true score on the observed score is linear, it has
•^een shovm that the density of the observed score is the negative hypergeometric
«distribution (Lord & Novick, 1968, pp. 510, 515, and 516):
^ (a+b)'"^ (-b)xx!
Decision
(a)x = a(a+l) ..... (a+x-l)
b I"l = b(b-1).....(b-n+1)
-ocr page 38-34 Computer-program
The parameters a and b can be expressed as a function of the mean and variance of this
distribution (Lord & Novick, 1968, p. 517):
(2) a = (-l + ^) Mx
(3) b = - a - 1 + "
021
1 Mx (n-Mx)
no;
Using formulas (2) and (3), the parameters a and b of the negative hypergeometric
distribution can be estimated (Lord & Novick, 1968, p. 517).
The assumptions of the model are tested by comparing the theoretical frequency
distribution computed with formula (1), with the distribution of observed scores.
Mellenbergh, Koppelaar, and van der Linden (1976) have shown that the classification
proportions are
c-1
(4) Poo = Z B Id (a+x,b-x+l)
x=0
(5) Poi = E B Id (a+x,b-x+l)
x=c
c-1
(6) Pio = k B (1-Id (a+x,b-x+l))
X u
(7) Pii = E B (1-Id (a+x,b-x+l))
X""C
g = .n Bi (a+x, b-x+1)
V Bi (a, b-x+1)
B, (a,b-n+l) = /q y"-! (l-y)"-" dy, 0 <z<l
I - Bz (a.b)
The program
The input of the program consists of the number n and the estimated parameters a and b
and the cutting score d on the true score (d is indicated in the program as 'tauc'). The
output is the negative hypergeometric distribution (formula (1)) and a table with the four
classification proportions (formulas (4), (5), (6) and (7) for all possible cutting scores on
Xoppelaar, Van der Linden & IVIellenbergh___^
the measurement instrument (c = 1, 2, .... n). The body of the ALGOL 60 program is
reported in the Appendix; in the program the gamma function and the incomplete beta
function have the code numbers of the Numal hbrary of the Mathematisch Centrum
(1974). Finally, it is remarked that the program is only accurate for values of nd < 18.
References
Lord, F.M., & Novick M.R. Statistical theories of mental test scores. Reading, Mass.: Addison-Wesley,
1968.
Mathematisch Centrum, Numal. A library of numerical procedures in Algol 60. Volume 6. Function
eva/uar/o«. Amsterdam: Mathematisch Centrum, 1974.
Mellenbergh, G.I. Koppelaar, H., &, van der Linden, W.J. Dichotomous decisions based on dichoto-
mously scored items. Amsterdam: Psychologisch Laboratorium, 1976.
Manuscript ontvangen 20-5-'76
definitieve versie ontvangen l-9-'76
Appendix
"INTEGER~"PR0CEDURE- COMBJM.N);-VALU£" M,N;"INTEGEr' M,N!
••BEGIN"-INTEGER- >»R,Q? Pt=M-N;
-IF- P<0 -THEN—BEGIN- R«=0;-G0r0" E"'NO";
-IF- N<'» "THEN—BEGIN" Pt = N; N» = m-p "END"?
"IF" P=0 "THEN—BiGIN" RI=i;"G0r3" E-ENO";
-FO^" Qt=2 "STE'"1"UNTIL" P "00" R«= IR*(N+ Q))/Q?
EJ C0M8»=R
*eno" comb;
■'REftL""PROCEDURE- POCHH {A ,B) ;-V4LUE" A.Br^REAL" A;-INTEGSR" B?
'begin"-integer- i:-reau" result; result!=i;
-FOR- I«=B-1 "STEP- -1 "UNTIL" B "00" RESULTt=RESULT»IA+I);
P03HHt=RESULT: "END" »JCHH?
'REAL-"PROCEDURE- NEGHfPGEOMlA,3, N,X It
"value- a,b,n,x;"real" »,b,n;"integer" x;
neghypge0mj=<d3eta(a , b»l)/qbet a< a ,b-n«-1 > J •
(pochhc-m.xj/aochht-b.xi )*{fochh(a,x»/gammatx+1») ;
•real-"»roceoure- estt&u(a,b,x);"vall€" a,b,x;"real" a,b,x;
esttaui=cbeta( a4-x*1,b-x«-1)/3beta (a»x,b-x*1);
'real~"proceourr- gamhft(x» ;"valje" x;"real" x;"code" 35161;
•REAL--PROCEDURE- CBETA(K,L)'"VALUE" K,L;"REAL" K,L;
CBETAt = l5AH>1AC<)/GAMMA«fLI)*GAMMA(L) ;
'real-"proceoure- incbeta (x,p,0,eps> ;"cooe" 35050;
10*
20*»
36 Computer-program
~REAL"-PROCEOURE" PB0(A,B,C,N,T4JC»t"VALUE" A,B,CTAUC5
"REAL" A,B,C,TAUC;"INT£3ER" N;
"BEGIN — INTEGER- )(;"REAL" SUM? SJM: = 0;
"FOR" <1 = 0 -STEP" 1 -U>ITIt" 3-1 "00"
SUMI = SlJHfC0MBIN,X)»INC3iTAt TAUC,A + X,B-X»1,"-10)
•CBETA(AfX,8-X+l)/CBETA tA,B-N + l) ;
pQO»=suM -ENO" POO;
-REAL—PROCEOURE- p811A , B , C,N, TAUC) ; "V ALUE" A, B, C, N, T AUQ?
«»O^* "REAL" A,B,C,TAUC;"INT£3ER" N?
"BEGIN — INTEGER" x;-REAL" SUM? 3JM: = I);
"FOR" XJ=C -STEP" 1 "U^riL" N "00"
SUMI = SUMI-C0MB(N,X)*INC3ETA(1AUC, A4-X,B-X + 1,"-101
•CBETAU^X,B-X+l)/CBETAl A,B-N + 1) ;
POll=SUM "END" POi;
-REAL--PROCEOURE- PICIA,B,C,N,TAJC) V'VALUE" A,B,C,N,TAUI?
"real" a,b,c,tauc!-int£;er" n;
"BEGIN—INTEGER- X?-REftL" SUM? 3JMi = n;
50»* -FOR- *trO "STEP" 1 "U-^riL" C-1 "DO"
SUM»=SJ»1»COMB (N,X)»(1-TMCBETA (TAUC,A + "-13» )
♦CBETA^A^X,B-X+ll/CBET^tA,B-N+l);
P1BJ=SUM "END" PIO:
-REAL—proceouri- pll t a , b ,c,N, tauc» ; "V alue" a , b,c,.N, T aug?
"REAL" A,B.C,TAUC;"INT£3E(?" N;
"BEGIN—INTEGER- X;-REAL" SUM? 3JMt = n;
"FOR- XJ=C "STEP" 1 "U'^TIL" N "00"
SUM1 = SJH»C0MB(N,X»»(1-IMCBETA (TAUC ,A + X,3-X+1 ,"-l!) ) )
6D»» »CBETAtAf y,B-X*-l»/CBETAU,B-N + ll ;
Pllt=SUM "END" Pll!
"INTEGER" C,M,N,AANTAL;"ARRAY" Z 11:i: "RE AL" A, B, 0 , RESULT; ^
OUTPUTtei,-(""(- BOO »D1 PIO Pll NEGHYFCSC''
ESTTAU CUT S HARE SCORE")",2/"1">;
INPUTIdP,"("N ")",AANT4L);
-FOR" Mt=l "STEP" 1 "UNTIL" A A NTAL"DO""BEGIN"
70»» INPJT160 ."t"/,ZZO, 3B,Z0.<»0,3a,ZD.ifD, n,ZD.<tO ")",N,A,B,0) ;
-FOR" CJ = 1 -STE»" 1 "UNTIL" »1 "00""BEGIN"
Ztl]t=P00tA,B,C,H,O);
Zt2U = PBlU,B,C,M, D> ;
Z[31t = P10 IA,B,C,'<, D) ;
Z[<flt = PlllA,B,C,S, 0) ;
RESULT J = ZtlH-Zt 2H-Zt 3] + Zt ifi;
0UTPUT<51,-«"3 8,-Z.3D,13,-Z.3D,3B,-Z.3D,7a,-7.")",
ZC11 ,Zt2J ,Zt31 ,zt<tl> ;
0UTPUT<61,"l-9B,-Z.3D,5B,-Z.5 0, ")",NEGHYPGEOMtA,B,M,C),
80»* ESTTAUtA.B.O» ;
OUTPUTtei,-l- 5B,Z0, J3,Z0,5B,Z.3D,/")", C,N,D>;"£'''
0UTPUH61,"("2/"> ") "END";
"ENO";
FINIS SEN.Br EOR-CARD
-ocr page 41-Tijdschrift voor Onderwijsresearch 2 (1977), nr. 1. _^
onderzoek van postacademisch onderwijs
E-C. Kooyman*'
W. May">
Samenvatting
In deze notitie wordt de aandacht gevestigd op het postacademisch onderwijs (PAO) in
Nederland, waarover nog vrijwel geen onderwijskundige research is verricht.
Enkele ervaringen met PAO, in de sector Scheikunde en Scheikundige Technologie opgedaan,
worden medegedeeld. Ter sprake komen zowel instelling en inbreng van de aan PAO-cursussen
deelnemende beroepsbeoefenaren uit genoemde sector, als instelling en methodiek van de
docenten.
De vraag wordt aan de orde gesteld in hoeverre de onderwijsmethoden bij het PAO dienen te
verschillen van die bij het reguliere w.o.
Inleiding
Reeds een 10 ä 15 jaar geleden kwam men in een aantal landen, waaronder Nederland, tot
het besef dat een aanmerkelijke groep afgestudeerden van het w.o. in hun beroepspraktijk
geconfronteerd werd met de veroudering van hun kennis en met nieuwe eisen die naar
voren kwamen. Met het kennisnemen van de vakliteratuur kon in veel gevallen niet meer
Worden volstaan; de goede beroepsuitoefening vroeg om een gericht en systematisch
eontact met nieuwe kennis en vaardigheden. Dit besef leidde én in Nederland én in het
buitenland tot een aantal 'nascholings'-initiatieven, gewoonlijk voortgekomen uit de
particuliere sfeer en in het algemeen met succes bekroond.
In het kader van de nieuwe wettelijke regelingen terzake van het w.o. acht de nederiandse
overheid thans de tijd gekomen de 'nascholing' te trekken in de sfeer van de overheidstaak
en daartoe een wettelijk en organisatorisch kader voor dit onderwijs te scheppen.
Het wordt genoemd 'postacademisch onderwijs' (PAO) en het wordt in artikel 143 bis,
eerste lid van de Wet van 12 november 1975, houdende wijziging van de Wet op het
Wetenschappelijk onderwijs en van de Wet universitaire bestuurshervorming (Stb. 729-
1975) alsvolgt omschreven:
38 Notities en Commentaren
Postacademisch onderwijs stelt hen die maatschappelijke betrekkingen bekleden of kunnen bekleden,
waarvoor een wetenschappelijke opleiding vereist is of dienstig kan zijn, in staat zich regelmatig te
verdiepen in de ontwikkelingen in de wetenschappen met het oog op een zo goed mogelijke bekleding
van deze betrekkingen.
De overheid onderscheidt de volgende aspecten van PAO:
1. het verfrissen en vernieuwen van reeds verworven kennis en vaardigheden, hetgeen
zowel het op peil houden van kennis omvat als ook het op de hoogte blijven van
nieuwe ontwikkelingen daarin;
2. het aanvullen van verworven kennis en vaardigheden met die elementen die voor de
uitoefening van het beroep van belang zijn en die, vanwege de specifieke relatie met
het beroep, geen of onvoldoende plaats hebben gekregen in het initiële, doctorale
onderwijs;
3. het verwerven van nieuwe specialistische kennis en vaardigheden, die vereist zijn voor
een goede vervulling van specifieke maatschappelijke functies, waarvoor de betrokke-
nen in de loop van hun carrière zijn bestemd, bijvoorbeeld in de sfeer van management.
Geen voorwaarde om tot het PAO te worden toegelaten is het afgestudeerd zijn aan een
instelling van w.o., alleen het bekleden of kunnen bekleden van een maatschappelijke
functie als omschreven in de Wet.
Als zodanig is PAO derhalve geenszins nieuw (nieuw is slechts het komende wettelijke en
organisatorische kader); het betreft in tegendeel een reeds geruime tijd bestaande vorm
van onderwijs aan volwassenen, gegroeid in de praktijk en geënt op gebleken behoeften.
Men heeft zich daarbij aanvankelijk nauwelijks het hoofd gebroken over de vraag hoe dit
onderwijs het best kon worden gegeven. Nu het PAO echter een steeds omvangrijker
aangelegenheid wordt, gaat het vraagstuk van de methodologie van het PAO meer en meer
klemmen.
Probleemstelling
De concrete vraag die onder ogen moet worden gezien luidt:
'hoe geschiedt de kennisoverdracht aan volwassenen met praktijk- en levenservaring op
optimale wijze en in het bijzonder dus de overdracht van wetenschappelijke kennis aan
mensen van academisch niveau'.
Het belang van deze onderwijskundige problematiek wordt ook door de overheid onder-
kend. In artikel 9, eerste lid van de betreffende ontwerp-A.M.v.B. wordt aan het bestuur
van een orgaan voor PAO o.m. de volgende taak opgedragen:
de bevordering van onderzoek inzake de onderwijskundige aspecten van postacademisch onderwijs en
een regelmatige beoordeUng van de resultaten van het postacademisch onderwijs, dat het orgaan
organiseert en bevordert.
Hoewel, zoals vermeld, in Nederland al geruime tijd PAO wordt verzorgd, bleek ons bij
navraag dat bovengestelde vraag (nog) niet beantwoord kan worden. Wij zijn van mening
dat hier van een ernstig manco gesproken moet worden en dat er een terrein van
onderzoek braak ligt. In het geding is niet zozeer de taakvervulling van de PAO-organen;
van veel grotere maatschappelijke betekenis is immers de optimale beroepsuitoefening van
'<ooyman en May 39
academici en daarmee gelijkgestelden, in wier opleiding en professionele aanstelling door
verheid en werkgevers jaarlijks miljarden guldens worden belegd.
'J bepleiten daarom dat zo spoedig mogelijk de aangeduide problematiek wordt aange-
vat. Wij realiseren ons daarbij dat een oplossing niet eenvoudig te verkrijgen is; het PAO
erkeert nog in ontwikkeling en van een diepgravend onderzoek daarvan, laat staan van de
methodologie van een dergelijk onderzoek, kan op dit moment nauwelijks sprake zijn.
m een eerste aanzet te geven tot overweging van en overleg inzake een onderzoek naar
® optimalisering van kennisoverdracht bij het PAO achten wij het zinvol enkele ervarin-
gen mede te delen betreffende een bepaalde sector van PAO en wel van die op het gebied
Van de Scheikunde en de Scheikundige Technologie. Wij beseffen dat deze ervaringen niet
steeds maatgevend zullen zijn voor andere sectoren van PAO, wij vertrouwen evenwel dat
^iJ richtinggevend kunnen zijn.
Postacademisch onderwijs in de scheikunde en de scheikundige technologie
Onze activiteiten zijn in 1967 begonnen als een particulier initiatief van de Koninklijke
^ederiandse Chemische Vereniging en worden thans geleidelijk overgedragen aan een in
opgericht Overiegorgaan, te zien als voorloper van het op te richten orgaan voor
"AO in de zin van de komende AMvB. Hierin participeren de tien nederiandse subfacultei-
^n/afdelingen Scheikunde/Scheikundige Technologie en vier beroepsorganisaties, t.w. de
^oninklijke Nederiandse Chemische Vereniging, het Koninklijk Instituut van Ingenieurs,
de Vereniging van de Nederiandse Chemische Industrie en de Nederiandse Vereniging voor
net Onderwijs in de Natuurwetenschappen.
it de vele mogelijke uitvoeringsvormen hebben wij gekozen voor de 'intensieve werkcur-
^Us', die een vijftal aaneengesloten dagen omvat en waarbij actieve participatie van de
eursisten wordt verlangd. Naar ons oordeel past deze vorm goed in de bèta-sector, waar
men vooral 'zelfstandig met de materie moet leren werken'. Bovendien heeft men in deze
sector gemeenlijk veel mogelijkheden om via zelfstudie (tijdschriften, symposia, informa-
tieverstrekking op computerbasis) bij te blijven t.a.v. de nieuwe ontwikkelingen,
n de verstreken tien jaar is een scala van cursusonderwerpen aan de orde geweest waarin
ue aspecten van PAO, genoemd in de Inleiding, alle drie aan de orde zijn gekomen. Veel
^org is steeds besteed aan de samenstelling van de docententeams. In het merendeel der
gevallen is gewerkt met 'gemengde' teams, d.w.z. afkomstig van verschillende instellingen
w.o. en vaak aangevuld met docenten bij het bedrijfsleven en/of overheidsdiensten,
zijn wel cursussen gehouden waarbij de docenten uitsluitend uit het bedrijfsleven
^'komstig waren, alsook cursussen met een docententeam van een buitenlandse universi-
teit. Het aantal docenten was minimaal drie, soms wel vijftien.
Bij elke cursus worden cursisten in de gelegenheid gesteld hun oordeel over de cursus
■denbaar te maken en wel tijdens een forumdiscussie aan het einde, alsmede d.m.v. een
tamelijk uitgebreid vragenformulier. Niveau, inhoud, presentatie en tempo van de cursus
gorden aan de orde gesteld, terwijl voorts gevraagd wordt naar de verwachtingen die men
Ijeeft t.a.v. het nuttig effect op korte en langere termijn, de mogelijkheid het geleerde
oor te geven aan collega's en medewerkers, enz.
40 Notities en Commentaren
Ervaringen
1 Cursisten
In onze sector is de leeftijd van cursisten meestal gelegen tussen 32 en 40 jaar, d.w.z. men
heeft een beroepservaring van 5 tot 15 jaar.
De hun via het w.o. geboden opleiding was typisch subdiscipline-gericht met tot gevolg
dat men na afloop van de studie geneigd was het vakgebied te zien als een samenstel
van - soms weinig verwante - hokjes.
In de loop van de beroepsuitoefening kwam men dan tot de erkenning dat deze hokjes
meestal niet bestaan. Dit blijkt ook overduidelijk uit de aard van hun belangstelling en
hun vragen tijdens een cursus: 'fenomenen' zijn veel belangrijker dan de vraag tot welke
subdisciphne de vraag inhoudelijk zou moeten behoren. Niveau en inhoud van de
discussies tijdens een cursus zijn dan ook duidelijk verschillend van die, welke men
bijvoorbeeld kan beluisteren bij werkgroepbesprekingen bij het w.o., d.w.z. breder en
vooral meer inter(sub) disciplinair.
Uit de antwoorden op het vragenformulier kan worden geconcludeerd dat cursisten de
geboden vorm van PAO zeer positief beoordelen. Men dient daarbij natuurlijk wel te
bedenken dat dit oordeel niet noodzakelijk representatief is voor de nederiandse chemici
in het algemeen. Tot dusverre zijn ca. 50 cursussen gegeven met in totaal ca. 1200
cursisten, dat is slechts \2Vi % van de ongeveer 9000 professioneel werkende chemici. Het
voert in het kader van deze notitie te ver op de oorzaken daarvan in te gaan; stellig zullen
niet alle chemici behoefte hebben aan PAO, terwijl anderen om allerlei andere redenen
niet aan PAO kunnen deelnemen. Naar onze mening zal men dit verschijnsel ook in de
andere sectoren kunnen verwachten.
2 Docenten
Wij vermeldden reeds dat doorgaans gewerkt wordt met 'gemengde' docententeams.
Hoewel men uit de uitspraken van cursisten zou kunnen afleiden dat de toegepaste
didactische vorm klaarblijkelijk uitstekend voldoet, is hier ook het oordeel van docenten,
met name die van het w.o., van groot belang.
Zonder uitzondering hebben dezen ons verzekerd dat anders te werk moet worden gegaan
dan in hun reguliere onderwijstaak. Als gevolg van de interactie tussen docent en cursisten
is een grote flexibiliteit vereist en moet soms zelfs 'a l'improviste' worden gewerkt. Zulks
wordt als een uitdaging aanvaard, maar is uiteraard wel zeer stimulerend. Dit, gekoppeld
aan de inbreng van cursisten, leidt tot de conclusie dat ook docenten deze vorm van PAO
zeer positief beoordelen.
Ondanks het gunstig oordeel èn van docenten èn van cursisten bestaat natuurlijk geen
zekerheid dat de kennisoverdracht optimaal geschiedt. Zoals reeds gezegd zijn wij van
mening dat een onderzoek hiernaar dringend gewenst is. Een ding is wel zeker: de te
volgen onderwijsmethode verschilt en dieiït ook te verschillen van die bij het reguliere
w.o.
Conclusies
1. Te verwachten is dat de behoefte aan PAO in de komende jaren toe zal nemen.
2. Gezien de grote belangen die er mee gemoeid zijn, is het van het uiterste gewicht dat
optimale onderwijsmethoden tot stand komen.
Xooyman en May 41
• peze methoden kunnen per sector verschillen voor wat betreft hun doelstelling,
inhoud en intensiteit.
• Ook dient rekening te worden gehouden met de omstandigheid dat beroepsbeoefena-
ren hun werkterrein niet zien als een samenstel van subdisciplines, doch als één geheel:
hun beroep.
• Docenten bij het PAO dienen zich bij deze instelling en daarmee samenhangende
behoeften aan te passen; dit houdt in dat zij ten dele uit andere kringen dan die van
het w.o. moeten worden gerecruteerd en ook dat niet alle docenten van het w.o. voor
het geven van PAO in aanmerking kunnen komen.
• Tot dusverre is hoofdzakelijk empirische ervaring in het geven van PAO verkregen; een
meer systematische aanpak van onderzoek naar de onderwijsmethode in het PAO is
zeer urgent.
^"nuscript ontvangen 13-9-1976
-ocr page 46-42 Tijdschrift voor Onderwijsresearch 2 (1977), nr. 1.
P. van Hauwermeiren
Het leesbaarheidsonderzoek
Groningen: Tjeenk Willink, 1975.
Al tientallen jaren (vanaf ± 1920) doet men in Amerika onderzoek naar de leesbaarheid van teksten.
De inzet van dit onderzoek is vooral een middel te vinden om de leesbaarheid van een tekst voor een
publiek van een bepaald niveau te kunnen voorspellen. Zo zijn er in de loop der tijden een groot aantal
formules hiervoor ontstaan. Eén eerste overzicht hiervan bezaten we reeds in Klare (1963, aangevuld in
1974-5). Van Hauwermeiren geeft ons nu in het Nederlands een overzicht van de methoden en
resultaten van het Amerikaanse leesbaarheidsonderzoek tot 1970. Hiermee maakt hij de problematiek
voor het Nederlands taalgebied toegankelijk.
Met deze boekbespreking willen we na een korte beschrijving (1), eerst enige aantekeningen en
commentaren geven bij het werk van Van H. (2) en vervolgens het Amerikaans leesbaarheidsonder-
zoek, zoals het nu in dit werk voor ons ligt, vanuit enkele gezichtspunten benaderen (3).
1 Korte beschrijving van de inhoud
Het boek beoogt een inleiding te zijn in het leesbaarheidsonderzoek, met name in de leesbaarheidsme-
ting en leesbaaiheidsvoorspelling.
Hoofdstuk I geeft een inleiding in de leesvaardigheidstheorie. Immers de leesbaarheid van een tekst is
afhankelijk van de leesvaardigheid van de lezer. De volgende onderwerpen komen hierbij aan de orde:
het tekstbegrip met als componenten woordperceptie, comprehensie, evaluatie, integratie van het
gelezene met reeds eerder verworven inzichten; verder de leessnelheid en zijn relatie met tekstbegrip;
de leesflexibiliteit; en tenslotte de relatie tussen leesvaardigheid en leesbaarheid.
Hoofdstuk ƒƒ geeft een methodologische beschouwing bij de meting en predictie van leesbaarheid. Het
is voornamelijk gericht op leesbaarheidsmeting met het oog op de ontwikkeling van leesbaarheidsfor-
mules en geeft een inzicht in de moeilijkheden en de methodologische klippen, waarvoor dergelijk
onderzoek ons stelt. Van H. gaat o.m. in op de keuze van bruikbare variabelen, de keuze van
criteriumteksten, de operationele definitie van de leesbaarheid (moeilijkheid) van die teksten, de
correlatie tussen de variabelen en deze operationele definitie, de keuze van proefpersonen, de vorm van
de leesbaaiheidsformule, de interpretatie bij de toepassing ervan, de validiteit en de betrouwbaarheid.
Hoofdstuk Hl geeft een uitgebreid overzicht van de geschiedenis van de Amerikaanse leesbaarheidsme-
ting. Van H. onderscheidt vijf periodes: de vroegere formules (1921-34); de gedetailleerde formules
(1934-38); de efficiënte formules (vanaf 1938); de gespecialiseerde formules (1953-59); verdere
vereenvoudiging, automatisering en wetenschappelijke verdieping (1960-72).
•
2 Commentaai
Zowel titel als doelstelling van het boek doen een veel breder overzicht over het gebied van de
leesbaarheid vermoeden dan de schrijver in feite geeft. In de inleiding spreekt hij weliswaar het
voornemen uit alle facetten van het leesbaarheidsonderzpek die van enig belang zijn voldoende te
belichten. Zijn werk echter handelt voor een zeer groot deel slechts over de leesbaarheidsmeting
gericht op de constructie van leesbaarheidsformules. Dit legt nogal wat beperkingen op aan het aantal
behandelde variabelen die in relatie staan met de leesbaarheid. Het werk is daardoor meer geschiedenis
van het Amerikaanse leesbaarheidsonderzoek dan een theoretische en methodologische inleiding op
leesbaarheidsonderzoek zonder meer.
2.1 Met Van H. zijn we van mening dat 'de leesbaarheidsmeting aan inzichtelijkheid wint als ze
beoefend wordt tegen de achtergrond van wat de wetenschap ons over de leesvaardigheid leert' (p. 9).
^°el<besprekingen 43
tek J^"*'^®®''' fnet name dat velen die met leesbaarheidsonderzoek bezig zijn de leesbaarheid van een
onrt vastleggen in termen van leesvaardigheidsniveau van de lezer, maar niet preciseren wat ze
der leesvaardigheid verstaan. In Hoofdstuk I probeert hij de lezer dan ook een indruk te geven van
at op leesyaardigheidsgebied bekend is.
zichzelf hiermee een moeilijke taak gesteld: in de Amerikaanse literatuur over het leesbaar-
idsonderzoek is tot nu toe namelijk nog weinig aandacht besteed aan dit onderwerp. Van H. is er ons
ziens jammer genoeg ook niet helemaal in geslaagd. Het hoofdstuk is teveel een inleidende opsom-
(19*1 aantal losse literatuurgegevens, ingepast in de indeling van Gray (1960) en Robinson
rt relatie met het leesbaarheidsonderzoek had veel verder uitgediept moeten worden. Niet
Wdelijlc wordt wat de gepresenteerde gegevens betekenen voor het huidige leesbaarheidsonderzoek.
Vendien missen we in dit verband ook bepaalde gegevens uit de leesvaardigheidsliteratuur. Met name
le° h' weinig ingegaan op leesdoelen en leesstrategieën en de consequenties hiervan voor het
.®^®arheidsonderzoek. Zo mag men verwachten, dat bij hantering van een bepaalde leesstrategie (bv.
öobaal lezen) de aanwezigheid van bepaalde tekstkenmerken (bv. de typografische vormgeving aan de
noudelijke structuur) van veel groter belang is, dan bij hantering van een andere leesstrategie (b.v.
"tisch lezen). Voorzover Van H. wel ingaat op leesstrategieën worden deze teveel in relatie gebracht
de leessnelheid en te weinig met het leesdoel, waarmee gelezen wordt.
Had de auteur kennelijk moeite met het onderwerp van het eerste hoofdstuk van het boek, voor
e twee volgende geldt dit veel minder. Hier bevindt hij zich weer meer op zijn specifieke terrein.
Het tweede hoofdstuk geeft een goed inzicht in de methodes, die tot nog toe gevolgd zijn bij het
eesbaarheidsonderzoek. Van H. volgt deze methodes met de nodige kritiek, waaraan we in het
^ederlandse taalgebied zo langzamerhand wel behoefte hadden, omdat ook hier de verschillende
ormules vaak kritiekloos worden overgenomen en gehanteerd. Zijn kritiek betreft vooral de keuze van
® variabelen, en de wijze waarop de leesmoeilijkheid van de criteriumteksten wordt gemeten. Wij
Ouden hier nog kanttekeningen bij de beperkte lengte van de meeste criteriumteksten (150-300
woorden) aan toe wUlen voegen.
oe Van H. tot de conclusie kan komen, dat 'de methoden van de leesbaarheidsmeting op dit ogenblik
^og allerlei onvolkomenheden vertonen, maar dat het er naar uitziet dat ze in een nabije toekomst
uilen kunnen worden weggewerkt' begrijpen we niet. Zelf waren we aan het eind van het tweede
Jioofdstuk veel pessimistischer.
i h ^'gemeen kan men namelijk vaststellen dat nog veel te weinig aandacht wordt besteed aan de
"oudsvaliditeit van de leesbaarheidsmetingen c.q.-formules. Zolang het leesbaarheidsonderzoek blijft
geconcentreerd op het ontdekken van de betere formule, en deze bovendien algemeen geldend en erg
envoudig moet zijn, zien wij dit als een belemmering voor de groei van het inzicht in de leesbaarheid
^"•ook par. 3.1.).
Het derde hoofdstuk bevat een uitstekend overzicht van de zo langzamerhand vrij uitgebreide
êeschiedenis van het Amerikaanse leesbaarheidsonderzoek. Met name is het overzicht van de laatste
Periode, die van de 60-er jaren, van belang. Hierin behandelt hij onder meer de inschakeling van
^omputers die het telwerk verzorgen bij de toepassing van leesbaarheidsformules. Bovendien onderkent
H. in deze periode een onmiskenbare verdieping in de richting van onderzoeken met vele
anabelen, waarbij de relaties tussen linguistische variabelen binnen de zinsgrens centraal staan. We zijn
met Van H. eens dat vooral in het onderzoek van Bormuth zeker aanknopingspunten zijn te vinden
Voor verder onderzoek.
|"®t is wel jammer dat Van H. zich in dit hoofdstuk heeft beperkt tot het Amerikaanse onderzoek en
"et onderzoek in andere taalgebieden, waaronder het Nederlandse, onbesproken Iaat.
3 Enige opmerkingen bij Van Hauwermeiren's beschrijving over het Amerikaanse leesbaarheidsonder-
zoek
T"ot nog toe heeft het Amerikaanse leesbaarheidsonderzoek zich praktisch alleen beperkt tot het
?oeken naar een betrouwbare voorspeller van de leesbaarheid van een tekst. Deze beperking willen we
'n de volgende punten aan de orde stellen.
44 Boekbesprekingen
3.1 Variabelen die mogelijk van invloed zijn op de leesbaarheid van teksten
In een boek dat pretendeert een inleiding te zijn tot het leesbaarheidsonderzoek verwacht men een
omvattend overzicht van de variabelen die van invloed zijn op de leesbaarheid. Ook verwacht men
binnen dit overzicht een duidelijke plaatsbepaling van de verschillende methoden voor leesbaarheids-
meting. Hierin zijn we echter teleurgesteld. Van H. richt zich bijna onmiddellijk op de in de
gebruikelijke lecsbaarheidsformules vastgelegde tekstvariabelen en stapt zeer snel over de niet door
deze formules vastgelegde variabelen heen.
Hij had ons inziens veel explicieter moeten aangeven dat de formules zich bijna altijd beperken tot
woord- en zinsvariabelcn, terwijl men in het algemeen kan stellen, dat de leesbaarheid van teksten in
relatie staat met variabelen als:
a. Tekstvariabelen
- Het doel waarmee de informatie wordt gepresenteerd.
- De inhoud van de informatie.
- De structuur (organisatie) van de gepresenteerde informatie.
- De taalkundige vormgeving van de informatie, met punten als:
• de semantische complexiteit (woordgebruik)
• de syntaktische complexiteit (zinsconstructie)
• de schrijfstijl (o.a. het gekozen taalregister)
• hoeveelheid redundantie.
- De lengte van de tekst.
- De vormgeving (typografische factoren, druktechnieken, papierkwaUteit enz.).
b. Lezersvariabelen
- leesvaardigheidsniveau en genoten onderwijs
- voorkennis en ervaring
- woordenschat
- fysiologische factoren
- motivatie
- interesse
- het gekozen leesdoel
- de gehanteerde leesstrategie.
Naast het punt van volledigheid ten aanzien van de variabelen, staat dat van de aard er van. Van H.
signaleert in dit verband dat de variabelen in de leesbaarheidsformules meestal om zuiver pragmatische
redenen gekozen zijn. De gehanteerde variabelen wijzen de leesbaarheid van een tekst aan, maar
verklaren deze niet. Hij is weliswaar van mening dat men niet tevreden moet zijn met die variabelen die
alleen maar een hoge correlatie met het criterium van de leesbaarheid vertonen, maar naar variabelen
moet zoeken die met de leesbaarheid in causaal verband staan. Deze gedachte had hij beslist verder uit
moeten werken, dan hij nu heeft gedaan. Het onderzoek naar de oorzaken van leesbaarheid (en
daarmee naar die van de leesmoeiUjkheid) van teksten zal zich ons inziens op vele variabelen tegelijk
dienen te concentreren en vanuit een theoretisch raamwerk moeten plaatsvinden. Men zal zich ons
inziens minder moeten richten op losse variabelen, maar meer op combinaties van variabelen die onder
bepaalde condities de leesbaarheid van een tekst positief of negatief beïnvloeden.
3.2 Een alternatieve benaderingswijze: het oordeel van de lezer
Uitgaand van bovenstaand overzicht kan men zich afvragen of er naast het beschreven leesbaarheidsfor-
mule-onderzoek ook andere (betere) methoden voor de meting van leesbaarheid zijn ontwikkeld die
ook andere variabelen omvatten, dan die op woord- en zinsniveau. Zo besteedt Klare (1963) enige
aandacht aan de beoordelingsmethode van teksten, waarbij men tracht aspecten van leesbaarheid vast
te leggen aan de hand van oordelen van een lezers^oep. In zijn artikel van 1974-5 haalt hij enkele
onderzoekers aan die hebben vastgesteld dat lezers via deze methode meer sensitieve en betrouwbare
gegevens verschaffen over de leesbaarheid van teksten dan in het algemeen door formules gegeven
worden. Van H. gaat op deze mogeUjkheid nauweUjks in.
In dit verband is het ons inziens zeker een gemis dat hij de onderzoeken van de groep rond Langer,
Schulz von Thun en Tausch niet genoemd heeft. Aansluitend bij gegevens uit de informatieleer en de
Boekbesprekingen __
leerpsychologie hebben zij vele typen teksten door grote groepen mensen laten beoordelen op
tekstkenmerken die voor het merendeel boven het woord- en zmsniveau ultpan. Via factoranalyse
wamen ze tot vier dimensies hierin: eenvoud in stijl, tekststructuur, bondigheid en aantrekkelijkheid.
De relatie tussen deze dimensies en begrip, retentie en toepassing van de tekstinhoud werd eveneens
vastgelegd. In hun onderzoeken betrokken zij geen directe taalformele kenmerken. In Langer et al.
(1973) zeggen ze niet te wülen tornen aan de betekenis van deze formele kenmerken. Ze verwachten
echter dat dc betekenis van deze kenmerken op de achtergrond treedt, als wezenlijke, meer complexe
tekstkenmerken (zoals structuurkenmerken), worden gevarieerd.
DergeUjke benaderingen via andersoortige variabelen zullen de kijk op de onderzoekmethoden en via
deze op de leesbaarheid zelf zeker verbreden.
Leesbaarheidsformules en de verbetering van teksten
Zoals gezegd, vormt het streven naar zo eenvoudig mogelijke formules op zich geen basis om alle
teksteigenschappen op het spoor te komen die veroorzakers zijn van leesmoeilijkheid. Daarom levert
het lecsbaarheidsonderzoek gericht op de ontwikkeling van formules nauwelijks of geen aanwijzingen
op voor het verbeteren van teksten. Daarvoor zijn ze ook niet bedoeld. Ze zeggen eventueel dat een
tekst verbeterd moet worden, niet hoe ze verbeterd moet worden. Zo maakt bv. een wijziging in
^oord- of zinslengte een tekst niet bij voorbaat beter leesbaar. De huidige stand van het Amerikaanse
leesbaarheidsonderzoek levert dan ook nog praktisch geen mogeüjkheden het schrijfvaardigheidsonder-
J^'js te verbeteren.
•-anger et al (1974) bieden hiervoor weUicht betere mogelijkheden, zeker als hun voorstellen voor
schtijfvaardigheidsonderwijs gedetailleerder worden uitgewerkt (zie bv. Drop et al. 1976).
Leesbaarheidsformules en de beoordeling van onderwijsteksten
Sommige lezers zullen zich waarschijnlijk afvragen wat men met de door Van H. gegeven informatie in
het onderwijs kan doen. Heeft het bijvoorbeeld zin om met leesbaarheidsformules de bruikbaarheid
van studiemateriaal vast te leggen, zoals soms aangeraden wordt? We hebben hierboven reeds een
groot aantal factoren genoemd die mogelijk in relatie staan met de leesbaarheid van teksten. Bij
onderwijsteksten moeten er echter nog enkele factoren aan toegevoegd worden. Deze teksten dienen
namelijk ook aan onderwijskundige criteria te voldoen; ze moeten zo samengesteld zijn dat de
'eerprocessen van de studenten gestimuleerd worden. Ze moeten bv. passen in het onderwijsdoel,
aansluiten bij de voorkennis, op een leerpsychologisch verantwoorde manier zijn opgebouwd, de
motivatie bevorderen, toetsmogelijkheden bieden, etc. Om deze redenen is het vaak aan te bevelen
extra voorbeelden en vragen in te lassen, aparte inleidingen op te nemen, onderwijskundig gerichte
aandacht te geven aan de structuur, etc.
Uit deze opsomming zal duideUjk zijn dat m.b.v. de leesbaarheidsformules slechts een beperkt aantal
tractoren wordt vastgelegd van het totale aantal factoren die samenhangen met de lees- en leerbaarheid
van een onderwijstekst. Ook moeten we vaststellen dat de meeste formules niet zijn toegesneden op
vaktaal en teksten met (vreemde) symbolen, formules, grafieken en tabellen. Al met al vragen we ons
af of bij vastleggen van de leesbaarheid van onderwijsteksten niet beter gewerkt kan worden met
lezersoordelen en leeropbrengstmetingen.
^ Conclusie
Van Hauwermeiren geeft een goed methodisch overzicht van de methoden en resultaten van het
Amerikaanse leesbaarheidsonderzoek. Als algemene inleiding op het leesbaarheidsonderzoek schiet het
boek echter te kort. Van H. weet nog niet goed te ontkomen aan de beperktheid van het beschreven
onderzoek Zijn kritiek op dit onderzoek delen we; zijn optimisme dat onvolkomenheden in de nabije
toekomst worden weggewerkt delen we niet. Zolang het leesbaarheidsonderzoek vooral op eenvoudige
®n algemene formules blijft gericht lijkt ons een zeker pessimisme gerechtvaardigd.
Literatuur
Drop, w. et al 1976 (in voorbereiding).
-ocr page 50-46 Boekbesprekingen
Gray, W.S., The Major Aspects of Reading, Ann. Conf. in Reading Proc., 1960,22, 8-24.
Klare, G.F., The Measurement of Readability, Ames: Iowa State Univ. Press, 1963.
Klare, G.l-., Assessing Readability, Reading Res. Quart., 1745-5,10, 62-102.
Langer, 1., Schulz von Thun, F., Meffert, J., und Tausch, R., Merkmale der Verständlichkeit schrift-
licher Informations- und Lehrtexte, Zs. f exp. u. angew. Psychol., 1973,20, 269-286.
Langer, I., Schulz von Thun, F., Tausch, R. Verständlichkeit in Schule, Verwaltung, Politik und
Wissenschaft. München-Basel: lirnst Reinhardt, 1974.
Robinson, U.M., Tlie Major Aspects of Reading,/In«. Conf in Reading Proc., 1966,28, 22-36.
Bernadette van Hout-Wolters Jan van der Staak
Centrum voor Didaktiek en Onderzoek Vakgroep Toegepaste Taalkunde
van Onderwijs, T.ll. Twente T.II. Twente
K. Soudijn
Dilemma's in Sociaal-Wetenschappelijk Onderzoek
Meppel: Boom, 1976, 157 pagina's.
Neem een passage als deze:
'De eigenschappen van mensen die men onderzoekt, zijn te representeren in getallen. Met
getallen kan men echter van alles doen. Men kan getallen bij elkaar optellen, van elkaar
aftrekken; getallen zijn te vermenigvuldigen met andere, of te delen door andere. Men kan een
wortel trekken, etc. Als een getaL...'.
Deze zinnen hadden ook door Gerrit Krol geschreven kunnen zijn. Je zou er een uitvoerige literaire
analyse aan kunnen wijden. Wie zoals ik een geweldige kick krijgt van zulke lichtvoetige, onderkoelde,
ietsje verneukeratieve, maar vooral perfekt uitgebalanceerde zinnetjes zal Soudijn's boek in één adem
uitlezen. Vervolgens zal hij zich afvragen of hij daarmee het boek geen onrecht heeft aangedaan.
En bij nader inzien blijkt dan dat de meeste belangrijke methodologische thema's wel degelijk op
weliswaar uiterst onzwaarwichtige, maar intelligente en serieuze manier in de tekst zijn verwerkt. De
relatie tussen wetenschap en realiteit (hoofdstuk I), begripsanalyse (H), demarcatiekriteria (111),
soorten van wetenschappelijke kennis (IV), objektiviteit en subjektiviteit (V), onderzoeksartefakten
(VI), evaluatie-onderzoek (VII), eigenschappen van scores (VIII), de impasse van de klassieke statistiek
(IX) en de uitwegen daaruit (X), en tot slot nogmaals de relatie tussen wetenschap en samenleving (XI)
- het betreft hier mijn parafrase van de niet altijd even dwingend gekozen hoofdstuktitels - worden
aan de orde gesteld. Praktisch alle contemporaine methodologische thema's zoals bijv. Experimenter
expectancy effects, Demand characteristics, Bayesiaanse statistiek, paradigma's en onderzoeksprogram-
ma's, het regressie-effekt, en evaluatie van psychotherapie, zijn in de tekst gepresenteerd.
Bezwaren? De opzet van het boek is niet systematisch: soms worden onderwerpen zelfs wat
associatief aan elkaar gebreid. Dat maakt het wellicht minder geschikt als studieboek voor jongerejaars
studenten, hoewel het in ander opzicht die funktie uitstekend zou kunnen vervullen. Verder vind ik
dat ook een klein methodologieboek een index zou moeten hebben: de methodologische thematiek is
bij uitstek te organiseren rond bepaalde trefwoorden.
Inhoudelijk gesproken ben ik niet erg enthousiast over het begrip 'Darwiniaans kennisprodukt', dat
ook onscherp wordt gedefinieerd en niet voldoende power blijkt te hebben om Einheitlichtkeit in de
tekst aan te brengen; bovendien berust dat begrip m.i. op een misverstand. De meer psychometrische
passages zoals over betrouwbaarheid, validiteit, regressie missen de frisheid waarmee andere onderwer-
pen worden behandeld. De passage over regressie is zelfs in zekere zin fout, omdat als bron voor het
effekt wordt aangegeven de begrensdheid van de schaal, en dat is onjuist. Als je, in de stijl van Soudijn,
zonder formules aan leken wilt uitleggen wat regressie is, kun je dat ongeveer als volgt doen: als
iemand een erg hoge of lage score op een test behaalt, en als die test niet perfekt betrouwbaar is, dan
is de kans groot dat die extreem hoge of lage score deels door een toevallige afwijking in extreme
richting tot stand is gekomen. De volgende keer dat die persoon getest wordt zal die toevalsafwijking
zich waarschijnlijk niet zo herhalen, met gevolg dat de score naar het midden kruipt.
Dat alles neemt niet weg dat het lezen van Soudijn's Dilemma's puur plezier is. Ik wens dat bij dezen
iedereen toe.
W.K.B. Hofstee
R.U. Groningen
^^chrift voor Onderwijsresearch 2 (1977), nr. 1. 47
Stichting voor Onderzoek van het Onderwijs (SVO) maakt begin met lange termijn Programmering van
het Onderwijs.
B'j de Staatsuitgeverij is eind november verschenen de nota 'Programmering van het onderwijsonder-
zoek' van de Stichting voor Onderzoek van het Onderwijs (SVO).
Als pubükatie luidt deze nota een nieuwe en speciale SVO-reeks in. Daarm zullen onderzoeksrappor-
ten, dissertaties en nota's over het beleid inzake de onderwijsresearch verschijnen. Met deze reeks wil
SVO de verspreiding en de toepassing van onderzoeksresultaten bevorderen.
Onder programmering verstaat de SVO het voorbereiden en uitvoeren van een onderzoeksbeleid waarin
duideUjke prioriteiten zijn gesteld. Deze prioriteiten zuUen in de vorm van onderzoeksprogramma's
Worden uitgewerkt in samenwerking met allerlei groepen in het onderwijs.
Naar vermogen wil de SVO zelf een programmeringsbeleid voeren. Maar dat hangt m sterke mate af
van de speelruimte die haat door de minister wordt gegeven. In financieel opzicht is die speelruimte er
"1 de Rijksbegroting 1977 nauweUjks. Daarover heeft SVO zich per brief gericht tot de minister en de
Tweede Kamer. Ze vraagt twee miljoen gulden meer voor 1977.
De nota geeft een weg aan om te komen tot het vaststellen van prioriteiten voor onderwijsonderzoek.
Het gaat hier om de programmering van al het onderzoek dat binnen de doelsteUing van de SVO wordt
gesubsidieerd. Hiertoe behoort o.m. ook het onderzoek dat binnen de door de minister op gang
gebrachte experimenten voor het basisonderwijs, de middenschool en het participatie-onderwijs voor
Werkende jongeren wordt uitgevoerd.
De nota doet aanbeveUngen m.b.t. de te verrichten taken, een fasenmodel voor programmering, de
organisatorische vormgeving van het programmeringsproces en een geleidelijke reaüsering van de
programmering.
"at de organisatorische voorzieningen betreft wordt o.m. voorgesteld om zogeheten onderzoeks-
'hetnagroepen op te richten, naast de reeds bestaande sektoronderzoeksgroepen (basisonderwijs,
tuddenschool, participatie-onderwijs). In deze themagroepen moeten verschiUende soorten deskundi-
gen (niet alleen onderzoekers) nagaan welk onderzoek noodzakeUjk is en wat de mogeUjkheden, de
■«waüteit en de haalbaarheid van dat onderzoek zijn.
Het S.V.O.-bureau is reeds begonnen met het treffen van voorbereidingen voor een uiteindelijke
realisering van de programmeringsgedachte. Het resultaat hiervan zal vanaf 1977 voor een deel zijn
neerslag in deelnota's vinden, die gezien moeten worden als verdere uitwerkingen van het thans
gepubUceerde plan.
Post-academiale cursussen Statistiek en Meettheorie voor de Sociale Wetenschappen
De Faculteit Sociale Wetenschappen van de R.U. Groningen organiseert een aantal cursussen die
bestemd zijn voor afgestudeerden, en eventueel gevorderde studenten, met een methodologisch-statis-
tische speciaüsatie. InUchtingen en inschrijvingen bij Mw. W. Lakerveld, Secretariaat FSW, Oude
Boteringestraat 23, Groningen, tel. 050-115260.
Voorlopig programma:
24 juni 1977 Bayesian Methods in Educational Testing
Prof. Dr. M.R. Novick, University of Iowa
12 t/m 17 september 1977 AppUcations of logistic test models
Prof. Dr. G. Fischer, Universität Wien
december 1977 AppUcations of Bayesian multivariate analysis
Prof. Dr. Ch. Lewis, University of lUinois
Voorjaar 197 8 Analysis of covariance structures
Prof. Dr. K.G. Jöreskog
-ocr page 52-48 Mededelingen
De volgende cursussen behoren meer tot het reguliere programma:
2 t/m 13 mei 1977 Blokcursus lineaire modellen en LISREL
Drs. H.A.W. van Vianen en Drs. W.H. van Schuur
13 t/m 17 juni 1977 Computer Assisted Bayesian Statistical Methods
Prof. Dr, W. Molenaar
voorjaar of herfst 1977 Discrete Multivariate Analyse: loglineaire modellen voor contingen-
tie tabellen en het programma ECTA
diverse docenten R.U. Groningen
Bij de meeste cursussen wordt tevoren inleidende literatuur bestudeerd, waarna gedurende de bijeen-
komsten hoorcolleges worden afgewisseld met computerpracticum en groepsdiscussie.
Inschrijving voor Conferentie VRIJHEID VAN ONDERWIJS
Onder auspiciën van de Stuurgroep Onderwijssociologie organiseert SISWO op donderdag 17 en vrijdag
18 maart 1977 de derde onderwijssociologische conferentie in 'De Blije Werelt' te Lunteren.
Thema Vrijheid van Onderwijs
Doel De huidige discussie over vrijheid van onderwijs vanuit een sociologisch perspectief te
ontwarren en te verdiepen
Doelgroep De conferentie is bedoeld voor een ieder die door werk of studie te maken heeft met
onderwijsproblematiek. Er wordt gestreefd naar een evenwichtige samenstelling van de
deelnemers (maximaal 200)
Opzet 1) Algemene inleidingen door prof. dr. Th. van Tijn, dr. M.A.J.M. Matthijssen en drs.
J.F. Masuch
2) Discussie over verschillende aspecten van vrijheid van onderwijs in subgroepen n.a.v.
een aantal schriftelijke deelbijdragen
3) Vrijheid van Onderwijs in de praktijk van de Amsterdamse Geert Grooteschool
Kosten Voorlopige deelnemersprijs ƒ 137,- p.p. all in;
studententarief van ƒ 75,- mogelijk.
Aanmelding Bij het secretariaat: Stichting Interuniversitair Instituut voor Sociaal-Wetenschappelijk
Onderzoek (SISWO), J. de Mulder, Oude Zijds Achterburgwal 128, Amsterdam, tel.
020-240075
Een informatiefolder met alle verdere gegevens wordt op aanvraag toegezonden.
Ontvangen publicaties
Bruyne, H.C.D. de. Blokken in het onderwijs: Verkenningen op het terrein van beheersingsleren.
Groningen: H.D. Tjeenk Willink, 1976 (= Empirische Studies over Onderwijs, no. 23).
Knibbeler, W. Het onafliankelijk leren van een vreemde taal door volwassenen, Groningen: H.D.
Tjeenk Willink, 1976 (= Empirische Studies over Onderwijs no. 22).
Leune, J.M.G'. Onderwijsbeleid onder druk: Een historisch-sociologisch onderzoek naar het opereren
van lerarenverenigingen in het Nederlandse Onderwijsstelsel. Groningen: H.D. Tjeenk Willink, 1976
(= Serie Onderwijskunde, no. 5).
Reijnders, Matthee. Op zoek rumr het verborgen leerplan. Amsterdam: Kohnstamm Instituut 1976
(doctoraalscriptie).
Stichting voor Onderzoek van het Onderwijs, Programmering van onderwijsonderzoek: Een raamwerk
voor de programmering van het onderzoek in het kader van de doelstelling van de S.V.O.
's-Gravenhage: Staatsuitgeverij, 1976 (= S.V.O.-reeks, no. 1).
Vereniging voor Onderwijsresearch
Voor 1977 is het bestuur van de Vereniging voor Onderwijsresearch als volgt samengesteld:
B. Creemers, voorzitter M. Geensen
E. Warries, vice-voorzitter W.J. v.d. Linden
W.C. Weeda, secretaris M.A.M. Schoemaker-Hol
H. Wesdorp, penningmeester H.M. van Strien
*
Secretariaat: W.C. Weeda, Subfac. Psychologie, Hogeschoollaan 225, Tilburg.
-ocr page 53-^^^^tft voor Onderwijsresearch 2 (1977), nr. 2. ___^
On the Use of Content Specialists
in the Assessment of
Criterion-Referenced Test Item Validity
Richard J. Rovinelli
National Board of li/ledical Examiners
Ronald K. Hambleton
V University of Massachusetts. Amherst
Essential for an effective criterion-referenced testing program is a set of test items that are
'valid' indicators of the objectives they have been designed to measure. Unfortunately, the
complex matter of assessing item vahdity has received only limited attention from educational
measurement specialists. One promising approach to the item validity question is through the
collection and analysis of the judgements of content speciaUsts. The purposes of this paper are
two-fold: first, we will discuss several possible rating forms and statistical methods for the
analysis of content specialists' data. Second, we will present the results of our item validation
work with a group of science teachers and three of the more promising techniques. Tlie overall
results of the study clearly support the recommendation for expanded use of content special-
ists' ratings in the item validation process.
The amount of effort that has been expended in the area of criterion-referenced testing
and measurement in the last few years has been impressive. A wide variety of theoretical
^nd practical problems have received considerable attention from educational measure-
ment specialists (see for example, Fremer, 1972; Hambleton & Novick, 1973; Livingston,
50 Judgmental Approaches to Item Validation
1972; Millman, 1974; and Popham & Husek, 1969). Considering its importance, the
problem of item validation, i.e., the problem conceming the extent to which items are
measures of the objectives they have been designed to measure, has received only limited
attention from measurement specialists.
The problem of item validation is of particular importance with criterion-referenced tests
because of the way the test score information is used. The success of objectives-based
programs depends to a considerable extent upon how effectively teachers make decisions
concerning student mastery of specific instructional objectives. Unless one can say with a
liigh degree of confidence that the items in a criterion-referenced test measure the
intended instructional objectives, any use of the test score information for instructional
decision-making is questionable.
To date, the two most popular approaches to the problem of assessing item validity have
been through the use of item generation rules (Hively et al., 1973) and the empirical
analysis of examinee test data. Relative to the first of these approaches, while the use of
item generation rules is intuitively appeahng and represents an excellent solution when
the rules can be applied, at the present time it would seem that the approach is not
practical in other than content areas that are highly structured, such as mathematics.
Relative to the second approach, while the use of a variety of empirical methods on
examinee test data has been popular among criterion-referenced test developers, at best
this approach provides only partial data for the determination of item validity (Millman,
1974; Rovinelli, 1976). A third approach to the problem, which has received very little
attention from test developers, is the use of the judgments of content specialists.
However, before this approach can become a practical solution to the problem of
assessing item validity, there is a need for the generation, organization and comparative
analysis of possible data collection techniques and methods of analyzing content special-
ists' ratings.
Purposes of the Study
In spite of the importance of the item vaUdity problem to the criterion-referenced testing
area, to date there does not exist a methodology for conducting item vahdation studies.
What does exist is a disorganized set of techniques that address different aspects of the
item validity problem. Popham (1974) posed two important questions that still remain
for criterion-referenced test developers;
1. What techniques can be devised which will permit objective-based test developers to improve their
instruments on the basis of empirical tryouts in the sajjie ways that conventional test developers
have been doing for years (e.g., total test reliability, item reliability, item homogeneity, objective-
item congruence)?
2. Are there technical rules which can be produced to aid reviewers in judging the congruence
between test items and the objectives on which they are based?
Further, Skager(1974) added the following important questions:
«
1. How does one establish the fact that items in the pool measuring any objective are valid in the
sense of being (a) congruent with the objective, e.g., actually measuring the performance described
in the objective and (b) comprehensive in the sense of providing adequate coverage of the domain
specified by the objective?
^^^^jl^and Hambleton____^
2- How does one identify poorly written items by means of item analysis procedures when the
frequency of correct responses may be extremely high or low, accurately reflecting the achieve-
ment status of a particular group of learners?
Given the importance of the item validity question and the shortage of research on the
"se of content specialists' ratings, this study was designed to achieve two purposes:
1- To generate and to organize appropriate judgmental data techniques and methods of
data analysis and reporting.
To examine three different techniques for the collection of judgmental information
with regard to the type, reliability, and vahdity of the information provided.
^ Organization of Item
Validation Approaches
^e feel that it is useful to organize existing item validation methods around three rather
different approaches: item generation rules, empirical methods, and the use of content
specialists' ratings.
Through the use of item generation rules, one attempts to ensure item validity by
developing a direct relationship between an item and an objective during the item
construction phase (Anderson, 1972; Bormuth, 1970; Hively, etal., 1968, 1973; Millman,
1974). As such, it is an a priori approach as compared to the other a posteriori procedures
which are designed to assess whether or not a direct relationship between an item and an
objective exists through analyses of data collected after the item is written. However, the
use of item generation rules as currently formulated, contains inherent problems which
"lakes their implementation in many objectives-based programs impractical.
The second approach, the use of empirical procedures (for example, see Popham, 1971;
Brennan and Stolurow, 1971), has been very popular but there remain many problems,
f'or example,
1- The procedures are dependent upon the characteristics of the group of examinees and the effects
of instruction.
2. They often require sophisticated statistical techniques and/or computer programs which are not
available to the practitioner. , , . r
3- When item statistics derived from empirical analyses of test data are used to select the items for a
criterion-referenced test, the test developer runs tlie risk of obtaining a non-representative set of
items from the domain of items measuring the objectives included in the test.
Empirical methods in many instances require pre-test and post-test data on the same test items and
this data is rarely collected in classroom settings.
In Situations where a large sample of examinees is available and where the test constructor
is interested in identifying aberrant items, not for elimination from the item pool but for
^rrection, the use of an empirical approach to item validation should provide important
information with regard to the assessment of item validity.
The third approach, the use of the judgments of content specialists, appears to offer
considerable promise as a means for assessing item validity. The approach is not depen-
dent on examinee group composition or instructional effects; may not require sophisticat-
ed statistical techniques; is not restricted to liighly structured content domains; and can
be implemented easily in practical settings.
52 Judgmental Approaches to Item Validation
A Methodology for the Use of
Content Specialists' Ratings
The first step in the development of a methodology for the use of the judgments of
content specialists to assess item validity is to clearly delineate the important issues. Five
of the most important issues are:
1. Can the content specialists make meaningful (valid) judgments about the relevance of items to
instructional content?
2. Is there agreement amongst the ratings of content specialists?
3. What information is one seeking to obtain from the jugmental data?
4. What variables affect the judgmental ratings?
5. What techniques can be used for collecting content specialists' ratings of test items?
Only the second question above has received serious attention. With respect to the other
four issues, we have Httle information and few clear guidelines.
The first question conceming the abiUty of content specialists to make meaningful
judgments was examined by Ryan (1968). He requested four judgments for each test
item. These judgments were:
A. How good or poor is the item for determining knowledge and understanding of the instructional
content presented in each of your classes?
B. What proportions of pupils in each class will answer the item correctly?
C. How much better will the most proficient third of the pupils in each class do on the item compared
to the least proficient third?
D. How appropriate or relevant is the item for the instructional materials and content presented in
each class?
Ryan (1968) concluded that teachers can make judgments about test items on two
dimensions: (1) the relevance of the items to the instructional content; and (2) the
difficulty of the items. He based his conclusions on results which showed a 'relatively
higher frequency with which relevance as compared to judged difficulty was correlated
with overall quaUty and the relatively higher frequency with which judged difficulty, as
compared to relevance, was correlated with actual difficulty.'
While Ryan's (1968) study is a step in the right direction, his conclusions on the issue of
relevance is weakly supported in that one does not know whether the teachers perceived
the judgment of quaUty the same as a judgment of relevance. On the other hand, the
judgment of difficulty correlated highly with actual difficulty which gives a more
conventional substantiation of judgmental vaUdity.
The second question conceming the consistency of agreement amongst the content
specialists, i.e. the reliabiUty of the ratings, has been^xamined by a number of researchers
(Lu, 1971; Cohen, 1960; Light, 1971; Fleiss, 1971; and Brennan and Ught, 1973). It is
not our intention to review this extensive Uterature here. However, with regard to our
own research, we found the procedure described by Lu (1971) to be particulariy relevant.
The third question relates to the information which one seeks to obtain from the
judgments of content specialists with regard to determining item vaUdity. There are two
types of information which must be collected:
1. Information relating to whether or not an item is judged to be a measure of an objective.
2. Information relating to whether or not an item is judged to be a measure of more than one
objective.
____
The fourth question concerning the variables which affect the judgments of content
specialists is particularly important. In comparing methods for judging the similarity of
personality inventory items, Girard and Cliff (1973) found that 'the criteria by which
subjects were instructed to judge similarities between items in a pair made a large
difference in the judgments.' Four of the variables which are felt to be especially
important in the context of validating criterion-referenced test items are:
1. Judgmental Procedures: Whenever possible, one should use the simplest of techniques avaUable to
collect data. For example, usually judgments obtained from sorting, rating and ranking procedures
are less complex than comparative judgments obtained from similarity, dissimilarity or choice
procedures.
2- Format of Presentation: The response task should not be tedious and time consummg. For
example, while there are methods which can be used to reduce the number of required responses,
generally the method of paired comparisons should be avoided if the number of stimuli (items) is
'arge, because of the great number of responses involved.
Definition of Task: When describing the response task, one should ensure that aU the content
specialists are operating under the same assumptions. If one merely asks the content specialists to
rank or choose items according to personal preference, some variation in their ratings of an item
Would be due to the fact that different content specialists would be making use of different
features of the items in their ratings. For example, the content specialists might use any of the four
dimensions (and there are others) below:
A. simplicity/complexity of the item,
B- closeness of the match to the objective,
C. response mode required,
D. style in which the item was written.
The directions relating to the response task must clearly define the dimensions or criteria on which
the ratings are to be made.
Settings for Data Collection: In choosing an instrument for collecting the judgments of content
specialists, the setting in which the data is to be collected must be taken into consideration. That
is, the practicality of its use in both research and non-research settings is a key factor in the choice
of instrument.
The fifth question outlined at the beginning of this section concerns the choice of
instmment which will be used to collect the judgmental data. Our suggestion is that the
test developer choose a technique which conforms as closely as possible to the guidelines
set forth under the discussions of questions 1, 2, and 4 above, while at the same time,
providing the information described in question 3.
Judgmental Techniques
Three techniques for the collection and analysis o<" the judgments of content specialists
be described in this section. These techniques were chosen primarily to provide
information on the efficacy of the use of content specialists as a means for assessing item
Validity and not to provide a definitive answer to the question of which techniques are
most appropriate
M« Index of Item Homogeneity
Hemphill and Westie (1950) developed an index of 'homogeneity of placement' for use in
54 Judgmental Approaches to Item Validation
constructing personality tests. Tliis index was designed originally to provide a numerical
representation of the judgments of content specialists on the extent to which they felt
that an item belonged to one and only one personality dimension. By substituting
'objective' for 'personality dimension', the Index of Item Homogeneity can be used in
item validation work.
According to Hemphill and Westie (1950)
This index was adopted to give a single numerical evaluation of each item with respect to its
homogeneity. Agreement among judges that the item applied to a dimension and agreement that it did
not apply to other dimensions in the description were geven approximately equal weight in the value
of this index.
The index of 'homogeneity of placement' differs in two ways from certain other techniques for
examining item content. First it is based on 'expert' judgment of probable response to the items, not
on actual item response data. Second, unlike indices such as 'internal consistency', 'homogeneity', or
'unidimensionality' all of which refer to relationship among items, the index of 'homogeneity of
placement' involves both relationships among items (as reflected by judge agreement that certain items
apply to the same dimension) and independence of relationship of the item to other dimensions
making up the same general heuristic system.
The index appears to be a valid procedure for collecting and analyzing judgmental data on
item validity (Rovinelli, 1976).
The mechanics for collecting data consist of having the content specialists rate each item
on each of the objectives by assigning a value of +1, 0 or -1. The three possible ratings
have the following meaning:
+1 = definite feeling that an item is a measure of an objective
0 = undecided about whether the item is a measure of an objective
— 1 = definite feeling that an item is not a measure of an objective.
While the Hemphill-Westie procedure seems quite appropriate for the task of collecting
judgmental data from content specialists for the purpose of assessing item validity, for
our purposes, their index had several deficiencies. First, the maximum and minimum
values are not 1 and -1. For ease of interpretation it would be more convenient if the
index ranged in value from -1 to +1. Second, the value of their index varies as a function
of the number of content specialists and objectives. This is clearly an undesirable
situation since it complicates the problem of interpreting the index.
Given the above deficiencies, we have developed a new statistic for providing a numerical
representation of Hemphill-Westie data. This new statistic is called the Index of Item-
Objective Congruence. It is similar to the Index of Item Homogeneity but does not suffer
from the two problems mentioned above. The assumptions under which this index was
developed are:
1. That perfect item objective congruence should be represented by a value of+ 1 and will occur when
all the specialists assign a +1 to the item for the appropriate objective and a -1 to the item for all
the other objectives.
2. That the worst value of the index an item can receive should be represented by a value of -1 and
will occur when all the specialists assign a -1 to the item for the appropriate objective and a +1 to
the item for all the other objectives.
3. That the value of the index should not depend on the number of content speciaUsts or the number
of objectives.
^^el/i and Hambleton______!!
The index of item-objective congruence is given by
2(N-l)n
where
hk is the index of item-objective congmence for item k on objective i,
N is the number of objectives (i=l, 2,..., N),
" is the number of content specialists (j=l, 2,..., n),
is the rating (-1,0, +1) of item k as a measure of objective i by content specialist j.
The choice of a cut-off score to separate 'vahd' from 'non-vahd' items with the index
probably ought to be based on experience with content specialists' ratings and with the
index itself. In our work, when we feel it desirable to set a cutting score, we create the
poorest set of content specialists' ratings that we would be willing to accept as evidence
for the validity of a test item. The value of the index for this set of minimally acceptable
ratings serves as our cutting score forjudging the item-objective match of each of the test
items. For example, suppose that we have 20 content specialists and 10 objectives. We
"light desire that at least 15 of the content specialists match the item to the intended
objective and that they indicate that the item is not a measure of the other 9 objectives.
I" this case, the index of item-objective congruence would be .75, and so .75 would serve
^ the criterion against which we would judge item validities from the content specialists'
ratings.
(b) Semantic Differential Technique
The second procedure employs the use of the semantic differential procedure (Osgood,
Suci, and Tannenbaum, 1957). The content specialists are presented with an objective
all the items on which ratings are desired. They are asked to make a judgment which
consists of deciding whether the item-objective relationship is best described by the
adjective toward the left end or toward the right end of the scale.
The following is an example consisting of one objective, one item and two adjective scales
^ong with a set of typical du-ections:.
Objective: Given the chemical formula for a molecule, determine the number of atoms in a molecule,
hem 1: How many atoms are there in a molecule of sulfuric acid Hj SO4?
Directions
the objective and item above, your task is to make judgments on the relationship between the
"Jective and the item on the adjective scales indicated below.
Scale 1: very no very
relevant relevant feeling irrelevant irrelevant
Scale 2: very no very
suitable suitable feeling unsuitable unsuitable
-ocr page 60-56 Judgmental Approaches to Item Validation
The data obtained from the use of this technique can be analyzed without employing any
elaborate statistical procedures. Therefore, it can easily be used in practical settings such
as in the classroom by teachers. The information which is needed is the average scale
score for each item on each objective rated by the content specialists. However, the data
also lends itself to more elaborate statistical analysis, if desired. An examination of the
standard deviations of the ratings given each item on each of the scales will provide an
indication of the extent of agreement among the content specialists.
(c) A Matching Procedure
A third procedure which can be used to obtain the judgments of content specialists
involves the use of a matching task. The content specialists are presented with two lists: A
list of test items and a list of objectives. The content specialist's task is to specify which
objective he/she thinks each test item measures (if any). A contingency table can then be
constructed by calculating the number of content specialists matching each item to each
objective in the sets of items and objectives being studied. The Chi-Square test for
independence is commonly used to analyze data which is presented in a contingency table
format. Also, a visual analysis of the contingency table will reveal the amount of
agreement among the specialists, and the type and location of disagreements.
An Empirical Study of Three
Judgmental Methods
In this section a comparative study of the three procedures described in the last section
for collecting and analyzing content specialists' ratings is presented. The objectives and
test items under study were taken from a ninth grade individualized science curriculum.
An item validation questionnaire was used to obtain the judgments of content specialists
on forty-eight items and twelve objectives. For the study, the twelve instructional
objectives and their matched items (each objective was measured by four test items) were
divided into three subgroups. Each subgroup consisted of four objectives and the
corresponding four test items measuring each objective in the subgroup. Next, two
additional objectives from the initial pool of twelve objectives, without their correspond-
ing items, were added to each subgroup. The result was three subgroups, each consisting
of six objectives and sixteen items. Finally, three forms of an item validation question-
naire were formed by assigning each of the subgroups of items and objectives (denoted
subgroups A, B, and C) to one of three judgmental procedures, the Hemphill-Westie
categorizing technique, the semantic differential rating technique and the matching
technique. The format of each questionnaire is given below:
Judgmental Procedure
Questionnaire Categorizing Rating Matching
1 Subgroup A Subgroup B Subgroup C
2 Subgroup B Subgroup C Subgroup A
3 Subgroup C Subgroup A Subgroup B
Thirty science teachers were randomly assigned to complete one of the forms of the
questionnaire. Thus, for any one subgroup of objectives and items, there was information
available from three different groups of content specialists using three different judgment-
al procedures. The data collected was examined, where appropriate, with regard to the
following questions:
^""'nelli and Homb/eton 57
Does the judgmental data provide information which can be used to assess the extent to which an
item is a measure of an instructional objective?
2- Is the information obtained reUable in the sense that there is consistency of agreement amongst the
content specialists?
Are the data valid?
(a) Hemphill-Westie Categorizing Procedure
A decision was made to set the cutoff score for the index of item-objective congruence at
•70. In Table 1 are reported the indices of item-objective congruence for items with
respect to the objectives they were designed to measure. Items 8, 10, 13, 14, 22, 23, 24,
35,40 and 41 were identified as not being valid measures of the intended objectives.
Table 1 Values for the Index of Item-Objective Congruence | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
' Index of item-objective congruence reported only for items and the objectives |
The Hemphill-Westie procedure requires that the content speciahsts judge each item
^g^t each of the objectives. If an item is judged to be a measure of more than one
objective, its item-objective congruence index will be lowered. (A study of the computa-
tional formula makes this point quite clear.) The item-objective congruence indices were
58 Judgmental Approaches to Item Validation
always considerably higher when the items were matched to the intended objectives than
when they were matched to the other objectives. Thus, it appeared that the content
specialists could make meaningful judgments.
The next analysis was concerned with determining whether the item-objective congruence
indices were based on reliable data. That is, were the content specialists in agreement
about their ratings of the test items? The assessment of the consistency of agreement
among content specialists was made by calculating Lu's(1971) coefficient of agreement.
For all twelve objectives, the coefficient was statistically significant at the .01 level. This
finding supports the hypothesis that the Hemphill-Westie judgmental data were reUable in
the sense that there was substantial consistency of agreement among the content special-
ists.
(b) Tlie Semantic Differential Rating Procedure
The second judgmental procedure required that the content specialists rate (on a 5-point
scale) the appropriateness of each item as a measure of each objective. The fact that the
content specialists consistently rated items higher on the objectives that they had been
written to measure, was a good indication that the rating task did provide meaningful
information for assessing item validity.
The reliability of the content specialists' ratings was assessed by considering the standard
deviation of ratings for each of the 48 items on the objectives they had been designed to
measure. The average standard deviation was .46. With the exception of just a few items,
the standard deviations were quite small, thus indicating substantial agreement among the
content specialists' ratings.
(c) Tlw Matching Procedure
For the matching technique, the content specialists were asked to match each item to the
objective they felt it measured. The data collected from the use of this technique is
different from the data collected from the use of the other two techniques in that the
content speciaUsts were not required to judge each item on all the objectives.
An (m x n) contingency table of items (m) and objectives (n) was constructed. The mn
cell frequencies consisted of the number of times content specialists matched an item to
an objective. Discrepancies between the expected matches and the actual matches were
used to identify invalid items. A minimum criterion that seventy percent of the content
specialists must have correctly matched an item to an objective before the item could be
declared valid was established. The resuUs revealed that items 8, 25, 28, 35, 41 and 47,
did not reach the criterion, and therefore they should be discarded or revised.
The reliability of the data collected through the use of a matching technique can be
studied with a statistic (denoted G) developed by light (1971). However, because of the
small number of judgments made by the content specialists, his statistic was not used on
our data.
Comparison of the Three Techniques
Three techniques for collecting and analyzing the judgments of content specialists as a
means for assessing item validity were discussed. All three techniques were shown to
provide information which can be used to ascertain if an item is a measure of an
objective. However, there were differences in the types of data which were collected
through the use of these techniques. For example, the data appeared to show that the
and Hamb/eton___^
content specialists when using the rating procedure judged the items to be relevant
"measures of objectives other than the intended ones more often than when using the
categorizing procedure. Perhaps the rating method was tapping more than one dimension.
Oiven the task of judging which items are measures of the intended objectives, the
Hemphill-Westie procedure is recommended over the other two techniques. Two state-
ments are offered in support of this recommendation. One, the numeric representation of
the data, the index of item objective congruence, provides a meaningful interpretation of
the extent to which an item is judged to be a valid measure of the intended objective.
Two, there are methods for determining the reliability and validity of the data collected,
further, these methods can be tested for statistical significance.
On the other hand, there are certain drawbacks to the use of the Hemphill-Westie
procedure. These drawbacks are as follows:
t- The procedure cannot be used to collect information on such matters as the quality of the items
and the types of distractors.
The dimensionality of the data must be known in advance of its use.
The procedure is quite time consuming particularly if the number of items and objectives is large.
The drawbacks do not apply to the other two judgmental techniques. Thus, before
selecting the type of judgmental procedure to use, the test constructor should take into
consideration the information desired and the resources available, and then choose the
most appropriate procedure.
Conclusions
The development and implementation of objectives-based instructional programs is
proceeding at an increasing rate. However, there are still many problems that hinder the
effective implementation of these programs. For one, objectives-based instructional
programs require criterion-referenced tests consisting of items that measure the objectives
spanned by the tests. Unfortunately, the development of guidelines for determining the
Validity of a set of criterion-referenced test items has been slow. In this paper, several
practical techniques for determining criterion-referenced test item validity were introduc-
ed and compared.
In addition, other relevant guidelines for validating criterion-referenced test items were
offered. What is unique about the techniques is that they involve the ratings of content
specialists. More typically, criterion-referenced test developers use examinee item
response data in their item validation work.
The results conceming the use of content specialists as a means for assessing item validity
Were very encouraging. There is considerable evidence to suggest that content speciahsts
can complete their ratings quickly, and with a high degree of reliability and validity.
However, there is a need for more developmental work with respect to other new rating
"methods'and analysis procedures, and the many methodological issues identified and
discussed in the paper. Some examples of these issues are:
How can judgmental techniques be matched with information requirements?
2- How meaningful are the judgments of content specialists in areas such as the technical quaUty of
items?
How can reliability and validity of the judgmental data be assessed?
How can judgmental data from content specialists' ratings be combined with examinee item
response data collected in a pretest to assess item validity?
60 Judgmental Approaches to Item Validation
Research along the general lines sketched out above will contribute substantially to the
further development of a much needed methodology for determining criterion-referenced
test item validity.
References
Anderson, R.C. How to construct achievement tests to assess comprehension. Review of Educational
Research. 1972, 42, 145-170.
Bormuth, J.R. On the theory of achievement test items. Chicago: University of Chicago Press, 1970.
Brennan, R.L., and Light, R.J. Measuring agreement when categories are not predetermined. Cam-
bridge, Mass.: Laboratory of Human Development, Harvard University, 1973.
Brennan, R.L., and Stolurow, L.M. An empirical decision process for formative evaluation. Research
Memorandum No. 4. Cambridge, Mass.: Harvard CAl Laboratory, 1971.
Cohen, J. A coefficient of agtenmani ior nominsX Educational and Psychological Measurement,
1960, 20, 37-46.
IHeiss, J.L. Measuring nominal agreement among many raters. Psychological Bulletin, 1971, 76,
378-382.
Fremer, J. Criterion-referenced interpretations of achievement tests. Test Development Memorandum
TDM-71-1. Princeton, N.J.; Educational Testing Service, 1972.
Girard, R., and Cliff, N. A comparison of methods for judging the similarity of personality inventory
items. Multivariate Behavioral Research, 1973, S, 71-88.
Hambleton, R.K., and Novick, M.R. Toward an integration of theory and method for criterion-refer-
enced ii^m. Journal of Educational Measurement, 1973,10, 159-170.
Hemphill, J., and Westie, C.M. The measurement of group dimensions. Journal of Psychology, 1950,
29, 325-342.
Hively, W., Maxwell, G., Rabehl, G., Sension, D., and Lundin, S. Domaithreferenced curriculum
evaluation: A technical handbook and a case study from the Minnemast Project. Monograph Series
in Evaluation, No. 1. Los Angeles: Center for the Study of Evaluation, University of California,
1973.
Hively, W., Patterson, H. L, and Page, S. A 'universe-defined' system of arithmetic achievement tests.
Journal of Educational Measurement, 1968, 5, 275-290.
Light, R.J. Issues in the analysis of qualitative data. In R. Travers (Ed.), Second handbook of research
on teaching. Chicago: Rand McNally, 1971.
Livingston, S.A. Criterion-referenced applications of classical test theory. Journal of Educational
Measurement, 1972, 9, 13-26.
Lu, K.H. A measure of agreement among subjective judgments. Educational and Psychological
Measurement, 1971,57, 75-84.
Millman, J. Criterion-referenced measurement. In W.J. Popham (Ed.), Evaluation in education:
Current practices. San Francisco: McCutchan Publishers, 1974.
Osgood, C.E.; Suci, G.J., and Tannenbaum, P.H. The measurement of meaning. Urbana: University of
Illinois Press, 1957.
Popham, W.J. Indices of adequacy for criterion-referenced test items. In W.J. Popham (Ed.), Crite-
rion-referenced measurement Englewood Cliffs, N.J.: Educational Technology Publications, 1971.
Popham, W.J. Selecting objectives and generating test items for objectives-based tests. CSE Monograph
Series in Evaluation, No. 3. Los Angeles: Center for the Study of Evaluation, University of
California, 1974.
Popham, W.J., and Husek, T.R. Implications of criterion-referenced measurement. Journal of Educa-
tional Measurement, 1969, 6, 1-9.
Rovinelli, R.J. Methods of validating criterion-referenced test items. Unpublished doctoral disserta-
tion, University of Massachusetts, Amherst, 1976.
Ryan, J.J. Teacher judgments of test item properties. Journal of Educational Measurement, 1968, 5,
301-306.
Skager, R.W. Generating criterion-referenced tests from objectives-based assessment systems: Unsolved
problems in test development, assembly, and interpretation. CSE Monograph Series in Evaluation,
No. 3. University of California, 1974.
*
Manuscript received: august 5, 1976.
Final version received: november 9, 1976.
-ocr page 65-î^îj^^Çl^ voor Onderwijsresearch 2 (1977), nr. 2. 61
betrouwbaarheidsonderzoek met behulp van de
Generahseerbaarheidstheorie
•Michel Zwarts'
IPAtV- vakgroep onderwijskunde R.U. Utrecht
Generalizibility theory as formulated by Cronbach and his associates (1972) gives a general
framework for solving reUability problems. In the present article a formulation of this theory is
given in terms of the general Unear model. This theory is given for the 'leesvoorwaardentoets'
(Sixma, 1973), a reading readiness test. The error of measurement for pupil scores and the
generalizibility coefficient for class means are estimated for both the test as a whole and for
each subtest separately.
In addition, attention is given to the posterior distribution of the error of measurement for
pupil scores and of the generalizibility coefficient for class means. Considered from a Bayesian
point of view, the posterior distribution for both quantities are derived and plotted.
1.
Inleiding
generaliseerbaarheidstheorie van Cronbach e.a. (1972) biedt een flexibel kader voor
net beantwoorden van vragen met betrekking tot de betrouwbaarheid van metingen. Deze
flexibiliteit is o.a. te danken aan het feit dat ware skore en meetfout in verschillende
komponenten uiteengelegd kunnen worden, waardoor de bijdrage van deze komponenten
bestudeerd kan worden. Daarnaast is het mogelijk om uitgaande van hetzelfde model
Verschillende vragen te beantwoorden. Het volgende bevat een algemene formulering van
«Ie generaliseerbaarheidstheorie en een toepassing op de leesvoorwaardentoets (Sixma,
1973).
De generaliseerbaarheidstheorie
Indien men een beslissing wil baseren op een aantal waarnemingen, dan vormen deze
Waarnemingen over het algemeen slechts een steekproef uit een grotere verzameling
bruikbare observaties. Het gemiddelde van deze verzameling bruikbare skores is de ware
of universumskore (Vgl. Cronbach e.a., 1972, p. 15). Op deze universumskore kan een
beslissing het best gebaseerd zijn. Het is dus van belang te weten, voordat men feitelijk
observaties verricht, in hoeverre men naar deze universumskore kan generaliseren op
grond van het plan om observaties te verrichten.
Het onderzoek naar de mate waarin een plan om observaties te verrichten generalisaties
toestaat wordt aangeduid met beslissingsstudie.
Pe gegevens die in een dergelijke beslissingsstudie nodig zijn, dienen verzameld te worden
•n een zgn. generaliseerbaarheidsstudie.
Voor hun waardevolle kommentaar op eerdere versies ben ik M.J.M. Voeten en een medewerker van
tijdschrift dank verschuldigd.
62 Generaliseerbaarheidstheorie j
2.1 De beslissingsstudie
Om de beslissingsstudie te verrichten wordt verondersteld dat de verzameHng bruikbare
skores gedefinieerd kan worden door middel van de kondities waaronder de observaties
worden gedaan en tevens dat de effekten van deze kondities op de observaties weergege-
ven kunnen worden in het volgende hneaire model:
(1) Ypk=G + Tp + Ck + TCpk+Epk.
Ypk is de skore van persoon p onder konditie k.
G is het algemeen gemiddelde;
Tp is het persoonseffekt, p=l,...,P;
Ck is het konditie effekt, k=l.....K;
TCpK is het interaktie-effekt en
Epk is het residu.
Zowel het persoonseffekt als het konditieeffect kunnen nader worden uitgewerkt.
Verondersteld wordt dat de verwachting van de 'random' effekten en het gemiddelde van
de 'fixed' effekten gelijk zijn aan O.
Een aantal gehanteerde begrippen kunnen nu in termen van model (1) gedefinieerd
worden.
De universumskore of ware skore, Up:
k
De waargenomen skore, YpK, als schatter van de universumskore:
(3) YpK=i2Ypk = G + Tp+CK+TCpK+EpK.
k
•
Het subscript, K, duidt aan dat het gemiddelde genomen wordt over het fixed gedeelte
van het universum en over een random steekproef uit het random gedeelte. Omdat het
gemiddelde van de fixed effekten gelijk is aan O, maakt dit overigens geen deel meer uit
vanYpK-
Cronbach e.a. (a.w.) onderscheiden drie soorten fouten. Het verschil, ApK, tussen de
geobserveerde skore en de universumskore.
(4) ApK = YpK - Up = CK + TCpK + EpK-
Het verschil, SpK, tussen de waargenomen deviatie skore en de ware deviatie skore:
«
(5) 6pK=(YpK-EYpK)-(Up-EUp) = (YpK-Up)-E(YpK-Up) =
pp p
ApK-EApK=TCpK+EpK.
-ocr page 67-^'^arts 63
öe derde foutsoort, het verschil tussen de universumskore en de regressieschatter van de
"niversumskore, wordt hier verder niet aan de orde gesteld, gezien de bedenkingen die
Cronbach zelf maakt met betrekking tot de variantie van deze fout.
l^e variantie van de gedefinieerde variabelen kan nu bepaald worden.
I^e variantie van de universumskore:
(6) o^(U) = E(Up-EUp)^ = ET;.
verwachting, over herhaald observeren volgens model (1), van de variantie van de
geobserveerde skore:
0) E a^ (Y) = E (E (YpK - E YpK)') = E E (Tp + TCpK + Ep«)' ■
I^e verwachting, over personen, van de variantie binnen-de-subjekten van fout A:
0) o' (A) = E (E (ApK - E ApK)') = E E A^K = E E (CK + TCpK + EpK)' •
I^e verwachting, over herhaald meten, van de variantie tussen-de-subjekten van fout 5:
(8) E aM5) = E (E(ApK - EApK - E (ApK - EApK»') =
E (E (ApK - EApK ƒ ) = E E (TCpK + ^pK? ■
In de bovenstaande formules duidt E de verwachting aan over de gemiddelden van alle
K
"logelijke steekproeven getrokken volgens model (1) uit het universum van bruikbare
skores.
^ïet behulp van de gedefinieerde variabelen en varianties is het mogelijk om diverse vragen
te beantwoorden. Dit komt nader aan de orde bij de toepassing van de theorie op de
leesvoorwaardentoets.
2.2 De generaliseerbaarheidsstudie
I^e varianties van de skores en fouten, zoals hierboven omschreven, kunnen uitgedrukt
Worden als een lineaire kombinatie van de varianfies en kovarianties van de effekten uit
"lodel (1). Als de varianties en de kovarianties van de effekten geschat kunnen worden is
liet ook mogelijk de varianties van de skores en fouten te schatten om die vervolgens te
gebruiken voor een beshssingsstudie.
Bij een multivariate opvatting van model (1), m.n. als verondersteld wordt dat de
hektoren Yp = (Ypi Ypa-Ypu) onafhankelijk en multivariaat normaal verdeeld zijn met
gelijke kovariantiematrices is het mogelijk hypotheses over de kovariantiestruktuur te
64 Generaliseerbaarheidstheorie j
toetsen en de (ko)varianties van de effekten te schatten (Jöreskog, 1974; Bock, 1975).
Bij een enkele toetsskore vatten Cronbach e.a. (a.w.) (1) echter univariaat op, zodat de
aanvechtbare assumptie gemaakt moet worden dat alle kovarianties gelijk zijn aan O.
Het onderzoek dat verricht wordt om de varianties van de effekten, de zgn. variantiekom-
ponenten, te schatten wordt door Cronbach e.a. (a.w.) aangeduid met generaliseerbaar-
heidsstudie. Willen de gegevens van een dergelijke generaliseerbaarheidsstudie in een
beslissingsstudie gebruikt kunnen worden, dan dienen de populaties van personen verge-
lijkbaar te zijn en de verzameling van bruikbare skores dient een deelverzameling te
vormen van de verzameling waarop de generaliseerbaarheidsstudie betrekking heeft.
3. Toepassing
Door het schooladviescentrum te Utrecht wordt reeds geruime tijd het onderwijs in het
aanvankelijk lezen begeleid (Appelhof, 1975). In het kader van het DAL-onderzoek^
wordt nagegaan wat het effekt is van deze begeleiding op het onderwijzend handelen van
de leerkrachten en op de leesprestaties en het sociaal gedrag van de leerhngen. In dit
verband is de leesvoorwaardentoets (Sixma, 1973) samen met een aantal andere toetsen
afgenomen. De betrouwbaarheid en de validiteit van deze toetsen zal elders uitvoerig aan
de orde komen (Zwarts, 1976). Slechts twee vragen met betrekking tot de
betrouwbaarheid van de leesvoorwaardentoets zullen hier worden behandeld.
1. Binnen welke grenzen ligt, met een zekere waarschijnlijkheid de ware skore van een
leerling?
2. Wat is het verband tussen de geobserveerde en de ware gemiddelde klasseskore?
De eerste vraag vloeit voort uit het gebruik van de leesvoorwaardentoets als een diagnos-
tische toets. Op grond van de skores op de deeltoetsen wordt beslist of leerlingen in
aanmerking komen voor extra aandacht met betrekking tot het door de toets gemetene.
In dit verband is het van belang te weten wat de kans is op een foute beslissing bij een
gegeven geobserveerde skore.
Antwoord op de tweede vraag is nodig omdat in het DAI^onderzoek de leerkracht en niet
de leerling eenheid van analyse is. Het is dan van belang te weten in hoeverre staat
gemaakt kan worden op de gemiddelde klasseskore.
3.1 Generaliseerbaarheidsstudie
Voor de generaliseerbaarheidsstudie zijn de toetsgegevens gebruikt van 20 Utrechtse
scholen die deelnamen aan het DAL-onderzoek. Deze groep kan niet beschouwd worden
als een aselekte steekproef uit een bekende populatie.
De leesvoorwaardentoets is in augustus 1974 afgenomen door de leerkrachten. Deze zijn
vooraf geïnstrueerd door het schooladviescentrum.
Bij de verwerking is uitgegaan van steekproeven van 7 leerlingen per klas. Deze handels-
wijze is gerechtvaardigd als verondersteld kan worden dat de effekten samenhangend met
^ Het DAL-onderzoek wordt gesubsidieerd door SVO (projekt 0204)
-ocr page 69-^'^arts 65
de grootte van de klas niet systematisch in verband staän met de effekten uit het model
(Vgl. Vincent, 1969).
Tabel 1 bevat een aantal algemene gegevens over de leesvoorwaardentoets.
Tabel 1 Algemene gegevens over de leesvoorwaardentoets. | ||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||
P gemiddelde moeilijkheidsgraad variantie van de gemiddelde itemskore |
Het schatten van de variantiekomponenten kan op grond van het volgende lineaire model
plaats vinden:
(9) ^ijki - G + Dj + L:Dij + Tk + DTjk + LT:Dijk + Eyy .
^ijki
G
D,
Hierin is
de skore op item 1 van subtest k door leerling j bij leerkracht i,
het algemeen effekt,
het effekt van leerkracht i,i=l.....I,
het effekt van leerlmg j j=l,...,J, binnen leerkracht i,
Tk het effekt van subtest k,k=l,...,K,
l^Tji^ en LT:Dijk zijn de interaktie-effekten en
Eijki is het residu, 1 = 1,..., L.
Verondersteld wordt dat G en Tk fixed effekten zijn, met S Tk=0. De overige effekten
zijn random; ze zijn onafliankelijk verdeeld met verwachting O en met gelijke vananties
binnen de kondities.
Voor een enkele subtest kan (9) verbijzonderd worden tot:
(10) Yiji =G + Di + L:Dy + Eiji.
l^otitie en assumpties zijn zoals bij model (9).
-ocr page 70-66 Generaliseerbaarheidstheorie j
Uitgaande van een orthogonaal lineair model geeft de 'analysis of variance' methode de
beste schatters van de variantiekomponenten. D.w.z. dat deze schatters zuiver zijn en de
kleinste variantie hebben van alle zuivere schatters die een kwadratische funktie zijn van
de observaties (Searle, 1971, p. 405).
De variantie-analyse schema's behorende bij model (9) en (10) staan weergegeven in
schema 1 en 2. Tabel 2 en 3 bevatten de resultaten van de variantie-analyse op grond van
deze schema's.
Schema 1
Variantie-analyse volgens model (2).
| |||||||||
I* schatter van o' |
Schema 2
Variantie-analyse volgens model (3).
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
SS kwadratensom df graden van vrijheid s' schatter van cr' |
67
kwarts
Tabel 3
Variantie analyse leesvoorwaardentoets*
j. 144.15 120 1.20 .0138
L:D
subtest 1 is niet in de analyse betrokken voor verder toelichting, zie tabel 2.
Beslissingsstudie
Uitgangspunt voor de beslissingsstudie vormen de eerder geformuleerde vragen.
Het antwoord op de eerste vraag bestaat uit een betrouwbaarheidsinterval. Als veronder-
steld wordt dat de variantie van de meetfout A gelijk is voor elke universumskore, en de
gewenste waarschijnlijkheid is l-2a, dan worden de grenzen van dit betrouwbaarheidsin-
terval gegeven door Y-Zi-aO (A) en Y+Z^a (A), waarbij Z afhangt van de veronderstelde
verdeling van A.Y is de geobserveerde skore. Het model voor deze geobserveerde skore is
bij de gemiddelde itemskore over alle deehoetsen:
(11) YyKL = S Yiju = G + Di + L:Dy + DTik + LTiDjjK + EijKL-
I^e universumskore is dan:
(12) Uij = EEYijki =G + Di + L:Dy,
k 1
zodat:
(13) AijKL = DTiK + LT:DijK + EyKL
en
(14) = (DT)/K + a^ (LT:D)/K+V (E)/KL.
^oor later gebruik worden hier ook de varianties van de ware en de geobserveerde skore
gegeven:
(15) a^ (U) = o^ (D) + a^ (L:D);
(16) E a^' (Y) = a^ (D) + a^ (L:D) + tJ^ (DT)/K + o^ (LT:D)/K + a^ (E)/KL.
-ocr page 72-68 Generaliseerbaarheidstheorie j
Dezelfde grootheden voor de gemiddelde itemskore op een deeltoets zijn:
(17) Y^jL E Yy, = G + D; + L:Dy + EyL;
(18) |
Uij = E Yij, |
= G + Di + L:Dij; |
(19) |
= EijL; | |
(20) |
a^ (A) = a^ |
(E)/L; |
(21) |
(U) = |
(D) + a^ (L:D); |
(22) |
E a^ (Y) = ( |
(D) + a^ (L:D) + a^ (E)/L. |
Op grond van de schattingen van de variantiekomponenten, het itemaantal en het
subtestaantal is het mogelijk de variantie en daarmee de standaarddeviatie van A te
schatten. De schattingen van de standaarddeviaties zijn opgenomen in tabel 4.
Op grond van a (A) kan ook bepaald worden wat het klassifikatierisiko is bij het indelen
van de leerlingen in twee groepen. Gegeven een aftestgrens in termen van de universum-
skore, kan bij elke geobserveerde skore een eenzijdig betrouwbaarheidsinterval bepaald
worden, dat de aftestgrens net niet omvat. De kans die aan dit interval gekoppeld is geeft
de kans aan dat de uitspraak 'de universumskore is kleiner dan (resp. groter dan) de
aftestgrens' waar is. Daarmee is tevens bekend hoe groot de kans is dat deze uitspraak niet
waar is en dus een klassifikatiefout wordt gemaakt. De kansen kunnen worden bepaald als
aangenomen wordt dat de geobserveerde skores bij elke universumskore normaal verdeeld
zijn met variantie a^ (A).
De totale kans op een foute beslissing kan dan berekend worden door bij elke skore de
kans op een foute besUssing te vermenigvuldigen met de relatieve frekwentie van die skore
in de populatie en te sommeren over alle skores. Deze totale kans is bij de deeltoetsen van
de leesvoorwaardentoets steeds kleiner dan .20 (Zwarts, 1976). Omdat de konsekwenties
van een foute indeUng voor leerkracht en leerling betrekkelijk gering zijn, lijkt dit niet
onredelijk.
Het flexibele karakter van de generaliseerbaarheidstheorie komt in het voorafgaande
nauwelijks tot zijn recht. Dit is vooral een gevolg van het feit dat generaliseerbaarheidsstu-
die en beslissingsstudie vrijwel samenvallen. Een betere indruk geeft het volgende voor-
beeld.
Stel dat op grond van de aftestgrens en de verdehng van de skores een a (A) van .05 een
acceptabel aantal misklassifikaties geeft. Op grond van de relatie o^ (A) = a^ (E)/L kan
dan bepaald worden uit hoeveel items de toets moet bestaan wil aan de gestelde
voorwaarden voldaan worden. De betreffende itemaantallen zijn opgenomen in tabel 4.
«
Deze benadering verondersteld overigens wel dat het mogelijk is een willekeurig aantal
gelijksoortige items te genereren.
Het antwoord op de tweede vraag, naar het verband tussen de ware en de geobserveerde
-ocr page 73-^'^arts 69
Tabel 4 Schattingen van a(A) en van Ep^ | ||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||
^(A) schatter van (A) •^.05 minimum aantal items nodig voor s(A) < .05 |
gemiddelde klasseskore, wordt gegeven door de generaliseerbaarheids- (betrouwbaar-
heids-) koëfficiënt. De verwachte generaliseerbaarheidskoëfficiënt is gedefinieerd als de
ratio van de variantie van de universumskore en de verwachte variantie van de geobser-
veerde skore:
(23) Ep^ = a^ (U)/E a^ (Y) = p^ (U, Y).
P (U, Y) geeft de korrelatie tussen de geobserveerde en de universumskore.
Het model voor de gemiddelde klasseskore over alle toetsen is:
(24) Yukl = ±- Yyki = G + D; + L:Di, + DIjk + LT:Di,K + Eukl-
JKL j kl
De universumskore is:
(25) Ui = EEE Yjjki = G + Dj.
j kl ''
De varianties van deze twee variabelen zijn:
(26) E o^ (Y) = a' (D) + a^ (L:D)/J + a^ (DT)/K + a' (LT:D)/JK + a^ (E)/JKL;
(27) a^(u) = aMD).
Dezelfde grootheden voor de gemiddelde klasseskore per deeltoets zijn:
(27) YijL =X SE Yij, = G + D; + L:Du + EijL;
jL j 1
i 1
-ocr page 74-366 Generaliseerbaarheidstheorie j
(29) E a^ (Y) = a^ (D) + a^ (L:D)/J + a^ (E)/JL;
(30) a^(U) = a^(D).
Op grond van de schattingen van de variantieicomponenten en het aantal items, deeltoet-
sen en leerlingen is het mogelijk de varianties te schatten en op grond daarvan de
generaliseerbaarheidskoëfficiënt. Het leerlingaantal is op 25 gesteld. De schatter van de
generaliseerbaarheidskoëfficiënt zal, als de ratio van twee schatters, in het algemeen niet
zuiver zijn (v.d. Kamp, 1974).
Tabel 4 bevat de schattingen van de generaliseerbaarheidskoëfficiënten. Voor deeltoets 2,
6, 7 en 8 en de voor de toets als geheel is de betrouwbaarheid voldoende om er
beslissingen over groepen op te baseren. Voor individueel gebruik is de gemiddelde
klasseskore maar matig bruikbaar.
4. Enkele kanttekeningen
De leesvoorwaardentoets is geanalyseerd als een samengestelde toets. Dit leidde tot model
(9), waarin de effekten samenhangend met de deeltoetsen zijn opgenomen. Het is echter
ook mogelijk om de toets te analyseren uitgaande van model (10) waarbij verondersteld
wordt dat de toets één geheel vormt. In het eerste geval worden de toetsitems beschouwd
als een gelede steekproef, in het tweede geval als een enkelvoudige steekproef, uit de
verzameling van bruikbare items.
Overgang naar model (10) betekent dat in schema 1, behorend bij model (9), de
kwadratensommen samenhangend met de deeltoetsen en de errorterm samengetrokken
worden tot de nieuwe errorterm in schema 2.
Als we de grootheden in schema 2 aanduiden met een apostrof, dan zijn de volgende
relaties afleidbaar:
(31) s^(D)'=s^(D)-Hs^(DT)/K;
(32) s' (L:D)' = s^ (L:D) + s^ (LT:D)/K + (S^ (E) -s^ (E)')/KL;
(33) s^(E)' = s^(E)-(s^(E)-s^(E)').
Substitutie van s^ (D)', s^ (L:D)' en s^ (E)' in de formules voor de verwachte variantie
van de geobserveerde skore laat zien dat deze variaritie onder het 'samengestelde' model
dezelfde is als onder het 'enkelvoudige' model. Dit geldt zowel voor de leerlingskore als
voor de gemiddelde klasseskore.
Daarentegen geldt voor de variantie van de ware skore van de leerlingen:
(34) s^ (U)' = s^ (D)' + s^ (L:D)' = s^ (D) + s^ (L:D) -H s^ (DT)/K + s^ (LT:D)/K +
(s^ (E) - s^ (E)')/LK ^ s^ (L:D) + s^ (D) = s^ (U),
en voor de ware gemiddelde klasseskore:
(35) s^ (U)' = s^ (D)' = s^ (D) + s^ (DT)/K > s^ (D) = s^ (U).
-ocr page 75-^'^arts 71
De schatter van de betrouwbaarheid van een samengestelde toets is dus ongelijk aan de
geschatte betrouwbaarheid van dezelfde toets als deze enkelvoudig wordt opgevat. Bij de
gemiddelde klasseskore is in het algemeen de 'enkelvoudige' betrouwbaarheid groter dan
of gelijk aan de 'samengestelde' betrouwbaarheid. Dit zal meestal ook het geval zijn bij de
leerlingskore, omdat over het algemeen (s^ (E)' - s^ (E))/LK klein zal zijn in vergelijking
met (s^ (DT) + s' (LT:D))/K.
'n het voorafgaande zijn de variantiekomponenten beschouwd als vaste grootheden die
geschat kunnen worden op grond van de data. Het is echter ook mogelijk om de
variantiekomponenten te beschouwen als stochastische grootheden en, gegeven de data en
apriori informatie, af te leiden hoe de aposteriori-verdeling is van deze variantiekompo-
nenten: de Bayesiaanse benadering. Bij een Bayesiaanse benadering doen twee problemen
zich niet voor: negatieve schattingen van komponenten en de onzuiverheid van de
schatter van de generaliseerbaarheidskoëfficiënt.
Voor model (10) zal de aposteriori verdeling van de standaard-afwijking van fout A voor
de leerlingen en van de generaliseerbaarheidskoëfficiënt voor de klasseskores bepaald
Worden.
^iodel (10) kan beschouwd worden als een hiërarchisch model met drie variantiekompo-
nenten. Box en Tiao (1973) geven als aposteriori verdeling van de komponenten, uitgaan-
de van een 'non-informative prior' en onder de voorwaarde dat de variantiekomponenten
groter dan of geüjk zijn aan O:
(36) f(t;MD),aML:D),aME)|Y)oc
P (X^ (dfE) = E (M^S°(E))) X P (x^ (dfLro) = E (M^S ^"d))) X
P(x' (dfo) = Ê(S)))-
Y geeft de vektor met de data; SS (.) en MS (.) hebben betrekking op resp. de
lovadratensom en de gemiddelde kwadratensom; de graden van vrijheid staan bij de x^
tussen haakjes.
De aposteriori verdehng van ct^ is dan:
OOCX5
(37) g (ff (A) I Y) « a (A) ƒƒ f (a^ (D), o^ (L:D), L a^ (A) | Y) d a^ (D) d o^ (L:D)
O O
en de aposteriori verdeling van Ep^:
1 0000 p
(38) h (Ep' I Y) " (T:^// (a^(L:D)/25 + a^ (E)/25L) x (a^ (L:D)/25 +
a^ (E)/25L), o^ (L:D), a^ (E)) d a^ (L:D) d (E).
De verdeling van a (A) en van Ep^ voor de subtests van de leesvoorwaardentoets zijn
Weergegeven in figuur 1 en figuur 2. Deze verdehngen zijn bepaald door numerieke in-
tegratie.
72 Generaliseerbaarheidstheorie j
Ol
0
u
a>
(/I
1
ra
Zwarts _____
«f (A) is verdeeld over een zeer beperkte range. Bij gebruik van a (A) kan dus vrijwel steeds
worden uitgegaan van een enkel getal om deze verdeUng te representeren, bijv. de modus
het gemiddelde Deze wijken nauwelijks af van de schattingen in tabel 4. Voor Ep is
de situatie heel anders- gegeven de data heeft de generaliseerbaarheidskoëfficiënt over een
groot interval een redelijke waarschijnlijkheid. Bij deeltoets 1 en 3 nadert de verdehng
°ver het interval 0.0-0.6 zelfs een uniforme verdeling. Uiteraard hangt dit samen met het
geringe aantal klassen waarop de verdeling is gebaseerd: 20. Anderzijds bUjkt ook
duidelijk dat hoe lager de modus van de verdeling hoe vlakker de verdeling wordt. Het
Igkt overigens voor geen der deeltoetsen mogelijk om de onzekerheid over de generaliseer-
baarheidskoëfficiënt van de gemiddelde klassekores te veronachtzamen door van een
enkele waarde met betrekking tot de aposterioriverdeUng uit te gaan. Vanuit Bayesiaans
Perspektief moet dan ook een vraagteken gezet worden bij de waarden uit tabel 4.
•Referenties
Appelhof, P.A. De ontwikkeling van de Utrechtse schoolbegeleiding voor het aanvankelijk lezen in de
3 periode 1968-1974. Interimverslag 3, SVO-projekt 0204, Utrecht, 1975.
oek, R.D. Multivariate statistical methods in behavioral research. New-York: McGraw Hill, 1975.
G.E.P., and Tiao, G.C. Baysian inference in statistical analysis. Reading: Addison Wesley, 1973.
°"bach, L.J., Gleser, G.C., Nanda, H., Rajaratnam, N. The dependability of behavioral measure-
»tents. New-York: Wiley & Sons, 1972.
orwkog, k.G. Analyzing psychological data by structural analysis of covariance matrices. In: D.H.
Krantz e.a. (eds.): Contemporary developments in mathematical psychology, vol II: Measurement,
P^ychophysics and information processing. San Fransisco: Freeman and Company, 1974.
, L.J.T. van der. Studies in reliability. Doctoral dissertation. State university at Leiden, 1974.
' R-T.P. van. Beschrijving van Nederlandstalige toetsen voor kleuter- en basisonderwijs. Arnhem,
CITO, 1971.
^ärle S.R. Linear models. New-York: Wiley & Sons, 1971.
J?'™«, J. Leesvoorwaarden. Groningen: Tjeenk Willink, 1973.
vincent, W.S. Class size. In: Ebel, R.L., Noll, V.H., Bauer, R.M. (eds) Encyclopedia of educational
^ research, London: MacmiUan, 1969.
^ts, M.A. Instrumenten en technieken in het DAL-onderzoek. Interimverslag 8, SVO-projekt 0204,
__^Utrecht, 1976 (in druk).
> Toets na het tweede deeltje van de methode 'Caesar', Utrecht, schooladviescentrum, 1972.
'^nuscript ontvangen 15-12- '75
ejinttieve versie ontvangen l-10-'76.
74 Tijdschrift voor Onderwijsresearch 2 (1977), nr. 1.
Bij het scheiden van de markt...
Jan Elshout
Instituut voor Cognitie Onderzoek, Universiteit van Amsterdam
Tlie mean scores of psychology students graduated from the four classical Dutch secondary
school types were compared on 9 intellectual and 5 selfconcept dimensions. A simple model in
the form of the cartesian product of two dimensions (exact vs non-exact and production vs
cognition) discribed the results. Tlie intellectual factors (taken from Guilfords's Sl-model)
proved to discriminate better than the selfconcept-factors.
Zoals bekend laat de mammoet-wet de leerlingen van het V.W.O. een grote vrijheid in de
samenstelling van hun vakken-pakket.
Het is waarschijnlijk dat bepaalde clusters van vakken met grotere frequentie zullen
worden gekozen dan andere, maar de eigenaardige verdeling van de middelbare scholieren
over vier scherp onderscheiden 'culturen' zal door de nu geboden vrijheid zeker worden
doorbroken. Om over enige tijd, wanneer het VWO voldoende leerlingen zal hebben
afgeleverd, vast te kunnen stellen wat er is veranderd, is een vergelijkingsbasis nodig: wat
betekenden de vier klassieke diploma's Gyma, Gymß, HBS A, HBS B eigenlijk? De
verschillen in leerplan zijn algemeen bekend. Het meest interessant zal een vergelijking in
termen van bekende psychologische dimensies zijn. Over een dergelijk onderzoek is
gerapporteerd door Hofstee en Wijnen (1968). Zij bepaalden in een studentenproefgroep
de gemiddelde scores van de abituriënten van de vier klassieke schooltypen op een zestal
aan de Vrije Universiteit ontwikkelde intellectuele aanlegtests (zie ook Drenth en Van
Wieringen, 1969). Hun bevindingen laten zich als volgt samenvatten.
Hoe meer verbaal, conceptueel de test des te meer overtreffen de beide Gym-groepen de
beide HBS-groepen en des te kleiner wordt het onderscheid binnen deze tweetallen. En
ook: hoe meer exact, wiskundig de test des te meer overtreft het tweetal ß, B het tweetal
a, A en des te kleiner wordt ook daar het verschil binnen deze tweetallen. Anders gezegd:
De studenten met Gym ß zijn goed op alles, die met Gym a zijn alleen goed op de verbale
tests, die met HBS B zijn alleen goed op de meer wiskundige tests, en de HBS A bevindt
zich op alle'fronten in de achterhoede. De implicaties van dit resultaat lijken duidelijk. De
keuze a, A versus ß, B hjkt niet, zoals wel is gedacht, te worden bepaald door de voorkeur
voor talen boven wiskunde en v.v., maar veeleer door het al dan niet ontbreken van aanleg
voor de exacte vakken. Iets soortgelijks zou mutatis mutandis kunnen gelden voor de
keuze Gym vs HBS.
Het onderhavige onderzoek kan worden beschouwd'als een rephcatie-met-verfïjningen van
het onderzoek van Hofstee en Wijnen. Onze proefgroep is minder representatief - zij
omvat alleen psychologiestudenten. Daar staat tegenover dat de gegevens waarover wij
kunnen beschikken analytisch beter zijn onderbouwd (we beschikken over redelijk goede
één-factor tests) en dat een groter aantal factoren wordt bestreken. Daar zijn met name
een aantal factoren op het gebied van de divergente productie bij, die niet in de meer
bekende testseries zijn vertegenwoordigd.
De gegevens die zullen worden gepresenteerd betreffen een jaargang eerstejaars psycholo-
gie studenten aan de Universiteit van Amsterdam.
Zij werden verzameld in het kader van de Testweek (een verplicht studie-onderdeel) van
-ocr page 79-Without 75
1970. Onze proefgroep is dus een heel speciale uitsnijding uit het bestand van leden van
vier culturen die onze interesse hebben. Van deze beperking zullen we ons bewust
Roeten blijven.
proefgroep van 260 personen was als volgt samengesteld:
Gym a 45
Gym/3 45 Man 156
Hbs A 65 Vrouw 104
HBS B 89
Kweekschool 16
Het leek niet nuttig binnen de opleidingscategorieën nog naar sexe te onderscheiden. De
Verschillen tussen de sexen op de gekozen dimensies zijn klein en bovendien kan men
stellen dat de gevolgen van selectie en zelfselectie een deel zijn van de cultuurverschillen
die ons interesseren. Het gaat erom waar de diploma's voor staan.
Het leek ons interessant om de resultaten van studenten met kweekschool óók te
Vermelden, al gaat onze interesse niet primair naar hen uit en al is de groep wel erg klein.
^e dimensies
In het ter beschikking staande materiaal (dat voor een ander doel was verzameld) waren
9 intellectuele vaardigheidsdimensies goed gerepresenteerd. Op het totale materiaal zijn
twee overlappende factoranalyses uhgevoerd (Kamstra, 1974; Heintjes, 1972J.
Op grond van deze analyses kon voor elk van de negen factoren een vertegenwoordigende
test worden gekozen. We concentreren ons in wat volgt op de dimensies i.p.v. op de tests
(daar is factoranalyse voor!). Wel wordt bij de bespreking van elke dimensie de naam van
'^e vertegenwoordigende test genoemd. Voor beschrijvingen van de tests moeten we
verwijzen naar de genoemde schrijvers of naar Elshout (1976) of naar GuUford en
Hoepfner, 1972. De drie letters waarmee de dimensies worden aangeduid verwijzen naar
^"n plaats in Guilford's Structure of Intellect Model.
CMU: de 'verbale factor', woordenkennis, het kunnen begrijpen: van nieuwe begrippen.
(gemeten door Vocabulaire Test)
"-MS: het kunnen begrijpen van ingewikkelde, verbaal gepresenteerde formele samenhangen (bijv. het
begrijpen van de hierboven gegeven samenvatting van het onderzoek van Hofstee en Wijnen!)
(gemeten door Conclusies IV)
'-MT: het kunnen herkennen van dubbelzinnigheden in teksten over, c.q. voorstellingen van reeele
situaties.
issmeten dooi Dubbelzinnige zinnen)
"-MI: het kunnen analyseren van beslissingssituaties, kunnen opsporen van de voorwaarden waaraan de
uiteindelijke keuze moet voldoen,
(gemeten door Essentiële Vragen)
"MU: vlotheid van productie van eenvoudige ideeën.
(gemeten door Consequenties, fluency score)
"MS: vlotheid in het bedenken van eenvoudige conceptuele systemen, zoals zinnen, verhaaltjes,
sommige testitems,
(gemeten door Woordgebruik)
"MT: Verbale originaliteit, vlotheid in het spelen met woorden, in het bedenken van averechtse
toestanden.
(gemeten door Titels bedenken, originaliteitsscore)
'^Sl: Cijfervaardigheid.
g^^^emeten door Rekensnelheid)
Naast
snelheid en nauwkeurigheid bij het uitvoeren van eenvoudige administratieve ('clerical') taken,
(gemeten door Letter A)
gegevens over intelligentie-factoren bevatte het materiaal ook gegevens over per-
-ocr page 80-76 Bij het scheiden van de markt
soonlijkheidsdimensies. De gebruikte test is de 5 PFT (Elshout en Akkerman, 1973). Deze
test bestrijkt 5 zelf-concept-dimensies die corresponderen met de vijf belangrijkste facto-
ren die zijn aangetroffen in de beschrijvingen van anderen (o.a. Tupes en Christal, 1961)-
Het betreft de volgende orthogonale dimensies (we beperken ons tot een karakteristiek
van de positieve pool).
Extraversie: praat graag, levendig, dominant.
Vriendelijkheid: vriendelijk, coöperatief, positief ingesteld t.o.v. anderen.
Gewetensvolheid: nauwgezet, doorzettend, hoge prestatiemotivatie, conservatief.
Neuroticisme: neurotisch, gespannen, ongelukkig.
Ontwikkeling: belezen, ontwikkeld, brede culturele belangstelling, vindt zichzelf intelligent, creatief.
Om een lokale interesse te bevredigen zullen tenslotte nog de gegevens over twee
studiesucces-maten worden vermeld. Het betreft het propedeuse-cijfer (eerste poging) en
de dichotomie; slagen in één keer v.s. niet slagen in één keer.
Resultaten en discussie
Terwille van de leesbaarheid zijn alle scores getransformeerd naar een gemiddelde van 50
en een standaarddeviatie van 10. In tabel 1 zijn alle groeps-gemiddelden boven de 50 vet
gedrukt. In de meest rechtse kolom is de mate waarin de groepsgemiddelden op de
betreffende dimensie uiteen liggen in een 7j-coëfficiënt uitgedrukt. Voor ons huidige doel
kan men ieder profiel waarin tussen twee van de vier hoofdgroepen een verschil van een
halve standaarddeviatie (5 punten) of meer bestaat als interessant (d.w.z. significant
afwijkend en afwijkend genoeg om er wat van te zeggen) beschouwen, en een verschil van
4 punten als suggestief. (N.B. de F-toets voor de significantie van tj is hier niet toepasbaar;
de gekozen marges lijken ruim genoeg.)
Tabel 1 Gemiddelden van vijf vooropleidingsgroepen op een aantal psychologische dimensies. Gestandaardi- M = 50, SD = 10. Gemiddelden > 50. In de laatste kolom coëfficiënt n die het verband aangeeft tussen | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hoe verschillen de vier culturen onderling? In de eerste plaats wordt de bevinding van |
Elshout
77
Hofstee en Wijnen bevestigd dat het Gymnasium de HBS overtreft in hun begrip van
'moeilijke taal' (hier het best gerepresenteerd door de factoren CMU en CMT), terwijl er
binnen deze tweetallen slechts weinig verschü is. Voorzover het er is, is het ten gunste van
de |3, B-ers' De exact wiskundige kant van het continuum van Hofstee en Wijnen wordt
bier gerepresenteerd door CMS en NSl. De verwachte superioriteit van de P, B-ers in dit
opzicht manifesteert zich opnieuw duidelijk. Maar wat de twee laag scorende groepen
betreft treden hier wél verschillen aan de dag: A overtreft a in cijfervaardigheid (NSI),
doch a overtreft A in het inzicht in moeilijke formele samenhangen (CMS).
Het meest opvallende resultaat is wel dat de a, A-ers zich ook in positief opzicht van de /3,
B-ers blijken te onderscheiden. De eerstgenoemde groepen scoren hoger op elk van de drie
verbale fluency factoren (DMU, DMS, DMT; het verschil bij DMS valt echter onder de
aangehouden grens). .
Het is dus zeer wel mogelijk dat bij de opleidingskeuze van de a, A-ers ook positieve
overwegingen (bijv een literaire belangstelling) een rol hebben gespeeld en bij de keuze
^an de p, B-ers óók negatieve overwegingen (bijv.: het zich niet zo vlot kunnen uitdruk-
•^en) een rol spelen' Het is natuurlijk ook heel wel verdedigbaar dat de vier opleidmgsty-
Pen verschillende vaardigheden differentieel helpen ontwikkelen en het meest waarschijn-
lijk is natuurlijk dat we te maken hebben met twee elkaar versterkende processen: selectie
differentiële ontwikkelmg. , -,
Hofstee en Wijnen slaagden erin de tests van de VAT-serie zodanig op een continuum te
rangordenen dat per opleidingsgroep de scoregemiddelden van links (verbaal, conceptueel)
ï^aar rechts (exact wiskundig) of monotoon stegen (HBSB) of monotoon daalden
(Gym ft) of op één niveau bleven (Gym P hoog, HBS A laag). Het feit dat het Gym a en
'i® hbs A beide uitblinken in semantische divergente productie betekent dat we een
diergelijke eenvoudige één-dimensionale ordening hier niet kunnen herhalen. Wel mogelijk
is een ordening in twee, gekruiste, dimensies, n.1. als volgt:
|
gemiddelde score productie (laag conceptueel cognitie (hoog conceptueel |
opleidingen laten zich in dit systeem representeren niet als lijnen door de gemiddel-
den, maar als vlakken. De constructie is zodanig dat wanneer een opleidingsgröep in een
bepaald vakje zijn hoogste gemiddelde scoort, het laagst gemiddelde in het tegenovergele-
gen vakje valt De nog niet genoemde, niet significant differentiërende dimensies, CMl en
ESU, zouden op het kruispunt kunnen worden geplaatst. Dat is eigenlijk de enige plaats
fie én in overeenstemming is met de data én conceptueel valt te verdedigen.
moeten een schema als het bovenstaande overigens niet al te serieus nemen. Het helpt
'^et resultaat te onthouden, meer niet. Het is bepaald niet de bedoeling te suggereren dat
bet gebied van de intelligentie slechts twee (of vier) dimensies worden aangetroffen,
indeling heeft betrekking op de wijze waarop de vier opleidingsgemiddelden op de
factoren geplaatst zijn. Die plaatsing kan geheel overeenkomstig zijn, zonder dat de
betreffende factoren (en zelfs de tests die hen vertegenwoordigen) positief gecorreleerd
I
78 Bij het scheiden van de marl<t
zijn. De in het zelfde vakje geplaatste dimensies DMU en DMT bijvoorbeeld zijn beslist
ongecorreleerd.
Wanneer twee factoren én heel scherp én op overeenkomstige wijze tussen de opleidingen
zouden differentiëren zou er correlatie op moeten treden, maar dat is hier niet het geval.
De zelfconcept-dimensies differentiëren slechts matig en voorzover er differentiatie is
volgt zij niet het patroon van de intellectuele vaardigheden, waarbij de grootste verschillen
gevonden worden tussen respectievelijk Gym a, HBS B en Gym |3, HBS A (c.q. Kweek-
school).
Bij de zelfconcept-factoren is de grootste afstand daarentegen die tussen Gym/3 en
HBS B. Gymnasium ß teruggetrokken, nerveus en wat braaf, ook in zijn denken en
HBS B: robuust, vol vertrouwen in eigen kunnen. Het was mij nooit zo opgevallen, maar
de lezer misschien wel.
De resultaten m.b.t. het propedeuse resultaat bevestigen wat waarschijnlijk iedereen al
wist, o.a. dat semantische divergente productievaardigheden niet bijdragen tot het studie-
resultaat.
Nawoord'. Het zal interessant zijn om te zien of ook de fijnere differentiaties in
vakkenpakket die de Mammoet-wet toestaat zich in psychologische dimensies laten
beschrijven. Het zal zeker nuttig zijn in toekomstig onderzoek méér dimensies te betrek-
ken, o.a. belangstellingsdimensies, maar ook de talrijke door dit onderzoek niet bestreken
intelligentie-factoren. Een interessante vraag is bijvoorbeeld waar degenen zich zullen
ophouden die uitblinken op het gebied van de sociale intelligentie. Kiezen die wel
Wiskunde I, een vak dat vereist is voor de toelating tot de psychologie-studie?
Samenvatting: De gemiddelde scores van eerstejaars psychologie studenten, afkomstig van
de vier klassieke V.W.0. opleidingen, op 9 intelligentiefactoren en 5 zelfconcept factoren
werden vergeleken. De a, A-ers blijken zich ook positief te onderscheiden, nl. in verbale
vlotheid. Een eenvoudig model met twee 'factoren' (exact vs niet-exact en productie vs
cognitie) beschrijft de verschillen in intellectuele vaardigheid. De verschillen m.b.t. de
zelfconcept-factoren zijn klein.
Literatuur
Drenth, P.J.D. en Van Wieringen, C.W. Verbale Aanleg Testserie, Amsterdam: Swets en Zeitlinger,
1969.
Elshout, J.J., De constructie van een testbatterij voor creatieve functies. In: P.J.D. Drenth, F.J.
Willems en Ch.J. de Wolff, Bedrijfspsychologie, Amsterdam: Kluwer, 1970.
Elshout, J.J. Karakteristieke moeilijkheden in het denken. Academisch proefschrift, Universiteit van
Amsterdam, 1976.
Elshout, J.J. en Akkerman A., Een nederiandse test voor vijf persoonlijkheidsfactoren, de 5 FFT. In:
F.J.D. Drenth, F.J. Willems en Ch.J. de Wolff, Bedrijfspsychologie II, Amsterdam: Kluwer, te
verschijnen in 1973.
GuUford, J.F. and Hoepfner, R. The analysis of intelligence, New York: McGraw-Hill, 1972.
Heintjes, R. Biografiese correlaties van intellectuele factoren. Psychologisch Laboratorium van de
Universiteit van Amsterdam, 1972. ,
Hofstee, W.K.B, en Wijnen, W. Artikel in Gronings Universiteitsblad, 1 november 1968 (Uitvoerige
weergave in Drenth en Van Wieringen, op. cit.).
Kamstra, O.W.M. De dimensionaliteit van het geheugen. Academisch proefschrift, Universiteit van
Amsterdam, 1971.
Tupes, E.C. and Christal, R.C. Recurrent personality factors based on trait ratings. Lackland Air Force
Base, Texas, Personnel Laboratory, A. S.D., 1961.
Definitieve versie ontvangen 29-7-'76
-ocr page 83-J. ^Jy^schri^ Onderwijsresearch 2 (1977), nr. 2. 79
V STUDIETOETSEN: HOMOGEEN OF HETEROGEEN?
'pe H. Veling
'"Stituut voor Zintuigfysiologie TNO te Soesterberg
The present paper discusses the question, whether internal consistency (i.e. homogeneity) is
more valuable in a test used for prediction than in one used for assessment.
It is argued that internal consistency is just as necessary for assessments as for predictors.
1 Inleiding
^unnally (1959) maakt onderscheid tussen tests voor 'assessment' en tests voor prediktie.
•^et een test voor assessment bedoelt hij een test die zijn betekenis volledig aan zichzelf
Ontleent, zoals een studietoets zijn betekenis ontleent aan de inhoud van de toets zelf.
een test voor een prediktie bedoelt hij een test die zijn betekenis volledig ontleent
aan het te voorspellen (externe) kriterium. Bij zowel assessment- als prediktie tests is de
feting de al dan niet gewogen som van de skores op de variabelen waaruit de tests
Het onderscheid tussen beide soorten tests is het onderscheid tussen een kriterium en een
Prediktor, tussen bijvoorbeeld een studietoets en een variabele die de prestatie op die
JJudietoets voorspelt.
(1966, 1968) en Ebel (1968) diskussiëren over de vraag of het door Nunnally
gfniaakte onderscheid meer is dan alleen een 'classificatory-verbal convenience'. Ebel
jndt van niet. Hom daarentegen zegt dat er wel een onderscheid is, nl. ten aanzien van de
isen van homogeniteit. Hij beweert dat, terwijl prediktie tests homogeen (i.e. intern
insistent) moeten zijn, assessment tests best heterogeen (i.e. intern inkonsistent) mogen
'ijn.
j^n test (i.e. een verzameling items) wordt homogeen genoemd als alle variabelen
etzelfde (hypothetische) attribuut meten. Ter gedachtenbepaling kan worden veronder-
e'd, zonder dat de geldigheid van de uitspraak beperkt wordt, dat het attribuut
oeeldbaar is op een metrische schaal.
** dit artikel zal de vraag of assessment tests homogeen moeten zijn opnieuw bekeken
Orden. Eerst worden de argumenten van Hom en Ebel genoemd. Dan volgen enkele
°Pnierkingen over het waarom van homogeniteit bij psychologische metingen en worden
e Argumenten van Horn en Ebel geëvalueerd. Tenslotte wordt, als konklusie, de gestelde
• '^^ag opnieuw beantwoord.
VS. Ebel
2 Hom
Hom (1966, 1968) baseert zijn mening, dat assessment tests niet homogeen behoeven te
'Jn, voornamelijk op de bevinding dat representativiteit een eerste en noodzakelijke
80 No tities en Commentaren
voorwaarde is voor een 'assessment' meting en dat een goede representativiteit vaak
samengaat met een lage homogeniteit (o.a. Ebel, 1964; de Groot en van Naerssen, 1969).
Hij stelt, dat waar het bij prediktor items gaat om het meten van een (unidimensioneel)
attribuut, het bij assessment items gaat om het meten van de prestaties in een (vaak
multidimendioneel) vaardigheidsgebied. De inhoud van een assessment test moet represen-
tatief zijn voor de te meten vaardigheden. Horn (1968, p76) zegt:
The primary concern is to ensure that experts will agree that the content of the measurement scale is
appropriate for the assessment. A test which meets this requirement might or might not be internally
consistent.
Ebel (1968) argumenteert zijn mening, dat goede 'assessments' evenals goede prediktoren
homogeen moeten zijn, met de doorgaans gevonden samenhang tussen interne konsisten-
tie (i.e. homogeniteit) en betrouwbaarheid. Hij stelt dat, een bruikbare 'assessment'
betrouwbaar moet zijn, en daar in de praktijk blijkt dat maten voor interne konsistentie
redelijke schattingen zijn voor de betrouwbaarheid, hoge interne konsistentie voor assess-
ments wenselijk is. Verder wordt zijdelings nog als argument aangevoerd, dat de oorzaken
van een lage interne konsistentie vaak zijn gelegen in fouten in de testitems, fouten die
vaak de onbetrouwbaarheid veroorzaken. Uiteindelijk konkludeert Ebel (1968, p73):
The sum of our argument is that reliability is just as necessary for an assessment as for prediction, and
that internal consistency estimates of reliability are equally useful in both cases.
3 Homogeniteit
Of een test homogeen is of niet kan empirisch onderzocht worden. Daarvoor is het echter
nodig dat de relatie tussen elk testitem en zijn (hypothetische) attribuutschaal is gedefi-
nieerd. De meetwaarden van de testitems kunnen dan 'vertaald' worden in termen van
attribuutschaalwaarden, ten aanzien waarvan de verschillende testitems met elkaar verge-
leken kunnen worden. Zijn de vertaalde meetwaarden van verschillende testitems met
elkaar strijdig, dan is de test niet homogeen.
De manier waarop de homogeniteit van een verzameling variabelen operationeel wordt
gedefinieerd, is afhankelijk van de relaties die de variabelen verbinden met de attributen
die ze geacht worden te meten, d.w.z. afhankelijk van de meetmodellen die zijn gepostu-
leerd.
Als door de variabelen op de attribuutschaal bijvoorbeeld quasi-ordeningen van de
proefpersonen (ppn.) zijn gedefinieerd, is de operationele definitie van homogeniteit
anders dan wanneer er sprake is van partiële ordenitigen.
In het eerste geval is de KR-20 index een adequate operationalisatie, in het tweede geval
de H-index van Loevinger.
Hoe de homogeniteit van een verzameling variabelen in een speciaal geval echter ook
wordt geoperationaliseerd, het gaat steeds om het aangeven van de mate waarin meerdere
variabelen hetzelfde attribuut meten. Het gaat erom te onderzoeken of de meetwaarden
van verschillende variabelen op één schaal vergelijkbaar zijn, zodat — als implikatie - de
reeksen meetwaarden die door die variabelen aan ppn. zijn toegevoegd, kunnen worden
gerepresenteerd door één schaal.
Een goede homogeniteit zorgt ervoor dat gelijke waarden op die schaal van verschillende
ppn., in termen van de afzonderlijke meetwaarden, dezelfde betekenis hebben en dat
^^_____^
°rderelaties tussen de ppn. met verschillende meetwaarden eenduidig kunnen worden
gedefinieerd. Anders gezegd, een goede homogeniteit zorgt ervoor dat de schaalwaarden
eenduidig afgebeeld kunnen worden op een hypothetische attribuutschaal.
"'j een studietoets, die bestaat uit een aantal binair geskoorde variabelen, zorgt een goede
homogeniteit er bijv. voor dat gelijke somskores van verschillende ppn., in termen van de
afzonderlijke 0-1 skores, dezelfde betekenis hebben en dat orderelaties tussen de ppn. met
Verschillende somskores eenduidig kunnen worden gedefinieerd. Als de variabelen hetero-
geen zijn, bezitten de somskores, met uitzondering van de maximum en de minimum
somskore, geen eenduidige betekenis. Een niet-extreme somskore is, doordat hij gebaseerd
zijn op verschillende reeksen meetwaarden, dubbelzinnig, tenzij bepaalde meetwaar-
en van verschillende variabelen op grond van a priori informatie sJs equivalent be-
schouwd mogen worden. Homogeniteit is daarom, waar zulke equivalenties niet gerecht-
vaardigd zijn, een noodzakelijk voorwaarde voor eenduidige toekenning van betekenissen
®an somskores die dienen als schaalwaarden (i.e. indikatoren van de te meten kwaliteit
Van de proefpersoon).
Homogeniteit en betrouwbaarheid
^ relatie tussen homogeniteit en betrouwbaarheid van een groep variabelen vindt men bij
e averechtse toepassing van homogeniteitsindices als zij gebruikt worden om de betrouw-
aarheid van variabelen te schatten. Onder de vooronderstellmg dat een groep variabelen
omogeen is, indiceert de waarde van de homogeniteitsindex de betrouwbaarheid van de
jjriabelen.
probleem hierbij is natuurlijk de geldigheid van de vooronderstelling van homogeni-
als de index lage waarden aanneemt. Is er dan sprake van heterogeniteit van op
'cJizelf betrouwbare variabelen of van onbetrouwbaarheid?
j rationele keuze tussen beide diagnoses is op grond van de waarde van de homogeni-
eitsindex echter niet mogelijk. Die keuze kan pas gemaakt worden als uitgezocht is wat
e test-hertest korrelatie of de test-paralleltest korrelatie is.
een lage waarde van de homogeniteitsindex echter toch, zonder nader onderzoek,
ordt beschouwd als een indikatie voor onbetrouwbaarheid, dan is daarmee de vooron-
derstelling van homogeniteit impliciet aanvaard,
eronachtzamen hiervan kan leiden tot de meest vreemde konstrukties, zoals die van De
raauw (1972). De Graauw gebruikt de ratio: gemiddelde interkorrelatie (als maat voor
e homogeniteit) gedeeld door de koëfficiënt a (als maat voor de betrouwbaarheid), om
an te geven hoe 'betrouwbaarheid' tegen 'homogeniteit' uitgewisseld kan worden. Hij
®rgeet daarbij dat de koëfficiënt a, als index voor de interne konsistentie van een groep
anabelen, alleen een indikatie voor de betrouwbaarheid oplevert bij homogene variabe-
1- De genoemde ratio geeft daarom slechts artificiële informatie; hij geeft alleen aan hoe
ee homogeniteitsindices zich tot elkaar verhouden.
^ Öiskussie
^orn's argument dat assessment tests representatief moeten zijn voor de te beoordelen
hardigheid is juist. Een test moet betrekking hebben op datgene wat men ermee
Pretendeert te meten.
82 No tities en Commentaren
Als echter, om aan de eis van representativiteit te voldoen, de test heterogeen wordt, is
dat geen reden om die heterogeniteit te laten voor wat het is. Immers, homogeniteit is,
zoals hiervoor gesteld, een noodzakelijke voorwaarde voor het toekennen van betekenis
aan een somskore die moet dienen als een indikator van de te meten 'kwaliteit' van de pP-
Een heterogene groep variabelen moet daarom, wanneer men de ppn. aan de hand van
hun somskores bijvoorbeeld wil ordenen, opgesplitst worden in homogene deelgroepen
waarvoor de somskores wel eenduidige betekenis hebben. Achteraf kunnen dan, via
bijvoorbeeld een 'multiple cut-off regel, de somskores bij de verschillende deelgroepen
gekombineerd worden.
Of het nu assessments betreft of prediktoren, in beide gevallen is homogeniteit van de
konstituerende variabelen noodzakelijk om aan somskores betekenis te kunnen toeken-
nen.
Slechts een uitzondering is daarop, nl. als men alleen betekenis wil toekennen aan de
maximum en aan de minimum somskore en men de overige somskores als niet interpre-
teerbaar beschouwd. De eenduidigheid van de extreme skores is altijd verzekerd. Alle ppn-
met de maximum somskore bezitten dezelfde reeks meetwaarden net zoals alle ppn. met
de minimum somskore dezelfde reeks meetwaarden bezitten.
De konklusie van Ebel kan dus wel onderschreven worden, met de opmerking dat Ebel
zelf, ter ondersteuning van zijn opvatting dat ook assessments homogeen moeten zijn,
slechts een zwak argument hanteert. De bevinding waarop Ebel zijn mening baseert, dat
homogeniteit vaak betrouwbaarheid indiceert en dat het daarom aanbeveling verdient ook
bij asessments te streven naar homogeniteit, is immers, gezien de opmerkingen in de
vorige paragraaf over betrouwbaarheid en homogeniteit, niet overtuigend. Het eerder
genoemde argument, nl. het ontbreken van eenduidige betekenis van bijvoorbeeld de
somskore van een heterogene test, is veel dwingender om de stelling dat 'assessments' niet
homogeen behoeven te zijn, te bestrijden.
6 Konklusie
Hoewel een examen (bestaande uit een aantal studietoetsen) uiteraard vaak heterogeen
moet zijn om aan de eis van representativiteit te kunnen voldoen moeten de elementen
van het examen (i.e. de afzonderlijke studietoetsen) elk homogeen zijn. Een examen (met
als doel 'assessment') onderscheidt zich hierin niet van een testbatterij, die bestaat uit een
aantal elk voor zich homogene tests die ten opzichte van elkaar vaak heterogeen zijn.
Elke test aan de hand waarvan ppn. geordend moeten worden op een enkele schaal moet
homogeen zijn, of het nu een assessment test of een prediktie test betreft.
Met Ebel kan dus gezegd worden dat het onderscheid tussen assessment tests en prediktie
tests slechts een 'classificatory-verbal convenience' is.
;!, R.L. Measuring educational achievement. Englewood Cliffs, New Jersey: Prentice Hall, 1964.
il, R.L. The value of internal consistency in classroom examinations. Journal of Educational
inro c Ti T')
Literatuur
Ebel,
Ebel,
Measurement, 1968,5, 71-73.
Graauw, C.P.H.M. de Alpha-Kluster-analyse. Gedrag, 1972,20, 63-84.
Groot, A.D. de en R.F. van Naerssen. Studietoetsen, construeren, afnemen, analyseren. Den Haag;
Mouton, 1969.
"^Bruyne ^_^
J.L. Some characteristics of classroom examinations. Journal of Educational Measurement,
1966,5 293-295
J.L. Is it reasonable for assessments to have different psychometric properties than predictors?
Journal of Educational Measurement, 5,1 S-n. . „ . „ ^ „.„
Nunnally, j.c. Tests and measurements, assessments and prediction. New York: Mc Graw-Hill, 1959.
Manuscript ontvangen 25-10-76
ZOMAAR WAT VRAGEN...
oftewel enkele vingeroefeningen van een vragenlijstemaker'
^enk de Bruyne
^"bfaculteit Psychologie, Universiteit van Amsterdam
Inleiding
^at ik u ga vertellen is niets nieuws. Maar sommige zaken zijn zo overbekend, dat
nienigeen ze pleegt te vergeten. Ik ook.
Zo construeerde ik een paar jaar geleden eens een evaluatievragenlijst van ruim 70 vragen
°ver een bepaald studie-onderdeel, waarbij ik alle vragen Uet beantwoorden op een
{Ifgenpuntsschaal. ^ ^ ,
"oor toevalUge omstandigheden waren twee bijeenkomsten uit dat onderdeel met doorge-
maar de vragen daarover stonden al wel in de vragenlijst en konden niet meer
geschrapt worden.
Achteraf bleek, dat ruim 30% van de studenten desondanks een oordeel over die twee
^jeenkomsten had gegeven, waarbij de waarderingen varieerden van 3 tot 8.
r® les die ik me op dat moment weer herinnerde was: houd evaluatievragenlijsten kort
w kort mogelijk) en vermijd monotonie in de antwoordschalen.
"et is evenwel beslist niet de énige bult die men zich kan vallen bij het maken van een
^^agenlijst. Het euvel dat ik nu onder uw aandacht wil aanbevelen, is de onhebbelijkheid
""" sommige vraagvormen om invloed te hebben op het type antwoorden dat ze plegen
te leveren. , . ,
omdat het de laatste jaren steeds meer regel wordt dat docenten en onderwijskundigen
"^n studieprogramma's evalueren door middel van, speciaal voor dat doel geconstrueerde,
^fagenlijsten (een ontwikkeling overigens die ik ten zeerste toejuich!), acht ik het niet
^^Waarschijnlijk, dat dat euvel van tijd tot tijd bij deze of gene optreedt.
Situatietekening
Het
propedeutisch programma van de psychologie-opleiding in Utrecht is door de jaren
™en altijd een broedplaats van onderwijskundige experimenten geweest. Door omstandig-
Eerder verschenen als Memo nr. 5 in de O. & O. - memoreeks, R.U. Utrecht, 1975.
-ocr page 88-84 No tities en Commentaren
heden die hier nu niet beschreven hoeven te worden vigeert nu al een aantal jaren
achtereen het zogenaamde blokkensysteem ('alle onderdelen worden in gecomprimeerde
blokken van enkele weken na elkaar aangeboden'). Niet iedereen is daar gelukkig mee. Als
men zo probeert de stemming te peilen, ontkomt men zelfs niet aan de indruk, dat bijna
iedereen er hoogst ongelukkig mee is - niet in de laatste plaats de studenten voor wie het
allemaal bedoeld is.
Eén van de propedeutische blokken is het onderdeel 'psychofysiologie', of kortweg
'fysiologie'. Omdat dat blok in vergelijking tot het jaar daarvoor enkele wijzigingen had
ondergaan, leek het nuttig hierover een evaluatie-onderzoek op te zetten. Maar nu was er
vooraf en ook tijdens het blok nogal wat rumoer geweest: deels had dat rumoer
betrekking op de propedeuse in zijn geheel ('men wilde een andere propedeuse, alleen niet
iedereen wilde dezélfde andere propedeuse'), deels speciaal op het blok fysiologie (waar
door veel studenten bezwaren tegen waren ingebracht, onder andere omdat zij niet zélf
vorm en inhoud konden geven aan hun activiteiten tijdens dat blok). De verstandhouding
tussen de docenten en de studenten kon dan ook in zijn algemeenheid niet als ideaal
omschreven worden en het lag voor de hand te verwachten, dat een deel van de studenten
weinig gemotiveerd aan het blok zou deelnemen. (Eenzelfde hypothese had natuurlijk
met betrekking tot de motivatie van de docenten kunnen worden opgesteld, maar dat is
door mij niet onderzocht.)
Ik zou mijn taak als evaluator waarschijnlijk slecht verstaan hebben, als ik niet had
geprobeerd 'iets' omtrent die motivatie van de studenten en hun bezwaren tegen de
blokvorm aan de weet te komen.
Tegelijkertijd kon ik echter verwachten, dat de antwoorden op dergelijke vragen door
bepaalde groeperingen in de subfaculteit als 'poHtiek wapen' gebruikt zouden worden ^
afhankelijk van de uitkomst door de ene of door de andere partij.
Dat vooruitzicht bracht mij op het idee de betreffende vragen op verschillende manieren
te stellen: dan kon ik zien of de wijze van vraagstellen verschil maakte voor de antwoor-
den die ik kreeg.
Ik besloot tot twee versies die op aselecte wijze aan de studenten werden voorgelegd. (D®
studenten waren van dit feit niet op de hoogte: de vragenlijst zat achter het
tentamen, maar het was niemand bekend dat achter de ene helft van de tentamenboekjes
een gedeeltelijk andere vragenlijst zat dan achter de andere helft.)
De vragenlijst bevatte in beide versies 15 vragen; de verschillende zaten in de vragen (12,)
13 en 14.
3. De vragen
Vraag 12 was voor beide versies nog gelijk, maar diende ter voorbereiding van vraag 13.
Vraag 12 luidde:
Voelde u zich over het geheel genomen gemotiveerd om zich tijdens dit blok goed in te
spannen?
1. ja, zeer sterk 2. meestal wel 3. niet of nauwelijks
Vraag 13 luidde in versie A:
Als u in de vorige vraag het 3e alternatief omcirkeld had, kunt u dan aangeven waar dat
aan lag? (U kunt hier eventueel meer dan één alternatief omcirkelen )
1. weinig affiniteit tot de leerstof, werd er niet door geïnspireerd
"«Bruyne ____ff
de Strakke opzet van de cursus, waardoor je weinig eigen inbreng kunt hebben
3 het feit dat je tentamengericht moet studeren
het feit dat je zeer taakgericht bezig moet zijn, nauwelijks mogelijkheden tot groepsge-
''icht functioneren
twijfel aan de maatschappelijke relevantie van de leerstof
andere reden(en), nl...................................................
hl versie B luidde dezelfde vraag:
^Is u in de vorige vraag het 3e alternatief omcirkeld had, kunt u dan aangeven waar dat
aanlag?..............................................................
Bij vraag 14 werden de versies in zekere zin gekruist: nu kreeg versie A een min of meer
°Pen vorm en versie B een meer geprecodeerde.
Vraag 14 luidde in versie A:
fysiologie werd dit jaar in blokvorm gegeven Vindt u dat voor dit vak een goede vorm
0/prefereert u een andere?
tevreden met blokvorm
prefereer een andere vorm, nL ...........................................
geen mening
En in versie B luidde die vraag:
fysiologie werd dit jaar'in blokvorm gegeven. Het is bekend, dat sommigen de
Voorkeur geven aan spreiding van het fysiologie-onderdeel over een langere periode en dan
Parallel aan andere onderdelen, terwijl nog weer anderen de fysiologie graag geïntegreerd
zien in de totale psychologiestof
^elke vorm heeft uw voorkeur?
de huidige blokvorm
over langere periode gespreid, parallel aan andere onderdelen
geïntegreerd in het psychologie-onderwijs
nog anders, nL .......................................................
De antwoorden
^P het tentamen waren 293 mensen aanwezig. Van hen vulden 266 de vragenlijst geheel
gedeeltelijk in; dit aantal komt neer op 91% van het totaal. Het valt natuurlijk nooit
"let zekerheid te zeggen of de resultaten anders waren geweest wanneer de resterende 9%
"ie vragenlijst eveneens had ingevuld, maar zeer waarschijnlijk lijkt dat niet. Het gemiddel-
de tentamenresultaat van de 'invullers' week in elk geval maar weinig af van dat van de
'niet-invullers': 29,7 tegen 30,9 bij een range van O tot 44.
^P vraag 12 ('of men zich gemotiveerd voelde') waren de antwoordfrequenties als volgt:
i-ia, zeer sterk 26 (10%)
meestal wel 115 (44%)
niet of nauwelijks 118 (46%)
totaal 259
'^eze vraag werd derhalve door 7 van de 266 'invullers' niet beantwoord, hetgeen
'neerkomt op bijna 3%.
86 Notities en Commentaren
De 118 mensen die het 3e alternatief omcirkeld hadden, dienden derhalve vraag 13 in te
vullen. Van hen hadden er 62 versie A en 56 versie B.
Bij de scoring van de antwoorden op vraag 13 (en later ook op vraag 14) speelde
natuurlijk het probleem hoe de 'open' antwoorden gecodeerd dienden te worden. Ik heb
daarbij de volgende strategie gekozen:
- In de geprecodeerde antwoordvorm kon bij het laatste alternatief een antwoord 'naar
eigen keuze' gegeven worden. Hoewel een dergelijk antwoord soms gelijkenis vertoonde
met een van de 'voorgegeven' antwoordmogelijkheden, werden zij zonder uitzondering in
de categorie 'overige' opgenomen - er van uitgaande dat degeen die dat antwoord gaf ook
daadwerkelijk iets anders bedoelde dan een van de voorgaande alternatieven.
- In de open antwoordvorm daarentegen werd steeds zoveel mogelijk getracht de
antwoorden te scoren in die categorieën die in de geprecodeerde versie reeds aanwezig
waren. De categorie 'overige' werd steeds pas gebruikt als een antwoord 'met geen
mogelijkheid' in een van de andere categorieën paste.
Deze wijze van scoring gaf bij vraag 13 het volgende resultaat:
1
| ||||||||||||||||||||||||||||||||
N.B. De percentages achter de frequenties zijn gerelateerd aan het aantal mensen, dat de vraag invuld® |
Wat valt er zoal aan deze tabel af te lezen? Om te beginnen, dat het aantal antwoorden in
versie A beduidend groter is dan in versie B. In versie A geven 62 mensen tezamen 182
antwoorden, dus gemiddeld ongeveer 3 per persoon, en in versie B komen 56 mensen
tezamen tot 64 antwoorden, hetgeen gemiddeld ruim 1 antwoord per persoon betekent-
Verder wordt duidelijk, dat 'voorgegeven' antwoordalternatieven een zeer sturende in-
vloed uitoefenen. In versie A 'trekken' de alternatieven 1 t/m 5 158 van de 182
antwoorden 'naar zich toe', oftewel 87%; in versie B komen 'slechts' 34 van de 64
antwoorden bij de eerste 5 alternatieven terecht, hetgeen gelijk staat aan 53%.
Kijken we ten slotte naar de afzonderlijke alternatieven, dan zien we dat in versie B
eigenlijk alleen het eerste alternatief een redelijk groot percentage op zich verenigt. Het is
ook het enige alternatief dat uitsluitend aan de inhoud van het vak fysiologie gekoppeld
is. Alle overige alternatieven komen nauwelijks meer 'in het stuk voor' en zouden
vermoedelijk bij een andere scoringswijze geruisloos in de categorie 'overige' terechtgeko-
men zijn.
Bekijken we dan nu het beeld dat de antwoorden op vraag 14-ons verschaffen. Daar
luidde de vraag in essentie of men tevreden was met de blokvorm.
Deze vraag werd in versie A door 114 van de 126 mensen beantwoord (dj. 90%) en in de
versie B door 132 van de 140 (d.i. 94%).
De antwoordfrequenties waren als volgt:
1
-ocr page 91-ruyne
''eBi
87
tevreden met de blokvorm? ■ nee, parallel laten lopen totaal versie A: 30 (26%) 24 (21%) 4 37 114 |
versie B: 97 (73%) O (0,0%) 132 |
ok over deze uitkomst valt zo het een en ander te zeggen. Om maar met het meest
^'mpele te beginnen: toevoeging of weglating van het alternatief 'geen mening' maakt
"°8al Wat uit. In versie B 'bhikt' iedereen een mening te hebben, in versie A iets minder
aan 80%.
^aar welsprekender nog zijn in mijn ogen de verschillen in mening over de kwestie 'ja
lokvorm, nee blokvorm'. In versie A wil circa één kwart van de respondenten iets anders
an de blokvorm, in versie B wordt deze wens door circa drie kwart geuit,
'ellen we ons nu even twee docenten/onderzoekers voor die een evaluatievragenlijst als
e onderhavige hadden afgenomen. De ene had zijn vragen zoals in versie A geformuleerd,
e andere zoals in versie B. Zou het dan zo gek geweest zijn als de eerste geconcludeerd
ad: dat het aantal mensen met een voorkeur voor de blokvorm ongeveer 2 maal zo groot
a/s het aantal met een andere voorkeur? En zou het onze verwondering hebben
° Wekt als de tweede tot de slotsom was gekomen: dat het aantal mensen met een
°orkeur voor de blokvorm ongeveer 3 maal zo klein was als het aantal met een andere
"^orkeur?
aarschijnUjk niet. Maar dat het hier om twee exact tegengestelde conclusies gaat, hoeft
betoog.
Naschrift
^aarmee is de hamvraag ('welke wijze van vraagstelhng beter is') natuurhjk nog niet
^Pgelost. Mogelijk zullen nu de mensen die gebaat zijn bij de uitkomsten van de 'open
agen' beargumenteren dat die wijze van vraagstelling 'valider, eerUjker, etc.' is. En de
®nsen die gebaat zijn bij de uitkomsten van de 'geprecodeerde versie' zullen welUcht
an roepen, dat de scoringsprocedure bij de open antwoorden gecontamineerd is ge-
weest.
^®'aas kan ik daarover het verlossende woord niet laten horen. Wat ik zelf nog even
, "gegaan heb, was, of er verbanden waren tussen de antwoorden van de respondenten en
2 tentamenscores. De correlaties waren in een bepaald opzicht zeer verhelderend.
° bedroeg de correlatie tussen de scores op vraag 12 ('of men zich gemotiveerd voelde
zich in te spannen') en de ruwe tentamenscores: +0,17. Niet groots dus.
bl bedroeg de correlatie tussen de in vraag 14 al dan niet beleden voorkeur voor de
okvorm en de ruwe tentamenscores: in versie A + 0,09 en in versie B + 0,04.
die^*^ de redenen van deze minieme correlaties heb ik wel mijn eigen ideeën, maar ik wil
e Voor de verandering maar eens voor me houden en de blote gegevens als 'huiswerk
de lezer' meegeven.
88 No tities en Commentaren
Intussen blijft het maken van een goede, verantwoorde evaluatievragenlijst - voor mij ^
een zeer gecompliceerde bezigheid. Veel gecompliceerder in elk geval dan in de ogen van
een tweedejaars student die mij onlangs toevertrouwde: 'Evalueren? Wat is daar nou aan.
Je stelt toch gewoon zomaar wat vragen.......'
Manuscript ontvangen 24-l-'77
METHODOLOGISCHE NOTITIES NAAR AANLEIDING VAN EEN ENQUÊTE-ON-
DERZOEK NAAR MENINGEN VAN VWO-EINDEXAMDVANDI OVER SELEKTIE EN
LOTING
W.K.B. Hofstee
Subfaculteit Psychologie, R.U. Groningen
Gedurende de laatste jaren is de enquête-methode in de sociale wetenschappen weliswaai'
niet in onbruik maar wel enigszins in diskrediet geraakt.
Het omgekeerde was natuurlijk beter geweest: naar mijn taxatie is het aantal gevallen
waarin ten onrechte uitsluitend van vragenlijsten e.d. gebruik wordt gemaakt nog steeds
groot; anderzijds worden bezwaren tegen deze methoden ten onrechte gegeneraliseerd.
In die situatie is het misschien nuttig naar aanleiding van een concreet voorbeeld enkele
beschouwingen ten beste te geven. Dat gebeurt dan met de pretentie dat in dit geval de
enquête-methode terecht gebruikt werd en in z'n verdere uitwerking voldoende doordacht
was. Hopelijk prikkelt die pretentie tot tegenspraak.
Het onderzoek
De inhoud van het onderzoek heeft maar een beperkte draagwijdte, vandaar dat hier met
een korte beschrijving wordt volstaan.
In 1975 werd door de Staatssekretaris van O en W een commissie ingesteld onder
voorzitterschap van Warries, met als taak adviezen uit te brengen over de toelatingsproce-
dure bij numerus fixus. In het stadium van afronding van haar eindadvies besloot de
commissie, over enkele centrale problemen de meningen te peilen van VWO-eindexanii"
nandi. Het onderzoek werd uitgevoerd door de commissieleden P.M.L. Trommar en
schrijver dezes. Via kontakten van eerstgenoemde werden 27 scholen in Noord Brabant,
twee scholen in de Randstad en twee in Enschede bereikt. Via de schoolleiding werd een
vrageidijstje van één pagina aan de eindexaminandi voorgelegd.
In de kop van de vragenlijst werd o.a. gezegd dat de mening van de leerHngen een rol zoU
spelen bij het eindadvies van de commissie. De voornaamste vragen waren:
(a) 'Stel dat u regering en parlement zou moeten adviseren over een toelatingsregeling Ü'
het geval van een numerus fixus, welke regeling zoudt u dan voorstellen?' (open
vraag)
'hofstee 89
(b) 'Stel dat alleen de volgende alternatieven praktisch uitvoerbaar bUjken te zijn, welke
zoudt u dan adviseren?
integrale loting,
ieder die zich aanmeldt heeft eenzelfde toelatingskans
~ integrale selektie,
de plaatsen worden opgevuld door degenen die de hoogste cijfers hebben
- gewogen loting,
de huidige procedure waarbij de kans op toelating groter wordt naarmate het
gemiddelde eindexamencijfer hoger is'.
l^^aast werd nog (ten onrechte, zie verderop) een vraag over de wenselijkheid van
^'ektieve propedeuse gesteld, en werd naar achtergrondgegevens gevraagd.
® Voornaamste uitkomsten: op de open vraag (a) kwamen uiteenlopende antwoorden,
^aarbij integrale loting (21%) en gewogen loting (16%) nog het hoogst scoorden. Bij de
•keuzevraag (b) gaf van de 2313 respondenten 49% integrale lotmg, 8% integrale selektie,
en 44% gewogen loting als antwoord. Bij VWO-ers die van plan waren een frxus-richting te
gaan studeren, èn bij leerlingen met hogere cijfers ging de voorkeur relatief meer uit naar
gewogen loting. Tussen deze twee achtergrondvariabelen onderling was weinig of geen
^enhang.
Evaluatie
. (1) Een eerste vraag is of er überhaupt onderzoek had moeten gebeuren, en of de
aagstelUng wel legitiem was. Wanneer men de numerus fixus onvoorwaardelijk afwijst, is
nderzoek binnen dat kader lastig te verantwoorden.
, onderschrijf het (politieke) standpunt zoals de Commissie (Advies, 1977) dat formu-
ert: 'Een numerus fixus kan noodzakelijk zijn vanwege beperkte maatschappeUjke
ehoefte en, eventueel in samenhang hiermee, wegens de hoge kosten verbonden aan een
epaalde studierichtmg'. De argumentatie van dat standpunt is hier uiteraard niet aan de
■"de. Wel, naar mijn mening, de vraag naar dat standpunt.
(2) Na deze prealabele kwestie de centrale vraag: levert enquête-onderzoek in dit geval
ievante kennis op? Worden we wijzer m.b.t. de vraag wat de beste toelatingsprocedure
A] j numerus fixus?
die laatste vraag 'objektief oplosbaar' was (cf. De Groot, 1971), dan zouden de
eningen van de respondenten in dit geval volslagen irrelevant zijn geweest, en dat geldt
gemeen. De vraag bijv. hoe het hoogste studierendement kan worden bereikt is in
principe objektief oplosbaar (het antwoord is zelfs in grote hjnen bekend: selekteer op
"ndexamencijfers en geslacht). Er zijn er die menen dat die laatste vraag identiek is aan
e Vraag naar de beste procedure. Die gelijkstelling echter kan alleen op politieke gronden
worden geargumenteerd,
at de vraag naar de beste procedure in laatste instantie een politieke vraag is, valt als
°'gt te zien. In onze samenlevmg is het beginsel van 'gelijke kansen' in abstracto vrij
gemeen geaccepteerd. Bij de uitwerking echter is er verschil tussen onvoorwaardelijke en
oorwaardeUjke gelijkheid, tussen gelijke kansen zonder, en nä aanzien des persoons.
Oncreet: wachtlijsten en loting enerzijds en selektie in strikte zin anderzijds. Beide
P'^cipes worden in onze maatschappij gehanteerd. De keuze ertussen in een concreet
^eval is van poUtieke aard, behalve als praktisch iedereen het eens is (bij overaanmelding
90 No tities en Commentaren
voor een concert zal niemand serieus selektie verdedigen, bij toekenning van de Nobelprijs
ligt een wachtlijst of loting minder voor de hand).
De vraag of een probleem objektief oplosbaar is: is dat een objektief oplosbare vraag?
Het zou de moeite waard zijn daar een antwoord op te hebben, juist ook i.v.m. de vraag
of terecht met een enquête is gewerkt. In ieder geval is het vaak gemakkelijker om
overeenstemming (intersubjektiviteit) te bereiken over de vraag of een probleem objektief
oplosbaar is, dan over de inhoudelijke oplossing zelf. De Commissie schrijft in haar Advies
(ibid.) dat '... de uiteindelijke keuze (...) voor een belangrijk deel wordt bepaald door de
politiek-maatschappelijke overwegingen die daarbij gelden' - dit terwijl binnen de Com-
missie de inhoudelijke standpunten duidelijk uiteenlagen.
Nog één opmerking in dit verband: als een probleem redelijkerwijs niet objektief oplos-
baar is, zijn feiten precies even irrelevant als meningen zijn in het geval van een objektief
oplosbaar probleem. Als men van mening is dat VWO-abituriènten onvoorwaardelijk
gelijke kansen dienen te hebben op de studie van hun keuze, is de correlatie tussen
eindexamen en propedeuse van geen belang. 'Opinievrij' onderzoek is in dat geval
irrelevant (cf. ook De Bruijne, 1976).
Te concluderen valt dat de enquête hier in beginsel relevante informatie opleverde: het
probleem was redelijkerwijs niet objektief oplosbaar. Natuurlijk is dit niet het enige geval
waarin men zinvol kan enquêteren. Vragenlijsten e.d. komen ook in aanmerking als men
meningen als objekt van onderzoek neemt, bijv. om ze te vergelijken met gedragingen-
Willen meningen van respondenten echter inhoudelijk en als zodanig au sérieux genomen
worden dan dient het probleem niet-objektief oplosbaar te zijn.
(3) Een volgende voorwaarde is dat de respondenten als mondig kunnen worden
beschouwd, d.i. in staat kunnen worden geacht om m.b.t. het probleem politiek medever-
antwoordelijkheid te dragen (cf. Hofstee, 1968). Zonder die assumptie immers zouden
hun meningen niet relevant zijn. Enkele argumenten: de mediane leeftijd van de respon-
denten ligt maar weinig (minder dan een halfjaar) onder de kiesgerechtigde leeftijd; ze zijn
als direct betrokkenen waarschijnlijk beter dan gemiddeld geïnformeerd over de proble-
matiek; er werd een poging gedaan om ze op hun verantwoordelijkheid aan te spreken
('De mening van de ondervraagde eindexamenkandidaten zal bij het tot stand komen van
het eindadvies een rol spelen', 'Stel dat u regering en parlement zou moeten adviseren
over een toelatingsregeling...').
(4) De tegenhanger van de mondigheidsassumptie is dat de enquêteur, i.c. de Commis-
sie, van plan is serieus rekening te houden met de meningen van de respondenten
(Hofstee, ibid). Idealiter zou een decisiematrix aanwezig zijn die vastlegt wat van iedere
mogelijke uitkomst de konsekwenties zullen zijn (wat niet hoeft te betekenen dat de
enquêteur de mening van de meerderheid overneemt, maar wel dat er een positieve relatie
is tussen uitkomst en konsekwenties). Daar is in dit geval wel over gepraat, maar de
matrk is niet opgesteld.
Achteraf bekeken heeft de enquête waarschijnlijk grote invloed gehad. In de Commissie
was lange tijd de tendens aanwezig om de compromisoplossing van gewogen loting af te
wijzen en een keuze te adviseren tussen integrale selektie en integrale loting. In het
eindadvies is integrale selektie als alternatief niet meer opgevoerd.en de duidelijk negatie-
ve uitspraak hierover van de VWO-ers heeft daar in belangrijke mate toe bijgedragen.
In ander opzicht is door de enquêteurs op dit punt een flagrante fout gemaakt die bij
wijze van illustratie het vermelden waard is. De laatste vraag van de enquête luidde:
(c) 'Stel dat een toelatingsregeling, gebaseerd op integrale selektie, zou worden inge-
voerd, waaraan zoudt U dan de voorkeur geven?
'hofstee 91
selekteren op de eindexamencijfers
selekteren op de resultaten behaald na een jaar studie aan de universiteit.'
Het feit dat deze vraag gesteld werd illustreert dat de Commissie in dat stadium serieus
ver integrale selektie dacht. De vergelijkende propedeuse werd daarbij echter niet als
®ele mogelijkheid overwogen. Het is duidelijk dat de vraag dan ook niet gesteld had
oeten worden. Hij heeft louter de retorische funktie van accentueren van de premisse
^ stel dat...') en is daarmee misleidend.
(5) De laatste hier te noemen voorwaarde is dat het probleem zich in een keuze tussen
. geperkt aantal duidelijke alternatieven laat formuleren. Materieel was die voorwaarde
dit geval grotendeels vervuld. De Commissie had een hoop voorwerk gedaan en was tot
® konklusie gekomen dat bijv. wachtlijsten, vergelijkende propedeuse, psychologische
® ektie, toelatingsexamens en nog een aantal alternatieven geen reële oplossing boden; ze
enste de keuze te beperken tot de in vraag (b) genoemde alternatieven.
. ® open vraag (a) had dan ook strikt genomen geen andere funktie dan een soort
^troduktie le zijn op de keuze-vraag. Het bezwaar tegen zo'n open vraag is dat er een
"ggestie van uitgaat dat het probleem nog helemaal open ligt. De suggestie zou de
°nimittment t.a.v. de keuze negatief kunnen beïnvloeden.
^enlere opmerkingen
t
"quêtes kunnen worden gebruikt om op een systematische manier de mening van
georganiseerde groeperingen van betrokkenen bij een niet-objectief oplosbaar probleem
ref te halen. Of dat wenselijk is hangt primair af van de houding die men t.o.v.
j ^'^endum-achtige beslismethoden inneemt. De populistische en corporatistische bij-
^ ^ ervan wordt bijv. in Nederland sterker als bezwaar ervaren dan in de U.S.A.
Q ^''^jds valt in dit opzicht een zekere 'veramerikanisering' waar te nemen. De beslissing
g ^ riiet te enquêteren zal daarmee van geval tot geval verschillen. Wanneer tot een
quête wordt besloten lijkt het raadzaam, de bovenstaande punten als checklist te
gebruiken:
(1) is de vraagstelling legitiem?
v2) is het probleem niet objektief oplosbaar?
t3) kunnen de respondenten in staat worden geacht (mede-)verantwoordelijkheid te
dragen?
wordt aan de meningen van de respondenten gewicht toegekend?
jj^vS) is het probleem voldoende voorgestruktureerd?
zi P'^tentie van het voorafgaande is dat deze punten noodzakelijk èn voldoende zijn voor
delijk gebruik van de enquêtemethode in een politieke kontekst, en dat aan die
Orwaarden in dit geval was voldaan. Zoals gezegd staat die pretentie uitdrukkelijk ter
J'skussie.
g^'liver dezes is nog steeds van mening dat bij enquêtes de vraag naar zindelijk gebruik
19^ veel belangrijker is dan meer technisch-methodologische problemen (cf. Hofstee
We schenken dan ook pas in tweede instantie, en in het kort, aandacht aan een
j) eetal uitvoeringskwesties.
® eerste is dat het onderzoek niet werd uitbesteed. Opportuniteitsoverwegingen speelden
^J die beslissing de belangrijkste rol, maar hij valt ook meer principieel te verdedigen.
"Voering door een onafhankelijke instantie zal eerder de indruk wekken dat het
92 No tities en Commentaren
probleem academisch van aard is, cf. verkiezings-opiniepeihngen. Het ging er juist om, de
respondenten duidelijk te maken dat ze via de Commissie tegen regering en parlement
zaten aan te praten.
NatuurHjk zijn antwoorden verder afhankelijk van de manier waarop de vraag wordt
gesteld. In een eerder onderzoek naar meningen over toelatingsprocedures (Hofstee 1975)
werden enorme verschillen gevonden naar gelang de vraag luidde 'welke regeling vindt u
voor uzelf het voordeligst' dan wel '... acht u in het algemeen het rechtvaardigst'. Nu
echter de tekst van de enquête door de Commissie zelf werd vastgesteld was die manief
van vragen voorwerp van onderhandeling en was daarmee de committment m.b.t. de
uitkomst maximaal.
Een tweede beslissing, die bewuster genomen werd, was het werken met een gelegenheids-
steekproef. De gebruikelijke schuldbewuste toon waarop dat pleegt te worden vermeld
blijft hier achterwege. De algemene reden om met een gelegenheidssteekproef te werken
doet zich voor als naar verwachting per kosteneenheid meer relevante informatie ka«
worden verzameld. In dit geval was de aard van de systematische vertekening als gevolg
van niet-random sampling redelijkerwijs bekend: de zware ondervertegenwoordiging van
m.n. VWO-ers uit de Randstad heeft waarschijnlijk geresulteerd in een beperkte bias ten
gunste van integrale selektie en gewogen lotmg. Die a priori-verwachting wordt bevestigd
door de resultaten. Wekiu, als de richting en grootte van de bias bekend is levert een grote
gelegenheidssteekproef een betere schatting van de populatiewaarde (na correctie) dan de
veel en veel kleinere random sample die tegen dezelfde kosten zou zijn verkregen.
Een specifiek argument was het volgende. Schrijver dezes had reden om te verwachten dat
de VWO-ers veel minder selektiegezind en veel meer lotingsgezind zouden zijn dan de
meerderheid van de Conmiissieleden. De rest van de Commissie had ook, zij het waar-
schijnhjk minder uitgesproken, die verwachting. De sampling bias ten gunste van het
standpunt van de meerderheid van de Commissie heeft zo naar mijn indruk impliciet
gefungeerd als een onderhandelingsitem toen het ging om de vraag of er geënquêteerd zo«
worden. Dc vermoed althans dat een steekproef van louter Amsterdamse scholen voor hen
niet acceptabel zou zijn geweest. In ieder geval is de geloofwaardigheid van de afwijzing
door de VWO-ers van integrale selektie door deze bias sterk verhoogd, via het a fortiori'
argument.
Hoort zo'n overweging als deze laatste in een fatsoenlijk wetenschappelijk tijdschrift
thuis, of moet hij naar de apocriefe methodologie worden verwezen? Dat hangt ervan a'
of wetenschap wordt gezien als de speurtocht naar een bovenpersoonlijke waarheid, of als
een manier om redelijke mensen tot andere gedachten te brengen. Wie het weet, mag het
zeggen.
Verwijzingen
Advies Toelatingscriteria voor N.F.-studierichtingen in het W.O. Den Haag: Staatsdrukkerij, 1977.
Bruyne, H.C.D. de. Selectie-Rapport Rijksuniversiteit Utrecht, 1976.
Groot, A.D. de. Een Minimale Methodologie. Den Haag: Mouton, 1971.
Hofstee, W.K.B. Kritiek van de enquête. Tweede Nationaal Congres Ondenoek van Wetenschappel'r
Onderwijs, Utrecht, 1968.
Hofstee, W.K.B. Loten of Cijferen. Onderzoek van Onderwijs, 1975, 4, 3-6.
Hofstee, W.K.B., & Trommar, P.M.L. Selektie en loting, meningen van V.W.O.-eindexaminandi'
Heymans Bulletin 76-251-EX, Groningen 1976.
Manuscript ontvangen: 9-2-'77
-ocr page 97-■rijdschrift voor Onderwijsresearch 2 (1977), nr. 2. 93
J^-G. Leune
^Verwijsbeleid onder druk, een historisch-sociologisch onderzoek naar het opereren van
^^"fenverenigingen in het Nederlandse onderwijsbestel
^foningen: H.D. Tjeenk WÜlink, 1976, 447 pp. (f40,-).
de ondertitel reeds aangeeft, handelt dit boek over het functioneren in de periode 1945-1970
het v^ lerarenverenigingen, die sinds 1972 te zamen het Nederlands Genootschap van Leraren bij
Va y°°''''®'®i<lend Wetenschappelijk en Algemeen Voortgezet Onderwijs vormen. Ondanks de omvang
boek (380 pag. tekst) is het slechts een samenvatting van een aantal empirische studies, die in
^vo H ^ bijlage worden opgesomd. Het boek kan daardoor gemakkelijk maar ten onrechte aangevallen
gek bewijzen en slechts een politiek pamflet zijn. Toch heeft de auteur terecht
ozen voor deze opzet. Hij heeft daardoor een goed leesbare studie over een in de onderwijsresearch
ljg..^®arloosd onderwerp geschreven: het onderwijsbeleid van de rijksoverheid en de groepen die dit
invloeden. Op deze wijze vervult hij een belangrijke eis die aan sociaal-wetenschappelijk onderzoek
g 'eld mag worden, nl. dat het niet alleen leesbaar is voor het professionele forum,
n tweede verdienste van deze studie is dat het niet het zoveelste ledenonderzoek is, maar dat het in
mate steunt op een analyse van verenigingsdocumenten (notulen, jaarverslagen, statuten,
j den, rapporten, nota's, etc.), van overheidsdocumenten (o.a. notulen van het georganiseerd overleg
n.-j'^btenarenzaken en van het zgn. Lochems overleg) en van vraaggesprekken met 'sleutelpersonen'
pg 'nggevende personen uit de verenigingen, bewindslieden, topambtenaren, politici en belangrijke
'Jit^ri"^" uit andere onderwijsorganisaties, met wie de lerarenverenigingen betrekkingen onderhielden).
Voo studie blijkt hoe vruchtbaar deze in de onderwijsresearch verwaarloosde methode kan zijn
Op ' ®mpirisch onderzoek naar het functioneren van groepen binnen het onderwijs. Wel wil ik er
sq dat ook deze methode de problemen bij het onderzoek naar boven-individuele aspecten van
bet'^f organisaties (en de vraag naar de aard van deze aspecten) niet oplost. De auteur is wat dit
de oppervlakkig (pag. 15-16). Deze oppervlakkigheid treft men ook aan bij zijn beschrijving van
(b tussen historisch onderzoek en de sociologie (pag. 13-14). Vele oudere en jongere historici
aut Toynbee, Romein, Brandei, Wallerstein) zullen zich niet herkennen in de karakteristiek die de
gee^t"' historisch onderzoek geeft, nl. een chronologische beschrijving van gebeurtenissen. De
Ej^ Popper en Van Doorn zijn wat dit betreft slechte getuigen.
Vqo verdienste van deze studie is dat daarmee de eenzijdige aandacht van de onderwijssociologie
' de (on)gelijkheid in het onderwijs wordt doorbroken. De auteur laat zien dat de sociologie ook
vg ' °'"ikbaar kan zijn bij de studie van andere facetten van het onderwijs (overheidsbeleid, onderwijs-
(pr '/"wing). Hij maakt daarbij gebruik van begrippen en theorieën buiten de onderwijsscoicologie
gew ' pressiegroep, vakbond) en past deze vruchtbaar toe in zijn studie. Daardoor is dit boek meer
Orri dan een samenvatting van empirisch onderzoek. Het is een poging het verzameld materiaal te
®nen rond twee centrale concepten:
(jg effectiviteit van de lerarenvereniging in het beïnvloeden van het overheidsbeleid ten aanzien van
bel °"'^®rwijsvernieuwing in de 60-er jaren en ten aanzien van de materiële en rechtspositionele
^^'»ngen van de leraren;
^jsb^ j^®rhouding tussen twee waarden-oriëntaties van de lerarenverenigingen: lerarenbelang en onder-
deze poging wreekt zich echter het 'case-study' karakter van deze studie. De politieke en
1, ®^<^bappelijke context, waarbinnen de lerarenverenigingen en de rijksoverheid effectief kunnen
best grotendeels buiten beschouwing. Andere pressiegroepen (onderwijzersorganisaties,
daa "'®"°f8anisaties, politieke partijen, etc.) komen daardoor nauwelijks aan de orde. Het wordt
g^^rom b.v. niet duidelijk waarom de rijksoverheid, ondanks de vele protesten van de lerarenverenigin-
hjj' invoering van de Mammoet-wet doorzette. Het beperkte karakter kan geïllustreerd worden met
efj- n)odel op pag. 302 waarin de variabelen, die de mate bepalen waarin de lerarenverenigingen
kunnen zijn, worden samengevat. De obstakels bij het bepalen van invloed van de leraren-
"'gingen (onmogelijkheid van experimenten; het isoleren van de invloed van een bepaalde groepe-
94 Boekbespreking^"
ring; anticiperende invloed; pag. 31 e.v.) hebben zich bij de vaststelling van de mate van effectiviteit'
zoals die in deze studie plaatsvond, eveneens voorgedaan en zijn niet weggenomen.
Het bezwaar van de 'case-study' speelt ook bij de conclusie dat de belangen van de leraren
conflict-situaties prevaleerden boven de belangen van het onderwijs. De mogelijke verklaring dat
onderwijskundige belangen door vele organisaties binnen en buiten het onderwijs worden nagestreefd'
maar de belangen van de leraren (bijna) uitsluitend door de lerarenverenigingen, wordt wel genoem''
(pag. 281), maar komt in de conclusie inzake de identiteit (pag. 345 e.v.) niet meer terug.
Een tweede bezwaar is dat in deze studie de belangen van het onderwijs en de richting van d®
onderwijsvernieuwing nogal vanuit overheidsstandpunt worden omschreven. De overheidsvisie op d®
belangen van het onderwijs en de richting van de onderwijsvernieuwing is echter geen waardevrij®
maatstaf. (Het is overigens de vraag of een dergelijke maatstaf bestaat.) .
Het hanteren van het gezichtspunt van de rijksoverheid komt het sterkst naar voren in het 4de deel
'evaluatie en samenvatting'. Daarin geeft de auteur zijn visie op de rol van de overheid en de betekenis
van onderwijsorganisaties voor het onderwijsbeleid. De functionele analyse, waarop hij zich daarbij
baseert, leidt onvermijdelijk tot het benadrukken van het belang van integratie van de Nederlands®
samenleving, tot schildering van de overheid als hét integratiebevorderend onderdeel en tot ee"
beoordeling van de lerarenverenigingen vanuit hun bijdrage tot deze integratie. De auteur spreekt d^
ook van positieve en negatieve bijdragen van de lerarenverenigingen aan de beleidsvorming van o
overheid (pag. 361 e.v.). Een ander gezichtspunt en een andersoortige analyse hadden kunnen leide"
tot een andere waardering van de lerarenorganisaties.
In een evaluerend hoofdstuk, waarin een auteur zijn resultaten in een ruimer kader probeert
plaatsen, acht ik het expliciet meespelen van waarde-oordelen geen bezwaar, eerder een verrijking. Me"
kan echter Leune verwijten dat de explicitering van zijn waarde-oordelen (maatschappelijk en wf'®"
schappelijk) slechts (gedeeltelijk) plaatsvindt in het inleidende deel en niet (opnieuw) in het vietd
evaluerende deel. Van diegene die wil meedoen met een wetenschappelijke discussie, mag evenW®
verwacht worden dat hij het gehele boek leest (vgl. Weekblad voor Leraren, 9de jrg, nr. 1*'
1976:482-483).
'Onderwijsbeleid onder druk' is, ondanks deze en andere punten van kritiek, een belangrijke studi®'
Voor onderzoekers van onderwijs, gezien haar object van studie, haar onderzoeksmethode en ha^
sociologisch perspectief. Voor begeleiders van onderwijsvernieuwing, gezien de analyse van de rol v^
de overheid en pressiegroepen bij deze vernieuwing. Voor leden van pressiegroepen, gezien
informatie over de (on)mogelijkheden van hun groepen.
Jaap Dronkets
SIS WO, Amsterdaf
Dan C. portie
Schoolteacher: A sociological study
Chicago: University of Chicago Press 1975,268 pag.
In dit boek doet Lortie een indringende poging om met behulp van empirische gegevens meer inzicl''
te verkrijgen in wat hij het 'ethos' van het docentenberoep noemt.
Met 'teachers' worden door Lortie zowel leerkrachteil uit het lager als uit het voortgezet onderViJ
bedoeld. Hij beschouwt hen als één beroepsgroep. Hoewel hij hier en daar verschillen signaleert ligt o
nadruk toch op de overeenkomsten.
Onder het 'ethos' van het docentenberoep verstaat Lortie het geheel van oriëntaties en gevoelens da
kenmerkend is voor leerkrachten en dat hen onderscheidt van leden van andere beroepsgroepen. LortJ®
betoogt dat dit ethos wordt beïnvloed door de struktuur van het beroep maar evenzeer door d
betekenis en gevoelens die de leerkrachten zelf aan hun eigen werksituatie verbinden.
Dit uitgangspunt is in de opbouw van het boek duidelijk terug te vinden. .
Het boek bevat negen hoofdstukken. In de eerste vier wordt de aandacht vooral gericht op d®
strukturele faktoren die voor het ethos van belang geacht worden. In hoofdstuk 1 wordt de geschied®'
nis van de beroepsgroep in grove trekken geschetst en wordt gekonkludeerd dat er in de loop der jai®.^
weinig of geen ingrijpende strukturele veranderingen in het docentenberoep zijn opgetreden. In de dri
daarop volgende hoofdstukken worden processen die voor de ontwikkeUng en het voortbestaan van d
________M
erg belangrijk zijn, aan een nadere analyse onderworpen. Lortie betoogt dat de wijze
werkt^ rekrutering van leerkrachten verloopt het konservatisme binnen de beroepsgroep in de hand
een 2). Hij is van mening dat dit konservatisme wordt versterkt door het individualisme dat
b^ ^'^volg is van de struktuur van de beroepsopleiding en de wijze waarop de socialisatie tijdens de
vg fP^"itoefening verloopt. Het ontbreken van een overdraagbaar geheel van professionele kennis en
vjjj "'®heden, speelt hierbij een belangrijke rol (hfdst. 3). Het beloningssysteem, met inbegrip van het
VoQ 1 """'reken van karrière-mogelijkheden, leidt er volgens Lortie toe dat leerkrachten hun beloning
heeff in de dagelijkse kontakten met de leerlingen en de resultaten die ze daarbij behalen. Dit
toelf gevolg dat men zich vooral op het hier en nu oriënteert en weinig oog heeft voor
Lae H*""'®® ontwikkelingen (hfdst. 4).
dg . nadruk in het voorafgaande vooral op de meer struktureelfunktionalistisch getinte aanpak, in
Hie^'^r hoofdstukken verschuift de aandacht naar een meer fenomenologische benadering,
'eerk nadruk niet zo zeer op strukturele aspekten maar op houdingen en gevoelens van
take ten aanzien van hun werk. Het ethos van de beroepsgroep wordt nu benaderd vanuit de
en d" n^oeten worden uitgevoerd, de wijze waarop deze door de leerkrachten worden gedefinieerd
In h^ ®®voelens die zij ten aanzien hiervan op den duur ontwikkelen.
de 1 °°t^dstuk 5 beschrijft Lortie de aanzienlijke kloof die er te konstateren valt tussen de idealen die
Op nastreven en de resultaten die ze bij andere docenten bewonderen of waar ze zelf trots
do^i^ ^hoofdstukken 6 t/m 8 wordt nagegaan welke problemen leerkrachten bij het reaüseren van hun
jjgjj .^'^Ijingen ondervinden en hoe de daarmee samenhangende gevoelens van onzekerheid, die kenmer-
^'jn voor het docentenberoep, te verklaren zijn. Ook wordt ingegaan op een aantal onderling
Q^.".^t'ijdige gevoelens die in de loop van de beroepsuitoefening ontstaan en die verwijzen naar
IggJ^'^elijkheden in de rolopvattingen. Tenslotte wordt nog aandacht geschonken aan de wijze waarop
tyj in hun relaties met ouders, kollega's en de schoolleider een evenwicht proberen te vinden
Lort " en onafhankelijkheid, autonomie en participatie, macht en ondergeschiktheid,
etaa'^ ^onkludeert (p. 212) dat uit de wijze waarop leerkrachten hun taken zien en de gevoelens die ze
Verbinden dezelfde thema's naar voren komen als bij de oriëntaties, die voortvloeien uit de
de socialisatie- en de beloningsstruktuur van het beroep, het geval was. Deze thema's: -
etiiQ individualisme en presentisme - blijken dus zeer belangrijke komponenten van het
de (amerikaanse) leerkrachten te vormen. De vraag in hoeverre deze karakteristieken
hooi docentenberoep wordt door Lortie echter nauwelijks uitgewerkt. Hij verwijst te
syste ^^ andere beroepsgroepen maar dat blijft oppervlakkig, van een min of meer
Het vergelijking is geen sprake.
ontwitu'^'® hoofdstuk neemt in het boek een aparte plaats in. Hier worden een drietal mogelijke
Ver^ ^®'ingen geschetst die van invloed zouden kunnen zijn op het ethos van de beroepsgroep. Lortie
effgj^? t dat door het wegvallen van traditionele patronen meer behoefte aan flexibiliteit en aan
indiy'®vere samenwerking met kollega's zal gaan ontstaan. Ook verwacht hij dat de autonomie van de
Ve V docent, als gevolg van kollektieve onderhandelingen en de daaruit voortvloeiende kollektie-
fog^ 'Phchtingen, sterk gereduceerd zal worden. Bovendien meent hij een tendens tot centralisatie en
invloed van de overheid op het onderwijs waar te nemen. Tegen deze achtergrond pleit
e onder meer voor eenheid binnen de beroepsgroep en ontwikkeling van de professionaliteit.
afko'^ 'h.c^t't in deze studie een massa empirisch materiaal verwerkt. Hij maakt gebruik van gegevens
tejyj'^^tig Van 94 intensieve interviews met leerkrachten uit de omgeving van Boston (1963) en van de
van een enquête, met voornamelijk open vragen, onder ± 6000 leerkrachten in Florida
l9gQ Verder gebruikt hij ook gegevens die door de National Educational Association in de periode
Loj.. verzameld zijn. Zijn materiaal is zeer gevarieerd maar waarschijnlijk enigszins verouderd,
feno'^^ studie is om vele redenen erg interessant. Zijn poging de struktureel-funktionalistische en de
o^y'''®"ologische aanpak als komplementaire benaderingen te hanteren, is bijzonder boeiend. De
^ijn ^^ gedifferentieerdheid van het empirische materiaal waarop hij zich in zijn studie baseert
Op imponerend. De wijze waarop hij deze gegevens geanalyseerd heeft roept echter wel vraagtekens
sttjj, ® afstand tussen de gegevens en de daarop gebaseerde konklusies is soms erg groot. Een enigszins
gegey®"te toetsing van de gehanteerde hypotheses blijft achterwege. Zijn poging om uit de talloze
®ns een samenhangend geheel te komponeren is echter bijzonder inspirerend.
J.J.R.M. Corten
Instituut voor Onderwijskunde,
K. U. Nijmegen
96 Tijdschrift voor Onderwijsresearch 2 (1977), nr.
Academische Raad spreekt zich uit over organisatiestructuur vooi het universitaire onderzoek
De Academische Raad heeft in zijn plenaire vergadering van 4 februari jl. ingestemd met de hoofdW'
nen van de vorig jaar verschenen eindnota van de Werkgroep ad hoe Universitair Onderzoek (WUO)
de Academische Raad, getiteld 'Naar een nieuwe organisatiestructuur voor de universitaire wete""
schapsbeoefening'.
Met de aanvaarding van de hoofdlijnen van de eindnota van de WUO heeft de Academische Raad thai"
zijn beleidsuitgangspunten vastgesteld voor de toekomstige organisatie van de universitaire weteii'
schapsbeoefening. Als eerste uitgangspunt geldt dat de verantwoordelijkheid en zorg voor het belei"
met betrekking tot het eerstegeldstroomonderzoek taken zijn van de universiteiten en hogescholen
hun overleg- en samenwerkingsorgaan, de Academische Raad. Voorts zullen voor de landelijk®
coördinatie van het eerstegeldstroomonderzoek structuren moeten worden uitgebouwd die aansluit®"
bij het intra- en interuniversitaire organisatiepatroon waarin de WUB voorziet. Wat de tweed®
geldstroom betreft is de Raad van mening dat deze het karakter van aanvullende financiering dient t®
behouden en dat de tweedegeldstroomorganisatie, ZWO, in een complementaire relatie moet staan t"
de organen van de eerste geldstroom. Tenslotte zal de uitbouw van bestaande en de vorming ^^
nieuwe organen zich dienen te voltrekken in een geleidelijk veranderingsproces waarin alle betrokk®'
nen kunnen participeren en waarin rekening wordt gehouden met het eigen karakter van de verschille""
de gebieden van wetenschap.
Belangrijk element in de nu door de Academische Raad aanvaarde opzet voor de landelijke organisati®'
structuur van het universitaire onderzoek is de vorming aan de basis van landelijke werkgemeenschap
pen, waarin onderzoekers uit een bepaald vakgebied elkaar ontmoeten en ondermeer gaan zorgen vo"
de beoordeling van de kwaliteit van het onderzoek. Op het middenniveau ((sub)faculteiten en afdelinS'
zullen de secties van de Academische Raad, na een zekere herstructurering, moeten gaan optreden
landelijke universitaire disciplineraden die kwesties als taakverdeling en zwaartepuntvorming op h®
gebied van het universitaire onderzoek zullen moeten behandelen.
Op het niveau van de universiteiten en hogescholen gezamenlijk is de Academische Raad h®
aangewezen orgaan voor overleg en samenwerking, bijgestaan door de Commissie Algemene Vraagstu"?'
ken Wetenschappelijk Onderzoek (CAVWO). De CAVWO, die vorig jaar naar taak en samenstelling''
herzien, zal het gehele ontwikkelingsproces rond de universitaire wetenschapsbeoefening moete^
begeleiden en de communicatie, het overleg en de samenwerking bevorderen. De Academische Ra«
stelt in dit verband dat samenwerking met ZWO wenselijk en noodzakelijk is, maar tekent tevef
daarbij aan dat de totstandkoming van de organisatiestructuur voor het eerstegeldstroomonderzo® ^
niet zal mogen worden belemmerd door het tegelijkertijd creëren van een sterk uitgebouwde tweed®'
geldstroomorganisatie naar het model van de RWO (Raad voor het Wetenschappelijk Onderzoek),
voorgesteld in de Nota Wetenschapsbeleid van minister F.H.P. Trip.
(persbericht d.d. 9-2-'77J
Ontvangen publicaties
Breuker, Joost & Camstra, Bert. Concept based computer assisted instruction-. A proposal for tl''
development of an intelligent language understanding teaching system. Amsterdam: Center
Research into Higher Education, Univ. of Amsterdaih, COWO-rapport 7601, -01, 1976.
Dijck, W.E., Geschiktheid en selektie in het universitair onderwijs. Proefschrift, Universitaire Instelling
Antwerpen. .
Gruyter, D.N.M. de & L.J.Th, van der Kamp (eds.). Advances in Psychological and Education"'
Measurement, London: Wiley, 1976.
Mulder, J.M. de en Visscher, E.P. (red.). Op weg naar criteria voor onderzoeksbeleid. Groning®"'
Wolters-Noordhoff b.v. 1976 (= OTO-cahiers 1).
Over de Contourennota. Themanummer Pedagogische Studiën, oktober» 1976 (met bijdragen van
Deen, H.C.J. Duyker, G. Kanselaar, W. Nijhof en B.Th. Brus). Groningen: H.D. Tjeenk WiUi'^"'
1976.
Stichting voor Onderzoek van het Onderwijs, Jaarverdag 1975, 's-Gravenhage 1976.
De situatie en de ontwikkeling van de beroepsopleiding in Nederland. Supplement van Beroepsopl^'.
ding. Informatieblad van de Commissie van de Europese Gemeenschappen, Directoraat-genera^
Sociale Zaken, Afd. Beroepsvoorlichting en -opleiding, Brussel, 1976.
^^^^^h^voor Onderwijsresearch 2 (1977), nr. 3. 97
^estlengte bij Absoluut Meten: De Methode van
Novick en Lewis
'^^fieke Schoemaker
Afdeling Planning en Ontwikkeling van het Onderwijs
Utrecht
In a self-paced studysystem (SPS) the student gets feedback on relatively small steps of his
Process of learning. In planning a course in Elementary Statistics for first-year educationists in
^hich Mastery Learning principles were appUed the question cropped up how long a test should
06- For the time being n=20 was taken as this was done elsewhere. Acquaintance with an article
of Novick and Lewis shed some light on the problem. They give a solution in which Bayesian
statistics are applied. We want to introduce these ideas to a wider public. Some questions are
raised about the concept of mastery.
^ Nederland bestaat de laatste tijd een grote belangstelling voor individuele studiesyste-
1. Studievorderingen worden daarbij gemeten door middel van kriterium-geöriënteerde
joetsen.
jf^e vorm van meten noemen we absoluut meten. Vooraf wordt het kriterium (= aantal
■ns goed) vastgesteld. De student gaat verder, indien hij een zeker punt op de
zii , is gepasseerd. Een belangrijke vraag in dit verband is: hoe lang moet een test
lee ^n®fzijds willen we dat de student een beheersingsnivo heeft dat de inhoud van de
. . i zoveel mogelijk dekt, anderzijds willen we niet meer tijd in beslag nemen voor
X dan strikt nodig is, aangezien dit ten koste gaat van de beschikbare studietijd. In
(g e"ka hebben Novick en Lewis (1974) enige richtlijnen opgesteld voor een optimale
isV f.'^®^® voor een posttest (in tegenstelling tot pretest, waarvoor het model niet bedoeld
dit gebeurde als reaktie op de standaardoplossing van Millman.
jj. .^ethode garandeert een meer verantwoord beslissingsproces. De basisgegevens voor dit
Ijj j zijn ontleend aan een artikel van Novick en Lewis (1974).
jj Utrecht werd voor de eerste versie van de kursus statistiek eerstejaarspedagogen als
J^rn genomen 16 goed beantwoord van de 20 (zoals dat eerder was toegepast bij de
kleiner aantal dan 20 worden uitgegaan.
Ijj^j^^ologen). De norm werd bijgesteld,
"et komende studiejaar zal van een klei
Bii
gèL^®^ tnodel van het absoluut meten (ook wel 'criterion-referenced measurement'
emd) veronderstellen we een populatie van test-items, die een verschillende moeilijk-
98 Testlengte bij Absoluut MeteO
t |
VO |
t- -H |
CM |
CS |
CS |
1 |
CM |
(S |
>o |
Ov |
CO P- |
Ov |
co |
VO |
co |
r- | |
-H |
1 |
(S | ||||||
OO |
1- |
O oo |
<N |
•■O |
00 |
>o |
<s | |
rs |
m |
TJ- rt |
CS |
co |
I-H |
co | ||
O |
vo <s |
00 |
O |
lo |
o\ | |||
•t |
•O |
»0 co |
co |
lO |
co |
V) |
vo | |
O co |
Os |
co |
vo |
co |
VO | |||
TT |
m |
co «O |
CO |
co |
■t |
CS | ||
m |
vo |
O 00 |
t |
Vi |
O |
o |
r^ | |
f^ |
(N |
CM co |
CO |
CS |
C-) |
co | ||
co |
r- |
rj «O |
O |
WO |
r-- |
co | ||
<N |
-H (N |
C-) |
.-H |
1—1 | ||||
vo |
r*^ |
(N |
oo |
CT\ |
(S |
T-H | ||
• |
1-H |
I—t | ||||||
O |
"i- O |
r- |
■t |
to |
t |
1 | ||
.-H | ||||||||
t |
r-l vo |
co |
CS |
-H |
CS |
1 |
1 |
lO
CTv
O
o\
O
VO
O
•O
O
00
--H |
T-H |
CN 1 |
1 |
1 1 | |
V) |
as co |
TT |
VI O | ||
—1 |
oo |
CS Os |
^ |
O co | |
O |
so CS |
CS co |
®o 2 co <S |
co |
VO |
(S co |
O |
r- |
lO lo co |
00 |
co 00 VO VO |
•O Vt |
VO |
00 |
-H Os co Tt |
CS |
O 1- |
co |
t co |
>o CS |
O >0 |
CS |
os r- |
CS |
co |
p- |
CS co |
VI |
co |
CS |
v> |
O |
t^ co |
CS |
" —1 |
■O |
SD |
co r^ |
1 1 |
O
CTv
O
00
O
t—
O
>o
>o
O
1—1 |
1 |
1 |
1 |
1 |
1 1 | |
lO |
TT |
VO 1-1 |
CS |
co |
co |
VO |
00 |
1-H |
Tj- VI |
r- |
Ov |
CS |
>0 00 |
CS |
1-H |
1-H |
1-H ^ | |||
CS |
O |
VO CS |
vo |
O |
•O |
O >o |
CS |
CS |
1-H |
CS |
CS |
co co | |
>o |
CS |
O CS |
OV |
VO |
CS |
00 Tt |
>n |
co |
Tf CS |
CS |
co |
>o | |
r- |
W-) |
t |
co |
1—1 |
00 |
t O |
vo |
VI co |
-t |
"O |
«O |
VO r-- | |
co |
co |
Tt -H |
co |
V, |
00 |
CS t- |
CS |
co VO |
co |
CS |
cs ^ | ||
so |
CS |
co oo |
O |
co |
r- |
CS c^ |
co |
CS co |
co |
1—1 | |||
O |
CS |
VO |
os |
co |
Os |
VO Tt |
CS |
-H CS |
1-H |
1—1 | |||
VO |
■O |
Os t- |
»-I |
<o |
CO CS | |
—H |
O
O
00
V)
t-
o
O
<o
lO
O
>o
O
r-
r-oor-oor-t--oooor-oor-oor-oor-oooooooooo
c
S)
c
'S
0
>
'c
E
3
r-r-ooooc\OaNO'—loOO*—'<N
£
O
I
2
f2
lila
»n^NOt^r^r^oooooocNOOO^'-HfS'Ot^r-oo
1
-ocr page 103-^'^''oemaker 99
bezitten, en handelen over een geoperationahseerd onderwijsdoel, en een
eale besluitvorming, waarbij de student slaagt (= het onderwijsdoel heeft bereikt),
"neer hij tenminste ee« bepaald percentage items goed beantwoordt. Dit bepaalde
Qfcentage wordt genoemd het kriterium nivo. Dit nivo weerspiegelt de graad van
^ eersing, die voldoende geacht wordt voor een bepaald onderwijsdoel.
e aktuele aantal items, dat een student goed heeft, weerspiegelt zijn beheersingsnivo.
I^g een klein aantal observaties de beslissing slagen/zakken bepaalt, zijn fouten in
sta j'^^'i^^mgsproces te verwachten. Novick en Lewis halen Millman 0972) aan, die een
ndaard-oplossing heeft voorgesteld, die vrij algemeen wordt toegepast. In deze oplos-
jg® ^oi'dt ervan uitgegaan, dat de items van de test een aselekte steekproef vormen van
^'''effende populatie van items, zodat het aantal items dat de student goed heeft een
^ '^"are schatting is van zijn ware percentage goed in de populatie van items. Millman
akte gebruik van binomiale kansverdelingstabellen voor het vaststellen van de kans, dat
student met een gegeven ware beheersingsnivo (datgene, wat hij echt weet) ten
""echte zou slagen of ten onrechte zou zakken. Bij het binomiale foutenmodel wordt
"genomen dat - bij een gegeven ware skore - de kans het item goed te beantwoorden
groot is voor alle items. Dit impHceert dat alle items (ongeveer) even moeilijk
SU H Tabel 1 geeft voor verschillende kriteriumnivo's het verwachte percentage
ge 'iat ten onrechte slaagt, hnks van het kriteriumnivo, en het verwachte percenta-
at ten onrechte zakt, rechts van het kriteriumnivo, gegeven het ware beheersingsnivo
de student.
n hoog percentage in de tabel wijst op een hoge foutieve beslissingskans, een laag
egjj'^^ntage op een kleine kans op een foutieve beslissing. Uit de tabel blijkt dat de kans op
Op, °"tieve beslissing meestal groter wordt indien het ware beheersingsnivo dichtbij of
'kriteriumnivo ligt. Naarmate de testlengte toeneemt neemt de kans op een foutieve
[JJ'^sing af:
jj. etfekt wordt soms gekamoefleerd door een verschillend percentage goed. Bijvoorbeeld
j^een kriteriumnivo van .75 en een fraktie van .75 (6 van de 8 items goed) veranderen de
de en 32 (links en rechts van het kriteriumnivo) in 26 respektievelijk 63 wanneer
CHt h ^ wordt (= 7 van de acht items goed beantwoord).
een K^^^'^^mg^lkader is eigenlijk niet goed volgens Millman. Novick en Lewis ontwikkelen
•kader dat uitgaat van een andere voorwaardelijke kans.
methode van Novick en Lewis
standaardoplossing, die in het voorafgaande aan de orde kwam, is sprake van de
gende voorwaardelijke kans: de kans op het behalen van een bepaalde testskore,
jj.pven de ware skore. In de oplossing, die Novick en Lewis voorstaan, is de voorwaarde-
Jke kans: de kans dat het ware beheersingsnivo van de student het vastgestelde kriterium
erschrijdt, gegeven zijn behaalde testskore.
^ laatstgenoemde voorwaardelijke kans vormt een realistischer uitgangspunt, aangezien
e over de testskore van de student beschikken en niet over zijn ware skore. Voor het
erkrijgen van deze kans, wordt het Theorema van Bayes' toegepast. Hierbij wordt
^^orafgaande (a priori) kennis over het ware beheersingsnivo van de student gekombi-
erd met de geobserveerde testskore. Het resultaat is een achteraf (a posteriori) verdeling
het ware beheersingsnivo, gegeven de gevonden testskore. Deze achterafverdeling is
" Zogenaamde Beta-verdeling. Dit is een familie van verdelingen die gekenmerkt wordt
100 Testlengte bi] Absoluut Meten .
door twee parameters a en b. Deze parameters zijn te vergelijiten met p en a van de
normale verdeling.
Dit betekent, dat een minimale testlengte gezocht wordt en een zodanig kriteriumnivo
(afbreekgrens, tto), zodat studenten, die het nivo bereiken op de test een voldoende hoge
kans hebben dat ze het minimaal vereiste nivo bereiken. In formulevorm weergegeven: P
(tt > 770 |x, n).
Een voorbeeld. Wij willen de student alleen verder laten gaan, wanneer we er tenminste
50% zeker van zijn, dat zijn ware beheersingsnivo groter is dan .80 (80% van de stoO-
Anders weergegeven. Stel tto = .80 en gezocht wordt een minimale overschrijdingskans
voor het beheersingsnivo van .50: Prob. (t: > .80 |x, n) = .50 (x = testskore, n = het aantal
items in de test)
Als we ervanuit gaan, dat de voorafgaande kennis over het ware beheersingsnivo (tt) vaag
is en we daarvoor een uniforme verdehng kiezen op het interval van O tot 1, dan geeft
tabel 2 de door middel van het Theorema van Bayes berekende achteraf verdelingen vod
verschillende behaalde skores en testlengten. Bij een testlengte (n) van 8 items zullen i"
het voorbeeld alle studenten, die 7 of meer items goed hebben verder mogen gaan. D®
keuze was immers 50% of meer zekerheid. In de tabel vinden we 56. Bij x (aantal iteflis
goed) = 6 is die kans maar 20%. Studenten met een skore van 6 mogen bij een voorat
vastgesteld kriteriumnivo van .80 niet verder gaan.
Meestal is de voorkennis over het ware beheersingsnivo beter dan door de unifonne
verdeling wordt aangegeven. Bijvoorbeeld als bekend is, dat ongeveer 75% van de studen-
ten, die een individueel studiesysteem hebben afgerond, een beheersingsnivo van .80 oi
meer heeft. Die kennis kunnen we verder operationaliseren door te stellen, dat de sterkte
van ons oordeel berust op een skore van een test met een lengte van 12 items. Voor zowe'
de a priori als de a posteriori verdeling wordt uitgegaan van een Beta verdeling. Novick en
Lewis geven een tabel weer, die berekend werd door Wang (1973).
1. Ter illustratie van het Theorema van Bayes en de begrippen vooraf en achteraf die verderop aan d®
orde komen het volgende.
Stel dat aan een bepaalde universiteit de proportie mannelijke studenten .55 (kenmerk Al) en
proportie vrouwelijke studenten .45 (kenmerk A2) zijn. Zonder verdere informatie is de kans dat ee"
willekeurige student een man is, groter dan de kans dat het een vrouw is. Dit noemen we voorafgaand^
kennis. Stel verder dat op een later tijdstip informatie ter beschikking komt over het nivo van d«
studenten (kenmerk B). Uit die informatie zou kunnen blijken dat 40% van de vrouwen en 30% van d®
mannen een bepaald nivo bv. de kwalifikatie 'goed' (beoordelingscijfer 8) behaalt. Wij zullen op grond
van deze informatie ons oordeel, gebaseerd op a priori informatie, misschien moeten herzien.
behulp van het Theorema van Bayes kunnen we de kans berekenen dat een willekeurige student e®"
man is, gegeven dat hij tevens de kwalifikatie 'goed' heeft behaald. Het Theorema van Bayes is voor d'
geval:
P(B |AI)P(AI)
P(A1 B) = ;-^-
P(B A1)P(A1) + P(B A2)P(A2)
Invulling levert:
Onze achteraf kennis leidt inderdaad tot een herziening van ons oordeel. De kans dat een willekeurig®
student met een kwalifikatienivo 'goed' een vrouw is, is groter. Dit noemen we onze kennis achteraf
posteriori informatie).
^'^''oemaker 101
Tabel 2
9
10
9
10
11
^ kans, dat 't ware beheersingsnivo van de student groter is dan het gestelde (vooraf bepaalde)
—!!f^nivo (ff.) bij een uniforme a priori verdeling.__
J|?j"'male Aantal Achteraf- Kriteriumnivo - no items verdeling | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
102 Testlengte bi] Absoluut Meten .
hetgeen aangenomen wordt bij individuele studiesystemen, is het nodig, studenten t^
trainen tot een gemiddeld nivo, dat gelijk is aan of hoger dan het kriteriumnivo. Er kan
dan worden volstaan met korte tests.
Het is handig in de praktijk te kunnen werken met enige uitgewerkte tabellen, waarin v
verschillende steekproefgrootten worden gerelateerd aan verschillende a priori verdelin-
gen. Novick en Lewis stellen, dat de a priori verdelingen, verliesratio's en kriteriumnivo'«
die door hen in tabelvorm worden weergegeven kenmerkend zijn voor de praktijk.
De tabellen geven testlengten en afbreekgrenzen voor n = .70, .75, .80 en .85 bij een
verwacht gemiddeld beheersingsnivo in de populatie van respektievelijk .70, .75, .80 et^
.85. Verder een ekstra tabel voor een kriteriumnivo van .85.
Tabel 3 is een samenvatting van deze tabellen.
Tabel 3
Algemene aanbevelingen voor testlengten en afbreekgrenzen bij een gegeven kriterium (tto) en een | ||||||||||||||||||||||||||||||||||||||||||
|
Novick en Lewis komen tot de volgende aanbevelingen:
1. In de meeste situaties is een beheersingsnivo van iets lager dan .85 bevredigend. Een
beheersingsnivo van .75 is het meest gewenst. Dit kan bereikt worden door zee'
gemakkelijke items weg te laten.
2. Het nivo van het onderwijsleerproces dient nauwgezet bijgehouden te worden, zoda'
studenten het vereiste kriteriumnivo net overschrijden. Dit is gewenst om de leertijd e''
testtijd relatief laag te houden.
3. Het programma dient zodanig gestruktureerd te zijn, dat erg hoge verliesratio's nie'
voorkomen. Dit houdt in, dat individuele studiepakketten niet te zeer afhankelij''
moeten zijn van de voorafgaande pakketten.
Ten aanzien van de testlengte wordt een test van 12 items of lager wenselijk geacht-
Twintig items is ongewenst, langere tests zijn uit den boze.
Er bestaat ook een computer-assisted-data-analyse programma (CADA), dat de ondef
zoeker door de diverse stappen van het onderzoeksproces heenhelpt. (Novick en Jackson,
1974) In Nederland is dit programma geïmplementeerd aan de Universiteit van Groninge"^
en aan de Universiteit van Amsterdam.
^^I^oemaker IO3
^beschouwing
^'tgaande van de oplossing van Novick en Lewis voor het bepalen van de testlengte bij
^°soluut meten (ook wel criterion-referenced measurement genoemd), lijkt het gewenst
^ te gaan van een test van 12 items. Wij zouden echter hiermee voorzichtig willen zijn.
ervaring bij de uitvoering van de kursus statistiek voor eerstejaars pedagogen in
trecht^ leerde dat bij de uitvoering gedurende het eerste jaar (1975-1976) gerekend
ll'oet worden op de aanwezigheid van achteraf niet geschikt gebleken items. Ondanks
"orzorgsmaatregelen (waaronder het gebruik maken van items van een bestaande kursus)
eken 3 van de 20 tentamen items niet geschikt. Bij een testlengte van 12 items zouden
j^aar 9 items overgebleven zijn. Volgens Novick en Lewis niet optimaal,
en is geneigd te zeggen, dat in een tweede jaar de optimale lengte van 12 items wel
ingehouden kan worden. In een individueel studiesysteem krijgt de student (onmiddel-
JK) feedback over zijn studieprestaties. De items zijn dus bekend en er moeten weer
euwe items bijgemaakt worden. Pas bij de aanwezigheid van een groot aantal eenduidige
(itembank) kan de ideale testlengte aangehouden worden,
n ander vraagstuk, dat hier niet verder is uitgewerkt, is wat het effekt is van beheersing
an de leerstof op hoog nivo. Hierboven werd gesproken van boven 80%. Dit is een
nvaardbare norm, die in de literatuur over beheersingsleren (Mastery Learning), een
Oorbeeld van een individueel studiesysteem, voorkomt. Het is in principe mogelijk met 2
oepen te werken, waarbij in de ene groep 80% en in de andere groep bv. 60% wordt
"gehouden. Volgens Bloom leert de student sneller (in minder tijd) in latere fasen van
Jn studie, wanneer de voorafgaande stof beheerst wordt. Voor zover wij hebben kunnen
gaan, is er nog geen onderzoek verricht, dat aantoont, dat 80% beheersing een beter
' gangspunt is dan 60%, hoewel dat in de lijn der verwachting hgt.
hteratuur
Bi
f^^^tt, B.S. Time and Learning. American Psychologist, 1974,29, 512-518.
J.: Determining test length, passing scores and test lengths for objectives-based tests. Los
M . "geles: Instructional Objectives Exchange, 1972.
^K M.R. en Jackson, P.H.: Statistical methods for educational and psychological research.
hjo^^Craw-Hill, New York, 1974).
M.R. en Lewis, G.: . No. 3 CS.E. Monograph Series in Evaluation. Los Angeles: The
•University of California, Center for the study of Evaluation, 1974.
uitg artikel van Novick en Lewis werd door ons een uitvoerige versie gemaakt welke als interne
save aan belangstellenden kan worden verstrekt.
'^'^script ontvangen 14-4-76
I'nitieve versie ontvangen 28-9-76
•Rapportage over de kursus verschijnt in 1977.
-ocr page 108-104 Tijdschrift voor Onderwijsresearch 2 (1977), nr.
Long Range Prediction of Academic Success of
Male and Female Psychology Students*
J.J. Elshout and S.M. van Loo
Instituut voor cognitie onderzoek. Universiteit van Amsterdam
This study is concerned with the differential (long-range) predictability of male and fem^®
performance at the university level. For a battery of Structure of Intellect tests differ®"
patterns of validity over an eleven-year period were found for men and women. The need
separate reporting on groups that are differently placed on important moderator variables'
pointed out.
The validity of tests in educational contexts is a function of a number of factors, many "
them independent of the tests themselves. One of the more important test-independen'
factors is the heterogeneity of the student body concerned. Heterogeneity here mea''^
that the processes that influence achievement (and thus the resources called upon) are nO
the same for every individual in the sample. In other words, a heterogeneous group in th*^
sense is one in which there are moderator effects. This study is about sex as a
moderator
of the relation between intellectual abilities and student performance in the study "
psychology. It was prompted by a recent, discouraging report of the (lack of) validity of ®
number.of tests of ability, achievement motivation and study habits in four department^
of the University of Leiden, among them the Psychology Department (Crombag, Gaff
Chang, 1975). The authors conclude that performance at the university level is unpredic
table.
On the basis of their data and as far as practical validity is concerned, one cannot but
agree (though their choice of tests was not fortunate). Their more general conclusion,
however, that it does not matter how bright a student is and how hard he works,
cannot share. Conclusions of practical validity are straightforward. To conclude, howevef'
from the correlation between a measure X and a measure Y that what causes X to vafV
does or does not also cause Y to vary is not a straightforward matter at all. There at®
many conditions to be met first, and it would appear that in the present Dutch university
system hardly any of them is met (cf. Elshout, 1977). One condition that surely is no
met is that of homogeneity of the student body. This lack of homogeneity is what we w^n
try to demonstrate, concentrating on the differences between the sexes.
We are indebted to Charlotte Koster and Fred Kerlinger for purifying the English text.
-ocr page 109-^'"^out and Van Loo 105
differences in secondary education
^^ is a likely candidate as a moderator variable in educational prediction. Lavin (1965)
Bos (1974) conclude that the performance of girls is more predictable than that of
°ys. Girls outperform boys on every IQ level and also as a group (Bos, op. cit.) Failure
° De promoted from one class to the next in the Dutch secondary school system is more
/■equent among boys than among girls. The available evidence indicates that girls tend to
e 'good pupils' who work harder and longer than boys. This produces the higher
^■■edictabiUty of the girls' performance, in the same way as the moderator 'compulsive-
did in the original study by Saunders. Hard work and good behavior also seem to
°nipensate for the underrepresentation of girls in the upper IQ ranges. In the study of
°s, it was found that 15 percent of the boys scores over 124 compared to 7 percent of
® girls. (At the other extreme the same situation is found! The ratio of boys to girls in
me lowest ranges is also 2 : 1).
differences at the university level
the university level the situation alters drastically,
eintjes (1972) reports a low correlation between sex and success in the first-year
agination, with girls higher than boys. The CBS-report of 1971, which combines data
all Dutch universities, however, states that thirteen years after entering the university
St J^'^'^ent of the men and only 29 percent of the women who entered as psychology
dents obtained a university degree. Eighteen percent of the men and 36 percent of the
omen left the university without having passed either the 'kandidaats'-examination (± 3
L "^eulum years) or the 'doctoraal' examination (± 5 curriculum years). The popular
ypothesis is: marriage. Cope and Hannah (1975), in their review of the Hterature, report
®t the major reason given for women's dropping out of college was marriage, whereas
n tended to drop out more from lack of interest or dissatisfaction with the college
jj rl® do exist on other influential factors. Elshout and Brakenhoff (1973) report on sex
erences between 365 male and 203. female first-year students of the University of
^^ sterdam on the factor scales of the ALPHA-Biographical Inventory. Men scored higher
physical science and technological interest (r = .43), extracurricular studies (r = .20),
^ "eral self confidence (r = .27), confidence in own creative potential (r=.21) and
j ®demic aspiration level (r = .30). The women scored slightly higher in S.E.S., on musical
terest and activity (r = -.20), on fear of failure (r = -.23) and interest in clothes-
j.pping (etc.) (r =-.30). They also read more literary works (r =-.24). There were no sex
terences on factors pertaining to achievements in the social, artisfic, literary and
athemafical fields, nor did the groups differ in previous scholastic performance and
^ "fidence in own academic and social abihty. Heintjes (1972) and van Hemert (1972)
C)Mt '^fPO''^ males outperforming females on tests for the Structure of Intellect Factors
■j^T ('Originality') and CMS ('General reasoning'), the correlations being in the twenties,
jj^'s last result is especially interesting because CMS-tests correlate in the forties with
^athematical grades which themselves correlate zero with sex.
a combination of all those factor scales and tests would provide us with an
ective discriminant function; but will this same function predict who will drop out?
106 Predictability of Male and Female Performance
Cope and Hannah conclude that whether a characteristic is differentially predictive for
dropping out for men and women depends on its centrality in the role concepts of the
sexes. For instance, 'identity searching' concerns, which may reflect some feeling oj
incompetence for men (competence being central to the masculine role), were related
positively to dropping out for men and negatively for women, self questioning perhaps
being central to the woman's role concept (Genin, a.o. 1968). The relations to 'neutral
variables, like academic competence, are similar for men and women.
The point we wanted to make should by now be obvious: sex is a broad-range moderator
variable, and differences in slope and intercept can be expected for many predictor-crit«'
rion relations. Those who are interested in 'what it takes' to succeed in the study Oj
psychology (or any other subject) should report on males and females separately. And
this is what we will do in the following report on the 11-year range validity of a number
of Structure of Intellect tests.
We take our data from the classes of 1963 and 1964 of the Psychology Department of th®
University of Amsterdam.
The sample
Our combined sample consists of 265 first year students. This is 74 percent of those who
were registered in the years concerned. The test sessions took place in January, whichi
next to the fact that participation was voluntary, explains the missing 26 percent. At that
point in time the exodus of students (the minority to other university studies) has already
started; there are also late arrivals registering after this date. The following table gives the
composition of our sample at 1-1-1976 compared with the present situation of the tota
combined classes of 1963 and 1964.
Table 1. Composition of sample after 11 yrs. of study, compared to total class | ||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||
Category I: Left department without passing any examination Category IV: Obtained degree ('doktoraal examen') in Psychology in Amsterdam or elsewhere. |
and Van Loo 107
following comments can be made on the contents of the table.
• Both the CBS (1971) report and our departmental records indicate that eventually
nearly everyone who has obtained a 'kandidaatsexamen' obtains his degree. If this is
taken into account, it is to be expected that the marked lead in obtaining final degrees
the men have taken will be lengthened still, there being more men than women who
have obtained their 'kandidaatsexamen' and are still registered.
The success ratio of the women, however, is considerably higher (43% vs 29%) than
2 that of the classes 1954 to 1957 on which the CBS data are based.
• The ratio of men to women at this particular psychology department has through the
years kept steadily near the 'golden section' (62 : 38), as in our sample. In this respect
our sample also differs from the national data reported by CBS. Nationally women had
^ a slight majority in 1954 to 1957.
• Because the Nederiands Instituut voor Psychologen has complete records on any
psychology degree obtained in Holland we can be fairly sure that no one in categories I
and II has obtained a psychology degree at another University. What we cannot be sure
of, however, is whether or not a small number from those in categories I and II has
obtained a degree in another field or is working towards it. This certainly would
^ depress vahdity.
• The overrepresentation of males in Category III is remarkable. The most plausible
hypothesis is that they have a regular job. The attractive post of student assistant, for
'nstance, has a reputation of keeping students from getting their degree.
criterion
^e obvious distinction to make is between 'no exam passed' and '3 yrs exam or more',
^e decided on this as our measure of academic success.
^e tests
Th
e group of 1963 and 1964 took different but overlapping test batteries. The tests used
te t present study were part of both.. We will give a short description of each test. The
Ho have been translated to conform with the test descriptions in Guilford and
gj°®Pfner (1971). More complete discussion of their background, factorial composition,
th'^' found in Elshout (1976). The trigrams behind each name indicate the factors
^t load highest in the test.
^ven^"^'^ Completion (CMU, NMR): provide a word, the first letter and the meaning of which are
Series (CSS, CMS): Traditional and difficult number series in multiple choice format.
Ptov^T^^"' A^^'^^tion (NMR): This test is similar in format to Mednick's Remote Associates Test:
^ut^ ■ that can be combined with three given words to form existing words.
Nu^'''?''^ ^Peed (NSI): Very speeded tests of faciUty in four basic operations,
inv^^"''''' Approximations (CMS, NSS): Choose the alternative that comes nearest the outcome of an
4 calculation.
(CMI): List problems that arise in the use of everyday objects. Lenient scoring.
'^bulary Test (CMU)
108 Predictability of Male and Female Performance
Linear Syllogisms (CMS): Given the relations between terms of a series (bigger than, etc.), deduce
which is largest, which smallest.
Associational Fluency (DMR): List as many synonyms of given adjectives/adverbs as possible. Lenient
scoring.
Verbal Analogies (CMR): Verbal Analogies in the DAT-format. Rather difficult. 1
Hidden Figures (NFT): Indicate in which drawings a given drawing is embedded.
Results
Table 2 contains the results. A^s differ slightly. For ease of comparison all scores have
been standardized to an overall mean of 50 and a standard deviation of 10.
Table 2
Means on eleven ability tests of male and female students who 11 yrs later have (categ. 11, 111, IV) o'
have not (categ. I) passed the 'kandidaatsexamen'. Also given are validities for this criterion for the
two groups separately and combined.
Means Validities | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
The vaUdities are biserial correlations. The .05-level is reached at r-bis .205, .255 and .155 respectively- |
Discussion
From Table 1 we can calculate a phi of .36 between sex and student performance, mef
having a higher probabiUty of success. Table 2 shows that men also outscore the wome"
on all eleven tests but one. The differences are small, however, the point-biserials ranging
from .00 to .24. The validities for the performance criterion are in the same range. This
means that the greater success of the men on the criterion cannot be explained by theJf
greater ability. On the basis of our data it seems improbable that a combination of tests
(including tests not present here) can be found that will correlate in the sixties both witn
sex and performance. But that is what is needed for the correlation between sex an''
^'"'°''tandVanLoo 109
Study success to become zero when abihty is kept constant. The situation seems to be the
of what Bos (op. cit.) describes: here men outperform women on every level of
^'"^y- At first sight, this conclusion seems to contradict the finding in Table 2 that men
"o fail, in seven out of eleven comparisons, obtain higher test scores than women who
"cceed. One can say that this is an indication that women have compensating factors
orking for them, as is the case at the secondary school level. The correct explanation,
owever, is that the validities of the tests are too low to 'override' the preexisting sex
"ferences. Had the validities been zero, then, the unsuccessful male group would have
^tscored the succesful women on every test and not just on seven.
"en validities are low, differences in validity can only be small. The overall picture is
^onvincing, however: the tests most valid for the women are different from the tests most
for the men. If we accept the appropriateness of the ordinary z test in this instance
^eniember that the correlations are biserials), for Seeing Problems and Associational
luency the differences in correlation are to be considered highly significant. Negative
orrelations between measures of abihty seldom occur in samples the size of ours. Why do
"ey occur here? It would seem unwarranted to turn for an explanation to the factorial
composition of the tests. In our view the most plausible explanation is to be found in
'"erential reactions to the format of the tests.
"e tests having positive validity for men and women both are without exception
conventional in format. Number Series, Numerical Speed, Vocabulary Test, Linear
, yl'ogismes and Hidden Figures could be part of any standardized college-level test
So . Verbal Analogies should have been conventional too, but in fact turned out to be
° difficult that a number of subjects sought refuge in guessing - all in the women group.
the surface Numerical Approximation is a conventional multiple choice test, but
^member that all alternatives are false, the subject having to choose the best. The
eniaining four tests are open-ended and of a type which practically no subject will have
I .countered before. Two of them, Seeing Problems and Associational Fluency, are of the
6 Ve as many answers as possible' format and are apt to pose judgemental problems for
e subjects as to which answers are acceptable. Our hypothesis about the negative
'dities of these tests and, more general, about the lower validities of unconventional
sts in the female group is that the test-taking attitude of women who later were
ccessful differed from their unsuccessful colleagues. The successful were more critical
ofth
Test
eir answers and thus less productive.
St taking-attitudes can probably be changed, so no generality should be claimed for our
"dings. What they do demonstrate is the danger in combining heterogeneous groups in
''relational research. The point is not that correlations generally will be lower in the
Co group (they can also be higher), but that they become less interpretable, the
"ibined correlation depending in an arbitrary way on the relative size of the groups
°"ibined and less on the intrinsic relations between the traits measured.
Ut
crature
D.J. Schoolkeuze-adviezen. Den Haag: Mouton, 1974.
^"ttaal Bureau voor Statistiek (CBS). Statistiek van het wetenschappelijk ondenvijs. Sind.i^ioo'phia.n
„ Van de studentengeneraties 1954-1957 en 1961-1963. Deel I. Den Haag: Staatsuitgeverij, 1971.
^Pe. R. and W. Hannah, Revolving college doors. New York: WUey, 1975.
'ombag, H.F., Gaff, J.G. and T.M. Chang. Study behavior and academic performance. Tijdschrift
Onderwijsresearch, 1975, L 3-14.
110 Predictability of Male and Female Performance
LIshout, J.J. Karakteristieke moeilijkheden in het denken. Academisch Proefschrift Universiteit van
Amsterdam, 1976.
Elshout, J.J. Predicting the validity of predictors of academic performance. Tijdschrift voor Onderv;'!^'
research, 1977, 2, 24-31.
Elshout, J.J. en W. Brakenhoff. Assepoester's zusters waren broers... Nederlands Tijdschrift voor de
Psychologie, 1973, 28, 311-325.
Guilford, J.P. and R. Hoepfner. The analysis of intelligence. New York; Mc Graw Hill, 1971.
Heintjes, R. Biografische correlaten van intellectuele factoren. Doctoraal Werkstuk, Psychologisc"
Laboratorium, Universiteit van Amsterdam, 1972.
Hemert, N. van, Semantic transformation abilities and creativity. Doctoraal werkstuk, Psychologiscn
Laboratorium, Universiteit van Amsterdam, 1972.
Lavin, D.E. The prediction of Academie Performance. New York: Russell Sage Foundation, 1965.
Manuscript ontvangen 14-6-76
Definitieve versie ontvangen 13-10-76
-ocr page 115-.^ï^l^^^l^^iftwor Onderwijsresearch 2 (1977), nr. 3. Ill
Lokale Betrouwbaarheid: Begrip en Operationalisatie
F. van Naerssen*
^faculteit Psychologie van de Universiteit van Amsterdam
^ocal reliability — concept and computer programs
Local reliability dx is defined as the derivative of the expected true score tx to observed score x
^hen x is continuous, and as dx-L = fx - fx-1 when scores are discrete. In the case of linear
regression of true scores on scores all loci reliability coefficients are equal to the overall
reliability. The concept is important when tests must be reUable at a certain point, especially
the cut off score. One possibility is the calculation of local reliabiUty with the binomial error
"lodel, using only the distribution of observed scores. Another possibility is to calculate the
array of dx-^ from item indices, for example p-values and item-total correlations. Two
computer pro^ams, written to calculate local reliabiUty in both ways yielded about the same
results with a fictitious test of 20 parallel items. The program using item indices, however, may
be more generally applicable.
' Het begrip
bdi ^'^^g'^ak-beslissingen, en in het bijzonder bij 'criterion-referenced' tests, wordt de
l^g oefte gevoeld aan een betrouwbaarheidsmaat, die rekening houdt met de aftestgrens.
all K • auteurs hebben er bijv. op gewezen dat onderscheid tussen twee personen die
j^^oei geslaagd zijn, of allebei gezakt zijn, irrelevant is.
fgston (1972) heeft de betrouwbaarheid herdefïniëerd als een verhouding tussen de
getv ^^"antie, waarbij dan nog opgeteld wordt het kwadraat van het verschil tussen
Wq j score en aftestgrens, en de totale scorevariantie, waar ditzelfde kwadraat bij
onri "Pgefeld. Hierop ontstond in hetzelfde tijdschrift een levendige discussie over dit
doef'-^^'^^" (1976) had al eerder de dichootomie slagen/zakken voor dergelijke
^^ einden aanbevolen voor correlatieberekening, in plaats van de oorspronkelijke ruwe
Pa "^n '^^^^tee (1970) stelt voor de slaag-zak-dichtomie te correleren met die van een
(197 en werkt dit uit in verband met het aantal misklassificaties. De Bruyne
Vgfj- ^ ernstige kritiek uit op deze methode, past haar aarzelend toe in een gewijzigde
^ Onder voorgestelde index kan gebruikt worden als betrouwbaarheidsmaat bij slaag-zak-
^slissingen maar heeft mogelijk een ruimer toepassingsgebied bij de analyse van tests,
g ^feilen een bepaalde functie van de geobserveerde score x voor die, als x continu is,
jjj finiëerd wordt als de afgeleide van de bij x verwachte ware score fx ftaar x. Als x
^"^reet is wordt deze functie, die we met de letter d zullen aangeven, gedefmiêerd als het
on^®®' dank ben ik verschuldigd aan prof. E.E. Roskam van de K.U. te Nijmegen voor zijn kritische
•""erkingen.
-ocr page 116-112 Lokale Betrouwbaarheid
differentie-quotiënt (f - fx.i)/(x - (x-1) = f* - fx-i • In het laatste geval hoort deze
waarde bij het gemiddelde van de score x en x-1:
(la) dx (x continu)
(Ib) dx-J. = fx - fx-i (x discreet)
In de klassieke testleer wordt aangenomen dat de verwachte ware score een lineaire
functie is van de score. Welbekend is de formule:
(2) fx =Pxx (x-/:ix) + Mx
Uit (2) en (1 b) volgt dat dan - bij de assumpties van de klassieke testleer - d voor all®
waarden van x gelijk is aan de betrouwbaarheid Px* van de test.
Om deze reden kan dx gezien worden als een betrouwbaarheidsmaat, de lokale betrouw-
baarheid, behorende bij een bepaalde score. Als de regressie van ware score op score
recht is dan zijn de waarden van dx-^ in het algemeen verschillend, sommige zijn hogef'
sommige lager dan de 'overall-betrouwbaarheid'.
Men zou dx ook wel de lokale discriminatie kunnen noemen. Maar het woord discrimin®'
tiecoëfficiënt wordt reeds in verschillende betekenissen gebruikt, zoals die van item-test'
correlatie. De lokale betrouwbaarheid is misschien nog het meest te vergelijken met de
discriminatie-index D van Lord (1952). Deze is echter een continue functie van d®
vaardigheid (niet de score); en wel is het de afgeleide van de testkarakteristieke kromm®
(naar de vaardigheid) gedeeld door de standaardafwijking van de scores gegeven di®
vaardigheid. Van het quotiënt D^/(1-HD^) toont Lord aan dat het ook te interpreteren
als betrouwbaarheidscoëfficiënt. Conceptueel is de lokale betrouwbaarheid als toenam®
van de ware-score-schatting hier natuurlijk geheel verschillend van.
De regressie van ware score op score wordt wel in de klassieke testleer als
recht
aangenomen maar blijkt bij berekeningen met andere modellen vaak krom te zijn. Lord en
Novick (1968) tonen aan dat bij het binomiale model - binomiale verdeling van d®
fouten gegeven de ware score - de regressie van score op ware score noodzakelijk recht iS'
maar dat die van ware score op score dat geenszins hoeft te zijn. Lord (1959) vond m®t
een methode, die hieronder ook gebruikt zal ,worden, bij een toets van 25 items en
afgenomen bij een groep van 4000 personen een duidelijke kromming met de holle kanj
gericht naar de ware score. Men kan ook met de combinatie van binomiaal foutenmod®
en 'weten of blind raden' psychometrisch aantonen dat de gezochte regressie, de verwach-
ting van de ware score, kromlijnig is bij diverse normale, rechthoekige en scheve verdeli»'
gen van de ware score. De kromming is des te sterker naarmate het aantal alternatieven
van de keuzetoets geringer is en naarmate men zich dichter bevjndt bij de raadscore, d®
verwachte score bij blind raden (van Naerssen, 1972). Alleen in het bijzondere geva
waarin de ware score een bèta-verdeling heeft is de regressie recht (Lord en Novick, 196°,
23.6). '
Aan de regressie van ware score op score is nu direct te zien waar de lokale betrouwbaaf'
heid hoog is en waar laag, d.w.z. waar de test goed discrimineert en waar slecht. In d®
Naerssen _____
Ovengenoemde gevallen van Lord en Novick en die van van Naerssen discrimineert de
(keuze.) toets het beste aan de hoge zijde en het slechtst bij de lage scores, vooral die
onder de raadscore Dit is uiteraard in overeenstemming met de intuïtie. Het heeft echter
f n dit intuïtieve begrip lokale betrouwbaarheid te kwantificeren en daarvoor kan formule
(1) gebruikt worden. u u j •
^n waarschuwing is hierbij echter nodig: voor de lokale betrouwbaarheid gelden met de
restricties van de gewone betrouwbaarheidscoëfficiënt, die bijv. altijd tussen O en 1 ligt.
Bij zeer homogene tests of een tweetoppige verdeling van de ware scores kan de lokale
^betrouwbaarheid echter voor sommige waarden van x groter zijn dan 1. Daartegen is,
"nkt ons, geen bezwaar.
^ Operationalisatie alleen met het binomiale foutenmodel
pe verwachting van de ware score in (1) kan op verschillende manieren berekend worden,
^rd en Stocking (1976) verwijzen naar een aantal artikelen waarin deze verwachting
geschat wordt op Bayesiaanse wijze, dus uitgaande van een a priori gedachte wye-score-
^erdeling, waarvan de invloed helaas onbekend is. Zelf ontwikkelen zij een methode om
een confidentie-interval van de ware score te berekenen.
^ij hebben de lokale betrouwbaarheid op twee manieren met een computerprogramma
poperationaUseerd. Het eerste programma is gebaseerd op de door Lord (1959) ontwik-
■^elde en door Lord en Novick (1968, 23.5) beschreven methode om de ware score te
Debatten uit de geobserveerde scoreverdeling. Daar deze methode bij een door toevallige
Jeekproeffluctuaties wat grillige frekwentie-verdeling verstek laat gaan, zoals ook Lord (
hebb'^'^ vermelden, zodat haast altijd eerst een ietwat willekeurige 'smoothing' moet plaats
Oen, hebben we een tweede programma geconstrueerd, dat hopelijk meer algemeen
toepasbaar is. Dit programma wordt beschreven in par. 5. Daar beide programma's m
principe tot dezelfde reeks lokale betrouwbaarheidscoëfficiënten moeten leiden, kunnen
^ij elkaar a.h.w. toetsen in de gevaUen (van gladde frekwentieverdeling) waarin de eerste
"Methode ook tot geloofwaardige resultaten leidt.
methode van Lord (1959) komt hierop neer dat gebruik wordt gemaakt van een
formule, die de schatting van de ware score geeft als functie van die van één scorepunt
'^ger, en voorts van het aantal items n, de score x, de daarbij behorende kans 0 (x) en ten
^'otte die van x-1 (Lord en Novick 23.5.4):
.........
gedefiniëerd wordt als t/n en dus/if|x=fx/n.
^t n items levert dit n vergelijkingen, echter met n+1 onbekende waarden van de
^rwachte ware score. Lord en Novick stellen nu voor om te beginnen met een betrekke-
''jik Willekeurige waarde van de bij de laagste score horende verwachte ware score, daaruit
^t (3) alle volgende waarden te vinden en dan een maat te berekenen voor de
ëetandheid' van de gebroken lijn, die de voorstelling is van de geschatte ware score als
^^"etie van x. Daarna moet men de beginwaarde systematisch varieren tot de maat van
®®tandheid minimaal is. Door de werkelijke waarden van fx moet men immers een
bloeiende kromme kunnen trekken, die in het geheel met getand is.
114 Lokale Betrouwbaarheid
3 Het eerste computerprogramma
Het programma gebruikt natuurlijk geobserveerde frekwenties f, in plaats van de onbeken-
de verdeling in de populatie 0. Bij vele reële scoreverdelingen zijn de eerste en/of laatste
frekwenties nul, waarbij (3) niet kan worden toegepast. Het eerste wat het programma
dus doet is het scoregebied bepalen, van a tot en met b, waarbij de frekwenties niet nU'
zijn. Dan wordt een eerste schatting van fa gekozen en met (3) worden alle waarden van
tx berekend tot en met tb- Daarna wordt een maat voor getandheid J (Jaggedness)
bepaald, en wel hebben we hiervoor gekozen de som van de kwadraten van de verschillen
tussen opeenvolgende waarden van (De som van de niet gekwadrateerde verschillen ^
uiteraard niet bruikbaar als maat voor de getandheid omdat extreem positieve en negatie-
ve waarden elkaar grotendeels zouden opheffen.) De waarden worden gewogen met het
gemiddelde aantal betrokken gevallen, dus met ^ (fx fx-i )• Om J bij verschillende
scoreverdelingen te kunnen vergelijken kan eventueel nog gedeeld worden door het totaal
aantal beschouwde gevallen:
S (fx.I+fx)(fx-fx-l)'
x = a
S fx + fa - f b
x = a
Om nu die beginwaarde fg te vinden waarbij J minimaal is wordt gebruik gemaakt van een
procedure, die dit minimum zoekt door herhaald halveren van het interval van x (hie^
beginnend bij het interval tussen a en - niet b maar - de gemiddelde score, omdat men
zeker weet dat de verwachte ware score horend bij a in ieder geval ook onder die
gemiddelde score ligt). In het programma wordt het interval 20 maal gehalveerd zodat het
uiteindelijke nauwkeurigheidsinterval tot een miljoenste is verkleind, wat bij deze methode
van Lord vermoedelijk wel noodzakelijk is. Het programma levert allereerst J en een
grafische voorstelling van de gebroken lijn fx voor x=a,...,b, om een indruk te geven van
de mate_ waarin de minimalisering van de getandheid geslaagd is. In dezelfde figuur zie
men de (ingevoerde) frekwentie-verdeling van de scores x.
Daar de aldus gevonden reeks fx meestal toch nog niet een vloeiende curve levert,
berekent het programma ook nog een door de punten f* (elk nog gewogen met he
betreffende aantal gevallen, personen) zo goed mogelijk te trekken polynomium. Hoewe
de kromme in Lord en Novick (p. 514) en die in van Naerssen (1972) het gebruik van een
tweedegraadspolynomium (parabool) zouden rechtvaardigen, wijzen berekening van Lof
(1952) op een maximum discriminatievermogen ongeveer in het midden van de testscores,
zodat minstens een derdegraadspolynomium voor tx noodzakelijk zal zijn (met maximum
discriminatie of betrouwbaarheid bij het buigpunt). Dit blijkt ook uit het hieronder t®
vermelden onderzoek.
Voor de methode van de bestpassende veelterm moge verwezen worden naar leerboeken,
bijv. Hoel (1971). Het programma maakt daarbij gebruik van'een procedure voor he
oplossen van lineaire vergelijkingen. De coëfficiënten van de veelterm worden afgedrukt,
en de afgeleide hiervan eveneens, geëvalueerd bij de n waarden van x. Dit zijn de gezocht®
gladgestreken lokale betrouwbaarheidscoëfficiënten. En ten slotte levert het programm^
ook de gebruikelijke waarden: gemiddelde, standaardafwijking en KR-21-betrouwbaaf-
heid.
Naerssen 115
^ Enkele bevindingen met het eerste programma
^an Berkel (1976) heeft het oorspronkelijke programma gedraaid bij een aantal bedachte
enkele empirische verdelingen. Hij variëerde afzonderlijk de top van de verdeling, de
aarten, het aantal testitems, de moeilijkheidsgraad (of het gemiddelde niveau van de
personen), de plaats van bepaalde - parabolische - verdehngen, en de invloed van
P Strijken van empirische verdelingen.
belangrijke bevinding is de bevestiging van de opmerking van Lord en Novick dat de
erdeling eerst moet worden gladgestreken. Doet men dit niet, dan blijft de figuur getand
"de resultaten zijn dan vaak absurd en verschillend van die bij dezelfde maar dan
g "gestreken verdeling. Het gaat immers om <j> (x), die vaak alleen voldoende door de
pobserveerde verdeling f* wordt benaderd als de steekproef zeer groot is (> 1000? ). Met
^"loothing' kan men trachten de verdeling in de populatie 0 (x) te benaderen,
j Pvallend maar vanzelfsprekend is dat de helling van de ware-score-curve toeneemt met
j^® (daarom wordt de hellingscoëfficiënt ook - lokale - betrouwbaarheid ge-
^ri de uiteinden van de verdeling kunnen negatieve betrouwbaarheidswaarden bij dit
^ogramma tevoorschijn komen. Misschien kan dit een artefact zijn van het feit dat een
omme van de derde - en niet hogere - graad wordt gezocht. Mogelijk kunnen bij de
^Umpties van het binomiale model ook niet alle denkbare en bij dit onderzoek bedachte
Oreverdelingen optreden. Absurde resultaten bij empirische verdelingen kunnen het
^O'g zijn van steekproeffluctuaties, dus van een te kleine steekproef, öf van schendingen
de modelassumpties.
Ve H de lokcJe betrouwbaarheid een maximum te vertonen bij het midden van de
gg|. maar een minimum bleek ook wel voor te komen. Van twee verdelingen met
'J^e gemiddelden, standaardafwijkingen en KR-21 bleek de platycurtische variant bij
et midden een maximum-betrouwbaarheid te vertonen, en de leptocurtische variant juist
rninimum. Voor meerdere details moge verwezen worden naar het memo D131.
^ar aanleiding van deze bevindingen werd een tweede versie van het programma
eonstrueerd, waarbij van de gegeven frekwentieverdeling eerst het bestpassende vierde-
^ ^adspolynomium wordt gevonden, waarna wordt verder gewerkt met het gedeelte
met positieve en aan de lage zijde toenemende frekwenties (de methode van Lord
namelijk niet te werken bij een tweetoppige verdeling). Ook werd de derdegraadsbe-
ering van de geschatte-ware-score-curve vervangen door een met een vierdegraadspoly-
waarvan uiteraard verwacht kan worden dat deze de werkelijke curve beter
■kadert. Het programma wordt beschreven in memo D138.
^ Operationalisatie mede met behulp van het normaalogiefmodel
'J de vorige aanpak ziet men hoe de lokale betrouwbaarheid berekend wordt uit de
j^°reverdeling; nu zullen we deze trachten te bepalen uitgaande van de itemindices.
^rbij zullen we gedeeltelijk gebruik maken van het normaalogiefmodel, of wat bijna op
etzelfdg neerkomt, van het logistische model (Lord en Novick, ch., 16 en 17). Bij het
ormaalogiefmodel wordt aangenomen, dat de onder de items veronderstelde continue
^ "^abelen multivariaat normaal verdeeld zijn; dat deze slechts één factor gemeen hebben,
® trek 0; en dat de kans pj (0) het item i goed te beantwoorden een normaalogieffunctie
116 Lokale Betrouwbaarheid
is van 6, met als parameters de itemdiscriminatie-index a;, de itemmoeilijkheidsindex bi
en de kans om het item goed te beantwoorden bij oneindig lage trekwaarde c (of Ci als
deze waarden bij de items verschillen):
(5a) Pi(Ö) = c + (l-c)
«f ai (Ö - bi)
(normaalogiefmodel)
(5b) Pi(0) = c +-.p^. (logistisch model)
1 + e ' '
Hierin is <i> de normaalogieffunctie (de integraal van de standaardnormale verdehng) en D
een constante, die bij Lord en Novick de waarde 1,7 krijgt, om de logistische curve
volgens bepaalde criteria zo goed mogelijk te laten overeenstemmen met de normaalogiei»
c kan men misschien het beste bij tweekeuzetoetsen 0,5 kiezen, algemeen: bij k-keuze-
toetsen 1/k.
Het programma berekent nu eerst van alle items ai en bi uit de gegevens: c, p-waarde en
itemtestcorrelatie, en wel met behulp van door Urry (1974) gepubliceerde formules. Lord
en Novick hebben formules afgeleid, waarmee ai en bi berekend kunnen worden uit
item-p-waarden en de rbis-correlatie tussen item en trek 06.9.3, 16.9.4 en 16.10.7).
kan deze laatste alleen (met onbekende fout) geschat worden uit de correlatie tussen itei"
en test (of rest). Zij geven daarom blijkbaar de voorkeur aan een andere berekening'
waarbij echter helaas tetrachorische correlaties tussen de items in de noemer voorkom^"
en zeggen niets over wat er dan gedaan moet worden bij toch zeker ook voorkomende
bijna-nul-correlaties, die de schattingen onbetrouwbaar maken. Wij veronderstellen, m^t
Urry, dat de biseriële correlaties tussen items en trek niet merkbaar verschillen van de
biseriële correlaties tussen items en ware score. Dit betekent natuurlijk dat de methode
des te beter toepasbaar is naarmate de testkarakteristieke curve rechter is, dus bijvoof-
beeld minder bij extreem hoge correlaties tussen items van gelijke moeilijkheid. Urry
heeft formules afgeleid die een schatting geven van deze correlaties in verband met radeH
(dus met de waarde van c), met behulp van het model van weten of blind raden. Het
computerprogramma brengt eerst de gebruikelijke gecombineerde correctie op valsheid e"
attenuatie aan op de puntbiseriële r, past dan de formules van Urry toe, en ten slotte di®
van Lord en Novick voor de berekening van de ai en bi.
Voor een goed begrip van het volgende moet men zich de bivariate verdeling tussen treK
en geobserveerde score voorstellen, dus een puntenwolk om de (ogiefachtige) resrkarakte*
ristieke kromme, die de ware score voorstelt als functie van de trek. Van elke gedachte
kolom in de figuur is de ware score het zwaartepunt.
Nadat de itemindices gevonden zijn berekent het programma achtereenvolgens voor elke
score apart, de verwachting van de trekwaarde, en wel door eerst voor een voldoende
groot aantal discrete trekwaarden (in casu de 67 standaardscores -3.3, -3.2,..., +3.3) d®
dichtheid te berekenen van de score-trek-verdeling als product .van de dichtheid van de
normale verdeling van de trek en de binomiale verdeling van de score gegeven de trek'
Eigenlijk is in het normaalogiefmodel de laatste een samengesteld-binomiale verdeling a'^
de items nie{ parallel zijn, maar we hebben deze vereenvoudigd tot een binomiaj®
verdeling met als kans de gemiddelde kans-op-goed gegeven de trekwaarde, dus die
berekend worde met (5):
117
g de door het programma terugberekende scoreverdeling voldoet deze benadering
In f ^^ onderzochte gevallen.
ormulevorm is de verwachte trekwaarde gegeven de score x:
. Xe-^^'p-d-pf-edó
) e^ ---
daarin p de in (6) gegeven functie van 9 is. De constanten (") en (2n) ' van teller en
"oemer zijn uiteraard tegen elkaar weggevallen. De noemer, maar dan wel vermenigvul-
'8d niet beide constanten levert de terugberekende frekwentieverdeling, die er moet
2'en als een gladgestreken oorspronkelijke, empirische scoreverdeling, en dus gebruikt
1 Worden als controle. Gemiddelde en standaardafwijking van beide verdelingen - ook
j^^everd door het programma - moeten natuurlijk precies overeenstemmen,
j^e laatste stap bij het vinden van de verwachte ware score gegeven de score is de
^ rekening van de bij de verwachte trekwaarde behorende ware score. Maar deze is
nvoudig de som van de n door (5a) of (5b) gegeven waarden, waarbij in de formule 6
^J^angen is door 0x. die bepaald werd met (7).
O/^s'^tte wordt de lokale betrouwbaarheid van de punten midden tussen twee opeenvol-
gnde scores berekend met (1 b).
oor de vereenvoudigende assumptie (6) zijn we terugbeland in het binomiale model. Een
. ernatieve berekeningswijze zou zijn: eerst uit de normale verdeling van 9 en de uit de
^^Ti-indices gevonden testkarakteristieke curve de verdeling van de ware score bepalen en
met het binomiale model de regressie van ware score op score. Maar de boven
De methode kost vermoedelijk minder computertijd.
schijnbare omweg via de trek hebben we nodig gehad om de ware scores via r-bis te
"nen berekenen uit de p-waarden en item-test-correlaties.
6 El»
vergelijking van de uitkomsten bij de twee methoden
hesluiten deze introductie van het begrip lokale betrouwbaarheid met een vergelijking
h ?,°"trôle. We nemen het geval van parallelitems omdat daarbij de 'overall-betrouwbaar-
jj.'d gemakkelijk met de klassieke testleer kan worden berekend. Bovendien is het
'nomiale model waarschijnlijk het best bruikbaar bij testitems, die weinig of niet
•■Schillen in discriminatievermogen en moeilijkheid,
j ^teld wordt dat de test bestaat uit 20 parallelitems met p-waarden van 0,5 en
^^^intercorrelaties ry van 0,1. Bekende formules uit de klassieke testleer:
(8) r,J(nzl)lü±l1-^ en
-ocr page 122-118 Lokale Betrouwbaarheid
geven dat dc itemtestcorrelaties tit (nog ongecorrigeerd voor valsheid en attenuatie) alle
0,380789.. zijn en de testvariantie precies 14,5 is. De gemiddelde score is uiteraard lO-
Met de Spearman-Brown-fonnule vindt men een toetsbetrouwbaarheid van 0,6897. De 20
gelijke rjj's zijn ingevoerd bij het programma van par. 5, eerst met c = O, later nogmaals
met c = 0,25 (vierkeuzetoetsen). Het geval met c = O levert symmetrische verdehngen en
een rechte regressiekromme, maar verschilt overigens weinig van het interessanter geval
van c = 0,25, waartoe we ons kortheidshalve zullen beperken.
De berekeningen zijn voor het vergelijkend onderzoek twee maal uitgevoerd: eerst met
logistische itemkarakteristieken (5b) en r-puntbis-r-bis-omzettingen, later met aan Abra-
mowitz en Stegun (1968) ontleende benaderingen van de normaalogieffunctie. De eerste
methode betekent een korter programma en minder computertijd maar de laatste metho-
de moet in dit geval wel beter zijn omdat r-bis een tweedimensionaal-normale verdeling
vereist; de logistische verdeling kan hiervan hoogstens als een ruwe benadering beschouwd
worden. En inderdaad geeft de normaalogiefmethode een iets betere overeenstemming
Sv = ns?
(9)
[l+(n-l)rij]
Tabel: Geschatte trek, ware score en lokale betrouwbaarheid. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
^^"l^aerssen 119
de resultaten van het programma dat op de methode van Lord gebaseerd is. We
mielden daarom alleen de resultaten van het gewijzigde programma, dat in memo D140
JOfdt beschreven.
't de frekwentieverdeling berekende het programma een exact gemiddelde van 10,000
" een iets te grote variantie (14,9) en KR-20 (0,70).
verwachte trekwaarde, overeenkomstige ware score, lokale betrouwbaarheid en
coreverdeUng (maal 100) vormen de eerste vijf kolommen van de tabel.
I^e door het programma berekende scoreverdeling werd toen ingevoerd bij het (eerste)
^'"omiale programma (dus zonder gladstrijken van de scoreverdeling). Dit leverde de
^ are-score-schatting, de verschilscore (= lokale betrouwbaarheid), de derdegraadspoly-
j °/"'"mbenadering van de ware-score-schatting en de daaruit als afgeleide berekende
ale betrouwbaarheid. Deze grootheden staan in de laatste vier kolommen van de tabel,
kolommen 3, 6 en 8 moeten overeenstemmen, evenals de kolommen 4, 7 en 9. De
° ommen 4 en 7 moet men zich daarbij een halve regel hoger denken. Men ziet dat de
L ^^^êfaadspolynomiumschatting aan de lage zijde tot absurde negatieve betrouwbaar-
'dscoëfficiënten komt; bij benaderingen en bij gladstrijken van gebroken lijnen moet
en bedacht zijn op dergelijke mogelijkheden.
aar overigens is de overeenstemming tussen de resultaten van beide modellen o.i. groot
^"oeg om het onderzoek met deze programma's voort te zetten.
betreft de fictieve toets: het gaat om een 'peaked test' (d.w.z. dat er geen spreiding is
jjgj^^ninioeilijkheid), die vooral goed discrimineert boven de 60ste percentiel (hoge lokale
g "^^Uwhaarheid), maar die niet geschikt blijkt voor het uitselecteren van personen met
reem lage score (lokale betrouwbaarheid van het 10de percentiel ongeveer 0,30).
hteratuur
M. en I.A. Stegun. Handbook of Mathematical functions. Nat. Bur. of Standards, U.S.A.
Berk^ York, 1968.
H. van. Berekening van de geschatte ware score voor een aantal verdelingen van de geobserveer-
Bruv Methodenleer, Univ. v. Amsterdam, 1976.
Ho Id ^-C-D. de Blokken in het onderwijs. Krips Repro, Meppel, 1976.
Hof t Introduction to mathematical statistics. 4th. ed.. New York: John WUey, 1971.
W.K.B. De betrouwbaarheid van slaag-zak beslissingen. Nederlands Tijdschrift voor de
Liyj ^ofo^e, 19 7 O, 25, 3 80-3 83.
"Sston, S.A. Criterion-referenced applications of classical test theory. Journal of Educational
Lord
Lord' c'^' theory of test scores. Psychometric Monographs, no. 7, 1952.
Lord p ■ ^^ approach to mental test theory. Psychometrika, 1959,24, 283-302.
Lord ^°vick. Statistical theories of mental testscores. Addison-Wesley, 1968.
P.M. and M.L. Stocking. An interval estimate for making statistical inferences about true scores.
^^^^ychometrika, 1976, 41, 79-87.
rssen, R.p. van. Het schalen van testscores. Nederlands Tijdschrift voor de Psychologie, 1972,27,
Nae
^^sen, R.F. van. Lokale betrouwbaarheid - begrip en operationalisatie. Memo Dl38. Lokale
etrouwbaarheid en utiliteit van de selectie, Memo D140. Vakgr. Methodenleer, Univ. v. Amster-
n' ^-W., Approximations to item parameters of mental test models. Educational and
'^^ychologicalMeasurement, 1974,34, 253-269.
^"y^'^ript ontvangen 13-9-76
J'mtieve versie ontvangen 27-11-76
120 Tijdschrift voor Onderwijsresearch 2 (1977), nr. 3-
Het Schatten van Intellectuele Reserves
R.A. Roe
Subfaculteit Psychologie, Universiteit van Amsterdann^
In this article an attempt is made to clarify the concept of 'reserve of talent' and a general
method is described for estimating, locating and exploiting given reserves. This method shouW
be helpful to overcome shortcomings of previous research on reserves of talent in th®
Netherlands, including a recent study by Van Meerem en Van Peet (1976) which is criticized i"
some detail.
Onlangs is door Van Meerem en Van Peet (1976) in dit tijdschrift het onderwerp
intellectuele reserve aan de orde gesteld. Zij bespreken de uitkomsten van vroegef
onderzoek en presenteren de resultaten van een door hen zelf verrichte replikatie-studie-
Uit het artikel blijkt dat de kennis omtrent de intellectuele reserves in Nederland er in de
laatste 25 jaar slechts weinig op vooruit is gegaan. Intellectuele reserve is nog steeds een
slecht gedefinieerd begrip en de methoden voor het schatten van intellectuele reserves
laten nog steeds te wensen over. De vraag naar de omvang van de intellectuele reserve in
Nederland kan dan ook - zo wordt uit het artikel duidelijk - niet eenduidig beantwoord
worden.
Deze konstatering geeft mij aanleiding in de onderhavige verhandeling naar mogelijkheden
te zoeken om intellectuele reserve strikter te definiëren en te bepalen. Ik zal allereerst d®
betekenis van het begrip intellectuele reserve aan een nadere beschouwing onderwerpen-
Dit niet slechts omdat het plezierig is een duidelijke voorstelling te hebben van datgene
waarover men spreekt, maar mede en vooral omdat dit kan helpen voorkomen, dat men
naderhand in problemen van konceptuele oorsprong verstrikt raakt. Vervolgens zal ik een
methode aangeven voor het schatten van intellectuele reserves welke berust op een mijn®
inziens voor de hand liggende generalisatie van de traditionele schattingsmethoden. A^
de vrijbhjvendheid die reserve-schattingen tot dusverre kenmerkte kan door het gebruf'
van deze methode een einde worden gemaakt. Speciale aandacht zal worden geschonken
aan de storende invloed welke bij het schatten van intellectuele reserves van milieu-fakto'
ren kan uitgaan en aan de wijze waarop men gevonden reserves kan 'aanboren'. Voorts zaj
kritiek worden geleverd op enkele mij onhoudbaar toeschijnende, uitspraken in het artikel
van Van Meerem en Van Peet, met name omtrent de rol die prediktoren spelen bij het
bepalen van intellectuele reserves.
1 Ik vond gelegenheid tot het schrijven van dit artikel tijdens mijn verblijf aan het NIAS te Wassenaar
in de periode 1976-77.
121
oor een verheldering van het begrip intellectuele reserve is het dienstig na te gaan wat in
, algemeen onder reserve wordt verstaan. In de meest ruime zin opgevat is reserve een
oeveelheid van enig goed welke beschikbaar is voor gebruik.^ Deze betekenis is in het
geding Wanneer men spreekt van een reserve aan water, goud of manschappen. Intellec-
e'e reserve kan - zo blijkt al direkt - niet als een reserve in deze zin worden opgevat,
angezien dat zou veronderstellen dat intellect een stoffelijk object is. Volgens heersende
Pvattingen is intellect (of intelligentie) echter een attribuut en te spreken van een reserve
^" een attribuut is zinledig. Wat dit betreft is 'reserve aan intellect' een even inhoudsloze
j' ^'^kking als 'reserve aan lengte'. Dit wijst erop dat men intellectuele reserve niet
terlijk^ maar overdrachtelijk moet verstaan, nl. als een reserve aan mensen met intellect,
g ^"gezien intellect een universeel attribuut is, d.w.z. bij alle mensen aanwezig, moet men
enter nog een stap verder gaan en dient men intellectuele reserve op te vatten als een
inM?'^ aan mensen met een bepaalde graad van intellect. Men kan aldus zeggen dat
ellectuele reserve verwijst naar een klasse van personen, welke gekenmerkt worden
°or een nader omschreven graad van intellect, bijv. een IQ < 80 of IQ > 120.^ Reserves
'e hinnen op deze wijze onderscheiden klassen van personen bestaan kunnen niet zonder
eer worden opgeteld. Men moet in principe evenveel reserves onderscheiden als men
assen van intellect onderscheidt.
Wanneer intellectuele reserve op de zojuist aangegeven wijze wordt opgevat, is nog
n sprake van een reserve in de oorspronkelijke zin. Om hiervan te kunnen spreken
^ Oet de stof in kwestie voor gebruik beschikbaar zijn. Dit heeft twee aspekten. In de
te plaats is geïmpliceerd dat de stof op het moment in kwestie niet gebruikt wordt en
en t^ ^^eede plaats moet hij wel gebruikt kunnen worden. De stof moet dus ongebruikt
Wo bruikbaar zijn. Opvallend is dat de bruikbaarheid als een alles-of-niets kenmerk
t opgevat. Wanneer men van reserve spreekt, wordt de stof geacht bruikbaar te zijn.
g van het gebruik doet niet terzake, evenmin het rendement dat ermee gepaard
Wo H voorbeeld: een reserve aan water kan voor verschillende doelen gebruikt
''den, nl. om te koelen, op te lossen, of te drinken. Welk doel men op het oog heeft en
jj f J^eel water men nodig heeft is voor de reserve als zodanig niet van belang. Reserves
en hierdoor een belangrijke eigenschap, nl. konstantie.
en aanzien van intellectuele reserves geldt het voorgaande niet. Om te beginnen wordt de
van absolute bruikbaarheid niet gemaakt.Integendeel, er wordt vanuit gegaan dat
bruikbaarheid binnen éénzelfde klasse van personen kan verschillen al naar gelang het
he^jt begrip 'reserve' heeft verscheidene uiteenlopende betekenissen. De hier gegeven omschrijving
^Voq ''^trekking op die betekenissen welke het meest toepasselijk zijn onder 6, 7 en 8 in het
Niit,!„"t'°®k der Nederlandsche Taal, Deel 12, 4e stuk, le afl.; pag. 46-52. Den Haag en Leiden:
J"<>ff-Sijthoff, 1972.
3 {j
"»im men deze klassen definieert doet hier in beginsel niet terzake. Een praktische regel
etbi^ ^^ ^^ volgende beschouwing wordt ontleend is de klassen zo te kiezen dat zich
geen verschillen in sukseskansen voordoen.
-ocr page 126-122 Intellektuele Reserves
beoogde doel - scholing - varieert (zie Van Meerem en Van Peet). Bovendien wordt ef
vanuit gegaan dat de bruikbaarheid in verschillende klassen van personen uiteen kan
lopen, in die zin dat in hogere intelligentie-klassen meer personen bruikbaar kunnen zijn
dan in lagere (bijv. Van Weeren, 1968). Reserve wordt als het ware gedefinieerd in termen
van rendement: naarmate van een bepaalde gebruikswijze het rendement hoger is, wordt
de reserve geacht roter te zijn (en omgekeerd). Het kenmerk van de konstantie ontbreekt
hierdoor.
Voorts is bij 'intellectuele reserves' geen sprake van 'ongebruikt zijn' van de stof. Welk®
klasse van intellekt men ook bekijkt, altijd hebben de betreffende personen wel een oi
andere opleiding gevolgd - de hoogst haalbare, dan wel een lagere. Met reserve heeft men
dan ook niet zozeer het aantal mensen op het oog dat ongebruikt is en gebruikt zo^
kunnen worden als wel het aantal dat anders, d.w.z. beter gebruikt zou kunnen worden "
de hoeveelheid die zich leent voor recycUng. Hierdoor wordt het aantal ongebruikten
variabel; het wordt immers afhankelijk van het aantal personen dat reeds op de betref-
fende wijze gebruikt wordt en dit kan per opleidingstype verschillen. Men kan zien
afvragen of behalve degenen die de beoogde opleiding al volgen ook niet diegenen di®
deze opleiding niet meer kunnen volgen omdat een vroegere c.q. andere opleiding hen dit
verhindert, op de groep beschikbaren in mindering zouden moeten worden gebracht. P®
Wolff (1963) heeft op dit aspekt gewezen. Hij maakt onderscheid tussen aktuele reserv®
en potentiële reserve, waarbij de eerste het aantal personen aangeeft dat feitelijk nog
beschikbaar is en de laatste het aantal dat theoretisch beschikbaar is wanneer men bijtijd^
in de scholing zou kunnen ingrijpen. Ik zal mij in het verdere betoog tot deze potentiél®
reserves beperken.
Uit het voorgaande is wel duidelijk geworden dat intellectuele reserves geen reserves in d®
gebruikelijke zin zijn. Het gaat om aantallen personen binnen gegeven inteUigentieklassen
die in staat zijn een specifieke opleiding te volgen, maar dit niet doen. Dit betekent dat
een groot aantal reserves te onderscheiden is, een aantal dat gelijk is aan het produkt van
het aantal intelligentieklassen en het aantal scholingsmogelijkheden dat men wenst t®
onderscheiden. Intellectuele reserve zou een vrijwel niet te hanteren begrip zijn, ware het
niet dat in de variëteit die zich hier voordoet eenheid kan worden gebracht.
Wanneer men aanneemt dat een bepaalde scholingsmogelijkheid in beginsel bereikbaar is
voor personen in meerdere inteUigentieklassen, is het mogelijk de afzonderlijke reserves
binnen deze klassen onder één noemer te brengen. In beginsel kan uit deze reserves-pef'
opleiding vervolgens ook nog een 'grand total' worden afgeleid. Aangezien de reserves
voor diverse opleidingen elkaar overlappen (wie "het hoger onderwijs kan volgen kan ook
het middelbaar onderwijs volgen; van hen die het handelsonderwijs kunnen volgen is een
deel ook geschikt voor het technisch onderwijs), is dit laatste echter aUeen mogeüj''
indien men de één of andere verdeling van personen over opleidingstypen als optima»'
definieert. De hieraan verbonden problemen weerhouden mij ervan op deze wijze van
totaliseren van reserves hier verder in te gaan. Het bepalen van reserves per opleidingstyp®
acht ik wel uitvoerbaar. Tot deze reserves zal ik mij in dit artikel verder beperken. Ondef
intellectuele reserve in verband met bepaalde opleiding zal nu worden verstaan: het totaa*
aantal personen binnen elk der intelUgentieklassen dat in staat is de betreffende opleiding
te voltooien, maar dit niet doet.
^methode
Roe
123
het voorgaande kan worden afgeleid over welke gegevens men moet beschikken om de
lellectuele reserve in een specifiek geval te kunnen bepalen. Men moet weten hoeveel
^fsonen theoretisch gezien in staat zijn de betreffende opleiding te volgen én hoevelen
int nfeitelijk doen. Hiertoe heeft men gegevens nodig omtrent de relatie tussen
®Hect en sukses in de opleiding onder optimale zowel als de feitelijke omstandigheden,
verschil tussen deze is dat zich bij de laatste restrikties kunnen voordoen in de
®e'name aan het onderwijs, bij de eerste echter niet.
^ht de theoretische relatie tussen intelhgentie en schoolsukses betreft, d.w.z. de relatie bij
gehinderde deelname, wordt in de literatuur gewoonlijk met een grensscore gewerkt.
onH ^^^^ personen met een score boven deze grens geschikt zijn voor het
nerwijs, personen met een lagere score echter niet. Empirisch vindt een dergelijke
g ""hine als regel weinig steun. De samenhang tussen sukses en intelligentie vertoont
roer een gradueel dan een abrupt verloop. Dit heeft als konsekwentie dat het bepalen
zé^ grensscore een arbitrair karakter krijgt en voorts dat - tenzij men de grensscore
^ er laag stelt - een deel der geschikten buiten beschouwing blijft. Dit laatste resulteert in
j^Ji onderschatting van de reserves (vgl. Boon van Ostade, 1972). De beide bezwaren
. nnen worden ondervangen door de gehele score-range in aanmerking te nemen, zoals
jj^j^" yan Weeren (1968) heeft gedaan. Men bepaalt dan voor alle klassen die op de
®"igentieschaal te onderscheiden zijn de empirische kans op sukses.''
^ Variabelen die bij het schatten van intellectuele reserve een rol spelen zijn: sukses in de
I^P eiding (s), deelname aan de opleiding (d) en intelligentie (x). Sukses vat ik hier op als
Int van de opleiding binnen de gestelde termijn (incl. die voor herkansing),
gjj ®'"gentie wordt gemakshalve als één variabele opgevat; deze kan echter zonder bezwaar
^ komposiet van een aantal andere variabelen worden beschouwd. Wat onder deelname
ein^- verstaan spreekt voor zichzelf. Gegevens over deze variabelen kunnen door
Uit onderzoek worden verkregen. Zij kunnen worden ontleend aan een steekproef
het ^ Populatie welke aan het desbetreffend onderwijs had kunnen deelnemen en dit op
Bi" moment voltooid had kunnen hebben.
gaa schatten van de reserve voor een bepaalde opleiding dient men als volgt te werk te
. '^lereerst bepale men de theoretische kans op sukses binnen deze klasse bij hen die
het onderwijs deelnemen: P(s |d n Xi).
jj Volgens stelle men vast welke de feitehjke kans op sukses in elke intelhgentieklasse is:
(jg ' ^i)- De grootte van het verschil {P(s | d n x;) - P(s i Xi)}geeft nu de reserve binnen
()j sse Xj aan in relatieve termen. De waarde van dit verschil hangt af van de deelname
Q die klasse: P(d | Xj). Naarmate deze deelname geringer is, is het verschil groteren
^ "®keerd. Uit deze relatieve reserve in klasse x; kan een reserve in aantallen personen
t. ^^^ bepaald door te vermenigvuldigen met de frekwentie voor de betreffende klasse
jj 5® som van deze produkten over alle (m) waarden van i geeft dan de totale reserve
ka^®" beeren verdeelt de range om praktische redenen in quartielen. Hij werkt overigens niet met de
op sukses in het onderwijs maar met de kansen op deelname eraan.
moet wel de veronderstelling worden gemaakt, dat P(s I d n xj) niet met xj varieert.
-ocr page 128-124 Intellektuele Reserves
intellectuele reserve = 2 A. {P(s dPiXj) - P(s xO }
i=l
In de figuren 1 en 2 is een en ander grafisch toegelicht. De eerste figuur geeft voor een
hypothetisch geval de theoretische en de feitelijke kans van slagen aan. Het oppervlak
tussen de beide curves indiceert de reserve in relatieve termen. De absolute reserve wordt
hieruit verkregen door vermenigvuldiging met de frekwentie, welke in figuur 2 wordt
aangegeven.
A.o
De intellectuele reserve kan - zo blijkt hier - gedefinieerd en bepaald worden voor d®
populatie als geheel. Een verwijzing naar specifieke sociale strata, zoals bij de traditionele
methoden gebruikelijk is, is niet nodig, al is het natuurlijk wel mógelijk op overeenkomsti'
ge wijze de reserve binnen zulke kategorieën te bepalen. Dit kan zelfs bij het aanboren van
reserves van groot belang zijn. Op dit onderwerp zal in een latere paragraaf nader worden
ingegaan.
In de literatuur is het gebruikelijk de kans op sukses van een groep personen die tot het
hoogste sociaal-economische milieu behoort als theoretische kans op te vatten. P®
aanname' is dan dat deze groep in de deelname aan het onderwijs minimaal gehindef®
wordt en maximale slaagkansen demonstreert. Aan de juistheid van deze aanname ma^
getwijfeld worden. Lavin (1965; pag. 216-8) bijv. vermeldt dat - in het geval vai'
collegestudenten - juist bij de hoogste sociaal-economische groepen de onderwijspresta'
ties suboptimaal kunnen zijn. Afgezien hiervan valt te betwijfelen of de statistieken di®
ontleend worden aan steekproeven die in sociaal-economisch opzicht zo sterk geselek'
teerd zijn gegeneraliseerd mogen worden naar de populatie als geheel, of naar ande^
specifieke groepen daaruit. Dit punt zal in de volgende paragraaf nader aan de ord
komen.
Het kriterium en de prediktoren
Om de beschreven methode te kunnen toepassen moet men de beschikking hebben ove^
een scholingskriterium en over goede, d.w.z. valide prediktoren. Of een gegeven opleidii'^
6 Het resultaat van de vermenigvuldiging kan desgewenst als afzonderlijke verdeling worden uitgez®''
-ocr page 129-^__________125
Roe
meest wenselijke is en het scholings-kriterium om die reden het juiste, wordt hier in
jg niidden gelaten. Men kan reserves alleen maar bepalen wanneer men van een bestaan-
opleiding en van een daarmee korresponderend sukseskriterium uitgaat. Ligt het
tenum (bijv. sukses in x jaren) vast, dan is het vinden van één of meer prediktoren in
Snsel niet moeilijk. Het is althans een opgave die zich geheel volgens traditionele
"methoden laat oplossen.
"loet zich, gegeven de definitie van intellectuele reserve, echter wel beperken tot
prediktoren.'' Van Meerem en Van Peet doen het voorkomen alsof zich hier
^oplosbare moeilijkheden voordoen.
1 spreken zelfs van een dilemma waarin men voor de keuze staat tussen öf valide maar
leu-gebonden prediktoren öf niet vahde, milieu-onafhankelijke prediktoren. Van een
ko^'k^^ is echter geen sprake: men kan en moet kiezen voor die prediktor of prediktor-
nibinatie die maximale validiteit en minimale milieu-invloed bezit. Validiteit die ont-
bu't aan sterk milieu-gebonden prediktoren is niet relevant en moet eenvoudigweg
"en beschouwing blijven (vgl. Van Kemenade en Kropman, 1972).®
samenhang met milieu-invloeden hier wel een probleem voordoen,
len prediktoren van sociaal-ekonomische aard validiteit bezitten kan dit een indikatie
het kontaminatie van het kriterium. En wanneer deze aanwezig is, d.w.z. wanneer
on . fot een bepaalde sociale groep de kansen op sukses in een opleiding op een
tgenlijke wijze mede bepaalt, zal het gebruiken van dit sukses-kriterium een onge-
tüe?^^^ invloed hebben op de keuze van de prediktoren, ook al laat men alle niet-intellec-
alle ^ buiten beschouwing. De reden hiervoor is dat intelligentietests vrijwel
krit zekere hoogte milieu-gevoelig zijn, zodat een milieu-komponent in het
de vanzelf de selektie van die prediktoren in de hand werkt waarin de desbetreffen-
'"ilieu-aspekten ook vertegenwoordigd zijn.
SüV ^^P™ddel om kriterium-kontaminatie zichtbaar te maken is vergelijking van de
(jg^e^kansen bij deelnemers behorend tot verschillende sociale klassen. Verschillen in
gg ® kansen (Pg j n x) wijzen er op dat de sociale klasse bij het bereiken van de eindstreep
^ rol speelt, die onafhankelijk is van de aanwezige intelligentie. Om vast te stellen welke
e rol is en hoe zij eventueel kan worden bestreden is verder onderzoek nodig,
g , '"^loed van milieu-komponenten in het kriterium op de keuze van prediktoren kan
ter ook zonder dergelijk onderzoek worden bestreden.
dient men dan een statistische weg te bewandelen, nl. die van het uitpartiëren
niilieu-faktoren. Deze aanpak vereist dat men de beschikking heeft over een of andere
7
hier 'l®®'' "len vindt dat ook persoonlijkheidsfaktoren, studiegewoonten e.d. een rol moeten spelen is
in e ^^'^ig tegen. Men moet dan echter wel het begrip 'intellectuele' reserve herzien. Dit verandert dan
i^Un^" van mensen die qua intellect, persoonUjkheid, gewoonten, etc. een bepaalde opleiding
üitj"®" voltooien. De hier beschreven methode blijft echter ook in dat geval bruikbaar. De eis dat men
p,g .^'t^nd intellectuele prediktoren mag gebruiken moet dan worden verruimd tot de eis dat alleen
'«sts i" aanmerking komen die alsdan theoretisch gezien toelaatbaar zijn, dus: intellectuele
■ Persoonlijkheidsmaten, indices van studiegewoonten, etc.
ee^'^'^et uitvoeren van een onderzoek (m.n. een secundaire analyse) kan natuurlijk wel sprake zijn van
«en t P®'kte beslissingsvrijheid van de onderzoeker, zodanig dat hij uit twee onvolmaakte methoden
gevo maken. De konsekwenties hiervan reiken echter niet verder dan de noodzaak de
"den reserves met voorbehoud te interpreteren.
-ocr page 130-126 Intellektuele Reserves
maat voor het sociaal-ekonomisch miheu, z. Met behulp hiervan kunnen de korrelatief
tussen het kriterium y en de prediktor x dan omgezet worden in part-korrelaties tussen ƒ
en x.z of in partiële korrelaties tussen y.z en x.z. In het eerste geval wordt alleen uit o®
prediktor het milieu-effect verwijderd; in het tweede geval zowel uit het kriterium als ui
de prediktor (vgl. McNemar, 1963).
Als regel zal men de slaagkansen in het bestaande onderwijs, d.w.z. bij het bestaand®
sukseskriterium willen bepalen en kan dus met part-korrelaties ry(x.z) worden volstaan-
Wanneer men nu de keuze van de prediktoren baseert op deze van milieu-invloedei"
gezuiverde vaHditeiten ondervangt men eventuele kriterium-kontaminatie. Vanzelfspr®'
kend is van veel belang of de maat z de betreffende milieu-faktoren adekwaat represen-
teert. Naarmate dit mmder het geval is, is de hier voorgestelde korrektie minder effektie'-
In het artikel van Van Meerem en Van Peet wordt gesuggereerd dat de validiteit yan d®
gebruikte prediktor bepalend is voor de omvang van de geschatte reserve en wel in die zi"
dat naarmate de validiteit lager is de geschatte reserve hoger uitvalt. Deze bewering
mijns inziens ongegrond en onjuist. In het artikel wordt een empirische vergelijki"®
gemaakt tussen een reserveschatting op 'smalle basis', waarbij de Raven PM-score a'
prediktor fungeert en een reserveschatting op 'brede basis' waarbij de som van o
genormeerde scores op de Raven PM, een rekentest, een taaltest, een administratie^®
opdrachtentest en een technisch inzichttest de prediktor vormt. Het blijkt weliswaar dä
de reserve geschat volgens de eerste methode groter is dan die welke geschat wor"
volgens de tweede methode, maar dat dit een gevolg is van het verschil in validiteit en ni®
van andere verschillen tussen de prediktoren wordt niet aangetoond.
Dat de validiteit de beweerde invloed niet kan hebben valt duidelijk te maken door na t®
gaan op welke wijze validiteit en reserve kunnen samenhangen wanneer alle overige
faktoren konstant gehouden worden. Laat Xj en Xj prediktorvariabelen zijn en y een
dan niet dichotome) kriteriumvariabele. Neem aan dat de regressie op y van Xi en
bepaald wordt in éénzelfde steekproef A (de afleidmgssteekproef) welke uit dezelfo®
populatie afkomstig is als de steekproef B waarin de regressieformules worden toegepa^
(de toepassingssteekproef).' Neem verder aan dat Xi en X2 alléén verschillen in ^^
validiteit ten opzichte van y, niet in hun marginale verdelingen.
Wanneer de validiteiten r* j y (>0) en rx^y (>0) zijn, zijn de regressieformules te schrijve"
als:
en
Deze standaardformules zijn equivalent aan de ruwe scoreformüles, aangezien de verdeh"
gen van Xi en Xj resp. y in steekproef A gelijk zijn.
9 Dit is een gebruikelijke eis die overigens zeer belangrijk is. Wanneer hieraan niet wordt vold» ^
kunnen systematische voorspellingsfouten optreden, afhankelijk van de vorm van de verdelingen van
en y, welke met de vahditeit kunnen interacteren.
127
«oe
tenio^^®'^® voor een gegeven waarde van x hangt af van de proportie potentieel geschik-
die ki onderwijs, de proportie feitelijk geschikten en het aantal personen binnen
ges u. laatste twee gegevens liggen bij aanname vast; alleen de proportie potentieel
g „'kten varieert. Deze hangt rechtstreeks samen met y' en daardoor met Zy (resp. y"
kan voor 'geschikten' in dit verband zonder bezwaar ook 'deelnemers' lezen.
Aan te
tonen is nu dat wanneer rxiy >rx2y dit leidt tot Zy <Zy. Uit de formules (1) en
) kan afgeleid worden dat het laatste alleen mogelijk is indien
rxiy.Zxj-rxjy .Zx2<0
^^arzxi enzx2 identiek zijn, is deze voorwaarde gelijk te stellen met
(rx,y-rx2y).Zxi<0
daar gegeven is dat (r^^y - rx^y) > O, is (4) equivalent met
Wngevat: de stelling r^.y > r^.y - 4 < ^'y' ^^.nt'de
S^n te maken heeft L^scorekla^'sen die beneden het gemiddelde van x n de
van Van Meerem en Van Peet is dit echter niet het geval De "^^ftode die zij
gebruiken beperkt zich juist tot de hogere scoreklassen. In dit geval is z^j >0 en kan -
ï? blijkt uit het bovenstaande - uitsluitend z'y > z^' zijn.
^t voorgaande is eenvoudig in te zien wanneer men de kansen op sukses uitzet als
""ktie vL XI en x, (zie figuur 3). Bij een vahde prediktor loopt deze kans op van laag
hoog; bij een invalide prediktor is hij konstant. De kansen van mmder begaafden
10
-ocr page 132-128 Intellektuele Reserves
zullen door de invalide prediktor te hoog worden aangeslagen, die van de begaafde"
echter te laag. Wanneer de feitelijke sukses- (of deelname-) cijfers niet veranderen doet
zich in de reserve een soortgelijk effect voor.''
De vraag rijst welke de verklaring kan zijn van de bevinding van Van Meerem en Van Pee'
dat de reserve bij toepassing van de 'brede' methode kleiner is, dan bij gebruik van de
'smalle' methode. Ik vermoed dat de verklaring gezocht moet worden in mogelijke
verschillen tussen de afleidingssteekproef A en de toepassingssteekproeven B in de verde-
hng van X. Daar in beide gevallen de groep uit het hoogste sociaal-ekonomisch milieu de
steekproef A vormt en groepen personen uit lagere milieus de steekproeven B, ligge"
dergelijke verschillen voor de hand: de eerste groep heeft in elk geval hogere scores en
minder spreiding. Wanneer, zoals hier het geval is, niet voldaan is aan de aanname dat
steekproef A en steekproef B uit dezelfde populatie komen, wordt het aantal geschikten
afhankelijk van de aanwezige verschillen in de distributies van x. Naarmate deze geringe'
zijn, d.w.z. de overlap tussen de verdehngen groter is, wordt het geschatte aanta'
geschikten groter en omgekeerd. Doet zich nu tussen twee prediktoren een verschil voof
in de mate van overlap, anders gezegd: differentiëren twee tests in ongelijke mate tussen
de afleidingssteekproef en de toepassingssteekproef, dan mag men een verschil verwachten
in het voorspelde aantal geschikten en als gevolg daarvan - wanneer althans het aanta'
feitelijke geschikten niet verandert - in de gevonden reserve.
ko
30
20
10
i»0
30
20
10
VI
VI
Figuur 4a Skoreverdellngen In steekproeven uit de hoogste beroepsgroep {---) en de totale populatie (-) van de Raven PM-test (in 5^) j naar |
Figuur ^b ■Skoreverdellngen in steekproeven uit de hoogste beroepsgroep (---' en de totale populatie (-) van de Totaalklasse (in •, naar |
Wanneer, zoals in het geval van Van Meerem en Van Peet, de betreffende steekproeven
verschillende sociale klassen getrokken zijn, is zulk een verschil in differentiatie heel goe^
denkbaar. Tests voor welke de differentiatie gering is staan bekend als 'kuituur-vrij'; tests
11 Neemt men zoals in mijn methode de gehele score range in aanmerking dan speelt de vahditeit ''
althans bij het vaststellen van de omvang der totale reserve - geen rol. De validiteit is natuurlijk
van belang bij het bepalen van de (deel)reserve bij een bepaalde waarde van x en bij het aanboren va"
reserves.
foe
129
'''j Welke de differentiatie groot is als 'kuituur-gebonden'. Dat de prediktoren die door de
genoemde auteurs gebruikt zijn nu juist op dit punt verschillen, lijkt mij heel aannemelijk.
® Raven PM is - zoals zij zelf opmerken - relatief kuituur-vrij; van de totaalklasse mag
gezien de samenstelling een sterkere kuituur-gebondenheid worden verwacht. Daar het
"kei mij niet in staat stelt deze veronderstelling te toetsen heb ik haar beproefd op
^■■gelijkbaar legerkeuringsmateriaal uit de studie van Thoenes (1957). Uit de gegevens die
auteur verschaft over de score-distributies van de Raven en de totaalklasse in de
"derscheiden beroepsgroepen kan worden gekonstateerd dat het verwachte verschil zich
"derdaad voordoet. De differentiatie tussen de hoogste groep en de andere groepen is bij
ƒ Raven gemiddeld geringer dan bij de totaalklasse. Figuur 4 geeft dit in gekomprimeer-
® Vorm weer: de scoredistributie van de hoogste beroepsgroep wordt vergeleken met die
^ de totale populatie. Voor specifieke groepen zoals boeren of arbeiders zijn de
'«rschillen groter.
lokaliseren en aanboren van reserves
'kennis van intellectuele reserves heeft alleen zin wanneer het ook mogelijk is deze
®serves 'aan te boren'. Aanboren wil zeggen: het nemen van maatregelen waardoor
'egenen die de betreffende vorm van onderwijs kunnen volgen maar dit normalerwijze
. doen ook werkelijk gaan deelnemen en sukses boeken. Aanboren komt dus neer op
"äar school sturen' van hen die de reserve vormen. Strikt genomen behoeft men om de
^erve voor een bepaalde opleiding te kunnen aanboren niet te weten waar deze reserve
°®'okaliseerd is. Wanneer men de gehele populatie aan de betreffende opleiding laat
elnemen, wordt de reserve tot de laatste man benut. Een prediktor heeft men hierbij
nodig.
oora men bij het aanboren rendements-overwegingen laat meespelen, wordt het nauw-
"■"ig lokaliseren van de reserve wel een belangrijke opgave. Op dit punt is het van
^®2enlijk belang over een valide intelligentietest te beschikken. Hoe hoger de vaUditeit
j " de test des te beter zal men de geschikten kunnen identificeren. Bij een validiteit van
^ men zelfs exakt weten wie wel en niet geschikt zijn en zal het scholen van geschikten
" niaximaal rendement opleveren. Wanneer de vaHditeit onvolmaakt is kan getracht
^rden met behulp van andere variabelen de reserve nauwkeuriger te lokaliseren. Met
^ 'ne kan men hier gebruik maken van variabelen welke een moderator-effekt uitoefenen
de relatie intelligentie-schoolsukses.
ciale klasse is ongetwijfeld een dergelijke variabele, sekse vermoedelijk ook. Door
fategisch gebruik van zulke variabelen kunnen kategorieën van personen worden opge-
^POord waarin een relatief groot deel van de reserve schuil gaat. Door kombinaties van
^ fgelijke moderatoren te onderzoeken kan wellicht nog nauwkeuriger worden bepaald
. zich belangrijke reserves bevinden. Zo zouden bijv. 'RK-meisjes, woonachtig op het
^^ätteland, geboren in grote gezinnen, behorend tot de middle class, met een middelmati-
intelligentie' een bizondere reserve kunnen bevatten. Men zal overigens bij het aanbo-
" niet met deze aanpak kunnen volstaan, doch ook van grensskores gebruik moeten
het ^Pe^en deze bij het bepalen van de reserves geen rol, bij het aanboren is dat wel
geval. Hoe hoog men de grensskores plaatst hangt daarbij af van het getaxeerde
jJ"dement.
is goed erop te wijzen dat de moderator-benadering alleen profijtelijk is voorzover er
Peeifieke groepen in de samenleving zijn die in hun deelname aan het onderwijs meer dan
130 Intellektuele Reserves
andere gehinderd worden. Is dit niet het geval dan laten reserves zich niet beter lokali-
seren dan met de intelligentietest(s) het geval is. Hier blijkt dat het bestaan van reserven
niet per sé op ongelijke kansen behoeft te wijzen, zoals Van Meerem en Van Peet in hun
slotwoord stellen. Binnen verschillende sociale groepen kan in principe een even grote
reserve aanwezig zijn.
Het is interessant dat de methoden voor het schatten van intellectuele reserve die door
Van Meerem en Van Peet opnieuw in de aandacht zijn gebracht omdat zij een rol kunnen
spelen bij het zichtbaar maken en bestrijden van sociale diskriminatie'^ , de aanwezigheid
van moderator-effekten vooronderstellen. Er is hierdoor een belangrijk punt van verwant-
schap met methoden voor het onderzoek van diskriminatie die meer direkt van het
moderatormodel uitgaan (bijv. Cleary, 1968; Wright & Bean, 1974).
Tot besluit
De werkwijze die hierboven is voorgesteld verschilt in een aantal opzichten van de
gangbare methoden voor het bepalen van intellectuele reserves. De belangrijkste hiervan
zijn de volgende: (1) bij het bepalen van de reserve wordt de gehele score-range in
aanmerking genomen; (2) als kriterium wordt sukses in de opleiding gebruikt, niet
deelname; (3) de reserve wordt bepaald voor de populatie als geheel, maar kan op
overeenkomstige wijze bepaald worden voor elke subgroep daaruit; (4) de reserve wordt
uitgedrukt in aantallen personen, niet in moeilijk te interpreteren percentages van een
variabel aantal deelnemers aan een gegeven onderwijsvorm binnen een eveneens variabele
subgroep uit de bevolking; (5) alleen intellectuele prediktoren met een maximale vaUditeit
worden toegestaan.
Enkele van deze punten kan men, zoals eerder werd opgemerkt ook in andere publikaties
aantreffen. Dit leidt tot een grote mate van verwantschap tussen de hier beschreven
methode en de gangbare methoden voor het schatten van intellectuele reserves. Tegelijker-
tijd is er echter een belangrijk verschil en dat is dat deze methode algemener is: de 'smalle
basis' methode en de 'brede basis' methode kunnen als specifieke varianten ervan worden
opgevat; de ermee bepaalde reserves als deelreserves. Naar mij toeschijnt kan als gevolg
hiervan met deze methode de reserve voor een bepaald opleidingstype eenduidigef
bepaald worden dan tot dusver mogelijk was.
Literatuur
Boon van Ostade, A.H., Het milieu en de overgang van het basis- naar het voortgezet onderwijs
Nederland. Sociologische Gids, 1972,19, 211-218. ;
Qeary, T.A., Test Bias: prediction of grades of negro and white students in integrated colleges. Journ"
of Educational Measurement, X'iei, 5, l\5-\2A. , ^
Kemenade, J.A. van en J.A. Kropman, Verborgen Talenten? Kritische kanttekeningen bij een onjuis
interpretatie. Sociologische Gids, 1972,19, 219-228.
12 Na voltooiing van het manuscript kreeg ik een interessante studie in handen waarin intellectuele
reserve eveneens vanuit dit gezichtspunt benaderd werd: B. Milligan. Reserves of ability in Austrat
male youth. Canberra, 1973.
____131
Mv'n, D.E., The prediction of academic success. New York: Rüssel Sage Foundation, 1965.
jJ<=Nemar, Q., Psychological statistics. New York: Wiley, 1963 (3rd ed.).
L.M. van en A.A.J. van Peet, Intellectuele reserve als indicatie voor gelijkheid van kansen,
.j.^ ^'idschrift voor Onderwijsresearch, 1976,1, 241-265.
noenes, P., Begaafdheidsonderzoek en intelligentiespreiding. Deel II. Den Haag: Demologisch Insti-
^ tuut, 1957.
eeren, p. van, De uitkomsten van het psychologisch onderzoek omtrent milieu, schoolkeuze en
schoolgeschiktheid in Amsterdam, Twente, Friesland en Noord-Brabant. In: F. van Heek, e.a.. Het
^ herborgen talent. Meppel: Boom, 1968, p. 126-151.
R.j. en A.G. Bean, The influence of socio-economic status on the predictability of college
Journal of Educational Measurement, 1974,11, 277-283.
P. de. Mogelijkheden tot vaststelling van begaafdheidsreserves. CPB-overdrukken, nr. 87. Den
ttaag: Centraal Planbureau, 1963.
'^^""script ontvangen 7-2-'77
J'nitieve versie ontvangen 4-4-'77
132 Tijdschrift voor Onderwijsresearch 2 (1977), nr. 3.
NOPENS DE ONTWIKKELING VAN EEN RESEARCHBELEID
Egbert Warries
Vakgroep Onderwijskunde, T.H. Twente
1 Wetenschap bedrijven of het onderwijs helpen
Bij de Staatsuitgeverij is vorig jaar verschenen de nota 'Programmering van onderwijsoU'
derzoek' van de Stichting voor Onderzoek van het Onderwijs (SVO).
Het is bekend dat in de diskussie, die vooraf ging aan deze nota, er nog al eens eeP
tegenstelling is gekreëerd tussen ' goed onderzoek' en 'beleidsondersteunend onderzoek ■
Het staat niet letterlijk zo in de nota, maar de suggestie wordt gewekt dat er zo ij
tegenstelling zou bestaan, dat SVO dit onderkent en dat men de lezer op dit onderschei
attent wilt maken. Mijn eerste kritische opmerking is: SVO beklemtoont ten onrecW®
zo'n onderscheid en Idest zelf niet voor één van beiden. Toch zou zo'n keuze mogehj
zijn door het keuzeprobleem te definiëren als het kiezen voor hetzij nadruk op he
bedrijven van (onderwijskundige) wetenschap of het verlenen van (onderwijskundig^
diensten aan het onderwijs. De vraag daarbij is: wat is de funktie van het door SV
betaalde onderzoek en wie praat er mee over de programmering van dat onderzoek? In °
loop van de tijden heb ik mijzelf en anderen dikwijls die vraag gesteld en ik heb er tot
toe nog geen behoorlijk antwoord op kunnen krijgen. In de beginjaren van SVO heb ü''
met anderen, mij wel gerealiseerd dat de keuze tussen die twee hoofdaksenten niet sn®
gemaakt kon worden en dat in eerste instantie een organisatorische struktuur en een begi
van onderzoekstechnische deskundigheid moest ontstaan. Maar nu langzamerhand ve
onderzoekers zijn opgeleid, nu moet de vraag wel eens beantwoord worden.
Levert SVO vooral een bijdrage aan de ontwikkeling van de onderwijskunde als wete"
schappeUjke discipline (eventueel aan de andere wetenschappen die zich met onderwijs;
problemen bezighouden)? Als dat zo zou zijn, dan zouden de onderzoekprojecten dicht®
bij de universiteiten moeten zitten en dan zou het bestuur van SVO misschien alleen
zeergeleerde universitaire onderwijskundigen irioeten zijn samengesteld. Dan zou SV j
net zo professioneel als Z.W.0. dit doet, van elke aanvraag de potentiële bijdrage aan h®
wetenschapsgebied moeten schatten. Dan zou de meest gewenste richting van het
subsidiëren onderzoek door de wetenschappers bepaald moeten worden en niet do"
representanten van verschillende instituties.
Als SVO echter niet in de eerste plaats zulk zuiver wetenschappelijk onderzoek nastreet'
wat is dan de voornaamste functie? Als de nadruk inderdaad -zou hggen op de bijdrag
aan het oplossen van onderwijsproblemen, dan klopt het beeld evenmin als bij het eers
alternatief. Immers, nergens blijkt dat SVO er reeds in geslaagd zou zijn een uitvoerb^
onderzoekprogrammering te ontwerpen, die gericht is op het oplossen van hoofdproh'
men van het huidige of het toekomstige onderwijs.
2 beleidsondersteunend onderzoek vermeden
^ reeds opgeworpen vraag wie er nu eigenlijk meepraat over programmering, dringt zich
^et name op waar het gaat om de onderzoekondersteuning van de grote vernieuwingen in
het nederlandse onderwijs. Hoewel SVO gesticht is als een instrument, lijkt het wel alsof
d't instrument een eigen leven is gaan leiden en het tot één van zijn belangrijkste taken is
gäan rekenen op eigen initiatief een eigen onderzoekbeleid, vooral ten aanzien van de
praktijkgerichte projekten te bepalen. Daarbij is opvallend dat men, niettegenstaande de
^ele programmeringspogingen, niet heeft willen komen tot het opzetten van of het kiezen
^oor programma's, die pasten bij de onderwijsvernieuwingen, die reeds bij vorige regerin-
gen waren begonnen. Men is vanuit SVO niet toegekomen aan een gericht beleid van
^"bsidieverleningen voor de hoofdproblemen van het zich vernieuwende onderwijs.
^ Afbreken van onderzoekspotentieel
^ snelheid waarmee SVO in de laatste maanden van het vorig jaar enkele, kennelijk door
"iemand te bekrachtigen, beleidsmaatregelen doorvoert, is verbazingwekkend. Het lijkt
^^of men door het omzetten van een schakelaar in twee vergaderingen heeft willen
®rugdraaien hetgeen in de voorgaande tien jaren zo gegroeid is.
et SVO-buro heeft in het verleden, daarin niet weersproken door het bestuur, bij
°ortduring en bij herhaling aan de instituten verteld dat SVO streefde naar kontinuïteit.
ontinuïteit van thematiek èn van bemanning. Thans wordt door hetzelfde bestuur en
etzelfde buro een sloop-aktie ingezet, waarbij onderzoekers, ook als ze drie tot elf jaar in
'enst van SVO zijn geweest in opeenvolgende projecten, op staande voet worden
^"tslagen. Dat betekent, als ik zo hier en daar mijn oor te luisteren leg, dat tussen de 10
25 onderzoekers in 1977 het onderzoekveld gaan verlaten. In het kader van een zich
"twikkelend onderzoekspotentiëel géén aantrekkelijke gedachte. Eén van de bevindingen
■•n de Verkenningskommissie Onderwijsresearch
was, dat er zo'n groot verloop onder
"erwijsresearchers was, waardoor geen kumulatie van ervaring en deskundigheid kon
°"tstaan.
Het financiële
argument
^"derzoekers behoren met de grootst mogelijke argwaan te kijken naar de passage over de
"anciële ontwikkeling in het SVO-rondschrijven dd 30-12-76 betreffende het beleid van
ectieve ontwikkeling. Waarom wordt hier gesuggereerd, hetgeen ook uit andere uitla-
gen van SVO-bestuursleden en buro-ambtenaren lijkt te moeten worden opgemaakt,
, het allemaal de schuld van het ministerie is? Wij schijnen nu te moeten geloven dat
g t stopzetten van projecten, waarvan de verlenging tot voor kort voor de onderzoekers
het buro vanzelfsprekend was, uitsluitend te wijten is aan die boze minister, die minder
p ®rt dan SVO (meer) vraagt. Het is toch het bestuur van SVO geweest dat in 1976 de
°riteiten heeft bepaald? Waarom worden er dan in december, tegelijk met de ontslag-
dedeling aan ervaren onderzoekers, brieven aan de minister gezonden, waarin met
haH^f' Woorden staat: 'Zie je nou wel, minister, hoeveel mensen we moeten ontslaan; dan
^^ je ons twee jaar geleden maar meer geld moeten geven'? Waarom heeft SVO datgene
, t liep niet kunnen voortzetten? Het antwoord moet luiden: Omdat het bestuur zèlf
"nelijk iets anders wilde, en wel snel. Waarom dat zo snel moest, kunnen we alleen
^är raden.
134 No tities en Commentaren
5 Selektiemaatstaven
Een vijfde opmerking slaat op de selektiemaatstaven, die SVO volgens deze program^®'
ringsnota wenst te gaan hanteren bij het financieren van onderzoek. Er is een treffend®
gelijkenis met de selektie van studenten bij toelating tot de universitaire studierichting®!'-
De kapaciteitsproblemen (= geldproblemen) van de medische faculteit moeten volgen^
sommigen worden opgelost door betere selektiemethoden toe te passen. Op dezelfd®
wijze lost SVO het, door eigen vroegere programmering en door eigen prioriteitenst®'
ling in het leven geroepen, kapaciteitsprobleem op door oude maatstaven, die allai'S
werden aangelegd, nog eens aan te scherpen en vergelijkenderwijs toe te passen. E®"
aardig voorbeeld van voor-wetenschappelijk onderwijskundig denken. Ik kan er geen betf
woord voor vinden.
De kriteria, die men noemt in de rondschrijfbrief van 30 december, zijn voor het grootst
deel triviaal: de gewone randvoorwaarden voor het welslagen van elk project. Ze zullen^
elk geval het probleem van de programmering niet oplossen. Bovendien moet men zie
afvragen of de samenstelling van het SVO-bestuur wel met het oog op deze onderzoe"'
technische beoordelingen tot stand is gebracht.
6 Planning en Programmering
Hoewel geen enkele instelling zonder een toekomstvisie kan functioneren, moet ni®"
vraagtekens zetten bij de vele advertenties, die SVO heeft geplaatst om tot een aanzi®^'
lijke personeelsuitbreiding voor de programmering te komen. Men kan zich daarbij d^
vragen stellen. Ten eerste: 'moet het zoveel kosten?', ten tweede: 'moet SVO het doen-
en ten derde 'kan SVO het wel?'.
Wat de eerste vraag betreft, ik ben maar een leek op dit gebied, maar als ik denk aan e®
situatie waarin ik één miljoen zou moeten uitgeven om tien miljoen beter te besteden, d^
word ik toch wel huiverig. Of, tweede vraag, SVO het moet doen, daarop moet eUj
democraat met een volmondig 'nee' antwoorden. Als het om de hoofdlijnen van d
onderzoekthematiek gaat, dan is het (net als dit met oorlogvoeren en de generaals h®
geval is) een veel te belangrijke zaak om aan de uitvoerende instantie, dus SVO, all®®
over te laten. Daaraan verandert niets als SVO anderen toestaat mee te spreken,
derde vraag betreft, kan SVO zoiets wel, er is niet veel reden om aan te nemen dat Sv
het kan. Het is trouwens de vraag of iemand in Nederland het kan, als men onderzo®
programmering bhjft opvatten als een soort studieopdracht. Het lijkt haast wel of
programmering van de onderwijsresearch voor 95% studie en voor 5% onderhandeling • ^
Welnu, het is precies andersom: het vaststellen van de behoefte aan onderzoek in dir®
overleg met het onderwijs, dat is het grootste deel van het programmeren.
7 De onderzoekkwaliteit
Zonder dat door SVO een keuze is gemaakt voor practisch, dier^stverlenend, onderzoek
onderzoek dat allereerst zuiver wetenschappelijk is, lijkt het nochtans alsof SVO j,
de enige instantie in Nederland beschouwt, die zou kunnen vaststellen wat goed ond
zoek is. j
Die pretentie is niet van vandaag of morgen, die bestaat al langer. Men spreekt weUsWa
van 'onze instituten' maar men behandelt de instituten niet als volwaardige partners m
eigen bekwaamheden. Men verstrekt geen opdrachten maar wacht aanvragen en m®
Warries I35
af van de instituten en gaat die vervolgens op hun kwaliteit beoordelen,
•^sschien is dat ooit zo ingesteld, analoog aan de werkwijze van Z.W.O., maar het blijft
merkwaardige situatie. Zeker gezien de samenstelling van het SVO-bestuur. Om over
® kwaliteiten van onderwijs-onderzoek te oordelen, moet men van juiste wetenschappe-
'Jke huize komen. De pretentie van kwahteitsbeoordeling kan - als ze tenminste nodig is
alleen maar worden gereahseerd wanneer men echt een advieskommissie naar het model
yan z.w o. mstelt. Maar het is natuurlijk ook mogelijk dat men vertrouwen stelt in
'"stituten of dat men garanties zoekt in een samenwerking met de nieuwe studierichtin-
gen of afstudeerrichtingen Onderwijskunde in verschillende universitaire instellingen.
^ ^onderzoekers
Uit de nota en uit de rondschrijfbrief van 30 december spreekt een onbegrensd optimisme
°ver de mogelijkheden van programmering. Wat daarbij vooral storend is, is de stilzwijgen-
e Opvatting over de programmeerbaarheid van de onderzoekers zélf. Het lijkt wel, alsof
..y^O rnaar te kiezen heeft uit een eindeloze oceaan van onderzoekmogelijkheden. Het
ykt wel alsof men een groot deel van de uitvoeringsproblematiek oplost door onderzoe-
. X, y en z te ontslaan en onderzoekers p, q en r aan te stellen. Alsof het opleiden en
'"Werken van onderzoekers, het gezamenlijk zoeken van een werkwijze, het moeizaam
y^roveren van deskundigheid op bepaalde terreinen, geen kwestie zou zijn van lange jaren
'"tensief werken en soms haast maniakaal met een vraagstuk blijven stoeien, worstelen en
^^oegen. Een instelling als SVO moest toch weten dat de uitvoerbaarheid van onderzoek-
programma's geheel afhankeUjk is van het aanwezige onderzoekspotentieel en de opge-
o^wde menselijke deskundigheid. Sommige onderwijsonderzoekingen zijn, zelfs al zou er
op dit moment een miljoen voor op tafel gelegd worden, gewoon niet uitvoerbaar
Omdat niemand zich daarin gespecialiseerd heeft. Andere projekten zijn wèl uitvoerbaar
Onidat er vóórwerk van enkele jaren heeft plaatsgevonden,
et is om die reden dat het personeelsbeleid in de onderwijsresearchwereld gevoerd zou
^oeten worden op de wijze van iemand, die op zijn tenen door een porcelemkast loopt.
.^'J hebben de indruk dat dit nu niet gebeurt. Onderzoekers, die SVO in de loop van de
ren aan zich gebonden heeft met telkens verlengde kontrakten, worden afgestoten op
Ond van een onduidelijke programmering en vage kwahteitseisen. Dat zij niet proteste-
n komt waarschijnUjk door hun gebrek aan onafhankelijkheid. In hun planning en hun
fthodiek hebben ze zich noodzakelijkerwijze meer gericht op SVO dan op de universi-
't. Ze hebben geen vaste aanstelling en in vele gevallen ook geen wetenschappelijke en
Orele steun vanuit een vakgroep. De onderzoekers, die nu of in de nabije toekomst de
, ®Volgen van de zogenaamde selektieve ontwikkeUng ondervinden, zullen formeel nooit
nnen protesteren, want ze hebben tevoren geweten wat er kón gebeuren. Ze hebben
'ts mee mogen praten in het zogenaamde institutenoverleg. Misschien hebben ze een
®.etje meegeprogrammeerd, mogelijk zelfs kollega's er uit geprogrammeerd, daarbij net zo
als het SVO-bestuur beseffend, dat m tijden van schaarste aan onderzoekbekwaam-
.. er op de korte en middellange termijn niet zoveel te programmeren valt. Tenminste
'et met de gehjktijdige pretentie dat meteen de kwahteit van het onderzoek centraal
®®regeld kan worden.
^""'^script ontvangen 15-3-77
-ocr page 140-136 No tities en Commentaren
OPBOUW VAN EEN SVO-BELEID VAN SELEKTIEVE ONTWIKKELING1
Geachte heer Warries,
Met belangstelling hebben wij kennis genomen van Uw reaktie op onze rondschrijfbrie^
van eind vorig jaar over het door SVO te voeren 'beleid van selektieve ontwikkeling'. Het
is een goede zaak dat ook op een manier als deze beleidsvoornemens van een instantie als
de SVO kritisch worden gevolgd. Het gaat immers om een onderwerp dat belangrijk®
aspekten van het onderwijsonderzoek raakt en waarbij de vraag naar een effektiev®
beleidsvoering op landelijk niveau centraal staat. Ten tweede kan dit soofl
kommentaren een bijdrage leveren aan het in bredere kring op gang brengen van o®
gewenste diskussie over de vormgeving van het onderzoeksbeleid en de wegen die m®"
moet volgen om tot kwalitatief goed en relevant onderzoek te komen. Nog te veel valt t«
konstateren dat deze diskussie zich buiten de direkte interessesfeer van onderzoekef®
afspeelt; nog te veel is het onderhavige vraagstuk voorwerp van professionele e"
'aanhoudende' zorg van een te beperkte groep van betrokkenen.
Bij het plaatsen van enkele kanttekeningen bij Uw reaktie zullen wij voor de duidelijkheid
de volgorde en aanduiding van de punten in Uw brief aanhouden.
1. Wetenschap bedrijven of het onderwijs helpen
Dat de z.g. Programmeringsnota een tegenstelling suggereert tussen 'goed onderzoek' e"!
'beleidsondersteunend onderzoek' laten wij geheel voor Uw rekening. Het is ons onduid
lijk waaraan U dat meent te moeten ontlenen.
Een duidelijk punt in de Programmeringsnota is wel dat er nogal wat frikties zijn
konstateren wanneer we nagaan wat onder 'goed' onderzoek (d.i. relevant onderzoek va
de hoogst mogelijke kwahteit) verstaan moet worden.
Programmering is ons inziens een belangrijk instrument om die frikties weg te nemen ot
verzachten. Hierdoor kan, in de woorden van de nota, bereikt worden dat he
onderwijsonderzoek op betere wijze steun zal verlenen aan het oplossen van problem®^
die door verschillende groepen van betrokkenen in en rond het onderwijs als belangOJ
worden gezien (o.c. p. 12).
Afhankelijk nu van hetgeen die groepen belangrijk vinden, ligt het in de bedoeling e®^
aanzienlijk deel van het onderwijsonderzoek aan programma's te 'binden'. Met een varia"
op de verwijzing uit Uw brief over generaals en oorlogsvoering, laat zich die binding v®^
het onderzoek omschrijven met de uitdrukking dat het onderwijsonderzoek een veel
belangrijke zaak is om aan de onderzoekers alleen over te laten.
Met deze uitspraak is nog niet gezegd welke groepen nu het belangrijkste zijn en dus ^
grootste invloed moeten kunnen uitoefenen op de bepaling van prioriteiten en daarm®
op de richting waarin het onderwijsonderzoek moet gaan. In de Programmeringsnota sta
daar wel het nodige over. Zo is te lezen (p. 65) dat de SVO niet zonder meer haar eig®^
weg kan gaan. We behoeven bijvoorbeeld maar naar de verlangens van de centrale overhe'
te kijken in het kader van de landelijke innovatieprojekten. Ook wordt op dezelfde pag'"^
gesteld dat het primaire oogmerk van het SVO-onderzoek de ondersteuning van
dienstverlening aan het onderwijs blijft en niet de ontwikkeling en uitbouw van
1 Het gaat hier om de in april j.1. gegeven reaktie van het SVO-bestuur op de brief van de heer Wai''^
aan de SVO die van gelijke inhoud is als de hiervoor gepubliceerde tekst.
^^^O^stuur 137
onderwijswetenschappen. Hoe we deze dienstverlening willen realiseren, is in grote lijnen
"J de nota aangegeven.
^^ konstatering dat de SVO er tot nu toe niet in geslaagd is een uitvoerbare
Programmering te realiseren is in dit verband van een andere orde. Het niet slagen in het
l'erleden wil niet zeggen dat men niet de intentie zou moeten handhaven een gewenst doel
I® bereiken. Met lering uit het verleden wordt nu dan ook een ander strategie gevolgd,
r^® legitimiteit van de door de SVO te maken beleidskeuzen hangt ten dele samen met
"aar bestuurlijke draagkracht, afhankelijk van de bestuursconstellatie. Dit vraagstuk van de
gewenste bestuursconstellatie beroert de SVO vanaf 1971. Uitgaande van haar funktie ten
Aanzien van het onderwijs werden destijds voorstellen geformuleerd om aan het
Onderwijsveld een belangrijke stem te geven bij de algemene beleidsvoering van de
.'ichting. Deze gedachten vonden op het ministerie echter geen weerklank. Een tweede
jnitiatief is kort geleden genomen. Dit gebeurde in het verlengde van een tijdens de
ehandeling van de Rijks-onderwijsbegroting 1977 over de gewenste bestuursconstellatie
J'^n instanties als de SVO door de Tweede Kamer aangenomen motie. Aanvaarding van
"et nieuwe SVO-voorstel over een herziene bestuursconstellatie zou gaan inhouden dat (a)
een duidelijke scheiding wordt aangebracht tussen enerzijds bepaling van beleid en
Anderzijds wetenschappelijke en organisatorische kwaliteitsbewaking van projekten,
"■espectievelijk de beoordeling van aanvragen en dat (b) het 'onderwijsveld' een beslissende
^tem bij het eerstgenoemde krijgt. Het wachten is nu op de reaktie van de minister van
Onderwijs en wetenschappen.
Beleidsondersteunend onderzoek vermeden
Het
i voorgaande impliceert dat het onderzoeksmeerjarenprogramma van de SVO meer
^^vat dan 'praktijkgerichte projekten' en een gerichtheid op uitsluitend 'hoofdproblemen
n het zich vernieuwende onderwijs'. Wat dit laatste betreft: het gaat hier om
, ogramma's, die in verband met het aktuele onderwijsbeleid van regering en parlement
zuidelijk gericht zijn, zoals ook in de SVO-werkbegroting tot uitdrukking komt; of het
. ^ het belangrijkste deel moet zijn is een kwestie van keuze. We kunnen ons gezien de
j^'^bten van vertegenwoordigers van het onderwijsveld ook hoofdproblemen buiten dit
Pecifieke kader voorstellen. Tevens zij opgemerkt dat we met de minister van onderwijs
Wetenschappen geen tegenstelling zouden willen suggereren tussen 'vernieuwing' en
ntwikkeling' of tussen 'beleidsondersteunend' en 'vrij' onderzoek,
de^hbeheer genomen onderzoeksprojekten - en zeker aan
^ hand van de bekende onderzoeksvoomemens - is ons inziens niet vol te houden dat de
O onvoldoende oog zou hebben voor praktijkgericht onderzoek.
Afbreken van onderzoekspotentieel
eigenaardige interpretatie Uwerzijds van hetgeen er aan de hand is met het SVO-beleid
op dit punt slechts een enkele kanttekening toe. Het is merkwaardig te vernemen dat
de huidige situatie beschrijft in termen van 'omzetten van een schakelaar in twee
^rgaderingen' (wat het SVO-beleid betreft) en het inzetten van een 'sloopaktie' (wat de
j^vang van het onderzoekspotentieel betreft).
het eerder genoemde rondschrijven wordt op een tweetal convergerende
''twikkelingen gewezen: die van de programmeringsvoornemens en die van de afnemende
138 No tities en Commentaren
financiële mogelijkheden van de Stichting. Wat het eerste aangaat zijn we in het verlengd®
van de Programmeringsnota al geruime tijd bezig om geleidelijk aan vorm te geven aan de
idee van 'differentiële steun aan en stimulering van onderwijsonderzoek'. De eerste stap
werd in de bestuursvergadering van januari 1976 gezet.
Verdere stappen werden in de loop van dat jaar gedaan, waarbij de door U buite"
beschouwing gelaten opstelling van de Rijksbegroting 1977 uiteraard allengs e®"
mede-beslissende rol ging spelen.
De uitgestippelde beleidslijn zal dit jaar verder worden uitgewerkt. Eind dit jaar zal er een
SVO-beleidsnota komen, waarin de hoofdlijnen worden aangegeven van het door de SV^
in de eerstkomende jaren te voeren beleid. Een deel van die nota zal ongetwijfeld over o®
problematiek van de gewenste omvang en kontinuïteit van de onderzoeksaktiviteiten
handelen. Er zal naar strukturele oplossingen gezocht moeten worden, al zijn d®
mogelijkheden van onze Stichting aanzienlijk beperkter dan vóór de jongste ombuiging®''
in de Wjksbegroting het geval was.
In de gegeven situatie is het vraagstuk van de kontinuïteit niet los te zien van de midi^lo^
die SVO ter beschikking staan. Binnen die meer beperkte middelen voor h®
niet-geprogrammeerde onderzoek konden wij op onze werkbegroting toch nog e®"
stelpost voor de kontinuïteit van onderzoeksplaatsen reserveren. Uit Uw opmerkingen op
dit punt is ons niet duidelijk of, en zo ja in hoeverre, U de feiten kent. Mocht
bezorgdheid over de geringe speelruimte in de koördinatie van het onderwijsonderzoe
tot uitdrukking hebben willen brengen, dan zijn wij dat geheel met U eens.
Onze konklusie is dat de door de regering gewenste 'stabilisatie' van de SVO dit jaar
abrupt met het instrument van de Rijksbegroting wordt doorgevoerd dat de bijbehorend
beleidsombuiging onvoldoende geleidelijk kon geschieden, met alle negatieve infrastruktü'
rele gevolgen van dien. Niet alleen de Verkenningscommissie Onderwijsresearch heeft
het gevaar van verioop en de konsekwenries ervan gewezen. De SVO deed het herhaald®'
lijk, laatstelijk nog in februari j.1. in een gesprek met de minister.
4. Het financiële argument
Uit Uw reakrie is op te maken dat de feitelijke situatie - en meer in het bijzonder d®
financiële situatie van de SVO - U onvoldoende bekend is. De Stichting heeft niet all®®"
onvoldoende geld gekregen om de in de afgelopen jaren gehononeerde aktiviteiten
kunnen konsohderen, ze is wat de tweede geldstroom betreft er zelfs in koopkracn
aanzienlijk op achteruit gegaan. Daarenboven voorspelden de lO-insrituten in oktober j-'
een zeer ongunstige ontwikkeling van de kosteifi van lopende onderzoeksprojekten, zo^a
ook uit dien hoofde de SVO-begroting 1977 ingrijpend herzien moest worden.
Het antwoord op uw vraag moet dan ook luiden dat de SVO inderdaad snel een 'anif
(zie Programmeringsnota) funktioneren van het onderwijsonderzoek wil, dat evenwel ni®
ten koste mag gaan van wat er tot nu toe moeizaam is opgebouwd. Maar de SVO heeft ^
haar beperkingen.
5. Selektieve maatstaven
Dat de in de rondschrijfbrief genoemde kriteria voor het grootste deel 'de ge^""^
randvoorwaarden voor het welslagen van elk projekt' zijn, strookt geheel met on
Sl^O-öestuur 139
^«doeling. Dat deze ook als zodanig altijd op zo expliciete wijze in onderzoeksaanvragen
^'jn gebruikt, moet echter ontkend worden. Zo triviaal zijn die kriteria in de praktijk van
onderzoe'k-van-alledag nu ook weer niet.
het kader van een selektief beleid zullen ons inziens dit soort voorwaarden beter en
scherper dan tot dusverre gebruikt moeten worden voor de bewaking van de kwaliteit van
Projekten. Duidelijkheid in de toepassing van kriteria blijft ons inziens te verkiezen
^oven willekeur. Dat daardoor het probleem van de programmering nog niet wordt
"Pgelost behoeft geen betoog, zoals ondermeer uit de Programmeringsnota moge blijken,
'^ät is onze pretentie ook niet. Zonder goede randvoorwaarden hoeft men niet op 'goed'
"fiderzoek te rekenen.
I'Ianning en Programmering
drietal vragen zijn door U gesteld, waarbij de eerste zich richt op de omvang van het
VQ-bureau in relatie tot de omvang van te besteden middelen. Er is ons inziens geen
Sprake van 'een aanzienlijke personeelsuitbreiding voor de programmering'. Eerst vanaf
JlJedio 1975 richt zich een zeer beperkte mankracht fulltime op de programmeringspro-
'®niatiek. Pas medio vorig jaar werd een sterkte bereikt die overeenkomt met die uit de
periode van vóór de Programmeringsnota. Over de omvang van het SVO-apparaat valt te
'skussièren. Onze berekening is mede gebaseerd op de taken die in het kader van de
^^rgenomen programmering verricht moeten worden. Gezien de omvang van het onder-
°eksbudget dat direkt of indirekt via de SVO loopt (al meer dan 20 miljoen gulden in
„ en de andere (bijvoorbeeld adviserende) taken die eveneens gezien de rol van de
'ehting vervuld moeten worden, lijkt de personeelslast ons redelijk. We spreken dan nog
^let over de nieuwe taken die in de 'Struktuurnota' zijn gesteld.
w tweede vraag is ten dele beantwoord met verwijzing naar de Programmeringsnota en
, het gestelde over de bestuursconstellatie van de SVO. Dat programmering en
eidsvoering een exklusieve aangelegenheid van de SVO zou zijn is onjuist en wordt
u niet gestaafd. De uiteindelijke goedkeuring van de hoofdpunten van beleid is
^Vendien aan de minister van onderwijs en wetenschappen voorbehouden (zie art. 17 van
^statuten).
derde vraag richt zich op de realisatie-mogelijkheden en de aard van de
°grammering. De gekozen strategie richt zich op het geleidelijk aan invoeren van de
Schetste programmeringsgedachten. Overhaast en ondoordacht te werk gaan lijkt niet
•■ständig ('een goede voorbereiding is het halve werk'), vooral niet bij zo'n komplekse
terie als programmering. In dat opzicht is wel wat van de gevolgde werkwijze in andere
^ htschappelijke sektoren te leren. Vooral in een opbouwfase kan men daarbij niet
j^Jider veel 'studie', mede gezien als een soort van diepte-investering op langere termijn.
resultaten zullen uitwijzen of een goede weg is ingeslagen. Dit geldt dan ook voor de
^ JZe waarop men achter 'behoeften aan onderzoek' kan komen. We zijn het erover eens
bet
niet acher de schrijftafel verkregen kunnen worden. Direkt overleg met
. ''okkenen, empirisch onderzoek naar het funktioneren van het onderwijs en
y fernatisch verzamelen van informatie over visies en wensen in het onderwijs zijn in dit
r^and betere methoden.
140 No tities en Commentaren
7. De onderzoekskwaliteit
Dit punt kwam al ten dele ter sprake bij het voorstel over de herziene bestuursconstellat'®
van de SVO. Daardoor kan de ook door ons gewenste forumfunktie meer gediend ziJ"'
Daarnaast moet U het voornemen om onderzoeksthemagroepen te formeren niet ontgaa"
zijn.
Dat de SVO de opdracht heeft de kwaliteit van onderzoekingen te beoordelen is juist.
'pretentie' dat zij daartoe, met steun van externe adviseurs, in staat is, is er inderdaad- If!
hoeverre de SVO daar in slaagt, is volledig kontroleerbaar door de openheid die w'ij
betrachten, in welk verband ook de procedure van beroep tegen bestuursbeslissinge"
genoemd mag worden. .
Ons is niet duidelijk wat U met de laatste volzin: 'dat men vertrouwen stelt in (■-j
instellingen', bedoelt. Dat vertrouwen is zeer zeker aanwezig. Per slot van rekening li®
daar de basis voor realisatie van alle goede voornemens. Vandaar dat het beleid van SV
sterk op de onderzoeksinstituten is gericht, zoals, de financiële beperkingen ten spij;
blijkt uit de strategie van institutionele versterking, en het in eerste instantie aansluiten dV
de mogelijkheden en specialisaties van instituten bij het ontwikkelen van instituutpla"'
nen. De SVO heeft daarbij andere verantwoordelijkheden dan de instituten. Wat dat t®
maken heeft met Uw stelling dat wij 'de instituten niet als volwaardige partners met eig®"
bekwaamheden' zien, ontgaat ons dan ook.
8. De onderzoekers
d®
De eerste passages op dit punt hebben wij ons inziens in het voorafgaande voldoen
beantwoord. Duidelijk moet geworden zijn dat wij geen 'onbegrensd optimisi'"
aanhangen, dat de 'uitvoeringsproblemafiek' niet op te lossen is door het hanteren van ^
y en z' en 'p, q en r' en dat 'het personeelsbeleid in de onderwijsresearchwereld' juist o"
voor SVO een zaak van hoge importantie is. ^^
Waarom er in tijden van schaarste op korte en middellange termijn niet zoveel
programmeren valt, is ons onduidelijk. De noodzakelijkheid van beter onderzoek is ooK^^
Uw schrijven te beluisteren. Het probleem hoe men dat in een gegeven situatie met
beperkte mogelijkheden moet doen wordt ons inziens niet opgelost door alléén op
termijn te werken. Men zou dan onder meer voorbijgaan aan het feit dat de situatie
niet meer toelaat om nog jaren te 'wachten'. Dit geldt juist te sterker naarmate zichm®
schaarste aan mogelijkheden voordoet. Maar kunnen we dan wel een verstandig ^e^
maken met programmering? De SVO heeft daartoe binnen een aangegeven perspektie
elk geval een aanzet gemaakt. " j
Bespreekbare alternatieven zijn zeer zeker door ons niet uitgesloten. Diskussie hiero'^.i
kan alleen maar tot resultaat hebben dat de consensus over de gewenste aanpak wof
bevorderd.
Tenslotte zijn we vanzelfsprekend bereid U nadere informatie te verstrekken. Daard^^^
zou bevorderd kunnen worden dat U in Uw opvattingen minder ver van enkele feiteW
ontwikkelingen bij de SVO verwijderd staat en dat op die basis zich desgewenst ƒ
diskussie zou kunnen ontspinnen. Eveneens zou het dan mogelijk zijn een ^ad®^^
toelichting te krijgen op enkele van Uw 'stellingen'. Andere betrokkenen zouden daarv"
wellicht ook belangstelling hebben.
Manuscript ontvangen 18-4-'77.
-ocr page 145-^idschrift voor Onderwijsresearch 2 (1977), nr. 3. 141
Erhard Fischer
^''^führung in die Theorie psychologischer Tests
^«flagHans Huber, Bern, 1974
jlj^'^'lf gaat er van uit dat een theorie van psychologische tests pas een theorie genoemd mag worden
ged^f beschrijving geeft van de betrekkingen die er bestaan tussen de in een model (formeel)
!^'®erde grootheden en de psychologische realiteit. Die beschrijving moet zo zijn dat het scala van
gj waarnemingen drastisch wordt beperkt, waardoor de theorie toetsbaar wordt. Zolang men
Voo" "''^rvatie heeft die buiten het door de theorie toegestane 'repertoire' valt, houdt men de theorie
vvaar. Zodra men iets waarneemt dat door de theorie uitgesloten wordt, acht men de theorie
Ifef^^ ^^rste deel van zijn boek laat Fischer zien dat de klassieke testtheorie het predikaat 'theorie'
1 ^^S voeren. Hij draagt daar de volgende argumenten voor aan:
® testscore wordt als uitgangspunt genomen. Iemands score op een intelligentietest is zijn
"lelligentie (er zijn dus zoveel intelligenties als er intelligentietests zijn). De begrippen 'ware score'
g"^'meetfout' zijn syntaktische konstrukties; een semantische interpretatie is er nauwelijks aan te
kernbe^ippen 'betrouwbaarheid' en 'validiteit' zijn gedefinieerd als korrelatiekoëfficiënten.
aardoor zijn zij afhankelijk van de populatie waarover zij gedefinieerd zijn. Voor elke populatie
3, een test een andere betrouwbaarheid.
® klassieke testtheorie gaat geheel voorbij aan de manier waarop een testscore tot stand komt. De
fstscore wordt voorgesteld als de uitslag van een meting, maar het ontbreekt aan een meettheore-
onderzoek naar de schaaleigenschappen van het geobserveerde getal. ('Betrouwbaarheid'
dat testscores eigenschappen van een intervalschaal hebben),
'"sse die aan de klassieke testtheorie kleven, verdwijnen als men onderscheid maakt
Weg P geobserveerde testscore en de te meten psychologische variabele. Een van de eersten die deze
W3I ®^andelden was Guttman met zijn scalogramanalyse. De psychologische variabele is niet dhect
hij ^®^mbaar, maar 'toont zich' in de testscore. De psychologische variabele is latent ('latent trait');
hegf voorgesteld door een kontinuüm waar iedereen zijn plaats op heeft. De positie die iemand
tjjj Op de latente trek 'intelligentie' bepaalt zijn waarneembare gedrag dat vastgelegd wordt in de
itijg Het testmodel beschrijft de relatie tussen de latente trek en de geobserveerde score. In de
"iet ^ S®vallen bestaat het direct waarneembare gedrag van iemand bij een testafname uit het al of
maken van items. Een testmodel dat vrij wil zijn van ongefundeerde assumpties omtrent het
ééti "'^eau van waargenomen scores zal dan ook moeten beschrijven hoe het gedrag van iemand op
item verbonden is met zijn positie op het latente kontinuüm. Daartoe heeft men, behalve de
hej Van het individu op het latente kontinuüm (de persoonsparameter) ook nog een kengetal voor
(itemparameter). Want iemand kan het ene item wel oplossen, maar het andere niet,
itijlj persoonsparameter niet veranderd is. Een van de eenvoudigste beschrijvingen die men kan
He,^ " ^an de relatie tussen het waargenomen gedrag (item goed of item fout) en de niet waar te
bit m" en itemparameters is het scalogrammodel van Guttman.
model luidt als volgt:
wanneer iemands persoonsparameter groter is dan de itemparameter, dan zal
het item goed beantwoorden. Als de itemparameter echter groter is dan de persoonspara-
in t,^,' 'l.®" zal die persoon het item niet goed beantwoorden. Elk item deelt zo het latente kontinuüm
'"tw mensen wier parameter groter is dan de itemparameter, geven op het item het goede
Als men nu een groot aantal items heeft met alle verschillende parameters, dan kan men het
V in een groot aantal geordende intervallen verdelen. Binnen één zo'n interval zijn
•■«tso onderscheidingen te maken. De geordende intervallen leveren een ordinale schaal voor de
""^parameters op.
-ocr page 146-142 Boekbesprekingen
Het is belangrijk er op te wijzen dat een uitspraak over twee personen (d.i. een ordening t.a.v. d®
latente trek) alleen mogelijk is door een item waarvan de parameter tussen de beide persoonspai ^
meters inligt. Hoe de andere item- en persoonsparameters er uit zien doet verder niet ter zake: n ^
scalogrammodel van Guttman leidt tot metingen die onafhankelijk zijn van populaties van personen
van items, waar de onderzochte items en personen deel van uitmaken. Het Guttmanmodel ^
deterministisch. Het geeft exakt aan welke waarnemingen mogelijk zijn, gegeven de item- en j
parameters. Eén enkele inkonsistentie in de waargenomen itemresponsies is echter voldoende o*" ^
scalogrammodel te verwerpen. Immers, volgens het model moet iemand, die item j oplost, alle ande ^
items met een parameter kleiner dan die van item j ook oplossen. Maar als men waarneemt dat
een item oplost dat een parameter heeft die groter is dan de persoonsparameter, dan is deze enk
waarneming voldoende om het scalogrammodel te verwerpen. De praktijk leert dat deze inkonsisK
ties vaak optreden. Als men nu niet met de handen in de school wil blijven zitten, is de me^ ^
realistische aanpak deze: zie af van het deterministische in een model en maak het probabilistisch. 1
wil zeggen: maak een model dat de relatie tussen latente trek en waargenomen testgedrag beschfU
met inbegrip van het toevalsproces dat zich bij testgedrag afspeelt. Dit toevalsproces is het
waarbij de waargenomen score afwijkt van de op grond van item- en persoonsparameters voorspel ^
score. Modellen die deze stochastische komponent in vertoond testgedrag als wezenlijk onderdeel va
dit gedrag beschouwen noemt men probabilistische modellen. . j:
De probabilistische testmodellen komen aan de orde in het tweede deel van Fischers boek. Daaf ^
beperkt Fischer zich tot modellen voor tests met dichotome items. Met verwijzing naar het werk v
Lazarsfeld en Rasch somt Fischer de wezenhjke beginselen op van een probabiUstisch testmodel.
Deze principes zijn: j
1) waarneembare variabelen zijn niet identiek met de te meten dimensie, maar zijn er indikt'
(symptomen) van. .
2) het vertoonde gedrag is probabilistisch van aard: het is niet exakt te voorspellen uit de modelp^
meters, maar slechts tot op zekere hoogte. „
3) korrelaties tussen waarneembare gedragsvormen ontstaan uitsluitend uit de afhankelijkheid v^
deze gedragingen van een gemeenschappelijke latente dimensie ('lokale onafhankeUjkheid'). j
De formalisering van deze principes leidt (voor tests met dichotome items) tot het volgende: "
verwachte gedrag is een bepaalde funktie van de latente trek. Het model bevat zo een vergelijking ^^
de regressie van het waarneembare gedrag op de latente variabele beschrijft. De vorm van ^
regressielijn bepaalt een specifiek model. Zo'n regressielijn heet item- (of test-) karakteristiek
trace line).
Eén van de belangrijkste probabilistische modellen voor tests met dichotome items is het RASCH'"^.^
del. Dit model, waaraan het grootste deel van Fischers boek gewijd is, kent de volgende assumpties»
velen intuïtief aanspreken:
1) de test bestaat uit een eindig aantal dichotome items.
2) de ifemkarakteristiek is monotoon stijgend: hoe groter iemands persoonsparameter is, des te gf
is de kans dat hij het item goed zal beantwoorden.
3) alle items in de test meten dezelfde latente trek.
4) er is sprake van lokale onafhankelijkheid. ^
5) het aantal goed beantwoorde items is een 'voldoende' stochastische grootheid voor de te m® ^
latente trek: meer informatie dan het 'aantal goed' is niet nodig om een schatting te maken v
iemands persoonsparameter. '' .^f
Men kan aantonen dat deze vijf assumpties leiden tot één bepaalde itemkarakteristiek, de cumula
logistische kromme, ook wel logistische ogief genoemd. Het testmodel met deze itemkarakteristie"
het RASCH-model.
Het RASCH-model heeft een aantal zeer aantrekkelijke eigenschappen. Eén van de voornaam
hiervan is dat schattingen van itemparameters onafhankehjk zijn van persoonsparameters (en oif®
keerd). Men is dus verlost van de noodzaak om representatieve steekproeven te nemen. De schatting^^
van de itemnarameters vallen in de ene fal of niet renrftsentatieve"! stp.eknrnftf net 7n uit als in
zij"
van de itemparameters vallen in de ene (al of niet representatieve) steekproef net zo uit als
andere (al of niet representatieve) steekproef. En omgekeerd: schattingen van persoonsparameters
niet afhankelijk van de gebruikte items (mits de items dezelfde latente trek meten). I^jj
Fischer geeft uitgebreide schattingsprocedures en toetsen voor het RASCH-model. Ook besteedt ^^
aandacht aan een interessante uitbreiding van het RASCH-model, waarbij ook andere dan persoonS'
itemparameters (bijv. experimentele kondities) geïntroduceerd worden.
In het derde en laatste deel van zijn boek behandelt Fischer logistische modellen voor tests met it®^
die meer dan twee antwoordkategorieën hebben (polychotome items). Deze polychotome logist'^
^°^''besprekingen 143
vallen in twee groepen uiteen: de groep van modellen waarin er één persoonsparameter is, en
êtoep waarin bij elke itemkategorie een eigen persoonsparameter hoort. Het eerste soort modellen is
" belang als de itemkategorieën opgevat kunnen worden als geordende kategorieën ( mee eens -
jet niet - niet mee eens'); het tweede soort modellen past bij itemkategorieën die elk een wezenlijk
In h * latente trek operationaliseren (bijv. een medische diagnose).
net bovenstaande hebben we een aanduiding gegeven van de rode draad die Fischer naar onze
"uig door zijn boek geweven heeft. Eerst worden de bezwaren tegen de klassieke testtheorie
l^l^esomd. De voornaamste hiervan zijn: het tautologische karakter van deze theorie (geen van de
'^parameters heeft een falsifiëerbare relatie met de empirie) en de afhankelijkheid van de begrippen
djl °"wbaarheid en validiteit van de populatie die men bestudeert. Dan komt Guttmans scalogrammo-
^Ika^^" de orde. Het essentiële hiervan is dat waargenomen gedrag en te meten variabele niet meer aan
^ gelijk gesteld worden, maar door een (toetsbare! ) relatie worden verbonden; wezenlijk is ook
^^ ®Ue parameters 'populatie-onafhankelijk' zijn. De beperkingen die een deterministisch model kent,
K, ®n vervolgens opgelost door de introduktie van probabilistische testmodellen, met als hoogtepunt
jjJ model van RASCH.
^ ?'t.?enzettingen die Fischer geeft zijn helder geschreven. De tekst (vooral in de fundamentele
j^^chrijvingen van principes en modellen) is doorspekt met eenvoudige, maar niet triviale voorbeelden.
'end zijn echter de uitwijdingen die Fischer zichzelf toestaat, en die de lijn van zijn gedachten soms
I) ^'.kruisen. Zo begeeft hij zich in zijn overzicht van de klassieke testtheorie in onderwerpen die voor
van de rest van het boek overbodig zijn, zoals: de invloed van testlengte op de betrouwbaarheid
lijjalditeit, de schatting van betrouwbaarheidskoëfficiënten en (zeer beknopt) de generaliseerbaar-
^.'^stheorie van Cronbach et al. Wie in al deze zaken belang stelt, kan Lord & Novick (1968)
plegen, dat voor Fischers eerste hoofdstukken model heeft gestaan,
üj" Vreemd uitstapje doet Fischer naar Lazarsfelds 'latente struktuuranalyse'. Hoewel hij dit doet ter
tujt'atie van de begrippen 'latente trek' en 'itemkarakteristiek', valt dit hoofdstuk volledig uit de
1) Het is namelijk geplaatst na de beschrijving van Guttmans scalogrammodel. En daar werd het
stji'P 'latente trek' ook al uitgelegd. Maar de aanwezigheid van de beschrijving van de latente
o^l^tnuranalyse is vooral verwarrend: nadat, met behulp van Guttmans model het idee van 'populatie-
j^nankelijkheid' is geïntroduceerd, komt in het volgende hoofdstuk de latente struktuuranalyse van
pQ^r^feld aan bod met als één van de bouwstenen de verdeling van de persoonsparameters in een
Nie '®tie!
hej''®genstaande deze aanmerkingen zijn wij van mening dat het boek van Fischer, ondanks dat het in
Di,,, "'ts geschreven is, voor alle testpsychologen (en onderwijskundigen) noodzakelijke litteratuur is;
lHj v°or eenmalige lezing, maar steeds weer.
t), ' lezen alleen is niet voldoende. De in Fischers boek besproken modellen moeten gebruikt worden,
de in een Appendix weergegeven FORTRAN-programma's is dat voor iedereen nu mogelijk.
F.M. & Novick, M. Statistical Theories of Mental Test Scores. Addison-Wesley, Reading, Mass.,
Niels H. Veldhuijzen
P.T.T. 's-Gravenhage
144 Tijdschrift voor Onderwijsresearch 2 (1977), nr. ^
Stichting Onderwijsresearch
Aangezien enig misverstand blijkt te bestaan over taak en functie van de Stichting Onderwijsresearc •
volgt hier een korte uiteenzetting.
Na de oprichting van de Vereniging voor Onderwijsresearch werd de Stichting Werkgroep Onderwy
research, die in 1966 was tot stand gekomen, omgezet in de Stichting Onderwijsresearch (S.O.R-)'
werkgroep die al enige tijd in feite niet meer functioneerde, werd opgeheven. ^^
In de nieuwe vorm heeft de Stichting uitsluitend nog een beheersfunctie, m.n. ten aanzien van
Onderwijsresearchdagen (O.R.D.) en het Tijdschrift voor Onderwijsresearch. ^^
Het bestuur van de S.O.R. draagt o.m. zorg voor het indienen van subsidie-aanvragen bij de S.V.0'
het beheer van de subsidiegelden m.b.t. de twee bovengenoemde aktiviteiten. „I^j
De feitelijke organisatie van de O.R.D. is in handen van een elk jaar opnieuw in te stellen plaa'®®
organisatie-commissie. Onlangs heeft het S.O.R.-bestuur besloten daarnaast een overleggroep i" .
leven te roepen (bestaande uit vertegenwoordigers van de V.O.R., de S.O.R. en de organisatiecorni"^
sies, plus een S.V.O.-waarnemer). Het inhoudelijke beleid m.b.t. de O.R.D. wordt gedelegeerd
deze overleggroep. jj
De S.O.R. verzorgt de uitgave van het Tijdschrift voor Onderwijsresearch. De verantwoordelijk"
voor het redactiebeleid en voor de wetenschappelijke kwaliteit van de uitgave berust bij de reda'^ ^^
T.a.v. de organisatorische en financiële aspecten van de uitgave wordt het S.O.R.-bestuur geadvis®
door een commissie uit de redactie. ^
Het S.O.R.-bestuur is momenteel als volgt samengesteld: B. Creemers (voorzitter), G.A. Poortv
(secretaris), K.A. Beintema (penningmeester), K. Koster, E. Schoo, K.D. Thio, M.J.M. Voeten.
Adres: p/a Afd. Onderwijsresearch V.U., De Boelelaan 1105, Amsterdam, bv.
Vereniging voor Onderwijs en Computer
Op 7 januari 1977 werd de VERENIGING VOOR ONDERWIJS EN COMPUTER opgericht. ^jt
Deze komt voor uit het RWO-consortium Computer Assisted Instruction waarin sinds 1974
samengewerkt en informatie wordt uitgewisseld door psychologen, onderwijskundigen, pedago?^^
informatici, wiskundigen en anderen, werkzaam op het gebied van computer assisted instruc ^^^
computer managed instruction en andere gebieden waar de computer dienstbaar wordt gemaakt
het onderwijsleerproces. .jH
De vereniging stelt zich ten doel de bevordering van onderzoek en ontwikkeling van computerge"
ten dienste van het leerproces. yjn
Criteria voor het lidmaatschap zijn dat het lid een aktieve bijdrage kan leveren tot het realiseren
het doel van de vereniging, en dat zijn/haar werk te dien aanzien openbaar is. jt
De vereniging organiseert regelmatig wetenschappelijke bijeenkomsten en demonstraties en verï
een Nieuwsbrief.
U kunt zich opgeven als aspirantlid, door ƒ15,- te storten op giro 3766685 t.n.v. Vereniging
Onderwijs en Computer te West-Beemster, èn gelijktijdig aan het bestuur een briefje te sturen waar
uiteenzet waarom U meent voor het lidmaatschap in aanmerking te komen.
U stuurt dit aan: Vereniging voor Onderwijs en Computer, drs. R. van de Pekel, secretaris, Pedag"»
Instituut, Stationsplein 10, Leiden.
Ontvangen publicaties
Beroepsopleiding in Ierland, Informatieblad van de Commissie van de Europese GemeenschapP^'
Brussel, 1977. . ^sf
Beroepsopleiding in het Verenigd Koninkrijk, Informatieblad van de Commissie van de Eurw
Gemeenschappen, Brussel, 1976.
Congresboek Onderwijsresearchdagen 1977, Stichting Onderwijsresearch, 1977.
Moor, J.M.H. de, De geïntegreerde behandeling van gehandicapte kinderen: Problem^"
mogelijkheden. Groningen: Wolters-Noordhoff, 1977, (= Orthovisies no. 2).
Redmeyer, S.J., Counseling in de orthopedagogische situatie. Groningen: Wolters-Noordhoff.
(= Orthovisies no., 1).
^Il^rift voor Onderwijsresearch 2 (1977), nr. 4 145
doelstellingen van Onderzoek van Onderwijs
D. Fokkema
"''faculteit Psychologie. Vrije Universiteit. Amsterdam
The objectives of educational research
The general objective of educational research is the growth of knowledge about education with
the intention to improve education. In this paper the usual distinction of conclusion-oriented
and decision-oriented research, development, and innovation is maintained.
In decision-oriented research one investigates whether educational objectives can be attained by
certain means. The means-ends structure of decision-oriented research has as a consequence,
that the researcher is dependent on the agreed objectives of educational policy-makers. The
attainment of agreement on objectives is one of the conditions for this type of research. Other
conditions are: availability of criteria and documentation of the means. These conditions are
rarely fulfilled with regard to pedagogical objectives; they can be fulfilled with regard to
Wstructional aims of the school. Nevertheless this means-ends structure of research has a major
limitation in that it does not increase theoretical knowledge of how and why certain means
cause certain effects. It is bound to a proliferation of incidental successes and failures.
This weakness can only be overcome by conclusion-oriented research. The individual processes
of knowledge-acquisition, of acquisition of study habits, of text-comprehension and of ways of
problem-solving are key topics for this research. Knowledge of individual processes in the pupil
needs as a supplement knowledge about the communication between teacher and pupil.
This kernel-area of educational research is still underdeveloped; new promising approaches are
reported by leading cognitive psychologists. The outcomes of research on the individual
acquisition and utilization processes should co-determine various supporting activities in the
School-system, such as: development of instructional aids, curriculum development, teacher
training, guidance etc. Also these outcomes could be valuable in the design of better practical
guidelines for the teacher in the classroom.
For many reasons research in the kernel-area ought to be given priority amongst the objectives
'^or research.
Decision-oriented research projects should be planned and executed only after a rational
analysis of practical gains and losses.
The probability of practical gains will increase if the effects of more than one experimental
condition are investigated in a project.
Het
m pnderwerp, dat voor deze lezing en voor de forumdiscussie vanavond gekozen is, is
vy alle opzichten aantrekkeüjk. We weten immers, dat discussies over doelstelÜngen,
te» ^ m het onderwijs mee vertrouwd zijn, vaak vastlopen, nogal eens juist tot
d^ "Stellingen leiden in plaats van deze op te lossen, en ten slotte, dat zelfs wanneer men
Wj , een zekere consensus heeft bereikt, van de overeengekomen doelstellingen in het
Soms niet veel te merken is.
<lag5®®'^orte en enigszins bewerkte versie van een voordracht gehouden tijdens de Onderwijsresearch-
" Op 6 april 1977 in het hoofdgebouw van de Vrije Universiteit te Amsterdam.
146 Doelstellingen van Onderzoek van Onder^'l'
Er is nog wel meer legen ons onderwerp in te brengen: discussies over doelstellingen ziJ"
nogal onverbindend. Je kunt wel mooie doelstellingen maken, maar wie kan tijdens d«
ontroerende en meeslepende uiteenzettingen, die er aan gewijd worden - terwijl er noS
niets of weinig uitgevoerd is - toetsen, of de doelstellingen gehaald kunnen worden?
Uiting geven aan je ideeën over doelstellingen, heeft een zekere overeenkomst met he
afleggen van een projectietest. In ieder geval zullen persoonlijke elementen er zelden i"
ontbreken; er is echter ook een zeer wezenlijk onderscheid, en dat zal, hoop
vanochtend prevaleren.
Eén van de dingen, die ik hoop duidelijk te kunnen maken is, dat we zeker o^^'
doelstellingen van het onderzoek moeten praten, omdat er onderwerpen zijn, die g®^^
menlijk aangepakt moeten worden, gepland, met rationele werkverdelingen, en met in2
van omvangrijke financiële en personele middelen, op kosten van de gemeenschap.
Discussie over de doelstelling van onderzoek is in zo'n kader noodzakelijk, ook onon
koombaar, maar tevens iets van een beperkte horizon, nl. die van de organisatie e
planning. Dit is één dimensie van een doelstellingen-discussie.
Er is ook nog een andere, m.i. meer fundamentele dimensie, die samenhangt met
voortvloeit uit de vraag: waar staan we vandaag de dag met onze kennis betreffende "
onderwijs. Het is de inventarisering, die de leemten openbaart, en zo richting geeft, die t''
doelstellingskeuze inspireert. „
Onderzoek, ook het onderzoek van het onderwijs, wordt bedreven 'om iets te weten ^
komen', met een mooie term, t.b.v. de kennisprogressie. Als het om onderwijs g»^'
evenals bij zoveel andere maatschappelijk en persoonlijk belangrijke zaken, is met n
onderzoek verbonden de bedoeling, dat de kwahteit van het onderwijs op grond v ^
onderzoeksresultaten verbeterd zal kunnen worden. Soms is omvangrijke kennis ^
inzichtvergaring nodig om adviezen tot verbetering te kunnen geven. Soms hebben we n
geluk op een theoretische samenhang te stuiten, die direct een basis voor advisering bi®
Ik stel me nu het volgende voor:
1. Enige opmerkingen te maken over de relatie tussen de doelstellingen van research, ,
de doelstellingen van onderwijs. Daartoe zal ik o.m. een paar bekende ondersch ^
dingen gebruiken, die voor een genuanceerde en zinvolle bespreking nodig zijn. ^^ j
name het aspect van het dienstverlenende karakter van onderwijsresearch zal aanda®
krijgen. ^^
2. Ik ga toehchten, dat we belangrijk meer moeten doen, dan op de 'vragen en behoei ^^
van de onderwijswereld' ingaan, nl. aan een wetenschap van onderwijs, en
betrekking tot onderwijs werken. ^f
3. We zullen het over de contouren en minstens één urgentie van die wetenschap ,
wetenschappen hebben; nadrukkelijk 'contouren', want er is nog niet zo veel.
een enkele opmerking over het perspectief, de functie die deze wetenschap
vervullen.
4. Ten slotte keren we terug bij de status quo van de onderwijsresearch, en mijmeren
wat na over wat nü kan en goed is, en hoe het onderwijs daarmee het best gediend
worden.
ld«'"
2 De door mij gebruikte nomenclatuur komt overeen met die van de Verkenningscommissie O"'
wijsresearch.
147
doelstellingen van onderzoek, en doelstellingen van onderwijs
Onderwijsresearch kan op verschillende manieren dienstbaar zijn aan het onderwijs.
de eerste plaats denken we dan aan het zuiver-wetenschappelijke - ook wel genoemd
'^°^clusie-gerichte onderzoek, dat samenhangen naar voren brengt en verschijnselen in het
ndenvijs onderzoekt, die onze visie op het onderwijs-leerproces, op het functioneren van
®nnis bij leerlingen, op de wijzen, waarop het gezinsmilieu met het leren te maken heeft,
P de merkwaardigheden van de uiteenlopende begaafdheid en motivaties, enz. enz.,
Jrscherpen, verrijken en verbreden.
®estal levert dit onderzoek interessante gezichtspunten op; een andere zaak is, en die ligt
elk onderzoek van deze aard weer anders, of de resultaten perspectieven openen voor
^^'inderingen (i.c. verbeteringen) in het schoolgebeuren,
n andere situatie doet zich voor bij het praxiologische^ of beslissingsgerichte onder-
ek- Hierbij is gewoonlijk de opzet om gegeven een bepaald onderwijsdoel, na te gaan
ft Welke middelen het doel het best bereikt kan worden; dan wel of een ontworpen
.'ddel aan zijn bedoeling beantwoordt.
^e categorie van onderzoek is thans duidelijk prevalerend. Zijn grondmodel is van
odanige aard, dat een enorme verscheidenheid van vraagstellingen er in kan worden
Jdergebracht.
noem U enkele: alle vraagstellingen m.b.t. de methodiek, om overdracht van bepaalde
"nis, attitudes en vaardigheid te verwezenlijken; alle vraagstellingen, m.b.t. de wijze van
j^''8anisatie en structuur van het onderwijs; vraagstukken m.b.t. de wijze van optreden en
®t didactische handelen van docenten, enz. enz.
jj^®" spreekt t.a.v. deze categorie van onderzoek van 'beslissingsgericht', omdat de bedoe-
y 8 is, dat de uitslag van het onderzoek 'keuzen' en 'beslissingen' zal vergemakkelijken,
ge^*^ ^al het zo zijn, dat we van dit onderzoek ook leren of m.a.w. dat ons inzicht in de
eurtenissen van de school — in de zin van het conclusie-^richte onderzoek - mede
neemt. Terloops merk ik op, dat het aanbevelenswaardig is bij het ontwerpen van dit
^Pe onderzoek mogelijkheden om tot conclusie-achtige kennis te komen in te bouwen.
®t is dus in verband met het beslissingsgerichte onderzoek, dat we ook de term
Q^® stelling, maar dan als doelstelling van het onderwijs, tegen komen.
do bevindt zich hier kennelijk in een afhankelijkheidspositie t.a.v. de
^'^tellingen, die met het onderwijs beoogd worden.
^P dit punt wil ik zo wat verder ingaan. Eerst vraag ik nog een moment Uw aandacht
j twee gewoonlijk van onderzoek onderscheiden activiteiten, nl. ontwikkeling en
Pe doe dit om het beeld van het 'onderzoek' scherp te houden en dus ook af te
''ken tegen wat er niet bij hoort.
^^ doel van het ontwikkelingswerk is: het op grond van bestaande inzichten (eventueel
lin^'^ "research verworven- vervaardigen van de procedures/curricula, leergangen, beoorde-
'JJgstoetsen, organisatorische procedures enz. enz. met het doel die na een proef-fase in
Q P''3ktijk in gebruik te nemen.
!.«u innovatie verstaan we dan de feitelijke invoering van het via ontwikkeling tot stand
sebrachte.
begrip 'praxiologisch' is hier gebruikt in de betekenis, die door Wohnan is omschreven. In
Ned , ® betekenis is het begrip gebruikt in mijn recente artikelen in Pedagogische Studieën, 1976 en
®nands Tijdschrift voor de Psychologie, 1977.
148 Doelstellingen van Onderzoek van Onder^'l'
De directe gerichtheid op productie voor de praktijk staat bij de activiteiten 'ontwikke-
ling' en 'innovatie' op de voorgrond. Uiteraard is het fraai als onderzoek (conclusie- e"
beslissingsgericht), ontwikkeling en innovatie in deze volgorde plaats kunnen vinden,
elkaar completeren. Men moet er echter rekening mee houden, dat de ontwikkelingstecn*
nologie ook toepasbaar is op ideeën en inzichten, die nauwelijks een wetenschappeüj^®
achtergrond hebben; voorts vereisen bepaalde vormen van practisch gericht onderzoek n
ontwikkeling van 'treatments' en instrumenten. Innovatie zonder de steun van voora ■
gaand ontwikkelingswerk, lijkt mij een lege categorie. Ontwikkeling en innovatie kunnei^
slechts gedijen, als er overeenstemming bereikt is over de doeleinden, waartoe; en a
elementaire werkverdelingen tussen ontwikkelaars, vernieuwers, deskundigen, en uitvoet'
ders aanwezig zijn.
Nu terugkerend tot de doelstellingen:
Het beslissingsgerichte of praxiologische onderzoek is dus gericht op het toetsen of zeker®
doelstellingen met bepaalde middelen bereikt kunnen worden.
Binnen de ingewikkelde structuren, die tesamen 'het onderwijs' of een sector onderwijl
vormen komen mede door poUtieke, culturele en maatschappelijke invloeden de formule'
ringen tot stand betreffende de doelstellingen. Wij moeten hier doelstellingen van versch''
lende typen onderscheiden, nl. enerzijds opvoedingsdoelstellingen — naar veler opvattn'
gen heeft de school immers ook een opvoedende taak — èn kennis-doelstellingen, die n
voor het maatschappelijke leven algemeen aanvaarde noodzakelijke vaardigheden betre^'
fen. T.a.v. het eerste type doelstellingen is de Nederlandse wetgeving zeer terughouden
in zijn omschrijving, en het is voor het eerst met de Contourennota dat vanwege ^
overheid nogal uitvoerig ook pedagogische doelstellingen zijn geformuleerd.
In beginsel geldt voor beide typen doelstellingen, dat praxiologische research bij ka"
dragen tot het vinden van de juiste middelen.
Eerst volgen nu enkele opmerkingen betreffende het onderzoek i.v.m. pedagogisch®
doelstellingen. Een moeilijkheid hierbij is, dat deze mede levensbeschouwelijk bepaal
kunnen zijn, en dat men daardoor moeilijk tot overeenstemming komt. Niettemin zijn e
m.i. zeer belangrijke eigenschappen, die door zeer divers denkende mensen als wenseliF
opvoedingsdoelstellingen, d.w.z. als waardevol attribuut, worden aanvaard: b.v. 'z®'
standigheid' en 'uitingsvermogen', en waarvan men bovendien de indruk heeft, dat
school 'er iets aan kan doen'. Eveneens lijkt vrij algemeen aanvaard, dat onderzoek ne
middel is om na te gaan of de beoogde doelstellingen benaderd worden.
Wanneer onderzoekers zich op deze weg begeven, zijn er niettemin belangrijke voorvf^
gen, die de aandacht verdienen. Ik noem er enkele:
1
(1) Het operationeel maken van 'algemene waardevolle persoonlijkheidseigenschapP®''
blijft vooralsnog een twijfelachtige zaak. Op de achtergrond van déze problematiek W
het duidelijk gegeven, dat dergelijke eigenschappen zich vaak partieel, d.w.z. beperkt t"
bepaalde gebieden van gedrag manifesteren.
Uit de psychodiagnostiek (Bem, 1974) is bekend welke speciale moeilijkheden de beoord®
ling van dit soort eigenschappen oplevert. Dit neemt uiteraard niet weg, dat ook ee
partiele zelfstandigheid b.v. met het oog op zelfstudie, al bijzonder waardevol is. ^
(2) Zo straks duidden we aan, dat hypothesen over middelen t.b.v. deze doeleinde
gevormd moeten worden. Er is echter voor deze hypothesen weinig wetenschappehJ ^
ondergrond. Vaak zal de onderzoeker zijn weg moeten zoeken, of de practische opvoe
149
volgen. Met andere woorden we hebben op dit terrein zeker niet te doen met voor
aantrekkelijke, praxiologische vraagstellingen.
'Jns inziens moet de hele kwestie van de school-opvoeding m.b.t. waardevolle persoons-
Wbuten verder wetenschappelijk worden doordacht. Met de steun van gegevens uit
°nclusie-gericht onderzoek, ook waar dit betreft buitenschoolse factoren in de ontwikke-
zou allereerst een theoretische conceptie en van het vraagstuk zelf, en van de
y °8elijkheden, die de school kan bieden, tot stand moeten komen.
°als reeds opgemerkt kunnen we dit aspect van de onderwijsresearch thans niet veron-
achtzamen. We zijn er in wetenschappelijk opzicht echter niet voor klaar, zodat zowel
de effecten van de te gebruiken middelen, als ook t.a.v. de overtuigingskracht van
betreffende praxiologisch onderzoek geen hoge verwachtingen gekoesterd kunnen
'borden.
staat echter vast, dat onderwijsresearch diensten kan bewijzen en bewezen heeft. Dit
het geval als het gaat om 'harde doelstellingen'.
, et 'harde doelstellingen' bedoel ik doelstellingen, waarover geen meningsverschillen
loeven te blijven bestaan, en waarbij goede criteria zijn te construeren. Het gaat hier
^'Jeraard om weinig opzienbarende zaken zoals: vlot en met begrip lezen; schrijven;
kenen; een moderne taal leren, enz. Kortom noodzakelijke competenties, die voor
l^erse niveau's van onderwijs met enige goodwill zijn vast te stellen. De betreffende
■^cussies betreffen veelal vragen als: 'tot welk niveau?', 'na hoeveel jaar?'
^ aan de middelen-kant is de situatie aanzienlijk gunstiger dan bij de vorige categorie
, " onderzoek. Immers op dit terrein is er wel een omvangrijk verleden van research en
erhalve een gedocumenteerde varieteit van middelen, die voor een belangrijk deel
eoretisch-didactisch gehalte hebben,
genoemde factoren: eensgezindheid over doelstelhngen, criteria, gedocumenteerde
j^'ddelen, zijn noodzakelijke voorwaarden voor praxiologisch onderzoek.
^ uitvoeren van research in practische situaties stelt evenwel nog andere voorwaarden,
de acceptabiliteit van het onderzoek (zie A.D. de Groot, 1970).
i,
^ et lijdt geen twijfel, dat vandaag de dag de beste kansen voor onderwijsresearch liggen in
^ " praxiologische benadering van de variabelen, die de kennis-overdracht bepalen, dus in
g t doeleinden-middelen-model van onderzoek.
L .toch, er moet ook met nadruk gesteld worden, dat we hier niet een optimale situatie
"oen, niet voor het onderwijs, en niet voor het onderzoek.
daarom niet optimaal?
de eerste plaats geef ik een redenering, waarbij ik uitga van aanvaarding van doelstellin-
Op de wijze zoals die nu tot stand komen,
e moeten dan vaststellen, dat er gegeven een dergelijke doelstelling (bv. het kunnen
^ fvoegen van werkwoorden aan het eind van de 5e klas) een groot aantal onderling
j^'teenlopende middelen zijn, die binnen het praxiologisch onderzoeksmodel als een
•j,^ikbaar middel kunnen worden verdedigd.
de keuze van de middelen is er tekort aan theoretisch inzicht. Wanneer methodie-
strategieën, audio-visuele hulpmiddelen, zelfwerkzaamheid enz. primair gekozen
"■■den op grond van plausibele globale ideeën en intuïtief inzicht, of een vage behoefte
150 Doelstellingen van Onderzoek van Onder^'l'
om het anders te doen, dan is daar - bij gebrek aan meer genuanceerd inzicht - g®®"
bezwaar tegen; het is echter wetenschappehjk gezien wel pover, al is het voldoende
beslissingsgericht onderzoek!
Begrijpt U me goed, de praxiologische benadering is in de onderwijskunde en in v«®'
andere wetenschappen (de farmacie is ook een sprekend voorbeeld) een groot goed! I"
de middelen-doeleinden benadering kunnen we leren, dat het ene middel beter is dan h®'
andere; maar noch te voren, noch na het onderzoek weten we of leren we, waarom h®'
beter is. Ik laat even buiten beschouwing, dat soms aardige redeneringen achteraf gegev®"
kunnen worden.
In de tweede plaats staan we nog stil bij dit onderzoektype, onder de veronderstelling, da'
over de overeengekomen doelstellingen (vaak uiteraard een sequentie, eventueel m®'
hiërarchische aspecten) onzekerheid bestaat.
Ik wil geen al te pessimistische indruk maken, doch meen wel te kunnen stellen, dat a''^
dit zich voordoet, dh onderzoektype bijna onbruikbaar is. Alleen ingewikkelde constru®'
ties en lapmiddelen kunnen het nog redden.
Deze problematiek is een gevolg van het feit, dat het praxiologisch onderzoek in T^t
doelstellingsbepaling het van de communis opinio moet hebben. Een zekere traditional'"
teit of modieusheid is er daarom meestal wel bij.
Dit betekent, dat inzichten omtrent b.v. een andere, betere gang van het leerproces (b'^'
voor de beginselen van de vlakke meetkunde), en omtrent het gewenste emdgedrag
doelstelling) op andere wijze tot stand moeten komen. Dus niet binnen dit model; h"®
dan wel laat ik nu even rusten.
Ten slotte wil ik van de schaduwzijde van het praxiologisch onderzoek noemen dat h®'
voedsel geeft aan verkeerde neigingen m.b.t. het oordeel over de relevantie van onderwijl'
research. Mijns inziens wordt relevantie te vaak gezien in betrekking tot vigerend®
doelstellingen.
Het algemene antwoord op de aldus gerezen reserves t.a.v. de meest gangbare en sterks'®
vorm van onderwijsresearch is, dat er meer wetenschap van onderwijs nodig is. M®,®^
gespecificeerd gaat het om de behoefte aan theoretisch inzicht in de voor het onder^^ij'
centrale individuele processen bij leerlingen van verwerving van leergewoonten, en me''^'''
de van informatie-opname, -afweging en -verwerking, van teksten begrijpen, van tot e®"
vraagstelling en tot probleem-oplossen komen.
De kennis op deze punten schiet nog zeer te kort. Dit uit zich o.m. in een onanaly«®'^
gebruik van termen als 'onvoldoende aandacht', 'geen tekstbegrip', 'kan geen verba""
leggen', 'kan kennis niet in nieuwe situaties gebruiken' met een blijvende tendens d®
oorzaken daarvan in moeilijk te veranderen eigenschappen van het individu of mili®''
zoeken. Deze voorbeelden zijn met vele aan te vullen. Als ik dit onanalytisch gel"^'
noem, dan is dat omdat ze als 'verklaringen' voor te kort aan prestaties worden gebrui''
terwijl ze in wetenschappehjke (en ook in practische) zin aanleiding en inspiratie mo®'®"
zijn tot de 'waarom-vraag', dus tot analyse.
Het proces van begrijpen van instructies en aanwijzingen is als het ware het transpo|.''
middel voor de cultuuroverdracht, die dagelijks in de scholen plaatsvindt. En toch is ^
kennis van de voorwaarden, waaronder 'begrepen' kan worden, nog primitief en wei"®
omvattend.
Hetzelfde geldt voor de voorwaarden, waaronder bij leerlingen aandacht en eigen med®
denkactiviteit tot stand komt. Enkele studies van het type, dat in de hier bedoelde leei^
kan gaan voorzien, treft men aan in D. Klahr's 'Cognition and Instruction'.
''okkema
hoewel het onderwerp 'verschillen in individuele aanleg' reeds veel aandacht van onder-
zoekers gehad heeft, zullen zowel dit aspect, als ook dat van de motivatie in de toekomst
nieuwe research-initiatieven behoeven.
"et gaat echter niet alleen om de leerling, maar ook om de docent, onverschillig hoe men
Z'jn rol in het onderwijs van de toekomst ziet. Menselijke docerende activiteit zal er altijd
Z'jn; en het zijn déze docerende interacties van leraar-leerling en leraar-klasse, die nog zeer
'Geinig geanalyseerd zijn. Zoals de studie van moeder-baby interacties op het gebied van
taalverwerving tot ingrijpende theorie-wijzigingen t.a.v. de taalverwerving geleid heb-
J'en; zo biedt ook de analyse van leraar-leerling interactie belangrijke perspectieven. De
laatsti
den, o.m. J. Bruner, A. Collins en J. Greeno.
houd^ j^ren is een aantal vooraanstaande psychologen zich met dit onderwerp bezig gaan
dit type interactie-studies kan ook het belangrijke aspect van de structurele beperkin-
1 Van de klasse-situatie en van het leraar-gedrag betrokken worden,
t zijn deze kennisoverdracht, -opname en kennisgebruik situaties, die de volle aandacht
^an de wetenschap verdienen.
" toename van onze kennis van deze onderwerpen kan o.m. de volgende gunstige
J^ven-effecten hebben:
SoK l^euze van de middelen in praxiologisch onderzoek kan vanuit een meer theoreti-
^'^"e basis plaatsvinden.
• ten bijdrage tot een theoretische visie op aard en ordening van doelstellingen wordt er
^oor bevorderd.
staa^^ 'eraar zal op den duur meer practisch-bruikbare theorie ter beschikking kunnen
ggJ^® wetenschappelijke aanknopingspunten voor beleids- en organisatorische beshssin-
Worden op een wezenlijk punt verbreed.
■ Contouren en urgentie van Onderwijswetenschappen
^te ^^ ^ ^^^ voorgaande gedaan heb, is in feite weinig anders dan aangeven, wat het nog
jj^ rst zwakke centrum van de onderwijswetenschappen zou moeten zijn.
iiit'^^'^'^- zowel om de processen bij de leerling gaat, als ook om de
sjJ'^^etieve situatie, die met de onderwijsgevende ontstaat. Van deze specifieke sociale
e] die een opvoedkundig of instructief karakter heeft, maken ook de volgende
""lenten deel uit:
'v» ^^ ^e kant van de onderwijsgevende een stimulerende houding en hantering van
(^®^terking'.
(c) H ^ oogpunt van een opleidingsplanning gekozen activiteiten.
Onl • ^rdactische analyse, en beslissingen over transfervoorkeuren, behorend tot de
jPieidingspianning.
een '^^'■balve duidelijk, dat de centrum-research van de onderwijswetenschappen reeds
"lulti-disciplinair karakter draagt.
Ik h
het voornemen nog wat meer over de onderwijswetenschap te zeggen, en ik wil dat
W
^ijn immers in Nederland gaan hechten aan het multidiscipHnaire karakter van deze
-ocr page 156-152 Doelstellingen van Onderzoek van Onder^'l'
nieuwe wetenscliapsonderneming, terwijl we bovendien er aan gewend zijn geraakt, dat er
zich een ware olievlek van onderling weinig samenhangend onderzoek ontwikkelt.
De objecten van studie binnen 'het onderwijs' zijn zeer gevarieerd. Eén van de manieren
van ordening is die in micro/meso/macro-niveau. In het onderwijs wordt in ieder geva^
attitude-bei'nvloeding en kennis-verwerving bij individuele leerlingen beoogd. Men kanO''
opklimmend van het kleinste systeem, dat relevant is, steeds méér omvattende systemen
in het oog nemen. Elke verdergaande stap op deze scala heeft zijn specifieke vraagstellin-
gen en doelstellingen, processen, middelen en evaluatie-aspecten. Een schets van zo'n scala
is de volgende:
1. het informatie-verwerkende cognitieve systeem van de leerhng;
2. het persoonlijkheidssysteem van de leerling (motivatie, begaafdheid, etc.);
3. het sociaal systeem van leraar-leerling (meestal: leraar-leerlingen, i.c. 'de klas');
4. de onderwijs-ontvangende klas/school;
5. systemen van scholen.
Al naar gelang het niveau spelen activiteiten én/of producten van aparte organisatorisch
eenheden als systeem-componenten mee: leermiddelen-voorziening; curricula-ontwerp'
schoolbegeleiding, remedial teaching, onderwijzers-opleiding etc.
Deze opsomming geeft nog geen volledig beeld van de breedte van de onderwijsweten'
schappen, omdat op de hogere niveau's ook aspecten als economie, recht, organisatie-leef'
e.d. van betekenis zijn. Bij de veelheid die aldus ontstaat, is het goed de kern van de zaa
in het oog te houden. Daarop heb ik mij in mijn lezing geconcentreerd, omdat ik er va"
overtuigd ben, dat het antwoord op allerlei vraagstukken op niveau 3 t/m 5 mede bepaal
zal moeten zijn door de beperkingen en wetmatigheden die samenhangen met de eigenaaf
digheden van de kennisverwervingssituatie en de overdrachtssituatie en de daarbij beh"
rende activiteiten.
Zoals hierboven opgemerkt, hebben de diverse niveau's eigen specifieke vraagstellingen ®
evaluatie-aspecten. Dit imphceert dus óók eigen research van min of meer fundament®
karakter. De coördinatie en onderlinge afstemming van de variëteit aan onderzoekbehoe
ten is in een pril wetenschapsgebied een extra moeilijke opgave. Hopelijk kan het ontstaa
van een grotere duidehjkheid over wat de centrale vraagstellingen zijn, toch
bijdragen, al zijn dan op dit moment de vragen nog talrijker dan de antwoorden. In
geval meen ik lijnen te hebben aangegeven die bij prioriteit-stellingen van belang zijn.
4. Besluit
Op één aspect van mijn voordracht wil ik — zoMs aangekondigd — ten slotte teruggrijp®"'
De geuite reserves t.a.v. het praxiologisch onderzoek mogen niet uitgelegd worden als e^^
denigrering van dit onderzoek-type. Ten eerste is het onder zekere nog vaak voorkomei^ ^^
omstandigheden de enige weg, die te bewandelen is, ter ondersteuning van de praktij '
Het is voorts mede aan dit onderzoek-type te danken, dat een omvangrijke methodolo^ '
en onderzoeksinstrumentarium in de vorm van toetsen, beoordelingsmethoden etc.
stand gekomen is. Indien grote, ingrijpende wijzigingen beoogd worden, mag het na
onze huidige opvattingen eigenlijk niet achterwege blijven. . ^
Dit onderzoek-type kan, laten we dat niet vergeten, voldoen aan de methodologis'' ^
eisen en dus sterke conclusies opleveren. Het is het aspect van de tijdrovendheid om a
zijn voorwaarden te voldoen dat nog wel eens als een beletsel wordt aangevoerd. ^^
Een belangrijke fase in de beslissing tussen onderzoek of geen onderzoek is uiteraard
'^okkema 153
äfvveging van de kosten en baten in verschillende contingenties, die in het geding zijn en
® afschatting van de resp. waarschijnlijkheden. Met de kosten en baten zijn hier uiteraard
"iet uitsluitend de materiële bedoeld. In dit verband zijn opinies en ramingen in het
geding, zoals o.m.: hoe hoog schat men de waarschijnlijkheid, dat een bepaalde innovatie
r tonder voorafgaand onderzoek - aan de gestelde verwachtingen zal voldoen? Hoe
schat men de waarschijnlijkheid dat via onderzoek een betere startpositie voor
°itwikkehng en innovatie verkregen wordt? Wat zijn de kosten in geld, in afwijking van
J°utmes en personeelstijd van onderzoek?
. ® kans op baten van een situatie waarin tot praxiologisch onderzoek besloten wordt, kan
"I ieder geval verhoogd worden door in het onderzoek parallel méér dan één doel-mid-
elen relatie op te nemen. Voorts zijn er vaak mogelijkheden om gedurende een beslis-
singsgericht onderzoek materiaal in te zamelen dat dienstbaar kan zijn voor de verwerving
än meer fundamentele inzichten. Anderzijds is het denkbaar dat resultaten van conclusie-
bericht onderzoek van dien aard zijn dat direct overgegaan kan worden tot nieuwe
ontwikkelingen en innovaties.
omstandigheid, dat men op het terrein van het onderwijs zoveel tot probleem kan
erheffen, mag er niet toe leiden, dat van elk denkbaar vraagstuk een research-vraagstel-
'"g gemaakt wordt, en evenmin dat geen verbeteringen meer zouden kunnen worden
^^ternomen zonder dat de gehele sequentie van onderzoek- en ontwikkelingswerk is
ik Wil met deze opmerking pleiten voor een niet-dogmatische instelling t.o.v. het onder-
hoek. Voorzover het duidelijk geïndiceerd is, zal beleidsondersteunend,meestal duspraxio-
ösch onderzoek moeten worden opgezet. De progressie van de onderwijsfc««de is daar
"ter niet in de eerste plaats mee gediend. Eerder is het omgekeerde het geval: de
ogressie van de onderwijskunde - waarbij de problemen van de praktijk niet geschuwd,
^ äar doorschouwd worden - zal de kennisbasis, waarop beleid en praxiologisch onder-
moeten berusten, kunnen verrijken.
'-'teratuur
D.J. & Allen, A. On predicting some of the people some of the time: the search for cross-
p^l^'tuational consistencies in behavior. Psychological Review, 1974,81, 506-520.
PokW Opvoedkunde en opvoedkundig oné^zzosk. Pedagogische Studiën, 1976,109-116.
Kema, S.D. Doelstellingen van psychologie-beoefening en het dilemma verklaren/begrijpen. Neder-
de p ^ Tijdschrift voor de Psychologie, 1977,32,243-253.
A.D. Some badly needed non-statistical concepts in appUed psychometrics. Nederlands
^ïcAri/f voor de Psychologie, 1970,15, 360-376, (D.P.O.-nr.).
(ed.). Cognition and Instruction. HiUsdale, N.J.: Lawrence Erlbaum Associates, 1976.
. ""ingscommissie Onderwijsresearch. Onderwijs onderzoek in Nederland, 's Gravenhage: Staats-
^ Uitgeverij, 1976.
^än, B.B. Towards a science of psychological science, in: B.B. Wotaian en E. Nagel (eds.).
^'^'entific psychology. New York, 1965.
'^""^script ontvangen 13-5-'77.
-ocr page 158-154 Tijdschrift voor Onderwijsresearch 2 (1977), nr. ^
Samenvatting van de Forumdiscussie, ORD '77
Tijdens de ORD'77 te Amsterdam werd op 6 april 's avonds onder voorzitterschap van Df'
B. Creemers een forumdiscussie gehouden n.a.v. de hiervoor gepubhceerde lezing va"
prof. Fokkema.
Als discussianten waren uitgenodigd: Drs. W.G. Zijlstra (hoofd Centrum voor Onderzoek
van het Wetenschappehjk Onderwijs van de Universiteit van Amsterdam), drs. H.K.F-
Kaldenbach (Directeur Algemeen Pedagogisch Studiecentrum, Amsterdam), Drs. B. WiWe'
boer (Directeur Stichting voor de Leerplanontwikkeling) en drs. S.J.C. van Eyndhovefl
(plaatsvervangend directeur-generaal basisonderwijs. Ministerie van Onderwijs en Wetert'
schappen).
De kommentaren van deze discussianten en het antwoord van Fokkema worden hierondef
beknopt samengevat'.
Kommentaren van de discussianten
W.G. Zijlstra
Zijlstra, en meer algemeen de centra van onderzoek van het wetenschappelijk onderwijs«
zijn met Fokkema van mening dat het fundamenteel onderzoek versterkt dient te worden-
Het probleem is echter hoe dit te realiseren is, wat er nodig is en waar dit onderzoek rnoe
worden ingepast. De centra zijn van oordeel dat op dit punt zowel de centra zelf,
bestaande vakgroepen op dit terrein in aanmerking komen.
De doelstelling die Fokkema aan de onderwijsresearch toekent, nl. het maken van
wetenschap van onderwijs, dient nader te worden aangevuld tot wetenschap van onderwijl
die bruikbaar is voor de onderwijspraktijk. Fundamenteel onderzoek, praxeologis®"
onderzoek en ontwikkelingswerk mogen niet van elkaar losgekoppeld worden.
Een programmering van het onderzoek waarin deze koppehng gehanteerd wordt
noodzakelijk. Deze programmering moet zich niet beperken tot onderzoekswerk maaf
zich uitstrekken tot alle overige aktiviteiten op de ladder van fundamenteel onderzoek to
invoering in de onderwijspraktijk.
Daarnaast is nodig dat in de programmering niet alleen het werk binnen de centra en d
onderzoekinstituten verenigd in het institutenoverleg betrokken wordt, maar dat oo
gekeken wordt naar het fundamentele onderzoek zoals dat in de toeleverende disciplinf
plaatsvindt. Dit ontbreekt in de momenteel op diverse beleidsniveaus vigerende voorste -
len.
1 De samenvatting is verzorgd door Marinus J.M. Voeten (Instituut voor Onderwijskunde,
Nijmegen).
''°''"ir)discussie ORD '77 155
Kaldenbach
j ^nbach bracht drie punten naar voren:
• nij heeft moeite met de onderscheidingen konklusiegericht-besHssingsgericht en funda-
.^enteel-toegepast. Het gaat daarbij toch enkel om de vraag: heeft de onderzoeker zelf
spraak of besHssingsbevoegdheid ten aanzien van het stellen van het onderzoeksthema?
2 ®t gehanteerde onderscheid lijkt veelal een ahbi-functie te hebben.
• l-a.v. de afhankelijkheidspositie van de research t.o.v. de onderwijsdoelstellingen
ve^ k Kaldenbach op dat het de onderzoeker toch juist vreugde zou moeten
schaffen wanneer hij kan werken aan een hem vanuit de onderwijswereld aangereikt
nsnia.
liri geen hiërarchie te zijn vanuit kennis over leerprocessen naar verdere vraagstel-
g^gen ter zake van de struktuur en inhouden en doelstellingen van het onderwijs.
hehK^*^ "1 het onderwijs vele vragen die maar zijdelings of zelfs in het geheel niet te maken
en met de wijze waarop het leren zich binnen het individu zou voltrekken, of zou
eten voltrekken. Er zijn ook vragen over wat er geleerd moet worden, op welk tijdstip
'"•n welke kontekst.
meboer
r Zou gestreefd moeten worden naar een veel duidelijker struktuur waarin het onderzoek
eefunctioneert in een totahteit van leerplanontwikkeling, begeleiding, overdracht en
holing. Dat vereist een gezamenlijke afstemming en dus ook een gezamenlijke program-
_ ""uig. Of er meer fundamenteel onderzoek nodig is of meer praxeologisch onderzoek
gOeit dan voort uit een gezamenlijke bestudering van de problematiek,
tat "'^^ten meer systematisch kanalen worden geschapen waarlangs de onderzoeksresul-
in de praktijk kunnen doordringen,
og^^'otte konstateerde Wildeboer dat teveel óf in de micro- öf in de macrosituatie wordt
^ ^eht, terwijl juist in de leerplanontwikkeling en de begeleiding meer en meer aandacht
rdt geschonken aan de meso-struktuur (de schoolsituatie).
Sjr
van Eyndhoven
fg ondersteuning van het beleid, van de beleidsuitvoering en voor de evaluatie van de
jj^ «aten van dat beleid zou wetenschappelijk onderzoek uiterst nuttig zijn.
8eë '^^'^tie tussen research en beleid is echter problematisch; het beleid wordt te weinig
^alueerd door onderzoek, omgekeerd biedt het onderzoek nog te weinig aangrijpings-
Ond Voor de beleidsontwikkehng. Indien het onderscheid tussen vrij en gebonden
ho dat Fokkema, zij het in andere termen, hanteerde strikt zou worden aange-
re] • het ergste te vrezen voor de mogelijkheden voor een verbetering van die
^a^^ p tussen onderzoek en beleid.
Q %ndhoven vraagt de inleider waar diens voorkeur voor het fundamentele onderzoek
^P berust en in hoeverre diens betoog een bijdrage is tot wat naar zijn mening het
Q ^tgrijkste probleem is in de huidige onderwijsresearch, nl. dat er behoefte is aan een
^®ttend duidelijke programmering, een programmering die zowel het onderzoek van
onderwijs op zich, als het beleid ten goede zou moeten komen.
^"t^oord van Fokkema
kan het onderscheid konklusiegericht-decisiegericht handhaven zonder daarmee het
-ocr page 160-156 Forumdiscussie OPD
konklusiegerichte onderzoek in een ivoren toren te plaatsen. Konklusiegericht onderzoe''
is belangrijk omdat de doelstellingsconcepties op zichzelf aanleiding geven tot vragen
omdat de middelenkeuze vaak aan arbitraire invloeden blootstaat. Op de langere terniij"
gezien, levert het konklusiegerichte onderzoek een noodzakelijke bijdrage.
We moeten op verschillende abstractie-niveaus naar het ondervi^ijs kijken. Maar uiteind®'
lijk gaat het om de leerling, om de verrijking van zijn cognitieve mogelijkheden en offl "
vorming van zijn persoonlijkheid. Aan de andere kant is het zo, dat op de diverse niveaus
van de hiërarchie eigen vragen en eigen problemen een rol gaan spelen.
Er is ook nog ander fundamenteel onderzoek nodig dan het in de lezing bepleite.
Wat betreft de relatie onderzoek — onderwijspraktijk: er zijn natuurlijk tussenstatioij'
nodig, zoals er in Nederland ook al tot bloei zijn gekomen, tussen het fundament® ®
onderzoek en de onderwijspraktijk, ook al richt het onderzoek zich tot de reë®'
onderwijssituatie.
Het is belangrijk dat d.m.v. ontwikkeUng gewerkt wordt aan problemen uit de onderwijl
praktijk, ook indien dat ontwikkehngswerk nog geen harde wetenschappelijke achtef
grond heeft.
^'Jdschrift voor Onderwijsresearch 2 (1977), nr. 4 157
Publikatie van Tentamenvragen en de Tentamenskore
Wilmink
Bu
Onderwijs Ontwil<keling Geneeskunde, R.U. Groningen
^.."amenskore van iemand, die van een deel der gepubliceerde vragen het antwoord uit
gy„oofd kent, en op de te
aer
- J ----O-O"—---------------1
"~net tentamen bestaat uitsluitend uit vragen uit de gepubliceerde itempool, welke
2 aselekt en zonder teruglegging uit deze itempool getrokken zijn;
^vragen van het tentamen waarop het antwoord uit het hoofd geleerd is worden
Zonder uitzondering goed beantwoord (dus geen 'vergeten', geen vergissingen);
Publishing the itempool will presumably influence an examinees score if the items in the test
are a random sample of the total itempool. Assuming that the examinee knows some answers
by heart and guesses randomly at the others, the probability distribution of the examinees score
•s computed. It is shown that this distribution may well be approximated by a normal
distribution. Some realistic examples are given. These show that, provided the itempool is not
too small and the cutting point (pass/fail) is not too low, it is not an easy way of passing the
test to learn a part of the itempool by heart.
^ inleiding
de resultaten van een enquete onder eerstejaars studenten medicijnen in Groningen,
ch • ^ weken voor de afname van de eerste propedeutische tentamens (multiple
^^oice) van de kursus 1975/76, bleek dat, afhankelijk van het tentamen, 10 - 35% van
2gjJ^®^Pondenten zei niet over oude tentamens te beschikken; de overige respondenten
D- ^ Srote meerderheid wel over oude tentamens te beschikken (Wilmink, 1976).
nie^^ groep is daarmee in het voordeel vergeleken met de eerste groep, omdat in
We tentamens gewoonlijk een aantal vragen uit oude tentamens wordt opgenomen,
^elk ^^ "lening van vele studenten (en ook schrijver dezes) is dit een ongewenste situatie,
tgj, ® opgeheven zou kunnen worden door pubhkatie, door de verantwoordelijke docen-
> Van hun gehele itempool.
Ec
Puhl u^"^ de belangrijkste argumenten, die van docentenzijde worden aangevoerd tegen
stof ' van de itempool, is dat iemand dan voor het tentamen kan slagen zonder de
Vgjj gezien' te hebben, dus louter door uit het hoofd leren van een (relatief klein) deel
gg e gepubliceerde vragen (aangenomen dat bij iedere vraag ook het juiste antwoord
j^geven wordt - (g)een punt van diskussie). Voor een overzicht der voor- en tegenargu-
I^J^ten zie men van Naerssen (1973).
tg j°"der wordt dit argument onderzocht door na te gaan wat de kansverdeling is van de
ampr,„i------------^jg y^jj ggjj jjggi der gepubliceerde vragen het antwoord uit
gQ, ''""ta Kent, en op de tentamenvragen, waarop hij het antwoord niet weet, puur zit te
Hi^^." ('s™ple knowledge or random guessing model'. Lord en Novick, 1968, p. 303).
Wordt uitgegaan van drie assumpties:
158 Publikatie van Tentamenvrage"
— 3 —Op die vragen van liet tentamen waarop het antwoord niet uit het hoofd geleerd is
wordt puur gegokt.
De tentamenskore wordt dus bepaald door twee toevalsprocessen, namelijk het trekke"
van tentamenitems uit de itempool, en het raden op de niet bekende vragen. D®^®
processen worden weergegeven door respektievelijk de hypergeometrische en de binontiS'
le verdeling (zie § 2).
Wiskundig bezien is deze benadering nauwelijks verschillend van die, waarin de verdeling
van de tentamenskore bepaald wordt door verschillen in kermis en geluk bij het raden-
Voor de (a-priori-)verdeling van kennis worden diverse kansverdelingen gebruikt, bijvoof'
beeld de uniforme verdeling (van der Ven, 1974) of de Polya-verdeling (Molenaar, 197^)'
Inhoudelijk is er echter een duidelijk verschil: in het onderstaande gaat het niet oin d®
(a-priori-)verdeling van kennis over studenten, maar om de mate waarin die kennis bij ee'n
persoon in het tentamen de kans krijgt zich te manifesteren.
2 Kanstheoretisch gedeelte
Definities:
N = aantal gepubliceerde vragen;
w = aantal gepubliceerde vragen, waarop het antwoord uit het hoofd geleerd is (w ^
n = aantal vragen waaruit het tentamen bestaat (n <N);
m = aantal alternatieven per vraag;
X = stochastische variabele, gedefinieerd door: aantal vragen in het tentamen, waafOP
het antwoord uit het hoofd geleerd is;
y = stochastische variabele, gedefinieerd door: aantal vragen in het tentamen, waarop
het antwoord niet uit het hoofd geleerd is, maar waarop zuiver door raden (kans op
goed = 1/m) een goed antwoord gegeven is.
Wanneer iemand een tentamenskore z heeft behaald, kan het zijn dat hij op nul vragen h®^
antwoord wist (x = 0), en dus z vragen goed geraden heeft (y = z). Het kan ook zijn (dat |
het andere uiterste) dat hij op z vragen het antwoord wist (x = z), en verder geen enke
vraag goed geraden heeft (y = 0). Tussen deze twee uitersten liggen nog z-1 mogelijkhede .
(mits z > 0). De kam dat iemand een tentamenskore z behaalt, F {x + y = z}, word
zodoende gegeven door:
(1) F {x + y = z}=i; [P {x = k}*P {y = z-k}].
- - k=o -
Uit een itempool van N vragen kan men tentamens van n vragen samenstellen. Slee^'^
een deel van deze ( ) tentamens zal precies k vragen bevatten waarop de student n
it
antwoord kent. Deze k vragen zijn getrokken uit de w vragen waarop hij het antwoord n
zijn hoofd kent; dit kan op manieren. De overige n-k tentamenvragen zijn getr^^^
uit de N-w vragen van de itempool waarop hij het antwoord niet kent; dit kan op (^^^K
^Hmink 159
■Sanieren. In totaal zijn er dus tentamens van n vragen samen te stellen waarbij
H ^ —
e student op k vragen het antwoord uit het hoofd kent. P {x = k }is dus te berekenen als:
^it IS een hypergeometrische verdeling met parameters w en N-w.
ly = z-k }, de kans om van de n-k vragen, waarop de student het antwoord niet weet
z-k goed te raden, wordt natuurlijk gegeven door de binomiale verdeling met parame-
1-keni •
m
O)
en (3) volgt:
w N^
(4) P{x.y = z}=l
- - k = 0 ,N WW m^
n-^
blijkt eenvoudig dat Z P { x + y = z} = 1.
z = 0
^ BerekeningvanP{x + y = z}
O C n-k < N-w; en
O < z-k < n-k.
^^ en b) laten zich kombineren tot
yrv.aarde 1: max(0, n + w-N)<k< min(z, w),
terwijl c) herschreven kan worden als
^^orwaarde 2' k < z < n.
Ter vereenvoudiging van de notatie schrijven we: f,^) = (^T) / Ö'
Ê(k)= (n-k)pZ-kq"-^
"®tbUjktnu dat
(S) l(k4l),g(k+i)_._;
^li^^TI^ió p(k+l)(N-w-n-Hk+l)
-ocr page 164-160 Publikatie van Tentamenvrage"
dit volgt uit (N-w-n + k)! _
f (k) (k +1)! (w-k-1)! (n-k-1)! (N-w-n + k + 1)1
(w-k) (n-k) g(k + 1) _ (n-k-D! (z-k)! _ (z-k)
cn
(k + 1) (N-w-n+k+1) g(k) (z-k-1)! (n-k)! pZ-k (n-k) p '
Uitgaande van de eerste k waarvoor f(k)*g(k) > O, namelijk k = onderk, kunnen dus de kansen f(k +
* g(k + i), i = 1, 2.....uit deze eerste kans berekend worden met (5).
(N-w)! (N-n)! ,
lnf(0)= ln\„ ' ,, = In
N! (N-w-n)!
Verder is
/n-w / N
= N-w-n+1 / j = N-n+1
/N /N \ N , N w
n (k-w) /n j \= In n {(s-w)/s}= 2 Ind--)
\k = N-n+l/ j = N-n + l/ s = N-n+l s = N,-n+l
= ln
b c
Stellen we h(a, b, c) = In (1--), dan is dus
(6) lnf(0) = h(N-n+1,N, w);
analoog blijkt
(7) In g(0) = ln(p^q""^) + h(l, n-z, -z);
(8) lnf(w + n-N) = h(n+l,N, N-w);
(9) In g (w + n - N) = In (p^-w-n+N ^n-z^ ^ _ _z+w+n-N).
b-Resultaten
Met een PASCAL-programma werd een 75-tal verdelingen van x + ^ berekend, voof
verschillende waarden van n, N, w en m. Enkele resultaten zijn samengevat in tabel 1.
Uit tabel 1 blijkt bijvoorbeeld, dat op een tentamen van n = 60 vierkeuzevragen (m = ^^
iemand, die van N = 200 gepubhceerde vragen er w = 100 uit zijn hoofd kent, een kan^
van .720 heeft om een skore < 39 te halen (39/60 = .65), en dus een kans heeft van 287"
op een skore > 40. Opvallend is dat de invloed van de tentamenomvang n duidelijk grote'
is dan de invloed van het aantal gepubliceerde vragen N (mits w/N konstant).
De verwachting van de tentamenskore, gegeven w, is gelijk aan n(p + qw/N) (zie § 4)-
Voor w = O is deze verwachting gelijk aan np. Door kennis van w vragen van de N gaat ö
tentamenskore naar verwachting dus met nqw/N vragen omhoog. Het is duidelijk dat d'
effekt groter is voor grotere q, dus kleinere p, dus grotere m. Voor vierkeuzevragen is °
stijging dus groter dan voor tweekeuzevragen. In de realistische situatie N = 500, w = 20^'
n = 100, m = 2 is de kans om te slagen bij toepassing van een reële-kennisnorm van 50 "
gelijk aan P{x -H y > 75 }= 15.6%. Voor w = O is deze kans 0%. Deze winst van 15.6%»®'
naar onze mening, niet onredelijk, gezien w = 200.
'^il'nink 161
Tabel 1
\ ftï + ï)ln < z/n } voor verschillende waarden van m, n, w N en z/n
^"e kansen zijn vermenigvuldigd met 1000. Waarden < .5 of > 999.5 zijn weggelaten.
.70 .75 .80 .85 .90 .95
z/n
.60 .65
m
.45 .50 .55
W/N
n
992
20 120 382 720 931
22 278 795 987
30 139 389 704 915 987 999
3 49 311 752 970 999
60
120
60
120
200
.50
1000
2 21 137 454 823 981
60
120
60
120
200
.75
1000
100
150
100
150
200
.50
1000
100
150
100
150
200
.75
1000
^omentenvanx + y
+ 2 (Jx'y" vindt men gemakkelijk dat
i=0 1
E{(x + y)t}= 2 6 2 x'E{y"}P{x = x}.
i=0 ' x=0
Daar E { y } = (n-x) p en E { y^ } = (n-x)^ p^ + (n-x) pq, volgt uit (10):
Ül)
E {x + y} = np + qE {x};
-ocr page 166-162 Publikatie van Tentamenvrage"
(12) E {(x + y)^}= h^ p^ + npq-pq (l-2n) E {xJ + q^E {x^};
(13) O^ {x + y} = npq-pqE {x} + q^O^ {x}.
Deze formules gelden ongeacht de verdeling van x.
Voor X hypergeometrisch geldt:
r 1 w
E(5)-V
Invullen hiervan in (11) en (13) levert tenslotte:
(14) E {x + y} = n(p + q-);
(15) o2 {x + y}=nq(l-^) (p + q^ ■
- - N N N-1
5 Benadering van P {x + y = z }met normaalverdeling
In de vorige paragraaf werden verwachting en variantie van x + y afgeleid. Een normaal-
verdeling met dezelfde verwachting en variantie benadert de verdeling van x vrij goed.
Voor een viertal situaties is deze benadering uitgevoerd; de resultaten staan in tabel 2.
Tabel 2
Benadering van P {(x + y)/n < z/n }met normaalverdeling.
Alle kansen zijn vermeliigvuldigd met 1000. Waarden < .5 of > 999.5 zijn weggelaten. De regel
voorafgegaan door T geeft steeds de theoretische waarden, berekend volgens (4), de regel voorafgegaan
door B de waarden volgens de benadering met (16).
m w/N. N
z/n
.45 .50 .55 .60 .65 .70 .75 .80 .85 .90 -95
720 |
931 |
992 | ||||
722 |
929 |
991 |
999 | |||
1 |
47 |
396 |
891 |
998 | ||
1 |
44 |
405 |
889 |
996 | ||
9 |
128 |
545 |
920 |
997 | ||
8 |
127 |
552 |
918 |
996 | ||
« |
5 |
203 |
862 |
999 | ||
3 |
203 |
860 |
999 |
4 .50 200 60
4 .75 1000 120
2 .50 200 100
2 .75 1000 150
*
De waarden van E{x + y }voor deze vier gevallen zijn achtereenvolgens 37.5, 97.5, 75.0, 131.25. D®
waarden van a {x + y }zijn achtereenvolgens 3.400, 4.096, 3.955, 3.919.
Wilmink 163
Een kontinuïteitskorrektie van .5 is toegepast, dus
z+.5-E{x + y }
, O {x + y}
Waarbij <t(a) het oppervlak onder de standaardnormaalkromme is, links van a.
Rekenvoorbeeld
N = 400; n = 80; m = 4. De caesuur ligt bij 50% reële kennis, dus geslaagd bij 50 of meer
^■■agen goed. Iemand kent 40% van de itempool (w = 160). Wat is de kans dat hij slaagt
Voor het tentamen?
E {x + y} = 44;a2 {x+ y } i 17.66, dus a {x + y} = 4.2.
M X50} = 1-P{X+ y <49} = = 1 - l^l-Sl) = 1 - .90 = .10
"ieronder volgen nog twee voorbeelden van iets ruimer belang.
^ De caesuur ligt bij b% reële kennis. Iemand kent b% van de itempool. Wat is de kans
^at hij slaagt? , ,
^tel c = b/100. Dan ligt de caesuur bij n(p + qc). Verder is ook E{x + y }= n(p + qc). Dus
'^P{x + y>n(p + qc)}=
P{x + y<z}=<ï>
l-P{x+y<n(p + qc)-l}=
n (p + qc)-l+ .5-n (p+qc)
O{x+y}
a {x+y}
Voor a = 2 levert dit een kans van 60%, voor a = 4 een kans van 55%. (Aangenomen is dat
"^(P + qc) een geheel getal is).
De caesuur Ugt bij b% reële kennis. Hoe groot moet w/N zijn opdat de kans om te
5®gen tenminste 95% is?
^tel c = b/100. Dan ligt de caesuur bij n(p + qc). De kans om te slagen is dan
{x + y<n(p + qc)-l}=
O {x + y}
n (p + qc)-l + .5-n(p + qw/N)
nq (w/N-c) + .5
= «ï»
VnqO-^) (P + q^ •
O {x + y}
^ laatste uitdrukking moet dan gelijk zijn aan .95 = <I>(1.65). Uit deze gelijkheid kan
^/N opgelost worden. Voor het geval N = 400, n = 80, m = 4, b = 50 (zie het
rekenvoorbeeld na formule (16) levert dit w/N = .60. (Aangenomen is dat n(p + qc) en
"(P + qw/N) gehele getallen zijn).
164 Publikatie van Tentamenvrage"
6 Konklusie
Een van de belangrijkste argumenten, die van docentenzijde worden aangevoerd tegen
publikatie van de bij een tentamen behorende itempool, is dat iemand dan voor dat
tentamen zou kunnen slagen zonder de stof 'gezien' te hebben, dus louter door uit het
hoofd leren van een (relatief klein) deel van de gepubhceerde vragen (§ 1). In het
voorgaande is dit argument onderzocht door de kansverdeling te bepalen van de tenta-
menskore van iemand, die van een deel der gepubliceerde vragen de antwoorden uit zijn
hoofd kent, en op de tentamenvragen, waarop het antwoord niet uit het hoofd geleerd is,
puur zit te gokken.
Het bleek dat de invloed van het aantal tentamenvragen n op deze kansverdeling groter is
dan die van het aantal gepubliceerde vragen N, mits w/N konstant is (w is het aantal uit
het hoofd geleerde vragen).
Ten tweede bleek, dat de genoemde kansverdeling goed benaderd wordt door een
normaalverdehng met dezelfde verwachting en variantie. Deze verwachting /j wordt
gegeven door /n = n(p + qw/N), de variantie a^ door o^ = nq(l - (p +
hierbij is q= 1 - p; p = 1/m; en m is het aantal alternatieven per tentamenvraag.
Bovengenoemde resultaten werden verduidelijkt met enkele praktische voorbeelden (§ ^
en § 5). Uit deze voorbeelden blijkt dat, wanneer de itempool niet te klein is (bijvoor-
beeld N > 400) en de norm niet te laag (bijvoorbeeld 50% reële kennis), uit het hoofd
leren van vragen zeker voor de enigszins gemotiveerde student niet de moeite loont, e"
het eerder genoemde argument tegen publikatie van itempools dus onjuist is. Indien aan
de zojuist gestelde voorwaarden van omvang van de itempool en zwaarte van de tentamen*
norm voldaan is zou daarom publikatie van de itempool moeten worden overwogen; dit
geldt a fortiori wanneer een deel van de itempool reeds bij een deel der studenten bekend
is(§ 1).
Literatuur
Lord, F.M. en Novick, M.R. Statistical Theories of Mental Test Scores. Reading (Mass.): Addiso"
Wesley, 1968.
Molenaar, W. More Bayesian formula scores for random guessing. Heymans Bulletin 74 HB 162 E^'
Psychologische Instituten R.U. Groningen, Groningen, 1974.
Naerssen, R.F. van Voor- en nadelen van toetsen met bekende items. Nederlands Tijdschrift voor
Psychologie 1973,28, 259-266. ,
Ven, A.H.G.S. van der. A Bayesian formula score for the simple knowledge or random guessing mode •
Nederlands Tijdschrift voor de Psychologie, 1974,29, 409413.
Wilmink, F.W. Vragen aan eerstejaars geneeskunde over hun studie. BOOG-BuUetin 76-2. Bur
Onderwijs Ontwikkeling Geneeskunde, Groningen, 1976.
Manuscript ontvangen 2-6-'76
Definitieve versie ontvangen 7-12-'76
Tijdschrift voor Onderwijsresearch 2 (1977), nr. 4 165
Moeite en Tijd bij Conjunctieve en Compensatorische
Combinatie van Twee Toetsen
flobert F. van Naerssen
Subfaculteit Psychologie van de Universiteit van Amsterdam
Effort and study time in conjunctive vs compensatory combination of two achievement tests
The purpose of this investigation is to show how an examination model which seeks to
minimize student study time (van Naerssen 1976b), in conjunction with a Monte Carlo method,
helps to solve hitherto unsolvable problems. The expected effort (study time) when tests are
combined in a compensatory manner is central to the study. The situation of a student who has
to reach a minimum score (ms) for the combination of two tests is simulated. At every test
administration he may choose either of the tests - one strategy is to choose the test with the
lower score - until he reaches the ms. The student always aims at the optimal ability level with
the lowest expected total effort. Scores are generated with the binomial distribution of errors
and random numbers. The program calculates total effort and number of trials before the
student succeeds, as well as the means and standard deviations of groups of 100 persons. The
compensatory method is compared with one test of the total subject matter, of the same and of
double length, and with the conjunctive combination of the two tests. The compensatory
method seems to require the least effort, even when the ms is raised one point to equalize the
mean scores of the methods.
Probl
hoewel de vergelijking van conjunctieve en compensatorische combinatie van twee tests
®"ige tijd in de belangstelhng heeft gestaan - bijv. Cronbach en Gleser 1957, 1965, Lord
'963, van Naerssen 1966 - betrof het steeds een vergelijking van de totale utiliteit of
betrouwbaarheid van de combinatie. Hier gaat het echter om een vergelijking van de
"Joeite (tijd) die het de student kost om door de combinatie van tests te komen.
L^aar die moeite afhangt van de 'strategie' van de student wordt aangenomen dat deze de
Optimale strategie volgt. Daarom wordt gebruik gemaakt van het (derde) Tentamenmodel.
J^aar dit onlangs in dit tijdschrift beschreven werd (van Naerssen 1976b) kan een
"®schrijving hier achterwege blijven. Moeite en tijd bij de conjuctieve methode kunnen
Eenvoudig berekend worden met de in het genoemde artikel beschreven methode (waar-
mee toen het probleem werd opgelost tot hoever de minimum-voldoende-score (mvs)
■"oet worden verhoogd opdat het optimale vaardigheidsniveau t constant blijft als het
®^ntal tentamengelegenheden per jaar verhoogd wordt). Het gaat nu voord om het
probleem van de compensatorische methode, dat tot nog toe wegens de gecompHceerd-
niet werd aangevat. De moeilijkheid zit hierin dat de optimale strategie van de
^'^dent bij de voorbereiding van de tweede toets afhankelijk is van de gedeeltelijk van het
^oeval' afhankelijke score op de eerste toets.
Bewerking van een op de Onderwijsresearchdagen 1976 aangeboden paper.
eem
-ocr page 170-166 Conjunctieve en Compensatorische Combinatie
Het onderzoek dient vooral om te tonen hoe dergelijke problemen kunnen worden
aangevat, leder zal natuurlijk andere parameterwaarden moeten gebruiken. In het voor-
beeld hieronder wordt duidelijkheidshalve gerefereerd naar een concrete, bestaande situa-
tie, n.1. de twee Nunnally-tentames (G.U. A'dam, subfaculteit psychologie) van elk 50
twee-keuze-items, elk gemiddeld twee weken studie kostend, en die compensatorisch
worden gecombineerd. Zes maal per jaar is er tentamengelegenheid. De student mag bij
elke gelegenheid naar keuze één tentamen overdoen - waarbij de oude score vervalt — tot
de mvs voor de combinatie bereikt is. Voor de precieze betekenis van de parameters moet
verwezen worden naar het artikel van 1976b. Zie voorts tabel 5.
De parameterwaarden
- Het aantal items k van elk der beide tentamens is, zoals reeds vermeld werd, 50.
- Het 'nulniveau' to is 0,6. Bij tweekeuze-items zou men theoretisch een to van 0,5
moeten hebben, maar de werkelijke waarde ligt hier altijd boven.
- De mvs y^ voor de tentamencombinatie is 75, met als varianten 76 en 77.
- De verhouding capaciteit/leerstofomvang (c/x) is 0,25, dus als er geen vergeten zoU
optreden, zou het leren van vaardigheidsniveau nul tot vaardigheidsniveau 0,5 (b'J
tweekeuze-items overeenkomend met een aftestgrens van 75%) 0,5/0,25 = 2 weken
studie kosten.
- De verhouding geïsoleerdheid van de stof/geheugen (i/m) is 0,025, dus als de stof niet
wordt bijgehouden halveert de vaardigheid elke In (2/0,025) = 27,7 weken.
- De afstand tussen opeenvolgende tentamengelegenheden Wt is 8 (weken).
- Het engagement g is één; de student werkt dus 40 uren per week.
De bedoeling is nu om de moeite (hier gelijk aan het aantal studieweken, omdat g = 1) d'®
het de student kost om met de optimale strategie door de beide tentamens te komen te
vergeUjken met die bij drie voor de hand liggende alternatieve methoden, te weten:
a) de twee tentamens van 50 items conjunctief gecombineerd; de student begint pas met
het tweede tentamen als hij voor het eerste geslaagd is,
b) één tentamen over de gehele stof, dus c/x wordt half zo groot (0,125). Het dubbele
tentamen heeft slechts 50 items bijv. omdat niet meer items m de toegestane tijd
beantwoord kunnen worden.
c) één tentamen van 100 items; dit kan als er evenveel items in de voorraad zitten als bij
a; c/x = 0,125.
Uitkomsten bij de niet-compensatorische methoden
De uitkomsten bij de niet-compensatorische methoden staan in tabel 1. De betekenis va"
a, b en c werd hierboven reeds vermeld. Wat de kolommen aangaat: t is het optimal®
kennisniveau (de ware score), uiteraard ongeveer gelijk aan de minimum-voldoende-scot®
(mvs); p is de slaagkans bij elk tentamen, f is de 'effort', de verwachting van de totale
moeite, dus het gemiddelde aantal studieweken; fj is het deel daarvan dat nodig is
voor de eerste keer het optünale kennisniveau te bereiken: f2 is de moeite, die het k"®
om dat niveau opnieuw te bereiken bij de volgende tentamengelegenheden wanneer m®"
gezakt is; Sf is de standaardafwijking van de moeite (de een zakt immers vaker dan "
ander) en x en Sx zijn gemiddelde en standaardafwijking van de score.
Van Naerssen 167
Tabel 1 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Om de moeite bij de conjunctieve methoden (a) te vergehjlcen met die van de methoden b
of c moet men de eerste met twee vermenigvuldigen: er zijn daar immers twee tests, die
achtereenvolgens gehaald moeten worden.
^it de drie 'standaard' berekeningen (eerste drie regels van tabel 1) kan men zien dat de
"lethode met één gecombineerde test van 100 items de minste moeite kost voor de
studenten (f = 3.703), daarna komt de methode met één test van 50 items (die uiteraard
Onbetrouwbaarder is), terwijl de conjunctieve methode het meeste werk betekent (f =
2 X 1.975 = 3.95). Deze volgorde ziet men ook bij verhoogde aftestgrenzen (laatste vier
■■egels van de tabel).
Op de volgende twee maal drie regels wordt W3 gevarieerd, dit is het tijdverlies tijdens het
tentamen zelf. Als W3 = O dan is de volgorde omgekeerd: conjunctief is nu de voordeligste
"lethode; begrijpelijk: als W3 = O is het niet zo erg telkens opnieuw tentamen te doen en
de moeite is dan ook geringer door de gesplitste stof. Maar de situatie W3 = O is
Onrealistisch, om welke reden deze parameter juist is ingevoerd (van Naerssen, 1976b); W3
is hier 'standaard'.
"e laatste vier regels van tabel 1 geven de situatie weer bij verhoogde minimum voldoen-
de-score. Als de eis 76% is zijn de gevallen a en b nog identiek aan de standaardsituatie
(mvs = 38), vandaar dat deze niet nogmaals in de tabel zijn opgenomen. Maar bij een eis
^n 11% zijn er in alle drie de gevallen verschillen, en wel in de verwachte richting,
"et gaat echter bij dit onderzoek vooral om de compensatorische combinatie.
berekening van de verwachte moeite bij de compensatorische combinatie
^erbij is gebruik gemaakt van de Monte Carlo methode, die onlangs ook met succes werd
toegepast bij een vergehjkbaar probleem (van Naerssen 1976a). Het programma genereert
'persoon', d.w.z. zeven registers worden gereserveerd waarin resp. de vaardigheid t en
168 Conjunctieve en Compensatorische Combinatie
de laatste (geldende) score van de beide tentamens, de identiteit (1 of 2) van het
momenteel bestudeerde tentamen, de totale moeite tot het slagen voor de combinatie en
het aantal afgelegde tentamens worden bewaard.
Na het eerste tentamen kan het na te streven optimale vaardigheidsniveau precies
berekend worden omdat slechts met één test rekening hoeft te worden gehouden,
waarvan de minimum-voldoende-score bekend is: van de eerste test yn, — y2 en van de
tweede test y^ - yj.
Bij het allereerste tentamen wordt als optimale niveau een benadering gebruikt, namelijk
het optimale niveau in de situatie waarbij er slechts één test is met mvs van yni/2.
De persoon begint met de eerste test, schat de optimale t, studeert tot dat niveau (dat
bewaard wordt in het eerste vaardigheidsregister, en de moeite - studeertijd - in het
moeiteregister). Dan doet 'hij' tentamen, d.w.z. er wordt een score gegenereerd met
behulp van t, k, de binomiale verdeling en een 'random getal'. De score yi wordt bewaard
in hetyi register.
Dan wordt gekeken of de persoon geslaagd is voor de combinatie, d.w.z. of yi minstens
gelijk is aan ym - y2- Zo ja, dan is de eerste persoon afgehandeld en kan de tweede
worden gegenereerd. Zo nee, dan kiest hij het volgende tentamen. De voor de hand
liggende strategie luidt: kies het tentamen met de laagste (geldende) score. Een alterna-
tieve strategie, die ook onderzocht werd, luidt: kies het tentamen met het laagste
(momentele) vaardigheidsniveau.
Het spreekt vanzelf dat de persoon na het allereerste tentamen niet geslaagd kan zijn
(tenzij yn, niet groter is dan k), en dat dan bij beide strategieën steeds de tweede toets
gekozen wordt.
Na de toetskeuze volgt een vergeetfase, waarin het vaardigheidsniveau van beide tenta-
mendelen daalt volgens de vergeetcurve. Dan volgt de studeerfase, waarin het niveau van
de gekozen toets stijgt tot het optimale niveau, terwijl dat van de andere toets blijft dalen-
Bij de berekening van het optimale niveau en van de moeite wordt rekening gehouden met
het vaardigheidsniveau op het moment waarop de (her-)bestudering begint.
Zo volgen de fasen van tentamenkeuze, vergeten, optimale-niveauberekening, studeren en
score-halen, alles binnen de tijdsafstand tussen twee gelegenheden w,, elkaar op tot de
persoon voor de combinatie geslaagd is.
Bewaard wordt, naast slaagscore en totale moeite, ook het aantal tentamens voordat d®
persoon geslaagd is. Van de totale groep personen worden gemiddelde en standaardafwij'
king van moeite en slaagscore berekend door het programma.
De berekeningen worden steeds verricht bij groepen van 100 personen.
Uitkomsten bij de compensatorische combinatie
In tabel 2 staan vier grootheden: de gemiddelde moeite f, de standaard-afwijking van f, ^e
gemiddelde score van de geslaagden x en de standaardafwijking van deze scores, bij vij'
gevallen van compensatorische combinatie: standaard (d.i. W3 = .2 en mvs = 75), W3 =
W3 = .1, mvs = 76 en mvs = 77. Maar de gevallen met gewijzigde W3 hebben hier een
speciale betekenis: W3 wordt alleen gevariëerd bij de keuze van het optimale kennisniveau
bij de eerste .toets, om te zien of een daar hoger (bij W3 hoger) of lager gekozen
kennisniveau invloed heeft op de totale moeite. Die eerste keer is de strategie van de
student immers nog erg onzeker. De uitkomsten moeten dus vergeleken worden met he
standaardgeval van tabel 1.
Van Naerssen 169
Tabel 2 | ||||
Compensatorische combinatie. | ||||
.__ | ||||
f |
Sf |
X |
Sx | |
standaard |
3.12 |
.89 |
76.87 |
1.78 |
W3 = 0 |
3.25 |
.97 |
76.74 |
1.75 |
W3 = .l |
3.32 |
.80 |
76.71 |
1.58 |
nivs= 76 |
3.32 |
.94 |
78.12 |
1.77 |
mvs = 77 |
3.88 |
1.29 |
78.64 |
1.53 |
andere strategie |
3.40 |
1.21 |
76.89 |
1.77 |
^'j de interpretatie van deze tabel moet men vooral in het oog houden dat hier gebruik is
gemaakt van de Monte-Carlo-methode (i.t.t. de berekening van tabel 1), zodat de uitkom-
sten gedeeltelijk op 'toeval' berusten.
Het feit dat 'standaard' minder moeite vereist dan 'verlaagde W3' wijst er op dat de
student beter niet de eerste keer wat lager mikken kan. Maar het feit dat de f van het
geval W3 = O weer lager ligt dan die van W3 = .1 wijst er op dat we voorzichtig moeten zijn
•net interpretaties: het zou wel eens 'toeval' kunnen zijn. Om meer zekerheid te krijgen
het experiment vele keren herhaald moeten worden.
Vergelijkt men de standaardsituatie van tabel 2 met die van tabel 1 dan ziet men dat
compensatorische combinatie van twee tests minder moeite kost dan welke andere
methode ook.
^n criticus van de compensatorische methode zou nu kunnen opmerken dat bij deze
niethode de student met een gemiddeld lagere score eindigt (dus minder kennis heeft
Vergaard): 76.86 tegenover 77.95 bij '100 items ineens'. De regel met mvs = 76 van
tabel 2 leert nu dat men bij de compensatorische combinatie de gemiddelde score van de
ëeslaagden tot 78.12 kan verhogen door de mvs één punt omhoog te schroeven, zonder
dat de totale moeite het niveau bereikt van dat van 'een test van 100 items': 3.32 i.p.v.
^•70. Pas als de mvs 77 is geworden, is de moeite daarbovenuit gestegen tot 3.88.
Tabel 3 | ||||||||||||||||||||||||||||||||||||||||||
|
170 Conjunctieve en Compensatorische Combinatie
Tot nog toe is de strategie van de student steeds geweest: doe het tentamen (over) waarop
de tot nog toe gehaalde score het laagst is. Deze strategie lijkt beter dan.het alternatief:
doe het tentamen over waarvan de kennis het laagst is. De uitkomsten van die strategie
staan op de laatste regel van tabel 2.
Tabel 3 geeft - bij de compensatorische methode - het aantal malen tentamen-doen, dat
nodig was om door de combinatie van twee tests te komen, de linkerkolom 'standaard',
rechts met de andere strategie (laagste kennis).
Tabel 4 geeft bij de standaardsituatie de verdehng van de scores voor de tentamencombi-
natie. Deze lijken erg op de uiteindehjke Nunnally-scores in de realiteit.
c/x capaciteit/leerstofomvang
f verwachting moeite (met fj en f2)
g engagement
i/m geïsoleerdheid/geheugen
k aantal items
p slaagkans
t ware score met tg (nuhiiveau)
wj weken tussen tentamens, W3 tentamendag
X scores op toetsen
Xm minimum-voldoende-score (= yi + ya)
Tabel 4 Tabel 5 | ||||||||||||||||||
| ||||||||||||||||||
100 |
Ook daar een grote groep die elke van de beide tentamens maar één keer hoeft te doen,
tegenover anderen, die soms tien keer tentamen doen. Ook daar vele personen met scores
van 75 of 76, en enkele met 80 of hoger. Maar bij de Monte-Carlo-berekeningen gaat het
om 100 'personen' met precies dezelfde capaciteit en geheugen, en zelfs dezelfde strate-
gie. De uitkomsten herinneren ons er aan, dat spreiden van scores en aantal keren
tentamen-overdoen op zich nog helemaal niet hoeft te betekenen dat de studenten
spreiden in capaciteit!
Het verschil tussen de gemiddelden van 'standaard' en 'alternatief in tabel 3 is niet
significant.
Slotopmerkingen
Het onderzoek past in een serie, die beoogt door middel van een model (systeembenade-
ring) het (hoger) onderwijs flexibeler en efficiënter te maken. Ook vóórdat modelhyP°'
thesen zoals die over leer- en vergeetcurven, waarover in de hteratuur gelukkig wel wa
bekend is, uitvoerig getoetst zijn, kan overeenstemming tussen belanghebbenden bereid
worden over de voorlopige aanvaarding van een eenvoudig model en over de grootte van
de parameters, zodat maatregelen getroffen kunnen worden, waarvan verwacht k^
worden dat zij het onderwijssysteem efficiënter maken, bijvoorbeeld de doorstroming
bevorderen zonder tot niveaudaling te leiden.
Het onderzoek dient vooral als illustratie, om te tonen hoe het 'tentamenmodel' benU
kan worden en in welke richting het zich zou kunnen ontwikkelen. Vermoedelijk
hierbij steeds meer gebruik gemaakt worden van Monte-Carlo-methoden, waarbij 'pers®
Van Naersen 171
nen' en hun scores gegenereerd worden door de computer, en waarmee de oplossing van
alle op dit gebied liggende problemen alleen nog maar een kwestie is van geld en geduld.
Het betreft hier een volkomen braak liggend terrein dat, ondanks het potentiële belang,
nog nergens buiten Nederland serieus is geëxploreerd. Helaas hebben zich ook in ons land
nog geen onderwijskundigen, wiskundigen of systeemtheoretici aan deze problematiek
gewaagd.
Literatuurverwijzingen
Cronbach, L.J. and G.C. Gleser. Psychological tests and personnel decisions. Urbana, U.S.A., 1957,
1965.
Lord, F.M. Cutting scores and errors of measurement - a second case. Educational and Psychological
Measurement, 1963,23, 63-69.
Naerssen, R.F. van. Van score tot beslissing; slagen of zakken. In: Tweede Nationaal Congres
Onderzoek Wetenschappelijk Onderwijs, Utrecht, 1968.
Naerssen, R.F. van. Computersimulatie bij het onderzoek van tentamenregeUngen. Tijdschrift voor
Onderwijsresearch, 1976a, 1, 112-117.
Naerssen, R.F. van, 1976b. Het derde tentamenmodel met een toepassing. Tijdschrift voor Onderwijs-
research, 1976b, i, 161-171.
'Manuscript ontvangen 27-7-'16
definitieve versie ontvangen 18-ll-'76.
172 Tijdschrift voor Onderwijsresearch 2 (1977), nr. ^
Toetsing van een Model op Metingen
Binnen-de-Subjecten
Michel Zwarts'
Vakgroep Onderwijskunde, I.P.A.W. R.U. Utrecht
The DAL-project investigates the effects of the inservice training on early reading instruction by
the School Advice Centre at Utrecht.
Some aspects of the teacher behavior are analysed with a multivariate repeated measures design-
The exact procedure is described in an appendix.
The effect of the inservice training is mainly a decrease in instructional activities and an increase
in organizational activities.
In onderzoek van het onderwijs doet zich regelmatig de situatie voor dat, bij een groep
overigens ongedifferentieerde docenten of leerlingen, dezelfde metingen worden verricht,
terwijl deze metingen een duidelijke struktuur vertonen. Indien deze struktuur geformu-
leerd kan worden als een lineair model, wordt meestal gesproken van een model met
herhaalde metingen. Een dergelijk model kan op verschillende wijzen geanalyseerd wor-
den, m.n. multivariaat of univariaat. (Bock, 1975; Voeten, 1974).
In het volgende worden onderzoeksgegevens van het D.A.L.-onderzoek^ multivariaat
geanalyseerd, uitgaande van een algemeen hneair model op de metingen binnen-de-subjek-
ten. De gevolgde procedure wordt in een appendix formeel verantwoord.
Het model
Verondersteld wordt dat de skores van een proefpersoon het effekt zijn van een aantal
onbekende parameters en dat dit verband voor elke proefpersoon hetzelfde is. Een aantal
van de parameters zijn op grond van de onderzoeksvraagstelling van belang, terwijl een
aantal onbelangrijk kan zijn en afleidingen op "grond van de interessante parameters
verstoren.
Als eerste stap bij de analyse dient dan te worden nagegaan of in het model de
onbelangrijke parameters kunnen worden verwaarloosd. Als dat het geval is, hangen de
skores alleen van de belangrijke parameters af en is het dus mogelijk afleidingen op grond
van deze parameters te doen. Een dergelijke toetsing is mogelijk als, uitgaande van de
gegeven skores, nieuwe skores gekonstrueerd kunnen worden die alleen afhankelijk zijn
1 Voor het kritisch doorlezen van dit artikel ben ik G. Mellenbergh dank verschuldigd.
2 Het D.A.L.-onderzoek is mogelijk door subsidie van S.V.0. (projekt 0204).
-ocr page 177-Zwarts 173
Van de onbelangrijke parameters. Met de verschillen tussen proefpersonen als 'error' bron
kan dan getoetst worden of deze gekonstrueerde skores signifïkant van nul afwijken en
daarmee of de betrokken parameters verwaarloosd mogen worden. Als de onbelangrijke
parameters verwaarloosd mogen worden, is het mogelijk om een nieuw model op te
stellen met alleen de belangrijke parameters, dat dan verder geanalyseerd kan worden.
Het onderzoek
In het D.A.L.-onderzoek wordt onderzoek verricht naar het effekt van de begeleiding van
het onderwijs in het aanvankelijk lezen op het handelen van de leerkracht en op het
sociaal gedrag en de leesprestaties van de leerling (vgl. Appelhof 1975).
Voor de analyse op grond van bovenstaand model, is uitgegaan van de volgende twee
Vragen:
Is er effekt van de begeleiding van het onderwijs in het aanvankelijk lezen op de
inhoudehjke dimensie van het onderwijzend handelen?
2. Is er sprake van verandering van dit handelen in de loop van het jaar?
Opzet, instrumentatie en analysewijze
Het onderzoek omvat vergelijkmg van gegevens die in 1973/'74 zijn verzameld bij 16
Utrechtse leerkrachten, terwijl zij niet begeleid werden, met gegevens die in 1974/'75 bij
dezelfde leerkrachten zijn verzameld, terwijl zij wel begeleid werden. De leerkrachten
Vormen geen steekproef uit een bekende populatie.
f^e leerkrachten zijn m 1973/'74 in twee periodes geobserveerd (februari en mei) en in het
jaar waarin zij wel begeleid zijn in drie periodes (september, februari en mei). In elke
Periode is met tussenpose van ongeveer een week tweemaal gedurende een half uur
pobserveerd tijdens een gewone leesles. Dit gebeurde door twee observatoren die elke
'eerkracht in elke periode eenmaal geobserveerd hebben. Tijdens de observatie-periode
Categoriseerden zij het handelen van de leerkracht elke 5 sekonden op 3 dimensies,
daaronder de inhoudehjke dimensie. Bij één leerkracht ontbrak één observatie m februari
®n mei 1974. Als schattmg is de observatie van de andere gelegenheid genomen. Het
gebruikte instrument en zijn kwaliteiten zullen elders uitvoerig worden besproken
(Zwarts, 1976).
Op de inhoudehjke dimensie van het observatie-instrument zijn de volgende skores
gedefinieerd:
i- leesinstruktie;
organisatie;
observeren;
reageren op leerlingen;
• leerlingdominantie;
O- rest
rest.
^e eerste vier skores geven de proportie aan van het totaal aantal kategoriseringen minus
de restkategorie.
174 Metingen Binnen-de-Subjeliten
Leerlingdominantie betekent dat de aandacht van de groep die geïnstrueerd wordt,
gericht is op een leerhng: bv. bij bordbeurten op hardop lezen; de betreffende skore is de
proportie van de leesinstruktie. Reageren op leerlingen is zo weinig voorgekomen, dat
deze skore verder niet in deze analyse is betrokken.
Bij de analyse zal er rekening mee worden gehouden dat de skores niet onafhankelijk zijn.
Verondersteld wordt dat de skores het effekt zijn van:
- de begeleiding tot aan de observatieperiode;
- de periode zelf;
- restfaktoren zoals observatoren, veranderingen in onderwijzend handelen tussen de
observatie-momenten (± 1 week) en alle mogelijke interakties.
Op grond van de vraagstelling zijn we geïnteresseerd in het effekt van de begeleiding en
het effekt van de periodes. Meer in het bijzonder willen we het effekt schatten van de
begeleiding in februari en mei en het verschil tussen de momenten m het jaar waarin
begeleid is. De restfaktoren zijn dus storend.
In het volgende verstaan we onder
yjjk de skore van een willekeurige leerkracht in jaar i tijdens periode j bij observator
k, i = 1 in 1973/'74 en 2 in 1974/'75, j is 1 in september, 2 in februari en 3 in
mei, terwijl k = 1 bij observator 1 en 2 bij observator 2.
De parameters worden als volgt aangeduid:
g het algemeen gemiddelde;
bj het effekt van begeleiding tot een bepaalde periode;
Pj het effekt van de periode, en
ryk het resteffekt.
Het effekt van de diverse faktoren op de 10 skores kan nu als volgt worden weergegeven:
•
yi21 = g+P2 +ri2i
yi22 =g + P2 +ri22
yi31 =g + P3 +ri31
yi32 =g + P3 + 1'132
y2ii =g + Pi-l-rjn
y212 =g + Pl + bl +r212
y221 = g + P2 + b2 +r221
y222 = g + P2 + ba + r222
y231 =g + P3 + b3 +r231
y232 = g + P3 + ba + r232
«
Hieruit bhjkt dat er geen enkele kombinatie van de skores is die alleen afhangt van de
interessante parameters; steeds spelen de restfaktoren een rol. Eerst moet dus getoets
worden of de effekten van de restfaktoren verwaarloosd mogen worden. De verschiU®"
Zwarts 175
tussen de observaties in elke periode zijn alléén van deze restfaktoren afhankelijk: bv.
^121 -yi22 =ri2i - ri22 •
Op grond van deze verschillen kan de toetsing dus uitgevoerd worden. Het resultaat van
deze toetsing voor de onderscheiden skores is weergegeven in tabel 1. Uit deze tabel blijkt
dat bij geen enkele skore de nulhypothese verworpen kan worden. De restfaktoren mogen
dus verwaarloosd worden.
Tabel 1 Toetsing van de restfaktoren. | ||||||||||
|
Een nieuw model op basis van de gemiddelde skore over de twee observaties in elke
periode is nu:
Vl2. =g+p2
^13. =g + P3
^21. =g + Pi + bi
^22. = g + P2 + bj
^23. =g + P3 +b3
'^e punt duidt aan dat het gemiddelde is genomen over de betreffende faktor. De
gemiddelden per periode voor de onderscheiden skores zijn opgenomen in tabel 2.
:en
Tabel 2 'bemiddelde skore per periode. | ||||||||||||||||||||||||||||||||||||||||||
|
•Resultat!
^P grond van de vraagstelling willen we het effekt van de begeleiding tot februari en tot
■^ei schatten. Het verschil tussen de gemiddelde skores in februari en mei van beide
176 Metingen Binnen-de-Subjeliten
betrokken jaren is alleen van de begeleiding afhankelijk en kan dus uitgangspunt zijn bij
de schattingsprocedure:
y22» -yi2' =bi;y23- -yia- =b3
Vervolgens willen we schatten hoe groot het verschil is tussen het effekt van de periodes.
Het bhjkt dat een dergeUjk verschil altijd besmet is met het effekt van begeleiding:
y22- -y2i. =P2 +b2 -Pi -br.yaa. -yn- =P3 + b3 -P2 -b2
De vraagstelling moet dus beperkt worden tot 'veranderingen in handelen binnen het jaar
waarin begeleid is'.
De verschillen tussen de gemiddelden van de periodes binnen 1974/'75 bieden een
aanknopingspunt voor de schattingsprocedure.
De schattingen van het begeleidingseffekt in februari en mei (ba en ba) en de schatting
van de verschillen tussen de periodes (pa + ba - Pi - bj; pa + ba - pj - ba) zij''
weergegeven in Tabel 3).
Tabel 3 Schatting en toetsing van de effekten onder het kovariantiemodel. | |||||||||||||||
| |||||||||||||||
+ signifikant op .05 nivo |
Bij de schattmgsprocedure is rekening gehouden met de informatie die de verschilled'
tussen de observaties in elke periode bevat, door deze verschillen als variabelen in het
model op te nemen. Bovendien is getoetst of een schatting signifikant van nul afwijkt.
Met betrekking tot de begeleiding vertonen twee skores een duidelijk effekt: lezen ^^
organiseren; de proportie observeren blijft vrijwel konstant.
Rekening houdend met onderlinge afhankelijkheid betekent dit dat er, vermoedelijk als
gevolg van begeleiding, een verschuiving optreedt in het onderwijzend handelen van
instruktie naar organisatie, terwijl de proportie observeren van leerlingen niet verander^
Leeriing-dominantie is m het tweede jaar van het onderzoek lager, maar dit verschil i®
alleen in februari signifikant.
Met betrekking tot het verschil tussen de periodes geeft alleen leeriing-dominantie een
signifikant effekt en wel een toename. De toetsing van de effekten uit tabel 3 dient niet
enige voorzichtigheid te worden geïnterpreteerd, om.dat deze effekten niet ongekorreleern
zijn. (vgl. Berger, 1976).
Zwarts 177
Appendix
Verantwoording gevolgde procedure
In een model voor herliaalde metingen is het vaalc niet verantwoord om te veronderstellen dat de
residuen na fitten van een univariaat model ongekorreleerd zijn. In dat geval dient te worden uitgegaan
^an een multivariaat model.
t^e struktuur die de metingen binnen-de-subjekten vertoont kan soms worden weergegeven in de vorm
J'an een regressievergelijking, soms als een variantie-analyse design. Omdat beide benaderingen specifi-
caties zijn van het algemene lineaire model, wordt dit model hier als uitgangspunt gebruikt.
Steunend op Grizzle & Allen (1969) en Bock (1975) komt de gevolgde procedure op het volgende
neer.
Het model is
(1) E(Y)=1BP'
V(Nxp) is de matrix met p observaties van N Subjekten. l(Nxl) is een vektor met N enen die aangeeft
dat de Subjekten een steekproef vormen uit één populatie. B(lxq) is de parametermatrix en P(qxp) is
de matrix die de relatie van de parameters met de skores weergeeft, r(P) = p < q •
Verondersteld wordt dat de rijen van Y onafhankelijk en multivariaat normaal verdeeld zijn met gelijke
•^ovariantie-matrix.
Omdat r(P) = p kunnen p lineair onafhankelijke toetsbare funkties op B geformuleerd worden. De
Coëfficiënten van deze funkties kunnen worden weergegeven in een matrix L(qxp) = PT, met T(pxp)
"iet-singuUer.
"®t is nu mogelijk op Y een submodel van (1) te formuleren dat gebaseerd is op slechts r van de q
Parameters van B:
(2) E(Y)=lBiPi,
jjjaarbij Bjdxr) en Pi(rxp), r < q.
^odel (2) kan opgevat worden als model (1) onder de beperking dat de (q-r) niet opgenomen
P^ameters verwaarloosd mogen worden. Dit houdt in dat toetsbare funkties op deze parameters gelijk
^•jn aan 0. Er zijn maximaal k = r(P) - r(Pi) van dergelijke funkties die Uneair onafhankeüjk zijn. Laat
koëfficiënten van deze funkties een submatrix Lg = PTo van L vormen, L = [Lj Ln) = P[T| Tn],
geldt BLq = 0.
® matrix Li bevat r(P) lineair onafhankelijke funkties die op hun beurt lineair onafhankelijk zijn van
f-0-
® veronderstelling BLq = o is dan toetsbaar middels de multivariaat lineaire hypothese Ha: 1B°To =
J». met B° = BP.
"dien Hq niet verworpen wordt kan model (2) geaksepteerd worden. De funkties BLi zijn, onder Hq,
Jk aan BjPiTi = B+. Deze funkties kunnen geschat worden in een model waarin de oorspronkelijke
fabelen getransformeerd zijn:
E(Yi) = E(YTI)=1BPT, = IB^.
«t is ook mogelijk om de parameters uit B"^ te schatten in een kovariantie-model:
. e(Yi)=iB%YoZ.
aarin Yg = YTq, de schatter van IBLq, de kovariabelen bevat en Z de parameters van deze
j °^fiabelen. Indien de kovariabelen gekorreleerd zijn met de getransformeerde variabelen en dus
^ ormatie verschaffen over de parameters uit b+, hebben de schatters onder model (4) een kleinere
äfiantie dan de schatter onder model (3), zie Rao (1973), Grizzle & Allen (1969), Timm (1975).
^ängehaalde publikaties
^Ppelhof P.N. De ontwikkeling van de Utrechtse schoolbegeleiding voor aanvankelijk lezen in de
. Periode 1968-1974. Interimverslag 3, DAL-onderzoek (SVO-projekt 0204), Utrecht, 1975.
®f8er M.P.F. Stepdown procedures for multivariate analysis. Tijdschrift voor onderwijsresearch,
B 1976,1,97-111.
K.U. Multivariate statistical methods in behavioral research. New-York: McGraw-Hill, 1975.
-ocr page 182-178 Metingen Binnen-de-Subjeliten
Finn J.D. Multivariance univariate and multivariate analysis of variance, covariance and regression.
Chicago, International Educational Services, 1974.
Grizzle J. & Allen D.M. Analysis of growth and dose response curves, fiiome/r;«, 1969,25, 357-381-
Rao C.R. Lineair statistical inference and its applications. New-York, Wiley, 1973.
Timm, Neil H. Multivariate Analysis. Belmont: Wadsworth Publishing Company, 1975.
Voeten, M.J.M. Analyse van herhaalde metingen met een design voor de metingen en een design voor
de subjecten. Memoreeks onderwijs research, 1974,1, nr. 5, 5-15.
Zwarts M.A. Het instrumentarium van het DAL-onderzoek. Interimverslag 8, DAL-onderzoek (SVO-
projekt 0204), Utrecht, 1976 (in druk).
Manuscript ontvangen 17-6-'76
-ocr page 183-Tijdschrift voor Onderwijsresearch 2 (1977), nr. 4 179
GELIJKHEID VAN KANSEN OF GELIJKWAARDIGHEID VAN ONDER-
WIJSMOGELIJKHEDEN
Een Kommentaar op Van Meerem en Van Peet'
Sibe Soutendijk
Dit kommentaar heeft niet zozeer betrekking op de opzet en uitkomsten van het
Onderzoek, als wel op het mterpretatie-kader waarbinnen deze uitkomsten worden ge-
plaatst.
Het onderzoek zelf is belangrijk. Het biedt nog eens een cijfermatige ondersteuning van
Vanzelfsprekendheden als:
er bestaat nog steeds een sterke milieu-gebonden ongelijkheid in deelname aan het
onderwijs volgens maatstaven die aan datzelfde onderwijs zijn ontleend,
- naarmate meer eisen worden gesteld aan de leerlingen (dus naast 'begaafdheid' ook
'bereikt prestatienivo', 'motivatie en interesse', 'benodigde steun vanuit het gezins-
milieu'), is de potentiële reserve aan talent geringer.
Daarnaast bevestigt het een paar vermoedens als:
~ vergroting van onderwijsmogelijkheden voor de bevolking leidt tot algemene verhoging
van de 'begaafdheid' gemeten met een intelligentietest,
~ ze leidt tevens tot vermindering van de ongelijkheid tussen sociale milieus wat betreft
het bereikte opleidingsnivo.
Belangrijkste konklusie: het voortdurende ijveren voor verdergaande externe demokrati-
sering van ons onderwijs werpt vruchten af en stelt nog meer vruchten in het vooruitzicht.
Pverigens heb ik de konklusie gemist, dat de algemene IQ-verhoging de berekende afname
in 'talent-reserve' nog sprekender maakt.
De gegeven verklaring voor de IQ-verhoging is onvolledig. Behalve aan het verbeterde
Opleidingsnivo van de betrokkenen, kan deze ook mede worden toegeschreven aan de
algemene verhoging van het opleidingsnivo van de ouders. We weten immers dat de
startpositie van leerlingen m het basisonderwijs sterk wordt beïnvloed door het oplei-
dingsnivo van de ouders en dat die startpositie zelf weer sterk bepalend is voor de verdere
Schoolloopbaan van de leerlingen. In ieder geval blijkt de 'Raven' niet zo onafhankelijk
Van het rnilieu (opleiding inkluis) te zijn, als in de tekst hier en daar wordt gesuggereerd.
Het interpretatiekader van de onderzoekers is gegeven in de begrippen: intellektuele
reserve (op smalle en op brede basis), gelijkheid van kansen, efficiëntieprincipe, recht-
vaardigheidsprincipe. De beide principes lijken sterk op het begrippenpaar dat ik in 1969
hanteerde in een kritiek op de onderzoekingen van Van Heek c.s.^, namelijk: pragmatisch
principe en demokratisch principe.
' Meerem, L.M. van en A.A.J. van Peet, Intellectuele reserve als indicatie voor gelijkheid van kansen.
Tijdschrift voor Onderwijsresearch, 1976,1, 241-265.
' Soutendijk, S. De jacht op talent. Vrij Nederland, dd 18 en 25 jan. en 1 febr. 1969.
-ocr page 184-180 No tities en Commentaren
De pragmatici gingen er in de zestiger jaren van uit, dat de maatschappij zich geen verlies
aan talent kan veroorloven. De demokraten eisten en eisen gelijkwaardiger onderwijs-
mogelijkheden voor iedereen, of onze ekonomie daar nu op korte termijn mee gediend is
of niet. Het demokratisch principe houdt in dat kinderen, die meer moeite met leren
hebben, meer en beter onderwijs gegeven moet worden opdat ze later als gelijkwaardige
burgers aan onze maatschappij kunnen deelnemen: positieve diskriminatie.
In het stuk van Van Meerem en Van Peet blijkt het rechtvaardigheidsprincipe steeds
verder af te wijken van dit demokratisch principe, doordat er enkele versmallingen op
worden toegepast.
Eerste versmaUing: rechtvaardigheidsprincipe wordt 'vertaald' in 'gelijkheid van kansen',
gelijke scholing voor gelijk begaafden. Het demokratisch principe houdt juist in: meer en
beter onderwijs voor kinderen die door milieu of begaafdheid meer problemen hebben in
het bestaande onderwijs. De huidige praktijk is nog altijd anti-demokratisch: kinderen uit
door maatschappelijke omstandigheden benadeelde milieus komen in de regel terecht op
scholen en onderwijstypen met kwalitatief minder goed onderwijs, en gaan gemiddeld
eerder van school af.
Tweede versmalling: gelijke begaafdheid wordt afgemeten aan het IQ, terwijl het onder-
zoek zelf aantoont, dat dat IQ sterk opleidingsbepaald is. De kansen om een gelijk IQ te
bereiken waren al niet gelijk.
Derde versmalling: ook het schatten van intellektuele reserve op 'brede basis' zou nog
beantwoorden aan het rechtvaardigheidsprincipe. De schatting op de 'smalle basis' van het
IQ voldoet al niet aan het demokratisch principe. Hoe breder de schattingsbasis, hoe
smaller de 'demokratie': steeds meer milieu-belemmeringen worden bij voorbaat inge-
bouwd en als maatschappelijke gegevenheden aanvaard. Een efficiënte kunstgreep om de
intellektuele reserve af te knijpen. Als gesteld wordt dat de rest van de reserve 'niet
aanhoorbaar' is, wordt in feite het rechtvaardigheidsprincipe vervangen door'een efficiën-
tieprincipe binnen het onderwijs: het is niet efficiënt te trachten door beter onderwijs die
reserve aan te boren. Daarbij legt men zich neer bij het bestaande ondemokratische
onderwijsstelsel. Het is dan nog maar een klein stapje naar het 'maatschappelijke
efficiëntieprincipe: dat aanboren is ook eigenlijk niet meer zo nodig, want onze ekonomie
beschikt al over genoeg hooggeschoolde mensen.
De op zichzelf juiste konklusie van de auteurs, dat er ongelijkheid van kansen op scholing
bestaat zolang er reserve is, is daarom tegelijk misleidend. Ook als de op deze wijz®
berekende reserve is verdwenen, bestaat er nog steeds geen gelijkwaardigheid van onder-
wijsmogelijkheden. Om grotere gelijkwaardigheid te bereiken blijft het nodig de verder-
gaande demokratisering van het onderwijs te bevechten.
Manuscript ontvangen 14-2-77
-ocr page 185-Soutendijk 181
Leendert van Meerem
Arie van Peet
f^.l.T.P., Amsterdam
Naar aanleiding van de drie 'versmallingen' die Soutendijk ons 'verwijt' het volgende:
Eerste versmalling: Gelijke scholing voor gelijkbegaafden sluit Soutendijks democratisch
principe (meer en beter onderwijs voor probleemkinderen) niet uit. Kinderen uit bena-
deelde milieus die minder goed onderwijs volgen en gemiddeld eerder van school afgaan
maken nou juist een belangrijk deel uit van de door ons geschatte intellectuele reserve.
Tweede versmalling: Dit hadden wij zelf ook al gesignaleerd. Wij hadden al gesteld, dat de
door ons geschatte intellectuele reserve geen betrekking heeft op diegenen die — door
Welke oorzaak dan ook - een onder-ontwikkelde intelhgentie hebben. Voor het schatten
Van de grootte van deze groep zijn meer gegevens o.a. over de milieubepaaldheid van de
gebruikte tekst (batterij) nodig.
■Derde versmalling: Wij hebben slechts de voor- en nadelen van schattmgen op brede en
snialle basis aangegeven en getracht aan te tonen wat het effect daarvan op de geschatte
reserves en op de 'aanboorbaarheid' van die reserves is. Bij het begrip 'aanhoorbaar' mag
men niet zonder meer het rechtvaardigheidsprincipe door een efficiëntieprincipe vervan-
gen.
Tenslotte vinden wij het niet terecht ons te verwijten dat men op grond van ons artikel
Onlogisch en ondemocratisch door zou kunnen redeneren. Kleine stapjes die anderen
maken zijn niet voor onze rekening.
Manuscript ontvangen 31-3-77
STUDIETIJDMETINGEN: PROBLEMEN EN OPLOSSINGEN
S-E.M. Everwijn
Onderzoek en ontwikkeling van onderwijs, R.U. Utrecht
I^e ervaringen die ik tot nu toe heb met studietijdmetingen zijn niet best. Een stuk of vijf
onderzoekingen naar studietijdbesteding van studenten hebben mij niet optimistisch
gemaakt over het nuttig effect van studietijdmetingen. Hieronder wil ik proberen aan te
geven wat de door mij ervaren problemen met studietijdmetingen zijn. En verder wil ik
^oor deze problemen een oplossing suggereren.
De
problemen
problemen komen al meteen naar voren op het moment dat een verzoek om
^tudietijdmetingen bij ons op de afdeling wordt gedeponeerd. Op de vraag naar het
182 No tities en Commentaren
waarom van een studietijdsbestedingsonderzoek komt veelal geen concreet antwoord. De
aanvrager (faculteit, studierichting, onderwijscommissie, instituut, en dergelijke) heeft
geen duidelijk beeld wat men er van kan verwachten, noch wat men met de resultaten kan
doen. De antwoorden komen niet boven het niveau uit van: 'dan weten we wat de
zwaarste en lichtste vakken zijn; dan kunnen we zien of de studie te zwaar of te licht is'.
Verder doorvragen levert weinig op. Dwarsliggen bij zoveel onduidelijkheid helpt ook
niet. Een studietijdsbestedingsonderzoek zal en moet er komen.
Vervolgens ontstaat een tweede probleem. Wat moet er berekend worden? Vakgemiddel-
den, spreiding in bestede studietijd, studietijdbestedingspatronen? En voor welke groepen
studenten? Voor: geslaagden, gezakten, de eerste keer geslaagd respectievelijk gezakt, of
uiteindelijk geslaagd en gezakt, voor de normstudent, enz.? Moeüijke vragen, waar de
aanvrager niet direct een antwoord op heeft. Maar zijn uiteindelijke antwoord is in-
genieus: hoe meer hoe beter.
Dan wordt het studietijd-bestedingsonderzoek uitgevoerd. Zeer tot mijn verbazing en in
tegenstelling tot wat ik aanvankelijk gedacht had, levert de uitvoering van een dergelijk
onderzoek (dataverzameling en bewerking) gewoonlijk geen of nauwelijks problemen op-
Met uitzondering uiteraard van het feit dat zo'n onderzoek behoorlijk wat tijd en
mankracht kost.
Bij de rapportage worden de problemen pas werkelijk nijpend. Het interpreteren van de
resultaten blijkt een hachelijke onderneming. De opdrachtgever blijkt lang niet altijd te
weten wat een rekenkundig gemiddelde is, noch wat een standaarddeviatie is. Enige uitleg
is vereist. Ook bij het vergelijken van vakken ontstaan moeilijkheden. Wat doe je met een
vak-A-gemiddelde van 200 uur waarbij 30% van de studenten die de eerste keer zijn
opgegaan is geslaagd, en een vak-B met een gemiddelde van 250 uur waarvoor de eerste
keer 85% is geslaagd en een vak-C van 270 uur met een percentage voor de eerste keer
geslaagden van 60%? Het valt niet mee om dit soort resultaten te interpreteren. Je kunt
niet zeggen dat het ene vak zoveel uur zwaarder is dan het andere.
Vervolgens staat de opdrachtgever voor het probleem, dat hij nu beleidsconsequenties
moet trekken uit het onderzoek. Hij kan echter geen beleidsconsequenties trekken omdat
hij geen beleid heeft. Wat hij met name nodig heeft zijn normen voor studiebelasting pe'
vak en voor de verdeling van studietijd over de vakken, enz. Hij had gehoopt dat e^
'automatisch' beleidscriteria uit het onderzoek zouden rollen, maar deze illusie moet hij
opgeven. Hij kan nu drie dingen doen. Ten eerste kan hij de moed opgeven, de onder-
zoeksresultaten in de la leggen en er mooit meer naar omkijken. Onderzoek is dan niet
'het' goede instrument gebleken voor het vaststellen van normen en voor het trekken van
beleidsconsequenties inzake studiebelasting.
Een tweede mogelijkheid is dat de opdrachtgever koste wat het kost probeert op basis van
de onderzoeksresultaten te komen tot een beeld inzake studiebelasting en urenverdeling
over de onderscheiden vakken. Het leed is dan niet meer te overzien, omdat je geen
eerlijke spelregels meer kunt maken als de onderzoeksresultaten al op tafel liggen. P®
ruzies zijn niet van de lucht. Hier volgt een kleine bloemlezing over de moeilijkheden
tussen betrokken docenten.
'Het is geen stijl om nu deze onderzoeksresultaten als uitgangspunt te nemen voor het
toewijzen van uren aan de verschillende vakken. Daar hadden we van tevoren van op d®
hoogte moeten zijn.'
'Het lijkt me onjuist om op grond van feitelijke meetresultaten te komen tot normen voor
studiebelasting per vak. Wanneer een feitelijke studiebelasting van 10 of 60 uur per wee''
blijkt, dan verhef je een dergelijke praktijk tot wet.'
Everwijn 183
Het effect van dergelijke discussies is, dat men soms toch in staat is om tot normen voor
studiebelasting te komen. Ook kunnen de ruzies het gesprek voortijdig doen staken en is
de sfeer binnen de betreffende groep docenten voorlopig grondig verpest.
De derde mogehjkheid is om een nieuw en uitgebreider studietijdbestedmgsonderzoek te
Vragen. Maar dit is slechts het uitstellen van het probleem. Want ook met meer informatie
^ordt het ontbreken van een beleid niet gecompenseerd.
De ervaringen met onderzoekingen naar studietijdbesteding door studenten waren vol-
doende om een tussentijdse balans op te maken. Ik nam mij voor om nooit meer een
studietijdsbestedingsonderzoek uit te voeren, zonder dat van tevoren precies duidelijk was
^elke beleidsconsequenties bij welke onderzoeksresultaten getrokken zouden worden. In
plaats van een studietijdbestedingsonderzoek kwam ik tot de volgende probleemoplossen-
de procedure.
^obleemoplossende procedure
^adat een verzoek op de afdeling binnenkomt, wordt met de potentiële opdrachtgever
doorgesproken wat hij hoopt met dit onderzoek te bereiken. Hem of haar wordt verteld
dat er geen studietijdbestedingsonderzoek kan plaats vinden zonder dat van tevoren is
Vastgesteld wat de normen voor de studiebelasting per vak zijn, wanneer deze normen zijn
overschreden en wat de beleidsconsequenties zullen zijn indien de normen worden
Overschreden. Aan de potentiële opdrachtgever wordt gevraagd of hij hieraan zijn mede-
werking wil verlenen. Verteld wordt dat hoewel hij of zij misschien juist om een
Onderzoek vraagt om van daaruit beleidsideeën te ontwikkelen, de afdeling juist andersom
Wil starten en van mening is dat het heel goed mogelijk is van tevoren een beleid op te
^tellen. Na het fiat van de opdrachtgever wordt samen met hem een beleid geformuleerd,
^e gaan dus iets doen wat de opdrachtgever zelf voor onmogelijk houdt: een beleid
"^"■eëren inzake studiebelasting, zonder onderzoek. Maar hoe en wat voor een beleid?
Ten eerste worden normen voor de studiebelasting per vak vastgesteld. En wel normen
^oor een gemiddelde studietijdbesteding per vak en normen voor de spreiding in bestede
studietijd per vak. Bij het opstellen van normen moet men er op letten, dat de vakken ten
Aanzien van gemiddelde en spreiding te vergelijken zijn. Dat betekent dat de groep
Waarvoor de normen worden opgesteld zo nauwkeurig mogelijk moet worden vastgesteld.
Zou men kunnen uitgaan van die studenten die geen recidivist zijn, geen afwijkende
l'ooropleiding hebben, geen studiestaker zijn en geslaagd zijn voor een vak, propedeuse of
kandidaats enz. (eventueel de eerste keer geslaagd of na één of meer herkansmgen). Maar
^elfs dan zijn de vakken dikwijls onderling nog niet vergelijkbaar. Daarom zou men tevens
Hennen moeten ontwikkelen voor het percentage studenten uit de geselecteerde groep,
^t na de eerste keer of na herkansingen geslaagd moet zijn voor een vak, propedeuse enz.
Wanneer dan voor alle vakken na herkansing bv. 85% of meer geslaagd is, zijn deze vakken
''®delijk goed ten aanzien van gemiddelde en spreidmg te vergelijken. Beantwoordt het vak
aan de norm voor het percentage geslaagden, dan blijft een dergelijk vak bij
®''8elijking ten aanzien van gemiddelde en spreiding buiten beschouwing en moet er eerst
^^t aan dat vak gesleuteld worden teneinde tot een hoger slagingspercentage te komen
'■Op basis van evaluatie van het betreffende vak: opzet, uitvoering, toets). Daarnaast zijn
184 No tities en Commentaren
eventueel aanvullende normen te bedenken, zoals bijvoorbeeld betreffende het verloop
van de bestede studietijd gedurende de duur van het onderwijs in het betreffende vak.
Het opstellen van normen voor een gemiddelde en spreiding kan worden vergemakkelijkt
met een aantal handvaten en vuistregels, zoals:
a. de studielast van de normstudent (te stellen op 1700 uur per jaar?);
b. een maximumlast (2200 uur per jaar?) (NB de vraagtekens onder a. en b. hebben te
maken met het feit dat ik de hier gestelde normen als irreëel en te hoog beschouw. Een
discussie met de betreffende studenten en docenten lijkt me noodzakelijk)
c. een spreiding in de bestede studietijd per vak waarbij de hoogste studietijd drie, vier oi
vijf keer zo hoog is als de laagste studietijd (de verhouding is onder andere afhankelijk
van de gekozen groep; de spreiding in studietijd tussen de eerste keer geslaagden is
kleiner dan tussen de uiteindelijk geslaagden);
d. een spreiding in de bestede studietijd per vak, waar bij het 75ste percentiel de bestede
studietijd per vak, ongeveer 30 ä 40% hoger ligt dan bij het 25ste percentiel;
e. een onderscheid tussen contacturen en zelfstudietijd met zo mogelijk een schatting van
de hoeveelheid tijd, die de contacturen met zich meebrengen zonder tot de eigenlijke
■contacturen te behoren (bijvoorbeeld: kwartieren tussen college's, tijd nodig om van
het ene college naar het andere te komen etc.);
f. een benadering van de zelfstudietijd in uren, door uit te gaan van bepaalde rekensom-
metjes, bijvoorbeeld hoeveelheid tijd nodig ter voorbereiding en uitwerking van een
college, het aantal pagina's dat een student gemiddeld per uur kan lezen, enz.
Na het formuleren van de betreffende normen kan men deze nog toetsen door aan een
aantal studenten te vragen naar hun schatting van de studietijd per vak. Met behulp van
deze informatie kunnen de normen nog wat worden bijgeschaafd en op een wat reël^''
plan worden gebracht.
Ten tweede worden, samen met de docent, tolerantiegrenzen vastgesteld: hoe groot mag
de afwijking van de norm zijn voordat tot ingrijpen wordt besloten? Zo zal het
gemiddelde bijvoorbeeld niet meer mogen afwijken van de geformuleerde norm dan pl^^^
of min 10% en zo zal bijvoorbeeld tenminste de helft van de studenten een gemete"
studietijd moeten vertonen binnen 25% plus of min de norm opgesteld voor het vakg®'
middelde. Overeengekomen wordt dat verschillen binnen deze toleranties geen aanleiding
geven tot veranderingen. Ontoelaatbare afwijkingen zijn aanleiding tot ingrijpen.
Ten derde moet van tevoren, dat wil zeggen voordat eventueel een studietijdbesteding^'
onderzoek wordt uitgevoerd, worden vastgesteld wat de beleidsconsequenties zullen ziji^'
bij eventuele ontoelaatbare overschrijdingen boven of beneden de gestelde norm. ...
Aan de docenten wordt gevraagd zich voor te stellen dat de gemiddelde bestede studietij
voor hun eigen vak hoger respectievelijk lager en de spreiding in bestede studietijd grote
is dan de geformuleerde normen.
Wat betekent dat voor hen? Welke verandering in het beleid stelt men zich voor
ondernemen? Vervolgens wordt met alle docenten nagegaan vvat zij denken te gaan doe
in één van de volgende situaties: alle vakken beneden de norm, alle vakken boven ^
norm, de helft van de vakken boven, respectievelijk onder de norm. Het praten over
te doen bij ontoelaatbare afwijkingen wordt vergemakkelijkt doordat men zich
situatie heeft moeten voorstellen voor hun eigen vak en men de beschikking heeft ov
getallen (normen en afwijkingen) die helpen zo'n situatie aanschouwelijk te make
Koele 185
Aangezien het nog steeds om een 'alsof situatie gaat (gesteld dat er ontoelaatbare
afwijkingen zijn) hoeft men elkaar nog niet naar de keel te grijpen. Indien er te zijner tijd
een studietijdbestedingsonderzoek wordt uitgevoerd, heb je er wat aan. Veranderingen
kunnen dan zonder veel narigheid worden geïntroduceerd. En ten slotte weten zowel
studenten als docenten op grond van de voorgestelde beleidsconsequenties of zij bereid
zijn aan een studietijdbestedingsonderzoek mee te doen en hoeven zij niet bang te zijn
Voor onvoorziene gevolgen van een eventueel studietijdbestedingsonderzoek.
moraal van het verhaal
E>e moraal van het verhaal is eenvoudig. Eerst moet een beleid worden vastgesteld met
normen, tolerantiegrenzen en beleidsconsequenties. Met als onverwacht gevolg dat, nu
Hen een beleid heeft, de behoefte aan een studietijdbestedingsonderzoek is verdwenen,
^ordt er toch een onderzoek uitgevoerd, dan past het in het beleid, en verdwijnt het niet,
al dan niet na veel ruzie, in de doofpot.
Manuscript ontvangen 28-2-77
OVER FOUTE BESLISSINGEN BIJ NULHYPOTHESETOETSING*
P. Koele
Vakgroep Methodenleer, Psychologisch Laboratorium Universiteit van Amsterdam
Probleemstelling
Het is te vrezen dat zelfs de meer op onderzoek gerichte afgestudeerden in de sociale
Wetenschappen bij gebruik van nulhypothesetoetsingsprocedures ten aanzien van de fout
Van de tweede soort - het niet verwerpen van een onjuiste nulhypothese - met
Oogkleppen rondlopen; Elstrodt en Mellenbergh (1977) spreken dan ook van de 'vergeten
fout'.
zullen een illustratie geven van de consequenties van het negeren van deze fout, en de
juiste tactiek bij gebruik van de nulhypothesetoetsingsprocedure aangeven. Daarbij wordt
overigens van uitgegaan dat de toetsing op zich correct verricht wordt, dus met
inachtneming van diverse aannamen omtrent verdelingsvorm en meetniveau. We hanteren
de volgende notaties:
Hq : de nulhypothese is waar
Ho: de nulhypothese is niet waar
" t: de relevante toetsingsgrootheid
K: het kritieke gebied in de verdehng onder Hq
£
$ a: de kans op een fout van de eerste soort
h |3: de kans op een fout van de tweede soort
^tet dank aan W.P. van den Brink en P. Vijn.
-ocr page 190-186 No tities en Commentaren
Verder nemen we aan dat Hq en Hq elkaar uitsluitende en uitputtende gebeurtenissen
zijn.
Een foute beslissing wordt genomen wanneer een ware nulhypothese wordt verworpen, öf
wanneer een onware nulhypothese niet wordt verworpen. Dat impliceert voor vr, de
(subjectieve) kans op een foute beslissing in het algemeen;
TT =p([{teK}nHo]U[{t<ïK}nHo])
= p(t e K I Ho) • p(Ho) + PU tf K I Hq) • p(Ho)
= a-p(Ho) + ß-p(Ho)
= ß + ia-ß)'p(Ho) (1)
We staan nu voor twee problemen: wat moeten we ons voorstellen bij p(Ho), 'de
waarschijnlijkheid van de nulhypothese', en hoe bepalen we de waarden van ß. In de nU
volgende paragraaf komen deze problemen aan de orde.
Begripsomschrijving
In de frequentistische kansopvatting bestaat zoiets als 'de waarschijnlijkheid van de
nulhypothese' in feite niet; de statistische nulhypothese specificeert een waarde van een
populatieparameter, en zo'n parameter heeft geen kansverdeling. Niettemin bevinden we
ons in aangenaam gezelschap (b.v. Popper, 1972) wanneer we een functievoorschrift
hanteren dat aan een bewering - i.e. 'de nulhypothese is waar' - numerieke waarden
toekent, zodanig dat aan de frequentisrische kansaxioma's kan worden voldaan. Het be-
grip 'de waarschijnlijkheid van de nulhypothese' (notatie: p(Ho)) weerspiegelt dus in deze
opvatting de subjectieve overtuiging van een onderzoeker ten aanzien van
'(...) the hypothesis that the phenomenon to be demonstrated is in fact absent.'
(Fisher, 1960, p. 13)
De grootte van ß wordt bepaald door de grootte van a, de grootte van de steekproef, en
de grootte van het verschil tussen hetgeen er onder de nulhypothese wordt verondersteld
omtrent de waarde van een populatieparameter, en de werkelijke waarde van die para-
meter. Ömdat dat verschil veelal door het effect van een experimentele manipulatie wordt
(geacht te zijn) veroorzaakt, introduceerde Cohen (1969) er het begrip 'effect grootte
voor. Hij heeft voor een aantal toetsingsgrootheden deze effect grootte op drie niveaus
(klein, middelmatig, en groot) geoperationaliseerd. Verder heeft hij een aantal tabellen
gepubliceerd die het mogelijk maken om af te lezen hoe groot ß zal zijn bij een gekozen
a-niveau, een bepaalde steekproefgrootte, en "een veronderstelde effect grootte. De al
eerder genoemde Elstrodt en Mellenbergh hebben aan de hand van die tabellen onder-
zocht hoe hoog het j3-niveau was bij de statistische toetsing in 50 artikelen uit de
jaargangen 26, 27 en 28 van het Nederlands Tijdschrift voor de Psychologie'. We zullen
een deel van hun resultaten gebruiken om een indicatie te krijgen van het gebruikelijl'®
/3-niveau van Nederiands psychologisch onderzoek. We kiezen daarvoor de gevonden
mediane |3-groottes bij 403 toetsingen van de nulhypothese ómtrent de gelijkheid van
twee populaties wat betreft centrummaat (t-toets en Mann-Whitney U-toets). Deze
i3-waarden zijn bij veronderstelde kleine, middehnatige en grote effectgroottes respectieve-
lijk 0.91,0.65, en 0.30 (tweezijdige toetsing, a = 0.05).
1. In feite keken ze naar het complement van p, het onderscheidingsvermogen van een toets.
-ocr page 191-Koele 187
De kans op foute beslissingen
We zijn nu in staat om een model te construeren dat de onder (1) vermelde relatie
illustreert; we stellen a op 0.05, gebruiken de bovenvermelde j3-waarden, en laten p(Ho)
Variëren. Het resultaat staat in tabel 1.
Tabel 1
Kans op een foute beslissing, a = 0.05, /3-waarden volgens Elstrodt en Mellenbergh (1977).
P(Ho)
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
klein .82 .74 .65 .57 .48 .39 .31 .22 .14
effect middel
.59 .53 .47 .41
.28 .25 .23 .20
grootte matig
groot
.35 .29 .23 .17 .11
.18 .15 .13 .10 .08
t)e tabel spreekt voor zich, en de conclusie die op grond ervan getrokken moet worden is
Vrij somber: in situaties die door de meeste onderzoekers als gewenst beschouwd zuUen
Worden - een lage waarschijnlijkheid van de nulhypothese, en veronderstelde effecten die
fniddelmatig tot groot zijn (het omlijnde deel van de tabel) - is de kans op een foute
beslissing groot: tussen de 0.20 en de 0.59.
Aanbevelingen
Voor alle duidelijkheid: Tabel 1 heeft geen praktische betekenis. Ze illustreert 'slechts'
tot wat voor merkwaardigheden gebruikelijke en ondoordachte onderzoekspraktijken
leiden. Overigens verdwijnt de afhankelijkheid tussen een kans op een fout in het
algemeen en de waarschijnlijkheid van de nulhypothese wanneer de steekproef zo groot
Wordt gekozen dat bij een bepaalde effect grootte a en |3 aan elkaar gelijk zijn (zie
formule (1)); de kans op een fout in het algemeen is dan gelijk aan ß (en o. dus). Het is
Waarschijnlijk niet onverstandig om naar zo'n situatie te streven, zolang er tenminste geen
duidelijke argumenten voorhanden zijn om één van beide fouten een zwaarder gewicht te
Beven. Tenslotte is en blijft bepaling van p(Ho) een moeilijke zaak, en als die moeilijkheid
Op zo'n elegante manier omzeild kan worden moet dat zeker geprobeerd worden.
De toetsingsstrategie is dan de volgende: kies a en ß, specificeer welke minimale effect
Brootte de moeite waard is om aangetoond te worden (zie Koele, 1973), en bepaal aan de
hand van de tabellen van Cohen welke steekproefgrootte in dat geval geboden is.
IJiteraard kan de voorgestelde strategie tot praktische problemen leiden. Cohen (1969)
nierkte al op dat pogingen om ß tussen 0.01 en de 0.05 te krijgen in het algemeen zullen
stranden op de onmogelijkheid de bijbehorende steekproefgroottes te reahseren. Hij stelt
Ondermeer op grond hiervan voor om a op 0.05 te stellen en de steekproef zo groot te
kiezen dat bij de veronderstelde effect grootte ß 0.20 is.
188 No tities en Commentaren
Bij deze strategie geldt echter het bezwaar dat men zich, in een aantal situaties (n.1. die
met een lage waarschijnlijkheid van de nulhypothese) onevenredig sterk indekt tegen een
niet reële fout. Ons voorstel is dan ook om die 'heilige' 0.05 maar eens te vergeten, en «
en ß op bijvoorbeeld 0.10 te stellen. In Tabel 2 worden de consequenties voor de
steekproefgrootte uitgewerkt. Het voorbeeld heeft betrekking op de t-toets voor twee
steekproeven, bij tweezijdige toetsing. Er is weer gebruik gemaakt rän de tabellen van
Cohen (1969).
Tabel 2 Vereiste steekproefgroottes bij gebruik van de t-toets voor twee steekproeven. Tweezijdige toetsing. | ||||||||||
|
Uit de tabel blijkt dat de door Cohen voorgestelde strategie (a = 0.05, ß = 0.20), en die
waarin geldt a = /3 = 0.10 nauwehjks van elkaar verschillende eisen stellen aan de
steekproefgroottes. Dit is natuurlijk geen extra argument ten gunste van de laatste
strategie; het voorbeeld toont aan dat de praktische problemen bij Cohen's strategie niet
in ieder geval geringer zijn dan bij de hier voorgestelde strategie.
Conclusie
Dit alles heeft hopelijk duidelijk gemaakt dat wanneer men beslissingen wil baseren op de
resultaten van nulhypothesetoetsingsprocedures twee zaken vereist zijn: een grondig
inzicht in de statistische toetsingstheorie, en adekwate steekproefgroottes.
Indien aan deze eisen niet kan worden voldaan zal de toetsingsprocedure niet veel betere
resultaten opleveren dan wanneer de uitkomst van een worp met een munt het beslissingS'
criterium geweest zou zijn.
Referenties
Cohen, J. Statistical Power Analysis for the Behavioral Sciences. New York; Academie Press, 1969.
Elstrodt, M., en Mellenbergh, G.J. Eén minus de vergeten fout. Nederlands Tijdschrift voor de
Psychologie, 1977 (in druk).
Fisher, R.A. The desi^ of experiments (7th. ed.), London; Oliver and Boyd, 1960.
Koele, P. Power en significantie. Psychologisch Laboratorium der Universiteit van Amsterdam,
Popper, K.R. A note on probability 1938. New Appendix xii in The logic of Scientific Discovery-
London; Hutchinson and Co. Ltd., 1972.
Manuscript ontvangen 17-3-'77.
Definitieve versie ontvangen 18-4-'77.
Tijdschrift voor Onderwijsresearch 2 (1977), nr. 4 189
Joh. Hoogstraten
Alleen of met z'n tweeën: Een vijftal veldexperimenten met geprogrammeerd leermate-
riaal
Groningen: H.D. Tjeenk Willink, 1976,163 blz.
Dit boek, dat tevens is verschenen als dissertatie, ontleent zijn titel aan de vraag of er verschillen zijn in
leerresultaat na het doornemen van geprogrammeerd leermateriaal, wanneer de leerlingen individueel
of duogewijs werken. Behalve het onderzoek naar het effect van deze verschillen in werkwijze
(werkconditie) wordt verder nagegaan of capaciteitsverschillen (intelligentie) van effect zijn op het
■eerresultaat. Eveneens wordt onderzocht of de volgende persoonlijkheidsvariabelen het leerresultaat
beïnvloeden: neuroticisme en extraversie, prestatiemotivatie en faalangst. Hoogstraten onderscheidt
binnen de variabele werkconditie tussen solisten, homogene en heterogene duo's. In geval van homoge-
ne duo's is er zo veel mogelijk overeenkomst op diverse persoonlijkheidseigenschappen tussen de
elementen van de onderzoeksparen. In het geval van heterogene duo's is er een systematisch verschil op
een of andere persoonlijkheidseigenschap tussen de elementen van de paren. Op de andere variabelen
^ordt verder een hoog en een laag niveau onderscheiden.
Om de genoemde vragen te beantwoorden zijn een vijftal experimenten uitgevoerd, volgens onder-
staande procedure. Er wordt een leerprogramma aan een groep leerlingen aangeboden. Zowel lineaire
a's vertakte programma's worden gebruikt. Het programma wordt doorgenomen in twee zittingen. Na
zitting wordt een toets over het betrokken gedeelte afgenomen, waarmee een indruk van de
'eerprestatie wordt verkregen. De tijd benodigd voor het doornemen van een programmagedeelte
^ordt eveneens gemeten. Nadat de toets over het tweede programmagedeelte is afgenomen wordt een
^'agenlijst ingevuld, waarmee een indruk wordt verkregen van de opvattingen van de leerlingen over
net moeilijkheidsniveau van leerstof en toetsen en over de specifieke werkwijze. Na enkele weken
^ordt een retentietoets aangeboden. De leerlingen worden van te voren op intelligentie en andere,
'eeds genoemde persoonlijkheidsvariabelen ingedeeld. Waar nodig vindt matching plaats, hetgeen op
Stondige wijze gebeurt, nl. door het uitvoeren van variantie analyses op indelingsscores en matchings-
resultaat.
l^e onderzoekingen, waarvan het laatste in de zomer van 1972 is uitgevoerd, hebben globaal de
Volgende resultaten opgeleverd. Het individueel of duogewijze doornemen van de leerprogramma's
êeeft praktisch geen verschil te zien wanneer wordt gelet op dé toets prestaties. Ook de samenstelling
J'an de duo's - homogeen, heterogeen - is niet van effect. Dezelfde conclusie wordt getrokken t.a.v.
net werktempo. Verschil in capaciteit is van effect op het leerresultaat, de hogere capaciteitscategorie
'eaUseert overwegend betere prestaties dan de-lage. Het verwerkingstempo wordt nauwelijks beïnvloed
"Oor het capaciteitsverschil. Er is vrijwel geen interactie van persoonlijkheidsvariabelen en werkcondi-
^es. Alleen in het derde experiment werd enig effect van persoonlijkheidsverschillen aangetoond.
Verder is gebleken dat de leerlingen positief stonden tegenover de inhoud van programma's. Voor wat
etreft de werkmethode werd in het tweede en derde experiment gevonden dat de voorkeur van de
eerlingen uitging naar die methode, waarmee ze ervaring hadden opgedaan. In het vierde en vijfde
^erd dit resultaat niet opnieuw gevonden.
Aan Hoogstraten's conclusies - in ieder geval voor wat betreft de werkcondities - kan zeker betekenis
borden gehecht. Het onderzoek is enkele malen gerepliceerd, met grotendeels overeenkomstige
Resultaten. De verantwoording van de dataverwerkingsmethoden vindt uitgebreid plaats. Positief te
Waarderen is ook de weergave van het onderscheidingsvermogen van de gebruikte statistische methode.
Oni deze redenen alleen al zullen onderzoekers op het gebied van de onderwijs leerprocessen er goed
^an doen kennis van dit werk te nemen.
loewel de resultaten voor zich spreken doet zich het probleem voor hoe deze resultaten te interprete-
Op het punt van de werkconditie wordt voorafgaand aan het onderzoek geen theoretisch kader
Afmeld. De auteur van het boek heeft dit overigens wel gezien. Hij stelt: 'Hoewel raakvlakken met
neoretische gezichtspunten vanuit de onderwijspsychologie en de sociale psychologie wel zijn aan te
zullen deze bescheiden theoretische pretenties in eerste instantie niet of nauwelijks in het
190 Boekbesprekingen
betoog tot uitdrukking worden gebracht. Pas in het afsluitende, negende hoofdstuk zullen enkele
punten van theoretische aard van een korte toelichting worden voorzien. Primair is echter de vraag
naar de constateerbare gevolgen van het aanbieden van een geprogrammeerde Instructie aan paren
leerlingen.'
Het valt te betreuren dat die 'raakvlakken met theoretische gezichtspunten vanuit de onderwijspsycho-
logie en sociale psychologie' niet genoemd zijn. De achteraf interpretaties in het laatste hoofdstuk zijn
wellicht wel plausibel, doch ook nogal speculatief. De in de eerste hoofdstukken besproken literatuur
is sterk empiristisch, hetgeen juist aanleiding zou moeten zijn enig theoretisch kader over de werk-
conditie te ontwikkelen.
Tot slot nog enkele opmerkingen over de gebruikte programma's, de evaluatie van het onderwijs-leer-
proces en de voorspeUing over het effect van capaciteitsverschillen.
Er wordt gesteld dat 'de opvatting dat de geprogrammeerde methode een nivellerend effect zou
uitoefenen op capaciteitsverschillen als achterhaald dient te worden beschouwd.' Deze conclusie werd
duidelijk bevestigd in de beschreven experimenten.
De conclusie is getrokken na evaluatie van het leerresultaat zoals dat tot uiting komt in de prestatie-
toetsen en het werktempo. Daar de leerprestatie steeds een resultaat is van het onderwijsleerproces dat
reeds plaatsgevonden heeft ligt de vraag voor de hand hoe dat proces verlopen is. Daarover wordt
weinig vermeld. Er zijn geen foutenpercentages bij de lineaire programma's vermeld, noch is het aantal
benodigde instructies bij de vertakte programma's weergegeven. Ook is niet vermeld of de duo's na
verloop van tijd soms dezelfde fouten maakten. Wel wordt vermeld dat 79% van de leerlingen zegge"
dat ze wel eens naar het goede antwoord gekeken hebben voordat ze hun eigen antwoord opschreven.
Het is van belang dat dit gegeven vermeld is. Hoewel niet duidelijk is bij hoeveel instructies dit het
geval is komt de noodzaak van afdoende experimentele controle hier dwingend naar voren. Zolang het
onderwijsleerproces niet strikt volgens het elementaire paradigma kan verlopen, wordt een conclusißi
die gebaseerd is op het leerresultaat er door verzwakt.
Meer aandacht voor het verloop van het onderwijsleerproces zou op zijn plaats geweest zijn.
Eveneens had meer aandacht kunnen worden besteed aan de omschrijving van de leertaken (klassifice'
ren, leggen van relaties, uitvoeren van operaties, etc.), die voortvloeien uit het gebruikte leermateriaal-
De weergave van het materiaal is overzichtelijk, de analyse ervan te summier.
S. Dijkstra
Vakgroep Functieleer en Methodenleeti
Subfakulteit Psychologie-
Vrije Universiteit, Amsterdam
i
Tijdschrift voor Onderwijsresearch 2 (1977), nr. 4 191
Drukfoutenlijst R.D. Bock, Multivariate Statistical Methods
Het boek van R. Darrell Bock, Multivariate Statistical Methods in Behavioral Research, McGraw Hill
1975, heeft terecht veel aandacht gekregen en veel prijzende recensies opgeroepen. Het is een
gezaghebbend overzicht waarin een moeilijk en snelgroeiend terrein duidelijk in kaart is gebracht.
Uiteraard heeft elke methode zijn bezwaren. Zo gebruikt Bock vrijwel uitsluitend Roy's 'largest-root'
terwijl Olson (JASA 1974, 894-908 en Psych. Bulletin 1976,579-586) bij andere multivariate criteria
grotere robuustheid en onderscheidingsvermogen vindt. Ook wordt bij de talrijke voorbeelden soms
slordig met assumpties en afrondingsfouten omgesprongen.
De groep die het boek tussen januari en april 1977 in Groningen bestudeerd heeft (met zwaartepunt
Op de hoofdstukken 4 en 5) heeft een waslijst van kleine slordigheden en drukfouten opgesteld. Onder
het voorbehoud dat deze Ujst zelf weer onvolledigheden of onjuistheden kan bevatten, heb ik de
auteur de lijst (vijf pagina's, circa honderd opmerkingen) toegezonden. Gebruikers van het boek
kunnen ook een exemplaar aanvragen, bij Secretariaat FSW, Mw. W. Lakerveld, Oude Boteringestraat
23, Groningen, tel. 050-115260.
W. Molenaar
Keuze uit recensies
L-J.Th. van der Kamp, Tijdschrift voor Onderwijsresearch, 1976,7, 283-286.
•l- Wasik, Educational and Psychological Measurement, 1976,36, 572-575.
Programmabibliotheek KUNST in opbouw
De programmabibliotheek KUNST (Kathoheke Universiteit Nijmegen Statistische Toepassingsprogram-
■na's) omvat computerprogramma's voor sociaal-wetenschappeUjk of toegepast statistisch onderzoek
^elke aan de K.U. Nijmegen zijn ontwikkeld dan wel aangepast.
KUNST is het resultaat van een standaardisatie van de computerprogramma's die in de loop der tijd in
Verschillende afdelingen van de K.U. zijn tot stand gekomen. KUNST omvat programma's voor een
groot aantal tameUjk speciaUstische analysetechnieken, die niet voorkomen in pakketten als SPSS en
BMD.
B'j de bibUotheek behoren een algemene dokumentatie (met een catalogus van de beschikbare
Programma's, en informatie over de wijze waarop KUNST-programma's aangestuurd en aangeroepen
kunnen worden) en een programma-specifieke dokumentatie. Wat dit laatste betreft zijn momenteel
beschikbaar: ASTER (alpha cluster analyse volgens de methode van De Graauw) en REDANAL
(redundantie analyse volgens de methode van Van de WoUenberg).
Inlichtingen: A.N.H. Bendermacher, Psychologisch Laboratorium, Erasmuslaan 16, Nijmegen.
•Cursus logistische testmodellen (G. Fischer)
Professor Gerhard Fischer (Universität Wien) komt van 12-16 september 1977 in Groningen een kur-
sus geven over toepassingen van lineaire logistische testmodeUen. Het ligt in de bedoeling dat de deel-
nemers tevoren enige fragmenten van het boek
Fischer (1974), Einführung in die Theorie psychologischer Tests. Bern: Huber,
-ocr page 196-192 Mededelingen
bestudeerd hebben, zodat tijdens de kursusweek ruim gelegenheid bestaat tot toelichting van de toe-
passingen en van de jongste ontwikkelingen. Er zal daarbij gelegenheid bestaan met de computerpro-
grammatuur van Fischer bestaande datasets te analyseren en over de toepasbaarheid binnen eigen on-
derzoek met hem van gedachten te wisselen.
Bij Mw. W. Lakerveld
Faculteit Sociale Wetenschappen
Oude Boteringestraat 23
Groningen. Tel. 050-115260,
is een beknopte inhoud van de cursus en de voorstudie te verkrijgen. Tijdige aanmelding is gewenst.
Ontvangen publikaties
Beroepsopleiding in Denemarken, Supplement bij Beroepsopleiding. Commissie van de Europese
Gemeenschappen, Brussel, 1977.
Beroepsopleiding in Italië en het verband dat deze heeft met het nationaal onderwijsstelsel. Supple-
. ment bij Beroepsopleiding. Commissie van de Europese Gemeenschappen, Brussel, 1977.
Kok, J., Zelissen, A. Verbale Interaktie Analyse. Deelrapport 1: Programmering van de praktische
vorming. Instituut voor Onderwijskunde, K.U. Nijmegen; K.P.C., Afdeling Opleidingen, Den Bosch.
Knibbeler, Wil. Frans van Nederlanders: Toetsing van de tussentaalhypothese. 's-Gravenhage; Staatsuit-
geverij, 1977, (= S.V.O. Reeks 5)
Mettes, C.T.C.W., Pilot, A., Roossink. H.J. Het leren oplossen van problemen in de thermodynamika-
Tweede tussentijds verslag van het projekt Thermodynamika. Onderwijskundig Centrum CDO/
AVC, Technische Hogeschool Twente, no. 31, febr. 1977. ,
Olgers, A.J. & Riesenkamp, J., De eerste fase van het Doelstellingenonderzoek Ubbo Emmius!
R.I.O.N.: De grote kommissie. Interimrapport. DOUER 36-15, Groningen; R.I.O.N., 1976. ,
Olgers, A.J. & Riesenkamp J., De tweede fase van het Doelstellingenonderzoek Ubbo Emmiusl
R.I.O.N.: De informatieverzamelingsfase. Deel 1: Opzet. Interimrapport. DOUER 77-2, Groningen:
R.I.O.N., 1977.
Veenman, S. Verbale Interaktie Analyse. Deelrapport 5. Een schaal voor Onderwijsangst. Instituut
voor Onderwijskunde, K.U. Nijmegen., K.P.C., Afdeling Opleidingen, Den Bosch, 1976 (S.V.O.-
projekt 0302).
Veenman, S., Zelissen, A., Hulsebos, L. i.s.m. Voeten, M., Verbale Interaktie Armlyse: Deelrapport 3'
Hoofdonderzoek naar het effekt van de kursus. Instituut voor Onderwijskunde, K.U. Nijmegen^
K.P.C., Afdeling Opleidingen, Den Bosch. (S.V.O.-projekt 0302).
i
Tijdschrift voor Onderwijsresearch 2 (1977), nr. 4 193
Grafieken voor de Schatting van de Helling van
Itemkarakteristieken
flobert F. van Naerssen
Subfaculteit Psychologie van de Universiteit van Amsterdam
Diagrams for estimating the slope of item characteristic curves
When a test has only to discriminate at a fixed level, as with most mastery and selection tests,
then the slope of the item characteristic curve at the trait value of the cutoff score is a plausible
index for item selection. With the normal ogive model and the assumption that the correlation
between item and trait can be estimated as the biserial correlation between item and true
testscore, corrected for chance success, points of graphs are calculated. One can use the graphs
to estimate the slope from p-value and item-test correlation. Graphs are drawn for 4-choice and
2-choice tests and selection ratios of .1, .3, .5, .7, and .9. If the selection ratio is .5 and the
number of alternatives high, then the method is almost identical to the use of the product of
item standard deviation and item- true test score correlation as item selection index.
helling van de itemkarakteristiek
Vaak selecteert men items voor een test met behulp van twee item-indices: een moeilijk-
heidsindex en een discriminatieindex. Soms combineert men deze tot één 'overall-index'
Zoals de standaardafwijkingsbijdrage Sjri, - waarin Sj de standaardafwijking, de wortel uit
Piqi, van het item is en r^ de correlatie tussen item en test. Zo heeft Van Naerssen (1969)
de bijdrage tot de ware standaardafwijking voorgesteld, die invariant is voor homogene
testverlenging. Deze s^^i blijkt het product te zijn van itemstandaardafwijking en de
Jtemtestcorrelatie gecorrigeerd voor zowel valsheid ds attenuatie.
t^ergelijke combinaties zijn mogelijk vporal bruikbaar wanneer de test over een breed
^oregebied moet discrimineren. Vaak echter weet men van te voren dat de test uitslui-
fend moet discrimineren bij een bepaalde score, de aftestgrens of de 'mastery score'. Het
bekend dat de optimale p-waarde in dat geval verschoven is in de richting van de
^lectieverhouding (d.i. de proportie geaccepteerden of geslaagden). Maar hoe nu p-waar-
en itemtestcorrelatie gecombineerd moeten worden tot een overall-index is meestal
•^•et duidelijk en de itemselectie geschiedt dan ook vaak volgens nogal arbitraire combina-
«eregels. Misschien is, gegeven aftestgrens of selectieverhouding, als overall-index te
gebruiken: de helling van de itemkarakteristiek ter plaatse, volgens het normaalogiefmo-
'^el (Lord en Novick, 1968, ch. 16 en 17.3). De itemkarakteristiek is de grafische
Voorstelling van de kans om het item goed te beantwoorden als functie van de onder de
testscore gedachte, normaal verdeelde, trek 0. Elk item heeft een bepaalde trekwaarde
^aar de kans om het item goed te beantwoorden het snelst toeneemt. Hoe verder men
Zich van deze trekwaarde verwijdert, hoe minder goed het item discrimineert (een globaal
e^ipirisch gegeven) èn hoe kleiner de helling van de itemkarakteristiek. Het hgt dus voor
194 Itemkarak teris tieken
de hand om deze helling te benutten als overall-waarde-index bij gegeven aftestgrens, maar
in hoeverre deze index optimaal is volgens tevoren te stellen utiliteitscriteria is natuurlijk
alleen empirisch te bepalen. Laten we de helling van de itemkarakteristiek, gegeven de
trekwaarde, de lokale itemdiscriminatie dj noemen. Het gemiddelde van alle (k) lokale
itemdiscriminaties is de plaatselijke helling van de testkarakteristiek. Het verband tussen
de eerder (Van Naerssen, 1977) voorgestelde lokale (test)betrouwbaarheid d^ en de lokale
itemdiscriminatie is dan als volgt:
1 = 1
Waarin x de geobseerde score is en 6 de trekwaarde. Hoewel het differentiaal-quotiënt
d x/d0 op onbekende wijze kan variëren, kan men toch wel aannemen, dat de lokale
betrouwbaarheid dxtoeneemt met de som der lokale itemdiscriminaties.
In dit artikel zullen we berekenen hoe, gegeven de selectieverhouding, p-waarde en
itemtestcorrelatie het beste gecombineerd kuimen worden bij de assumptie dat
de lokale
itemdiscriminatie de beste overall-index is. Het gaat ons alleen om de constructie van
grafieken waarmee de lokale itemdiscriminatie snel geschat kan worden uit p-waarde en
itemtestcorrelatie. Daarmee is dus, als de assumpties juist zijn,'een meer optimale
itemselectie mogelijk zonder dat de lokale discriminaties in elk praktijkgeval hoeven te
worden uitgerekend.. De schattingen met behulp van de grafieken kunnen overigens
interessant zijn ook zonder dat men itemselectie op het oog heeft.
Er zal onder andere gebruik worden gemaakt van formules van Lord en Novick (1968) en
van Urry (1974); de laatste worden hier duidelijkheidshalve nog eens volledig afgeleid
omdat Urry bij zijn afleiding weer verwijst naar een andere auteur.
De formules van Urry
De drie itemparameters van het normaalogiefmodel zijn de discriminatiemaat a, de moe;;
lijkheidsmaat b en de raadkans c (c kan .5 gekozen worden bij tweekeuze-items, .25 bij
vierkeuze-items, etc.; de meestal toegevoegde index i kan hier weggelagen worden). D®
biseriële correlatie tussen het item weten (w) en de trek 6 is (Lord en Novick 16.10.4):
De proportie personen, die het item weet, is de normaalogieffunctie van de itemmoeilij'''
heidsindex g (L. en N. 16.9.3), die zelf het product is van de normaalogiefmaat b en rbw^
(L. en N. 16.8.5):
(3) Pw=$(-g)=$(-brbwe)
Met Urry (1974) zullen we aannemen dat de correlatie tussen item en trek 1,0 en de
p-waarde p uit r^g en p^ berekend kunnen worden met het model van weten of blin
raden en de assumptie dat de correlatie tussen, de op valsheid en attenuatie gecorrigeerd
geobserveerde score en item bij benadering gelijk is aan de correlatie tussen trek en iten"'
Van Naerssen 195
Het model van weten of blind raden levert de volgende 2x 2 tabel tussen het item goed
hebben en het item weten, met de assumptie dat alle personen die het item weten het ook
goed hebben en bovendien nog een proportie c van de personen, die het item niet weten:
proportie fout goed gemidd. 0
weten p^ O p« 0i
niet-weten 1 - p^^ (l-c)(l-Px) c(l-p^) d^
Met behulp van deze tabel vindt men voor resp, de p-waarde, de co variantie tussen weten
en trek, en die tussen goed-hebben en trek:
(4) p = Pw + c(l-Pw)
s^e = Pw - PwÖ
Si0 = Pw + c(l-pw) 00 - [Pw + c(l-Pw)] ö
Hierbij is uiteraard
Wanneer men de laatste term uit (7) oplost en m (6) substitueert, dan krijgt men, na
herleiding met (5):
Om nu rje uit te drukken als functie van r^e bedenke men dat de correlatie geUjk is aan
de covariantie gedeeld door het product der standaardafwijkingen, terwijl volgens boven-
staande tabel de standaardafwijking van 'weten' gelijk is aan de wortel uit p^ (1-Pw) en
die van 'goed-hebben' gelijk is aan de wortel uh (1-c) (1-Pw) (c-cp^ + Pw)-
Men vindt
rjô = r^e
C-CPw + Pw.
Tenslotte heeft men nog de bekende formule nodig, die de puntbiseriële r uitdrukt als
functie van de biseriële r en de p-waarde (rpbis is rbis maal de bij p behorende ordinaat
Van de normaalkromme, gedeeld door de wortel uit pq).
Hier wordt deze formule
fln^ r -r ^Çb^bwe)
Gegeven een combinatie van a, b en c kan men nu met behulp van resp. (2), (3), (4), (10)
en (9) de p-waarde en de itemtrekcorrelatie berekenen (de itemtestcorrelatie gecorrigeerd
Voor valsheid en attenuatie). Zo, of althans met equivalente formules, heeft Urry (1974)
de grafieken berekend waarmee men, omgekeerd, a en b kan schatten als c, p en x^q
gegeven zijn.
196 Itemkarak teris tieken
Krommen van gelijke lokale itemdiscriminatie
De formule voor de itemkarakteristiek is (L en N. 17.3.1):
(11) P(0) = c + (l-c) $a(0-b)
Deze P(0) gedifferentiëerd naar 0 is de helling van de itemkarakteristiek (als functie van
0) dus de lokale itemdiscriminatie:
Om nu een kromme van gelijke lokale itemdiscriminatie te kunnen tekenen (in het vlak
met rechthoekige coördinaten p en rjö) moeten we d, evenals c, constant houden en een
voldoende aantal paren a en b vinden, die aan (12) voldoen.
Uit de drietallen a, b en c kunnen dan met de formules van de vorige paragraaf paren p en
rjg berekend worden, die deel uitmaken van de kromme.
Daarbij moet er in de eerste plaats aan gedacht worden dat a blijkens (12) minstens zo
groot moet zijn als (27r)''^M/(l-c) (omdat de e-macht hoogstens 1 is). Anderzijds heeft het'
geen zin om a hoge waarden te laten aannemen, die in de praktijk toch niet voorkomen.
In het geconstrueerde computerprogramma neemt a met variabele stappen da toe van
2.53d/(l-c) tot 4.
In (12) zijn nu a, d, c en 0 gegeven; 0 is de trekwaarde waarin we als aftestgrens
geïnteresseerd zijn. Er zijn grafieken berekend voor een vijftal trekwaarden, overeenko-
mend met resp. 10, 30, 50, 70 en 90 % afwijzing van de normaalverdeelde populatie.
Uit (12) kan b worden opgelost:
(13) b = 0 ± [2 ln(.3989(l-c)a/d]'/Va
waarin 7r gemakshalve is afgerond. Met deze formule kan, gegeven 0, c en d de bij a
behorende b berekend worden, en dus zijn ook p en rj^ bekend.
Er is echter nog een kleine praktische moeilijkheid: laat men a met een constante waarde
da opklimmen, dan krioelen de berekende punten bij de uiteinden van de krommen,
terwijl het midden onberekend blijft. Daarom is da variabel gemaakt. Na elk gevonden
punt wordt (met de stelling van Pythagoras) de afstand r berekend tot het vorige punt. Er
wordt nu in het programma gestreefd naar een tamelijk constante, zij het ietwat willekeu-
rige afstand r = .07 tussen opeenvolgende punten door da telkens .07/r maal de vorige da
te maken. Zo wordt eerst de rij b's met het plusteken berekend, en daarna de rij met het
minteken. Tenslotte berekent het programma ook de bij de waarden .05, .10,.....95 van
Pw behorende maximale waarden van rj^ (naast de waarden van p), waarmee in dezelfde
figuren de krommen getekend kunnen worden van maximale rj^. Deze getalparen kan
men vinden met (4) en (10), waarin r^we de maximale waarde 1 krijgt. Het programma
staat afgedrukt bij Memo D 144,* waarin ook grotere figuren zijn afgebeeld dan in een
tijdschriftartikel mogelijk is.
Vakgroep Methodenleer, Subfaculteit Psychologie, Universiteit van Amsterdam.
-ocr page 201-Van Naerssen 197
Opmerkingen bij de grafieken
Er zijn eerst tien figuren getekend, namelijk voor c=.5 en c=.25 en voor de selectieverhou-
S = .1, .3, .5, .7 en .9. In elke figuur staat de kromme van de maximale rjö en staan
vijf krommen van gelijke lokale itemdiscriminatie, namelijk die van de d's .025, .05, .1, .2
198 Itemkarak teris tieken
en .4. In de figuur dient men de (experimentele) items te 'plotten' uitgaande van p-waarde
en (op valsheid en attenuatie gecorrigeerde) rij, dit is de hier gebruikte schatting van rje.
De items in het vak van de laagste d-waarden komen dan het eerst in aanmerking om te
worden verworpen, volgens het model uiteraard.
Van Naerssen 199
Het valt op dat de maximale rje, bij vierkeuzetoetsen slechts .63 is en bij tweekeuzetoet-
sen zelfs .49. Een groot deel van de figuren refereert naar volgens het model onbestaan-
bare combmaties van p en rjg. Natuurlijk kan men door steekproeffluctuaties of omdat de
"lodelassumpties geschonden zijn toch wel itempunten vinden in het 'onbestaanbare'
gebied.
■"ie ' |
1 1 FIGUUR 5 S=.9 |
-.5 |
C = .25 |
-2 | |
-.1 |
.i1 .|2 / .|3 .15 .t6 .|7 .f> .|9 P
I I
I I
I I I
FIGUUR 6
S=.9
C=.5
I 1
le
-.6
-.5
-.L
3
»
-2
-12
-ocr page 204-200 Itemkarak teris tieken
s =
De maximale d bevindt zich steeds dichtbij de boog van de maximale lig, maar verplaatst
zich, bij toenemende selectieverhouding S van links over de top naar rechts. De krommen
liggen als enigszins verbogen concentrische cirkels om het punt van maximale d. Nergens
zijn de krommen evenwijdige rechten dus nergens zou een eenvoudige lineaire combinatie
van p en r^g als benadering dienst kunnen doen. Maar wel ziet men dat men waarschijnlijk
bij extreem lage S (vertikale krommen) bijna uitsluitend items zou moeten selecteren met
lage p, bij extreem hoge S met hoge p en bij S = .5 items met hoge r^g. In dit laatste geval
zou men ook, en weUicht beter, kunnen selecteren met s^i- Om dit aan te tonen werden
in een elfde grafiek voor de combinatie c = O en S = .5 niet alleen de vijf kronmien van
gelijke d; getekend maar ook (gestreept) de bijbehorende krommen van gelijke s^j
sjrie). Men'ziet dat de krommen alleen bij extreme p-waarde verschillen, maar in een
breed gebied, waar bovendien de meeste items zullen liggen, samenvallen. Dat betekent
dat selectie met behulp van dj en selectie met s^i tot practisch dezelfde resultaten zulle"
leiden.
Van Naerssen 201
Het is misschien nuttig om tot slot nog eens te herhalen dat de grafieken getekend zijn om
de helling van de itemkarakteristiek gemakkelijk te kunnen schatten uit meestal bekende
grootheden: aantal alternatieven van de keuzetoets, selectieverhouding, p-waarde en
(gecorrigeerde) itemtestcorrelatie. Die helling is mogelijk een nuttige index, bijvoorbeeld
hij itemselectie voor testconstructie, maar daarvóór zal eerst empirisch onderzoek verricht
moeten worden. Om dit of dergelijk onderzoek te vergemakkelijken kunnen de grafieken
gebruikt worden.
Literatuiu-
Lord, F.M. and Novick, M.R. Statistical theories of mental test scores. Reading, Mass.: Addison -
Wesley, 1968.
Naerssen, R.F. van. Een item-waarde-index voor studietoetsen bij kleine groepen personen. Nederlands
Tijdschrift voor de Psychologie, 1969, 24, 606-609.
Naerssen, R.F. van. Lokale betrouwbaarheid - begrip en operationalisatie. Tijdschrift voor Onderwijs-
research, 1977, 2,111-119.
^"y, V.W. Approximations to item parameters of mental test models. Educational and Psychological
Measurement, 1974, 34, 253-269.
'Manuscript ontvangen 14-3-77
definitieve versie ontvangen 31-5-77.
202 Tijdschrift voor Onderwijsresearch 2 (1977), nr. ^
Preinstructional Strategies and Extra Reading Time
in Learning from Text
J. Peeck
Psychologisch Laboratorium, Rijksuniversiteit Utrecht
Three groups of undergraduates studied a text on the endocrinology of pubescence (previously
used by Ausubel and Fitzgerald, 1962), preceded by an advance organizer, an overview, or a
control introductory passage; a fourth group was given extra reading time. No differences were
found in retention scores, adjusted for pre-experimental knowledge of endocrinology. The results
are discussed in relation to the Ausubel and Fitzgerald study, and in terms of a distinction between
nominal and effective reading time.
In the early sixties Ausubel (e.g. Ausubel, 1960; Ausubel & Fitzgerald, 1962; Ausubel,
1963) suggested that meaningful verbal leaming might be facilitated by providing the
learner with 'advance organizers', prior tolhe presentatiori"of the actual learning material.
For completely unfamiliar leaming material, for instance, expository organizers should be
used 'consisting of more inclusive or superordinate ideas that could subsume or provide
ideational anchorage for the new materid in terms that are already familiar to the leamer'
(Ausubel, 1967, p. 26).
Plausible as these suggestions may sound, the concept of advance organizers, in the
Ausubelian sense, has not been without its problems (for recent discussions, see Barnes &
Clawson, 1975; Hartley & Davies, 1976). A few of these, relevant for the present study,
will be mentioned here. One obvious difficulty is the lack_of_precise instruction for the
construction of organizers. Ausubel states that organizers should be presented 'at aTiipier
level of abstraction, generality and inclusiveness' than the leaming material itself, while
the substantive content of a given organizer or series of organizers should be'selected on
the basis of their suitabiUty for explaining, integrating, and interrelating the material they
precede' (Ausubel, 1963, p. 81). The lack of specification of this prescription raises
difficulties for both educators and researchers: for the former mainly because of uncer-
tainty as how to set about trying to bring Ausubel's advice into practice, for the latter
also because research into these educational aids will always be open to the criticism that
the organizer used probably did not meet the criteria set by Ausubel, and hence cannot
be considered a test of Ausubel's hypothesis. This may be one reason for the state of
confusion research about the effectiveness of this preinstructional strategy continues to
be in.
Another, httle noticed, issue concerns the time necessary for studying the organizer. As
has been pointed out before (Peeck, 1970; cf. Wood, 1972) subjects in Ausubel's own
Peeck 203
Studies were given a considerable amount of time for the organizers, in comparison to
reading time for the actual text (e.g. 14 minutes for the organizer and 25 minutes for the
text in the Ausubel and Fitzgerald study of 1962). It seems worth investigating whether
the time spent on the organizer could not be used - with equal or more profit - for
studying the text itself. In fact, it could be argued that such a condition constitutes a
necessary part of the design of this type of study.
The present study is of relevance to both issues, and is in addition an attempt to replicate
part of a study by Ausubel and Fitzgerald (1962). As was the case in that study, one
group of subjects was given an expository organizer, and another group an introductory
control passage. Learning material, retention test, advance organizer and control passage
were translations of the materials used by Ausubel and Fitzgerald. In comparison to that
study one minor procedural change was made: Introductory passage and text were
studied in one session instead of in two sessions with a two-day interval. In addition to
the two conditions mentioned above, subjects in a third condition were given as much
extra reading for studying the main text as the subjects in the organizer condition were
given for their introductory passage. Finally, a fourth group was given an introductory
passage telling the reader in advance the 'plan' of the text to be read, i.e. the topics and
the order in which they would be treated. An introductory passage of this kind serves two
purposes:
It provides subjects with the structure of the text to be studied, while instructions foi
writing it are relatively simple, as the passage contains, in essence, the same information
as a Table of Contents. The difficulties in construction, mentioned above, are therefore
less likely to occur. Unhke others, e.g. Barnes and Clawson (1975), but in accordance
with Ausubel, we will not call an introductory passage of this kind an advance organizer.
For conceptual clarity this term should be reserved for introductory passages intended to
meet Ausubel's criteria, as mentioned above. Instead, the term overview will be used here,
since the passage concerned conforms to the description Hartley and Davies (1976) give
of this category of preinstructional strategies.
METHOD
Materials. Most of the materials used in this experiment were kindly made available by
Dr. Ausubel. The learning material was a passage of approximately 1400 words, dealing
with the specific hormonal factors initiating and regulating pubescence. Knowledge of
this text was tested by a 36-item (5 alternatives) multiple-choice test. As was the case in
Ausubel and Fitzgerald's study, a 20-item (5 alternatives) multiple-choice test, the Gener-
al Endocrinology Test (GET) was used to test the effect of general background knowl-
edge on the learning of the pubescence material.
Three different introductory passages were used in this experiment, two of which - the
expository organizer and the control passage - were first used in the Ausubel and
Fitzgerald study; the third one, the overview, was specially made for the present
experiment. The expository organizer (EO) was a 500-word passage, which, according to
Ausubel and Fitzgerald, 'provided an organizational framework [for the text] in terms of
the different kinds of uniformity and variability prevailing among the primary and
secondary sex characteristics. It was pitched at a much higher level of abstraction,
generality and inclusiveness than the pubescence matériel itself (p. 245). The control
204 Learning from Text
passage (CP) was a 460-word text 'dealing with uniformity and variability among
different cultures in behavioral aspects of pubescence. This was intented solely as a
control treatment and had no organizational properties whatsoever in relation to the
learning passage' (p. 245). As the authors state no information was included that could
constitute a direct advantage in answering questions on the pubescence material.
The overview (OV) was a 150-word passage providing the reader with a 'plan', a brief
survey of the structure of the pubescence text indicating the topics discussed and the
order of treatment. This passage too constituted no direct advantage in answering
questions on the main learning passage.
In order to get some extra information on various aspects of the experiment a few 3- or
4-point scales were constructed. These were presented to the subjects after they had
studied the text. One 4-point scale referred to the subjects' pre-experimental knowledge
of the material treated in the text; the 3-point scales dealt with the difficuhy level of the
learning material, the available reading time, and the usefubess of the introductory
passage.
Subjects and design. Subjects were 80 undergraduates in psychology of Utrecht Univer-
sity. They were randomly divided over four conditions. In the EO, CP and OV condition
subjects studied their respective introductory passage before reading the main text.
Reading time for the introductory passage was 10 minutes for the EO and CP condition,
and - as the passage concerned was considerably shorter - 5 minutes in the OV
condition. Subjects in the fourth, extra reading time (ERT) condition, were allowed to
study the main text as many minutes (10') longer, as subjects in the EO and CP condition
were given for the introductory passage.
Procedure. The experiment was carried out in two sessions, with a two-day interval.
Subjects were tested in groups of 3 or 4, homogeneous as to the condition.
On the first day of experimentation subjects first took the GET. Subjects in the EO, CP
and OV condition were then given their respective introductory passages, with identical
written instructions, derived from the Ausubel and Fitzgerald study. After 10 minutes
reading in the EO and CP condition, and 5 minutes in the OV condition, the introductory
passages were taken in, and the main text was handed out. In the written instructions,
which again were taken from the Ausubel and Fitzgerald study, and which were identical
in all four conditions, the text was introduced as a test of how well students could
comprehend, learn and remember the substance and details of typical science material at
the college level. Subjects were instructed to study the text carefully and to expect a
multiple-choice test on comprehension of the material and precise knowledge of the
details. Like in the Ausubel and Fitzgerald experiment, subjects in the three introductory
passage conditions were given 25 minutes to study the text. In the ERT condition
subjects were presented with the main text and the instructions immediately after taking
the GET; they were given 10 extra minutes for a total reading time of 35 minutes.
After the texts had been taken in, the first session ended with the subjects completing the
rating scales.
At the second session, two days later, subjects took the 36-item multiple-choice test on
the leaming passage; no time limit was imposed.
Peeck 205
In Table 1 the mean retention scores, standard deviations, and mean retention scores
adjusted for covariance with GET scores are given. The data are based on 35 of the
originally intended 36 items. One item was found to contain a serious error of translation;
as this discovery was made when the experiment was already on its way, it was decided to
keep the item in the test, but discard it from calculations.
Mean retention scores, standard deviations and adjusted mean retention scores.
Table 1 | ||||||||||||||||||||
| ||||||||||||||||||||
Note. N = 20 for each treatment. Abbreviations: AO = advance organizer; CP = control passage; OV = |
Analysis of covariance of the retention scores, holding GET scores constant, showed no
significant differences between the treatment means, F (3,75) = .47. Analysis of variance
of the ratings showed the groups did not differ in their judgement of the difficulty level
of the text, F (3,76) = 1.02, nor in the rating of their pre-experimental knowledge of the
learning material, F (3,76) = 1.38.
The groups did differ in their opinion of the usefulness of the introductory passage for
studying the actual leaming material, F (3,57) = 10.34, p<.01. Further analysis with
Newman-Keuls procedure (p <.05) showed that both EO and OV conditions rated their
passage more favorably in this respect than subjects in the CP condition, but that the
difference between these two conditions did not reach significance.
There was a tendency for subjects in the ERT condition to consider the reading time
available as too extensive, and for subjects in the CP condition as not extensive enough,
but the difference between all four conditions failed to reach significance, F (3,76) =
2.76, .05<p<.10.
This study fails to show a facilitative effect of the presentation of an expository advance
organizer, in comparison to an introductory passage, and may thus be added to the
growing list of studies with similar negative outcomes (for a review, see Barron, 1972;
Barnes & Clawson, 1975; Hartley & Davies, 1976). At the same time the present results
seem to be at variance with the Ausubel and Fitzgerald study which showed, with the
same learning material, a nearly significant (.05<p<.10) facilitation for the expository
organizer condition. Closer inspection of the data, however, reveals that the results of the
two studies are in quite close agreement. As is shown in Table 1, adjusted mean retention
scores in the expository organizer and control passage conditions were 19.24 and 21.13
206 Learning from Text
respectively. These scores are not very much different from the resuhs Ausubel and
Fitzgerald obtained for subjects with relatively high verbal ability, as is evident from
Table 1 in their 1962-study: Subjects in the upper third subgroup of SCAT scores in that
experiment retained on the average 20.9 and 21.1 respectively. The agreement is probably
even better, as the present retention test consisted of 35 items, instead of 36 as in
Ausubel and Fitzgerald's study. The subjects in the present experiment thus seem to have
performed at the level of Ausubel and Fitzgerald's high verbal ability students, and for
this category these authors also failed to find any facilitation for the organizer treatment.
It should be noted that, if anything, our data suggest a superiority for the control passage
condition.
No facilitation was obtained in the overview condition either. This could mean that
readers simply do not benefit from knowing the structure of material to be learned before
actually studying the text. However, it could also mean that different procedures should
be chosen in order to make this kind of introductory passage effective. In spite of the
presumably sufficient time available, subjects in the present study may not have achieved
adequate famiharity with the overview. It could in this respect be argued - somewhat
paradoxically — that preinstructional aids in general, and overviews in particular, can only
reach their maximal effectiveness if readers can stiU have free access to them while
studying the actual learning material.
Finally it should be noted that, even though the presence of the organizer or overview did
not result in better retention of the prose contents, subjects did rate these aids as more
helpful than subjects who had studied the control passage rated their introductory text.
The most surprising outcome of the present study is perhaps the failure of subjects in the
ERT condition to profit from the extra time available for reading the text. This result
seems to run counter to common-sense expectations, and also to some earlier experimen-
tal evidence (Peeck, 1970, and, by inference, Meyers & Boldrick, 1975). At this point it is
perhaps useful to make a distinction, as Cooper and Pantle (1967) did for paired-associate
learning, between nominal and effective time. Nominal time is the time potentially
available for reading, and defined by the experimenter. Effective time is that part of the
nominal time actually used by the subject for reading. The results then probably indicate
that, though the ERT subjects were given more nominal time, effective reading time in
that condition was not very much different from other conditions. Support for this
interpretation may be obtained from the rating data collected after the leaming session:
50% of the subjects in the ERT condition considered the reading tune available too long,
in comparison to 17% of subjects in the other three conditions combined.
If one takes into account the far from perfect degree of mastery of text contents
attained, it may seem somewhat surprising that subjects did not use more of the nominal
time for studying. The results suggest that, when dealing with a limited amount of prose
material, subjects will spend a certain period of time on the text until some satiation
point or some subjective level of familiarity is reached; this level probably corresponds to
the anticipated degree of mastery required. When available reading time is not sufficient
to reach this level, adding extra nominal time will result in prolonged inspection and
consequently probably better retention. When, however, reading time is sufficient to
reach this level, adding extra reading time will not be used for inspection, and hence have
no effect on retention.
This interpretation should be restricted to situations where all learning occurs in one
study session, and no differential reading times are induced by differences in task-require-
Peeck 207
ments in the treatments used. As the Uterature on massed versus distributed practice in a
number of verbal leaming paradigms suggests (cf. Melton, 1970), it is quite possible that
extra reading time spread over two or more sessions would in fact lead to better
retention. Again, activities such as notetaking (Kulhavy, Dyer & Silver, 1975), or
preparing for adjunct questions (Morasky & WiUcox, 1970; see however also Rothkopf,
1973) may induce subjects to spend more time with the leaming material, and generally
retain more, than they would have done otherwise.
Ausubel, D.P. The use of advance organizers in the learning and retention of meaningful verbal
maimdX. Journal of Educational Psychology, 1960,267-272.
Ausubel, D.P. The psychology of meaningful verbal learning. New York: Grune & Stratton, 1963.
Ausubel, D.P. Learning theory and classroom practice (Bulletin No. 1). Toronto: The Ontario Institute
for Studies in Education, 1967.
Ausubel, D.P. & Fitzgerald, D. Organizer, general background and antecedent learning variables in
sequential verbal learning. Journal of Educational Psychology, 1962,53, 243-249.
Barnes, B.R. & Clawson, E.U. Do advance organizers facilitate learning? Recommendations for further
research based on an analysis of 32 studies. Review of Educational Research, 1975, 45, 637-659.
Barron, R.F. Effects of advance organizers and grade level upon the reception learning and retention
pf general science content. In F.P. Greene (Ed.), Investigations relating to mature reading. 21st
Yearbook of the National Reading Conference, Milwaukee, 1972.
Cooper, E.H. & Pantle, A.G. The total time hypothesis in verbal learning. Psychological Bulletin, 1967,
68, 221-234.
Hartley, J. & Davies, I.K. Preinstructional strategies: The role of pretest, behavioral objectives,
overviews and advance organizers. Review of Educational Research, 1976,46, 239-265.
Kulhavy, R.W., Dyer, J.W. & Silver, L. The effects of notetaking and test expectancy on the learning
of text material. Journal of Educational Research, 1975, 68, 363-365.
Melton, A.W. The situation with respect to the spacing of repetitions and memoiy. Journal of Verbal
Learning and Verbal Behavior, 1970, 9, 596-606.
Meyers, L.S. & Boldrick, D. Memory for meaningful connected discourse. Journal of Experimental
Psychology: Human Leaming and Memory, 1975,7,584-591.
Morasky, R.L. & Willcox, H.H. Time required to process information as a function of question
placement. American Educational Research Journal, 1970, 7, 561-569.
Peeck, J. Effect of prequestions on delayed retention of prose material. Journal of Educational
Psychology, 1970, 61, 241-246.
Rothkopf, EZ. Barbarism and mathemagenic activities: Comments on criticism by Carver./ournj/o/
Reading Behavoir, 1974, 6, 3-7.
Wood, G. Organizational processes and free recall. In E. Tulving & W. Donaldson (Eds.), Organization
of memory. New York: Academic Press, 1972.
Manuscript ontvangen ll-5-'77.
definitieve versie ontvangen 14-7-'77.
-ocr page 212-208 Tijdschrift voor Onderwijsresearch 2 (1977), nr. ^
De Invloed van Item-Feedback op de
Opname en Opslag van Zinvolle Leerstof'
LF.W. de Klerk^ en E. Eerland
Vakgroep onderwijspsychologie. Katholieke Hogeschool Tilburg
ABSTRACT
This paper deals with the issue of informative feedback and its relationship to meaningful verbal
learning of materials similar to those typically found in school curricula. A 25-item multiple
choice test is used to investigate the effect of KCR (Knowledge of Correct Results) per item on
learning and retention. A distinction is made between two types of responses, i.e., an active,
overt response and a passive, covert response. Each item with its response alternatives and the
indication of the correct answer was presented two times in succession to ensure that the
feedback was attended to and processed. A distinction is made between a repetition (where
each stem with its alternatives was repeated exactly as it appeared at the first presentation) and
an alternation (where the stem remained the same whereas the position of the alternatives was
changed).
The results of these 2x2 treatment groups were compared with those of a control group who
did not receive any feedback at all. The dependent variables were the scores of the students on
the same 25 items which were administered both immediately after the feedback-procedure and
a week later. The results showed that 1) the treatment groups performed better than the
control group; 2) the passive feedback procedure was more effective than the active feedback
procedure; 3) alternation did not result in better test performance than repetition. A separate
analysis, based on conditional probabilities, suggests that the nature of feedback is both
reinforcing and informational.
1 inleiding
De laatste jaren wordt - met name in het kader van verbaal leren - betrekkehjk veel
aandacht besteed aan de invloed van 'feedback' (terugkoppehng) op het leerproces.
Gewoonhjk wordt hierbij onder feedback verstaan het vermelden van de resultaten van
één of andere studie- of vorderingen-toets, die na het leerproces aan de lerende wordt
afgenomen. Men spreekt m dat verband wel van 'kennis van resultaten' (KR).
1. Dit onderzoek is een onderdeel van een onderzoeksproject van de vakgroep Onderwijspsychologie
van de Katholieke Hogeschool te Tilburg over de invloed van feedback op het onderwijs-leerproces.
Voor een uitgebreid verslag, zie E. Eerland, Effecten van actieve en passieVe feedback procedures op
het leren en onthouden van leerstof. (Tilburg 1977: doctoraal scriptie).
2. Gedurende de'cursus 1976-1977 te NIAS, Wassenaar.
-ocr page 213-De Klerk & Eerland 209
Aanvankelijk meende men dat de feedback onmiddellijk na de responsie van de lerende
moest plaats vinden. Intussen hebben verschillende studies (o.a. Kulhavy & Anderson,
1972, en Surber en Anderson, 1975) aangetoond dat uitgestelde feedback een positief
effect heeft op de retentie van de leerstof. Uit de studie van Surber & Anderson blijkt dat
dit zogenaamde 'delay-retention effect' (DRE) niet alleen in laboratorium-experimenten
optreedt, maar evenzeer in 'natural classroom settings'.
Kulhavy & Anderson (1972) hebben ter verklaring van dit retentie-effect de perseveratie-
interferentie-hypothese opgesteld. In het geval van uitgestelde feedback zullen de fout
beantwoorde vragen of items - als gevolg van vergeten - weinig of niet interfereren met
de correcte antwoorden die de feedback verschaft. In het geval van onmiddellijke
feedback zullen de fout beantwoorde items persevereren, waardoor pro-actieve interferen-
tie optreedt tussen het aanvankelijk foutieve antwoord en het correcte antwoord dat via
de feedback wordt verschaft.
Eerder onderzoek (De Klerk, 1977) heeft aangetoond dat de invloed van informatieve
feedback op het leren van zinvolle leerstof afhankelijk is van de aard en specificiteit van
de informatie die de feedback verschaft. Met name is aangetoond dat feedback per item
effectiever is dan feedback per toets en dat kennis van correcte resultaten (KCR) tot
betere prestaties leidt dan kennis van resultaten (in termen van goed of fout).
In dit artikel wordt nagegaan wat de relatie is tussen verschillende feedback-procedures en
het type responsie dat de lerende moet geven.
In verreweg de meeste gevallen wordt KCR gegeven na een waarneembare of registreerba-
re responsie ('overt response'). Het is de vraag of een dergelijke activiteit een nadelige of
een faciliterende invloed heeft op de verwerking van de informatie die de feedback
verschaft. Volgens Skinner (1958), die het 'reinforcement' aspect van de feedback
benadrukt, is het laatste het geval. Annett (1969), die juist de nadruk legt op het
informatieve aspect, is van mening dat feedback lang niet altijd gekoppeld moet worden
aan de voorafgaande responsie. Hij merkt op:
There is no reason in principle why one should not envisage a model which stresses the proactive effect
of information on the next response, whether or not there has been a previous response, since only in
certain circumstances will the nature of the previous response be relevant, (p. 153)
Volgens Annett kan het zeer effectief zijn de informatie vooraf te geven, dus nog voor de
leerling zelf antwoordt. Deze procedure is in het bijzonder geschikt voor verbaal leren. De
informatie heeft daarbij veelal de functie van 'cuing'. Indien de informatie bestaat uit het
correcte antwoord met betrekking tot een item, dan is de actieve, 'overte' responsie
waarschijnlijk overbodig.
Surber en Anderson (1975) hebben opgemerkt dat een anlyse van de feedback-effecten
gebaseerd moet zijn op conditionele waarschijnlijkheden. Zij maken onderscheid tussen
twee gebeurtenissen. De ene is die waarbij een item zowel voor als na de feedback correct
beantwoord wordt. De andere is die waarbij dat item aanvankelijk fout, maar later, na de
feedback, correct beantwoord wordt. De kans op de eerste gebeurtenis zullen we hier
aanduiden met P(+l+) en die van de tweede gebeurtenis met ?(+!-).
Surber en Anderson veronderstellen dat indien feedback een kwestie van reinforcement is
dan zal blijken dat de ?(+!+)-waarden significant groter zijn dan die van een controle-
groep die geen feedback heeft gekregen; indien feedback voornamelijk een kwestie is van
informatie die de leerlingen moeten verwerken dan zullen de P(+| -)-waarden groter zijn.
Het onderzoek, waarvan in dit artikel verslag wordt gedaan, is geïnspireerd door het werk
van Annett. Hierin wordt een onderscheid gemaakt tussen de traditionele feedback
210 Item-feedback
procedure en één waarbij de leerling (ogenschijnlijk) passief is. Kenmerkend voor de
traditionele procedure is juist dat de leerling verzocht wordt actief te reageren op een
item. Na aanbieding van item Sj geeft de leerling een antwoord, Rj. Hierna vemeemt hij
het correcte antwoord Fj. Onder feedback wordt hier dus verstaan kennis van correcte
resultaten per item (waarbij ieder item uit een stam en vier antwoordaltematieven bestaat
waarvan er slechts één juist is). Kenmerkend voor de passieve conditie is dat (tijdens of
kort) na de aanbieding van Sj het correcte antwoord Fj wordt gegeven door de proeflei-
der. De leerling mag hierop niet 'openlijk' (overt) reageren. Verondersteld wordt dat
wanneer hij het antwoord niet onmiddellijk na de aanbieding van Sj paraat heeft, hij zal
trachten dit te vinden. Dit zoekproces wordt geleid (Annett spreekt van 'guidance') door
Fi.
Zodra de leerling feedback krijgt zal een analyse plaats vinden van het item en het
correcte antwoord. Deze analyse kan zich op verschillende niveaus afspelen. Hierbij gaan
we uit van de theorie van Craik en Lockhart (1972). Deze auteurs spreken van 'depth of
processing'. Hoe grondiger en uitgebreider de verwerking (elaboration) van de informatie
is, des te beter wordt deze onthouden. Het lijkt aannemelijk te veronderstellen dat de
passieve conditie een grondiger analyse mogelijk maakt dan de actieve conditie, waar het
proces als het ware gestoord wordt door het feit dat de leerling een antwoord moet geven.
Een bezwaar van deze feedback procedure is dat niet kan worden waargenomen in
hoeverre de leerling de aangeboden informatie heeft opgenomen. Newman et al. (1974)
hebben in verband hiermee voorgesteld een herhalingsprocedure toe te passen, waarbij na
de feedback hetzelfde item nog een keer wordt aangeboden. De leerlmg wordt verzocht
opnieuw te reageren 'to ensure that the feedback was attended to and processed'.
In deze studie is zowel bij de actieve als bij de passieve condities een herhalingsprocedure
toegepast. In het eerste geval is het paradigma Sj-Ri-Fj-Si-Ri-Fj-Si+i, etc. en in het
tweede geval: Sj-F—Si-Fi-Sj+i, etc.
Met betrekking tot deze herhdingsprocedure is onderscheid gemaakt tussen repetities en
alternaties. In het geval van een repetitie wordt het item als zodanig in zijn geheel
herhaald. Bij een alternatie blijft de stam gehjk terwijl de positie van de alternatieven
gewijzigd is. De veronderstelling hierbij is dat repetitie het uit het hoofd leren van de
diverse S—Fj combinaties bevordert, terwijl alternatie de leerling dwingt op de inhoud
van de items te letten. Of, zoals het ook geformuleerd kan worden, repetitie leidt tot
associatief .leren en alternatie tot cognitief leren, waarbij de leerling (in het geval van een
fout antwoord) nagaat wat het verschil is tussen Rj en Fj en zo probeert te analyseren
waarom Fj het correcte antwoord is.
1.1 Hypothesen
Op grond van bovenstaande overwegingen zijn de volgende hypothesen geformuleerd:
/ Hl: de groep leerUngen die feedback krijgt in de vorm van kennis van correcte
^ resultaten per item, zal hogere prestaties leveren dan de controlegroep, die geen
feedback krijgt;
ff Hj: de passieve feedback-procedure zal tot significant hogere prestaties leiden dan de
actieve feedback procedure;
Ha: alternatie zal tot hogere prestaties leiden dan repetitie.
De Klerk & Eerland 211
2 EXPERIMENT
2.1 Materiaal
Voor dit experiment werd hetzelfde materiaal gebruikt als in een eerder experiment (zie
De Klerk, 1977). De leerstof bestond uit een lesbrief over het onderwerp 'electronische
schakelingen'.^ Met betrekking tot de inhoud van de stof zijn 25 items geconstrueerd, elk
item bestaande uit een stam en vier antwoord-alternatieven, waarvan er één juist is.
2.2 Proefpersonen
Veertig proefpersonen (26 mannelijke en 14 vrouwelijke) participeerden op vrijwillige
basis in het experiment. Hiervan waren 28 studenten in de economie, econometrie,
psychologie en rechten van de Katholieke Hogeschool te Tilburg. De resterende proefper-
sonen hadden een opleidingsniveau variërend van M.B.0. tot enige jaren W.O. De leeftijd
van de proefpersonen varieerde van 21 tot 34 jaar. Via matching op basis van vooroplei-
ding werden de proefpersonen ingedeeld in 5 groepen van elk 8 proefpersonen. Geen van
de proefpersonen was vertrouwd met electrotechniek en electronica (zie 2.1.).
2.3 Procedure en experimentele opzet
De proefpersonen kregen een schriftelijke instructie (feed-forward) waarin alle fasen van
het experiment nauwkeurig zijn beschreven.
Vervolgens werd een voortoets afgenomen. De 25 items werden successievelijk aangebo-
den. De aanbiedingstijd per item was 15 sec. Direct na ieder item had de proefpersoon
gedurende 5 sec. de gelegenheid om op een antwoordformulier het (naar zijn idee) juiste
antwoord aan te kruisen. Indien de proefpersoon het antwoord niet wist dan werd hij
verzocht te gissen.
Na de voortoets werd de lesbrief (van 12 pagina's) aangeboden. Om zeker te zijn dat elke
proefpersoon de gehele tekst onder ogen zou krijgen werd in eerste instantie gelegenheid
gegeven elke pagina gedurende 1 minuut door te lezen. Vervolgens hadden de proefperso-
nen nog 8 minuten de tijd om naar eigen inzicht de tekst te bestuderen.
De totale tijd beschikbaar voor het bestuderen van de lesbrief was dus 20 minuten. Uit
eerder onderzoek is gebleken (De Klerk, 1977) dat deze tijd betrekkelijk kort is,
waardoor de prestaties op de natoets niet optimaal kunnen zijn. Deze tijd is met opzet zo
gekozen om effecten wan feedback (in plaats van instructie) te kunnen bestuderen.
Anderzijds veronderstellen wij dat de proefpersonen na het lezen van de lesbrief voldoen-
de georiënteerd zijn in de stof om de informatie die de feedback verschaft adequaat te
kunnen verwerken.
In aansluiting hierop volgde de natoets, waarvan de procedure gelijk was aan die van de
voortoets, met dit verschil dat de item-volgorde gewijzigd was. Hierna volgde de feed-
èacA:-procedure. Deze was afhankelijk van de experimentele conditie.
De onafhankelijke variabelen waren A: de feedback-procedure (Aj = actief versus A2 =
passief) en B: de herhalingsprocedure (Bj = repetitie versus B2 = alternatie). De effecten
van deze twee variabelen op het leren en onthouden van de leerstof zijn onderzocht door
3. Zowel de leerstof als de toets is samengesteld door Ir. R. Kok, secretaris van de werkgroep
experimenten van de Commissie Modernisering Leerplan Electronica en Electrotechniek (CMLEE).
212 Item-feedback
middel van een 2x2 factoriële proefopzet. Dit resulteert in vier experimentele condities.
Per conditie was een groep van acht proefpersonen beschikbaar. De resultaten van deze
groepen werden vergeleken met die van de controlegroep.
De experimentele opzet is schematisch weergegeven in tabel 1.
Tabel 1
Schematisch overzicht van de procedure. Hierin is Sj item i; Rj het door de proefpersoon
gegeven antwoord op item i; Fj de feedback in de vorm van KCR per item. De asterisk
duidt een alternatie aan.
Conditie eerste aanbieding tweede aanbieding | ||||||||||||||||||||||||||||||||||||||||||||||||
|
De procedure voor de actieve condities was als volgt. Ieder item werd twee maal in
successie aangeboden. De aanbiedingstijd was steeds 10 sec. per aanbieding. Gedurende
5 sec. kreeg de proefpersoon de gelegenheid het item te lezen; de overige 5 sec. waren
bestemd voor de reactie van de proefpersoon. De proefpersoon werd verzocht het (naar
zijn idee correcte) antwoord hardop te noemen (in termen van a, b, c, of d). Hierna
volgde het juiste antwoord. Onmiddellijk na de feedback op de eerste aanbieding volgde
de tweede aanbieding van het item. In het geval van een repetitie werd het item als
zodanig m zijn geheel herhaald; in het geval van alternatie bleef de stam gelijk terwijl de
positie van de alternatieven gewijzigd was (zie 1). Onmiddellijk na de feedback op de
herhaalde aanbieding werd het volgende item aangeboden.
De procedure voor de passieve condities onderscheidde zich daarin van die van de actieve
condities, dat de proefpersoon geen openlijke reactie behoefde te geven. Een item werd
gedurende 10 sec. aangeboden waarna het correcte antwoord-altematief werd gepresen-
teerd. Hierna volgde een tweede aanbieding van 10 sec. van hetzelfde item (al dan niet
met gewijzigde volgorde der alternatieven). Na kennis van het correcte antwoord werd het
volgende item aangeboden, enz. Tijdens de feedback-fase was de itemvolgorde gelijk aan
die van de voortoets.
De gang van zaken voor de controle-groep was zodanig dat de betreffende proefpersonen,
evenals die van de experhnentele groepen, elk item twee maal in successie te zien kregen
evenwel zonder dat zij enige vorm van feedback kregen. De totale aanbiedingstijd was
20 sec. De proefpersonen bleven passief.
Na de feedback-procedure (en in het geval van de controlegroep na de herhaalde
presentatie van de items) volgde de controletoets, waarvan de itemvolgorde gelijk was aan
die van de na toets. Zeven dagen later werd de retentietoets afgenomen; de itemvolgorde
van deze toets was gelijk aan die van de voortoets.
2.4 Resultaten
De gemiddeldè scores per conditie voor elk van de vier toetsen zijn weergegeven in
tabel 2.
De Klerk & Eerland 213
Tabel 2
Gemiddelde scores per conditie per toets.
Conditie |
voortoets |
natoets |
controle |
retentie | ||
Toetsgedrag |
procedure |
code |
code |
toets |
toets | |
Actief |
repetitie |
AjBi |
4.25 |
9.25 |
19.75 |
16.25 |
Actief |
alternatie |
A1B2 |
6.00 |
13.25 |
20.38 |
17.25 |
Passief |
repetitie |
A2B1 |
6.88 |
11.50 |
24.00 |
19.88 |
Passief |
alternatie |
A2B2 |
7.62 |
11.00 |
22.00 |
17.88 |
Passief |
controle |
5.38 |
9.38 |
8.88 |
9.25 |
Door middel van variantie-analyses is nagegaan of de vijf groepen onderling verschillen
met betrekking tot respectievelijk de voortoets en de natoets. Dit bleek wel het geval te
zijn voor de voortoets (F(4-35) = 3.16; p < .05), maar niet voor de natoets (F(435 =
2.43; p > .05). Met andere woorden, ofschoon de groepen qua opleidingsniveau door
matching zoveel mogelijk gelijk gemaakt zijn, blijken er toch aanzienlijke verschillen te
bestaan ten aanzien van de voorkennis.
Ten einde na te gaan wat de specifieke effecten van de verschillende feedback condities
zijn geweest op de controle-toets (de onmiddellijke effecten) is een covariantie-analyse
uitgevoerd met betrekking tot de 2 x 2 experimentele condities. De natoets fungeerde
hierbij als co-variaat. De resultaten van deze analyse zijn samengevat in tabel 3.
Tabel 3
Resultaten van een covariantie-analyse m.b.t. natoets- en controle-toets-gegevens. De
natoets fungeerde hierbij als co-variaat.
bron |
vrijheidsgraden |
gemiddelde kwadraten-som |
F |
A (actief-passieO |
1 |
69.03 |
13,30* |
B (rep. - alt.) |
1 |
17.06 |
3.29 |
AxB |
1 |
.41 |
.08 |
fout-variantie |
27 |
5.19 |
Bij de analyse van de conditionele waarschijnlijkheden hebben we niet alleen de P(+l+) en
P(+l-) waarden betrokken maar eveneens de resultaten van de retentietoets. Hierbij is een
onderscheid gemaakt tussen ?(+!++), de kans dat een item correct beantwoord wordt op
de retentie-toets gegeven dat het item zowel op de controle-toets als ook op de na-toets
correct beantwoord is, en ?(+!-+), de kans dat het item correct beantwoord wordt
gegeven dat het correct beantwoord is op de controle-toets doch fout op de na-toets. De
gemiddelde waarden van de verschillende conditionele waarschijnlijkheden zijn samenge-
vat in tabel 4.
214 Item-feedback
Tabel 4
Conditionele waarschijnlijkheden berekend voor elk van de vier experimentele condities.
Conditie | ||||||
Toetsgedrag |
procedure |
code |
P(+l+) |
P(+l++) |
P(+l-+) | |
Actief |
repetitie |
AiBi |
.87 |
.73 |
.85 |
.62 |
Actief |
alternatie |
A,B2 |
.88 |
.78 |
.77 |
.75 |
Passief |
repetitie |
A2B1 |
.99 |
.93 |
.85 |
.78 |
Passief |
alternatie |
A2B2 |
.93 |
.86 |
.80 |
.72 |
Voor elk van de vier typen conditionele waarschijnlijkheden is een variantie-analyse
uitgevoerd volgens een 2x2 factoriële opzet. Gebleken is dat zowel voor de P(+l+) als
voor de P(+l-) gegevens alleen de feedback-procedure (actief versus passief) significant is,
respectievelijk F(l;28) = 5.38; p < .05 en F(l;28) = 6.50; p < .05). Variantie-analyses
m.b.t. de andere twee typen conditionele waarschijnlijkheden leverden geen enkel signifi-
cant effect op.
3 discussie
Op grond van de resultaten van tabel 2 kan worden geconstateerd dat er een opmerkehjk
verschil is tussen de vier experimentele condities enerzijds en de controle-groep ander-
zijds. Informatieve feedback blijkt een positief effect te hebben op zowel de opname
(controle-toets) als de opslag (retentie-toets), althans vergeleken met de prestaties van de
controle-groep, die vrijwel stationair blijven. De eerste hypothese is dus bevestigd (zie
1.1.).
Deze conclusie wijkt af van die van Newman et al. (1974). Deze auteurs hebben
onderzoek verricht dat veel overeenkomsten vertoont met onze studie. Zo hebben zij
eveneens meervoudige keuzevragen gebruikt als basis voor de feedback (KCR per item) en
bovendien hebben zij een herhalingsprocedure toegepast. Echter, zij vonden geen verschil-
len tussen leerlingen die wel en leerlingen die geen feedback kregen.
Het verschil tussen beide uitkomsten kan als volgt worden verklaard. In beide studies is
een instructie (gevolgd door een natoets) aan de feedback-procedure voorafgegaan. De
gemiddelde score op de natoets was in het geval van Newman et al. veel hoger (20.5,
maximum score 30) dan in ons geval (10.9, maximum score 25). Dit kan een aanwijzing
zijn dat de instructie in onze studie minder adequaat was dan in het onderzoek van
Newman et al. zodat er in ons geval meer geleerd kon worden op basis van feedback.
De tweede hypothese, dat de passieve feedback-procedure effectiever is dan de actieve, is
eveneens bevestigd. Het feit dat er sprake is van een passieve procedure betekent
allerminst dat de proefpersoon passief is. Het is aannemelijk te veronderstellen dat de
proefpersoon tijdens deze procedure de informatie verwerkt die de feedback verschaft.
Het moeten geven van een waarneembare en/of registreerbare reactie - zoals het aankrui-
sen van een antwoordaltematief of het hardop zeggen wat het antwoord is - zal in veel
gevallen interfereren met het interne proces.
Het onderscheid tussen een intern proces (van informatieverwerking) en het geven van een
merkbare reactie verwijst naar de tegenstelling 'covert'-'overt'. De term 'overt' wordt vaak
De Klerk & Eerland 215
in een ruimere betekenis gebruikt dan alleen het geven van een antwoord op een vraag of
item; hiertoe worden ook activiteiten gerekend als het stellen van vragen of het onderstre-
pen van woorden of zinnen in een tekst.
Uit onderzoek is gebleken dat de wijze van reageren van invloed is op de verwerKing van
informatie (zie o.a. Todd en Kessler, 1971). Een onderzoek in het kader van geprogram-
meerde instructie (Goldbeck en Campbell, 1964) heeft aangetoond dat er een ihteractie
bestaat tussen de wijze van reageren (overt versus covert) en de moeilijkheidsgraad van de
items:
The essence of this interaction is that the overt response group is superior at the intermediate level of
difficulty and inferior at the easy level;
De moeilijkheidsgraad is gedefinieerd in termen van het aantal 'cues' dat de proefpersoon
krijgt om het correcte antwoord te vinden. Daar in ons geval het complete correcte
antwoord wordt gegeven (KCR per item) is de taak dus zeer eenvoudig. (Dit houdt
overigens niet in dat de instructie eenvoudig is; bovendien mag de moeilijkheidsgraad van
de items niet verward worden met de p-waarde). Het feit dat de passieve condities tot
betere prestaties leiden dan de actieve condities hangt zeer waarschijnlijk samen met het
type items dat gebruikt is. Het is niet onmogelijk dat met andere typen items (waarbij de
proefpersoon zelf een antwoord moet formuleren) actieve procedures - gebruik makend
van het 'cuing'-principe - superieur zijn.
De derde hypothese, dat alternatie tot hogere prestaties leidt op de retentie-toets dan
repetitie, is niet bevestigd. Uit een 2x2 covariantie-analyse van de scores van de
controle-toets (= covariaat) en de retentie-toets is gebleken dat de afname van de presta-
ties gedurende het retentie-interval onafhankelijk is van de feedback-procedure. Uit een
afzonderiijke analyse kan worden vastgesteld dat de afname significant is (F(l ;28) = 7.58;
p < .05). Met andere woorden, gedurende het retentie-interval heeft vergeten plaats
gehad. Echter, het prestatieniveau op de retentie-toets is beduidend hoger dan dat op de
na-toets. Indien we dit resultaat vergelijken met de resultaten van het vorige onderzoek
(zie De Klerk, 1977), dan is dit een aanwijzing dat de herhalingsprocedure een gunstig
effect heeft op de duurzame opslag van de informatie die de feedback verschaft.
In de inleiding werd gesteld dat de repetitie associatief leren bevordert en alternatie
cognitief leren. Daar de herhalingsprocedure noch op de controle-toets, noch op de
retentie-toets tot significante effecten heeft geleid kan op grond van de resultaten van dit
onderzoek niet worden vastgesteld wat de aard van het leerproces is.
Bovenstaande resultaten komen overeen met de gegevens van de analyses van de conditio-
nele waarschijnlijkheden. Ook hiér blijkt dat de passieve condities tot betere prestaties
leiden dan de actieve condities, en dat het verschil tussen altematie en repetitie niet
significant is.
De resultaten van de analyses van de conditionele waarschijnlijkheden tonen aan dat niet
alleen de P(+|-)-waarden maar eveneens de ?(+!+)• waarden differentiëren tussen de
verschillende experimentele condities (zie tabel 4).
Eén van de veronderstellingen van deze studie is dat feedback primair een informatieve
functie vervult (Annett, 1969, Guthrie, 1971 en Tait et al., 1973) en niet zozeer een
motivationele (i.e., reinforcement; zie Skinner, 1958). De analyses van de conditionele
waarschijnlijkheden geven echter de indruk dat niet alleen 'geleerd wordt van fouten'
(correctie op grond van feedback), maar dat feedback ook de correct beantwoorde items
als het ware 'versterkt'. Met andere woorden: ten aanzien van het debat over de vraag of
216 Item-feedback
feedback een kwestie van informatie is dan wel van reinforcement, suggereert deze studie
dat het antwoord luidt: waarschijnlijk beide.
Deze studie moet worden beschouwd als een onderdeel van een project over de invloed
van feedback op het onderwijsleerproces. Binnen dit project zal ook aandacht worden
geschonken aan andere leerprocessen (zoals bijvoorbeeld het leren begrijpen van leerstof
en het leren oplossen van problemen) en aan andere typen toetsen dan de hier gebruikte
meervoudige-keuze-toetsen.
referenties
Annett, J. Feedback and human behaviour. Penguin Books XI18, 1969.
Bilodeau, J.Mc.D. Information feedback. In: E.A. Bilodeau (ed),/Ic^u/s/ftb/j (>ƒ sfc/7/. Academic Press,
1966, 255-96.
Craik, F.I.M., en Lockhart, R.S. Levels of processing: a framework for memory research. Journal of
verbal learning and verbal behavior, 1972,11, 671-84.
De Klerk, LF.W. De invloed van feedback op het onderwijs-leerproces. Pedagogische Studiën, 1977,
54, 8-13.
Fulmer, R.W., en Rolhngs, H.E. Item-by-item feedback and multiple choice test performance./ourna/
of Experimental Education, 1976, 44, 4, 30-32.
Goldbeck, R.A. en Campbell, V.N. Response mode: is learning doing? In: DeCecco, J.P. (ed).
Educational technology. New York: Hoh, Rinehart & Winston, 1964.
Guthrie, J.T. Feedback and sentence learning. Journal of verbal learning and verbal behavior, 1971 10,
23-28.
Kulhavy, R.W., en Anderson, R.C. The delay retention effect with multiple choice tests. Journal of
Educational Psychology 1972, 63, 505-12.
Newman, M.J., WilUams, R.G. en Hiller, J.H. Delay of information feedback in an applied setting:
effects on initially learned and unlearned items. Journal of Experimental Education, 1974, 42,
55-59.
Skinner, B.F. Teaching Machines. Science, 1958, 128, 969-77.
Surber, J.R., en Anderson, R.C. Delay-retention effect in natural classroom settings. Journal of
Educational Psychology 1975,67, 170-73.
Tait, K., Hartley, J.R., en Anderson, R.C. Feedback procedures in computer assisted arithmetic
instruction. British Journal of Educational Psychology, 1973,43,161-71.
Todd, W.B., en Kessler, C.C. Influence of response mode, sex, reading ability, and level of difficulty on
four measures of recall of meaningful written material. Journal of Educational Psychology, 1971,
62, 229-34.
Manuscript ontvangen 18-4-'77.
Definitieve versie ontvangen 27-7- 77.
-ocr page 221-i Tijdschrift voor Onderwijsresearch 2 (1977), nr. 6 217
Validering van Leerstofsekwenties
voor het Leren Lezen
Jan H. Slavenburg
Project Onderwijs en Sociaal Milieu. Rotterdam
Validating leaming hierarchies for learning to read
In this article several methods for vaUdating learning hierarchies are discussed: Guttmanscales,
item tree analysis, the method of Murray and the method of White and Clark for validating
hierarchies composed of components measured as discrete variables; simultaneous equations
and several methods of regression analysis for components measured as continuous variables.
The method of simultaneous equations is applied to validate several hierarchies taken from a
beginning reading curriculum. The results are used for revising the curriculum.
1 PROBLEEMSTELLING
In het kader van het ontwikkelen van curricula wordt de leerstof soms op een bepaalde
wijze gesekwentieerd: op grond van een of ander sekwentiëringsprincipe wordt de leerstof
in leerstapjes verdeeld. Deze leerstapjes moeten in een bepaalde volgorde worden geleerd.
Meestal worden de sekwentiëringsprincipes ontleend aan leer- en ontwikkelingstheorieën.
Een bekend voorbeeld vormen de leertheoretische sekwentiëringsprincipes van Gagné;
toepassingen daarvan leiden tot het opstellen van z.g. leerhiërarchieën (Gagné & Briggs,
1974). Voorbeelden van sekwentiëringsprincipes ontleend aan ontwikkelingstheorieën
vinden wij bij kleuterschoolprogramma's gebaseerd op de theorie van Piaget (bijv. Ver-
beeten et al, 1977). Naast sekwentiëringsprincipes ontleend aan leer- en ontwikkelings-
theorieën worden in het curriculumontwikkeUngswerk nog andere gebruikt, o.a. ontleend
aan de wijze waarop wetenschappelijke kennis is geordend, aan de wijze waarop deductief
Wordt geredeneerd etc. Voor een overzicht verwijzen wij naar Slavenburg (1977) en ook
naar het themanummer over leerhiërarchieën van 'Unterrichtswissenschaft' (Eigler, 1976).
Het probleem dat ons in dit artikel bezighoudt, heeft betrekking op de vraag of een
gepostuleerde leerstofsekwentie (i.c. de sekwentie die een curriculumontwikkelingsgroep
aan een curriculum ten grondslag wil leggen) valide is. Daarmee bedoelen wij dat de
leerstofsekwentie die in de steekproef van leerlingen die het curriculum hebben doorlo-
pen, is gevonden met behulp van de hier te bespreken procedures, niet afwijkt van de
gepostuleerde sekwentie. En voor zover dat wel het geval mocht zijn, of er soms
leerstapjes in de gepostuleerde sekwentie aanwezig zijn die overbodig zijn. Een gepostu-
leerde volgorde van leerstapjes impUceert dat een voorafgaand leerstapje een voorwaarde
Voor één of meer van de erop volgende leerstapjes is: een volgend leerstapje kan m.a.w.
218 Validering van teerstof-sekwenties
niet geleerd worden, zonder dat het daaraan voorafgaande stapje (al dan niet tot op
zekere hoogte) wordt beheerst. Als dat niet zo is, (het voorafgaande stapje wordt niet
beheerst, het daarop volgende wèl) dan kan dat leerstapje verwijderd worden; het
curriculum wordt dienovereenkomstig aangepast. Het valideren van leerstofsekwenties is
derhalve een onderdeel van de formatieve evaluatie van curricula.
In het Project 'Onderwijs en Sociaal Milieu' is een curriculum voor het aanvankelijk
leesonderwijs aangepast aan de principes van het beheersingsleren. (Voor een beknopt
overzicht van deze aangepaste methode, verwijzen wij naar het artikel van Slavenburg &
Creemers, 1977). Het bleek noodzakelijk de leerstof opnieuw te sekwentiëren. De
leerstofsekwentiëring die aan het curriculum ten grondslag ligt, bleek namelijk niet
voldoende expliciet te zijn weergegeven. Bovendien bestond er behoefte aan om enige
recente resultaten van het leesonderzoek in het curriculum te verwerken. In het kader van
dit artikel zullen wij op deze leerstofinhoudehjke aspecten niet ingaan. Wij volstaan met
aan te geven dat de sekwentiëring van de leerstof tot een aantal leerstofsekwenties heeft
geleid:
boekje 2: f, b, n, w, z,
d,- a, e, V, O,
j, i, u, h,
oe, ui, ei, ou,
ie, ij, eu,
sch.
boekje 1: m, s, r, t, li
p, k, oo, ee,
g, aa, uu.
Slavenburg 219
Gegeven nieuwe woorden en/of |
3t g | |
/ |
\ | |
Gegeven wisselrijtjes van 2 < |
Df jowel f |
Gegeven wisselrijtjes (Ie woord middenletter- of verwisseling |
Gegeven auditief aangeboden nieuw en analyseert de 1.1. dit _ auditief. _ fT Gegeven auditief aangeboden nieuw |
Gegeven globaalwoord
op structureerstrook
na omklappen of be-
dekken van: eind- of
beginletter, lezen
wat overblijft, met
verlengde klank- _
waarde._La.
Fig. 2. Lezen van nieuwe woorden.
a. een leerstofsekwentie voor het lezen van lettertekens (zie fig. 1);
b. een leerstofsekwentie voor het lezen van voor de leerlingen onbekende, éénlettergrepi-
ge, klankzuivere woorden (zie fig. 2);
c. een groot aantal sekwenties voor het lezen van woorden bestaande uit meer dan één
lettergreep en/of uit bijzondere moeilijkheden, zoals klankonzuiverheid, meer dan één
medeklinker achter elkaar (deze sekwenties laten wij, gezien hun grote hoeveelheid, op
deze plaats buiten beschouwing).
Wij beperken ons in dit artikel tot de beide eerste sekwenties. De leerstofsekwentie voor
het leren lezen van lettertekens is een integratie van de opvattingen over het leren lezen
zoals die vertolkt zijn door Mommers, (de 'structuurmethode') met de opvattingen van
El'konin (zie respectievelijk Caesar, 1970 en Van Parreren & Carpay, 1972). De structuur-
methode voor het leren lezen bestaat op zich ook weer uit een integratie van verschillende
opvattingen. Door deze verschillende integraties is een z.g. eklektisch curriculum ont-
staan. De individuele verschillen tussen de leerlingen maken een dergelijke geïntegreerde
benadering gewenst: elke leerling vindt daarin hopelijk een deel van een leerstofsekwentie
Gegeven auditief aange-
boden globaalwoord
zoekt de 1.1. er een
woord met eindrijm of
beginrijm bij.
220 Validering van teerstof-sekwenties
die speciaal bij zijn cognitieve structuur past. Een uitgebreider argumentatie ten gunste
van eklektische curricula is te vinden bij Mahnquist & Brus (1974).
Samengevat, luidt onze probleemstelling: komen de beide gepostuleerde leerstofsekwen-
ties (fig. 1 en 2) overeen met de in de steekproef waargenomen sekwenties en, als dat niet
het geval mocht zijn: kunnen er dan leerstapjes verwijderd worden?
Het is vanzelfsprekend mogelijk dat er geen leerstapjes verwijderd worden, maar dat er
een heel andere leerstofsekwentie opgesteld dient te worden. Op dit probleem, het
genereren van leerstofsekwenties, hopen wij te zijner tijd in een vervolgartikel terug te
komen.
2 KEUZE VAN TOETSINGSPROCEDURES
Teneinde het probleem, zoals m paragraaf 1 geformuleerd, te kunnen oplossen, zijn wij
nagegaan welke toetsingsprocedures daarvoor in de literatuur worden aanbevolen. Daarbij
is een tweedeling gehanteerd: procedures gebaseerd op dichotoom gemeten leerstapjes (de
leerling beheerst het leerstapje wel of niet) en procedures gebaseerd op leerstapjes die als
continue variabelen zijn gemeten.
2.1 Procedures gebaseerd op dichotoom gemeten leerstapjes
Als procedures voor het valideren van leerstofsekwenties bestaande uit dichotoom geme-
ten leerstapjes bespreken wij: procedures gebaseerd op Guttmanschalen, item tree analy-
sis, de procedure van Murray en die van White en Clark. Wij gaan op deze procedures wat
dieper in dan op de in (2.2) te beschrijven procedures gebaseerd op contmu gemeten
leerstapjes, omdat zij minder bekend zijn dan deze laatste. Het is in het kader van dit
artikel helaas niet mogelijk om alle beschikbare procedures tot in detail te beschrijven.
2.1.1 Guttmanschalen
Het lijkt voor de hand te liggen om leerstofsekwenties als Guttmanschalen te beschouwen.
De leerstapjes dienen dan zodanig geordend te zijn dat, als een leerhng een stapje
beheerst, hij ook alle leerstapjes die daarna komen beheerst en dat, als hij een leerstapje
niet beheerst, hij ook alle stapjes die daarna komen, niet beheerst. Er kleeft een drietal
problemen aan deze oplossmg. Ten eerste veronderstelt een Guttmanschaal een lineaire
ordening van leerstapjes: aan elk leerstapje gaat slechts één ander vooraf. Wij hebben
echter te maken met vertakte leerstofsekwenties (zie fig. 1 en 2), waarin aan elk leerstapje
meer dan één ander leerstapje vooraf kan gaan. Eventueel zouden dergehjke vertakte
sekwenties in een aantal üneair geordende sekwenties zijn om te zetten. Dat zou echter
geen recht doen aan de leerstofsekwenties: zij krijgen een model opgedrongen dat niet
past. Ten tweede is onduidelijk op welke manier de waargenomen schalen van leerstapjes
met de gepostuleerde schalen (i.e. de leerstofsekwenties in de fig. 1 en 2) vergeleken
moeten worden. Het toepassen van een scalogramanalyse en het op grond daarvan
berekenen van een reproduceerbaarheidscoëfficiënt leidt tot problemen, gezien de grote
afhankelijkheid van zo'n coëfficiënt van de margmale totalen. Bovendien behoeven de via
Slavenburg 221
een scalogramanalyse verkregen schalen in het geheel niet dezelfde volgorde van leerstap-
jes te bezitten als de gepostuleerde schalen. De reproduceerbaarheidscoëfficiënt heeft
betrekking op de vergelijking van via scalogramanalyse verkregen schalen met de waarge-
nomen schalen in plaats van op de vergelijking van de gepostuleerde schaal (de leerstofse-
kwentie) met de waargenomen schaal. Scalogramanalyse kan daarom beter gebruikt
worden voor het genereren dan voor het valideren van leerstofsekwenties.
Een oplossing uit de geschetste problematiek wordt geboden door Proctor (1970); hij
stelt een procedure voor die een dergelijke vergelijking wel mogelijk maakt. Via een
X^-toets vergelijkt hij de kansverdeling van de schalen onder voorwaarde dat zij Gutt-
manschalen vormen met de frekwentie van de waargenomen schalen. Bijvoorbeeld: een
lineair geordende leerstofsekwentie bestaat uit een vijftal leerstapjes. De toegestane
beheersingsschalen zijn: (00000), (10000), (11000), (11100), (11110), (11111). Hierin
betekent 'O': het leerstapje wordt niet beheerst en '1' het leerstapje wordt wel beheerst.
De parameters Pj, P2,..,Ps. geven de kans waaronder deze schalen in de populatie
voorkomen; de parameter x* is een misclassificatieparameter, i is het aantal wijzigingen
dat nodig is om vanuit een Guttmanschaal naar een waargenomen schaal over te gaan (bij
(101001) is dat aantal 2). Voor elke waargenomen beheersingsschaal is na te gaan welke
kans die heeft, gegeven de Guttmanschalen.
Bijvoorbeeld:
Pr (10101)= a^ {\-af Pj (i_fl)3 p^ +^3 +
a^ (l-fl)3 P4 + a^ (\-af P5 + a^ (1-iï)^ Pg
Wij kennen de frekwentieverdeling van de waargenomen schalen (het aantal keren nl. dat
deze in de steekproef voorkomen). Via een x^-toets zijn beide verdelingen te vergelijken.
Proctor (1970) heeft nader uitgewerkt welke schatters gebruikt dienen te worden.
Een nadeel van deze werkwijze is dat zij beperkt blijft tot de 'overall fit' en geen
antwoord kan geven op de vraag: als de overall fit niet voldoet, welke leerstapjes kunnen
dan eventueel verwijderd worden? En om deze vraag gaat het curriculumontwikkelings-
groepen meestal.
Een derde en laatste probleem van Guttmanschalen vormt nog het feit dat zij voor
sekwenties groter dan vijf items (in ons geval: leerstapjes) vrijwel niet blijken voor te
komen. (Airasian, Maclans & Woods, aangehaald bij Wood, 1975).
2.1.2 Item tree analysis
Een oplossing van het in (2.1.1) gesignaleerde probleem van de niet-lineaire ordeningen
biedt de theorie van partiële ordening. Deze oplossing is bekend geworden onder de naam
'item tree analysis' (Van Leeuwe, 1974). Wij kunnen deze analyseprocedure beschouwen
als een uitbreiding van de scalogramanalyse met in plaats van Uneaire, vertakte ordenin-
gen. Het probleem van de vertakte ordening mag dan opgelost zijn, een ander probleem
blijft bestaan. De gebruikelijke toepassingen van item tree analysis veronderstellen het
genereren van partiëel geordende sekwenties van leerstapjes. Niet het vergelijken van een
gepostuleerde sekwentie met een waargenomen sekwentie.
222 Validering van teerstof-sekwenties
Er wordt naar analogie met scalogramanalyse gebruik gemaakt van een reproduceerbaar-
heidsformule. Er wordt een aantal oplossingen gegenereerd aan de hand van een
tolerantieniveau. Oplossingen waarin intransitieve relaties tussen leerstapjes voorkomen,
worden buiten beschouwing gelaten. Uit de mogehjke oplossingen kan aan de hand van
o.a. de reproduceerbaarheidscoëfficiënt een keuze gemaakt worden.
Een voor ons doel meer zinvolle vergelijking tussen de gepostuleerde en de waargenomen
ordenmgen en het nagaan of individuele relaties tussen de leerstapjes bestaan, is voor
zover bekend, niet mogelijk: toetsen daarvoor ontbreken. Wood (1975) heeft een voorstel
gedaan dat enigszins in deze lacune voorziet. Hij stelt een toets voor waarbij gebruik
gemaakt wordt van het totale aantal (R) van de noodzakehjke relaties tussen de leerstap-
jes en waarbij nagegaan wordt wat de kans op een waargenomen (R) is onder voorwaarde
dat de leerstapjes onafhankelijk zijn. Als parameters worden gebruikt: aantal leerlingen,
een tolerantieniveau, p-waarden van de leerstapjes en het aantal leerstapjes. Deze toets is
eigenhjk een soort overall aanpassingstoets. Niet een toets die aangeeft of een bepaald
leerstapje aan één of meer andere voorafgaat of niet. Dit geldt ook voor de toets die
Heiner, Whitby en Blinn voorstellen (zie van Leeuwe, 1974). Deze toets is analoog aan die
van Proctor, maar bruikbaar voor vertakte sekwenties.
Onze conclusie moet dan ook luiden dat item tree analyse niet geschikt is voor het doel
waarvoor wij deze analyseprocedure willen gebruiken. Voor het genereren van leerstofse-
kwenties is hij welhcht wel bruikbaar, Leckie (1975) heeft hem gebruikt voor het
genereren van ontwikkelingsstapjes in het kader van zijn onderzoek van de sociale
ontwikkehng.
2.1.3 De procedure van Murray
De procedure van Murray lijkt enigszins op de al beschreven procedure van Proctor. Een
beschrijving ervan is te vinden bij Keesling (1974). Murray vergelijkt d.m.v. een x^-toets
de kansverdeling van beheersingspatronen waarvan sprake moet zijn onder aanname van
de gepostuleerde leerstofsekwentie en met incalculering van misclassificatiekansen, met de
waargenomen kansverdeling uit de steekproef van leerlingen die het curriculum doorge-
werkt hebben.
Om de kansverdeling van de beheersingspatronen te kennen onder aanname van de
leerstofsekwentie is het nodig de misclassificatiekansen numeriek te specificeren, terwijl
leerstapje b |
|
leerstapje a | |
leerstapje c
Fig. 3. Illustratie leerstofsekwentie geschikt voor toepassing
procedure Murray.
Slavenburg 223
ook de kans op beheersing van elk leerstapje gekend moet worden. Deze kan voorwaarde-
lijk zijn al naar gelang het feit of er één of meer leerstapjes aan een volgend leerstapje
voorafgaan. In fig. 3 zijn deze kansen in de populatie:
Pa = de kans op beheersing leerstapje a;
Pb la = de kans op beheersing leerstapje b onder voorwaarde dat a beheerst wordt;
Pc = de kans op beheersing leerstapje c;
Pdibc = de kans op beheersing leerstapje d onder voorwaarde dat b en c beheerst worden.
Murray heeft voor deze kansen en voor de door hem gedefinieerde misclassificafiepara-
meters, schatters afgeleid.
De procedure van Murray is toepasbaar op vertakte leerstofsekwenties. Zij geeft aan of
een sekwentie als geheel valide is en staat bovendien toe de verbanden tussen de
afzonderlijke leerstapjes na te gaan. Zijn namelijk de kansen die zo'n verband aangeven
laag of nul, dan is zo'n verband niet belangrijk en kan het voorafgaande leerstapje
verwijderd worden.
De door Murray voorgestelde procedure heeft één belangrijk nadeel: zij is onpraktisch. Bij
een flink aantal leerstapjes (zoals in ons geval) is het aantal beheersingspatronen dermate
groot dat het ondoenlijk wordt om de procedure toe te passen.
2.1.4 De procedure van White en Qark
In tegenstellmg tot alle tot nu toe besproken procedures bevat de procedure van White en
Clark geen aanpassingstoets. Ze is alleen geschikt om na te gaan of één bepaald leerstapje
aan een ander vooraf gaat. Een leerstapje wordt beheerst als beide items goed gemaakt
zijn, iemand die beide items fout maakt, beheerst het leerstapje niet. Afwijkingen hiervan
worden toegeschreven aan meetfouten.
White en Clark hebben hun procedure ontwikkeld als reactie op pogingen van Gagné et al
(1962) om leerhiërarchieën te valideren. White (1973) bekritiseert deze pogingen op de
volgende punten: er is gebruik gemaakt van te kleme steekproeven, een voldoende
gedetailleerde beschrijving van de leerstapjes ontbreekt, er wordt slechts één item per
leerstapje gebruikt, er wordt getoetst nadat de gehele leerhiërarchie is onderwezen i.p.v.
na elk onderwezen leerstapje, en, een statistische toets op hiërarchische afhankelijkheid
die tevens rekening houdt met meetfouten is niet toegepast.
White en Qark (1973) beschrijven een procedure voor het geval van twee toetsvragen per
leerstapje.
Pq = de proportie leerders in de populatie die beide leerstapjes niet beheersen;
Pi = de proportie leerders in de populatie die alleen leerstapje 1 beheersen;
Pii = de proportie leerders in de populatie die alleen leerstapje 11 beheersen;
Pb = de proportie leerders m de populatie die beide leerstapjes beheersen.
Te toetsen is nu de hypothese dat degenen die leerstapje II beheersen een deelverzamehng
zijn van degenen die leerstapje I beheersen.
Met andere woorden de nulhypothese is dat niemand leerstapje II beheerst zonder
leerstapje I te beheersen.
224 Validering van teerstof-sekwenties
Er kunnen nu vier kansen onderscheiden worden:
6 de kans op liet goed beantwoorden van een vraag van de toets die leerstapje I toetst,
terwijl leerstap 1 beheerst wordt;
0b: de kans op het goed beantwoorden van een vraag op de toets die leerstap 1 toetst,
terwijl leerstap 1 niet beheerst wordt;
0 de kans op het goed beantwoorden van een vraag van de toets die leerstap 2 toetst,
terwijl leerstap 2 beheerst wordt;
0 d: de kans op het goed beantwoorden van een vraag van de toets die leerstap 2 toetst,
terwijl leerstap 2 niet beheerst wordt.
De kans op een aselect getrokken pp die in totaal O of 1 of 2 vragen van een bepaald
leerstapje goed beantwoord heeft, kan uitgedrukt worden in termen van P's en 0 's. Wij
geven een voorbeeld voor het geval dat beide vragen voor het tweede leerstapje goed
beantwoord zijn en de beide voor het eerste leerstapje fout. P(o2) dus.
P(02) = Po(l-öb)' öd + Pl(l-Ö 02+ P„(l-0b)2 02 + PB(l-0a)' 0?
Om allerlei redenen (o.a. uit identificatie-overwegingen) hebben White en Clark hun toets
gebaseerd op het vergelijken van deze P(o2) met de waargenomen frequentie f(o2) in de
betreffende tabelcel. Zij postuleren voor f(o2) een binomiale verdeling met de parameters
(N, P(o2))- P(02) wordt geschat via de meest aannemeUjke schatters, die White en Clark
baseren op de marginale totalen van de tabel. (Zij vinden deze werkwijze zelf 'less
reliable').
Zij verwijderen een voorafgaand leerstapje als Hq verworpen wordt.
Een uitgewerkt voorbeeld van de toepassing van de hier besproken procedure wordt
gegeven door White (1974). Voor ons probleem is deze procedure niet erg bruikbaar: vaak
hebben wij meer dan twee vragen per leerstapje. Onduidelijk is welke daarvan in een
concreet geval gebruikt zouden moeten worden in de procedure van White en Clark.
Bovendien ontbreekt de overall toets.
2.1.5 Clusterprocedures
Voor het valideren van leerstofsekwenties bestaande uit dichotoom of continue gemeten
leerstapjes worden soms clusteranalyse-procedures aanbevolen (bijv.: door Stennett,
Smythe & Hardy, 1975. Het probleem daarmee is steeds dat dergelijke procedures genera-
tief van aard zijn: zij leveren een bepaalde clustering van leerstapjes op. Zij zijn echter niet
in staat om een in een steekproef waargenomen clusteroplossing te vergelijken met een
gepostuleerd model, noch zijn zij geschikt voor^het nagaan van de vraag of een bepaald
cluster van leerstapjes vooraf dient te gaan aan een daarop volgend (cf. Duran & Odell,
1974).
2.2 Procedures gebaseerd op leerstapjes gemeten als continue variabelen
Van de procedures gebaseerd op leerstapjes die gemeten zijn als continue variabelen
bespreken wij procedures gebaseerd op een stelsel van simultane' vergelijkingen en enkele
andere regressietechnieken.
Slavenburg 225
2.2.1 Regressiemethoden
Allerlei vormen van stapsgewijze regressieanalyse worden ook wel gebruikt voor het
valideren van leerstofsekwenties (zie bijv. Glasnapp, Poggio &Peation, 1976). Dergelijke
procedures veronderstellen meestal lineair geordende leerstapjes en zijn daarom in ons
geval niet bruikbaar. Verbijzonderingen van regressieanalyses zoals bijv. communaliteits-
analyse (Kerlinger &Pedhazur, 1973), waarbij de bijdragen aan de te verklaren variantie
van elke verklarende variabele gesplitst wordt in een unieke en een gezamenlijke bijdrage
(gezamenlijk met de andere verklarende variabelen) leiden aan hetzelfde euvel.
2.2.2 Simultane vergelijkingen
Een stelsel van simultane vergelijkingen (Johnston, 1972) staat een beschrijving van
leerstofsekwenties toe in de vorm van een z.g. structureel model. Wij geven daarvan een
voorbeeld voor de leerstofsekwenties uit fig. 2.
De leerstapjes a, b en d worden niet in het model verklaard: het zijn de z.g. exogene
variabelen (met xj (1=1,2,3 voor resp. a, b en d) aangeduid). De overige leerstapjes
worden wèl in het model verklaard: het zijn de z.g. endogene variabelen (met y;
(i = 1,2,3,4 voor resp. c, e, f en g) aangeduid).
De bijbehorende vergelijkingen hebben de vorm:
yi =Pii Xl +/3I2 X2 +ei
Yl = ^23^3 + ^2
(1) y3 = 731 yi + 732 y2 +
y4 = 743 y3+
met: e; (i = 1,2,3,4) is een verstoringsterm
Pij en zijn coëfficiënten
Verondersteld wordt dat:
Cov(ei,ej) = Ometi#j
Cov(xi,ej) = 0
Aan de hand van de modelvergelijkingen is nu na te gaan:
- of het model, i.c. de gepostuleerde sekwentie past bij de sekwentie die in de steekproef
is gevonden (de overall fit). Toetsen daarvoor zijn o.a. beschreven door: Jöreskog,
(1970), Nie et al. (1975) en Bettonvil (1976).
- of een individueel leerstapje vooraf moet gaan aan een daarop volgend (de betreffende
coëfficiënt moet dan groter dan nul zijn).
Deze procedure voldoet derhalve aan de door ons geformuleerde criteria.
Wij zullen hem daarom toepassen op de te valideren leerstofsekwenties (zie par. 3)
-ocr page 230-226 Validering van teerstof-sekwenties
2.3 Conclusie
Gezien de besproken voor- en nadelen van de diverse procedures voor het valideren van
leerstofsekwenties hjkt de keuze van een structureel model gebaseerd op een stelsel van
(lineaire) simultane vergelijkingen gerechtvaardigd: het laat een beschrijving van de
leerstofsekwenties toe zoals weergegeven in de figuren 1 en 2; er is een overall aanpas-
smgstoets beschikbaar; het laat uitspraken toe over de individuele relaties tussen de
leerstapjes. Er bestaat niettemin een aantal problemen die aan het gebruik ervan kleven.
Wij komen daarop in een volgende paragraaf terug.
2.4 Enkele praktische problemen
Naast de zojuist besproken problemen die overwegend van statistische aard waren, doet
zich ook een probleem van meer methodologisch-praktische aard voor. Het toetsingspro-
ces zou feitelijk zo moeten verlopen dat de leerlingen getoetst worden, nadat zij één
afzonderlijk leerstapje hebben doorgewerkt (c.f. de kritiek van White in 2.1.4).
Echter, het toetsen na elk leerstapje is vaak om praktische redenen niet mogelijk. Het
onderwijs zou voortdurend en in hoge mate verstoord worden en dus contaminerend
kunnen werken; het vele toetsen zou zeker bij toetsen die individueel moeten worden
afgenomen, tot een omvangrijke (en dus dure) personeelsbezetting leiden. De vraag is
bovendien of het strikt noodzakelijk is. Stel, we hebben de leerstapjes A, B, C.
Na afloop van het leerproces (d.i.: het doorlopen van de leerhiërarchie) wordt getoetst of
de leerlingen deze stapjes beheersen. Stel dat we moeten concluderen: A ^^> B -> C:
A is géén voorwaarde voor B. Dan kan A verwijderd worden. Als tegenargument wordt
veelal het 'vergeten' van leerstapjes genoemd, terwijl het eindgedrag (C dus) wel aanwezig
is. Dit fenomeen is te beperken door de toets niet alleen aan het einde van een
leerhiërarchie af te nemen, maar - gedeeltelijk - ook al eerder. Dus niet toetsen na
bijvoorbeeld één jaar onderwijs, maar - ook weer bijvoorbeeld - na een afgerond geheel
van beperkte duur.
Een tweede praktisch probleem betreft de steekproefomvang. Gezien de aard van het
werk, namelijk curriculumontwikkelingswerk, waarin de validering feitelijk plaatsvmdt, is
het niet redelijk om te verwachten dat daarin van grote steekproeven gebruik gemaakt kan
worden. De steekproefomvang zal daarom meestal beperkt van aard zijn.
Een derde praktisch probleem betreft het aantal items waarmee leerstapjes gemeten
worden. Bij een groot aantal leerstapjes is het vrijwel onmogeÜjk om elk stapje met meer
dan 1 of 2 items te meten. Dat heeft zowel uiterst vervelende consequenties voor de
betrouwbaarheid als voor de vahditeit van de op basis van deze items verkregen gegevens.
Als op een dergehjke wijze de vaUdering moet plaatsvinden kan deze o.i. beter achterwege
bhjven. (In ons geval zijn de meeste leerstapjes door 3 of meer items gemeten, (tot 16
items toe).
3 WERKWIJZE EN RESULTATEN
In 2.3 hebben we geconcludeerd dat het gebruik van simultane vergehjkingen de voorkeur
verdient boven andere procedures.
Slavenburg 227
In model (1) zijn in feite een aantal coëfficiënten gelijk aan nul gesteld: die coëfficiënten
die het verband zouden aangeven tussen leerstapjes waartussen m fig. 2 géén verband
bestaat (tussen de leerstapjes c en d bijvoorbeeld). We hebben dus te maken met een
zogenaamd niet-volledig recursief model.
De eventuele revisiebeshssingen worden genomen op grond van het al of niet significant
zijn van de coëfficiënten (en dus op basis van het d of niet significant zijn van bepaalde
partiële correlaties), die via de gebruikelijke kleinste kwadraten methode bepaald kunnen
Worden.
Voor wat betreft dit toetsen is het verstandig, uit te gaan van het volledig recursief model
zonder daarin reeds bepaalde coëfficiënten a priori op nul te stellen. We lichten dit aan de
hand van een voorbeeld toe.
Stel, het volledig recursieve model is: '
Yi =|5iiXi +ßi2 X2 +|3i3X3 + ei
(2) y2 ='y2iyi +ß2l Xl +^22X2 +ß23^3 + e2
Vi = TsiYl + 732 y2 + ßsi^l + ß32^2 + ß33^3 + «3
met de veronderstelhng dat
Gov (Cj, ej) = 0, i ^ j en Gov (xj, ej) = 0.
Hier is de hypothese dat 721 = O dezelfde als de partiële correlatie t y^yj •xiX2X3 = 0.
Stel nu dat we apriori ß2i = ß22 = ß23 - O hadden gesteld. De tweede vergelijkmg wordt
dany2 = A2iyi +V2,
met de veronderstelhng dat Gov (e;, V2) = O, Gov (x,, V2) = 0.
Nu is echter de hypothese dat A21 = O equivalent met r y^yj = 0.
In het algemeen zou bij een onterechte a priori specificatie de laatste toets dus wel eens
tot andere resultaten kunnen leiden dan de eerste.
Als we uitgaan van het volledig recursieve model dan weten we in ieder geval dat wat we
toetsen ook inderdaad het aan nul gelijk zijn is van relevante partiële correlaties.
Als blijkt dat bepaalde coëfficiënten niet significant zijn, zou men opnieuw kunnen gaan
regresseren, met weglating van de nulgestelde coëfficiënten, om daarna weer te gaan
toetsen en zo tot een nog verdergaande reductie te komen. Om dezelfde reden als zojuist
aangehaald, lijkt het voorzichtig om dit niet te doen.
De concrete werkwijze ziet er nu als volgt uit:
- we gaan uit van een plausibel volledig recursief model;
- we gaan na welke individuele leerstapjes verwijderd kunnen worden door het toetsen
van de individuele, partiële regressiecoëfficiënten;
- het dan overgebleven model (het z.g. waargenomen model) wordt vergeleken met het
gepostuleerde volledig recursieve model t.a.v. de door beide verklaarde hoeveelheid
variantie; als deze niet significant verschilt, wordt het waargenomen model geaccep-
teerd;
1- Met dank aan Adriaan Dijkhuizen voor het idee.
-ocr page 232-228 Validering van teerstof-sekwenties
■> gepostuleerde, niet significante verbanden.
—> significante verbanden.
Aantal leerlingen: 52.
Fig. 4. Waargenomen leerstofsekwentie (boekje 1): losmaken lettertekens.
- als een aantal coëfficiënten nul getoetst wordt, zullen de regressie-coëfficiënten niet
opnieuw bepaald worden; er zal dus niet geprobeerd worden om tot een verdere
reductie van het waargenomen model te komen.
— voor.de interpretatie worden alleen de overgebleven, gepostuleerde verbanden be-
schouwd;
De resultaten die de toepassing van deze werkwijze opleverden, zijn in tweeën gesplitst
voor de leerstofsekwentie uit fig. 1: de waargenomen leerstofsekwentie weergegeven in
fig. 4 is gebaseerd op boekje 1 van de leesmethode; de waargenomen leerstofsekwentie in
fig. 5 op boekje 2.
Het verschil tussen beide wordt gevormd door het feit dat — met behulp van dezelfde
leerstapjes - in beide andere letters worden geleerd (zie fig. 1).
In de waargenomen sekwenties zijn alleen die pijlen getrokken waarvan de bijbehorende
coëfficiënt significant van nul afwijkt (op een 20%-niveau). Vergelijking van de waargeno-
men modellen met de gepostuleerde, volledige recursieve modellen via een toetsingsgroot-
heid die een -verdehng volgt, beschreven door Nie et al, 1975, 394) leverde op dat de
volledige modellen niet meer variantie verklaren dan de waargenomen modellen.
Slavenburg 229
gepostuleerde, niet significante verbanden,
significante verbanden.
Aantal leerlingen: 51.
*) ab: variantie nul.
Fig. 5. Waargenomen leerstofsekwentie {boekje 2i:
losmaken lettertekens.
De resultaten voor de sekwentie uit fig. 2 zijn weergegeven in fig. 6.
Het model uit fig. 6 verklaart niet significant minder variantie dan het volledig recursieve
model.
4 revisiebeslissingen
De resultaten, zoals vermeld in de vorige paragraaf, geven aan dat het leescurriculum,
Waaraan de leerstofsekwenties ontleend zijn, op een aantal punten herziening behoeft.
Met name lijken enkele leerstapjes niet noodzakelijk (we spreken alleen over leerstapjes
met een variantie groter dan nul). Welke revisiebeshssingen zijn aan deze resultaten te
ontlenen? Het beantwoorden van deze vraag is niet zo eenvoudig als het lijkt. Tot nu toe
hebben wij steeds gesteld dat overbodige leerstapjes uit het curriculum dienen te worden
Verwijderd.
Feitelijk is dat lang niet altijd een zinnige besUssing. Daarvoor zijn een tweetal argumen-
ten aan te voeren. Ten eerste is er het argument ontleend aan het curriculumontwikke-
230 Validering van teerstof-sekwenties
Aantal leerlingen: 48.
Fig. 6. Waargenomen leerstofsekwentie: lezen nieuwe woorden.
lingswerk. Na het sekwentiëren van de leerstof is een volgende stap daarin de keuze van de
onderwijsactiviteiten. Dat zijn die activiteiten die de leerkracht opdraagt (of die de
leerhngen zichzelf opdragen) teneinde de overgang van het ene naar het volgende leerstap-
je te bevorderen.
Vaak kunnen deze onderwijsactiviteiten niet zo precies gekozen worden dat zij de
overgang van één bepaald individueel leerstapje naar een volgend bevorderen. In de keuze
van de onderwijsactiviteiten speelt, al dan niet expUciet, de keuze voor een bepaalde
leerstofsekwentie mee.
Terzijde merken wij op dat wij hier op een zeer fundamenteel probleem stoten. Als de
relatie tussen leerstofsekwentie en onderwijsactiviteiten zo nauw is als wij schetsen, dan
kunnen zij niet los van elkaar gekozen worden. Een curriculumontwikkelingsstrategie die
een dergelijke werkwijze voorschrijft (en dat doen de meeste, technologisch georiënteerde
strategieën, bijv. Gagné en Briggs, 1974), boet daardoor aan praktische waarde in.
Ook het leerpsychologisch onderzoek naar leerstofsekwenties zoals dat bijvoorbeeld door
de Russische leerpsychologen wordt verricht, wordt dan problematisch. DergeUjk onder-
zoek kan nooit verricht worden los van bepaalde onderwijsactiviteiten. Gegeven deze
activiteiten kunnen leerstofsekwenties worden vastgesteld. Indien andere onderwijsactivi-
teiten gekozen zouden worden, zou er óók een andere leerstofsekwentie gekozen worden.
Het idee dat de leerpsychologie, en met name de z.g. onderwijsproceskunde, middels
leerstofsekwentiëring de essentiële uitgangspunten zou kunnen bieden voor een te con-
strueren curriculum, is daarom onjuist. Teneinde deze argumentatie over de onderwijsacti-
viteiten in het kader van revisiebesUssingen over leerstofsekwenties af te ronden, conclu-
Slavenburg 231
deren wij dat het lang niet altijd mogelijk is om een curriculum dusdanig te herzien dat de
leerstapjes die empirisch 'niets blijken te doen', verwijderd kunnen worden: zij zitten
daartoe te veel in de onderwijsactiviteiten ingebakken. En deze onderwijsactiviteiten zijn
meestal niet aan één leerstapje gerelateerd, maar aan meer dan één tegelijk.
Dat het weglaten van leerstapjes ook om een tweede reden niet altijd even zinvol is, bleek
toen wij de waargenomen leerstofsekwenties voorlegden aan enkele leerkrachten en
andere beoordelaars. De waargenomen sekwentie had voor hen zijn begrijpelijkheid
verloren: het is onduidelijk geworden waarom — strikt inhoudelijk gesproken - sommige
leerstapjes elkaar opvolgen. Een dergehjke onduidelijkheid zal, naar te vermoeden valt, de
implementatie van het curriculum niet bevorderen.
Een mogelijk wèl zinvolle revisiebeslissing lijkt, gegeven de beperkingen vanuit het
oogpunt van de curriculumontwikkeling en -implementatie, om aan de onbelangrijke
leerstapjes minder (onderwijs-)tijd te besteden: het aantal onderwijsactiviteiten waarin
deze stapjes voorkomen, wordt zo beperkt mogelijk gehouden. Op deze wijze wordt geen
geweld aangedaan aan de nauwe relatie tussen onderwijsactiviteiten en leerstofsekwentie
en wordt tegemoet gekomen aan het probleem van de onbegrijpelijkheid.
Er is op het terrein van dergelijke revisiebeslissingen nog vrijwel geen onderwijskundige
traditie. Dat geldt niet alleen in het geval van de leerstofsekwentiëring, maar voor vrijwel
alle onderdelen van de formatieve evaluatie. Een nadere bezinning over dit probleem hjkt
daarom gewenst.^
literatuur
Bettonvil, B. Padanalyse. Eindhoven: Technische Hogeschool, 1976.
Caesar, F.B. Zo!Veilig leren lezen. Tilburg: Zwijsen, 1970.
Duran, B.S. & Odell, P.L. Clusteranalysis, a survey. Berhjn: Springer, 1974.
Eigler, G. (red). Themanummer Lernhierarchien, Unterrichtswissenschaft, 1976, 285 - 336.
Gagné, R.M. & Briggs, L.J. Principles of instructional design. New York: Holt Rinehart, Winston,
1974.
Glasnapp, D.R., Poggio, J.P. & Deaton, W.L. Causal analysis within a mastery learning paradigm. Paper
Annual Meeting AERA, San Francisco, 1976.
Johnston, J. Econometric models. Tokyo: Mc. Graw Hill, 1972.
Jöreskog, K.G. A general method for analysis of covariance structures, Biometrika, 1970, 57, 239 -
25 L
Keesling, J.W. Empirical validation of criterion-referenced measures. In C.H. Harris, M.C. Alkin & W.J.
Popham (red).: Problems in criterion-referenced measurement. Los Angelos: Center for the study
of evaluation, University of California, 1974, 159 - 176.
Kerlinger, F.M. & Pedhazur, E.J. Multiple regression in behavioral research. New York: Holt, Rinehart,
Winston, 1973.
Leckie, G. Ontwikkeling van sociale cognitie. Nijmegen: proefschrift, 1975.
Leeuwe, J.F.J, van, Item tree analysis, Nederlands tijdschrift voor de Psychologie, 1974, 29, 475 -
484.
Malmquist, E. & Brus, B.T. Lezen leren, lezend leren. Tilburg: Zwijsen, 1954.
Nie, N.R, Huil, C.H., Jenkins, I.G., Steinbrenner, K., Bent, D.H. Statistical package for the social
sciences. New York: Mc Graw-HiU, 1975.
2. Een dergehjke bezinning vindt o.a. plaats in de werkgroep van de Vereniging van Onderwijs-
research: 'Methoden en technieken van curriculum-evaluatie'.
232 Validering van teerstof-sekwenties
Paneren, CF. van & Carpay, J.A.M. (red). Sovjetpsychologen aan het woord. Groningen: Wolters-
Noordhoff, 1972.
Proctor, C.H. A probabiUstic formulation and statistical analysis of Guttman scahng, Psychometrika,
1970, 35, 73 - 78.
Slavenburg, J.H. (red). Lezen, spellen, denken; Algemene Introductie. Rotterdam: Project Onderwijs
en Sociaal Miüeu, 1976.
Slavenburg, J.H. Sequentiëren van leerstof. In: H.P.M. Creemers et al (red). Losbladig Onderwijskundig
Lexicon. Alphen a/d Rijn: Samsom, 1977.
Slavenburg, J.H. & Creemers, H.P.M. Leren lezen door beheersingsleren. In: E. Warries (red), fie^eer-
singsleren, een leerstrategie. Groningen: Tjeenk Willink, 1977.
Stennet, R.G., Smythe, P.C. & Hardy, M. Hierarchical organisation of reading subskills: statistical
approaches. Journal of reading behavior, 1975, 7, 223 - 228.
Verbeeten, H. (red). Programma Sociale Ontwikkeling. Rotterdam: Project Onderwijs en Sociaal
Miüeu, 1977.
White, R.T. Research into learning hierarchies, ^evi'etv o/^dKcariona/ZJesearc/i, 1973,45, 361 - 375.
White, R.T. The vahdation of a\saimns\aeiaic\\y, American Educational Research Journal, 1974,77,
121 ^ 136.
White, R.T. & Clark, R.M. A test of inclusion which allows for errors of measurement, ft^c/iomefr/fca,
1912,38, 77 - 86.
Wood, W. A significance test for ordening theory. Ann Arbor: University microfilms international,
1975. •
Manuscript ontvangen 18-5-'77
Definitieve versie ontvangen 27-7-'77
Tijdschrift voor Onderwijsresearch 2 (1977), nr. 5 233
ONKRUID IN DE PROEFTUIN
Peter A.J. Bouhuijs
Capaciteitsgroep Onderwijsontwikiceling ert Onderwijsresearch, Rijksuniversiteit Limburg
Wie na het lezen van bundels als 'Onderwijs in de maak' en 'Onderwijsresearchdagen
1976' mocht menen dat het onderzoek van het wetenschappelijk onderwijs langzamer-
hand resultaten begint te boeken, moet zich maar niet wagen aan het onlangs in twee
delen verschenen rapport over de kursus Algemene Inleiding Rechtsgeleerdheid (Willems,
1976; Verheggen - de Loo, 1976) dat onderdeel uitmaakt van het rechtstreeks door het
Ministerie van Onderwijs gefinancierde Landelijke Proeftuinprojekt Rechtsgeleerdheid.
Het Nijmeegse deelprojekt heeft betrekking op de rekonstruktie van het onderwijs in het
vak Algemene Inleiding. Tijdens de loop van het projekt heeft deze rekonstruktie de vorm
gekregen van een stelsel van leerpakketten, waarin literatuur, doelstellingen en vragen zijn
opgenomen, aangevuld met een stelsel van werkgroepen en kolleges. Een meer fundamen-
tele verandering in de richting van geïndividuaÜseerd onderwijs bleek binnen de duur van
het projekt niet te verwezenlijken, maar zal mogelijk dit jaar (2 jaar na het feitelijk
projekt) in een aangepaste versie van start gaan.
In vele opzichten is het tweede deel van dit rapport het meest interessante, omdat daarin
vrij openhartig uiteen wordt gezet waarom het allemaal niet geworden is wat men ervan
verwacht had.
Een te vaag uitgangspunt, geharrewar over de landelijke samenwerking, eikaars taal niet
begrijpen, verschillende kanten op willen: het is weer allemaal gebeurd en aan de toon van
de rapportage kan men afleiden, dat men bij het lOWO wel beter zal uitkijken in de
toekomst.
Beheersproblemen denkt men in de toekomst te voorkomen door:
"... alle administratieve, beheerstechnische en overlegyoorwaarden en regelingen vooraf overwogen,
gekommuniceerd en vastgelegd te hebben.'
T.a.v. de inhoudehjke problemen:
'dient te worden gepleit voor een zo exakt mogelijke omschrijving van de projektdoeleinden en een
goed uitgewerkte aktiviteitenplanning.'
'Een vertrouwensrelatie tussen de partners, effektieve informatievoorziening gevolgd door een toelich-
tende bespreking, een duidelijke situatiebeschrijving van het onderwijsveld en bereidheid tijd en
aandacht te investeren in het projekt zijn hiervoor onmisbaar.'
'Een projektlooptijd die is aangepast aan het uiteindelijke resultaatniveau, gefaseerd is naar haalbare en
te evalueren tussendoelen en aangepast aan de onderzoeks- en samenwerkingssituatie kunnen hiertoe
dienstig zijn'.
Het vervelende van de zaak is natuurlijk, dat de aanbevelingen, die in de slotbeschouwing
staan vermeld, reeds lang in organisatiekundige, projektmanagement en ook onderwijs-
kundige literatuur vermeld zijn. Ik betwijfel sterk of de minister dit type konklusies voor
234 Notities en Commentaren
Ogen had, toen hij diep in de portefeuille tastte om eens echte vernieuwingen in de
propedeuse te stünuleren.
Blijft over deel I, waarin de vernieuwingen geëvalueerd worden. Gezien de in deel II
beschreven lijdensweg van het projekt begin je enigszins mild gestemd aan dit deel, omdat
het evalueren van vernieuwingen altijd een moeilijke taak is en zeker wanneer de partijen
het niet geheel met elkaar eens zijn.
De evaluatiepunten kunnen worden gedestilleerd uit de opsomming van doelsteUingen en
randvoorwaarden van het projekt:
- Regelmatig studeren door het jaar heen,
- zelfstandig studeren,
- stijging of niet dalen van de studieprestaties,
- daling of gelijkblijven van de geïnvesteerde staftijd,
- grotere motivatie voor de studie.
De rapportage omtrent deze punten kan een buitenstaander tot geen andere konklusie
leiden, dan dat de onderwijsonderzoekers op hun eigen vakgebied geen maximale inspan-
ning hebben geleverd om binnen die begrensde mogehjkheden een evaluatie uit te voeren:
Hoewel het projekt enige tijd in de ijskast gelegen heeft, vanwege allerlei landeUjke
beslommeringen, is men er slechts in geslaagd in het kader van vergelijkend onderzoek de
percentages geslaagden over 3 relevante studieonderdelen in de laatste vijf jaar te vergehj-
ken en op basis van 5 items de experimentele jaargroep met het voorafgaande jaar te
vergelijken. Bij deze laatste vergehjking valt het overigens op, dat niet getoetst wordt of
de groepen studenten een verschillende gemiddelde skore haalden op deze items, maar of
de gemiddelde p-waarde van de 5 items afwijkt in de 2 studentengroepen. Gezien het feit
dat alle 5 items voor de experimentele groep lager uitvielen, maar er een rubne spreiding is
in p-waarden is het vaststellen van een signifikant verschil bij een dergelijk klein aantal
vrijheidsgraden een onmogelijke zaak. Overigens ontbreekt iedere kwantitatieve aandui-
dmg met betrekking tot het keuze kriterium voor deze 5 items. Bij gebrek aan werkelijke
resultaten leunt het rapport zwaar op de programma-evaluatie, oftewel of studenten het
aangeboden programma leuk, zinvol etc. vonden. Het oordeel valt over het algemeen
gunstig uit, zodat toch nog enig resultaat te melden valt.
Het is echter onbegrijpehjk, dat er niet meer gegevens over de kriteria en randvoorwaar-
den verzameld zijn. Om een aantal voorbeelden te noemen:
- Als in de loop van 1972 de projektaanvraag tot stand is gekomen, waarom is men op
dat moment niet gaan werken aan het evaluatie-probleem? Het was vooraf toch d
duidelijk dat het projekt enige vergelijkende gegevens met het voorafgaande onderwijs
diende te bevatten en men dit dus niet binnen de looptijd van het projekt zou kunnen
oplossen.
- Waarom worden alleen gegevens over het percentage geslaagden op het tentamen
vermeld? Hoe zit dat dan met niet-deelnemers? Wat is het percentage recidivisten?
- Wie hebben er regelmatig gestudeerd?
Waarom is er geen aandacht besteed aan risicogroepen onder de studenten? Het gaat er
immers niet om een goede student een andere studiestrategie aan te praten, maar om
een middelmatige student een betere overlevingskans te bieden.
- Waarom is regelmatig studeren beter, wanneer geen enkele relatie met de studiepresta-
tie is gevonden in het onderzoek?
Bouhuys 235
- Waar zijn de gegevens omtrent de geïnvesteerde staftijd?
- Waar zijn de gegevens over de studietijd? Men treict namelijk wèl de konklusie, dat er
door spreiding meer tijd wordt besteed.
~ In hoeverre heeft de spreiding van studietijd reperkussies gehad op de aandacht voor
andere vakken?
- Waaruit blijkt eigenhjk de grotere motivatie voor de studie?
Een gebrek aan gegevens over dit soort zaken maakt iedere diskussie over de merites van
een dergelijk projekt met een opdrachtgever bij voorbaat onmogelijk (wat niet betekent,
dat een goed uitgevoerde evaluatie altijd zal overtuigen).
Wanneer men eventuele uitkomsten van een dergelijk projekt elders wil beproeven, en dat
is het expliciete uitgangspunt van de proeftuinprojekten, dan is het terug moeten vallen
op algemene beschouwingen een reden temeer om de vernieuwing niet in te voeren en
ontwikkelaars buiten de deur te houden.
Bezien we de onderwijskundige konklusies in het rapport, die bescheiden zijn omgedoopt
tot 'enkele onderwijskundige ervaringsgegevens' dan kan men zich in gemoede afvragen of
men in Nijmegen elders verricht onderzoek leest.
De opmerkingen zijn of reeds eerder behoorlijk door onderzoek ondersteund, of zo
algemeen geformuleerd, dat men zich kan afvragen waar al dat projektgeld aan besteed is
(b.v. 'Als studenten in de loop van het jaar een eigen studiemethodiek kunnen ontwikke-
len, hebben ze steeds minder behoefte aan steun').
Het valt voor de onderwijsresearchers van het Wetenschappelijk Onderwijs te hopen, dat
dit deelprojekt niet maatgevend is voor de uitkomsten van de overige deelprojekten uit de
proeftumprojekten. Gezien het feit dat de minister herhaaldelijk in het openbaar deze
projekten als hoopgevende tekenen van rijpheid van de onderwijsresearch heeft beschre-
ven, zal dit bitter nodig zijn, als de onderwijsresearch nog eens wil aankloppen om
subsidie.
Verwijzingen
Willems, J.M.H. De kursus Algemene Inleiding Rechtsgeleerdheid 1975-1976, Deel I: Onderwijskundi-
ge evaluatie, Nijmegen: Instituut voor ONderzoek van het Wetenschappehjk Onderwijs, 1976.
Verheggen-de Loo, Y.M.T.L. De kursus Algemene Inleiding Rechtsgeleerdheid, 1975-1976, deel II:
Samenwerkingsaspekten, Nijmegen: Instituut voor Onderzoek van het Wetenschappehjk Onderwijs,
1976.
Mamscript ontvangen 23-3-'77.
Reaktie op 'onkruid in de proeftuin'
J. Wlllenns
Instituut voor Onderzoelt van het Wetenschappelijlf Onderwijs, K. U. Nijmegen
Wie enigszins op de hoogte is van het projekt nr. RG 7 (en de beide rapporten zijn wat dat
betreft toch erg mformatief) zal begrijpen dat ik er weinig voor voel het projekt
236 Notities en Commentaren
inhoudelijk te verdedigen. Sterker nog, in grote lijnen kan ik het met de inhoudelijke kant
van het kommentaar wel eens zijn, hetgeen niet betekent dat er in het projekt niet een
aantal zaken ontwikkeld zijn, die uiterst bruikbaar zijn.
Eerder dan het inhoudelijke kommentaar van Bouhuys bestrijd ik de impHciete uitgangs-
punten, nl. dat het projekt bedoeld was zoals het verlopen is en dat het vanzelfsprekend
was dat de proeftuinprojekten onderzoeksresultaten in specifieke zin moesten opleveren.
De bedoehng van de proeftuinprojekten is in de loop van de tijd nogal eens verschoven:
landelijk gekoördineerd onderzoek, ontwikkelingswerk, konstruktieregels zijn termen die
van tijd tot tijd meer of minder benadrukt opdoken.
In Nijmegen werd gekozen voor het opzetten van een - blijkbaar als zodanig geaccep-
teerd, want gesubsidieerd — ontwikkelingsprojekt, waarbij het opsporen van generaliseer-
bare resultaten uiteraard ook voor ogen stond. Een van de specifieke kenmerken van
ontwikkelingswerk is echter dat de onderwijskundige sterk gebonden is aan wat de cliënt
toelaat. Hetgeen achteraf gezien dit type projekten wellicht minder geschikt maakt als
deelprojekt van landelijk gesubsidieerde projekten.
Juist om de marges aan te geven waarbinnen gewerkt moest worden en daarmee duidelijk
te maken waarom het projekt niet geworden is, wat in de bedoeling lag, is deel II
geschreven.
Hoe openhartig zo'n rapport ook mag lijken, lang niet alles wat in feite gebeurd is, kan
erin vermeld worden. Tussen de regels door is de onvrede met het geheel (onderwijskon-
struktie en evaluatie) duidelijk leesbaar. De hierbij vermelde konklusies moeten dan ook
niet worden opgevat als de uitkomst van een daartoe opgezet projekt, maar als de
explicitering wat er gebeurd is, ook van de misstappen die beide partners in het projekt in
de toekomst niet meer mogen maken. Kennis hebben en toepassen zijn heel verschillende
zaken zoals leerpsychologisch aangetoond is, ook als het gaat om veranderkundige
principes.
Overgaan tot de orde van de dag met een opmerking als 'BUjft over deel I,...' is dan ook
onjuist, omdat deel I alleen gezien kan en mag worden tegen de achtergrond van deel II.
Voor de hand ligt nu natuurlijk de vraag: 'Als je het projekt zelf zo matig vindt, waarom
dan toch dit verslag, sterker: waarom dit projekt doorgezet?'
Schrijven van een verslag hgt nogal voor de hand: zelfs als het projekt helemaal mislukt
was, zouden wij toch een verslag aan de opdrachtgevers geschreven hebben. De reden voor
het projekt is niet zo makkelijk in één zin aan te geven. Het uitzicht dat ondanks alle
problemen op toekomstige onderwijskundige mogelijkheden steeds geboden werd, maakte
het onverstandig met het projekt definitief te kappen, hoewel daarvan herhaaldelijk
sprake is geweest.
Mijn konklusie is, dat de titel en de tendens van het artikel misleidend zijn; gesuggereerd
wordt dat datgene wat als 'resultaat' gepresenteerd wordt ook in de opzet van het projekt
verdiskonteerd was; dit is niet juist.
Tot slot moet me van het hart dat de (ietwat neerbuigende) toon van het kommentaar en
de overbodige en merkwaardige generalisering ('dat men zich in gemoede (kan) afvragen
of men in Nijmegen elders verricht onderzoek leest') misplaatst zijn.
Manuscript ontvangen 23-5-'77.
-ocr page 241-i Tijdschrift voor Onderwijsresearch 2 (1977), nr. 6 237
H.C.D. de Bruyne
Blokken in het Onderwijs: Verkenningen op het terrein van beheersingsleren.
Groningen: H.D. Tjeenk Willink, 1976 (= Empirische Studies over Onderwijs, no. 23),
Prijs/27,50.
Het proefschrift van De Bruyne kan het beste worden getypeerd als een openhartig en eerlijk verslag
Van een reeks boeiende ervaringen op het gebied van de onderwijsresearch. Voor de meeste onderzoe-
kers zal het nauwehjks een verrassing zijn, dat die ervaringen lang niet altijd volgens de regels van het
boekje verzameld konden worden. Belangrijk is wel, dat de auteur alle meevallers en alle tegenvallers
eerlijk en oprecht beschrijft en dat alleen al kan worden gezien als een verrijking voor de onderwijs-
research.
Het boek rapporteert over een reeks onderzoekservaringen op het gebied van beheersingsleren
('rnastery learning'). Beheersingsleren als een strategie voor het programmeren van onderwijs wordt op
een heldere en duidelijke wijze beschreven. Het onderzoek concentreert zich op de variabelen,
rendement van de methode, tijdsbesteding, waardering van het onderwijs en retentie van het geleerde.
Naast een beschrijving van onderzoeksopzet en onderzoeksresultaten wordt in het boek aandacht
besteed aan relaties tussen een strategie voor beheersingsleren enerzijds en leertheorieën anderzijds.
Bovendien is er een hoofdstuk opgenomen, waarin uitvoerig aandacht wordt besteed aan de betrouw-
baarheidsproblematiek, voorzover die ten behoeve van een strategie voor beheersingsleren al dan niet
andere oplossingen noodzakelijk maakt. De konklusie van De Bruyne is, dat bestaande oplossingen
Voor de betrouwbaarheidsproblematiek ook in het kader van beheersingsleren van toepassing blijven.
Hoewel op alle onderdelen - de theoretische, de technische, de onderzoek-technische en de empirische
- belangrijke gedachten en gegevens aangetroffen worden, is er ook duidelijk aanleiding tot kritische
kanttekeningen. Beperken we ons tot hoofdzaken, dan zijn in ieder geval de volgende punten van
belang:
I. De titel van het boek is enigszins misleidend. Omdat blokonderwijs ook wel wordt gehanteerd als
een begrip, dat verwijst naar het na elkaar programmeren van onderdelen van het onderwijsprogramma,
's het niet zonder meer duidelijk, dat 'Blokken in het Onderwijs' te maken heeft met beheersingsleren
als een strategie voor onderwijsprogrammering op basis van geheel andere principes.
2. Wat betreft de aangegeven relaties tussen leertheorieën enerzijds en beheersingsleren anderzijds kan
men aan een indruk van globaliteit nauwelijks ontkomen. De gelegde relaties zijn weliswaar inzichte-
lijk, maar een verdergaande systematiek zou alleszins wenseüjk geweest zijn. Met name de principiële
Verschillen tussen een behavioristische benadering en een cognitivistische benadering komen onvol-
doende uit de verf. Overigens heeft dit voor de rest van het onderzoek weinig ingrijpende konsekwen-
ties. De poging om in het kader van het beheersingsleren aansluiting te zoeken bij zowel behavioristen
als cognitivisten is - gezien enkele principiële verschilpunten - weinig overtuigend.
3. Het hoofdstuk over de betrouwbaarheidsproblematiek is op zichzelf alleszins de moeite waard. De
noodzaak van een dergelijk hoofdstuk is echter allerminst duidelijk. De uitkomsten van de redenering
komen in de rest van het onderzoek niet of nauwelijks aan de orde. Het zou wellicht de voorkeur
Verdiend hebben, indien deze problematiek in een ander kader - b.v. in de vorm van een afzonderlijk
artikel - aan de orde gesteld zou zijn. Bij de gekozen oplossing kan men zich moeilijk aan de indruk
Onttrekken, dat het betreffende hoofdstuk in een late fase alsnog is toegevoegd om het theoretische
gedeelte van het geheel een extra versterking te geven.
De belangrijkste kritiek richt zich echter op het empirische gedeelte van het onderzoek. De eerüjke
Verslaglegging verdient zoals gezegd alle lof. Toch lijkt het er af en toe op, dat de logische volgorde -
^Vellicht noodgedwongen - van onderzoek hier en daar is omgekeerd. Hierdoor wordt duidelijk, dat de
•deale onderzoekssituatie in de praktijk van het onderwijs moeilijk gevonden kan worden. Voortdu-
rend moet rekening gehouden worden met bestaande opvattingen van docenten, met konkrete
mogelijkheden binnen het programma, met gegroeide tradities binnen het onderwijs, enz. Het is een
Verdienste van de auteur, dat een groot aantal problemen in deze expliciet gemaakt zijn. De soms
noodgedwongen keuzen, die bij de oplossing van deze problemen werden gemaakt, hebben wel eens
238 Boekbesprekingen
een arbitrair en weinig onderbouwd karakter. Perioden van zes weken, toetsen van 20 vragen, het te
hanteren beheersingskriterium zijn hiervan enkele voorbeelden.
Indien men hieraan nog toevoegt, dat ook de vergelijkbaarheid van de onderzoeksgroepen (Utrechtse
psychologie-studenten uit het tweede studiejaar en Tilburgse ekonomie-studenten uit het eerste
studiejaar) op een aantal punten aanvechtbaar is, dan wordt de empirische basis van het onderzoek in
sterke mate verzwakt.
Een en ander wil overigens niet zeggen, dat publikaties in deze zin onaanvaardbaar zouden zijn.
Gesteld kan worden, dat onderzoek met zoveel kanttekeningen relatief weinig kan bijdragen aan de
oplossing van het onderzochte probleem. Daar staat echter tegenover, dat op deze wijze een duidelijk
beeld kan worden gegeven van de problemen van de onderzoeker, die in een meedenkend en
meehandelend onderzoeksgebied geacht wordt zijn werk te doen.
5. Uit het voorgaande punt kan al worden gekonkludeerd, dat het onderzoek van De Bruyne relatief
weinig bijdraagt aan een uitbouw op het gebied van beheersingsleren. De empirische basis is daarvoor
te zwak, de vergelijkbaarheid van de onderzoeksgroepen te weinig overtuigend, de gemaakte keuzen
binnen de gegeven mogelijkheden te weinig onderbouwd, de gevonden resultaten in te sterke mate
poly-interpretabel, enz.
Ook vanuit de theoretische probleemstelling zijn er in dit opzicht enkele problemen. Wanneer men
beheersingsleren definieert op basis van een drietal voorwaarden en een viertal basiskenmerken, loopt
men het risiko, dat de resultaten achteraf moeilijk geïnterpreteerd kunnen worden. Als men de
resultaten van het onderzoek al volledig serieus zou willen nemen en als men de konklusie al zou willen
onderschrijven, dat beheersingsleren leidt tot betere prestaties, dan nog kan men zich blijven afvragen,
hoe dat zou kunnen komen. Ligt het aan de absolute metingen, ligt het aan de meer frekwente
terugkoppeling, ligt het aan de herhaling binnen de remedial teaching? Al deze vragen zijn niet of
nauwelijks te beantwoorden, omdat het begrip daarvoor op een te komplexe wijze gedefinieerd is.
6. Bovenstaande kanttekeningen kunnen een nogal fundamentele indruk maken. Als zodanig zijn ze
ook bedoeld. Meer konkreet wil dit zeggen, dat het onderzoek van De Bruyne relatief weinig heeft
bijgedragen aan de theorie over beheersingsleren. Daarvoor zijn de tekorten in het onderzoek te
veelvuldig en te fundamenteel. Voor een deel is dit waarschijnlijk een gevolg van het feit, dat de
gegevens al verzameld waren, voordat de onderzoeksvraag goed en wel geformuleerd was.
Mocht men op basis van het bovenstaande willen konkluderen, dat de publikatie van 'Blokken in het
Onderwijs' beter achterwege had kunnen blijven, dan is dat een onjuiste konklusie. Zelden zal men een
onderzoeksverslag aantreffen, dat zo openhartig en relativerend de opgedane ervaringen beschrijft.
Wanneer het beheersingsleren als zodanig weinig heeft gewonnen door het gerapporteerde onderzoek,
dan kan dit geenszins worden gezegd van de onderwijsresearch in het algemeen. Het type van
problemen, dat men op te lossen krijgt, wanneer men op het terrein van het onderwijs onderzoek wil
gaan doen, komt uitvoerig en gedetailleerd aan de orde. Dit laatste is zonder meer een nauwelijks te
onderschatten verdienste. Wellicht zou deze verdienste nog meer reliëf gekregen hebben, indien het
onderzoek was gesloten met een onderzoeks-voorstel en indien de - overigens zeer voorzichtig
geformuleerde konklusies - de vorm van een hypothese zouden hebben gekregen.
Wynand H.F.W. Wijnen
Medische Faculteit, Afd. Onderwijsresearch,
Maastricht
Jan Brands, Guus Egas, Sjoerd Karsten en Ed Wendrich
Andere wijs over Onderwijs, naar een materialistische onderwijssociologie
Nijmegen: Link, 1977, 301 pp (ƒ18,50).
Dit boek is een gewijzigde en uitgebreide versie van de syllabus Onderwijssociologie, die de vier auteurs
gebruiken in hun cursus inleiding in de onderwijssociologie. Het boek heeft - overeenkomstig de
bedoeling van de schrijvers - nog steeds het karakter van een inleiding in" de onderwijssociologie. Het is
echter een inleiding, die vanuit een uitgesproken gezichtspunt geschreven is. Dit blijkt reeds uit de
ondertitel van het boek, 'op weg naar een materialistische onderwijssociologie.'
In het belangrijke eerste hoofdstuk worden het object en de benaderingswijze van de materialistische
onderwijssociologie ingeleid. Uitgaande van de bekende omschrijving van het onderwijs als georgani-
seerde en geprofessionaliseerde socialisatie plaatsen de auteurs dit onderwijs in een maatschappelijk-
historische context. Zij geven van daaruit aan welke nieuwe vragen in onderzoek en theorievorming
Boekbesprekingen 239
aan de orde dienen te komen. Ook nemen de auteurs in dit eerste hoofdstuk een standpunt in ten
aanzien van het, in de onderwijskunde vaak verwaarloosde, probleem van de relatie tussen de
Veelsoortige feiten en het interpretatiekader van de onderzoeker. De auteurs wijzen vulgair, econo-
misch determinisme van de hand; al het niet-economische mag niet mechanisch worden afgeleid van de
materiële produktieverhoudingen en de ontwikkeUng van de produktiekrachten.
De hoofdstukken IV tot VI vormen de kern van het boek. Daarin vragen de auteurs aandacht voor de
politieke economie van het onderwijs, voor de sociaUsatieprocessen en voor het onderwijs als maat-
schappeUjke organisatie. De keuze van deze drie onderwerpen hangt nauw samen met hun materiaUs-
tische gezichtspunt. Zij trachten de onderUnge samenhang van de drie onderwerpen te laten zien.
Hoofdstuk IV over de poUtieke economie van het onderwijs neemt de sociaal-economische veranderin-
gen in de samenleving als methodisch vertrekpunt voor de bestudering van ontwikkeUngen in het
onderwijs. De auteurs hopen daardoor een beter analyse-instrument op te bouwen voor het begrijpen
Van deze ontwikkeUngen in het onderwijs, dan een analyse-instrument dat uitgaat van veranderingen in
pedagogische opvattingen, geïsoleerd van hun maatschappeUjke context. Eerst bespreken zij de zgn.
hurgerUjke onderwijseconomie (o.a. Tinbergen, Emmerij). Daarna geven zij een aanzet tot wat zij een
politieke economie van het onderwijs noemen. Aan de orde komen de kwaUficatiestructuur van de
arbeid, de rol van het onderwijs bij het verwerken en verdelen van deze kwaUficaties en de bemiddelen-
de rol van de overheid bij het handhaven van een bepaalde kwaUficatie-structuur.
Hoofdstuk V handelt over de socialisatieprocessen. Een goed inzicht in het onderwijs als socialisatie-
instituut vereist volgens de auteurs een analyse van het begrip socialisatie. Er wordt nagegaan of de
Verschillende sociaUsatie-theorieën, die in de afgelopen tijd door sociologen zijn ontwikkeld, recht
doen aan de wijze waarop het proces van ontwikkeling van de persoonUjkheid - naar hun inzicht een
door de maatschappeUjke verhoudingen bepaald proces - verloopt. Ook wordt aandacht besteed aan
marxistische theorieën over persoonlijkheidsontwikkeling (vooral Sève).
In hoofdstuk VI wordt de organisatie van het onderwijs besproken. Het gaat de auteurs daarbij niet
alleen om de interne organisatie in de school, maar zij betrekken daarbij het complexe bouwwerk van
planningsvernieuwings- en beheersinstanties boven de school. Zij bespreken een aantal tendenzen in de
huidige ontwikkeUng van deze onderwijsorganisatie: centraUstisch-autoritaire machtsstructuur, func-
tionele differentiëring, professionele speciaUsering, uitbreiding en stroomlijning van coördinatie en
beheersing, beheersverwetenschappeUjking, integratie van de top van de onderwijsorganisaties in het
staatsapparaat en nieuwe onderwijsideologieën als legitimatie van de huidige ontwikkeUngen in het
onderwijs.
In het laatste zevende hoofdstuk van dit boek schetsen de schrijvers hun wijze van onderzoek, tesamen
met onderwijsbasisgroepen. Op deze wijze hopen zij de kloof tussen praktijk en theorie, tussen
deelnemers en deskundigen te overbruggen.
Wat is de zin van een recensie van deze inleiding in het Tijdschrift voor Onderwijsresearch, gewijd aan
de problemen in de onderwijsresearch? Het belang hiervan is dat dit boek ons de rekening presenteert
Van de gebreken en lacunes in de Nederlandse onderwijsresearch. De materiaUstische onderwijssociolo-
gie, waarnaar de auteurs streven, is een belangrijke en noodzakeUjke reactie op het wetenschappehjk
ideaUsme en eclecticisme dat de Nederlandse onderwijsresearch kenmerkt. Uit de congresverslagen van
de onderwijsresearchdagen bUjkt dat het meeste daar gepresenteerde onderzoek kleine deelstudies zijn,
meestal op micro-niveau, die vaak een smalle theoretische basis hebben, die veelal naar aanleiding van
problemen van de overheid verricht worden, en waarvan de onderzoekers weinig oog hebben voor de
maatschappeUjke context van hun onderwijsonderzoek. Dit boek zou als tegengif kunnen dienen.
Enerzijds wordt door het materialistisch onderwijssociologisch gezichtspunt duideUjk welke kenmer-
ken en analyseniveaus in de huidige onderwijsresearch verwaarloosd worden. In het algemeen aUes wat
boven het niveau van de school Ugt en alles wat te maken heeft met de relatie tussen het onderwijs en
de maatschappij. Dit boek behandelt drie belangrijke en verwaarloosde onderwerpen: poUtieke
economie van het onderwijs, de organisatie van het onderwijssysteem en de socialisatie als maatschap-
PeUjk toeëigeningsproces.
Anderzijds wordt door het materiaUstisch perspectief van dit boek duideUjk dat de Nederlandse
onderwijsresearch Ujdt aan hetgeen de Groot eens karakteriseerde als 'het slop van het wetenschappe-
lijk stukwerk, het mozaïek van weliswaar op elkaar aansluitende steentjes, waarin echter de grote Ujn
ontbreekt.' De hele discussie over selectie in het wetenschappehjk onderwijs (numerus fixus, prope-
deuse) gaat bijvoorbeeld nog steeds gebukt onder de verabsolutering van allerlei empirisch materiaal,
Zonder dat dit in een theoretisch interpretatiekader wordt geplaatst. Ook wordt de onderwijskundige
discussie daarover gekenmerkt door kortzichtigheid ten aanzien van de maatschappelijke consequenties
Van de oplossingen die de onderzoekers voor die selectie aandragen. Juist op deze aspecten van
onderzoek wijzen de auteurs regelmatig (bv. blz. 29 e.v.).
240 Boekbesprekingen
Het boek 'Andere wijs over Onderwijs' heeft echter gebreken, die er waarschijnlijk dc oorzaak van
zulten zijn dat dit boek de meeste onderzoekers niet zal bereiken of overtuigen. Een eerste gebrek is
het inleidingskarakter van het boek. Daardoor worden veel aanzetten die de auteurs willen geven niet
afgerond. Wellicht geldt dit bezwaar niet voor de student die het als inleiding gebruikt. De onderzoe-
kers, die de kritiek van de auteurs serieus willen nemen, zullen echter bijvoorbeeld in het laatste
hoofdstuk over de door de auteurs bepleite onderzoekmethoden teleurgesteld zijn. Dit hoofdstuk is te
zeer een samenraapsel van - op zichzelf - belangrijke overwegingen.
Ten tweede laten de auteurs op een aantal punten problemen liggen, die zij gezien hun pretentie, toch
hadden behoren te bespreken. Zij signaleren terecht een verwarring tussen historisch materialisme en
economisch determinisme (blz. 30-31). In een inleiding tot een materialistische onderwijssociologie
mogen zij echter niet volstaan met enkele citaten van Engels. Zij hadden in moeten gaan op de mate
van autonomie van het onderwijs ten opzichte van de maatschappelijke ontwikkelingen en materiële
productiekrachten. Indien zij daartoe een poging hadden ondernomen, had hun boek - ook vanuit
hun eigen gezichtspunt - veel aan waarde gewonnen (zie bv. noot 20, blz. 276).
Ten derde munt het boek op sommige plaatsen niet uit door een juiste en genuanceerde bespreking van
de ontwikkelingen in het onderwijs. Vele lezers zullen fouten, verkeerde interpretaties, misvorming van
standpunten en theorieën kunnen aanwijzen. Een voorbeeld hiervan is hun bespreking van Durkheims
standpunt op blz. 26-28 en 76-78. Anderen zullen zich terecht stoten aan bepaalde passages (bv Ue op
blz. 49-52 en blz. 164-166). Deze wekken de schijn dat het gehele boek zo ongenuanceerd is eii dat in
de rest van het boek ook zo slordig met feiten en stellige conclusies wordt omgesprongen.
Het vierde en belangrijkste obstakel is echter de goede wil die de auteurs vergen van hun lezers, die hun
ideeën zouden willen gebruiken in hun onderzoek of in hun beleid. In principe bieden hun ideeën ruim
voldoende aangrijpingspunten en dergelijke voor toepassing. De wijze van uitwerking van hun ideeën
geeft echter aUe gelegenheid dit boek - ten onrechte - als onbruikbaar ter zijde te schuiven.
Wellicht draagt deze recensie er mede toe bij dat dit laatste niet gebeurt. Reikwijdte en relevantie van
het onderzoek van onderwijs zouden kunnen toenemen, indien de ideeën van 'Andere wijs over
Onderwijs' gebruikt zouden gaan worden.
Jaap Dronkers
SISWO, Amsterdam.
Ontvangen publicaties
Calcar, Co. van. Innovatieproject Amsterdam Deel I Bronnenboek. Amsterdam; Van Gennep, 1977.
Calcar, Co, van. Innovatieproject Amsterdam Deel II Tussenstand. Amsterdam: Van Gennep, 1977.
Discussiestuk innovatieplan basisonderwijs. Innovatiecommissie Basisschool, Zeist, 16 mei 1977.
Educational Research in the Netherlands: September 1972 - September 1974 The Hague: Foundation
for Educational Research, 1976.
Franken, M.L.0. Psychomotorische theorieën en trainingsprogramma's. Groningen: WoUers-Noord-
hoff, 1977 (= Orthovisies, no. 3).
Gruyter, D.N.M. de. Psychometrische aspecten van tentamens. Dissertatie, Leiden, 1977.
Jaarverslag 1976. Instituut voor Toegepaste Sociologie, Nijmegen.
Krammer, H.P.M. & Smulling, E.B. De ontwikkeling van een micro-teaching-kursus. Projektverslag.
Onderwijskundig Centrum CDO/AVC, Technische Hogeschool Twente, 1977.
Meisen, J. van. Inleiding in het gebruik van onderwijskundige documentatie- en informatiesystemen
Cursusboek. R.U. Utrecht, Afd. Onderzoek en Ontwikkeling van Onderwijs, 1977.
Mommers, M.J.C. Lezen met de vingers: Onderzoek bij blinde kinderen naar de samenhang van verbale
intelligentie, de haptische waarneming en de leeftijd met het lezen van brailleschrift, 's Gravenhage:
Staatsuitgeverij, 1977 (= S.V.O.-reeks no. 4).
Voorde, H.H. ten. Verwoorden en verstaan: Een algemeen didaktisch, empirisch onderzoek naar de
mogelijkheid om onderwas, didaktiek en onderwijsbeleid 'uitleidend' te ontwikkelen (op basis van
vernieuwing in scheikunde-onderwijs). 's Gravenhage: Staatsuitgeverij, 1977 (= SVO-reeks, no. 6), 2
delen.
Wit, H.F. de. Onderwijspsychologische taalsystemen. Een betekenis-analyse. 's-Gravenhage: Staatsuit-
geverij 1977 (= SVO-reeks, no. 7).
Tijdschrift voor Onderwijsresearch 2 (1977), nr. 6 241
The Influence of Research on Educational Practice'
Fred N. Kerlinger
University of Amsterdam
How does research influence educational practice? I know of no satisfactory empirical
answer to this question. It has recently been answered systematically, empirically, and
competently in medicine (Comroe & Dripps, 1976), but, as far as I know, not in
eduT-jtion. Virtually all answers in education have been speculation and opinion, some-
timeS based on research, sometimes not.
In this address, I will defend the following three propositions. One, there is little direct
connection between research and educational practice. Two, bodies of research aimed at
theoretical understanding of psychological, sociological, and other behavioral scientific
phenomena of possible relevance to educational thinking and practice may have beneficial
though indirect effects on educational practice.
A corollary is that basic research is more important than applied research in its potential
effect on education. And three, two major obstacles to research influencing educational
practice in the long term are the pragmatic-practical notion that research should pay off
and that it should be relevant to contemporary social and educational problems.
To defend these propositions, I will discuss the basic purpose of scientific behavioral
research, the assumed validity of the payoff and relevance notions, and how research can
and perhaps does influence practice. Finally, I will recommend what we, as educators and
educational researchers, can and should do to maximize the fruitful outcome of our
efforts.
the purpose of scientific behavioral research
The basic purpose of scientific research is theory. This rather enigmatic statement means
that the purpose of scientific research is to understand and explain phenomena (see
Braithwaite, 1953). A theory presents a systematic view of phenomena by specifying
relations among variables, with the purpose of explaining and predicting the phenomena.
Theory is held in high esteem by behavioral scientists--and rightly so. The high esteem
springs from science's basic purpose, and theory is the vehicle for expressing the basic
purpose. Science, then, really has no other purpose than theory, or understanding and
explanation.
Presidential address to the American Educational Research Association, April 1977.
Reprinted from the Educational Researcher, Septembqr 1977, Vol.6., No. 8, pp. 5-12, with the
permission of the publisher and the author.
Copyright 1977, American Educational Research Association, Washington, D.C., U.S.A.
' 1 am grateful to the following individuals for reading and criticizing the first draft of this address: H.
Beilin, L. Beilin, D. Griffiths, G. Mellenbergh, R. Owen, E. Pedhazur, and W. Russell.
242 The Influence of Research on Educational Practice
Many people think that the purpose of research is or should be to improve the lot of
mankind. Not so. Either men improve man's lot or it doen't get improved. The misunder-
standing in many people's minds about research and its presumed ameliorative purpose
arises in part from confusing science with engineering and technology. Engineering is a set
of appUed disciplines that depend mostly on science but that are themselves not science.
It is the job of the engineer to devise technical solutions to practical problems. In so
doing, he uses technology, which likewise often arises from science but is not itself
science. Technology comprises technical methods and materials devised to achieve practi-
cal objectives. This is quite different, of course, from the purpose of science.
This is a hard argument to digest. So let me give an example to show what I mean.
Suppose a theory of learning has been found to be empirically vahd, and rather
successfully explains the learning of concepts. The research to test the theory is scientific
research because it explains some aspects of human learning. It may or may not have
implications for teaching concepts to children. Whether it does or does not has nothing to
do with its status as scientific research. A teaching expert now devises a method of
teaching concepts based on the theory. He is an engineer, a technologist. Although based
on scientific research, what he does is not itself scientific research. Of course he may test
the efficacy of his method using techniques devised by scientists. His research is applied
research which is in this case inspired by the original basic research. Actual teaching using
the method is partly engineering, partly art. It is certainly not science. There is no such
thing as a science of teaching or a science of education.
In this talk I emphasize strongly the nature and purpose of basic scientific research and
say little about applied research. The reason is that I feel that a basic scientific research
approach to educational phenomena has been in general neglected and is increasingly
jeopardized by the values, attitudes, and practices of important decision-making and
funding agencies in the United States (National Science Board, 1976). I am not saying
that apphed research is unimportant. But I beheve and will try to show that basic research
has greater ultimate impact on practice. At the least, I am trying to stimulate considera-
tion of a better balance between basic and applied research in education.
MISCONCEPTIONS OF SCIENTIFIC RESEARCH
There are in the Western world today three or four related ways of thinking about
research, especially in education, that are inimical to research and that diminish its
potential healthy influence on practice. I will examine two of these in some detail so that
we can better understand the main problem. They are the pragmatic-practical misconcep-
tion and the misconception that research in education should be relevant.
The Pragmatic-Practical Misconception
Most people assume that educational research can solve educational problems and
improve educational practices. The assumption is false. And it creates expectations that
cannot be fulfilled. Educational research does not lead directly to improvement in
educational practice. The solution of a research problem is on a different level of
discourse than the solution of an action problem. The outcome of a research problem is
usually the establishment of a relation of some kind between two or more phenomena.
Kerlinger 243
This is true even of apphed research problems. Take a relatively simple applied outcome
like that in an experiment by Clark and Walberg (1968), who studied the relative effects
of massive reinforcement on the reading achievement of underachieving children. Their
experiment showed that massive reinforcement had a fairly substantial effect on the
reading achievement of the children who received it.
Can these results be applied directly to educational practice? On the surface, it would
seem so. If a research study shows that massive reinforcement helps underachieving
children to read better, then encourage teachers teaching such children to use massive
reinforcement. Unfortunately, things are not so simple. Does massive reinforcement work
with children of other ages? What difference does massive reinforcement make when
used by different kind of teachers? More subtle, is it possible that the prolonged use of
massive reinforcement might have a deleterious effect on some or even all children?
Might it, for example, have the effect of ultimately crippling children's internal motiva-
tion and initiative?
So even a seemingly obvious and simple outcome of research that is more applied than
basic turns out to be removed from practice. If we take the results of many basic research
studies that seem to have implications for educational practice we find an even greater
gap. In most such studies the gulf between study findings and practice is wide and deep.
Studying relations and taking action are on two different levels of discourse which one
cannot easily bridge. Scientific research never has the purpose of solving human or social
problems, making decisions, and taking action. The researcher is preoccupied with, and
should be preoccupied with, variables and their relations. He should never be required to
think about or to spell out the educational implications of what he is doing or has done.
To require this is to require a leap from an abstract relational level of discourse to a much
more concrete and specific level. This cannot be done directly; it is not possible to do a
research study and then have practitioners hnmediately use the results.
The expectations that research should lead immediately to change in practice springs in
good part from the well-known pragmatic and practical orientation of people who
conceive the purpose of research as the improvement of the lot of mankind. Research, in
this view, must pay off; there must be a return on the investment in research. Practical
answers and problem solutions are demanded of science and scientists. Most educational
research funding seems to be based on this expectation.
The roots of the expectation are strong in American history and life. We are a practical
people, we want results. This pressing practical attitude has paid off handsomely; we have
built a new world in a relatively short time. Part of the price we have paid for it, however,
is anti-intellectualism. An acute observer of American hfe, the historian Hofstadter, has
amply documented nineteenth century American unpatience with intellectual matters
(Hofstadter, 1962). We still have a strong current of it and the pragmatic orientation it
springs from.
A strong pragmatic attitude virtually forces focus upon outcomes and getting things done.
What is good is what works! There is relatively less emphasis on why things work; most
important is that they work. This is a defeating attitude because, as Thomson (1960) has
pointed out, 'The best way to make advances in technology... turns out to be to
understand the principle' (p. 997). He had also pointed out that this idea is a recent
discovery and has probably only recently become true. No wonder it is hard to under-
stand!
Educators have little patience with what they conceive to be 'impractical,' 'ivory tower'
research. They want research to be put to practical work. The net effect of their
244 The Influence of Research on Educational Practice
impatience is a pervading anti-inteilectualism that has a devastating effect on research in
education. One of the unfortunate manifestations of this general attitude toward research
is the urgent desire and demand for research to yield quick returns on our investments in
it. To talk about research for the sake of knowledge seems to many of us foolish, even
pathetic. We must have payoff!
This is a forlorn and futile expectation. Scientific research does not pay off in any simple
way because it is not and cannot be aimed at practical problems (Brain, 1965; Brooks,
1971; Dubos, 1961; Townes, 1968; Waterman, 1966). Indeed, our insistence on research
leading to targeted and programmatic outcomes can have and has had deleterious
consequences. One of these is reinforcement of our latent anti-intellectualism. It is any
wonder that educational research has not been distinguished for high quality? Another
serious consequence is that our talented young men and women are led into dead ends,
into fruitless and virtually meaningless searches for immediate solutions of educational
problems.
Some of you may agree with my argument but may ask: How about applied research?
Methods used by scientists are of course used in applied research. But the purpose of
applied research is to help in making decisions, and these decisions are ordinarily tied to
relatively specific problems, even though they may be large problems. So applied research
can of course be used to help solve such problems, but this problem solving does not
ordinarily lead to understanding of the complex phenomena behind educational practice.
While indispensable, especially when done in a milieu in which basic research is strong, its
power and general applicability are limited.
Take reading. Answers to reading problems lie not in many researches aimed at telling
teachers how to teach reading. They lie in research aimed at understanding the many
aspects of human learning and teaching connected with reading. Such understanding is
arrived at, if it is ever arrived at, by invoking psychological and other theories related to
reading and doing research over long periods directed at understanding reading-related
phenomena. Study of reading in and of itself is almost invariably unproductive. We must
study reading in the context of perception, motivation, attitudes, values, intelligence, and
so on. In other words, the goal should not be the improvement of reading! It should be
understanding of the relations among the many complex phenomena related to reading.
Research directed toward improving anything but minor skills is doomed to triviality,
frustration, and defeat. To improve something as complex as reading requires under-
standing of reading and many related phenomena, a very difficult task indeed. And there
is of course no guarantee of improvement in children's reading, even if basic research of
phenomena related to reading is done.
It is unrealistic, therefore, to ask how a piece of scientific research will produce
such-and-such educational results. This demand has probably weakened educational
research more than any other single cause. We force our doctoral students to tell us how
their theses will change educational practice, and the poor things comply with our
demand when in reality the demand is impossible to meet for a simple reason. People
make decisions and solve problems. Of course, the results of research may be suggestive:
they may suggest that if you do thus-and-thus, such-and-such may happen. But that is all.
They only suggest; they never demonstrate the certainty of practical outcomes. If we are
to understand the influence that research can have on educational practice, we must
understand how misguided the pragmatic-practical view is. No amount of Congressional,
government, university, or student actions and demands can change the stubborn fact
that scientific research of any consequence never pays off directly.
Kerlinger 245
The Demand for Relevance
Like the pragmatic demand for payoff from research, the demand for relevance has highly
deleterious consequences. Both demands are also hard to deal with because they are so
plausible. What is more plausible than to ask that research should be relevant, that it
should be directed to social and educational problems of worth and consequence? The
problem of relevance is important and subtle, subtle because it is so plausible and because
it can be used in the cause of ideology. It is the common argument of European Marxists
and both conservative and liberal American educators, for example. Both demand
relevance from research.
The argument for relevance seems to say, in effect, that the substance and direction of
research must be guided by significant social and educational problems. It is remarkable
that European Marxists and American educators come to the same conclusion about
research - but from different ideological bases and goals. A certain neo-Marxist group has
said, for instance, that research in psychology must be relevant, and this means emancipa-
tion of powerless groups in the society - this is called 'emancipation research'!^ In other
words, research is to be used for human and political purposes. It is no accident that one
of the subfaculties that is almost completely radicalized in my university is education.
Marxist, neo-Marxist, Maoist, and other radical students and instructors gravitate to those
disciphnes that are perceived as having potential relevance to the solution of social
problems: sociology, education, psychology, political science.
The inevitable consequences are frightening: basic research in education is almost entirely
neglected except by a few individuals. It is not immediately relevant to social and human
problems. Moreover, it supports the decadent, bourgeois, imperialist status quo. Thus, it
should not be supported.
Arguing from a less sophisticated theoretical base. Congressmen, government officials,
educational administrators, teachers, and educational researchers call for relevance, even
though the word itself may not be used. The net effect of this call, together with the
closely related payoff psychology mentioned earlier, is to cut off financial and moral
support for basic research in education. At present, the support for basic research in the
National Institute of Education budget, for example, is virtually nil. Overwhelming
proportions of the budget go to projects that are relevant and that promise solutions to
pressing social and educational problems (AERA, 1976; NIE, 1976).^
But NIE policy and practice simply follow a deeper American philosophy of pragmatic
return on the dollar, payoff in other words. As a professional staff member for the
Senate, Labor, Heahh, Education, and Welfare Appropriations Subcommittee said last
You may be interested to know that in Germany my book, Foundations of Behavioral Research,
was translated by members of this group. One thing they did was substitute for the whole of my
Chapter 1 a chapter written by a neo-Marxist! (I knew nothing of this until the book was published.)
In the substituted chapter, the importance of relevance was brought out. In the Preface it was implied
that I wasn't with it - and needed the translator's help.
^ The original plan for NIE was an admirable balance between basic and applied research concerns.
The change came from Congressional and pubUc pressure for payoff and relevance. With such strong
pressure, the original excellent conception of NIE seems to have been forgotten.
246 The Influence of Research on Educational Practice
year, 'We want N.I.E. to show us that we are getting a bang for the bucks we are spending
on educational research' (McNett, 1976). The relevance part of it springs not so much
from ideological sources, as with the neo-Marxists, but from the need to conform to
recent payoff trends and demands. This has resulted in a virtually exclusive focus on
apphed research. The effect is to choke off the most important part of educational
research.
The demand for research to be relevant has three serious weaknesses. The first is: Who
defines relevance and what is relevant? You? Me? Professors? Government officials?
Politicians? Students? When we demand relevance we are in the midst of politics because
competing claims of relevance have to be resolved. Research and politics and ideology do
not mix well because, as Nisbet (1975) has said: 'In science, ideology tends to corrupt;
absolute ideology absolutely' (p. 46), and because research problems and goals cannot be
decided democratically or autocratically. Research problems are decided by basic
researchers pursuing theoretical explanations of phenomena, or by applied researchers
seeking answers to questions of what will work and how it will work.
A second difficulty with the demand for relevance is that no one can really tell whether a
line of research will lead to worthy practical outcomes or to socially desirable ends
(DuBridge, 1969; Thompson, 1969; Townes, 1968). The demands for relevance puts the
choice on politically chosen ends and forecloses other research possibihties. I shudder to
think of our loss if the present demand for relevance had been as strong as it now is when
Thurstone and Pavlov were doing their work!
In a remarkable report published last year and directed to assessing the relative effects of
basic and applied research on medical practice, Comroe & Dripps (1976) show, clearly
and unmistakeably, that basic research has been much more important than applied
research in ultimate influence on applied modern clinical practice. This is the strongest
empirical evidence I have yet seen supporting the great importance of basic research (see,
also, Griffiths, 1967; Thompson, 1969; Townes, 1968). The Comroe and Dripps report
also makes it clear how indirect the influences are.
Comroe and Dripps asked 40 physicians to list the advances in medical practice that they
considered the most important for their patients. They sent the selected advances to a
large number of speciahsts and asked the speciahsts to vote on the hst. The votes decided
ten advances in medicine in the last thirty years. The authors, with 140 consultants, then
identified the essential bodies of knowledge that had to be developed so that the advances
could be made.
From some 2,500 research reports that were especially important to the development of
one of more of the essential bodies of knowledge identified, they and consultants selected
more than 500 essential or key articles for careful study. A 'key' article was one that had
an important effect on subsequent research and development, reported new data or new
ways of regarding old data, a new concept or hypothesis, and so on. In other words, it
was a key article if it led to one of the ten clinical advances.
Comroe and Dripps classified the articles as: (1) basic research unrelated to the solution
of a chnical problem; (2) basic research related to the clinical problem; (3) studies not
preoccupied with basic mechanism; (4) reviews (5) developmental work or engineering to
create, improve, or perfect apparatus or a technique for research; (6) the same as (5) but
for use with patients.
The results were clear: basic research was responsible for almost three times as many key
articles as other types of research and almost twice as many articles as non-basic research
and development taken together! (The figures were: basic: 61.7! ; not basic: 21.2%;
Kerlinger 247
development: 15.3%; review: 1.8%). This remarkable research into research corrects
distorted ideas of the contributions of basic and applied research to practice and strongly
affirms what many scientists have been saying for the last thirty or more years: Basic
research done not for payoff or relevance ultimately has greater effect than so-called
programmatic or targeted research. Even if one can quarrel with this statement, it is at
least evident that faith in the plausibility of the relevance argument must be shaken.
The third weakness of the relevance argument is the most fundamental one. Even if we
had unanimous agreement on what is relevant, the argument misses the main point and
purpose of science and scientific research, and, if accepted, leads to erosion of science.
For if social amehoration is substituted for disinterested pursuit of understanding and
explanation, science will lose the very things that have made it unique and powerful in
advancing man's knowledge of the world and of himself: objectivity, disinterestedness,
and universahty.
I have been negative long enough. Do 1 have anything positive to say? Yes, I think so.
how does research affect education?
How does research influence and change education and educational practice? The effects
of research are indirect and deep and are felt only over appreciable periods of time.
Deeper understanding of underlying phenomena is relatively slow, even reluctant, because
it has to combat or displace fked sets of beliefs. Larger trends in theoretical thinking and
series of research studies geared to answering general theoretical psychological and
sociological questions have the greatest probabihty of having an impact. Applied research
studies, virtually by definition, have less chance of having long-range and deep impact
because they are aimed at specific and relatively narrow goals. Theoretically oriented
studies aimed at understanding phenomena are general, abstract, and applicable in
principle to many different problems and situations, if they are applicable at all.
Take attribution theory and attribution studies. In a provocative study by Harvey and
Kelly (1974), one of the questions asked was: What conditions affect an individual's sense
of his own competence? The researchers found that conditions of stability and instability
of situations in which judgments are made affect pupils' sense of their own competence. In
another study stimulated by attribution theory, Jones and his colleagues (Jones, Rock,
Shaver, Goethals, & Ward, 1968) were interested in the effects of initial success and failure
on observers' judgments of ability. They had their subjects tackle a series of problems
which were presented in such a way that observers saw some subjects first succeed and
then fail and other subjects fail and then succeed. The observers judged those who first
succeeded more able than those who first failed, despite later performance.
Series of studies such as these should increase our understanding of attribution, a general
phenomenon or process of potential importance to education and teaching. We may gain
increased insight into teacher judgments of pupils and the conditions and traits of
teachers that affect such judgments, for example. We will probably also pick up bonuses
on the way. The serendipity of theoretical exploration is often surprising and rewarding.
For example, is it possible that the Harvey and Kelly study is an opening wedge into a
highly important but Uttle explored aspect of motivation: sense of competence?
Neither of these studies by itself means much if anything for educational practice, though
they are suggestive. A body of such studies, on the other hand, may help to change the
thinking of psychologists, sociologists, and educators about an important area of human
248 The Influence of Research on Educational Practice
behavior, making judgments and other attributions. Such gained insights can have an
impact on educational practice--though there is never any guarantee that there will be
significant and beneficial impact.
Another example of long-range research that is already changing education in Europe and
America is the series of developmental-epistemological studies of Piaget and his
colleagues, reinforced by developmental studies done in the United States over many
years. Curiously enough, developmental studies seem to be taking us back to some of the
precepts and practices recommended by John Dewey. For example, Dewey said that the
child has an intellectual life of his own, a way of thinking about reality quite different
from an adult's. The child is not just a small adult. Piaget found ample evidence for the
validity of this belief. Understanding by educators of the child's conception of reality is
likely to change educational practice profoundly. Series of studies like these, then, will
probably make a difference.
When we think of influence on knowledge, understanding, and practice, we rarely think
of the influence of methodology. This is strange because methodology has already had a
profound influence on behavioral scientific knowledge. Methodological advances make a
difference mainly because they change our ways of thinking about what we can study and
how we can study it. They broaden our approach and perspective on research problems,
in other words. Before the 1930's, for example, experiments were mostly two-variable
affairs. After the invention of analysis of variance, however, more realistic and more
theoretically interesting experiments could be done using two or more independent
variables. Moreover, the important phenomenon of the interaction of two or more
variables could be studied. In educational research, for instance, methods of teaching
could be studied in conjunction with other variables, like ability, apritude, sex, and
attitude. Research using better and more appropriate methodology leads to results that
are more generalizable, and enlarges both experimental and nonexperimental research
approaches and problems.
I believe, indeed, that we are in the midst of a revolution in research thinking due largely
to methodological development. 1 want to give a rather complex example called analysis
of covariance structures (Jöreskog, 1971, 1974), a general formulation of different
methods, of analysis in a highly sophisticated multivariate analysis framework. It in-
tegrates factor analysis, including hypothesis-testing factor analysis, multivariate analysis,
study of change, and path analysis, for example, in a framework explicitly oriented to
theory and hypothesis testing. In fact, it is explicitly aimed at complex testing of theory,
and superbly combines methods hitherto considered and used separately. It also makes
possible the rigorous testing of theories that have been very difficult to test adequately.
Examples are theories of intelligence like Guilford's and Guttman's.
Although a long way from the classroom, its influence will ultimately be felt, just as the
influence of factor analysis and multiple regression is now being felt. The recent past and
present theoretical and research work of sociologists of education using path analysis is an
example. By using path analysis, socological explanations of educational phenomena have
been strengthened. But path analysis will change profoundly because it has been shown to
be a special case of covariance structure analysis. The latter will make path analysis much
more powerful than it now is. This will change sociological explanations of educational
phenomena and ultimately educational thinking and practice.
Yes, I think that methodology has a profound if indirect and oblique influence on
practice. Methodology is, after all, different ways of doing things for different purposes.
Change methodology and you change, to some extent at least, the problems we attack.
Kerlinger 249
Perhaps more important for educational research, problems that have seemed intractable
because of their complexity are now becoming tractable and amenable to scientific
scrutiny and attack.
The most important source of influence on practice is theory. I am thinking of theory at
two levels. One is the larger kind of theory, for example, gestalt, behavioristic, psycho-
analytic, and cognitive theories in psychology. Such theories change viewpoints on
children and their learning, among other things. Sometimes they interact to produce
change. It is not unlikely, for instance, that psychoanalytic theory interacts with
behavioristic theory to produce a more open and permissive view of the child.
The other kind of theoretical influence is the more specific theory, such as attribution
theory, reinforcement theory, and theories of intelligence. Theories of intelligence can
change educational thinking and practice. The implications of genetic and environmental
theories of intelligence can lead to quite different educational systems and practices, for
instance. Reinforcement theory's influence has already been felt because of its strong
emphasis on positive reinforcement. Teachers are more likely to use reward than punish-
ment because their training cannot have helped but be influenced by reinforcement
theory. They know that in their work the weight of evidence is on the side of positive
reinforcement.
conclusion
One of the most significant things about scientific research is the system of values behind
it. When research is strong, an open atmosphere of critical inquiry is fostered, which in
turn fosters openness and critical inquiry in our teaching. We are more likely to appeal to
evidence in what we tell students, and we are more likely to require students to do the
same. Theoretical explanations and empirical testing of theory become the underlying
structure of our work and teaching. The university is plagued as much as other institu-
tions by superstition, prejudice, and dogma. The healthiest antidote to such social
diseases has been science and scientific ways of thinking and working because there is a
constant appeal to empirical public evidence and a constant challenge of generalizations
unsupported by evidence. As Monod (1971) puts it, science subverts mythology and
dogma.
Science and scientific research change our ways of thinking about ourselves, others, and
children, and about leaming, intelligence, and the many psychological and sociological
determinants of leaming, achievement and adjustment. A profession, once thoroughly
exposed to science, can never be the same again.
The effects of scientific behavioral research in education, then, should be strong though
indirect and slow. Applied research should undoubtedly have effects, but they will
probably not be as strong and far-reaching as the long-range effects of basic research.
More germane to my main points in this talk, if applied research is emphasized and
supported at the expense of basic research, then the results will be unfortunate. The more
important research and thinking aimed at basic understanding of educational problems
and processes cannot help but suffer, even weaken and die. So my question is: Can
scientific research in education be strong? Will the current, partially irrational, attacks on
scientific research have the effect of further weaking research in education? Basic
scientific research has been neglected, sometimes denigrated, even in university schools of
education. It is puzzling and fmstrating that in universities faculty members and doctoral
250 The Influence of Research on Educational Practice
students - the present and future intellectual leaders of education - have been and are
deficient in research knowledge and understanding of science. Add to this the apparent
ignorance of national and local officials and policy makers of what research can and
cannot do and how it is done, and we have little real promise for obtaining the knowledge
needed for adequate understanding of education.
What can be done?
What can be done to improve educational research to maximize the probability of it
positively affecting educational practice? First, 1 doubt the efficacy of planned programs
to improve schools and education through research. Such phenomena as action research,
targeted research, programmatic research, and, in Europe, emancipation research are
mostly bizarre nonsense, bandwagon climbing, and guruism, little related to what research
is and should be. Indeed, such movements have serious negative effects because they
distract us from adequate research and because they substitute superficial and mediocre
activities for the hard coin of scientific research.
Second, we should not make promises we can't keep. I agree strongly with Frankel
(1973) when he says, in his brilliant assay on irrationalism and rational enquiry,
'Considerable damage has also been done by scientists, among whom social scientists are
perhaps the most notable, who exaggerate the amount of sound and applicable knowledge
they have and who offer confident solutions to social problems-solutions that, when
tried, turn out to be only a mixture of pious hope and insular moral judgements' (p. 931).
We should refuse to inflate the currency of educational research. This means that we
should not create futile expectations of what educational research can and will do. When
we talk to Congressmen and other influential policy makers and to school people and
parents, we should not promise great improvements. The job of educating policy makers
and the public is very difficult, but we should at least try to do it properly and with
complete honesty.
Third, there should be a judicious balance between basic and applied research. The
present overemphasis on applied research and neglect of basic research is shortsighted and
ultimately detrimental to educational research and educational practice (Panel, 1960,
Waterman, 1966). To foster and maintain such a balance should be a prime duty of the
National Institute of Education and the American Educational Research Association. I
beheve that roughly one-quarter to one-half the budgets of federal educational research
funding agencies should be allocated to basic research.
Fourth, as the Panel on Basic Research and Graduate Education of the President's Science
Advisory Committee (1960) has pointed out, research that is not excellent has no place in
science: 'In science the excellent is not just better than the ordinary; it is almost all that
matters' (p. 1814). Mediocre research is bad research. We must always aim, therefore, to
do excellent research. To do this, we have to give educational researchers the best
theoretical, mathematical, and methodological training possible in order to maxunize the
probability of excellence. Conceptual and technical competence should be our first
training goal. Cutting off federal funds for research training programs, therefore, strikes
me as irresponsible. So do mediocre research training programs in schools of education.
The main source of basic research in education should be university schools of education.
They must therefore have high quality research training programs.
Fifth, educational research leadership should come from educational researchers and not
Kerlinger 251
from officials and agencies, federal or state. I am puzzled and chagrined by NIE and the
Congress, for example, setting broad and general research goals for the whole country.
Congress has even mandated NIE concentration of resources on five research goals or
needs {Congressional Record-House, 1976). I am also deeply concerned when I read in
the National Science Board's (1976) important report. Science at the Bicentennial, of the
dismal and deleterious effects of government pressure for applied rather than basic
research and its overregulation of research aU over the country and evidently in all fields.
We should try to minimize the influence of government and foundation research goals,
which are often dictated by political and other extraneous considerations. This may of
course mean giving up federal funds. My answer to that is that such funds will not do
much good anyway. Indeed, they distract us from much of what we should be doing.
Skth and last, we should try to create and maintain in our universifies and laboratories
the open atmosphere of free inquiry characteristic of science at its best. It is mainly in
such an atmosphere that excellent and creative research is done. We should be extremely
wary of proposals and actions that would limit this freedom directly or indirectly. One
reason I am so suspicious of 'save-the-world' proposals is not just because they are
essentially phoney, but also because, with their financial and prestige resources and
rewards, they distract young men and women of promise from the real and fundamental
tasks of research.
There are many obstacles to and distractions from doing research, especially in education.
One of the most potent is closing the open atmosphere of free inquiry by special appeals
to improve education through research and by channeling resources and support to
special 'virtue' projects and special ways of doing research that promise social and
educational improvement. One of the most deleterious effects of the general acceptance
of alluring and 'special' research activities is the lack of social, financial, and psychological
support for basic research, which is made to appear less attractive, less alluring, and more
demanding. I do not mean, of course, that we should not encourage innovation and new
developments. I simply ask for a better balanced and more open environment and for
critical examination of proposals, especially those involving large sums of money and
those that promise more than they can obviously deliver.
I am both optimistic and pessimistic. There are hopeful signs of health in educational
research. For example, some of the most promising of recent developments in theory and
methodology come from individuals working in educational research or closely connected
with it. But there are also influences hostile to research: the demands for payoff and
relevance, attacks on objectivity, educator and policy maker lack of understanding of
science and scientific research, and the general lack of a congenial atmosphere for
research. I am inclined to believe that increased understanding and acceptance of research
are inevitable. But how long will it take? Until research is understood and accepted, there
will be little change in educational practice based on tested theory and empirical
evidence. Instead, we will have to depend on the conflicting clauns of men and women
with greater or lesser amounts of magical power and charisma.
references
American Educational Research Association. AERA info memo on governmental and professional
liaison. 6 February 1976.
Brain, W.R. Science and antiscience. Science, 1965,148, 192-198.
Braithwaite, R.B. Scientific explanation. Cambridge: Cambridge University Press, 1953.
252 The Influence of Research on Educational Practice
Brooks, H. Can science survive in the modern age? Science, 1971,174, 21-30.
Carey, W.D. Basic research and Congress. Science, 1976,192, 743.
Qark, C.A., & Walberg, H.J. The influence of massive rewards on reading achievement in potential
urban school dropouts. v4men'cfl/i Educational Research Journal, 1968, 5, 305-310.
Comroe, J.H., & Dripps, R.D. Scientific basis for the support of biomedical science. Science, 1976,
192, 105-111.
Congressional Record-House. Sec. 403, September 27, 1976.
Dubos, René. Scientist and pubUc. Science, 1961,133, 1207-1211.
DuBridge, L.A. Science serves society. Science, 1969,164, 1137-1140.
Frankel, C. The nature and sources-of irrationalism. Science, 1973,180, 927-931.
Griffiths, D.E. The ten most significant educational research findings in the past ten years. Executive
Action Letter, 1967, 6, 1-10.
Harvey, J.H., & Kelley, H.H. Sense of own judgmental competence as a function of temporal pattern
of stabiUty-instability in judgment. Journal of Personality and Social Psychology, 1974, 29,
526-538.
Hofstadter, ^.Anti-intellectualism in American life. New York: Vintage, 1966.
Jones E.E., Rock, L., Shaver, K.G., Goethals, G.R., & Ward, L.M. Pattern of performance and ability
attribution: An unexpected primacy effect. Journal of Personality and Social Psychology, 1975,32
767-733.
Jöreskog, K.G. Statistical analysis of sets of congeneric tests. Psychometrika, 1911,36, 109-133.
Jöreskog, K.G. Analyzing psychological data by structural analysis of covariance matrices. In D.H.
Krantz, R.C. Atkinson, R.D. Luce, & P. Suppes (Eds.), Contemporary developments in mathemat-
ical psychology (Vol. II): Measurement, psychophysics, and information processing. San Francisco:
Freeman, 1974.
McNett, LE. R & D can help with ABC's. New York Times, July 18, 1976.
Monod, J. Chance and necessity. New York' Knopf, 1971.
Nisbet, R. Knowledge dethroned. New York Times Magazine, pp. 34, 36, 39,41, 43, 46.
Panel on Basic Research and Graduate Education of the President's Science Advisory Committee.
Scientific progress and the Federal government. Science, 1960,132, 1802-1815.
The National Institute of Education. Washington; D.C.: U.S. Department of Health, Education, and
Welfare, National Institute of Education, 1976.
Thompson, P. TRACES: Basic research links to technology appraised. Science, 1969,163, 374-375.
Thomson, G. The two aspects of science. Science, 1960,132, 996-1000.
Townes, C.H. Quantum electronics, and surprise in development of technology. Science, 1968, 159,
699-703.
Waterman, A.T. Federal Support of science. Science, 1966,153,1359-1361.
-ocr page 257-i Tijdschrift voor Onderwijsresearch 2 (1977), nr. 6 253
W.P. van den Brink
Psychologisch Laboratorium, vakgroep Methodenleer
Universiteit van Amsterdam
The influence of scouting
In some multiple-choice testsituations, it is possible for students to take a test repeatedly
without restriction. This encourages gambling; moreover, poorly prepared students can use the
opportunity to study the items. Such students know beforehand that they will almost certainly
fail. These students are called scouts. The influence of scouting on p values, on the allied norms,
and on passing percentages are examined. It is proposed either to correct the p values and the
passing percentages for scouting, or to introduce the prohibition of scouting. Ignoring scouting
leads to drastically lower norms and thus to tests that are too easy.
1. Inleiding
Bij vele studietoetsen iS het mogelijk herhaaldelijk deel te nemen zonder dat daar sancties
aan verbonden zijn. Dit trekt groepen studenten die ter oriëntatie meedoen. Ze vullen de
toets min of meer aselect in en weten tevoren zeker dat ze zullen zakken. Dergelijke
studenten zullen verkenners genoemd worden. Het gebruik van het woord raden wordt
vermeden omdat iedere student raadt daar waar het nodig is.
In dit artikel wordt nagegaan wat de invloed van de verkenners is op de p-waarden van de
items en het slaagpercentage bij studietoetsen. Aangetoond zal worden dat het negeren
van deze invloed tot normverlaging kan leiden. Empirische gegevens worden gepresenteerd
van de sterkte van het verken-effect en van de consequenties van de invoering van een
verken-verbod. Dit gebeurt aan de hand van het kandidaats-tentamen Methodenleer en de
propedeutische tentamens Wiskunde en Statistiek A.
Het Methodenleer tentamen bestaat uit vijftig tweekeuze-items, de wiskundetoets uit
dertig vierkeuze-iteijis en het Statistiek A tentamen uit twintig vierkeuze-items.
2. Verkenscores
De testscore X van een student die een studietoets, bestaande uit n items met ieder k
antwoordmogelijkheden, aselect invult is een binomiaal verdeelde stochast met parame-
ters n en pg = I/k (pg is de gemiddelde 'kans op goed', zie de Groot en van Naerssen
(1975, p. 279) ). Voor een stüdent die zich op de toets heeft voorbereid, is de testscore X
slechts binomiaal verdeeld met parameters n en pg indien alle items dezelfde moeilijk-
Met dank aan P. Koele.
-ocr page 258-254 Het Verken-Effect
heidsgraad hebben. In de praktijk is dit natuurhjk niet het geval. Wel kunnen we het
volgende model gebruiken. De testscore X is binomiaal verdeeld met parameters n en Pg,
waarbij pg de gemiddelde kans op goed is, berekend over alle items van de toets. Een
puntschatting voor Pg wordt geleverd door X/n.
Door de hypothese Hq : ipg < 1/k te toetsen tegen de hypothese Hi : p'g > 1/k zullen we
het begrip verkenscore operationaliseren. We verwerpen Hq indien geldt: X>c, waarbij c
de kritieke grens is. De fout van de eerste soort wordt gegeven door
a = P(X> c|pg = l/k;n) en de fout van de tweede soort door= P(X <c-l|pg; n).
Verkenscores zijn scores X waarvoor geldt: X < c—1. We kiezen bij deze procedure, om
nader aan te geven redenen, a .01.
Een student met een aldus gedefinieerde verkenscore wordt een verkenner genoemd.
In tabel 1 zijn op deze wijze de verkenscores bepaald voor de toetsen Methodenleer,
Wiskunde en Statistiek A.
Tabel 1 | ||||||||
|
Met de Wiskundetoets als voorbeeld zal nu aangetoond worden waarom .01 gekozen
is.
Tabel 2
De fout van de tweede soort bij de Wiskundetoets
Pg
.25
.3
.4
.5
.6
.7
.98
.92
.58
.18
.02
.0003
Zoals uit tabel 2 en figuur 1 blijkt vallen onder de definitie van de verkenscore X < 12
vrijwel alle studenten met Pg = .25 en een deel van de studenten met .3 < Pg < .5. Echter
vrijwel geen studenten met Pg > .6. Een en ander is conform onze wensen. Ook zeer
slecht voorbereide studenten, die van te voren zeker zouden kunnen weten dat ze zullen
zakken, moeten onder de definitie van de verkenners vallen. Uit tabel 3 blijkt dat
studenten met Pg = .4 of .5 inderdaad van te voren vrijwel zeker kunnen zijn dat ze zullen
zakken.
De aftestgrens bij de Wiskundetoets is twintig.
^ = P(X< 12lpg;n = 30)
-ocr page 259-Van den Brink 255
Tabel 3 | ||||||||
|
De gekozen definitie X < 12 levert dus zeker een onderschatting op voor het verken-
effect. De meest waarschijnlijke score X voor een student met Pg = .5 is immers vijftien.
Orn niet al te sterk te onderschatten is gekozen voor a. «»0,01. Bovendien blijkt deze
keuze van a er niet toe te leiden dat redelijk goed voorbereide studenten als verkenners
aangemerkt worden.
256 Het Verken-Effect
Uit de empirische gegevens van de Wiskundetoets bHjkt dat de gemiddelde kans op goed,
berekend over de groep met een verkenscore (pg)v = (X)v/30 ongeveer gelijk is aan .3 (zie
tabel 5). Dit is in overeenstemming met wat we, gezien het bovenstaande, op theoretische
gronden verwachten.
3. De p-waarde gecorrigeerd voor het verken-effect
De fractie verkenners wordt v genoemd. De p-waarde van een item gecorrigeerd voor
•verkennen zullen we noteren als p^, de ware p-waarde. De kans op goed pg voor een
bepaald item, berekend in de groep der verkenners, als (pg)v. Er geldt:
Voor een item met k antwoord mogelijkheden geldt de volgende benaderingsformule voor
Pw (de benadering van p^ wordt genoteerd als p^j;,):
P - i • V kp - V
1-v k(l-v)
Pw levert een overschatting op van p^ bij de gemakkelijke items in de toets die ook door
een aantal slecht voorbereide verkenners goed gedaan zullen worden. Bij dergelijke items
zal (pg)v groter zijn dan 1/k. Bij de wat moeilijker items zal pj;, zonder meer een goede
benadering van p^, zijn.
Voor het gemiddelde van p^ en p;|;, geldt:
- 1 I,-
P--.V kp-v
1 _ V k (1 - v)
pj^ levert een kleine overschatting op van p^, hetgeen niet zo bezwaarlijk is omdat onze
definitie van de verkenscores aan de voorzichtige kant is.
4. Regelingen bij de geanalyseerde tentâmes
Het tentamen Methodenleer mag onbeperkt vaak afgelegd worden. Er zijn geen regelingen
getroffen om verkenners af te schrikken.
De Wiskundetoets moet in het eerste studiejaar gehaald worden. Er zijn ieder studiejaar
drie tentamengelegenheden, in december, april en een herkansing in mei. Vooral bij het
Van den Brink 257
2 Histogram van de frequentieverdeling van de Wiskundetoets van 2 april 1976
december tentamen deden steeds grote groepen verkenners mee. Aangezien dit zijn
repercursies heeft op de normen en het slaagpercentage, waarover in het vervolg meer, heb
ik, te beginnen met het studiejaar 1975 - 1976, een maatregel getroffen om de
verkenners af te schrikken. Wie een score X < 11 haalt in december mag niet deelnemen
aan het tentamen in april. De grens is niet kleiner dan dertien maar kleiner dan elf
gekozen om vooral geen studenten af te schrikken die slechts onzeker zijn maar wel
redelijk voorbereid. Dat deze keuze tot het beoogde effect heeft geleid zal blijken.
Het Statistiek A tentamen is een onderdeel van het propedeuse en moet dus in het eerste
jaar behaald worden. Ook hiervoor zijn er drie toetsgelegenheden, in januari, in april en
een herkansing in mei. Ook voor dit tentamen is in het studiejaar 1975 - 1976 een
dergelijke maatregel ingevoerd. Wie een score X < 7 haalt in januari mag niet deelnemen
aan het Statistiek A tentamen in april.
De aanwezigheid van grote groepen verkenners blijkt al snel uit de frequentieverdeling van
de scores. Deze wordt tweetoppig. Een paar voorbeelden hiervan vindt men in de
figuren 2 en 3.
5. De grootte van het verken-effect en de invloed van het verken-verbod
In de tabellen 4, 5 en 6 is voor de verschillende toetsen de fractie verkenners v bepaald.
Door p en p^^ te vergelijken zien we wat de invloed is van een groep verkenners op de
gemiddelde p-waarde.
Uit de tabellen 5 en 6 blijkt bovendien wat het effect is van een verkenverbod.
/r ii n W 1* iV tv XV &4 17 I.V vj DO
«1-
8
7
L
r
H
3
258 Het Verken-Effect
Tabel 4 Methodenleer (tweekeuze) | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Van den Brink 259
Tabel 6 Statistiek A (vierkeuze) | |||||||||||||||||||||||||||||||||||||||||||||||||
|
Bij de Wiskundetoets is het verken-verbod zeer effectief. Bij het Statistiek A tentamen
minder, kennelijk is de grens 7 hier te laag gekozen. Door mij was als grens 8 voorgesteld,
maar de vakgroepsraad prekandidaats opleiding heeft deze teruggebracht tot 7. De
grens 11 bij de Wiskunde is niet ter discussie geweest in de vakgroepsraad.
Overigens zijn de gegevens uit tabel 6 minder eenduidig te interpreteren dan die in de
tabellen 4 en 5. Het Statistiek A tentamen bestaat uit slechts twintig vierkeuze-items. Het
tentamen vormt dan ook samen met het Statistiek B tentamen, dat uit vraagstukken
bestaat, het propedeutische tentamen Statistiek. De scores voor Statistiek A en B zijn
onderling compenseerbaar. Met het oog hierop wordt de Wiskundetoets in het vervolg
steeds ter illustratie gebruikt.
6. Verken-effect en normen
In de Groot en van Naerssen (1975, p. 262) vindt men als norm voor de p-waarde van
een vierkeuze-item .45 < p < .90. In de termen van dit artikel betekent dit dat, bij een
toets waaraan verkenners meedoen, moet gelden .45 < pw ^ -90. We nemen de Wiskunde-
toets weer als voorbeeld. Op grond van tabel 5 kiezen we v = .3 en (pg)v = .3.
Dan geldt volgens formule (1):
p„ = 1.43p-.13
.45 < Pw < .90 .45 < 1,43 p - .13 < .90 .40 < p < .72
Willen we de Wiskundetoets volgens de gebruikelijke normen construeren dan moeten we
items gebruiken met .40 < p < .72! Een item is optimaal (zie de Groot en van Naerssen
(1975, p. 261)) indien geldt Pw = -63 hetgeen gelijkwaardig is met p = .53.
Is de p-waarde van een item groter dan .72 dan is het item te eenvoudig. Selectie van
items met .45 < p < .90 leidt in dergelijke gevallen tot drastische normverlaging. Om dit
te voorkomen moet bij alle studietoetsen die herhaald afgelegd mogen worden èf een
verken-verbod ingevoerd worden öf de p«-waarden der items dienen berekend te worden.
260 Het Verken-Effect
7. De invloed van de verkenners op het slaagpercentage
Het percentage geslaagden voor een studietoets noemen we g, het percentage geslaagden
na correctie voor het verken-effect gw
Er geldt:
(5) gw = ï47
♦
Indien we weer v = .3 kiezen, volgt hieruit:
gw=l-43g
Van den Brink 261
Is g bijvoorbeeld gelijk aan .50 dan is g^ = -72. Kortom een slaagpercentage van 50%
blijkt na correctie voor het verken-effect te resulteren in een alleszins acceptabele 72%.
Een en ander is van belang omdat slaagpercentages van .40 a .50 veelvuldig voorkomen bij
studietoetsen waar verkenners opereren. En de druk die van deze lage slaagpercentages op
de docent uitgaat leidt dikwijls, geheel ten onrechte, tot verlaging van de aftestgrens, zoals
ik herhaald in mijn omgeving heb meegemaakt.
8. Conclusies
Het verken-effect heeft een grote invloed op normen en slaagpercentages bij studietoetsen
die meerdere malen afgelegd mogen worden. Immers, wanneer men het effect negeert,
leidt dit tot hoge zakpercentages en daarmee druk op de docent om de aftestgrens te
verlagen; bovendien leidt het tot de keuze van items die veel eenvoudiger zijn dan men
denkt. Dit resulteert onherroepelijk in een sterke normdaling en veel te eenvoudige
toetsen. Het is daarom noodzakelijk om bij dergelijke toetsen met behulp van formule (1)
de p^-waarden der items te bepalen en met formule (5) het ware slaagpercentage g^.
Een andere mogelijkheid is de invoering van een verken-verbod. Indien dit effectief is,
zoals bij de Wiskundetoets in december 1975 en 1976, kan men de bij de Groot en van
Naerssen (1975, p. 260), genoemde normen blijven hanteren. Voor de doorsnee docent
die een studietoets samenstelt lijkt mij invoering van een verken-verbod het handigst.
Immers enige voordelen van een verkenverbod boven berekening van p^ en g^ zijn
a) het aantal studenten per toetsgelegenheid daalt hetgeen resulteert in minder werk en
lagere kosten.
b) men kan de bestaande literatuur ten aanzien van de normen blijven volgen en de
computerprogramma's voor de item-analyse blijven bruikbaar.
c) het verbod stimuleert de studenten om niet slechts minimale prestaties te leveren en
kan zo bijdragen tot een kortere studieduur.
d) men zal minder items verliezen die door verkenners onthouden en verzameld worden.
Goed voorbereide studenten zijn minder geneigd items te ontvreemden.
Literatuur
Groot, A.D. de, en Naerssen, R.F. van, Studietoetsen construeren, afnemen, analyseren. Deel II. Den
Haag: Mouton, tweede herziene druk 1975.
Groot, A.D. de. Vijven en zessen. Groningen: Wolters, 1967.
Manuscript ontvangen 3-5-77
Definitieve versie ontvangen 1-9-77
262 Tijdschrift voor Onderwijsresearch 2 (1977), nr. ^
Het Gebruik van de Cioze Procedure
als Maat voor Schriftelijke Taalbeheersing
Johan M. Wijnstra
Vakgroep Onderwijskunde, I.P.A.W. R.U. Utrecht1
The Use of the Cloze Procedure as a Measure of Written Language Proficiency
This study is concerned wit the use of the cloze procedure as a measure of first and second
language proficiency. The first part contains a review of the hterature. In part two some
preliminary research is reported on an original Dutch close test. In part three reliabihty and
vahdity data are reported from a large scale project on bilingual eduacation. It is concluded that
the cloze procedure might be a useful language proficiency measure. However, while construc-
tion of a cloze procedure is very easy, scoring is a tedious and time-consuming job. Prehminary
research suggests that a multiple-choice version might be a useful alternative.
1. Inleiding
De cloze procedure bestaat uit het aanvullen van een tekst waaruit na een inleidend
passage ieder «de woord is weggelaten, ongeacht de woordklasse. Het is gebruikelijk om
voor n een getal tussen 5 en 10 te kiezen.
De cloze procedure is gebaseerd op de tendentie in de menselijke waarneming om
onvolledige 'gehelen' als geheel waar te nemen', gebruik makend van konfiguratiefakto-
ren en ervaring. De konfiguratiefaktoren bestaan bij de cloze procedure uit de (geredu-
ceerde) redundantie, de overtoUige informatie die de tekst bevat.
De cloze procedure werd oorspronkelijk door Taylor (1953) ontworpen om de leesbaar-
heid van teksten te meten. Hoe gemakkelijker de tekst weer hersteld kan worden, hoe
hoger de leesbaarheid. Het gemak waarmee een tekst hersteld kan worden, weerspiegelt
ook het beheersingsnivo van de proefpersoon. Daarom kan de cloze procedure ook
gebruikt worden als taalbeheersingsmaat. Taylor (1953, p. 432) ziet de gebruiksmogelijk-
heden ook ruimer dan de toepassing als leesbaarheidsindex:
'...a cloze score appears to be a measure of the aggregate infiuences of all factors which interact to
affect the degree of correspondence between the language patterns of transmitter and receiver. As
such, its potential usefulness is by no means confined either to readabihty or the reading abilities of
individuals.'
Osgood & Sebeok (1954) sluiten zich hierbij aan. Hun^ omschrijving van de cloze
procedure als taalbeheersingsmaat sluit aan bij wat Spolsky et al. (1968) later in navolging
van Carroll 'overall proficiency tests' zullen noemen (vgl. ook Spolsky, 1971; Oller,
1973). '
1 Thans verbonden aan de Stichting Schoolpedagogisch Centrum Oostelijke Mijnstreek e.a. te Heerlen.
1. De term 'cloze' is een samentrekking van 'closure', een van de Gestaltprincipes.
>
Wijnstra 263
Taylor (1957) zelf was de eerste die de cloze procedure suksesvol als taalbeheersingsmaat
toepaste, met name als maat voor tekstbegrip. Aan het eind van de vijftiger
jaren begint de cloze procedure veelvuldig onderwerp van onderzoek te worden. Niet
alleen worden vahditeitsonderzoeken uitgevoerd, ook skoringssystemen en itemtypen
worden onderzocht (vgl. Bennet et al., z.j.; Levin, 1965; Oller, 1973). Over het algemeen
worden hoge korrelaties gevonden tussen skores op de cloze procedure en andere verbale
maten. Het onderzoek van Weaver & Kingston (1963) vormt hierop ten dele een
uitzondering.
Bijzonder interessant in dit opzicht is het zeer uitvoerige onderzoek dat Levin (1965) na
een zevental vooronderzoeken uitvoerde. Aan zijn onderzoek namen ruim 500 leerlingen
deel uit de vijfde, zesde en achtste klas (nieuwe basisschool) en een kwa leeftijd met
klas 8 overeenkomende groep van een middelbare school. Hij nam in iedere klas drie cloze
procedures in het Zweeds af (waarvan twee in alle klassen identiek waren) en drie in het
Engels (klas 6 en 8).
De betrouwbaarheid (KR.20 en/of split-half) van de cloze procedures (80 items) bleek
over het algemeen uitstekend te zijn. Voor de Engelse teksten lag de mediane betrouw-
baarheidskoëfficiënt op .90, voor de Zweedse teksten was deze .85. In klas 8 was de
betrouwbaarheid van enkele wat gemakkelijker toetsen iets lager, met name bij de
middelbare schoolgroep. De parallelbetrouwbaarheidskoëfficiënten varieerden tussen .60
en .85. Gemiddeld genomen lagen deze koëfficiënten voor de Engelse teksten iets hoger
dan voor de Zweedse teksten. Overigens werden ook hoge korrelaties gevonden tussen de
Engelse en de Zweedse cloze procedures.
Voor de afzonderlijke cloze procedures werden redelijke validiteitskoëfficiënten gevonden,
waarbij de standaardproefwerken voor lezen, taal en Engels of daarmee overeenkomende
toetsen als kriteriumtoetsen fungeerden. Voor de Zweedse cloze procedures werden
korrelaties berekend tussen .45 en .65. De korrelaties voor de Engelse procedures lagen
over het algemeen iets hoger (.50 - .80), waarbij de hoge korrelaties met luistervaardig-
heid opvallen. De multiple korrelaties van meerdere cloze tests met afzonderlijke krite-
riumtoetsen waren over het algemeen zeer hoog (.70 - .90). Ook werd een behoorlijke
samenhang vastgesteld met een als verbale intelligentietest beschouwde woordenschattest,
voor zowel de Engelse als de Zweedse cloze procedures (.40 - .70). Zoals uit de partiële
korrelaties blijkt, verklaart deze verbale inteUigentielading een deel van de samenhang met
de kriteriumtoetsen. De partiële korrelaties liggen tussen .30 en .70. Tenslotte laten de
toetsen die in meer dan één leerjaar zijn afgenomen, een behoorlijke progressie zien.
Levin (1965) vergeleek verder twee skoringssystemen. In het ene systeem wordt aUeen
een punt toegekend als het weggelaten woord exakt wordt ingevuld. In het andere, door
Levin semantische skoring genoemd, worden ook benaderingen (synoniemen e.d.) goedge-
keurd. Hoewel de korrelaties tussen beide skores erg hoog waren (in de meeste gevallen
omstreeks .95) waren de betrouwbaarheidskoëffisjenten over het algemeen iets hoger bij
de semantische skoring. Ook de validiteitskoëfficiënten vielen bij deze skoring in de
meeste gevallen iets hoger uit.
Voor wat de resultaten met de cloze procedure in de moedertaal betreft, worden Levins
(1965) bevindingen bevestigd door Bormuth (1969), een van de weinige Amerikaanse
onderzoeken in het basisonderwijs. In vrij recente studies van Oller & Conrad (1971),
Oller et al. (1972) en Oller (1973) wordt de bruikbaarheid als taalbeheersingsmaat voor
een vreemde taal sterk bevestigd.
264 Cloze procedure
In het vervolg van dit artikel zullen we enig onderzoek bespreken dat met de cloze
procedure 'Paarden in Amerika' (zie bijlage) werd verricht. In deze tekst is ieder achtste
woord weggelaten en in beide te bespreken onderzoeken werd een semantische skoring
toegepast.
2. Gebruik van de cloze procedure bij Spaanse kinderen in Nederland
De aanleiding tot het beproeven van een cloze procedure voor het Nederlands was gelegen
in de behoefte aan een taalbeheersingsmaat voor Spaanse leerlingen van de Escuela
'Miguel de Cervantes', een afdeling van de R.K. Lagere School 'De Wegwijzer' in Utrecht
(vgl. Wijnstra & Van Wageningen, 1973).
De cloze procedure werd in december 1972 afgenomen bij 102 leerlingen uit klas 4, 5 en
6 van 'De Wegwijzer' om de psychometrische kwaliteiten te onderzoeken en de praktische
bruikbaarheid te testen.
De skoring werd uitgevoerd door twee onafhankelijke beoordelaars. Het overeenstem-
mingspercentage bedroeg ruim 96. De itemanalyse leidde tot zeer akseptabele resultaten:
de itemtotaalkorrelaties van 42 van de 45 items lagen boven de .30, terwijl ook de
p-waarden aanvaardbaar waren. De betrouwbaarheid van de procedure werd berekend
volgens de KR-20-formule en kwam uit op .89. Omdat de toets in klas 4 aan de moeilijke
kant bleek te zijn, werd het onderzoek naar de parallel- en herhaalbetrouwbaarheid
beperkt tot de klassen 5 en 6. In januari 1973 maakte de helft van de leerlingen de cloze
procedure 'Paarden in Amerika' nog eens, terwijl de andere helft een tweede cloze
procedure maakte. De korrelatie tussen de eerste en tweede afname van 'Paarden in
Amerika' bedroeg .93, terwijl als parallelbetrouwbaarheid .70 werd berekend.
De cloze procedure differentieerde duidelijk tussen de klassen 4, 5 en 6, hoewel het
verschil tussen klas 5 en 6 statistisch niet signifikant was. Er werden echter geen kontroles
uitgevoerd op de vergelijkbaarheid van de klassesamenstellingen.
Tegelijk met de eerste afname van de cloze procedure werd een luistertoets afgenomen,
terwijl van mei 1972 skores beschikbaar waren op enkele toetsen voor begrijpend lezen en
luistervaardigheid. De kórrelatie met de in december 1972 afgenomen luistertoets bedroeg
.60, terwijl voor de in mei afgenomen luistertoets korrelaties werden gevonden van
ongeveer .40. De korrelaties met de toetsen voor begrijpend lezen bedroegen ongeveer
.50.
De cloze procedure 'Paarden in Amerika' werd ook afgenomen bij een groepje van twintig
Spaanse leerlingen, variërend in leeftijd van 10;4 - 14;5 jaar en in verblijfsduur in
Nederland van - l\ jaar. De ene helft maakte in december 1972 de Nederlandse
versie, terwijl de andere helft een Spaanse versie maakte. In januari 1973 werden de rollen
omgekeerd bij de tweede afname.
Gezien de zeer heterogene samenstelling van de groep is de ko'nstatering dat het gemiddel-
de van deze groep op de Nederlandse versie lager was dan bij de Nederlandse kinderen uit
klas 4, 5 en 6 04.5 t.o. 26.9) van weinig belang. De korrelatie met leeftijd was te
verwaarlozen (—.15), met verblijfsduur daarentegen werd een korrelatie berekend van .57.
Ook met lees- en luistervaardigheid in het Nederlands bleken zeer hoge korrelaties (.60 —
.80). De korrelaties met Spaanse lees- en luistertoetsen lagen op een vergelijkbaar nivo.
Wijnstra 265
terwijl de korrelatie met de Spaanse versie .89 bedroeg. Ook de Spaanse versie toonde
hoge korrelaties met zowel Spaanse als Nederlandse lees- en luistertoetsen. Dit alles wijst
op een gemeenschappelijke basis en komt overeen met de bevindingen van Levin (1965).
3. Gebruik van de cloze procedure in het projekt Friesland
Gezien de gunstige resultaten met de cloze procedure 'Paarden in Amerika' werd deze
ongewijzigd gebruikt in het parallelonderzoek van het projekt Friesland (Buter et al.,
1976; Wijnstra, 1976). Aan het onderzoek in het zesde leerjaar, dat in het schooljaar
1974/75 werd uitgevoerd, namen drie groepen leeriingen deel, te weten: van huis uit
friestalige leerlingen van tweetalige en eentalige scholen in Friesland^ en een groep
zesdeklassers van zes scholen uit het Utrechtse Weidegebied. Het onderzoek was gericht
op een vergelijking van de drie genoemde groepen leerlingen. Voor de resultaten hiervan
zij verwezen naar de genoemde publikaties. We beperken ons hier tot de betrouwbaarheid
en validiteit van de cloze procedure. Omdat de groepen op enkele achtergrondkenmerken
verschillen, zullen we de resultaten steeds voor de afzonderlijke groepen vermelden.
In tabel 1 worden allereerst enkele basisgegevens vermeld.
Tabel 1.
Groep |
M |
M |
s |
KR.20 |
TweetaUge scholen (T) |
140 |
25.8 |
8.20 |
0.88 |
Eentalige scholen (E) |
165 |
28.5 |
6.90 |
0.84 |
Utrechtse scholen (U) |
120 |
27.8 |
7.80 |
0.88 |
Evenals in het hiervoor besproken onderzoek ligt de betrouwbaarheid van de toets voor
groepsvergelijkend onderzoek op een zeer akseptabel nivo. Opvallend is daarbij de vrij
forse spreiding in de skores.
Tabel 2. Itemanalyse van de cloze procedure 'Paarden in Amerika' voor de groepen T, E en U | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2. Globaal genomen is op de tweetalige scholen het Fries de voertaal gedurende de eerste twee |
266 Cloze procedure
Ook de itemanalyses leverden bevredigende resultaten op. De p-waarden lagen over het
algemeen op een akseptabel nivo, terwijl de item-totaalkorrelaties in de meeste gevallen
aanvaardbare waarden toonden (tabel 2).
In het kader van het projekt Friesland werden verder de volgende klassikale toetsen
afgenomen^: serie B, C en D van de Standard Progressive Matrices (Raven, 1960),
Woordenschattest (Stijnen, 1975), een selektie uit de Luistertoets van het CITO (Prick,
1972), een zg. Interlineaire toets (Wesdorp, 1974) bestaande uit een tekst waarin fouten
opgespoord en verbeterd moeten worden, een binnen het projekt samengestelde Werk-
woordentoets en de Eindtoets Basisonderwijs 1975 van het CITO (1974) bestaande uit de
volgende onderdelen: Stillezen, Taalgebruik, Spelling, Rekenen en Algemene kennis.
In tabel 3 worden de korrelaties van de cloze procedure met de hier genoemde toetsen
vermeld. Daarnaast zijn ook de korrelaties met Totaalskore 1 en 2 op de Eindtoets
Basisonderwijs opgenomen. Totaalskore 1 omvat de somskore op de onderdelen Stillezen,
Taalgebruik en Rekenen, bij Totaalskore 2 is ook nog het onderdeel Spelling opgenomen.
Met alle toetsen die een vrij brede schriftelijke taalvaardigsheidmaat bedoelen te zijn,
treden in alle drie de groepen hoge korrelaties op. De korrelaties met toetsen die wat
geïsoleerder vaardigheden meten of minder verbaal van inslag zijn, zijn de korrelaties iets
lager. In overeenstemming met eerdere onderzoeken is ook de behoorlijke samenhang met
luistervaardigheid.
Tabel 3.
Korrelaties van de cloze procedure met een aantal andere toetsen voor de
groepen T, E en U
T |
E |
U | |
Standard Progressive Matrices |
.50 |
.31 |
.42 |
Woordenschattest |
.82 |
.71 |
.72 |
Luistertoets |
.64 |
.58 |
.51 |
Interlineaire Toets |
.69 |
.64 |
.73 |
Werkwoordentoe ts |
.61 |
.50 |
.47 |
Stillezen |
.78, |
.69 |
.69 |
Taalgebruik |
.73 |
.73 |
.73 |
Spelling |
.44 |
.47 |
.45 |
Rekenen |
.50 |
.59 |
.47 |
Algemene kennis |
.63 |
.59 |
.51 |
Totaalskore 1 |
.72 |
.71 |
.67 |
Totaalskore 2 |
.72 |
.71 |
.67 |
3. Een uitvoerige beschrijving van de gebruikte toetsen is te vinden in de genoemde publikaties van
Buter et al. (1976) en Wijnstra (1976).
Wijnstra 267
Voor een deel van de leerlingen uit ieder van de drie groepen (ongeveer 50) zijn ook
skores bekend op enkele mondelinge taalvaardigheidsmaten en opstelbeoordelingen (vgl.
Wijnstra & Buter, 1977). De korrelaties met de opstelbeoordelingen liggen rond de .50, de
korrelaties met de mondelinge taalvaardigheidsmaten zijn wat lager. In beide gevallen
liggen de korrelaties in dezelfde orde van grootte als van de overige hier vermelde
schriftelijke taalvaardigheidsmaten.
4. Slot
Uit de hier besproken onderzoeken komt de in Nederland tamelijk onbekende cloze
procedure naar voren als een zeer bruikbare maat voor schriftelijke taalvaardigheid.
Het voordeel van de cloze procedure is daarbij de eenvoudige konstruktieprocedure. Als
een tekst is gekozen en bepaald is op welke afstand de items van elkaar komen te liggen, is
het alleen nog een kwestie van reproduktie met voor ieder weggelaten woord een lijn van
dezelfde lengte.
De skoring daarentegen vergt veel tijd, tenminste wanneer een semantische skoring wordt
toegepast. Een oplossing hiervoor zou kunnen zijn om een meerkeuze-antwoordmogelijk-
heid in te bouwen. Dit vereenvoudigt de skoring aanzienlijk, maar kost natuuriijk meer
konstruktietijd.
In het kader van het in par. 2 besproken onderzoek, werden op grond van de eerste
afname in de klassen 4, 5 en 6 vierkeuze-antwoorden gekonstrueerd. Deze versie werd
naderhand afgenomen in klas 4, bij de Spaanse leerlingen en de klassen 5 en 6 van een
school in Waddinxveen. Hiermee werden zeer aanvaardbare resultaten geboekt. De korre-
latie met de open-antwoordversie bedroeg in klas 4 .86 en .85 bij de Spaanse leerlingen.
De korrelaties met andere lees- en luistertoetsen lagen in dezelfde orde van grootte als bij
de open-antwoordversie. De gemiddelden van de vijfde en zesde klas uit Waddinxveen
verschilden op deze versie duidelijk (p < .01) en er werden hoge korrelaties vastgesteld
met de beoordeling van de taalvaardigheid door de leerkrachten (resp. .81 en .94).
Uit deze gegevens kan gekonkludeerd worden dat met behoud van de samenhang met
andere variabelen, toepassing van de cloze procedure met vierkeuze-antwoorden bij
grotere groepen voordelen kan opleveren bij de skoringsprocedure.
Literatuur
Bennett, S., M.I. Semmel & L.S. Barritt. The cloze procedure: a review of the literature and possible
applications to the study of deviant language functions. Michigan: Center for Research on
Language and Language Behavior, z.j.
Bormuth, J., Factor validity of cloze tests as measures of reading comprehension ability, Reading
Research Quarterly, 1969,4, 358-365.
Buter, P.M., H. Wesseling & J.M. Wijnstra. Het van huis uit friestalige kind in het nederlandstalige
basisonderwijs. Interimrapport V projekt Friesland. Utrecht: Instituut voor Pedagogische en
Andragogische Wetenschappen, 1976.
CITO-publicatie no. 31, Handleiding schoohoetsen basisonderwijs 1975. Arnhem: Centraal Instituut
voor Toetsontwikkeling, 1974.
Levin, L. Qoze procedure: studier av en metod att mata elevers sprSkfórstSelse resp. texters lasbarhet.
Göteborg: Pedagogiska Institutionen, 1965.
Oller, J.W., Cloze tests of second language proficiency and what they measure. Language Learning
1973, 2J, 105-118.
268 Cloze procedure
Oiler, J.W., & C.A. Conrad. The cloze technique and ESL proficiency. Language Learning, 1971,21,
pp. 183-195.
Oiler, J.W., J.D. Bowen, T.T. Dien & V.W. Mason, Cloze tests in English, Thai and Vietnamese: native
and non-native performance. Language Learning, 1972, 22, 1-15.
Osgood, C.E. & T.A. Sebeok (eds.). Psycholinguistics: a survey of theory and research problems.
Journal of Abnormal and Social Psychology (suppL), 1954,49.
Prick, L., Het meten van luistervaardigheid. Arnhem: Centraal Instituut voor Toetsontwikkeling, 1972
(CITO-publicatie no. 19).
Raven, J.C. Guide to the standard progressive matrices. London; Lewis, 1960.
Spolsky, B., Reduced redundancy as a language testing tool; in: G.E Perren & J.C.M. Trim (eds.).
Applications of linguistics. London: Cambridge University Press, 1971, 383-390.
Spolsky, B., B. Sigurd, M. Sato, E. Wallier & C. Arterburn. Preliminary studies in the development of
techniques for testing overall second language proficiency; Language Learning, 1968, 18, Special
Issue no 3: Problems in foreign language testing, pp. 79-101.
Stijnen, P.J.J. Woordenschattest bestemd voor het derde tot en met het zesde leerjaar van de
basisschool, verantwoording en harulleiding. Nijmegen: Berkhout, 1975.
Taylor, W.L. 'Qoze procedure'; a new tool for measuring readability. Journalism Quarterly, 1953,30,
415-433.
Taylor, W.L. 'Cloze' readabiUty scores as indices of individual differences in comprehension and
upWtwAe.. Journal of Applied Psychology, 1957, 41, 19-26.
Weaver, W.W. & A.J. Kingston, A factor analysis of the cloze procedure and other measures of reading
and language ability. Journal of Communication, 1963,13, 252-261.
Wesdorp, H. Het meten van de produktief-schriftelijke taalvaardigheid. Purmerend: Muusses, 1974.
Wijnstra, J.M. Het onderwijs aan van huis uit friestalige kinderen, 's Gravenhage: Staatsuitgeverij,
1976.
Wijnstra, J.M. & N. van Wageningen. The cloze procedure as a measure of first and second language
proficiency. Utrecht: Instituut voor Pedagogische en Andragogische Wetenschappen, 1973 (sten-
cU).
Wijnstra, J.M. & P.M. Buter. Enkele aantekeningen bij het gebruik van de gemiddelde zinslengte als
maat voor taalontwikkeling; A'ec/er/andj Tijdschrift voor de Psychologie, 1911,32, 123-133.
Manuscript ontvangen 24-6-'77
-ocr page 273-Wijnstra 269
Bijlage
PAARDEN IN AMERIKA
Misschien dat er duizenden jaren geleden in Amerika paarden bestonden, maar niemand
weet dat precies. Toen Amerika ontdekt werd, waren er in elk geval geen paarden. Wel
Weten we dat Columbus, toen hij de Nieuwe Wereld ontdekte, een aantal paarden aan
boord had. En hij was niet de enige die paarden meebracht naar Amerika.
Hernando de Soto, die jaren_tater-(i) Amerika opzocht, had er meer dan
200 bii (2) zich. Veel plezier heeft hij overigens niet ze be-
leefd. Al gauw gingen er tijdens_ëé_(4) expeditie een aantal dood. Sommige
kregen znvsel gebreken dat ze afgemaakt moesten worden. Toen hij
met (fi) zijn mannen op het laatst de rivier_^_(7) Mississippi bereikte,
waren er nog maar vpprtig over_(g). De paarden waren echter zo verzwakt dat
ze (Q) meer last dan gemak veroorzaakten. En hoe-é?2__(10) men het
ook vond: er werd besloten——é^é_(11) paarden te doden. Het vlees zou gedroogd
_ worden (i?) om het later op te kunnen eten.
___JL_(13) ontsnapten vijf paarden aan de slachtpartij. 7.e vluchtten (m) de
wijde prairie in en hun afstammelingen vormden verloop van jaren grote
groepen wilde paarden (16): de mustangs.
De indianen die in Hip. tijd (17) nog over heel Amerika verspreid leefden,
probeerdfin de HS) mustangs te vangen. Eerst alleen maar om
zg (IQ) als voedsel te kunnen gebruiken. Maar al spoedig (9.n) /agen ze
dat de blanken de paarden gebruikten (21) om te rijden en dat ze ze_^ÉÈ._(22)
gebruikten om tegen hen te vechten.
De indianen begrepen dat ze veel meer gemak van_d£_(24) paarden
konden hebben. Soms overvielen (26) zelfs Spaanse kolonisten en stalen
hun paarden. ^aar (27) ze probeerden vooral de wilde paarden die-
in (28) de prairies graasden te vangen. Als ze_dan (29) eerunaal ge-
temd waren konden ze voor allerlei doeleinden (30) gebruikt worden.
Als de stam vroeger ging—trekken_(31)^ maakten de vrouwen van alles wat er
mee (32) moest een groot pak. Aan dat pak werden_(33) dan twee palen
bevestigd en er wt-rd een (34) hond tussen die palen vastgemaakt. Die moest
de (35) hele vracht slepen. Paarden konden dat werk natuurlijk (36) veel
beter doen. Ook de mannen hadden plezier (37) van hun paarden. Op de bisonjacht
bewezen (38) goede diensten. Als er een kudde bisons_ontdekt (^o)
werd, rende een indiaan op zijn paard_achter— (40) een bepaald dier aan. Als hij
vlak bij (4n het beest draafde, probeerde hij met een pijl (42) de
bison te doden. Soms schoot hij_-(43), zodat zijn paard hem dan, door
er in (44) galop vandoor te gaan, moest beschermen tegen de (45)
woedende bison.
270 Tijdschrift voor Onderwijsresearch 2 (1977), nr. 6
Test Expectancy and Test Performance
J. Peeck and W.J.M. Knippenberg
Psychologisch Laboratorium, Rijksuniversiteit Utrecht
Seventy-two undergraduates studied a 10-section text on deep sea life with the expectancy of a
multiple-choice test, a constructed response test, a summary-writing assignment, or with no
specific test expectancy. They then took a posttest consisting of all three types of test, and in
addition a recall test of the section-headings. The summary-expecting subjects recalled more
headings than the others; on the other subtests no significant differences were obtained. Some
possible reasons for the failure to find support for a dependence of test performance on test
expectancy, are discussed.
In recent experimental literature on free recall and recognition of word- or picture-word
stimuli, there are several indications that subjects process items differently depending on
the type of test anticipated. In some studies (Carey & Lockhart, 1973; Tversky, 1973)
recognition performance was found to be superior when the subjects anticipated a
recognition test than when they prepared for a test of recall. Experimental evidence of
the influence of test expectancy on free recall tests is less clear, though for this too some
support may be found (e.g. Tversky, 1973).
In the area of learning from texts the relation between test expectancy and test
performance has a long history both in educational practice and in educational research.
Students, for instance, when preparing for an examination often express the desire to be
informed of the kind of test to be expected, clahning that their study behavior is affected
by this information. Indeed, several studies (e.g. Douglass & Tallmadge, 1934; Meyer,
1936) found that students report different study strategies when anticipating an objective
examination than when preparing for an essay-type examination. From these studies it
appears that they tend to focus more on smaller units of information, on details, and
exact wording of the books when preparing for objective tests, whereas anticipating an
essay-type test, they pay more attention to organising the material and getting a general
picture of the material. It should be noted though, that a recent study by Hakstian
(1973) failed to find reliable differences in preparation of this kind.
Research evidence for the proposed differences in test performance as a resuh of
differential test expectancies is even less consistent. In some studies (Meyer, 1934; Sax &
Collet, 1968) a considerable impact of test expectancy on test performance was found;
however, in some other studies (Vallance, 1947; Hakstian, 1971; Kulhavy, Dyer & Silver,
1975) no such differences were obtained.
The present study was designed to gather more data on this issue by comparing test
performance of subjects led to expect a multiple-choice te'st, or a constructed response
test, or a test consisting of writing a summary of the learning material, while a fourth,
control, 'group was not given any specification of the kind of test to be expected. The
summary condition was included in order to see whether a test expectancy of this kind
would lead to a better survey of the learning material than instructions in the other
conditions.
Peeck and Knippenberg 271
As one possible source of inconsistency in this type of research may be insufficient clarity
on the part of the subjects as to the exact nature of test-questions to be asked in relation
to the learning materia, special care was taken to ensure a thorough understanding of the
kind of test to be expected. This was done by instructing subjects in the expectancy
conditions with the use of a sample section on a different subject, but of similar type and
length as the (10) sections of the actual text.
METHOD
Material. The learning material was a text, written by the authors, of approximately 1600
words, dealing with various aspects of deep sea Ufe. The text consisted of 10 sections of
about equal length, each dealing with a specific topic and each provided with a heading
indicating the topic (e.g. 'vertical migration in the deep sea'). The text was typed on 5
pages, with 2 sections on each page.
For each paragraph 4 multiple-choice questions (3 alternatives) requiring retention of
specific factual information were constructed, and 4 questions requiring constructed
response answers covering generally the same content as the multiple-choice items. Then
for each section 2 of the multiple-choice questions were randomly selected which,
together with the 2 non-corresponding constructed response items, were assigned to the
posttest.
Apart from the 20 multiple-choice items and 20 constructed response items thus selected,
the posttest consisted of two other parts: a recall test of the section-headings and the
requirement to summarise three of the sections (the 3rd, 6th and 9th).
For instructional purposes a sample section was written with 2 multiple-choice questions,
2 constructed response items and a model-summary with some general directions for
writing summaries, stressing the importance of stating the central theme, as indicated by
the heading, and the major details of the section.
A version of the Raven Progressive Matrices Test was used to fill a 10-minute interval
between reading the text and taking the posttest.
Subjects and design. Subjects were 72 undergraduates in psychology of Utrecht Univer-
sity fulfilling a course requirement. They were randomly assigned to one of 4 conditions
which were defined by the kind of test expectancy induced: multiple-choice (MC),
constructed response (CR), summary (SUM), or no specific test expectancy (CON).
Procedure. Subjects were run in groups of four or less, homogeneous as for the condition.
Subjects in the MC, CR and SUM condition were told they would be given a text
consisting of 10 sections, and that afterwards their knowledge of the text would be tested
by a series of muhiple-choice items, constructed response items, or by a summary-
assignment respectively. They were then provided with the sample section with the
appropriate test-questions or model-summary for a 5-minute study period. Subjects in the
CON condition were given the same general instruction as subjects in the experimental
conditions without reference to the kind of test to be expected, and without the sample
section.
All subjects were then given the text on deep sea life for a 20-minute study period.
Immediately after studying the text all subjects were given 10 minutes in which to
complete as many items as possible of the Raven test. This was followed by the four-part
272 Test Expectancy and Test Performance
posttest which all subjects took in the same order: multiple-choice items, constructed
response items, recall of section-headings, and summarising the three paragraphs indicat-
ed. Time available to complete the four parts was 5 minutes, 10 minutes, 10 minutes and
10 minutes respectively; pretesting had shown these completion times to be sufficient.
Each part of the test was collected before subjects proceeded to the next one. Maximum
scores possible were: 20 for the multiple-choice items, 20 for the constructed response
items, 10 for the section-headings, and 3x5= 15 for the summaries. The tests were
scored by one of the authors. In order to get an indication of the reliability of the scoring
of the summaries, a random sample of the summaries of 30 subjects was rescored after a
six-week interval; the intrajudge reliability was .87.
RESULTS
Table 1 shows the mean posttest-scores with standard deviations in the four conditions.
One-way analysis of variance was performed on each of the four parts of the posttest. No
significant differences between the conditions were found for the multiple-choice items,
constructed response items and the summaries (in each case: F<1, df = 3/68). However,
analysis of variance did reveal significant differences between the conditions in the recall
of the section-headings (F = 10.06, df = 3/68, p< .01). Further analysis with the Tukey
procedure showed the SUM condition to be significantly superior on this part of the
posttest, in comparison to the three other conditions, which did not differ significantly
from one another.
Table 1 Means and standard deviations for scores on the four parts of the posttest | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
DISCUSSION
The outcome of this study gives very little support to the contention that when studying
a text, students process the leaming material differently depending on the type of test
anticipated. The only result in support of the hypothesised relationship between test
expectancy and test performance was found in the number of section-headings subjects
could recall. The expectation of a summary-type posttest thus led subjects to pay more
attention to section-headings in order to use them as part of the summary, and perhaps
also to attain an adequate survey of the entire text. This however did not result in better
scores on the summary-part of the posttest; the generally poor performance on this
subtest suggests that, given the level of mastery achieved, the section-headings were
Peeck and Knippenberg 273
probably inadequate in bringing to mind the contents required. The superior performance
on the constructed response items of the posttest indicates that with more specific
retrieval cues a more satisfactory level of recall could be reached. The failure to find
differences between the conditions on the multiple-choice items and the constructed
response items of the posttest, replicates the outcome of other recent studies (Hakstian,
1971; Kulhavy, Dyer & Silver, 1975) using objective and essay-type test-questions.
This study therefore shows once again that, though the subjectively perceived dependence
of study strategies on test expectancy in prose learning seems fairly well established
(Douglass & Tallmadge, 1934; Meyer, 1936; but see Hakstian, 1971), it is surprisingly
hard to find consequences of this dependence in actual test performance.
There may be several reasons for this discrepancy -apart from the one mentioned in the
introduction. In the present study, for instance, students may, in spite of the careful
instruction, not have varied much in their study behavior. It could in this respect be
argued that experimental procedures such as the ones used in this study (relatively short
text, ample inspection time, short interval between learning and testing) are not very
conducive to bringing about the proposed effects. Differences in study behavior, and
concomitantly in test results, are perhaps more likely to manifest themselves in situations
where a substantial amount of learning material (e.g. a textbook) has to be studied with -
necessarily - a considerable delay between studying and testing. There is, however, at
present little evidence for this proposition. No differences in test performance were found
in studies of this type by Vallance (1947) and Hakstian (1971), while Hakstian was not
able to detect any reliable differences in study behavior either. Sax and Collet (1968) did
find better performance on multiple-choice questions of subjects expecting a test of this
type, compared with subjects expecting a recall test. As these subjects had already taken
three mid-term examinations of the format, used in the final test, this outcome perhaps
indicates that effective adjustment of study behavior to test-format takes some time and
training to develop. Positive effects of coaching in taking multiple-choice examinations
(cf. Wesdorp, 1976) could be similarly interpreted. However, the outcome of the Sax and
Collet study could equally well be taken as merely reflecting differences in test behavior
(e.g. 'test-wiseness'), rather than study behavior.
Alternatively, it is possible that the subjectively perceived differences in study strategies
do not reflect differences in actual study behavior, and that study activities are simply
less dependent on test expectancy than is often beUeved.
Finally, it could be argued that the differences in study behavior do exist, but that
test-questions used in this and other reported studies were inadequate in detecting them.
In this respect it should be noted that a considerable variety of test-questions was used in
these studies. This means that preparation for a specific kind of test-question generally
enabled students to cope with a fairly wide range of types of test-question. Still, as the
task of recalling section-headings in the present study shows, types of test-questions can
be designed which can only be answered adequately by students specially prepared to
deal with them.
The evidence, at present available, makes it impossible to evaluate the alternative
explanations indicated above. However, in conclusion it could perhaps be said that, if the
test-questions used in research efforts to date, are representative of test-questions
generally in use in educational practice, neither students nor educators need worry much
about a possible discrepancy between test expectations and actual type of test.
274 Test Expectancy and Test Performance
REFERENCES
Carey, S.T., & Lockhart, R.S. Encoding differences in recognition and recall. Memory and Cognition,
1973,1, 297-300.
Douglass, H.R., & Tallmadge, M. How university students prepare for the new types of examination.
School and Society, 1934, iP, 318-320.
Hakstian, A.R. The effects of type of examination anticipated on test preparation and performance.
Journal of Educational Research, 1911,64, 319-324.
Kulhavy, R.W., Dyer, J.W., & Silver, L. The effects of notetaking and test expectancy on the learning
of text maXttxaX. Journal of Educational Research, 1975, 68, 363-365.
Meyer, G. An experimental study of the old and new types of examination: I. The effect of the
examination set on memory. Journal of Educational Psychology, 1934, 25, 641-661.
Meyer, G. An experimental study of the old and new types of examination: IL Methods of study.
Journal of Educational Psychology, 1936,2 7, 30-40.
Sax, G., & Collet, L.S. An empirical comparison of the effects of recall and multiple-choice tests on
student achievement. Journal of Educational Measurement, 1968, 5, 169-173.
Tversky, B. Encoding processes in recognition and recall. Cognitive Psychology, 1973, 5, 275-287.
Vallance, T.R. A comparison of essay and objective examinations as learning experiences. Journal of
Educational Research, 1941,41, 279-288.
Wesdorp, H. Studietoetsen en hun effecten op het onderwijs, een hteratuurverkenning. Research
Instituut voor Toegepaste Psychologie, Amsterdam, 1976.
Manuscript ontvangen 12-8-'77
Definitieve versie ontvangen 20-9-'77
Tijdschrift voor Onderwijsresearch 2 (1977), nr. 6 275
HOGER CURSUSRENDEMENT DOOR CONTRACTONDERWIJS1
J.W. Holleman
Afdeling Onderzoek en Ontwikkeling van Onderwijs, Rijksuniversiteit Utrecht
Het Bureau Onderzoek van Onderwijs van de Leidse universiteit heeft in twee pubhkaties
verslag gedaan van een onderzoek naar het onderwijsrendement in de basisdoctoraalfase
van de Juridische Faculteit aldaar (Cohen & Mierop, 1976; Cohen, 1977). De probleem-
stelling luidde of het gebruik maken van de bestaande (intensieve) onderwijsvoorzieningen
bevorderlijk was voor het studiesucces. Daarbij werd studiesucces geoperationaliseerd als:
- voldoende (c.q. hoge) tentamencijfers halen; en
- doorstroomsnelheid door de opleiding heen (geen tentamenuitstel, maar het tentamen
direct na het doorlopen van de onderwijscyclus afleggen).
Hieronder volgen enige kanttekeningen bij dit Leidse onderzoek.
1. De probleemstelling sluit niet geheel aan bij de vraag waarmee de cliënt-opdrachtgever
binnenkwam. Hij vroeg namelijk naar het rendement van het geven van het intensieve
onderwijs, terwijl de onderzoekers primair ingaan op het rendement van het deelnemen
aan dat onderwijs (het percentage niet-deelnemers was groot). Imphciet voelen de onder-
zoekers dit verschil ook wel aan, want op ettelijke plaatsen wijzen zij op het lage
cursusrendement: lage deelnamepercentages, lage slagingspercentages, lage doorstroom-
snelheid. In dat geval gaat het niet om het rendement van (deelname aan) het geboden
onderwijs maar van het onderwijsleersysteem als geheel.
2. Het beantwoorden van de probleemstelhng vraagt om een experimentele of quasi-
experimentele opzet. Aangezien de voorwaarden voor zo'n opzet niet aanwezig waren,
hadden de onderzoekers moeten beseffen dat zij hun probleemstelling niet konden
beantwoorden:
a. de treatment 'intensief onderwijs' kon niet worden geïsoleerd van andere factoren; met
name de factor 'zelfstudie' kon niet onder controle worden gehouden:
b. de zelfselectie door de proefpersonen was een verstorende factor; ze konden zelf
kiezen welke treatment hun het meeste aanstond; de treatments werden dus niet
toegediend aan random steekproeven uit één populatie;
c. het criterium 'tentamencijfers' was een onbetrouwbare maat voor de verkregen leer-
winst, althans bij een vergelijking tussen de achtereenvolgende studentencohorten;
276 Notities en Commentaren
want de beoordeling bleek niet onafhankelijk te zijn van de beoordelaars, en waar-
schijnlijk evenmin van de gemiddelde prestatie en de grootte van de groep beoordeelde
studenten.
De onderzoekers hebben dus erg veel pagina's in hun verslag nodig gehad om iets te
zeggen dat kortweg luidt: 'we kunnen onze probleemstelling niet beantwoorden maar we
kunnen wel een aantal speculaties ten beste geven.'
3. Toch hebben de onderzoekers kans gezien een vruchtbare aanzet tot een quasi-experi-
mentele opzet te realiseren, met de mate van tentamenuitstel als criterium./f«« uitkom-
sten suggereren dat intensief onderwijs onder bepaalde condities tot hard werken en tot
het snel afleggen van het tentamen leidt. Namelijk als de student zich contractueel
verplicht trouw aan het onderwijs deel te nemen en zijn huiswerk te maken. De factor
'zelfstudie' hoefde bij die opzet niet gecontroleerd te worden, want hij kreeg een plaats
als interveniërende variabele. En in twee van de deelexperimenten konden de onderzoe-
kers zelfselectie van proefpersonen als verstorende factor uitschakelen, door van verschil-
lende cohorten studenten (vorig jaar meer contractonderwijs van dit jaar) resp. van
verschillende vakken (vak X meer contractonderwijs dan vak Y) uit te gaan.
4. Een zeer positief aspect van het onderzoek(sverslag) is dat de onderzoekers een
gedetailleerde analyse maken van de onderzochte onderwijsleersystemen, met grote eer-
bied en hefde voor de levende werkelijkheid van docent en student. Als beleidsondersteu-
nende analyse is het onderzoek daardoor waarschijnUjk uitstekend geslaagd, terwijl de
beantwoording van de probleemstelling grotendeels is mislukt. In termen van onderzoeks-
rendement: met een meer doordachte onderzoeksopzet had men de kosten van het
project (en de omvang van het verslag) sterk kunnen reduceren, maar de baten van het
project voor de cliënt-opdrachtgever zijn vermoedelijk toch vrij groot.
Literatuurverwijzingen
Cohen, M.J., Onderwijsrendement in de eerste fase van de juridische doktoraalstudie; in: Congresboek
Onderwijsresearchdagen 1977\ Stichting Onderwijsresearch, z.p., 1977; p. 50-54.
Cohen, M.J. en Mierop, J.R., Onderwijsrendement in de eerste fase van de juridische doktoraalstudie-,
Blireau Onderzoek van Onderwijs, rapport nr. 16; Rijksuniversiteit Leiden, dec. 1976.
Manuscript ontvangen 28-4-'77.
Definitieve versie ontvangen 1-6-77.
ViJn 277
'In this article an attempt is made to clarify the concept "reserve of talent" and a general method is
described for estimating, locating and exploiting given reserves...'.
Roe gebruikt daartoe de volgende variabelen: Succes in de opleiding (s), deelname aan de
opleiding (d), intelligentieklassen ^i» i ~ 1) •••> en de frekwentie fj in de klasse Xj,
alsmede de kansen P(s|d, Xj) en P(s|xi). De kans P(s|d, Xj) moet men verstaan als de kans
op succes (s) gegeven dat er gekozen werd voor opleiding (d) en men uit intelligentieklasse
Xj kwam, deze kans is volgens Roe op theoretische gronden bekend. De kans, dat een
persoon uit Xj succes (s) heeft, P(s|Xi), moet geschat worden. Volgens Roe is dan de totale
reserve':
m
I fi {P(s|d,Xi)-P(s|Xi)}.
i= 1
ln feite staat hier geen totale reserve maar de verwachte totale reserve.
Het verschil van kansen noteren we als D(xi), ofwel
D(xi) = P(s|d, Xi) - P(s|xi).
Om het inzicht in D(xi) wat te vergroten is het nodig P(s|Xi) nader te bezien. We
veronderstellen dat er n opleidingen zijn: dj, j = 1,..., n. De intellectuele reserve betreft de
opleiding d^, 1 <k<n.
Voor de marginale kans P(s|xi) geldt per definitie:
n
P(s|xi)= S P(s|dj,Xi)P(dj|xi)
j = l
n
= P(s|dk, Xi) P(dklXi) + S P(sIdj,Xi)P(djlXi),
j= 1
j^k
n
met £ P(dj|xi)=l.
j = l
Dit leidt tot:
n
D(xi) = P(s|dk, Xi) (1 - P(dklxi) ) - S P(sldj, Xi) P(djlxi).
j= 1
j^k
278 Notities en Commentaren
We zien dat D(xi) direct afhangt van 1 - P(dk|xi); de kans dat een persoon uit
intelligentie klasse xj de opleiding niet volgt.
Een aantal gevallen wordt nader onderzocht.
Een verwachte Intellectuele Reserve van nul
Indien er slechts één opleiding mogelijk is, n = 1, k = 1 en P(di|xi) = 1 zien we dat D(xi)
nul is. Dit betekent dat bij een voor iedereen verplichte opleiding de verwachte intellec-
tuele reserve nul is, zoals ook door Roe (1977, p. 129) opgemerkt wordt. Door bijvoor-
beeld de universiteit voor iedereen verplicht te stellen wordt de verwachte intellectuele
reserve nul, de succeskansen zullen echter wat laag zijn. We kunnen stellen dat D(xi) pas
zinvol wordt indien n > 1 is.
Een negatieve verwachte Intellectuele Reserve
Dit zal zich voordoen indien P(s|d, xj) < P(slxi). In figuur 1 van Roe (1977) zal dan Pjid
onder Pg liggen. Aangezien D(xi) < O tot een negatief verwacht aantal personen leidt is
het redelijk te eisen dat D(xi) > O moet zijn.
Het kan zijn dat empirisch deze voorwaarde altijd vervuld is, hierover zegt Roe echter
niets. Voor twee opleidingen di en da, met k = 1 kan D(xi) geschreven worden als:
{P(s|di,Xi)-P(s|d2,Xi)}P(d2|Xi)
en daar P(d2 Ixj) > o zal D(xj) negatief zijn indien:
P(s|di,Xi)<P(s|d2,Xi).
Logisch kan zich dit voordoen, maar ook empirisch lijkt dit geen onmogelijkheid,
bijvoorbeeld als di het Atheneum en d2 de Mavo zou voorstellen. Bovendien wordt de
verwachte intellectuele reserve nul indien P(sldi, Xj) = P(s|d2, Xj) ongeacht de grootte van
de kansen op deelname daarvan, ofwel de kansen P(d2 Ixj) of P(di Ixj).
De relatie tussen D(xi) en P(d|xi)
Roe (1977) maakt de claim: 'Naarmate deze deelname, P(d|xi), geringer is, is het verschil,
D(xi), groter en omgekeerd.'
Onder de aaname dat D(xi) niet negatief is, zal deze groter (kleiner) worden indien, in het
geval van twee opleidingen, P(d2lxi) groter (kleiner) en dus P(di|xi) = 1 - P(d2lXi)
kleiner (groter) wordt. Voor twee opleidingen is deze claim, gelet op de voorwaarden,
juist. Geldt dit ook voor 3 opleidingen? D(xi) laat zich dan schrijven als:
P(sldi, Xi) (1 - P(dilXi) ) - P(sld2, Xi) P(d2lXi) - P(s|d3, Xi) P(d3lXi)
We veronderstellen dat dj de specifieke opleiding aangeeft (k = 1) en nemen aan dat D(xi)
> O is. Volgens Roe (1977) moet indien P(di|xi) kleiner wordt, D(xi) groter worden (en
Vijn 279
omgekeerd). In zijn algemeenheid is dit echter onjuist, zoals een eenvoudig getallen
voorbeeld laat zien:
P(s|d,,Xi) |
.6 |
.6 |
P(s|d2,Xi) |
.5 |
.5 |
P(s|d3, Xi) |
.3 |
.3 |
P(dilxi) |
.6 |
.5 |
P(d2|Xi) |
.3 |
.47 |
P(d3lXi) |
.1 |
.03 |
D(xi) |
.06 |
.056 |
Natuurlijk is het getallenvoorbeeld zo gekozen en hoeft empirisch geen waarde te hebben
logisch behoort het tot de mogelijkheden.
De theoretische kans P(s|d, Xj)
Roe (1977) veronderstelt dat de kans P(s|d, Xi) theoretisch van aard is.
Dit lastige probleem zou misschien makkelijker kunnen zijn, indien we deze kans kunnen
opsplitsen in bekende (geschatte) en nieuwe onbekende (theoretische) grootheden.
Met behulp van voorwaardelijke kansen geldt:
_P(Xils,d)P(s|d)P(d)
P(d|Xi)P(Xi)
De kansen in de noemer moeten, voor het gebruik van D(xi), geschat worden. De
theoretische notie over P(s|d, Xi) zal dan ook consistent moeten zijn met deze schattin-
gen. Voor P(d) zou bij n opleidingen 1/n (alle opleidingen een even grote kans) genomen
kunnen worden. De kans P(xi|s, d) moet men verstaan als de kans op de intelligentieklasse
Xj gegeven dat er gekozen werd voor de opleiding (d) en daarin succes (s) behaald werd.
Het zou kunnen zijn dat een theoretisch idee over deze delen (in de teller) makkelijker te
verkrijgen is dan over een geheel P(s|d, Xj).
Conclusie
Het gebruik van de verwachte totale intellectuele reserve, zoals door Roe (1977) gedefi-
nieerd is, is aan voorwaarden gebonden; deze hoeven en logisch en (waarschijnlijk)
empirisch niet altijd vervuld te zijn. De grootte van die reserve voor een specifieke
opleiding d hangt ook af van de kans dat andere opleidingen gevolgd kunnen worden.
Literatuur
Roe, R.A., Het Schatten van Intellectuele Reserve. Tijdschrift voor Onderwijsresearch, 1977 2
120-131. ' '
Manuscript ontvangen 18-7-1977.
-ocr page 284-280 Notities en Commentaren
IS 'TOEGEPASr ONDERZOEK NOODZAKELIJKERWIJS VAN MINDERE KWALI-
TEIT?
Kath. Kouwenhoven
Subfaculteit Psychologie van de Universiteit van Amsterdam
Naar aanleiding van de stand van zaken bij het onderzoek van onderwijs wordt door
menigeen een bezorgd geluid ten gehore gebracht.
Recentelijk gaf Prof. Fokkema (1977) hierover zijn mening bij de opening van de
Onderwijs Research Dagen en ook Prof. Kerlinger (1977) heeft zijn ongenoegen hierom-
trent in een publikatie geuit.
Of de toestand werkelijk zo treurig is als wordt verondersteld wil ik hier buiten beschou-
wing laten. Wat mij in deze besprekingen trof was het feit, dat de (slechte) kwaliteit van
dit onderzoek wordt toegeschreven aan het z.g. toegepaste karakter van dit onderzoek en
dat men dan ook deels een oplossing meent te zien om uit deze impasse te komen door
meer fundamenteel onderzoek te doen.
Hierbij wordt de term 'fundamenteel' in de discussie nog al eens vervangen door het
adjectief 'wetenschappelijk', waardoor een merkwaardige tegenstelling ontstaat, die impli-
ceert, dat de wetenschappelijkheid van een onderzoek wordt bepaald door het onderwerp
van studie (hetgeen overigens bepaalde stromingen in de sociale wetenschappen niet
onwelgevallig zou zijn). Immers, de term 'toegepast' slaat alleen maar op het domein van
verschijnselen, waaraan men zijn vraagstelling ontleent. De keuze van een probleem-gebied
is echter in principe niet bepalend voor de kwaliteit van de oplossingen.
Toch wordt in de praktijk geconstateerd dat het gehalte van onderzoek met een toegepast
karakter te wensen over laat. Dit moet echter niet toegeschreven worden aan het karakter
van dit onderzoek als wel aan een aantal misverstanden die er kennelijk heersen bij velen
van diegenen, die dit onderzoek op zich nemen.
Het onderzoek van onderwijs b.v. ontleent haar problemen aan een maatschappelijk
heterogeen gebied dat 'onderwijs' wordt genoemd. Het feit dat psychologen zich geroepen
voelen of geroepen worden om onderzoek te doen op dit gebied geeft aanleiding tot de
verkeerde veronderstelling dat 'onderwijs' een psychologische entiteit zou zijn, zoals het
begrip 'intelligentie' of 'emotie'. Deze veronderstelling geeft dan weer aanleiding tot het
idee, dat binnen het probleem-gebied 'onderwijs' de vraagstellingen die van daar uit naar
voren komen als van zelf een psychologische vraagstelling vormen; het beslissingsgerichte
onderzoek dat op dat idee is gebaseerd, kan meestal inderdaad achterwege blijven, omdat
beslissingen op dit nivo niet met 'wetenschappelijk' onderzoek ondersteund kunnen
worden. Dergelijke vraagstellingen geven daartoe geen aanleiding.
De vraag b.v. of onderwijsmethode A 'beter' is dan methode B is alleen zinvol als beide
methodes op grond van wetenschappelijk verworven inzichten omtrent leerprocessen met
het oog op het verwerven van een bepaalde vaardigheid zijn geconstrueerd en worden
afgewogen. Stelt men zich de vraag of een handboek beter is dan een hoorcollege, dan
stelt men zich een onmogelijke vraag. Beslissingen dienaangaande worden bovendien nooit
genomen op grond van het antwoord op deze vraag alleen; veranderingen in het onderwijs
zijn vnl. het gevolg van politieke beslissingen.
Onderzoek met een toegepast karakter zal dus vaak inefficient, overbodig of anderszins
negatief te beoordelen zijn, als men zich hierbij laat leiden door de verkeerde vragen, n.1.
Kouwenhoven 281
vragen die voortkomen uit buiten-wetenschappelijke doelstellingen en alszodanig niet
direct oplosbaar zijn met aan een bepaalde wetenschap ontleende middelen (begrippen,
theoriën, methoden etc.)-
Om nu te stellen, dat onderzoek alleen zinvol en wetenschappelijk is als het zich zuiver en
alleen richt op de fundamenten is m.i. even kortzichtig. In beide gevallen is sprake van een
extreem uitgangspunt, op grond waarvan slechts resultaten te verwachten zijn met een
geïsoleerd karakter en een uiterst beperkte geldigheid, hetgeen zowel adequate theorie-
vorming als toepassing in de weg staat. Een illustratie hiervan vindt men b.v. in de
leerpsychologie, waar jarenlang fundamenteel onderzoek absoluut geen aanleiding is
geweest tot het ontstaan van een zinvolle leertheorie, die iets zou kunnen voorspellen over
leren in het algemeen, d.w.z. enige geldigheid zou bezitten buiten de uiterst beperkte en
onrealistische experimentele situatie.
De voor de hand liggende oplossing ligt, zoals meestal, in het midden.
Wat maakt onderzoek immers wetenschappelijk belangwekkend?
a. dat men de juiste vragen stelt;
b. dat men voor de oplossing de juiste middelen kiest;
c. dat men deze middelen op de juiste wijze toepast;
d. dat men de resultaten op de juiste wijze terugkoppelt naar het uitgangspunt.
Het stellen van de juiste vragen is een zeer essentieel, maar moeilijk probleem en men
veronderstelt wel, dat theorievorming hierbij een nuttig hulpmiddel zou kunnen zijn; in
fehe wordt het probleem hierdoor alleen maar verlegd, omdat t.a.v. theorie-vorming
precies dezelfde problematiek valt te constateren als t.a.v. onderzoeksvraagstellingen bij
de huidige stand van zaken in de psychologie.
Bij het stellen van de juiste vragen mag dat wat maatschappelijk relevant zou kunnen zijn
geen doorslaggevende rol spelen; de 'juistheid' van een vraagstelling kan alleen maar
bepaald worden door de mate waarin het antwoord kan bijdragen aan ons inzicht in het
onderwerp van het vakgebied in kwestie.
Naarmate een vakgebied meer ontwikkeld is wordt dit een eenvoudiger opgave, zoals dat
ook op individueel nivo geldt: hoe uitgebreider het kennis-bestand, hoe gemakkelijker het
is om 'nieuwe' kennis in te passen en hoe groter het aantal combinatie-mogelijkheden. Het
bestaande kennis-bestand bepaalt hoe (en tot op zekere hoogte welke) nieuwe kennis
wordt verwerkt.
Kennisnemen van staat niet gelijk met begrip van nieuwe informatie; voor begrip worden
transformaties van informatie verondersteld, waardoor het een zinvolle plaats krijgt in het
bestaande kennis-geheel en niet zonder meer wordt toegevoegd.
Op dezelfde wijze dient een onderzoeker, die zich bezig houdt op (en met de ontwikke-
ling van) een bepaald kennis-gebied, nieuw te verwerven kennis te verzamelen vanuit het
bestaande kennis-lichaam en dit niet met het oog op uitbreiding van dit kennis-lichaam
zonder meer, maar met het oog op een herwaardering van het bestaande in het licht van
nieuwe informatie.
Dit betekent, dat praktisch elk probleem, dat zich aan de onderzoeker voordoet, een
probleem-transformatie moet ondergaan naar een psychologisch (pedagogisch, sociolo-
gisch etc.) zinvol abstractie-nivo; het toevoegen van een extra (on)afhankelijke variabele
of het opnemen van meer dan één doel-middelen relatie is hiervoor in principe niet
voldoende, al zal dat in de praktijk wel eens een oplossing kunnen zijn.
Inhoudelijk hoeven daarbij geen restricties te gelden, zolang de vereiste transformaties
maar plaats vinden. De vragen van de fundamentele onderzoeker hoeven daarom niet
282 Notities en Commentaren
juister te zijn; zij zijn ten hoogste eenvoudiger te transformeren. Juist echter door dit
aspect vervagen de tegenstelhngen.
Op het gebied van de keuze van middelen is in de praktijk vaak een grote discrepantie
waarneembaar tussen 'fundamenteel' en 'toegepast' onderzoek, welke werderom geenszins
inherent is aan het karakter van dit onderzoek.
Niet het gebied, waaraan men zijn vragen ontleent, maar de vragen zelf (en de beperkte
inzichten van de onderzoeker) zijn bepalend voor de beperking van middelen-keuze. Het
eenzijdig hanteren van laboratorium-experimenten is in dit opzicht net zo kwalijk als het
gemak waarmee elders naar de enquête gegrepen wordt; dit besef spreekt b.v. uit de roep
om het hanteren van convergerende middelen. De ontwikkeling van voor de sociale
wetenschappen belangrijke hulpwetenschappen speelt hierbij een belangrijke rol, evenals
de opleiding. De vaardi^eid in het transformeren van problemen is mede afhankelijk van
het zicht dat men heeft op de beschikbare oplos-middelen; de kwaliteit van de onderzoe-
ker is meer doorslaggevend dan de aard van het onderzoek. Het op de juiste wijze
toepassen van de gekozen middelen wordt uiteraard geheel en al bepaald door de kwaliteit
van de onderzoeker.
Naarmate er een grotere afstand is tussen het concrete uitgangspunt van onderzoek en de
uiteindelijke onderzoeksvraag is het probleem van de terugkoppeling moeilijker en nijpen-
der; veel maatschappelijk concrete vragen worden pas wetenschappelijk relevant door ze
te vertalen naar een hogergeordend (en dus algemener) probleem-gebied. Om onderzocht
te kunnen worden moet dit gebied dan weer opgedeeld worden in onderzoekbare
eenheden, die niet veel meer te maken hoeven te hebben met het oorspronkelijk
uitgangspunt — de vraag naar de effectiviteit van handboeken in vergelijking met hoorcol-
leges kan aanleiding zijn tot onderzoek naar het verwerken van tektsten met bepaalde
kenmerken.
Dit uitgangspunt, wat het ook mag zijn, hoeft de kwaliteit van het onderzoek niet in de
weg te staan; deze kwaliteit wordt bepaald door de wijze waarop men de vier geschetste
problemen oplost.
Eenzijdigheid in de probleemstelling is aanleiding tot beperktheid van oplossingsmogelijk-
heden en daardoor een belemmering voor de ontwikkeling van een vakgebied. Een
conglomoraat van geïsoleerde kennis-elementen ontstaat, waar tussen het onderling ver-
band onduidelijk is en waar niemand voldoende zicht op kan hebben. De juiste vragen
zullen daarom meervoudig van karakter moeten zijn, zowel geïnspireerd door concrete
uitgangspunten als door fundamentele overwegingen, en verschillende mogelijkheden tot
oplossing bieden. Hiermee zal hun oplossing een grotere generalisatie-waarde hebben,
waardoor de uiteindelijke toepasbaarheid bepaald wordt.
Als we het fenomeen 'lezen' beheersen is het makkelijker te bepalen of de keuze van de
'beste' leesmethode überhaupt nog een probleem vormt.
Afgezien van de vaardigheid in het uitvoeren van onderzoek, wordt de kwaliteit van
onderzoek dus bepaald door de vaardigheid waarmee de aangeboden problemen naar een
zinvol nivo worden getild en de resultaten van het onderzoek op dit nivo worden
teruggekoppeld naar het oorspronkelijke uitgangspunt. De vraag, wat dit oorspronkelijke
uitgangspunt was, is daarbij irrelevant.
Een dergelijke uitrusting eist veel van de onderzoeker en daarom moet er een ander
misverstand uit de weg worden geruimd: het opzetten van onderzoek vanuit een prakti-
sche situatie is een opgave, die door velen wordt onderschat.
Kouwenhoven 283
Literatuur
Fokkema, S.D. Doelstellingen van Onderzoek van Onderwijs, Tijdschrift voor Onderwijsresearch
1977,4,145-153.
Kerlinger, F.N. The Influence of Research on Educational Practice, Presidential Address, American
Educ. Research Ass., 1977 (tevens opgenomen in Tijdschrift voor Onderwijsresearch, dit nummer).
Manuscript ontvangen 23-9- 77.
Definitieve versie ontvangen 6-10-'77.
C. Sanders, L.K.A. Eisenga en J.F.H. van Rappard
Inleiding in de grondslagen van de psychologie
Deventer: Van Loghum Slaterus, 1976,400 blz.
Anders dan de titel zou doen vermoeden is dit in de eerste plaats een geschiedenis van de psychologie,
of zo men wil van de functieleer. Wanneer men dit moderne werk vergehjkt met Boring's 'A history of
experimental psychology' (2nd ed. 1950), het klassieke leerboek dat in Nederland door vele studenten
bestudeerd werd - ook indertijd door schrijver dezes - dan vallen een aantal belangrijke verschillen
op, en wel wat betreft:
1. de omvang. Boring heeft 777 pagina's; voor een naslagwerk mooi, maar voor een leerboek is dat te
veel. Sanders beperking is dan ook van didaktisch oogpunt uit bezien toe te juichen.
2. de duidelijkheid en stijl. Deze zijn in het nieuwe boek werkeUjk bijzonder. Het werk laat zich lezen
als een roman. De begrijpeUjkheid wordt nog vergroot door
3. de toevoeging van een systematisch deel, voorafgegaan aan het historische deel, net zoals bij vele
wijsgerige inleidingen het geval is. In het systematische deel wordt ook ruimte toegekend aan moderne
theoretici als Carnap, Popper, Kuhn, Lakatos en Holzkamp.
4. de weglating van biografieën. Deze mankeren bij Sanders e.a. geheel. Toegegeven: biografische
gegevens verduidehjken in geen enkel opzicht de wetenschappelijke theorieën, maar men mist ze toch;
misschien is elke psycholoog wel dol op anamneses.
5. de keuze van behandelde historische figuren. Het spreekt vanzelf dat het aantal figuren bij Sanders
belangrijk kleiner is, doch ook die beperking vergroot de overzichtelijkheid. Het is bijv. geen verlies dat
Aristoteles mankeert. Maar de grote voorgangers als Descartes, Leibnitz, Locke, Berkeley, Hume,
Hartley, Stuart, James en John Stuart Mill, Bain, Spencer, Kant - door Sanders veel uitvoeriger
behandeld -, Herbart, Fechner, Helmholtz, Wundt, Brentano, Ebbinghaus, Külpe, Tichener, Werthei-
mer, Galton, James, J.M. Cattell, Dewey, Pavlow, Watson, Tolman, Hull, Skinner, Woodworth,
Bridgman, Lashley, de Wiener Kreis, Lewin en Freud komen zowel bij Boring als bij Sanders aan hun
trekken. In het laatste boek worden bovendien nog belangrijke moderne invloeden behandeld zoals die
van de informatieleer, de cybernetica, de decisietheorie, de fysiologie en richtingen als de cognitieve
psychologie, de school van Haget, de mathematische en de ünguistische psychologie. Tenslotte worden
nog zeven bladzijden besteed aan de kritische en aan de humanistische psychologie.
Er is echter één wel door Boring behandelde richting, die bij Sanders e.a. totaal mankeert, en deze
omissie is dan tegelijk de reden waarom deze boekbespreking aan dit Tijdschrift werd aangeboden.
Vergeefs zoekt men bij Sanders namen als die van de pionier Binet, en van Burt, Thomson, Spearman,
Thurstone en Guilford, om slechts enkele van de 'metrici' te noemen. Het is blijkbaar mogeUjk om een
geschiedenis van de (grondslagen van de) psychologie te schrijven zonder ook maar enige invloed van de
metrici te vermelden. Voor iemand die meent dat de geschiedenis van de astronomie practisch begint
bij de uitvinding van het lenzenstelsel - de kennis daarvóór was wel erg mager - en analoog de
284 Boekbesprekingen
geschiedenis van de psychologie bij de psychologische test, is dit wel wat verbijsterend. De vergelijking
gaat echter mank: observatie zonder test is in de psychologie heel wat belangrijker dan die met het
blote oog in de astronomie. Desalniettemin kan gesteld worden dat de geschiedenis van elke weten-
schap voor een groot deel de geschiedenis is van haar methoden en wie zal het belang van de test- en
statistische methoden in de psychologie kunnen ontkennen? Niet alleen voor de toegepaste psycholo-
gie, maar óók voor de functieleer. Zo hebben Binet, Thurstone en Guilford, ieder op hun manier, het
denken over wat intelligentie is toch wel ingrijpend veranderd. Een reden zou kunnen zijn dat de
schrijvers de 'metingen' van de metrici maar hokus pokus vinden, terwijl de 'echte' metingen pas
zouden beginnen bij de wèl behandelde mathematische psychologie, in casu bij de afbeeldingen van
Suppes en Zinnes.
Maar de metrici hebben zich niet alleen bezig gehouden met practische metingen - als dat het geval
was zouden zij in een boek over de grondslagen gemist kunnen worden - maar juist vooral met het
ontwikkelen van methoden, en deze hebben de psychologie inderdaad verder gebracht. Thurstone
heeft bruikbare schahngsmethoden ontworpen lang voordat de 'mathematische psychologie' zich
hiermee bezig hield, en lang voor deze hebben de metrici mathematische modellen geïntroduceerd
voor psychologische processen. De in hun tijd nieuwe opvatting dat al het psychische meetbaar is heeft
diepe indruk gemaakt op de een, heftige reacties uitgelokt van de ander, enz. Hoe het zij, schrijver
dezes hoopt dat het zo prettig leesbare boek van Sanders e.a. toch nog eens zal worden aangevuld met
een lang hoofdstuk over de invloed van de psychometrie en die van de statistiek in het algemeen.
R.F. van Naerssen
Vakgroep Methodenleer, G. U. Amsterdam
N.L. Gage & D.C. Berliner
Educational Psychology
Chicago: Rand McNally, 1975, IX + 869 pp. ($ 13.-).
Er bestaat zolangzamerhand een lange reeks standaardwerken, die allemaal verschenen zijn onder de
titel 'Educational Psychology'. De voornaamste overeenkomst tussen deze handboeken is, dat ze
allemaal geschreven zijn voor een gelijknamige kursus als onderdeel van een docentenopleiding.
Vergelijking tussen verschillende schrijvers op dit gebied legt een aardige historische ontwikkeling
bloot in het denken over het opleiden van docenten. Cronbach schrijft in de inleiding van zijn Educational
Psychology (1954):
'a thorough study of the learning process is a sufficient aspiration for any one course'. Ausubel (1968)
stelt; '... educational psychology is primarily concerned with classroom learning'. Bij Anderson en
Faust in 1974 is het geworden: 'We believe, that learning and instruction lie at the heart of the
teacher's and school's task'. Voor de eerste keer komt hier naast 'learning' ook 'teaching' naar voren.
Deze trend is zeer duidelijk in het boek van Gage en Berhner. Een onderwerp als teaching methods dat
in de index van eerdere boeken niet of nauwelijks terug te vinden is, beslaat hier een hoofdstuk van
290 pagina's. Daarmee heeft Gage en Berliner's Educational Psychology een heel ander karakter dan
andere boeken met dezelfde titel.
Het hoofdstuk over teaching methods bespreekt bijv. small group teaching versus lecturing, maar stelt
ook de humanistische benadering tegenover geprogrammeerd leren. Dit zijn onderwerpen waar andere
Educational Psychology's niet over reppen.
Enige indikatie voor de inhoud van het boek kan verkregen worden door naar de inhoudsopgave te
kijken:
aims and techniques of educational psychology (14 pag's, eigenlijk alleen een inleiding tot het
boek)
objectives (50 pag's)
learning theory (90 pag's)
individual differences (speciaal intelligentie, 95 pag's)
motivation (85 pag's)
development and personality (85 pag's)
teaching methods (inclusief improving teaching, 290 pag's)
measurement and evaluation (100 pag's)
Totaal levert dit een nogal dik boek op. Een dergelijk boek vraagt altijd om een keuze tussen diepte en
Boekbesprekingen 285
breedte. Gage en Berliner hebben duidelijk gekozen voor de breedte. Ze beperken zich niet tot één
leertheorie, maar behandelen meerdere theorieën. Zowel het behaviourisme als de cognitieve psycholo-
gie komen aan de orde. Daarbij maken de auteurs geen duidelijke keuze. Ze verklaren leren vanuit
beide theorieën en adviseren de docent bij het toepassen van de theorie eclectisch te werk te gaan.
Men kan zich afvragen, of het juist is, de keuze aan de lezer over te laten. Ausubel kiest, gezien de
ondertitel in zijn Educational Psychology: 'a cognitive view', een andere oplossing. Gage en Berliner
argumenteren echter, dat geen enkele theorie voldoende is uitgewerkt om in de praktijk op alle vragen
een antwoord te geven. Dus moet je van alles het beste nemen. Voor een praktische leidraad Ujkt me
dat een juiste stelling. Ik geloof, dat de schrijvers hierbij hun uitgangspunt op een bruikbare manier
uitgewerkt hebben en bruikbaarheid stond bij hen op de eerste plaats.
Door de veelheid van onderwerpen is het boek tamelijk oppervlakkig gebleven. Onderzoekers van
onderwijs zullen er weinig van hun gading in vinden. Het kan echter wel goede diensten bewijzen aan
diegenen, die zich direkt met doceren en doceergedrag bezighouden (docenten, docententrainers,
docenten aan lerarenopleidingen). Daarbij moet men zich wel reahseren dat het boek is afgestemd op
de amerikaanse secondary school. Een gedeelte is weinig interessant voor het universitaire onderwijs
(zoals development and personality), terwijl andere stukken erg 'amerikaans' zijn. Er blijft echter
ruimschoots voldoende over. Het is nog steeds moeiUjk om overzichteUjke literatuur te vinden die
houvast geeft voor de dageUjkse praktijk.
Het boek is in de eerste plaats bedoeld als kursusboek. Ik veronderstel echter niet, dat de schrijvers
verwachten dat het helemaal doorgelezen en onthouden wordt. De waarde wordt dus voor een groot
deel bepaald door de bruikbaarheid als naslagwerk. De schrijvers hebben daar veel aandacht aan
besteed via een uitgebreide inhoudsopgave en trefwoordenregister.
Verder is het boek makkelijk snel door te bladeren, doordat gewerkt is met trefwoorden in de kantlijn
(gemiddeld ongeveer drie per pagina). Deze trefwoorden maken het mogeUjk om snel de inhoud te
scannen en het gezochte te vinden.
Tenslotte: voor een naslagwerk is de uitvoering wat pover. Een vrij slecht gelijmde paperback is minder
geschikt om veel te gebruiken. Mijn exemplaar bevat al losUggende pagina's.
S.J.M. Blom
Bureau Onderzoek van Onderwijs
R. U. Leiden
Van de redactie
Egbert Warries heeft wegens drukke werkzaamheden de redactie veriaten.
Wij danken hem harteUjk voor zijn bijdragen.
Als zijn opvolger is benoemd Peter Weeda (CITO, Arnhem).
Onderwijsresearchdagen 1978
Als vervolg op de onderwijsresearchdagen 1974, 1975, 1976 en 1977 organiseert de Stichting
Onderwijsresearch (SOR) twee onderwijsresearchdagen in Utrecht op 22 en 23 maart 1978.
Bij de opzet van het programma is rekening gehouden met de ervaringen opgedaan tijdens de
voorgaande onderwijsresearchdagen.
De doelen van deze dagen zijn:
a. de kwahteit van het onderzoek van het onderwijs verbeteren door uitwisselen van ideeën over
resultaten van (recent) onderzoek;
b. de doorstroom van informatie bevorderen naar belanghebbenden voor resultaten van onderwijsre-
search;
c. die aandachtspunten centraal stellen waardoor reflektie over (niet-recente) research aanleiding kan
zijn tot breder inzicht in en overzicht van maatschappeUjk relevante research;
286 Mededelingen
d. de bevordering van kontakt tussen onderzoekers van het onderwijs onderling en de gebruikers van
resultaten van onderzoek van het onderwijs.
Oproep
Onderzoekers van het onderwijs worden hierdoor opgeroepen een bijdrage te leveren aan de ORD '78
door:
1. de inbreng van een paper over een belangrijk aandachtspunt dat door de organisatiekommissie is
vastgesteld nl. onderwijs en ekonomie. De bijdragen van onderzoekers zullen geworven worden op
expliciete uitnodiging van de organisatiekommissie.
2. de presentatie van onderling samenhangende papers rondom een vijftal thema's die niet eerder of
minder frekwent aan de orde zijn gesteld op de voorgaande ORD.
Door de organisatiekommissie zijn de volgende thema's vastgesteld:
a. Onderwijs en ekonomie (tevens belangrijk aandachtspunt)
b. Onderwijs aan groepen in achterstandssituaties
c. Strategieën in leer- en onderwijsprocessen
d. Implementatieproblematiek in het onderwijs
e. Heroriëntatie bij het leerstoornissenonderzoek.
Onderzoekers worden benaderd door de organisatiekommissie om een bijdrage te leveren. Ook
kunnen individuele of groepen onderzoekers zich melden voor een bijdrage binnen deze thematiek.
De organisatiekommissie zal nader bepalen of de bijdrage in de opzet past.
3. de presentatie van vrije papers die los van de thema's onder 2 zullen worden aangeboden.
Onderzoekers worden opgeroepen papervoorstellen zo spoedig mogelijk in te dienen bij de
organisatiekommissie, maar in ieder geval voor 15 december 1977 bij het sekretariaat.
4. de presentatie van bestaande of nieuw te vormen werkgroepen rondom bepaalde onderwijsresearch-
thematiek.
Bestaande werkgroepen binnen de Vereniging voor Onderwijsresearch, het Nederlands Instituut van
Psychologen, de CRWO, de Stuurgroep Onderwijssociologie, de werkgroep voor kognitie, e.a.
worden opgeroepen zich zo spoedig mogelijk te melden, maar uiterlijk voor 15 december 1977 bij
het sekretariaat van de ORD '78.
Ook onderzoekers die een nieuwe werkgroep willen vormen worden hierbij uitgenodigd.
De mogelijkheid bestaat tevens om trainingsbijeenkomsten te beleggen voorafgaand aan de ORD.
Verwacht wordt dat deze bijeenkomsten een duidelijk trainingskarakter hebben, waardoor sprake is
van (bij)scholing.
5. een marktpresentatie. Instellingen, onderzoeksteams, individuele onderzoekers wordt de ruimte
geboden hun uitgekristalliseerde of voorlopige ontwerpen te etaleren. Opgave en aanmelding graag
voor 15 december a.s.
De beoordeling van de vrije papervoorstellen
Vrije papervoorstellen zullen worden beoordeeld door telkens twee deskundigen. We hebben een
achttal terreinen onderscheiden waarbinnen de papers wellicht zouden kunnen worden ondergebracht.
Op elk terrein hebben we twee of meer deskundigen gevraagd als beoordelaars van papervoorstellen op
te treden, en wel voor:
*
Onderzoek op het gebied van didaxologie en innovatie
Prof.dr. E de Corte (Leuven) en Prof.dr. R. Vandenberghe (Leuven)
Onderzoek op het gebied van onderwijsleerprocessen
dr. J.J. Elshout (Amsterdam) en Prof.dr. L. de Klerk (Tilburg)
Orthodidaktisch onderzoek van het onderwijs
dr. J. Rispens, (Groningen), dr. L. Stevens (Utrecht) en vakature
-ocr page 291-Mededelingen 287
Kurrikulumonderzoek en -ontwikkeling
dr. H.P.M. Creemers (Groningen), Prof.dr. F.K. Kieviet (Leiden)
Onderzoek van sociaalpsychologische processen in het onderwijs
prof.dr. J.M. Rabbie (Utrecht), prof.dr. R. van der Vegt (Nijmegen)
;" Sociologisch onderzoek van het onderwijs
dr. M. du Bois-Reymond (Leiden) en vakature
Onderzoek naar organisatieaspekten van het onderwijs
Prof.dr. E.C.H. Marx (Leiden) en dr. J.G.M. Leune (Rotterdam).
Methodologie van onderzoek van het onderwijs
drs. M.J.M. Voeten (Nijmegen) en drs. M.A. Zwarts (Utrecht)
Van de vrije paperschrijvers wordt gevraagd:
a. een papervoorsfe/ in te sturen met een maximum van 4 pagina's A4 formaat, enkelzijdig gedrukt; in
vijfvoud;
b. een abstract van 100 woorden, eveneens in vijfvoud, waarin geen tabellen of grafisch materiaal is
opgenomen.
Het abstract zal na goedkeuring van het papervoorstel worden opgenomen in het programmaboek.
Abstracts die (veel) langer zijn dan 100 woorden zullen worden ingekort of worden teruggestuurd
naar de auteur met een verzoek om inkorting;
c. het papervoorstel moet de volgende inhoud bevatten:
1. het onderzoeksterrein waartoe de auteur zijn bijdrage rekent,
2. het theoretisch kader waarin de bijdrage wordt geplaatst,
3. de onderzoeksmethoden en -technieken die werden c.q. worden gebruikt,
4. de steekproef en onderzoekssituatie waarin de gegevens verkregen zijn,
5. de resultaten en (voorlopige) konklusies,
^ 6. het onderwijskundig -wetenschappeUjk en/of maatschappelijk belang van de bijdrage;
d. het papervoorstel dient verder de volgende gegevens te bevatten:
1. de naam van de auteur(s),
2. het instituut of onderzoeksgroep welke hij(zij) representeert,
3. de titel van de paper,
4. de naam van de paperlezer(referent) op de onderwijsresearchdagen,
5. het adres waar de paperlezer bereikbaar is (met telefoonnummer);
e. het is gewenst dat de auteur tevens diskussianten opgeeft t.b.v. een diskussie tijdens de ORD. Ook
is het gewenst dat de auteur aangeeft of hij gebruik wenst te maken van AV-media.
Auteurs dienen zelf te zorgen voor sheets (t.b.v. overheadprojektie), dia's en films.
De organisatiekommissie behoudt zich het recht voor de geaksepteerde papervoorstellen en de
abstracts te reproduceren en te verspreiden. Van de paperschrijvers wordt verwacht dat zij de
definitieve papers, waarvan de omvang niet mag uitgaan boven 25 pagina's, in honderdvoud ter
beschikking hebben op de onderwijsresearchdagen. De organisatiekommissie en de diskussianten
moeten het paper vóór 15 maart definitief in hun bezit hebben.
Deelname
De deelname staat open voor onderzoekers van het onderwijs en voor alle overige geïnteresseerden. De
kosten voor deelname bedragen ƒ75,- (eksklusief overnachting en ontbijt). Voor studenten geldt een
bedrag van ƒ65,-. Aanmelding bij het sekretariaat via een inschrijfformulier vanaf 1 december 1977.
It Door inschrijving voor de ORD verplicht men zich tot betaUng.
Bedragen kunnen worden overgeschreven op
postgiro 38.63.302 ta.v. ORD '78, Aidadreef 7, Utrecht onder vermelding van naam en adres van de
deelnemer(s).
bankrekeningnummer 55.53.19.091 t.a.v. ORD '78, Aidadreef 7, Utrecht,
Algemene bank Nederland BV, postgiro 1412, Janskerkhof 13, Utrecht.
Eveneens onder vermelding van naam en adres van de deelnemer(s).
288 Mededelingen
Organisatiekommissie
De organisatiekommissie voor de ORD '78 bestaat uit de volgende personen:
dr. J. Dronkers (SISWO, Amsterdam), drs. A. Haitsma (Amsterdam), drs. E.M.C. Jetten (Utrecht), drs.
G. Kanselaar (Utrecht), drs. W.J. Nijhof (sekretaris ORD '78, Utrecht), drs. J.K. Oosthoek (Utrecht),
dr. J. Peeck (Utrecht), drs. M.A.M. Schoemaker-Hol (Utrecht), drs. H. Vissers (Den Haag), dr. J.J.A.
Zwezerijnen (Utrecht).
Sekretariaat
Rijksuniversiteit Utrecht,
Vakgroep Onderwijskunde
ORD'78
Aidadreef 7,
Utrecht
tel.: 030-61 38 38
Stichting voor Onderzoek van het Onderwijs: Van stuwmeer naar wachtlijst
Sinds april 1976 kent de SVO een stuwmeer van goedgekeurde, maar wegens ontoereikende financiële
middelen feitehjk niet gehonoreerde subsidie-aanvragen.
Uit een rondschrijfbrief van het SVO-bestuur dd. 29 september 1977 blijkt dat SVO inmiddels
besloten heeft het stuwmeer om te vormen tot een wachtlijst door de goedkeuringsprocedure uit te
breiden met een prioriteitsbepaling.
Tevens blijkt uit dit rondschrijven dat een bedrag van ruim 1 miljoen gulden beschikbaar is gekomen
om alsnog enkele aanvragen uit het stuwmeer te subsidiëren.
Voor de periode tot 1 januari 1979 is een voorlopige procedure ontwikkeld om prioriteiten te kunnen
vaststellen. Deze procedure houdt in dat aan elke goedgekeurde aanvrage per beoordelingskategorie
een score wordt toegekend op een schaal van 0-4. De plaats op de wachtlijst wordt bepaald door de
som van deze scores.
Er zijn acht beoordelingskategorieën (groepen van vraagpunten). Deze zijn, beknopt aangeduid, in
willekeurige volgorde: de financiële consequenties, de kwaliteit van de uitvoering, de technische
kwaUteit, de inkadering van het onderzoek, de betekenis voor het onderwijs, samenwerking bij
uitvoering en financiering, de betekenis voor de wetenschap, samenwerking bij toepassing.
Deze scoring is reeds toegepast op het stuwmeer en zal bij nieuwe aanvragen onmiddellijk bij de eerste
•beoordeling geschieden.
In het binnenkort te verwachten Beleidsplan 1978-1982 zullen voor de middellange termijn voorstellen
opgenomen worden om naast scoring tot weging te komen bij het bepalen van prioriteiten.
Ontvangen publikaties
Dorp, C. van. Luisteren naar patiënten. Een analyse van het medisch interview, Lochem: De Tijd-
stroom, 1977.
Eerde, D. van & Verhoef, L. Interimrapport II, SVO-projekt 0327 Kwantiwijzer. Psychologisch
Laboratorium, R.U. Utrecht.
Groot, A.D. de. Hoe ver nog naar het forum? RITP-memorandum 078, aug. 1977.
Kempf, W.F. & Repp, B.H. Mathematical models for social psychology. Bern: Verlag Hans Huber,
1977.
Organisatiekommissie ORD '77. Verslag van de Onderwijsresearchdagen 1977 (gestencild).
Tavecchio, L.W.C. Quantification of teaching behavior in physical education: A methodological study.
Proefschrift, Universiteit van Amsterdam, 1977.