TIJDSCHRIFT
VOOR
ONDERWIJS
RESEARCH
Redactie:
Bert P.M. Creemers (secretaris)
Hans F.M. Crombag
Johan Hoogstraten
Bernadette van Hout Wolters
Leo van der Kamp
Nijs Lagcrwij
Wim Mcijncn
Robert Jan Simons
Marinus J.M. Voeten
Peter Weeda
VERENIGING VOOR ONDERWIJSRESEARCH
-ocr page 2-Kategorisering van statistiekproblemen door beginners en experts. Pieter H.
Essay Rating by the Comparison Method. Henk Blok 169
Hardopdenken en Protokolanalyse. J.A. Breuker, J.J. Elshout, M. W. van
Bekroond ORD Paper 1986: Ontwikkeling en validering van een computer-
attitudeschaal. Marjo J. Crombach, Marinus J.M. Voeten en Hans J.M.
Feenstra 301
De dagindeling van studenten: een praktijkvoorbeeld. K.D.J.M. van der Drift 177
Item Banking with Random or Stratified Tests. Dato N.M. de Gruijter 61
Substitutiefouten bij open en gesloten klinkerklanken in eenlettergrepige
woorden. Margo G.H. Jansen en J. Kruidenier 255
Toetsgebruik in de onderwijspraktijk: stand van zaken. Frans J.G. Janssens 2
Reproductie van Cultureel en Economisch Kapitaal op een Traditioneel en een
Montessori-Lyceum. M. Kalmijn en R. Batenburg 149
Some Aspects of School Careers in Public and Non-Public Primary Schools
P. van Laarhoven. B. Bakker. J. Dronkers. H. Schijf 83
Decoding Skills, Reading Comprehension and Spelling; A Longitudinal
Investigation. Martin J.C. Mommers. Jan F.J. van I^euwe, Johan H.L. Oud
and Jan M.A.M. Janssens 97
Bekroond ORD Paper 1985: Overscholing en inkomen. Hessel Oosterheek 141
Verhogen van studieprestaties bij eerstejaars door attributie retraining. Frank
Van Overwalle 225
Weder-Keren-de Kansen? Een log-lineaire analyse van het effect van aanvullende
kwalificaties voor onderwijsmobiliteit 1925-1955. Roel Popping en Jules
Peschar 281
Ratings of Requests for'Grants in Educational Research Revisited. J. Scheerens
Itemselectie in het Mokken model. K. Sijtsman en P.M. Prins 121
Sturing van het onderwijsleerproces door middel van problemen: een veld-
experiment. R.W. Tans, H.G. Schmidt. B.E.J. Schade-Hoogeveen en
W.H. Gijselaers 35
De validiteit van een Systematische Probleem-Aanpak voor het ontwerpen
van beleid. C. Terlouw en C.TC.W. Mettes 203
Hardop-denken als onderzoeksmethode naar regulatie-processen bij tekst-
bestudering. J.D.H.M. Vermunt, J.G.L.C. Lodewijks en P.R.J. Simons 187
Twee ordinale analyse technieken in een niet-equivalent pretest-posttest ontwerp
met geordende categorieën. P/W^r K//>7 ' 130
On the Predictive Validity of a New Scoring Procedure for Time-Limit
Intelligence Tests. Arnold L. van den Wollenberg and Peter G. Cremers 53
Voorspellingen van uitgeverijen over de effecten van onderwijspakketten
economie voor Mavo. Fred J.M. Wolters 293
Notities en Commentaren
Commentaar op het artikel 'De invloed van samenwerking en gezamenlijke
beoordeling op spellingsprestaties'. E. Bol 221
Het empirisch gehalte van een politiek compromis. Commentaar op het
WRR-Rapport 'Basisvorming in het onderwijs'. Bert P.M. Creemers en
Wijnand Th.J.G. Hoeben 271
Actie-onderzoek en emancipatie. H. Flierman 164
Wijkende en zwalkende caesuren. Dato N.M. de Gruijter 47
Commentaar op het WRR-Rapport 'Basisvorming in het onderwijs'.
W.K.B. Hofstee 265
Scholen verschillen: bespreking van een intrigerend proefschrift over de
organisatie en effectiviteit van scholen. F. van der Krogt en C. van Vilsteren 325
Samenwerking en spellingsprestaties, antwoord aan E. Bol. J. P. van Oudenhoven 223
SVO-beoordeling van het rapport 'Met het Mavo-project onderweg, deel 5' 216
Committee Judgment of Research Proposals: The Limits of Quantitative
\r\a\ys\s. P.G. Swanborn 114
Wolters onrechtvaardigde conclusies. Een kritisch commentaar op "De functie
van deel-geheel-schema's in het rekenonderwijs: een terugblik" (Wolters, 1984)
L.W.C. Tavecchio. M. Beishuizen. J.N. van den Berge en MJV. Bleek 312
De invloed van semantische structuurkenmerken op het oplossen van redactie-
opgaven. Een reactie op 'Wolters onrechtvaardigde conclusies'. Miriam A.D.
Wolters 318
Billet, J., G. Loosveldt & L. Waterplas. Het survey-interview onderzocht.
Kath. Universiteit Leuven, 1984. (E.D. de Leeuw) 49
Voeten, M.J.M. Sequential analysis of teacher-student interaction. Kath.
Universiteit Nijmegen, 1985. (G.J. Mellenbergh)
Redactionele medewerkers
In 1986 werd redactionele medewerking verleend door:
F.J.G. Janssens G. Beukhof H.A. Becker F.B. Brokken P.G. Swanborn G.G. Kreft G. dTdewaiie |
CITO Arnhem R.U. Groningen |
Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 1-288.
Wanneer u dit leest hebt u de eerste aflevering van de elfde jaargang van het TOR in handen. De redactie
hoopt van harte dat het januari 1986 is. De achtergrond van deze opmerking is, dat er gedurende de tiende
jaargang een ontoelaatbare achterstand in de publicatie van de afleveringen van het tijdschrift is ontstaan.
Een achterstand waarover de redactie zich, in overleg met het bestuur van de VOR, bij de uitgever heeft
beklaagd en die, naar wij hopen, spoedig zal zijn ingelopen en daarna niet meer zal voorkomen. Voor het
ogenblik kan de redactie zich bij lezers en auteurs slechts verontschuldigen. De ontstane achterstand is zeker
niet te wijten aan de redactie.
Het aantal aangeboden artikelen groeit nog steeds. Op die ontwikkeling heeft de redactie gereageerd
met het voorstel het aantal bladzijden per aflevering te vergroten van 48 naar 56. De SVO is bereid gevonden
de daarvoor nodige geldmiddelen te verstrekken.
Met die maatregel zal het probleem van de groeiende 'publication lag' echter niet geheel zijn opgelost.
Auteurs kunnen ons daarbij helpen op voor de hand liggende wijze, namelijk door hun bijdragen niet langer
te maken dan strikt nodig is. Economisch schrijven blijkt nog steeds een zwakke kant van Nederlandse
onderwijsonderzoekers. De redactie wordt daar wat ongeduldig van. Daarom heeft zij besloten de redactie-
secretaris te machtigen alle bijdragen die langer zijn dan 25 getypte bladzijden (regelafstand I '/j, inclusief
referenties, figuren en tabellen) 'ongezien' aan auteurs te retourneren. Artikelen van een dergelijke lengte
kunnen in geen geval geplaatst worden en het heeft geen zin de beoordelaars met dergelijke teksten lastig te
vallen. Deze nieuwe regel betekent overigens niet dat men binnen de grenzen van 25 bladzijden ongestraft
wijdlopig kan zijn. Zuinigheid met ruimte zal een van de belangrijkste criteria voor de acceptatie van
bijdragen gaan vormen.
Wij allen hebben groot belang bij een medium waarin de resultaten van ons werk snel gepubliceerd
kunnen worden. In 1986 zijn er 336 TOR-bladzijden beschikbaar. Als het TOR meer abonnees krijgt,
kunnen dat er in latere jaren meer worden. Het valt de redactie op, dat lang niet al degenen die bijdragen
aanbieden, een abonnement hebben. Dat is een paradoxale situatie, omdat auteurs die geen abonnee zijn
dusdoende de kans op'acceptatie en snelle publicatie van hun bijdragen verkleinen. Een persoonlijk
abonnement, al dan niet gecombineerd met het lidmaatschap van de VOR, van alle Nederlandstalige
onderwijsonderzoekers is dringende noodzaak als wij het TOR-kanaal open willen houden.
Er zijn nog wat losse berichten. Af en toe - gelukkig niet al te vaak - rijzen er vragen over de wijze
waarop de redactie met de beoordelingen van bijdragen omgaat. Als bekend, iedere bijdrage wordt
beoordeeld door twee externe beoordelaars, die aangeven of de bijdrage voor publicatie in aanmerking
komt en of er volgens hen nog verbeteringen moeten worden aangebracht. De redactie volgt deze oordelen
niet blind. Verschillen de beoordelaars onderling van mening, dan wordt niet zelden een derde beoordelaar
ingeschakeld. In andere gevallen vormen redactieleden een eigen oordeel door de bijdrage zorgvuldig te
lezen en kennis te nemen van de opmerkingen van de beoordelaars. Deze opmerkingen mogen dienen ter
geruststelling van auteurs die vrezen, dat zij het slachtoffer zouden kunnen worden van een beoordelaar bij
wie hun werk om toevallige redenen niet goed valt.
Het TOR stelt zich ten doel alle boeken op onderwijskundig terrein van Nederlandstalige auteurs van
een recensie te voorzien. Dat geldt ook en vooral voor academische proefschriften. Auteurs worden
opnieuw verzocht er bij hun uitgevers op aan te dringen dat een recensie-exemplaar van hun boeken aan het
Tor wordt aangeboden. Publiceert men een boek in eigen beheer, zoals bij proefschriften nogal eens
voorkomt, dan dient men zelf een recensie-exemplaar te sturen.
Een aantal Nederlandstalige onderwijskundige tijdschriften heeft besloten om, met steun van de SVO,
op gezette tijden een selectie van in hun tijdschriften verschenen bijdragen te herpubliceren in het Engels.
Ook het TOR neemt aan dit initiatief deel. De redactie zal daarvoor in aanmerking komende bijdragen
selecteren, die dan vervolgens met deskundige hulp vertaald zullen worden.
Tenslotte zij vermeld dat de redactie in het afgelopen jaar een nieuwe taak op zich genomen heeft,
namelijk het beoordelen van papervoorstellen voor de AERA Annual Convention. De adviezen van de
redactie zijn via het bestuur van de VOR doorgezonden aan de Amerikaanse organisatoren.
Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 2-291.
Toetsgebruik in de onderwijspraktijk: stand van zaken
Frans J. G. Janssens
Cito, Arnhem
ABSTRACT
This review of the literature concerning test use analyses the ways in which teachers use norm- and
criterion-referenced tests. Generally speaking, teachers use norm-referenced tests to check their
judgments about pupils. There has been far less research into the use of criterion-referenced tests.
Particularly when such tests form part of curricula teachers use them to tune instruction to pupils.
Comparisons of the users' intention and the actual use of both types tests show extensive agreement,
though certain uses are observed which are more or less inconsistent with the intended use.
Furthermore, the literature has been studied in order to gain insight into the factors influencing the
use of tests. The main factors prove to be:
(1) knowledge and skills in educational measurement,
(2) teachers' attitudes and perceptions, and
(3) the organisation of schools and classes.
In conclusion, the article gives some suggestions for research and development activities.
1 INLEIDING
Er is in het Nederlandse taalgebied zeer weinig onderzoek gedaan naar het gebruik van
schoolvorderingentoetsen. Op zich is dat niet zo verwonderlijk, omdat het gebruik van derge-
hjke toetsen nauwelijks vijftien jaar oud is. Ook wanneer we kijken naar landen met een rijkere
toetsgeschiedenis, zoals de Verenigde Staten, dan valt ook daar te constateren dat onderzoek
naar het gebruik van toetsen stiefmoederlijk is behandeld (vgl. Lazar-Morrison et al., 1980).
Toch is de laatste vijfjaar, vooral in de angelsaksische landen, de belangstelling voor empirische
gegevens over toetsgebruik enorm toegenomen.
Zo'n vijftien jaar geleden was slechts één grootschalig onderzoek naar toetsgebruik bekend
(Goslin, 1967). Dit werd vier jaar later opgevolgd door een overzicht van de nogal versnipperde
hteratuur rond dit onderwerp (Kirkland, 1971). Ruim tien jaar later zijn en worden er met name
in de V.S. verschillende studies uitgevoerd naar het gebruik van toetsen, waaronder vier
grootschalige (Resnick en Resnick, 1978; Yeh, 1978,1980; Kennedy, Aphng en Neumann, 1980
en Kellaghan, Madaus en Airasian, 1982).
De reden voor de verhoogde Amerikaanse belangstelling is het nog steeds lopende, en soms
fel oplaaiende, toetsdebat, waarin er soms zelfs voor wordt gepleit om alle toetsen uit de roulatie
te nemen, bijvoorbeeld door The National Educational Association (McKenna, 1973). Binnen
een dergelijke context is het aannemelijk dat rond het gebruik van toetsen een stand van zaken
wordt opgemaakt.
Ook in ons taalgebied is de tijd aangebroken voor bezinning. Het waren Wesdorp et al. (1979)
die hiertoe voor de Nederlandse situatie de aanzet hebben gegeven. Zij onderzochten vooral de
rol van meerkeuzetoetsen bij de selectie van leeriingen ten behoeve van het voortgezet onder-
wijs. Over de rol van andere schoolvorderingentoetsen in het onderwijs is tot op heden hier ten
lande nog weinig bekend. Nog niet zo lang geleden is rond het vijftien jarig bestaan van het
Centraal Instituut voor Toetsontwikkeling (Cito) door verschillenden de loftrompet gestoken
Adres: Postbus 1034,6801 MG Arnhem
-ocr page 7-Frans J. G. Janssens 3
over toetsen in het onderwijs, ofschoon ooic kritische geluiden over toetsgebruik waren te
beluisteren. Thio (1983, p. 17) merkt op: 'Het blijkt dat (de) toetsen, ondanks promotie- en
voorlichtingsinspanningen, niet in die mate aftrek vinden als het Cito had gehoopt. Onderzoek
onder degenen die de toetsen wel hebben aangeschaft, wijst uit dat zij de toetsen vaak niet
gebruiken in de gepresenteerde vorm, maar zelf selecties uit de opgaven maken, er eigen
opgaven aan toevoegen en dergelijke.'
Op dit moment uit zich die bezinning in het Cito door het uitvoeren van onder andere
zogenaamde gebruikersonderzoeken (zie bijvoorbeeld Janssens, 1982 en Kremers, 1982). In dat
verband kan een overzicht van resultaten van buitenlandse gebruikersstudies een goed uit-
gangspunt vormen voor Nederlandse studies.
De grote mate van overeenkomst tussen de buitenlandse bevindingen versterkt de mogehjk-
heid om in de Nederlandse situatie gebruik te maken van buitenlandse resultaten. Opmerkelijk
is bijvoorbeeld dat, ongeacht het onderwijssysteem waarin - soms zelfs verplicht gestelde -
toetsen functioneren, de resultaten van de Ierse, Amerikaanse maar ook Engelse studies (Gipps
en Wood, 1981) consistent zijn. Uit alle studies blijkt dat professioneel ontwikkelde toetsen in
beperkte mate worden gebruikt en dat leerkrachten ze betrekkelijk irrelevant vinden voor hun
onderwijspraktijk.
Aan het opstellen van dit literatuuroverzicht ligt een tweetal vraagstellingen ten grondslag.
De eerste heeft betrekking op het functioneren van professioneel ontwikkelde toetsen in de
onderwijspraktijk: voor welke doelen gebruiken leerkrachten toetsen? In principe zijn toetsen
bedoeld om beslissingsprocessen bij leerkrachten te ondersteunen in contexten als: het (her)-
groeperen van leerhngen, het vaststellen van zwakke en sterke kanten van individuele leedingen
en het (bij)sturen van het onderwijs (vgl. o.a. De Bruyne, 1983; Rudman, Kelly, Wanous,
Mehrens, Clark en Porter, 1980).
De tweede vraagstelling heeft betrekking op factoren die het feitelijk gebruik van toetsen
beïnvloeden: welke factoren werken faciliterend of beperkend op het toetsgebruik in bovenbe-
doelde zin?
Voordat op deze vragen wordt ingegaan, worden eerst in par. 2 enkele methodologische
opmerkingen gemaakt over de wijze waarop tot op heden onderzoek naar toetsgebruik is en
wordt gedaan en welke ontwikkelingen daarin zijn te constateren.
Vervolgens wordt in par. 3 een overzicht gegeven van de belangrijkste gegevens uit verschil-
lende studies naar het gebruik van zogenaamde normgerichte en criteriumgerichte toetsen. In
par. 4 wordt getracht een opsomming te geven van factoren, die van invloed zijn op het gebruik
van toetsen. In een slotbeschouwing zullen de belangrijkste conclusies nog eens de revue
passeren en worden voorstellen gedaan voor onderzoeks- en ontwikkelingswerk (par. 5).
2 ONDERZOEK NAAR TOETSGEBRUIK
Studies naar het functioneren van toetsen kunnen in een tweetal categorieën worden ingedeeld,
nl.:
1 Studies naar de sociale en psychologische effecten van toetsen op bij het onderwijs betrok-
kenen, zoals: leerkrachten, leedingen, ouders, beleidsmakers, curriculumontwikkelaars,
etc. Het gaat in dat type onderzoek vooral om het effect van toetsgebruik op attitudes,
opvattingen en percepties van betrokkenen.
2 Studies naar het functioneren van toetsen in het didactisch proces. Daarbij gaat het om de
rol die toetsinformatie speelt in verschillende beslissingsprocessen bij leerkrachten: (her)-
groeperen, plaatsen, selecteren en beoordelen van leerlingen, aanpassen van de instructie
aan en het opsporen van leerproblemen bij leerhngen.
Alle in dit literatuuroverzicht gebruikte studies zijn samengevat in tabel 1. Van deze studies, die
-ocr page 8-4 Toetsgebruik in de onderwijspraktij k
chronologiscli zijn geordend, is vermeld: onderzoeksmethode, de onderzochte evaluatie-
instrumenten, aard en omvang van de onderzoeksgroep en de aspecten van toetsgebruik die zijn
onderzocht.
Uit tabel 1 blijkt dat de meeste studies in de eerste categorie geplaatst kunnen worden en gericht
zijn op de psychologische en sociale effecten van toetsgebruik. Welke de mogelijkheden en
beperkingen zijn van toetsen in het didactisch proces is in veel mindere mate onderzocht. Pas de
laatste vijfjaar treedt er een tweetal verschuivingen op. Ten eerste: de aandacht voor de sociale
en psychologische effecten van toetsgebruik verdwijnt naar de achtergrond ten gunste van
effecten op de instructie. Ten tweede: er wordt meer aandacht besteed aan het gebruik van
criteriumgerichte toetsen, waarvan vooral deskundigen de gebruikswaarde hoog inschatten,
vanwege de diagnostische en instructiemogelijkheden (Klein, 1970; Nitko, 1971; Howe, 1978;
Kahn, 1978 en Popham, 1978).
De bovenbedoelde studies hebben enkele beperkingen.
1 De meeste studies zijn opgezet als (grootschaUg) survey-onderzoek. De dataverzameling
verloopt grotendeels via vragenlijsten. Dit leidt over het algemeen tot betrekkelijk generale
conclusies.
2 Er is af te dingen op de wijze waarop doorgaans 'toetsgebruik' wordt geoperationaliseerd.
Onderzoekers verzuimen vaak het bedoelde gebruik van de onderzochte toetsen te specifice-
ren. De feitelijke toetspraktijken zijn slechts zinvol te begrijpen tegen de achtergrond van het
intentionele gebruik.
3 De situaties waarin toetsgebruik is onderzocht zijn niet zonder meer vergelijkbaar met de
Nederlandse situatie. Zo zijn in de V.S. toetsen al veel langer ingeburgerd en worden in veel
gevallen toetsafnames van hoger hand voorgeschreven. Eveneens is in Nederland (nog) geen
sprake van een accountability-beweging, die het gebruik van toetsen beïnvloedt (vgl.
Resnick en Resnick, 1978).
Tussen Nederland en de Ierse Republiek (zie de studie van Kellaghan et al., 1981) is wel een
grote overeenkomst. Evenals in Nederland werden in Ierland pas rond de jaren zeventig de
eerste normgerichte toetsen geïntroduceerd. Het belangrijkste verschil met de angelsaksi-
sche landen is evenwel dat in Nederland het gebruik van toetsen goeddeels vrij en schoolge-
bonden is. In de andere landen ligt het initiatief vaak op bestuurlijk niveau. Het ligt voor de
hand dat de hier genoemde factoren van invloed zijn op het functioneren van toetsen.
De in de volgende paragrafen samengevatte onderzoeksresultaten moeten mede tegen de
achtergrond van de bedoelde beperkende factoren worden beschouwd.
3 TOETSEN IN DE ONDERWIJSPRAKTIJK
3.1 Bedoeld gebruik
Om het functioneren van schoolvorderingentoetsen in de praktijk zinvol te kunnen beschrijven,
moet het feitelijk gebruik ervan worden afgezet tegen het door de ontwikkelaars bedoelde
gebruik. Onder het (bedoelde) gebruik van toetsen wordt verstaan: voor welk doel, op welke
wijze en op welk moment een toets kan worden afgenomen en hoe de resultaten moeten worden
geïnterpreteerd.
Schoolvorderingentoetsen kunnen op leerlingniveau en op schoolniveau worden gebruikt. Op
leerlingniveau vervullen ze verschillende functies, ofschoon niet alle toetsen in dezelfde mate
voor alle functies geschikt zijn (zie o.a. Gronlund, 1976; Popham, 1981 en De Bruyne, 1983):
1 Plaatsing en 'selectie van leerlingen: het verwijzen c.q. toelaten van leerlingen naar een
bepaalde klas, groep, een bepaalde fase van het onderwijs of naar een bepaald onderwijs-
type.
Frans J. G. Janssens 5
2 Sturing van onderwijsleerprocessen: het controleren van vorderingen en op basis daarvan
(bij)sturen van instructie en/of verwerking. Dit wordt ook wel formatieve evaluatie
genoemd.
3 Opsporen van leerproblemen: diagnostiseren van leermoeilijkheden die zijn gesignaleerd en
niet opgelost kunnen worden met de door de formatieve evaluatie geïndiceerde didactische
maatregelen.
4 Resultaatbeoordeling: het vaststellen van de mate waarin bepaalde leerdoelen zijn bereikt
met het oog op kwaliteitsbeoordeling ten behoeve van rapportage of certificering. Dit wordt
ook wel summatieve evaluatie genoemd.
Toetsen kunnen ook een rol spelen in curriculumevaluatie. Deze functie laten we buiten
beschouwing omdat het toetsgebruik zich in dit verband op schoolniveau afspeelt.
Recent worden toetsen onder andere ingedeeld in termen van de wijze waarop de resultaten
moeten worden geïnterpreteerd, namelijk normgericht en criteriumgericht. Bij normgerichte
toetsen moeten de scores van leerlingen worden geïnterpreteerd tegen de achtergrond van de
prestaties van andere leerlingen op die toets; de zogenaamde normgroep (vgl. o.a. Mehrens en
Ebel, 1979). Dergelijke toetsen zijn doorgaans geconstrueerd om leerlingen van laag naar hoog
te ordenen naar prestatie. Toetsopgaven die niet voldoende discrimineren tussen leerlingen
worden meestal niet opgenomen. Een individuele score krijgt betekenis door deze te vergelijken
met de geordende prestaties van de normgroep. Doorgaans wordt gebruik gemaakt van Deciel-
of C-schalen.
Bij criteriumgerichte toetsen krijgen de scores betekenis in termen van de mate van beheer-
sing van het leerstofdomein waaruit de toetsopgaven afkomstig zijn (vgl. o.a. Mehrens en Ebel,
1979). De gedachtengang daarbij is dat de score van een leerling op te vatten is als een (zo goed
mogelijke) schatting van diens beheersing van het domein of leerstofgebied. Om de score
betekenis te kunnen geven is het onnodig de prestaties van anderen te kennen. Criterium voor
opname van een opgave in een dergelijke toets is niet het discriminerend vermogen, maar de
mate waarin de opgave het leerstofgebied representeert.
Het onderscheid tussen normgerichte en criteriumgerichte toetsen heeft eerder verwarrend
dan verhelderend gewerkt, alleen al omdat wordt gesuggereerd dat het om twee elkaar uitslui-
tende typen toetsen met verschillende functies gaat. Dat is niet het geval, omdat beide interpre-
tatiewijzen in één toets kunnen worden gecombineerd (zie voor deze discussie o.a. Popham,
1981, p. 27 e.V.). We hanteren dit onderscheid toch omdat alle aangehaalde gebruikersstudies
erop zijn gebaseerd en omdat in de toetstheoretische literatuur duidelijke verschillen aan de
twee typen toetsen worden toebedeeld (vgl. o.a. Mehrens en Ebel, 1979 en Popham, 1981).
Zogenaamde criteriumgerichte toetsen geven - mits volgens de regels ontwikkeld - een meer
accurate en specifieke beschrijving van de vorderingen van leerlingen in een leerstofgebied.
Normgerichte toetsen zijn doorgaans algemeen van karakter. Het leerstofgebied waarop ze
betrekking hebben is vaak globaler omschreven en beslaat een betrekkelijk lange onderwijspe-
riode, bijvoorbeeld het rekenonderwijs van een half jaar. Normgerichte toetsen bevatten
bovendien vaak te weinig opgaven om uitspraken te doen over de beheersing van onderdelen uit
het leerstofgebied. In tegenstelling tot criteriumgerichte toetsen is het met normgerichte toetsen
om bovengenoemde redenen minder goed mogelijk om resultaten te vertalen naar specifieke
onderwijsmaatregelen voor individuele leerlingen. Dit betekent dat in veel gevallen norm-
gerichte toetsen hoofdzakelijk gebruikt kunnen worden om leerlingen te selecteren, te plaatsen,
of om resultaten te beoordelen. Criteriumgerichte toetsen zijn eerder geschikt om leerprocessen
te sturen of om leerproblemen op te sporen. Plaatsingsbeslissingen kunnen echter door zowel
criteriumgerichte toetsen (bijvoorbeeld vaststellen of een leerling over noodzakelijke voor-
waarden beschikt) als normgerichte toetsen (bijvoorbeeld groeperen naar niveau) worden
ondersteund. Dit geldt ook voor resultaatbeoordelingen. De vraag wie tot de besten van een
6 Toetsgebruik in de onderwijspraktij k
groep behoren kan zowel via een normgerichte als een criteriumgerichte interpretatie worden
vastgesteld.
Voor de gebruiker van schoolvorderingentoetsen maakt het nogal verschil of met het ene of
met het andere type toets wordt gewerkt. Op de eerste plaats zijn beide toetstypen niet (in
dezelfde mate) geschikt voor de eerder genoemde evaluatiefuncties. In de meeste gevallen wordt
door de toetsconstructeur nauwkeurig afgebakend waarover de toetsresultaten uitsluUsel
geven. Op de tweede plaats is het niet voor ieder toetstype (in dezelfde mate) mogelijk om
toetsprestaties maatgevend te laten zijn voor de inrichting van het (vervolg)onderwijs aan
individuele leerhngen. Normgerichte toetsen hebben doorgaans alleen een signaleringsfunctie,
dat wil zeggen dat de toetsprestatie slechts een indicatie geeft van een (leer)probleem of
achterstand. Met behulp van andere evaluatieprocedures moet dan vervolgens nagegaan
worden waar het probleem of de achterstand precies moet worden gelocaliseerd en wat de aard
ervan is. De resultaten van criteriumgerichte toetsen daarentegen zijn doorgaans wel te vertalen
in instructiehandelingen.
Omdat aan de bedoelde gebruiksmogelijkheden van beide toetstypen functionele verschillen
worden toegekend, wordt in de volgende paragrafen aan beide aandacht besteed.
3.2 Gebruik van normgerichte toetsen
Goslin (1967) was een van de eersten die over een grootschalig onderzoek naar het gebruik van
normgerichte toetsen in het lager- en voortgezet onderwijs (V.S.) rapporteerde. Hij onderzocht
in welke mate normgerichte toetsresultaten door leerkrachten worden gebruikt om leerlingen te
beoordelen, aan ouders en leeriingen te rapporteren en om het onderwijs te sturen. Goslin
constateerde dat leerkrachten toetsen hoofdzakelijk van belang achten om individuele leerpro-
blemen op te sporen en leerlingen een beeld te geven van hun sterke en zwakke kanten. De
leerkrachten vonden toetsresultaten geenszins van doorslaggevende betekenis om het onderwijs
te sturen. Minder dan 20 procent van de ondervraagde leerkrachten paste op basis van
toetsresultaten (wel eens) de leerstof aan en minder dan een derde deel van de leerkrachten
rapporteerden op basis van toetsresultaten (wel eens) hun didactisch handelen te veranderen.
Ongeveer 10 procent van alle respondenten meldde frequent gebruik te maken van toetsresulta-
ten om leerhngen te beoordelen of om rapporten samen te stellen. Goslins eindconclusie luidde,
dat over het algemeen genomen resultaten van normgerichte toetsen slechts in geringe mate
door leerkrachten worden gebruikt om het onderwijs in te richten.
Goslins conclusie wordt tien jaar later weer bevestigd door een nationaal survey-onderzoek
van Stetz eh Beek (1979). Ook in andere minder groots opgezette gebruikersstudies wordt de
geringe invloed van normgerichte toetsen bevestigd: normgerichte toetsinformatie wordt in
beperkte mate gebruikt voor uiteenlopende didactische functies als: het opsporen van leerpro-
blemen en plaatsen, (her)groeperen en beoordelen van leerlingen (Angel, 1968; Carduzzi-
Bolchazy, 1978; Nitko, 1971; Stetz en Beek, 1978 en Wolok, 1972). Ook Wesdorp et al. (1979)
signaleren een geringe invloed van toetsen, in dit geval op de schoolkeuze-advisering door
leerkrachten.
Jammer is dat zowel Goslin als Stetz en Beek niet duidelijk melden welke normgerichte
schoolvorderingentoetsen zij of hun respondenten voor ogen hadden toen de vragenlijsten
werden ingevuld. Daardoor zijn er geen gegevens bekend over het bedoelde gebruik van toetsen.
Respondenten rapporteerden in algemene zin over hun toetspraktijken. Gezien de functie van
normgerichte toetsen zijn de conclusies uit beide studies slechts validevoor zover het gaat om
het (tegenvallend) gebruik van toetsen voor het relatief beoordelen, groeperen, selecteren van
leerhngen en voor het signaleren van probleemgevallen. Dat leerkrachten volgens de onderzoe-
kers deze toetsen nauwelijks gebruiken om de instructie te sturen of leerproblemen te diagnosti-
seren, is een conclusie waarover genuanceerder gedacht kan worden, omdat deze toetsen
daarvoor minder geschikt zijn. Leerkrachten zelfrelativeren dergelijke gebruiksmogelijkheden
Frans J. G. Janssens 1827
wel. In praktisch alle studies naar het gebruik van normgerichte toetsen wordt gerapporteerd
dat de informatiewaarde van toetsresultaten tegen de achtergrond van meer alledaagse evalua-
tiepraktijken van leerkrachten beperkt is. Dergelijke toetsen gebruiken ze hoofdzakelijk om in
de praktijk opgedane kennis over leerlingen te controleren (vgl. Choppin, 1982; Dorr-Bremme,
1982; Burry, 1982; Salmon-Cox, 1981; Kellaghan, Madaus en Airasian, 1982). Leerkrachten
achten de kennis, die ze tijdens de alledaagse praktijk via observaties, proefwerken en oefen-
werk over hun leerlingen opdoen van groter belang voor het beoordelen van leerlingen en het
nemen van instructiebeslissingen (Burry, 1982; Choppin, 1982; Dorr-Bremme, 1982; Salmon-
Cox, 1981; Wesdorp et al., 1979en Yeh, 1980). Behalve dat dergelijke informele evaluatieproce-
dures frequenter worden toegepast dan gestandaardiseerde evaluatie-instrumenten (vgl. Bar-
nette en Thompson, 1979; Tomic en Weesie, 1982 en Yeh, 1980), weten we betrekkelijk weinig
over het gebruik of de invloed van informele evaluatieprocedures.
Er is enige evidentie dat de invloed van informele evaluaties op het instructieproces en het
beslissingsgedrag van leerkrachten in het algemeen groter is dan die van de formele evaluaties.
Yeh (1978) rapporteert dat 55 procent van de onderzochte leerkrachten frequent eigen toetsen
opstelt. Dit impliceert dat sommige toetsen wel degelijk voor leerkrachten een zekere bruik-
baarheid hebben. Yeh stelde ook vast dat meer informele evaluatieprocedures, als observaties
van en interacties met leeriingen, een grotere rol in het didactisch proces spelen dan toetsresulta-
ten (vgl. Barnette en Thompson, 1979). Choppin (1982), die een gebruikersonderzoek uitvoerde
in 114 schooldistricten, stelde vast dat leerkrachten bij het beoordelen van leeriingen en het
nemen van didactische beslissingen het meeste gewicht toekennen aan eigen observaties en
resultaten van oefenwerk van leeriingen: toetsen komen op de derde plaats. Dorr-Bremme
(1982) die verslag doet van een survey-onderzoek onder 486 leerkrachten uit het basis- en 365
uit het voortgezet onderwijs, komt tot dezelfde bevindingen. Normgerichte toetsresultaten
hebben een beperkte functie in het didactisch proces. In de ogen van leerkrachten echter, is de
belangrijkste functie van dit type toets: het controleren van het eigen oordeel over het niveau en
de prestaties van leerlingen. Voor normgerichte toetsen geldt in het algemeen dat deze functie
vanuit psychometrisch oogpunt acceptabel is te noemen, evenals relatief ordenen van leeriingen
ten opzichte van anderen met het oog op beoordelingen, groepsindelingen, plaatsings- en
selectiebeslissingen.
Uit verschillende studies (zie o.a. Goslin, 1967 en Stetz en Beek, 1979) is op te maken dat
normgerichte toetsen mogelijk ook voor diagnostische doeleinden worden gebruikt. Daar de
wijze waarop de onderzochte toetsen gebruikt kunnen of moeten worden in de meeste studies
niet is geëxpliciteerd, is moeilijk te achterhalen of cn in welke mate de grenzen van acceptabel
toetsgebruik worden overschreden. Janssens (1985) constateerde dat in de Nederiandse situa-
tie een groot deel van gebruikers van normgerichte rekentoetsen van het Cito deze toetsen op
een onjuiste wijze gebruiken. Een conclusie die uit de aangehaalde studies wel is te trekken is dat
normgerichte toetsen een geringe Invloed hebben op de inrichting van het onderwijs, omdat
leerkrachten ze voor dit doel in het algemeen niet geschikt vinden.
3.3 Gebruik van criteriumgerichte toetsen
Tot dc criteriumgerichte toetsen kunnen gerekend worden zogenaamde criterium-, leerdoel-
gerichte, domeingerichte, curriculum- of methodegebonden toetsen. Deze hebben de criterium-
gerichte interpretatiewijze gemeenschappelijk, ofschoon ze kwalitatief gezien soms aanzienlijk
van elkaar verschillen. Zo is doorgaans onduidelijk op welke wijze toetsen in methodes of
curricula zijn geconstrueerd en ontbreken veelal gegevens over de kwaliteit van deze instrumen-
ten (zie o.a. Popham, 1981, p. 29). Ten opzichte van het gebruik van normgerichte toetsen heeft
het gebruik van criteriumgerichte toetsen betrekkelijk weinig aandacht gekregen. Een verkla-
ring hiervoor zou kunnen zijn, dat ze nog niet lang voor het onderwijs beschikbaar zijn en (dus)
nog weinig bekendheid genieten c.q. nog niet in groten getale en voor meerdere leerstofonder-
1828 Toetsgebruik in de onderwijspraktij k
<-• c "g ,, c <N 2 {g w a I •d « «ë 2 g> ë g 00 E O _ M C 2 I C/) S u s c O O B aü -S-s 0 1 " II |
8 g UU - O 00 T3 00 .S S t> S <N ro Tf 1/1 O « S TT II |
(5o E .S O n „ ^ t; " S" O = J2 = 2 ë > 8 >ë c .s g O • = II •II S 2 a-g U BO 3 |
oo
c
I?
sö
ü CQ
c
u
h
ÖO
m
c
u
T5
C
O
O.
25
I
ÖÓ
iJ m
« O
ü O
.SJ OQ
Jü m
a
M
O
S
wi 3
H^ S"
O
Z-S,^
52
3
'E
3
è
O
u
3
Ji
§
u
hh
ÜÜ
Z U
^ u
^ §
O
2
&
O
§
li.
9
s s
u
'•3
3
§
u
e w
S 5
tg
CD
a
tll
K c ü
ill
V
J=
73
3
C
O
•s
S;
N
S
c
U '—.
m C/
£
O
n
u
Si c
T3
O
P iP
T3
c
a
M
Ui
'ü
>
O
ü
05 C-
X)
f2
Frans J. G. Janssens 1829
M .5 y S 5 g" c 5 « Ô '13 c 'O o o pû cd O, t5 3 O pq u 0 a a T5 1 U T3 I C O g-i 3 I l;l |
a ed u S E 3 £i ô « .a Q, C g n ç u ■i « ^ o 00 i. Sil ea W) u > c 60 lil c u J2 i 1 2 tî |
(S
^ §
O
Cv|
m
0\
oo
c
u
JC
o
C
u
Je
s:
•g
Î2
.M
J3
O
Ï3Ó
Ji 03
2
2
Î3 O
PQ
£
u
•o
E
u
T3
IS
ISI^
s s
■ o,
K
o O
g
•Hp
« g
u
i-ë
z u u H .s Si
z u
z u
<5 .H
"O ^
3 Ü 5
B.s-ê
sl
" 3
« W5
u
•a
ëo
B OO
O ON
O
s
II
M 2
C/5 w
oo
-ocr page 14-10 Toetsgebruik in de onderwijspraktij k
O, C 3 lil:. c OJ g C C 5 2 > c« li O O > •a febiJ-'S-o „ _ " O J«! « BO u -r >- " .2 c 2 t; a O S ° •s-ë ë,2.s 5 J.s.s s <N |
a a T3 > Ö C n) ^ O X |
O. Q. 0 C C lil 2 > .c > S — <N UI |
c O E WH " DU C llll g^ CA OJ 'i g 2.3 " O 2 •O .D 00 |
|
O
2
Ö O
ca
Ö Ó
Ji m
O O
ii CQ
S O
ü 03
U O
ii OQ
U g
U P -ü
z u u .s a
u
^ H H H
Ü O Ü S
Z U U H
H H -g
O O ^
ZU S.
u | |
O | |
ü | |
lU | |
T3 | |
C | |
O | |
li-, |
"5 |
£ |
00 |
3 | |
(/I |
> |
<u
O
ü
u
c g s;
i) e u
3 c 2
ü
S
"C
ig
E
'u
O C/3
c
ü
lïT»
■O
c
O
> ^
t iJ
<5
•O S
3 u
S.E
S .5
^ n
.U g
T3 60
3 g
<N
OO
o\
i>
E
Ë
a
CQ
u
cd ^
D.
Q.
O
.C
U
Tl-
Q w
Frans J. G. Janssens 11
•u c = ß g jc S BB g I " (U u II •o .o o ^ 2 ta u O) il g o E -o -- CN W) c > c ca •ä u O'S " g Im o Sd ö E " 0« II tJÛ ^ I« ca " '5 is <u C ■S U u 3 cr t. ^ > I 2 -ë 2 2 JO JO b -D -D H z c c •c « ^ s 2 u &0 II c u o •a . . (U î> O O Ü Ü 00 CJ) i« O o 00 CN m |
|
c
u
o
2
u o
>
e
D
.S
U
ta
Ö O
CQ
ÖO
Ü m
fe o
^ >
c
a>
OB
C
■G
O
« ^-s
3-q Si
•c <u o
t3 e u
3|
V (O
•Ü
E
H s c
H .s s
U
H
Ü
U
f- H
8g
iê
>> c wi
g
s o • =
1/1 o £
s o .s
c s
S "
u js
o (J
11
•ë i
II
îi
H H
Ü Ü
Z U
n
t S?
3 S
VI >
c
S ä
^ S
ca
m
co
<N
0^
E
■il
trt m
J3 oo
3 OS
fc^ c-
S Ü
H U
—■ CN m -"i- W-)
-ocr page 16-12 Toetsgebruik in de onderwijspraktij k
delen voorhanden zijn. Zelfs in de V.S., de bakermat van dit type toets, genieten ze nog weinig
bekendheid (vgl. Yeh, 1980). Hier te lande geldt dit zeker voor de zogenaamde leerdoelgerichte
toetsen van het Cito (zie Janssens en Van Deventer, 1983). Dit zijn criteriumgerichte toetsen die
behoren bij leerdoelen die betrekking hebben op onderdelen van verschillende leerstofgebieden
uit het basis- en voortgezet onderwijs. Deze toetsen worden bruikbaar geacht naast verschil-
lende in gebruik zijnde onderwijsmethodes om de beheersing van leerdoelen vast te stellen.
Leerkrachten zijn daarentegen wel bekend met zogenaamde methode- of curriculumgebonden
toetsen. De meest gebruikte rekenmethodes in het basisonderwijs, bijvoorbeeld, kennen derge-
lijke toetsen.
Een van de eerste onderzoeksverslagen naar het gebruik van criteriumgerichte toetsen is van
de hand van Leithwood en zijn collega's (Leithwood et al., 1976), die verslag doen van de
begeleide implementatie van een wiskundecurriculum (K-10), dat volgens de principes van de
strategie voor beheersingsleren moet worden gebruikt. Het curriculum kent twee soorten
criteriumgerichte toetsen, namelijk 1) voor plaatsing van leerlingen in het curriculum of in
groepen en 2) voor het per leerdoel evalueren van de voortgang.
Tijdens de implementatie van het curriculum gingen de onderzoekers onder andere na op
welke wijze leerkrachten (N = 108) criteriumgerichte toetsen gebruikten. Men constateerde dat
de meeste leerkrachten (87%) criteriumgerichte toetsen, bedoeld voor voortgangsevaluatie,
regelmatig afnemen. Dit in tegenstelling tot de toetsen bedoeld voor plaatsing van leerlingen,
die door minder dan de helft van de leerkrachten werden gebruikt.
Gaandeweg het onderzoek bleken steeds meer leerkrachten de toetsen in overeenstemming
met de bedoeling te gebruiken. Wel dient vermeld te worden dat de onderzoekers de implemen-
tatie begeleidden in de vorm van training van hoofden en leerkrachten.
Kremers (1982) onderzocht in welke mate en voor welk doel, leerkrachten (N = 981) uit het
voortgezet onderwijs gebruik maken van leerdoelgerichte toetsen van het Cito bedoeld voor
voortgangsevaluatie. Deze toetsseries bestaan uit een leerdoellijst, leerdoelgerichte toetsen en
verwijzingen naar de plaatsen waar in bepaalde methodes leerdoelen aan de orde komen,
ofschoon ze niet gekoppeld zijn aan een specifieke methode. Hij constateerde dat slechts 15
procent van de leerkrachten, die dergelijke toetsen aanschafte, ze ook daadwerkelijk gebruikt,
ofschoon niet geheel conform de bedoelingen. Kremers constateerde dat het feitelijk gebruik
aanzienlijk afwijkt van het bedoelde. Een derde deel van de regelmatige gebruikers gebruikt de
toetsseries overwegend als een verzameling toetsopgaven, waaruit men opgaven selecteert
zonder rekening te houden met de ordening van opgaven naar leerdoel. Men stelt dus naar eigen
inzicht uit de verschillende toetsen een (nieuwe) toets samen, vermoedelijk zonder zich te
bekommeren over kwaliteitseisen als validiteit en betrouwbaarheid. Ofschoon de toetsen bij
uitstek geschikt en bedoeld zijn voor het sturen van de instructie, gebruikt een aanzienlijk deel
van de frequente gebruikers, waarvan een groot deel de opgaven herschikt (60%), de toetsen
voor het geven van cijfers (resultaatbeoordeling). Naast het naar behoeven selecteren van
opgaven uit de toetsen, brengt men ook nog andere wijzigingen aan, zoals het assembleren van
parallelle toetsversies tot een nieuwe of'grotere' toets (ongeveer 25%), het wijzigen van opgaven
(ongeveer 45%) en het toevoegen van opgaven (ongeveer 30%).
Rutherford (1979) signaleert enkele'problemen die verbonden zijn aan het werken met
curricula met criteriumgerichte toetsen. Veel leerkrachten (N = 2000) ondervonden problemen.
Deze zijn niet gelegen in de uitgangspunten, opzet of aanpak van die, curricula, maar in het
gebrek aan kennis en vaardigheden van leerkrachten om criteriumgericht te werken. Criterium-
gericht werken veronderstelt dat de leerkracht van iedere leerling de behoeftes vaststelt en
daarna de instructie individualiseert. Daarnaast wordt verondersteld dat leerkrachten de
instructie in stapjes onderverdelen, opdat de leerling op eigen niveau door het curriculum heen
kan. Echter, zo constateert Rutherford, de structuur en inhoud van dergelijke curricula ver-
schaffen leerkrachten niet de technieken, procedures en materialen om dit in de praktijk te
Frans J. G. Janssens 13
realiseren. Daardoor vallen veel gebruikers terug op oude strategieën. Ondanks dat leerdoelen
en toetsen door leerkrachten worden gebruikt, geeft men onderwijs volgens het oude patroon,
zoals de hele klas tegelijk toetsen, of niet-beheersers gewoon met de hele klas verder laten gaan.
Ook Janssens (1982) die op enkele scholen het gebruik van leerdoelgerichte toetsen van het Cito
onderzocht komt tot dezelfde bevindingen.
Ofschoon sommige deskundigen de mogelijkheden van criteriumgerichte toetsen hoger
waarderen dan normgerichte toetsen (vgl. Popham, 1978), blijkt in de praktijk het gebruik
ervan niet veel af te wijken van de normgerichte toetsen. Situaties waarin sprake is van begeleide
implementatie of integratie in een curriculum, vormen hierop een gunstige uitzondering (vgl.
Leithwood et al. 1976 en Janssens, 1982).
Over het gebruik van criteriumgerichte toetsen die geïntegreerd zijn in een curriculum is niet
veel meer bekend dan dat leerkrachten dit type toets van groter belang achten dan normgerichte
toetsen (vgl. David, 1979; Dorr-Bremme, 1982 en Burry, 1982). Tot op heden zijn slechts enkele
studies bekend die expliciet aandacht besteden aan het functioneren van toetsen in een curricu-
lum. Kuhs et al. (1983) onderzochten gedurende een schooljaar het gebruik van curriculumge-
bonden toetsen bij zeven leerkrachten. Zij kwamen tot de conclusie dat leerkrachten die
nauwgezet het curriculum volgen de beschikbare toetsen vaker gebruiken dan leerkrachten die
het curriculum 'losser' gebruiken. Ook wanneer er sprake is van team teaching of parallelklas-
sen, wordt er vaker gebruik gemaakt van toetsen, omdat in deze gevallen de leerkrachten het
onderwijs op elkaar proberen af te stemmen. De zeven leerkrachten gebruikten de toetsen
weinig of niet voor het geven van cijfers of het beoordelen van leerlingen, maar vooral voor het
nemen van instructiebeslissingen. Dit kan een gevolg zijn van de integratie van toetsen in een
curriculum. Het uitvoeren van instructiebeslissingen wordt bijvoorbeeld vergemakkelijkt door
de aanwezigheid van verdiepings- en verbredingsstof. De resultaten van het onderzoek van
Kuhs et al. (1983) suggereren dat toetsen in curricula voor leerkrachten relevant zijn en dat
vooral de door het curriculum geboden handelingsalternatieven bijdragen tot frequent en
efficiënt gebruik van criteriumgerichte toetsen. Een belangrijk punt is echter dat de kwahteit
van toetsen uit curricula niet vast staat.
4 FACTOREN DIE VAN INVLOED ZIJN OP HET GEBRUIK VAN TOETSEN
Al geruime tijd wordt er in de hteratuur gediscussieerd over de vraag hoe leerkrachten in de
onderwijspraktijk toetsen moeten gebruiken (zie onder andere Traxler, 1953; en voor een recent
voorbeeld De Bruyne, 1983). Geconcludeerd moet worden dat die hteratuur weinig invloed
heeft gehad op de praktijk. Allengs ontstaat uit empirische gegevens een beeld van factoren die
wel van invloed zijn op het gebruik van toetsen, dat wil zeggen op de mate waarin en het doel
waarvoor toetsen feitelijk worden gebruikt. De belangrijkste lijken te zijn: (1) kennis en
vaardigheden, (2) attitudes, opvattingen en percepties van leerkrachten op het gebied van de
toets- en evaluatietheorie (onderwijsmeetkunde) en (3) de school- en klasse-organisatie.
Kennis en vaardigheden van leerkrachten op het gebied van de onderwijsmeetkunde
Er is voldoende reden om vrees te hebben voor het niveau van kennis en vaardigheden van
•eerkrachten voor wat betreft de onderwijsmeetkunde. Goslin (1967) toonde in de V.S. reeds in
de zestiger jaren aan dat de kennis en vaardigheden van leerkrachten schromelijk tekort
schieten. Alle geconstateerde manco's en daarop gebaseerde aansporingen van menigeen
hebben tot op heden geen gevolg van enige betekenis gehad (zie bijv. Goslin, 1967; Wesdorp et
al-. 1979 en Lazar-Morrison, 1980). In Nederland is de situatie niet veel anders. Zo stelde
Janssens (1983a) vast dat leerkrachten exphciet vermelde regels rond het afnemen van norm-
gerichte toetsen met voeten treden: leerkrachten houden geen rekening met de standaardmeet-
14 Toetsgebruik in de onderwijspraktij k
fout, werken vaak uitsluitend met onbewerkte scores en interpreteren resultaten criterium-
gericht in plaats van normgericht.
Goslin (1967) behandelt als een van de eersten de toetspraktijken van leerkrachten. Hij vroeg
leerkrachten via vragenlijsten onder andere: (1) in welke mate ze bekend zijn of ervaring hebben
met toetsen en (2) hun mening over de nauwkeurigheid, eerlijkheid en bruikbaarheid van deze
toetsen. Uit Goslins resultaten bleek dat minder dan 40 procent van alle leerkrachten slechts
enige vorm van training op toetsgebied had genoten, ofschoon meer dan 80 procent regelmatig
toetsen afnam. Ten tweede bleek, dat leerkrachten van mening waren dat toetsen op een
betrekkelijk nauwkeurige wijze de vorderingen van leerhngen weergeven (vgl. ook Kellaghan et
al., 1981). Uit Goslins onderzoek blijkt ook: hoe meer training op dh gebied genoten, hoe meer
van toetsen gebruik wordt gemaakt.
Ruim tien jaar later herinneren Oljenik (1979), Wesdorp et al. (1979), Yeh (1978) en Lazar-
Morrison et al. (1980) ons nogmaals aan de gebrekkige kennis en vaardigheden van practici.
Yeh (1978) rapporteert bijvoorbeeld, dat slechts 50 procent van de ondervraagde leerkrachten
in staat was twee - in de V.S. - frequent gebruikte standaardscores te interpreteren namehjk
percentielscores en zogenaamde grade equivalents. Ook stelde Yeh (1978) vast dat op toetsge-
bied meer ervaren leerkrachten eerder geneigd zijn toetsen te gebruiken en poshiever over
toetsen denken dan minder ervaren leerkrachten. Het positieve verband tussen bekendheid en
ervaring met toetsen en het gebruik ervan, wordt ook nog eens onderstreept door Cramer en
Slakter (1968). Opvallend is, dat in een land als de V.S. waar op jaarbasis zo'n 80 procent van de
schoolgaande jeugd met een of meerdere toetsen wordt geconfronteerd, nauwelijks aandacht
wordt besteed aan de professionalisering van leerkrachten op toetsgebied (Woelner, 1979: zie
ook Janssens, 1983b).
Verschillenden hebben geanalyseerd aan welke kennis en vaardigheden het leerkrachten
doorgaans ontbreekt om succesvol van toetsen gebruik te maken. Boyd et al. (1975) stelden vast
dat leerkrachten onvoldoende kennis hebben van regels rond het afnemen van normgerichte
toetsen. Zij constateren ook dat leerkrachten vaardigheden missen om toetsresultaten te
verwerken en deze normgericht te interpreteren.
Ook Ebel (1967) constateerde dat leerkrachten weinig toetstheoretische kennis hebben, toen
hij onderzocht op welke wijze leerkrachten door henzelf ontwikkelde toetsen gebruiken.
Leerkrachten leggen te veel nadruk op informele evaluaties en nemen doorgaans toetsen te laat
af, zodat integratie met de instructie niet (meer) tot stand kan komen. Veel door leerkrachten
opgestelde toetsen stemmen niet overeen met de kennis en vaardigheden van leeriingen op een
bepaald vakgebied. Bovendien signaleerde Ebel triviale en ambigue opgaven, gebrek aan kennis
van factoren die de kwaliteit van schriftelijke evaluatie-instrumenten bedreigen en een gebrek-
kige kwaliteitscontrole op de ontwikkelde instrumenten. Leiter (1974) constateerde eveneens
dat de kwaliteit van door leerkrachten opgestelde toetsen te wensen overiaat en dat de gebrek-
kige achtergrondkennis waarover leerkrachten doorgaans beschikken, zal leiden tot onbet-
rouwbare instrumenten.
Rudman et al. (1980) stelden op basis van literatuuronderzoek een lijst met onderwijsmeet-
kundige kennis en vaardigheden op, die tot de standaarduitrusting van iedere leerkracht dient te
behoren. Naar hun mening dient een (aanstaande) leerkracht het volgende te kennen en kunnen:
- weten dat onderwijskundige beshssingen gebaseerd moeten zijn op relevante gegevens;
- weten welke gegevens op welke wijzen verzameld moeten worden, hoe deze gegevens
geselecteerd en gewogen dienen te worden en hoe ze te verspreiden onder collega's;
- kennis hebben van verschillende evaluatieve databronnen, zoals ouders, collega's, deskun-
digen, archiefmateriaal en de huidige leeromgeving.
- kennis van dataverzamelingstechnieken, zoals observatie- en vraagtechnieken;
- kennis hebben van datakarakteristieken, zoals relevantie, vahditeit, betrouwbaarheid, con-
sistentie en meetfout;
Frans J. G. Janssens 15
kennis hebben van de interactie tussen datakarakteristieken en verzamelingsprocessen:
kunnen selecteren en/of ontwikkelen van evaluatie-instrumenten afgestemd op het doel;
kunnen gebruiken van data in beslissingsprocessen, zoals data wegen, data transformeren
naar een schaal en standaardscores interpreteren (percentielen. Deciel- en C-schalen, stan-
daardmeetfout, gemiddelden).
- weten dat diagnostiseren geen zin heeft tenzij differentiële didactische maatregelen (kunnen)
worden getroffen.
kunnen terugkoppelen van informatie op leerlingen, ouders, specialisten en dergelijke en
weten welke informatie op iedere doelgroep teruggekoppeld moet worden.
Het trainen van leerkrachten op het gebied van evalueren en toetsgebruik in het bijzonder is
zmvol. In verschillende hierboven aangehaalde studies is een positief verband geconstateerd
tussen kennis en vaardigheden van leerkrachten en succesvol toetsgebruik. Dat training van
leerkrachten op dit gebied ook effect kan hebben toont ons de studie van Hastings, Runkel en
Damrin (1961). Zij beschrijven een onderzoek waarin de attitudes jegens en percepties van
toetsgebruik veranderd kunnen worden als gevolg van training.
Studies naar toetsgebruik geven alle aanleiding tot het opzetten van opleidings- en bege-
leidingsactiviteiten op het gebied van evalueren door leerkrachten. Dergelijke activiteiten
moeten niet alleen gericht zijn op het gebruik van evaluatie-instrumenten, waaronder toetsen,
maar ook op de integratie van evalueren met de instructie. Verschillende auteurs hebben erop
gewezen dat om succesvol te kunnen evalueren ook het beslissingsgedrag van leerkrachten
(Shavelson en Stern, 1981; Calderhead, 1983) en het ontwerpen van onderwijs een belangrijk
praktisch punt is (vgl. Janssens, 1983a; Rutherford, 1979 en Tillema, 1983). Naast scholing op
het gebied van evalueren c.q. de onderwijsmeetkunde zijn ook kennis en vaardigheden op het
gebied van de structuur respectievelijk het sequenteren van leerstofmhouden van groot belang
voor het afstemmen van onderwijs op de behoeftes van leerlingen.
Attitudes, percepties en opvattingen van leerkrachten
oetsgebruik wordt, volgens verschillende auteurs, eveneens in hoge mate bepaald door attitu-
des, opvattingen en percepties van leerkrachten. Stetz en Beek (1978; 1979) deden onderzoek
naar de attitudes van Amerikaanse leerkrachten (N = 3300). De resultaten van de studies van
tetz en Beek laten zien dat 55 procent van de leerkrachten een neutrale positie inneemt ten
opzichte van toetsen en dat 37 procent geïnteresseerd is in toetsresultaten. Te verwachten was
dat een gebrek aan interesse gedeeltelijk te verklaren zou zijn uit gevoelens van leerkrachten
over de bruikbaarheid van toetsen. Echter, ruim 80% van de respondenten reageert neutraal tot
positief op de bruikbaarheid.
Een overwegend neutrale houding ten opzichte van toetsen blijkt ook uit de studies van
Wesdorp e.a. (1979) en die van Choppin (1982) en Dorr-Bremme (1982). Steun voor de geringe
'nvloed van toetsen op de onderwijspraktijk en de neutrale houding van leerkrachten komt ook
mt de zogenaamde Ierse studies, waarin de effecten zijn nagegaan van normgerichte schoolvor-
eringentoetsen op de onderwijspraktijk en op de percepties en verwachtingen van leerkrachten
(Kellaghan, Madaus en Airasian, 1981). Dit onderzoek is uniek omdat in een zeker opzicht van
een gecontroleerd experiment gesproken kan worden. Ierland was tot het begin van de zeven-
tigerjaren een 'toetsvrij' land (in dit verband ligt een vergelijking met Nederland voorde hand).
nderzoekers waren in Ierland in de gelegenheid de invloed van normgerichte toetsen vast te
stellen in vergelijking tot controlegroepen die van toetsen verstoken bleven. Een dergelijke
vergelijking is bijvoorbeeld in de V.S. onmogelijk.
In de Ierse studies onderzocht men gedurende vier jaar een steekproef van 270 scholen (2500
eerkrachten; 40.000 leerlingen). Men onderscheidde drie condities: (1) een experimentele
groep, waarin regelmatig toetsen werden afgenomen, waarvan de resultaten op leerkrachten
berden teruggekoppeld; (2) een controlegroep waarin wel toetsen afgenomen werden, maar die
16 Toetsgebruik in de onderwijspraktij k
geen Icennis van resultaten kreeg en (3) een 'toetsvrije' controlegroep. De beschikbaarheid van
toetsen veranderde weinig aan de oorspronkelijke gematigd positieve mening van leerkrachten
over normgerichte toetsen. Na vier jaar vonden leerkrachten die kennis hadden van toetsresul-
taten, dat toetsen een accurater beeld van de schoolvorderingen van hun leerlingen gaven, dan
leerkrachten die geen toetsen gebruikten of kennis hadden van toetsresultaten. Kellaghan c.s.
(1981) stelden vast dat de constructen die toetsen meten in hoge mate overeenstemmen met de
constructen die leerkrachten in hun eigen meer informele evaluaties trachten vast te stellen. Dit
kan tot gevolg hebben dat normgerichte toetsen betrekkelijk weinig nieuws toevoegen aan wat
leerkrachten al over het niveau van hun leerlingen weten.
Ondanks dat bepaalde groepen leerkrachten steeds gunstiger zijn gaan oordelen over toetsen,
zijn er geen significante verschillen geconstateerd in het gebruik van toetsinformatie voor het
nemen van didactische beslissingen. De beschikbaarheid van toetsinformatie veranderde bij-
voorbeeld niet de groeperingspraktijken van leerkrachten; er zijn daarin geen verschillen
gevonden tussen de drie condities. Voorts zijn er geen verschillen geconstateerd in de geperci-
pieerde relevantie van toetsen voor de onderwijspraktijk.
Ook binnen het project 'The social functions of testing' heeft men onderzoek gedaan naar de
attitudes en percepties van leerkrachten (Salmon-Cox, 1981). In dit onderzoek is via open
interviews en (klasse-)observaties het toetsgebruik van 35 leerkrachten op drie basisscholen
nagegaan. Ondanks verschillen tussen scholen qua onderwijssysteem, beleid, leerlingpopulatie,
status en team teachingkarakteristieken, zijn de overeenkomsten tussen leerkrachten opmerke-
lijk; leerkrachten vinden normgerichte toetsen betrekkelijk irrelevant. Alle leerkrachten rap-
porteren dat ze hoofdzakelijk van toetsen gebruik maken om hun eigen oordelen te verifiëren of
hun eigen informatie aan te vullen. Evenals in de Ierse studies (Kellaghan, Madaus en Airasian,
1981)bleekuitde gegevens van Salmon-Cox (1981), dat, wanneer er een conflict ontstaat tussen
het oordeel van de leerkracht en toetsscores, leerkrachten doorgaans de leerlingen het voordeel
van de twijfel geven (zie ook Wesdorp e.a., 1979). De accuraatheid van een toets is pas in het
geding wanneer de toetsscores lager uitvallen dan het oordeel of de verwachting van de
leerkracht. Daarentegen twijfelen leerkrachten aan hun eigen oordelen en verwachtingen
wanneer deze lager zijn dan een toetsscore.
Volgens Salmon-Cox (1981) wordt door leerkrachten in beperkte mate van toetsen gebruik
gemaakt, onder andere omdat ze niet aansluiten op de behoeftes van practici aan zogenaamde
breed-spectrum technieken. Dit zijn technieken waarmee een breed scala van zowel cognitieve
als affectieve gedragswijzen die belangrijk zijn voor het leren-op-school kunnen worden geëv-
alueerd.
Madaus (1981) probeert een verband te leggen tussen de Amerikaanse en de Ierse studies. Ter
aanvulling van de conclusie van Salmon-Cox (1981) dat normgerichte toetsen irrelevant zijn
voor leerkrachten wegens het enge bereik van toetsen, stelt Madaus (1981): toetsen worden als
irrelevant ervaren, omdat ze constructen meten die ook deel uitmaken van de percepties van
leerkrachten. Wijken toetsprestaties af van de verwachtingen, dan vinden leerkrachten toetsen
'onnauwkeurig'. Stemmen de toetsprestaties overeen met hun percepties dan vinden ze toetsin-
formatie 'redundant'. De resultaten van de Ierse en Amerikaanse studies suggereren dat
normgerichte toetsen om twee redenen geen grote invloed hebben op de onderwijspraktijk. Ten
eerste: omdat leerkrachten hun eigen percepties ten minste even accuraat vinden en ten tweede:
omdat leerkrachten toetsen vooral nuttig vinden als bevestiging van hun eigen percepties.
m
4.3 School- en klasse-organisatie
Naast factoren als kennis, vaardigheden, opvattingen en dergelijke van leerkrachten op het
gebied van toetsgebruik krijgen onderzoekers steeds meer oog voor andere factoren die een rol
spelen in het functioneren van toetsen. Er zijn aanwijzingen dat met name de school- en
klasse-organisatie daarop van invloed is. Volgens verschillende onderzoekers bepaalt de
Frans J. G. Janssens 17
school- en klasse-organisatie in hoge mate enerzijds de noodzaak om (frequent) te evalueren en
anderzijds de mogelijkheden om - op basis van evaluaties - differentiële maatregelen uit te
voeren.
Aan de ene kant kan gesteld worden dat evalueren en het afnemen van toetsen opportuun is
wanneer er sprake is van een zekere vorm van gedifferentiëerd onderwijs (zie Rudman et al.,
1980 en Good, Biddle en Brophy, 1975). In een gedifferentieerde leeromgeving is het zinvol
■"egelmatig te evalueren omdat met een zekere regelmaat beslissingen moeten worden genomen
om leerhngen te (her)groeperen, te plaatsen en bovenal om het onderwijs af te stemmen op de
behoeftes van leerlingen. Janssens (1984) signaleerde dat de wijze waarop het onderwijs wordt
'ngericht van invloed is op het gebruik van toetsen. Leerkrachten die een rekenmethode
gebruiken volgens een individueel progressiesysteem treffen - na beoordeling "an schriftelijk
werk - meer differentiërende didactische maatregelen dan leerkrachten die klassikaal werken.
Aan de andere kant moet gesteld worden dat evalueren pas effectief is, wanneer leerkrachten
kunnen beschikken over voldoende middelen om differentiële maatregelen uit te voeren, zoals
bijvoorbeeld verrijkingsmateriaal.
Factoren die in dit verband een positief effect hebben op het functioneren van toetsen, zijn
(vgl. Yeh, 1980; Kennedy et al., 1982; Burry, 1982 en Kuhs et al., 1983):
de beschikbaarheid van hulpmiddelen en aanvullende oefen- en instructiematerialen die
leerlingen eventueel zelfstandig kunnen verwerken;
de beschikbaarheid van handelingsalternatieven, bijvoorbeeld in het kader van remedië-
ringsactiviteiten.
Uit de studie van Kuhs et al. (1983) blijkt dat de aanwezigheid van handelingsalternatieven en
middelen ertoe kan leiden dat criteriumgerichte toetsen overeenkomstig de bedoelingen worden
gebruikt. Het uitvoeren van didactische maatregelen wordt, zoals uit sommige studies bhjkt
(Kennedy et al., 1980; Yeh, 1980; Burry, 1982; zie ook Rutherford, 1979), bemoeilijkt door de
afwezigheid van middelen om te differentiëren. Wanneer deze middelen niet voorhanden zijn is
net voor de leerkracht overbodig de voortgang van het onderwijs tc volgen met oog op
(bij)sturing. De evaluatiegegevens die een leerkracht vanuit dit perspectief verzamelt kunnen
moeilijk ten nutte worden gemaakt.
Yeh (1978; 1980) ontdekte dat een aantal andere aspecten van de schooien klasse-organisatie
ook een positieve invloed heeft op het evaluatieklimaat op scholen en op het gebruik van
toetsen: de aanwezigheid van (1) ouderhulp en onderwijsassistentie, (2) vormen van stafdiffe-
rentiatie en (3) parallelklassen. Ouderhulp en onderwijsassistentie werken taakverlichtend
doordat de verwerking van toetsen en resultaten kan worden uitbesteed en/of doordat bepaalde
eerlingen in het kader van remediering naar derden verwezen kunnen worden (zie ook Kennedy
et al., 1982). Wanneer leerkrachten vanwege taakdifferentiatie of parallelklassen op elkaar zijn
aangewezen wordt een verhoogd aantal evaluatie-activiteiten gesignaleerd (Burry, 1982; Dorr-
i^remme, 1982). Er vindt in dergelijke situaties frequent overleg plaats over toetsafnames en het
Verwerken en interpreteren van toetsresultaten om het onderwijs zoveel mogehjk uniform te
laten verlopen.
Een laatste factor die van invloed is op het evaluatieklimaat op scholen is de rol van de
schoolleider. Op sommige scholen is de rol van de schoolleider van doorslaggevende betekenis
voor het evaluatiebeleid. De mate waarin deze functionaris waarde hecht aan interne en externe
"■apportages en aan de kwaliteitsbewaking van het onderwijs op school is mede bepalend voor
et aantal en soort toetsen dat wordt gebruikt alsmede het doel waartoe toetsresultaten worden
gebruikt (vgl. Dorr-Bremme, 1982 en Bickei et al., 1983).
De invloed van bovengenoemde contextfactoren is reeds lang opgemerkt in studies naar de
sociale of organisatiekwaliteiten van scholen en klassen (zie bijvoorbeeld Lortie, 1965), maar
Wordt sinds kort ook van belang geacht in het onderzoek naar het functioneren van toetsen.
Ook vanuit een andere hoek is gewezen op de - veelal beperkende - invloed van contextfacto-
-ocr page 22-18 Toetsgebruik in de onderwijspraktij k
ren op het evalueren door leerkrachten, namelijk in studies naar het denken van de leerkracht.
Shavelson en Stern (1981) geven, in hun overzicht van literatuur op dit onderzoeksgebied, een
model van het beoordelings- en beslissingsgedrag van leerkrachten. Factoren als institutionele
beperkingen en beschikbare handelingsalternatieven, zijn expliciet in dat model opgenomen.
Deze factoren worden geacht een rol te spelen in het beslissingsgedrag van leerkrachten, op het
gebied van het ontwerpen, voorbereiden en evalueren van onderwijs.
5 BESLUIT
Wat opvalt bij het samenstellen van dit literatuuroverzicht is dat er een aantal aspecten van
toetsgebruik is, waarover weinig of geen informatie is. Een belangrijk aspect is het gebruik van
vooral criteriumgerichte toetsen die gekoppeld zijn aan curricula. Om een evenwichtig beeld
van de invloed en het gebruik van toetsen te verkrijgen, wordt onderzoek naar het gebruik van
criteriumgerichte toetsen node gemist. Ook de rol van andere evaluatietechnieken dient in de
discussie te worden betrokken met name de relade tussen deze - vaak informele - technieken en
de instructie. Leerkrachten blijken meer vertrouwen te hebben in hun eigen evaluaties van en
oordelen over het instructieproces en de vorderingen van leerlingen, dan in informatie die
toetsen daarover geven. Over die evaluaties en oordelen is echter weinig bekend.
Een ander in het oog springend gegeven is de verschuiving in de aandacht van onderzoekers
van sociale determinanten van toetsgebruik naar meer onderwijskundige factoren. In de
hteratuur wordt de nadruk gelegd op de professionalisering en de attitudevorming van leer-
krachten. Maar ook de invloed van de school-, klasse-organisatie en instructievariabelen dienen
in ogenschouw te worden genomen om te kunnen vaststellen of, wanneer, waarom en hoe
leerkrachten toetsen gebruiken.
Aan het in dit artikel gehanteerde en in brede kringen geaccepteerde onderscheid tussen
normgerichte en criteriumgerichte toetsen kleven bezwaren. Het onderscheid is van technische
aard en verwijst niet noodzakelijkerwijs naar specifieke onderwijskundige functies van toetsen.
Het verdient aanbeveling toetsgebruik te koppelen aan de onderwijskundige functies van
toetsen en niet aan de wijze waarop toetsresultaten moeten worden geïnterpreteerd. Omdat veel
studies op het traditionele onderscheid en de daaraan toebedeelde gebruiksmogelijkheden zijn
gebaseerd, is dit onderscheid in onderhavig overzicht als referentiekader overgenomen.
Formuleren we tenslotte tegen de achtergrond van bovengenoemde beperkingen een conclu-
sie over het gebruik van toetsen door leerkrachten, dan kan het volgende worden gesteld. De
invloed van normgerichte toetsresultaten op de onderwijspraktijk wordt in verschillende stu-
dies 'gerirtg' genoemd, ondanks dat bijvoorbeeld in de V.S. normgerichte toetsen zeer frequent
worden afgenomen en ondanks dat het merendeel van de practici niet afwijzend reageert op
dergelijke toetsen. Vastgesteld is dat slechts een relatief klein deel van de gebruikers rapporteren
normgerichte toetsresultaten te gebruiken om het onderwijs in te richten. De meeste gebruikers
nemen alleen kennis van de resultaten om hun oordelen over hun leerhngen te controleren. In
grote lijnen stemt het beperkte feitehjk gebruik van normgerichte toetsinformatie overeen met
de mogehjkheden en beperkingen van dit type toets. Een beperkte groep leerkrachten gebruikt
de resultaten (ook) om leedingen te plaatsen, te groeperen, te beoordelen of om leerproblemen
op te sporen. Er zijn aanwijzingen dat gebruikers normgerichte toetsen (ook) gebruiken om de
instructie en verwerking af te stemmen op (individuele) leerlingen. In het algemeen zijn
dergehjke toetsen daarvoor minder of zelfs niet geschikt.
De oorzaak voor de geringe invloed van normgerichte toetsen moet volgens verschillende
onderzoekers worden gezocht in de door leerkrachten gepercipieerde irrelevantie van deze
toetsen, omdat ze doorgaans geen informatie toevoegen aan de kennis die leerkrachten op
andere wijzen óver hun leedingen hebben verzameld. Het gegeven dat normgerichte toetsen
nogal generale informatie verschaffen waaruit niet onmiddellijk aanwijzingen zijn af te leiden
Frans J. G. Janssens 19
voor de instructie, zal zeker bijdragen tot de betrekkelijk geringe bruikbaarheid van deze
toetsen.
Voor criteriumgerichte toetsen ligt de zaak voor een deel anders. Onderzoeksresultaten
Wijzen uit dat, in gevallen dat er toetsen zijn opgenomen in een curriculum, hiervan zeer
frequent gebruik wordt gemaakt. Het feitelijk gebruik is doorgaans in overeenstemming met het
bedoelde, namelijk: sturing en plaatsing van leerlingen in het onderwijsproces. Toetsen uit
curricula worden in mindere mate gebruikt voor resultaatbeoordelingen of relatieve vergelij-
kingen van leerlingen. De resultaten van studies naar criteriumgerichte toetsen uit curricula
tonen een hoopgevend beeld, maar het aantal onderzochte gevallen is erg beperkt. Bovendien is
vrijwel niets bekend over de kwaliteit van dergelijke instrumenten. Voorlopig kunnen slechts
Uiterst voorzichtige conclusies worden getrokken.
In studies naar het gebruik van criteriumgerichte toetsen die min of meer onafhankelijk zijn
van een bepaald curriculum constateren onderzoekers een lage gebruiksfrequentie en relatief
veel ontoelaatbare gebruiksvarianten, zoals reconstructies van toetsen en normgerichte wer-
kwijzen. Er is veel voor te zeggen dat criteriumgerichte toetsen pas succesvol kunnen worden
gebruikt, wanneer ze deel uitmaken van een curriculum, dat een gedifferentieerde opzet kent
(vgl. Good, Biddle en Brophy, 1975; Leithwood et al., 1976; Janssens en Van Deventer, 1983),
ofschoon daarmee beslist niet alle problemen zijn opgelost (zie Rutherford, 1979). Als oorzaken
voor de geringe invloed en bruikbaarheid van toetsen worden in de literatuur genoemd:
Toetsen geven geen veelzijdig beeld van de vorderingen van leerlingen. Node worden gemist:
evaluatie-instrumenten met veelzijdige opdrachttypen, responsvormen en instrumenten of
procedures voor het evalueren van bijvoorbeeld affectief gedrag (Salmon-Cox, 1981; Dorr-
Bremme, 1982 en Baker, 1981).
Toetsen, zeker normgerichte, missen de aansluiting op het gegeven onderwijs. Doorgaans is
de zogenaamde curriculumvaliditeit gering, dat wil zeggen de overeenstemming tussen de
toetsinhouden en de feitelijke instructie (zie bijvoorbeeld Freeman et al., 1983).
De constructvaliditeit van (normgerichte) toetsen stemt in hoge mate overeen met het beeld
dat leerkrachten hebben van de vorderingen van hun leerlingen, of anders gezegd: leerkrach-
ten 'meten' voor een groot deel hetzelfde als toetsen. Vandaar dat toetsen door leerkrachten
als betrekkelijk irrelevant worden ervaren (vgl. Kellaghan et al., 1981; zie ook Madaus,
1981).
Er is een discrepantie tussen de context waarin toetsen functioneren en het wenselijk geachte
gebruik van toetsen. Het gebruik van toetsen wordt als tijdrovend en taakverzwarend
ervaren (zie bijvoorbeeld Kremers, 1982 en Yeh, 1978). Het ontbreekt de leerkracht vaak
aan voldoende strategieën, middelen en materialen om leerlingen te remediëren (vgl.
Rutherford, 1979; Gil, 1980 en Tillema, 1983). De wijze waarop leerkrachten inde dagelijkse
praktijk beoordelen en beslissen strookt niet met de toetsrationale.
Leerkrachten hebben te weinig kennis en vaardigheden op het gebied van de onderwijsmeet-
kunde. Professionalisering heeft een positief effect op het gebruik van toetsen en op attitudes
van leerkrachten jegens toetsen (vgl. Hastings et al., 1961). De attitudes van leerkrachten
zijn een functie van kennis en vaardigheden op toetsgebied. Hoe meer ervaring met en
opleiding op het gebied van toetsen des te gunstiger oordelen leerkrachten over toetsen
(Goslin, 1965; Yeh, 1978 en Salmon-Cox, 1981).
e hierboven gesignaleerde tekorten en onvolkomenheden lijken oplosbaar. Toetsontwikke-
aars zouden meer aandacht kunnen besteden aan het ontwikkelen van veelzijdige technieken,
jnstrumenten en procedures voor het evalueren van 'alles' wat op school geleerd wordt,
oetsontwikkelaars - een wat vreemde aanduiding in dit verband - moeten zich meer gaan
czig houden met het ontwikkelen van procedures en instrumenten, waarmee leerkrachten op
®cn betrouwbare en valide manier zelf gegevens kunnen verzamelen en onderling kunnen
cgelijken. Dergelijke technieken gebruiken ze het meest en daar hebben ze meer vertrouwen
20 Toetsgebruik in de onderwijspraktij k
in. Ook het probleem van de geringe curriculumvaliditeit, dat eigenlijk meer de normgerichte
dan de criteriumgerichte toetsen geldt, is oplosbaar. Het verdient de voorkeur niet langer
onafhankelijk van vigerende of te implementeren curricula toetsen in het onderwijs te ver-
spreiden. Vooral criteriumgerichte toetsen zouden in nauwe relatie met een curriculum dienen
te worden ontwikkeld.
Ook het probleem van de professionalisering van leerkrachten is oplosbaar, bijvoorbeeld
door de ontwikkeling van pré- en in-servicetrainingen voor leerkrachten (en hun opleiders en
begeleiders). Uit verschillende studies blijkt dat er een positief verband is tussen het gebruik van
toetsen en kennis en vaardigheden van leerkrachten op dit gebied. Er zijn aanwijzingen dat
scholing in dit verband succesvol kan zijn (Hastings et al., 1961 en Rudman et al., 1982). Door
scholing kan eveneens worden bevorderd dat toetsen door leerkrachten niet langer als 'irrele-
vant' worden beschouwd, omdat ze geen extra informatie toevoegen aan hetgeen leerkrachten
op een andere wijze over leerlingen te weten zijn gekomen. Toetsen vervullen een functie in het
verzamelen van gegevens ten behoeve van beslissingsprocessen. Het is van belang dat een
leerkracht staat kan maken op die verzamelde gegevens. Daarin moet de relevantie van toetsen
worden gezocht. Tot op heden zijn toetsontwikkelaars en onderwijskundigen er nog niet in
geslaagd leerkrachten hiervan te overtuigen.
LITERATUUR
Angel, J.L. (1968). National, State, and other external testing programs. Review of Educational Research, 38,
1,85-91.
Baker, E.L. (1981). A Multi-disciplinary review of Criterion-referenced measurement. Los Angeles, AERA-
paper.
Barnette, J.J. en J.C. Thompson, 111, (1979). A descriptive assessment of the effect of evaluations on
instruction. Studies in Educational Evaluations, 5,77-86.
Beck, M.D. en P.P. Stetz (1979). Teachers opinions of standardized tests use and usefulness. San Francisco,
AERA-paper(ED 177202).
Bickel, W. (Ed.) (1983). Effective Schools. Educational Researcher, 12,4, Thema-nummer.
Boyd, J., B.H. McKenna, R.E. Stake en J. Yachinsky (1975). A study of testing practices in the Royal Oak
(Michigan) public schools. Royal Oak, Mich., Royal Oak City School District. (ED 117161).
Bruyne, H.C.D., de (1983). Evalueren in de klas, Amsterdam, Van Goor en Zn.
Burry, J. (1982). Who do we believe and what does it mean? New York, AERA-paper.
Calderhead, J. (1984). Teachers' decision-making, London. Holt, Rinehart and Winston.
Carduzzi-Bolchazy, M. (1978). A survey of the use of reading readiness tests. Reading Horizons, 18, 3,
209-212.
Choppin, B. (1982). How schools make use of test results. New York, AERA-papcr.
Cramer, S. en M. Slakter (1968) A scale to assess attitude toward aptitude testing. Measurement and
Evaluation in Guidance, 1,2,96-102.
David, J.L. (1979) Local use of Title I evaluations. San Francisco, AERA-paper.
Dorr-Brcmme, D. (1982). Assessing students; teachers' routine, practices and reasoning. New York, AERA-
paper.
Ebel, R.L. (1967). Improving the competence of teachers in educational measurement. In: J. Flynn and H.
Garber (Eds.), Assessing behavior: Readings in educational and psychological measurement. Rea-
ding, Mass., Addison- Wesley, 171-182.
Freeman, D., G. Bell, A. Porter, R. Floden, W. Smidten J. Swille(1983). The influence of different styles of
textbook use on instructional validity of standardized tests. East Lansing Mich., Institute for
Research on Teaching, Michigan State University.
Gil, D. (1980). The decision-making and diagnostic processes of classroom teachers. East Lansing, Mich.,
Institute for Research on Teaching, Michigan State University, Research series no. 71.
Gipps, C. en R. Wood (1981). Testing in schools: practices, purposes and beliefs. Paper presented at the
British Educational Research Association Annual Conference.
Frans J. G. Janssens 21
I
Good, T.L., B.J. Biddle en J.E. Brophy (1975). Teachers make a difference. New York, Holt, Rinehart and
Winston.
Goslin, D.A. (1967). Teachers and testing. New York, Russell Sage Foundation.
Gronlund, N.E. (1976). Measurement and evaluation in teaching. London, Collier MacMillan Int.
Hastings, J.T., P.J. Runkel en E.E. Damrin (1961) Effects on use of tests by teachers trained in a summer
institute. Urbana, University of Illinois, Bureau of Educational Research.
Howe, H. II. (1978). Tests and schooling. Two papers presented at The National Conference on Achieve-
ment Testing, Washington, D.C.
Janssens, F.J.G. (1982). Leerdoelgerichte toetsen in het basisonderwijs. Arnhem, Cito. Algemene Publikatie
nr. 27.
Janssens, F.J.G. (1983a). Eerste inventarisatie van gebruiksvariaties van rekentoetsen van het Cito. Arnhem.
Documentatiereeks nr. 107.
Janssens, F.J.G. (1983b). Profiel van een Noord Amerikaanse studiereis. Arnhem, Cito. Documentatiereeks
nr. 121.
Janssens, F.J.G. (1984). Relaties tussen evalueren en didactische maatregelen. Tilburg. ORD-paper.
Janssens, F.J.G. 0985). Functioneren van algemene niveautoetsen in het basisonderwijs. In: W.J. van der
Linden (red.), Moderne methoden van loetsconsiructie en -gebruik. Lisse, Swets & Zeitlinger, p.
94-103.
Janssens, F.J.G. en M.M. van Deventer (1983). Leerdoelgerichte rekentoetsen van het Cito; mogelijkheden
en beperkingen. Willem Bartjens. 2,2/3,82-92.
Kahn, A.,(1978) Remarks to the National Conference on Achievement Testing and Basic Skills. Washington,
D.C.
Kellaghan, T., G.F. Madaus en P.W. Airasian (1982). The effects of standardized testing. Den Haag,
Kluwer.
Kennedy, M.M., R. Aphng en W.F. Neumann (1980). The role of evaluation and test information in public
schools. Cambridge Mass., The Huron Institute.
Kirkland, M.C. (1971). The effects of tests on students and schools. Review of Educational Research, 41,
303-350.
Klem, S.P. (1970). Evaluating tests in terms of the information they provide. Evaluation Comment, 2,2,1 -6.
cremers, E.J.J. (1982). Gebruikers- en behoeftenonderzoek: project leerdoelgerichte toetsen. Arnhem, Cito,
Documentatiereeks nr. 68.
•^uhs, Th., A. Porter, R. Floden, D. Freeman, W. Schmidt en J. Swille (1983). Differences among teachers in
their use of curriculumembedded tests. East Lansing, Mich., Institute for Research on Teaching,
Michigan State University.
Lazar-Morrison, Ch. et al. (1980). A review of the literature on test use. Los Angeles, Cal., Center for the
. Study of Evaluation, University of California.
6'ter, K.C.W. (1974). Ad hoeing in the schools: A study of placement practices in two kindergartens. In:
A. V. Cicourel (Ed.), Language use and school performance. New York, Academic Press.
Leithwood, K.A. et al. 0976). Curriculum change at the system level; a four-year mathematics project.
Curriculum theory network, 5,3,219-245.
ortie, D.C. (1975). School teacher: a sociological study. Chicago, The University of Chicago Press.
Kenna, B. (1973). Task force and other reports. Interim report on the task force on testing. Washington,
D.C., National Education Association. (ED 151421).
^adaus, G.F. (1981). Reactions to the Pittsburgh papers. Phi Delta Kappan. 62,9,632-634.
•vichrens, W.A. en R.L. Ebel (1979). Some comments on criterion referenced and norm-referenced tests,
Measurement in Education, 10, I.
"ko, A.J. (1971). A model for criterion-referenced tests based on use. New York, AERA-paper. (ED
, 152797).
'jenik, S.F. (1979). Standardized achievement programs viewedfrom the perspective of a non-measurement
specialists. San Francisco, NCME-paper.
errone, V. (1977). The abuses of standardized testing. Bloomington, Ind. Phi Delta Kappan, Educational
p Foundation.
opham, W.J. (1979). Practical criterion-referenced measures for intra-state evaluation, ft/Mcafi'o/ia/ZVcA-
no/og>', 18,5,19-23.
W.J. (1981). Modern Educational Measurement, Englewood Cliffs, Prentice-Hall.
-ocr page 26-22 Toetsgebruik in de onderwijspraktij k
Resnick, L. en D. Resnick (1978). The social functions of educational testing: a proposal submitted to the
Carnegie Coorperation of New York, Pittsburgh.
Rudman, H.C., J.L. Kelly, D.S. Wanous, W.A. Mehrens, C.M. Clark en A. Porter (1922-1980). Integrating
assessment with instruction: a review. East Lancing, Institute for Research on Teaching, Michigan
State University, 1980. Research series nr. 75. (ED 206629).
Rudman, H.C. (1983). Using standardized test result to improve classroom instruction. Montreal, AERA-
paper.
Rutherford, W.L. (1979). Criterion-referenced programs: the missing element. Journal of curriculum studies.
11,1,47-52.
Salmon-Cox, L. (1981). Teachers and standardized achievement tests: what's really happening?PA/Df/W
Kappan. 62,9,631-634.
Shavelson, R.J. en P. Stern (1981). Research on teachers pedagogical thoughts, judgments, decisions, and
behavior. Review of Educational Research, 4,455-498.
Shulman, L.S. (1980). Test design: a viewfrom practice. In: E.L. Baker en B.S. QueWmatz, Educational testing
and evaluation; design, analysis and policy. Beverly Hills, Sage Publications.
Stetz, P.P. (1978). Providing relevant test data for decision-making purposes. Elementary SchoolJournal,
78,3,220-225.
Stetz, P.P. en M.D. Beck (1978). A summary of opinions concerning users of educational test. Toronto,
NCME-paper. (ED 160663).
Stetz, P.P. en M.D. Beck (1979). Comments from the classroom: teachers and students opinions of achieve-
ment tests. San Francisco, NCME-paper.
Tillema, H.H. (1983). Leerkrachten als ontwerpers Utrecht, (Diss.).
Thio, K.D. (1983). Vijftien jaar Cito, vijftien jaar 'Wiel Solberg'. In: W.C. Weeda e.a.,Examens in discussie;
een bundel opstellen voor J. W. Solberg. Groningen, Wolters-Noordhoff.
Traxler, A.E. (1953). Introduction to testing and the use of test results in public schools. Westport, Conn.,
Greenwood Press.
Tomic, W. en C. Weesie (1982). Survey-onderzoek naar onderwijspraktijken van wiskundeleraren. Tilburg,
ORD-paper.
Wesdorp, H. (red.) (1979). Studietoetsen en hun effecten op het onderwijs. Den Haag, Staatsuitgeverij,
SVO-reeks nr. 15.
Woelner, E.H. (1979). Requirements for certification for elementary schools, secondary schools and junior
colleges. Chicago, The University of Chicago Press.
Wolok, R.S. (1972). Let's use tests for teaching: standardized test results can provide the basis for a program
of instruction. Teacher, 90,2,62-64 en 179-181.
Yeh, J.P. (1978). Test use in schools. Los Angeles, Cal., Center for the Study of Evaluation, University of
California.
Yeh, J.P. (1^80). A reanalysis of test use data. Los Angeles, Center for the Study of Evaluation, University of
California. (ED 205590).
Manuscript ontvangen 26-7-1984
Deflnitieve versie ontvangen 13-11-1985
-ocr page 27-Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 23-293.
Kategorisering van statistiekproblemen door
beginners en experts
Pieter H. Been en Frank B. Brokken
Rijksuniversiteit Groningen
abstract
For a considerable number of freshmen applied statistics is an obstacle, especially in the social
sciences. Although few research has been done about solving applied statistical problems, a careful
analysis of comparable problems in physics which have already been the subject of research shows
that the way to solve both types of problems might be comparable. If so, mainly the choice of the
correct statistical test will be difficult for novices. Experts, however, will almost perfectly agree in
deciding which statistical test is appropriate for a presented problem. A sorting experiment reveals
that this is the case indeed. In order to determine the proportion of variance of the expertor novice
categorization given the data the coefficient tau (Goodman & Kruskal) is proposed. Teaching
procedural knowledge (i.e., knowledge to choose the right algorithm), is worth considering in
applied statistics and probably also in other domains of problem solving.
Toegepaste statistiek is in veel eerste- en tweedejaars programma's in het W. O. een struikelblok
voor studenten, met name binnen de sociale wetenschappen (vgl. Beetsma, Broeks en Joostens,
Binnen de toegepaste statistiek, die in die programma's wordt gedoceerd, is de toetsende
statistiek een belangrijk onderdeel. Problemen die studenten na het volgen van onderwijs in de
oetsende statistiek geacht worden te kunnen oplossen worden op tentamens meestal aange-
oden in de vorm van gegevens verweven in een verhaaltje dat wordt afgesloten met de
opdracht: 'Toets de hypothese dat---'. Belangrijke voorwaarden voor het kunnen oplossen
van zo'n probleem zijn het kiezen van de juiste statistische toets en het foutloos kunnen
Uitvoeren van het bijbehorende rekenwerk.
ten kontrastieve analyse van probleemoplossend gedrag van ervaren docenten statistiek en
clatief onervaren probleemoplossers, zoals eerstejaars studenten die recent een kursus statis-
lek hebben gevolgd, kan opheldering verschaffen over de specifieke moeilijkheden die begin-
ners hebben met het maken van statistiekopgaven. Het gedrag van experts en gevonden
ontrasten tussen expert- en beginnelingsgedrag kunnen vervolgens worden gebruikt voor
onderwijskonstruktie (vgl. Resnick, 1976; Resnick & Ford, 1981). Mettes en Pilot (1980) en
nderen hebben op het gebied van de thermodynamica laten zien dat, ten opzichte van
■"aditioneel onderwijs, met onderwijs dat op deze wijze is gekonstrueerd een verbetering kan
borden bereikt.
Hoewel probleemoplossend gedrag - los van het op te lossen inhoudelijk probleem - wordt
gekenmerkt door enkele algemene principes (vgl. Newell & Simon, 1972), is men over het
gemeen van mening dat probleemoplossend gedrag vakspecifiek is of zelfs specifiek voor
^eelgebieden binnen dat vak (Crombag, 1979; Greeno, 1980). Dit betekent dat - aangezien er
geen relevant onderzoek op het gebied van het oplossen van statistische problemen bekend
~ in eerste instantie niet kan worden voortgebouwd op eerder verricht onderzoek. Door de
eurs wordt verondersteld dat de aanpak van experts bij het oplossen van problemen uit de
etsende statistiek een opmerkelijke overeenkomst vertoont met de aanpak die door experts bij
Adressen: Pieter Been, Cowog, hoogbouw W.S.N., R.U. Groningen, postbus 900, Groningen; Frank B.
"■okken, vakgroep Interdisciplinaire Onderwijskunde, R.U. Groningen, Westerhaven 16, Groningen.
24 Kategorisering van statistielcproblemen
het oplossen van natuurkundeproblemen wordt gevolgd. Wanneer deze overeenkomst inder-
daad bestaat ligt het voor de hand om bij onderzoek naar het oplossen van problemen uit de
toetsende statistiek aan te sluiten bij onderzoek naar het oplossen van natuurkundeproblemen,
waarnaar relatief veel onderzoek is gedaan.
| ||||||||||||||||||||||||||||||
Figuur 1 Probleemtransformaties van een expert bij het oplossen van opgaven uit de toetsende statistiek |
Enige ondersteuning voor de juistheid van de hierboven genoemde veronderstelling werd wel
gevonden: uit de analyse van Protokollen van een expert die hardop denkend problemen uit de
toetsende statistiek oploste en uit de analyse van de door de expert gemaakte aantekeningen
komt de volgende aanpak naar voren: Sleutelwoorden in een verbaal aangeboden probleem
worden getransformeerd in vakinhoudelijke koncepten en ingevuld in een stereotiep schema,
dat grote overeenkomst vertoont met de schets van een opzet voor variantieanalyse. Op grond
van het ingevulde stereotiepe schema wordt vervolgens de juiste statistische toets gekozen
waarmee het probleem kan worden opgelost. Zowel het proces van transformatie van sleutel-
woorden in vakinhoudelijke koncepten als het proces van de keuze van de statistische toets kan
in de vorm van produktieregels eenduidig uit de Protokollen worden afgeleid. Onafhankelijke
beoordelaars stemmen in hoge mate overeen bij de identifikatie van produktieregels in de vorm
van zogenaamde 'als-dan' uitspraken (Brokken en Been, 1984). Deze expertaanpak is nog eens
systematisch weergegeven in figuur 2. Bij experts die natuurkundige problemen oplossen
worden overeenkomstige probleemtransformaties waargenomen (Verg. figuur 2 (Larkin, 1980;
Larkin, McDermott, Simon en Simon, 1980). Eerst wordt een naïeve schets van het verbaal
aangeboden probleem gemaakt (vgl. Luger, 1981). Daarna volgt een schets met bijbehorende
concepten, die stereotiep is voor de theoretische benadering waarmee het probleem kan worden
opgelost, zoals vanuit de principes van de dynamica. Op grond van de stereotiepe schets wordt
beslist of de gekozen theoretische benadering voldoet.^Zo niet dan wordt een andere benadering
geprobeerd. Is een bevredigende theoretische aanpak gevonden dan worden de in de stereotiepe
schets vervatte theoretische concepten in de bijbehorende algebrafïsche vergelijkingen gesubsti-
tueerd, waarna het probleem snel kan worden opgelost.
Kenmerkend voor onervaren probleemoplossers is daarentegen dat zij onmiddellijk de in een
verhaaltje aangeboden waarden in een hen plausibel schijnende vergelijking invullen. Het
maken van een stereotiepe schets, bij uitstek het middel van de expert om te toetsen of de juiste
benadering is gevonden, en de transformatie in vakinhoudelijke koncepten wordt overgeslagen.
Men zou dan ook vermoeden dat beginners juist bij opgaven waarbij de probleemaanpak niet
onmiddellijk door de opgave wordt gesuggereerd fouten zullen maken. Chi, Feltovich & Glaser
(1981) vonden inderdaad dat beginners bij de keuze van een oplossingsmethode voor een
natuurkundeprobleem vooral letten op uiterlijke kenmerken. Zij vroegen aan beginners en
Pieter H. Been en Frank B. Brokken 25
| |||||||||||||||||||||
expert route |
-----y beginners route
Figuur 2 Probleemtransformaties door experts en beginners
aan experts een aantal aangeboden verbale problemen in te delen in groepjes problemen, die
men op dezelfde wijze zou oplossen. Middels clusteranalyse kon worden vastgesteld dat
beginners problemen vooral groeperen aan de hand van uiterlijke kenmerken van een pro-
bleem, terwijl de kenmerken waarop werd gelet van individu tot mdividu verschilden. Experts
daaremegen verdelen problemen in groepjes die volgens hetzelfde principe kunnen worden
opgelost en de experts stemmen bij die indeling in hoge mate overeen.
Bij de experts is de overeenkomst tussen de aanpak van problemen uit de natuurkunde en de
aanpak van problemen uit de toetsende statistiek treffend. In beide gevallen wordt een verbaal
aangeboden probleem vertaald in een stereotiepe schets met bijbehorende vakinhoudelijke
koncepten. Bij opgaveri uit de toetsende statistiek wordt het maken van een naïeve schets
achterwege gelaten waarschijnlijk omdat dezelfde stereotiepe schets m de vorm van een
variantieanalyse opzet voor alle problemen van toepassing is. Het maken van een naïeve scheU,
wellicht van nut om de juiste stereotiepe schets te kunnen kiezen, wordt in zo'n geval overbodig.
Tenslotte gaat men zowel bij de oplossing van natuurkunde problemen als bij de oplossing van
problemen uit de toetsende statistiek over naar een algebraïsche representatie.
Stel dat de hier gegeven vergelijking in aanpak tussen natuurkunde- en statistiekprob emen
tot een juiste premisse heeft geleid, namelijk dat de resultaten van onderzoek naar het oplossen
van natuurkundeopgaven generaliseerbaar zijn naar het gebied van de eenvoudige toetsende
statistiek. In dat geval zou de keuze van het juiste principe (konkreet: De juiste toets) op het
gebied van de toetsende statistiek moeilijkheden voor beginners op moeten leveren Zoals
gesteld in de inleidende opmerkingen, is de keuze van het juiste principe een van de twee
voorwaarden om statistiekopgaven op te kunnen lossen. In hoeverre beginners, m tegenstelling
tot experts, zich bij eenvoudige statistiekopgaven in de keuze van een oplossingsprmcipe laten
leiden door de uiterlijke kenmerken van een opgave zal worden onderzocht. Verwacht wordt
dat experts vrijwel unaniem zullen zijn in hun keuze van het oplossingsprmcipe Beginners
daarentegen kenmerken zich in hun keuze waarschijnlijk door ideosynkrasie: De kenmerken
van een opgave waarop wordt gelet verschillen van individu tot individu (verg. Chi e.a., (mi).
Om de mate te bepalen waarin de groepering van opgaven door een beoordelaar overeenkomt
"^et de in dit onderzoek gehanteerde expert-kategorisering der opgaven kan geen gebruik
"'orden gemaakt van een index als Cohen's kappa. Immers, het zal niet altijd duidelijk zijn
welke opgaven die door een beoordelaar zijn samengevoegd overeenkomen met een bepaalde
«pen- of beginnerskategorie. Evenzo is de bepaling van een eventuele associatie tussen de
'"deling die door een proefpersoon wordt gegenereerd enerzijds en de expert- of beginnerskate-
eorisering anderzijds voor dit onderzoek weinig zinvol. De chi^ en de ervan afgeleide Cramers V
26 Kategorisering van statistielcproblemen
(Cramèr, 1946) zijn moeilijk anders te interpreteren dan als toetsingsgrootheden waarmee kan
worden nagegaan of (maar nauwelijks in welke mate) de variabelen van een kruistabel geasso-
cieerd zijn. Een voor dit onderzoek geschikte maat is de grootheid tau(r/c) (Bishop, Fienberg en
Holland, 1978, p. 389 ff.), die kan worden beschouwd als het analogon voor nominale data van
de proportie verklaarde variantie. In dit onderzoek wordt tau(r/c) geïnterpreteerd als de mate
waarin de frekwenties in de rijen van de kruistabel uit de frekwenties in de kolomkategorieën
kunnen worden voorspeld. Wanneer de rijkategorieën de expert-indeling representeren en de
kolomkategorieën de feitelijke door een proefpersoon uitgevoerde sortering der opgaven, dan
geeft tau(r/c) de mate waarin de proefpersoon als expert kan worden beschouwd.
METHODE
Op systematische wijze zijn 48 eenvoudige statistiekopgaven geformuleerd, waarin telkens een
kenmerk werd verwerkt waarop experts worden geacht te letten en een kenmerk waardoor
beginners zich mogelijk laten misleiden. De kenmerken waarop experts waarschijnlijk letten
bestaan uit de volgende vijf kategorieën:
I. Opgaven die kunnen worden opgelost met een t-toets voor onafhankelijke steekproeven.
II. Opgaven die kunnen worden opgelost met een t-toets voor afhankelijke steekproeven.
III. Opgaven die betrekking hebben op de korrelatie tussen twee variabelen.
IV. Opgaven waarbij de varianties van skores bij twee onafhankelijke steekproeven worden
vergeleken.
V. Opgaven waarbij de varianties van skores bij twee afhankehjke steekproeven worden
vergeleken.
De kenmerken waardoor beginners zich mogelijk laten misleiden bestaan uit de volgende vier
kategorieën
I. Opgaven waarbij één groep en één variabele worden genoemd.
II. Opgaven waarbij één groep en twee variabelen worden genoemd.
III. Opgaven waarbij twee groepen en één variabele worden genoemd.
IV. Opgaven waarbij twee groepen en twee variabelen worden genoemd.
De eerste drie expertkategorieën waren volledig gekruist met de beginners-kategorieën. De
vierde expertkategorie kwam niet voor in kombinade met de tweede beginnerskategorie, terwijl
de vijfde expertkategorie slechts in kombinade met de tweede beginnerskategorie voorkwam
(zie figuur 3). In elk van de 16 gerealiseerde kombinaties van expert- en beginnerskategorieën
werden drie opgaven gekonstrueerd die slechts qua inhoudelijke formulering verschil ver-
toonden. In bijlage I is voor elke gerealiseerde kombinatie van de expert- en beginnerskatego-
rieën een voorbeelditem vermeld.
De 48 opgaven werden in willekeurige volgorde gan de proefpersonen gepresenteerd. De
proefpersonen werd gevraagd de opgaven naar eigen inzicht te sorteren in stapeltjes opgaven die
op overeenkomstige wijze konden worden getoetst. De proefpersonen waren vrij in hun keuze
van het aantal stapeltjes. Nadat ze hun opdracht hadden uitgevoerd werd hen gevraagd aan te
geven wat de overeenkomst was tussen de opgaven die tot een stapeltje waren samengevoegd.
De instruktie die aan de ppn. werd gegeven is vermeld in bijlage II.
In dit onderzoek wordt tau(r/c) (Bishop, Fienberg en Holland, 1975) gehanteerd als de maat
voor overeenkomst tussen een feitelijke kategorisering van een proefpersoon (gepresenteerd als
de kolomkategorieën in een r x c tabel) en de hier gehanteerde expert- c.q. beginnerskategorise-
ring (gepresenteerd als de rijkategorieën in een r x c tabel). Overeenkomstig de door Bishop,
Fienberg en Holland (1975) gegeven interpretatie van tau(r/c) als maat voor verklaarde
(nominale) variantie (Gini, 1912) kan de proportie verklaarde expert-variantie, gegeven de
feitelijke door de proefpersoon gegenereerde indehng worden bepaald en kan de proportie
| ||||||||||||||||||||||||
figuur 3 Aantallen opgaven bij de kombinaties van expert- en beginnerskategorie'én |
verklaarde beginnersvariantie gegeven de feitelijke indeling worden bepaald. Voor elke proef-
persoon worden op deze wijze twee indices berekend: De index tau(e/d) voor de mate waarm de
pp. als expert kan worden beschouwd, en de index tau(b/d) voor de mate waann de pp. als
beginner kan worden beschouwd. • .
Wanneer de pp. die in de expert-groep ppn. hoort worut aangeo pp pp.
beginners-groep ppn. hoort wordt aangeduid als ppbeg, geeft tau(b/ppex) de mate waarm de
Categorisering van een expert-pp. de variantie van de beginnersklassifikatie verklaart. Analoog
kunnen tau(b/ppbeg), tau(e/ppex) en tau(e/ppbeg) worden gedefinieerd.
Onderzocht werd of personen die als experts in de statistiek konden worden aangemerkt de
opgaven anders kategoriseren dan beginners in de statistiek. Hiertoe werden de volgende
hypothesen getoetst:
H1: De gemiddelde tau(e/ppex) is hoger dan de gemiddelde tau(e/ppbeg).
Wanneer de indeling van de expert-ppn. echter meer overeenkomst vertoont met de gehan-
teerde expertklassifikatie dan met de veronderstelde beginnersklassifikatie moet tevens gelden:
H2; De gemiddelde tau(e/ppex) is hoger dan de gemiddelde tau(b/ppex).
Onder de veronderstelling dat de beginners meer overeenkomst vertonen met de gehanteerde
beginnersklassifikatie dan met de gehanteerde expertklassifikatie kan tevens worden getoetst:
H3: De gemiddelde tau(e/ppbeg) is lager dan de gemiddelde tau(b/ppbeg).
De hypothesen werden getoetst met behulp van de t-toets, welke toets robuust is tegen
(mogelijke) afwijkingen van normaliteit van de verdeUng der tau-waarden, en waarmee dc
gestelde hypotheses direkt kunnen worden getoetst.
De in dit onderzoek gehanteerde beginnerskategorisering is een mogelijke indeling die door
beginners wordt gehanteerd en lijkt in ieder geval minder dwingend te zijn dan de gehanteerde
expertkategorisering. Van experts wordt niet verwacht dat hun tau(b/ppex) hoog zal zijn
aangezien deze personen immers experts zijn. Echter, van beginners wordt sleets verwacht da
hun tau(e/ppbeg) erg laag zal zijn, aangezien deze personen geen experts zijn.De hypothese dat
de gemiddelde tau(b/ppbeg) hoger zou zijn dan de gemiddelde tau(e/ppex) kan op grond van
bovengenoemde overwegingen dan ook niet worden afgeleid.
28 Kategorisering van statistielcproblemen
Proefpersonen
De sortering der opgaven door experts werd verkregen van 6 medewerkers van de vakgroep
statistiek en meettheorie en de vakgroep persoonlijkheidspsychologie der R.U. Groningen. Alle
personen in de expertgroep hadden een uigebreide ervaring met de statistische methoden en
technieken uit de sociale wetenschappen. De sortering der opgaven door beginners werd
verkregen van 17 eerstejaars studenten in de pedagogiek der R.U. Groningen. De kennis van
deze studenten op het gebied van de statistiek bestreek op het moment van onderzoek de
beschrijvende statistiek en op zeer elementair nivo de toetsende statistiek. Verwacht werd dat
deze studenten over voldoende kennis beschikten om de opgaven begrijpend te kunnen lezen,
terwijl bovendien werd verwacht dat hun kennis niet van dien aard was dat ze in staat zouden
zijn de opgaven volgens de expert-kategorisering te sorteren. De proefpersonen werd gevraagd
de opgaven naar eigen inzicht te sorteren in stapeltjes opgaven die op overeenkomstige wijze
konden worden getoetst. De proefpersonen waren vrij in hun keuze van het aantal stapeltjes.
Nadat ze hun opdracht hadden uitgevoerd werd hen gevraagd aan te geven wat de overeen-
komst was tussen de opgaven die tot een stapeltje waren samengevoegd.
RESULTATEN
Hypothese 1. De gemiddelde tau(e/ppex) is hoger dan de gemiddelde tau(e/ppbeg). In tabel 1
staan de resultaten vermeld van de toetsing van hypothese 1. Uit deze toetsing blijkt dat de
expert-ppn. belangrijk beter in staat waren de 48 statistiekopgaven volgens de expertkategorise-
ring in te delen dan de beginners-ppn. De gemiddelde tau(e/ppex) bedraagt ruim .75, terwijl de
gemiddelde tau(e/ppbeg) bijna gelijk is aan .27.
Hypothese 2. De gemiddelde tau(e/ppex) is hoger dan de gemiddelde tau(b/ppex). In tabel 2
staan de resultaten vermeld van de toetsing van hypothese 2. Uit deze toetsing blijkt dat de
indeling van de 48 statistiekopgaven zoals aangebracht door de expert-ppn. duidelijk meer
overeenkomst vertoont met de verwachte expertkategorisering dan met de gehanteerde begin-
nerskategorisering. De gemiddelde tau(e/ppex) bedraagt (zie ook tabel 1) ruim .75, terwijl de
gemiddelde tau(b/ppex) bijna .45 is.
Hypothese, 3. De gemiddelde tau(e/ppbeg) is lager dan de gemiddelde tau(b/ppbeg). De
resultaten van de toetsing van deze hypothese staan vermeld in tabel 3. Uit deze toetsing blijkt
dat de indeling van de 48 statistiekopgaven door de beginners minder overeenkomst vertoont
met de gehanteerde expertkategorisering dan met de gehanteerde beginnerskategorisering. De
gemiddelde tau(e/ppbcg) bedraagt (zie ook tabel 1) bijna .27, terwijl de gemiddelde tau(b/pp-
beg) (zie ook tabel 2) bijna .54 is.
DISKUSSIE
De selektie van het juiste statistische principe om een in een verhaal verweven probleem op te
lossen blijkt voor beginners (in tegenstelling tot experts) een erg moeilijk taak te zijn. Deze
konklusie wordt niet alleen ondersteund doordat alle verschillen fussen gemiddelde tau-
waarden bij de toetsing van de hypotheses één tot en met drie groot waren en een kleine
overschrijdingskans hadden. Een inhoudelijke bestudering van de namen die door de ppn. aan
de door hen samengestelde groepjes opgaven hadden gegeven liet zien dat de ppn. in de
beginnersgroep - konform de in de inleiding geuite verwachting - zeer gevarieerde namen aan
hun groepjes gaven. In eerste instantie werd geprobeerd enige systematiek aan te brengen in de
| |||||||||||||||||||||||||||||||||||||||
°eginners= 17 |
"amen die de beginners aan hun kategorieën hadden gegeven, maar deze poging werd gestaakt
en bleek dat elke pp. een vrijwel unieke nomenklatuur hanteerde, die hooguit een vaag
foand leek te hebben met de in dit onderzoek gehanteerde beginnerskategorisering.
n tegenstelling tot de namen die de beginners aan hun groepjes gaven, vertoonden de namen
an de groepjes die door de experts waren gevormd wel onderlinge samenhang. Sommige
Perts hanteerden termen als 'variantie analyse voor onafhankelijke groepen' of'regressie
a yse', maar vrijwel steeds werd hierbij duidelijk gebruik gemaakt van een onderliggend
iistisch principe, welke principes niet werden gekonstateerd in de namen die de beginners aan
" groepjes gaven. Het lijkt erop, dat beginners duidelijk anders - en wel op een voor het
P ossen van de problemen nadelige wijze - tegen statistiekproblemen aankijken dan experts.
30 Kategorisering van statistielcproblemen
Daarmee lijkt een belangrijk struikelblok voor studenten gelokaliseerd te zijn waarmee in het
statistiekonderwijs rekening kan worden gehouden. Abbring (1983) en Ferguson-Hessler en de
Jong (1983) hebben recent soortgelijke verschijnselen vastgesteld bij respektievelijk schoolkin-
deren die breukrekensommen voorgelegd kregen en bij studenten die natuurkundeopgaveD
moesten oplossen. Niet zozeer het uitvoeren van een algoritme alswel de keuze van het juiste
algorhme blijkt problemen op te leveren. De kennis benodigd om het juiste algoritme te kunnen
kiezen, vaak omschreven als procedurele kennis, verdient in het onderwijs daarom meer
aandacht (Landa, 1970, 1976). Voor het statistiekonderwijs geldt dit des te meer, omdat het
uitvoeren van algoritmes in de beroepspraktijk aan rekenapparatuur wordt uitbesteed. Het
komt ons voor dat - gezien de beroepspraktijk - niet bij uhstek het kunnen uitrekenen van een
statistische toets van belang is, maar wel het kunnen kiezen van de juiste statistische toets. In
toekomstig onderzoek zal worden nagegaan wat de kenmerken zijn waar experts op letten bij de
keuze van een statistische toets. De resultaten van dergelijk onderzoek kunnen een belangrijke
ondersteuning zijn voor de konstruktie van onderwijs dat gericht is op het aanleren van
procedurele kennis.
LITERATUUR
Abbring, J.M. (1983). Oplossingsstrategieën bij vereenvoudigingstaken; traceerbaarheid en de invloed van
persoons- en taakvariabelen. Vakgroep interdisciplinaire onderwijskunde, RUG.
Beetsma, Y., Broeks, W.G., Joostens, Th.H. (1982). Persoonsgebonden en onderwijsgebonden faktoren ter
verklaring van het studieverloop van studenten, in: Vroeijenstein, A.L (red.). Het universitair
onderwijs: een veld van onderzoek. Harlingen, Flevodruk.
Brokken, F.B., Been, P.H. (1984). Produktieregels van experts bij het oplossen van problemen uit de
toetsende statistiek (in voorbereiding).
Bishop, Y.M.M., Fienberg, S.E., Holland, P.W. (1975). Discrete multivariate analysis, theory and practice.
Cambridge, MIT Press.
Chi, M.T.H., Feltovich, P.J., Glaser, R. (1981). Categorization and representation of physics problems by
experts and novices. Cognitive Science, 5,121-152.
Crombag, H.F.M. (1979). Pleidooi voor een vakspecifieke cognitieve psychologie, in: Rede als richtsnoer.
Bijdrage over methode van denken en werken in de gedragswetenschappen, aangeboden aan Prof.
Dr. A.D. de Groot. Den Haag, Mouton.
Ferguson-Hessler, M.G.M. en de Jong, T. (1983). Markante dwaalwegen bij het oplossen van E & M
problemen. Rapport nr. 32, T.H. Eindhoven, Onderafdeling WenM, Groep onderwijsresearch.
Afdeling der technische natuurkunde.
Goodman, L.A. and Kruskal, W.H. (1954). Measures of associations for cross-classifications. Journal of
Am. Stat. Ass., 49,732-764.
Goodman, L.A. and Kruskal, W.H. (1959). Measures of associations for cross-classifications, II, further
discussion and references. Journal of Am. Stat. Ass., 54, 123-163.
Gini, C. (1975). Variabilitä e mutabilitä, contributo alio studio delle distribuzioni; relazione statische. In:
Studi Economicoj Giuridici della R. Universitä äi Cagliari, 1912. Op. cit. in Bishop, Y.M.M.,
Fienberg, S.E., and Holland, P.W. Discrete multivariate Analysis, theory and practice. Cambridge,
MIT Press.
Greeno, J.G. (1980). Trends in the theory of knowledge for problem solving, in: Tuma, D.T. and Reif, F.
(ed.), Problem solving and education, issues in teaching and research. Hillsdale, N.J., Lawrence
Erlbaum.
Landa, L.N. (1970). Algoritmen en heuristieken in het onderwijs en het programmeren van denkaktiviteiten
van leerlingen. Pedagogische Studiën, 47,293-307.
Landa, L.N. (1976). Instructional regulation and control. Cybernetics, algorithmization and heuristics in
education. Englewood Cliffs (NJ): Ed. Techn. Publ.
Larkin, J.H. (1980). Teaching problem solving in physics, the psychological laboratory and the practical
classroom, in: Tuma, D.T. and Reif, F. (ed.), Problem solving and education, issues in leaching and
research. Hillsdale, N.J., Lawrence Erlbaum.
Pieter H. Been en Frank B. Brokken 31
I-^rkin, J.H., McDermott, J., Simon, D.P. and Simon, H.A. (1980). Models of competence in solving
, physics problems. Cognitive Science, 4,317-345.
8er, G.F. (1981). Mathematical model building in the solution of mechanics problems. Human protocols
and the MECHO trace. Cognitive Science, 5,55-77.
ettes, D.T.C.W. en Pilot, A. (1980). Over het leren oplossen van natuurwetenschappelijke problemen. CDO,
Np Twente, (diss).
j^^well, A. and Simon, H.A. (1972). Human problem solving. Englewood Cliffs, Prentice Hall.
®snick, L.B. (1976). Task analysis in instructional design, some cases from mathematics, in Klahr, D. (ed.).
Cognition and instruction. New York, Wiley.
I^anuscript ontvangen 16-12-1984
yimtieve versie ontvangen 16-10-1985
Bijlage 1
Opgaven toetsende statistiek
beginner opgave
I Voor de aanstaande lerarenvergadering heeft de leraar klassieke
talen een aantal vragen over de cijfers Grieks van zijn leerlingen. Een
van zijn vragen is of de cijfers in de zesde klas in het algemeen hoger
zijn dan wat hij zou kunnen verwachten op grond van de cijfers van
de leerlingen in de vijfde klas.
II In verband met een vraag van de inspekteur heeft de lerares klassieke
talen een probleembetreffende de cijfers van haar leerlingen op
Grieks en op Latijn. Zij denkt dat haar leerlingen in de vijfde klas en
in de zesde klas gemiddeld even goed in Grieks waren/zijn als in
Latijn, maar zij weet zelf niet hoe zij dat kan nagaan.
III Op school houden leerlingen zich bezig met een projekt over ver-
schillen in prestaties bij jongens en bij meisjes. De leerlingen vragen
aan de leraar klassieke talen informatie over de cijfers voor Latijn
van de jongens en van de meisjes. Zij vragen hem namelijk of de
jongens dan wel de meisjes in de zesde klas een lager nivo op Latijn
hebben bereikt dan in de vijfde klas.
IV De studieadviseur vraagt zich af of de gemiddelde cijfers voor statis-
tiek en methodologie bij de docente hoger of lager zijn dan bij dc
docent.
I De onderwijzeres vraagt zich af of de taalcijfers van haar leerlingen
op het kerstrapport gemiddeld hoger zijn dan op het paasrapport.
II In verband met een vraag van de studieadviseur heeft de docente een
probleem betreffende de cijfers van de studenten op statistiek en
methodologie. Zij denkt dat de studenten op de tweede deeltoets voor
statistiek en methodologie gemiddeld even goed zijn als de parallel-
groep en zij wil weten hoe zij dat kan nagaan.
kategorie
expert
I
II
II
-ocr page 36-32 Kategorisering van statistielcproblemen
II III In verband met een onderzoek naar faktoren die de studieprestatie
beïnvloeden wordt de docent een vraag gesteld over de statistiekcij-
fers van de studenten en de studentes. Hem wordt namelijk gevraagd
of de studenten op de eerste deeltoets een lager nivo hebben bereikt
dan de studentes.
II IV De lerares klassieke talen is geïnteresseerd in zowel de cijfers voor
Grieks als voor Latijn van zowel de leerlingen als de leerlinges. Wat
zij wil weten is of de leerlingen in de zesde klas een overeenkomstig
nivo als de leerlinges hebben bereikt.
III I De onderwijzer vraagt zich af of de leerhngen die relatief goed dan
wel slecht zijn in taal op het kerstrapport dat ook nog zijn op het
paasrapport.
III II In verband met een vraag van de inspekteur heeft de onderwijzeres
een vraag betreffende de cijfers van haar leerlingen op rekenen en op
taal. Ze wil weten of de cijfers van haar leerlingen voor rekenen op het
paasrapport samenhangen met de cijfers op taal.
III III De docente vraagt zich af of de cijfers op de eerste deeltoets statistiek
en de tweede deeltoets statistiek bij de jongens meer aan elkaar zijn
gerelateerd dan bij de meisjes.
III IV De leraar klassieke talen denkt dat het cijfer op Grieks in de vijfde
klas kan worden gebruikt om het cijfer voor Latijn in de zesde klas te
voorspellen, en dat dat bij de jongens beter kan dan bij de meisjes.
IV I In het kader van het studentenoverleg heeft de docent een aantal
vragen over de cijfers van de studenten op methodologie. Een zo'n
vraag is of de cijfers op de tweede deeltoets in het algemeen een groter
onderhng verschil vertonen dan wat hij zou kunnen verwachten op
grond van de cijfers van de studenten van het afgelopen jaar.
IV III De onderwijzer houdt zich bezig met geslachtsspecifieke verschillen
in het onderwijs. Hij heeft dan ook een vraag over de rekencijfers van
de jongens en van de meisjes. Hij vraagt zich namelijk af of de cijfers
van de jongens met kerstmis meer van elkaar verschillen dan de
cijfers van de meisjes met kerstmis.
IV IV De lerares klassieke talen is geïnteresseerd in zowel de cijfers voor
Grieks als voor Latijn, bij zowel de leerlingen als de leerlinges. Wat
zij wil weten is of in de zesde klas de overeenkomst tussen de cijfers
van de leerlingen op Grieks en van de leerlinges op Latijn gelijk is.
V II In verband met een vraag van de inspekteur heeft de lerares klassieke
talen een probleem betreffende de cijfers van haar leerlingen op
Grieks en op Latijn. Zij denkt dat haar groep leerlingen in de zesde
klas voor Grieks even homogeen is als voor La^tijn, en ze vraagt zich
af hoe ze dat kan nagaan.
Pieter H. Been en Frank B. Brokken 33
Bijlage II
Proefpersonen instruktie
Stelt u zich de volgende situatie voor. Een onderwijzer bij het lager onderwijs, een leraar aan het gymnasium
en een docent aan de universiteit consulteren u als deskundige op het gebied van de statistiek. Zowel
onderwijzer als leraar hebben een aantal gegevens verzameld, die hieronder zijn weergegeven.
paasrapport
kerstrapport
cijfer rekenen cijfer taal |
cijfer rekenen 7 cijfer taal meisje A |
jongen X
jongen Y
jongen Z
cijfer Latijn
Tabel I: gegevens van de onderwijzer (Nmeisjes = Njongens - 15)
cijfer Grieks
eindrapport leerling A |
eindrapport |
leerlinge X
leerlinge Y
leerlinge Z
Tabel II: gegevens van de leraar (Nlcerlingen = Nleerlinges - 15)
cijfer deeltoets I Student A |
Studente X 7 6 3 l
StudemY 4 7 6 ö
Tabel UI: gegevens van de docent (Nstudenten = Nstudentes = 15)
Z°als u al is opgevallen is in de tabellen slechts een deel van de beschikbare gegevens
^•Jfers van jongLs (leerlingen, studenten) en meisjes (leerlinges, studentes) zijn ^
"et gaat erom dat u een i^ruk heeft van het type gegevens dat °"derw>jzer. leraar en docent verzameld
■'«^bben. Verder zij vermeld dat een collega van de docent hetzelfde onderwijs verzorgt voor een andere
34 Kategorisering van statistielcproblemen
groep studenten uit hetzelfde jaar. Hetzelfde geldt voor de onderwijzer en de leraar: ook bij hen zijn er
klassen in hetzelfde leerjaar die onderwijs van een collega krijgen.
Voorzover in de vragen van docente, onderwijzeres en lerares wordt gesproken worden deze personen
geacht over soortgelijke gegevens te beschikken als respektievelijk de docent, de onderwijzer en de leraar.
Het bijgaande stapeltje kaartjes bevat vragen die statistisch toetsbaar zijn. Uw opdracht is de vragen te
sorteren in stapeltjes vragen die u op soortgelijke wijze zou toetsen. Daarna wordt u verzocht per stapeltje
een korte omschrijving te geven van de toetsmethode die u zou gebruiken.
Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 35-295.
Sturing van het onderwijsleerproces door middel van
problemen: een veldexperiment^
R W. Tans^ H.G. Schmidt', B.E.J. Schade-Hoogeveen' en W.H. Gijselaers'
abstract
In a field experiment, learning effects of a physiology course for physiotherapists were investigated.
The aim of the study was to compare learning and achievement under a problem-based instructional
mode with effects of direct instruction. In the problem-based learning condition, small tutorial
groups analyzed problems, formulated learning goals and engaged in self-directed, independent
learning activities. The problems used were constructed on the basis of objectives that also provided
the framework for the direct instruction. Under the latter condition, students attended lectures and
studied subject-matter prescribed by the teacher. The direct-instruction group performed better
than the problem-based learning group on a multiple-choice test administered directly after the
course. Ten weeks later, however, performance on a free recall test of two randomly selected
samples showed the opposite result. Learning process data of the students under the problem-based
condition indicate that the poor results on the multiple-choice test can be explained by the
discrepancies between the learning goals on the one side and teaching objectives and test items on
the other side. Students in the problem-based condition studied subject-matter that, although in
Itself relevant, was not foreseen by the teacher and, as a consequence, not tested. This non-intended
learning comes into expression when students are asked to write down everything they remembered
about a subject. Attention is paid to the implications of these results for research on the effects of
'open' instructional methods.
idee dat het leerproces bevorderd zou kunnen worden als lerenden in staat zouden worden
gesteld jjyjj eigen leerdoelen te formuleren en na te streven, is niet bepaald nieuw. Zij wordt al
o"l h"'' gearticuleerd in het werk van de Amerikaanse psycholoog John Dewey (1910), en kan
°ok bij Piaget (1954) en Bruner (1959, 1961) worden teruggevonden. Deze auteurs verdedigen
die ^ vanuit een constructivistisch perspectief op leren. In hun visie probeert iemand
e iets leert, nieuwe informatie op actieve en herorganiserende wijze in te passen in al aanwezige
°gnitieve structuren. De uit deze activiteit resulterende representatie kan daarom niet zonder
jj complete en correcte afbeelding zijn van datgene wat ter lering werd voorgelegd, maar
1978^ een idiosyncratische constructie van het lerende individu (Rumelhart en Norman,
V Leren is in die opvatting het zelf ontdekken van structuur en regel in de werkelijkheid;
"n's kan niet echt worden 'overgedragen', maar moet actief verworven worden.
irecte instructie is dus volgens Dewey minder zinvol dan leerlingen in de gelegenheid stellen
confrontatie met aan hen voorgelegde problemen, zelfstandig leerdoelen te formuleren en
en actief te laten zoeken naar informatie die het beste bij hun voorkennis aansluit. Informatie
Adres: H.G. Schmidt, Capaciteitsgroep Onderwijsontwikkeling en Onderwijsresearch, Postbus 616,6200
'^U Maastricht
2 aan C. Salemans en B. Kerkhofs
,unwersiteit van Amsterdam
< 'J'^suniversiteit Limburg
•^ademie voor Fysiotherapie Leffelaar
-ocr page 40-36 Sturing van onderwijsleerproces door problemen
die hen door de onderwijzende wordt voorgeschoteld in een door hem gekozen vorm, volgorde
en moeilijkheidsgraad, kan nooit in dezelfde mate betekenisvol zijn als informatie die door de
leerhngen zelf gezocht is (Kersh, 1958).
In hoeverre worden deze noties met betrekking tot de vermeende superioriteit van leerling-
gecentreerde methoden door empirische gegevens ondersteund? Nauwelijks, moet worden
gezegd. Een aantal recente overzichten van onderzoek naar effecten van traditioneel versus
open onderwijs - in een enkel geval ongeveer 200 studies samenvattend - laten zien dat open
onderwijs in de meeste gevallen wel een positieve invloed uitoefent op attitudes van lerenden ten
opzichte van zichzelf, de leerstof en het onderwijs, maar dat van specifieke cognitieve effecten
geen sprake lijkt te zijn (Giaconia en Hedges, 1982; Horwitz, 1979; Marshall, 1981; Peterson,
1979). Peterson (1979), die een meta-analyse uitvoerde op een groot aantal onderzoekingen in
dit veld, toonde aan dat traditioneel onderwijs over het geheel genomen tot iets betere prestaties
leidt als het gaat om wiskunde en lezen, terwijl affectieve uitkomsten, zoals zelfconcept,
attitudes tegenover het onderwijs, nieuwsgierigheid en onafhankelijkheid, in open onderwijs
beter tot hun recht komen.
Moet op grond van deze data geconcludeerd worden dat de constructivistische opvattingen
van Dewey en anderen in de praktijk van het onderwijs onvoldoende empirische ondersteuning
vinden?
In deze bijdrage wordt de stelling verdedigd dat het debat over mogelijke cognitieve effecten van
activerende onderwijsmethoden nog verre van beslist is. Het feit dat in verschillende evaluatie-
studies nauwelijks prestatieverschillen tussen traditioneel en open onderwijs worden aange-
toond, zou namelijk het gevolg kunnen zijn van de wijze waarop in die onderzoekingen leerwin-
sten werden gemeten. Er zijn aanwijzingen dat bij de vaststelling van eventuele effecten van
traditioneel en open, discovery en non-discovery onderwijs, veelal gebruik gemaakt wordt van
toetsen die gebaseerd zijn op de leerstofdoelstellingen van het conventionele onderwijs. Wan-
neer leerlingen echter aangemoedigd worden hun eigen leerdoelen te verwoorden en na te
streven, is het niet ondenkbaar dat leereffecten optreden op terreinen die - hoewel op zichzelf
wellicht relevant - niet door de docent voorzien zijn. En datgene wat niet verwacht wordt,
wordt gewoonlijk ook met getoetst.
Een serieuze test van deze veronderstelling vereist de beschikbaarheid van een meetprocedure
waarmee aspecten van het leerproces op meer gedetailleerde wijze zichtbaar gemaakt worden
dan gebruikelijk en mogelijk is met data, ontleend aan een afsluitende toets. Met name is daarbij
behoefte aan een procedure waarmee in kaart gebracht kan worden in hoeverre door de docent
geformuleerde onderwijsdoelen, feitelijke leeractiviteiten van leerlingen, en leerproducten - in
de vorm van antwoorden op een afsluitende toets - elkaar dekken. Als de hierboven geformu-
leerde hypothese, dat in vormen van open onderwijs leerlingen leeractiviteiten ontplooien die
nóch door de docent verwacht, nóch met een toets gemeten worden, juist is, dan mag verwacht
worden dat onderwijsdoelen, leeractiviteiten en toetsitems elkaar slechts gedeeltelijk over-
lappen.
Een voor de hand liggende techniek waarmee dit dekkingsprobleem nader onderzocht kan
worden, is gebruik te maken van expert-beoordelaars, die uit zouden moeten maken óf, en in
hoeverre, leeractiviteiten overeenstemmen met onderwijsdoelen en de operationalisering daar-
van in toetsitems (Rovinelli en Hambleton, 1977; Porter, Schmidt, Floden en Freeman, 1978)-
Deze techniek is in het hieronder beschreven onderzoek gebruikt. Een nadeel van deze methode
is echter dat vaak weinig inzichtelijk is hoe experts tot hun oordeel komen, en dat de betrouw-
baarheid daarvan (in psychometrische zin) niet altijd even hoog is. Daarom zal daarnaast een
meer analytische techniek geïntroduceerd worden. Deze methode houdt in dat onderwijs-
doelen, bestudeerde leerstof (of voornemens daartoe), en toetsitems worden ontleed in micro-
proposities - of concepten - die vervolgens met elkaar vergeleken worden. Deze taak kan met
hoge interbeoordelaarsovereenstemming worden uitgevoerd, zonder van experts in het betref-
R.W. Tans et al. 37
fende leerstofdomein gebruik te hoeven maken (Schmidt en Tans, 1985).
" het veldexperiment, waarvan in deze bijdrage verslag gedaan wordt, werden effecten van
conventionele cursus over het onderwerp 'spieren', die onderdeel is van het curriculum van
een opleiding voor fysiotherapie, vergeleken met die van een 'probleemgestuurde' cursus over
at onderwerp, die op dezelfde onderwijsdoelen gebaseerd was. Beide programma's werden met
«zelfde meerkeuzetoets afgesloten. Onderwijsdoelen, leerdoelen (in de probleemgestuurde
nditie) en toetsitems werden vervolgens nader geanalyseerd, om de volgende vragen te
•runnen beantwoorden:
2 \v ^^^^^rre treden tussen beide condities verschillen op in leerresultaat?
2 ^aardoor kunnen die verschillen verklaard worden?
In hoeverre ontplooien leerlingen in de probleemgestuurde conditie leeractiviteiten die, in
^ het licht van de onderwijsdoelen, als niet-verwacht kunnen worden gekarakteriseerd?
Hoe relevant zijn deze niet-verwachte leeractiviteiten in het licht van het bestudeerde
onderwerp?
secundaire doelstelling van het onderzoek was de (predictieve) validiteit van de analytische
"Methode voor leesstofanalyse vast te stellen.
METHODE
Proefpersonen. , ...
Honderdtweeëntwintig eerstejaars studenten aan een instelling voor hoger beroepsonderwijs
(«cn academie voor fysiotherapie) namen deel aan het experiment. Zij werden per klas aselect
°ver de condities verdeeld. De samenstelling van de verschillende klassen - acht m totaal - was
«veneens aselect tot stand gekomen. Vijfenveertig studenten volgden klassikaal onderwijs m
^fie groepen. Deze conditie wordt verder de 'directe instructie' genoemd.
Zevenenzeventig studenten doorliepen de cursus 'spieren' op probleemgestuurde wijze, en
«'crden daartoe ingedeeld in tien kleine groepen. Alle groepen werden door één docent begeleid.
^ateriaal en procedure
nstructie van de cursussen. Aan een bekend handboek op het terrein van de fysiologie
h Bouman, 1976) werden door de docent 65 doelstellingen ontleend, betrekking
oend op de fysiologie van spieren. Deze doelstellingen vormden de basis waarop voor beide
sussen het onderwijs geconstrueerd werd.
nder de directe-instructie-conditie volgden de studenten gedurende zeven weken één maal
Ig Week gedurende twee uur een les over het onderwerp, bestudeerden als huiswerk opgegeven
^ erstof uit het handboek, en beantwoordden vragen over de stof die tijdens een volgende les
or de docent besproken werden,
ji "der de probleemgestuurde conditie analyseerden de studenten in kleine groepen, en in
de^ ^ «tijdsperiode, één maal per week één of meer problemen en formuleerden op basis van
Zelf^ een aantal leerdoelen. Deze leerdoelen werden vervolgens door middel van
j. . '^die nagestreefd. Daarbij kon gebruik gemaakt worden van een verzameling handboeken
de bibliotheek beschikbaar waren.
Vol ^ '"^^'''enien die in deze conditie als startpunt voor leeractiviteiten dienden, werden op de
bov wijze geconstrueerd: De onderwijsdoelstellingen werden gegroepeerd in een aantal
ygj^^"8eordende categorieën, zoals 'energiemetabolisme', 'excitatie' en 'circulatie'. Voor elk
g «^e categorieën werd een verschijnsel of verzameling verschijnselen uit de werkelijkheid
cat •' belang voor fysiotherapeuten in spé, dat als een concrete manifestatie van die
Sorie beschouwd kon worden. Het resulterende probleem tenslotte, bestond uit de beschrij-
38 Sturing van onderwijsleerproces door problemen
ving van dat verscbijnsel, geplaatst in een context waarvan kon worden aangenomen dat deze
door de studenten als betekenisvol herkend zou worden. In tabel 1 is deze constructiewijze aan
de hand van een voorbeeld uitgewerkt.
Op deze wijze werden 16 problemen geconstrueerd die met de geformuleerde doelstellingen
correspondeerden.
De studenten in de probleemgestuurde conditie beschikten niet over doelstellingen, noch
over verzamelbegrippen. Hen werden alleen de problemen voorgelegd met het verzoek ze te
'analyseren', dat wil zeggen: verklaringen te bedenken in termen van onderliggende processen,
mechanismen of principes. De leerlingen maakten' daarbij gebruik van een systematische
werkprocedure, die hen voorafgaande aan de cursus geleerd werd. Deze procedure helpt bij het
transformeren van een probleem in een verzameling leerdoelen die vervolgens door middel van
individuele studie nagestreefd worden. (Zie voor meer uitgebreide beschrijvingen Barrows.
1983; Barrows en Tamblyn, 1980; Schmidt en Bouhuijs, 1983; Schmidt en Dc Volder, 1984).
Het was de groepen toegestaan een keuze te maken uit de voorgelegde problemen.
De toets bestond uit 60 items, ieder met vier antwoordaltematieven, die verondersteld werden
de 65 doelstellingen volledig te dekken. De interne consistentie van deze toets was gelijk aan a
0,78 (berekend over de totale onderzoekspopulatie). Hij werd onmiddellijk na afloop van de
onderwijsperiode afgenomen.
Om een indruk te krijgen van de lange-termijn-effecten van het gegeven onderwijs werd tien
weken na de meerkeuzetoets een 'free-recall'-toets afgenomen bij een klein deel van de studen-
ten. Deze toets was bedoeld om kennis van een aantal centrale begrippen uit de cursus te meten
en bestond uit de volgende open vraag: "Schrijf alles op wat je weet van de begrippen: 1-
R.W. Tans et al. 39
spierkracht, 2. rusttonus, en 3. contractie". Hij werd afgenomen bij twaalf aselect gekozen
studenten: zes uit de experimentele, en zes uit de controleconditie. Deze studenten ontvingen
voor hun medewerking een kleine vergoeding. Ze kregen 20 minuten tijd om hun antwoord op
te schrijven. De op deze wijze verkregen teksten werden ontleed in proposities. Een propositie is
"leestal een onderwerp-gezegde combinatie die één bepaald idee uitdrukt. Van elk van deze
proposities werd vervolgens vastgesteld of hij inhoudelijk correct dan wel incorrect was. Per
proefpersoon werd tenslotte het totaal aantal correcte proposities berekend. De interbeoorde-
aarsovereenstemming voor deze procedure was gelijk aan 0,92.
Tenslotte werden alle leerdoelen verzameld die door de probleemgestuurde groepen geprodu-
ceerd werden. Deze leerdoelen werden beschouwd als indicatoren voor de feitelijke leeractivitei-
ten die onder deze conditie ontplooid werden. Nagegaan werd vervolgens in hoeverre de door de
ocent geformuleerde doelen - verderop steeds onderwijsdoelstellingen genoemd -, de leer-
oelen van de studenten in de probleemgestuurde conditie, en de toetsitems elkaar dekten. Deze
vergelijking vond op twee manieren plaats: met behulp van beoordelaars, en met behulp van een
tekstreductietechniek.
De beoordeling verliep als volgt: twee beoordelaars die goed thuis waren in het betreffende
eerstofgebied stelden onafhankelijk van elkaar vast welke van de onderwijsdoelstellingen door
Welke groepen als leerdoel genoemd werden. Op deze wijze kon per probleem en per groep een
Percentagescore berekend worden die de mate aangeeft waarin onderwijsdoelstellingen in
jj^erdoelen werden afgebeeld. De interbeoordelaarsovereenstemming voor deze procedure was
het vaststellen van de mate waarin leerdoelen en toetsitems elkaar dekten werd een enigszins
andere weg gevolgd. Voor elk van de items werd bepaald hoeveel van de probleemgestuurde
Sfoepen leerstof, waarover met dat item getoetst werd, bestudeerd zouden kunnen hebben,
Segeven hun leerdoelen. De interbeoordelaarsovereenstemming daarvoor was gelijk aan 0,70.
De tekstreductietecHniek, die voor de analyse van het leerproces werd gebruikt, is vergelijk-
baar met methoden die door Breuker (1980) en Dansereau en Holley (1982) zijn voorgesteld.
eze procedure heeft de volgende vorm: Zinnen kunnen getransformeerd worden tot lijsten van
concepten: werkwoorden, zelfstandige naamwoorden, bijvoegelijke naamwoorden. Een derge-
'Jke lijst kan vervolgens gereduceerd worden door alleen die concepten te accepteren die een
irecte relatie onderhouden met een bepaald van te voren gekozen thema of onderwerp.
. egrippen die dat niet in het bijzonder doen, of die gebruikt worden om de integriteit van zinnen
stand te houden, worden verwijderd. Op deze wijze kunnen niet alleen studieteksten geanaly-
seerd Worden, maar ook andere elementen van een onderwijsleerproces, zoals onderwijsdoel-
ellingen, leerdoelen en toetsitems. De onderwijsdoelstellingen, geformuleerd in het kader van
et onderwerp 'spieren', die afgedrukt zijn in tabel 1 kunnen bijvoorbeeld gereduceerd worden
de volgende lijst met zeven concepten:
^ontractie
kramp
doorbloed
bel;
mg
astmg
Caï+
ettergievoorraad
"Motorische zenuw
Op deze wijze werden zowel onderwijsdoelstellingen als leerdoelen en toetsitems gereduceerd,
^e drie resulterende verzamelingen concepten werden met elkaar vergeleken om na te gaan m
'Moeverre zij elkaar dekten. De interbeoordelaarsovereenstemming voor deze procedure was
Selijk aan 0,87.
-ocr page 44-40 Sturing van onderwijsleerproces door problemen
RESULTATEN
Leerproducten
Onder dit hoofd zullen de resultaten van de beide toetsingen gepresenteerd worden. Tabel 2
geeft de resultaten weer behaald door beide groepen op de 60-item meerkeuzetoets.
Tabel 2: Gemiddelde aantallen goede antwoorden (met standaarddeviaties) op de meerkeuze-
toets.
X |
SD |
N | |
Probleemgestuurde groep |
27,72 |
4,88 |
74 |
Controlegroep |
39,24 |
4,64 |
45 |
Totaal |
32,08 |
7,37 |
119 |
Op deze gegevens werd een variantieanalyse uitgevoerd. Het resultaat daarvan is F (1,117) =
162,16; p < 0,0001. Studenten die gedurende zes weken een serie lessen over het onderwerp
'spieren' gevolgd hebben, leveren dus een significant betere prestatie op de toets dan studenten
die in kleine groepen aan problemen met betrekking tot hetzelfde onderwerp gewerkt hebben.
In tabel 3 worden de resultaten weergegeven van de 'free-recall' toets die tien weken na
afsluiting van het onderwijs bij twaalf aselect gekozen proefpersonen werd afgenomen (één
persoon produceerde een onbruikbaar protocol).
Tabel 3: Gemiddelde aantallen correcte proposities (met standaarddeviaties), geproduceerd
tien weken na afloop van het onderwijs.
X |
SD |
N | |
Probleemgestuurde groep |
31,50 |
8,26 |
6 |
Controlegroep |
21,60 |
4,56 |
5 |
Totaal |
27,00 |
8,32 |
11 |
Beide gemiddelden verschillen eveneens significant van elkaar: F (1,9) = 5,66; p < 0,005, nu
echter in omgekeerde richting. De probleemgestuurde groep herinnert zich gemiddeld genomen
meer van de drie kernbegrippen waarnaar gevraagd werd, dan de groep studenten die aan de
directe-instructie-conditie heeft deelgenomen.
Leerprocesgegevens
Op basis van de procesgegevens, verzameld onder de probleemgestuurde conditie, werden
onderwijsdoelstellingen, leerdoelen en toetsitems met elkaar vergeleken. Doel was na te gaan in
welke mate deze drie elementen van het onderwijsleerproces met elkaar in overeenstemming
waren. Eerst zullen de resultaten van het onderzoek naar het verband tussen onderwijsdoelstel-
lingen en leerdoelen gepresenteerd worden: In hoeverre worden de eerste in de laatste gepresen-
teerd?
De studenten in de probleemgestuurde groepen produceerden in totaal 314 leerdoelen, dat is
gemiddeld 31,4 doelen per groep. Per probleem werden, rekening houdend met het feit dat
studenten een keuze konden maken uit het aanbod, 5,06 leerdoelen geformuleerd. Tussen de
groepen en tussen problemen bestonden aanzienlijke verschillen in aantallen geproduceerde
doelen.
R.W. Tans et al. 41
ln tabel 4 zijn percentages weergegeven die de mate aanduiden waarin naar het oordeel van de
deskundigen de leerdoelen van een groep de onderwijsdoelstellingen dekten die aan het betref-
'ende probleem ten grondslag lagen. Groep 1 bijvoorbeeld reproduceerde als leerdoel 66,7
procent van de onderwijsdoelstellingen op basis waarvan probleem 1 geconstrueerd was. Lege
cellen geven aan dat het desbetreffende probleem niet door de betreffende groep geanalyseerd
Tabel 4: Mate van overeenstemming tussen onderwijsdoelstellingen en leerdoelen volgens
beoordelingsmethode uitgedrukt in een percentage.
°R0EP 1 2 3 4 5 6 7 8 9 10
^RO^em
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
66,7 |
100 |
100 |
66,7 |
66,7 |
66,7 |
100 |
33,3 |
66,7 |
74,1 | |
50 |
100 |
75 | ||||||||
100 |
100 |
28,6 |
100 |
82,2 | ||||||
20 |
40 |
40 |
100 |
80 |
100 |
63,3 | ||||
33,3 |
33,3 |
33,3 | ||||||||
50 |
50 |
50 |
75 |
50 |
50 |
75 |
50 |
56,3 | ||
80 |
80 |
80 |
80 |
80 | ||||||
75 |
50 |
62,5 | ||||||||
100 |
100 |
100 |
100 | |||||||
100 |
50 |
50 |
50 |
50 |
50 |
58,3 | ||||
100 |
50 |
75 | ||||||||
66,7 |
66,7 | |||||||||
75 |
75 |
100 |
100 |
87,5 | ||||||
40 |
40 |
60 |
40 |
40 |
40 |
70 |
47,1 | |||
100 |
100 |
100 |
42 Sturing van onderwijsleerproces door problemen
Teneinde na te gaan in welke mate de zestig toetsitems door de leerdoelen gedekt werden,
bepaalden de beoordelaars voor elk van de items hoeveel groepen de leerstof die op dat item
betrekking had, bestudeerd zouden kunnen hebben (voorzover dat van hun leerintenties kon
worden afgeleid). Als alle groepen die stof bestudeerd hadden, was de dekking voor dat item
honderd procent. De op deze wijze berekende gemiddelde dekking per item is dan 20 procent,
dat wil zeggen dat gemiddeld genomen de leerstof betrekking hebbend op een bepaald item door
twee (van de tien) groepen zeker bestudeerd werd (standaarddeviatie is 15). De resultaten van de
tekstreductietechniek laten een gemiddelde dekking van 36,3 procent zien (met een standaard-
deviatie van 12,6).
Tenslotte werd nagegaan in hoeverre de leerdoelen die door de studenten geformuleerd
werden, als een valide indicator van hun werkelijke studieactiviteiten beschouwd konden
worden. Daartoe is een productmoment correlatiecoëfficiënt berekend tussen de frequentie
waarmee een leerdoel genoemd werd en de prestatie op het ermee corresponderende item*. Deze
correlatie kan beschouwd worden als de (predictieve) validiteit van de leerdoelen als indicator
van leeractiviteiten.
De correlatie tussen beide variabelen was gelijk aan 0,42, wanneer leerdoelen en items geanaly-
seerd worden met behulp van beoordelaars, en aan 0,44 wanneer dat gebeurt volgens de
tekstreductietechniek. In het licht van het feit dat het bij leerdoelen gaat om een afgeleide
variabele, zijn deze validiteiten als bevredigend te beschouwen.
DISCUSSIE
In de prelude tot deze bijdrage werd onderzoek geciteerd waaruit bleek dat voorzover ver-
schillen in het cognitieve domein konden worden aangetoond tussen conventioneel onderwijs
en open onderwijs, deze meestal ten nadele van de laatste variant uitvielen (Giaconia en Hedges,
1982; Horwitz, 1979; Marshall, 1981; Peterson, 1979). Daarbij moet echter wel aangetekend
worden dat die verschillen klein waren en vooral in het wiskunde- en leesonderwijs werden
aangetroffen.
In het hier gerapporteerde veldexperiment, waarin een probleemgestuurde cursus spierfysio-
logie werd vergeleken met een meer directe onderwijsaanpak, werden vergelijkbare resultaten
gevonden. Studenten die een serie lessen over het onderwerp volgden, gecombineerd met
huiswerk, leverden een niet onaanzienlijk betere prestatie op een meerkeuzetoets dan studenten
die problemen analyseerden en op grond daarvan zelfgekozen onderwerpen bestudeerden.
Merkwaardig was dat tien weken na afloop van het experiment een omgekeerd effect
gevonden werd in de "free recall'-protocollen van twee aselect gekozen steekproeven uit de
onderzoekspopulatie. De studenten uit de probleemge^stuurde groep wisten zich meer te herin-
De redenering daarbij is als volgt: Als leerdoelen een valide indicatie zijn voor feitelijke leeractiviteiten,
dan moet de frequentie waarmee ze genoemd worden, een indicator zijn voor de mate waarin leerstof
waarnaar ze verwijzen bestudeerd is. Dit laatste bepaalt de hoogte van de prestatie op de met die leerstof
corresponderende items.
Als maat voor de prestatie van de experimentele groep op een item werd nieLde p-waarde van dat item
genomen. Een lage p-waarde kan immers zowel beduiden dat het betreffende item door de experimen-
tele groep niet of nauwelijks bestudeerd is, als dat het wel bestudeerd is, maar te moeilijk was. Ecn betere
schatter van de'prestatie van de experimentele groep op een bepaald item is daarom de betreffende
p-waarde, gedeeld door de p-waarde van de controle-groep voor dat item: Pf/Pc. Een eenvoudig
voorbeeld kan dat verduidelijken: voor item 8 uit de toets was P^ = 0,18 en P^ 0,82. Voor item 29 was Pc
= 0,16, maar Pj = 0,13. Op grond hiervan kan geconcludeerd worden dat item 8 door de experimentele
groep niet of nauwelijks bestudeerd is terwijl item 29 te moeilijk was. De moeilijkheidsgraad van het
item wordt dus met behulp van dc ratio 'weggedeeld'.
R.W. Tans et al. 43
neren van drie onderwerpen die in de cursus een centrale rol gespeeld hadden, dan de represen-
tanten van de controlegroep.
Hoe zijn deze op het eerste gezicht toch strijdige uitkomsten met elkaar te rijmen? Als toeval
bU'ten beschouwing gelaten wordt, doen zich in eerste instantie twee mogelijke verklaringen
Voor. De eerste probeert de ongerijmdheid te verklaren uit de aard van de geheugentaken die
aan de betrokken proefpersonen werd voorgelegd; de tweede verklaring zoekt het in de aard van
de door hen verworven kennis.
Eerst enkele opmerkingen over de aard van de geheugentaken. Een "free recall'-opdracht,
een taak dus waarbij proefpersonen gevraagd wordt alles wat zij zich herinneren op te schrijven,
oet over het algemeen een groter beroep op de terughaalstrategieën ("retrieval strategies') die
personen beschikbaar hebben, dan een herkenningstaak zoals het zoeken van het juiste
antwoord-alternatief uit een aantal aangeboden alternatieven. Dat komt omdat bij een herinne-
■""igstaak geheugensteuntjes ('cues') ontbreken die reconstructie van het geleerde mogelijk
galeen, zoals dat bij een herkenningstaak in overvloedige mate het geval is. Een betere 'recall'
uidt dan ook meestal op een betere organisatie van de kennis in het geheugen. Een dergelijke
etere organisatie komt tot uitdrukking in meer verschillende 'retrievalpaden' (Anderson en
J^eder, 1979). In deze opvatting zou de probleemgestuurde groep minder kennis bezitten
^getuige het resultaat op de meerkeuzetoets); maar wat aan kennis aanwezig is, beter gestructu-
reerd hebben (hetgeen in de betere 'free recall' tot uitdrukking komt).
De tweede hypothese veronderstelt dat de meerkeuzetoets minder adequaat datgene meet wat
e probleemgestuurde groep geleerd heeft dan de 'recall'-taak. In die opvatting bestaan er niet
zozeer kwantitatieve als wel kwalitatieve verschillen tussen beide condities: de probleemge-
stuurde groep heeft niet zozeer 'minder' geleerd dan de groep die onder de directe-instructie
eonditie werkte, maar heeft zich deels met onderwerpen beziggehouden die door de docent niet
Voorzien waren. Op de meerkeuzetoets kunnen studenten in deze conditie slechts laten zien wat
ëeleerd is voorzover ddt overeenkomt met wat de docent verwachtte. Voor een recall taak geldt
eze beperking in minder sterke mate. Daar ligt het initiatief bij degene die schrijft. Alle kennis,
"M'ts correct en relevant, 'telt mee'.
Voor deze laatste hypothese werd in de leerprocesgegevens enige ondersteuning gevonden.
. nderwijsdoelstellingen, leerdoelen (als indicatoren voor feitelijke leeractiviteiten) en toets-
"ems bleken elkaar inhoudelijk maar in beperkte mate te dekken. Dat verschijnsel werd zowel
^^"^onstateerd door inhoudsdeskundige beoordelaars als met behulp van een tekstrcductietech-
In figuur 1 is de mate van overlap grafisch weergegeven. De data zijn ontleend aan de analyse
"jet behulp van de reductiemethode.
e figuur kan als volgt worden gelezen: In de eerste kolom staan alle concepten die in het
"Materiaal zijn teruggevonden. In kolom 2, 3 en 4 wordt aangegeven öf en in hoeverre het
^«treffende concept in respectievelijk doelstellingen, leerdoelen en items werd waargenomen,
e lengte van de balk geeft een indicatie van de frequentie waarmee dat concept voorkwam,
ege plekken duiden aan dat geen corresponderende concepten gevonden werden,
^'guur 2 illustreert de centrale these van deze bijdrage, namelijk dat lerenden in een open
"Context idiosyncratische leerdoelen formuleren die hen ertoe brengen zich met leeractiviteiten te
gageren waarop de docent niet verdacht is en die daarom niet getoetst worden. De figuur
ot daarmee een mogelijke verklaring voorde vanuit constructivistisch perspectief teleurstel-
de resultaten van onderzoek naar effecten van activerende onderwijsmethoden. Zij sugge-
'n H ^ uitkomsten inderdaad een functie zou kunnen zijn van de wijze waarop
^at onderzoek leerwinsten geoperationaliseerd en gemeten zijn.
De vraag kan nu gesteld worden hoe zinvol die niet-verwachte uitkomsten van het leren in een
obleemgestuurde context zijn in het licht van het onderwijs als geheel. Immers: als datgene
varaan onder die conditie deels gewerkt is, als niet ter zake doende 'Spielerei' gekarakteriseerd
44 Sturing van onderwijsleerproces door problemen
ondei'wijsdoelstel lingen leerdoelen
i tems
OONTRACriB
UUMP
DOORBLOroiNG
BELhSTlNG
DIERGIE
NOTORISCtlE ZB4UW
SPIER
TQIPERATUUB
TONOS
ATP
AFVALSTOFFEW
VISCOSITEIT
ÏLASTICITEIT
STIJFHEID
PIJN
KAACHT
RBCBOITMENT
MYOTEEDBACK
SYHPTOHE»
OKTSPANNING
FYSIOTHERAPIE
MOTORUHIT
SPIERVEZELS
ZDIUIIVEZELS
BEDLEGERIGHEID
COHOITIE
ADDIHALING
TRAINING
STOmiSSELING
HASSAGE
VERIANHING
BOTULINE-TOXINE
ACETYLCHOLI NESTERAS E
CURARE
REK
VET
DIEET
HERSTEL
RESP I RAT IE-QUOTI ENT
HARMING-UP
SPORT
U.K.G.
OEFENINGEN
ATROFIE
REFLEX
ARBEID
ACETYLCHOLINE
HELICZmjR
O- NOTORNEURON
GETRAINDHEID
CDTTRAAL ZEHUHSTELSEL
SPIERSPOEL
NYOSINE
ICOOLHYDRAAT
C02
O 1
000 3
O 1
OCD 3
ODO 3
OOO 3
O 1
O 1
O 1
002
00 2
OOO 3
COOOOOOO 8
01
Ol
Ol
000 3
01
01
01
OO 2
002
01
002
Ol
Ol
O 1
O 1
0 1
01
O 1
O 1
O 1
O 1
O 1
O 1
0 1
01
O 1
O 1
002
0 1
002
01
Ol
0000 4
00004
ODOO 4
COX} 4
om 3
O 1
Ol
O 1
00 2
Ol
01
002
00 2
000 3
0CQ04
O 1
OCO 3
O 1
O 1
O 1
(XO 3
ODO 3
00 2
00 2
O 1
O 1
O 1
0 1
01
Figuur I: Onderlinge dekking van onderwijsdoelstellingen, leerdoelen cn toets items.
moet worden, dan zou men langs een omweg alsnog lot de conclusie moeten komen dat deze
benadering inefficiënt leren bevordert.
Teneinde deze vraag voor het onderhavige materiaal te onderzoeken, werd de twee vakdes-
kundigen gevraagd de niet-verwachte leerdoelen onafhankelijk van elkaar op relevantie te
beoordelen. Criterium voor relevantie was de mate waarin vervulling van zo'n leerdoel een
bijdrage levert aan de theoretische en professionele ontwikkeling van de desbetreffende studen-
ten. Met andere woorden: hebben zij de verworven kennis in hun latere fysiotherapeutische
praktijk nodig? De interbeoordelaars overeenstemming voor deze taak was gelijk aan 67
procent. Verschil van mening werd door middel van discussie opgelost.
77 Procent van de niet-verwachte leerdoelen bleek in die zin als relevant of tamelijk relevant te
worden aangemerkt. Het ging daarbij in meerderheid om doelen die op een of andere wijze met
ziektebeelden of met fysiotherapeutische behandelingsmethoden in verband gebracht konden
worden. Een voorbeeld is: "Wat is decubitus?"
Geconstateerd kan dus worden dat een deel van de discrepanties tussen docent en studenten
-ocr page 49-R.W. Tans et al. 45
««»OOB
aJimsTOT
""stibkwe
"^"»TRMSMiTTn, 01
VOEDiiK
Ol
0 1
01
O 1
O 1
O 1
0 1
01
O 1
000 3
0000 4
O 1
000 3
"°W1NATIE O 1
aiELtlMG
"«WriciamE
Co,
Saude*
kapsels
spasme
bot
Wkombose
"8CR0SE
SP^ERSTERKING
^Wuchten
»'HDlTCErSEL
O 1
36
am» 6
»•Tsvoo-ra
»WOBILITEIT
^ieverlies 0O2
^«-MOVER
«CEEPSUw;
"»«nsE
yoga
J^xaf-IE
^r^^SCBE VDCBHOCIUICEL CD 2
01
002
OO 2
„^^^JJI^ASHATISCH BCTICULUM 0000 4
S*»COMEER
O 1
O 1
O 1
O 1
00 2
O 1
O 1
0 1
01
O 1
O 1
O 1
O 1
O 1
ixn^ix 0 1
S*«'SAT1E od 3
"oisror
""^IPOTEITTIAAI,
«^»OOGEEII
"J^^AAT
^EH«
•"OCUJBIHE
^^mCSEEIEH
aïCOLïSE
WELTT
Ol
ooj
01
002
Ol
0 1
01
O 1
C'^g te voeren is op de interesse die studenten aan de dag leggen voor praktische toepassingen
an fysiologisch-anatomische kennis. Bhjkbaar benutten de studenten de vrijheid die hen
Rhoden wordt voor een deel om een beter inzicht te verwerven in hun latere beroepspraktijk,
(j c^'en vanuit het perspectief waaruit studenten een bepaalde opleiding kiezen, is dat een
®g"jpelijke voorkeur, die echter in de onderwijsdoelstellingen van de onderzochte cursus
""Voldoende werd verdisconteerd.
REFERENTIES
" crson, J.R. en L.M. Reder (1979). An elaborative processing explanation of depth of processing. In;
L.S. Cermak en F.I.M. Craik (Eds.). Levels of processing in human memory. Hillsdale, N.J.:
Bar ^wrence Erlbaum.
ffows, H.S. (1983). Problem-based, self-directed learning. Journal of the American Medical Association,
g 250,3077.
rrows, H.S. en R.M. Tamblyn (1980). Problem-based learning. New York: Springer Publishing.
-ocr page 50-46
Bernards, J.A. en L.N. Bouman (1979). Fysiologie van de mens. Utrecht: Bohn, Scheltema en Holkema.
Breuker, .1. (1980). In kaart brengen van leerstof. Utrecht: Het Spectrum.
Bruner, J.S. (1959). Learning and thinking. Harvard Educational Review,29, 184-192.
Bruner, J.S. (1961). The act of discovery. Harvard Educational Review, 31,21-32.
Dansereau, D.F. en C.D. Holley (1982). Development and evaluation of a text mapping strategy. In:
Flammer en W. Kintsch (Eds.) Disccurse processing. Amsterdam: North-Holland Publishing.
Dewey, J. (1910). How we think. Boston: Heath & Co.
Giaconia, R.M. en L. V. Hedges (1982). Identifying features of effective open education. Review of Educatio-
nal Research,S2, 579-602.
Horwitz, R.A. (1979). Psychological effects of the 'open classroom'. Review of Educational Research, 49,
71-86.
Kersh, B.J. (1958). The adequacy of "meaning" as an explanation for superiority of learning by indepen-
dent discovery. Journal of Educational Psychology, 49,282-292.
Marshall, H.H. (1981). Open classrooms: has the term outlived its usefulness? Review of Educational
Research, 51, m-\92.
Peterson, P.L. (1979). Direct instruction reconsidered. In: Peterson en H.L. Walberg (Eds.). Research on
teaching. California: McCutchan.
Piaget, J. (1954). The construction of reality in the child. New York: Basic Books.
Porter, A.C., W.H. Schmidt, R.E. Floden en D.J. Freeman (1978). Impact on what?: the importance oj
content covered. East Lansing: The Institute for Research on Teaching.
Rovinelli, R.J. en R.K. Hambleton (1977). On the use of content specialists in the assessment of criterion-
referenced test item validity. Tijdschrift voor Onderwijsresearch, 2,49-60.
Rumelhart, D.E. en D.A. Norman (1978). Accretion, tuning and restructuring. In: J.W. Cotton en R-
Klatzky (Eds.). Semantic factors in cognition. Hillsdale: Lawrence Erlbaum.
Schmidt, H.G. en P.A.J. Bouhuijs (1983). Onderwijs in taakgerichte groepen. Utrecht: Het Spectrum.
Schmidt, H.G. en M.L. de Voider (Eds.) (1984). Tutorials in problem-based learning. Assen: Van Gorcum.
Schmidt, H.G. en R. Tans (1985). A simple method for the content analysis of subject-matter in educational
texts. Rijksuniversiteit Limburg.
Manuscript ontvangen 3-4-1985
Definitieve versie ontvangen 22-10-1985
-ocr page 51-Tijdschrift voor Onderwijsresearch 11 (1986), nr. 1, pp. 47-48.
^WKENDE EN ZWALKENDE CAES13REN
Dato N.M. de Gruijter
Bureau Onderzoek van Onderwijs, R.U. Leiden
'^^fes auteur: Boerhaavelaan 2, 2334 EN Leiden
een recent artikel schenkt Van der Linden (1984b) uitvoerig aandacht aan het feit dat
^Pinialc caesuren bij onbetrouwbare gegevens van het gemiddelde weglopen, een con-
RUentie van de regressie van ware-score schattingen. Hij doet dit onder de premisse dat de
eilijid^gjjjjg^ggj van afzonderlijke toetsen constant gehouden is. Zijn voorstel om een
P 'male caesuur per toetsgelegenheid vast te stellen, leidt er dan toe dat de caesuur bij laag
^ende groepen leerlingen in het algemeen hoger uitvalt dan de caesuur bij goede groepen.
^^ u kan er verschillend gedacht worden over de optimaliteit van caesuren. Onlangs werd
jg^M^over gediscussieerd in Applied Psychological Measurement (De Gruijter & Hambleton,
1984b; Van der Linden, 1984a). Eén van de discussiepunten is dat bij een optimale
suur gebaseerd op groepsgegevens, de geschatte ware-scorevcrdeling van de groep leer-
Ben als a priori informatie voor alle leerlingen wordt gehanteerd. Een student die toevallig
^ elneemt aan een tentamen met relatief veel slecht presterende herkansers, kan door de
"'terende hogere caesuur gedupeerd worden.
•j kleine groepen studenten en korte toetsen is het gebruik van optimale caesuren
aseerd op groepsgegevens extra riskant, en dat niet alleen omdat een paar afwijkende
j. "enten de plaatsing van de caesuur beïnvloeden. Bij kleine groepen en korte toetsen kan de
"ustheid van de optimale caesuur gering zijn. Dat kan gemakkelijk gedemonstreerd
j. "^den aan de hand van de schattingsformulc voor de optimale caesuur, gegeven een lineaire
Sressie van ware op geobserveerde scores en een lineaire vcriiesfunctie,
^'Marbij c^ de absolute norm is, c„ de optimale caesuur,^ het gemiddeld groepsresultaat cn r de
arde van KR-21. Zowel x als r zijn gevoelig voor toevallige meetfouten binnen de desbe-
effende groep leerlingen.
^ e Variatie in x en r voor vaste ware scores kan m.b.v. een simulatiestudie onderzocht
Vol daarbij uit van items met O-1 scores en het binominalc foutenmodel. De
^^gende verdeling van relatieve ware scores werd gekozen: tien hypothetische leerlingen met
zeven met :t=0,425 en n = 0,575, en drie met .t:=0,35 cn --t=0,65. Dc groepsgrootte
eeii dertig. Dertig keer werd voor deze verdeling een geobserveerde scoreverdeling op
'ro '^'""S'item toets gegenereerd. Er konden dus dertig gemiddelden en dertig be-
'Uwbaarheidsschattingen berekend worden. De gemiddelden liepen niet erg uiteen: van een
^^"'niumwaardc 9,2 tot een maximum gelijk aan 10,5. De betrouwbaarheidsschattingen
etueerden echter van negatief - in welk geval r op nul gesteld kan worden - tot 0,58.
j "Mn de hand van Figuur 3 van Van der Linden kan men zien welke enorme consequenties
^e fluctuaties op de waarde voor Cg kunnen hebben. In het geval dat de ware scores alle
48 Dato N.M. de Gruijter
vlakbij de norm c^ liggen kan de optimale caesuur tot O zakken (iedereen geslaagd) of tol
boven het aantal beschikbare items stijgen (iedereen gezakt).
LITERATUUR
De Gruijter, D.N.M. & Hambleton, R.K. (1984a). On problems encountered using decision theory to sd
cutoff scores. Applied Psychological Measurement, 8, 1-8.
De Gruijter, D.N.M. & Hambleton, R.K. (1984b). Reply to Van der Linden's 'thoughts on the use of
decision theory to set cutoff scores.' Applied Psychological Measurement, 8, 19-20.
Van der Linden, W.J. (1984a). Some thoughts on the use of decision theory to set cutoff scores: comme"'
on de Gruijter and Hambleton. Applied Psychological Measurement, 8, 9-17.
Van der Linden, W.J. (1984b). Over absolute en nog relatievere zak-slaag beslissingen. Tijdschrift voo'
Onderwijsresearch, 5, 243-252.
Manuscript ontvangen 10-10-1984
-ocr page 53-1"'jdschrift voor Onderwijsresearch 1(1986), nr. 1, pp. 49-50.
^äak Billiet, Geert Loosveldt en Lina Waterplas. Het survey-interview onderzocht. Effecten van het ontwerp
19 V®" vragenlijsten op de kwaliteit van de antwoorden. Sociologische Studies en Documenten nr.
• Katholieke Universiteit Leuven, Sociologisch Onderzoeksinstituut. 1984.465 B.F. (± fl. 27,-) inclusief
verzendkosten.
een periode van verguizing in de jaren 60 en 70, neemt de enquête-methode en met name het
^ ^ey-interview weer in populariteit toe. Dit is mede te danken aan de grote hoeveelheid empirisch
" erzoek, die tot kwaliteitsverbetering van deze dataverzamelingsmethode heeft geleid. In het hier
"esproken boek geeft Billiet samen met twee van zijn medewerkers een overzicht waarin getracht wordt de
se bevindingen met betrekking tot oorzaken van vertekening bij gebruik van het (gestandaardi-
' e) survey-interview samen te vatten en te plaatsen binnen een algemeen theoretisch kader,
sit bestaat uit twee delen. In het eerste deel staan het gedrag van de interviewer en de intervicw-
atie centraal; in het tweede deel wordt aandacht geschonken aan vragenlijstconstructie en de invloed van
^oording, vorm en context van dc vragen op de kwaliteit van de antwoorden,
int" 1 wordt een overzicht gegeven van empirisch onderzoek naar de gang van zaken tijdens een
(j eiview en mogelijke bronnen van vertekening in de antwoorden; daarnaast wordt ook een korte
chrijving gegeven van drie veelgebruikte methoden bij onderzoek van de interviewsituatie: actieanalyse,
^ erzoek naar interviewervariantie en accuraatheidsonderzoek. In het algemeen blijken interview(st)ers
^ Van de voorgeschreven interviewregels af te wijken wanneer respondenten geen of een inadequaat
a geven. Op dat moment kunnen vertekeningen in de antwoorden ontstaan, waarbij zowel
, 'ergrondkenmerken (b.v. sexe cn ras) als opinies en verwachtingen van de intervicw(st)crs een rol
Ij "nen spelen. In hoofdstuk 2 wordt getracht het onderzoek naar de interviewsituatie in een theoretisch
'e plaatsen. Achtereenvolgens wordt een aantal modellen uit de literatuur besproken; speciale
°acht Wordt geschonken aan het rolmodel van Sudman en Bradburn, het black-box model van Van der
jy "^en, en het model van Cannel, Miller en Oksenbcrg voor het interview als vraag-antwoordproces. De
eurs besluiten dit hoofdstuk met de pessimistische conclusie dat er van een uitgewerkt theoretisch kader
na^ sprake is. Hoofdstuk 3 tenslotte bevat ccn bespreking van voor de praktijk relevant onderzoek
bes"^ '^^a'heitsbevorderende interviewtechnieken. Hierbij wordt teruggegrepen op dc in hoofdstuk 2
^ sproken theoretische concepten. Elementaire interviewregels zoals het letterlijk stellen van een vraag
"en hier niet besproken. Wel wordt de invloed van goede instructie, feedback, het sluiten van overeen-
beh informed consent (weloverwogen en welingelichte toestemming), en interviewstijl
(j .^"^eld. Dc kwaliteit van een interview blijkt door een goede instructie cn het gebruik van feedback
di » verbeterd te kunnen worden, met betrekking tot interviewstijl zijn de resultaten echter tegenstrij-
aa H bespreking van de in dc V.S. bij interviews wettelijk verplichte informed consent, wordt tevens
uit / ht besteed aan de ethische kant van het onderzoek doen. Een dilemma blijft onderzoekers bespaard:
en j '''®ans) onderzoek naar informed consent blijkt dat er geen duidelijk effect is op de non-respons
de kwaliteit van de antwoorden.
Co " '*ecdc deel van het boek staan de vragen en de vragenlijst zelf centraal. In principe zijn de
lljlj "^'es en aanbevelingen uit dit gedeelte ook toepasbaar op dataverzamelingsmcthoden als de schrifte-
ech^ ^"luête en groeps- of klasgewijs afgenomen vragenlijsten; het geciteerde empirische onderzoek heeft
^ er voornamelijk betrekking op het face-to-face interview. Dc vorm cn de context van vragen kan op vele
lijn ßevarieerd worden en het aantal verschillende experimenten is dan ook groot. Om ccn duidelijke
" 'ri hun betoog te krijgen beginnen de schrijvers met in hoofdstuk 4 ccn korte beschrijving te geven van de
res I ""Verzochte thema's: vraagvorm, vraagvcrwoording, en vraagvolgorde. Vervolgens worden de
ee» va" onderzoek naar de invloed van vraagvcrwoording en vraagvorm gepresenteerd voor achter-
gj^°'8ens vragen naar feiten en gedrag (hoofdstuk 5) en attitudevragen (hoofdstuk 6). Er wordt op
ODt " soms aanzienlijke verschuivingen in de marginale verdelingen van dc antwoorden kunnen
Wo invloed van wijzigingen in vraagvorm en verwoording. Zo heeft het vervangen van het
teo 'verbieden' door 'toelaten' in de uitspraak 'Meent U dat de Verenigde Staten publieke toespraken
Vcr\v ^^ democratie moeten verbieden', een verschuiving van 20% tot gevolg. Over de invloed van
°ording en vorm op associatiematen, waarvan vaak aangenomen wordt dat deze gering is, kan
50 Boekbespreking
daarentegen door de beperkte hoeveelheid onderzoek geen duidelijke uitspraak worden gedaan. Hoofdstuk
7 behandelt het gebruik van antwoordcategorieën bij attitude- en specifieke opinievragen. Voor- en nadele"
van open en gesloten vragen wordt besproken en de gevolgen van het opnemen van een 'geen mening' filter-
een neutraal midden-alternatief en het veranderen van de categorievolgorde wordt behandeld. Met name
gedeelten waarin de invloed van een 'geen mening' filter of van een neutrale middencategorie op
marginale verdelingen beschreven wordt zijn door de opvallende resultaten en de duidelijke voorbeelden d'
moeite waard. Zo blijkt dat bij experimenten naar het al dan niet gebruiken van een 'geen mening'-categori'
bij opinievragen een toename van de'weet-niet'-antwoorden gevonden wordt tussen de 13% en 24%, en da'
bovendien verbanden tussen variabelen beïnvloed kunnen worden door het gebruik van een 'geen mening'
filter. De auteurs raden aan om een 'geen mening' filter of een neutrale midden categorie toe te voege"
wanneer men een 'geïnformeerde' opinie wil meten en belang stelt in de geen mening antwoorden; is he'
daarentegen de bedoeling een algemene dispositie te meten dan is een ongefilterde vraag aangewezen-
Hoofdstuk 7 blijft beperkt tot attitudevragen, op het gebruik van verschillende soorten antwoord'
categorieën bij vragen over feiten en gedrag wordt niet nader ingegaan. Binnen het klassieke (sociologische)
onderzoek naar het survey-interview is hier inderdaad weinig aandacht aan besteed. Binnen ander«
disciplines is er wel materiaal op dit gebied te vinden. Zo is er in de onderwijskunde veel onderzoek gedaaH
naar de verschillen tussen open en gesloten vragen en naar de invloed van antwoordcategorieën op
kennisvragen. In hoofdstuk 8 wordt in het algemeen de invloed van de volgorde en de context van vragen
besproken. Op de marginale antwoordverdelingen is deze invloed vaak groot, maar ook associaties tussen
variabelen kunnen veranderen; vooral de onmiddellijke context van de vraag is hierbij van belang. D«
auteurs stellen aan het slot van dit hoofdstuk dan ook dat het vergelijken van antwoordverdclingen van
dezelfde of soortgelijke vragen uit verschillende surveys op zijn minst problematisch is. Deel 2 word'
afgesloten met een hoofdstuk over de sterkte van attitudes. Hierin wordt benadrukt dat het meten van d'
richting van een attitude in vele gevallen niet voldoende is. Met name bij beleidsrelevant onderzoek is he'
sterk aan te raden om vragen naar de attitudesterkte toe tc voegen. Aan de hand van een aantal heldere
voorbeelden wordt het belang van sterktemetingen toegelicht.
Het boek is helder geschreven en de vele voorbeelden bevorderen het begrip. De afzonderlijke hoofd'
stukken zijn bijna alle zeer lezenswaardig. Het terrein wordt goed bestreken en vele begrippen worden
uitgebreid besproken. Het eerste deel van het boek is door de overzichtelijke presentatie en de theoretische
onderbouwing het sterkst. Als geheel mist het boek echter een heldere structuur en met name in het tweede
deel ontbreekt een duidelijke lijn. Het is dan ook jammer dat de schrijvers geen poging hebben gedaan om in
een derde deel de voorgaande stofte integreren. Een slotbeschouwing waarin de wederzijdse beïnvloeding
van interviewercffecten (deel 1) en vraagkenmerken (deel 2) besproken wordt en waarin nader op de
praktijksituatie van het interview wordt ingegaan, wordt node gemist. De korte samenvatting die in het
algemeen besluit gegeven wordt, is wat dit aangaat te beperkt. Hinderlijk is dat de schrijvers soms een term
introduceren (b.v. randomized response, blz. 117), en deze pas enige bladzijden later (blz. 121) uitleggen-
Bovendien ontbreekt een index, waardoor het opzoeken van begrippen en het gebruik van het boek als
naslagwerk bemoeilijkt wordt. Opvallend is dat bij persoonlijke voornaamwoorden en zelfstandige naam-
woorden consequent de mannelijke vorm gebruikt wordt. Slechts op één plaats (blz. 161) wordt hier van
afgeweken; het betreft daar dan ook een letterlijke vertaling uit het Amerikaans. Het voortdurend gebruiken
van de mannelijke vorm is niet alleen voor de vrouwelijke lezers irriterend, maar getuigt soms ook van
weinig realiteitszin; zo is bijvoorbeeld interviewen een bij uitstek vrouwelijke bezigheid.
Volgens het voorwoord richt het boek zich tot allen, die bij de organisatie van survey-onderzoek
betrokken zijn. Het is echter in de eerste plaats bedoeld en geschreven voor studenten sociologie. Deze
doelgroep lijkt me te beperkt; ook bij de (tweede fase) opleiding van psychologen, pedagogen en onderwijs-
kundigen kan dit boek een zinvolle rol spelen. Voor beleidsmedewerkers, projectleiders, leden van bege-
leidingscommissies en anderen, die regelmatig enquête-onderzoek moeten evalu'eren en onderzoeksresulta-
ten vergelijken, is het bijna voorgeschreven literatuur. Ondanks de kritiekpunten betreft het hier een goed
onderbouwd boek dat de aanschaf zeker waard is.
Edith D. de LeeuW
-ocr page 55-T'jdschrift voor Onderwijsresearch 11 (1986), nr. 1, p. 51-52.
'nlioud Pedagogische Studiën
•■»afgangez
^uli/augustus 1985
Z'nsuitbrciding. Een kwalitatieve voorstudie naar veranderingen in de relatie tussen eerstgeboren kind en
^Jn ouders, door M.H. van IJzendoorn en S. van Vliet-Visser.
djf van leeszwakke kinderen? Een clusteranalytisch onderzoek, door J. Vinke, P. Reitsma en A. van
'nteractie en instructie in het conservatie-experiment, door E. Eibers.
^«Ptember 1985
erentiatie-effectcn in de schoolpraktijk: een ATI-onderzoek in verlengde brugklassen, door J.G.L.
'%senen P. Span.
^'•-onderzoek en differentiatie: een reactie, door L.F.W. de Klerk.
Va "'"^^ditioneel ATI-onderzoek naar procesgericht 'Aptitude'-onderzoek. Een reactie op een ATI-studie
In," «n Span, door E. de Corte.
passé in het ATI-onderzoek: gevolg van een slecht voorbereide integratie?, door M. Boekaerts.
gj® Waarde van praktijkgericht onderzoek, door J.G.L. Thijssen en P. Span.
g ^ >n intelligentie-onderzoek bij allochtone kinderen. Commentaar op M.J. de Jong & Th.A. van
»ajenburg: 'Etnische herkomst, intelligentie en schoolkeuzeadvies', door G. Extra en L. Verhoeven.
de zin voor realiteit. Antwoord op G. Extra & L. Verhoeven: 'Bias intelligentie-onderzoek bij
ochtone kinderen', door M.J. de Jong en Th.A. van Batenburg.
Oktober 1985
Q^^^wijsleerklimaat en leerlingprestatics, door W. van de Grift.
5 . en leeftijdsverschillen bij het leren lezen en spellen. Een longitudinale studie, door B.W.G.M.
g^'ts, M.J.C. Mommers, C.A.J. Aarnoutse.
. onderzoek naar keuzeprocessen voor nieuwe methodes op de basisschool, door H.A.M. Franssen.
natte vingerwerk; kritiek op een kwalitatief onderzoek naar dc kinderlijke leefwereld (weerwoord),
"«■•K.Mulderijen H. Bleeker.
^"'vangen publikaties
Haenen, J.P.P. & Wolters, M.A. (Eds.). Educationfor cognitive development. Den Haag: SVO, 1985
(Selecta Reeks).
g°fnelissc, F.H. Inleiding tot de wetenschapsfdosofie. Deventer: Van Loghum Slaterus, 1985.
"^■■ts, H., Golhof, A., Stassen, P. & Teunissen, J. Trendstudie over hel onderzoek naar etnische groepen in
Imh onderwijs. Utrecht: VOU, 1985.
"off.E. van, Kuijper, H.A.M., Haen, M.M.C.M. & Ritzen, J.M.M. Het school-en beroepsloopbaanonder-
Jon ^oek KMBO-BBO. Lisse: Swets & Zeitlinger, 1985 (SVO-reeks nr. 84).
W. de & Masson, C.N. Leerprestaties en onderwijsproblemen van allochtone leerlingen: een onderzoek
op lagere scholen in een oude stadswijk. Rotterdam: Erasmus Universiteit, 1985 (Mededelingen van
het Juridisch Instituut van de Erasmus Universiteit Rotterdam, nr. 30).
"velaar, G., Vossen, P., Van de Perel, R., Havekes, F. & Stevens, F. Courseware nader bekeken.
Eindverslag van het SyO-project 1086. Utrecht: VOU, 1985.
'^el, R. & Wel, J. van: Veranderingen in de beroepspraktijk van vakmensen en gevolgen voor de beroeps-
Q^ opleidingen. Verslag van een onderzoek. Den Haag: SVO, 1985 (Selecta Reeks).
''^tcht Onderzoek Minderheden. Samengesteld door de Advies Commissie Onderzoek Minderheden
p (ACOM). Den Haag: Ministerie van Binnenlandse Zaken, 1985.
rs, A.M.P. Docenten en hun probleemsituaties: een onderzoek naar het voorkomen en de samenhang van
probleemsituaties uit de beroepsuitoefening van docenten in het algemeen voortgezet onderwijs.
Nijmegen, 1985 (dissertatie).
52 Mededelingen
Stoklcing, K.M. & Stoverinck, T. W.H.M. Onderwijs, informatie en organisatie. Eindrapport vooronderzoek
informatieverwerking verzorgingsinstellingen. Utreciit: VOU, 1985.
Thomassen, A.J.W.M., Galen, G.P. van & Klerk, L.F.W. de (Red.). Studies over de schrijfmotoriek. Lisse:
Swets & Zeitlinger, 1985.
Vedder, P.H. Cooperative Learning: a study on processes and effects of cooperation between primary schoC'
children. Den Haag, 1985 (Selecta Reeks).
Zwarts, M. & Veldhuijzen, N.H. Gemengde latente-trekmodellen. Arnhem: CITO, 1985. Specialistisck
Bulletin nr. 38.
Tijdschrift voor Onderwijsresearch, 11 (1986), nr 2, pp. 53-60.
On the Predictive Validity of a New Scoring procedure
for Time-Limit Intelligence Tests
Arnold L. van den Wollenberg D and Peter G. Cremers 2)
-abstract
The scoring procedure for time-limit intelligence tests introduced by van den Wollenberg is applied in a
predictive validation setting. Two tests of the PSB battery were used for this purpose; the criteria to be
predicted were scores on achievement tests for language, mathematics and information of children in
the sixth grade of Dutch primary school. The procedure is compared with traditional scoring by means
of the number of correctly answered items. It is concluded that in the present application the new
scoring procedure is definitely better in a predictive validity sense. It seems worthwhile to further
investigate the possibilities of the new scoring procedure for other tests as well.
1. INTRODUCTION
""aditionally, time-limit intelligence tests have been scored by means of the number of correctly
nswered items. Van der Ven (1969) argues that this score can be decomposed into two compo-
wt"'^' "umber of items completed, which he calls speed, and the proportion of items correct,
nich is called precision; by definition, the raw score is equal to the product of these two
opponents. In order for the precision score to be comparable over subjects working at different
peed, all items should be equally difficult. Van der Ven continues by stating that the two
mponents, which he called speed and precision, are different subject traits, which should be
sesscd separately. For some tests he reports speed and precision to be independent, transsitua-
constant factors.
.den Wollenberg (1979, 1983) showed that the approach of van der Ven is unnecesarily
^ strictive and empirically invalid. He introduced a scoring procedure consisting of two compo-
^ "ts, which could also be called speed and precision:
• defined as the number of items attempted, just as it is in the approach of van der Ven.
■■ecision is the Rasch subject parameter, which is obtained conditionally upon the number of
.J. completed items.
Ra^ of van den Wollenberg is less restrictive than the approach of Van der Ven: as the
en ."'odel allows subjects to be compared independently of the items used, the requirement of
inv ^ difficulty can be dropped. However, it should be tested empirically whether the scale is
tl,^""'ant under varying speed. This proved to be true for the five ISI-tests (Snijders et al., 1961),
Ra considered Rasch homogeneous (van den Wollenberg, 1979); the sixth test was not
homogeneous.
I ^"'verj//^ ofNijmegen. The Netherlands
antral Bureau of Statistics. The Netherlands
Th
Cj V'e^s in this report are solely the authors'; they need not necessarily reflect those of the Netherlands
.j.^^'ral Bureau of Statistics.
authors wish to thank Marcel Dijkgraaf for his competent contributions in the analyses,
^ijm"® address: Dr. Arnold L. van den Wollenberg, Department of Mathematical psychology. University of
■""egen, The Netherlands, Box 9104,6500 HE Nijmegen.
54 Predictive validity of time-limit tests
Applying his scoring procedure, van den Wollenberg (1985) argues that the speed and precision
traits were neither transituational constants nor independent traits, contrary to the claims of van
der Ven. The results of Van der Ven should rather be looked upon as statistical artefacts.
Van den Wollenberg (1985) argues that his two-component scoring procedure is theoretically
superior to the plain raw score, but that its practical value should be investigated in predictive
validity studies. The central question to be answered is whether the set of two scores, speed and
precision, does a better job in predicting external criteria than the single predictor 'raw score'. In
the present paper we will present some results with respect to this issue. The goal of the present
study is only to contrast two scoring procedures for time limit tests. The PSB subtests discussed in
this paper are .used in a large scale longitudinal study as predictors of school succes and thus are
relevant to our central question: can predictive validity be enhanced by using the scoring proce-
dure suggested by Van den Wollenberg. Any other test of this type would be equally relevant and
the eventual choice for the PSB subtests was guided by their availability: only the two subtests
reported here were used in the afore mentioned longitudinal study.
In section 2 the data are described, whereas is section 3 the statistical analyses and the results are
presented. In section 4 the results are discussed and some conclusions are offered.
2. THE DATA
The PSB-test
In the present study data were analyzed of a Dutch version of the PSB (Horn, 1969), a German
ability test. From this test two subtests, PSB-3 and PSB-8, were used, which were both of the
non-verbal type; only the instruction was translated into Dutch.
The PSB-3 was intended to measure the mental factor 'reasoning', whereas PSB-8 should appeal
to an
'abstraction' trait. A specimen of the tasks to be performed in both tests is given in figure 1.
]8fOOO O OO
I -f I -f I -I- I 1
□ □ODDDDD
o oQ o oO®Oo oQ o
s
psb-3
T U
A O
T H
L
A O
T U
L
A O
T U
A O
psb-8
Figure 1. Examples of the items in PSB-3 and PSB-8.
-ocr page 59-Arnold L. van den Wollenberg and Peter G. Gremers 55
In PSB-3 the subject was required to indicate which element did not belong in a given series, by
striking it; an answer could be corrected by making a cross of the strike and striking another
e'ement. So the final answer on item 1 of PSB-3 was the fifth element. In PSB-8 the subject was
asked to indicate which of five geometrical figures he/she recognized in a complex drawing. Both
ests consisted of 40 items and a time limit was imposed such that about 60% of the subjects
'Completed PSB-3 and 4Q% did so for PSB-8.
The responses on both tests were scored by means of five response categories:
1 ~ correct
2 = wrong
3 = invalid (wrong response format)
4 = skipped
5 - not attempted
eores 3 were very rare (less than 0.01%) and were treated as 'wrong' responses. An item that was
"ot responded to was either treated as skipped (when at least one later item was responded to) or as
"ot attempted (when no later item was responded to). For the PSB-3 about 3% of the responses
^ere in the skipped category; for the PSB-8 this percentage was about 4. Skipped items were
considered wrong. This choice was corroborated by a separate Rasch analysis, in which the
!^tegory skipped was treated as a positive response and all other categories as wrong. The Rasch
emparameters in the skipped version had a correlation of- .70 with the standard itemparame-
.ers, implying that skipping an item was, to a high degree, the opposite of correctly answering an
'tern.
criterion tests
or the validation of the tests an achievement test, developed by the Dutch Central Institute for
'estdevelopment (CITO), was used as criterion to be predicted. Three subtests were used on
iguage, mathematics and information, which is short for information retrieval and reasoning.
3ch test consisted of 20 items; as a score the number of correct items was used, which is indicated
s the tests were of the power type.
subjects
"e subjects in the present study were from a large scale study of school careers and pupil
.^ckground. This study is performed by the Dutch Central Bureau of Statistics (reference note 1).
6th^ sample used in this study consists of 16813 subjects from a population of220,000 pupils of the
jg^^Srade of Dutch primary school. The subjects were approximately 12 years old, when they were
.pj^Por the Rasch analyses a random subsample was used,which initially consisted of 3335 subjects,
ach' sample was involved when the predictive validity of the two tests with respect to the
"'evement tests was studied.
3. ANALYSIS AND RESULTS
j^c analysis procedure entailed three steps:
"order for the scoring procedure to be valid, the Rasch model must hold; especially it must be
shown that the test measures the same thing irrespective of the speed at which a subject is
Working. This is not to say that the number of items completed and the Rasch parameter
Should be statistically independent; it merely is understood that the trait is not qualitatively
d'fferent when subjects are working at different speeds (Van den Wollenberg, 1983).
Strictly speaking, this requirement need not even be met in a predictive validity study. The
thing which counts is whether one procedure is superior in prediction, relative to another,
^o even when a poor fit to the Rasch model is found, the procedure may be applied, when a
extreme pragmatic position is taken.
56 Predictive validity of time-limit tests
It should be understood that we do not defend this position as a general attitude toward
research. To the contrary, the present authors feel that sound measurement and theory are
indispensible for the advancement of any scientific area. Furthermore we expect that a
procedure is more effective in prediction, when the measurement assumptions it is build upon,
are met. But when we restrict ourselves to pure predictive validity, the quality of measurement is
only relevant in as far as it contributes to enhanced predictive validity. In our study only
predictive validity is at issue and hence, only for this instance, we take a liberal stand toward
measurement and model fit.
In the first subsection the results of the Rasch analyses will be presented.
2. When raw score is to be substituted for by speed and precision, we would feel very much at ease,
when the muhiple correladon between the predictors speed and precision on the one hand and
the criterion raw score on the other would approach unity. This would imply that all linear
prediction possibilities of raw score would also be attainable by means of the two variables
speed and precision.
On theoretical grounds it can be argued that the relation between precision and raw score is
not linear, the Rasch parameter is a non-linear transformation of raw score for fixed speed-
However this non-linearity is especially relevant in the extremes of the scale and, as a rule, just a
few subjects are involved. In practice the linear correlation between raw score and Rasch
parameter is well beyond .99, were a (non-linear) correlation of 1. should be expected.
The relation between these three scores will be elaborated upon in the second subsection.
3. In the last subsection the predictive validity results will be presented. A comparison is made
between raw score as a predictor for the achievement tests on the one hand, and speed and
precision as a predictor set on the other hand.
Rasch analysis of the PSB-tests
For the Rasch analyses the scheme of van den Wollenberg (1979,1983) was followed. Because of
the fact that not all subjects completed all items, a large number of analyses were necessary on
partially overiapping datasets. We will only highlight these analyses, as Rasch homogeneity is less
central to the present predictive validity approach. A paper, elaborating on the substantial analysis
of these two tests is in preparation.
Before the actual analyses were performed the data were screened for items and subjects, which
for various reasons should be eliminated from the analyses.
Items with too high popularities (p > .95) were eliminated. These items were regarded to be so
easy that factors other than difiiculty could play a major role in answering these items wrongly-
Furthermore these items bear little information with respect to the subjectparameters. Finally,
they have large confidence intervals, implying low stability of the estimates; by the fact that the
itemparameters are normed to sum zero, the stability of the other itemparameter estimates is also
affected. This elimination resulted in 30 items for PSB-3 and 36 items for PSB-8 respectively.
In a subject screening, the following types of subjects were excluded from the sample:
1. Subjects having completed less than 20 items in PSB-3 or less than 15 items in PSB-8 (totalling up
to 129 out of 3335 subjects).
2. Subjects with more than 4 false response formats (6 subjects).
3. Subjects with more than two subsequent items skipped; the rational behind this is that there is a
fair chance that a subject made a 'jump' in the tests not seriously inspecting the skipped items,
but searching for an apparently easy item. Skipped items are treated as wrong, which seems
only feasible when items are at least inspected and deemed too difficult by the subject. Subjects
of this type (N = 866) were kept apart for further study.
All in all an effective sample remained of 2334 subjects on which the Rasch-analyses were
performed by means of the RADI program (Raaymakers & van den Wollenberg, 1979).
In table 1 the results are summarized for the traditional high-low test. Q1 was used as a statistic
(Van den Wollenberg, 1979,1982a). In this procedure the sample is partitioned in a group of high
scoring subjects and a group of low scoring subjects. Then equality of itemparameter estimates.
Arnold L. van den Wollenberg and Peter G. Gremers 57
which is predicted by the model, is inspected. This test is in principal insensitive to violation of the
dimensionality axiom and local independence, therefore, in addition the Q2 test was performed on
^heunpartitioned sample (Van den Wollenberg, 1982a, 1982b).
Table 1. Summary of analysis results for Q1 on the 'high-low' partitioning and Q2 for the
unpartitioned sample.
Q1 for PSB-3; high-low partitioning
Q2 for PSB-3; unpartitioned sample
'0 items I955 407.84 35 .I7E-12
'terns 400 749.59 405 .38 E-9
Ql for PSB-8; high-low partitiong
''items 1245 163.78 10 .I2E-9
"®ms 304 95.32 35 .51 E- 5
Q2 for PSB-8; unpartitioned sample
'litems 1245 291.54 44 .88E-11
__304_1351.49 594 .12E-12
^ The tiumber of items reported in the first column are the items which were involved in the analysis.
s subjects had varying numbers of items completed, there were by far less subjects (400) having
^^ mpletcd all 30 retained items of PSB-3, than there were subjects having completed at least 10 of
J ''etained items, which number was 1955. The Ql results were encouraging for PSB-3 and with
etion of some items PSB-8 could also be made acceptable, but the Q2 results clearly indicate
int^' 'he tests have a multidimensional structure. Subdimensions could be clearly indicated and
■"Preted. These points will be elaborated in a separate paper,
diff den Wollenberg (1979, 1983) argues that in the case of time limit tests one should oppose
gro^"^^"' speed groups in testing the Rasch model in order to ascertain that in the different speed
^Ps the same latent trait is measured. These results are presented in table 2.
(f P.^'^d groups were formed by taking subjects together according to the number of completed
a range of five items constituted one group (1 -5; 6-10; 11 -15 etc). The more items
com^ '"solved in the analysis, the less speed groups could be retained, as again only subjects having
this included in the analysis, were kept in the sample. The results with respect to
yj,-Jl^odel test are very favorable indeed. Although the tests are not Rasch homogeneous nor even
o^^^cnsional, the measurement does not seem to be affected by the speed subjects are working
at a'^^ver the tests are measuring, the measurement does not seem to be affected by the speed
.^mch subjects are working,
•nefit of the
Rasch model to both tests is very poor indeed and this would indicate to stop the
'^asch^ analysis and look for other means to study these tests. However, as argued before, the
h model needs not necessarily be satisfied for predictive purposes. It is feasible that even with
58 Predictive validity of time-limit tests
Table 2. Summary of analysis results for speed partitioning.
a) PSB-3
number of
speed groups
4
3
2
N
1955
2021
1505
df
27
28
19
Q1
25.96
46.55
35.18
.52
.01
.01
10 items
15 items
20 items
b) PSB-8
number of
speed groups
4
3
2
df
45
40
25
N
1534
1401
1036
Qi
61.07
36.96
20.59
.06
.61
.72
16 items
21 items
26 items
poor model fit the present scoring procedure gives better results than the traditional one and then
we have shown that the new scoring procedure could be an alternative for the traditional one,
which is the only pretention of the present paper. For this reason we proceed with our analysis,
recognizing the fact that better prediction may be expected, when better measurement is attained-
The relation between raw score and speed and precision scores.
For the analyses of this and the following subsection a sample of 16813 was available. Only those
subjects were kept in the analysis which satisfied the specifications used in the Rasch analyses
above. After this selection a sample of 11608 subjects remained, enough to not bother about
significance (even a correlation of .02 would be significantly different from zero by this number of
subjects).
As was argued above, a multiple correlation of unity between raw score and the predictors speed
and precision would be desirable, implying that all linear prediction possibilities of raw score are
also present in the combination of speed and precision; the reverse, of course needs not to be true-
As a matter of fact this objective is attained to a high degree, the multiple correlation being .97 and
.98 for PSB-3 and PSB-8 respectively, as may be observed in table 3.
Table 3. Correlations between raw score (1), Rasch precision score (2) and speed (3). | ||||||||||
|
Arnold L. van den Wollenberg and Peter G. Gremers 59
For PBS-3 speed and precision seem to be almost independent, which does not hold for PSB-8. In
oth instances precision (the Rasch parameter) has a higher correlation with raw score than speed,
tit speed cannot be dispensed with in order to get a high multiple correlation.
These results imply that the new scoring procedure can at least do the job of the raw score
procedure and possibly better.
Predictive validity, some results
"e central question'of this study is whether the scoring procedure proposed by van den
ollenberg pays off in terms of predictive validity. In the preceeding section we showed that the
procedure, for the present tests, may be expected to perform at least as good as the traditional
procedure for any external criterion. Table 4 shows that it outperforms the traditional procedure
the prediction of at least three criteria. In table 4 the correlation of raw score with each of three
ehievement subtests is contrasted with the multiple correlation of speed and precision with the
same subtests.
Table 4. Some correlations between test scores and external criteria.
"Mathematics .328 .372 .225 .268
'"formatiom .284 .343 .215 .265
As can be seen a consistent gain in predictive validity is obtained. In an absolute sense the gain may
is t spectacular, but when the ratio of the explained variances of the new and the old procedures
the gain ranges from 29% to 52% with a mean of 42%, which we dare to call substantial.
4. DISCUSSION AND CONCLUSION
the ^^ Preceding section it was shown that a gain in predictive validity can be obtained by applying
Scoring procedure of van den Wollenbcrg. It could be argued that the gain is rather trivial.
1 Tfsome points must be carried in mind
2 absolute gain may be modest, the relative gain is rather substantial.
hen working with large number of testees, a small but consistent gain in predictive validity
3 be rather important.
l u P'^esent tests did not conform to the Rasch model. Although this is not necessary, it seems
jkely that in the case of Rasch homogeneous tests, where measurement is better substantiated,
4 could be larger.
e feel that also a theoretical point should be made. The present application shows that the
taditional scoring procedure does not fully account for subject test behaviour. Therefore also
•MC theoretical conception behind this scoring procedure (the factor analytic approach with
content bound factors) is at issue. The present results seem to favor an approach as
advocated by for instance Pieters and van der Ven (1982) and Van den Wollenberg (1983,1985),
th Quantitative factors such as speed and precision are taken into account too.
Pf .® present application the speed component is by far less important than precision. In fact
Sam '^'u" recounts for almost all of the explained variance. This does not, however, imply that the
e should be the case for other tests. Some test may well appeal more on working speed than
60 Predictive validity of time-limit tests
others, so we feel that no general rule for the role of speed and precision can be formulated. As.
furthermore, speed and precision taken together constitute a more complete protocol of the test
behaviour, we feel that henceforth the speed component should remain part of the scoring
procedure.
The general conclusion of the present paper is that the new scoring procedure is likely to be
superior to the traditional raw score, not only in a theoretical sense, but also in terms of predictive
validity. Relatively large gains in predictive validity can be obtained, so researchers working in the
field, should in our opinion at least seriously consider the use of the speed-precision scoring
procedure.
REFERENCE NOTES
1) CBS, 1985, Schoolloopbaan en herkomst van leeriingen bij het voortgezet onderwijs. (Cohort
1982, SLVO, peildatum September 1983). Mededeling nr.: 7833.
REFERENCES
Horn, W. (1969). Prüfsystem für Schul- und Bildungsberatung P-S-B, Verlag für Psychologie.
Göttingen.
Raaymakers, M.H. & van den Wollenberg, A.L. (1979). RADI: program for the dichotomous. Rasch
model. Report 79Ma06, Department of Psychology, University of Nijmegen, Nijmegen.
Pieters, J.P.M. & van der Ven, A.H.G.S. (1982). Precision, speed and distraction. Applied
Psychological Measurement, 6,93-109.
Snijders, J.T. & Welten, V.J. (1968). De ISI-schoolvorderingen en intelligentie-test, vorm I en U-
Groningen: Wolters-Noordhof.
van der Ven, A.H.G.S. (1969). The binomial error model applied to time-limit intelligence tests-
Dissertatie, K.U. Nijmegen.
van den Wollenberg, A.L. (1979). The Rasch model and time-limit tests. Nijmegen: Stichting
Studentenpers Nijmegen.
van den Wollenberg, A.L. (1982a). Two new test statistics for the Rasch model. Psychometrika, 47,
123-139.
van den Wollenburg, A.L. (1982). On the applicabihty of the Q2 test for the Rasch model-
Kwantitatieve Methoden, 5,30-55.
van den Wollenberg, A.L. (1983). Measuring subjects on a Joint scale by means of time-limit tests-
Tijdschrift voor OnderwijsResearch, 8,145-156.
van den Wollenberg, A.L. (1985). Speed and Precision: Facts or Artefacts? Tijdschrift voot
Onderwijsresearch, 10,69-81.
Manuscript ontvangen 12-9-1986.
Definitieve versie ontvangen 10.1.1986.
Tijdschrift voor Onderwijsresearch, 11 (1986), nr 2, pp. 61-66.
Item Banking with Random or Stratified Tests
Date N. M. de Gruijter
University of Leyden
-abstract
Assigned and measured item characteristics can be stored in an item bank. Item proportions correct or
P-values are likely to be included as measured characteristics, indicating item difficulties. Unfortunately
P-values are group dependent. In this paper a simple procedure is proposed for correctingp-values for
group differences. The procedure can be useful in connection with randomly or stratified randomly
constructed test forms.
INTRODUCTION
^hen a large item bank is available to a test constructor, successive test forms can be composed by
hdom or stratified random sampling of items from the bank, with the extra condition perhaps
the items to be selected have not been used shortly before. Stratified selection is indicated when
Ofhe topics are overrepresented in the item bank. Stratification of the bank helps to avoid
"c-sided tests. Stratification can also be useful for well-balanced item banks: stratification can
"finish test variation with respect to coverage of topics and difficulty level.
Random or stratified random item selection does not eliminate test variation in difficulty, but
c remaining variation is limited and unsystematic. So, when the tests are used for making
P ^/fail decisions, a fixed cutoff score can be chosen for all tests.
. The situation changes when the item bank is expanded by the addition of new items. The new
«fhs may be easier or more difficult on the average than the old items in the bank or in the relevant
""^ta. The test user should check from time to time whether there is a shift in difficulty level of the
^hk due to addition of items. However, p-values are group dependent. Only when two items are
"ministered to the same group, their /»-values can be compared straightaway. For an adequate
^'VParison of all items in a bank it is important to measure item difficulties on a common scale,
hank^' and Bell (1984) even argue that only carefully calibrated item pools should be called item
I" this contribution a simple procedure is suggested for eliminating group differences from the
jjy^^'^cdp-values. The procedure implicitly uses an item response model with strong assumptions,
't might be useful even when the model assumptions are not fully satisfied.
^t the set of items in test j, the test administered to examinee groupy, be denoted S(j). The observed
Potions correct of these items are denoted p^y,. with i t SQ). These proportions are converted
THE COMPUTATIONAL PROCEDURE
^t these
Pfopo
logits
^'0) = log[/',0)/('-A(,))] (1)
Botr"!!^^' ^ifeau Onderzoek van Onderwijs
^'"aavelaan 2,2334 EN Leiden.
62 Item Banking witli Random or Stratified Tests
The central assumption is that the item logits for groupy'are approximately linearly related to the
logits of the same items in a different group j'. Such a relationship results under the Rasch model
when the latent ability distributions of the groups are normal. In this case the logits are approxima-
tely hnear functions of the item parameters, a property which - with the additional assumption of
normally distributed item parameters - has been exploited in an approximate estimation proce-
dure for the Rasch model (Cohen, 1979; Wright & Stone, 1984).
When two testsy'andy " have minimally two, but, in order to obtain adequate results, preferably
more than two items in common, all items in these tests can be brought to the same scale by a linear
transformation of the logits for test y'and a hnear transformation of the logits for test ƒ for which
the sum of the squared differences of the common items.
is minimized, under some adequate restrictions on the coefficients for the transformations, like
{aj + aj)/l = 1 and bj + 0.
The result can easily be generalized to more than two tests. The tests should at least form a
connected web, i.e. there should be no subset of tests which has no items in common with the
remaining tests.
With m tests the function to be minimized is
/ <jus(j)ns{/)
where
under the side conditions
l.oj^m
y=i
and
X ^ =
y=i
or, alternatively, with Oi^ = 1 and = 0 for a particular choice of k. The parameters a must
exceed zero. Henceforth it will be assumed that a does indeed exceed zero for all values k.
Using the first two side conditions, the minimization can be achieved by minimizing Equation
3 w.r.t. 0' = (fit,, «2. • • •. a« _ I, ''i. ''2.....h„_i),a„ and b„ being functions of the first m — 1
a's and b's. Differentiating /"w.r.t. the elements of 6 and setting the results equal to zero, one
obtains a set of 2m — 2 linear equations
C9 = y, (4)
where C is a matrix with coefficients, which can be solved for 6. The values for a„ and b„ can be
obtained from the solution vector 6.
The transformed logits x'^j^ for a given item /' can be transformed back to the proportion
correct scale for one of the groups. When group k is chosen as the reference group, the corrected
p-values are given by
Dato N.M. de Gruijter 63
^here ^ denotes the cumulative logistic. The p-values of the items which were not used for the
"nation of a's and b's - items which were administered to only one examinee group, for
ample - can also be corrected by means of Equation 5. Next, the results can be averaged, in
nich process averages are obtained. The procedure is illustrated in Table 1. First, the item
8'ts X are obtained. Next, a^ and bi are computed by means of Equation 4, and 02 and 62 are
tained as 1 — a, and — b^, respectively. Finally, the corrected p-values for group 2 are
'amed and, if possible, averaged with the/?-values for group 1.
Table 1. a numerical example with two hypothetical seven-item tests having five items in | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
^^'th the values Pi one can verify whether the item bank has shifted in average item difficulty.
"en this happens to be the case, one should consider a change in the cutoff score. The
preceding analysis does not, however, indicate the extent to which the cutoff score should be
anged. In order to change the cutoff score properly, one must know the change in average
em difficulty level for borderline examinees, examinees with an expected achievement near the
cutoff score.
th P'"ocedure for the estimation of a's and b's in Equation 3 can be viewed as an extension of
IQ® "timation of shifts in a complete web of tests, considered by Wright and Stone (1979, p.
and by Engelhard and Osberg (1983) for the Rasch model or as an extension of the
^''ocedure for the estimation of condition effects proposed by De Gruijter (1984). One should
otice that the analysis lays a heavy emphasis on frequently used items. When item i is used in n
^^^ts, it figures in '/j a (n -— 1) terms in Equation 3. An alternative procedure for which the items
® Weighted more evenly, is to minimize the function
g = 5: V (6)
I J\i.S(j) "
jyl^ere the average of the values x'^jy Now, when item / is used n times, it figures n times in
of pV"ction to be minimized. When all items occur with the same frequency, the minimization
en equivalent to the minimization of/". This is easily verified using the fact that variances are
^"al to half the mean squares of differences (Kendall & Stuart, 1963).
^ Weighted variant of G is the function.
item
/ j\US{j)
Here
-ocr page 68-64 Item Banking witli Random or Stratified Tests
and
= (9)
The weights w^j^ can be set equal to the group sizes Nj when the group sizes differ notably. It is
also possible to give the contributions corresponding to extreme /^-values a smaller weight, as
suggested by Tucker (1952; see also Torgerson, 1958, p. 390) in another estimation problem
which involved transformed /j-values.
A SIMULATION
A small simulation study was undertaken in order to verify whether the procedure gives
acceptable results when the model's assumptions are violated. It was assumed that guessing
plays a role, and the following item response model was chosen
Pi (6) = c + (1 — c) exp (e — d,)/[\ + exp (0 — rf,)], (10)
where c is the guessing parameter, set equal to 0.25,6 is an ability parameter, d^ the difficulty
parameter of item /, and (0) is the probability of a correct response to item;' given latent ability
0. Three examinee populations were defined. In the standard population, population II, there were
five levels of6 (—1.5, —0.75,0.0,0.75,1.5), with relative frequencies 0.1,0.25,0.3,0.25 and 0. !•
The average ability in population I was 0.5 lower, that of population II10.5 higher than the ability
level of population II. Items with d equal to —2.0, —1.0 and 0.0 were administered to
populations I and II. Three other items with these values of rf were administered to population H
and III, and items whh rfequal to —1.5, —0.5 and 0.5 were administered to population I and
III. Proportions correct on these items were computed under the assumption of infinite
population sizes. The resulting proportions are given in Table 2. Using population II as the
standard, corrected item proportions for populations I and III were computed by minimization of
Equation 6. These proportions are also given in Table 2. The corrected proportions of items I
through 3 and 7 through 9 are quite similar to the target proportions in population II, and the
corrected proportion for items 4 through 6 are quite similar for populations I and III, indicating
the success of the corrections.
The procedure was repeated for finite populations, with populations sizes equal to 100. Due to
the probabilistic character of the item response model, random fluctuations in /7-values are to be
Table 2. Population /»-values and corrected /»-values for the common items in three infinite | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Dato N.M. de Gruijter 65
g jPe'^.'ed. They are noticeable in Figure 1, where the observed and corrected proportions of twelve
.'honal items (six items given to population I, and six given to population III) are plotted
^p'nst the expected proportions correct in population II. Most corrected values are closer to the
^8onal than the original ones.
Some model deviations must show in a simple procedure like the present one. This is the case
en - in terms of the three-parameter logistic model - the item discrimination parameters
2 This is demonstrated in Table 1, which is based on essentially the same kind of data as Table
• terns 4 and 6 are the exceptions. Item 4 has a discrimination parameter equal to 0.75 as
.^.^mpareci to the standard value of one, and item 6 has a discrimination parameter equal to 1.25.
e less discriminating item clearly was overcorrected, and item 6 undercorrected.
ite " 'h® variation in item discrimination can remain within reasonable bounds while
Un low discriminating power probably will be removed from the item bank as being
"satisfactory.
DISCUSSION
for the elimination of group differences from the observed/»-values is proposed. The
sj ^ condition for applying the procedure is that tests arc connected as described in the previous
for ^^ hkely that this condition is satisfied with random or stratified item selections. Starting,
y^Pl^^mple, with an item bank of 120 items from which a forty-item test has been selected, it is very
adm that a second test with forty randomly sampled items contains less than two already
the items. One might want to verify this with the hypergeometric distribution. Of course,
o„ ."î^^l'ty of the solutions depends on the degree of connectedness in the test web. It also depends
^e adequacy of the underlying assumptions,
exa • items are not Rasch-homogeneous, the assumption of linearity of logits between
"^'"ee groups which really differ, is not tenable. When this happens to be the case, residuals
tio® kPi are correlated with group level for the more and less discriminating items. Such devia-
are less disturbing in the proposed application than in other applications, in view of the fact
66 Item Banking witli Random or Stratified Tests
tiiat tlie corrected proportions are averaged for each item, and item proportions are next average''
within classes of items.
Other items might not fit due to instructional effects: an item might become easier after an
instructional change. Clearly, such an item should be removed before the analysis or treated as a
different item after the instructional change.
The procedure is quite simple: only /»-values are needed. The procedure further differs from
more sophisticated maximum likelihood procedures in that item parameters are not estimated-
This is an advantage when the number of test administrations and, consequently, the number of
items increases. Further, the procedure is noniterative. These characteristics make it possible to
implement the procedure on small micro-computers. Finally, the x' may be used in order to obtain
starting values for ML-estimation in the Rasch model when the data are incomplete according t"
the pattern described in the previous section. When the item logits are replaced by Rasch item
parameter estimates and the a's are set equal to one, minimization of Equation 3 or 7 with respect
to the b's gives an alternative to the linking procedure, suggested for the Rasch model by Engelhard
and Osberg.
REFERENCES
Cohen, L. (1979). Approximate expressions for parameter estimates in the Rasch model. BritisI'
Journal of Mathematical and Statistical Psychology, 32, 113-120.
De Gruijter, D.N.M. (1984). Two simple models for rater effects. Applied Psychological Measure
ment, 8, 213-218.
Engelhard, G. and Osberg, D.W. (1983). Constructing a test network with a Rasch measurement
mode,\. Applied Psychological Measurement, 7, 283-294.
Kendall, M.G. and Stuart, A. (1963). The advanced theory of statistics. Vol I. (2nd ed.). London:
Griffin.
Torgerson, W.S. (1958). Theory and methods of scaling. New York: Wiley.
Tucker, L. R. (1952). A level of proficiency scale for a unidimensional skill. American Psychologist,
7, 408 (abs).
Wright, B.D. and Bell, S.R. (1984). Item banks: what, why, how. Journal of Educational Measure-
rnent, 21. 331-345.
Wright, B.D. and Stone, M.H. (1979). Best test design. Chicago: Mesa Press.
Manuscript ontvangen 19-8-1985
Definitieve versie ontvangen 22-11-1985
Tijdschrift voor Onderwijsresearch, 11 (1986), nr 2, pp. 67-82.
Ratings of Requests for Grants in Educational Research
jï'j^Jeerens, A. L. Beem,
^ Foundation for Educational and (Rijksuniversiteit Leiden)
"•^^earch in the Netherlands)
abstract
Hofstee's evaluation of ratings of grant-requests in educational research was rephcated and extended
on the basis of a larger data-set, consisting of ratings by three judgement-committees of 239 grant
fequest.s. By means of various techniques it was shown that Hofstee's conclusion that the relation
between scale-scores on judgement categories and final judgements of raters is linear is quite defensible.
By regressing final judgement on the scale for the 6 judgement categories it appeared that the
category-scores together predict the final judgement quite well (R^ ranging from .58 to .72). These
regression analyses also showed that the judgement category: "research technical adequacy" carries
most weight in this prediction. The agreement between raters appeared to be even lower than in the
case of Hofstee's analysis; the average correlations for the three judgement-committees were . 11, .05
and . 12 respectively. When the coefficient of identity was used as a measure of rater-agreement these
Values were somewhat higher (.12, .29 and .26 respectively) though still quite low. Hofstee's suggestion
that global measures ought to be replaced by aggregates of specific measures is not borne out by the
data presented here: the most that might be maintained is that they arc interchangeable. By means of a
variance component analysis a substantial interaction between raters and proposals was shown. In a
subsequent analysis of variance it was shown that, with the exception of two of the judges, this
interaction could not be explained as "affiliation bias" of the judges. Content analysis of the verbal
reports on each proposal by the respective committee corroborated the finding from the regression
analyses that adequacy is by far the most important judgement category. Finally a comparison was
made between the judgements of 17 research proposals and the judgements of the corresponding
research reports. From this comparison it appeared that the predictive validity of proposal ratings is
dubious: there were 6 "hits" and 11 "misses". These results are discussed by considering three ways of
seeing the judgement procedure: as a measuring instrument, as a procedure for reaching consensus and
as a process of argumentation.
INTRODUCTION
edu^^^ Hofstee published the results of a psychometric analysis of ratings of grant-requests in
or national research (Hofstee, 1983). The most striking result of this study was the low incidence
of fP^^'^cnt between judges (an average correlation of. 14 for the final judgements). On the basis
jud Hofstee predicted that, contrary to the usual subjective impressions held by
the^^^'all judgement-committees the actual agreement would be low, i.e. in 9 out of 10 cases in
acc/^"®*^ of .00 to .30. Since data on judgement procedures in educational research have
prg .l^V'ated in the years following Hofstee's analysis there is now sufficient basis for putting this
Apart from the judgement-committee investigated by Hofstee (the
^0"-committee concerned with so-called "frec"-research proposals, i.e. not tied to a specific
♦ Th
rev' ^""'"rs are indebted to drs. Henry Wouters for his assistance and valuable suggestions, to the
ll„ '^^srs of TOR for their comments on an eadier version of this article and to Mrs. Christine Thirlway for
""8">stic editing.
-ocr page 72-68 Ratings of requests for grants revisited
researcii programme) there are now two other judgement-committees: the "OTG "-committee for tii^
judgement of proposals tied to certain thematic research-programmes and the "OR"-committe«
for proposals that are contracted by the Ministry of Education or by Educational Organizations.
The total data-set of ratings on grant-requests used for the replication and further analyse®
amounted to 239 cases, divided over 3 committees and 9 committee-meetings (sessions). These 239
cases included the 54 that had already been analyzed by Hofstee. Not only for scientific reasons
(i.e. to confront an interesting prediction with further empirical evidence) but also for practical
reasons it seemed worthwhile to replicate and continue Hofstee's analysis. The total amount of
money applied for in these research proposals is about 40 million Dutch guilders, reason enough-
one would think, to spare no effort to improve the review-processes on the basis of critics'
evaluation.
PROCEDURE
The material for the analyses to be presented in this article consisted of ratings of 239 grant'
requests (research proposals). The ANGO-committee rated 116 proposals over 4 sessions: 25 i"
1981, 33 in 1982,32 in 1983 and 26 in 1984. The OTG-committee rated 50 proposals over 1
sessions: 22 in 1983 and 28 in 1984. The OR-committee rated 73 proposals over 4 sessions in 1984.
The ANGO and OR-committee consisted of 5 judges each; the OTG-committee had 4 members-
One of the members of the OTG-committee who took part in the 1983-session was not available
for thel984-session and was therefore replaced.
All committee-members were professors. In each committee various specialities within th^
educational sciences were represented, with a fairiy strong emphasis on research-methodology-
One of the authors (J. Scheerens) acted as secretary to all committees during all sessions.
The review-process in each committee consisted of the following steps:
1. Each rater judged each proposal individually, using a standard-form containing 5-poin'
rating-scales for six judgement categories (for a description see below). Apart from indicating
the scores on the rating scales, the judges also gave verbal comments on each proposal. Th'
individual raters further indicated their final judgement in terms of a three-point scale (A, B, C.
scored as 1,2,3) on the forms. "A" indicating positive advice to the funding organization; "B'
meaning that the proposal was rejected in its original form, but might be considered in an
improved version during a subsequent session, and "C" meaning that the grant-request should
be rejected and no encouragement given to the applicant to come back with his request later on-
2. The judgement-forms were duplicated and distributed among committee-members at the
beginning of each session. Each research-proposal was discussed until consensus was reachd
on a final committee-judgement, once more expressed in terms of an A-, B- or C-judgement-
3. For each proposal a written report was produced setting out the reasons behind the commf'
tee's judgement. This collection of reports, together with the (A, B or C)-judgements constituted
the committee's advice to the funders (SVO and ZWO).
The foWomngjudgement-categories were used:
1. Completeness: the degree to which research-proposals were explicit and contained sufficien'
information on the state of the art in the field in question, the formulation of the research-
problem, research-methods and techniques, planning and budget. '
2. Adequacy: the degree to which the elements of the research proposal were well chosen and
formed a consistent, integrated whole.
3. Guarantees for efficient execution: the degree to which the applicants were capable of carrying
out the research according to plan, and its feasibility under the contextual conditions of th^
research-setting.
4. Scientific relevance: the value of the research in a scientific sense.
5. Practical relevance: the relevance of the research to educational practice and policy.
6. Innovative characteristics: the degree to which the research was innovative with respect t"
theory or methodology.
J. Scheerens and A. L. Beem 69
J^ore extensive information on these judgement-procedures is available in SVO, 1984.
part from the proposal-ratings other data were collected concerning characteristics of research-
Proposals, namely:
academic status of the applicant (MA, PhD or Professor);
length of each proposal (number of lines of each proposal);
length of introductory text explaining the background of research-questions (number of lines);
^ ■ 'ength of explanation of the technical research-design (number of lines);
J,- me special field of the proposal (psychology, sociology or pedagogy);
'he school-category the proposal involved (primary or secondary education);
the affiliations of applicants,
'nally, the affiliation of raters was used as a variable in some analyses.
The data-matrix for each committee can be depicted as three-dimensional: proposals x judges x
^ antitative and qualitative variables. The quantitative variables are the scores on the 6 judgement
ategories plus a final judgement for each of the raters and a committee judgement. Three of the
^^"^acteristics of research proposals described above are also of a quantitative nature, while the
^ ner four are qualitative. Missing data amounted to less than 10% for the final judgements, and
out 10% for the category-scores with the exception of one session of the ANGO-committee
.®n one of the reviewers was absent. Unless it is specifically stated computations reported in this
^le were carried out on the available data without estimation of missing values,
r i- successively analyse: the scaling behaviour of the raters, the agreement between raters,
'ability coefficients for the rating procedure, influence of proposal and rater-characteristics on
res, the contents of the committee reports on proposals and judgements of research-reports.
ANALYSES AND RESULTS
^'^»''ng behaviour
oistee investigated the question whether the raters interpreted the scales as linear (Hofstee 1983,
P- ^ 76).
Linearity is of interest for several reasons. For example, suppose we know the value of the
lj^°Posals on an objectively definable scale. If the regression of scale scores on the objective scale is
3 ^ar for every observer, then the sum-score over observers will also be linear and might even give
3 approximation to the objective scores. Linearity also implies, of course, that raters'
ecment can be expressed in a correlation coefficient.
tWo P'"°eedure to investigate linearity used by Hofstee starts from the assumption that one of the
rat scales (i.e. the five-point scale for judgement categories or the three-point scale for a
the ^ jtitlgcment) is scored as linear. Next, for each rater and for each judgement category
of final judgements on judgement categories is computed, as well as the regression of
Êement categories on final judgements,
soiti "^"^sults of these analyses (which will not be presented here in detail; sec Scheerens, 1985) give
Sin ^ to a linear interpretation of the data: the regressions, for example, are monotonie.
j^e this in itself is not conclusive evidence for linearity some additional analyses were carricd out.
pqi °""''ncarity might also be investigated for each pair of scales separately, e.g. by fitting
be J °"Mials. Although polynomials have their limitations, any serious non-linearity will probably
line However, this procedure would be rather laborious. Another method of assessing
spe ^r"^' optimal or dual scaling (Gifi, 1981 ; Nishisato, 1980). This method does not require the
vg^j Ration of a non-linear function beforehand, and non-linearity can be investigated for several
iggj^l^'es simultaneously. The method we used is implemented in the Princals program (Gifi,
ered ^""'ncals performs a principal component analysis in which scale categories can be consid-
numerical, yielding the ordinary PGA solution, ordinal or nominal (single nominal in Princals
70 Ratings of requests for grants revisited
terminology). A comparison of tiie fit of the model for the various possibilities indicates whether
serious non-linearities exist. Since the data contain missing values, the fit of a model cannot be
interpreted as percentage "explained" variance without reservations. It must be realised that a
single nominal solution achieves a better fit than an ordinary PC A by estimating k-1 parameters
more for each scale, where k is the number of scale categories.
We investigated for each category separately whether the scores of the different judges were
linearly related. The ordinal and single nominal PCA produced degenerate solutions for several
analyses, with a congestion of observations strongly separated in the component's space from one
or two outlying observations. When this happened the analysis was repeated after removing the
outlying observations. For category 3 in OR degenerated solutions kept occurring even after
removing several observations. The present method does not seem suitable for investigating
non-linearity for this category.
Table 1. Fit of numerical (Num), ordinal (Ord) and nominal (Nom) PCA in two dimensions. | ||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||
' Final judgement. |
Table 1 contains the fit per dimension of a two dimensional numerical, ordinal and single
nominal PCA. A comparison of the fit of the several solutions suggests that for the categories 2 and
4 in committee 2, and for the categories 2,4 and 5 in committee 3 there is evidence for non-linearity.
The increase in fit comes primarily from the second dimension of the nominal PCA. However, the
functions relating the optimal scaling quantifications to the original scores have two or three
extrema in general. In our opinion this should be interpreted as evidence for no relation instead of
a highly non-linear one. Hence we conclude that not much information is lost when only linear
relations are considered.
Relation between categories and final judgement
Of course the categories are only relevant when they are related to final judgement. Moreover, it is
interesting to study whether the categories are weighted differently by different raters in arriving a'
their final judgement. A multiple regression was therefore conducted to investigate, first of all.
whether final judgement is predictable from category-scores. Since final judgement is a 3-point
scale, significance tests based on normality assumptions are not very meaningful here, since we do
not assume that the scores are discretizations of an underlying continuous variable. Thus squared
J. Scheerens and A. L. Beem 71
multiple correlations will serve as a criterion. Non-linearity will be investigated by fitting a second
degree polynomial.
Table 2. Squared multiple correlation of linear regression and second degree polynomial | |||||||||||||||||||||||||||||||||
|
Table 2 contains, for each judge, the squared multiple correlation (R^) between final judgement
,"^.*^3tegories, and the increase in R^ when a second degree polynomial is fitted. It is clear that the
aviations from linearity are small and that final judgement is highly predictable from the
"Category-scores, except forjudge 11.
Next we investigated whether the judges weighted the categories substantially differently in
rivmg at their final judgement. Three regression models were fitted for each committee: 1)
^ ' 'erent constants and different regression weights for each judge; 2) different constants but equal
j^'^ession weights for each judge; 3) identical constants and identical regression weights for each
dgc. The R^-value for these models are presented in Table 3.
3. Squared multiple correlations for three models
^°nimittee model 1 model 2 model 3 N*
number of observations
gj-Tl^e results suggest that, without much loss of information, model 2 can be used. (Note that we
jjj l^^atc (j-1) X k additional parameters in model 2 as compared to model 1, with j the number of
"lori*^! ^nd k the number of categories; in model 2 onlyj-1 parameters more are estimated than in
be( The last line of Table 3 contains R^-values of model 1 and 2, without distinguishing
th^^en committees. From these values it can be concluded that within the whole group of judges
.^eighting of the scales does not differ substantially.
Tabl ^^'''"^tes of the regression weights of model 2 for all committees together are presented in
2 - e 4, together with their T-statistics. (Remember that final judgement A, B, C, was scored as 1,
•^respectively).
Stat Sh normality of the conditional distribution of final judgement is doubtful, probability
a go^"^®"^^ be made by applying the Bienayme-Chebyshev inequality, assuming that we have
estimate of the variance of the regression parameter estimates. It is then readily verified that
' ango
2 OTG
3) OR
'.2,3
72 Ratings of requests for grants revisited
Table 4. Regression weights, their T-statistic, and regression sum of squares of rater categories | ||||||||||||||
| ||||||||||||||
Note: the sum of squares are the reduction in regression sum of squares when the category is |
all regression weights, except for category 6, differ significantly from zero at the .05 level. The sum
of squares suggests that category 2 (adequacy) is by far the most important, followed by 5,1 and
Category 6 (innovative characteristics) seems unimportant.
Agreement between raters
Agreement in terms of correlations
The correlations between the final judgements of the raters wi thin each committee are presented in
table 4 (correlation coefficients are shown in the lower triangle of the matrix for each committee)'
The average correlation for each commhtee and an estimate of the rehability for each committee '
where a committee is seen as a composite test having parallel components - are also given in Table
5. The reliability estimate is found by inserting the average correlation per committee in the
Spearman-Brown formula.
The results presented in Table 5 support Hofstee's prediction that the agreement between raters
of judgement-committees will generally not fall beyond the range of .00 - .30. In fact the average
correlations presented here are even lower than .14, the value of the average agreement fof
ANGO-sessions 1 and 2, as it was computed by Hofstee in 1983. Incidentally, the findings about
the ANGO-committee give no support to a learning effect in the sense of increased agreement,
which perhaps might be expected when committees have had more practice.
Hofstee's finding that the average correlation of the sum-scores (i.e. the sum of the category
scores for each proposal and each rater) was higher than the average correlation of the fina'
judgements (.21 versus .14) was only partially supported by our results. We found average
correlation on sum-scores of. 11, .04 and . 19 for the three committees versus average correlatioiis
of. 11, .05 and. 12 on final judgements. So on the basis of these findings one might conclude that i'
does not make much difference whether the final judgement of each rater or his sum-score is used
as the basis for discussions during the committee-meeting.
•
Agreement in terms of coefficients of identity
The discussions during committee meetings start out with the statement of the final judgement of
each rater of each proposal in terms of an A, B or C-rating. In this way the "impression" the
committee-members get of their agreement in judgements might be more in terms of identity than
in terms of correlations. For instance, if rater 1 scores constantly higher than rater 2 theif
correlation will be quite high, but the lack of identity of their scores may make the reaching o'
consensus quite difficult. On the basis of this interpretation of the rating procedure we thought
would be interesting to compute an association measure that could yield a perfect measure of
agreement (i.e. the coefficient equals 1) even when the raters' scale variances equal zero, but could
J. Scheerens and A. L. Beem 73
= 2
o — fN VO
1/1 m o o ^
0\ oo (N ^ fN II oo' I ûS O o. 3 2 rs 2 ^ — fN Tj- >n |
Il II "S "S |
tjv —. VO y C 0 1 I TS c O c C oorjjs X os Ov OO !/-> r- OO m o m <s — r- ro rn — — tN I Ü t: CM r- lo r- VO VO r- 00 Ov o |
00 CN a K 1/^ os Il II" II-I-- |
SSS22
— v-l <N >r> Tf
— CN O —
c
VO
ro
<N
S ^«s
B
'ë
c
I
c
O
a Ü
oc
<
t/S
f2
O
O
Z.
<
— <N ro Tt «o
74 Ratings of requests for grants revisited
not be 1 when the mean scores of two raters' scale-scores differ. A measure that serves this purpos'
is the coefficient of identity derived by Zegers & Ten Berge (1985).
The coefficient of identity is estimated by the following formula:
?Xf + iY?
— I
i = 2(2XiYi)
where Xj, and Y| are the scores assigned by raters X and Y to
i = 1____n proposals.
At the same time we feel that interpreting agreement between raters in terms of classical
psychometric standards of reliability is also necessary, since a rater is clearly also required to sho^»'
some discrimination between proposals. Thus we feel that these two kinds of quality measures'
identity and discriminative reliability - provide complimentary information. In our opinion one
could very well envisage a typology of judgement-committees arrived at by crossing identity and
discrimination measures distinguishing between high and low levels. A committee high on average
identity and low on average correlation could then be called something like: "smooth consensus
reacher, dubious measurer". All this seems sufficient reason for having also computed the
coefficients of identity between raters in each committee. The results are shown in Table 5.
It is clear from Table 5 that the coefficients of identity are generally higher than the correlation
coefficients, particularly in the OTG- and OR-committee. Large differences between p.m..c. and
coefficient of identity, which show in raters 6 and 10, are explained by the combination of a
relatively high proportion of identical scores and a low covariance (raters 6 and 10 have identical
scores in 15 out of 28 cases, their covariance is -.01, while the standard deviations are .64 for rater 6
and .31 for rater 10).
The average coefficients of identity for each session do not point to any substantial learning
effects. For the ANGO these averages are .15, .11, .11, .11, respectively, for the OTG .04 and .45
and for the OR-committee .26, .24, .33; although the rise in average coefficient of identity is high in
the OTG-committee, it is hard to interpret this as a learning effect, since one of the four committee
members_was replaced.
It is possible - as in the case of the average correlation coefficients - to obtain a reliability
estimate based on the average coefficients of identity by using the Spearman-Brown formula. I'
should be noted, however, that reliability in this case carries a different interpretation from
reliability as defined by classical test theory. Reliability estimates based on coefTicients of identity
should be interpreted rather as "raw score reliability" (see Ten Berge, 1984, p. 64). The reliability
estimates in question are also shown in Table 5 (indicated as rel.*). Although the identity
coefficients and ensuing reliability estimates are considerably higher than the p.m.c.'s in two of the
three committees, they are still rather low. The idea that the average coefficient of identity for^"
committee is indicative of the relative ease in reaching consensus corresponds with our impressions
of the functioning of the three committees. The OTG- and OR-committee generally spent less time
on the discussion of each proposal than the ANGO-committee and occasionally discussions in the
ANGO were more vigorous than in the other two committees.
Variance components and generalizability coefTicients
In order to be'kble to draw more differentiated conclusions on the reliability of the judgement
procedure the reliability of sum-scores was further investigated. To this end variance components
were estimated on the basis of the following linear model:
J. Scheerens and A. L. Beem 75
Vijk = M + p. + Cj + R, + PCij + PRi, + CRj, + PCRi^k + Cijk
Where:
^ijk = score of proposal i = 1.....n^ on category j by rater
k = 1.....n^,
M = overall mean
Pj = the main effect for proposal i
Cj = the main effect for category j
'^k = the main effect for rater k
PC|j, PR.|j, CRjk and PCRjjij = the respective interaction terms
^ijk = the error term
The values of n, and n^ are 116 and 5 for ANGO, 50 and 3 for OTG, and 73 and 5 for OR,
spectively; nj equals 6 in alle committees. Note that the highest order interaction term and the
■■'■or term are confounded.
or the estimation of variance components it is convenient to have a fully balanced design, so
issing values were replaced by estimated scores (for the procedure see Scheerens, 1985).
estimated variance components will be used to assess the reliability or generalizability of scores
ronbach, Gleser, Nanda & Rajaratnam, 1972). In the above model one must choose whether to
ra^^' 'he main effects as fixed or random. Since it is somewhat hard to decide whether to see the
^rs as randomly drawn from a (finite) population or as fixed, two mixed models were used: (1)
g °Posals random, categories fixed and raters fixed and (II) proposals random, categories fixed
Sch random. Variance components were estimated for the mixed model as discussed e.g. by
effe (1959)_ jhis model is equivalent to the one proposed by Cornfield and Tukey (1956),
conceptualization of the fixed effects. Other mixed models (e.g. Nelder, 1977; Searle,
^^ ') might also be used for reliability estimation (although in these other models variance
ij '"Ponents should be interpreted as components of excess variance), but the Scheffe-type model
"Commonly used in generalizability theory. The expected mean squares for this model do not
^^ ays contain both the highest order interaction and error variance components. The non-
Parability of these terms in the linear model may therefore result in the underestimation of a
IJ?Ponent, unless the highest order interaction is assumed to be zero.
Tabl^^'^''^"'''^ components for the two models of interest for the three committees are presented
^able 6. Variance components for a three way proposal (P) x category (C) x rater (R) factorial
design._____
P Random, C fixed, R fixed P. random, C fixed, R random
'°"iniittee
P
C
R
PC
PR
CR
pcr + e
3 ""derestimates of components when the variance component for the highest order intcr-
__'s not equal to zero.
ANGO |
OTG |
OR |
ANGO |
OTG |
OR |
.10» |
.11* |
.11* |
.05 |
.05 |
.06 |
.03 |
.06 |
.10 |
.02 |
.04 |
.09 |
.03 |
.34 |
.05 |
.03 |
.34 |
.05 |
.08» |
.07* |
.06* |
.08 |
.07 |
.06 |
.25* |
.20* |
.26* |
.25* |
.20* |
.26* |
.06 |
.06 |
.07 |
.06 |
.06 |
.07 |
.64 |
.44 |
.49 |
.64 |
.44 |
.49 |
76 Ratings of requests for grants revisited
The most striking result is the relatively high proposal x rater interaction, which indicates that the
differences between mean scores of proposals over categories are different for different raters-
(Incidentally this interaction explains the fact that both the p.m.c.'s and the coefficients of identity
between raters were low). In the following section we shall attempt to explain this interaction effec'
by looking at some characteristics of proposals.
A generalizability coefficient r^ is defined as the ratio of universe score variance and
(expected) observed score variance. For the model with two fixed facets we have
r^ = a^ /(al + a] / JK), and for the other model r^ = a^ /(a^ + a^, / K + a^ / JK). Both deno-
minators have unbiased estimates (using MS for mean squares) MS (?) / JK.
We therefore have the following coefficients: .83, .80 and .85 for the three committees respec-
tively for the first model, and .42, .36 and .46 for the second model. The first set of coefficients may
be interpreted as the estimated replicability coefTicient (see Mellenbergh, 1977) for a complete
replication (i.e. for this model: when the same raters would judge the same proposals a second
time, using the same categories). The second set of coefficients can be seen as the replicabilities if 3
new sample of raters were selected. The reliability-impeding influence of the lack of agreement
between raters can be demonstrated even more dramatically when a measurement procedure is
considered in which each proposal is scored by one rater selected at random. The generalizability
coefficients, aj/+a^^ + al /J),.are then estimated as .11,.08 and. 14 for the three
committees respectively. The coefficient for the model with two fixed facets shows that the lack
of agreement between raters cannot be attributed to inconsistent rating behavior of an
individual rater. Neither can the disagreement between raters be attributed to a substantially
different weighting of the categories, as is evident from the regression analyses.
Characteristics of research-proposals and raters
Both by means of correlational analysis and anaysis of variance techniques we investigated the
influence of certain characteristics of research-proposals on final judgements and sum-scores as ^
possible explanation of the low agreement between raters. Altogether we looked at seven charac-
teristics of proposals: academic status of applicant, length of proposal, length of the introductory
text of the proposal, length of explanation of the research design, disciplinary orientation,
affiliation of applicant and school category. We also investigated the interaction between the
affiliation of applicant and rater-affiliation (as the only rater-characteristic that was considered)-
Since none of the proposal-characteristics proved to have a substantial and systematic influence of
the final judgements and sum-scores, we will not present details of the analyses here (for these the
reader is referred to the more extensive internal report, Scheerens, 1985) but only discuss the
two-way analysis of variance by which the rater/affiliation interaction was investigated.
For this purpose a two way analysis of variance (fixed effects model) was conducted according
to the following model:
where: y^^ = sum-score for proposal k, from affiliation i = 1----n;, judged by rater
j= l....nj
m = overall mean
a| = main effect for affiliation i
bj, = jnain effect for rater j
ab|j = rater x location interaction
For ANGO, OTG and OR, Uj and nj equal 7 and 5, 7 and 3, and 6 and 5, respectively. The
analysis was conducted for each committee separately. Of course this design is a repeated measures
design (with bj the "within" factor), and therefore a multivariate anova would be preferable-
Such an analysis was not conducted because that would have entailed in a considerable loss o'
J. Scheerens and A. L. Beem 77
observations in the ANGO and OR committee, due to missing values. It should also be noted that
orrelations between raters were generally low. Normality in each cell of the design was tested by
jneans of the Shapiro-Wilk statistic (Shapiro & Wilk, 1965). The results of Shapiro, Wilk and Chen
V 968) suggest that the. 10 significance level will give powers from about .35 to .70 for moderate to
rong deviations from normality even with only 10 observations. Using this level, the null
ypothesis was rejected at about the chance rate. However, Bartlett's test for homogeneity of
ariances was rejected at the .05 level for the ANGO and OR commhtee. Since no clear relation
p^'sts between cell variance and number of observations, the nominal significance level of the
"test may be either somewhat too liberal or too conservative.
^e R2-values of the model without interaction for the ANGO, OTG and OR-committees were
_ ' -48 and .16, respectively, and for the model with interaction .14, .57 and .24. This model
. PPears to fit well only only for the OTG-committee, while the interaction seems the least
■"Portant in the ANGO-committee.
'n Unbalanced designs several types of hypotheses about main effects may be of interest (e.g. the
/P°theses H,, Hj and Hj as distinguished by Speed, Hocking and Hackney, 1978). In the
^GO-committee and the OTG-committee these hypotheses are all rejected at the .05 level for
^ .th main effects. In the OR-committec, H, is rejected for both main effects, while Hj and H, are
ejected for the raters effect only.
ANGO (N = 463) OTG (N = 142) OR (N = 290)
Table 7. Analysis of variance results for three committees. | ||||||||||||||||||||||||||||||||||||||||||||||
Model '"'fraction |
|
^ote'Degrees of freedom
Descriptive significance level
p^The hypothesis of no interaction can be rejected only for committee 2 (see Table 7). Thus there is
^ general interaction effect in committees 1 and 3. However, this overall test may consume too
sj degrees of freedom. To test for specific interactions, several interaction contrasts were
eo . ^"eously tested in each committee separately. The rater x affiliation combinations that were
^^sidered in estimating specific contrasts are summarized in Table 8.
cg|l"".eraction contrast is defined as follows. Let mij be the mean of cell i, j and let S be the set of
j . ^ ('. j) for which a contrast is considered. If we are interested in the interaction for cell
€ S) then we compute mij — S (mij.)/(nj — n^), (1), ij' 6 S,jVj, nj. = nj — (number of
^e'ls in row i for which ij' ^ S). The computations are repeated for all i V i, i'j ^ S,i'j' ^ S.
jj^e contrasts are then added together for i'j^i, divided by the number of contrasts and sub-
^ acted from (1). For example, for cell (1, 3) in committee 1 the following contrast is estimated:
-i-11 + m 12 + m 14 )/3 — (m33 — (mj, -f m34 -I- m35 )/3 -1- m43 — (m41 + m42 + m45 )/3
-- rm + ""52 +1154 + m55 )/4 + m63 — (m^, + m62 + m^ -1- m« )/4 -h m73 —
^"i?! + m72 + m74 -I- m75)/4)/5.
-ocr page 82-78 Ratings of requests for grants revisited
Table 8. Overview of rater x affiliation of applicant combination - indicated by x - for which | ||||||||||||
| ||||||||||||
1 x X 2 XX 3 X XXX 4 X X |
5 X
6
7
The results for the simultaneous test are presented in the last line of Table 7 and for the
individual contrasts (1,3,1,5 etc.) in Table 9.
Table 9. T-statistics and descriptive significance levels for specific contrasts | ||||||||||||||||||||||||||||||||||||||||||||
|
Note' Descriptive significance level.
The null-hypotheses that the contrasts in each committee are simultaneously zero can be rejected
only in the OTG committee, which is confirmed \)y the T-statistics and their descriptive
significance level for the individual contrasts. We therefore conclude that on the whole there is
insufficient evidence that rater x affiliation interaction explains the high rater x proposal interac-
tion. Although a comparison of mean scores indicates that raters who are somehow associated
with certain applicants tend to rate the proposals from these applicants higher, these tendencies do
not stand up when they are statistically analyzed. So there is no substantial evidence of "alTiliatioO
bias" except perhaps in the case of one rater.
Other aspects of the judgement procedure
So far the emphasis in the analyses has been on the measurement and consensus-reaching aspects
of the judgement procedure. It has been argued by De Groot (1984) that the judgement of research
proposals should be seen primarily as a process of argumentation. Investigating the argumenta-
tion processes of judgement committees would call for a more qualitative kind of study. Here only
a very limited start has been made in this direction by means of a somewhat broad content analysis
of committee reports. (More in-depth analyses of the argumentation processes could be based on
the tape recordings of the committee-sessions).
J. Scheerens and A. L. Beem 79
In addition, we used whatever material that was available to obtain an impression of the
predictive validity of the proposal-ratings by comparing them with judgements of the correspond-
'"8 final research reports.
^ntent analysis of committee reports
s it was described in the section on procedures of this article a verbal report motivating the
nimittee-judgement is made on each research proposal. The category series for the content
a'ysis consisted of the 6 categories that were also used for the individual ratings by committee
embers. To this set of categories three new categories were added, namely: concrete study-
Q^estions, indications and references from the committee to the applicant, suggestions to carry
^he research in a more effcient way and a catch-all category for unclassifiable material.
ne content-analysis-procedure consisted of categorizing all substantive remarks on a research
oposal, and counting repetitions within each category*. In a try-out we had established that the
egory-set could be used in a sufficiently unambiguous way. In this try-out phase two raters
independent analyses of judgement reports that were not included in the data for this study.
® inter-rater reliability, as determined by means of Cohen's kappa was .71.
^ he most important outcome of the content analysis - the results of which are not given here in
j^tail, see Scheerens, 1985 - was the dominance of the two categories completeness and adequacy.
Some sessions as many as 90% of the substantive remarks fell in these two categories, the average
er all sessions being 79%. These findings partly corroborate the results of the regression analyses
esented in a previous section. It can be concluded from this finding that the arguments which
most strongly in the committee discussions on proposal have to do with the completeness or
pl P^'citness of the proposals and the methodological adequacy and consistency of the rcsearch-
^ Another finding was that the committee reports tend to be most explicit when a proposal
J. "^'Ves a B-qualification. This makes sense because in the case of a B-qualification applicants may
^te their proposal on the basis of the committee's comments. Thus most of the remarks on completeness
d adequacy are cnV/'ca/comments,
in 1 appears to be a tendency for all committees to give briefer comments on proposals
®ter sessions as compared with earlier sessions.
^
Parison of proposal and report-ratings
jj ^termination of the predictive validity of proposal ratings in practical (i.e. not-experimental)
^^"ations will always suffer from a severe restriction of range because proposals that are rejected
e naturally never carried out. Yet, it is of interest to make a comparison between proposal and
p Port-ratings. Unfortunately the data-base required is still quite limited. In the last few years, the
g "ndation for Educational Research has had a total of 17 research-reports judged by external
^ Perts. Only in 2 cases were the corresponding proposal-ratings carried out by one of the
ommlttees mentioned in this article. All the other proposals were rated by two individual
Visors, who worked independently of each other. Table 10 gives a review of the proposal and
Port ratings for these 17 cases.
^^From Table 10 it can be seen that in 6 out of 17 cases the proposal and report ratings were
rg "Mpletely identical, in 7 cases the proposal was rated higher than the report and in 4 cases the
nol"*^' was rated more favorably than the proposal. The ratio of "hits" and "misses" (6 : 1 l )does
paint a rosy picture of the predictive validity of the proposal ratings. Yet, as a kind of
p^nsolation, we learn that both the proposals that were judged by a committee (the ANGO)
°ved to be sucessful projects.
(Ij he assumption that there will be more correspondence between raters on the subject of reports
finri" Pt'oposals, because reports have a more extensive informational basis, is borne out by the
ding (not visible from Table 10) that the agreement between raters of final reports was
"siderably higher than the agreement on proposals: in 10 out of 15 cases the judges made
^The
eontent-analysis was carried out by drs. H. Wouters.
-ocr page 84-80 Ratings of requests for grants revisited
Table 10. Correspondence between proposal ratings and judgements on corresponding | ||||||||||||||||||||||||
|
practically identical judgements on reports - reports were reviewed by only one judge. Since one
the whole, judges with differing backgrounds are selected to review a particular report and are not
made aware of each other's indentity, in our opinion this high correspondence cannot be explained
by lack of independence of the individual judgements.
DISCUSSION
It has been implied by De Groot (1984) and Hofstee (1984) that the kind of analysis of peer revie«"
described here is both "bad" and "dangerous". According to De Groot it is bad to concentrate on
correlations instead of focussing on (qualitative analyses of) argumentation processes within
committees. Hofstee fears that knowledge of the particularities and preferences of raters and
committees will tempt applicants to try to adapt their proposals to these idiosyncrasies.
We would agree with De Groot's criticism that further analysis of the argumentation processes
within committees would be relevant. Yet, the quantitative analyses as carried out here do also
shed some light on the way the review processes work. So for instance, the absence of any increase
in agreement within committees by the end of the sessions makes it doubtful whether raters do
indeed learn and improve teir abilities to detect scientific quality. If one is willing to believe that
committee-consensus in which all particularistic divergences are "transcended" is the true detector
of the quality of proposals, such a learning effect would certainly be expected. The non-occurrence
of a learning effect in terms of increased agreement gives rise to the awkward supposition tha<
reaching consensus in a judgement-committee could work as an end in itself, making the argumen-
tation process of secondary importance. The tendency towards brevity and general judgement
statements, discernible in the committee reports, particularly when the number of proposals to bc
reviewed is large, also points in this direction.
We also think that further quantitative analysis is needed to test Hofstee's bold statement that
the average rater's judgement will be pure for roughly 20% and dependent on personal idiosyncra-
sies and interactions of these with unimportant particularities of proposals for the remaining 80%
(Hofstee, 1984, p. 73). At present we are not ready to believe that further regularities in rater and
category variability and their respective interactions could not be discerned. Therefore some
follow-up analyses are being carried out. Some of the percentage of "idpsyncrasies" may after a"
appear to be interprétable regularities. Should this indeed happen, Hofstee's warning on the
openness of review-processes would be warranted, the logical consequence of which would be to
publish reviewers' findings completely anonymously.
In summing up, we think the previous analyses have shown that it is informative to distinguish
three aspects of the judgement-procedure in question:
a. a measurement phase where individual raters use category scales and a scale to express theif
final judgements;
b. a process of argumentation during the committee meetings;
c. the process of reaching consensus on each research proposal.
Report rating
J. Scheerens and A. L. Beem 81
p
or the measurement phase, we think that pending further search for explanations of low
ncordance, we might accept the divergence as a logical consequence of the policy of having
eterogeneous committees. This would mean that future psychometric evaluations would do well
concentrate on the consistency and stability of individual ratings. As it has already been pointed
^^ by Hofstee (1983), measures to improve the psychometric quality of the judgement-procedure
^ a whole, such as increasing the number of reviewers and further specifying the judgement
egories, have too many practical disadvantages. Accepting this view of the measurement phase
ould mean emphasizing the importance of the argumentation process. The quality of this process
its h be judged by the smoothness and speed with which consensus is reached, but rather by
by-products: explicit arguments motivating the judgements on strong and weak points of
^.oposals. There are practical measures which might bring this about. First, the committee-
Ijj^'^tissions could be further structured. The analysis of the reports has shown that quality criteria
J e^Plicitness and methodological adequacy are strongly predominant and that relatively little is
'. about the relevance of research-proposals (De Groot, 1985, gives an example of a procedure in
g 'ch relevance was explicitly taken into account even if defined as conditional on quality).
J, *^ondly, even more time might be found for both the preparation of the individual raters and the
I "^mittee-meetings in order to increase the explicitness of individual and committee-reports. This
iuH would of course involve extra expense, but in view of the influence of the committee-
j S^ments on the actual funding decisions - to give some final figures, the correlations between
Q^Scments and funding decisions by SVO are .88 for the ANGO, .89 for the OTG and .80 for the
, '^"Committee - spendingsome extra money in order to improve the judgement-procedure would
. ''dly seem too great a sacrifice. Finally, since our results indicate much stronger agreement
^ tween ratings of research-reports than of proposals, there would seem to be every reason to
PPlement peer review of proposals by review of research-reports.
REFERENCES
^erg, J.M.F. ten (1984). Een definitie van betrouwbaarheid in termen van ruwe scores. Kwantita-
p tieve Methoden 16,63-72.
"■■nfield, J. & Tukey, J.W. (1956). Average values of mean squares in factorials. Annals of
Q Mathematical Statistics. 27,907-949.
ronbach, L.J., Gleser, C.G., Nanda, H., Rajaratnam, N. (1972). The dependability of behavioural
Q. measurements: theory of generalizability for scores andprofdes. Wiley.
A. (1981). Non-linear multivariate analysis. Department of Data Theory, University of
Q Leiden.
°ot, A.D. de (1984). Kwaliteit in de wetenschap een meetbaar begrip? In: Becker, H.A. & Roon,
u A.F.J, van; Kwaliteit in de wetenschap. Leiden, DSWO.
O'stee, W.K.B. (1983). Rating of grant-requests in educational research: a psychometric evalua-
w tion (in Dutch). Tijdschrift voor Onderwijsresearch. 8. 1983,273-284.
W.K.B. (1984). Beoordeling van de kwaliteit van wetenschappelijk onderzoek: funda-
mentele kwesties. In: Becker, H.A. & Roon, A.F.J, van: Kwaliteit in de wetenschap.
w Leiden: DSWO.
S^nberg, G.J. (1977). The replicability of measures. Psychological Bulletin. 84,2,388-384.
'"cr, J.A. (1977). A reformulation of linear models. Journal of the Royal Statistical Society A.
f^i 140,48-63.
"'Sato, S. (1980). Analysis of categorical data: dual scaling and its applications. Toronto: Univ.
of Toronto Press.
"Kerens, J. (1985). Rating of grant requests in educational research revisited (internal manu-
Sch.ft-. ^"'P')- Th® SVO.
Sea 1 ' analysis of variance. New York: Wiley.
S.R. (1971). Linear models. New York: Wiley.
-ocr page 86-82 Ratings of requests for grants revisited
Shapiro, S.S. & Wilk, M.B. (1965). An analysis of variance test for normality (complete sample®^
5/o/«e/nA:a, 52,591-611.
Shapiro, S.S., Wilk, M.B. & Chen, H.J. (1968). A comparative study of various tests of normaüÖ
Journal of the American Statistical Association, 63, 1343-1372.
Speed, F.M., Hocking, R.R. & Hackney, O.R (1978). Methods of analysis of linear models wi'"
unbalanced data. Journal of the American Statistical Association, Ti, 105-112.
SVO, (1984) De beoordeling van onderzoek van het onderwijs. Den Haag: SVO.
Zegers, F.E., & ten Berge, J.M.F. (1985) Association measures for metric scales. Psychometrik'''
50,17-24.
Manuscript ontvangen 6-6-1985.
Definitieve versie ontvangen 13-12-1985.
Tijdschrift voor Onderwijsresearch, 11 (1986), nr 2, pp. 83-96.
Some Aspects of School Careers
in Public and Non-Public Primary Schools*
p. van Laarhoven, B. Bakker, J. Dronkers, H. Schijf
^fiSTRACT
In this article effects by sector of school (public. Catholic, Protestant and private secular) on
school careers in primary education are examined. Several differential effects are found,
sometimes interacting with gender. However, the differences between Catholic and Protestant
schools are greater than those between public and non-public schools. Differences arc found in
rates of non-promotion, and somewhat less marked in achievement. Moreover, differences by
sector are found in parents' actual choices for secondary education. The article suggests that
•he differences may partly explain the persistence of denominational education in the
Netherlands.
1. INTRODUCTION
^^"cational system in the Netherlands is characterized by a large private sector, existing
(C "P'*?® a public sector. The private sector is for the most part composed of denominational
Wa • ".c and Protestant) schools. If 'pillarization' (verzuUing) along religious lines has been
^^ ning in the last decades, denominational schools show no sign of losing ground to the public
se Three-quarters of Dutch primary school pupils still receive schooling within the private
'^Part from denominational schools, there is also a small number of private secular schools
Ch, as a rule, are administered in accordance with particular educational conceptions. It must
^tressed, however, that nearly all schools in the private sector arc state-supported in the same
®"neras public schools.
" P^tch literature on education, one can find several explanations for the prevalence of
(fj^^'^.'national schools. One of the explanations is the so-called "differential affinity hypothesis"
soc " 1978). This hypothesis explains that 'pillarization' arose originally in sectors of Dutch
which had a strong affinity - sectors like education, particularly primary education, for
Ijjj'^P'c - with dominant persuasions. It is for that reason that those sectors will probably be the
hifih 'pillarization' disintegrates. According to Van Kemcnade (1968) Catholic parents set a
of , ^a'nc on religious cultivation of their children; they prefer Catholic schools for the inculcation
Kes ^"^'^^cd norms and values. This applies particularly to infant schools and primary schools.
(C Protestant parents yields a similar result. Likewise, orthodox Reformed Protestant
'pl^^-^pt'tneerde) parents still adhere to traditional beliefs, and they also retain a strong sense of
■arization' (Flaman, De Jonge and Westra 1974; Dc Jonge 1978).
^nti °yever, the current participation in Catholic and Protestant education cannot be explained
Cath ^ actual predilections of Catholic and Protestant parents. In 1965, fully a third of all
parents indicated a willingness to let their children attend public schools (Van Kemcnade
Pare '' ^^s estimated that only 66 per cent of all Catholic and Protestant
Would choose denominational schools for their children (Sociaal en Cultured Planbureau
pr^^eording to yet another explanation the actual participation does not refiect parents'
but rather their lack of alternatives. When new schools are founded, the current
reas "''on of schools across sectors is commonly taken as a starting-point. It is difficult for that
bog"" alter the existing ratio of private and public schools. Moreover, established school
^ and their organizations have powerful positions, and they can usually exert enough
84 P. van Laarhoven et al.
influence to maintain the existing distribution of schools (Bouhuijs and Boef-van der Meulen 1978^
Randsdorp and Dronkers 1982). Although many parents may prefer other schools, these may no'
be available within their neighbourhood, or if they exist, may belong to an undesired sector
Situations like these are experienced as especially undesirable in regard to infant schools an*)
primary schools. Parents can also be dissatisfied with the dominance of Catholic or Protestan'
schools. In newly urbanized districts, this dissatisfaction has sometimes motivated the foundatio"
of private secular schools in predominantly Catholic or Protestant areas.
A third explanation for the persistence of denominational schools can, perhaps, be attributed t"
differences of quality between public and denominational schools. It may well be that parents
beside being prompted by a religious affinity, choose Catholic or Protestant schools because thes^
supply better education. 'Better' not necessarily in the sense of superior norms and values bu'
rather in the sense of better schooling enabling a fuller development of their childrens' faculties.
Research in other countries reveals that denominational schools in some cases operate diffet'
ently than public schools. Coleman, Hoffer and Kilgore (1982; see also Hoffer, Greeley an^
Coleman 1985) have compared public and Catholic high schools in the United States; Yogev and
Chen (1985) have done the same for what they call 'religious schools' and 'secular schools' '"
Israel. The contexts and analyses differ too much to summarize them briefly, but the authors poin'
out that educational opportunities differ for private and public schools. In both countries, the
religious character of schools does not merely stand for the religious calibre of the education bu'
also for different patterns of achievement and selection.
These circumstances may also be of importance in the Dutch educational system, although not
all parents will, of course, demand the same kind of quality. Whatever these demands may be-
parents appear to be becoming more and more concerned about the quality of the schools attended
by their children. Often, however, it is impossible for parents to verify whether a particular schoo'
has the educational standing they desire. School sector (Catholic, Protestant, private secular o<
public) might therefore become a 'screening device' that enables parents to assess the quality of the
schooling their children are likely to receive. Denominational schools in the Netherlands are.
moreover, able to raise extra school fees and are, as a result, able to organize more extra-curricul^f
activities than public schools. Finally, they can probably also enforce both more effective disc''
pline and stringent educational demands.
It is because of this discussion that we want to examine the differential effects of CatholiC'
Protestant, private secular and public schools on educational achievement. However, because o'
restrictions in the data our investigation is limited to the effects on some key aspects of a pupi'j
school career. Our research is, moreover, confined to the mid-sixties, as the respondents completed
their primary education in 1965. The variable 'sector of school' is owing to the confidentiality
the relevant data not available for secondary analysis from more recent dataset. So we are, at the
present moment, unable to undertake a longitudinal extension of our research.
The central problem of this article can be stated as follows: the Catholic, Protestant, private
secular and public schools have differential effects on educational achievement allowing
gender, social background, province of residence, and characteristics of a pupil's previous schoO'
career.
2. DATA AND VARIABLES
The dataset we use for our analysis includes information on pupils who left primary schools "J
1965 (cohort 1965). This cohort is part of the so-called 'Van Jaar tot Jaar' (From Year to Yeaf'
research. In 1965, the Netheriands Central Bureau of Statistics sampled 405 schools from th^
population of Dutch primary schools. A stratified sample of 3042 respondents was then taken
from the 11170 sixth-grade pupils within this sample of schools. The Instituut voor Toegepast^
Sociologie (Institute of Applied Sociology) surveyed these respondents in a longitudinal research-
In this article we restrict ourselves to a subsample which consists of 924 boys and 921 gif'®'
According to Collaris and Kropman ( 1978:21 ) this subsample is representative for the population
School Careers in Primary Schools 85
of sixth-graders as a whole. The distribution of these respondents across sector also corresponds to
^^'^tribution in Dutch primary education as a whole,
j e use eleven variables in our research. A first group of variables contains information on
.'^'dual characteristics and socio-economic background: gender, pupil's religion, province of
sidence, occupational level of father, educational level of both father and mother.^ A second
oup consists of characteristics of a pupil's educational career: non-promotion, achievement
, m sixth grade, teacher's advice on secondary education, and first type of attended secondary
p 00I.3 pQyj. jypgj .(-hools are distinguished for the variable 'sector of school': Catholic,
otestant, private secular and public schools. All variables are considered as interval-variables;
cept for gender, pupil's religion, province of residence and sector of school which are treated as
"ominal variables.
3. METHODS
or statistical analysis we mainly use an analysis of covariance (ANOVA, see Nie et al. 1975, SPSS:
va • ^ This technique enables us to examine the relationship between a quantitative dependent
Pe"^ and quantitative independent variables (called 'covariates') as well as qualitative inde-
variables (called 'factors'). ANOVA provides a significance-test for the contribution by
yj ^^'"dependcnt variable to the explained variance of the dependent variable. Moreover, ANOVA
e ds estimates for the strength and the direction of the relationships. These estimates arc,
Wever, meaningless when there are interactions between covariates and factors. Hence it is
j essary to investigate if interactions like these are present. This has been done by entering
in P'^^'ct'ons as dummy-variables in a regression analysis. Interactions prove to be statistically
^ 'gnificant or very small. Moreover, they add very little to the explained variance of the
Pendent variables. Thus, we think it permits us to use the procedure ANOVA. ANOVA
joduces three estimates of the mean of a dependent variable for each category of a factor. They
3 «calculated by comparing the unadjusted mean of that particular category with:
b th ""«spondents);
c th mean when the other factors arc controlled for;
« adjusted mean when both factors and covariates arc controlled for.
'"thetables
we present only the first and the last estimate. In order to make the results form the
1,1 '"'cance-tests comparable with the estimates, the analysis of covariance is done in a non-
'p "^^rchical manner. The variables 'teacher's advice' and 'first attended secondary school' (or
^^ Pil's first choice of secondary education') are analysed for each category of these variables
(or categories are coded as follows: (0) the specified advice was not given by the teacher
tea h choice was not made by the pupil), or: (100) the specified advice was given by the
fea*! ' ^^ ^coding the categories in this manner, the b-paramcters produced by ANOVA can be
d as 'percentage of effect'.
'" addition
to ANOVA, we also have used T-tests to determine whether deviations between
gory means and grand mean are statistically significant.
4. RESULTS
Not religion and sector of school
pupil's religion and sector of school coincidc to a high degree; there are, however,
go schools are almost exclusively attended by Catholic pupils, and nearly all Catholic pupils
iiayg ^^tholic schools. But for Protestant schools the situation is different. If Protestant schools
'^efo ^ the same proportions of Dutch Reformed Nederlands Hervormd) and orthodox
''"led children, orthodox Reformed children are more faithful to their sector, whereas only
86 P. van Laarhoven et al.
Table 1. Pupil's religion by sector of school | ||||||||||||||||||||||||||||||||||||||||||
|
70% of Dutch Reformed children go to Protestant schools. Catholic and Protestant children
almost never attend each other's schools. On the other hand, public schools are attended bJ
children of whom over thirty per cent possesses a religious, as a rule a Protestant, background'
4.2. Non-promotion
Percentages of pupils who repeat one or more classes differ sharply for boys and girls, and by
sector of school. (We elucidate table 2 in some detail in order to indicate how the tables should b«
read).
a. Thirty per cent of all pupils repeated one or more classes in primary education (grand mean'
30%). The rows labelled with '(1)' show the unadjusted category means.'' Catholic schools haV
35% non-promotion; Protestant schools have a percentage of only 20.
Different percentages of non-promotion for boys and girls are visible for all types of school^
But public schools exhibit the most conspicuous differences: non-promotion of boys
.02++
.01++
Table 2. Non-promotion by sector, and by sex row 0): percentage of pupils who repeated one or more classes; (2): same, after controlling for social background and province of residence, | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
= .05, of which by SECTOR
SEX
PROV.
BACKGROUND
bocc. father-1.1 (-.04)
educ. father -2.9* (-.09)
"»educ. mother-1.4(-.03)
♦ : significant at .05-level (T-tcst)
** : significant at .01-level (T-test)
+: significant at .05-levcl (F-test)
++: significant at .01-level (F-test)
.02++
-ocr page 91-School Careers in Primary Schools 87
^gnificantly greater than the grand mean, whereas girls show a significantly lower percentage. In
holic schools both boys and giris have a percentage of non-promotion above the average; in
^testant schools these percentages are below the average,
rovince of residence has an effect, but only for a few provinces are the deviations from the
° and mean significant. Moreover, province of residence as a whole does not significantly
jj "'fbute to the explained variance of non-promotion.
^ • Kows labelled with '(2)' show the adjusted percentages allowing for father's occupation, level of
arc of both father and mother, and province of residence. The results of these adjustments
small, i.e. the distributions of pupils by sector and by gender are hardly influenced by the
^jstributions of social background and province of residence. Only secular schools differ consider-
c ^^^"se children in these schools have a higher social background than the average pupil.
■ contributions by the independent variables to the explained variance of non-promotion are
j^own at the bottom of table 2. The percentage of explained variance is small: 5% (R^ = .05).
Ig^vertheless, the contribution by sector is as large as the one by social background (2%), and
''Ser than the gender effect (1%). As for the covariates, the effect of father's education is
•j-j|?MParatively large (and according to the F-statistic, the only one significantly larger than zero),
ea h '"dicates that the probability of non-promotion declines - ceteris paribus - by 3% for
higher level of father's education.
Achievement scores
In ^'^'^"'^es in achievement scores, while present, are less prominent than those of non-promotion,
in ff variations among boys have a wider range than those among girls. Both boys and girls
rotestant schools score below the average. If allowance is made for their relatively high
Q ^^'Mtages of non-promotion, boys in public schools, and giris in Catholic schools perform well
he tests. At first sight, pupils in secular schools seem to attain high achievement scores, but this
^^"o longer true when both their advantageous social background and their low percentage of
Of .^"^^"Motion arc taken into account.
exni • factors we examined, the largest contribution comes from province of residence (2%
No variance). A clear pattern, though, cannot be discovered. The achievement scores in the
"" "ern provinces arc below the grand mean and in other parts of the Netheriands, scores are
pr f'")es equal to, sometimes below, the grand mean. Pupils in Catholic schools outside
thp ^'"inantly Catholic provinces (Limburg and Noord-Brabant) also score on par with or above
'eaverage.
ach '"dependent variables taken together, explain, for boys, 24% of the variance of the
,'®vement scores, and for giris 20% of the variance. The contributions by sector of school (2%
Hon " respectively), and by province of residence (1% and 2%) are small as compared with
"■promotion (9% and 11%) and social background (6% and 5%).
/\t ' ^'"■''cr'i advice on secondary education
the 'l^eir sixth grade course, pupils receive an advice (as a rule from the headmaster) on
as suitable type of secondary education. In 1965, teacher's advices were not yet compulsory
re„ became in the late sixties; the advices on which these conclusions are based were specifically
Sell ®sted "Me Netherlands Central Bureau of Statistics. The advices differ very little by sector of
Onlv° • well as gender. This holds whether or not educational achievement is controlled for. The
adv' ^'81'ficant exceptions arc secular schools. In these schools, pupils receive more teachter's
on senior general education (VHMO) and less advices on junior vocational education
how ''Me means of these forms of education would predict. The differences disappear,
Q. ver, when achievement scores are controlled for.
Cert'j Receive ^ 'eacher's advice on the highest level of secondary education no less than boys do,
at th y when their somewhat lower achievement scores are taken into account. As can be seen
tea , ® ^ottom of table 4, sector of school contributes only to the explained variances of
a^hj advice on senior education and on vocational education. The effect of educational
evement is by far the most important one, and it is more important than the effects of social
p. van Laarhoven et al.
Table 3. Achievement scores, deviations from the grand mean by sector, for boys en girls separately', (2): same, after controlling for social background and province of residence, | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
• : significant at .05-level (T-test) ♦* : significant at .01-level (T-test) + : significant at .05-level (F-test) ++ • significant at .01-level (F-test) |
l:see note 3''
background variables. Only the educational level of mother has an independent effect within tw"
of the four forms of secondary education; father's education only within one form. This result is i"
line with earlier findings that social background is essentially mediated through pupil's achieve'
ment.
4.5. First attended secondary school after primary education.
What form of secondary education is selected by pupils or their parents once they have complete^
primary education varies by sector, but the number of statistically significant deviations is sma"'
In 1965 a small fraction of primary school 'graduates' (3%) did not follow any secondary
education at all.
Boys and girls differ above all in their preferences for junior general education {LJLO)\ girls op'
significantly more often than boys for this form of education. The reverse pattern can be notice^
for senior education: boys more often choose this form of education than girls do.
Both girls and boys in public schools choose junior education somewhat more often than 'h'
average, whereas they select vocational education somewhat less than the average. Pupils i"
Catholic schools show a reverse order or preferences: they opt more often for vocational education
and less often for junior education. Moreover, boys in Catholic schools display a markedly high^'
percentage of preferences for senior education than girls (22% against 14%). But this discrepancy
becomes less prominent (19% against 16%) when the achievement scores of boys and girls ar^
taken into account.
In Protestant schools, junior general education is a favourite option, girls in particular shoW^
strong predilection for this form of education.
School Careers in Primary Schools 89
4. Teacher's advice by sector, and by gender
column (1): percentages of advices on particular type of school
__(2): same, after controlling for social background and achievement score.
ADVICE'
Catholic
secular
all
Protestant
(1)
13%
13%»
(2)
17%
30%
27%
25%
(gr. mean)
13%
42%
29%
16%
(2)
14%
(I)
12%
29% 30%
18% 43%**
(23)
(846)
(483)
SECTOR
public
(2)
11%
42%
43% 45%
28% 28%
15% 16%
(1775)
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(190) (430) (250) (11) (881) |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(233) (416) (233) (12) (894) |
O00%=)
VHMO
all
VGLO
LBO
ULO
^clJii^hby gender ^ariates father |
.08 .01 + .08++ |
.24 .23++ - 0.9 (-.03) - 1.5 (-.05) - 3.0++(-.07) |
.08 6.7^+ ( .29) |
.33 .32++ .48 .47++ .29++ .02+ .07++ .03 (.63) |
significant at .05-level (T-tcst)
significant at .01-level (T-test)
significant at .05-lcvcl (F-test)
significant at .01-level (F-test)
jn order to avoid unwieldy names in the tables, we use the regular Dutch acronyms: VGLO = continued
Pf'mary education, LBO = junior vocational education, ULO = junior general education, VHMO =
general education.
+
++
90 P. van Laarhoven et al.
Table 5. First choice, by sector, and by sex column (1): percentage of options for particular type of school column (2): same, after controlling for social background and achievement score | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
* : significant at .05-level (T-test) |
School Careers in Primary Schools 91
^ The number of pupils in secular schools is too small to draw clear conclusions. The most
outcome is probably the number of pupils who choose continued primary education
ed education was probably used by those pupils as another year of primary
"cation; it can probably also be seen as a predessor of the so-called 'bridge-class' or 'transition-
^^ < an institution that became compulsory with the extensive reforms of the Dutch educational
'ys^m at the end of 1960s.
j^'ne results concerning the explained variance are fairly similar to those of teacher's advice,
of school in this case contributes to the variance of all types of schools. Gender contributes
to the
variance of choices for junior general and senior general education.
^ • Pupil's first choice compared with teacher's advice.
il in the last two sections, teacher's advice exhibited little diversity by sector and by
nder, whereas the actual choices made by pupils proved to be more diverse. For this reason we
nt to examine in more detail the relationship between teacher's advice and pupil's first choice,
n table 6, we have put together the adjusted results from table 4 and 5. When we investigate
, ys and girls separately, several differences between junior general and senior general education
^^ome more distinct.
'''e 6. First choice compared with teacher's advice
column (%A): percentage of advices of particular type of school (after controlling for social back-
ground achievement score)
(%C): percentage of first choices
(%D): deviations of choices from advices
SCH^
Chatholic
sccular
all
%A %C %D %A %C %D
+3%
-7%
+ 1%
+ 1%
+2%
0% 0%
17% 31% +14%
30% 36% + 6%
27% 12%-15%
25% 18%— 7%
(23)
3% -1-3%
13% 7%-6%
42% 41% -1%
29% 32% +3%
16% 17% +1%
(1771)
' SECTOR
public
Protestant
%D %A %C %D %A %C
3%
14% 7%
43% 44%
28% 29%
15% 17%
(842)
School
SECTOR
public
%C %D %A %C %D %A %C
+5% - 3% +3% - 4% +4% - 0% 0% - 4% +4%
-4% 15% 7% -8% 13% 4% -9% 11% 30% +19% 14% 7%—7%
-7% 47% 46% -1% 40% 42% +2% 32% 32% 0% 43% 42% -1%
0% 26% 25% -1% 30% 32% +2% 26% 10% —16% 28% 28% 0%
+6% 13% 19% +6% 17% 18% +1% 31% 27%-4% 14% 19% +5%
(426) (250) (11) (877)
all
Chatholic
Protestant
sccular
%A %C %D %A %C
- 5%
•4% 10%
41% 34%
31% 31%
14% 20%
)(190)
^CHool SECTOR %C_ 3% %D +3% '''•®ble4notel. |
3% +3% - 3% + 3% 13% 8% -5% 8% 3%-5% 38% 42% +4% 44% 37% - 7% 30% 32% +2% 29% 43% +14% 18% 16% —2% 19% 14% —5% (416) (233) Chatholic Protestant |
0% 0% - 3% +3% 22% 33% +11% 11% 7%-4% 29% 41% +12% 41% 39% +2% 29% 14% -15% 30% 36% +6% 21% 9%-12% 18% 15%-3% (12) (894) all secular %A %C %D %A %C %D %A %C %D %A %C %D |
92 P. van Laarhoven et al.
Boys more often choose senior education than they are advised to do, whereas girls more often
the opposite. Since they tend to opt for lower levels of education girls lose their lead over boys wit''
respect to senior education. Many girls who have been rated by their teachers as suited for senio'
education end up in junior education. This happens particularly to girls in Protestant schools: tl"
ratio of teacher's advices on junior and senior education is 3:2 for girls, but the ratio of girls' fif^'
choices is 6:2.
It must be stressed that the distribution of first choices is, of course, not a characteristic o'
primary schools, but expresses the preferences of pupils. For parents do not have to follow ^
particular teacher's advice, except in those instances where there exist conditions for admittance
like the entrance examination for senior education. In order to examine differences due to th'®
parental autonomy by religion, we need more information which can be found in table 7, wher'
data are presented by separate categories of teacher's advice. This time the respondents are no'
divided according to sector, but according to religion. As mentioned in section 4.1., there is^
strong association between these two variables.
The attitude of orthodox Reformed parents towards senior education is the most conspicuous itei"
of table 7. Teacher's advice on this form of education is not followed by 40% of the pupils ( 15 ov'
of 38; 33% of the boys and 45% of the girls). This is in sharp contrast with the behaviour of oth«'
Protestant parents, who are the most faithful of all with respect to teacher's advice.
In general, boys show distinctly more ambition than girls. Catholic boys and girls display '''^
sharpest contrast: only 4 out of 69 boys do not follow their teacher's advice on senior education-
whereas 22 out of 66 girls do the same.
Finally, few parents apparently choose continued primary education for their children: despi'^
te fact that 13% of the pupils received such a teacher's advice, only a quarter of these pupf®
actually comply.
5. DISCUSSION
The problem stated in the introduction was: do Catholic, Protestant, private secular and publ'^
schools have differential effects on key features of pupil's school career. Our conclusion is that o'
the foui; aspects examined, differential effects can be observed for three characteristics: non'
promotion, achievement scores and first attended type of secondary school. The most substantia'
effect is on non-promotion, although this variable exhibits, as in eariier research, a disappointing'/
low percentage of explained variance. However, the contribution by sector of school is comparai''
vely high because this variable adds to the explained variance of non-promotion as much as a"
social background variables together.
The achievement scores, particulariy those of bôys, also vary by sector of school. For fif^'
attended secondary school differences are present but small, whereas those for teacher's advice ar^
negligible. The actual choices made by parents, however, result in discrepancies between teacher'®
advice and the first attended form of secondary education. In particular. Catholic and orthodo"
Reformed parents tend to depart from the received teacher's advice.
The differential effects of sector cannot be entirely attributed to other variables like gender an<J
social background. Although gender and province of residence are connectcd with sector o
school, this latter variable has an independent effect. In all instances, sector of school contribute®'
as much or more than gender, a variable of which the effect has been investigated time and again'
The differences between boys and girls of cohort 1965 are smaller than might be ex pected fron'
earlier research. But as the analysis in section 4.6. shows, both religious and non-religious paren'®
tend to entertain higher ambitions for their sons than for their daughters with respect to secondary
education, thus preserving the existing disadvantageous position of women in society.
Individual school careers are, of course, not terminated with the completion of primary
education. How denominational and public secondary schools contribute to the continuation
further fevelopment of these differences, will be the topic of a sequel to this research; there we W
examine the school careers of cohort 1965 in secondary education (Van Laarhoven et al. 1986)-
Our research still leaves many questions unanswered. To what extent, for instance, can tfi^
School Careers in Primary Schools 93
yr\ |
VO |
00 | ||
r4 |
Tt |
00 |
r-» | |
(N |
t< |
in |
(S |
r- |
w |
w |
w |
w |
w |
^ ^ ^
S
| ||||||||
oo cs — fS |
oo
+
fN
to <N
2 s
^ —
+
+
5
u
o
f
o
s i
i
r-. = 22
^ ^ ^
f: 2 =
OS
X
o
+
•<t — ^ ^ ^ vo — — Q. a ill 111 + a ll. w > u i O fe u -c x; f C — O o •a E II 6 z o w OS + +
!2 2 :£ r- vo — — u y, > x> < ULi u Q < o X .o (2 o o 3 ^ E £ c |
S ^ ge ^ o o S -J X D > s g |
4-
94 P. van Laarhoven et al.
S r^ S
— r<1 (N —
+
2 !Q
S
^ ^ ^ !
G g! ^ '
; ^ ^ îS
) UI Tf lO
•e
o
a
+
CH
g
3
Q
« s Î8
g
VO
Z
O
Ü
J c
si
— 00
^ i
^ ^ ^
2 =
o
J o o
u
u
öb<
o
s
X
>
School Careers in Primary Schools 95
differences we found be attributed to differences in quality of schooling by sector. Coleman et al.
emarlc rather provocatively that in the United States Catholic high schools have preserved a high
evel of quality because they are "not so well connected into the network of professional
ucational fashions and because they lacked the resources and the flexibility to search for
reliance" (1985:97, note 15).
We need more up-to-date information to investigate whether both religious and non-religious
Parents are currently using school sector as a 'screening device' for the quality of schools. If they do
this would at least partly explain the persistance of a 'pillarized' educational system in the
■Netherlands.
NOTES
This research has been made possible by a grant from the Dutch Department of Education and Sciences
through the Dutch Foundation of Educational Research (SVO) and the Foundation of Educational
Research of the University of Amsterdam (SCO). The data collected by the Instituut voor Toegepaste
^ociologie have been made available through the Steinmetz Archief. The first author and last author are at
the Sociologische Instituut of the University of Amsterdam, the second and third arc at the Netherlands
Universities' Joint Social Research Centre (SISWO).
"6 thank J. Faasse for his helpful comments and C. Disco for his corrections of our English.
^On '^°rrespondance to H. Schijf, Sociologisch Instituut, University of Amsterdam, Oude Hoogstraat 24,
'2CE Amsterdam, the Netherlands.
The following table gives some information about the stability of pupil's participation in public and
non-public primary education. According to Knippenberg en Van der Wüsten (1984) the share of
denominational schools in primary education reached its highest level at the end of 1930s, thereafter
it was stable till about 1965.
96 P. van Laarhoven et al.
REFERENCES
Bouhuijs, S.J. and S. Boef-van der Meulen, Vrijheid van onderwijs en bevoegd gezag, in: L. Box et al., Vrijheii
van onderwijs, Nijmegen 1978.
Coleman, J.S., Th. Hoffer and S. Kilgore, High School Achievement. Public, Catholic, and Private Schools
Compared, New York 1982.
Collaris, J.W.M. and J.A. Kropman, Van Jaar tot Jaar. Tweede fase, Nijmegen 1978.
De Jonge, J. De motivatie voor protestants-christelijk onderwijs, in: L. Box et al.. Vrijheid van onderwijSi
Nijmegen 1978.
De Leeuw, J. and L Stoop, Secundaire analyse van Jaar tot Jaar met behulp van niet-lineaire multivariate
technieken, in: J.L. Peschar (red). Van achteren naar voren. Den Haag 1979.
Flaman, D.J., J. de Jonge and T. Westra, Waarom naar de christelijke school?, Amsterdam 1974.
Hoffer, Th., A.M. Greeley, J.S. Coleman, Achievement Growth in Public and Catholic Schools, in: Sociology
of Education, 58 (1985), 74-97.
Knippenberg, H. and H. van der Wusten, The Primary School System in the Netherlands 1900-1980, in:
Tijdschrift voor Economische en Sociale Geografie, 75 (1984>-3,177-185.
Kropman, J.A. and J.W.M. Collaris, Van Jaar tot Jaar. Eerste fase, Nijmegen 1974.
Randsdorp, L. and J. Dronkers, Verzuiling in het onderwijs en het beleid van een bijzonder schoolbestuur,
Amsterdam (SISWO) 1982.
Sociaal en Cultureel Planbureau, Sociaal en cultureel rapport 1980, 's-Gravenhage 1980. ^
Thurlings, J.M.G. De wankele zuil. Nederlandse katholieken tussen assimilatie en pluralisme, Deventer 1978
(1971).
Van Kemenade, J.A. De katholieken en hun onderwijs, Meppel 1968.
Van Kemenade, J.A. (red). Onderwijs: Bestel en beleid, Groningen 1981.
Van Laarhoven, P., B. Bakker, J. Dronkers, and H. Schijf, Richting van de schooi en schoolloopbanen in hel
voortgezet onderwijs, paper presented at the Sociologcndagcn 1986, Amsterdam, April 1986.
Yogev, A. and M. Chen, Sponsorship as school charter: educational mobility in religious versus secular schools
in Israel, in: International Review of Modern Sociology, 12 (dec. 1985).
Manuscript ontvangen 30-7-1985
Definitieve versie ontvangen 16-1-1986
-ocr page 101-Tijdschrift voor Onderwijsresearch, 11 (1986), nr 2, pp. 97-113.
I^eco(iing Skills, Reading Comprehension and Spelling;
^ Longitudinal Investigation (*)
^^rtin J.C. Mommers, Jan F.J. van Leeuwe, Johan H.L. Oud and
^an M.A.M. Janssens
apartment of Educational Sciences. University of Nijmegen
abstract
In the first three grades of primary school reading and spelling skills develop relatively fast. Although
cross-sectional research may contribute to clarifying the relation between reading and spelling skills,
longitudinal research is necessary to discover causal relations and possible changes occurring within a
given period of time. This article deals with the results of such a longitudinal study. We conclude that
(a) it is necessary to discriminate between specific and general prerequisites when predicting the
achievements in reading and spelling, (b) decoding speed, reading comprehension and spelling are
distinguishable skills after an 8-month period of reading instruction, and (c) that, decoding speed,
reading comprehension and spelling achievements are predicted best by the same achievements at an
earlier stage.
1. INTRODUCTION
desirability of longitudinal research.
the past, the interrelations between decoding skills, reading comprehension and spelling have
een extensively studied. Generally, this research has been of a cross-sectional nature (Gibson &
evin, 1975; Resnick & Weaver, 1977; Waller&McKinnon, 1979). The relations are often causally
an P'i^'ed. Possibly here also, it holds true that 'causal effects' found in cross-sectional regression
to h are often being explained away when in longitudinal research, data are collected relating
the lagged dependent variable and this is included as an additional regressor in the equation
taw"^' "Mis article, dealing with the results of a longitudinal investigation, this has been
hert account. The data are derived from the research project 'Preventie van Leesmoeilijk-
den" ('The prevention of reading difficulties') carried out at the Department of Educational
'eiices of the University of Nijmegen. As part of this project, a longitudinal investigation into the
velopment of reading comprehension and spelling skills in the first three grades of primary school
started (see Van Dongen, 1984.)
Iif stages In the development of learning to read and spell.
J. .ji^^ding a distinction is made between decoding skills and reading comprehension. Decoding
fç . M^efer to the ability to sound out written words and sentences. Reading comprehension
a more thorough assimilation of the text on both the syntactic and the semantic level. A
's said to be understood when the author's message is comprehended. In spelling spoken
' ^ detailed description of this investigation can be found in a Research Paper of the Research Technical
Service, Department of Educational Sciences, University of Nijmegen, The Netherlands. M.J.C. Mom-
"'«'"s, J.F.J. van Lecuwe, J.H.L. Oud, J.M.A.M.Janssens, 'Een Longitudinaal Onderzoek naar de Samen-
tussen Technisch Lezen, Begrijpend Lezen en Spelling in de Eerste Drie Leerjaren van de Ugere
^ehool', ('A longitudinal investigation into the relation between decoding skills, reading comprehension
spelling in the first three grades of primary School.') Nijmegen, 1985.
98 Longitudinal research on decoding, reading and spelling
language is decoded into graphic symbols according to a number of orthographic rules.
In the first grade, formal reading and spelling instruction is usually taught on the basis of a
course or program. The technical aspects are heavily emphasized. There is hardly any distinction
as yet between decoding skills and reading comprehension. A distinction is made, however,
between prereading and beginning reading skills. Pre-reading activities are designed in order to
develop the attitudes and skills needed (reading prerequisites) before formal reading instruction
starts. The aim of beginning reading is to train children in word-attack skills. (LaBerge & Samuels,
1974).
If decoding skills are concerned with the decoding of graphemes, spelling is concerned with the
encoding of sounds (phonemes) that are distinguished in spoken words.
In the first grade far less attention is paid to reading comprehension than to decoding skills. This
is self-evident since certain technical skills are a prerequisite to being able to comprehend a tex'
quickly.
In the second and third grades reading and spelling skills are, as a rule, taught on te basis of
separate courses. The distinction between decoding skills and reading comprehension is less
clear-cut, although this distinction is made, as is apparent from the tests that have been develope''
specially for reading comprehension in these grades (CITO, 1979).
2. THE RESEARCH QUESTIONS
The aim of the investigation is to reach a better understanding of the interrelations between the
three above mentioned skills in the first three grades of primary school.
2.1. The starting point of formal reading instruction.
The first research question concerns the reading prerequisites. Learning to read does not begin
with associating written words with spoken ones. A number of skills must to some extent have
been developed if the process of learning to read is to run smoothly.
A first variable found to be of significance is phonemic awareness. The child must realise tha'
spoken words do not constitute indivisible units, but that they may be analysed into phonèmes-
T^e child must be able to segment spoken words in a relatively small number of components: the
speech-sounds or phonemes. The segmentation or analysis of spoken words into phonemes
(phonemic analysis) on the one hand, and the ability to blend separate phonemes into a word
(blending) on the other, are skills that are indispensable in learning to read and spell. Phonemic
analysis and blending are two aspects of phonemic awareness.
A second variable concerns the graphic aspect. Research has shown that the confusion of
separate letters is hardly ever an important cause of difficulties in learning to read. However, the
ability to distinguish and identify strings of letters or letterclusters does appear to be a cause of
difficulties.
Apart from the specific prerequisites mentioned, there is the general factor of intelligence tha'
does not only play an important part in learning to read and spell but^also in learning processes
with respect to other subjects.
The first research question may be subdivided into two separate questions: (a) Is the distinction
between general and specific reading prerequisites relevant to the prediction of reading an''
spelling achievements? (b) To what extent does the distinction between phonemic and graphic
aspects contribute to the prediction of the expected development of reading skills?
2.2. Skills distinguishable after 3 to 4 months of formal reading instruction.
After 3 to 4 months of formal reading instruction a number of pupils already commands the
elementary reading and spelling skills (word-attack and word encoding skills) with respect to
the phonemically regular, one syllable words of the consonant-vowel-consonant type. The second
research question concerns the extent to which empirically distinguishable aspects are to be found
in the development of reading and spelling skills after 3-4 months of formal reading instruction-
M.J.C. Mommers et al. 99
question is, in particular, whether h is possible to make a distinction between the ability to
Und out words (power aspect) and the speed with which this process of decoding takes place
peed aspect), the power aspect being considered a precondition of the speed aspect.
The relations between decoding skills, reading comprehension and spelling after 8 and after 12
.j^nths of formal reading instruction.
in f research question concerns the point of time after some eight months of reading
s ruction (the third point of measurement). At that point almost all pupils have made as much
Ogress as to have a good command of initial reading (blending) and spelling skills. Part of the
re ahead and they read a large number of words without sounding them out first. In
words they, to a considerable extent, make use of larger units (spelling patterns or
""nks') and/or word specific knowledge (Reitsma, 1983).
'^t the start of the second grade, that is, after some 12 months of formal reading instruction, the
''e frequent words are no longer read by sounding them out. The stage of beginning reading has
''een left behind. On the basis of an examination of the relevant literature, Seegers (1983)
eluded that the automatic recognition of words is a process already found in children with no
^l^^re than a few months of formal reading instruction but one developing only fully later on (in
^ the fourth grade). For beginning readers, a slow and attention-demanding decoding process
foll^ ^ serious impediment to reading comprehension. Perfetti and Lesgold (1979) explain this as
reading act consists of a series of processes. During a reading activity various subskills
^ competing for the limited capacity of working memory. For experienced readers the subpro-
tax^^ at the level of word-recognition largely operate in the automatic mode, and they no longer
full ''""'ted processing-capacity. For younger readers the automacity of recognition has not yet
Co ^ .developed. The extent to which these subprocesses tax the working-memory capacity
If an important source of individual differences between good and poor comprehenders.
diff ^^'s correct the disparities in reading comprehension can largely be explained by the
hv ^'^^"ees in speed in word recognition (decoding skills). The point seems to be whether this
Pothetical connection is found both after 8 months and after 12 months,
res relation between decoding skills and spelling no clear theoretical explanations with
skin ' causal order have been found in the literature. It is assumed though that decoding
Patt^ recognition) and spelling are distinguishable, since in reading the development of
ern recognition mechanisms as to visual features of words and spelling patterns is crucial
Içjj^'^eas spelling depends on the permanent storage of information regarding the component
feaH^^ and their sequence (Seymour & Porpodas, 1980). The fact that spelling skills lag behind
that ® ability means that pattern recognition of words or parts of words docs not imply
Con spelling structure of those words has been stored in the long term memory. It is
gj^ ceivable that decoding and spelling skills exert a mutual infiuence on each other. In view of the
"mentioned argument, however, we surmise that the influence of decoding skills on spelling
^ stronger than vice versa,
ti . e relation between spelling and reading comprehension is even more obscure. In the theore-
oth '^ature no clear arguments were found for a direct influence of the one variable on the
incP*^" ^'^^"'d. by way of a hypothesis, an infiuence be postulated, then we would rather be
r '"ed to assume an influence of reading comprehension on spelling than vicc versa, since
fo comprehension more generally calls upon the ability to discern connections and various
I pf reasoning, whereas the cognitive processes in spelling, such as discerning and using
°8'es and applying orthographic rules, are much more specific.
The relations between decoding skills, reading comprehension and spelling in the first three
Thef®''^-
" Wv research question concerns the longitudinal interrelations:
nich are the direct and indirect relations between the distinguished aspects of school readiness
|8eneral and specific reading prerequisites) at the outset of formal reading instruction on the one
^"d, and the subsequent development of reading and spelling skills on the other hand?
100 Longitudinal research on decoding, reading and spelling
- To what extent can decoding skills, reading comprehension and spelling be distinguished
empirically as separate factors at the various points of measurement, and, especially, how strong
is the influence of each one of them on itself in the course of time?
- Are there influences of factors at one point of measurement on factors of a different kind at 3
later point of measurement?
3. THE SAMPLE
The group to be investigated consisted of two samples, each consisting of pupils from the firs'
grade of 12 randomly selected schools from an area within a 70 km radius from Nijmegen. The firs'
group used the basal reading program 'Veilig Leren Lezen' ('Learning to read safely'; hencefortl'
VLL) (Caesar, 1980), the second group used the program 'Letterstad' 'Lettertown'; henceforth LS)
(Kooreman, 1976). At the start of the first grade (1979) the total number of pupils was 640. At th«
beginning of the fourth grade 480 pupils were left from this group. The largest number of drop outs
were due to removals, but pupils also had to repeat a class or were consigned to special schools-
Among the remainder of 480 pupils there were a number of whom at particular points o"
measurement one or more scores were found lacking. For each point of measurement, missinS
scores of testees have been replaced by estimated scores. The estimated scores were calculated o"
the basis of regression-equations in which the remaining reading and spelling variables of th®
relevant point of measurement have been included as independent variables and the missing
variable(s) as dependent ones. The regression weights have been calculated separately on the bas'S
of the data of each of the two samples. The real test score of at least one reading or spelling test a'
the particular point of measurement had to be known for a testee in order to be considered for th'S
procedure. In the case of 19 pupils this criterion was not met. The total number of pupils for eacli
variable for whom an estimate was calculated varied between 0 and 16, with a median value of ^
As a result of this a sample of 461 pupils remained, of whom 225 belonged to the VLL-group and
236 to the LS-group. It will be obvious that these groups consisted exclusively of pupils no'
repeating a class. The conclusions, therefore, only hold good for these groups of pupils.
4. THE MEASURING INSTRUMENTS
As far as possible it was attempted to use the same measuring instruments for both groups. For th«
first grade this was only partially successful on account of the different set-up of the two programs
in question. In Table 1 a summary is presented oJ the measuring instruments used from th«
beginning of the first grade up to and including the start of the second grade.
In Table 2 a summary is presented of the measuring instruments used from the middle of th^
second grade up to and including the third grade. These were identical for both groups of pupi'S'
5. THE PLAN OF THE ANALYSES
«
5.1. The Lisrel approach.
All the analyses in this study were executed means of the Lisrel program, version VI (Jöresko?
and Sörbom, 1981 ). The reason for the choice of the Lisrel method is the opportunity this approach
offers (a) to evaluate by means of the maximum likelihood method both the global as well as the
local fit of models in which (b) both cross-sectional and longitudinal effects may be included, and
(c) the possibility to employ observed as well as latent variables (Jöreskog and Sörbom, 1981 ; Sar'^
and Stronkhorst, 1984; van Leeuwe, 1984). The correlation-matrices of the measured variables
were taken as input to run the program on.
M.J.C. Mommers et al. 101
"^ablel. List of measuring instruments taken in the first grade and at the beginning of the
second, for each of both groups. The letters between brackets refer to factors on which
the variables in model 0 load.
measuring instruments
VEILIG LEREN LEZEN
measuring instruments
LETTERSTAD
(FACTOR)
Pointofume lA
Before the onset of formal reading instruction.
1- Eli, subtest matrices 4. Lettercluster identification test 5. Blending test 6. Phonemic segmentation test |
1. Eli, subtest matrices 2. Eli, subtest copying forms 3. Rating school readness kinder- 4. Lettercluster identification test 5. Blending test 6. Phonemic segmentation test (P) (P) |
Point of time IB
'^fter 4 months of formal reading instruction.
(DSO)
(PO)
(PO)
(PO)
7. 4x3/4-test
Caesar One Minute Test
8. Reading comprehension test
9. Beginning reading test
10. Spelling, -words VLL 1
10. Spehing,-words LS 1
Point of time IC
After 8 months of formal reading instruction
Caesar One Minute Test CITO Spelling, -words 2 CITO 11. 13. 14. 16. Spelling,-sentences B1 |
11. 3x3/4-test 12. AVI reading speed (text) 13. Reading comprehension 1A 14. Spelling, -words CITO 15. Spelling,-sentences A 16. Spelling, -sentences B1 (DSl) (SPl) |
Point of time 2A
After 13 months of formal reading instruction (second grade)
17. One Minute Test A Brus, Voeten 19. Reading comprehension IB CITO 20. Spelling, -words OBCE 1 21. Spelhng,-sentences B2 22. Spelling,-sentences CI |
17. One Minute Test A 18. AVI reading speed (text) 19. Reading comprehension IB 20. Spelling,-words OBCE 1 21. Spelling,-sentences B2 22. Spelling,-sentences CI (DS2) (DS2) (SP2) |
102 Longitudinal research on decoding, reading and spelling
Table 2. List of measuring instruments taken from the middle of the second grade up to the end E. Point of time 2 B | ||||||||||||||||
|
F. Point of time 3A
After some two years of formal reading instruction (beginning of the third grade)
30. One Minute Test A; Brus, Voeten (DS4)
31. AVI reading speed (text) (DS4)
32. Written assignments 3 (RC4)
33. Spelling, -words OBCE 2 (SP4)
34. Spelling,-sentences D2 (SP4)
35. Spelling,-sentences El (SP4)
G. Point of time 3B
After some two and a half years of formal reading instruction
36. One Minute Test A; Brus, Voeten (DS5)
37. AVI reading speed (text) (DS5)
38. Written assignments 4 (RC5)
39. Reading comprehension M3 CITO (RC5)
40. Spelling,-words OBCE 3 (SP5)
41. Spfelling,-sentences E2 (SP5)
42. Spelling,-sentences Fl
5.2. The distinction between the LS-group and the VLL-group.
In our research plan the LS-group and the VLL-group have been analysed separately. The reason
for this division is twofold. In the first place, as has" been noted in section 4, the measuring
instruments used are not completely identical for both groups. A second reason is that separate
analyses to some extent admit cross validation. The nature, direction and extent of the relations
between the latent variables should not, according to the supposition expressed in section 2.
diverge too widely. The research plan chosen allows for differences or correspondences between
both groups.
5.3. The distinction between beginning reading and developmental reading'
As has been explained in section 1 a distinction should be made between the period of beginning
reading (up to the start of the second grade) and the period of transition from beginning reading t"
developmental reading (up to and including the third grade). The research questions in 2.1 up t"
and including 2.3 refer to the first period, those in 2.4 to the second period. This distinction was the
measuring instrument (FACTOR)
M.J.C. Mommers et al. 103
Jpason to analyse the data in two stages. As a first step those models were analysed that relate to the
'"■st period only. At a later stage, the data up to and including the third grade were added.
The postulated starting model.
^nen designing a model for longitudinal data, the time factor is obviously of great importance.
Especially, it is quite impossible to presume influences of variables later in time on those earlier in
'.He. Apart from that, the following theoretical considerations, which constitute a further elabora-
'on of the ideas menti<»ned in section 2, have led to the design of the starting model (Model 0)
represented in figure: 1:
The reading prerequisites measured at the start of the first grade (point of time 1 A) either directly
indirectly influence all variables later in time.
■ After three to four months of formal instruction (point of time IB) the reading tests are
^i^bdivided into speed and power tests. Since at this stage the reading speed depends on the
precision with which words are sounded out, an influence of the power aspect (PO) on the speed
^Pect (DSO) is postulated.
The speed aspect continues in Decoding Skills (DS), the power aspect is broken up into Spelling
^^P) and Reading Comprehension (RC). In the course of the first grade the process as described
^der b. is actually reversed: Reading Comprehension and Spelling are considered to be deter-
•"'ned by the decoding speed, as measured in Decoding Skills. This is seen in relation to the limited
"Capacity of the working memory, when coding and decoding processes proceed more or less
Automatically on account of which more attention may be paid to other processes. It also seems
P'ausible to assume that at such an early stage the comprehension of words and word-structures
has
a positive effect on spelling achievements.
Apart from the cross-sectional effects the longitudinal influences concerning the three separate
fetors of Decoding Skills, Reading Comprehension and Spelling play a prominent part in the
"lodel.
'n figure 1 both the measured variables (squares) and the latent variables (circles) have been
"larked. In this figure we have drawn upon the LS-data. The numbers refer to tables 1 and 2. The
"'fference with the model for the VLL-data is slight. For the latent variables indicated by DSO,
104 Longitudinal research on decoding, reading and spelling
PO, DSl and SPl, some discrepancies for the VLL-data with respect to the observed variables of
the LS-group. These discrepancies are indicated in tabel 1.
For the sake of clarity the measured variables in the following figures have been deleted, and
only the standardised path coefficients belonging to the structural equations have been indicated-
6. THE RESULTS
6.1. The analysis up to the start of the sccond grade (points of time lA, IB, IC and2A).
In discussing the results we have drawn upon the LS-data. The data of the VLL-group are analysed
along the lines found for the LS-group as much as possible in order to facilitate the comparison
between both groups.
6.1.1. The LS-group
The starting point for the successive stages of analysis was the model in figure 1, restricted for the
analyses in this section to the points of time 1 A, IB, IC and 2A. Six Lisrel models were analysed
Table 3. Results of the analyses up to the beginning of the second grade "Letterstad" group- | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
M.J.C. Mommers et al. 105
consecutively. The results of these analyses as to the global fit of the models have been summarized
'"Tables.
Model 1 is model 0 (see Figure 1) restricted to the first four points of time. The ML (maximum
"Kelihood) solution for this model did not show a very acceptable fit (see the global measurements
of fit GFI and AGFI in table 3). In order to improve this, we concentrated in the first instance on
'"e variables loading on the General Reading Prerequisites factor (P). The modification-indices of
'he covariances between the errors of measurement that remain after the General Reading
Prerequisites factor has been introduced indicate that the poor fit might be due to the conceptual-
J^tion of the reading prerequisites. High modification-indices occurred with the covariances
oetween the errors of measurement of the subtests of the ELI and between those of the Blending
'est and the Phonemic Analysis test. The modification-indices of the path coefficients involving the
ycneral Reading Prerequisites factor also turned out to be very high. As an hypothesis, it was
"iferred from this that, apart from the General Reading Prerequisites factor another two specific
reading prerequisites factors are to be distinguished, one relating to ELI (EL), measuring the
reasoning ability, and one (AU), measuring the auditory aspects. Since it was not clear in advance
"ow these specific reading prerequisites factors could possibly affect the speed factor and the
Power factor at the following point of time IB, and by way of these the factors at the subsequent
Points of time, it was decided to exercise caution. In the first instance, the factors EL and AU were
"Produced without influences to the next point of measurement.
Model 2 shows a clear improvement with respect to model 1. Not only does the global fit go up
Out, in addition, the path coefficients from P to DSO and PC went up. A closer examination of the
j^esults in the light of the modification-indices showed that the Auditory Reading Prerequisites
'actor may exert an influence on the Speed factor of point of time IB and on the Decoding Skill
'actor of point of time IC. Moreover, we noted that the General Reading Prerequisites factor
Possibly continues to exert an influence on the Reading Comprehension factor both at point of
j,"ne 1C and at point of time 2 A and also on the Decoding Skills factor at point of time 1C. Apart
rom that, the modification index caused us to add an effect of Speed on Reading Comprehension
Point of time 2A. Due to the low coefficient in model 2 it was decided to omit the effect for the
Point of time 2 A of Reading Comprehension on Spelling. Thus model 3 was developed.
Again the fit improved not inconsiderably (see table 3). The modification-indices, however,
showed that the global fit could still be improved by taking into account the correlated errors of
'Measurement for the four pairs of variables that have been marked in table 3 under 4. These errors
measurement correlations are most likely related to the way the test pair is taken which is always
"^entical. In a following analysis the covariances between the mentioned pairs of errors of
'I'easurement were left free. Likewise, the non-significant influence of the Power factor (point of
'"ne IB) on Reading Comprehension (point of time IC) was omitted.
The improvement with respect to model 3 is not very great. From the modification-indices it
Appears that further improvement is feasible by having the AVI reading speed tests loaded at the
Point of time 2A on the Reading Comprehension factor. Apparently, apart from the relation
oetween the AVI reading speed tests at the point of time 2A and the AVI reading speed tests at the
Point of time 1C, the relation with the 'Lees en begrijp' ('Read and comprehend') test 1B also plays
® Prominent part. In model 5 the AVI reading speed tests also received a loading on the RC factor
the point of time 2A.
In reviewing the results of model 5 we observed that many relatively high modification-indices
^cre related to the variable 'Rating of the kindergarten teacher'. This variable is a five point scale
^•'h a very skew distribution. The modification-indices found indicate that the skew distribution
Possibly results in a substantial reduction of the global fit. For this reason this variable was omitted
rom the analysis in model 6.
Model 6 is shown in figure 2. As is apparent from table 3 the fit of this model is satisfactory. In
IJc modification-indices no indications could be discovered to change the model in such a way that
n« fit would be better and theoretically acceptable at the same time.
106 Longitudinal research on decoding, reading and spelling
Figure 2: Model 6 LS-group.
6.1.2 The VLL-group.
In order to facilitate the comparison of the results with the two groups, the same model was take"
as a starting point for the VLL-group as for the LS-group (see figure 1). The results of the variou®
analyses are, as far as the global fit is concerned, summarized in table 4.
The results of the first analysis have been reproduced under model 7 in table 4. As with th®
LS-group the fit is not entirely satisfactory. Here too, high modification-indices occurred with
respect to the covariances of the errors of measurement between the subtests ELI matrices and EL'
copying forms, and between the Blending test and the Phonemic Analysis test. This strengthened
the suspicion that apart from the General Reading Prerequisites factor two other factors need to ^
distinguished: (a) one relating to the ELI subtests Matrices and Copying forms, and (b) on^
relating to Blending and Phonemic Analysis.
But clear differences between the results were also found. In model 7 the slightly negative path
coefficient from the General Reading Prerequisites factor (P) to the Speed factor (DSO)
conspicuous, whereas the coefficients in which the Power factor (PO) is involved are clearly highef
than in model 1. A plausible explanation is that for the LS-group only a spelling test is loading on
the Power factor, whereas with the VLL-group, in addition to the spelling test, two reading
comprehension tests were loading on the Power factor. The Power factor for the VLL-group does
not only apply to the elementary spelling act (word-encoding skills), but also to the elementary
reading act (word-attack skills).
As with the LS-group, the two additionally formulated prerequisites factors (EL and AU) were
included in the next analysis, but were not yet linked by means of arrows with the remaining factors
(model 8). Thereupon the same arrows were added as in model 3 to allow for an improved fit
(model 9). Although the fit of model 9 is a little better than that of model 8, the improvement is
clearly less than with the LS-group. This becomes understandable if one realizes that on the basis
of the modification-indices certain arrows would not have been drawn for the VLL-group-
Moreover, a number of arrows in model 9 turned out to yield negative or non-significant
coefficients. Thus, the differences with model 3 can also partly be explained by the above
mentioned differences in the composition of the PO-factor.
In the following analyses (models 10-12) the LS-model was modified for the VLL-group data-
Comparison of the VLL-model 11 in Figure 3 with the LS-model 6 in Figure 2 shows that the mos'
important discrepancies which have, for the greater part, already been incorporated in model lO-
M.J.C. Mommers et al. 107
Table 4. Results of the analyses up to and including the second grade, 'Veilig Leren Lezen' | ||||||||||||||||||||||||||||||||||||
|
and DSO, DSO on RC2, AU on
DSL
- Introduction (on basis of
modification indices) effects of AU
on PO and of RC2 on SP2.
- Introduction errors of measurement
correlations between AVI(IC) and
AVI(2A), Caesar EMT(1B) and
Caesar EMT(1C), Spelling,
-sentences B2(2A) and Spelling,
-sentences C2(2A)
■ Introduction loading from AVI(2A)
on RC2.
Elimination Test Beginning Reading 180.57 133 0.004
and Reading Comprehension Test.
0.923
0.889
'2. Model 10 with arrows between 267.98 169 0.000
factors RC and SP reversed.
0.899
0.862
'n model 11 the quesdon is asked whether the still fairly unsatisfactory solution of model 10
^ould be improved by eliminadng from the PO factor both reading comprehension tests. This, in
.^ct, turned out to be the case (see model 11). More or less surprisingly the global fit of the model
^proved eventhough all coefficients in which the PO factor was involved became clearly lower,
p the other hand, the coefficients of the arrows from P to RC 1, from RC 1 to SPl, and from RC 1
0 RC2 showed a substantial increase.
Since a better fit was found for the LS-group by leaving the ratings of the kindergarten teachers
1 the school readiness of the pupils out of consideration, model 11 was also analysed without this
triable. Instead of an improvement this resulted in a decrease of the GFI from .923 to .908.
Since the reladon between reading comprehension and spelling is not quite evident from a
eoretical point of view, we finally report the results of an analysis in which the direction of the
■"rows between the Reading Comprehension factor and Spelling factor in model 10 were reversed
^"lodel 12). The chi-square value increased from 255.78 to 267.98.
108 Longitudinal research on decoding, reading and spelling
Figure 3: Model 11 VLL-group.
6.2. The analysis up to the end of the third grade.
In order to answer the fourth research question those variables recorded at the end of the second
grade (point of time 2B) and in the third grade (points of time 3A and 3B) were included.
summary of the variables involved, which are identical for both groups, will be found in Table 2-
As with the points of time IC and 2A, the measuring instruments were linked with one of the
following three factors: Decoding Skills (DS), Reading Comprehension (RC) and Spelling (SP)-
On the basis of the content of the tests and the correlations found, a strong longitudinal effect wa®
surmised for each factor. This applies both to the LS-group and to the VLL-group. Therefore, in
the first instance, a model was postulated in which for the points of time 2B, 3A and 3B only these
longitudinal effects for each factor are included.
Thereupon, for each point of time, the influences from Decoding Skills to both Reading
Comprehension and Spelling were included as well from Reading Comprehension to Spelling-
These influences are postulated in accordance with the results of previous analyses and theoretical
points of view.
In sectfon 6.2.1 the results of the LS-group will be described, in section 6.2.2. the results of the
VLL-group will be discussed.
6.2.1. The LS-group.
Starting from model 6 (see figure 2) the extended model 13 has been designed. For the newly
introduced points of time, in addition to the influence of each of the three factors on itself on the
subsequent point of time, analogous to model 6 the influence of the General Reading Prerequisites
factor on each of the successive Reading Comprehension factors has been included. The results
concerning the global fit of this model have been indicated in table 5.
Model 14 (see figure 4) derives from model 13 by inserting for each added point of time the
relations between Decoding Skill, Reading Comprehension and Spelling in the way described.
As to the p-values, the results of both models are not entirely satisfactory. Although model
shows a somewhat better fit than model 13, model 14 does contain a number of coefficients that do
not deviate significantly from zero. No systematic pattern, however, may be discerned. It is very
striking in both models to see the path coefficients for the connections between the same factors at
successive points of time to be very high. (In some cases they even somewhat exceed the value 1-
This phenomenon, which in some instances is accompanied by negative values in other coef'
ficients, is most likely to be attributed to random fluctuations.) As compared with this, the feW
consistent cross-connections between the factors are of little importance.
M.J.C. Mommers et al. 109
Table 5. Results of the analyses up to the end of the third grade, 'Letterstad' group. | ||||||||||||||||||
|
figure 4: Model 14 LS-group.
^2.2. ne VLL-group.
?'arting from model 10 the extended model 15 has been designed. As with the LS-group only the
'"fluenee of the Decoding Skills factor, the Reading Comprehension factor and the Spelling factor
^themselves at the subsequent point of time was included for the points of time 2B, 3 A and 33.
Jbe influence of the General Reading Prerequisites factor on Reading Comprehension was left
"l^ee. In model 16 (Figure 5), moreover, the influence of the Decoding Skill factor on the Reading
^omprehension and Spelling factor has been added, as well as an influence of the Reading
Comprehension factor on Spelling.
In Table 6 the results with respect to the global fit have been shown.
As with the LS-group the p-values are somewhat disappointing. Again some coefficients do not
deviate significantly from zero. (Coefficients lower than .15 are not significant on the 5 percent
®vel.) As in models 13 and 14 of the LS-group the path coefficients between the identical factors at
Successive points of time are, on the whole, very high. It is probably on account of this that
ctoss-connections between factors are 'explained away'.
110 Longitudinal research on decoding, reading and spelling
Table 6. Results of the analyses up to the end of the third grade, 'Veilig Leren Lezen' group- | ||||||||||||||||||
|
7. DISCUSSION
Of late years it has been attempted to design models of the reading processes and that of leaming to
read (Singer & Ruddell, 1976). Most of these models have not been sufficiently empirically
validated, although some progress in that direction has been made. In only a few instances,
however, has the Lisrel procedure been made use of. An example is the research done by
Frederiksen (1982). The above mentioned authors try to break up the reading process into
components or subskills in order to gain more insight into the course of the complex reading
process. According to them, it is essential to specify the components or subskills very accurately
and, if possible, to make them operational in very specific tasks (cf. Frederiksen, 1982; Curtis,
1980).
Most tests used in the 'Prevention of Reading Difficulties' project are too complex to enable one
to distinguish such components clearly. In part, this difficulty can be obviated by defining
components as factors on which the tests load. This has been done in the research in hand-
M.J.C. Mommers et al. 1931
Although the Lisrel-models that are presented here may not be considered ideal, they derive their
value from the interplay between both theory and empirical data.
In many reading models, a distinction is made between several processing levels of information
that plays a part in the reading process. A main category usually distinguished are the decoding
skills (word-attack skills). In addition, the 'comprehension' or the 'ability to relate something to
something else' has been mentioned as an important main category. Our results do not disprove
this classification. Moreover, just as in the reading-models of others spelling appears to be a
Separate category.
As emphasized previously, the models ultimately found (model 6, model 11, model 14 and
model 16) cannot be considered definitive, not only on account of the less than perfect fit, but also
on account of the explorative procedure followed. Further testing among other populations and
Under different circumstances is called for in order to justify generalizations.
That cautious conclusions may nevertheless be arrived at is due to the fact that the coefficients
■ound for the various variants of the model show a certain stability and that, apart from some
differences resulting from the nature of some tests, the results of the LS-group and the VLL-group
largely agree with each other.
As to the results, we would like to stress the following points.
With respect to the question of the difference between general and specific reading prerequisites,
hoth the LS-group and the VLL-group force one to distinguish between a general and a specific
'actor. Although the blending test and the phonemic analysis test load on the general factor, they
also clearly constitute a specific auditory factor. This factor must be considered an important
aspect of'phonemic awareness' (Mommers, van Dongen, Wolfhagen, 1984).
The influence of the general factor is, however, clearly stronger than that of the auditory factor.
Moreover, it appears to have a fairly strong, direct influence on reading comprehension, particu-
arly so after 8 months of formal reading instruction. The significance of the auditory aspects of the
hnguistic awareness should not be underestimated. However, the direct influence of the general
factor on reading comprehension may indicate that conceptual knowledge, as understood in the
Schema-theory (Anderson & Pearson, 1984), plays an important part in learning to read at an early
stage already. For early reading instruction, this implies that one should not restrict oneself to
auditory aspects of words and sentences. A lot of attention should also be paid to concept
formation.
As to the question of the aspects that may be distinguished empirically after 3 to 4 months of
'ormal reading instruction, for both groups decoding speed and spelling turn out to be distin-
guishable empirically. Also, the former is influenced by the latter. This influence calls for some
elucidation. Spelling a word is a different skill than reading a word. But at this stage, in spelling as
^ell as in reading, words are used that are orthographically simple and regular. Every grapheme
eorresponds to a certain phoneme. When spelling, the pupil must analyse a word into phonemes
and when decoding he must blend phonemes into a word. The one skill supports the other.
Children being able to spell such words well can usually read them well too. The speed with which
the decoding process takes place, however, is a different thing. But a child must first be able to
decode words before it can do this quickly. The influence of Spelling on Decoding Skill (in which
Speed plays an important part) to some extent supports the view that at this initial stage accuracy in
me analysis and blending of words is a prerequisite to learning to decode quickly,
e- The third research question concerns the relation between decoding skills, reading comprehen-
sion and spelling after eight and twelve months of formal reading instruction. The expected
difference between the Decoding Skills factor (decoding speed), the Reading Comprehension
'actor and the Spelling factor is confirmed in both samples. Moreover, it turns out that at the end
of the first grade (IC) Decoding Skills clearly influence Reading Comprehension. These path
Coefficients are not as high, though, as to be able to trace differences in reading comprehension
almost completely to differences in decoding skills as Perfetti and Lesgold (1979) seem to conclude.
The difference between the results of our analysis and those of Perfetti and Lesgold (1979) may be
112 Longitudinal research on decoding, reading and spelling
caused by the differences in research procedures. In the experiments of Perfetti and Lesgold
longitudinal aspects were left out of consideration.
There also exists an influence, however, of Decoding Skills on Spelling. Both in Decoding Skill
and Spelling orthographic representations stored in the internal lexicon play a part. In order to
spell a word correctly, higher demands are made upon those orthographic representations than in
reading. Some children with no apparent reading difficulties do have spelling difficulties. The
repeated reading of words can only to some extent improve the quality of the orthographic
representations (Frith, 1980; Jorm, 1983). Therefore, one should not expect the path coefficients
from Decoding Skills to Spelling to be very high.
The relation between Reading Comprehension and Spelling is not so clear, although it is
suspected, on the basis of the global fit of the models, that the influence of Reading Comprehen-
sion on Spelling is somewhat stronger than vice versa.
d. The fourth group of research questions concerns the longitudinal connection between the
distinguished aspects of reading and spelling in the first three grades. In answering these questions
it should be realized that the models do not show a very satisfactory fit. In the interpretation great
caution is called for. Yet, a number of results are sufficiently clear to warrant a tentative answer,
the more so when these results agree with both samples.
From the high path coefficients for the effects of the factors on themselves it may be concluded
that Decoding Skills, Reading Comprehension and Spelling, starting from the point of measure-
ment 1C (after eight months of formal reading instruction), are clearly distinguishable factors. The
distinctive character of these three factors is revealed much more clearly than in cross-sectional
correlational research. These results correspond with the aforementioned assumption by Oud
(1978) that cross- sectionally found causal effects often decrease or disappear altogether in favour
of 'memory effects' in longitudinal research. Buder et al. (1985) also found fairly high path
coefficients between the reading factor at the three points of measurement in the first, second and
third grade. That our path coefficients are sdll higher is possibly due to the distinction made
between Decoding Skills and Reading Comprehension. Butler et al. do not make this disdncdon-
After point of measurement 2A (at the beginning of the second grade) the interconnecdons do
not show a very consistent picture. What is remarkable, however, is the direct influence of the
General Reading Prerequisites factor (P) on Reading Comprehension. Apparently, comprehend-
ing simple texts is more than just being able to decode words quickly.
The above mentioned results do not imply, however, that Decoding Skills, Reading Compre-
hension and Spelling would be independent in a correlational sense. The correlations between
these factors are quite considerable. Although not perfect, they vary between .45 and .76 in the
LS-group, and between .31 and .70 in the VLL-group.
Despite their inter-correlations these results are of importance for the planning of course
material, the formulation of objectives and goals and the diagnosis of reading and spelling
difficulties. In an integrated course of formal reading instruction, a fair amount of attention wil'
have to be paid to the specific nature of decoding skills, reading comprehension and spelling (see
also Shanahan, 1984). ^pils with reading and spelling difficulties will have to be examined on all
three of these factors, because, due to their relative indépendence, discrepancies may exist between
the stage of development of the respective skills. Although the variables were measured fairly
globally, the clear relations that have nevertheless been found in this longitudinal research are
remarkable both from a theoretical point of view and from the practical point of view of formal
reading instruction.
LITERATURE
Anderson, R.C. & Pearson, P.D. (1984). A schema-theoretic view of basic processes in reading
comprehension. In: P.D. Pearson (ed.). Handbook of reading research. New York-
London, p. 255-291.
Butler, R.S., Marsh, H.W., Sheppard, M.J. & Sheppard, J.L. (1985). Seven years longitudinal
-ocr page 117-M.J.C. Mommers et al. 113
study of the early prediction of reading achievement. Journal of Educational Psychology,
77, 3,349-361.
Caesar, F.B. (1980). Handleiding bij Veilig Leren Lezen, 3 delen, Tilburg.
CITO (1979). Lees en Begrijp 1 en 2, Arnhem.
Curtis, M.E. (1980). Development of components of reading skill. Journal of Educational Psycho-
logy 11,
dongen, D. (1984). Leesmoeilijkheden. Naar diagnostiserend onderwijzen bij het leren lezen. Til-
Prederiksen, J.R. (1982). A componential theory of reading skills and their interactions. In R.J.
Sternberg (Ed.), Advances in the psychology of human intelligence, Hillsdale, N.J. p.
125-180.
f^rith, U. (1980). Unexpected spelling problems, in U. Frith (ed.). Cognitive processes in spelling.
London.
'Gibson, E.J. & Levin, H. (1975). The psychology of reading. Cambridge (Mass.)
Jöreskog, K.G. & Sörbom, D. (1981). Lisrel V: Analysis of Linear Structural Relationships by
Maximum Likelihood and Least Squares Methods Chicago.
Jorm, A.F. (1983). The psychology of reading and spelling disabilities. London.
Kooreman, H.J. (1976). Letterstad. Groningen.
LaBerge, D. & Samuels S.J. (1974). Toward a theory of automatic information processing in
reading.: Cognitive Psychology, 6,293-323.
Leeuwe, J.F.J, van (1984). Lisrel notities. RTD-PAW, Nijmegen.
Mommers, M.J.C., van Dongen, A.J.N. & Wolfhagen H.A.P.(1984). De ontwikkeling van het
linguïstisch bewustzijn en leren lezen. In: A.J.W.M. Thomassen, L.G.M. Noordman &
P. A.T.M. Eling (Red.) Het leesproces, Lisse.
l^oordman, L.G.M., Eling, P. A.T.M. & Thomassen A.J.W.M. (1984). Een overzicht van het lezen
als psychologisch proces. In A. J.W.M. Thomassen, L.G.M. Noordman & P.A.T. M.
Eling (Red.) Het leesproces. Lisse.
^ud, J.H.L. (1978). Systeemmethodologie in sociaalwetenschappelijk onderzoek. Nijmegen: Alfa.
•^erfetti, C.A., & Lesgold, A.M. (1979). Coding and comprehension in skilled reading and
implications for reading instruction. In L.B. Resnick & P.A. Weaver (Eds.) Theory and
practice of early reading. Hillsdale, N.J.
Reitsma, P. (1983). Phonemic andgraphemic codes in leaming to read. Amsterdam.
Resnick, L.B. & Weaver P.A. (Eds) (1977). Theory and practice of early reading. Hillsdale, N.J.
Saris, W.E. & Stronkhorst, L.H. (1984). Causal Modelling in non-experimental research: Introduc-
tion to the Lisrel approach, Amsterdam.
Seegers, G. (1983). Individuele verschillen in leesvaardigheid: verslag van een literatuuronderzoek
(SVO-project 0523) Instituut voor Onderwijskunde, Katholieke Universiteit, Nijmegen.
Seymour, P.H.K. & Porpodas C.D. (1980). Lexical and non-lexical processing in dyslexia. In: U.
Frith (Ed.) Cognitive processes in spelling. London, New York.
Shanahan, T. (1984). Nature of the reading-writing relation: an exploratory multivariate analysis.
Journal of Educational Psychology, 76, 3,466-477.
^ger, H. & Ruddell R.B. (Eds). Theoretical models and processes of reading (2nd ed), Delaware,
^orndike, R.L. (1974). Reading as reasoning. Reading Research Quarterly. 9,137-147.
waller, T.G. & McKinnon G.E., (1979). Reding research: advances in theory and practice. New
York.
"arren, W.H., Nichols D.N. & Trabasso (1979). Event chains and inferences in understanding
narratives. In: R. Freedle (Ed.), New directions in discourse processing: Advances in
discourse processes (Vol. 2) Hillsdale, N.J.
^gwaard. A., Dongen, D., Ven, C.v.d. (1982). Kinderen met leesmoeilijkheden in de
eerste klas: wat voor kinderen zijn dat en wat gebeurt er met hen? In: J.G.L.C. Lodewijks
en P.R.J. Simons, Strategieën in leren en ontwikkeling. (Swets en Zeitlinger), Lisse.
Manuscript ontvangen 24-9-1985.
definitieve versie ontvangen 19-12-1985.
Tijdschrift voor Onderwijsresearch, 11 (1986), nr 2, pp. 114-117.
COMMITTEE JUDGMENT OF RESEARCH PROPOSALS: THE LIMITS OF
QUANTITATIVE ANALYSIS
P. G. Swanborn
In a recent publication Hofstee (1983) concluded that the mean interjudge-correlation coefficient
over 54 research proposals, judged within advisary committees of the Dutch Foundation fof
Educational Research, SVO, is as low as .14. Scheerens (1986) confirms this conclusion in his
replication study on 239 proposals. Scheerens replaces the correlation coefficient by an agreement
measure, and he adds several sophisticated procedures of data analysis.
The central problem is, of course, the reliability of the final committee judgment (this judgment
is expressed by A, B or C; A stands for "money granted"; B for "minor changes, and/or further
information wanted"; C for "rejected"): in how many cases another more or less similarly
composed committee would have reached the same conclusion. There is no definite answer to this
question, although an estimation under certain assumptions is possible. A real life simulation (the
procedure repeated over the same proposals by several committees) should produce more direct
information, but was never undertaken. Committee members, mostly Dutch university professors,
wouldn't be very much in favour of this since the burden of judging research proposals (50-100 a
year) is heavy enough already. The reported low interjudge agreement data can be expected to lead
many readers, especially those whose proposals were refused, to the conclusion that there is little
difference between the complicated and time-consuming SVO procedure and a lottery game. In
this contribution it is emphasized that a low initial (for that is what concerns Hofstee and
Scheerens) agreement between judges is plausible for a number of reasons. In the second place it is
argued that discussions during committee sessions do form an intrinsic part of the judgment
process.
Some preliminary remarks on practical aspects of the procedure may be helpful. Each one of the
committee members (SVO has 3 or 4 committees, each counting 4-6 members) periodically
receives a number of research proposals, accompanied by blank judgment forms. In the early days
they were accompanied by a "judge instruction", but this attempt to homogenize has never been
very popular. Each one of the judges is asked to use 6 five-point scales on the following variables'
( 1 ) completeness; (2) adequacy of the design; (3) guarantees for completion; (4) scientific relevancy;
(5) policy relevancy; (6) innovating characteristics. Additionally a final personal judgment is asked
using the A, B or C category scale. On the five-point scales as well as with regard to the final
judgment, verbal additional and clarifying remarks are welcomed and often supplied. In a
committee session - several times a year - each proposal is discussed and a final committee
judgment is formulated and attached to it (an A, B or C combined with many or few verbal
remarks; many in the case of a "B" where some remarks may be suggestions for a next try). This
advice is sent to the SVO Board. The decision taken by the Board is generally, but not necessarily,
in line with the committee advice.
The remarks I want to make are threefold. They concern:
a. measuring agreement;
b. the differential use of judgment categories by judges;
c. the role of the committee session in the total process.
Addres: Faculteit Sociale Wetenschappen. Vakgroep Theoretische Sociologie en Methodenleer,
Postbus 80.108,3508 TC Utrecht.
Notities en commentaren 115
Measuring agreement.
^ conceptual distinction should be made between lack of agreement due to differences in
l^arginals, and lack of agreement due to ranking the same proposals in a different way. Such a
distinction is useful because ranking differently would lead, in my view, to a much more justified
ef'ticism toward the judgment process than differences between marginals. The result, however, is
'he same: lack of agreement between judges. Judges produce different marginals as a result of
several factors. A judge is just a human being, and he can accordingly be in a rigid or in a tolerant
"lood. The percentage of A's he produces during the evenings preceeding a committee session are
lot only dependent on the mean quality of the proposals, but also on his mood. Scheerens doesn't
•"ention mean scores for members per session. If we may argue plausibly that there is no
Connection between the moods the committee members are in on the evenings preceeding a
session, an analysis of variance might clear the situation. Secondly, it is to be expected that a
systematic difference remains between judges over all sessions. So both temporary and lasting
characteristics of judges lead to differences in marginal frequencies. Nearly all measures of
Correlation or agreement are affected in their upper boundary by differences in marginals. My
conjecture is that a major part of the lack of agreement as measured by Hofstee and Scheerens is
caused not by ranking differently, but by differences in marginals. It should be added that an
agreement measure as used by Scheerens is much better suited for its purposes than Pearson's r, for
'he simple fact that there can be a high correlation but almost no agreement. Since we are not
'ennpted to suspect artificially high r's in this case, this problem remains more or less academic.
. Next to Scheerens' measure, Cohen's ( 1960) kappa could be used. It is a well-known and simple
instrument for measuring agreement between two judges on i.e. an A, B, C category scale. One
Could apply kappa also with the five-point scales. In that case all ordinal or interval properties are
neglected, but in my opinion - see point b. - little relevant information is lost in dicho- or
'dichotomizing the scales.
The differential use of judgment categories by judges,
■'"dges do not always interprete the five-point scales as well as the A, B, C scale in the same way. To
"Mention some examples:
The continua with regard to "scientific relevancy" and "policy relevancy" give way to a number
different interpretations. "Scientific relevancy" is often regarded as a quality judgment: the
proposed research project is in agreement with general methodological standards. A few judges,
however, tend to think in terms of the potendal contribution of the proposed research to scientific
results or procedures. If one considers the quality aspect less relevant (i.e., because lack of quality is
also judged on other scales), the problem emerges whether each and every research proposal is
supposed to contribute to science. In my opinion, this standard cannot be upheld with policy
research. If no explicit agreement is reached between judges on how to cope with this scale, judge X
eventually fills out a —2 (the lowest score), judge Y fills out a zero and judge Z doesn't give a score
all with regard to the same proposal. Also ambivalent is coping with the "policy adequacy"
^cale; a problem can be regarded as highly relevant, but the research proposal as not so very
relevant for solving the problem.
. 'n committee discussions such dilemma's generally become lucid, including motives of two
judges having the same opinion but scoring differently, or vice versa. As a result of these
ambiguities, scores of individual judges on the five-point scales only play a discussion-inspiring
"^ole. A second example concerns balancing costs and benefits. Some committee members keep the
Project budget out of their consideradons, others admit it in their final judgment. In this case the
'mportance of the problem interferes, as well as the importance of the proposed research, which, as
0''en is the case, only solves minor aspects of the problem. As well as with the foregoing point, it is
Clear that strict committee regulations can be formulated to help prevent such diverging
'nterpretations. A third cause of diverging interpretations concerns the special SVO-procedure
^"h regard to policy research. To stimulate competition "research orders" from the government
Or other public agencies are sent by SVO to several research institutes. Usually two or three
116 P.G. Swanborn
competing proposals result, and are sent to the advisary committee. The use of the final scoring
scale by different judges in such a case has not been uniform up till now. One judge, who is in
favour of two proposals X and Y, and who has a slight bias in favour of X, scored X as a A, but
scored Y as a C (a "B" is not probable, because this category refers to lack of information and/of
reparable aspects). This judge argues that, as only one proposal is taken into consideration fof
financing, he has to express his preference in this way. Another judge, having the same opinion
and bias, scored both proposals as "A's" and expressed his bias at the committee session. Aftef
some experience this ambiguity was cleared and a standard procedure adapted; but Scheerens
data refer to a period in which it existed.
A fourth example also concerns policy research proposals. In many cases, the character of the
research problem as worded by governmental departments was heavily criticized by the commit-
tee. In some cases the formulation of the research problem even excluded a workable research
proposal.
It is not clear in which way this influences the judgments. One can score a good research design
for solving another problem than the policy agency asked for an "A" because the best possible is
done; one can also score a "C" because another problem is solved than the one posed; a grave error
in standard methodology.
If a judgment procedure is evaluated by using interjudge reliability coefficients, the remarks
made up till now lead to the necessity of providing judges with a clearer instruction than as yet was
practiced. Some suggestions are already given.
c. The role of the committee session in the total process.
Now I come to the third and most important point. Hofstee and Scheerens start from the
classical psychometric model: judges as independent replications. The use of the committee session
is only "for summation and taking the mean". Were this the case, the whole procedure could be
handled by post. The history of research grant agencies in the Netherlands and other countries
shows, however, that committee sessions where opinions are exchanged and judgments (re)forme<l
are seen as indispensable, and as an intrinsic part of the whole procedure. This interpretation asks
for clarification.
Committee members are, generally speaking, very conscious of the fact that they are not the
only wise guys in town. It only very seldomly happens that one is a specialist in all domains a
research proposal covers. A judge tries to locate, on the basis of many years of experience and
common sense, the heart of the proposal: problem, design, success/failure chances; the social
context of the researcher. One tries to understand the capabilities of the researcher, who sometimes
betrays himself by small blunders indicating insufficient knowledge. On the basis of such consid-
erations a committee member reaches a very provisional opinion. If a judge knows he is likely to
meet a specialist in the committee session, he probably emphasizes the provisional character of his
judgment. In most committees, it rapidly turns out that each individual member has specific
domains of interest and, accordingly, of judgment. After a short time each committee member
knows that A always turns his attention to "the research environment" of the proposal (presence
of senior researchers, other projects in the same field, etc.); that B (a changing member) knows the
subject well; that C always scrupulously analyses the design.
A model, representing the actual process of judging better than the classical psychometric
model, has a mixed character. Of course it contains elements of the classical model. Each judge
realizes from time to time that the start or continuation of a project could depend on him when
opinions are diverging, and this thought functions as a whip lash to very precisely rate all aspects
and come to a final judgment. And this should remain so.
Besides this, however, each judgment has the character of aspect-judgment in which each judge
is specialized on one or two domains. If a committee member has a very pronounced positive or
negative opinioti with regard to the proposal in this domain, he will be more likely to emphasize his
ideas in the committee session than in case he has a moderate opinion. In view of these points, the
low interjudge reliability as measured by Hofstee and Scheerens has only a limited significance.
Notities en commcntaren 117
Tile judgment model sketched so far is certainly not ideal. But reality forces SVO to work with
Shiall committees with a very time-consuming task. Only exceptionally the individual committee
"member is a specialist on the domain of the proposal. Research on the initial interjudge reliability
should be supplemented with research on the "second phase" of the process: discussion and
decision making. A periodically repeated evaluation of this phase is important. Are the judgment
Scales interpreted and used in the same way? Are all dimensions that play a role explicit? Are all
arguments taken into consideration? Do committee members weigh dimensions in the same way,
Of do they use different "weight factors", possibly interacting with other dimensions? What is the
character of the discussion? How does a provisional negative opinion change into a positive
Opinion, or vice versa? Is it clear to all participants which aspects are allowed to "weigh" in the
■'nal decision, which aspects not?
Hofstee and Scheerens have done a very useful quantitative analysis; let's start qualitative
research now.
REFERENCES
Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological
Measurement, 20, 37-46.
Hofstee, W.K.B. (1983). Ratings of grant requests in educational research: a psychometric
evaluation. Tijdschrift voor Onderwijsresearch, 8, 273-284.
Scheerens, J. (1986). Ratings of Requests for grants in educational research revisited. Tijdschrift
voor Onderwijsresearch, 11,67-82
^gers, F.E., and J.M.F. ten Berge (1985). A family of association coefficients for metric scales.
Psychometrika, 50, 1,17-24.
'Ontvangen 5 december 1985
-ocr page 122-Tijdschrift voor Onderwijsrescarch, 11 (1986), nr 2, pp. 118-120.
Voeten, M.J. M.(1985)
Sequential analysis of teacher-student interaction.
Unpublished dissertation. Catholic University of Nijmegen (supervision: prof. dr. E.E.Ch.I. Roskam)-
Nijmegen. The Netherlands.
The last decade showed many methodological developments that are important for the behavioral
and social sciences. The research in psychometrics and in some parts of applied statistics is really
addressed to the needs of these sciences, e.g. analysis of covariance structures, multidimensional
scaling, and item response theory.
Two other examples arc research on the design and analysis of time dependent phenomena
and on the modelling of categorical data. These are important because many of the problems in
the behavioral and social sciences are of a longitudinal nature and many of the measuremenl
procedures yield categorical data. Econometrics has a long tradition in the study of time-
dependent data. In psychology the development of methods suited to longitudinal research was
neglected for a long period, but got an impetus from the book of Glass, Willson, and Gottman
(1975). At the same time the comprehensive review of models for categorical data of Bishop,
Fienberg and Holland (1975) was published.
Our country has a prominent position in psychometrics; see, for example, Hambleton and
Swaminathan (1985). Many contributions have also been made to the methodology of longitudi-
nal research and of categorical data. Examples of recent dissertations on these topics are Molenaaf
(1981), Visser (1982), and Berger (1985) on longitudinal research. Popping (1983), Van Schuur
(1984), Koppelaar (1984), and Schouten (1985) on categorical data, and Hagenaars (1985) on the
analysis of longitudinal categorical data. Marinus Voeten - who was the excellent editor of this
journal from the start in 1975 till 1984 - did his dissertation on a combination of these two lines of
research.
Voeten's dissertation is on the analysis of the interaction of students and teachers during
classroom instruction. The emphasis is on the analysis of teacher-student interaction as a sequen-
tial process of succeeding behaviours, coded in a nominal scale, e.g. "teacher question", "pupi'
answer", and so on. He reanalysed data of Veenman's (1975) dissertation. Using a modification of
Flanders' system Veenman observed verbal teacher-student interactions under different condi-
tions: One group of teachers was trained in using more flexible behaviour in teaching, whereas the
control group was not trained; each of the teachers was observed on two types of instruction:
closed lessons where the teaching objectives were precisely specified and open lessons with more
global objectives. On three occasions (before, immediately following, and ten weeks after treat-
ment) teacher-student interactions were observed on two closed and two open lessons.
In the first two chapters of Voeten's dissertation the general setting of sequential analysis
Veenman's data, and the reliability and validity of the observational system are described. In these
chapters ample attention is paid to useful methods and procedures described in the ethological
literature. The data are aggregated in twelve first order transition matrices. A transition matrix is a
square matrix with as rows and as columns the different behaviours that are coded in the
observational system. A row contains a behaviour observed at a specified point in time. In a first
order transition matrix a cell of the matrix contains the frequency of behaviour immediately
following the row behaviour; in a nth order transition matrix a cell contains the frequency of
behaviour following at n discrete time points after the row behaviour. The matrices are aggregated
over teachers, within training condition (experimental versus control), and over lessons within
lesson type (closed versus open), yielding twelve matrices: one for each of the three occasions, pef
lesson type, and per condition. Three components of the matrices are studied: the occurrence of
each behaviour, i.e. the marginal probability of each behaviour Br, the probability that a behaviour
Bj is followed by the same behaviour, i.e. self-transition; and the probability that a behaviour A
is immediately followed by another behaviour
Book review 119
Rising quasi-independence models, iterative-proportional fitting, and standardized residuals the
data are thoroughly studied. In the fourth chapter geometric representations of the transition
"matrices are reported. The matrices are inherently asymmetric: the frequency of behaviour Bj
'ollowing behaviour is in general not equal to the frequency of behaviour Bi following behaviour
The transition matrix is additionally decomposed into a symmetric and a skew-symmetric
"^trix. The skew-symmetric matrix contains information on the first order behavioral sequences,
•he skew-symmetric parts of the transition matrices are geometrically represented. Moreover, the
symmetric and skew-symmetric parts are simultaneously analysed. The symmetric part is repre-
sented by muhidimensional scaling using a distance model and the skew-symmetric part is fitted
'"to the multidimensional scaling solution as a vector field. In the fifth chapter the assumptions
"lade for the analysis of the previous chapters are checked: stationarity of the first order transition
matrices, influence of aggregating over individual teachers and over separate lessons. Some
Violations are found, but their size does not seem to invalidate the previous analyses. The final
chapter is addressed to the detection of behaviour chains. Using the method of lag sequential
analysis behavioral sequences with lags up to 30 are identified. It was, for example, found that
^hen a teacher negatively reacted to student behaviour the frequency of negative teacher reactions
lags later still exceeded change level.
I have two general comments of a rather personal nature. First, I would have preferred other
data. The data set is large, the data collection using the modified Flanders' system has severe
""litations as discussed by Voeten in chapter 2, and the data are not very interesting from a
substantial point of view. The experimental training did not have influence upon the sequential
structure of teacher-student interactions and the main interaction patterns - teacher question —
Pupil answer teacher reaction and bouts of information given by the teacher - do not strike me
as interesting results. Second, as far as I know - I am not well acquainted with the methods for
geometrical representations - Voeten did not develop many new methods for the analysis of
"ehavioral sequences; he usually sticks to existing methods.
Nevertheless, Voeten succeeded to make relevant contributions. First, he addressed himself to
'"e important combination of the two lines of methodological research mentioned above, i.e.
"methods for the study of data that are longitudinal and categorical. Second, he discusses methods
a"d procedures from the ethological literature that are not well-known in education and psycho-
logy. Third, his analyses are very extensive, precise, and thorough. Fourth, his work is a compre-
"ensive case study showing the state of the art of sequential analysis. Reviewing and applying the
existing methods he reveals the blind sports and lays the foundation for future developments in this
area.
I congratulate Marinus Voeten with his dissertation and his doctor's degree. I hope and expect
'"at he and others will continue research on this topic.
REFERENCES
Merger, M.P.F. (1985). Some aspects of the application of the generalized multivariate analysis of
variance model. Unpublished dissertation. Catholic University of Tilburg. Tilburg, The
Netherlands.
ö'shop, Y.M.M., Fienberg, S.E., & Holland, P.W. (1975). Discrete multivariate analysis: Theory
and practice. Cambridge, Mass.: MIT Press.
^lass, G.V., Willson, V.L., & Gottman, J.M. (1975). Design and analysis of time-series experi-
ments. Boulder: Colorado Associated University Press.
Hagenaars,