-ocr page 1-

iAl/S éz O

TIJDSCHRIFT
VOOR

ONDERWIJS
RESEARCH

Redactie:

Bert P.M. Creemers (secretaris)
Hans F.M. Crombag
Johan Hoogstraten
Bernadette van Hout Wolters
Leo van der Kamp
Nijs Lagcrwij
Wim Mcijncn
Robert Jan Simons
Marinus J.M. Voeten
Peter Weeda

bibliotheek der

rijksuniversiteit
UTRECHT

VERENIGING VOOR ONDERWIJSRESEARCH

-ocr page 2-

Artikelen

Kategorisering van statistiekproblemen door beginners en experts. Pieter H.

Been en Frank B. Brokken 23

Essay Rating by the Comparison Method. Henk Blok 169

Hardopdenken en Protokolanalyse. J.A. Breuker, J.J. Elshout, M. W. van

Someren en B.J. Wielinga 241

Bekroond ORD Paper 1986: Ontwikkeling en validering van een computer-
attitudeschaal.
Marjo J. Crombach, Marinus J.M. Voeten en Hans J.M.
Feenstra
 301

De dagindeling van studenten: een praktijkvoorbeeld. K.D.J.M. van der Drift 177
Item Banking with Random or Stratified Tests.
Dato N.M. de Gruijter 61

Substitutiefouten bij open en gesloten klinkerklanken in eenlettergrepige

woorden. Margo G.H. Jansen en J. Kruidenier 255

Toetsgebruik in de onderwijspraktijk: stand van zaken. Frans J.G. Janssens 2
Reproductie van Cultureel en Economisch Kapitaal op een Traditioneel en een

Montessori-Lyceum. M. Kalmijn en R. Batenburg 149

Some Aspects of School Careers in Public and Non-Public Primary Schools

P. van Laarhoven. B. Bakker. J. Dronkers. H. Schijf 83

Decoding Skills, Reading Comprehension and Spelling; A Longitudinal
Investigation.
Martin J.C. Mommers. Jan F.J. van I^euwe, Johan H.L. Oud
and Jan M.A.M. Janssens
 97

Bekroond ORD Paper 1985: Overscholing en inkomen. Hessel Oosterheek 141
Verhogen van studieprestaties bij eerstejaars door attributie retraining.
Frank

Van Overwalle 225

Weder-Keren-de Kansen? Een log-lineaire analyse van het effect van aanvullende
kwalificaties voor onderwijsmobiliteit 1925-1955.
Roel Popping en Jules
Peschar
 281

Ratings of Requests for'Grants in Educational Research Revisited. J. Scheerens

and A.L. Beem 67

Itemselectie in het Mokken model. K. Sijtsman en P.M. Prins 121

Sturing van het onderwijsleerproces door middel van problemen: een veld-
experiment.
R.W. Tans, H.G. Schmidt. B.E.J. Schade-Hoogeveen en
W.H. Gijselaers
 35

De validiteit van een Systematische Probleem-Aanpak voor het ontwerpen

van beleid. C. Terlouw en C.TC.W. Mettes 203

Hardop-denken als onderzoeksmethode naar regulatie-processen bij tekst-

bestudering. J.D.H.M. Vermunt, J.G.L.C. Lodewijks en P.R.J. Simons 187
Twee ordinale analyse technieken in een niet-equivalent pretest-posttest ontwerp

met geordende categorieën. P/W^r K//>7 ' 130

On the Predictive Validity of a New Scoring Procedure for Time-Limit

Intelligence Tests. Arnold L. van den Wollenberg and Peter G. Cremers 53
Voorspellingen van uitgeverijen over de effecten van onderwijspakketten
economie voor Mavo.
Fred J.M. Wolters 293

-ocr page 3-

Notities en Commentaren

Commentaar op het artikel 'De invloed van samenwerking en gezamenlijke

beoordeling op spellingsprestaties'. E. Bol 221

Het empirisch gehalte van een politiek compromis. Commentaar op het
WRR-Rapport 'Basisvorming in het onderwijs'.
Bert P.M. Creemers en
Wijnand Th.J.G. Hoeben
 271

Actie-onderzoek en emancipatie. H. Flierman 164

Wijkende en zwalkende caesuren. Dato N.M. de Gruijter 47

Commentaar op het WRR-Rapport 'Basisvorming in het onderwijs'.

W.K.B. Hofstee 265

Scholen verschillen: bespreking van een intrigerend proefschrift over de

organisatie en effectiviteit van scholen. F. van der Krogt en C. van Vilsteren 325
Samenwerking en spellingsprestaties, antwoord aan E. Bol.
J. P. van Oudenhoven 223
SVO-beoordeling van het rapport 'Met het Mavo-project onderweg, deel 5' 216
Committee Judgment of Research Proposals: The Limits of Quantitative

\r\a\ys\s. P.G. Swanborn 114

Wolters onrechtvaardigde conclusies. Een kritisch commentaar op "De functie
van deel-geheel-schema's in het rekenonderwijs: een terugblik" (Wolters, 1984)
L.W.C. Tavecchio. M. Beishuizen. J.N. van den Berge en MJV. Bleek 312
De invloed van semantische structuurkenmerken op het oplossen van redactie-
opgaven. Een reactie op 'Wolters onrechtvaardigde conclusies'.
Miriam A.D.
Wolters
 318

Boekbesprekingen

Billet, J., G. Loosveldt & L. Waterplas. Het survey-interview onderzocht.

Kath. Universiteit Leuven, 1984. (E.D. de Leeuw) 49

Voeten, M.J.M. Sequential analysis of teacher-student interaction. Kath.
Universiteit Nijmegen, 1985. (G.J. Mellenbergh)

-ocr page 4-

Redactionele medewerkers

In 1986 werd redactionele medewerking verleend door:

F.J.G. Janssens
J. Terwei

G. Beukhof
P. Vos

H.A. Becker
A.D. de Groot
J.M.F. ten Berge

F.B. Brokken
J. Rispens
M.J.C. Mommers
W.G.R. Stoel
A.F. Kalverboer
W.J. van der Linden
H. Verstralen

P.G. Swanborn
P. Tesser
P. van den Eeden
K.B. Koster
W.Th.J.G. Hoeben
J. Wijnstra
K. Sijtsma
H.H. Tillema
V. Peters
W.K.B. Hofstee

G.G. Kreft
S. Dijkstra
P. Span

G. dTdewaiie
P.M. Kroonenberg
M. Jansen
F.J.R. van de Vijver

CITO Arnhem
R.U. Utrecht
Universiteit Twente
R.U. Leiden
R.U. Utrecht

R.U. Groningen
R.U. Groningen
R.U. Leiden
K.U. Nijmegen
RION Groningen
R.U. Groningen'
Universiteit Twente
CITO Arnhem
R.U. Utrecht
ITS Nijmegen
VU Amsterdam
R.U. Groningen
RION Groningen
CITO Arnhem
VU Amsterdam
RION Groningen
K.U. Nijmegen
R.U. Groningen
U
.V. Amsterdam
Universiteit Twente
R.U. Utrecht
K.U. Leuven
R.U. Leiden
R.U. Groningen
K.U. Brabant


-ocr page 5-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 1-288.

Van de Redactie

Wanneer u dit leest hebt u de eerste aflevering van de elfde jaargang van het TOR in handen. De redactie
hoopt van harte dat het januari 1986 is. De achtergrond van deze opmerking is, dat er gedurende de tiende
jaargang een ontoelaatbare achterstand in de publicatie van de afleveringen van het tijdschrift is ontstaan.
Een achterstand waarover de redactie zich, in overleg met het bestuur van de VOR, bij de uitgever heeft
beklaagd en die, naar wij hopen, spoedig zal zijn ingelopen en daarna niet meer zal voorkomen. Voor het
ogenblik kan de redactie zich bij lezers en auteurs slechts verontschuldigen. De ontstane achterstand is zeker
niet te wijten aan de redactie.

Het aantal aangeboden artikelen groeit nog steeds. Op die ontwikkeling heeft de redactie gereageerd
met het voorstel het aantal bladzijden per aflevering te vergroten van 48 naar 56. De SVO is bereid gevonden
de daarvoor nodige geldmiddelen te verstrekken.

Met die maatregel zal het probleem van de groeiende 'publication lag' echter niet geheel zijn opgelost.
Auteurs kunnen ons daarbij helpen op voor de hand liggende wijze, namelijk door hun bijdragen niet langer
te maken dan strikt nodig is. Economisch schrijven blijkt nog steeds een zwakke kant van Nederlandse
onderwijsonderzoekers. De redactie wordt daar wat ongeduldig van. Daarom heeft zij besloten de redactie-
secretaris te machtigen alle bijdragen die langer zijn dan 25 getypte bladzijden (regelafstand I '/j, inclusief
referenties, figuren en tabellen) 'ongezien' aan auteurs te retourneren. Artikelen van een dergelijke lengte
kunnen in geen geval geplaatst worden en het heeft geen zin de beoordelaars met dergelijke teksten lastig te
vallen. Deze nieuwe regel betekent overigens niet dat men binnen de grenzen van 25 bladzijden ongestraft
wijdlopig kan zijn. Zuinigheid met ruimte zal een van de belangrijkste criteria voor de acceptatie van
bijdragen gaan vormen.

Wij allen hebben groot belang bij een medium waarin de resultaten van ons werk snel gepubliceerd
kunnen worden. In 1986 zijn er 336 TOR-bladzijden beschikbaar. Als het TOR meer abonnees krijgt,
kunnen dat er in latere jaren meer worden. Het valt de redactie op, dat lang niet al degenen die bijdragen
aanbieden, een abonnement hebben. Dat is een paradoxale situatie, omdat auteurs die geen abonnee zijn
dusdoende de kans op'acceptatie en snelle publicatie van hun bijdragen verkleinen. Een persoonlijk
abonnement, al dan niet gecombineerd met het lidmaatschap van de VOR, van alle Nederlandstalige
onderwijsonderzoekers is dringende noodzaak als wij het TOR-kanaal open willen houden.

Er zijn nog wat losse berichten. Af en toe - gelukkig niet al te vaak - rijzen er vragen over de wijze
waarop de redactie met de beoordelingen van bijdragen omgaat. Als bekend, iedere bijdrage wordt
beoordeeld door twee externe beoordelaars, die aangeven of de bijdrage voor publicatie in aanmerking
komt en of er volgens hen nog verbeteringen moeten worden aangebracht. De redactie volgt deze oordelen
niet blind. Verschillen de beoordelaars onderling van mening, dan wordt niet zelden een derde beoordelaar
ingeschakeld. In andere gevallen vormen redactieleden een eigen oordeel door de bijdrage zorgvuldig te
lezen en kennis te nemen van de opmerkingen van de beoordelaars. Deze opmerkingen mogen dienen ter
geruststelling van auteurs die vrezen, dat zij het slachtoffer zouden kunnen worden van een beoordelaar bij
wie hun werk om toevallige redenen niet goed valt.

Het TOR stelt zich ten doel alle boeken op onderwijskundig terrein van Nederlandstalige auteurs van
een recensie te voorzien. Dat geldt ook en vooral voor academische proefschriften. Auteurs worden
opnieuw verzocht er bij hun uitgevers op aan te dringen dat een recensie-exemplaar van hun boeken aan het
Tor wordt aangeboden. Publiceert men een boek in eigen beheer, zoals bij proefschriften nogal eens
voorkomt, dan dient men zelf een recensie-exemplaar te sturen.

Een aantal Nederlandstalige onderwijskundige tijdschriften heeft besloten om, met steun van de SVO,
op gezette tijden een selectie van in hun tijdschriften verschenen bijdragen te herpubliceren in het Engels.
Ook het TOR neemt aan dit initiatief deel. De redactie zal daarvoor in aanmerking komende bijdragen
selecteren, die dan vervolgens met deskundige hulp vertaald zullen worden.

Tenslotte zij vermeld dat de redactie in het afgelopen jaar een nieuwe taak op zich genomen heeft,
namelijk het beoordelen van papervoorstellen voor de AERA Annual Convention. De adviezen van de
redactie zijn via het bestuur van de VOR doorgezonden aan de Amerikaanse organisatoren.

-ocr page 6-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 2-291.

Toetsgebruik in de onderwijspraktijk: stand van zaken

Frans J. G. Janssens
Cito, Arnhem

ABSTRACT

This review of the literature concerning test use analyses the ways in which teachers use norm- and
criterion-referenced tests. Generally speaking, teachers use norm-referenced tests to check their
judgments about pupils. There has been far less research into the use of criterion-referenced tests.
Particularly when such tests form part of curricula teachers use them to tune instruction to pupils.
Comparisons of the users' intention and the actual use of both types tests show extensive agreement,
though certain uses are observed which are more or less inconsistent with the intended use.
Furthermore, the literature has been studied in order to gain insight into the factors influencing the
use of tests. The main factors prove to be:

(1) knowledge and skills in educational measurement,

(2) teachers' attitudes and perceptions, and

(3) the organisation of schools and classes.

In conclusion, the article gives some suggestions for research and development activities.

1 INLEIDING

Er is in het Nederlandse taalgebied zeer weinig onderzoek gedaan naar het gebruik van
schoolvorderingentoetsen. Op zich is dat niet zo verwonderlijk, omdat het gebruik van derge-
hjke toetsen nauwelijks vijftien jaar oud is. Ook wanneer we kijken naar landen met een rijkere
toetsgeschiedenis, zoals de Verenigde Staten, dan valt ook daar te constateren dat onderzoek
naar het gebruik van toetsen stiefmoederlijk is behandeld (vgl. Lazar-Morrison et al., 1980).
Toch is de laatste vijfjaar, vooral in de angelsaksische landen, de belangstelling voor empirische
gegevens over toetsgebruik enorm toegenomen.

Zo'n vijftien jaar geleden was slechts één grootschalig onderzoek naar toetsgebruik bekend
(Goslin, 1967). Dit werd vier jaar later opgevolgd door een overzicht van de nogal versnipperde
hteratuur rond dit onderwerp (Kirkland, 1971). Ruim tien jaar later zijn en worden er met name
in de V.S. verschillende studies uitgevoerd naar het gebruik van toetsen, waaronder vier
grootschalige (Resnick en Resnick, 1978; Yeh, 1978,1980; Kennedy, Aphng en Neumann, 1980
en Kellaghan, Madaus en Airasian, 1982).

De reden voor de verhoogde Amerikaanse belangstelling is het nog steeds lopende, en soms
fel oplaaiende, toetsdebat, waarin er soms zelfs voor wordt gepleit om alle toetsen uit de roulatie
te nemen, bijvoorbeeld door The National Educational Association (McKenna, 1973). Binnen
een dergelijke context is het aannemelijk dat rond het gebruik van toetsen een stand van zaken
wordt opgemaakt.

Ook in ons taalgebied is de tijd aangebroken voor bezinning. Het waren Wesdorp et al. (1979)
die hiertoe voor de Nederlandse situatie de aanzet hebben gegeven. Zij onderzochten vooral de
rol van meerkeuzetoetsen bij de selectie van leeriingen ten behoeve van het voortgezet onder-
wijs. Over de rol van andere schoolvorderingentoetsen in het onderwijs is tot op heden hier ten
lande nog weinig bekend. Nog niet zo lang geleden is rond het vijftien jarig bestaan van het
Centraal Instituut voor Toetsontwikkeling (Cito) door verschillenden de loftrompet gestoken

Adres: Postbus 1034,6801 MG Arnhem

-ocr page 7-

Frans J. G. Janssens 3

over toetsen in het onderwijs, ofschoon ooic kritische geluiden over toetsgebruik waren te
beluisteren. Thio (1983, p. 17) merkt op: 'Het blijkt dat (de) toetsen, ondanks promotie- en
voorlichtingsinspanningen, niet in die mate aftrek vinden als het Cito had gehoopt. Onderzoek
onder degenen die de toetsen wel hebben aangeschaft, wijst uit dat zij de toetsen vaak niet
gebruiken in de gepresenteerde vorm, maar zelf selecties uit de opgaven maken, er eigen
opgaven aan toevoegen en dergelijke.'

Op dit moment uit zich die bezinning in het Cito door het uitvoeren van onder andere
zogenaamde gebruikersonderzoeken (zie bijvoorbeeld Janssens, 1982 en Kremers, 1982). In dat
verband kan een overzicht van resultaten van buitenlandse gebruikersstudies een goed uit-
gangspunt vormen voor Nederlandse studies.

De grote mate van overeenkomst tussen de buitenlandse bevindingen versterkt de mogehjk-
heid om in de Nederlandse situatie gebruik te maken van buitenlandse resultaten. Opmerkelijk
is bijvoorbeeld dat, ongeacht het onderwijssysteem waarin - soms zelfs verplicht gestelde -
toetsen functioneren, de resultaten van de Ierse, Amerikaanse maar ook Engelse studies (Gipps
en Wood, 1981) consistent zijn. Uit alle studies blijkt dat professioneel ontwikkelde toetsen in
beperkte mate worden gebruikt en dat leerkrachten ze betrekkelijk irrelevant vinden voor hun
onderwijspraktijk.

Aan het opstellen van dit literatuuroverzicht ligt een tweetal vraagstellingen ten grondslag.
De eerste heeft betrekking op het functioneren van professioneel ontwikkelde toetsen in de
onderwijspraktijk: voor welke doelen gebruiken leerkrachten toetsen? In principe zijn toetsen
bedoeld om beslissingsprocessen bij leerkrachten te ondersteunen in contexten als: het (her)-
groeperen van leerhngen, het vaststellen van zwakke en sterke kanten van individuele leedingen
en het (bij)sturen van het onderwijs (vgl. o.a. De Bruyne, 1983; Rudman, Kelly, Wanous,
Mehrens, Clark en Porter, 1980).

De tweede vraagstelling heeft betrekking op factoren die het feitelijk gebruik van toetsen
beïnvloeden: welke factoren werken faciliterend of beperkend op het toetsgebruik in bovenbe-
doelde zin?

Voordat op deze vragen wordt ingegaan, worden eerst in par. 2 enkele methodologische
opmerkingen gemaakt over de wijze waarop tot op heden onderzoek naar toetsgebruik is en
wordt gedaan en welke ontwikkelingen daarin zijn te constateren.

Vervolgens wordt in par. 3 een overzicht gegeven van de belangrijkste gegevens uit verschil-
lende studies naar het gebruik van zogenaamde normgerichte en criteriumgerichte toetsen. In
par. 4 wordt getracht een opsomming te geven van factoren, die van invloed zijn op het gebruik
van toetsen. In een slotbeschouwing zullen de belangrijkste conclusies nog eens de revue
passeren en worden voorstellen gedaan voor onderzoeks- en ontwikkelingswerk (par. 5).

2 ONDERZOEK NAAR TOETSGEBRUIK

Studies naar het functioneren van toetsen kunnen in een tweetal categorieën worden ingedeeld,

nl.:

1 Studies naar de sociale en psychologische effecten van toetsen op bij het onderwijs betrok-
kenen, zoals: leerkrachten, leedingen, ouders, beleidsmakers, curriculumontwikkelaars,
etc. Het gaat in dat type onderzoek vooral om het effect van toetsgebruik op attitudes,
opvattingen en percepties van betrokkenen.

2 Studies naar het functioneren van toetsen in het didactisch proces. Daarbij gaat het om de
rol die toetsinformatie speelt in verschillende beslissingsprocessen bij leerkrachten: (her)-
groeperen, plaatsen, selecteren en beoordelen van leerlingen, aanpassen van de instructie
aan en het opsporen van leerproblemen bij leerhngen.

Alle in dit literatuuroverzicht gebruikte studies zijn samengevat in tabel 1. Van deze studies, die

-ocr page 8-

4 Toetsgebruik in de onderwijspraktij k

chronologiscli zijn geordend, is vermeld: onderzoeksmethode, de onderzochte evaluatie-
instrumenten, aard en omvang van de onderzoeksgroep en de aspecten van toetsgebruik die zijn
onderzocht.

Uit tabel 1 blijkt dat de meeste studies in de eerste categorie geplaatst kunnen worden en gericht
zijn op de psychologische en sociale effecten van toetsgebruik. Welke de mogelijkheden en
beperkingen zijn van toetsen in het didactisch proces is in veel mindere mate onderzocht. Pas de
laatste vijfjaar treedt er een tweetal verschuivingen op. Ten eerste: de aandacht voor de sociale
en psychologische effecten van toetsgebruik verdwijnt naar de achtergrond ten gunste van
effecten op de instructie. Ten tweede: er wordt meer aandacht besteed aan het gebruik van
criteriumgerichte toetsen, waarvan vooral deskundigen de gebruikswaarde hoog inschatten,
vanwege de diagnostische en instructiemogelijkheden (Klein, 1970; Nitko, 1971; Howe, 1978;
Kahn, 1978 en Popham, 1978).
De bovenbedoelde studies hebben enkele beperkingen.

1 De meeste studies zijn opgezet als (grootschaUg) survey-onderzoek. De dataverzameling
verloopt grotendeels via vragenlijsten. Dit leidt over het algemeen tot betrekkelijk generale
conclusies.

2 Er is af te dingen op de wijze waarop doorgaans 'toetsgebruik' wordt geoperationaliseerd.
Onderzoekers verzuimen vaak het bedoelde gebruik van de onderzochte toetsen te specifice-
ren. De feitelijke toetspraktijken zijn slechts zinvol te begrijpen tegen de achtergrond van het
intentionele gebruik.

3 De situaties waarin toetsgebruik is onderzocht zijn niet zonder meer vergelijkbaar met de
Nederlandse situatie. Zo zijn in de V.S. toetsen al veel langer ingeburgerd en worden in veel
gevallen toetsafnames van hoger hand voorgeschreven. Eveneens is in Nederland (nog) geen
sprake van een accountability-beweging, die het gebruik van toetsen beïnvloedt (vgl.
Resnick en Resnick, 1978).

Tussen Nederland en de Ierse Republiek (zie de studie van Kellaghan et al., 1981) is wel een
grote overeenkomst. Evenals in Nederland werden in Ierland pas rond de jaren zeventig de
eerste normgerichte toetsen geïntroduceerd. Het belangrijkste verschil met de angelsaksi-
sche landen is evenwel dat in Nederland het gebruik van toetsen goeddeels vrij en schoolge-
bonden is. In de andere landen ligt het initiatief vaak op bestuurlijk niveau. Het ligt voor de
hand dat de hier genoemde factoren van invloed zijn op het functioneren van toetsen.

De in de volgende paragrafen samengevatte onderzoeksresultaten moeten mede tegen de
achtergrond van de bedoelde beperkende factoren worden beschouwd.

3 TOETSEN IN DE ONDERWIJSPRAKTIJK

3.1 Bedoeld gebruik

Om het functioneren van schoolvorderingentoetsen in de praktijk zinvol te kunnen beschrijven,
moet het feitelijk gebruik ervan worden afgezet tegen het door de ontwikkelaars bedoelde
gebruik. Onder het (bedoelde) gebruik van toetsen wordt verstaan: voor welk doel, op welke
wijze en op welk moment een toets kan worden afgenomen en hoe de resultaten moeten worden
geïnterpreteerd.

Schoolvorderingentoetsen kunnen op leerlingniveau en op schoolniveau worden gebruikt. Op
leerlingniveau vervullen ze verschillende functies, ofschoon niet alle toetsen in dezelfde mate
voor alle functies geschikt zijn (zie o.a. Gronlund, 1976; Popham, 1981 en De Bruyne, 1983):
1
Plaatsing en 'selectie van leerlingen: het verwijzen c.q. toelaten van leerlingen naar een
bepaalde klas, groep, een bepaalde fase van het onderwijs of naar een bepaald onderwijs-
type.

-ocr page 9-

Frans J. G. Janssens 5

Sturing van onderwijsleerprocessen: het controleren van vorderingen en op basis daarvan
(bij)sturen van instructie en/of verwerking. Dit wordt ook wel formatieve evaluatie
genoemd.

Opsporen van leerproblemen: diagnostiseren van leermoeilijkheden die zijn gesignaleerd en
niet opgelost kunnen worden met de door de formatieve evaluatie geïndiceerde didactische
maatregelen.

Resultaatbeoordeling: het vaststellen van de mate waarin bepaalde leerdoelen zijn bereikt
met het oog op kwaliteitsbeoordeling ten behoeve van rapportage of certificering. Dit wordt
ook wel summatieve evaluatie genoemd.

Toetsen kunnen ook een rol spelen in curriculumevaluatie. Deze functie laten we buiten
beschouwing omdat het toetsgebruik zich in dit verband op schoolniveau afspeelt.

Recent worden toetsen onder andere ingedeeld in termen van de wijze waarop de resultaten
moeten worden geïnterpreteerd, namelijk normgericht en criteriumgericht. Bij normgerichte
toetsen moeten de scores van leerlingen worden geïnterpreteerd tegen de achtergrond van de
prestaties van andere leerlingen op die toets; de zogenaamde normgroep (vgl. o.a. Mehrens en
Ebel, 1979). Dergelijke toetsen zijn doorgaans geconstrueerd om leerlingen van laag naar hoog
te ordenen naar prestatie. Toetsopgaven die niet voldoende discrimineren tussen leerlingen
worden meestal niet opgenomen. Een individuele score krijgt betekenis door deze te vergelijken
met de geordende prestaties van de normgroep. Doorgaans wordt gebruik gemaakt van Deciel-
of C-schalen.

Bij criteriumgerichte toetsen krijgen de scores betekenis in termen van de mate van beheer-
sing van het leerstofdomein waaruit de toetsopgaven afkomstig zijn (vgl. o.a. Mehrens en Ebel,
1979). De gedachtengang daarbij is dat de score van een leerling op te vatten is als een (zo goed
mogelijke) schatting van diens beheersing van het domein of leerstofgebied. Om de score
betekenis te kunnen geven is het onnodig de prestaties van anderen te kennen. Criterium voor
opname van een opgave in een dergelijke toets is niet het discriminerend vermogen, maar de
mate waarin de opgave het leerstofgebied representeert.

Het onderscheid tussen normgerichte en criteriumgerichte toetsen heeft eerder verwarrend
dan verhelderend gewerkt, alleen al omdat wordt gesuggereerd dat het om twee elkaar uitslui-
tende typen toetsen met verschillende functies gaat. Dat is niet het geval, omdat beide interpre-
tatiewijzen in één toets kunnen worden gecombineerd (zie voor deze discussie o.a. Popham,
1981, p. 27 e
.V.). We hanteren dit onderscheid toch omdat alle aangehaalde gebruikersstudies
erop zijn gebaseerd en omdat in de toetstheoretische literatuur duidelijke verschillen aan de
twee typen toetsen worden toebedeeld (vgl. o.a. Mehrens en Ebel, 1979 en Popham, 1981).
Zogenaamde criteriumgerichte toetsen geven - mits volgens de regels ontwikkeld - een meer
accurate en specifieke beschrijving van de vorderingen van leerlingen in een leerstofgebied.
Normgerichte toetsen zijn doorgaans algemeen van karakter. Het leerstofgebied waarop ze
betrekking hebben is vaak globaler omschreven en beslaat een betrekkelijk lange onderwijspe-
riode, bijvoorbeeld het rekenonderwijs van een half jaar. Normgerichte toetsen bevatten
bovendien vaak te weinig opgaven om uitspraken te doen over de beheersing van onderdelen uit
het leerstofgebied. In tegenstelling tot criteriumgerichte toetsen is het met normgerichte toetsen
om bovengenoemde redenen minder goed mogelijk om resultaten te vertalen naar specifieke
onderwijsmaatregelen voor individuele leerlingen. Dit betekent dat in veel gevallen norm-
gerichte toetsen hoofdzakelijk gebruikt kunnen worden om leerlingen te selecteren, te plaatsen,
of om resultaten te beoordelen. Criteriumgerichte toetsen zijn eerder geschikt om leerprocessen
te sturen of om leerproblemen op te sporen. Plaatsingsbeslissingen kunnen echter door zowel
criteriumgerichte toetsen (bijvoorbeeld vaststellen of een leerling over noodzakelijke voor-
waarden beschikt) als normgerichte toetsen (bijvoorbeeld groeperen naar niveau) worden
ondersteund. Dit geldt ook voor resultaatbeoordelingen. De vraag wie tot de besten van een

-ocr page 10-

6 Toetsgebruik in de onderwijspraktij k

groep behoren kan zowel via een normgerichte als een criteriumgerichte interpretatie worden
vastgesteld.

Voor de gebruiker van schoolvorderingentoetsen maakt het nogal verschil of met het ene of
met het andere type toets wordt gewerkt. Op de eerste plaats zijn beide toetstypen niet (in
dezelfde mate) geschikt voor de eerder genoemde evaluatiefuncties. In de meeste gevallen wordt
door de toetsconstructeur nauwkeurig afgebakend waarover de toetsresultaten uitsluUsel
geven. Op de tweede plaats is het niet voor ieder toetstype (in dezelfde mate) mogelijk om
toetsprestaties maatgevend te laten zijn voor de inrichting van het (vervolg)onderwijs aan
individuele leerhngen. Normgerichte toetsen hebben doorgaans alleen een signaleringsfunctie,
dat wil zeggen dat de toetsprestatie slechts een indicatie geeft van een (leer)probleem of
achterstand. Met behulp van andere evaluatieprocedures moet dan vervolgens nagegaan
worden waar het probleem of de achterstand precies moet worden gelocaliseerd en wat de aard
ervan is. De resultaten van criteriumgerichte toetsen daarentegen zijn doorgaans wel te vertalen
in instructiehandelingen.

Omdat aan de bedoelde gebruiksmogelijkheden van beide toetstypen functionele verschillen
worden toegekend, wordt in de volgende paragrafen aan beide aandacht besteed.

3.2 Gebruik van normgerichte toetsen

Goslin (1967) was een van de eersten die over een grootschalig onderzoek naar het gebruik van
normgerichte toetsen in het lager- en voortgezet onderwijs (V.S.) rapporteerde. Hij onderzocht
in welke mate normgerichte toetsresultaten door leerkrachten worden gebruikt om leerlingen te
beoordelen, aan ouders en leeriingen te rapporteren en om het onderwijs te sturen. Goslin
constateerde dat leerkrachten toetsen hoofdzakelijk van belang achten om individuele leerpro-
blemen op te sporen en leerlingen een beeld te geven van hun sterke en zwakke kanten. De
leerkrachten vonden toetsresultaten geenszins van doorslaggevende betekenis om het onderwijs
te sturen. Minder dan 20 procent van de ondervraagde leerkrachten paste op basis van
toetsresultaten (wel eens) de leerstof aan en minder dan een derde deel van de leerkrachten
rapporteerden op basis van toetsresultaten (wel eens) hun didactisch handelen te veranderen.
Ongeveer 10 procent van alle respondenten meldde frequent gebruik te maken van toetsresulta-
ten om leerhngen te beoordelen of om rapporten samen te stellen. Goslins eindconclusie luidde,
dat over het algemeen genomen resultaten van normgerichte toetsen slechts in geringe mate
door leerkrachten worden gebruikt om het onderwijs in te richten.

Goslins conclusie wordt tien jaar later weer bevestigd door een nationaal survey-onderzoek
van Stetz eh Beek (1979). Ook in andere minder groots opgezette gebruikersstudies wordt de
geringe invloed van normgerichte toetsen bevestigd: normgerichte toetsinformatie wordt in
beperkte mate gebruikt voor uiteenlopende didactische functies als: het opsporen van leerpro-
blemen en plaatsen, (her)groeperen en beoordelen van leerlingen (Angel, 1968; Carduzzi-
Bolchazy, 1978; Nitko, 1971; Stetz en Beek, 1978 en Wolok, 1972). Ook Wesdorp et al. (1979)
signaleren een geringe invloed van toetsen, in dit geval op de schoolkeuze-advisering door
leerkrachten.

Jammer is dat zowel Goslin als Stetz en Beek niet duidelijk melden welke normgerichte
schoolvorderingentoetsen zij of hun respondenten voor ogen hadden toen de vragenlijsten
werden ingevuld. Daardoor zijn er geen gegevens bekend over het bedoelde gebruik van toetsen.
Respondenten rapporteerden in algemene zin over hun toetspraktijken. Gezien de functie van
normgerichte toetsen zijn de conclusies uit beide studies slechts validevoor zover het gaat om
het (tegenvallend) gebruik van toetsen voor het relatief beoordelen, groeperen, selecteren van
leerhngen en voor het signaleren van probleemgevallen. Dat leerkrachten volgens de onderzoe-
kers deze toetsen nauwelijks gebruiken om de instructie te sturen of leerproblemen te diagnosti-
seren, is een conclusie waarover genuanceerder gedacht kan worden, omdat deze toetsen
daarvoor minder geschikt zijn. Leerkrachten zelfrelativeren dergelijke gebruiksmogelijkheden

-ocr page 11-

Frans J. G. Janssens 1827

wel. In praktisch alle studies naar het gebruik van normgerichte toetsen wordt gerapporteerd
dat de informatiewaarde van toetsresultaten tegen de achtergrond van meer alledaagse evalua-
tiepraktijken van leerkrachten beperkt is. Dergelijke toetsen gebruiken ze hoofdzakelijk om in
de praktijk opgedane kennis over leerlingen te controleren (vgl. Choppin, 1982; Dorr-Bremme,
1982; Burry, 1982; Salmon-Cox, 1981; Kellaghan, Madaus en Airasian, 1982). Leerkrachten
achten de kennis, die ze tijdens de alledaagse praktijk via observaties, proefwerken en oefen-
werk over hun leerlingen opdoen van groter belang voor het beoordelen van leerlingen en het
nemen van instructiebeslissingen (Burry, 1982; Choppin, 1982; Dorr-Bremme, 1982; Salmon-
Cox, 1981; Wesdorp et al., 1979en Yeh, 1980). Behalve dat dergelijke informele evaluatieproce-
dures frequenter worden toegepast dan gestandaardiseerde evaluatie-instrumenten (vgl. Bar-
nette en Thompson, 1979; Tomic en Weesie, 1982 en Yeh, 1980), weten we betrekkelijk weinig
over het gebruik of de invloed van informele evaluatieprocedures.

Er is enige evidentie dat de invloed van informele evaluaties op het instructieproces en het
beslissingsgedrag van leerkrachten in het algemeen groter is dan die van de formele evaluaties.
Yeh (1978) rapporteert dat 55 procent van de onderzochte leerkrachten frequent eigen toetsen
opstelt. Dit impliceert dat sommige toetsen wel degelijk voor leerkrachten een zekere bruik-
baarheid hebben. Yeh stelde ook vast dat meer informele evaluatieprocedures, als observaties
van en interacties met leeriingen, een grotere rol in het didactisch proces spelen dan toetsresulta-
ten (vgl. Barnette en Thompson, 1979). Choppin (1982), die een gebruikersonderzoek uitvoerde
in 114 schooldistricten, stelde vast dat leerkrachten bij het beoordelen van leeriingen en het
nemen van didactische beslissingen het meeste gewicht toekennen aan eigen observaties en
resultaten van oefenwerk van leeriingen: toetsen komen op de derde plaats. Dorr-Bremme
(1982) die verslag doet van een survey-onderzoek onder 486 leerkrachten uit het basis- en 365
uit het voortgezet onderwijs, komt tot dezelfde bevindingen. Normgerichte toetsresultaten
hebben een beperkte functie in het didactisch proces. In de ogen van leerkrachten echter, is de
belangrijkste functie van dit type toets: het controleren van het eigen oordeel over het niveau en
de prestaties van leerlingen. Voor normgerichte toetsen geldt in het algemeen dat deze functie
vanuit psychometrisch oogpunt acceptabel is te noemen, evenals relatief ordenen van leeriingen
ten opzichte van anderen met het oog op beoordelingen, groepsindelingen, plaatsings- en
selectiebeslissingen.

Uit verschillende studies (zie o.a. Goslin, 1967 en Stetz en Beek, 1979) is op te maken dat
normgerichte toetsen mogelijk ook voor diagnostische doeleinden worden gebruikt. Daar de
wijze waarop de onderzochte toetsen gebruikt kunnen of moeten worden in de meeste studies
niet is geëxpliciteerd, is moeilijk te achterhalen of cn in welke mate de grenzen van acceptabel
toetsgebruik worden overschreden. Janssens (1985) constateerde dat in de Nederiandse situa-
tie een groot deel van gebruikers van normgerichte rekentoetsen van het Cito deze toetsen op
een onjuiste wijze gebruiken. Een conclusie die uit de aangehaalde studies wel is te trekken is dat
normgerichte toetsen een geringe Invloed hebben op de inrichting van het onderwijs, omdat
leerkrachten ze voor dit doel in het algemeen niet geschikt vinden.

3.3 Gebruik van criteriumgerichte toetsen

Tot dc criteriumgerichte toetsen kunnen gerekend worden zogenaamde criterium-, leerdoel-
gerichte, domeingerichte, curriculum- of methodegebonden toetsen. Deze hebben de criterium-
gerichte interpretatiewijze gemeenschappelijk, ofschoon ze kwalitatief gezien soms aanzienlijk
van elkaar verschillen. Zo is doorgaans onduidelijk op welke wijze toetsen in methodes of
curricula zijn geconstrueerd en ontbreken veelal gegevens over de kwaliteit van deze instrumen-
ten (zie o.a. Popham, 1981, p. 29). Ten opzichte van het gebruik van normgerichte toetsen heeft
het gebruik van criteriumgerichte toetsen betrekkelijk weinig aandacht gekregen. Een verkla-
ring hiervoor zou kunnen zijn, dat ze nog niet lang voor het onderwijs beschikbaar zijn en (dus)
nog weinig bekendheid genieten c.q. nog niet in groten getale en voor meerdere leerstofonder-

-ocr page 12-

1828 Toetsgebruik in de onderwijspraktij k

<-• c "g

S 'c O

5 s s

„ = 2 s

F. > e^

,, c
ca

<N

■g-o g

2 {g w

a I

•d «

«ë
«J «

2 g>

ë g

00 E

O _

M C 2
«O ra

.5 §

"s i

•O Ë

ë 8

0 \

1 a.

■ü ca

I

C/)

S

u

s
t-1
u
tJ

c

O

O B

-S-s

0

1 "
C u

II

8

03 >

g- ê

S-q •

g UU - O

lllflll

00 T3 00 .S S t> S

<N ro Tf 1/1

O

« S

TT

II
H

(5o

E .S

c s -s

O n „

^ t; " S"
> .ü .g
"S 5 2 y

O = J2 = 2

ë > 8 >ë
.S «1 is u .5

c
g

.s g

O • =

II

•II
t>

. I

^ iS §

"s 3 '5

i5 .a 5

c 1: fi

t) 3 «

E 3 e

P 5 ê

.5 U .5

rl

S 2

a-g

U BO
^ (rt
SS ts
•a O

3
•2 ë


oo

c

I?


ü CQ

c
u

h

ÖO
m

c
u
T5
C
O
O.

25

I

ÖÓ
iJ m

« O

ü O
.SJ OQ

m

a

M
O

S

wi 3

H^ S"
O

Z-S,^

52

3
'E

3

è

O
u

3

Ji

§

u

hh
ÜÜ
Z U

^ u

^ §

O

2
&

O

§

li.
9

s s

u

'•3

3

§
u

e w

S 5

tg

CD

a

u

& g

£ S»

s ^

tll

K c ü

ill

V
J=

73
3

C
O

•s

S;

N

S

c

U '—.

m C/

£
O

n

u

Si c

T3
O

P iP

T3

c
a

M

Ui

>
O

ü

05 C-

X)
f2

-ocr page 13-

Frans J. G. Janssens 1829

M .5
> Ü
T3 >

y S 5 g" c

5 «

Ô '13 c

C .2 .2 T3

'ü 5 B. is s

'O o o pû cd
c
u
c

O,
O

t5

3

c
g

S3

E

.D

Si a
- s

rï e g

3 Ü w

ii —

-û u 8

4> n O

M 2 -O

O
3

pq

u

0

a

a
>

T5
ü
O

1

U

T3

I

C O

g-i

3
O-

I l;l
ill

a

ed u

g-s

S E

3 £i ô « .a

Q, C
O M

g n

ç u

■i «
2 jg

^ o

00 i.
w u

Sil

ea W) u

> c 60

lil

c
u

u

J2

i 1 2
së 5


(S

^ §

O

Cv|

m

0\
oo

c
u

JC
o

C
u

Je

s:

•g

Î2
.M

J3

O

Ï3Ó
Ji 03

2

2

Î3 O

PQ

£
u
•o

E

u
T3

IS

ISI^

ëëët
z u u D.

s s

■ o,

K

o O

g

•Hp

« g

u
i-ë

z u u H .s Si

z u

z u

<5 .H
"O ^
3 Ü 5

B.s-ê

3

3 Ü

o 3

S 55

sl

" 3

« W5

u

•a

ëo

B OO
O ON

O

s

II

M 2
C/5 w

oo

-ocr page 14-

10 Toetsgebruik in de onderwijspraktij k

O,
O

C 3

lil:.

c
u

OJ

g C C 5 2

> c« li O O >

•a febiJ-'S-o „ _

" O J«! « BO u -r >- "

.2 c 2 t; a O S °

•s-ë ë,2.s 5 J.s.s

s

<N

a a

T3

> Ö
00 u JL s

C n) ^ O

X
u IJ
" c
O

O.
O

Q.

0

C C

ë I ë

1 § i "

lil 2
O 5 O .itf

> .c > S
•S ^ -S ^

— <N
g

UI
(N

c

O

E

WH "

DU C

llll

g^
3 ü

CA OJ
(U

'i g

2.3

" O 2

•O .D 00

.u ta

«1
g. "

u C

Ü g
1/5 >

XI >

c

u

E

u

c

u
J3

c

Vi

O.

u
00

e
u
00

O

c

c

Wl

u

c

<L)

O

tfi
u

co
•O

"5

.O

3

'c

•g

u

c

ta
>

ca

CJ


O
2

Ö O
ca

Ö Ó
Ji
m

O O

ii CQ

S O

ü 03

U O
ii OQ

U g

U P -ü

z u u .s a

u

^ H H H

Ü O Ü S
Z U U H

H H -g
O O ^
ZU S.

u

O

ü

lU

T3

C

O

li-,

"5

£

00
CS

3

(/I

>

<u
O

ü
u

c g s;

i) e u

3 c 2

ü
S

"C
ig
E

'u

O C/3

c
ü
lïT»

■O
c

O
> ^

t iJ

<5

•O S
3 u

S.E

S .5

^ n

.U g

T3 60
3 g

<N
OO

o\

i>
E
Ë
a

CQ

u

cd ^

D.
Q.
O
.C

U

Tl-

Q w

-ocr page 15-

Frans J. G. Janssens 11

•u

c

= ß

g jc S

BB g
S

I "

(U u

II

•o .o

o

^ 2
2 3

ta

u O)
M >

il
0)

g o

E -o

-- CN

W)
CN

c

>

c

ca

•ä u

O'S

" g

Im o

Sd ö
O C

E "

II

tJÛ ^

I« ca

" '5
o g

is

<u C

■S U

u
8 ^

3

cr t.

^ >

I 2 -ë 2 2

JO JO b -D -D

H

z
<

c

c

•c «

^ s
^ S3
o

2

u &0

II

c

u

o
ta
.£3

•a

. . (U
g-Ä

î> O O Ü Ü
00 W) O ----

00 CJ) i« O

o
CN

00

CN m

tu

2

Xi
a>

00 I

H,

00
_c

a

-s

2

a>

trt

T3

c

u

C

O

ta
>

\
00
n

O

CJ

XI

00

a

c

ta

c

ca

c/l

M
ta

"S,

1/1
tu

3

Q.

<D
Ui


c

u

o
2

u o
>

e

D

.S

U

ta

Ö O

CQ

ÖO
Ü m

fe o
^ >

c

a>
OB
C
■G
O

« ^-s
3-q Si

•c <u o
t3 e u

3|

V (O
•Ü
E

H s c
H .s s

U
H
Ü
U

f- H
8g

4>

» -a

« g n

2 i K

a c g

o s

s .Îi a

i- ta Ä

" r- .y

m

u la o

ta e .t;

0

c to g

1 2 ^

3 H C5

>> c wi
g

s o • =

1/1 o £

s o .s

c s
S "

u js

o (J

11
•ë i

II

îi
H H
Ü Ü
Z U

n

t S?
3 S

VI >

c

S ä
^ S

ca
m
co

<N
0^

E

■il

trt m
J3 oo
3 OS

fc^ c-

S Ü

H U

—■ CN m -"i- W-)

-ocr page 16-

12 Toetsgebruik in de onderwijspraktij k

delen voorhanden zijn. Zelfs in de V.S., de bakermat van dit type toets, genieten ze nog weinig
bekendheid (vgl. Yeh, 1980). Hier te lande geldt dit zeker voor de zogenaamde leerdoelgerichte
toetsen van het Cito (zie Janssens en Van Deventer, 1983). Dit zijn criteriumgerichte toetsen die
behoren bij leerdoelen die betrekking hebben op onderdelen van verschillende leerstofgebieden
uit het basis- en voortgezet onderwijs. Deze toetsen worden bruikbaar geacht naast verschil-
lende in gebruik zijnde onderwijsmethodes om de beheersing van leerdoelen vast te stellen.
Leerkrachten zijn daarentegen wel bekend met zogenaamde methode- of curriculumgebonden
toetsen. De meest gebruikte rekenmethodes in het basisonderwijs, bijvoorbeeld, kennen derge-
lijke toetsen.

Een van de eerste onderzoeksverslagen naar het gebruik van criteriumgerichte toetsen is van
de hand van Leithwood en zijn collega's (Leithwood et al., 1976), die verslag doen van de
begeleide implementatie van een wiskundecurriculum (K-10), dat volgens de principes van de
strategie voor beheersingsleren moet worden gebruikt. Het curriculum kent twee soorten
criteriumgerichte toetsen, namelijk 1) voor plaatsing van leerlingen in het curriculum of in
groepen en 2) voor het per leerdoel evalueren van de voortgang.

Tijdens de implementatie van het curriculum gingen de onderzoekers onder andere na op
welke wijze leerkrachten (N = 108) criteriumgerichte toetsen gebruikten. Men constateerde dat
de meeste leerkrachten (87%) criteriumgerichte toetsen, bedoeld voor voortgangsevaluatie,
regelmatig afnemen. Dit in tegenstelling tot de toetsen bedoeld voor plaatsing van leerlingen,
die door minder dan de helft van de leerkrachten werden gebruikt.

Gaandeweg het onderzoek bleken steeds meer leerkrachten de toetsen in overeenstemming
met de bedoeling te gebruiken. Wel dient vermeld te worden dat de onderzoekers de implemen-
tatie begeleidden in de vorm van training van hoofden en leerkrachten.

Kremers (1982) onderzocht in welke mate en voor welk doel, leerkrachten (N = 981) uit het
voortgezet onderwijs gebruik maken van leerdoelgerichte toetsen van het Cito bedoeld voor
voortgangsevaluatie. Deze toetsseries bestaan uit een leerdoellijst, leerdoelgerichte toetsen en
verwijzingen naar de plaatsen waar in bepaalde methodes leerdoelen aan de orde komen,
ofschoon ze niet gekoppeld zijn aan een specifieke methode. Hij constateerde dat slechts 15
procent van de leerkrachten, die dergelijke toetsen aanschafte, ze ook daadwerkelijk gebruikt,
ofschoon niet geheel conform de bedoelingen. Kremers constateerde dat het feitelijk gebruik
aanzienlijk afwijkt van het bedoelde. Een derde deel van de regelmatige gebruikers gebruikt de
toetsseries overwegend als een verzameling toetsopgaven, waaruit men opgaven selecteert
zonder rekening te houden met de ordening van opgaven naar leerdoel. Men stelt dus naar eigen
inzicht uit de verschillende toetsen een (nieuwe) toets samen, vermoedelijk zonder zich te
bekommeren over kwaliteitseisen als validiteit en betrouwbaarheid. Ofschoon de toetsen bij
uitstek geschikt en bedoeld zijn voor het sturen van de instructie, gebruikt een aanzienlijk deel
van de frequente gebruikers, waarvan een groot deel de opgaven herschikt (60%), de toetsen
voor het geven van cijfers (resultaatbeoordeling). Naast het naar behoeven selecteren van
opgaven uit de toetsen, brengt men ook nog andere wijzigingen aan, zoals het assembleren van
parallelle toetsversies tot een nieuwe of'grotere' toets (ongeveer 25%), het wijzigen van opgaven
(ongeveer 45%) en het toevoegen van opgaven (ongeveer 30%).

Rutherford (1979) signaleert enkele'problemen die verbonden zijn aan het werken met
curricula met criteriumgerichte toetsen. Veel leerkrachten (N = 2000) ondervonden problemen.
Deze zijn niet gelegen in de uitgangspunten, opzet of aanpak van die, curricula, maar in het
gebrek aan kennis en vaardigheden van leerkrachten om criteriumgericht te werken. Criterium-
gericht werken veronderstelt dat de leerkracht van iedere leerling de behoeftes vaststelt en
daarna de instructie individualiseert. Daarnaast wordt verondersteld dat leerkrachten de
instructie in stapjes onderverdelen, opdat de leerling op eigen niveau door het curriculum heen
kan. Echter, zo constateert Rutherford, de structuur en inhoud van dergelijke curricula ver-
schaffen leerkrachten niet de technieken, procedures en materialen om dit in de praktijk te

-ocr page 17-

Frans J. G. Janssens 13

realiseren. Daardoor vallen veel gebruikers terug op oude strategieën. Ondanks dat leerdoelen
en toetsen door leerkrachten worden gebruikt, geeft men onderwijs volgens het oude patroon,
zoals de hele klas tegelijk toetsen, of niet-beheersers gewoon met de hele klas verder laten gaan.
Ook Janssens (1982) die op enkele scholen het gebruik van leerdoelgerichte toetsen van het Cito
onderzocht komt tot dezelfde bevindingen.

Ofschoon sommige deskundigen de mogelijkheden van criteriumgerichte toetsen hoger
waarderen dan normgerichte toetsen (vgl. Popham, 1978), blijkt in de praktijk het gebruik
ervan niet veel af te wijken van de normgerichte toetsen. Situaties waarin sprake is van begeleide
implementatie of integratie in een curriculum, vormen hierop een gunstige uitzondering (vgl.
Leithwood et al. 1976 en Janssens, 1982).

Over het gebruik van criteriumgerichte toetsen die geïntegreerd zijn in een curriculum is niet
veel meer bekend dan dat leerkrachten dit type toets van groter belang achten dan normgerichte
toetsen (vgl. David, 1979; Dorr-Bremme, 1982 en Burry, 1982). Tot op heden zijn slechts enkele
studies bekend die expliciet aandacht besteden aan het functioneren van toetsen in een curricu-
lum. Kuhs et al. (1983) onderzochten gedurende een schooljaar het gebruik van curriculumge-
bonden toetsen bij zeven leerkrachten. Zij kwamen tot de conclusie dat leerkrachten die
nauwgezet het curriculum volgen de beschikbare toetsen vaker gebruiken dan leerkrachten die
het curriculum 'losser' gebruiken. Ook wanneer er sprake is van team teaching of parallelklas-
sen, wordt er vaker gebruik gemaakt van toetsen, omdat in deze gevallen de leerkrachten het
onderwijs op elkaar proberen af te stemmen. De zeven leerkrachten gebruikten de toetsen
weinig of niet voor het geven van cijfers of het beoordelen van leerlingen, maar vooral voor het
nemen van instructiebeslissingen. Dit kan een gevolg zijn van de integratie van toetsen in een
curriculum. Het uitvoeren van instructiebeslissingen wordt bijvoorbeeld vergemakkelijkt door
de aanwezigheid van verdiepings- en verbredingsstof. De resultaten van het onderzoek van
Kuhs et al. (1983) suggereren dat toetsen in curricula voor leerkrachten relevant zijn en dat
vooral de door het curriculum geboden handelingsalternatieven bijdragen tot frequent en
efficiënt gebruik van criteriumgerichte toetsen. Een belangrijk punt is echter dat de kwahteit
van toetsen uit curricula niet vast staat.

4 FACTOREN DIE VAN INVLOED ZIJN OP HET GEBRUIK VAN TOETSEN

Al geruime tijd wordt er in de hteratuur gediscussieerd over de vraag hoe leerkrachten in de
onderwijspraktijk toetsen moeten gebruiken (zie onder andere Traxler, 1953; en voor een recent
voorbeeld De Bruyne, 1983). Geconcludeerd moet worden dat die hteratuur weinig invloed
heeft gehad op de praktijk. Allengs ontstaat uit empirische gegevens een beeld van factoren die
wel van invloed zijn op het gebruik van toetsen, dat wil zeggen op de mate waarin en het doel
waarvoor toetsen feitelijk worden gebruikt. De belangrijkste lijken te zijn: (1) kennis en
vaardigheden, (2) attitudes, opvattingen en percepties van leerkrachten op het gebied van de
toets- en evaluatietheorie (onderwijsmeetkunde) en (3) de school- en klasse-organisatie.

Kennis en vaardigheden van leerkrachten op het gebied van de onderwijsmeetkunde

Er is voldoende reden om vrees te hebben voor het niveau van kennis en vaardigheden van
•eerkrachten voor wat betreft de onderwijsmeetkunde. Goslin (1967) toonde in de V.S. reeds in
de zestiger jaren aan dat de kennis en vaardigheden van leerkrachten schromelijk tekort
schieten. Alle geconstateerde manco's en daarop gebaseerde aansporingen van menigeen
hebben tot op heden geen gevolg van enige betekenis gehad (zie bijv. Goslin, 1967; Wesdorp et
al-. 1979 en Lazar-Morrison, 1980). In Nederland is de situatie niet veel anders. Zo stelde
Janssens (1983a) vast dat leerkrachten exphciet vermelde regels rond het afnemen van norm-
gerichte toetsen met voeten treden: leerkrachten houden geen rekening met de standaardmeet-

-ocr page 18-

14 Toetsgebruik in de onderwijspraktij k

fout, werken vaak uitsluitend met onbewerkte scores en interpreteren resultaten criterium-
gericht in plaats van normgericht.

Goslin (1967) behandelt als een van de eersten de toetspraktijken van leerkrachten. Hij vroeg
leerkrachten via vragenlijsten onder andere: (1) in welke mate ze bekend zijn of ervaring hebben
met toetsen en (2) hun mening over de nauwkeurigheid, eerlijkheid en bruikbaarheid van deze
toetsen. Uit Goslins resultaten bleek dat minder dan 40 procent van alle leerkrachten slechts
enige vorm van training op toetsgebied had genoten, ofschoon meer dan 80 procent regelmatig
toetsen afnam. Ten tweede bleek, dat leerkrachten van mening waren dat toetsen op een
betrekkelijk nauwkeurige wijze de vorderingen van leerhngen weergeven (vgl. ook Kellaghan et
al., 1981). Uit Goslins onderzoek blijkt ook: hoe meer training op dh gebied genoten, hoe meer
van toetsen gebruik wordt gemaakt.

Ruim tien jaar later herinneren Oljenik (1979), Wesdorp et al. (1979), Yeh (1978) en Lazar-
Morrison et al. (1980) ons nogmaals aan de gebrekkige kennis en vaardigheden van practici.
Yeh (1978) rapporteert bijvoorbeeld, dat slechts 50 procent van de ondervraagde leerkrachten
in staat was twee - in de V.S. - frequent gebruikte standaardscores te interpreteren namehjk
percentielscores en zogenaamde grade equivalents. Ook stelde Yeh (1978) vast dat op toetsge-
bied meer ervaren leerkrachten eerder geneigd zijn toetsen te gebruiken en poshiever over
toetsen denken dan minder ervaren leerkrachten. Het positieve verband tussen bekendheid en
ervaring met toetsen en het gebruik ervan, wordt ook nog eens onderstreept door Cramer en
Slakter (1968). Opvallend is, dat in een land als de V.S. waar op jaarbasis zo'n 80 procent van de
schoolgaande jeugd met een of meerdere toetsen wordt geconfronteerd, nauwelijks aandacht
wordt besteed aan de professionalisering van leerkrachten op toetsgebied (Woelner, 1979: zie
ook Janssens, 1983b).

Verschillenden hebben geanalyseerd aan welke kennis en vaardigheden het leerkrachten
doorgaans ontbreekt om succesvol van toetsen gebruik te maken. Boyd et al. (1975) stelden vast
dat leerkrachten onvoldoende kennis hebben van regels rond het afnemen van normgerichte
toetsen. Zij constateren ook dat leerkrachten vaardigheden missen om toetsresultaten te
verwerken en deze normgericht te interpreteren.

Ook Ebel (1967) constateerde dat leerkrachten weinig toetstheoretische kennis hebben, toen
hij onderzocht op welke wijze leerkrachten door henzelf ontwikkelde toetsen gebruiken.
Leerkrachten leggen te veel nadruk op informele evaluaties en nemen doorgaans toetsen te laat
af, zodat integratie met de instructie niet (meer) tot stand kan komen. Veel door leerkrachten
opgestelde toetsen stemmen niet overeen met de kennis en vaardigheden van leeriingen op een
bepaald vakgebied. Bovendien signaleerde Ebel triviale en ambigue opgaven, gebrek aan kennis
van factoren die de kwaliteit van schriftelijke evaluatie-instrumenten bedreigen en een gebrek-
kige kwaliteitscontrole op de ontwikkelde instrumenten. Leiter (1974) constateerde eveneens
dat de kwaliteit van door leerkrachten opgestelde toetsen te wensen overiaat en dat de gebrek-
kige achtergrondkennis waarover leerkrachten doorgaans beschikken, zal leiden tot onbet-
rouwbare instrumenten.

Rudman et al. (1980) stelden op basis van literatuuronderzoek een lijst met onderwijsmeet-
kundige kennis en vaardigheden op, die tot de standaarduitrusting van iedere leerkracht dient te
behoren. Naar hun mening dient een (aanstaande) leerkracht het volgende te kennen en kunnen:

- weten dat onderwijskundige beshssingen gebaseerd moeten zijn op relevante gegevens;

- weten welke gegevens op welke wijzen verzameld moeten worden, hoe deze gegevens
geselecteerd en gewogen dienen te worden en hoe ze te verspreiden onder collega's;

- kennis hebben van verschillende evaluatieve databronnen, zoals ouders, collega's, deskun-
digen, archiefmateriaal en de huidige leeromgeving.

- kennis van dataverzamelingstechnieken, zoals observatie- en vraagtechnieken;

- kennis hebben van datakarakteristieken, zoals relevantie, vahditeit, betrouwbaarheid, con-
sistentie en meetfout;

-ocr page 19-

Frans J. G. Janssens 15

kennis hebben van de interactie tussen datakarakteristieken en verzamelingsprocessen:
kunnen selecteren en/of ontwikkelen van evaluatie-instrumenten afgestemd op het doel;
kunnen gebruiken van data in beslissingsprocessen, zoals data wegen, data transformeren
naar een schaal en standaardscores interpreteren (percentielen. Deciel- en C-schalen, stan-
daardmeetfout, gemiddelden).
- weten dat diagnostiseren geen zin heeft tenzij differentiële didactische maatregelen (kunnen)
worden getroffen.

kunnen terugkoppelen van informatie op leerlingen, ouders, specialisten en dergelijke en
weten welke informatie op iedere doelgroep teruggekoppeld moet worden.
Het trainen van leerkrachten op het gebied van evalueren en toetsgebruik in het bijzonder is
zmvol. In verschillende hierboven aangehaalde studies is een positief verband geconstateerd
tussen kennis en vaardigheden van leerkrachten en succesvol toetsgebruik. Dat training van
leerkrachten op dit gebied ook effect kan hebben toont ons de studie van Hastings, Runkel en
Damrin (1961). Zij beschrijven een onderzoek waarin de attitudes jegens en percepties van
toetsgebruik veranderd kunnen worden als gevolg van training.

Studies naar toetsgebruik geven alle aanleiding tot het opzetten van opleidings- en bege-
leidingsactiviteiten op het gebied van evalueren door leerkrachten. Dergelijke activiteiten
moeten niet alleen gericht zijn op het gebruik van evaluatie-instrumenten, waaronder toetsen,
maar ook op de integratie van evalueren met de instructie. Verschillende auteurs hebben erop
gewezen dat om succesvol te kunnen evalueren ook het beslissingsgedrag van leerkrachten
(Shavelson en Stern, 1981; Calderhead, 1983) en het ontwerpen van onderwijs een belangrijk
praktisch punt is (vgl. Janssens, 1983a; Rutherford, 1979 en Tillema, 1983). Naast scholing op
het gebied van evalueren c.q. de onderwijsmeetkunde zijn ook kennis en vaardigheden op het
gebied van de structuur respectievelijk het sequenteren van leerstofmhouden van groot belang
voor het afstemmen van onderwijs op de behoeftes van leerlingen.

Attitudes, percepties en opvattingen van leerkrachten

oetsgebruik wordt, volgens verschillende auteurs, eveneens in hoge mate bepaald door attitu-
des, opvattingen en percepties van leerkrachten. Stetz en Beek (1978; 1979) deden onderzoek
naar de attitudes van Amerikaanse leerkrachten (N = 3300). De resultaten van de studies van
tetz en Beek laten zien dat 55 procent van de leerkrachten een neutrale positie inneemt ten
opzichte van toetsen en dat 37 procent geïnteresseerd is in toetsresultaten. Te verwachten was
dat een gebrek aan interesse gedeeltelijk te verklaren zou zijn uit gevoelens van leerkrachten
over de bruikbaarheid van toetsen. Echter, ruim 80% van de respondenten reageert neutraal tot
positief op de bruikbaarheid.

Een overwegend neutrale houding ten opzichte van toetsen blijkt ook uit de studies van
Wesdorp e.a. (1979) en die van Choppin (1982) en Dorr-Bremme (1982). Steun voor de geringe
'nvloed van toetsen op de onderwijspraktijk en de neutrale houding van leerkrachten komt ook
mt de zogenaamde Ierse studies, waarin de effecten zijn nagegaan van normgerichte schoolvor-
eringentoetsen op de onderwijspraktijk en op de percepties en verwachtingen van leerkrachten
(Kellaghan, Madaus en Airasian, 1981). Dit onderzoek is uniek omdat in een zeker opzicht van
een gecontroleerd experiment gesproken kan worden. Ierland was tot het begin van de zeven-
tigerjaren een 'toetsvrij' land (in dit verband ligt een vergelijking met Nederland voorde hand).

nderzoekers waren in Ierland in de gelegenheid de invloed van normgerichte toetsen vast te
stellen in vergelijking tot controlegroepen die van toetsen verstoken bleven. Een dergelijke
vergelijking is bijvoorbeeld in de V.S. onmogelijk.

In de Ierse studies onderzocht men gedurende vier jaar een steekproef van 270 scholen (2500
eerkrachten; 40.000 leerlingen). Men onderscheidde drie condities: (1) een experimentele
groep, waarin regelmatig toetsen werden afgenomen, waarvan de resultaten op leerkrachten
berden teruggekoppeld; (2) een controlegroep waarin wel toetsen afgenomen werden, maar die

-ocr page 20-

16 Toetsgebruik in de onderwijspraktij k

geen Icennis van resultaten kreeg en (3) een 'toetsvrije' controlegroep. De beschikbaarheid van
toetsen veranderde weinig aan de oorspronkelijke gematigd positieve mening van leerkrachten
over normgerichte toetsen. Na vier jaar vonden leerkrachten die kennis hadden van toetsresul-
taten, dat toetsen een accurater beeld van de schoolvorderingen van hun leerlingen gaven, dan
leerkrachten die geen toetsen gebruikten of kennis hadden van toetsresultaten. Kellaghan c.s.
(1981) stelden vast dat de constructen die toetsen meten in hoge mate overeenstemmen met de
constructen die leerkrachten in hun eigen meer informele evaluaties trachten vast te stellen. Dit
kan tot gevolg hebben dat normgerichte toetsen betrekkelijk weinig nieuws toevoegen aan wat
leerkrachten al over het niveau van hun leerlingen weten.

Ondanks dat bepaalde groepen leerkrachten steeds gunstiger zijn gaan oordelen over toetsen,
zijn er geen significante verschillen geconstateerd in het gebruik van toetsinformatie voor het
nemen van didactische beslissingen. De beschikbaarheid van toetsinformatie veranderde bij-
voorbeeld niet de groeperingspraktijken van leerkrachten; er zijn daarin geen verschillen
gevonden tussen de drie condities. Voorts zijn er geen verschillen geconstateerd in de geperci-
pieerde relevantie van toetsen voor de onderwijspraktijk.

Ook binnen het project 'The social functions of testing' heeft men onderzoek gedaan naar de
attitudes en percepties van leerkrachten (Salmon-Cox, 1981). In dit onderzoek is via open
interviews en (klasse-)observaties het toetsgebruik van 35 leerkrachten op drie basisscholen
nagegaan. Ondanks verschillen tussen scholen qua onderwijssysteem, beleid, leerlingpopulatie,
status en team teachingkarakteristieken, zijn de overeenkomsten tussen leerkrachten opmerke-
lijk; leerkrachten vinden normgerichte toetsen betrekkelijk irrelevant. Alle leerkrachten rap-
porteren dat ze hoofdzakelijk van toetsen gebruik maken om hun eigen oordelen te verifiëren of
hun eigen informatie aan te vullen. Evenals in de Ierse studies (Kellaghan, Madaus en Airasian,
1981)bleekuitde gegevens van Salmon-Cox (1981), dat, wanneer er een conflict ontstaat tussen
het oordeel van de leerkracht en toetsscores, leerkrachten doorgaans de leerlingen het voordeel
van de twijfel geven (zie ook Wesdorp e.a., 1979). De accuraatheid van een toets is pas in het
geding wanneer de toetsscores lager uitvallen dan het oordeel of de verwachting van de
leerkracht. Daarentegen twijfelen leerkrachten aan hun eigen oordelen en verwachtingen
wanneer deze lager zijn dan een toetsscore.

Volgens Salmon-Cox (1981) wordt door leerkrachten in beperkte mate van toetsen gebruik
gemaakt, onder andere omdat ze niet aansluiten op de behoeftes van practici aan zogenaamde
breed-spectrum technieken. Dit zijn technieken waarmee een breed scala van zowel cognitieve
als affectieve gedragswijzen die belangrijk zijn voor het leren-op-school kunnen worden geëv-
alueerd.

Madaus (1981) probeert een verband te leggen tussen de Amerikaanse en de Ierse studies. Ter
aanvulling van de conclusie van Salmon-Cox (1981) dat normgerichte toetsen irrelevant zijn
voor leerkrachten wegens het enge bereik van toetsen, stelt Madaus (1981): toetsen worden als
irrelevant ervaren, omdat ze constructen meten die ook deel uitmaken van de percepties van
leerkrachten. Wijken toetsprestaties af van de verwachtingen, dan vinden leerkrachten toetsen
'onnauwkeurig'. Stemmen de toetsprestaties overeen met hun percepties dan vinden ze toetsin-
formatie 'redundant'. De resultaten van de Ierse en Amerikaanse studies suggereren dat
normgerichte toetsen om twee redenen geen grote invloed hebben op de onderwijspraktijk. Ten
eerste: omdat leerkrachten hun eigen percepties ten minste even accuraat vinden en ten tweede:
omdat leerkrachten toetsen vooral nuttig vinden als bevestiging van hun eigen percepties.

m

4.3 School- en klasse-organisatie

Naast factoren als kennis, vaardigheden, opvattingen en dergelijke van leerkrachten op het
gebied van toetsgebruik krijgen onderzoekers steeds meer oog voor andere factoren die een rol
spelen in het functioneren van toetsen. Er zijn aanwijzingen dat met name de school- en
klasse-organisatie daarop van invloed is. Volgens verschillende onderzoekers bepaalt de

-ocr page 21-

Frans J. G. Janssens 17

school- en klasse-organisatie in hoge mate enerzijds de noodzaak om (frequent) te evalueren en
anderzijds de mogelijkheden om - op basis van evaluaties - differentiële maatregelen uit te
voeren.

Aan de ene kant kan gesteld worden dat evalueren en het afnemen van toetsen opportuun is
wanneer er sprake is van een zekere vorm van gedifferentiëerd onderwijs (zie Rudman et al.,
1980 en Good, Biddle en Brophy, 1975). In een gedifferentieerde leeromgeving is het zinvol
■"egelmatig te evalueren omdat met een zekere regelmaat beslissingen moeten worden genomen
om leerhngen te (her)groeperen, te plaatsen en bovenal om het onderwijs af te stemmen op de
behoeftes van leerlingen. Janssens (1984) signaleerde dat de wijze waarop het onderwijs wordt
'ngericht van invloed is op het gebruik van toetsen. Leerkrachten die een rekenmethode
gebruiken volgens een individueel progressiesysteem treffen - na beoordeling "an schriftelijk
werk - meer differentiërende didactische maatregelen dan leerkrachten die klassikaal werken.

Aan de andere kant moet gesteld worden dat evalueren pas effectief is, wanneer leerkrachten
kunnen beschikken over voldoende middelen om differentiële maatregelen uit te voeren, zoals
bijvoorbeeld verrijkingsmateriaal.

Factoren die in dit verband een positief effect hebben op het functioneren van toetsen, zijn
(vgl.
Yeh, 1980; Kennedy et al., 1982; Burry, 1982 en Kuhs et al., 1983):

de beschikbaarheid van hulpmiddelen en aanvullende oefen- en instructiematerialen die
leerlingen eventueel zelfstandig kunnen verwerken;

de beschikbaarheid van handelingsalternatieven, bijvoorbeeld in het kader van remedië-

ringsactiviteiten.

Uit de studie van Kuhs et al. (1983) blijkt dat de aanwezigheid van handelingsalternatieven en
middelen ertoe kan leiden dat criteriumgerichte toetsen overeenkomstig de bedoelingen worden
gebruikt. Het uitvoeren van didactische maatregelen wordt, zoals uit sommige studies bhjkt
(Kennedy et al., 1980; Yeh, 1980; Burry, 1982; zie ook Rutherford, 1979), bemoeilijkt door de
afwezigheid van middelen om te differentiëren. Wanneer deze middelen niet voorhanden zijn is
net voor de leerkracht overbodig de voortgang van het onderwijs tc volgen met oog op
(bij)sturing. De evaluatiegegevens die een leerkracht vanuit dit perspectief verzamelt kunnen
moeilijk ten nutte worden gemaakt.

Yeh (1978; 1980) ontdekte dat een aantal andere aspecten van de schooien klasse-organisatie
ook een positieve invloed heeft op het evaluatieklimaat op scholen en op het gebruik van
toetsen: de aanwezigheid van (1) ouderhulp en onderwijsassistentie, (2) vormen van stafdiffe-
rentiatie en (3) parallelklassen. Ouderhulp en onderwijsassistentie werken taakverlichtend
doordat de verwerking van toetsen en resultaten kan worden uitbesteed en/of doordat bepaalde
eerlingen in het kader van remediering naar derden verwezen kunnen worden (zie ook Kennedy
et al., 1982). Wanneer leerkrachten vanwege taakdifferentiatie of parallelklassen op elkaar zijn
aangewezen wordt een verhoogd aantal evaluatie-activiteiten gesignaleerd (Burry, 1982; Dorr-
i^remme, 1982). Er vindt in dergelijke situaties frequent overleg plaats over toetsafnames en het
Verwerken en interpreteren van toetsresultaten om het onderwijs zoveel mogehjk uniform te
laten verlopen.

Een laatste factor die van invloed is op het evaluatieklimaat op scholen is de rol van de
schoolleider. Op sommige scholen is de rol van de schoolleider van doorslaggevende betekenis
voor het evaluatiebeleid. De mate waarin deze functionaris waarde hecht aan interne en externe
"■apportages en aan de kwaliteitsbewaking van het onderwijs op school is mede bepalend voor
et aantal en soort toetsen dat wordt gebruikt alsmede het doel waartoe toetsresultaten worden
gebruikt (vgl. Dorr-Bremme, 1982 en Bickei et al., 1983).

De invloed van bovengenoemde contextfactoren is reeds lang opgemerkt in studies naar de
sociale of organisatiekwaliteiten van scholen en klassen (zie bijvoorbeeld Lortie, 1965), maar
Wordt sinds kort ook van belang geacht in het onderzoek naar het functioneren van toetsen.

Ook vanuit een andere hoek is gewezen op de - veelal beperkende - invloed van contextfacto-

-ocr page 22-

18 Toetsgebruik in de onderwijspraktij k

ren op het evalueren door leerkrachten, namelijk in studies naar het denken van de leerkracht.
Shavelson en Stern (1981) geven, in hun overzicht van literatuur op dit onderzoeksgebied, een
model van het beoordelings- en beslissingsgedrag van leerkrachten. Factoren als institutionele
beperkingen en beschikbare handelingsalternatieven, zijn expliciet in dat model opgenomen.
Deze factoren worden geacht een rol te spelen in het beslissingsgedrag van leerkrachten, op het
gebied van het ontwerpen, voorbereiden en evalueren van onderwijs.

5 BESLUIT

Wat opvalt bij het samenstellen van dit literatuuroverzicht is dat er een aantal aspecten van
toetsgebruik is, waarover weinig of geen informatie is. Een belangrijk aspect is het gebruik van
vooral criteriumgerichte toetsen die gekoppeld zijn aan curricula. Om een evenwichtig beeld
van de invloed en het gebruik van toetsen te verkrijgen, wordt onderzoek naar het gebruik van
criteriumgerichte toetsen node gemist. Ook de rol van andere evaluatietechnieken dient in de
discussie te worden betrokken met name de relade tussen deze - vaak informele - technieken en
de instructie. Leerkrachten blijken meer vertrouwen te hebben in hun eigen evaluaties van en
oordelen over het instructieproces en de vorderingen van leerlingen, dan in informatie die
toetsen daarover geven. Over die evaluaties en oordelen is echter weinig bekend.

Een ander in het oog springend gegeven is de verschuiving in de aandacht van onderzoekers
van sociale determinanten van toetsgebruik naar meer onderwijskundige factoren. In de
hteratuur wordt de nadruk gelegd op de professionalisering en de attitudevorming van leer-
krachten. Maar ook de invloed van de school-, klasse-organisatie en instructievariabelen dienen
in ogenschouw te worden genomen om te kunnen vaststellen of, wanneer, waarom en hoe
leerkrachten toetsen gebruiken.

Aan het in dit artikel gehanteerde en in brede kringen geaccepteerde onderscheid tussen
normgerichte en criteriumgerichte toetsen kleven bezwaren. Het onderscheid is van technische
aard en verwijst niet noodzakelijkerwijs naar specifieke onderwijskundige functies van toetsen.
Het verdient aanbeveling toetsgebruik te koppelen aan de onderwijskundige functies van
toetsen en niet aan de wijze waarop toetsresultaten moeten worden geïnterpreteerd. Omdat veel
studies op het traditionele onderscheid en de daaraan toebedeelde gebruiksmogelijkheden zijn
gebaseerd, is dit onderscheid in onderhavig overzicht als referentiekader overgenomen.

Formuleren we tenslotte tegen de achtergrond van bovengenoemde beperkingen een conclu-
sie over het gebruik van toetsen door leerkrachten, dan kan het volgende worden gesteld. De
invloed van normgerichte toetsresultaten op de onderwijspraktijk wordt in verschillende stu-
dies 'gerirtg' genoemd, ondanks dat bijvoorbeeld in de V.S. normgerichte toetsen zeer frequent
worden afgenomen en ondanks dat het merendeel van de practici niet afwijzend reageert op
dergelijke toetsen. Vastgesteld is dat slechts een relatief klein deel van de gebruikers rapporteren
normgerichte toetsresultaten te gebruiken om het onderwijs in te richten. De meeste gebruikers
nemen alleen kennis van de resultaten om hun oordelen over hun leerhngen te controleren. In
grote lijnen stemt het beperkte feitehjk gebruik van normgerichte toetsinformatie overeen met
de mogehjkheden en beperkingen van dit type toets. Een beperkte groep leerkrachten gebruikt
de resultaten (ook) om leedingen te plaatsen, te groeperen, te beoordelen of om leerproblemen
op te sporen. Er zijn aanwijzingen dat gebruikers normgerichte toetsen (ook) gebruiken om de
instructie en verwerking af te stemmen op (individuele) leerlingen. In het algemeen zijn
dergehjke toetsen daarvoor minder of zelfs niet geschikt.

De oorzaak voor de geringe invloed van normgerichte toetsen moet volgens verschillende
onderzoekers worden gezocht in de door leerkrachten gepercipieerde irrelevantie van deze
toetsen, omdat ze doorgaans geen informatie toevoegen aan de kennis die leerkrachten op
andere wijzen óver hun leedingen hebben verzameld. Het gegeven dat normgerichte toetsen
nogal generale informatie verschaffen waaruit niet onmiddellijk aanwijzingen zijn af te leiden

-ocr page 23-

Frans J. G. Janssens 19

voor de instructie, zal zeker bijdragen tot de betrekkelijk geringe bruikbaarheid van deze
toetsen.

Voor criteriumgerichte toetsen ligt de zaak voor een deel anders. Onderzoeksresultaten
Wijzen uit dat, in gevallen dat er toetsen zijn opgenomen in een curriculum, hiervan zeer
frequent gebruik wordt gemaakt. Het feitelijk gebruik is doorgaans in overeenstemming met het
bedoelde, namelijk: sturing en plaatsing van leerlingen in het onderwijsproces. Toetsen uit
curricula worden in mindere mate gebruikt voor resultaatbeoordelingen of relatieve vergelij-
kingen van leerlingen. De resultaten van studies naar criteriumgerichte toetsen uit curricula
tonen een hoopgevend beeld, maar het aantal onderzochte gevallen is erg beperkt. Bovendien is
vrijwel niets bekend over de kwaliteit van dergelijke instrumenten. Voorlopig kunnen slechts
Uiterst voorzichtige conclusies worden getrokken.

In studies naar het gebruik van criteriumgerichte toetsen die min of meer onafhankelijk zijn
van een bepaald curriculum constateren onderzoekers een lage gebruiksfrequentie en relatief
veel ontoelaatbare gebruiksvarianten, zoals reconstructies van toetsen en normgerichte wer-
kwijzen. Er is veel voor te zeggen dat criteriumgerichte toetsen pas succesvol kunnen worden
gebruikt, wanneer ze deel uitmaken van een curriculum, dat een gedifferentieerde opzet kent
(vgl. Good, Biddle en Brophy, 1975; Leithwood et al., 1976; Janssens en Van Deventer, 1983),
ofschoon daarmee beslist niet alle problemen zijn opgelost (zie Rutherford, 1979). Als oorzaken
voor de geringe invloed en bruikbaarheid van toetsen worden in de literatuur genoemd:

Toetsen geven geen veelzijdig beeld van de vorderingen van leerlingen. Node worden gemist:
evaluatie-instrumenten met veelzijdige opdrachttypen, responsvormen en instrumenten of
procedures voor het evalueren van bijvoorbeeld affectief gedrag (Salmon-Cox, 1981; Dorr-
Bremme, 1982 en Baker, 1981).

Toetsen, zeker normgerichte, missen de aansluiting op het gegeven onderwijs. Doorgaans is
de zogenaamde curriculumvaliditeit gering, dat wil zeggen de overeenstemming tussen de
toetsinhouden en de feitelijke instructie (zie bijvoorbeeld Freeman et al., 1983).
De constructvaliditeit van (normgerichte) toetsen stemt in hoge mate overeen met het beeld
dat leerkrachten hebben van de vorderingen van hun leerlingen, of anders gezegd: leerkrach-
ten 'meten' voor een groot deel hetzelfde als toetsen. Vandaar dat toetsen door leerkrachten
als betrekkelijk irrelevant worden ervaren (vgl. Kellaghan et al., 1981; zie ook Madaus,
1981).

Er is een discrepantie tussen de context waarin toetsen functioneren en het wenselijk geachte
gebruik van toetsen.
Het gebruik van toetsen wordt als tijdrovend en taakverzwarend
ervaren (zie bijvoorbeeld
Kremers, 1982 en Yeh, 1978). Het ontbreekt de leerkracht vaak
aan voldoende strategieën, middelen en materialen om leerlingen te remediëren (vgl.
Rutherford,
1979; Gil, 1980 en Tillema, 1983). De wijze waarop leerkrachten inde dagelijkse
praktijk beoordelen en beslissen strookt niet met de toetsrationale.
Leerkrachten hebben te weinig kennis en vaardigheden op het gebied van de onderwijsmeet-
kunde. Professionalisering heeft een positief effect op het gebruik van toetsen en op attitudes
van leerkrachten jegens toetsen (vgl.
Hastings et al., 1961). De attitudes van leerkrachten
zijn een functie van kennis en vaardigheden op toetsgebied.
Hoe meer ervaring met en
opleiding op het gebied van toetsen des te gunstiger oordelen leerkrachten over toetsen
(Goslin,
1965; Yeh, 1978 en Salmon-Cox, 1981).
e hierboven gesignaleerde tekorten en onvolkomenheden lijken oplosbaar. Toetsontwikke-
aars zouden meer aandacht kunnen besteden aan het ontwikkelen van veelzijdige technieken,
jnstrumenten en procedures voor het evalueren van 'alles' wat op school geleerd wordt,
oetsontwikkelaars - een wat vreemde aanduiding in dit verband - moeten zich meer gaan
czig houden met het ontwikkelen van procedures en instrumenten, waarmee leerkrachten op
®cn betrouwbare en valide manier zelf gegevens kunnen verzamelen en onderling kunnen
cgelijken. Dergelijke technieken gebruiken ze het meest en daar hebben ze meer vertrouwen

-ocr page 24-

20 Toetsgebruik in de onderwijspraktij k

in. Ook het probleem van de geringe curriculumvaliditeit, dat eigenlijk meer de normgerichte
dan de criteriumgerichte toetsen geldt, is oplosbaar. Het verdient de voorkeur niet langer
onafhankelijk van vigerende of te implementeren curricula toetsen in het onderwijs te ver-
spreiden. Vooral criteriumgerichte toetsen zouden in nauwe relatie met een curriculum dienen
te worden ontwikkeld.

Ook het probleem van de professionalisering van leerkrachten is oplosbaar, bijvoorbeeld
door de ontwikkeling van pré- en in-servicetrainingen voor leerkrachten (en hun opleiders en
begeleiders). Uit verschillende studies blijkt dat er een positief verband is tussen het gebruik van
toetsen en kennis en vaardigheden van leerkrachten op dit gebied. Er zijn aanwijzingen dat
scholing in dit verband succesvol kan zijn (Hastings et al., 1961 en Rudman et al., 1982). Door
scholing kan eveneens worden bevorderd dat toetsen door leerkrachten niet langer als 'irrele-
vant' worden beschouwd, omdat ze geen extra informatie toevoegen aan hetgeen leerkrachten
op een andere wijze over leerlingen te weten zijn gekomen. Toetsen vervullen een functie in het
verzamelen van gegevens ten behoeve van beslissingsprocessen. Het is van belang dat een
leerkracht staat kan maken op die verzamelde gegevens. Daarin moet de relevantie van toetsen
worden gezocht. Tot op heden zijn toetsontwikkelaars en onderwijskundigen er nog niet in
geslaagd leerkrachten hiervan te overtuigen.

LITERATUUR

Angel, J.L. (1968). National, State, and other external testing programs. Review of Educational Research, 38,
1,85-91.

Baker, E.L. (1981). A Multi-disciplinary review of Criterion-referenced measurement. Los Angeles, AERA-
paper.

Barnette, J.J. en J.C. Thompson, 111, (1979). A descriptive assessment of the effect of evaluations on
instruction.
Studies in Educational Evaluations, 5,77-86.

Beck, M.D. en P.P. Stetz (1979). Teachers opinions of standardized tests use and usefulness. San Francisco,
AERA-paper(ED 177202).

Bickel, W. (Ed.) (1983). Effective Schools. Educational Researcher, 12,4, Thema-nummer.

Boyd, J., B.H. McKenna, R.E. Stake en J. Yachinsky (1975). A study of testing practices in the Royal Oak
(Michigan) public schools.
Royal Oak, Mich., Royal Oak City School District. (ED 117161).

Bruyne, H.C.D., de (1983). Evalueren in de klas, Amsterdam, Van Goor en Zn.

Burry, J. (1982). Who do we believe and what does it mean? New York, AERA-paper.

Calderhead, J. (1984). Teachers' decision-making, London. Holt, Rinehart and Winston.

Carduzzi-Bolchazy, M. (1978). A survey of the use of reading readiness tests. Reading Horizons, 18, 3,
209-212.

Choppin, B. (1982). How schools make use of test results. New York, AERA-papcr.

Cramer, S. en M. Slakter (1968) A scale to assess attitude toward aptitude testing. Measurement and
Evaluation in Guidance,
1,2,96-102.

David, J.L. (1979) Local use of Title I evaluations. San Francisco, AERA-paper.

Dorr-Brcmme, D. (1982). Assessing students; teachers' routine, practices and reasoning. New York, AERA-
paper.

Ebel, R.L. (1967). Improving the competence of teachers in educational measurement. In: J. Flynn and H.
Garber (Eds.),
Assessing behavior: Readings in educational and psychological measurement. Rea-
ding, Mass., Addison- Wesley, 171-182.

Freeman, D., G. Bell, A. Porter, R. Floden, W. Smidten J. Swille(1983). The influence of different styles of
textbook use on instructional validity of standardized tests.
East Lansing Mich., Institute for
Research on Teaching, Michigan State University.

Gil, D. (1980). The decision-making and diagnostic processes of classroom teachers. East Lansing, Mich.,
Institute for Research on Teaching, Michigan State University, Research series no. 71.

Gipps, C. en R. Wood (1981). Testing in schools: practices, purposes and beliefs. Paper presented at the
British Educational Research Association Annual Conference.

-ocr page 25-

Frans J. G. Janssens 21

I

Good, T.L., B.J. Biddle en J.E. Brophy (1975). Teachers make a difference. New York, Holt, Rinehart and
Winston.

Goslin, D.A. (1967). Teachers and testing. New York, Russell Sage Foundation.

Gronlund, N.E. (1976). Measurement and evaluation in teaching. London, Collier MacMillan Int.

Hastings, J.T., P.J. Runkel en E.E. Damrin (1961) Effects on use of tests by teachers trained in a summer
institute.
Urbana, University of Illinois, Bureau of Educational Research.

Howe, H. II. (1978). Tests and schooling. Two papers presented at The National Conference on Achieve-
ment Testing, Washington, D.C.

Janssens, F.J.G. (1982). Leerdoelgerichte toetsen in het basisonderwijs. Arnhem, Cito. Algemene Publikatie
nr. 27.

Janssens, F.J.G. (1983a). Eerste inventarisatie van gebruiksvariaties van rekentoetsen van het Cito. Arnhem.
Documentatiereeks nr. 107.

Janssens, F.J.G. (1983b). Profiel van een Noord Amerikaanse studiereis. Arnhem, Cito. Documentatiereeks
nr. 121.

Janssens, F.J.G. (1984). Relaties tussen evalueren en didactische maatregelen. Tilburg. ORD-paper.

Janssens, F.J.G. 0985). Functioneren van algemene niveautoetsen in het basisonderwijs. In: W.J. van der
Linden (red.),
Moderne methoden van loetsconsiructie en -gebruik. Lisse, Swets & Zeitlinger, p.
94-103.

Janssens, F.J.G. en M.M. van Deventer (1983). Leerdoelgerichte rekentoetsen van het Cito; mogelijkheden
en beperkingen.
Willem Bartjens. 2,2/3,82-92.

Kahn, A.,(1978) Remarks to the National Conference on Achievement Testing and Basic Skills. Washington,
D.C.

Kellaghan, T., G.F. Madaus en P.W. Airasian (1982). The effects of standardized testing. Den Haag,
Kluwer.

Kennedy, M.M., R. Aphng en W.F. Neumann (1980). The role of evaluation and test information in public
schools.
Cambridge Mass., The Huron Institute.

Kirkland, M.C. (1971). The effects of tests on students and schools. Review of Educational Research, 41,
303-350.

Klem, S.P. (1970). Evaluating tests in terms of the information they provide. Evaluation Comment, 2,2,1 -6.

cremers, E.J.J. (1982). Gebruikers- en behoeftenonderzoek: project leerdoelgerichte toetsen. Arnhem, Cito,
Documentatiereeks nr. 68.

•^uhs, Th., A. Porter, R. Floden, D. Freeman, W. Schmidt en J. Swille (1983). Differences among teachers in
their use of curriculumembedded tests.
East Lansing, Mich., Institute for Research on Teaching,
Michigan State University.

Lazar-Morrison, Ch. et al. (1980). A review of the literature on test use. Los Angeles, Cal., Center for the
. Study of Evaluation, University of California.

6'ter, K.C.W. (1974). Ad hoeing in the schools: A study of placement practices in two kindergartens. In:
A. V. Cicourel (Ed.),
Language use and school performance. New York, Academic Press.

Leithwood, K.A. et al. 0976). Curriculum change at the system level; a four-year mathematics project.
Curriculum theory network, 5,3,219-245.
ortie, D.C. (1975). School teacher: a sociological study. Chicago, The University of Chicago Press.

Kenna, B. (1973). Task force and other reports. Interim report on the task force on testing. Washington,
D.C., National Education Association. (ED 151421).

^adaus, G.F. (1981). Reactions to the Pittsburgh papers. Phi Delta Kappan. 62,9,632-634.

•vichrens, W.A. en R.L. Ebel (1979). Some comments on criterion referenced and norm-referenced tests,
Measurement in Education, 10, I.
"ko, A.J. (1971).
A model for criterion-referenced tests based on use. New York, AERA-paper. (ED
, 152797).

'jenik, S.F. (1979). Standardized achievement programs viewedfrom the perspective of a non-measurement

specialists. San Francisco, NCME-paper.
errone, V. (1977).
The abuses of standardized testing. Bloomington, Ind. Phi Delta Kappan, Educational

p Foundation.

opham, W.J. (1979). Practical criterion-referenced measures for intra-state evaluation, ft/Mcafi'o/ia/ZVcA-
no/og>', 18,5,19-23.

W.J. (1981). Modern Educational Measurement, Englewood Cliffs, Prentice-Hall.

-ocr page 26-

22 Toetsgebruik in de onderwijspraktij k

Resnick, L. en D. Resnick (1978). The social functions of educational testing: a proposal submitted to the
Carnegie Coorperation of New York,
Pittsburgh.

Rudman, H.C., J.L. Kelly, D.S. Wanous, W.A. Mehrens, C.M. Clark en A. Porter (1922-1980). Integrating
assessment with instruction: a review.
East Lancing, Institute for Research on Teaching, Michigan
State University, 1980. Research series nr. 75. (ED 206629).

Rudman, H.C. (1983). Using standardized test result to improve classroom instruction. Montreal, AERA-
paper.

Rutherford, W.L. (1979). Criterion-referenced programs: the missing element. Journal of curriculum studies.
11,1,47-52.

Salmon-Cox, L. (1981). Teachers and standardized achievement tests: what's really happening?PA/Df/W
Kappan. 62,9,631-634.

Shavelson, R.J. en P. Stern (1981). Research on teachers pedagogical thoughts, judgments, decisions, and
behavior.
Review of Educational Research, 4,455-498.

Shulman, L.S. (1980). Test design: a viewfrom practice. In: E.L. Baker en B.S. QueWmatz, Educational testing
and evaluation; design, analysis and policy.
Beverly Hills, Sage Publications.

Stetz, P.P. (1978). Providing relevant test data for decision-making purposes. Elementary SchoolJournal,
78,3,220-225.

Stetz, P.P. en M.D. Beck (1978). A summary of opinions concerning users of educational test. Toronto,
NCME-paper. (ED 160663).

Stetz, P.P. en M.D. Beck (1979). Comments from the classroom: teachers and students opinions of achieve-
ment tests.
San Francisco, NCME-paper.

Tillema, H.H. (1983). Leerkrachten als ontwerpers Utrecht, (Diss.).

Thio, K.D. (1983). Vijftien jaar Cito, vijftien jaar 'Wiel Solberg'. In: W.C. Weeda e.a.,Examens in discussie;
een bundel opstellen voor J. W. Solberg.
Groningen, Wolters-Noordhoff.

Traxler, A.E. (1953). Introduction to testing and the use of test results in public schools. Westport, Conn.,
Greenwood Press.

Tomic, W. en C. Weesie (1982). Survey-onderzoek naar onderwijspraktijken van wiskundeleraren. Tilburg,
ORD-paper.

Wesdorp, H. (red.) (1979). Studietoetsen en hun effecten op het onderwijs. Den Haag, Staatsuitgeverij,
SVO-reeks nr. 15.

Woelner, E.H. (1979). Requirements for certification for elementary schools, secondary schools and junior
colleges.
Chicago, The University of Chicago Press.

Wolok, R.S. (1972). Let's use tests for teaching: standardized test results can provide the basis for a program
of instruction.
Teacher, 90,2,62-64 en 179-181.

Yeh, J.P. (1978). Test use in schools. Los Angeles, Cal., Center for the Study of Evaluation, University of
California.

Yeh, J.P. (1^80). A reanalysis of test use data. Los Angeles, Center for the Study of Evaluation, University of
California. (ED 205590).

Manuscript ontvangen 26-7-1984

Deflnitieve versie ontvangen 13-11-1985

-ocr page 27-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 23-293.

Kategorisering van statistiekproblemen door
beginners en experts

Pieter H. Been en Frank B. Brokken
Rijksuniversiteit Groningen

abstract

For a considerable number of freshmen applied statistics is an obstacle, especially in the social
sciences. Although few research has been done about solving applied statistical problems, a careful
analysis of comparable problems in physics which have already been the subject of research shows
that the way to solve both types of problems might be comparable. If so, mainly the choice of the
correct statistical test will be difficult for novices. Experts, however, will almost perfectly agree in
deciding which statistical test is appropriate for a presented problem. A sorting experiment reveals
that this is the case indeed. In order to determine the proportion of variance of the expertor novice
categorization given the data the coefficient tau (Goodman & Kruskal) is proposed. Teaching
procedural knowledge (i.e., knowledge to choose the right algorithm), is worth considering in
applied statistics and probably also in other domains of problem solving.

Toegepaste statistiek is in veel eerste- en tweedejaars programma's in het W. O. een struikelblok
voor studenten, met name binnen de sociale wetenschappen (vgl. Beetsma, Broeks en Joostens,
Binnen de toegepaste statistiek, die in die programma's wordt gedoceerd, is de toetsende
statistiek een belangrijk onderdeel. Problemen die studenten na het volgen van onderwijs in de
oetsende statistiek geacht worden te kunnen oplossen worden op tentamens meestal aange-
oden in de vorm van gegevens verweven in een verhaaltje dat wordt afgesloten met de

opdracht: 'Toets de hypothese dat---'. Belangrijke voorwaarden voor het kunnen oplossen

van zo'n probleem zijn het kiezen van de juiste statistische toets en het foutloos kunnen
Uitvoeren van het bijbehorende rekenwerk.

ten kontrastieve analyse van probleemoplossend gedrag van ervaren docenten statistiek en
clatief onervaren probleemoplossers, zoals eerstejaars studenten die recent een kursus statis-
lek hebben gevolgd, kan opheldering verschaffen over de specifieke moeilijkheden die begin-
ners hebben met het maken van statistiekopgaven. Het gedrag van experts en gevonden
ontrasten tussen expert- en beginnelingsgedrag kunnen vervolgens worden gebruikt voor
onderwijskonstruktie (vgl. Resnick, 1976; Resnick & Ford, 1981). Mettes en Pilot (1980) en
nderen hebben op het gebied van de thermodynamica laten zien dat, ten opzichte van
■"aditioneel onderwijs, met onderwijs dat op deze wijze is gekonstrueerd een verbetering kan

borden bereikt.

Hoewel probleemoplossend gedrag - los van het op te lossen inhoudelijk probleem - wordt
gekenmerkt door enkele algemene principes (vgl. Newell & Simon, 1972), is men over het
gemeen van mening dat probleemoplossend gedrag vakspecifiek is of zelfs specifiek voor
^eelgebieden binnen dat vak (Crombag, 1979; Greeno, 1980). Dit betekent dat - aangezien er
geen relevant onderzoek op het gebied van het oplossen van statistische problemen bekend
~ in eerste instantie niet kan worden voortgebouwd op eerder verricht onderzoek. Door de
eurs wordt verondersteld dat de aanpak van experts bij het oplossen van problemen uit de
etsende statistiek een opmerkelijke overeenkomst vertoont met de aanpak die door experts bij

Adressen: Pieter Been, Cowog, hoogbouw W.S.N., R.U. Groningen, postbus 900, Groningen; Frank B.
"■okken, vakgroep Interdisciplinaire Onderwijskunde, R.U. Groningen, Westerhaven 16, Groningen.

-ocr page 28-

24 Kategorisering van statistielcproblemen

het oplossen van natuurkundeproblemen wordt gevolgd. Wanneer deze overeenkomst inder-
daad bestaat ligt het voor de hand om bij onderzoek naar het oplossen van problemen uit de
toetsende statistiek aan te sluiten bij onderzoek naar het oplossen van natuurkundeproblemen,
waarnaar relatief veel onderzoek is gedaan.

verbaal

stereotype

keuze

probleem

schets ln de vorm

toets

van een variantie-

analyse design

+

koncepten

Figuur 1 Probleemtransformaties van een expert bij het oplossen van opgaven uit de toetsende statistiek

Enige ondersteuning voor de juistheid van de hierboven genoemde veronderstelling werd wel
gevonden: uit de analyse van
Protokollen van een expert die hardop denkend problemen uit de
toetsende statistiek oploste en uit de analyse van de door de expert gemaakte aantekeningen
komt de volgende aanpak naar voren: Sleutelwoorden in een verbaal aangeboden probleem
worden getransformeerd in vakinhoudelijke koncepten en ingevuld in een stereotiep schema,
dat grote overeenkomst vertoont met de schets van een opzet voor variantieanalyse. Op grond
van het ingevulde stereotiepe schema wordt vervolgens de juiste statistische toets gekozen
waarmee het probleem kan worden opgelost. Zowel het proces van transformatie van sleutel-
woorden in vakinhoudelijke koncepten als het proces van de keuze van de statistische toets kan
in de vorm van produktieregels eenduidig uit de
Protokollen worden afgeleid. Onafhankelijke
beoordelaars stemmen in
hoge mate overeen bij de identifikatie van produktieregels in de vorm
van zogenaamde 'als-dan' uitspraken (Brokken en Been, 1984). Deze expertaanpak is nog eens
systematisch weergegeven in figuur 2. Bij experts die natuurkundige problemen oplossen
worden overeenkomstige probleemtransformaties waargenomen (Verg. figuur 2 (Larkin, 1980;
Larkin, McDermott, Simon en Simon, 1980). Eerst wordt een naïeve schets van het verbaal
aangeboden probleem gemaakt (vgl. Luger, 1981). Daarna volgt een schets met bijbehorende
concepten, die stereotiep is voor de theoretische benadering waarmee het probleem kan worden
opgelost, zoals vanuit de principes van de dynamica. Op grond van de stereotiepe schets wordt
beslist of de gekozen theoretische benadering voldoet.^Zo niet dan wordt een andere benadering
geprobeerd. Is een bevredigende theoretische aanpak gevonden dan worden de in de stereotiepe
schets vervatte theoretische concepten in de bijbehorende algebrafïsche vergelijkingen gesubsti-
tueerd, waarna het probleem snel kan worden opgelost.

Kenmerkend voor onervaren probleemoplossers is daarentegen dat zij onmiddellijk de in een
verhaaltje aangeboden waarden in een hen plausibel schijnende vergelijking invullen. Het
maken van een stereotiepe schets, bij uitstek het middel van de expert om te toetsen of de juiste
benadering is gevonden, en de transformatie in vakinhoudelijke koncepten wordt overgeslagen.
Men zou dan ook vermoeden dat beginners juist bij opgaven waarbij de probleemaanpak niet
onmiddellijk door de opgave wordt gesuggereerd fouten zullen maken. Chi, Feltovich & Glaser
(1981) vonden inderdaad dat beginners bij de keuze van een oplossingsmethode voor een
natuurkundeprobleem vooral letten op uiterlijke kenmerken. Zij vroegen aan beginners en

-ocr page 29-

Pieter H. Been en Frank B. Brokken 25

verbaal

naïeve

stereotype

algebraïsche

probleen

schets

schets

representatie

koncepten

expert route

-----y beginners route

Figuur 2 Probleemtransformaties door experts en beginners

aan experts een aantal aangeboden verbale problemen in te delen in groepjes problemen, die
men op dezelfde wijze zou oplossen. Middels clusteranalyse kon worden vastgesteld dat
beginners problemen vooral groeperen aan de hand van uiterlijke kenmerken van een pro-
bleem, terwijl de kenmerken waarop werd gelet van individu tot mdividu verschilden. Experts
daaremegen verdelen problemen in groepjes die volgens hetzelfde principe kunnen worden
opgelost en de experts stemmen bij die indeling in hoge mate overeen.

Bij de experts is de overeenkomst tussen de aanpak van problemen uit de natuurkunde en de
aanpak van problemen uit de toetsende statistiek treffend. In beide gevallen wordt een verbaal
aangeboden probleem vertaald in een stereotiepe schets met bijbehorende vakinhoudelijke
koncepten.
Bij opgaveri uit de toetsende statistiek wordt het maken van een naïeve schets
achterwege gelaten waarschijnlijk omdat dezelfde stereotiepe schets m de vorm van een
variantieanalyse opzet voor alle problemen van toepassing is.
Het maken van een naïeve scheU,
wellicht van nut om de juiste stereotiepe schets te kunnen kiezen, wordt in zo'n geval overbodig.
Tenslotte gaat men zowel bij de oplossing van natuurkunde problemen als bij de oplossing van
problemen uit de toetsende statistiek over naar een algebraïsche representatie.

Stel dat de hier gegeven vergelijking in aanpak tussen natuurkunde- en statistiekprob emen
tot een juiste premisse heeft geleid, namelijk dat de resultaten van onderzoek naar het oplossen
van natuurkundeopgaven generaliseerbaar zijn naar het gebied van de eenvoudige toetsende
statistiek. In dat geval zou de keuze van het juiste principe (konkreet: De juiste toets) op het
gebied van de toetsende statistiek moeilijkheden voor beginners op moeten leveren Zoals
gesteld in de inleidende opmerkingen, is de keuze van het juiste principe een van de twee
voorwaarden om statistiekopgaven op te kunnen lossen. In hoeverre beginners, m tegenstelling
tot experts, zich bij eenvoudige statistiekopgaven in de keuze van een oplossingsprmcipe laten
leiden door de uiterlijke kenmerken van een opgave zal worden onderzocht. Verwacht wordt
dat experts vrijwel unaniem zullen zijn in hun keuze van het oplossingsprmcipe Beginners
daarentegen kenmerken zich in hun keuze waarschijnlijk door ideosynkrasie: De kenmerken
van een opgave waarop wordt gelet verschillen van individu tot individu (verg. Chi e.a., (mi).
Om de mate te bepalen waarin de groepering van opgaven door een beoordelaar overeenkomt
"^et de in dit onderzoek gehanteerde expert-kategorisering der opgaven kan geen gebruik
"'orden gemaakt van een index als Cohen's kappa. Immers, het zal niet altijd duidelijk zijn
welke opgaven die door een beoordelaar zijn samengevoegd overeenkomen met een bepaalde
«pen- of beginnerskategorie. Evenzo is de bepaling van een eventuele associatie tussen de
'"deling die door een proefpersoon wordt gegenereerd enerzijds en de expert- of beginnerskate-
eorisering anderzijds voor dit onderzoek weinig zinvol. De chi^ en de ervan afgeleide Cramers V

-ocr page 30-

26 Kategorisering van statistielcproblemen

(Cramèr, 1946) zijn moeilijk anders te interpreteren dan als toetsingsgrootheden waarmee kan
worden nagegaan of (maar nauwelijks in welke mate) de variabelen van een kruistabel geasso-
cieerd zijn. Een voor dit onderzoek geschikte maat is de grootheid tau(r/c) (Bishop, Fienberg en
Holland, 1978, p. 389 ff.), die kan worden beschouwd als het analogon voor nominale data van
de proportie verklaarde variantie. In dit onderzoek wordt tau(r/c) geïnterpreteerd als de mate
waarin de frekwenties in de rijen van de kruistabel uit de frekwenties in de kolomkategorieën
kunnen worden voorspeld. Wanneer de rijkategorieën de expert-indeling representeren en de
kolomkategorieën de feitelijke door een proefpersoon uitgevoerde sortering der opgaven, dan
geeft tau(r/c) de mate waarin de proefpersoon als expert kan worden beschouwd.

METHODE

Op systematische wijze zijn 48 eenvoudige statistiekopgaven geformuleerd, waarin telkens een
kenmerk werd verwerkt waarop experts worden geacht te letten en een kenmerk waardoor
beginners zich mogelijk laten misleiden. De kenmerken waarop experts waarschijnlijk letten
bestaan uit de volgende vijf kategorieën:

I. Opgaven die kunnen worden opgelost met een t-toets voor onafhankelijke steekproeven.

II. Opgaven die kunnen worden opgelost met een t-toets voor afhankelijke steekproeven.

III. Opgaven die betrekking hebben op de korrelatie tussen twee variabelen.

IV. Opgaven waarbij de varianties van skores bij twee onafhankelijke steekproeven worden
vergeleken.

V. Opgaven waarbij de varianties van skores bij twee afhankehjke steekproeven worden
vergeleken.

De kenmerken waardoor beginners zich mogelijk laten misleiden bestaan uit de volgende vier
kategorieën

I. Opgaven waarbij één groep en één variabele worden genoemd.

II. Opgaven waarbij één groep en twee variabelen worden genoemd.

III. Opgaven waarbij twee groepen en één variabele worden genoemd.

IV. Opgaven waarbij twee groepen en twee variabelen worden genoemd.

De eerste drie expertkategorieën waren volledig gekruist met de beginners-kategorieën. De
vierde expertkategorie kwam niet voor in kombinade met de tweede beginnerskategorie, terwijl
de vijfde expertkategorie slechts in kombinade met de tweede beginnerskategorie voorkwam
(zie figuur 3). In elk van de 16 gerealiseerde kombinaties van expert- en beginnerskategorieën
werden drie opgaven gekonstrueerd die slechts qua inhoudelijke formulering verschil ver-
toonden. In bijlage I is voor elke gerealiseerde kombinatie van de expert- en beginnerskatego-
rieën een voorbeelditem vermeld.

De 48 opgaven werden in willekeurige volgorde gan de proefpersonen gepresenteerd. De
proefpersonen werd gevraagd de opgaven naar eigen inzicht te sorteren in stapeltjes opgaven die
op overeenkomstige wijze konden worden getoetst. De proefpersonen waren vrij in hun keuze
van het aantal stapeltjes. Nadat ze hun opdracht hadden uitgevoerd werd hen gevraagd aan te
geven wat de overeenkomst was tussen de opgaven die tot een stapeltje waren samengevoegd.
De instruktie die aan de ppn. werd gegeven is vermeld in bijlage II.

In dit onderzoek wordt tau(r/c) (Bishop, Fienberg en Holland, 1975) gehanteerd als de maat
voor overeenkomst tussen een feitelijke kategorisering van een proefpersoon (gepresenteerd als
de kolomkategorieën in een r x c tabel) en de hier gehanteerde expert- c.q. beginnerskategorise-
ring (gepresenteerd als de rijkategorieën in een r x c tabel). Overeenkomstig de door Bishop,
Fienberg en Holland (1975) gegeven interpretatie van tau(r/c) als maat voor verklaarde
(nominale) variantie (Gini, 1912) kan de proportie verklaarde expert-variantie, gegeven de
feitelijke door de proefpersoon gegenereerde indehng worden bepaald en kan de proportie

-ocr page 31-

Pieter H. Been en Frank B. Brokken

27

T

kategorieën

beginners

beginners

experts

i

ii

iii

iv

ii
iii
iv

V

3
3
3
3

3
3
3

3

3
3
3
3

3
3
3
3

figuur 3 Aantallen opgaven bij de kombinaties van expert- en beginnerskategorie'én

verklaarde beginnersvariantie gegeven de feitelijke indeling worden bepaald. Voor elke proef-
persoon worden op deze wijze twee indices berekend: De index tau(e/d) voor de mate waarm de
pp. als expert kan worden beschouwd, en de index tau(b/d) voor de mate waann de pp. als
beginner kan worden beschouwd. • .

Wanneer de pp. die in de expert-groep ppn. hoort worut aangeo pp pp.

beginners-groep ppn. hoort wordt aangeduid als ppbeg, geeft tau(b/ppex) de mate waarm de
Categorisering van een expert-pp. de variantie van de beginnersklassifikatie verklaart. Analoog
kunnen tau(b/ppbeg), tau(e/ppex) en tau(e/ppbeg) worden gedefinieerd.

Onderzocht werd of personen die als experts in de statistiek konden worden aangemerkt de
opgaven anders kategoriseren dan beginners in de statistiek. Hiertoe werden de volgende
hypothesen getoetst:

H1: De gemiddelde tau(e/ppex) is hoger dan de gemiddelde tau(e/ppbeg).

Wanneer de indeling van de expert-ppn. echter meer overeenkomst vertoont met de gehan-
teerde expertklassifikatie dan met de veronderstelde beginnersklassifikatie moet tevens gelden:

H2; De gemiddelde tau(e/ppex) is hoger dan de gemiddelde tau(b/ppex).

Onder de veronderstelling dat de beginners meer overeenkomst vertonen met de gehanteerde
beginnersklassifikatie dan met de gehanteerde expertklassifikatie kan tevens worden getoetst:

H3: De gemiddelde tau(e/ppbeg) is lager dan de gemiddelde tau(b/ppbeg).

De hypothesen werden getoetst met behulp van de t-toets, welke toets robuust is tegen
(mogelijke) afwijkingen van normaliteit van de verdeUng der tau-waarden, en waarmee dc

gestelde hypotheses direkt kunnen worden getoetst.

De in dit onderzoek gehanteerde beginnerskategorisering is een mogelijke indeling die door
beginners wordt gehanteerd en lijkt in ieder geval minder dwingend te zijn dan de gehanteerde
expertkategorisering. Van experts wordt niet verwacht dat hun tau(b/ppex) hoog zal zijn
aangezien deze personen immers experts zijn. Echter, van beginners wordt sleets verwacht da
hun tau(e/ppbeg) erg laag zal zijn, aangezien deze personen geen experts zijn.De hypothese dat
de gemiddelde tau(b/ppbeg) hoger zou zijn dan de gemiddelde tau(e/ppex) kan op grond van
bovengenoemde overwegingen dan ook niet worden afgeleid.

-ocr page 32-

28 Kategorisering van statistielcproblemen

Proefpersonen

De sortering der opgaven door experts werd verkregen van 6 medewerkers van de vakgroep
statistiek en meettheorie en de vakgroep persoonlijkheidspsychologie der R.U. Groningen. Alle
personen in de expertgroep hadden een uigebreide ervaring met de statistische methoden en
technieken uit de sociale wetenschappen. De sortering der opgaven door beginners werd
verkregen van 17 eerstejaars studenten in de pedagogiek der R.U. Groningen. De kennis van
deze studenten op het gebied van de statistiek bestreek op het moment van onderzoek de
beschrijvende statistiek en op zeer elementair nivo de toetsende statistiek. Verwacht werd dat
deze studenten over voldoende kennis beschikten om de opgaven begrijpend te kunnen lezen,
terwijl bovendien werd verwacht dat hun kennis niet van dien aard was dat ze in staat zouden
zijn de opgaven volgens de expert-kategorisering te sorteren. De proefpersonen werd gevraagd
de opgaven naar eigen inzicht te sorteren in stapeltjes opgaven die op overeenkomstige wijze
konden worden getoetst. De proefpersonen waren vrij in hun keuze van het aantal stapeltjes.
Nadat ze hun opdracht hadden uitgevoerd werd hen gevraagd aan te geven wat de overeen-
komst was tussen de opgaven die tot een stapeltje waren samengevoegd.

RESULTATEN

Hypothese 1. De gemiddelde tau(e/ppex) is hoger dan de gemiddelde tau(e/ppbeg). In tabel 1
staan de resultaten vermeld van de toetsing van hypothese 1. Uit deze toetsing blijkt dat de
expert-ppn. belangrijk beter in staat waren de 48 statistiekopgaven volgens de expertkategorise-
ring in te delen dan de beginners-ppn. De gemiddelde tau(e/ppex) bedraagt ruim .75, terwijl de
gemiddelde tau(e/ppbeg) bijna gelijk is aan .27.

Hypothese 2. De gemiddelde tau(e/ppex) is hoger dan de gemiddelde tau(b/ppex). In tabel 2
staan de resultaten vermeld van de toetsing van hypothese 2. Uit deze toetsing blijkt dat de
indeling van de 48 statistiekopgaven zoals aangebracht door de expert-ppn. duidelijk meer
overeenkomst vertoont met de verwachte expertkategorisering dan met de gehanteerde begin-
nerskategorisering. De gemiddelde tau(e/ppex) bedraagt (zie ook tabel 1) ruim .75, terwijl de
gemiddelde tau(b/ppex) bijna .45 is.

Hypothese, 3. De gemiddelde tau(e/ppbeg) is lager dan de gemiddelde tau(b/ppbeg). De
resultaten van de toetsing van deze hypothese staan vermeld in tabel 3. Uit deze toetsing blijkt
dat de indeling van de 48 statistiekopgaven door de beginners minder overeenkomst vertoont
met de gehanteerde expertkategorisering dan met de gehanteerde beginnerskategorisering. De
gemiddelde tau(e/ppbcg) bedraagt (zie ook tabel 1) bijna .27, terwijl de gemiddelde tau(b/pp-
beg) (zie ook tabel 2) bijna .54 is.

DISKUSSIE

De selektie van het juiste statistische principe om een in een verhaal verweven probleem op te
lossen blijkt voor beginners (in tegenstelling tot experts) een erg moeilijk taak te zijn. Deze
konklusie wordt niet alleen ondersteund doordat alle verschillen fussen gemiddelde tau-
waarden bij de toetsing van de hypotheses één tot en met drie groot waren en een kleine
overschrijdingskans hadden. Een inhoudelijke bestudering van de namen die door de ppn. aan
de door hen samengestelde groepjes opgaven hadden gegeven liet zien dat de ppn. in de
beginnersgroep - konform de in de inleiding geuite verwachting - zeer gevarieerde namen aan
hun groepjes gaven. In eerste instantie werd geprobeerd enige systematiek aan te brengen in de

-ocr page 33-

Pieter H. Been en Frank B. Brokken

29

Tabel 1

vergelijking tussen de gemiddelde tau(e/ppbeg)
en de gemiddelde tau(e/ppex).

tau(e/groep)

groep

aantal gemiddelde stand.Dev. T

p (éénz.)

experts
beginners

6 .75 .17

5.19

17 .27 .20

.000

Tabel 2

vergelijking tussen de gemiddelde tau(e/ppex)
en de gemiddelde tau(b/ppex).

tau(var/ppex)

vanabele

gemiddelde stand.Dev. T

p (éénz.)

'au(e/ppex)
'au(b/ppex)

.75

.21 3.62

.45

.008

Nexperts = 6

Tabel 3

vergelijking tussen de gemiddelde tau(e/ppbeg)
en de gemiddelde tau(b/ppbeg)

C

tau(var/ppbeg)

variabele

gemiddelde stand.Dev. T

p (éénz.)

'au(e/ppbeg)
iMVppbeg)

.27

.29 3.78

.54

.001

°eginners= 17

"amen die de beginners aan hun kategorieën hadden gegeven, maar deze poging werd gestaakt
en bleek dat elke pp. een vrijwel unieke nomenklatuur hanteerde, die hooguit een vaag
foand leek te hebben met de in dit onderzoek gehanteerde beginnerskategorisering.
n tegenstelling tot de namen die de beginners aan hun groepjes gaven, vertoonden de namen
an de groepjes die door de experts waren gevormd wel onderlinge samenhang. Sommige
Perts hanteerden termen als 'variantie analyse voor onafhankelijke groepen' of'regressie
a yse', maar vrijwel steeds werd hierbij duidelijk gebruik gemaakt van een onderliggend
iistisch principe, welke principes niet werden gekonstateerd in de namen die de beginners aan
" groepjes gaven. Het lijkt erop, dat beginners duidelijk anders - en wel op een voor het
P ossen van de problemen nadelige wijze - tegen statistiekproblemen aankijken dan experts.

-ocr page 34-

30 Kategorisering van statistielcproblemen

Daarmee lijkt een belangrijk struikelblok voor studenten gelokaliseerd te zijn waarmee in het
statistiekonderwijs rekening kan worden gehouden. Abbring (1983) en Ferguson-Hessler en de
Jong (1983) hebben recent soortgelijke verschijnselen vastgesteld bij respektievelijk schoolkin-
deren die breukrekensommen voorgelegd kregen en bij studenten die natuurkundeopgaveD
moesten oplossen. Niet zozeer het uitvoeren van een algoritme alswel de keuze van het juiste
algorhme blijkt problemen op te leveren. De kennis benodigd om het juiste algoritme te kunnen
kiezen, vaak omschreven als procedurele kennis, verdient in het onderwijs daarom meer
aandacht (Landa, 1970, 1976). Voor het statistiekonderwijs geldt dit des te meer, omdat het
uitvoeren van algoritmes in de beroepspraktijk aan rekenapparatuur wordt uitbesteed. Het
komt ons voor dat - gezien de beroepspraktijk - niet bij uhstek het kunnen uitrekenen van een
statistische toets van belang is, maar wel het kunnen kiezen van de juiste statistische toets. In
toekomstig onderzoek zal worden nagegaan wat de kenmerken zijn waar experts op letten bij de
keuze van een statistische toets. De resultaten van dergelijk onderzoek kunnen een belangrijke
ondersteuning zijn voor de konstruktie van onderwijs dat gericht is op het aanleren van
procedurele kennis.

LITERATUUR

Abbring, J.M. (1983). Oplossingsstrategieën bij vereenvoudigingstaken; traceerbaarheid en de invloed van

persoons- en taakvariabelen. Vakgroep interdisciplinaire onderwijskunde, RUG.
Beetsma, Y., Broeks, W.G., Joostens, Th.H. (1982). Persoonsgebonden en onderwijsgebonden faktoren ter
verklaring van het studieverloop van studenten, in: Vroeijenstein, A.L (red.).
Het universitair
onderwijs: een veld van onderzoek.
Harlingen, Flevodruk.
Brokken, F.B., Been, P.H. (1984). Produktieregels van experts bij het oplossen van problemen uit de

toetsende statistiek (in voorbereiding).
Bishop, Y.M.M., Fienberg, S.E., Holland, P.W. (1975).
Discrete multivariate analysis, theory and practice.
Cambridge, MIT Press.

Chi, M.T.H., Feltovich, P.J., Glaser, R. (1981). Categorization and representation of physics problems by

experts and novices. Cognitive Science, 5,121-152.
Crombag, H.F.M. (1979). Pleidooi voor een vakspecifieke cognitieve psychologie, in:
Rede als richtsnoer.
Bijdrage over methode van denken en werken in de gedragswetenschappen,
aangeboden aan Prof.
Dr. A.D. de Groot. Den Haag, Mouton.
Ferguson-Hessler, M.G.M. en de Jong, T. (1983). Markante dwaalwegen bij het oplossen van E & M
problemen. Rapport nr. 32, T.H. Eindhoven, Onderafdeling WenM, Groep onderwijsresearch.
Afdeling der technische natuurkunde.
Goodman, L.A. and Kruskal, W.H. (1954). Measures of associations for cross-classifications.
Journal of

Am. Stat. Ass., 49,732-764.
Goodman, L.A. and Kruskal, W.H. (1959). Measures of associations for cross-classifications, II, further

discussion and references. Journal of Am. Stat. Ass., 54, 123-163.
Gini, C. (1975). Variabilitä e mutabilitä, contributo alio studio delle distribuzioni; relazione statische. In:
Studi Economicoj Giuridici della R. Universitä äi Cagliari, 1912. Op. cit. in Bishop, Y.M.M.,
Fienberg, S.E., and Holland, P.W.
Discrete multivariate Analysis, theory and practice. Cambridge,
MIT Press.

Greeno, J.G. (1980). Trends in the theory of knowledge for problem solving, in: Tuma, D.T. and Reif, F.
(ed.),
Problem solving and education, issues in teaching and research. Hillsdale, N.J., Lawrence
Erlbaum.

Landa, L.N. (1970). Algoritmen en heuristieken in het onderwijs en het programmeren van denkaktiviteiten

van leerlingen. Pedagogische Studiën, 47,293-307.
Landa, L.N. (1976). Instructional regulation and control.
Cybernetics, algorithmization and heuristics in

education. Englewood Cliffs (NJ): Ed. Techn. Publ.
Larkin, J.H. (1980). Teaching problem solving in physics, the psychological laboratory and the practical
classroom, in: Tuma, D.T. and Reif, F. (ed.),
Problem solving and education, issues in leaching and
research.
Hillsdale, N.J., Lawrence Erlbaum.

-ocr page 35-

Pieter H. Been en Frank B. Brokken 31

I-^rkin, J.H., McDermott, J., Simon, D.P. and Simon, H.A. (1980). Models of competence in solving
, physics problems.
Cognitive Science, 4,317-345.

8er, G.F. (1981). Mathematical model building in the solution of mechanics problems. Human protocols

and the MECHO trace. Cognitive Science, 5,55-77.
ettes, D.T.C.W. en Pilot, A. (1980).
Over het leren oplossen van natuurwetenschappelijke problemen. CDO,
N
p Twente, (diss).

j^^well, A. and Simon, H.A. (1972). Human problem solving. Englewood Cliffs, Prentice Hall.
®snick, L.B. (1976). Task analysis in instructional design, some cases from mathematics, in Klahr, D. (ed.).
Cognition and instruction. New York, Wiley.

I^anuscript ontvangen 16-12-1984
yimtieve versie ontvangen 16-10-1985

Bijlage 1
Opgaven toetsende statistiek

beginner opgave

I Voor de aanstaande lerarenvergadering heeft de leraar klassieke
talen een aantal vragen over de cijfers Grieks van zijn leerlingen. Een
van zijn vragen is of de cijfers in de zesde klas in het algemeen hoger
zijn dan wat hij zou kunnen verwachten op grond van de cijfers van
de leerlingen in de vijfde klas.

II In verband met een vraag van de inspekteur heeft de lerares klassieke
talen een probleembetreffende de cijfers van haar leerlingen op
Grieks en op Latijn. Zij denkt dat haar leerlingen in de vijfde klas en
in de zesde klas gemiddeld even goed in Grieks waren/zijn als in
Latijn, maar zij weet zelf niet hoe zij dat kan nagaan.

III Op school houden leerlingen zich bezig met een projekt over ver-
schillen in prestaties bij jongens en bij meisjes. De leerlingen vragen
aan de leraar klassieke talen informatie over de cijfers voor Latijn
van de jongens en van de meisjes. Zij vragen hem namelijk of de
jongens dan wel de meisjes in de zesde klas een lager nivo op Latijn
hebben bereikt dan in de vijfde klas.

IV De studieadviseur vraagt zich af of de gemiddelde cijfers voor statis-
tiek en methodologie bij de docente hoger of lager zijn dan bij dc
docent.

I De onderwijzeres vraagt zich af of de taalcijfers van haar leerlingen
op het kerstrapport gemiddeld hoger zijn dan op het paasrapport.

II In verband met een vraag van de studieadviseur heeft de docente een
probleem betreffende de cijfers van de studenten op statistiek en
methodologie. Zij denkt dat de studenten op de tweede deeltoets voor
statistiek en methodologie gemiddeld even goed zijn als de parallel-
groep en zij wil weten hoe zij dat kan nagaan.

kategorie

expert

I

II

II

-ocr page 36-

32 Kategorisering van statistielcproblemen

II III In verband met een onderzoek naar faktoren die de studieprestatie

beïnvloeden wordt de docent een vraag gesteld over de statistiekcij-
fers van de studenten en de studentes. Hem wordt namelijk gevraagd
of de studenten op de eerste deeltoets een lager nivo hebben bereikt
dan de studentes.

II IV De lerares klassieke talen is geïnteresseerd in zowel de cijfers voor

Grieks als voor Latijn van zowel de leerlingen als de leerlinges. Wat
zij wil weten is of de leerlingen in de zesde klas een overeenkomstig
nivo als de leerlinges hebben bereikt.

III I De onderwijzer vraagt zich af of de leerhngen die relatief goed dan

wel slecht zijn in taal op het kerstrapport dat ook nog zijn op het
paasrapport.

III II In verband met een vraag van de inspekteur heeft de onderwijzeres

een vraag betreffende de cijfers van haar leerlingen op rekenen en op
taal. Ze wil weten of de cijfers van haar leerlingen voor rekenen op het
paasrapport samenhangen met de cijfers op taal.

III III De docente vraagt zich af of de cijfers op de eerste deeltoets statistiek

en de tweede deeltoets statistiek bij de jongens meer aan elkaar zijn
gerelateerd dan bij de meisjes.

III IV De leraar klassieke talen denkt dat het cijfer op Grieks in de vijfde

klas kan worden gebruikt om het cijfer voor Latijn in de zesde klas te
voorspellen, en dat dat bij de jongens beter kan dan bij de meisjes.

IV I In het kader van het studentenoverleg heeft de docent een aantal

vragen over de cijfers van de studenten op methodologie. Een zo'n
vraag is of de cijfers op de tweede deeltoets in het algemeen een groter
onderhng verschil vertonen dan wat hij zou kunnen verwachten op
grond van de cijfers van de studenten van het afgelopen jaar.

IV III De onderwijzer houdt zich bezig met geslachtsspecifieke verschillen

in het onderwijs. Hij heeft dan ook een vraag over de rekencijfers van
de jongens en van de meisjes. Hij vraagt zich namelijk af of de cijfers
van de jongens met kerstmis meer van elkaar verschillen dan de
cijfers van de meisjes met kerstmis.

IV IV De lerares klassieke talen is geïnteresseerd in zowel de cijfers voor

Grieks als voor Latijn, bij zowel de leerlingen als de leerlinges. Wat
zij wil weten is of in de zesde klas de overeenkomst tussen de cijfers
van de leerlingen op Grieks en van de leerlinges op Latijn gelijk is.

V II In verband met een vraag van de inspekteur heeft de lerares klassieke

talen een probleem betreffende de cijfers van haar leerlingen op
Grieks en op Latijn. Zij denkt dat haar groep leerlingen in de zesde
klas voor Grieks even homogeen is als voor La^tijn, en ze vraagt zich
af hoe ze dat kan nagaan.

-ocr page 37-

Pieter H. Been en Frank B. Brokken 33

Bijlage II
Proefpersonen instruktie

Stelt u zich de volgende situatie voor. Een onderwijzer bij het lager onderwijs, een leraar aan het gymnasium
en een docent aan de universiteit consulteren u als deskundige op het gebied van de statistiek. Zowel
onderwijzer als leraar hebben een aantal gegevens verzameld, die hieronder zijn weergegeven.

paasrapport

kerstrapport

cijfer rekenen
6

cijfer taal
7
6
7

cijfer rekenen

7
6
7

cijfer taal
6
6

meisje A
meisje B
meisje C


jongen X
jongen Y
jongen Z

cijfer Latijn

Tabel I: gegevens van de onderwijzer (Nmeisjes = Njongens - 15)
cijfer Grieks

eindrapport
vijfde klas

leerling A
leerling B
'«rling c

eindrapport
zesde klas
7
5
7
eindrapport
vijfde klas
6
7
5
eindrapport
zesde klas
6


leerlinge X
leerlinge Y
leerlinge Z

Tabel II: gegevens van de leraar (Nlcerlingen = Nleerlinges - 15)

cijfer
Methodologie
7
6
5
cijfer
Methodologie
7
deeltoets II
Statistiek
8

deeltoets I
Statistiek
5
4
4

Student A
Studente B
Student C


Studente X 7 6 3 l

StudemY 4 7 6 ö

Studente Z 6 4 5 9

Tabel UI: gegevens van de docent (Nstudenten = Nstudentes = 15)

Z°als u al is opgevallen is in de tabellen slechts een deel van de beschikbare gegevens

^•Jfers van jongLs (leerlingen, studenten) en meisjes (leerlinges, studentes) zijn ^

"et gaat erom dat u een i^ruk heeft van het type gegevens dat °"derw>jzer. leraar en docent verzameld
■'«^bben. Verder zij vermeld dat een collega van de docent hetzelfde onderwijs verzorgt voor een andere

-ocr page 38-

34 Kategorisering van statistielcproblemen

groep studenten uit hetzelfde jaar. Hetzelfde geldt voor de onderwijzer en de leraar: ook bij hen zijn er
klassen in hetzelfde leerjaar die onderwijs van een collega krijgen.

Voorzover in de vragen van docente, onderwijzeres en lerares wordt gesproken worden deze personen
geacht over soortgelijke gegevens te beschikken als respektievelijk de docent, de onderwijzer en de leraar.

Het bijgaande stapeltje kaartjes bevat vragen die statistisch toetsbaar zijn. Uw opdracht is de vragen te
sorteren in stapeltjes vragen die u op soortgelijke wijze zou toetsen. Daarna wordt u verzocht per stapeltje
een korte omschrijving te geven van de toetsmethode die u zou gebruiken.

-ocr page 39-

Tijdschrift voor Onderwijsresearch 10 (1985), nr. 6, pp. 35-295.

Sturing van het onderwijsleerproces door middel van
problemen: een veldexperiment^

R W. Tans^ H.G. Schmidt', B.E.J. Schade-Hoogeveen' en W.H. Gijselaers'

abstract

In a field experiment, learning effects of a physiology course for physiotherapists were investigated.
The aim of the study was to compare learning and achievement under a problem-based instructional
mode with effects of direct instruction. In the problem-based learning condition, small tutorial
groups analyzed problems, formulated learning goals and engaged in self-directed, independent
learning activities. The problems used were constructed on the basis of objectives that also provided
the framework for the direct instruction. Under the latter condition, students attended lectures and
studied subject-matter prescribed by the teacher. The direct-instruction group performed better
than the problem-based learning group on a multiple-choice test administered directly after the
course. Ten weeks later, however, performance on a free recall test of two randomly selected
samples showed the opposite result. Learning process data of the students under the problem-based
condition indicate that the poor results on the multiple-choice test can be explained by the
discrepancies between the learning goals on the one side and teaching objectives and test items on
the other side. Students in the problem-based condition studied subject-matter that, although in
Itself relevant, was not foreseen by the teacher and, as a consequence, not tested. This non-intended
learning comes into expression when students are asked to write down everything they remembered
about a subject. Attention is paid to the implications of these results for research on the effects of
'open' instructional methods.

idee dat het leerproces bevorderd zou kunnen worden als lerenden in staat zouden worden
gesteld jjyjj eigen leerdoelen te formuleren en na te streven, is niet bepaald nieuw. Zij wordt al
o"l h"'' gearticuleerd in het werk van de Amerikaanse psycholoog John Dewey (1910), en kan
°ok bij Piaget (1954) en Bruner (1959, 1961) worden teruggevonden. Deze auteurs verdedigen
die ^ vanuit een
constructivistisch perspectief op leren. In hun visie probeert iemand

e iets leert, nieuwe informatie op actieve en herorganiserende wijze in te passen in al aanwezige
°gnitieve structuren. De uit deze activiteit resulterende representatie kan daarom niet zonder
jj complete en correcte afbeelding zijn van datgene wat ter lering werd voorgelegd, maar
1978^ een idiosyncratische constructie van het lerende individu (Rumelhart en Norman,
V Leren is in die opvatting het zelf ontdekken van structuur en regel in de werkelijkheid;
"n's kan niet echt worden 'overgedragen', maar moet actief verworven worden.

irecte instructie is dus volgens Dewey minder zinvol dan leerlingen in de gelegenheid stellen
confrontatie met aan hen voorgelegde problemen, zelfstandig leerdoelen te formuleren en
en actief te laten zoeken naar informatie die het beste bij hun voorkennis aansluit. Informatie

Adres: H.G. Schmidt, Capaciteitsgroep Onderwijsontwikkeling en Onderwijsresearch, Postbus 616,6200

'^U Maastricht

2 aan C. Salemans en B. Kerkhofs

,unwersiteit van Amsterdam
< 'J'^suniversiteit Limburg

•^ademie voor Fysiotherapie Leffelaar

-ocr page 40-

36 Sturing van onderwijsleerproces door problemen

die hen door de onderwijzende wordt voorgeschoteld in een door hem gekozen vorm, volgorde
en moeilijkheidsgraad, kan nooit in dezelfde mate betekenisvol zijn als informatie die door de
leerhngen zelf gezocht is (Kersh, 1958).

In hoeverre worden deze noties met betrekking tot de vermeende superioriteit van leerling-
gecentreerde methoden door empirische gegevens ondersteund? Nauwelijks, moet worden
gezegd. Een aantal recente overzichten van onderzoek naar effecten van traditioneel versus
open onderwijs - in een enkel geval ongeveer 200 studies samenvattend - laten zien dat open
onderwijs in de meeste gevallen wel een positieve invloed uitoefent op
attitudes van lerenden ten
opzichte van zichzelf, de leerstof en het onderwijs, maar dat van specifieke cognitieve effecten
geen sprake lijkt te zijn (Giaconia en Hedges, 1982; Horwitz, 1979; Marshall, 1981; Peterson,
1979). Peterson (1979), die een meta-analyse uitvoerde op een groot aantal onderzoekingen in
dit veld, toonde aan dat traditioneel onderwijs over het geheel genomen tot iets betere prestaties
leidt als het gaat om wiskunde en lezen, terwijl affectieve uitkomsten, zoals zelfconcept,
attitudes tegenover het onderwijs, nieuwsgierigheid en onafhankelijkheid, in open onderwijs
beter tot hun recht komen.

Moet op grond van deze data geconcludeerd worden dat de constructivistische opvattingen
van Dewey en anderen in de praktijk van het onderwijs onvoldoende empirische ondersteuning
vinden?

In deze bijdrage wordt de stelling verdedigd dat het debat over mogelijke cognitieve effecten van
activerende onderwijsmethoden nog verre van beslist is. Het feit dat in verschillende evaluatie-
studies nauwelijks prestatieverschillen tussen traditioneel en open onderwijs worden aange-
toond, zou namelijk het gevolg kunnen zijn
van de wijze waarop in die onderzoekingen leerwin-
sten werden gemeten.
Er zijn aanwijzingen dat bij de vaststelling van eventuele effecten van
traditioneel en open, discovery en non-discovery onderwijs, veelal gebruik gemaakt wordt van
toetsen die gebaseerd zijn op
de leerstofdoelstellingen van het conventionele onderwijs. Wan-
neer leerlingen echter aangemoedigd worden hun eigen leerdoelen te verwoorden en na te
streven, is het niet ondenkbaar dat leereffecten optreden op terreinen die - hoewel op zichzelf
wellicht relevant - niet door de docent voorzien zijn. En datgene wat niet verwacht wordt,
wordt gewoonlijk ook met getoetst.

Een serieuze test van deze veronderstelling vereist de beschikbaarheid van een meetprocedure
waarmee aspecten van het leerproces op meer gedetailleerde wijze zichtbaar gemaakt worden
dan gebruikelijk en mogelijk is met data, ontleend aan een afsluitende toets. Met name is daarbij
behoefte aan een procedure waarmee in kaart gebracht kan worden in hoeverre door de docent
geformuleerde onderwijsdoelen, feitelijke leeractiviteiten van leerlingen, en leerproducten - in
de vorm van antwoorden op een afsluitende toets - elkaar dekken. Als de hierboven geformu-
leerde hypothese, dat in vormen van open onderwijs leerlingen leeractiviteiten ontplooien die
nóch door de docent verwacht, nóch met een toets gemeten worden, juist is, dan mag verwacht
worden dat onderwijsdoelen, leeractiviteiten en toetsitems elkaar
slechts gedeeltelijk over-
lappen.

Een voor de hand liggende techniek waarmee dit dekkingsprobleem nader onderzocht kan
worden, is gebruik te maken van expert-beoordelaars, die uit zouden moeten maken óf, en in
hoeverre, leeractiviteiten overeenstemmen met onderwijsdoelen en de operationalisering daar-
van in toetsitems (Rovinelli en Hambleton, 1977; Porter, Schmidt, Floden en Freeman, 1978)-
Deze techniek is in het hieronder beschreven onderzoek gebruikt. Een nadeel van deze methode
is echter dat vaak weinig inzichtelijk is hoe experts tot hun oordeel komen, en dat de betrouw-
baarheid daarvan (in psychometrische zin) niet altijd even hoog is. Daarom zal daarnaast een
meer analytische techniek geïntroduceerd worden. Deze methode houdt in dat onderwijs-
doelen, bestudeerde leerstof (of voornemens daartoe), en toetsitems worden ontleed in micro-
proposities - of concepten - die vervolgens met elkaar vergeleken worden. Deze taak kan met
hoge interbeoordelaarsovereenstemming worden uitgevoerd, zonder van experts in het betref-

-ocr page 41-

R.W. Tans et al. 37

fende leerstofdomein gebruik te hoeven maken (Schmidt en Tans, 1985).

" het veldexperiment, waarvan in deze bijdrage verslag gedaan wordt, werden effecten van
conventionele cursus over het onderwerp 'spieren', die onderdeel is van het curriculum van
een opleiding voor fysiotherapie, vergeleken met die van een 'probleemgestuurde' cursus over
at onderwerp, die op dezelfde onderwijsdoelen gebaseerd was. Beide programma's werden met
«zelfde meerkeuzetoets afgesloten. Onderwijsdoelen, leerdoelen (in de probleemgestuurde
nditie) en toetsitems werden vervolgens nader geanalyseerd, om de volgende vragen te
•runnen beantwoorden:

2 \v ^^^^^rre treden tussen beide condities verschillen op in leerresultaat?
2 ^aardoor kunnen die verschillen verklaard worden?

In hoeverre ontplooien leerlingen in de probleemgestuurde conditie leeractiviteiten die, in
^ het licht van de onderwijsdoelen, als niet-verwacht kunnen worden gekarakteriseerd?
Hoe relevant zijn deze niet-verwachte leeractiviteiten in het licht van het bestudeerde
onderwerp?

secundaire doelstelling van het onderzoek was de (predictieve) validiteit van de analytische
"Methode voor leesstofanalyse vast te stellen.

METHODE

Proefpersonen. , ...

Honderdtweeëntwintig eerstejaars studenten aan een instelling voor hoger beroepsonderwijs
(«cn academie voor fysiotherapie) namen deel aan het experiment. Zij werden per klas aselect
°ver de condities verdeeld. De samenstelling van de verschillende klassen - acht m totaal - was
«veneens aselect tot stand gekomen. Vijfenveertig studenten volgden klassikaal onderwijs m
^fie groepen. Deze conditie wordt verder de 'directe instructie' genoemd.

Zevenenzeventig studenten doorliepen de cursus 'spieren' op probleemgestuurde wijze, en
«'crden daartoe ingedeeld in tien kleine groepen. Alle groepen werden door één docent begeleid.

^ateriaal en procedure

nstructie van de cursussen. Aan een bekend handboek op het terrein van de fysiologie
h Bouman, 1976) werden door de docent 65 doelstellingen ontleend, betrekking

oend op de fysiologie van spieren. Deze doelstellingen vormden de basis waarop voor beide
sussen het onderwijs geconstrueerd werd.

nder de directe-instructie-conditie volgden de studenten gedurende zeven weken één maal
Ig Week gedurende twee uur een les over het onderwerp, bestudeerden als huiswerk opgegeven
^ erstof uit het handboek, en beantwoordden vragen over de stof die tijdens een volgende les

or de docent besproken werden,
ji "der de probleemgestuurde conditie analyseerden de studenten in kleine groepen, en in
de^ ^ «tijdsperiode, één maal per week één of meer problemen en formuleerden op basis van
Zelf^ een aantal leerdoelen. Deze leerdoelen werden vervolgens door middel van

j. . '^die nagestreefd. Daarbij kon gebruik gemaakt worden van een verzameling handboeken

de bibliotheek beschikbaar waren.
Vol ^ '"^^'''enien die in deze conditie als startpunt voor leeractiviteiten dienden, werden op de
bov wijze geconstrueerd: De onderwijsdoelstellingen werden gegroepeerd in een aantal
ygj^^"8eordende categorieën, zoals 'energiemetabolisme', 'excitatie' en 'circulatie'. Voor elk
g «^e categorieën werd een verschijnsel of verzameling verschijnselen uit de werkelijkheid
cat •' belang voor fysiotherapeuten in spé, dat als een concrete manifestatie van die
Sorie beschouwd kon worden. Het resulterende probleem tenslotte, bestond uit de beschrij-

-ocr page 42-

38 Sturing van onderwijsleerproces door problemen

ving van dat verscbijnsel, geplaatst in een context waarvan kon worden aangenomen dat deze
door de studenten als betekenisvol herkend zou worden. In tabel 1 is deze constructiewijze aan
de hand van een voorbeeld uitgewerkt.

Op deze wijze werden 16 problemen geconstrueerd die met de geformuleerde doelstellingen
correspondeerden.

De studenten in de probleemgestuurde conditie beschikten niet over doelstellingen, noch
over verzamelbegrippen. Hen werden alleen de problemen voorgelegd met het verzoek ze te
'analyseren', dat wil zeggen: verklaringen te bedenken in termen van onderliggende processen,
mechanismen of principes. De leerlingen maakten' daarbij gebruik van een systematische
werkprocedure, die hen voorafgaande aan de cursus geleerd werd. Deze procedure helpt bij het
transformeren van een probleem in een verzameling leerdoelen die vervolgens door middel van
individuele studie nagestreefd worden. (Zie voor meer uitgebreide beschrijvingen Barrows.
1983; Barrows en Tamblyn, 1980; Schmidt en Bouhuijs, 1983; Schmidt en Dc Volder, 1984).
Het was de groepen toegestaan een keuze te maken uit de voorgelegde problemen.

De toets bestond uit 60 items, ieder met vier antwoordaltematieven, die verondersteld werden
de 65 doelstellingen volledig te dekken. De interne consistentie van deze toets was gelijk aan a
0,78 (berekend over de totale onderzoekspopulatie). Hij werd onmiddellijk na afloop van de
onderwijsperiode afgenomen.

Om een indruk te krijgen van de lange-termijn-effecten van het gegeven onderwijs werd tien
weken na de meerkeuzetoets een
'free-recall'-toets afgenomen bij een klein deel van de studen-
ten. Deze toets was bedoeld om kennis van een aantal centrale begrippen uit de cursus te meten
en bestond uit de volgende open vraag: "Schrijf
alles op wat je weet van de begrippen: 1-

-ocr page 43-

R.W. Tans et al. 39

spierkracht, 2. rusttonus, en 3. contractie". Hij werd afgenomen bij twaalf aselect gekozen
studenten: zes uit de experimentele, en zes uit de controleconditie. Deze studenten ontvingen
voor hun medewerking een kleine vergoeding. Ze kregen 20 minuten tijd om hun antwoord op
te schrijven. De op deze wijze verkregen teksten werden ontleed in proposities. Een propositie is
"leestal een onderwerp-gezegde combinatie die één bepaald idee uitdrukt. Van elk van deze
proposities werd vervolgens vastgesteld of hij inhoudelijk correct dan wel incorrect was. Per
proefpersoon werd tenslotte het totaal aantal correcte proposities berekend. De interbeoorde-
aarsovereenstemming voor deze procedure was gelijk aan 0,92.

Tenslotte werden alle leerdoelen verzameld die door de probleemgestuurde groepen geprodu-
ceerd werden. Deze leerdoelen werden beschouwd als indicatoren voor de feitelijke leeractivitei-
ten die onder deze conditie ontplooid werden. Nagegaan werd vervolgens in hoeverre de door de
ocent geformuleerde doelen - verderop steeds onderwijsdoelstellingen genoemd -, de leer-
oelen van de studenten in de probleemgestuurde conditie, en de toetsitems elkaar dekten. Deze
vergelijking vond op twee manieren plaats: met behulp van beoordelaars, en met behulp van een
tekstreductietechniek.

De beoordeling verliep als volgt: twee beoordelaars die goed thuis waren in het betreffende
eerstofgebied stelden onafhankelijk van elkaar vast welke van de onderwijsdoelstellingen door
Welke groepen als leerdoel genoemd werden. Op deze wijze kon per probleem en per groep een
Percentagescore berekend worden die de mate aangeeft waarin onderwijsdoelstellingen in
jj^erdoelen werden afgebeeld. De interbeoordelaarsovereenstemming voor deze procedure was

het vaststellen van de mate waarin leerdoelen en toetsitems elkaar dekten werd een enigszins
andere weg gevolgd. Voor elk van de items werd bepaald hoeveel van de probleemgestuurde
Sfoepen leerstof, waarover met dat item getoetst werd, bestudeerd zouden kunnen hebben,
Segeven hun leerdoelen. De interbeoordelaarsovereenstemming daarvoor was gelijk aan 0,70.

De tekstreductietecHniek, die voor de analyse van het leerproces werd gebruikt, is vergelijk-
baar met methoden die door Breuker (1980) en Dansereau en Holley (1982) zijn voorgesteld.

eze procedure heeft de volgende vorm: Zinnen kunnen getransformeerd worden tot lijsten van
concepten: werkwoorden, zelfstandige naamwoorden, bijvoegelijke naamwoorden. Een derge-
'Jke lijst kan vervolgens gereduceerd worden door alleen die concepten te accepteren die een
irecte relatie onderhouden met een bepaald van te voren gekozen thema of onderwerp.
. egrippen die dat niet in het bijzonder doen, of die gebruikt worden om de integriteit van zinnen
stand te houden, worden verwijderd. Op deze wijze kunnen niet alleen studieteksten geanaly-
seerd Worden, maar ook andere elementen van een onderwijsleerproces, zoals onderwijsdoel-
ellingen, leerdoelen en toetsitems. De onderwijsdoelstellingen, geformuleerd in het kader van
et onderwerp 'spieren', die afgedrukt zijn in tabel 1 kunnen bijvoorbeeld gereduceerd worden
de volgende lijst met zeven concepten:

^ontractie
kramp
doorbloed

bel;

mg

astmg

Caï+
ettergievoorraad
"Motorische zenuw

Op deze wijze werden zowel onderwijsdoelstellingen als leerdoelen en toetsitems gereduceerd,
^e drie resulterende verzamelingen concepten werden met elkaar vergeleken om na te gaan m
'Moeverre zij elkaar dekten. De interbeoordelaarsovereenstemming voor deze procedure was

Selijk aan 0,87.

-ocr page 44-

40 Sturing van onderwijsleerproces door problemen

RESULTATEN

Leerproducten

Onder dit hoofd zullen de resultaten van de beide toetsingen gepresenteerd worden. Tabel 2
geeft de resultaten weer behaald door beide groepen op de 60-item meerkeuzetoets.

Tabel 2: Gemiddelde aantallen goede antwoorden (met standaarddeviaties) op de meerkeuze-
toets.

X

SD

N

Probleemgestuurde groep

27,72

4,88

74

Controlegroep

39,24

4,64

45

Totaal

32,08

7,37

119

Op deze gegevens werd een variantieanalyse uitgevoerd. Het resultaat daarvan is F (1,117) =
162,16; p < 0,0001. Studenten die gedurende zes weken een serie lessen over het onderwerp
'spieren' gevolgd hebben, leveren dus een significant betere prestatie op de toets dan studenten
die in kleine groepen aan problemen met betrekking tot hetzelfde onderwerp gewerkt hebben.

In tabel 3 worden de resultaten weergegeven van de 'free-recall' toets die tien weken na
afsluiting van het onderwijs bij twaalf aselect gekozen proefpersonen werd afgenomen (één
persoon produceerde een onbruikbaar protocol).

Tabel 3: Gemiddelde aantallen correcte proposities (met standaarddeviaties), geproduceerd
tien weken na afloop van het onderwijs.

X

SD

N

Probleemgestuurde groep

31,50

8,26

6

Controlegroep

21,60

4,56

5

Totaal

27,00

8,32

11

Beide gemiddelden verschillen eveneens significant van elkaar: F (1,9) = 5,66; p < 0,005, nu
echter in omgekeerde richting. De probleemgestuurde groep herinnert zich gemiddeld genomen
meer van de drie kernbegrippen waarnaar gevraagd werd, dan de groep studenten die aan de
directe-instructie-conditie heeft deelgenomen.

Leerprocesgegevens

Op basis van de procesgegevens, verzameld onder de probleemgestuurde conditie, werden
onderwijsdoelstellingen, leerdoelen en toetsitems met elkaar vergeleken. Doel was na te gaan in
welke mate deze drie elementen van het onderwijsleerproces met elkaar in overeenstemming
waren. Eerst zullen de resultaten van het onderzoek naar het verband tussen onderwijsdoelstel-
lingen en leerdoelen gepresenteerd worden: In hoeverre worden de eerste in de laatste gepresen-
teerd?

De studenten in de probleemgestuurde groepen produceerden in totaal 314 leerdoelen, dat is
gemiddeld 31,4 doelen per groep. Per probleem werden, rekening houdend met het feit dat
studenten een keuze konden maken uit het aanbod, 5,06 leerdoelen geformuleerd. Tussen de
groepen en tussen problemen bestonden aanzienlijke verschillen in aantallen geproduceerde
doelen.

-ocr page 45-

R.W. Tans et al. 41

ln tabel 4 zijn percentages weergegeven die de mate aanduiden waarin naar het oordeel van de
deskundigen de leerdoelen van een groep de onderwijsdoelstellingen dekten die aan het betref-
'ende probleem ten grondslag lagen. Groep 1 bijvoorbeeld reproduceerde als leerdoel 66,7
procent van de onderwijsdoelstellingen op basis waarvan probleem 1 geconstrueerd was. Lege
cellen geven aan dat het desbetreffende probleem niet door de betreffende groep geanalyseerd

Tabel 4: Mate van overeenstemming tussen onderwijsdoelstellingen en leerdoelen volgens
beoordelingsmethode uitgedrukt in een percentage.

°R0EP 1 2 3 4 5 6 7 8 9 10

^RO^em
1
2

3

4

5

6

7

8

9

10
11
12

13

14

15

16

66,7

100

100

66,7

66,7

66,7

100

33,3

66,7

74,1

50

100

75

100

100

28,6

100

82,2

20

40

40

100

80

100

63,3

33,3

33,3

33,3

50

50

50

75

50

50

75

50

56,3

80

80

80

80

80

75

50

62,5

100

100

100

100

100

50

50

50

50

50

58,3

100

50

75

66,7

66,7

75

75

100

100

87,5

40

40

60

40

40

40

70

47,1

100

100

100

-ocr page 46-

42 Sturing van onderwijsleerproces door problemen

Teneinde na te gaan in welke mate de zestig toetsitems door de leerdoelen gedekt werden,
bepaalden de beoordelaars voor elk van de items hoeveel groepen de leerstof die op dat item
betrekking had, bestudeerd zouden kunnen hebben (voorzover dat van hun leerintenties kon
worden afgeleid). Als alle groepen die stof bestudeerd hadden, was de dekking voor dat item
honderd procent. De op deze wijze berekende gemiddelde dekking per item is dan 20 procent,
dat wil zeggen dat gemiddeld genomen de leerstof betrekking hebbend op een bepaald item door
twee (van de tien) groepen zeker bestudeerd werd (standaarddeviatie is 15). De resultaten van de
tekstreductietechniek laten een gemiddelde dekking van 36,3 procent zien (met een standaard-
deviatie van 12,6).

Tenslotte werd nagegaan in hoeverre de leerdoelen die door de studenten geformuleerd
werden, als een valide indicator van hun werkelijke studieactiviteiten beschouwd konden
worden. Daartoe is een productmoment correlatiecoëfficiënt berekend tussen de frequentie
waarmee een leerdoel genoemd werd en de prestatie op het ermee corresponderende item*. Deze
correlatie kan beschouwd worden als de (predictieve) validiteit van de leerdoelen als indicator
van leeractiviteiten.

De correlatie tussen beide variabelen was gelijk aan 0,42, wanneer leerdoelen en items geanaly-
seerd worden met behulp van beoordelaars, en aan 0,44 wanneer dat gebeurt volgens de
tekstreductietechniek. In het licht van het feit dat het bij leerdoelen gaat om een
afgeleide
variabele, zijn deze validiteiten als bevredigend te beschouwen.

DISCUSSIE

In de prelude tot deze bijdrage werd onderzoek geciteerd waaruit bleek dat voorzover ver-
schillen in het cognitieve domein konden worden aangetoond tussen conventioneel onderwijs
en open onderwijs, deze meestal ten nadele van de laatste variant uitvielen (Giaconia en Hedges,
1982; Horwitz, 1979; Marshall, 1981; Peterson, 1979). Daarbij moet echter wel aangetekend
worden dat die verschillen klein waren en vooral in het wiskunde- en leesonderwijs werden
aangetroffen.

In het hier gerapporteerde veldexperiment, waarin een probleemgestuurde cursus spierfysio-
logie werd vergeleken met een meer directe onderwijsaanpak, werden vergelijkbare resultaten
gevonden. Studenten die een serie lessen over het onderwerp volgden, gecombineerd met
huiswerk, leverden een niet onaanzienlijk betere prestatie op een meerkeuzetoets dan studenten
die problemen analyseerden en op grond daarvan zelfgekozen onderwerpen bestudeerden.

Merkwaardig was dat tien weken na afloop van het experiment een omgekeerd effect
gevonden werd in de "free recall'-protocollen van twee aselect gekozen steekproeven uit de
onderzoekspopulatie. De studenten uit de probleemge^stuurde groep wisten zich meer te herin-

De redenering daarbij is als volgt: Als leerdoelen een valide indicatie zijn voor feitelijke leeractiviteiten,
dan moet de frequentie waarmee ze genoemd worden, een indicator zijn voor de mate waarin leerstof
waarnaar ze verwijzen bestudeerd is. Dit laatste bepaalt de hoogte van de prestatie op de met die leerstof
corresponderende items.

Als maat voor de prestatie van de experimentele groep op een item werd nieLde p-waarde van dat item
genomen. Een lage p-waarde kan immers zowel beduiden dat het betreffende item door de experimen-
tele groep niet of nauwelijks bestudeerd is, als dat het wel bestudeerd is, maar te moeilijk was. Ecn betere
schatter van de'prestatie van de experimentele groep op een bepaald item is daarom de betreffende
p-waarde, gedeeld door de p-waarde van de controle-groep voor dat item: Pf/Pc. Een eenvoudig
voorbeeld kan dat verduidelijken: voor item 8 uit de toets was P^ = 0,18 en P^ 0,82. Voor item 29 was Pc
= 0,16, maar Pj = 0,13. Op grond hiervan kan geconcludeerd worden dat item 8 door de experimentele
groep niet of nauwelijks bestudeerd is terwijl item 29 te moeilijk was. De moeilijkheidsgraad van het
item wordt dus met behulp van dc ratio 'weggedeeld'.

-ocr page 47-

R.W. Tans et al. 43

neren van drie onderwerpen die in de cursus een centrale rol gespeeld hadden, dan de represen-
tanten van de controlegroep.

Hoe zijn deze op het eerste gezicht toch strijdige uitkomsten met elkaar te rijmen? Als toeval
bU'ten beschouwing gelaten wordt, doen zich in eerste instantie twee mogelijke verklaringen
Voor. De eerste probeert de ongerijmdheid te verklaren uit de aard van de geheugentaken die
aan de betrokken proefpersonen werd voorgelegd; de tweede verklaring zoekt het in de aard van
de door hen verworven kennis.

Eerst enkele opmerkingen over de aard van de geheugentaken. Een "free recall'-opdracht,
een taak dus waarbij proefpersonen gevraagd wordt alles wat zij zich herinneren op te schrijven,
oet over het algemeen een groter beroep op de terughaalstrategieën ("retrieval strategies') die
personen beschikbaar hebben, dan een herkenningstaak zoals het zoeken van het juiste
antwoord-alternatief uit een aantal aangeboden alternatieven. Dat komt omdat bij een herinne-
■""igstaak geheugensteuntjes ('cues') ontbreken die reconstructie van het geleerde mogelijk
galeen, zoals dat bij een herkenningstaak in overvloedige mate het geval is. Een betere 'recall'
uidt dan ook meestal op een betere
organisatie van de kennis in het geheugen. Een dergelijke
etere organisatie komt tot uitdrukking in meer verschillende 'retrievalpaden' (Anderson en
J^eder, 1979). In deze opvatting zou de probleemgestuurde groep minder kennis bezitten
^getuige het resultaat op de meerkeuzetoets); maar wat aan kennis aanwezig is, beter gestructu-
reerd hebben (hetgeen in de betere 'free recall' tot uitdrukking komt).
De tweede hypothese veronderstelt dat de meerkeuzetoets minder adequaat datgene meet wat
e probleemgestuurde groep geleerd heeft dan de 'recall'-taak. In die opvatting bestaan er niet
zozeer kwantitatieve als wel kwalitatieve verschillen tussen beide condities: de probleemge-
stuurde groep heeft niet zozeer 'minder' geleerd dan de groep die onder de directe-instructie
eonditie werkte, maar heeft zich deels met onderwerpen beziggehouden die door de docent niet
Voorzien waren. Op de meerkeuzetoets kunnen studenten in deze conditie slechts laten zien wat
ëeleerd is voorzover ddt overeenkomt met wat de docent verwachtte. Voor een recall taak geldt
eze beperking in minder sterke mate. Daar ligt het initiatief bij degene die schrijft. Alle kennis,
"M'ts correct en relevant, 'telt mee'.

Voor deze laatste hypothese werd in de leerprocesgegevens enige ondersteuning gevonden.
. nderwijsdoelstellingen, leerdoelen (als indicatoren voor feitelijke leeractiviteiten) en toets-
"ems bleken elkaar inhoudelijk maar in beperkte mate te dekken. Dat verschijnsel werd zowel
^^"^onstateerd door inhoudsdeskundige beoordelaars als met behulp van een tekstrcductietech-

In figuur 1 is de mate van overlap grafisch weergegeven. De data zijn ontleend aan de analyse
"jet behulp van de reductiemethode.

e figuur kan als volgt worden gelezen: In de eerste kolom staan alle concepten die in het
"Materiaal zijn teruggevonden. In kolom 2, 3 en 4 wordt aangegeven öf en in hoeverre het
^«treffende concept in respectievelijk doelstellingen, leerdoelen en items werd waargenomen,
e lengte van de balk geeft een indicatie van de frequentie waarmee dat concept voorkwam,
ege plekken duiden aan dat geen corresponderende concepten gevonden werden,
^'guur 2 illustreert de centrale these van deze bijdrage, namelijk dat lerenden in een open
"Context idiosyncratische leerdoelen formuleren die hen ertoe brengen zich met leeractiviteiten te
gageren waarop de docent niet verdacht is en die daarom niet getoetst worden. De figuur
ot daarmee een mogelijke verklaring voorde vanuit constructivistisch perspectief teleurstel-
de resultaten van onderzoek naar effecten van activerende onderwijsmethoden. Zij sugge-
'n H ^ uitkomsten inderdaad een functie zou kunnen zijn van de wijze waarop

^at onderzoek leerwinsten geoperationaliseerd en gemeten zijn.

De vraag kan nu gesteld worden hoe zinvol die niet-verwachte uitkomsten van het leren in een
obleemgestuurde context zijn in het licht van het onderwijs als geheel. Immers: als datgene
varaan onder die conditie deels gewerkt is, als niet ter zake doende 'Spielerei' gekarakteriseerd

-ocr page 48-

44 Sturing van onderwijsleerproces door problemen

ondei'wijsdoelstel lingen leerdoelen

i tems

OONTRACriB
UUMP

DOORBLOroiNG
BELhSTlNG

DIERGIE

NOTORISCtlE ZB4UW
SPIER

TQIPERATUUB

TONOS

ATP

AFVALSTOFFEW

VISCOSITEIT

ÏLASTICITEIT

STIJFHEID

PIJN

KAACHT

RBCBOITMENT

MYOTEEDBACK

SYHPTOHE»

OKTSPANNING

FYSIOTHERAPIE

MOTORUHIT

SPIERVEZELS

ZDIUIIVEZELS

BEDLEGERIGHEID

COHOITIE

ADDIHALING

TRAINING

STOmiSSELING

HASSAGE

VERIANHING

BOTULINE-TOXINE

ACETYLCHOLI NESTERAS E

CURARE

REK

VET

DIEET

HERSTEL

RESP I RAT IE-QUOTI ENT

HARMING-UP

SPORT

U.K.G.

OEFENINGEN

ATROFIE

REFLEX

ARBEID

ACETYLCHOLINE

HELICZmjR

O- NOTORNEURON

GETRAINDHEID

CDTTRAAL ZEHUHSTELSEL

SPIERSPOEL

NYOSINE

ICOOLHYDRAAT

C02
O 1

000 3
O 1

OCD 3
ODO 3
OOO 3

O 1
O 1
O 1
002
00 2
OOO 3
COOOOOOO 8

00 J

01
Ol
Ol

000 3

01

0000 4

01

01
OO 2

0 1

002

01

002
Ol
Ol
O 1
O
1

0 1

01
O
1
O 1
O 1
O 1
O 1
O 1

0 1

01
O
1
O 1

002

0 1

002

01
Ol

0000 4
00004
ODOO 4

COX} 4
om 3
O 1

Ol
O 1

00 2
Ol

01

002

00 2

000 3
0CQ04

O 1
OCO 3
O 1
O 1
O 1
(XO 3

ODO 3
00 2
00 2
O 1
O 1
O 1

0 1

01

Figuur I: Onderlinge dekking van onderwijsdoelstellingen, leerdoelen cn toets items.

moet worden, dan zou men langs een omweg alsnog lot de conclusie moeten komen dat deze
benadering inefficiënt leren bevordert.

Teneinde deze vraag voor het onderhavige materiaal te onderzoeken, werd de twee vakdes-
kundigen gevraagd de niet-verwachte leerdoelen onafhankelijk van elkaar op relevantie te
beoordelen. Criterium voor relevantie was de mate waarin vervulling van zo'n leerdoel een
bijdrage levert aan de theoretische en professionele ontwikkeling van de desbetreffende studen-
ten. Met andere woorden: hebben zij de verworven kennis in hun latere fysiotherapeutische
praktijk nodig? De interbeoordelaars overeenstemming voor deze taak was gelijk aan 67
procent. Verschil van mening werd door middel van discussie opgelost.

77 Procent van de niet-verwachte leerdoelen bleek in die zin als relevant of tamelijk relevant te
worden aangemerkt. Het ging daarbij in meerderheid om doelen die op een of andere wijze met
ziektebeelden of met fysiotherapeutische behandelingsmethoden in verband gebracht konden
worden. Een voorbeeld is: "Wat is decubitus?"

Geconstateerd kan dus worden dat een deel van de discrepanties tussen docent en studenten

-ocr page 49-

R.W. Tans et al. 45

««»OOB

aJimsTOT
""stibkwe

"^"»TRMSMiTTn, 01

VOEDiiK

Ol

0 1

01
O 1
O 1
O 1

0 1

01
O 1
000 3
0000 4
O 1

000 3

"°W1NATIE O 1

aiELtlMG
"«WriciamE
Co,

Saude*
kapsels
spasme
bot

Wkombose

"8CR0SE

SP^ERSTERKING
^Wuchten
»'HDlTCErSEL

Ol Ol

0 1 aro 4
cm 3 Ol

01 Ol

O 1

36

am» 6

»•Tsvoo-ra

»WOBILITEIT

^ieverlies 0O2

^«-MOVER

«CEEPSUw;
"»«
nsE
yoga

J^xaf-IE

^r^^SCBE VDCBHOCIUICEL CD 2

»AKonrauuiR STSTEE« O i

rr"^»"« PERIODE O 1

*f""w>rE»n»AL mum:

01

002

^"APTISCHE hembraan O l

OO 2

„^^^JJI^ASHATISCH BCTICULUM 0000 4

S*»COMEER

O 1
O 1
O 1
O 1
00 2
O 1
O 1

0 1

01
O 1
O 1

O 1
O 1
O 1

ixn^ix 0 1

S*«'SAT1E od 3

"oisror

""^IPOTEITTIAAI,
«^»OOGEEII

"J^^AAT

^EH«

•"OCUJBIHE
^^mCSEEIEH

aïCOLïSE
WELTT

Ol

ooj

01
002
Ol

0 1

01
O 1

C'^g te voeren is op de interesse die studenten aan de dag leggen voor praktische toepassingen
an fysiologisch-anatomische kennis. Bhjkbaar benutten de studenten de vrijheid die hen
Rhoden wordt voor een deel om een beter inzicht te verwerven in hun latere beroepspraktijk,
(j c^'en vanuit het perspectief waaruit studenten een bepaalde opleiding kiezen, is dat een
®g"jpelijke voorkeur, die echter in de onderwijsdoelstellingen van de onderzochte cursus
""Voldoende werd verdisconteerd.

REFERENTIES

" crson, J.R. en L.M. Reder (1979). An elaborative processing explanation of depth of processing. In;
L.S. Cermak en F.I.M. Craik (Eds.).
Levels of processing in human memory. Hillsdale, N.J.:
Bar ^wrence Erlbaum.

ffows, H.S. (1983). Problem-based, self-directed learning. Journal of the American Medical Association,
g 250,3077.

rrows, H.S. en R.M. Tamblyn (1980). Problem-based learning. New York: Springer Publishing.

-ocr page 50-

46

Bernards, J.A. en L.N. Bouman (1979). Fysiologie van de mens. Utrecht: Bohn, Scheltema en Holkema.

Breuker, .1. (1980). In kaart brengen van leerstof. Utrecht: Het Spectrum.

Bruner, J.S. (1959). Learning and thinking. Harvard Educational Review,29, 184-192.

Bruner, J.S. (1961). The act of discovery. Harvard Educational Review, 31,21-32.

Dansereau, D.F. en C.D. Holley (1982). Development and evaluation of a text mapping strategy. In:
Flammer en W. Kintsch (Eds.)
Disccurse processing. Amsterdam: North-Holland Publishing.

Dewey, J. (1910). How we think. Boston: Heath & Co.

Giaconia, R.M. en L. V. Hedges (1982). Identifying features of effective open education. Review of Educatio-
nal Research,S2,
579-602.

Horwitz, R.A. (1979). Psychological effects of the 'open classroom'. Review of Educational Research, 49,
71-86.

Kersh, B.J. (1958). The adequacy of "meaning" as an explanation for superiority of learning by indepen-
dent discovery.
Journal of Educational Psychology, 49,282-292.

Marshall, H.H. (1981). Open classrooms: has the term outlived its usefulness? Review of Educational
Research, 51, m-\92.

Peterson, P.L. (1979). Direct instruction reconsidered. In: Peterson en H.L. Walberg (Eds.). Research on
teaching.
California: McCutchan.

Piaget, J. (1954). The construction of reality in the child. New York: Basic Books.

Porter, A.C., W.H. Schmidt, R.E. Floden en D.J. Freeman (1978). Impact on what?: the importance oj
content covered.
East Lansing: The Institute for Research on Teaching.

Rovinelli, R.J. en R.K. Hambleton (1977). On the use of content specialists in the assessment of criterion-
referenced test item validity.
Tijdschrift voor Onderwijsresearch, 2,49-60.

Rumelhart, D.E. en D.A. Norman (1978). Accretion, tuning and restructuring. In: J.W. Cotton en R-
Klatzky (Eds.).
Semantic factors in cognition. Hillsdale: Lawrence Erlbaum.

Schmidt, H.G. en P.A.J. Bouhuijs (1983). Onderwijs in taakgerichte groepen. Utrecht: Het Spectrum.

Schmidt, H.G. en M.L. de Voider (Eds.) (1984). Tutorials in problem-based learning. Assen: Van Gorcum.

Schmidt, H.G. en R. Tans (1985). A simple method for the content analysis of subject-matter in educational
texts.
Rijksuniversiteit Limburg.

Manuscript ontvangen 3-4-1985

Definitieve versie ontvangen 22-10-1985

-ocr page 51-

Tijdschrift voor Onderwijsresearch 11 (1986), nr. 1, pp. 47-48.

Notities en Commentaren

^WKENDE EN ZWALKENDE CAES13REN

Dato N.M. de Gruijter

Bureau Onderzoek van Onderwijs, R.U. Leiden

'^^fes auteur: Boerhaavelaan 2, 2334 EN Leiden

een recent artikel schenkt Van der Linden (1984b) uitvoerig aandacht aan het feit dat
^Pinialc caesuren bij onbetrouwbare gegevens van het gemiddelde weglopen, een con-
RUentie van de regressie van ware-score schattingen. Hij doet dit onder de premisse dat de
eilijid^gjjjjg^ggj van afzonderlijke toetsen constant gehouden is. Zijn voorstel om een
P 'male caesuur per toetsgelegenheid vast te stellen, leidt er dan toe dat de caesuur bij laag
^ende groepen leerlingen in het algemeen hoger uitvalt dan de caesuur bij goede groepen.
^^ u kan er verschillend gedacht worden over de optimaliteit van caesuren. Onlangs werd
jg^M^over gediscussieerd in
Applied Psychological Measurement (De Gruijter & Hambleton,
1984b; Van der Linden, 1984a). Eén van de discussiepunten is dat bij een optimale
suur gebaseerd op groepsgegevens, de geschatte ware-scorevcrdeling van de groep leer-
Ben als a priori informatie voor alle leerlingen wordt gehanteerd. Een student die toevallig
^ elneemt aan een tentamen met relatief veel slecht presterende herkansers, kan door de
"'terende hogere caesuur gedupeerd worden.

•j kleine groepen studenten en korte toetsen is het gebruik van optimale caesuren
aseerd op groepsgegevens extra riskant, en dat niet alleen omdat een paar afwijkende
j. "enten de plaatsing van de caesuur beïnvloeden. Bij kleine groepen en korte toetsen kan de
"ustheid van de optimale caesuur gering zijn. Dat kan gemakkelijk gedemonstreerd
j. "^den aan de hand van de schattingsformulc voor de optimale caesuur, gegeven een lineaire
Sressie van ware op geobserveerde scores en een lineaire vcriiesfunctie,

[c,,-(l-0 X],

^'Marbij c^ de absolute norm is, c„ de optimale caesuur,^ het gemiddeld groepsresultaat cn r de
arde van KR-21. Zowel
x als r zijn gevoelig voor toevallige meetfouten binnen de desbe-
effende groep leerlingen.
^ e Variatie in x en r voor vaste ware scores kan m.b.v. een simulatiestudie onderzocht
Vol daarbij uit van items met O-1 scores en het binominalc foutenmodel. De

^^gende verdeling van relatieve ware scores werd gekozen: tien hypothetische leerlingen met
zeven met :t=0,425 en n = 0,575, en drie met .t:=0,35 cn --t=0,65. Dc groepsgrootte
eeii dertig. Dertig keer werd voor deze verdeling een geobserveerde scoreverdeling op
'ro '^'""S'item toets gegenereerd. Er konden dus dertig gemiddelden en dertig be-
'Uwbaarheidsschattingen berekend worden. De gemiddelden liepen niet erg uiteen: van een
^^"'niumwaardc 9,2 tot een maximum gelijk aan 10,5. De betrouwbaarheidsschattingen

etueerden echter van negatief - in welk geval r op nul gesteld kan worden - tot 0,58.
j "Mn de hand van Figuur 3 van Van der Linden kan men zien welke enorme consequenties
^e fluctuaties op de waarde voor Cg kunnen hebben. In het geval dat de ware scores alle

-ocr page 52-

48 Dato N.M. de Gruijter

vlakbij de norm c^ liggen kan de optimale caesuur tot O zakken (iedereen geslaagd) of tol
boven het aantal beschikbare items stijgen (iedereen gezakt).

LITERATUUR

De Gruijter, D.N.M. & Hambleton, R.K. (1984a). On problems encountered using decision theory to sd
cutoff scores.
Applied Psychological Measurement, 8, 1-8.

De Gruijter, D.N.M. & Hambleton, R.K. (1984b). Reply to Van der Linden's 'thoughts on the use of
decision theory to set cutoff scores.'
Applied Psychological Measurement, 8, 19-20.

Van der Linden, W.J. (1984a). Some thoughts on the use of decision theory to set cutoff scores: comme"'
on de Gruijter and Hambleton.
Applied Psychological Measurement, 8, 9-17.

Van der Linden, W.J. (1984b). Over absolute en nog relatievere zak-slaag beslissingen. Tijdschrift voo'
Onderwijsresearch, 5,
243-252.

Manuscript ontvangen 10-10-1984

-ocr page 53-

1"'jdschrift voor Onderwijsresearch 1(1986), nr. 1, pp. 49-50.

boekbesprekingen

^äak Billiet, Geert Loosveldt en Lina Waterplas. Het survey-interview onderzocht. Effecten van het ontwerp
19 V®" vragenlijsten op de kwaliteit van de antwoorden. Sociologische Studies en Documenten nr.

• Katholieke Universiteit Leuven, Sociologisch Onderzoeksinstituut. 1984.465 B.F. (± fl. 27,-) inclusief

verzendkosten.

een periode van verguizing in de jaren 60 en 70, neemt de enquête-methode en met name het
^ ^ey-interview weer in populariteit toe. Dit is mede te danken aan de grote hoeveelheid empirisch
" erzoek, die tot kwaliteitsverbetering van deze dataverzamelingsmethode heeft geleid. In het hier
"esproken boek geeft Billiet samen met twee van zijn medewerkers een overzicht waarin getracht wordt de
se bevindingen met betrekking tot oorzaken van vertekening bij gebruik van het (gestandaardi-

' e) survey-interview samen te vatten en te plaatsen binnen een algemeen theoretisch kader,
sit bestaat uit twee delen. In het eerste deel staan het gedrag van de interviewer en de intervicw-

atie centraal; in het tweede deel wordt aandacht geschonken aan vragenlijstconstructie en de invloed van
^oording, vorm en context van dc vragen op de kwaliteit van de antwoorden,
int" 1 wordt een overzicht gegeven van empirisch onderzoek naar de gang van zaken tijdens een

(j eiview en mogelijke bronnen van vertekening in de antwoorden; daarnaast wordt ook een korte
chrijving gegeven van drie veelgebruikte methoden bij onderzoek van de interviewsituatie: actieanalyse,
^ erzoek naar interviewervariantie en accuraatheidsonderzoek. In het algemeen blijken interview(st)ers
^ Van de voorgeschreven interviewregels af te wijken wanneer respondenten geen of een inadequaat
a geven. Op dat moment kunnen vertekeningen in de antwoorden ontstaan, waarbij zowel

, 'ergrondkenmerken (b.v. sexe cn ras) als opinies en verwachtingen van de intervicw(st)crs een rol
Ij "nen spelen. In hoofdstuk 2 wordt getracht het onderzoek naar de interviewsituatie in een theoretisch
'e plaatsen. Achtereenvolgens wordt een aantal modellen uit de literatuur besproken; speciale
°acht Wordt geschonken aan het rolmodel van Sudman en Bradburn, het black-box model van Van der
jy "^en, en het model van Cannel, Miller en Oksenbcrg voor het interview als vraag-antwoordproces. De
eurs besluiten dit hoofdstuk met de pessimistische conclusie dat er van een uitgewerkt theoretisch kader
na^ sprake is. Hoofdstuk 3 tenslotte bevat ccn bespreking van voor de praktijk relevant onderzoek
bes"^ '^^a'heitsbevorderende interviewtechnieken. Hierbij wordt teruggegrepen op dc in hoofdstuk 2
^ sproken theoretische concepten. Elementaire interviewregels zoals het letterlijk stellen van een vraag
"en hier niet besproken. Wel wordt de invloed van goede instructie, feedback, het sluiten van overeen-
beh informed consent (weloverwogen en welingelichte toestemming), en interviewstijl

(j .^"^eld. Dc kwaliteit van een interview blijkt door een goede instructie cn het gebruik van feedback
di » verbeterd te kunnen worden, met betrekking tot interviewstijl zijn de resultaten echter tegenstrij-
aa H bespreking van de in dc V.S. bij interviews wettelijk verplichte informed consent, wordt tevens
uit / ht besteed aan de ethische kant van het onderzoek doen. Een dilemma blijft onderzoekers bespaard:
en j '''®ans) onderzoek naar informed consent blijkt dat er geen duidelijk effect is op de non-respons

de kwaliteit van de antwoorden.
Co " '*ecdc deel van het boek staan de vragen en de vragenlijst zelf centraal. In principe zijn de
lljlj "^'es en aanbevelingen uit dit gedeelte ook toepasbaar op dataverzamelingsmcthoden als de schrifte-
ech^ ^"luête en groeps- of klasgewijs afgenomen vragenlijsten; het geciteerde empirische onderzoek heeft
^ er voornamelijk betrekking op het face-to-face interview. Dc vorm cn de context van vragen kan op vele
lijn ßevarieerd worden en het aantal verschillende experimenten is dan ook groot. Om ccn duidelijke
" 'ri hun betoog te krijgen beginnen de schrijvers met in hoofdstuk 4 ccn korte beschrijving te geven van de
res I ""Verzochte thema's: vraagvorm, vraagvcrwoording, en vraagvolgorde. Vervolgens worden de
ee» va" onderzoek naar de invloed van vraagvcrwoording en vraagvorm gepresenteerd voor achter-
gj^°'8ens vragen naar feiten en gedrag (hoofdstuk 5) en attitudevragen (hoofdstuk 6). Er wordt op
ODt " soms aanzienlijke verschuivingen in de marginale verdelingen van dc antwoorden kunnen

Wo invloed van wijzigingen in vraagvorm en verwoording. Zo heeft het vervangen van het

teo 'verbieden' door 'toelaten' in de uitspraak 'Meent U dat de Verenigde Staten publieke toespraken
Vcr\v ^^ democratie moeten verbieden', een verschuiving van 20% tot gevolg. Over de invloed van
°ording en vorm op associatiematen, waarvan vaak aangenomen wordt dat deze gering is, kan

-ocr page 54-

50 Boekbespreking

daarentegen door de beperkte hoeveelheid onderzoek geen duidelijke uitspraak worden gedaan. Hoofdstuk
7 behandelt het gebruik van antwoordcategorieën bij attitude- en specifieke opinievragen. Voor- en nadele"
van open en gesloten vragen wordt besproken en de gevolgen van het opnemen van een 'geen mening' filter-
een neutraal midden-alternatief en het veranderen van de categorievolgorde wordt behandeld. Met name
gedeelten waarin de invloed van een 'geen mening' filter of van een neutrale middencategorie op
marginale verdelingen beschreven wordt zijn door de opvallende resultaten en de duidelijke voorbeelden d'
moeite waard. Zo blijkt dat bij experimenten naar het al dan niet gebruiken van een 'geen mening'-categori'
bij opinievragen een toename van de'weet-niet'-antwoorden gevonden wordt tussen de 13% en 24%, en da'
bovendien verbanden tussen variabelen beïnvloed kunnen worden door het gebruik van een 'geen mening'
filter. De auteurs raden aan om een 'geen mening' filter of een neutrale midden categorie toe te voege"
wanneer men een 'geïnformeerde' opinie wil meten en belang stelt in de geen mening antwoorden; is he'
daarentegen de bedoeling een algemene dispositie te meten dan is een ongefilterde vraag aangewezen-
Hoofdstuk 7 blijft beperkt tot attitudevragen, op het gebruik van verschillende soorten antwoord'
categorieën bij vragen over feiten en gedrag wordt niet nader ingegaan. Binnen het klassieke (sociologische)
onderzoek naar het survey-interview is hier inderdaad weinig aandacht aan besteed. Binnen ander«
disciplines is er wel materiaal op dit gebied te vinden. Zo is er in de onderwijskunde veel onderzoek gedaaH
naar de verschillen tussen open en gesloten vragen en naar de invloed van antwoordcategorieën op
kennisvragen. In hoofdstuk 8 wordt in het algemeen de invloed van de volgorde en de context van vragen
besproken. Op de marginale antwoordverdelingen is deze invloed vaak groot, maar ook associaties tussen
variabelen kunnen veranderen; vooral de onmiddellijke context van de vraag is hierbij van belang. D«
auteurs stellen aan het slot van dit hoofdstuk dan ook dat het vergelijken van antwoordverdclingen van
dezelfde of soortgelijke vragen uit verschillende surveys op zijn minst problematisch is. Deel 2 word'
afgesloten met een hoofdstuk over de sterkte van attitudes. Hierin wordt benadrukt dat het meten van d'
richting van een attitude in vele gevallen niet voldoende is. Met name bij beleidsrelevant onderzoek is he'
sterk aan te raden om vragen naar de attitudesterkte toe tc voegen. Aan de hand van een aantal heldere
voorbeelden wordt het belang van sterktemetingen toegelicht.

Het boek is helder geschreven en de vele voorbeelden bevorderen het begrip. De afzonderlijke hoofd'
stukken zijn bijna alle zeer lezenswaardig. Het terrein wordt goed bestreken en vele begrippen worden
uitgebreid besproken. Het eerste deel van het boek is door de overzichtelijke presentatie en de theoretische
onderbouwing het sterkst. Als geheel mist het boek echter een heldere structuur en met name in het tweede
deel ontbreekt een duidelijke lijn. Het is dan ook jammer dat de schrijvers geen poging hebben gedaan om in
een derde deel de voorgaande stofte integreren. Een slotbeschouwing waarin de wederzijdse beïnvloeding
van interviewercffecten (deel 1) en vraagkenmerken (deel 2) besproken wordt en waarin nader op de
praktijksituatie van het interview wordt ingegaan, wordt node gemist. De korte samenvatting die in het
algemeen besluit gegeven wordt, is wat dit aangaat te beperkt. Hinderlijk is dat de schrijvers soms een term
introduceren (b.v. randomized response, blz. 117), en deze pas enige bladzijden later (blz. 121) uitleggen-
Bovendien ontbreekt een index, waardoor het opzoeken van begrippen en het gebruik van het boek als
naslagwerk bemoeilijkt wordt. Opvallend is dat bij persoonlijke voornaamwoorden en zelfstandige naam-
woorden consequent de mannelijke vorm gebruikt wordt. Slechts op één plaats (blz. 161) wordt hier van
afgeweken; het betreft daar dan ook een letterlijke vertaling uit het Amerikaans. Het voortdurend gebruiken
van de mannelijke vorm is niet alleen voor de vrouwelijke lezers irriterend, maar getuigt soms ook van
weinig realiteitszin; zo is bijvoorbeeld interviewen een bij uitstek vrouwelijke bezigheid.

Volgens het voorwoord richt het boek zich tot allen, die bij de organisatie van survey-onderzoek
betrokken zijn. Het is echter in de eerste plaats bedoeld en geschreven voor studenten sociologie. Deze
doelgroep lijkt me te beperkt; ook bij de (tweede fase) opleiding van psychologen, pedagogen en onderwijs-
kundigen kan dit boek een zinvolle rol spelen. Voor beleidsmedewerkers, projectleiders, leden van bege-
leidingscommissies en anderen, die regelmatig enquête-onderzoek moeten evalu'eren en onderzoeksresulta-
ten vergelijken, is het bijna voorgeschreven literatuur. Ondanks de kritiekpunten betreft het hier een goed
onderbouwd boek dat de aanschaf zeker waard is.

Edith D. de LeeuW

-ocr page 55-

T'jdschrift voor Onderwijsresearch 11 (1986), nr. 1, p. 51-52.

Mededelingen

'nlioud Pedagogische Studiën
•■»afgangez

^uli/augustus 1985

Z'nsuitbrciding. Een kwalitatieve voorstudie naar veranderingen in de relatie tussen eerstgeboren kind en
^Jn ouders, door M.H. van IJzendoorn en S. van Vliet-Visser.

djf van leeszwakke kinderen? Een clusteranalytisch onderzoek, door J. Vinke, P. Reitsma en A. van
'nteractie en instructie in het conservatie-experiment, door E. Eibers.
^«Ptember 1985

erentiatie-effectcn in de schoolpraktijk: een ATI-onderzoek in verlengde brugklassen, door J.G.L.
'%senen P. Span.

^'•-onderzoek en differentiatie: een reactie, door L.F.W. de Klerk.

Va "'"^^ditioneel ATI-onderzoek naar procesgericht 'Aptitude'-onderzoek. Een reactie op een ATI-studie
In," «n Span, door E. de Corte.

passé in het ATI-onderzoek: gevolg van een slecht voorbereide integratie?, door M. Boekaerts.
gj® Waarde van praktijkgericht onderzoek, door J.G.L. Thijssen en P. Span.

g ^ >n intelligentie-onderzoek bij allochtone kinderen. Commentaar op M.J. de Jong & Th.A. van
»ajenburg: 'Etnische herkomst, intelligentie en schoolkeuzeadvies', door G. Extra en L. Verhoeven.

de zin voor realiteit. Antwoord op G. Extra & L. Verhoeven: 'Bias intelligentie-onderzoek bij
ochtone kinderen', door M.J. de Jong en Th.A. van Batenburg.

Oktober 1985

Q^^^wijsleerklimaat en leerlingprestatics, door W. van de Grift.

5 . en leeftijdsverschillen bij het leren lezen en spellen. Een longitudinale studie, door B.W.G.M.
g^'ts, M.J.C. Mommers, C.A.J. Aarnoutse.

. onderzoek naar keuzeprocessen voor nieuwe methodes op de basisschool, door H.A.M. Franssen.

natte vingerwerk; kritiek op een kwalitatief onderzoek naar dc kinderlijke leefwereld (weerwoord),
"«■•K.Mulderijen H. Bleeker.

^"'vangen publikaties

Haenen, J.P.P. & Wolters, M.A. (Eds.). Educationfor cognitive development. Den Haag: SVO, 1985
(Selecta Reeks).

g°fnelissc, F.H. Inleiding tot de wetenschapsfdosofie. Deventer: Van Loghum Slaterus, 1985.

"^■■ts, H., Golhof, A., Stassen, P. & Teunissen, J. Trendstudie over hel onderzoek naar etnische groepen in
Imh onderwijs. Utrecht: VOU, 1985.

"off.E. van, Kuijper, H.A.M., Haen, M.M.C.M. & Ritzen, J.M.M. Het school-en beroepsloopbaanonder-
Jon ^oek KMBO-BBO. Lisse: Swets & Zeitlinger, 1985 (SVO-reeks nr. 84).

W. de & Masson, C.N. Leerprestaties en onderwijsproblemen van allochtone leerlingen: een onderzoek
op lagere scholen in een oude stadswijk.
Rotterdam: Erasmus Universiteit, 1985 (Mededelingen van
het Juridisch Instituut van de Erasmus Universiteit Rotterdam, nr. 30).
"velaar, G., Vossen, P., Van de Perel, R., Havekes, F. & Stevens, F.
Courseware nader bekeken.

Eindverslag van het SyO-project 1086. Utrecht: VOU, 1985.
'^el, R. & Wel, J. van:
Veranderingen in de beroepspraktijk van vakmensen en gevolgen voor de beroeps-
Q^ opleidingen. Verslag van een onderzoek.
Den Haag: SVO, 1985 (Selecta Reeks).

''^tcht Onderzoek Minderheden. Samengesteld door de Advies Commissie Onderzoek Minderheden
p (ACOM). Den Haag: Ministerie van Binnenlandse Zaken, 1985.

rs, A.M.P. Docenten en hun probleemsituaties: een onderzoek naar het voorkomen en de samenhang van
probleemsituaties uit de beroepsuitoefening van docenten in het algemeen voortgezet onderwijs.
Nijmegen, 1985 (dissertatie).

-ocr page 56-

52 Mededelingen

Stoklcing, K.M. & Stoverinck, T. W.H.M. Onderwijs, informatie en organisatie. Eindrapport vooronderzoek
informatieverwerking verzorgingsinstellingen. Utreciit: VOU, 1985.

Thomassen, A.J.W.M., Galen, G.P. van & Klerk, L.F.W. de (Red.). Studies over de schrijfmotoriek. Lisse:
Swets & Zeitlinger, 1985.

Vedder, P.H. Cooperative Learning: a study on processes and effects of cooperation between primary schoC'
children.
Den Haag, 1985 (Selecta Reeks).

Zwarts, M. & Veldhuijzen, N.H. Gemengde latente-trekmodellen. Arnhem: CITO, 1985. Specialistisck
Bulletin nr. 38.

-ocr page 57-

Tijdschrift voor Onderwijsresearch, 11 (1986), nr 2, pp. 53-60.

On the Predictive Validity of a New Scoring procedure
for Time-Limit Intelligence Tests

Arnold L. van den Wollenberg D and Peter G. Cremers 2)

-abstract

The scoring procedure for time-limit intelligence tests introduced by van den Wollenberg is applied in a
predictive validation setting. Two tests of the PSB battery were used for this purpose; the criteria to be
predicted were scores on achievement tests for language, mathematics and information of children in
the sixth grade of Dutch primary school. The procedure is compared with traditional scoring by means
of the number of correctly answered items. It is concluded that in the present application the new
scoring procedure is definitely better in a predictive validity sense. It seems worthwhile to further
investigate the possibilities of the new scoring procedure for other tests as well.

1. INTRODUCTION

""aditionally, time-limit intelligence tests have been scored by means of the number of correctly
nswered items. Van der Ven (1969) argues that this score can be decomposed into two compo-
wt"'^' "umber of items completed, which he calls speed, and the proportion of items correct,
nich is called precision; by definition, the raw score is equal to the product of these two
opponents. In order for the precision score to be comparable over subjects working at different
peed, all items should be equally difficult. Van der Ven continues by stating that the two
mponents, which he called speed and precision, are different subject traits, which should be
sesscd separately. For some tests he reports speed and precision to be independent, transsitua-
constant factors.

.den Wollenberg (1979, 1983) showed that the approach of van der Ven is unnecesarily
^ strictive and empirically invalid. He introduced a scoring procedure consisting of two compo-
^ "ts, which could also be called speed and precision:

• defined as the number of items attempted, just as it is in the approach of van der Ven.

■■ecision is the Rasch subject parameter, which is obtained conditionally upon the number of
.J. completed items.

Ra^ of van den Wollenberg is less restrictive than the approach of Van der Ven: as the

en ."'odel allows subjects to be compared independently of the items used, the requirement of
inv ^ difficulty can be dropped. However, it should be tested empirically whether the scale is
tl,^""'ant under varying speed. This proved to be true for the five ISI-tests (Snijders et al., 1961),
Ra considered Rasch homogeneous (van den Wollenberg, 1979); the sixth test was not

homogeneous.

I ^"'verj//^ ofNijmegen. The Netherlands
antral Bureau of Statistics. The Netherlands

Th

Cj V'e^s in this report are solely the authors'; they need not necessarily reflect those of the Netherlands
.j.^^'ral Bureau of Statistics.

authors wish to thank Marcel Dijkgraaf for his competent contributions in the analyses,
^ijm"® address: Dr. Arnold L. van den Wollenberg, Department of Mathematical psychology. University of
■""egen, The Netherlands, Box 9104,6500 HE Nijmegen.

-ocr page 58-

54 Predictive validity of time-limit tests

Applying his scoring procedure, van den Wollenberg (1985) argues that the speed and precision
traits were neither transituational constants nor independent traits, contrary to the claims of van
der Ven. The results of Van der Ven should rather be looked upon as statistical artefacts.

Van den Wollenberg (1985) argues that his two-component scoring procedure is theoretically
superior to the plain raw score, but that its practical value should be investigated in predictive
validity studies. The central question to be answered is whether the set of two scores, speed and
precision, does a better job in predicting external criteria than the single predictor 'raw score'. In
the present paper we will present some results with respect to this issue. The goal of the present
study is only to contrast two scoring procedures for time limit tests. The PSB subtests discussed in
this paper are .used in a large scale longitudinal study as predictors of school succes and thus are
relevant to our central question: can predictive validity be enhanced by using the scoring proce-
dure suggested by Van den Wollenberg. Any other test of this type would be equally relevant and
the eventual choice for the PSB subtests was guided by their availability: only the two subtests
reported here were used in the afore mentioned longitudinal study.

In section 2 the data are described, whereas is section 3 the statistical analyses and the results are
presented. In section 4 the results are discussed and some conclusions are offered.

2. THE DATA

The PSB-test

In the present study data were analyzed of a Dutch version of the PSB (Horn, 1969), a German
ability test. From this test two subtests, PSB-3 and PSB-8, were used, which were both of the
non-verbal type; only the instruction was translated into Dutch.

The PSB-3 was intended to measure the mental factor 'reasoning', whereas PSB-8 should appeal
to an

'abstraction' trait. A specimen of the tasks to be performed in both tests is given in figure 1.

]8fOOO O OO
I -f I -f I -I- I 1
□ □ODDDDD

o oQ o oO®Oo oQ o

s

psb-3

T U

A O

T H

L
A O

T U

L
A O

T U

A O

psb-8

Figure 1. Examples of the items in PSB-3 and PSB-8.

-ocr page 59-

Arnold L. van den Wollenberg and Peter G. Gremers 55

In PSB-3 the subject was required to indicate which element did not belong in a given series, by
striking it; an answer could be corrected by making a cross of the strike and striking another
e'ement. So the final answer on item 1 of PSB-3 was the fifth element. In PSB-8 the subject was
asked to indicate which of five geometrical figures he/she recognized in a complex drawing. Both
ests consisted of 40 items and a time limit was imposed such that about 60% of the subjects
'Completed PSB-3 and
4Q% did so for PSB-8.
The responses on both tests were scored by means of five response categories:

1 ~ correct

2 = wrong

3 = invalid (wrong response format)

4 = skipped

5 - not attempted

eores 3 were very rare (less than 0.01%) and were treated as 'wrong' responses. An item that was
"ot responded to was either treated as skipped (when at least one later item was responded to) or as
"ot attempted (when no later item was responded to). For the PSB-3 about 3% of the responses
^ere in the skipped category; for the PSB-8 this percentage was about 4. Skipped items were
considered wrong. This choice was corroborated by a separate Rasch analysis, in which the
!^tegory skipped was treated as a positive response and all other categories as wrong. The Rasch
emparameters in the skipped version had a correlation of- .70 with the standard itemparame-
.ers, implying that skipping an item was, to a high degree, the opposite of correctly answering an
'tern.

criterion tests

or the validation of the tests an achievement test, developed by the Dutch Central Institute for
'estdevelopment (CITO), was used as criterion to be predicted. Three subtests were used on
iguage, mathematics and information, which is short for information retrieval and reasoning.
3ch test consisted of 20 items; as a score the number of correct items was used, which is indicated
s the tests were of the power type.

subjects

"e subjects in the present study were from a large scale study of school careers and pupil
.^ckground. This study is performed by the Dutch Central Bureau of Statistics (reference note 1).
6th^ sample used in this study consists of 16813 subjects from a population of220,000 pupils of the
jg^^Srade of Dutch primary school. The subjects were approximately 12 years old, when they were

.pj^Por the Rasch analyses a random subsample was used,which initially consisted of 3335 subjects,
ach' sample was involved when the predictive validity of the two tests with respect to the
"'evement tests was studied.

3. ANALYSIS AND RESULTS

j^c analysis procedure entailed three steps:

"order for the scoring procedure to be valid, the Rasch model must hold; especially it must be
shown that the test measures the same thing irrespective of the speed at which a subject is
Working. This is not to say that the number of items completed and the Rasch parameter
Should be statistically independent; it merely is understood that the trait is not qualitatively
d'fferent when subjects are working at different speeds (Van den Wollenberg, 1983).

Strictly speaking, this requirement need not even be met in a predictive validity study. The
thing which counts is whether one procedure is superior in prediction, relative to another,
^o even when a poor fit to the Rasch model is found, the procedure may be applied, when a
extreme pragmatic position is taken.

-ocr page 60-

56 Predictive validity of time-limit tests

It should be understood that we do not defend this position as a general attitude toward
research. To the contrary, the present authors feel that sound measurement and theory are
indispensible for the advancement of any scientific area. Furthermore we expect that a
procedure is more effective in prediction, when the measurement assumptions it is build upon,
are met. But when we restrict ourselves to pure predictive validity, the quality of measurement is
only relevant in as far as it contributes to enhanced predictive validity. In our study only
predictive validity is at issue and hence, only for this instance, we take a liberal stand toward
measurement and model fit.

In the first subsection the results of the Rasch analyses will be presented.

2. When raw score is to be substituted for by speed and precision, we would feel very much at ease,
when the muhiple correladon between the predictors speed and precision on the one hand and
the criterion raw score on the other would approach unity. This would imply that all linear
prediction possibilities of raw score would also be attainable by means of the two variables
speed and precision.

On theoretical grounds it can be argued that the relation between precision and raw score is
not linear, the Rasch parameter is a non-linear transformation of raw score for fixed speed-
However this non-linearity is especially relevant in the extremes of the scale and, as a rule, just a
few subjects are involved. In practice the linear correlation between raw score and
Rasch
parameter is well beyond .99, were a (non-linear) correlation of 1. should be expected.

The relation between these three scores will be elaborated upon in the second subsection.

3. In the last subsection the predictive validity results will be presented. A comparison is made
between raw score as a predictor for the achievement tests on the one hand, and speed
and
precision as a predictor set on the other hand.

Rasch analysis of the PSB-tests

For the Rasch analyses the scheme of van den Wollenberg (1979,1983) was followed. Because of
the fact that not all subjects completed all items, a large number of analyses were necessary on
partially overiapping datasets. We will only highlight these analyses, as Rasch homogeneity is less
central to the present predictive validity approach. A paper, elaborating on the substantial analysis
of these two tests is in preparation.

Before the actual analyses were performed the data were screened for items and subjects, which
for various reasons should be eliminated from the analyses.

Items with too high popularities (p > .95) were eliminated. These items were regarded to be so
easy that factors other than difiiculty could play a major role in answering these items wrongly-
Furthermore these items bear little information with respect to the subjectparameters. Finally,
they have large confidence intervals, implying low stability of the estimates; by the fact that the
itemparameters are normed to sum zero, the stability of the other itemparameter estimates is also
affected. This elimination resulted in 30 items for PSB-3 and 36 items for PSB-8 respectively.
In a subject screening, the following types of subjects were excluded from the sample:

1. Subjects having completed less than 20 items in PSB-3 or less than 15 items in PSB-8 (totalling up
to 129 out of 3335 subjects).

2. Subjects with more than 4 false response formats (6 subjects).

3. Subjects with more than two subsequent items skipped; the rational behind this is that there is a
fair chance that a subject made a 'jump' in the tests not seriously inspecting the skipped items,
but searching for an apparently easy item. Skipped items are treated as wrong, which seems
only feasible when items are at least inspected and deemed too difficult by the subject.
Subjects
of this type (N = 866) were kept apart for further study.

All in all an effective sample remained of 2334 subjects on which the Rasch-analyses were
performed by means of the RADI program (Raaymakers & van den Wollenberg, 1979).

In table 1 the results are summarized for the traditional high-low test. Q1 was used as a statistic
(Van den Wollenberg, 1979,1982a). In this procedure the sample is partitioned in a group of high
scoring subjects and a group of low scoring subjects. Then equality of itemparameter estimates.

-ocr page 61-

Arnold L. van den Wollenberg and Peter G. Gremers 57

which is predicted by the model, is inspected. This test is in principal insensitive to violation of the
dimensionality axiom and local independence, therefore, in addition the Q2 test was performed on
^heunpartitioned sample (Van den Wollenberg, 1982a, 1982b).

Table 1. Summary of analysis results for Q1 on the 'high-low' partitioning and Q2 for the
unpartitioned sample.

Q1 for PSB-3; high-low partitioning

N Q1 df P

'0 items 1955 27.10 9 .0017

•'"Items 400 66.16 29 .0003

Q2 for PSB-3; unpartitioned sample

N Q2 df P

'0 items I955 407.84 35 .I7E-12

'terns 400 749.59 405 .38 E-9

Ql for PSB-8; high-low partitiong

N Ql df P

''items 1245 163.78 10 .I2E-9

"®ms 304 95.32 35 .51 E- 5

Q2 for PSB-8; unpartitioned sample

N Q2 df P

'litems 1245 291.54 44 .88E-11
__304_
1351.49 594 .12E-12

^ The tiumber of items reported in the first column are the items which were involved in the analysis.

s subjects had varying numbers of items completed, there were by far less subjects (400) having
^^ mpletcd all 30 retained items of PSB-3, than there were subjects having completed at least 10 of
J ''etained items, which number was 1955. The Ql results were encouraging for PSB-3 and with
etion of some items PSB-8 could also be made acceptable, but the Q2 results clearly indicate
int^' 'he tests have a multidimensional structure. Subdimensions could be clearly indicated and

■"Preted. These points will be elaborated in a separate paper,
diff den Wollenberg (1979, 1983) argues that in the case of time limit tests one should oppose
gro^"^^"' speed groups in testing the Rasch model in order to ascertain that in the different speed

^Ps the same latent trait is measured. These results are presented in table 2.
(f P.^'^d groups were formed by taking subjects together according to the number of completed
a range of five items constituted one group (1 -5; 6-10; 11 -15 etc). The more items
com^ '"solved in the analysis, the less speed groups could be retained, as again only subjects having
this included in the analysis, were kept in the sample. The results with respect to

yj,-Jl^odel test are very favorable indeed. Although the tests are not Rasch homogeneous nor even
o^^^cnsional, the measurement does not seem to be affected by the speed subjects are working
at a'^^ver the tests are measuring, the measurement does not seem to be affected by the speed
.^mch subjects are working,
•nefit of the

Rasch model to both tests is very poor indeed and this would indicate to stop the
'^asch^ analysis and look for other means to study these tests. However, as argued before, the
h model needs not necessarily be satisfied for predictive purposes. It is feasible that even with

-ocr page 62-

58 Predictive validity of time-limit tests

Table 2. Summary of analysis results for speed partitioning.

a) PSB-3

number of
speed groups

4
3
2

N

1955
2021
1505

df

27

28
19

Q1

25.96
46.55
35.18

.52
.01
.01

10 items
15 items
20 items

b) PSB-8

number of
speed groups

4
3
2

df

45
40
25

N

1534
1401
1036

Qi

61.07
36.96
20.59

.06
.61
.72

16 items
21 items
26 items

poor model fit the present scoring procedure gives better results than the traditional one and then
we have shown that the new scoring procedure could be an alternative for the traditional one,
which is the only pretention of the present paper. For this reason we proceed with our analysis,
recognizing the fact that better prediction may be expected, when better measurement is attained-

The relation between raw score and speed and precision scores.

For the analyses of this and the following subsection a sample of 16813 was available. Only those
subjects were kept in the analysis which satisfied the specifications used in the Rasch
analyses
above. After this selection a sample of 11608 subjects remained, enough to not bother about
significance (even a correlation of .02 would be significantly different from zero by this number of
subjects).

As was argued above, a multiple correlation of unity between raw score and the predictors speed
and precision would be desirable, implying that all linear prediction possibilities of raw score are
also present in the combination of speed and precision; the reverse, of course needs not to be true-
As a matter of fact this objective is attained to a high degree, the multiple correlation being .97
and
.98 for PSB-3 and PSB-8 respectively, as may be observed in table 3.

Table 3. Correlations between raw score (1), Rasch precision score (2) and speed (3).

PSB-3

PSB-8

1 i:ooo

1 1.000

2 0.834 1.000

2 0.869 1.000

3 0.526 0.042 1.000

3 0.749 0.388 1.000

R( 1.23) =.968

R( 1.23) = .977

-ocr page 63-

Arnold L. van den Wollenberg and Peter G. Gremers 59

For PBS-3 speed and precision seem to be almost independent, which does not hold for PSB-8. In
oth instances precision (the Rasch parameter) has a higher correlation with raw score than speed,
tit speed cannot be dispensed with in order to get a high multiple correlation.
These results imply that the new scoring procedure can at least do the job of the raw score
procedure and possibly better.

Predictive validity, some results
"e central question'of this study is whether the scoring procedure proposed by van den
ollenberg pays off in terms of predictive validity. In the preceeding section we showed that the
procedure, for the present tests, may be expected to perform at least as good as the traditional
procedure for any external criterion. Table 4 shows that it outperforms the traditional procedure
the prediction of at least three criteria. In table 4 the correlation of raw score with each of three
ehievement subtests is contrasted with the multiple correlation of speed and precision with the
same subtests.

Table 4. Some correlations between test scores and external criteria.

PSB-3 PSB-8

1 2,3 1 2,3

'®"8"age .269 .321 .205 .246

"Mathematics .328 .372 .225 .268

'"formatiom .284 .343 .215 .265

As can be seen a consistent gain in predictive validity is obtained. In an absolute sense the gain may
is t spectacular, but when the ratio of the explained variances of the new and the old procedures
the gain ranges from 29% to 52% with a mean of 42%, which we dare to call substantial.

4. DISCUSSION AND CONCLUSION

the ^^ Preceding section it was shown that a gain in predictive validity can be obtained by applying
Scoring procedure of van den Wollenbcrg. It could be argued that the gain is rather trivial.

1 Tfsome points must be carried in mind

2 absolute gain may be modest, the relative gain is rather substantial.

hen working with large number of testees, a small but consistent gain in predictive validity

3 be rather important.

l u P'^esent tests did not conform to the Rasch model. Although this is not necessary, it seems
jkely that in the case of Rasch homogeneous tests, where measurement is better substantiated,

4 could be larger.

e feel that also a theoretical point should be made. The present application shows that the
taditional scoring procedure does not fully account for subject test behaviour. Therefore also
•MC theoretical conception behind this scoring procedure (the factor analytic approach with
content bound factors) is at issue. The present results seem to favor an approach as
advocated by for instance Pieters and van der Ven (1982) and Van den Wollenberg (1983,1985),
th Quantitative factors such as speed and precision are taken into account too.

Pf .® present application the speed component is by far less important than precision. In fact

Sam '^'u" recounts for almost all of the explained variance. This does not, however, imply that the
e should be the case for other tests. Some test may well appeal more on working speed than

-ocr page 64-

60 Predictive validity of time-limit tests

others, so we feel that no general rule for the role of speed and precision can be formulated. As.
furthermore, speed and precision taken together constitute a more complete protocol of the test
behaviour, we feel that henceforth the speed component should remain part of the scoring
procedure.

The general conclusion of the present paper is that the new scoring procedure is likely to be
superior to the traditional raw score, not only in a theoretical sense, but also in terms of predictive
validity. Relatively large gains in predictive validity can be obtained, so researchers working in the
field, should in our opinion at least seriously consider the use of the speed-precision scoring
procedure.

REFERENCE NOTES

1) CBS, 1985, Schoolloopbaan en herkomst van leeriingen bij het voortgezet onderwijs. (Cohort
1982, SLVO, peildatum September 1983). Mededeling nr.: 7833.

REFERENCES

Horn, W. (1969). Prüfsystem für Schul- und Bildungsberatung P-S-B, Verlag für Psychologie.
Göttingen.

Raaymakers, M.H. & van den Wollenberg, A.L. (1979). RADI: program for the dichotomous. Rasch
model.
Report 79Ma06, Department of Psychology, University of Nijmegen, Nijmegen.
Pieters, J.P.M. & van der Ven, A.H.G.S. (1982). Precision, speed and distraction.
Applied

Psychological Measurement, 6,93-109.
Snijders, J.T. & Welten, V.J. (1968).
De ISI-schoolvorderingen en intelligentie-test, vorm I en U-

Groningen: Wolters-Noordhof.
van der Ven, A.H.G.S. (1969).
The binomial error model applied to time-limit intelligence tests-

Dissertatie, K.U. Nijmegen.
van den Wollenberg, A.L. (1979).
The Rasch model and time-limit tests. Nijmegen: Stichting

Studentenpers Nijmegen.
van den Wollenberg, A.L. (1982a). Two new test statistics for the Rasch model.
Psychometrika, 47,
123-139.

van den Wollenburg, A.L. (1982). On the applicabihty of the Q2 test for the Rasch model-

Kwantitatieve Methoden, 5,30-55.
van den Wollenberg, A.L. (1983).
Measuring subjects on a Joint scale by means of time-limit tests-

Tijdschrift voor OnderwijsResearch, 8,145-156.
van den Wollenberg, A.L. (1985). Speed and Precision: Facts or Artefacts?
Tijdschrift voot
Onderwijsresearch,
10,69-81.

Manuscript ontvangen 12-9-1986.
Definitieve versie ontvangen 10.1.1986.

-ocr page 65-

Tijdschrift voor Onderwijsresearch, 11 (1986), nr 2, pp. 61-66.

Item Banking with Random or Stratified Tests

Date N. M. de Gruijter
University of Leyden

-abstract

Assigned and measured item characteristics can be stored in an item bank. Item proportions correct or
P-values are likely to be included as measured characteristics, indicating item difficulties. Unfortunately
P-values are group dependent. In this paper a simple procedure is proposed for correctingp-values for
group differences. The procedure can be useful in connection with randomly or stratified randomly
constructed test forms.

INTRODUCTION

^hen a large item bank is available to a test constructor, successive test forms can be composed by
hdom or stratified random sampling of items from the bank, with the extra condition perhaps
the items to be selected have not been used shortly before. Stratified selection is indicated when
Ofhe topics are overrepresented in the item bank. Stratification of the bank helps to avoid
"c-sided tests. Stratification can also be useful for well-balanced item banks: stratification can
"finish test variation with respect to coverage of topics and difficulty level.
Random or stratified random item selection does not eliminate test variation in difficulty, but
c remaining variation is limited and unsystematic. So, when the tests are used for making
P ^/fail decisions, a fixed cutoff score can be chosen for all tests.

. The situation changes when the item bank is expanded by the addition of new items. The new
«fhs may be easier or more difficult on the average than the old items in the bank or in the relevant
""^ta. The test user should check from time to time whether there is a shift in difficulty level of the
^hk due to addition of items. However, p-values are group dependent. Only when two items are
"ministered to the same group, their /»-values can be compared straightaway. For an adequate
^'VParison of all items in a bank it is important to measure item difficulties on a common scale,
hank^' and Bell (1984) even argue that only carefully calibrated item pools should be called item

I" this contribution a simple procedure is suggested for eliminating group differences from the
jjy^^'^cdp-values. The procedure implicitly uses an item response model with strong assumptions,
't might be useful even when the model assumptions are not fully satisfied.

^t the set of items in test j, the test administered to examinee groupy, be denoted S(j). The observed
Potions correct of these items are denoted
p^y,. with i t SQ). These proportions are converted

THE COMPUTATIONAL PROCEDURE

^t these
Pfopo
logits

^'0) = log[/',0)/('-A(,))] (1)

Botr"!!^^' ^ifeau Onderzoek van Onderwijs
^'"aavelaan 2,2334 EN Leiden.

-ocr page 66-

62 Item Banking witli Random or Stratified Tests

The central assumption is that the item logits for groupy'are approximately linearly related to the
logits of the same items in a different group
j'. Such a relationship results under the Rasch model
when the latent ability distributions of the groups are normal. In this case the logits are approxima-
tely hnear functions of the item parameters, a property which - with the additional assumption of
normally distributed item parameters - has been exploited in an approximate estimation proce-
dure for the Rasch model (Cohen, 1979; Wright & Stone, 1984).

When two testsy'andy " have minimally two, but, in order to obtain adequate results, preferably
more than two items in common, all items in these tests can be brought to the same scale by a linear
transformation of the logits for test y'and a hnear transformation of the logits for test ƒ for which
the sum of the squared differences of the common items.

is minimized, under some adequate restrictions on the coefficients for the transformations, like
{aj + aj)/l = 1 and bj + 0.

The result can easily be generalized to more than two tests. The tests should at least form a
connected web, i.e. there should be no subset of tests which has no items in common with the
remaining tests.
With m tests the function to be minimized is

1 (x'.w-x;,/))^ 0)

/ <jus(j)ns{/)

where

under the side conditions

l.oj^m
y=i

and

X ^ =
y=i

or, alternatively, with Oi^ = 1 and = 0 for a particular choice of k. The parameters a must
exceed zero. Henceforth it will be assumed that
a does indeed exceed zero for all values k.
Using the first two side conditions, the minimization can be achieved by minimizing Equation

3 w.r.t. 0' = (fit,, «2. • • •. a« _ I, ''i. ''2.....h„_i),a„ and b„ being functions of the first m — 1

a's and b's. Differentiating /"w.r.t. the elements of 6 and setting the results equal to zero, one
obtains a set of 2m — 2 linear equations

C9 = y, (4)

where C is a matrix with coefficients, which can be solved for 6. The values for a„ and b„ can be
obtained from the solution vector 6.

The transformed logits x'^j^ for a given item /' can be transformed back to the proportion
correct scale for one of the groups. When group
k is chosen as the reference group, the corrected
p-values are given by

-ocr page 67-

Dato N.M. de Gruijter 63

^here ^ denotes the cumulative logistic. The p-values of the items which were not used for the
"nation of a's and
b's - items which were administered to only one examinee group, for
ample - can also be corrected by means of Equation 5. Next, the results can be averaged, in
nich process averages are obtained. The procedure is illustrated in Table 1. First, the item
8'ts X are obtained. Next, a^ and bi are computed by means of Equation 4, and 02 and 62 are
tained as 1 — a, and — b^, respectively. Finally, the corrected p-values for group 2 are
'amed and, if possible, averaged with the/?-values for group 1.

Table 1. a numerical example with two hypothetical seven-item tests having five items in
common = .16,^2 = — 16,0, = 1.03,02 = -97). Group 1, the examinees who took
test 1, is taken as the reference group.

PiO-)~ tPnt)

Pi a)

Xi{2)

^(2)

|A(2)

iPi

.866

.87

.546

.55

.890

.927

2.09

2.54

2.31

.89

.89

.777

.827

1.25

1.57

1.36

.76

.77

.777

.840

1.25

1.66

1.45

.78

.78

.760

.836

1.15

1.63

1.42

.77

.77

.625

.704

.51

.87

.68

.62

.62

.890

2.09

1.87

.84

.84

.777

1.25

1.05

.71

.71

^^'th the values Pi one can verify whether the item bank has shifted in average item difficulty.

"en this happens to be the case, one should consider a change in the cutoff score. The
preceding analysis does not, however, indicate the extent to which the cutoff score should be
anged. In order to change the cutoff score properly, one must know the change in average
em difficulty level for borderline examinees, examinees with an expected achievement near the

cutoff score.

th P'"ocedure for the estimation of a's and b's in Equation 3 can be viewed as an extension of
IQ® "timation of shifts in a complete web of tests, considered by Wright and Stone (1979, p.

and by Engelhard and Osberg (1983) for the Rasch model or as an extension of the
^''ocedure for the estimation of condition effects proposed by De Gruijter (1984). One should
otice that the analysis lays a heavy emphasis on frequently used items. When item
i is used in n
^^^ts, it figures in '/j a (n -— 1) terms in Equation 3. An alternative procedure for which the items
® Weighted more evenly, is to minimize the function

g = 5: V (6)

I J\i.S(j) "

jyl^ere the average of the values x'^jy Now, when item / is used n times, it figures n times in
of pV"ction to be minimized. When all items occur with the same frequency, the minimization
en equivalent to the minimization of/". This is easily verified using the fact that variances are
^"al to half the mean squares of differences (Kendall & Stuart, 1963).
^ Weighted variant of
G is the function.

item

/ j\US{j)

Here

-ocr page 68-

64 Item Banking witli Random or Stratified Tests

and

= (9)

The weights w^j^ can be set equal to the group sizes Nj when the group sizes differ notably. It is
also possible to give the contributions corresponding to extreme /^-values a smaller weight, as
suggested by Tucker (1952; see also Torgerson, 1958, p. 390) in another estimation problem
which involved transformed /j-values.

A SIMULATION

A small simulation study was undertaken in order to verify whether the procedure gives
acceptable results when the model's assumptions are violated. It was assumed that guessing
plays a role, and the following item response model was chosen

Pi (6) = c + (1 — c) exp (e — d,)/[\ + exp (0 — rf,)], (10)

where c is the guessing parameter, set equal to 0.25,6 is an ability parameter, d^ the difficulty
parameter of item /, and (0) is the probability of a correct response to item;' given latent ability
0. Three examinee populations were defined. In the standard population, population II, there were
five levels of6 (—1.5, —0.75,0.0,0.75,1.5), with relative frequencies 0.1,0.25,0.3,0.25 and 0. !•
The average ability in population I was 0.5 lower, that of population II10.5 higher than the ability
level of population II. Items with
d equal to —2.0, —1.0 and 0.0 were administered to
populations I and II. Three other items with these values of rf were administered to population H
and III, and items whh rfequal to —1.5, —0.5 and 0.5 were administered to population I and
III. Proportions correct on these items were computed under the assumption of infinite
population sizes. The resulting proportions are given in Table 2. Using population II as the
standard, corrected item proportions for populations I and III were computed by minimization of
Equation 6. These proportions are also given in Table 2. The corrected proportions of items I
through 3 and 7 through 9 are quite similar to the target proportions in population II, and the
corrected proportion for items 4 through 6 are quite similar for populations I and III, indicating
the success of the corrections.

The procedure was repeated for finite populations, with populations sizes equal to 100. Due to
the probabilistic character of the item response model, random fluctuations in /7-values are to be

Table 2. Population /»-values and corrected /»-values for the common items in three infinite
populations, using population II as a standard.

item

I

/?(xl00)
II

III

corrected p (xlOO)
1 III

1

840

890

891

2

704

111

lie

3

546

625

624

4

*

111

890

840

840

5

625

111

703

705

6

473

625

548

545

7

890

927

889

8

111

840

778

9

625

704

626

-ocr page 69-

Dato N.M. de Gruijter 65

g jPe'^.'ed. They are noticeable in Figure 1, where the observed and corrected proportions of twelve
.'honal items (six items given to population I, and six given to population III) are plotted
^p'nst the
expected proportions correct in population II. Most corrected values are closer to the
^8onal than the original ones.

Some model deviations must show in a simple procedure like the present one. This is the case
en - in terms of the three-parameter logistic model - the item discrimination parameters
2 This is demonstrated in Table 1, which is based on essentially the same kind of data as Table
• terns 4 and 6 are the exceptions. Item 4 has a discrimination parameter equal to 0.75 as
.^.^mpareci to the standard value of one, and item 6 has a discrimination parameter equal to 1.25.

e less discriminating item clearly was overcorrected, and item 6 undercorrected.
ite " 'h® variation in item discrimination can remain within reasonable bounds while

Un low discriminating power probably will be removed from the item bank as being

"satisfactory.

DISCUSSION

for the elimination of group differences from the observed/»-values is proposed. The
sj ^ condition for applying the procedure is that tests arc connected as described in the previous
for ^^ hkely that this condition is satisfied with random or stratified item selections. Starting,
y^Pl^^mple, with an item bank of 120 items from which a forty-item test has been selected, it is very
adm that a second test with forty randomly sampled items contains less than two already
the items. One might want to verify this with the hypergeometric distribution. Of course,

o„ ."î^^l'ty of the solutions depends on the degree of connectedness in the test web. It also depends

^e adequacy of the underlying assumptions,
exa • items are not Rasch-homogeneous, the assumption of linearity of logits between
"^'"ee groups which really differ, is not tenable. When this happens to be the case, residuals
tio® kPi are correlated with group level for the more and less discriminating items. Such devia-
are less disturbing in the proposed application than in other applications, in view of the fact

-ocr page 70-

66 Item Banking witli Random or Stratified Tests

tiiat tlie corrected proportions are averaged for each item, and item proportions are next average''
within classes of items.

Other items might not fit due to instructional effects: an item might become easier after an
instructional change. Clearly, such an item should be removed before the analysis or treated as a
different item after the instructional change.

The procedure is quite simple: only /»-values are needed. The procedure further differs from
more sophisticated maximum likelihood procedures in that item parameters are not estimated-
This is an advantage when the number of test administrations and, consequently, the
number of
items increases. Further, the procedure is noniterative. These characteristics make it possible to
implement the procedure on small micro-computers. Finally, the x' may be used in order to obtain
starting values for ML-estimation in the Rasch model when the data are incomplete according t"
the pattern described in the previous section. When the item logits are replaced by Rasch item
parameter estimates and the a
's are set equal to one, minimization of Equation 3 or 7 with respect
to the b's gives an alternative to the linking procedure, suggested for the Rasch model by Engelhard
and Osberg.

REFERENCES

Cohen, L. (1979). Approximate expressions for parameter estimates in the Rasch model. BritisI'
Journal of Mathematical and Statistical Psychology, 32,
113-120.

De Gruijter, D.N.M. (1984). Two simple models for rater effects. Applied Psychological Measure
ment, 8,
213-218.

Engelhard, G. and Osberg, D.W. (1983). Constructing a test network with a Rasch measurement
mode,\. Applied Psychological Measurement, 7, 283-294.

Kendall, M.G. and Stuart, A. (1963). The advanced theory of statistics. Vol I. (2nd ed.). London:
Griffin.

Torgerson, W.S. (1958). Theory and methods of scaling. New York: Wiley.

Tucker, L. R. (1952). A level of proficiency scale for a unidimensional skill. American Psychologist,
7, 408 (abs).

Wright, B.D. and Bell, S.R. (1984). Item banks: what, why, how. Journal of Educational Measure-
rnent, 21.
331-345.

Wright, B.D. and Stone, M.H. (1979). Best test design. Chicago: Mesa Press.

Manuscript ontvangen 19-8-1985
Definitieve versie ontvangen 22-11-1985

-ocr page 71-

Tijdschrift voor Onderwijsresearch, 11 (1986), nr 2, pp. 67-82.

Ratings of Requests for Grants in Educational Research

Revisited*

jï'j^Jeerens, A. L. Beem,

^ Foundation for Educational and (Rijksuniversiteit Leiden)

"•^^earch in the Netherlands)

abstract

Hofstee's evaluation of ratings of grant-requests in educational research was rephcated and extended
on the basis of a larger data-set, consisting of ratings by three judgement-committees of 239 grant
fequest.s. By means of various techniques it was shown that Hofstee's conclusion that the relation
between scale-scores on judgement categories and final judgements of raters is linear is quite defensible.
By regressing final judgement on the scale for the 6 judgement categories it appeared that the
category-scores together predict the final judgement quite well (R^ ranging from .58 to .72). These
regression analyses also showed that the judgement category: "research technical adequacy" carries
most weight in this prediction. The agreement between raters appeared to be even lower than in the
case of Hofstee's analysis; the average correlations for the three judgement-committees were . 11, .05
and . 12 respectively. When the coefficient of identity was used as a measure of rater-agreement these
Values were somewhat higher (.12, .29 and .26 respectively) though still quite low. Hofstee's suggestion
that global measures ought to be replaced by aggregates of specific measures is not borne out by the
data presented here: the most that might be maintained is that they arc interchangeable. By means of a
variance component analysis a substantial interaction between raters and proposals was shown. In a
subsequent analysis of variance it was shown that, with the exception of two of the judges, this
interaction could not be explained as "affiliation bias" of the judges. Content analysis of the verbal
reports on each proposal by the respective committee corroborated the finding from the regression
analyses that adequacy is by far the most important judgement category. Finally a comparison was
made between the judgements of 17 research proposals and the judgements of the corresponding
research reports. From this comparison it appeared that the predictive validity of proposal ratings is
dubious: there were 6 "hits" and 11 "misses". These results are discussed by considering three ways of
seeing the judgement procedure: as a measuring instrument, as a procedure for reaching consensus and
as a process of argumentation.

INTRODUCTION

edu^^^ Hofstee published the results of a psychometric analysis of ratings of grant-requests in
or national research (Hofstee, 1983). The most striking result of this study was the low incidence
of fP^^'^cnt between judges (an average correlation of. 14 for the final judgements). On the basis
jud Hofstee predicted that, contrary to the usual subjective impressions held by

the^^^'all judgement-committees the actual agreement would be low, i.e. in 9 out of 10 cases in
acc/^"®*^ of .00 to .30. Since data on judgement procedures in educational research have
prg .l^V'ated in the years following Hofstee's analysis there is now sufficient basis for putting this
Apart from the judgement-committee investigated by Hofstee (the
^0"-committee concerned with so-called "frec"-research proposals, i.e. not tied to a specific

♦ Th

rev' ^""'"rs are indebted to drs. Henry Wouters for his assistance and valuable suggestions, to the
ll„ '^^srs of TOR for their comments on an eadier version of this article and to Mrs. Christine Thirlway for

""8">stic editing.

-ocr page 72-

68 Ratings of requests for grants revisited

researcii programme) there are now two other judgement-committees: the "OTG "-committee for tii^
judgement of proposals tied to certain thematic research-programmes and the "OR"-committe«
for proposals that are contracted by the Ministry of Education or by Educational Organizations.

The total data-set of ratings on grant-requests used for the replication and further analyse®
amounted to 239 cases, divided over 3 committees and 9 committee-meetings (sessions). These 239
cases included the 54 that had already been analyzed by Hofstee. Not only for scientific reasons
(i.e. to confront an interesting prediction with further empirical evidence) but also for practical
reasons it seemed worthwhile to replicate and continue Hofstee's analysis. The total amount of
money applied for in these research proposals is about 40 million Dutch guilders, reason enough-
one would think, to spare no effort to improve the review-processes on the basis of critics'
evaluation.

PROCEDURE

The material for the analyses to be presented in this article consisted of ratings of 239 grant'
requests (research proposals). The ANGO-committee rated 116 proposals over 4 sessions: 25 i"
1981, 33 in 1982,32 in 1983 and 26 in 1984. The OTG-committee rated 50 proposals over 1
sessions: 22 in 1983 and 28 in 1984. The OR-committee rated 73 proposals over 4 sessions in 1984.

The ANGO and OR-committee consisted of 5 judges each; the OTG-committee had 4 members-
One of the members of the OTG-committee who took part in the 1983-session was not available
for thel984-session and was therefore replaced.

All committee-members were professors. In each committee various specialities within th^
educational sciences were represented, with a fairiy strong emphasis on research-methodology-
One of the authors (J. Scheerens) acted as secretary to all committees during all sessions.
The
review-process in each committee consisted of the following steps:

1. Each rater judged each proposal individually, using a standard-form containing 5-poin'
rating-scales for six judgement categories (for a description see below). Apart from indicating
the scores on the rating scales, the judges also gave verbal comments on each proposal. Th'
individual raters further indicated their final judgement in terms of a three-point scale (A, B, C.
scored as 1,2,3) on the forms. "A" indicating positive advice to the funding organization; "B'
meaning that the proposal was rejected in its original form, but might be considered in an
improved version during a subsequent session, and "C" meaning that the grant-request should
be rejected and no encouragement given to the applicant to come back with his request later on-

2. The judgement-forms were duplicated and distributed among committee-members at the
beginning of each session. Each research-proposal was discussed until consensus was reachd
on a final committee-judgement, once more expressed in terms of an A-, B- or C-judgement-

3. For each proposal a written report was produced setting out the reasons behind the commf'
tee's judgement. This collection of reports, together with the (A, B or C)-judgements constituted
the committee's advice to the funders (SVO and ZWO).

The foWomngjudgement-categories were used:

1. Completeness: the degree to which research-proposals were explicit and contained sufficien'
information on the state of the art in the field in question, the formulation of the research-
problem, research-methods and techniques, planning and budget. '

2. Adequacy: the degree to which the elements of the research proposal were well chosen and
formed a consistent, integrated whole.

3. Guarantees for efficient execution: the degree to which the applicants were capable of carrying
out the research according to plan, and its feasibility under the contextual conditions of th^
research-setting.

4. Scientific relevance: the value of the research in a scientific sense.

5. Practical relevance: the relevance of the research to educational practice and policy.

6. Innovative characteristics: the degree to which the research was innovative with respect t"
theory or methodology.

-ocr page 73-

J. Scheerens and A. L. Beem 69

J^ore extensive information on these judgement-procedures is available in SVO, 1984.

part from the proposal-ratings other data were collected concerning characteristics of research-
Proposals, namely:
academic status of the applicant (MA, PhD or Professor);
length of each proposal (number of lines of each proposal);

length of introductory text explaining the background of research-questions (number of lines);
^ ■ 'ength of explanation of the technical research-design (number of lines);
J,- me special field of the proposal (psychology, sociology or pedagogy);
'he school-category the proposal involved (primary or secondary education);
the affiliations of applicants,
'nally, the affiliation of raters was used as a variable in some analyses.

The data-matrix for each committee can be depicted as three-dimensional: proposals x judges x
^ antitative and qualitative variables. The quantitative variables are the scores on the 6 judgement
ategories plus a final judgement for each of the raters and a committee judgement. Three of the
^^"^acteristics of research proposals described above are also of a quantitative nature, while the
^ ner four are qualitative. Missing data amounted to less than 10% for the final judgements, and
out 10% for the category-scores with the exception of one session of the ANGO-committee
.®n one of the reviewers was absent. Unless it is specifically stated computations reported in this
^le were carried out on the available data without estimation of missing values,
r i- successively analyse: the scaling behaviour of the raters, the agreement between raters,
'ability coefficients for the rating procedure, influence of proposal and rater-characteristics on
res, the contents of the committee reports on proposals and judgements of research-reports.

ANALYSES AND RESULTS

^'^»''ng behaviour

oistee investigated the question whether the raters interpreted the scales as linear (Hofstee 1983,
P- ^ 76).

Linearity is of interest for several reasons. For example, suppose we know the value of the
lj^°Posals on an objectively definable scale. If the regression of scale scores on the objective scale is
3 ^ar for every observer, then the sum-score over observers will also be linear and might even give
3 approximation to the objective scores. Linearity also implies, of course, that raters'

ecment can be expressed in a correlation coefficient.
tWo P'"°eedure to investigate linearity used by Hofstee starts from the assumption that one of the
rat scales (i.e. the five-point scale for judgement categories or the three-point scale for a

the ^ jtitlgcment) is scored as linear. Next, for each rater and for each judgement category
of final judgements on judgement categories is computed, as well as the regression of
Êement categories on final judgements,
soiti "^"^sults of these analyses (which will not be presented here in detail; sec Scheerens, 1985) give
Sin ^ to a linear interpretation of the data: the regressions, for example, are monotonie.

j^e this in itself is not conclusive evidence for linearity some additional analyses were carricd out.
pqi °""''ncarity might also be investigated for each pair of scales separately, e.g. by fitting
be J °"Mials. Although polynomials have their limitations, any serious non-linearity will probably
line However, this procedure would be rather laborious. Another method of assessing

spe ^r"^' optimal or dual scaling (Gifi, 1981 ; Nishisato, 1980). This method does not require the
vg^j Ration of a non-linear function beforehand, and non-linearity can be investigated for several
iggj^l^'es simultaneously. The method we used is implemented in the Princals program (Gifi,
ered ^""'ncals performs a principal component analysis in which scale categories can be consid-
numerical, yielding the ordinary PGA solution, ordinal or nominal (single nominal in Princals

-ocr page 74-

70 Ratings of requests for grants revisited

terminology). A comparison of tiie fit of the model for the various possibilities indicates whether
serious non-linearities exist. Since the data contain missing values, the fit of a model cannot be
interpreted as percentage "explained" variance without reservations. It must be realised that a
single nominal solution achieves a better fit than an ordinary PC A by estimating k-1 parameters
more for each scale, where k is the number of scale categories.

We investigated for each category separately whether the scores of the different judges were
linearly related. The ordinal and single nominal PCA produced degenerate solutions for several
analyses, with a congestion of observations strongly separated in the component's space from one
or two outlying observations. When this happened the analysis was repeated after removing the
outlying observations. For category 3 in OR degenerated solutions kept occurring even after
removing several observations. The present method does not seem suitable for investigating
non-linearity for this category.

Table 1. Fit of numerical (Num), ordinal (Ord) and nominal (Nom) PCA in two dimensions.

ANGO(l)

OTG (2)

OR (3)

Solution

Num Ord Nom

Num Ord Nom

Num Ord Nom

Dimension

12 12 12

12 12 12

12 12 12

Categories

1

39 26 43 27 42 31

44 36 45 42 46 44

32 27 35 30 39 31

2

34 28 35 30 34 32

51 31 58 33 56 38

33 22 38 25 37 30

3

36 25 40 25 41 28

44 38 45 38 47 36

34 29 43 33 43 36

4

33 24 35 29 35 31

48 31 61 26 59 30

39 24 45 27 43 33

5

34 24 36 28 36 29

46 34 48 36 49 36

33 23 37 28 38 30

6

41 25 45 27 45 27

41 39 48 40 48 40

42 27 39 32 39 32

7* •

31 26 33 27 33 27

47 33 51 33 52 32

31 24 31 27 31 29

' Final judgement.

Table 1 contains the fit per dimension of a two dimensional numerical, ordinal and single
nominal PCA. A comparison of the fit of the several solutions suggests that for the categories 2 and
4 in committee 2, and for the categories 2,4 and 5 in committee 3 there is evidence for non-linearity.
The increase in fit comes primarily from the second dimension of the nominal PCA. However, the
functions relating the optimal scaling quantifications to the original scores have two or three
extrema in general. In our opinion this should be interpreted as evidence for no relation instead of
a highly non-linear one. Hence we conclude that not much information is lost when only linear
relations are considered.

Relation between categories and final judgement

Of course the categories are only relevant when they are related to final judgement. Moreover, it is
interesting to study whether the categories are weighted differently by different raters in arriving a'
their final judgement. A multiple regression was therefore conducted to investigate, first of all.
whether final judgement is predictable from category-scores. Since final judgement is a 3-point
scale, significance tests based on normality assumptions are not very meaningful here, since we do
not assume that the scores are discretizations of an underlying continuous variable. Thus squared

-ocr page 75-

J. Scheerens and A. L. Beem 71

multiple correlations will serve as a criterion. Non-linearity will be investigated by fitting a second
degree polynomial.

Table 2. Squared multiple correlation of linear regression and second degree polynomial
regression for each rater*

ANGO

OTG

OR

Rater

I

2 3 4

5

6

7 8

11

12

13

14

15

linear

polynomial

» -T.

.61
.69

.63 .70 .74
.65 .71 .75

.66
.72

.77

.80

.82 .64
.88 74

.45
.56

.75
.77

.64
.69

.70
.75

.58
.61

Table 2 contains, for each judge, the squared multiple correlation (R^) between final judgement
,"^.*^3tegories, and the increase in R^ when a second degree polynomial is fitted. It is clear that the
aviations from linearity are small and that final judgement is highly predictable from the
"Category-scores, except forjudge 11.
Next we investigated whether the judges weighted the categories substantially differently in
rivmg at their final judgement. Three regression models were fitted for each committee: 1)
^ ' 'erent constants and different regression weights for each judge; 2) different constants but equal
j^'^ession weights for each judge; 3) identical constants and identical regression weights for each
dgc. The R^-value for these models are presented in Table 3.

3. Squared multiple correlations for three models

^°nimittee model 1 model 2 model 3 N*

.67 .62 .57 464

.77 .72 .57 145

.63 .58 .53 287

.68 .62 896

number of observations

gj-Tl^e results suggest that, without much loss of information, model 2 can be used. (Note that we
jjj l^^atc (j-1) X k additional parameters in model 2 as compared to model 1, with j the number of
"lori*^! ^nd k the number of categories; in model 2 onlyj-1 parameters more are estimated than in
be( The last line of Table 3 contains R^-values of model 1 and 2, without distinguishing
th^^en committees. From these values it can be concluded that within the whole group of judges

.^eighting of the scales does not differ substantially.
Tabl ^^'''"^tes of the regression weights of model 2 for all committees together are presented in
2 - e 4, together with their T-statistics. (Remember that final judgement A, B, C, was scored as 1,
•^respectively).

Stat Sh normality of the conditional distribution of final judgement is doubtful, probability
a go^"^®"^^ be made by applying the Bienayme-Chebyshev inequality, assuming that we have
estimate of the variance of the regression parameter estimates. It is then readily verified that

' ango

2 OTG
3) OR
'.2,3

-ocr page 76-

72 Ratings of requests for grants revisited

Table 4. Regression weights, their T-statistic, and regression sum of squares of rater categories
for predicting final judgement.

Categories

1

Completeness

2

Adequacy

3

Efficient
Execution

4

Scientific
Relevance

5

Practical
Rel.

6

Innovation

Regression
weight
T-statistic
Sum of
squares

— .12
— 6.12

9.33

— .30

— 14.04

49.09

— .10
--4.44

4.91

— .12
— 5.32

7.05

— .17

— 7.69

14.71

— .05

— 1.90

.90

Note: the sum of squares are the reduction in regression sum of squares when the category is
deleted from the model.

all regression weights, except for category 6, differ significantly from zero at the .05 level. The sum
of squares suggests that category 2 (adequacy) is by far the most important, followed by 5,1 and
Category 6 (innovative characteristics) seems unimportant.

Agreement between raters

Agreement in terms of correlations

The correlations between the final judgements of the raters wi thin each committee are presented in
table 4 (correlation coefficients are shown in the lower triangle of the matrix for each committee)'
The average correlation for each commhtee and an estimate of the rehability for each committee '
where a committee is seen as a composite test having parallel components - are also given in Table
5. The reliability estimate is found by inserting the average correlation per committee in the
Spearman-Brown formula.

The results presented in Table 5 support Hofstee's prediction that the agreement between raters
of judgement-committees will generally not fall beyond the range of .00 - .30. In fact the average
correlations presented here are even lower than .14, the value of the average agreement fof
ANGO-sessions 1 and 2, as it was computed by Hofstee in 1983. Incidentally, the findings about
the ANGO-committee give no support to a learning effect in the sense of increased agreement,
which perhaps might be expected when committees have had more practice.

Hofstee's finding that the average correlation of the sum-scores (i.e. the sum of the category
scores for each proposal and each rater) was higher than the average correlation of the fina'
judgements (.21 versus .14) was only partially supported by our results. We found average
correlation on sum-scores of. 11, .04 and . 19 for the three committees versus average
correlatioiis
of. 11, .05 and. 12 on final judgements. So on the basis of these findings one might conclude that i'
does not make much difference whether the final judgement of each rater or his sum-score is used
as the basis for discussions during the committee-meeting.

Agreement in terms of coefficients of identity

The discussions during committee meetings start out with the statement of the final judgement of
each rater of each proposal in terms of an A, B or C-rating. In this way the "impression" the
committee-members get of their agreement in judgements might be more in terms of identity than
in terms of correlations. For instance, if rater 1 scores constantly higher than rater 2 theif
correlation will be quite high, but the lack of identity of their scores may make the reaching o'
consensus quite difficult. On the basis of this interpretation of the rating procedure we thought
would be interesting to compute an association measure that could yield a perfect measure of
agreement (i.e. the coefficient equals 1) even when the raters' scale variances equal zero, but could

-ocr page 77-

J. Scheerens and A. L. Beem 73

= 2

o — fN VO
1/1 m o o ^

0\ oo (N ^ fN
CN —c ro O —'

II
c
ÓC

oo'
r-'

I
8

ûS
O

O

o.

3

2 rs 2 ^

— fN Tj- >n

Il II

"S "S


tjv —. VO y
lo fi «-1

C
u
.•O

0

1

I

TS

c
rt

O
iri

c

C
O

oorjjs X os

Ov OO !/-> r- OO

m o m <s

— r- ro rn

— — tN

I
¥
o

Ü
s

t:
8

CM r- lo r- VO
o ^ ^ o

VO r- 00 Ov o

00 CN
— VO

a K

1/^ os
p fN

Il II"

II-I--


SSS22

— v-l <N >r> Tf

— CN O —

c

VO
ro
<N

^^ SS
I

S ^«s

B

c

I

c

O

a Ü

oc
<

t/S
f2

O
O

Z.
<

— <N ro Tt «o

-ocr page 78-

74 Ratings of requests for grants revisited

not be 1 when the mean scores of two raters' scale-scores differ. A measure that serves this purpos'
is the coefficient of identity derived by Zegers & Ten Berge (1985).
The coefficient of identity is estimated by the following formula:

?Xf + iY?

— I

i = 2(2XiYi)

where Xj, and Y| are the scores assigned by raters X and Y to
i = 1____n proposals.

At the same time we feel that interpreting agreement between raters in terms of classical
psychometric standards of reliability is also necessary, since a rater is clearly also required to sho^»'
some discrimination between proposals. Thus we feel that these two kinds of quality measures'
identity and discriminative reliability - provide complimentary information. In our opinion one
could very well envisage a typology of judgement-committees arrived at by crossing identity and
discrimination measures distinguishing between high and low levels. A committee high on
average
identity and low on average correlation could then be called something like: "smooth consensus
reacher, dubious measurer". All this seems sufficient reason for having also computed the
coefficients of identity between raters in each committee. The results are shown in Table 5.

It is clear from Table 5 that the coefficients of identity are generally higher than the correlation
coefficients, particularly in the OTG- and OR-committee. Large differences between p.m..c. and
coefficient of identity, which show in raters 6 and 10, are explained by the combination of a
relatively high proportion of identical scores and a low covariance (raters 6 and 10 have identical
scores in 15 out of 28 cases, their covariance is -.01, while the standard deviations are .64 for rater 6
and .31 for rater 10).

The average coefficients of identity for each session do not point to any substantial learning
effects. For the ANGO these averages are .15, .11, .11, .11, respectively, for the OTG .04 and .45
and for the OR-committee .26, .24, .33; although the rise in average coefficient of identity is high in
the OTG-committee, it is hard to interpret this as a learning effect, since one of the four committee
members_was replaced.

It is possible - as in the case of the average correlation coefficients - to obtain a reliability
estimate based on the average coefficients of identity by using the Spearman-Brown formula. I'
should be noted, however, that reliability in this case carries a different interpretation from
reliability as defined by classical test theory. Reliability estimates based on coefTicients of identity
should be interpreted rather as "raw score reliability" (see Ten Berge, 1984, p. 64). The reliability
estimates in question are also shown in Table 5 (indicated as rel.*). Although the identity
coefficients and ensuing reliability estimates are considerably higher than the p.m.c.'s in two of the
three committees, they are still rather low. The idea that the average coefficient of identity for^"
committee is indicative of the relative ease in reaching consensus corresponds with our
impressions
of the functioning of the three committees. The OTG- and OR-committee generally spent less time
on the discussion of each proposal than the ANGO-committee and occasionally discussions in the
ANGO were more vigorous than in the other two committees.

Variance components and generalizability coefTicients

In order to be'kble to draw more differentiated conclusions on the reliability of the judgement
procedure the reliability of sum-scores was further investigated. To this end variance components
were estimated on the basis of the following linear model:

-ocr page 79-

J. Scheerens and A. L. Beem 75

Vijk = M + p. + Cj + R, + PCij + PRi, + CRj, + PCRi^k + Cijk

Where:

^ijk = score of proposal i = 1.....n^ on category j by rater

k = 1.....n^,

M = overall mean

Pj = the main effect for proposal i

Cj = the main effect for category j

'^k = the main effect for rater k

PC|j, PR.|j, CRjk and PCRjjij = the respective interaction terms
^ijk = the error term

The values of n, and n^ are 116 and 5 for ANGO, 50 and 3 for OTG, and 73 and 5 for OR,
spectively; nj equals 6 in alle committees. Note that the highest order interaction term and the
■■'■or term are confounded.

or the estimation of variance components it is convenient to have a fully balanced design, so
issing values were replaced by estimated scores (for the procedure see Scheerens, 1985).
estimated variance components will be used to assess the reliability or generalizability of scores
ronbach, Gleser, Nanda & Rajaratnam, 1972). In the above model one must choose whether to
ra^^' 'he main effects as fixed or random. Since it is somewhat hard to decide whether to see the
^rs as randomly drawn from a (finite) population or as fixed, two mixed models were used: (1)
g °Posals random, categories fixed and raters fixed and (II) proposals random, categories fixed
Sch random. Variance components were estimated for the mixed model as discussed e.g. by
effe (1959)_ jhis model is equivalent to the one proposed by Cornfield and Tukey (1956),
conceptualization of the fixed effects. Other mixed models (e.g. Nelder, 1977; Searle,
^^ ') might also be used for reliability estimation (although in these other models variance
ij '"Ponents should be interpreted as components of excess variance), but the Scheffe-type model
"Commonly used in generalizability theory. The expected mean squares for this model do not
^^ ays contain both the highest order interaction and error variance components. The non-
Parability of these terms in the linear model may therefore result in the underestimation of a
IJ?Ponent, unless the highest order interaction is assumed to be zero.

Tabl^^'^''^"'''^ components for the two models of interest for the three committees are presented

^able 6. Variance components for a three way proposal (P) x category (C) x rater (R) factorial
design._____

P Random, C fixed, R fixed P. random, C fixed, R random

'°"iniittee

P
C
R

PC
PR
CR

pcr + e

3 ""derestimates of components when the variance component for the highest order intcr-
__'s not equal to zero.

ANGO

OTG

OR

ANGO

OTG

OR

.10»

.11*

.11*

.05

.05

.06

.03

.06

.10

.02

.04

.09

.03

.34

.05

.03

.34

.05

.08»

.07*

.06*

.08

.07

.06

.25*

.20*

.26*

.25*

.20*

.26*

.06

.06

.07

.06

.06

.07

.64

.44

.49

.64

.44

.49

-ocr page 80-

76 Ratings of requests for grants revisited

The most striking result is the relatively high proposal x rater interaction, which indicates that the
differences between mean scores of proposals over categories are different for different raters-
(Incidentally this interaction explains the fact that both the p.m.c.'s and the coefficients of identity
between raters were low). In the following section we shall attempt to explain this interaction effec'
by looking at some characteristics of proposals.

A generalizability coefficient r^ is defined as the ratio of universe score variance and
(expected) observed score variance. For the model with two fixed facets we have
r^ = a^ /(al + a] / JK), and for the other model r^ = a^ /(a^ + a^, / K + a^ / JK). Both deno-
minators have unbiased estimates (using MS for mean squares) MS (?) / JK.

We therefore have the following coefficients: .83, .80 and .85 for the three committees respec-
tively for the first model, and .42, .36 and .46 for the second model. The first set of coefficients may
be interpreted as the estimated replicability coefTicient (see Mellenbergh, 1977) for a complete
replication (i.e. for this model: when the same raters would judge the same proposals a second
time, using the same categories). The second set of coefficients can be seen as the replicabilities if 3
new sample of raters were selected. The reliability-impeding influence of the lack of agreement
between raters can be demonstrated even more dramatically when a measurement procedure is
considered in which each proposal is scored by one rater selected at random. The generalizability
coefficients, aj/+a^^ + al /J),.are then estimated as .11,.08 and. 14 for the three
committees respectively. The coefficient for the model with two fixed facets shows that the lack
of agreement between raters cannot be attributed to inconsistent rating behavior of an
individual rater. Neither can the disagreement between raters be attributed to a substantially
different weighting of the categories, as is evident from the regression analyses.

Characteristics of research-proposals and raters

Both by means of correlational analysis and anaysis of variance techniques we investigated the
influence of certain characteristics of research-proposals on final judgements and sum-scores as ^
possible explanation of the low agreement between raters. Altogether we looked at seven charac-
teristics of proposals: academic status of applicant, length of proposal, length of the introductory
text of the proposal, length of explanation of the research design, disciplinary
orientation,
affiliation of applicant and school category. We also investigated the interaction between the
affiliation of applicant and rater-affiliation (as the only rater-characteristic that was considered)-
Since none of the proposal-characteristics proved to have a substantial and systematic influence of
the final judgements and sum-scores, we will not present details of the analyses here (for these the
reader is referred to the more extensive internal report, Scheerens, 1985) but only discuss the
two-way analysis of variance by which the rater/affiliation interaction was investigated.

For this purpose a two way analysis of variance (fixed effects model) was conducted according
to the following model:

where: y^^ = sum-score for proposal k, from affiliation i = 1----n;, judged by rater

j= l....nj
m = overall mean
a| = main effect for affiliation i
bj, = jnain effect for rater j
ab|j = rater x location interaction

For ANGO, OTG and OR, Uj and nj equal 7 and 5, 7 and 3, and 6 and 5, respectively. The
analysis was conducted for each committee separately. Of course this design is a repeated measures
design (with bj the "within" factor), and therefore a multivariate anova would be preferable-
Such an analysis was not conducted because that would have entailed in a considerable loss o'

-ocr page 81-

J. Scheerens and A. L. Beem 77

observations in the ANGO and OR committee, due to missing values. It should also be noted that
orrelations between raters were generally low. Normality in each cell of the design was tested by
jneans of the Shapiro-Wilk statistic (Shapiro & Wilk, 1965). The results of Shapiro, Wilk and Chen
V 968) suggest that the. 10 significance level will give powers from about .35 to .70 for moderate to
rong deviations from normality even with only 10 observations. Using this level, the null
ypothesis was rejected at about the chance rate. However, Bartlett's test for homogeneity of
ariances was rejected at the .05 level for the ANGO and OR commhtee. Since no clear relation
p^'sts between cell variance and number of observations, the nominal significance level of the
"test may be either somewhat too liberal or too conservative.

^e R2-values of the model without interaction for the ANGO, OTG and OR-committees were
_ ' -48 and .16, respectively, and for the model with interaction .14, .57 and .24. This model
. PPears to fit well only only for the OTG-committee, while the interaction seems the least
■"Portant in the ANGO-committee.

'n Unbalanced designs several types of hypotheses about main effects may be of interest (e.g. the
/P°theses H,, Hj and Hj as distinguished by Speed, Hocking and Hackney, 1978). In the
^GO-committee and the OTG-committee these hypotheses are all rejected at the .05 level for
^ .th main effects. In the OR-committec, H, is rejected for both main effects, while Hj and H, are
ejected for the raters effect only.

ANGO (N = 463) OTG (N = 142) OR (N = 290)

Table 7. Analysis of variance results for three committees.

Model
Error

'"'fraction
Contrasts

Sum of
Squares

Df

P2

Sum of
Squares

Df

P

Sum of
Squares

Df

P

1088.86

34

<.01

1528.21

20

<.01

1095.79

28

<.01

6529.44

428

1134.73

121

3393.39

261

393.05

24

<.37

255.60

12

<.02

371.67

19

<.08

68.20

6

<.62

87.34

2

<.02

21.12

3

<.66

^ote'Degrees of freedom

Descriptive significance level

p^The hypothesis of no interaction can be rejected only for committee 2 (see Table 7). Thus there is
^ general interaction effect in committees 1 and 3. However, this overall test may consume too
sj degrees of freedom. To test for specific interactions, several interaction contrasts were
eo . ^"eously tested in each committee separately. The rater x affiliation combinations that were
^^sidered in estimating specific contrasts are summarized in Table 8.

cg|l"".eraction contrast is defined as follows. Let mij be the mean of cell i, j and let S be the set of
j . ^ ('. j) for which a contrast is considered. If we are interested in the interaction for cell
€ S) then we compute mij — S (mij.)/(nj — n^), (1), ij' 6 S,jVj, nj. = nj — (number of

^e'ls in row i for which ij' ^ S). The computations are repeated for all i V i, i'j ^ S,i'j' ^ S.
jj^e contrasts are then added together for i'j^i, divided by the number of contrasts and sub-
^ acted from (1). For example, for cell (1, 3) in committee 1 the following contrast is estimated:
-i-11 + m 12 + m 14 )/3 — (m33 — (mj, -f m34 -I- m35 )/3 -1- m43 — (m41 + m42 + m45 )/3
-- rm + ""52 +1154 + m55 )/4 + m63 — (m^, + m62 + m^ -1- m« )/4 -h m73 —

^"i?! + m72 + m74 -I- m75)/4)/5.

-ocr page 82-

78 Ratings of requests for grants revisited

Table 8. Overview of rater x affiliation of applicant combination - indicated by x - for which
specific contrasts were estimated

Raters

ANGO

OTG

OR

Affiliation

1 2 3 4 5

6 7 8

11 12 13 14 15

1 x X

2 XX

3 X XXX

4 X X

5 X

6
7

The results for the simultaneous test are presented in the last line of Table 7 and for the
individual contrasts (1,3,1,5 etc.) in Table 9.

Table 9. T-statistics and descriptive significance levels for specific contrasts

Committee

ANGO

OTG

OR

Contrasts

1,3

1,5

2,3

2,5

3,2

4,4

3,7 6,6

3,11

3,13

4,14

T

.70

.61

.96

.06

1.13

1.04

-1.16 2.94

-.33

.95

.77

P'

.49

.54

.34

.95

.26

.31

.25 .01

.75

.35

.44

Note' Descriptive significance level.

The null-hypotheses that the contrasts in each committee are simultaneously zero can be rejected
only in the OTG committee, which is confirmed \)y the T-statistics and their descriptive
significance level for the individual contrasts. We therefore conclude that on the whole there is
insufficient evidence that rater x affiliation interaction explains the high rater x proposal interac-
tion. Although a comparison of mean scores indicates that raters who are somehow associated
with certain applicants tend to rate the proposals from these applicants higher, these tendencies do
not stand up when they are statistically analyzed. So there is no substantial evidence of "alTiliatioO
bias" except perhaps in the case of one rater.

Other aspects of the judgement procedure

So far the emphasis in the analyses has been on the measurement and consensus-reaching aspects
of the judgement procedure. It has been argued by De Groot (1984) that the judgement of research
proposals should be seen primarily as a process of argumentation. Investigating the argumenta-
tion processes of judgement committees would call for a more qualitative kind of study. Here only
a very limited start has been made in this direction by means of a somewhat broad content analysis
of committee reports. (More in-depth analyses of the argumentation processes could be based on
the tape recordings of the committee-sessions).

-ocr page 83-

J. Scheerens and A. L. Beem 79

In addition, we used whatever material that was available to obtain an impression of the
predictive validity of the proposal-ratings by comparing them with judgements of the correspond-
'"8 final research reports.

^ntent analysis of committee reports
s it was described in the section on procedures of this article a verbal report motivating the
nimittee-judgement is made on each research proposal. The category series for the content
a'ysis consisted of the 6 categories that were also used for the individual ratings by committee
embers. To this set of categories three new categories were added, namely: concrete study-
Q^estions, indications and references from the committee to the applicant, suggestions to carry
^he research in a more effcient way and a catch-all category for unclassifiable material.

ne content-analysis-procedure consisted of categorizing all substantive remarks on a research
oposal, and counting repetitions within each category*. In a try-out we had established that the
egory-set could be used in a sufficiently unambiguous way. In this try-out phase two raters
independent analyses of judgement reports that were not included in the data for this study.
® inter-rater reliability, as determined by means of Cohen's kappa was .71.
^ he most important outcome of the content analysis - the results of which are not given here in
j^tail, see Scheerens, 1985 - was the dominance of the two categories completeness and adequacy.
Some sessions as many as 90% of the substantive remarks fell in these two categories, the average
er all sessions being 79%. These findings partly corroborate the results of the regression analyses
esented in a previous section. It can be concluded from this finding that the arguments which
most strongly in the committee discussions on proposal have to do with the completeness or
pl P^'citness of the proposals and the methodological adequacy and consistency of the rcsearch-

^ Another finding was that the committee reports tend to be most explicit when a proposal
J. "^'Ves a B-qualification. This makes sense because in the case of a B-qualification applicants may
^te their proposal on the basis of the committee's comments. Thus most of the remarks on completeness
d adequacy are cnV/'ca/comments,
in 1 appears to be a tendency for all committees to give briefer comments on proposals

®ter sessions as compared with earlier sessions.

^

Parison of proposal and report-ratings

jj ^termination of the predictive validity of proposal ratings in practical (i.e. not-experimental)
^^"ations will always suffer from a severe restriction of range because proposals that are rejected
e naturally never carried out. Yet, it is of interest to make a comparison between proposal and
p Port-ratings. Unfortunately the data-base required is still quite limited. In the last few years, the
g "ndation for Educational Research has had a total of 17 research-reports judged by external
^ Perts. Only in 2 cases were the corresponding proposal-ratings carried out by one of the
ommlttees mentioned in this article. All the other proposals were rated by two individual
Visors, who worked independently of each other. Table 10 gives a review of the proposal and
Port ratings for these 17 cases.
^^From Table 10 it can be seen that in 6 out of 17 cases the proposal and report ratings were
rg "Mpletely identical, in 7 cases the proposal was rated higher than the report and in 4 cases the
nol"*^' was rated more favorably than the proposal. The ratio of "hits" and "misses" (6 : 1 l )does
paint a rosy picture of the predictive validity of the proposal ratings. Yet, as a kind of
p^nsolation, we learn that both the proposals that were judged by a committee (the ANGO)

°ved to be sucessful projects.
(Ij he assumption that there will be more correspondence between raters on the subject of reports
finri" Pt'oposals, because reports have a more extensive informational basis, is borne out by the
ding (not visible from Table 10) that the agreement between raters of final reports was
"siderably higher than the agreement on proposals: in 10 out of 15 cases the judges made

^The

eontent-analysis was carried out by drs. H. Wouters.

-ocr page 84-

80 Ratings of requests for grants revisited

Table 10. Correspondence between proposal ratings and judgements on corresponding
research reports.

Proposal rating

A

A/B

B

B/C

C

A

5

1

A/B

1

2

B

2

1

1

1

3

practically identical judgements on reports - reports were reviewed by only one judge. Since one
the whole, judges with differing backgrounds are selected to review a particular report and are not
made aware of each other's indentity, in our opinion this high correspondence cannot be explained
by lack of independence of the individual judgements.

DISCUSSION

It has been implied by De Groot (1984) and Hofstee (1984) that the kind of analysis of peer revie«"
described here is both "bad" and "dangerous". According to De Groot it is bad to concentrate on
correlations instead of focussing on (qualitative analyses of) argumentation processes within
committees. Hofstee fears that knowledge of the particularities and preferences of raters and
committees will tempt applicants to try to adapt their proposals to these idiosyncrasies.

We would agree with De Groot's criticism that further analysis of the argumentation processes
within committees would be relevant. Yet, the quantitative analyses as carried out here do also
shed some light on the way the review processes work. So for instance, the absence of any increase
in agreement within committees by the end of the sessions makes it doubtful whether raters do
indeed learn and improve teir abilities to detect scientific quality. If one is willing to believe that
committee-consensus in which all particularistic divergences are "transcended" is the true detector
of the quality of proposals, such a learning effect would certainly be expected. The non-occurrence
of a learning effect in terms of increased agreement gives rise to the awkward supposition tha<
reaching consensus in a judgement-committee could work as an end in itself, making the argumen-
tation process of secondary importance. The tendency towards brevity and general judgement
statements, discernible in the committee reports, particularly when the number of proposals to bc
reviewed is large, also points in this direction.

We also think that further quantitative analysis is needed to test Hofstee's bold statement that
the average rater's judgement will be pure for roughly 20% and dependent on personal idiosyncra-
sies and interactions of these with unimportant particularities of proposals for the remaining 80%
(Hofstee, 1984, p. 73). At present we are not ready to believe that further regularities in rater and
category variability and their respective interactions could not be discerned. Therefore some
follow-up analyses are being carried out. Some of the percentage of "idpsyncrasies" may after a"
appear to be interprétable regularities. Should this indeed happen, Hofstee's warning on the
openness of review-processes would be warranted, the logical consequence of which would be to
publish reviewers' findings completely anonymously.

In summing up, we think the previous analyses have shown that it is informative to distinguish
three aspects of the judgement-procedure in question:

a. a measurement phase where individual raters use category scales and a scale to express theif

final judgements;

b. a process of argumentation during the committee meetings;

c. the process of reaching consensus on each research proposal.

Report rating

-ocr page 85-

J. Scheerens and A. L. Beem 81

p

or the measurement phase, we think that pending further search for explanations of low
ncordance, we might accept the divergence as a logical consequence of the policy of having
eterogeneous committees. This would mean that future psychometric evaluations would do well
concentrate on the consistency and stability of individual ratings. As it has already been pointed
^^ by
Hofstee (1983), measures to improve the psychometric quality of the judgement-procedure
^ a whole, such as increasing the number of reviewers and further specifying the judgement
egories, have too many practical disadvantages. Accepting this view of the measurement phase
ould mean emphasizing the importance of the argumentation process. The quality of this process
its h be judged by the smoothness and speed with which consensus is reached, but rather by
by-products: explicit arguments motivating the judgements on strong and weak points of
^.oposals. There are practical measures which might bring this about. First, the committee-
Ijj^'^tissions could be further structured. The analysis of the reports has shown that quality criteria
J e^Plicitness and methodological adequacy are strongly predominant and that relatively little is
'. about the relevance of research-proposals (De Groot, 1985, gives an example of a procedure in
g 'ch relevance was explicitly taken into account even if defined as conditional on quality).
J, *^ondly, even more time might be found for both the preparation of the individual raters and the
I "^mittee-meetings in order to increase the explicitness of individual and committee-reports. This
iuH would of course involve extra expense, but in view of the influence of the committee-

j S^ments on the actual funding decisions - to give some final figures, the correlations between
Q^Scments and funding decisions by SVO are .88 for the ANGO, .89 for the OTG and .80 for the
, '^"Committee - spendingsome extra money in order to improve the judgement-procedure would
. ''dly seem too great a sacrifice. Finally, since our results indicate much stronger agreement
^ tween ratings of research-reports than of proposals, there would seem to be every reason to
PPlement peer review of proposals by review of research-reports.

REFERENCES

^erg, J.M.F. ten (1984). Een definitie van betrouwbaarheid in termen van ruwe scores. Kwantita-
p tieve Methoden
16,63-72.

"■■nfield, J. & Tukey, J.W. (1956). Average values of mean squares in factorials. Annals of
Q Mathematical Statistics.
27,907-949.

ronbach, L.J., Gleser, C.G., Nanda, H., Rajaratnam, N. (1972). The dependability of behavioural
Q. measurements: theory of generalizability for scores andprofdes.
Wiley.

A. (1981). Non-linear multivariate analysis. Department of Data Theory, University of
Q Leiden.

°ot, A.D. de (1984). Kwaliteit in de wetenschap een meetbaar begrip? In: Becker, H.A. & Roon,
u A.F.J, van;
Kwaliteit in de wetenschap. Leiden, DSWO.

O'stee, W.K.B. (1983). Rating of grant-requests in educational research: a psychometric evalua-
w tion (in Dutch).
Tijdschrift voor Onderwijsresearch. 8. 1983,273-284.

W.K.B. (1984). Beoordeling van de kwaliteit van wetenschappelijk onderzoek: funda-
mentele kwesties. In: Becker, H.A. & Roon, A.F.J, van:
Kwaliteit in de wetenschap.
w Leiden: DSWO.

S^nberg, G.J. (1977). The replicability of measures. Psychological Bulletin. 84,2,388-384.

'"cr, J.A. (1977). A reformulation of linear models. Journal of the Royal Statistical Society A.
f^i 140,48-63.

"'Sato, S. (1980). Analysis of categorical data: dual scaling and its applications. Toronto: Univ.
of Toronto Press.

"Kerens, J. (1985). Rating of grant requests in educational research revisited (internal manu-
Sch.ft-. ^"'P')- Th® SVO.

Sea 1 ' analysis of variance. New York: Wiley.

S.R. (1971). Linear models. New York: Wiley.

-ocr page 86-

82 Ratings of requests for grants revisited

Shapiro, S.S. & Wilk, M.B. (1965). An analysis of variance test for normality (complete sample®^

5/o/«e/nA:a, 52,591-611.
Shapiro, S.S., Wilk, M.B. & Chen, H.J. (1968). A comparative study of various tests of normaüÖ

Journal of the American Statistical Association, 63, 1343-1372.
Speed, F.M., Hocking, R.R. & Hackney, O.R (1978). Methods of analysis of linear models wi'"

unbalanced data. Journal of the American Statistical Association, Ti, 105-112.
SVO, (1984) De beoordeling van onderzoek van het onderwijs. Den Haag: SVO.
Zegers, F.E., & ten Berge, J.M.F. (1985) Association measures for metric scales.
Psychometrik'''
50,17-24.

Manuscript ontvangen 6-6-1985.
Definitieve versie ontvangen 13-12-1985.

-ocr page 87-

Tijdschrift voor Onderwijsresearch, 11 (1986), nr 2, pp. 83-96.

Some Aspects of School Careers
in Public and Non-Public Primary Schools*

p. van Laarhoven, B. Bakker, J. Dronkers, H. Schijf

^fiSTRACT

In this article effects by sector of school (public. Catholic, Protestant and private secular) on
school careers in primary education are examined. Several differential effects are found,
sometimes interacting with gender. However, the differences between Catholic and Protestant
schools are greater than those between public and non-public schools. Differences arc found in
rates of non-promotion, and somewhat less marked in achievement. Moreover, differences by
sector are found in parents' actual choices for secondary education. The article suggests that
•he differences may partly explain the persistence of denominational education in the
Netherlands.

1. INTRODUCTION

^^"cational system in the Netherlands is characterized by a large private sector, existing
(C "P'*?® a public sector. The private sector is for the most part composed of denominational
Wa • ".c and Protestant) schools. If 'pillarization'
(verzuUing) along religious lines has been
^^ ning in the last decades, denominational schools show no sign of losing ground to the public
se
Three-quarters of Dutch primary school pupils still receive schooling within the private
'^Part from denominational schools, there is also a small number of private secular schools
Ch, as a rule, are administered in accordance with particular educational conceptions. It must
^tressed, however, that nearly all schools in the private sector arc state-supported in the same
®"neras public schools.

" P^tch literature on education, one can find several explanations for the prevalence of
(fj^^'^.'national schools. One of the explanations is the so-called "differential affinity hypothesis"
soc " 1978). This hypothesis explains that 'pillarization' arose originally in sectors of Dutch
which had a strong affinity - sectors like education, particularly primary education, for
Ijjj'^P'c - with dominant persuasions. It is for that reason that those sectors will probably be the
hifih 'pillarization' disintegrates. According to Van Kemcnade (1968) Catholic parents set a
of , ^a'nc on religious cultivation of their children; they prefer Catholic schools for the inculcation
Kes ^"^'^^cd norms and values. This applies particularly to infant schools and primary schools.
(C Protestant parents yields a similar result. Likewise, orthodox Reformed Protestant

'pl^^-^pt'tneerde) parents still adhere to traditional beliefs, and they also retain a strong sense of

■arization' (Flaman, De Jonge and Westra 1974; Dc Jonge 1978).
^nti °yever, the current participation in Catholic and Protestant education cannot be explained
Cath ^ actual predilections of Catholic and Protestant parents. In 1965, fully a third of all
parents indicated a willingness to let their children attend public schools (Van Kemcnade
Pare '' ^^s estimated that only 66 per cent of all Catholic and Protestant

Would choose denominational schools for their children (Sociaal en Cultured Planbureau

pr^^eording to yet another explanation the actual participation does not refiect parents'
but rather their lack of alternatives. When new schools are founded, the current
reas "''on of schools across sectors is commonly taken as a starting-point. It is difficult for that
bog"" alter the existing ratio of private and public schools. Moreover, established school
^ and their organizations have powerful positions, and they can usually exert enough

-ocr page 88-

84 P. van Laarhoven et al.

influence to maintain the existing distribution of schools (Bouhuijs and Boef-van der Meulen 1978^
Randsdorp and Dronkers 1982). Although many parents may prefer other schools, these may no'
be available within their neighbourhood, or if they exist, may belong to an undesired sector
Situations like these are experienced as especially undesirable in regard to infant schools an*)
primary schools. Parents can also be dissatisfied with the dominance of Catholic or
Protestan'
schools. In newly urbanized districts, this dissatisfaction has sometimes motivated the foundatio"
of private secular schools in predominantly Catholic or Protestant areas.

A third explanation for the persistence of denominational schools can, perhaps, be attributed t"
differences of quality between public and denominational schools. It may well be that parents
beside being prompted by a religious affinity, choose Catholic or Protestant schools because thes^
supply better education. 'Better' not necessarily in the sense of superior norms and values bu'
rather in the sense of better schooling enabling a fuller development of their childrens' faculties.

Research in other countries reveals that denominational schools in some cases operate diffet'
ently than public schools. Coleman, Hoffer and Kilgore (1982; see also Hoffer, Greeley an^
Coleman 1985) have compared public and Catholic high schools in the United States; Yogev and
Chen (1985) have done the same for what they call 'religious schools' and 'secular schools' '"
Israel. The contexts and analyses differ too much to summarize them briefly, but the authors poin'
out that educational opportunities differ for private and public schools. In both countries, the
religious character of schools does not merely stand for the religious calibre of the education bu'
also for different patterns of achievement and selection.

These circumstances may also be of importance in the Dutch educational system, although not
all parents will, of course, demand the same kind of quality. Whatever these demands may be-
parents appear to be becoming more and more concerned about the quality of the schools attended
by their children. Often, however, it is impossible for parents to verify whether a
particular schoo'
has the educational standing they desire. School sector (Catholic, Protestant, private secular o<
public) might therefore become a 'screening device' that enables parents to assess the quality of the
schooling their children are likely to receive. Denominational schools in the Netherlands are.
moreover, able to raise extra school fees and are, as a result, able to organize more
extra-curricul^f
activities than public schools. Finally, they can probably also enforce both more effective disc''
pline and stringent educational demands.

It is because of this discussion that we want to examine the differential effects of CatholiC'
Protestant, private secular and public schools on educational achievement. However, because o'
restrictions in the data our investigation is limited to the effects on some key aspects of a pupi'j
school career. Our research is, moreover, confined to the mid-sixties, as the respondents
completed
their primary education in 1965. The variable 'sector of school' is owing to the confidentiality
the relevant data not available for secondary analysis from more recent dataset. So we are, at the
present moment, unable to undertake a longitudinal extension of our research.

The central problem of this article can be stated as follows: the Catholic, Protestant, private
secular and public schools have differential effects on educational achievement allowing
gender, social background, province of residence, and characteristics of a pupil's previous schoO'
career.

2. DATA AND VARIABLES

The dataset we use for our analysis includes information on pupils who left primary schools "J
1965 (cohort 1965). This cohort is part of the so-called 'Van Jaar tot Jaar' (From Year to Yeaf'
research. In 1965, the Netheriands Central Bureau of Statistics sampled 405 schools from th^
population of Dutch primary schools. A stratified sample of 3042 respondents was then taken
from the 11170 sixth-grade pupils within this sample of schools. The Instituut voor Toegepast^
Sociologie (Institute of Applied Sociology) surveyed these respondents in a longitudinal research-
In this article we restrict ourselves to a subsample which consists of 924 boys and 921 gif'®'
According to Collaris and Kropman ( 1978:21 ) this subsample is representative for the
population

-ocr page 89-

School Careers in Primary Schools 85

of sixth-graders as a whole. The distribution of these respondents across sector also corresponds to

^^'^tribution in Dutch primary education as a whole,
j e use eleven variables in our research. A first group of variables contains information on
.'^'dual characteristics and socio-economic background: gender, pupil's religion, province of
sidence, occupational level of father, educational level of both father and mother.^ A second
oup consists of characteristics of a pupil's educational career: non-promotion, achievement
, m sixth grade, teacher's advice on secondary education, and first type of attended secondary
p 00I.3 pQyj. jypgj .(-hools are distinguished for the variable 'sector of school': Catholic,
otestant, private secular and public schools. All variables are considered as interval-variables;
cept for gender, pupil's religion, province of residence and sector of school which are treated as
"ominal variables.

3. METHODS

or statistical analysis we mainly use an analysis of covariance (ANOVA, see Nie et al. 1975, SPSS:
va • ^ This technique enables us to examine the relationship between a quantitative dependent
Pe"^ and quantitative independent variables (called 'covariates') as well as qualitative inde-
variables (called 'factors'). ANOVA provides a significance-test for the contribution by
yj ^^'"dependcnt variable to the explained variance of the dependent variable. Moreover, ANOVA
e ds estimates for the strength and the direction of the relationships. These estimates arc,
Wever, meaningless when there are interactions between covariates and factors. Hence it is
j essary to investigate if interactions like these are present. This has been done by entering
in P'^^'ct'ons as dummy-variables in a regression analysis. Interactions prove to be statistically
^ 'gnificant or very small. Moreover, they add very little to the explained variance of the
Pendent variables. Thus, we think it permits us to use the procedure ANOVA. ANOVA
joduces three estimates of the mean of a dependent variable for each category of a factor. They
3 «calculated by comparing the unadjusted mean of that particular category with:
b th ""«spondents);

c th mean when the other factors arc controlled for;

« adjusted mean when both factors and covariates arc controlled for.

'"thetables

we present only the first and the last estimate. In order to make the results form the
1,1 '"'cance-tests comparable with the estimates, the analysis of covariance is done in a non-
'p "^^rchical manner. The variables 'teacher's advice' and 'first attended secondary school' (or
^^ Pil's first choice of secondary education') are analysed for each category of these variables
(or categories are coded as follows: (0) the specified advice was not given by the teacher

tea h choice was not made by the pupil), or: (100) the specified advice was given by the

fea*! ' ^^ ^coding the categories in this manner, the b-paramcters produced by ANOVA can be
d as 'percentage of effect'.
'" addition

to ANOVA, we also have used T-tests to determine whether deviations between
gory means and grand mean are statistically significant.

4. RESULTS

Not religion and sector of school

pupil's religion and sector of school coincidc to a high degree; there are, however,

go schools are almost exclusively attended by Catholic pupils, and nearly all Catholic pupils
iiayg ^^tholic schools. But for Protestant schools the situation is different. If Protestant schools
'^efo ^ the same proportions of Dutch Reformed
Nederlands Hervormd) and orthodox
''"led children, orthodox Reformed children are more faithful to their sector, whereas only

-ocr page 90-

86 P. van Laarhoven et al.

Table 1. Pupil's religion by sector of school

RELIGION

SECTOR
public

Catholic

Protestant

secular

total

none

68%

3%

10%

56%

21%

Catholic

4%

97%

1%

8%

47%

Dutch Reformed

21%

0%

45%

20%

18%

Orthodox Reformed

0%

0%

39%

0%

11%

others

7%

1%

6%

16%

4%

(100%=)

(443)

(871)

(506)

(25)

(1845)

70% of Dutch Reformed children go to Protestant schools. Catholic and Protestant children
almost never attend each other's schools. On the other hand, public schools are attended bJ
children of whom over thirty per cent possesses a religious, as a rule a Protestant, background'

4.2. Non-promotion

Percentages of pupils who repeat one or more classes differ sharply for boys and girls, and by
sector of school. (We elucidate table 2 in some detail in order to indicate how the tables should b«
read).

a. Thirty per cent of all pupils repeated one or more classes in primary education (grand mean'
30%). The rows labelled with '(1)' show the unadjusted category means.'' Catholic schools haV
35% non-promotion; Protestant schools have a percentage of only 20.

Different percentages of non-promotion for boys and girls are visible for all types of school^
But public schools exhibit the most conspicuous differences: non-promotion of boys

.02++
.01++

Table 2. Non-promotion by sector, and by sex

row 0): percentage of pupils who repeated one or more classes;

(2): same, after controlling for social background and province of residence,
grand mean: 30%.

SEX

SECTOR
public

Catholic

Protestant

secular

total

__^

boys

(1)

42%* ♦

37%»*

23%»»

23%

34%»

(2)

41%"

38%»*

23%»»

29%

34%*

(100% =)

(199)

(439)

(258)

(13)

(909)

girls

(1)

23%*

33%

17%»»

17%

26%»

(2)

24%

32%

16%»»

24%

26%»

(100%=)

(237)

(420)

(239)

(12)

(908j_^

total

(1)

(2)
(100%=)

32%
32%

(436)

35%»»
35%»»

(859)

20%*»
20%*»

(497)

20%
26%

(25)

30%
30%

(181^

= .05, of which by SECTOR
SEX
PROV.

BACKGROUND
bocc. father-1.1 (-.04)

educ. father -2.9* (-.09)
"»educ. mother-1.4(-.03)

♦ : significant at .05-level (T-tcst)

** : significant at .01-level (T-test)

+: significant at .05-levcl (F-test)

++: significant at .01-level (F-test)

.02++

-ocr page 91-

School Careers in Primary Schools 87

^gnificantly greater than the grand mean, whereas girls show a significantly lower percentage. In
holic schools both boys and giris have a percentage of non-promotion above the average; in
^testant schools these percentages are below the average,
rovince of residence has an effect, but only for a few provinces are the deviations from the
° and mean significant. Moreover, province of residence as a whole does not significantly
jj "'fbute to the explained variance of non-promotion.

^ • Kows labelled with '(2)' show the adjusted percentages allowing for father's occupation, level of
arc of both father and mother, and province of residence. The results of these adjustments
small, i.e. the distributions of pupils by sector and by gender are hardly influenced by the
^jstributions of social background and province of residence. Only secular schools differ consider-
c ^^^"se children in these schools have a higher social background than the average pupil.
■ contributions by the independent variables to the explained variance of non-promotion are
j^own at the bottom of table 2. The percentage of explained variance is small: 5% (R^ = .05).
Ig^vertheless, the contribution by sector is as large as the one by social background (2%), and
''Ser than the gender effect (1%). As for the covariates, the effect of father's education is
•j-j|?MParatively large (and according to the F-statistic, the only one significantly larger than zero),
ea h '"dicates that the probability of non-promotion declines - ceteris paribus - by 3% for
higher level of father's education.

Achievement scores

In ^'^'^"'^es in achievement scores, while present, are less prominent than those of non-promotion,
in ff variations among boys have a wider range than those among girls. Both boys and girls
rotestant schools score below the average. If allowance is made for their relatively high
Q ^^'Mtages of non-promotion, boys in public schools, and giris in Catholic schools perform well
he tests. At first sight, pupils in secular schools seem to attain high achievement scores, but this
^^"o longer true when both their advantageous social background and their low percentage of
Of .^"^^"Motion arc taken into account.

exni • factors we examined, the largest contribution comes from province of residence (2%
No variance). A clear pattern, though, cannot be discovered. The achievement scores in the
"" "ern provinces arc below the grand mean and in other parts of the Netheriands, scores are
pr f'")es equal to, sometimes below, the grand mean. Pupils in Catholic schools outside
thp ^'"inantly Catholic provinces (Limburg and Noord-Brabant) also score on par with or above

'eaverage.

ach '"dependent variables taken together, explain, for boys, 24% of the variance of the
,'®vement scores, and for giris 20% of the variance. The contributions by sector of school (2%
Hon " respectively), and by province of residence (1% and 2%) are small as compared with
"■promotion (9% and 11%) and social background (6% and 5%).

/\t ' ^'"■''cr'i advice on secondary education

the 'l^eir sixth grade course, pupils receive an advice (as a rule from the headmaster) on

as suitable type of secondary education. In 1965, teacher's advices were not yet compulsory
re„ became in the late sixties; the advices on which these conclusions are based were specifically
Sell ®sted "Me Netherlands Central Bureau of Statistics. The advices differ very little by sector of
Onlv° • well as gender. This holds whether or not educational achievement is controlled for. The
adv' ^'81'ficant exceptions arc secular schools. In these schools, pupils receive more teachter's
on senior general education
(VHMO) and less advices on junior vocational education
how ''Me means of these forms of education would predict. The differences disappear,

Q. ver, when achievement scores are controlled for.
Cert'j Receive ^ 'eacher's advice on the highest level of secondary education no less than boys do,
at th y when their somewhat lower achievement scores are taken into account. As can be seen
tea , ® ^ottom of table 4, sector of school contributes only to the explained variances of
a^hj advice on senior education and on vocational education. The effect of educational
evement is by far the most important one, and it is more important than the effects of social

-ocr page 92-

p. van Laarhoven et al.

Table 3. Achievement scores, deviations from the grand mean by sector, for boys en girls separately',
row (1): deviations from the grand mean

(2): same, after controlling for social background and province of residence,
grand mean: 5.1 boys
4.9 girls

SEX SECTOR

public

Catholic

Protestant

secular

total

boys (1) -0.1

0.3»*

-0.2

0.2

0.0

(2) 0.1

0.4»*

-0.3»

-0.7

(100%=) (199)

(439)

(258)

(13)

(909)

girls (1) 0.2

0.0

-0.1

1.2*

0.0

(2) 0.1

0.1

-0.2*

-0.1

(100%=) (237)

(420)

(239)

(12)

(908) _

boys

girls

R2 =

.24

.20

of which by

SECTOR:

.02++

.01 +

PROV.:

.01++

.02++

covariates:

.17++

.14++

non-prom.:

-1.05++(-.24)

-1.15++(-.26)

occ. father:

.17++(.15)

.17++(.15)

•> educ. father:

.27++( .19)

.23++( .18)

•> educ. mother:

.15++( .08)

.12++( .07)

• : significant at .05-level (T-test)

♦* : significant at .01-level (T-test)

+ : significant at .05-level (F-test)

++ • significant at .01-level (F-test)

l:see note 3''

background variables. Only the educational level of mother has an independent effect within tw"
of the four forms of secondary education; father's education only within one form. This result is i"
line with earlier findings that social background is essentially mediated through pupil's
achieve'
ment.

4.5. First attended secondary school after primary education.

What form of secondary education is selected by pupils or their parents once they have complete^
primary education varies by sector, but the number of statistically significant deviations is sma"'
In 1965 a small fraction of primary school 'graduates' (3%) did not follow any secondary
education at all.

Boys and girls differ above all in their preferences for junior general education {LJLO)\ girls op'
significantly more often than boys for this form of education. The reverse pattern can be notice^
for senior education: boys more often choose this form of education than girls do.

Both girls and boys in public schools choose junior education somewhat more often than 'h'
average, whereas they select vocational education somewhat less than the average. Pupils i"
Catholic schools show a reverse order or preferences: they opt more often for vocational
education
and less often for junior education. Moreover, boys in Catholic schools display a markedly high^'
percentage of preferences for senior education than girls (22% against 14%). But this discrepancy
becomes less prominent (19% against 16%) when the achievement scores of boys and girls ar^
taken into account.

In Protestant schools, junior general education is a favourite option, girls in particular shoW^
strong predilection for this form of education.

-ocr page 93-

School Careers in Primary Schools 89

4. Teacher's advice by sector, and by gender

column (1): percentages of advices on particular type of school
__
(2): same, after controlling for social background and achievement score.

ADVICE'

Catholic

secular

all

Protestant

(1)

13%

13%»

(2)
17%
30%
27%
25%

(gr. mean)
13%
42%
29%
16%

(2) (1)

12% 13%

«2% 42%

30% 29%

16% 16%

(2)
14%

(I)
12%

29% 30%
18% 43%**

(23)

(846)

(483)

SECTOR
public

(2)
11%
42%

43% 45%
28% 28%
15% 16%

(1775)

SECTOR
public

Catholic

Protestant

secular

all

(I)

(2)

(1)

(2)

(1)

(2)

(I)

(2)

(I)

(2)

15%

14%

13%

15%

14%

13%

9%

n%

14%

14%

42%

41%

43%

47%

43%

40%

18%

32%

43%

43%

31%

31%

28%

26%

28%

30%

27%

26%

28%

28%

13%

14%

16%

13%

14%

17%

45%»*

31%

15%

14%

(190)

(430)

(250)

(11)

(881)

SECTOR
public

Catholic

Protestant

secular

all

(1)

(2)

(I)

(2)

(1)

(2)

(1)

(2)

(1)

(2)

10%

10%

14%

13%

9%

8%

17%

22%

12%

11%

42%

42%

40%

38%

46%

44%

8%*

29%

42%

41%

30%

30%

30%

30%

27%

29%

33%

29%

30%

30%

18%

17%

16%

18%

17%

19%

42%*

21%

17%

18%

(233)

(416)

(233)

(12)

(894)

O00%=)

VHMO

all

VGLO

LBO

ULO

^clJii^hby
pl^TOR^

gender

^ariates
b^^hiev.

father
b'^"«-father
-^ii^jnother

.08

.01 +

.08++
-4.6++ (-.27)
-0.2 (-.01)
-0.7 (-.03)
1.2 ( .04)

.24

.23++
-10.8++(-.43)

- 0.9 (-.03)

- 1.5 (-.05)

- 3.0++(-.07)

.08
.01 +
.08++

6.7^+ ( .29)
0.1 (.00)
-1.5 (-.05)
-0.3 (-.01)

.33

.32++

8.7++ (.47)

0.9 (.05)

3.7++ (.15)

2.2++ (.07)

.48

.47++

.29++

.02+

.07++

.03

(.63)
(.04)
(.11)
(.03)


significant at .05-level (T-tcst)
significant at .01-level (T-test)
significant at .05-lcvcl (F-test)
significant at .01-level (F-test)

jn order to avoid unwieldy names in the tables, we use the regular Dutch acronyms: VGLO = continued
Pf'mary education, LBO = junior vocational education, ULO = junior general education, VHMO =
general education.

+
++

-ocr page 94-

90 P. van Laarhoven et al.

Table 5. First choice, by sector, and by sex

column (1): percentage of options for particular type of school

column (2): same, after controlling for social background and achievement score

CHOICE'

SECTOR

public

Catholic

Protestant

secular

total ___

(1) (2)

(1) (2)

(1) (2)

(1) (2)

(gr. mean)___

none

4% 4%

3% 3%

4% 3%

0% 0%

3%

VGLO

8% 8%

7% 7%

4%» 4%»

32%»» 31%»»

7%

LBO

36% 36%

43% 44%

42% 40%

20%» 36%

41%

ULO

34% 34%

29% 29%

36% 37%»

12%» 12%»

32%

VHMO

17% 18%

18% 17%

14% 16%

36%» 18%

17%

(100%=)

(436)

(855)

(495)

(25)

(1811)

boys

CHOICE

SECTOR

public

Catholic

Protestant

secular

total

(1) (2)

(1) (2)

(1) (2)

(1) (2)

(1) (2)^

none

5% 5%

3% 3%

4% 4%

0% 0%

4% 4%

VGLO

10% 10%

6% 7%

5% 4%

31%»» 30%»»

7% 7%

LBO

36% 34%

42% 46%»

45% 42%

23% 32%

41% 42%

ULO

31% 31%

27%» 25%»»

31% 32%

8% 10%

29% 28%»

VHMO

19% 20%

22%» 19%

15% 18%

38%» 27%

20% 19% ^

(100%=)

(199)

(435)

(257)

(13)

( 904)

girls

__-

CHOICE

SECTOR

public

Catholic

Protestant

secular

total

(1) (2)

(1) (2)

(1) (2)

(1) (2)

(1) (2)_^

none

3% 3%

3% 3%

3% 3%

0% 0%

3% 3%

VGLO

7% 7%

8% 8%

4% 4%

33%»» 33%»»

7% 7%

LBO

37% 37%

43% 42%

39% 37%

17% 41%

40% 39%

ULO

38% 37%

32% 32%

42%»» 42%»»

17% 14%

36% 36%»

VHMO

16% 15%

14% 16%

12% 14%

33% 9%

14% 15%

(100%=)

(237)

(420)

,(238)

(12)

( 907)

VGLO

LBO

ULO

VHMO

all ^

R^ =

.03

.28

.07

.35

.43

of which by

SECTOR:

.02+

.01 +

.01 +

.01 +

_

SEX:

_

.01++

.01++

covariates:

.01++

.27++

.05++

.33++

.42++

•'achiev.:

-1.5++(-.12)

-11.1++(-.45)

5.8++( .25)

8.4^^ ( .44)

.27++(.56)

occ. father:

0.4 (.03)

- 2.4++(-.09)

1.3 (.05)

1.2 ( .06)

.04++ (.08)

•»educ. father:

0.1 (.00)

-2.0+ (-.06)

-2.3+ (-.08)

4.7 + +( .19)

.07++( .11)

•> educ. mother: 0.7 ( .03)

-2.2+ (-.05)

-1.1 (-.03)

3.0++ ( .09)

.05» + ( .0^

* : significant at .05-level (T-test)
** : significant at .Ol-level (T-test)
+ : significant at .05-levcl (F-test)
++: significant at .Ol-level (F-test)
Irsce table4 note I.

-ocr page 95-

School Careers in Primary Schools 91

^ The number of pupils in secular schools is too small to draw clear conclusions. The most
outcome is probably the number of pupils who choose continued primary education
ed education was probably used by those pupils as another year of primary

"cation; it can probably also be seen as a predessor of the so-called 'bridge-class' or 'transition-
^^ < an institution that became compulsory with the extensive reforms of the Dutch educational
'ys^m at the end of 1960s.

j^'ne results concerning the explained variance are fairly similar to those of teacher's advice,
of school in this case contributes to the variance of all types of schools. Gender contributes

to the

variance of choices for junior general and senior general education.

^ • Pupil's first choice compared with teacher's advice.

il in the last two sections, teacher's advice exhibited little diversity by sector and by

nder, whereas the actual choices made by pupils proved to be more diverse. For this reason we
nt to examine in more detail the relationship between teacher's advice and pupil's first choice,
n table 6, we have put together the adjusted results from table 4 and 5. When we investigate
, ys and girls separately, several differences between junior general and senior general education
^^ome more distinct.

'''e 6. First choice compared with teacher's advice

column (%A): percentage of advices of particular type of school (after controlling for social back-
ground achievement score)
(%C): percentage of first choices
(%D): deviations of choices from advices

SCH^

Chatholic

sccular

all

%A %C %D %A %C %D

4% -1-4%

12% 8% -4%

42% 36% -6%

30% 34% -1-4%

16% 18% -1-2%
)(423)

+3%
-7%
+ 1%
+ 1%
+2%

3% +3%

11% 4% -7%

42% 40% -2%

29% 37% +8%

18% 16% —2%
(483)

0% 0%
17% 31% +14%
30% 36% + 6%
27% 12%-15%
25% 18%— 7%
(23)

3% -1-3%
13% 7%-6%
42% 41% -1%
29% 32% +3%
16% 17% +1%
(1771)

' SECTOR
public

Protestant

%D %A %C %D %A %C

3%
14% 7%
43% 44%
28% 29%
15% 17%
(842)

School

SECTOR
public

%C %D %A %C %D %A %C

+5% - 3% +3% - 4% +4% - 0% 0% - 4% +4%

-4% 15% 7% -8% 13% 4% -9% 11% 30% +19% 14% 7%—7%

-7% 47% 46% -1% 40% 42% +2% 32% 32% 0% 43% 42% -1%

0% 26% 25% -1% 30% 32% +2% 26% 10% —16% 28% 28% 0%

+6% 13% 19% +6% 17% 18% +1% 31% 27%-4% 14% 19% +5%

(426) (250) (11) (877)

all

Chatholic

Protestant

sccular

%A %C %D %A %C

- 5%
•4% 10%
41% 34%
31% 31%
14% 20%
)(190)

^CHool

SECTOR
public

%C_

3%
>0% 7%
-»2% 37%
30% 37%

%D

+3%
-3%
-5%
+7%
-2%

'''•®ble4notel.

3% +3% - 3% + 3%

13% 8% -5% 8% 3%-5%

38% 42% +4% 44% 37% - 7%

30% 32% +2% 29% 43% +14%

18% 16% —2% 19% 14% —5%

(416) (233)

Chatholic

Protestant

0% 0% - 3% +3%

22% 33% +11% 11% 7%-4%

29% 41% +12% 41% 39% +2%

29% 14% -15% 30% 36% +6%

21% 9%-12% 18% 15%-3%

(12) (894)

all

secular

%A %C %D %A %C %D %A %C %D %A %C %D


-ocr page 96-

92 P. van Laarhoven et al.

Boys more often choose senior education than they are advised to do, whereas girls more often
the opposite. Since they tend to opt for lower levels of education girls lose their lead over boys wit''
respect to senior education. Many girls who have been rated by their teachers as suited for senio'
education end up in junior education. This happens particularly to girls in Protestant schools: tl"
ratio of teacher's advices on junior and senior education is 3:2 for girls, but the ratio of girls' fif^'
choices is 6:2.

It must be stressed that the distribution of first choices is, of course, not a characteristic o'
primary schools, but expresses the preferences of pupils. For parents do not have to follow ^
particular teacher's advice, except in those instances where there exist conditions for admittance
like the entrance examination for senior education. In order to examine differences due to th'®
parental autonomy by religion, we need more information which can be found in table 7, wher'
data are presented by separate categories of teacher's advice. This time the respondents are no'
divided according to sector, but according to religion. As mentioned in section 4.1., there is^
strong association between these two variables.

The attitude of orthodox Reformed parents towards senior education is the most conspicuous itei"
of table 7. Teacher's advice on this form of education is not followed by 40% of the pupils ( 15 ov'
of 38; 33% of the boys and 45% of the girls). This is in sharp contrast with the behaviour of oth«'
Protestant parents, who are the most faithful of all with respect to teacher's advice.

In general, boys show distinctly more ambition than girls. Catholic boys and girls display '''^
sharpest contrast: only 4 out of 69 boys do not follow their teacher's advice on senior education-
whereas 22 out of 66 girls do the same.

Finally, few parents apparently choose continued primary education for their children: despi'^
te fact that 13% of the pupils received such a teacher's advice, only a quarter of these pupf®
actually comply.

5. DISCUSSION

The problem stated in the introduction was: do Catholic, Protestant, private secular and publ'^
schools have differential effects on key features of pupil's school career. Our conclusion is that o'
the foui; aspects examined, differential effects can be observed for three characteristics: non'
promotion, achievement scores and first attended type of secondary school. The most
substantia'
effect is on non-promotion, although this variable exhibits, as in eariier research, a disappointing'/
low percentage of explained variance. However, the contribution by sector of school is
comparai''
vely high because this variable adds to the explained variance of non-promotion as much as a"
social background variables together.

The achievement scores, particulariy those of bôys, also vary by sector of school. For fif^'
attended secondary school differences are present but small, whereas those for teacher's advice ar^
negligible. The actual choices made by parents, however, result in discrepancies between teacher'®
advice and the first attended form of secondary education. In particular. Catholic and
orthodo"
Reformed parents tend to depart from the received teacher's advice.

The differential effects of sector cannot be entirely attributed to other variables like gender an<J
social background. Although gender and province of residence are connectcd with sector o
school, this latter variable has an independent effect.
In all instances, sector of school contribute®'
as much or more than gender, a variable of which the effect has been investigated time and again'
The differences between boys and girls of cohort 1965 are smaller than might be ex pected fron'
earlier research. But as the analysis in section 4.6. shows, both religious and non-religious paren'®
tend to entertain higher ambitions for their sons than for their daughters with respect to
secondary
education, thus preserving the existing disadvantageous position of women in society.

Individual school careers are, of course, not terminated with the completion of primary
education. How denominational and public secondary schools contribute to the
continuation
further fevelopment of these differences, will be the topic of a sequel to this research; there we W
examine the school careers of cohort 1965 in secondary education (Van Laarhoven et al. 1986)-
Our research still leaves many questions unanswered. To what extent, for instance, can tfi^

-ocr page 97-

School Careers in Primary Schools 93

yr\

VO

00

r4

Tt

00

r-»

(N

t<

in

(S

r-

w

w

w

w

w

^ ^ ^
S

oo

1

w

oo cs

— fS

oo

+

fN

to <N

2 s

^ —

+

+

5

i g

u

o

f

o

s i

i

r-. = 22

^ ^ ^
f: 2 =

OS

X

o

+

•<t —

^ ^ ^
^

vo — —

Q.

a

ill

111
M 5
J= <5

+

a

ll.

w > u

i

O fe u

-c x; f
u M S

C —

O o

•a E

II

6

z
o

o
Zj

w

OS

+

+

00

ro

CM

oo

!2 2 :£

r-

vo — —

u
y

y, >

x> <

ULi

u
>

Q

<

o
s

X
>

.o

(2

o o

3 ^

E

£
u
Oi
j:

c
o
'5b

^ ^ ^ ^

U-1 <N 00 m
« — cn

CN

3

CN

g -
vo —

lO

<N

ro

iO

«n

»n

00

S

^ ge ^
^ 2

o

o S

-J X

D >

s

g


-ocr page 98-

4-

94 P. van Laarhoven et al.

S r^ S

— r<1 (N —

+

2 !Q

S

^ ^ ^ !
G g! ^ '

; ^ ^ îS

) UI Tf lO

•e

o

a

+

CH

g

3

Q

« s Î8

g
VO

Z
O

Ü

J c

si

— 00

^ i

^ ^ ^
2 =

o

J o o

^ s ä

u
u

öb<

o
s

X
>

-ocr page 99-

School Careers in Primary Schools 95

differences we found be attributed to differences in quality of schooling by sector. Coleman et al.
emarlc rather provocatively that in the United States Catholic high schools have preserved a high
evel of quality because they are "not so well connected into the network of professional
ucational fashions and because they lacked the resources and the flexibility to search for
reliance" (1985:97, note 15).

We need more up-to-date information to investigate whether both religious and non-religious
Parents are currently using school sector as a 'screening device' for the quality of schools. If they do
this would at least partly explain the persistance of a 'pillarized' educational system in the
■Netherlands.

NOTES

This research has been made possible by a grant from the Dutch Department of Education and Sciences
through the Dutch Foundation of Educational Research (SVO) and the Foundation of Educational
Research of the University of Amsterdam (SCO). The data collected by the Instituut voor Toegepaste
^ociologie have been made available through the Steinmetz Archief. The first author and last author are at
the Sociologische Instituut of the University of Amsterdam, the second and third arc at the Netherlands
Universities' Joint Social Research Centre (SISWO).

"6 thank J. Faasse for his helpful comments and C. Disco for his corrections of our English.

^On '^°rrespondance to H. Schijf, Sociologisch Instituut, University of Amsterdam, Oude Hoogstraat 24,
'2CE Amsterdam, the Netherlands.

The following table gives some information about the stability of pupil's participation in public and
non-public primary education. According to Knippenberg en Van der Wüsten (1984) the share of
denominational schools in primary education reached its highest level at the end of 1930s, thereafter
it was stable till about 1965.

-ocr page 100-

96 P. van Laarhoven et al.

REFERENCES

Bouhuijs, S.J. and S. Boef-van der Meulen, Vrijheid van onderwijs en bevoegd gezag, in: L. Box et al., Vrijheii
van onderwijs,
Nijmegen 1978.

Coleman, J.S., Th. Hoffer and S. Kilgore, High School Achievement. Public, Catholic, and Private Schools
Compared, New York 1982.

Collaris, J.W.M. and J.A. Kropman, Van Jaar tot Jaar. Tweede fase, Nijmegen 1978.

De Jonge, J. De motivatie voor protestants-christelijk onderwijs, in: L. Box et al.. Vrijheid van onderwijSi
Nijmegen 1978.

De Leeuw, J. and L Stoop, Secundaire analyse van Jaar tot Jaar met behulp van niet-lineaire multivariate
technieken, in: J.L. Peschar (red).
Van achteren naar voren. Den Haag 1979.

Flaman, D.J., J. de Jonge and T. Westra, Waarom naar de christelijke school?, Amsterdam 1974.

Hoffer, Th., A.M. Greeley, J.S. Coleman, Achievement Growth in Public and Catholic Schools, in: Sociology
of Education,
58 (1985), 74-97.

Knippenberg, H. and H. van der Wusten, The Primary School System in the Netherlands 1900-1980, in:
Tijdschrift voor Economische en Sociale Geografie, 75 (1984>-3,177-185.

Kropman, J.A. and J.W.M. Collaris, Van Jaar tot Jaar. Eerste fase, Nijmegen 1974.

Randsdorp, L. and J. Dronkers, Verzuiling in het onderwijs en het beleid van een bijzonder schoolbestuur,
Amsterdam (SISWO) 1982.

Sociaal en Cultureel Planbureau, Sociaal en cultureel rapport 1980, 's-Gravenhage 1980. ^

Thurlings, J.M.G. De wankele zuil. Nederlandse katholieken tussen assimilatie en pluralisme, Deventer 1978
(1971).

Van Kemenade, J.A. De katholieken en hun onderwijs, Meppel 1968.

Van Kemenade, J.A. (red). Onderwijs: Bestel en beleid, Groningen 1981.

Van Laarhoven, P., B. Bakker, J. Dronkers, and H. Schijf, Richting van de schooi en schoolloopbanen in hel
voortgezet onderwijs,
paper presented at the Sociologcndagcn 1986, Amsterdam, April 1986.

Yogev, A. and M. Chen, Sponsorship as school charter: educational mobility in religious versus secular schools
in Israel, in:
International Review of Modern Sociology, 12 (dec. 1985).

Manuscript ontvangen 30-7-1985

Definitieve versie ontvangen 16-1-1986

-ocr page 101-

Tijdschrift voor Onderwijsresearch, 11 (1986), nr 2, pp. 97-113.

I^eco(iing Skills, Reading Comprehension and Spelling;
^ Longitudinal Investigation (*)

^^rtin J.C. Mommers, Jan F.J. van Leeuwe, Johan H.L. Oud and
^an M.A.M. Janssens
apartment of Educational Sciences. University of Nijmegen

abstract

In the first three grades of primary school reading and spelling skills develop relatively fast. Although
cross-sectional research may contribute to clarifying the relation between reading and spelling skills,
longitudinal research is necessary to discover causal relations and possible changes occurring within a
given period of time. This article deals with the results of such a longitudinal study. We conclude that
(a) it is necessary to discriminate between specific and general prerequisites when predicting the
achievements in reading and spelling, (b) decoding speed, reading comprehension and spelling are
distinguishable skills after an 8-month period of reading instruction, and (c) that, decoding speed,
reading comprehension and spelling achievements are predicted best by the same achievements at an
earlier stage.

1. INTRODUCTION

desirability of longitudinal research.

the past, the interrelations between decoding skills, reading comprehension and spelling have
een extensively studied. Generally, this research has been of a cross-sectional nature (Gibson &
evin, 1975; Resnick & Weaver, 1977; Waller&McKinnon, 1979). The relations are often causally
an P'i^'ed. Possibly here also, it holds true that 'causal effects' found in cross-sectional regression
to h are often being explained away when in longitudinal research, data are collected relating
the lagged dependent variable and this is included as an additional regressor in the equation
taw"^' "Mis article, dealing with the results of a longitudinal investigation, this has been

hert account. The data are derived from the research project 'Preventie van Leesmoeilijk-
den" ('The prevention of reading difficulties') carried out at the Department of Educational
'eiices of the University of Nijmegen. As part of this project, a longitudinal investigation into the
velopment of reading comprehension and spelling skills in the first three grades of primary school
started (see Van Dongen, 1984.)

Iif stages In the development of learning to read and spell.

J. .ji^^ding a distinction is made between decoding skills and reading comprehension. Decoding
fç . M^efer to the ability to sound out written words and sentences. Reading comprehension
a more thorough assimilation of the text on both the syntactic and the semantic level. A
's said to be understood when the author's message is comprehended. In spelling spoken

' ^ detailed description of this investigation can be found in a Research Paper of the Research Technical
Service, Department of Educational Sciences, University of Nijmegen, The Netherlands. M.J.C. Mom-
"'«'"s, J.F.J. van Lecuwe, J.H.L. Oud, J.M.A.M.Janssens, 'Een Longitudinaal Onderzoek naar de Samen-
tussen Technisch Lezen, Begrijpend Lezen en Spelling in de Eerste Drie Leerjaren van de Ugere
^ehool', ('A longitudinal investigation into the relation between decoding skills, reading comprehension
spelling in the first three grades of primary School.') Nijmegen, 1985.

-ocr page 102-

98 Longitudinal research on decoding, reading and spelling

language is decoded into graphic symbols according to a number of orthographic rules.

In the first grade, formal reading and spelling instruction is usually taught on the basis of a
course or program. The technical aspects are heavily emphasized. There is hardly any distinction
as yet between decoding skills and reading comprehension. A distinction is made,
however,
between prereading and beginning reading skills. Pre-reading activities are designed in order to
develop the attitudes and skills needed (reading prerequisites) before formal reading
instruction
starts. The aim of beginning reading is to train children in word-attack skills. (LaBerge & Samuels,
1974).

If decoding skills are concerned with the decoding of graphemes, spelling is concerned with the
encoding of sounds (phonemes) that are distinguished in spoken words.

In the first grade far less attention is paid to reading comprehension than to decoding skills. This
is self-evident since certain technical skills are a prerequisite to being able to comprehend a tex'
quickly.

In the second and third grades reading and spelling skills are, as a rule, taught on te basis of
separate courses. The distinction between decoding skills and reading comprehension is less
clear-cut, although this distinction is made, as is apparent from the tests that have been develope''
specially for reading comprehension in these grades (CITO, 1979).

2. THE RESEARCH QUESTIONS

The aim of the investigation is to reach a better understanding of the interrelations between the
three above mentioned skills in the first three grades of primary school.

2.1. The starting point of formal reading instruction.

The first research question concerns the reading prerequisites. Learning to read does not begin
with associating written words with spoken ones. A number of skills must to some extent have
been developed if the process of learning to read is to run smoothly.

A first variable found to be of significance is phonemic awareness. The child must realise tha'
spoken words do not constitute indivisible units, but that they may be analysed into phonèmes-
T^e child must be able to segment spoken words in a relatively small number of components: the
speech-sounds or phonemes. The segmentation or analysis of spoken words into
phonemes
(phonemic analysis) on the one hand, and the ability to blend separate phonemes into a word
(blending) on the other, are skills that are indispensable in learning to read and spell.
Phonemic
analysis and blending are two aspects of phonemic awareness.

A second variable concerns the graphic aspect. Research has shown that the confusion of
separate letters is hardly ever an important cause of difficulties in learning to read. However, the
ability to distinguish and identify strings of letters or letterclusters does appear to be a cause of
difficulties.

Apart from the specific prerequisites mentioned, there is the general factor of intelligence tha'
does not only play an important part in learning to read and spell but^also in learning processes
with respect to other subjects.

The first research question may be subdivided into two separate questions: (a) Is the distinction
between general and specific reading prerequisites relevant to the prediction of reading an''
spelling achievements? (b) To what extent does the distinction between phonemic and graphic
aspects contribute to the prediction of the expected development of reading skills?

2.2. Skills distinguishable after 3 to 4 months of formal reading instruction.

After 3 to 4 months of formal reading instruction a number of pupils already commands the
elementary reading and spelling skills (word-attack and word encoding skills) with respect to
the phonemically regular, one syllable words of the consonant-vowel-consonant type. The
second
research question concerns the extent to which empirically distinguishable aspects are to be found
in the development of reading and spelling skills after 3-4 months of formal reading instruction-

-ocr page 103-

M.J.C. Mommers et al. 99

question is, in particular, whether h is possible to make a distinction between the ability to
Und out words (power aspect) and the speed with which this process of decoding takes place
peed aspect), the power aspect being considered a precondition of the speed aspect.

The relations between decoding skills, reading comprehension and spelling after 8 and after 12
.j^nths of formal reading instruction.

in f research question concerns the point of time after some eight months of reading
s ruction (the third point of measurement). At that point almost all pupils have made as much
Ogress as to have a good command of initial reading (blending) and spelling skills. Part of the
re ahead and they read a large number of words without sounding them out first. In

words they, to a considerable extent, make use of larger units (spelling patterns or
""nks') and/or word specific knowledge (Reitsma, 1983).

'^t the start of the second grade, that is, after some 12 months of formal reading instruction, the
''e frequent words are no longer read by sounding them out. The stage of beginning reading has
''een left behind. On the basis of an examination of the relevant literature, Seegers (1983)
eluded that the automatic recognition of words is a process already found in children with no
^l^^re than a few months of formal reading instruction but one developing only fully later on (in
^ the fourth grade). For beginning readers, a slow and attention-demanding decoding process
foll^ ^ serious impediment to reading comprehension. Perfetti and Lesgold (1979) explain this as
reading act consists of a series of processes. During a reading activity various subskills
^ competing for the limited capacity of working memory. For experienced readers the subpro-
tax^^ at the level of word-recognition largely operate in the automatic mode, and they no longer
full ''""'ted processing-capacity. For younger readers the automacity of recognition has not yet
Co ^ .developed. The extent to which these subprocesses tax the working-memory capacity
If an important source of individual differences between good and poor comprehenders.

diff ^^'s correct the disparities in reading comprehension can largely be explained by the
hv ^'^^"ees in speed in word recognition (decoding skills). The point seems to be whether this

Pothetical connection is found both after 8 months and after 12 months,
res relation between decoding skills and spelling no clear theoretical explanations with

skin ' causal order have been found in the literature. It is assumed though that decoding
Patt^ recognition) and spelling are distinguishable, since in reading the development of
ern recognition mechanisms as to visual features of words and spelling patterns is crucial
Içjj^'^eas spelling depends on the permanent storage of information regarding the component
feaH^^ and their sequence (Seymour & Porpodas, 1980). The fact that spelling skills lag behind
that ® ability means that pattern recognition of words or parts of words docs not imply
Con spelling structure of those words has been stored in the long term memory. It is
gj^ ceivable that decoding and spelling skills exert a mutual infiuence on each other. In view of the
"mentioned argument, however, we surmise that the influence of decoding skills on spelling
^ stronger than vice versa,
ti . e relation between spelling and reading comprehension is even more obscure. In the theore-
oth '^ature no clear arguments were found for a direct influence of the one variable on the
incP*^" ^'^^"'d. by way of a hypothesis, an infiuence be postulated, then we would rather be
r '"ed to assume an influence of reading comprehension on spelling than vicc versa, since
fo comprehension more generally calls upon the ability to discern connections and various
I pf reasoning, whereas the cognitive processes in spelling, such as discerning and using
°8'es and applying orthographic rules, are much more specific.

The relations between decoding skills, reading comprehension and spelling in the first three
Thef®''^-

" Wv research question concerns the longitudinal interrelations:

nich are the direct and indirect relations between the distinguished aspects of school readiness
|8eneral and specific reading prerequisites) at the outset of formal reading instruction on the one
^"d, and the subsequent development of reading and spelling skills on the other hand?

-ocr page 104-

100 Longitudinal research on decoding, reading and spelling

- To what extent can decoding skills, reading comprehension and spelling be distinguished
empirically as separate factors at the various points of measurement, and, especially, how strong
is the influence of each one of them on itself in the course of time?

- Are there influences of factors at one point of measurement on factors of a different kind at 3
later point of measurement?

3. THE SAMPLE

The group to be investigated consisted of two samples, each consisting of pupils from the firs'
grade of 12 randomly selected schools from an area within a 70 km radius from Nijmegen. The firs'
group used the basal reading program 'Veilig Leren Lezen' ('Learning to read safely'; hencefortl'
VLL) (Caesar, 1980), the second group used the program 'Letterstad' 'Lettertown'; henceforth LS)
(Kooreman, 1976). At the start of the first grade (1979) the total number of pupils was 640. At th«
beginning of the fourth grade 480 pupils were left from this group. The largest number of drop outs
were due to removals, but pupils also had to repeat a class or were consigned to special
schools-
Among the remainder of 480 pupils there were a number of whom at particular points o"
measurement one or more scores were found lacking. For each point of measurement, missinS
scores of testees have been replaced by estimated scores. The estimated scores were calculated o"
the basis of regression-equations in which the remaining reading and spelling variables of th®
relevant point of measurement have been included as independent variables and the missing
variable(s) as dependent ones. The regression weights have been calculated separately on the bas'S
of the data of each of the two samples. The real test score of at least one reading or spelling test a'
the particular point of measurement had to be known for a testee in order to be considered for th'S
procedure. In the case of 19 pupils this criterion was not met. The total number of pupils for eacli
variable for whom an estimate was calculated varied between 0 and 16, with a median value of ^
As a result of this a sample of 461 pupils remained, of whom 225 belonged to the VLL-group and
236 to the LS-group. It will be obvious that these groups consisted exclusively of pupils no'
repeating a class. The conclusions, therefore, only hold good for these groups of pupils.

4. THE MEASURING INSTRUMENTS

As far as possible it was attempted to use the same measuring instruments for both groups. For th«
first grade this was only partially successful on account of the different set-up of the two
programs
in question. In Table 1 a summary is presented oJ the measuring instruments used from th«
beginning of the first grade up to and including the start of the second grade.

In Table 2 a summary is presented of the measuring instruments used from the middle of th^
second grade up to and including the third grade. These were identical for both groups of pupi'S'

5. THE PLAN OF THE ANALYSES

«

5.1. The Lisrel approach.

All the analyses in this study were executed means of the Lisrel program, version VI (Jöresko?
and Sörbom, 1981 ). The reason for the choice of the Lisrel method is the opportunity this approach
offers (a) to evaluate by means of the maximum likelihood method both the global as well as the
local fit of models in which (b) both cross-sectional and longitudinal effects may be included, and
(c) the possibility to employ observed as well as latent variables (Jöreskog and Sörbom, 1981 ; Sar'^
and Stronkhorst, 1984; van Leeuwe, 1984). The correlation-matrices of the measured
variables
were taken as input to run the program on.

-ocr page 105-

M.J.C. Mommers et al. 101

"^ablel. List of measuring instruments taken in the first grade and at the beginning of the
second, for each of both groups. The letters between brackets refer to factors on which
the variables in model 0 load.

measuring instruments
VEILIG LEREN LEZEN

measuring instruments
LETTERSTAD

(FACTOR)

Pointofume lA

Before the onset of formal reading instruction.

1- Eli, subtest matrices
2. Eh, subtest copying forms
3- Rating school readiness kinder-
garten teacher

4. Lettercluster identification test

5. Blending test

6. Phonemic segmentation test

1. Eli, subtest matrices

2. Eli, subtest copying forms

3. Rating school readness kinder-
garten teacher

4. Lettercluster identification test

5. Blending test

6. Phonemic segmentation test

(P)
(P)
(P)

(P)
(P)
(P)


Point of time IB

'^fter 4 months of formal reading instruction.

(DSO)
(PO)
(PO)
(PO)

7. 4x3/4-test

Caesar One Minute Test

8. Reading comprehension test

9. Beginning reading test

10. Spelling, -words VLL 1

10. Spehing,-words LS 1
Point of time IC

After 8 months of formal reading instruction

Caesar One Minute Test
AVI reading speed (text)
Reading comprehension lA

CITO

Spelling, -words 2 CITO

11.
12.

13.

14.

16. Spelling,-sentences B1

11. 3x3/4-test

12. AVI reading speed (text)

13. Reading comprehension 1A
CITO

14. Spelling, -words CITO

15. Spelling,-sentences A

16. Spelling, -sentences B1

(DSl)
(DSl)
(RCl)

(SPl)
(SPl)
(SPl)


Point of time 2A

After 13 months of formal reading instruction (second grade)

17. One Minute Test A

Brus, Voeten
'8. A
VI reading speed (text)

19. Reading comprehension IB

CITO

20. Spelling, -words OBCE 1

21. Spelhng,-sentences B2

22. Spelling,-sentences CI

17. One Minute Test A
Brus, Voeten

18. AVI reading speed (text)

19. Reading comprehension IB
CITO

20. Spelling,-words OBCE 1

21. Spelling,-sentences B2

22. Spelling,-sentences CI

(DS2)

(DS2)
(RC2)

(SP2)
(SP2)
(SP2)


-ocr page 106-

102 Longitudinal research on decoding, reading and spelling

Table 2. List of measuring instruments taken from the middle of the second grade up to the end
of the third grade, both for the VLL-group and the LS-group. The letters
between
brackets refer to the factors on which the variables in model 0 load.

E. Point of time 2 B

After some one and a half years of formal reading instruction

23. One Minute Test A; Brus, Voeten

(DS3)

24. AVI reading speed (text)

(DS3)

25. Reading comprehension 2 CITO

(RC3)

26. Written assignments 2

(RC3)

27. Spelling, -words OBCE 2

(SP3)

28. Spelling, -sentences C2

(SP3)

29. Spelling,-sentences D1

(SP3)

F. Point of time 3A

After some two years of formal reading instruction (beginning of the third grade)

30. One Minute Test A; Brus, Voeten (DS4)

31. AVI reading speed (text) (DS4)

32. Written assignments 3 (RC4)

33. Spelling, -words OBCE 2 (SP4)

34. Spelling,-sentences D2 (SP4)

35. Spelling,-sentences El (SP4)

G. Point of time 3B

After some two and a half years of formal reading instruction

36. One Minute Test A; Brus, Voeten (DS5)

37. AVI reading speed (text) (DS5)

38. Written assignments 4 (RC5)

39. Reading comprehension M3 CITO (RC5)

40. Spelling,-words OBCE 3 (SP5)

41. Spfelling,-sentences E2 (SP5)

42. Spelling,-sentences Fl

5.2. The distinction between the LS-group and the VLL-group.

In our research plan the LS-group and the VLL-group have been analysed separately. The reason
for this division is twofold. In the first place, as has" been noted in section 4, the measuring
instruments used are not completely identical for both groups. A second reason is that
separate
analyses to some extent admit cross validation. The nature, direction and extent of the relations
between the latent variables should not, according to the supposition expressed in section 2.
diverge too widely. The research plan chosen allows for differences or correspondences between
both groups.

5.3. The distinction between beginning reading and developmental reading'

As has been explained in section 1 a distinction should be made between the period of beginning
reading (up to the start of the second grade) and the period of transition from beginning reading t"
developmental reading (up to and including the third grade). The research questions in 2.1 up t"
and including 2.3 refer to the first period, those in 2.4 to the second period. This distinction was the

measuring instrument (FACTOR)

-ocr page 107-

M.J.C. Mommers et al. 103

Jpason to analyse the data in two stages. As a first step those models were analysed that relate to the
'"■st period only. At a later stage, the data up to and including the third grade were added.

The postulated starting model.

^nen designing a model for longitudinal data, the time factor is obviously of great importance.
Especially, it is quite impossible to presume influences of variables later in time on those earlier in
'.He. Apart from that, the following theoretical considerations, which constitute a further elabora-
'on of the ideas menti<»ned in section 2, have led to the design of the starting model (Model 0)
represented in figure: 1:

The reading prerequisites measured at the start of the first grade (point of time 1 A) either directly
indirectly influence all variables later in time.
■ After three to four months of formal instruction (point of time IB) the reading tests are
^i^bdivided into speed and power tests. Since at this stage the reading speed depends on the
precision with which words are sounded out, an influence of the power aspect (PO) on the speed
^Pect (DSO) is postulated.

The speed aspect continues in Decoding Skills (DS), the power aspect is broken up into Spelling
^^P) and Reading Comprehension (RC). In the course of the first grade the process as described
^der b. is actually reversed: Reading Comprehension and Spelling are considered to be deter-
•"'ned by the decoding speed, as measured in Decoding Skills. This is seen in relation to the limited
"Capacity of the working memory, when coding and decoding processes proceed more or less
Automatically on account of which more attention may be paid to other processes. It also seems
P'ausible to assume that at such an early stage the comprehension of words and word-structures

has

a positive effect on spelling achievements.

Apart from the cross-sectional effects the longitudinal influences concerning the three separate
fetors of Decoding Skills, Reading Comprehension and Spelling play a prominent part in the
"lodel.

'n figure 1 both the measured variables (squares) and the latent variables (circles) have been
"larked. In this figure we have drawn upon the LS-data. The numbers refer to tables 1 and 2. The
"'fference with the model for the VLL-data is slight. For the latent variables indicated by DSO,

-ocr page 108-

104 Longitudinal research on decoding, reading and spelling

PO, DSl and SPl, some discrepancies for the VLL-data with respect to the observed variables of
the LS-group. These discrepancies are indicated in tabel 1.

For the sake of clarity the measured variables in the following figures have been deleted, and
only the standardised path coefficients belonging to the structural equations have been
indicated-

6. THE RESULTS

6.1. The analysis up to the start of the sccond grade (points of time lA, IB, IC and2A).

In discussing the results we have drawn upon the LS-data. The data of the VLL-group are analysed
along the lines found for the LS-group as much as possible in order to facilitate the comparison
between both groups.

6.1.1. The LS-group

The starting point for the successive stages of analysis was the model in figure 1, restricted for the
analyses in this section to the points of time 1 A, IB, IC and 2A. Six Lisrel models were
analysed

Table 3. Results of the analyses up to the beginning of the second grade "Letterstad" group-

Concise model description

Chi-

df

P

GFI

AGFI

(see also figures 1 and 2)

square

(goodness of

(adjusted

fit index)

goodnees of

fit index)

1. Model restricted to the first 4

342.68

159

0.000

0.883

0.846

points of time.

2. Introduction factors EL and AU.

305.66

157

0.000

0.895

0.859

3. Introduction effects of AU on DSO

227.47

152

0.000

0.916

0.884

and DSl, P on RCl, RC2and DSl,

DSO on RC2.

- Elimination effect of RC2 on SP2.

4. EliminationeffectPOonRCl.

207.56

149

0.001

0.923

0.891

- Introduction errors of measurement

correlations between AVI(IC) and

AVI(2A), 4x3/4(lB) and 3x3/4(lC),

Spelling, -sentences A(IC) and

Spelling,-sentences Bl(lC), Spel-

ling, -sentences B2(2A) and Spelling,

-sentences C1(2A).

5. Introduction loading from AVI (2A)

197.72

147

0.003

0.927

0.896

nn Rr9

6. Elimination of variable:'Rating

167.12

129

0.013

0.934

0.903

kindergarten teacher'.

-ocr page 109-

M.J.C. Mommers et al. 105

consecutively. The results of these analyses as to the global fit of the models have been summarized
'"Tables.

Model 1 is model 0 (see Figure 1) restricted to the first four points of time. The ML (maximum
"Kelihood) solution for this model did not show a very acceptable fit (see the global measurements
of
fit GFI and AGFI in table 3). In order to improve this, we concentrated in the first instance on
'"e variables loading on the General Reading Prerequisites factor (P). The modification-indices of
'he covariances between the errors of measurement that remain after the General Reading
Prerequisites factor has been introduced indicate that the poor fit might be due to the conceptual-
J^tion of the reading prerequisites. High modification-indices occurred with the covariances
oetween the errors of measurement of the subtests of the ELI and between those of the Blending
'est and the Phonemic Analysis test. The modification-indices of the path coefficients involving the
ycneral Reading Prerequisites factor also turned out to be very high. As an hypothesis, it was
"iferred from this that, apart from the General Reading Prerequisites factor another two specific
reading prerequisites factors are to be distinguished, one relating to ELI (EL), measuring the
reasoning ability, and one (AU), measuring the auditory aspects. Since it was not clear in advance
"ow these specific reading prerequisites factors could possibly affect the speed factor and the
Power factor at the following point of time IB, and by way of these the factors at the subsequent
Points of time, it was decided to exercise caution. In the first instance, the factors EL and AU were
"Produced without influences to the next point of measurement.

Model 2 shows a clear improvement with respect to model 1. Not only does the global fit go up
Out, in addition, the path coefficients from P to DSO and PC went up. A closer examination of the
j^esults in the light of the modification-indices showed that the Auditory Reading Prerequisites
'actor may exert an influence on the Speed factor of point of time IB and on the Decoding Skill
'actor of point of time IC. Moreover, we noted that the General Reading Prerequisites factor
Possibly continues to exert an influence on the Reading Comprehension factor both at point of
j,"ne 1C and at point of time 2 A and also on the Decoding Skills factor at point of time 1C. Apart
rom that, the modification index caused us to add an effect of Speed on Reading Comprehension
Point of time 2A. Due to the low coefficient in model 2 it was decided to omit the effect for the
Point of time 2 A of Reading Comprehension on Spelling. Thus model 3 was developed.

Again the fit improved not inconsiderably (see table 3). The modification-indices, however,
showed that the global fit could still be improved by taking into account the correlated errors of
'Measurement for the four pairs of variables that have been marked in table 3 under 4. These errors
measurement correlations are most likely related to the way the test pair is taken which is always
"^entical. In a following analysis the covariances between the mentioned pairs of errors of
'I'easurement were left free. Likewise, the non-significant influence of the Power factor (point of
'"ne IB) on Reading Comprehension (point of time IC) was omitted.

The improvement with respect to model 3 is not very great. From the modification-indices it
Appears that further improvement is feasible by having the AVI reading speed tests loaded at the
Point of time 2A on the Reading Comprehension factor. Apparently, apart from the relation
oetween the AVI reading speed tests at the point of time 2A and the AVI reading speed tests at the
Point of time 1C, the relation with the 'Lees en begrijp' ('Read and comprehend') test 1B also plays
® Prominent part. In model 5 the AVI reading speed tests also received a loading on the RC factor
the point of time 2A.

In reviewing the results of model 5 we observed that many relatively high modification-indices
^cre related to the variable 'Rating of the kindergarten teacher'. This variable is a five point scale
^•'h a very skew distribution. The modification-indices found indicate that the skew distribution
Possibly results in a substantial reduction of the global fit. For this reason this variable was omitted
rom the analysis in model 6.

Model 6 is shown in figure 2. As is apparent from table 3 the fit of this model is satisfactory. In
IJc modification-indices no indications could be discovered to change the model in such a way that
n« fit would be better and theoretically acceptable at the same time.

-ocr page 110-

106 Longitudinal research on decoding, reading and spelling

Figure 2: Model 6 LS-group.

6.1.2 The VLL-group.

In order to facilitate the comparison of the results with the two groups, the same model was take"
as a starting point for the VLL-group as for the LS-group (see figure 1). The results of the variou®
analyses are, as far as the global fit is concerned, summarized in table 4.

The results of the first analysis have been reproduced under model 7 in table 4. As with th®
LS-group the fit is not entirely satisfactory. Here too, high modification-indices occurred with
respect to the covariances of the errors of measurement between the subtests ELI matrices and EL'
copying forms, and between the Blending test and the Phonemic Analysis test. This
strengthened
the suspicion that apart from the General Reading Prerequisites factor two other factors need to ^
distinguished: (a) one relating to the ELI subtests Matrices and Copying forms, and (b) on^
relating to Blending and Phonemic Analysis.

But clear differences between the results were also found. In model 7 the slightly negative path
coefficient from the General Reading Prerequisites factor (P) to the Speed factor (DSO)
conspicuous, whereas the coefficients in which the Power factor (PO) is involved are clearly highef
than in model 1. A plausible explanation is that for the LS-group only a spelling test is loading on
the Power factor, whereas with the VLL-group, in addition to the spelling test, two reading
comprehension tests were loading on the Power factor. The Power factor for the VLL-group does
not only apply to the elementary spelling act (word-encoding skills), but also to the elementary
reading act (word-attack skills).

As with the LS-group, the two additionally formulated prerequisites factors (EL and AU) were
included in the next analysis, but were not yet linked by means of arrows with the remaining
factors
(model 8). Thereupon the same arrows were added as in model 3 to allow for an improved fit
(model
9). Although the fit of model 9 is a little better than that of model 8, the improvement is
clearly less than with the LS-group. This becomes understandable if one realizes that on the basis
of the modification-indices certain arrows would not have been drawn for the VLL-group-
Moreover, a number of arrows in model
9 turned out to yield negative or non-significant
coefficients. Thus, the differences with model 3 can also partly be explained by the above
mentioned differences in the composition of the PO-factor.

In the following analyses (models 10-12) the LS-model was modified for the VLL-group data-
Comparison of the VLL-model 11 in Figure 3 with the LS-model 6 in Figure 2 shows that the mos'
important discrepancies which have, for the greater part, already been incorporated in model lO-

-ocr page 111-

M.J.C. Mommers et al. 107

Table 4. Results of the analyses up to and including the second grade, 'Veilig Leren Lezen'
group.

poncise model description
(see also Figure 1 and 3)

Chi-
square

df

P

GFI
(goodness of
fit index

AFGI
(adjusted
goodness of
fit index)

^__

See model 1

382.53

176

0.000

0.860

0.816

See model 2

310.39

174

0.000

0.885

0.847

See model 3

280.22

167

0.000

0.897

0.858

'0- Elimination effects of Pon DSI

255.78

169

0.000

0.903

0.868

and DSO, DSO on RC2, AU on
DSL

- Introduction (on basis of
modification indices) effects of
AU
on PO and of RC2 on SP2.

- Introduction errors of measurement
correlations between AVI(IC) and
AVI(2A), Caesar EMT(1B) and
Caesar EMT(1C), Spelling,
-sentences B2(2A) and Spelling,
-sentences C2(2A)

■ Introduction loading from AVI(2A)
on RC2.

Elimination Test Beginning Reading 180.57 133 0.004
and Reading Comprehension Test.

0.923

0.889

'2. Model 10 with arrows between 267.98 169 0.000
factors RC and SP reversed.

0.899

0.862

'n model 11 the quesdon is asked whether the still fairly unsatisfactory solution of model 10
^ould be improved by eliminadng from the PO factor both reading comprehension tests. This, in
.^ct, turned out to be the case (see model 11). More or less surprisingly the global fit of the model
^proved eventhough all coefficients in which the PO factor was involved became clearly lower,
p the other hand, the coefficients of the arrows from P to RC 1, from RC 1 to SPl, and from RC 1

0 RC2 showed a substantial increase.

Since a better fit was found for the LS-group by leaving the ratings of the kindergarten teachers

1 the school readiness of the pupils out of consideration, model 11 was also analysed without this
triable. Instead of an improvement this resulted in a decrease of the GFI from .923 to .908.

Since the reladon between reading comprehension and spelling is not quite evident from a
eoretical point of view, we finally report the results of an analysis in which the direction of the
■"rows between the Reading Comprehension factor and Spelling factor in model 10 were reversed
^"lodel 12). The chi-square value increased from 255.78 to 267.98.

-ocr page 112-

108 Longitudinal research on decoding, reading and spelling

Figure 3: Model 11 VLL-group.

6.2. The analysis up to the end of the third grade.

In order to answer the fourth research question those variables recorded at the end of the second
grade (point of time 2B) and in the third grade (points of time 3A and 3B) were included.
summary of the variables involved, which are identical for both groups, will be found in Table 2-
As with the points of time IC and 2A, the measuring instruments were linked with one of the
following three factors: Decoding Skills (DS), Reading Comprehension (RC) and Spelling (SP)-
On the basis of the content of the tests and the correlations found, a strong longitudinal effect wa®
surmised for each factor. This applies both to the LS-group and to the VLL-group. Therefore, in
the first instance, a model was postulated in which for the points of time 2B, 3A and 3B only these
longitudinal effects for each factor are included.

Thereupon, for each point of time, the influences from Decoding Skills to both Reading
Comprehension and Spelling were included as well from Reading Comprehension to Spelling-
These influences are postulated in accordance with the results of previous analyses and theoretical
points of view.

In sectfon 6.2.1 the results of the LS-group will be described, in section 6.2.2. the results of the
VLL-group will be discussed.

6.2.1. The LS-group.

Starting from model 6 (see figure 2) the extended model 13 has been designed. For the newly
introduced points of time, in addition to the influence of each of the three factors on itself on the
subsequent point of time, analogous to model 6 the influence of the General Reading
Prerequisites
factor on each of the successive Reading Comprehension factors has been included. The results
concerning the global fit of this model have been indicated in table 5.

Model 14 (see figure 4) derives from model 13 by inserting for each added point of time the
relations between Decoding Skill, Reading Comprehension and Spelling in the way described.

As to the p-values, the results of both models are not entirely satisfactory. Although model
shows a somewhat better fit than model 13, model 14 does contain a number of coefficients that do
not deviate significantly from zero. No systematic pattern, however, may be discerned. It is very
striking in both models to see the path coefficients for the connections between the same factors at
successive points of time to be very high. (In some cases they even somewhat exceed the value 1-
This phenomenon, which in some instances is accompanied by negative values in other coef'
ficients, is most likely to be attributed to random fluctuations.) As compared with this, the feW
consistent cross-connections between the factors are of little importance.

-ocr page 113-

M.J.C. Mommers et al. 109

Table 5. Results of the analyses up to the end of the third grade, 'Letterstad' group.

Concise model description
(see also Figure 4)

Chi-
square

df

P

goodness of
fit index

adjusted
goodness of
fit index

'3. Model 14 but without effects
between factors
DS, RC and SP.

1019.67

651

0.000

0.821

0.785

See figure 4.

962.916

642

0.000

0.829

0.792

figure 4: Model 14 LS-group.

^2.2. ne VLL-group.

?'arting from model 10 the extended model 15 has been designed. As with the LS-group only the
'"fluenee of the Decoding Skills factor, the Reading Comprehension factor and the Spelling factor
^themselves at the subsequent point of time was included for the points of time 2B, 3 A and 33.
Jbe influence of the General Reading Prerequisites factor on Reading Comprehension was left
"l^ee. In model 16 (Figure 5), moreover, the influence of the Decoding Skill factor on the Reading
^omprehension and Spelling factor has been added, as well as an influence of the Reading
Comprehension factor on Spelling.

In Table 6 the results with respect to the global fit have been shown.

As with the LS-group the p-values are somewhat disappointing. Again some coefficients do not
deviate significantly from zero. (Coefficients lower than .15 are not significant on the 5 percent
®vel.) As in models 13 and 14 of the LS-group the path coefficients between the identical factors at
Successive points of time are, on the whole, very high. It is probably on account of this that
ctoss-connections between factors are 'explained away'.

-ocr page 114-

110 Longitudinal research on decoding, reading and spelling

Table 6. Results of the analyses up to the end of the third grade, 'Veilig Leren Lezen' group-

Concise model description
(see also figure 5)

Chi-
square

df

P

GFI

goodness of
fit index

AGFI
(adjusted
goodness of
fit index)

15. Model 16 but without effects
between factors DS, RC and SP.

1174.47

729

0.000

0.804

0.769

16. See Figure 5.

1085.13

720

0.000

0.816

0.780

7. DISCUSSION

Of late years it has been attempted to design models of the reading processes and that of leaming to
read (Singer & Ruddell, 1976). Most of these models have not been sufficiently empirically
validated, although some progress in that direction has been made. In only a few
instances,
however, has the Lisrel procedure been made use of. An example is the research done by
Frederiksen (1982). The above mentioned authors try to break up the reading process into
components or subskills in order to gain more insight into the course of the complex reading
process. According to them, it is essential to specify the components or subskills very accurately
and, if possible, to make them operational in very specific tasks (cf. Frederiksen, 1982; Curtis,
1980).

Most tests used in the 'Prevention of Reading Difficulties' project are too complex to enable one
to distinguish such components clearly. In part, this difficulty can be obviated by defining
components as factors on which the tests load. This has been done in the research in
hand-

-ocr page 115-

M.J.C. Mommers et al. 1931

Although the Lisrel-models that are presented here may not be considered ideal, they derive their
value from the interplay between both theory and empirical data.

In many reading models, a distinction is made between several processing levels of information
that plays a part in the reading process. A main category usually distinguished are the decoding
skills (word-attack skills). In addition, the 'comprehension' or the 'ability to relate something to
something else' has been mentioned as an important main category. Our results do not disprove
this classification. Moreover, just as in the reading-models of others spelling appears to be a
Separate category.

As emphasized previously, the models ultimately found (model 6, model 11, model 14 and
model 16) cannot be considered definitive, not only on account of the less than perfect fit, but also
on account of the explorative procedure followed. Further testing among other populations and
Under different circumstances is called for in order to justify generalizations.

That cautious conclusions may nevertheless be arrived at is due to the fact that the coefficients
■ound for the various variants of the model show a certain stability and that, apart from some
differences resulting from the nature of some tests, the results of the LS-group and the VLL-group
largely agree with each other.

As to the results, we would like to stress the following points.

With respect to the question of the difference between general and specific reading prerequisites,
hoth the LS-group and the VLL-group force one to distinguish between a general and a specific
'actor. Although the blending test and the phonemic analysis test load on the general factor, they
also clearly constitute a specific auditory factor. This factor must be considered an important
aspect of'phonemic awareness' (Mommers, van Dongen, Wolfhagen, 1984).

The influence of the general factor is, however, clearly stronger than that of the auditory factor.
Moreover, it appears to have a fairly strong, direct influence on reading comprehension, particu-
arly so after 8 months of formal reading instruction. The significance of the auditory aspects of the
hnguistic awareness should not be underestimated. However, the direct influence of the general
factor on reading comprehension may indicate that conceptual knowledge, as understood in the
Schema-theory (Anderson & Pearson, 1984), plays an important part in learning to read at an early
stage already. For early reading instruction, this implies that one should not restrict oneself to
auditory aspects of words and sentences. A lot of attention should also be paid to concept
formation.

As to the question of the aspects that may be distinguished empirically after 3 to 4 months of
'ormal reading instruction, for both groups decoding speed and spelling turn out to be distin-
guishable empirically. Also, the former is influenced by the latter. This influence calls for some
elucidation. Spelling a word is a different skill than reading a word. But at this stage, in spelling as
^ell as in reading, words are used that are orthographically simple and regular. Every grapheme
eorresponds to a certain phoneme. When spelling, the pupil must analyse a word into phonemes
and when decoding he must blend phonemes into a word. The one skill supports the other.
Children being able to spell such words well can usually read them well too. The speed with which
the decoding process takes place, however, is a different thing. But a child must first be able to
decode words before it can do this quickly. The influence of Spelling on Decoding Skill (in which
Speed plays an important part) to some extent supports the view that at this initial stage accuracy in
me analysis and blending of words is a prerequisite to learning to decode quickly,
e-
The third research question concerns the relation between decoding skills, reading comprehen-
sion and spelling after eight and twelve months of formal reading instruction. The expected
difference between the Decoding Skills factor (decoding speed), the Reading Comprehension
'actor and the Spelling factor is confirmed in both samples. Moreover, it turns out that at the end
of the first grade (IC) Decoding Skills clearly influence Reading Comprehension. These path
Coefficients are not as high, though, as to be able to trace differences in reading comprehension
almost completely to differences in decoding skills as Perfetti and Lesgold (1979) seem to conclude.
The difference between the results of our analysis and those of Perfetti and Lesgold (1979) may be

-ocr page 116-

112 Longitudinal research on decoding, reading and spelling

caused by the differences in research procedures. In the experiments of Perfetti and Lesgold
longitudinal aspects were left out of consideration.

There also exists an influence, however, of Decoding Skills on Spelling. Both in Decoding Skill
and Spelling orthographic representations stored in the internal lexicon play a part. In order to
spell a word correctly, higher demands are made upon those orthographic representations than in
reading. Some children with no apparent reading difficulties do have spelling difficulties. The
repeated reading of words can only to some extent improve the quality of the
orthographic
representations (Frith, 1980; Jorm, 1983). Therefore, one should not expect the path coefficients
from Decoding Skills to Spelling to be very high.

The relation between Reading Comprehension and Spelling is not so clear, although it is
suspected, on the basis of the global fit of the models, that the influence of Reading
Comprehen-
sion on Spelling is somewhat stronger than vice versa.

d. The fourth group of research questions concerns the longitudinal connection between the
distinguished aspects of reading and spelling in the first three grades. In answering these
questions
it should be realized that the models do not show a very satisfactory fit. In the interpretation great
caution is called for. Yet, a number of results are sufficiently clear to warrant a tentative answer,
the more so when these results agree with both samples.

From the high path coefficients for the effects of the factors on themselves it may be concluded
that Decoding Skills, Reading Comprehension and Spelling, starting from the point of measure-
ment 1C (after eight months of formal reading instruction), are clearly distinguishable factors. The
distinctive character of these three factors is revealed much more clearly than in
cross-sectional
correlational research. These results correspond with the aforementioned assumption by Oud
(1978) that cross- sectionally found causal effects often decrease or disappear altogether in favour
of 'memory effects' in longitudinal research. Buder et al. (1985) also found fairly high path
coefficients between the reading factor at the three points of measurement in the first, second
and
third grade. That our path coefficients are sdll higher is possibly due to the distinction made
between Decoding Skills and Reading Comprehension. Butler et al. do not make this disdncdon-

After point of measurement 2A (at the beginning of the second grade) the interconnecdons do
not show a very consistent picture. What is remarkable, however, is the direct influence of the
General Reading Prerequisites factor (P) on Reading Comprehension. Apparently,
comprehend-
ing simple texts is more than just being able to decode words quickly.

The above mentioned results do not imply, however, that Decoding Skills, Reading Compre-
hension and Spelling would be independent in a correlational sense. The correlations between
these factors are quite considerable. Although not perfect, they vary between .45 and .76 in the
LS-group, and between .31 and .70 in the VLL-group.

Despite their inter-correlations these results are of importance for the planning of course
material, the formulation of objectives and goals and the diagnosis of reading and spelling
difficulties. In an integrated course of formal reading instruction, a fair amount of attention wil'
have to be paid to the specific nature of decoding skills, reading comprehension and spelling (see
also Shanahan, 1984). ^pils with reading and spelling difficulties will have to be examined on all
three of these factors, because, due to their relative indépendence, discrepancies may exist between
the stage of development of the respective skills. Although the variables were measured fairly
globally, the clear relations that have nevertheless been found in this longitudinal research are
remarkable both from a theoretical point of view and from the practical point of view of
formal
reading instruction.

LITERATURE

Anderson, R.C. & Pearson, P.D. (1984). A schema-theoretic view of basic processes in reading
comprehension. In: P.D. Pearson (ed.).
Handbook of reading research. New York-
London, p. 255-291.

Butler, R.S., Marsh, H.W., Sheppard, M.J. & Sheppard, J.L. (1985). Seven years longitudinal

-ocr page 117-

M.J.C. Mommers et al. 113

study of the early prediction of reading achievement. Journal of Educational Psychology,
77, 3,349-361.

Caesar, F.B. (1980). Handleiding bij Veilig Leren Lezen, 3 delen, Tilburg.
CITO (1979).
Lees en Begrijp 1 en 2, Arnhem.

Curtis, M.E. (1980). Development of components of reading skill. Journal of Educational Psycho-
logy 11,

dongen, D. (1984). Leesmoeilijkheden. Naar diagnostiserend onderwijzen bij het leren lezen. Til-

Prederiksen, J.R. (1982). A componential theory of reading skills and their interactions. In R.J.
Sternberg (Ed.),
Advances in the psychology of human intelligence, Hillsdale, N.J. p.
125-180.

f^rith, U. (1980). Unexpected spelling problems, in U. Frith (ed.). Cognitive processes in spelling.
London.

'Gibson, E.J. & Levin, H. (1975). The psychology of reading. Cambridge (Mass.)

Jöreskog, K.G. & Sörbom, D. (1981). Lisrel V: Analysis of Linear Structural Relationships by

Maximum Likelihood and Least Squares Methods Chicago.
Jorm, A.F. (1983).
The psychology of reading and spelling disabilities. London.
Kooreman, H.J. (1976).
Letterstad. Groningen.

LaBerge, D. & Samuels S.J. (1974). Toward a theory of automatic information processing in

reading.: Cognitive Psychology, 6,293-323.
Leeuwe, J.F.J, van (1984). Lisrel notities. RTD-PAW, Nijmegen.

Mommers, M.J.C., van Dongen, A.J.N. & Wolfhagen H.A.P.(1984). De ontwikkeling van het
linguïstisch bewustzijn en leren lezen. In: A.J.W.M. Thomassen, L.G.M. Noordman &
P. A.T.M. Eling (Red.)
Het leesproces, Lisse.
l^oordman, L.G.M., Eling, P. A.T.M. & Thomassen A.J.W.M. (1984). Een overzicht van het lezen
als psychologisch proces. In A. J.W.M. Thomassen, L.G.M. Noordman & P.A.T. M.
Eling (Red.)
Het leesproces. Lisse.
^ud, J.H.L. (1978).
Systeemmethodologie in sociaalwetenschappelijk onderzoek. Nijmegen: Alfa.
•^erfetti, C.A., & Lesgold, A.M. (1979). Coding and comprehension in skilled reading and
implications for reading instruction. In L.B. Resnick & P.A. Weaver (Eds.)
Theory and
practice of early reading.
Hillsdale, N.J.
Reitsma, P. (1983).
Phonemic andgraphemic codes in leaming to read. Amsterdam.
Resnick, L.B. & Weaver P.A. (Eds) (1977).
Theory and practice of early reading. Hillsdale, N.J.
Saris, W.E. & Stronkhorst, L.H. (1984).
Causal Modelling in non-experimental research: Introduc-
tion to the Lisrel approach,
Amsterdam.
Seegers, G. (1983). Individuele verschillen in leesvaardigheid: verslag van een literatuuronderzoek
(SVO-project 0523) Instituut voor Onderwijskunde, Katholieke Universiteit, Nijmegen.
Seymour, P.H.K. & Porpodas C.D. (1980). Lexical and non-lexical processing in dyslexia. In: U.

Frith (Ed.) Cognitive processes in spelling. London, New York.
Shanahan, T. (1984). Nature of the reading-writing relation: an exploratory multivariate analysis.

Journal of Educational Psychology, 76, 3,466-477.
^ger, H. & Ruddell R.B. (Eds).
Theoretical models and processes of reading (2nd ed), Delaware,
^orndike, R.L. (1974). Reading as reasoning.
Reading Research Quarterly. 9,137-147.
waller, T.G. & McKinnon G.E., (1979).
Reding research: advances in theory and practice. New
York.

"arren, W.H., Nichols D.N. & Trabasso (1979). Event chains and inferences in understanding
narratives. In: R. Freedle (Ed.),
New directions in discourse processing: Advances in
discourse processes
(Vol. 2) Hillsdale, N.J.
^gwaard. A., Dongen, D., Ven, C.v.d. (1982). Kinderen met leesmoeilijkheden in de
eerste klas: wat voor kinderen zijn dat en wat gebeurt er met hen? In: J.G.L.C. Lodewijks
en P.R.J. Simons,
Strategieën in leren en ontwikkeling. (Swets en Zeitlinger), Lisse.

Manuscript ontvangen 24-9-1985.
definitieve versie ontvangen 19-12-1985.

-ocr page 118-

Tijdschrift voor Onderwijsresearch, 11 (1986), nr 2, pp. 114-117.

Notities en commentaren

COMMITTEE JUDGMENT OF RESEARCH PROPOSALS: THE LIMITS OF
QUANTITATIVE ANALYSIS

P. G. Swanborn

In a recent publication Hofstee (1983) concluded that the mean interjudge-correlation coefficient
over 54 research proposals, judged within advisary committees of the Dutch Foundation fof
Educational Research, SVO, is as low as .14. Scheerens (1986) confirms this conclusion in his
replication study on 239 proposals. Scheerens replaces
the correlation coefficient by an agreement
measure, and he adds several sophisticated procedures of data analysis.

The central problem is, of course, the reliability of the final committee judgment (this judgment
is expressed by A, B or C; A stands for "money granted"; B for "minor changes, and/or further
information wanted"; C for "rejected"): in how many cases another more or less similarly
composed committee would have reached the same conclusion. There is no definite answer to this
question, although an estimation under certain assumptions is possible. A real life simulation (the
procedure repeated over the same proposals by several committees) should produce more
direct
information, but was never undertaken. Committee members, mostly Dutch university professors,
wouldn't be very much in favour of this since the burden of judging research proposals (50-100 a
year) is heavy enough already. The reported low interjudge agreement data can be expected to lead
many readers, especially those whose proposals were refused, to the conclusion that there is little
difference between the complicated and time-consuming SVO procedure and a lottery game. In
this contribution it is emphasized that a low
initial (for that is what concerns Hofstee and
Scheerens) agreement between judges is plausible for a number of reasons. In the second place it is
argued that discussions during committee sessions do form an intrinsic part of the
judgment
process.

Some preliminary remarks on practical aspects of the procedure may be helpful. Each one of the
committee members (SVO has 3 or 4 committees, each counting 4-6 members) periodically
receives a number of research proposals, accompanied by blank judgment forms. In the early days
they were accompanied by a "judge instruction", but this attempt to homogenize has never been
very popular. Each one of the judges is asked to use 6 five-point scales on the following variables'
( 1 ) completeness; (2) adequacy of the design; (3) guarantees for completion; (4) scientific relevancy;
(5) policy relevancy; (6) innovating characteristics. Additionally a final personal judgment is
asked
using the A, B or C category scale. On the five-point scales as well as with regard to the final
judgment, verbal additional and clarifying remarks are welcomed and often supplied. In a
committee session - several times a year - each proposal is discussed and a final
committee
judgment is formulated and attached to it (an A, B or C combined with many or few verbal
remarks; many in the case of a "B" where some remarks may be suggestions for a next try). This
advice is sent to the SVO Board. The decision taken by the Board is generally, but not necessarily,
in line with the committee advice.

The remarks I want to make are threefold. They concern:

a. measuring agreement;

b. the differential use of judgment categories by judges;

c. the role of the committee session in the total process.

Addres: Faculteit Sociale Wetenschappen. Vakgroep Theoretische Sociologie en Methodenleer,
Postbus 80.108,3508 TC Utrecht.

-ocr page 119-

Notities en commentaren 115

Measuring agreement.

^ conceptual distinction should be made between lack of agreement due to differences in
l^arginals, and lack of agreement due to ranking the same proposals in a different way. Such a
distinction is useful because ranking differently would lead, in my view, to a much more justified
ef'ticism toward the judgment process than differences between marginals. The result, however, is
'he same: lack of agreement between judges. Judges produce different marginals as a result of
several factors. A judge is just a human being, and he can accordingly be in a rigid or in a tolerant
"lood. The percentage of A's he produces during the evenings preceeding a committee session are
lot only dependent on the mean quality of the proposals, but also on his mood. Scheerens doesn't
•"ention mean scores for members per session. If we may argue plausibly that there is no
Connection between the moods the committee members are in on the evenings preceeding a
session, an analysis of variance might clear the situation. Secondly, it is to be expected that a
systematic difference remains between judges over all sessions. So both temporary and lasting
characteristics of judges lead to differences in marginal frequencies. Nearly all measures of
Correlation or agreement are affected in their upper boundary by differences in marginals. My
conjecture is that a major part of the lack of agreement as measured by Hofstee and Scheerens is
caused not by ranking differently, but by differences in marginals. It should be added that an
agreement measure as used by Scheerens is much better suited for its purposes than Pearson's r, for
'he simple fact that there can be a high correlation but almost no agreement. Since we are not
'ennpted to suspect artificially high r's in this case, this problem remains more or less academic.
. Next to Scheerens' measure, Cohen's ( 1960) kappa could be used. It is a well-known and simple
instrument for measuring agreement between two judges on i.e. an A, B, C category scale. One
Could apply kappa also with the five-point scales. In that case all ordinal or interval properties are
neglected, but in my opinion - see point b. - little relevant information is lost in dicho- or
'dichotomizing the scales.

The differential use of judgment categories by judges,
■'"dges do not always interprete the five-point scales as well as the A, B, C scale in the same way. To
"Mention some examples:

The continua with regard to "scientific relevancy" and "policy relevancy" give way to a number

different interpretations. "Scientific relevancy" is often regarded as a quality judgment: the
proposed research project is in agreement with general methodological standards. A few judges,
however, tend to think in terms of the potendal contribution of the proposed research to scientific
results or procedures. If one considers the quality aspect less relevant (i.e., because lack of quality is
also judged on other scales), the problem emerges whether each and every research proposal is
supposed to contribute to science. In my opinion, this standard cannot be upheld with policy
research. If no explicit agreement is reached between judges on how to cope with this scale, judge X
eventually fills out a —2 (the lowest score), judge Y fills out a zero and judge Z doesn't give a score

all with regard to the same proposal. Also ambivalent is coping with the "policy adequacy"
^cale; a problem can be regarded as highly relevant, but the research proposal as not so very
relevant for solving the problem.

. 'n committee discussions such dilemma's generally become lucid, including motives of two
judges having the same opinion but scoring differently, or vice versa. As a result of these
ambiguities, scores of individual judges on the five-point scales only play a discussion-inspiring
"^ole. A second example concerns balancing costs and benefits. Some committee members keep the
Project budget out of their consideradons, others admit it in their final judgment. In this case the
'mportance of the problem interferes, as well as the importance of the proposed research, which, as
0''en is the case, only solves minor aspects of the problem. As well as with the foregoing point, it is
Clear that strict committee regulations can be formulated to help prevent such diverging
'nterpretations. A third cause of diverging interpretations concerns the special SVO-procedure
^"h regard to policy research. To stimulate competition "research orders" from the government
Or other public agencies are sent by SVO to several research institutes. Usually two or three

-ocr page 120-

116 P.G. Swanborn

competing proposals result, and are sent to the advisary committee. The use of the final scoring
scale by different judges in such a case has not been uniform up till now. One judge, who is in
favour of two proposals X and Y, and who has a slight bias in favour of X, scored X as a A, but
scored Y as a C (a "B" is not probable, because this category refers to lack of information and/of
reparable aspects). This judge argues that, as only one proposal is taken into consideration fof
financing, he has to express his preference in this way. Another judge, having the same opinion
and bias, scored both proposals as "A's" and expressed his bias at the committee session. Aftef
some experience this ambiguity was cleared and a standard procedure adapted; but
Scheerens
data refer to a period in which it existed.

A fourth example also concerns policy research proposals. In many cases, the character of the
research problem as worded by governmental departments was heavily criticized by the commit-
tee. In some cases the formulation of the research problem even excluded a workable
research
proposal.

It is not clear in which way this influences the judgments. One can score a good research design
for solving another problem than the policy agency asked for an "A" because the best possible is
done; one can also score a "C" because another problem is solved than the one posed; a grave error
in standard methodology.

If a judgment procedure is evaluated by using interjudge reliability coefficients, the remarks
made up till now lead to the necessity of providing judges with a clearer instruction than as yet was
practiced. Some suggestions are already given.

c. The role of the committee session in the total process.

Now I come to the third and most important point. Hofstee and Scheerens start from the
classical psychometric model: judges as independent replications. The use of the committee
session
is only "for summation and taking the mean". Were this the case, the whole procedure could be
handled by post. The history of research grant agencies in the Netherlands and other
countries
shows, however, that committee sessions where opinions are exchanged and judgments (re)forme<l
are seen as indispensable, and as an intrinsic part of the whole procedure. This interpretation asks
for clarification.

Committee members are, generally speaking, very conscious of the fact that they are not the
only wise guys in town. It only very seldomly happens that one is a specialist in all domains a
research proposal covers.
A judge tries to locate, on the basis of many years of experience and
common sense, the heart of the proposal: problem, design, success/failure chances; the social
context of the researcher. One tries to understand the capabilities of the researcher, who sometimes
betrays himself by small blunders indicating insufficient knowledge. On the basis of such consid-
erations a committee member reaches a very provisional opinion. If a judge knows he is likely to
meet a specialist in the committee session, he probably emphasizes the provisional character of his
judgment. In most committees, it rapidly turns out that each individual member has specific
domains of interest and, accordingly, of judgment. After a short time each committee member
knows that
A always turns his attention to "the research environment" of the proposal (presence
of senior researchers, other projects in the same field, etc.); that B (a changing member) knows the
subject well; that C always scrupulously analyses the design.

A model, representing the actual process of judging better than the classical psychometric
model, has
a mixed character. Of course it contains elements of the classical model. Each judge
realizes from time to time that the start or continuation of a project could depend on him when
opinions are diverging, and this thought functions as a whip lash to very precisely rate all
aspects
and come to a final judgment. And this should remain so.

Besides this, however, each judgment has the character of aspect-judgment in which each judge
is specialized on one or two domains. If a committee member has a very pronounced positive or
negative opinioti with regard to the proposal in this domain, he will be more likely to emphasize his
ideas in the committee session than in case he has a moderate opinion. In view of these points, the
low interjudge reliability as measured by Hofstee and Scheerens has only a limited significance.

-ocr page 121-

Notities en commcntaren 117

Tile judgment model sketched so far is certainly not ideal. But reality forces SVO to work with
Shiall committees with a very time-consuming task. Only exceptionally the individual committee
"member is a specialist on the domain of the proposal. Research on the initial interjudge reliability
should be supplemented with research on the "second phase" of the process: discussion and
decision making. A periodically repeated evaluation of this phase is important. Are the judgment
Scales interpreted and used in the same way? Are all dimensions that play a role explicit? Are all
arguments taken into consideration? Do committee members weigh dimensions in the same way,
Of do they use different "weight factors", possibly interacting with other dimensions? What is the
character of the discussion? How does a provisional negative opinion change into a positive
Opinion, or vice versa? Is it clear to all participants which aspects are allowed to "weigh" in the
■'nal decision, which aspects not?

Hofstee and Scheerens have done a very useful quantitative analysis; let's start qualitative
research now.

REFERENCES

Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological
Measurement, 20,
37-46.

Hofstee, W.K.B. (1983). Ratings of grant requests in educational research: a psychometric

evaluation. Tijdschrift voor Onderwijsresearch, 8, 273-284.
Scheerens, J. (1986). Ratings of Requests for grants in educational research revisited.
Tijdschrift

voor Onderwijsresearch, 11,67-82
^gers, F.E., and J.M.F. ten Berge (1985). A family of association coefficients for metric scales.
Psychometrika, 50, 1,17-24.

'Ontvangen 5 december 1985

-ocr page 122-

Tijdschrift voor Onderwijsrescarch, 11 (1986), nr 2, pp. 118-120.

Book review

Voeten, M.J. M.(1985)

Sequential analysis of teacher-student interaction.

Unpublished dissertation. Catholic University of Nijmegen (supervision: prof. dr. E.E.Ch.I. Roskam)-
Nijmegen. The Netherlands.

The last decade showed many methodological developments that are important for the behavioral
and social sciences. The research in psychometrics and in some parts of applied statistics is really
addressed to the needs of these sciences, e.g. analysis of covariance structures, multidimensional
scaling, and item response theory.

Two other examples arc research on the design and analysis of time dependent phenomena
and on the modelling of categorical data. These are important because many of the problems in
the behavioral and social sciences are of a longitudinal nature and many of the
measuremenl
procedures yield categorical data. Econometrics has a long tradition in the study of time-
dependent data. In psychology the development of methods suited to longitudinal research was
neglected for
a long period, but got an impetus from the book of Glass, Willson, and Gottman
(1975). At the same time the comprehensive review
of models for categorical data of Bishop,
Fienberg and Holland (1975) was published.

Our country has a prominent position in psychometrics; see, for example, Hambleton and
Swaminathan (1985). Many contributions have also been made to the methodology of
longitudi-
nal research and of categorical data. Examples of recent dissertations on these topics are Molenaaf
(1981), Visser (1982), and Berger (1985) on longitudinal research. Popping (1983), Van Schuur
(1984), Koppelaar (1984), and Schouten (1985) on categorical data, and Hagenaars (1985) on the
analysis of longitudinal categorical data. Marinus Voeten - who was the excellent editor of this
journal from the start in 1975 till 1984 - did his dissertation on a combination of these two lines of
research.

Voeten's dissertation is on the analysis of the interaction of students and teachers during
classroom instruction. The emphasis is on the analysis of teacher-student interaction as a
sequen-
tial process of succeeding behaviours, coded in a nominal scale, e.g. "teacher question", "pupi'
answer", and so on. He reanalysed data of Veenman's (1975) dissertation. Using a modification of
Flanders' system Veenman observed verbal teacher-student interactions under different
condi-
tions: One group of teachers was trained in using more flexible behaviour in teaching, whereas the
control group was not trained; each of the teachers was observed on two types of
instruction:
closed lessons where the teaching objectives were precisely specified and open lessons with more
global objectives. On three occasions (before, immediately following, and ten weeks after treat-
ment) teacher-student interactions were observed on two closed and two open lessons.

In the first two chapters of Voeten's dissertation the general setting of sequential analysis
Veenman's data, and the reliability and validity of the observational system are described. In these
chapters ample attention is paid to useful methods and procedures described in the ethological
literature. The data are aggregated in twelve first order transition matrices. A transition matrix is a
square matrix with as rows and as columns the different behaviours that are coded in the
observational system. A row contains a behaviour observed at a specified point in time. In a first
order transition matrix a cell of the matrix contains the frequency of behaviour immediately
following the row behaviour; in a nth order transition matrix a cell contains the frequency of
behaviour following at n discrete time points after the row behaviour. The matrices are aggregated
over teachers, within training condition (experimental versus control), and over lessons within
lesson type (closed versus open), yielding twelve matrices: one for each of the three occasions, pef
lesson type, and per condition. Three components of the matrices are studied: the occurrence of
each behaviour, i.e. the marginal probability of each behaviour
Br, the probability that a behaviour
Bj is followed by the same behaviour, i.e. self-transition; and the probability that a behaviour A
is immediately followed by another behaviour

-ocr page 123-

Book review 119

Rising quasi-independence models, iterative-proportional fitting, and standardized residuals the
data are thoroughly studied. In the fourth chapter geometric representations of the transition
"matrices are reported. The matrices are inherently asymmetric: the frequency of behaviour Bj
'ollowing behaviour is in general not equal to the frequency of behaviour Bi following behaviour
The transition matrix is additionally decomposed into a symmetric and a skew-symmetric
"^trix. The skew-symmetric matrix contains information on the first order behavioral sequences,
•he skew-symmetric parts of the transition matrices are geometrically represented. Moreover, the
symmetric and skew-symmetric parts are simultaneously analysed. The symmetric part is repre-
sented by muhidimensional scaling using a distance model and the skew-symmetric part is fitted
'"to the multidimensional scaling solution as a vector field. In the fifth chapter the assumptions
"lade for the analysis of the previous chapters are checked: stationarity of the first order transition
matrices, influence of aggregating over individual teachers and over separate lessons. Some
Violations are found, but their size does not seem to invalidate the previous analyses. The final
chapter is addressed to the detection of behaviour chains. Using the method of lag sequential
analysis behavioral sequences with lags up to 30 are identified. It was, for example, found that
^hen a teacher negatively reacted to student behaviour the frequency of negative teacher reactions
lags later still exceeded change level.

I have two general comments of a rather personal nature. First, I would have preferred other
data. The data set is large, the data collection using the modified Flanders' system has severe
""litations as discussed by Voeten in chapter 2, and the data are not very interesting from a
substantial point of view. The experimental training did not have influence upon the sequential
structure of teacher-student interactions and the main interaction patterns - teacher question —
Pupil answer teacher reaction and bouts of information given by the teacher - do not strike me
as interesting results. Second, as far as I know - I am not well acquainted with the methods for
geometrical representations - Voeten did not develop many new methods for the analysis of
"ehavioral sequences; he usually sticks to existing methods.

Nevertheless, Voeten succeeded to make relevant contributions. First, he addressed himself to
'"e important combination of the two lines of methodological research mentioned above, i.e.
"methods for the study of data that are longitudinal and categorical. Second, he discusses methods
a"d procedures from the ethological literature that are not well-known in education and psycho-
logy. Third, his analyses are very extensive, precise, and thorough. Fourth, his work is a compre-
"ensive case study showing the state of the art of sequential analysis. Reviewing and applying the
existing methods he reveals the blind sports and lays the foundation for future developments in this

area.

I congratulate Marinus Voeten with his dissertation and his doctor's degree. I hope and expect
'"at he and others will continue research on this topic.

REFERENCES

Merger, M.P.F. (1985). Some aspects of the application of the generalized multivariate analysis of
variance model.
Unpublished dissertation. Catholic University of Tilburg. Tilburg, The
Netherlands.

ö'shop, Y.M.M., Fienberg, S.E., & Holland, P.W. (1975). Discrete multivariate analysis: Theory
and practice.
Cambridge, Mass.: MIT Press.

^lass, G.V., Willson, V.L., & Gottman, J.M. (1975). Design and analysis of time-series experi-
ments.
Boulder: Colorado Associated University Press.

Hagenaars, J.A.P. (1985). Loglineaire analyse van herhaalde surveys. Unpublished dissertation,

- Catholic University of Tilburg. Tilburg, The Neteriands.

Hambleton, R.K., & Swaminathan, H. (1985). A look at psychometrics in the Netherlands.

^ Nederlands Tijdschrift voor de Psychologie, 40, 446-451.

Koppelaar, H. (1984). Twee nieuwe wegen voor modelbouw in de sociale wetenschappen: Theorie- en
dataverwerking.
Unpulished dissertation. University of Amsterdam. Amsterdam, The
Netherlands.

-ocr page 124-

120 Book review

Molenaar, P.C.M. (1981). Dynamische factormodellen. Unpublished dissertation. State University
of Utrecht. Utrecht, The Netherlands.

Popping, R. (1983). Overeenstemmingsmaten voor nominale data. Unpublished dissertation. State
University of Groningen. Groningen, The Netherlands.

Schouten, H.J.A. (1985). Statistical measurement of interobserver agreement. Unpublished disser-
tation, Erasmus University. Rotterdam, The Netherlands.

Schuur, H. van (1984). Structure in political beliefs. Unpublished dissertation. State University O'
Groningen. Groningen, The Netherlands.

Veenman, S.A.M. (1975). Training op basis van interactie-analyse. Dissertation, Catholic Univer-
sity of Nijmegen. Tilburg, The Netherlands: Zwijsen.

Visser, R. A. (1982). On quantitative longitudinal data in psychological research. Unpublished
dissertation. State University of Leiden. Leiden, The Netherlands.

G. J. Mellenbergh

Department of Psychology

University of Amsterdam

-ocr page 125-

Tijdschrift voor Onderwijsresearch, 11 (1986), pp. 121-129.

Itemselectie in het Mokken model

Sijtsma* en P.M. Prins
* Vakgroep Arbeids-en Organisatiepsychologie, Vrije Universiteit

abstract

Item selection in the Mokken model

In this paper the use of Loevinger's coefficient of scalability H is studied with respect to item
selection. Given an item pool consisting of doubly monotonic or monotonely homogeneous items,
the order of selection of items with respect to their difficulty is studied, as well as the trend of H in the
course of the selection process. Finally, recommendations are given concerning the use of H in item
selection

INLEIDING

^«Mokken model is een stochastisch model voor ordinale schaling van subjecten en stimuli op
een latent eendimensioneel continuüm. Het model kan worden opgevat als een probabilistische
Variant op het deterministische Guttman model (1950), dat bij empirische 'fit' eveneens leidt tot
een ordening van personen en items. In het Guttman model zijn afwijkende waarnemingen niet
'oegestaan, hetgeen bij passende gegevens betekent dat een item nooit fout wordt beantwoord
^anneer een moeilijker item door dezelfde respondent goed wordt beantwoord (Loevinger,
'"48; Mokken, 1971). In het stochastische model van Mokken wordt per definitie een aantal
'outieve' scorepatronen toegelaten. Voor een uitgebreide inleiding tot het Mokken model zij
^erwezen naar Mokken (1971), voor kortere inleidingen naar Henning (1976), Stokman en Van
^ehuur (1980), Mokken en Lewis (1982) en Niemöller en Van Schuur (1983).

Na een volledige itemselectieprocedure (zie Mokken, 1971, hfst. 5) bevat een Mokken test een
j'erzameling van dubbel monotone items, die het ideaal van Guttman liefst zo dicht mogelijk
. enadert. Dubbele monotonie betekent ten eerste dat de kans op een positief antwoord op een
!'em toeneemt of constant blijft als functie van de latente trek, en ten tweede dat de volgorde der
■jemmoeilijkheden voor iedere respondent dezelfde is. Wanneer de gegevens aan de eis van
dubbele monotonie voldoen, snijden de item karakteristieke curven elkaar nergens: snijding
jOu impliceren dat de volgorde van de itemmoeilijkheden afhangt van de latente vaardigheid,
'emverzamelingen die alleen de eerste eigenschap bezitten, worden monotoon homogeen

fienoemd.

De modellen van dubbele monotonie en monotone homogeniteit zijn nonparametrisch
Ofndat de 'item characteristic curves' (in het vervolg: ICC's) niet formeel zijn vastgelegd, en de
^erdeling van de latente trek evenmin is gespecificeerd. In de parametrische item response
heorieën van bijvoorbeeld Rasch, Birnbaum en Lord worden de ICC's wel wiskundig vastge-
egd, maar met betrekking tot de verdeling van de latente trek worden evenmin uitspraken

gedaan.

e auteurs zijn dank verschuldigd aan Charles Lewis en Ivo W. Molenaar voor hun kritische opmerkingen
'J een eerdere versie van het artikel.
Adres: De Boelelaan 1081, 1081 HV Amsterdam.

-ocr page 126-

122 Itemselectie in het Mokken model

SELECTIE VAN ITEMS VOLGENS COËFFICIËNT H

Het computerprogramma MOKKEN SCALE (STAP user's manual, vol. 4, 1980) bevat een
algoritme voor de selectie van items uit een grotere verzameling. Als selectiecriterium
fungeert
de schaalbaarheidscoëfficiënt H van Loevinger (1948):

H = i\(p,j- p,pj)/i^pi(l-pj),

waarin P| en pj (p, ^ pj) de proporties respondenten zijn die de items i en j positief hebben
beantwoord, en
Pij de proportie respondenten die de beide items positief heeft beantwoord-
Verder is k het aantal items in de test. De H-coëfficiënt geeft aan in hoeverre de gegevens
voldoen aan het ideaal van Guttman, dat is bereikt wanneer H = 1, terwijl H = O wanneer de
items globaal onafhankelijk zijn (zie ook Molenaar en Sijtsma, 1984).

Een uitgebreide beschrijving van het itemselectie-algoritme volgens Mokken is te vinden in de
programmabeschrijving van MOKKEN SCALE (STAP user's manual, vol. 4, 1980). Kort
gezegd komt de selectieprocedure er op neer dat wordt begonnen met het itempaar (i, j) dat de
grootste schaalbaarheidscoëfficiënt H^ heeft. Het derde item wordt vervolgens zodanig
geko-
zen, dat de schaalbaarheidscoëfficiënt voor de drie items te zamen maximaal is. Volgens
hetzelfde criterium worden de volgende items stapsgewijs toegevoegd: het vierde item is het item
waarvoor de schaalbaarheidscoëfficiënt van de vier geselecteerde items maximaal is, etc.

Mokken (1971, bijv. p. 184; zie echter Mokken & Lewis, 1982, p. 424) heeft hier en daar
gesuggereerd dat H geschikt zou zijn voor bijvoorbeeld selectie van items die voldoen aan de eis
van dubbele monotonie uit een grote verzameling die behalve dubbel monotone ook
snijdende
ICC's bevat. Jansen (1982a, b; 1983; ook Gifi, 1981) heeft overtuigend aangetoond dat H
hiervoor niet geschikt is. We zullen in dit artikel rapporteren op welke wijze het
computerpro-
gramma MOKKEN SCALE items selecteert uit verzamelingen die respectievehjk dubbel
monotoon en monotoon homogeen zijn. Tevens wordt het gedrag van coëfficiënt H tijdens dit
selectieproces bestudeerd. Het onderzoek resulteert in aanbevelingen voor itemselectie
volgens
de procedures van Mokken.

Een wiskundig voorbeeld. Jansen (1982a, p. 21) stelt dat bij grote spreiding van de itemmoeilijk-
heden ten opzichte van de spreiding van de te meten latente eigenschap, het itemselectie-
algoritme volgens Mokken neigt naar het selecteren van de extreem moeilijke en gemakkelijke
items. Roskam, Van den Wollenberg en Jansen (1983, p. 98, 99) voorspellen dat het selectie-
algoritme items met vlakke ICC's en items met dicht bijeenliggende ICC's verwerpt. Het
eindresultaat bestaat uit items met steile en relatief ver uiteenliggende ICC's. Dit zijn items met
een relatief sterk discriminerend vermogen en ver uiteenliggende moeihjkheden, hetgeen
nadert
naar een ideale meting volgens Guttman. Met de resulterende test kunnen personen worden
onderscheiden op verschillende plaatsen op het latente continuüm.

We zullen in het volgende formele voorbeeld laten zien dat, gegeven een verzameling van
dubbel monotone items, selectie van items volgens coëfficiënt H leidt tot een gelijkmatige
spreiding van items naar moeilijkheid over het latente continuüm. Hierbij is de 'gelijkma-
tigheid' van de spreiding afhankelijk van de beschikbare items en de verdeling van de
latente
eigenschap.

Het voorbeeld behelst items waarop het antwoordgedrag kan worden beschreven met behulp
van het twee-parameter logistische model van Birnbaum (1968). In^dit model worden items
gekenmerkt door een discriminatieparameter
a en een moeilijkheidsparameter a, terwijl de
kans op een positieve response op het item i een toenemende functie is van het latente
attribuut
f:

P(X. = 11 f) = exp [Da, (f - a,)] / {1 + exp [Da; (f - a,)]).

-ocr page 127-

K. Sijtsma en P. M. Prins 123

Hierin stelt Xj de score op item i voor, en D is een bekende constante. Verder is de verdeling f(f)
Van het latente attribuut standaard normaal. We gaan in het voorbeeld uit van items met een
'dentiek discriminerend vermogen: D« = 2.0. Dergelijke items voldoen tevens aan het één-
Parameter logistische Rasch model (1980), nadat Da is herschaald tot 1.0, hetgeen wordt
gecompenseerd door f eveneens te herschalen. Verderop in het artikel wordt de discriminatie-
Parameter gevarieerd, met als gevolg dat de resulterende verzameling van items niet aan het
I^asch model voldoet.

Tevens geldt dat het twee-parameter logistische model met niet-snijdende ICC's een speciaal
geval is van dubbele monotonie. Door deze keuze van de ICC's is het resultaat van het
Voorbeeld wellicht beperkt generaliseerbaar naar het algemene geval van dubbele monotonie,
"laar werpt het toch licht op itemselectie volgens coëfficiënt H.

We kiezen nu twee items i en j vast met respectievelijk aj = - 2.0 en oj = 2.0. Item i is een
gemakkelijk item in een populatie met verdeling f(f) en item j is een moeilijk item. Vervolgens
^ordt op het latente continuüm tussen i en j een derde item h gekozen, zodanig dat de
gezamenlijke H-coëfficiënt maximaal is. In H en Hy komen alleen de parameters p, en Pij voor,
^■e in het voorbeeld door numerieke integratie kunnen worden berekend:

Pi=CP(Xi=l|f)f(f)df,en
Pii=CP(Xi=l|f)P(Xj=l|f)f(f)df-

In Figuur 1 is te zien dat item h het item is dat in het midden tussen i en j ligt (p; = .933, Ph = .500

Pj = .067), gegeven de ICC's en de verdeling van de latente trek.

LO
.9
.8
.7
.6
.5
.4
.3
.2
.1

O
CJ

X

CC
CE
03
-I
CE
CC
X
O

<o

.......Ill

.0

'.O .1 .2 .3 .4 .5 .6 ,7 .8 .9 LD
POPULARITEIT 3E ITEM

'Suur l: Coëfficiënt H van drie items als functie van de moeilijkheid van het derde item.

ITEMSELECTIE VOLGENS H: EEN SIMULATIESTUDIE

eneinde de selectievolgorde van items uit grotere verzamelingen te bestuderen, is een studie
,^'^gevoerd op gesimuleerde gegevensmatrices. In deze studie staan twee vraagstellingen cen-

Pi:

^at is de volgorde qua moeilijkheid van de items bij selectie volgens het algoritme in het

Pro

'gramma MOKKEN SCALE?

-ocr page 128-

124 Itemselectie in het Mokken model

2. Wat is het verloop van coefficient H naarmate er meer items in de uiteindelijke test worden
geselecteerd?

Bij de eerste vraagstelling geldt dat in dit onderzoek steeds alle items één voor één uit een
beschikbare verzameling worden gcsclectcerd. Daarbij wordt geen rekening gehouden met de
door Mokken (1971, p. 184) geïntroduceerde arbitraire ondergrens H = .30. Met betrekking tot
de tweede vraagstelling is bijvoorbeeld bekend (Roskam et al., 1983; Jansen, Roskam & Van
den Wollenberg, 1984) dat H afneemt naarmate twee Rasch-homogene items minder
verschillen
qua moeilijkheid en/of zwakker discrimineren. Over het gedrag van H bij selectie van grotere
aantallen items, waaronder vele die relatief weinig verschillen qua moeilijkheid, is maar weinig
bekend.

METHODE

Met behulp van de in SPSS opgenomen generator voor toevalsgetallen worden telkens per
steekproef van 2000 personen antwoordvectoren gegenereerd, waarbij wordt uitgegaan van een
normale verdeling f(f) in de populatie. Enerzijds worden gevallen onderzocht waarin de
iterns
aan de eis van dubbele monotonie voldoen, en waarbij Da = 2.0 voor alle items. Anderzijds
wordt het discriminerend vermogen over items gevarieerd, zodanig dat de ICC's snijden. D^
gekozen voorbeelden zijn speciale gevallen van respectievelijk dubbele monotonie en
monotone
homogeniteit, zodat de resultaten gedeeltelijk generaliseerbaar zijn. Het is echter handig om
met parametrische ICC's te werken teneinde de succeskansen van personen op items te kunnen
bepalen. Men zou parametrische ICC's kunnen gebruiken die niet aan het Birnbaum
model
voldoen, maar ook dan blijft het onderzoek exemplarisch, en is de generaliseerbaarheid van de
resultaten onvolledig.

De items hebben als extreme moeilijkheden respectievelijk -2.0 en 2.0. Er worden gegevens-
matrices gegenereerd voor respectievelijk 5,7,9,13,17 en 33 equidistante items.

Uit onderzoek (bijv. Molenaar, 1982a) is bekend dat H afneemt bij een afnemende spreiding
van f, en onder verder constante condities (zie echter Jansen, 1983, p. 76-80, voor het geval
waarin f(f) vast wordt gekozen en de itemparameters variabel zijn). Het itemselectieproces is
daarom ook onderzocht voor standaarddeviaties van respectievelijk 0.25, 0.50, 0.75, 1.00 en
4.00, terwijl het gemiddelde van f(f) altijd gelijk is aan nul.

In de gegevenssimulatie komen itemresponses via een dubbel kansmechanisme tot stand-
Eerst wordt een subjectparameter aselect uit f(f) getrokken. Gegeven deze subjectparameter en
de bekende itemmoeilijkheden worden vervolgens de waarschijnlijkheden van de
positieve
itemresponses berekend. Iedere individuele kans wordt vergeleken met een aselect getrokken
waarde uit een uniforme verdeling tussen nul en één. Is de kans kleiner dan deze waarde, dan is
de itemresponse positief, en in het andere geval negatief.

Telkens wordt voor een combinatie van aantal items en standaarddeviatie van de latente
eigenschap een matrix met itemresponses gegenereerd. Deze matrix wordt geanalyseerd met
behulp van de itemselectie procedure uit het prograrnma MOKKEN SCALE.

Een nadeel van deze simulatiestudie is dat de invloed van steekproeffluctuaties op de
resultaten niet wordt bestudeerd. Een door Van den Wollenberg (1979, p. 81-88)
beschreven
methode voor het genereren van itemscores is niet gevoelig voor steekproeffluctuaties. Een
nadeel van deze methode lijkt de lastige toepasbaarheid bij grotere (bijv. k > 15) aantallen
items
vanwege de te verwachten lange rekentijd. Om het bezwaar van steekproeffluctuaties hier zo
veel mogelijk te ondervangen, wordt derhalve telkens een grote steekproef (n = 2000) ge'
trokken, en er wordt vooral gelet op de overeenkomsten van de resultaten voor de
verscheidene
matrices.

Tenslotte merken we op dat men de huidige problematiek kan aanpakken volgens de formele
methode uit de vorige paragraaf. Nadat het derde item is vastgesteld, selecteert men een vierde
item dat de gezamenlijke H-coëfficiënt maximaliseert. De parameters pi en pij berekent men
wederom door middel van numerieke integratie, bij een bekende verdeling f(f), etc. Een

-ocr page 129-

K. Sijtsma en P. M. Prins 125

praktisch bezwaar van zo'n onderzoek is dat men een veel uitgebreider computerprogramma
"loet schrijven dan wij hebben gedaan in het geval van drie items, en dat voor praktisch gebruik
herder ongeschikt zou zijn. Het onderzoek is derhalve met behulp van gesimuleerde gegevens
"'tgevoerd.

RESULTATEN

^ubbele monotonie. Figuur 2 geeft een representatief beeld van de volgorde waarin - in dit geval
- equidistante Rasch-homogene items worden geselecteerd door het programma MOKKEN
^9'^LE. Begonnen wordt met twee qua moeilijkheid extreme items, hoewel dit in het voorbeeld
liet de twee meest extreme items zijn.

1.0

0.9

§

0.8

-

s

0.7

-

Uj

0.6

>~i

0.5

§

0.4

_

1

0.3

-

£

0.2

0.1

0.0

1

''•guur 2:

12 16 20 24
SELEKTIEVOLGORDE

1 het algemeen zijn hiervoor twee redenen aan te wijzen: óf de twee extreme items hebben ten
gevolge van steekproeffluctuaties niet de hoogste H-waarde van alle itemparen, óf de waarde
H voor het itempaar verschilt niet significant van nul, zodat een ander paar als startpaar
^ordt gekozen (Mokken, 1971). Voor de items 1 en 33 geldt dat H,,33 = .90, gebaseerd op n, =
n33 = 1862 en n, 33 = 143, waarbij n, het aantal enen is dat is gescoord op item 1, etc. In het
^^al van een extreem moeilijk en een extreem gemakkehjk item is Hy erg instabiel (zie ook
Y^lenaar, 1982c); bijvoorbeeld, bij vaste n, en 1)33 en n|,33 = 134 is Hi jj = .00. Hoewel n, 33
'echts met negen waarnemingen is afgenomen (bij n = 20Ó0) is de afname van 6) 33 aanzienlijk,
e op Hjj gebaseerde asymptotisch standaardnormaal verdeelde toetsingsgrootheid

AJ= (n - 1)'^ (Pij - p,pj) / [p,(l - ft) -

Ijeeft in het geval van extreme items i en j een relatief geringe waarde, want de covariantie tussen
ergelijke items, die in de teller staat, is dan relatief klein: Voor de items 1 en 33 geldt dat
1,33) = .0045 (de correlatie tussen deze items is .07). Voor itemparen met extreem gemakke-
.'J^e en moeilijke items is de toets dus conservatief, maar dat is een prettige eigenschap gezien de
"stabiliteit van Hy in dat geval.

Evenals in het formele voorbeeld uit de vorige paragraaf, hgt het derde item midden tussen de
erste twee. Wanneer men het selectieproces volgt, is duidehjk dat de items zodanig worden

-ocr page 130-

126 Itemselectie in het Mokken model

geselecteerd dat de latente schaal gelijkmatig wordt 'gevuld'. Dit resultaat is gevonden voor alle
onderzochte combinaties van aantal items en standdaarddeviatie.

In Figuur 2 is te zien dat H na een aanvankelijk snelle daling naar een positieve ondergrens
lijkt te naderen. Ook dit beeld komt in alle gevallen terug. In een speciaal geval kan men laten
zien welke waarde H heeft bij itemselectie. Wanneer in de populatie alle p-waarden
identiek
zijn, kan H worden geschreven als

i<j

waarbij (p de produkt-moment correlatie is tussen dichotome variabelen, en (^max) het maxi-
mum gegeven de itemmarginalen. Hieruit is af te leiden dat H — <{>, waarbij de
gemiddelde
interitemcorrelatie is.

In Tabel 1 is te zien dat H sterk afhankehjk is van de standaarddeviatie van de latente trek,
maar daarnaast blijkt H niet al te sterk afhankelijk te zijn van het aantal items in de test (zie
ook
Molenaar, 1982a; Wierda, 1984).

Tabel 1: Coëfficiënt H voor verschillende aantallen items en standaarddeviatie van de latente trek.

st.dev.f
k

0.25

0.50

0.75

1.00

4.00

5

0.08

0.32

0.53

0.67

0.95

9

0.09

0.29

0.47

0.59

0.94

17

0.08

0.25

0.43

0.58

0.93

n.b. De discriminatieparameter van de items is gelijk aan 2.00.

Monotone homogeniteit. In empirisch onderzoek ziet men meestal dat H blijft afnemen tijdens de
selectie van items, totdat bij voldoende items de arbitraire ondergrens, H = 0.30, wordt bereik'
(Mokken, 1971), waarna het selectieproces bijvoorbeeld wordt afgebroken. De reden voor de
afname van H is dat men doorgaans de itemanalyse begint met het selecteren van items volgens
H, en daarna de geselecteerde items onderzoekt op dubbele monotonie. De oorspronkelijke
verzameling van items zal meestal niet dubbel monotoon zijn; vele ICC's zullen elkaar bijvoor-
beeld snijden. Het gevolg is dat eerst de items worden geselecteerd die voor een relatief hoge H
zorgen, maar vervolgens worden items geselecteerd die H sterk doen dalen. De eerste itemS
hebben vaak een relatief sterk discriminerend vermogen.

Twee situaties waarin de dubbele monotonie is, geschonden, zijn door ons systematisch
onderzocht. In het eerste geval bevat de verzameling van items waaruit geselecteerd zal worden
negen equidistante R'asch-items tussen -2.0 en 2.0, en twee items met een relatief zwak discrimi-
nerend vermogen (zie bijvoorbeeld Figuur 3). De verwachting is dat de zwak discriminerende
items meestal als laatste worden geselecteerd. In het tweede geval bevat de verzameling van
items naast negen Rasch-items één item waarvan het discriminerend vermogen sterker is dan
van de overige items. Nu luidt de verwachting dat dit item als één der eersten zal
worden
geselecteerd.

In het eerste geval werden verschillende combinaties van de moeilijkheid en het discrimine-
rend vermogen van de twee toegevoegde items onderzocht. De verdeling f(f) was steeds
standaardnormaal. In Figuur 4 is voor een representatief geval te zien dat de negen Rasch-items
op de nu voorspelbare manier worden geselecteerd, waarbij H weer nadert naar een positieve
ondergrens. Als laatste worden de twee items toegevoegd die de dubbele monotonie schenden,
en het gevolg is een relatief sterke daling van H.

-ocr page 131-

Q

K. Sijtsma en P. M. Prins 127

-4.0 -3.0 -2.0 -1.0 0.0 1.0

LATENTE TREK

o:

O
O

s
s

al

P'

'g»ur3: Negen Rasch-homogene items, waarvan Da = 2.0, en twee schendende items waarvan Da|Q =
0.50 en a,o = -2.00, en Da,, = 1.00 en o,, = -1.00.

. Oe beschrijving van de tweede situatie is bijna identiek aan de beschrijving van de eerste
^'tuatie. De moeilijkheid en het discriminerend vermogen van het tiende item werden systema-
tisch gevarieerd. Op twee gevallen na behoorde het 'schendende' item tot het startpaar van de
"emselectie. In de twee uitzonderingsgevallen werd het item als derde geselecteerd. In deze
Sevallen had het item een moeilijkheid gelijk aan nul, en bevond het zich dus in het midden van
verdeling van f, zodat het aantal foutenpatronen met andere items relatief groot was.

CD
UJ

s

liJ

a:

O
O.
O

CL.

3 5 7 9 11
SELEKTIEVOLGORDE

-ocr page 132-

128 Itemselectie in het Mokken model

DISCIJSSIIÏ

In dit artikel is de selectie van items onderzocht, waarbij Loevinger's coëfficiënt H het te
maximeren selectiecriterium is.

Uit simulatieonderzoek op gegevens die aan de cis van dubbele monotonie voldoen blijkt dat
na selectie van de eerste twee extreme items, de volgende items zodanig worden gekozen dat de
items qua moeilijkheid gelijkmatig worden gespreid over het latente continuüm (zie ook
Roskam et al., 1983, p. 98,99). Tevens blijkt dat wanneer het discriminerend vermogen van de
items niet te klein is, grote aantallen items mogen worden geselecteerd - waarbij vele
items
ongeveer dezelfde moeilijkheid hebben en de ICC's vrijwel samenvallen - omdat H tijdens het
selectieproces al vrij snel nadert naar een positieve ondergrens. Daarbij zal doorgaans de
betrouwbaarheid en dus het discriminerend vermogen van dc test toenemen.

In de praktijk begint ccn itemselectie volgens Mokken met het selecteren van items volgens de
H-coëfficiënt, waarna dc resulterende verzameling wordt onderzocht op dubbele monotonie
(bijv. Mokken, 1971, p. 254-289; Henning & Six, 1977; Lippert, Schneider & Wakenhut, 1978;
Mokken & Lewis, 1982, p. 424,425). Uit onze resultaten blijkt echter dat items die de dubbele
monotonie verstoren tegelijkertijd tot het startpaar in de selectie volgens H kunnen behoren-
Hieruit zou men kunnen concluderen dat het wellicht beter is de volgorde van de selectiestappen
om te keren. Men begint dan met een onderzoek naar dubbele monotonie (Mokken, 1971, p-
134; Molenaar, 1982b, c), waarna wordt onderzocht in hoeverre de items of een deelverzameling
ervan het ideaal van Guttman benaderen.

Dubbele monotonie is een eigenschap van een verzamehng van items, waardoor het soms
lastig is om items als 'schenders' aan te wijzen. Vaak zijn de schenders qua aantal in de
minderheid, maar kunnen ze soms relatief sterk discrimineren, en eventueel dus wel positief
bijdragen aan het maximeren van H. Over het mogelijk met elkaar op gespannen voet staan van
dubbele monotonie en een hoge H zij verder verwezen naar Jansen et al. (1984) en Sijtsma
(1986).

LITERATUUR

Birnbaum, A.( 1968). Par/ V in: F.M. Lord & M.R. Novick. Statistical theories of mental lesl scores. Reading:
Addison-Wesley.

Gifi, A. (1981). Non-linear multivariate analysis. Leiden, The Netherlands: Department of Datatheory.
Faculty of Social Sciences, University of Leiden.

Guttman, L. (1950). The basis for scalogram analysis. In S.A. Stouffer, L. Guttman, E.A. Suchman, P.F-
Lazarsfeld, S.A. Star, & J.A. Clausen (Eds.),
Measurement and prediction. Princeton: Princeton
University Press.

Henning, H.J. (1976). Die Technik der Mokken-Skalenanalyse. Psychologische Beiträge. 18. 410-430.

Henning, H.J., & Six, B. (1977). Konstruktion einer Machiavelhsmus-Skala.2c//ic/ir//if/örSoz/a/;>j>'cAo/<'-
gie, 8, 185-198.

Jansen, P.G.W. (1982a). Homogenitätsmessung mit Hilfe des Koeffizienten H von Loevinger: Eine
kritische Diskussion.
Psychologische Beiträge, 24, 96-105.

Jansen, P.G.W. (1982b). De onbruikbaarheid van Mokkenschaalanalyse. Tijdschrift voor Onderwijs-
research,
7, 11-24.

Jansen, P.G.W. (1983). Rasch analysis of attitudinal data (dissertatie). Den Haag: Rijks Psychologische
Dienst.

Jansen, P.G.W., Roskam, E.E.Ch.I., & Wollenberg, A.L. van den (1984). Discussion on the usefulness of
the Mokken procedure for non-parametric scaling.
Psychologische Beiträge, 26, 722-735.

Lippert, E., Schneider, P., & Wakenhut, R. (1978). Die Verwendung der Skalierungsverfahren von Mokken
& Rasch zur Uberprüfung und Revision von Einstellungskalen. Diagnostica, 24, 252-274.

Loevinger, J. (1948). The technique of homogeneous tests compared with some aspects of'scale analysis
and factor analysis. Psychological Bulletin, 45, 507-530.

Mokken, R. J. (1971). theory and procedure of scale analysis. The Hague: Mouton.

-ocr page 133-

K. Sijtsma en P. M. Prins 129

bokken, R.J., & Lewis, C. (1982). A nonparametric approach to the analysis of dichotomous item

responses. Applied Psychological Measurement, 6. 417-430.
Molenaar, I.W. (1982a). De beperkte bruikbaarheid van Jansen's kritiek.
Tijdschrift voor Onderwijsre-
search.
7, 25-30.

■Molenaar, I.W. (1982b). Een tweede weging van de Mokkenschaal. Tijdschrift voor Onderwijsresearch. 7,

j^olcnaar, I.W. (1982c). Mokken scaling revisited. Kwantitatieve Methoden, vol. 3, nr. 8, 145-164.
"Molenaar, I.W., & Sijtsma, K. (1984). Internal consistency and reliability in Mokken's nonparametric item
v.. response model. Tijdschrift voor Onderwijsresearch, 9, 257-268.

^'emöller, K., & Schuur, W. van (1983). Stochastic models for unidimensional scaling: Mokken and Rasch.

In D. McKay, N. Schofield, & P. Whiteley (Eds.), Data analysis and the social sciences. London:
ß Frances Pinter Publ.

®sch, G. (1980). Probabilistic models for some intelligence and attainment lesls (first published in 1960).
J, Chicago: University of Chicago Press.

•loskam, E.E., Wollenberg, A.L. van den, & Jansen, P.G.W. (1983). The Mokken scale: A critical

discussion. In: Proceedings SMASBS-conference. Amsterdam: SISWO-publicatie.
'J'sma, K. (1986). Another note on the usefulness of Mokken scaling.
Psychologische Beiträge, 28.
„ (forthcoming).

'AP, user's manual, volume 4 (1980). Stochastic cumulative scaling/Mokken scale/Mokken test. Tech-
„ nisch Centrum FSW, University of Amsterdam.

^okman, F.N., & Schuur, W.H. van (1980). Basic scaling. Quality and Quantity, 14, 5-30.

"erda, F.W. 0984). Mokkenschaalanalyse: bijdrage aan een discussie. Afstudeerscriptie, Sociologisch
^ Instituut Rijksuniversiteit Groningen,
o'lenberg, A.L. van den (1979).
The Rasch model and time-limit tests. Nijmegen: Stichting Studentenpers
Nijmegen (dissertatie).

^""uscript ontvangen 4-3-1985
^fmitieve versie ontvangen 21-11-1985

-ocr page 134-

Tijdschrift voor Onderwijsresearch, II (1986), pp. 130-140.

Twee ordinale analyse technieken in een
niet- equivalent pretest-posttest ontwerp
met geordende categorieën

Pieter Vijn

Het Lester Wunderman Instituut

ABSTRACT

In this introductory note, two simple methods for dealing with ordinal data in a pretest-posttes'
design are presented. The methods are - step by step - illustrated with a hypothetical example. One
method is an extension of McNemar's test for correlated proportions in a 2 x 2 - table

INLEIDING

Stel men is geïnteresseerd in het effect van een behandelingsmethode (therapie, voorlichting^'
campagne, onderwijsmethode).
Er wordt een experimentele en een controle groep samengS'
steld. Natuurlijk probeert men de groepen zo vergehjkbaar mogelijk te maken. Immers, een
geconstateerd effect mag niet toe te schrijven zijn aan een mogelijk verschil tussen de
experimen'
tele en de controle groep. Het beste is de personen a-select toe te wijzen aan de twee groepen. Na
toewijzing mag er nog maar één verschil zijn tussen de groepen;
de experimentele groep ontvang'
de behandeling; de controle groep niet.

Problematisch is nu dat in veel (praktijk)situaties de twee groepen niet a-select samengesteld
kunnen worden. Bijvoorbeeld de ene volledige klas kinderen ontvangt een nieuwe onderwijs'
methode (de 'treatment'), een andere
volledige klas blijft volgens de oude methode werken.
Indien we de observatie (het afnemen van een meetinstrument) met O aanduiden, en het geven
van de treatment met X, dan is een gangbare variant van het
niet-equivalente pretest-posttest
ontwerp aan te duiden, zoals in Figuur 1 weergegeven.

pretest treatment posttest

Experimentele groep 0X0

Controlegroep O - O

Figuur 1. Schema voor een niet-equivalent pretest-posttest ontwerp.

Bij de aanvang van de studie worden beide groepen met hetzelfde meetinstrument geconfron-
teerd. Na afloop wordt hetzelfde meetinstrument opnieuw aan beide groepen voorgelegd.
wordt aangenomen dat het meetinstrument het construct valide meet (bijv. sociale
angst'
assertiviteit, rekenvaardigheid).

Ten tijde van het onderzoek was de auteur werkzaam bij de vakgroep Methodenleer van de Subfaculteit

Psychologie van de Universiteit van Amsterdam.

Adres auteur: Ottho Heldringstraat 27,1066 XT Amsterdam.

-ocr page 135-

Pieter Vijn 131

Er wordt verder verondersteld (in dit artikel) dat de afhankelijke variabele in dc pre- en
Posttest gescoord wordt op een
geordende categorische schaal.

Bijvoorbeeld, de mate van sociale angst wordt aangekruist op een 5-punts Likert schaal.

Sterk

Afwezig

Neutraal

Aanwezig

Sterk

aanwezig

afwezig

2. Voorbeeld van een Likert schaal.

De pretestvariabele heeft een versluierende werking op de schatting van het zuivere treatment
e'fect indien aan twee voorwaarden voldaan is (Anderson et al., 1980):

De experimentele (E) en controle (C) groep verschillen op de pretestvariabele;
2- De pretestvariabele beïnvloedt de posttest variabele.

Voorwaarde 1 kan statistisch getoetst worden, afhankelijk van het meetniveau, bijv. met een
^ "'oets bij nominale gegevens, met - een nog te bespreken - toets voor ordinale gegevens, of
"let een t-toets (of Mann-Whitney) bij interval data.
Gesteld dat aan beide voorwaarden voldaan is, dan is een analyse methode nodig welke een
"ectschatting geeft met een correctie voor het pretestverschil.
Het niet-equivalente Pretest-Posttest ontwerp is een veel gebruikte proefopzet in quasi-
e^Perimenteel onderzoek (Cook & Campbell, 1979; Anderson, Auquier, Hauck, Cakes, Van-
°aele, Weisberg, 1980; Baier, 1983).

^"alysemogelijkheden voor nominaal of interval meetniveau

worden ordinale gegevens hetzij als nominaal, hetzij als interval opgevat. Indien het
Ordinale karakter volledig verwaarioosd wordt, en de gegevens als nominaal beschouwd
borden, dan is kruistabelanalyse een geschikte methode (Fienberg, 1980; Vijn, 1982).
Als met kruistabelanalyse besloten wordt tot een 'significant effect', betekent dat, dat de
erdeUng van posttest scores in de treatment en controle groep - gecorrigeerd voor pretest
erschillen - niet aan elkaar gelijk zijn.

'n plaats van het ordinale karakter volledig te verwaarlozen, kunnen we veronderstellen dat
e gegevens interval eigenschappen bezitten. De schaalpunten krijgen de scores 1, 2, 3,4 en 5.
^'ddels een covariantie-analyse (ANCOVA), met de pretest als covariaat, kan het (zuivere)
ehandelingseffect (A) getoetst en geschat worden (Anderson et al., 1980). Het behandelingsef-
ect A is het verschil tussen de gemiddelden van de posttest scores in treatment- en controle
^■^oep, gecorrigeerd voor pretest verschillen. In het ANCOVA model geldt de aanname dat er
en constante toename (of afname) A is van de scores van de proefpersoon als gevolg van de
ehandeling. Een probleem bij het toekennen van scores 1,2,3,4 of 5, is de sterke aanname dat
f4\ moeilijk is om van bijv. 'sterk aanwezig' (1) naar aanwezig (2) te gaan, als van afwezig
naar sterk afwezig (5). Alle gelijke verschillen op de schaal worden even belangrijk (of
"Moeilijk) verondersteld.

^rdinale Analysemogelijkheden

^ e zullen nu een aantal ordinale analyse methoden bespreken. In deze methoden wordt
^^ngenomen dat de te meten eigenschap (mate van assertivkeit, mate van faalangst) een
""'mue
latente (niet observeerbare) variabele is. Elk individu heeft een onbekende (latente)
^ eore' op die
continue schaal; die 'score' geeft aanleiding tot een manifeste, observeerbare
^espons in een categorie van de ordinale schaal. De categorieën op de observeerbare schaal
rresponderen met een aantal onbekende schaalpunten s op de continue schaal. In Figuur 3
ordt het responsieproces weergegeven.

-ocr page 136-

132 Twee ordinale analyse technieken

sterk
aan-
wezig

aan-
wezig

neutraal

afwezig

sterk
afwezig

manifeste
5 punts schaal
score

1 2 3

Figuur 3. Relatie tussen latent en manifest responsproces.

De kans dat een proefpersoon de categorie 'aanwezig' aankruist, is gelijk aan de kans da'
zijn/haar latente eigenschap tussen s, en S2 ligt. De schaalpunten s,, S2, S3 en S4 zijn
onbekend.
wordt aangenomen dat de cumulatieve respons verdeling in Figuur 3 logistisch is (welke
nauwelijks te onderscheiden valt van de cumulatieve normale verdeling).

We bespreken twee analyse problemen:

1. Het vergelijken van twee onaßankelijke ordinale steekproeven. Schaalpunten kunne"
worden geschat met behulp van het ordinale regressie model Multiqual (Bock, 1974);

2. Het vergelijken van twee aßiankelijke ordinale steekproeven.

Met het 'vergelijken' in 1. en 2. is bedoeld:

'De schatting en toetsing van het verschil tussen de gemiddelden van de latente (logistische)
verdelingen (zie figuur 4).

latente scores

Figuur 4. Twee latente populatieverdelingen.

In het ANCOVA model is A het verschil tussen de gemiddelden van de observeerbare verde
lingen van de scores. In de ordinale technieken is A het verschil tussen de gemiddelden van de
latente (onobserveerbare) verdelingen van 'scores'. De technieken worden toegelicht aan de
hand van een hypothetisch voorbeeld.

-ocr page 137-

Pieter Vijn 133

Het vergelijken van twee onafhankelijke ordinale steekproeven

een hypothetisch voorbeeld gaat het om de vraag of een nieuwe onderwijsmethode een
positief effect heeft op de reductie van faalangst. De experimentele groep ontvangt de nieuwe
•"ethode (de 'treatment'), de controlegroep niet. Het aantal personen in elke groep is 54. De
toewijzing van de personen aan de groepen is niet a-select. In beide groepen worden de kinderen
(op pretest en posttest) gescoord op een 5-punts Likert schaal. De categorieën indiceren de mate
^an faalangst (zie figuur 2 van dit onderzoek).

"^e gegevens zijn in Tabel 1 weergegeven.

T^bel 1. Aantal proefpersonen en verdeling daarvan over combinaties van pretest en posttest scores, zowel
voor controle groep als voor experimentele groep.

•"retest
Score

controle groep experimentele groep

Posttestscore Posttestscore

1

2

3

4

5

Totaal

1

2

3

4

5

Totaal

1

6

1

1

0

1

9

3

2

0

1

0

6

2

9

16

1

1

1

28

2

10

1

5

0

18

3

2

3

2

0

1

8

1

1

6

4

0

12

4

1

0

1

1

0

3

0

0

0

2

®

6

5

0

3

1

2

0

6

0

0

1

1

10

12

18

23

6

4

3

54

6

13

8

13

14

54

'otaal

Voorbeeld: In de experimentele groep zijn er 4 personen die op de pretest een score van 4 en
°P de posttest een score van 4 hebben.
Ilereerst wordt onderzocht of de pretestverdelingen in de twee groepen van elkaar verschillen,
'e Verdelingen zijn gegeven in Tabel 2.

Tabel

2. Scoreverdeling op pretest voor controle- en experimentele groep.

pretestscores Totaal

--------1 2 3 4 5

pt "" ----

ontrole n„ = n,,= n,3= n,4= n,5= n,=54

9_28_8_3_6

^*Perimenteel nj, = t\22 = njj = n24 = "25 = nj = 54

6 18 12 6 12

Totaal n, = 15 n2 = 46 n3 = 20 n4 = 9 n5=18 N=108

t

j ordinale toets op gelijkheid tussen de twee onafliankelijke groepen is gegeven door McCul-
^agh (1980). In feite wordt getoetst of het verschil der gemiddelden A op de latente schaal
I Snificant van nul afwijkt. De methode wordt in een aantal stappen gepresenteerd, zodat een
®?er de methode op eenvoudige manier kan programmeren op een zakrekenmachine of een
j '^rocomputer. Uitgangspunt is een ordinale responsvariabele, met k geordende categorieën.
" net voorbeeld is k = 5.

^TAP 1: Bereken uit Tabel 2 een 2x(k-l) tabel met cumulatieve aantallen Rjj, waarbij R,j het
.^ulatieve aantal is in groep i (i = 1 is controle en i = 2 is experimentele groep) en categorie j
3,4). In tabel 3 worden de cumulatieve aantallen weergegeven.

-ocr page 138-

134 Twee ordinale analyse technieken

Tabel 3. Cumulatieve aantallen in controle-cn experimentele groep.

groep

cumulatieve aantallen

Totaal

controle

Ri, = 9

R|2 = 37

R,3 = 45

R|4 = 48

54

experimenteel

R2I=6

«22 = 24

R23 = 36

«24 = 42

54

Totaal

R 1 = 15

R.2 = 61

R.3 = 8'

R.4 = 90

108

STAP 2: Bereken de kruisproduct ratio

(R2j+'/2)(n,-R,j+-/2)

Aj = ln--, j= l,...,k—1.

(R|i+72)(n2-R2i+'/2)

Bijvoorbeeld voor j = 1:

= =-0.4433.

9.5x48.5

Evenzo A^ = —0.9812, Aj = —0.8869, A4 = —0.7860.
STAP 3: Bereken gewichten

Wj = (d| 4- d2 + dj + d4r' dj, met

(1- ^-i) (".j + ".i + ») j=,
' N N N

De som van de gewichten is 1.

Bijvoorbeeld voor j = 1:

d,=il(l-Ji) =0.0676.

108 108 108

Evenzo

d2 = 0.1502, dj = 0.0503, d4 = 0.0347,
terwijl de gewichten gelijk zijn aan

w, = 0.2232, W2 = 0.4960, Wj = 0.1661, W4 = 0.1146.
STAP 4: Schat het verschil tussen de gemiddelden (Ä) van de twee latente verdelingen.

-ocr page 139-

Pieter Vijn 135

k-l

A= 2 WjAj
j=i

=^-0.8231

STaP 5: Bereken de variantie van de scliatting L

var A =

N J=i '

54.53
108

= 0.3028

= 0.1223

STAP 6: De ratio

Z = .

\/ var(A)

's bij (benadering) standaard normaal verdeeld. In het voorbeeld is

Z = .M^=-2.3535 .
0.3497

^eze waarde is significant op 5%.

conclusie is dat beide groepen verschillen op de pretestvariabele faalangst.
Indien de gegevens uit Tabel 2 als nominaal opgevat worden, en we de gelijkheid van de
Verdelingen met een x^-toets onderzoeken, dan blijkt x^=6.57, met 4 vrijheidsgraden en een
Overschrijdingskans van p =. 15. De conclusie is dan dat de pretest verdelingen
niet verschillen,
daardoor de pretest geen verstorende variabele zou zijn.

Het vergelijken van twee afhankelijke ordinale steekproeven

" een niet-equivalent pretest-posttest design ondergaan de proefpersonen zowel de pretest als
e posttest. Zowel in controle als in experimentele groep geldt dat de verdeling van posttest
^eores
afhankelijk is van de scores op de pretest. We moeten daarom in elke groep twee
"jnankelijke steekproeven (de pretest- en posttest scores) met elkaar vergelijken.

^e hier gepresenteerde methode is te beschouwen als een uitbreiding van McNemar's test voor
gecorreleerde proporties in een 2x2 tabel (zie Siegel, 1956, p. 63; Everitt, 1977, p. 20). McNe-
j test is geschikt voor een onderzoekssituatie met twee
gematchte steekproeven (bijv. op
f ^'^''jd, geslacht). Elke proefpersoon vertoont een kenmerk A
wel of niet. In Tabel 4 zijn de
''equenties weergegeven.

-ocr page 140-

136 Twee ordinale analyse technieken

Tabel 4. Frequentie in 2-gcmatchte steekproeven.

Steekproef II

(Posttest groep O

steekproef 1

(pretest
groep 1)

A

A

wel

niet

totaal

A wel

a

b

a + b

A niet

c

d

c + d

totaal

a + c

b + d

De hypothese is dat er geen verschil tussen de steekproeven met betrekking tot het kenmerk A is-
We verwachten dat het aantal overgangen b (wel niet) gelijk is aan c (niet — wel). De
toetsingsgrootheid is x^-verdeeld:

(|b-c|-l)^
b + c

met één vrijheidsgraad.

McCullagh (1977) geeft een uitbreiding van de McNemar procedure tot k (hier k = 5)
geordende categorieën. De twee steekproeven zijn de steekproeven van pretest scores en
posttest scores. Elke proefpersoon is dus 'gematcht met zichzelf. In de procedure speelt de
verhouding

aantal positieve overgangen (aanwezig — afwezig)

totale aantal overgangen (positieve en negatieve)

een essentiële rol. De latente eigenschap is continue verondersteld. Per groep wordt het verschi'
tussen de_ gemiddelden van de pretest en posttest latente verdeling berekend, alsmede de
variantie van de schatting. Stel dat A^ en A^ de schattingen van het latente verschil in experimeO'
tele en controle groep is, met varianties var(Aj) en var (AJ, dan is de schatting van het
treatmenteffect:

met variantie

var(A) = var(Ae + var (AJ.
De gestandaardiseerde waarde

V var A

is standaard normaal verdeeld.

De procedure van McCullagh wordt in elk van de twee groepen uitgevoerd. Het aanta'
categorieën is k (=5).

-ocr page 141-

137

Pieter Vijn

STAP 1: Gegeven zijn de frequenties in dc data matrix in Tabel 1, genoteerd als:

"aß,

a= l,....,k;j3= l,....,k

STAP 2: Bereken de symmetrische (k — 1) x (k — 1) matrix M met overgangen mjj
i k

,k— l;j = i.....,k— 1.

m,j-i; S + 1,

0,= ! (S = j+1

Mc =

Bijvoorbeeld bij de controlegroep:

m,3 = ((114+ n4|) + (n|5+ nj,) = 1 + 1=2.

matrix M voor de 2 groepen is:
controle groep

experimentele groep

15

5

2

1

6

2

1

0

5

14

7

5

,Me =

2

9

6

0

2

7

10

7

1

6

11

1

1

5

7

9

0

0

1

6

^Tap 3: Bereken in elke groep de symmetrische inverse M"
controle groep:
0.07617 -0.0302 0.0002 0.0082
0.1219 -0.0751 -0.0059
0.2708 -0.1689
0.2448

M-' =

c

,M-" =

E

experimentele groep:
0.1805 -0.0460 0.0088 -0.001!
0.1879 -0.0998 0.016(
0.1468 -0.024:
0.1701


stap 4: Bereken de (k — 1) x (k — 1) matrix D met als diagonaalelementen de diagonaalele-
"lenten van M, terwijl de elementen van D niet op de diagonaal nul zal zijn.

controle groep

experimentele groep

15

0

0

0

6

0

0

0

Dc =

0

14

0

0

De =

0

9

0

0

0

0

10

0

0

0

11

0

0

0

0

9

0

0

0

6

-ocr page 142-

138 Twee ordinale analyse technieken

STAP 5; Bereken de vector m bestaande uit de diagonale elementen van M (of van D)
controle groep experimentele groep

15

mc —

mE =

14
10
9

STAP 6: Bereken de (kolom) vector met positieve overgangen.

Bijvoorbeeld: r4 = nis + n25 + njs + n45 = 3
controle groep
3

experimentele groep

3

rE= 7
10

4

experimentele groep
0.2215
We= 0.1828

0.3336
0.2621

rc= 5
4
3

STAP 7: Bereken de kolom vector met gewichten w
w = (DM-im)/(m'M-'m)1)
controle groep
0.4851
Wc = 0.2555
0.0565
0.2030

6
9
11
6

STAP 8: Bereken per groep de gewogen schatting van het verschil tussen de gemiddelde van de
latente pre- en posttest verdeling

1 m is een kolom vector, terwijl m' een rijvector is, m' = (m i, m2, mj, m4)

-ocr page 143-

Pieter Vijn 139

k-1

A= W| ln

: — I J

controle groep experimentele groep

= —0.9036 An = — 1.0040

STaP 9: Bereken de variantie van de geschatte A
var(A) = 4 (1 + '/4 A-^) / (m'M-'m)

controle groep experimentele groep

var(Ac) = 0.2441 var(AE = 0.1959

STAP 9: Bereken het gestandaardiseerde effect

^^ „. (Ae-AC)

(var(AE) + (var(Ac))'/=

1.9076

Öe schatting van het treatmenteffect is A = Ae — Ac = 1.9076. Deze schatting is significant op
5%. De conclusie is dat de nieuwe onderwijsmethode een substantieel positief effect heeft in
■■eductie van faalangst.

TOT BESLUIT

'n deze notitie zijn twee eenvoudige, zelf te programmeren, analysemogelijkheden voor ordi-
nale gegevens behandeld. Het kenmerk hiervan is de veronderstelling van een latente, onder-
'iggende variabele, en het feit dat een onderzoeker apriori geen gewichten aan schaalpunten
hoeft toe te kennen. Agresti (1983) geeft een overzicht van analyse strategieën voor (meer-
dimensionale) kruisclassificaties met ordinale variabelen. De meeste daarin behandelde me-
'hoden veronderstellen geen latente variabele, en 'vragen' wel om (apriori) gegeven gewichten,
^oor handig met log-lineaire en logitmodellen om te springen zijn bestaande of eenvoudig aan
passen computerprogramma's te gebruiken. Ook kunnen die modellen veel algemenere
Proefopzetten aan dan het - in deze notitie - behandelde pretest-posttest ontwerp. Deze notitie
's met name bedoeld voor een onderzoeker 'in het veld', die alleen een aantal specifieke
Onderzoeksvragen heeft en geen of moeilijk toegang heeft tot algemene computerprogramma's.

rj+'/2

-ocr page 144-

140 Twee ordinale analyse technieken

LITERATUUR

Agresti, A. (1983). A survey of strategies for modelling crossclassifications having ordinal variables. Journal
of the American Statistical Association. 78, 321, 184-198.

Anderson, S., Auquier, A., Hauck, W.W., Oakes, D., Vandaelc, E., & Wcisberg, H.1. (1980). Statistical
methods for comparative studies. New York: Wiley.

Baier, M. (1983). Elements of direct marketing. New York: McGraw-Hill.

Bock, R.D. (1975). Multivariate statistical methods in behavioral sciences. New York: McGraw-Hill.

Cook, T.D., & Campbell, D.T. (1979). Quasi-experimentation: Design and analysis issues for field settings-
Chicago: Rand McNally.

Everitt, B.S. (1977). The analysis of contingency tables. London: Chapman and Hall.

Fienberg, S.E. (1977). The analysis of cross-classified categorical data. Cambridge: The M.I.T. press.

McCullagh, P.A. (1977). A logistic model for paired comparisons with ordered catcgorical data. Biome-
irika. 64, 449-453.

McCullagh, P. (1980). Regression models for ordinal data. J.R. Statist. Soc. B, 42. 109-142.

Siegel, S. (1956). Nonparametric statistics for the behavioral sciences. New York: McGraw-Hill.

Vijn, P. (1982). De analyse van kruistabellen. Tijdschrift voor Onderwijsresearch, 7, 212-222.

Manuscript ontvangen 21-10-1983

Definitieve versie ontvangen 5-2-1986

-ocr page 145-

Tijdschrift voor Onderwijsresearch, 11 (1986), pp. 141-148.

Bekroond ord paper i985

Dit artikel is een bewerking van het door de VOR bekroonde ORD-paper

Overscholing en inkomen

Hessel Oosterbeek'

Instituut voor Onderzoek van Overheidsuitgaven

abstract

This paper deals with the relation between levels of education and earnings. This is done by
estimating a general specification of the earnings function which is derived from allocation-models
on the labor market. The results show that:

- The rate of return to education is about 7% if individuals are allocated to a job where required and
attained levels of education are equal;

- There is a loss of return of 20% for each year an individual ends up in a job that requires less
schooling than the individual has available;

- If one manages to get a job requiring more education than available the return for each year of
overutilization is 4.6%.

The results show also that the general specification is superior to both the human capital specifica-
tion and the job competition specification.

INLEIDING

In recente diskussies over het funktioneren van de arbeidsmarkt speelt het begrip overscholing
een voorname rol. Overscholing omschreven als een situatie waarbij personen over een hoger
onderwijsniveau beschikken dan vereist is voor de baan die ze bezetten^, zou zorgen voor
Verspilling. Onderzoek naar de omvang van overscholing in Nederland kwam uit op 17%
overschoolden in 1974 en 48% in 1979 (zie Hartog, 1985). Voor de Verenigde Staten kwamen
Vergelijkbare berekeningen uit op 42% overschoolden in 1976 (Duncan & Hoffman, 1981).

Studies naar de gevolgen van overscholing zijn verricht door Tsang (1984) en Duncan en
Hoffman (1981). Beiden hebben betrekking op de Verenigde Staten. Tsang heeft berekend dat
®én jaar overscholing via verminderde bevrediging in het werk leidt tot een produktieverlies van
8.35%. Duncan en Hoffman hebben vastgesteld dat overscholing een negatieve invloed heeft op
het inkomen. Onderzoek naar de gevolgen van overscholing is tot nu toe voor Nederland niet
expliciet verricht, hoewel uit verschillende publikaties van Hartog een aantal konklusies dien-
aangaande kunnen worden getrokken. Deze konklusies zijn in overeenstemming met de resulta-
ten van het onderhavige onderzoek.

In dit artikel zullen de gevolgen van overscholing voor de individuele beloningen worden
nagegaan aan de hand van een in 1982 in Nederland gehouden arbeidsmarktonderzoek. Eerst
^al daartoe kort het theoretisch kader worden geschetst. Vervolgens worden de data besproken
^n de variabelen exakt gedefinieerd. Daarna worden de resultaten gepresenteerd en besproken,
l^aarbij komt onder meer ter sprake welke theoretische implikaties de resultaten hebben. Tot
slot worden de belangrijkste konklusies vermeld.

Adres: Oranjestraat 8,2514 JB 's-Gravenhage.

-ocr page 146-

142 Overscholing cn inkomen

THEORETISCH KADER

De relatie tussen onderwijsniveau en inkomen neemt in de onderwijs-ekonomische literatuur
een belangrijke plaats in. Met name de zogenaamde human capital-theorie ziet in een positief
verband tussen deze beide variabelen een ondersteuning van haar centrale notie dat mensen in
zichzelf investeren om daar later voordeel van te hebben. Het funktionele verband dat uit deze
theorie volgt, luidt:

lnY, = a + bs (1)

waarin: Yj = het jaarlijkse inkomen van iemand met sjaar scholing,
s = het beschikbare onderwijsniveau in jaren.

Deze vergelijking is een zogenaamde beloningsvergelijking. De prijs van arbeid (de beloning) is
hierin in dit geval een funktie van de variabele scholing. Onder bepaalde veronderstellingen kan
de koëfficiënt b daarbij worden opgevat als het private rendement van investeringen in onder-
wijs (Mineer, 1974).

Een belangrijk punt van kritiek op de human capital-theorie is dat daarin uitsluitend
rekening wordt gehouden met de aanbodzijde van de arbeidsmarkt. In de beloningsvergelijking
komt dit tot uitdrukking in het feit dat voor het inkomen van een individu alleen het beschik-
bare onderwijsniveau van belang is en niet het onderwijsniveau dat vereist is voor de baan die
het individu bezet.

Een geheel tegengestelde benadering komt men tegen in de zogenaamde job competition-
theorie (Thurow, 1975). Hierin wordt arbeidsproduktiviteit beschouwd als een kenmerk van
een baan, onafhankelijk van de kenmerken van degene die de baan bezet. Daarmee samenhaii-
gend is de beloning van een individu in deze optiek een funktie van het onderwijsniveau dat is
vereist voor de baan die wordt bezet. De beloningsvergelijking die impliciet uit de theorie van
Thurow volgt, luidt:

ln Y3 = a -I- bv (2)

waarin: v = het voor een baan vereiste onderwijsniveau in jaren.

Een belangrijk punt van kritiek op de job competition-theorie is dat de arbeidsproduktiviteit, en
daarmee de beloning, uitsluitend afhangt van vraagkenmerken.

Een theorie die zowel met vraag- als met aanbodkenmerken rekening houdt is geformuleerd
in Tinbergen (1956) en later onder meer uitgewerkt in Hartog (1978). Kern van deze vraag en
aanbod-theorie is dat de beloningsvergelijking kan worden opgevat als een prijsvergelijking van
arbeid, waarin de verschillende gevraagde en aangeboden kenmerken van het verhandelde
goed
voorkomen. Indien in deze theorie onderwijsniveau wordt beschouwd als het enige kenmerk dat
er voor zorgt dat arbeid heterogeen is, dan is een mogelijkheid om met zowel vraag als
aanbod
rekening te houden, een splitsing van het beschikbare onderwijsniveau (s) in het vereiste
onderwijsniveau (v) en het verschil tussen beide (zie ook Duncan & Hoffman, 1981). Dit
verschil duidt op overscholing (s°) indien s>v en op onderscholing (s") indien v>s. De
beloningsvergelijking die hieruit volgt, en is te beschouwen als een synthese van de vergelij-
kingen (1) en (2), luidt:

lnY, = a-|-bv-i-cs''-f-ds" (3)

waarin: s" = s - v indien s > v, anders s" = O
s" =
V - s indien v > s, anders s" = O

-ocr page 147-

Hessel Oosterbeek 143

Empirische schatting van vergelijking (3) geeft inzicht in de invloed van overscholing en
onderscholing op het rendement van onderwijsinvesteringen. Tevens kan vergelijking van de
schattingsresultaten van de drie verschillende beloningsvergelijkingen uitsluitsel geven omtrent
de vraag welke van de drie genoemde theorieën de werkelijkheid het best beschrijft. Alvorens de
schattingsresultaten van de verschillende beloningsvergelijkingen worden weergegeven en
besproken, worden eerst de data en variabelen beschreven.

DATA EN VARIABELEN

Voor de empirische toetsing van de verschillende beloningsvergelijkingen is gebruik gemaakt
Van het in 1982 door het IVA in Tilburg, in samenwerking met het CBS, uitgevoerde NPAO-
prbeidsmarktonderzoek. Het betreft hier een enquête onder 2677 personen, die in eerste
'nstantie was gericht op het vergaren van gegevens omtrent arbeidsmobiliteit, inkomen en
opleiding. Deze enquête bevat de voor het onderhavige ondezoek vereiste gegevens en het
iiateriaal is, naar mij bekend, nog niet eerder gebruikt voor het schatten van beloningsvergelij-
kingen. Van dc totale steekproefomvang worden hier alleen de gegevens van de daarin voorko-
mende 1132 loontrekkenden gebruikt.'

De verschillende variabelen die voor het schatten van de beloningsvergelijkingen nodig zijn,
zijn op de volgende wijze opgenomen:

Beloningen

Als te verklaren variabele is gekozen voor netto uurlonen. Er is gekozen voor netto-lonen in
plaats van bruto-lonen omdat de koéfficiënt voor de variabele 'onderwijsniveau' onder be-
paalde veronderstellingen dan kan worden opgevat als het private rendement op onderwijs-
'nvesteringen. Er wordt dan vanuit gegaan dat een individu de waarde van z'n inkomen vooral
Op het netto-bedrag beoordeelt. Als tijdsdimensie is gekozen voor uren omdat daarmee wordt
gestandaardiseerd voor verschillen in arbeidstijd tussen personen.

Beschikbaar onderwijsniveau

Voorop staat hier de eis dat het niveau uitgedrukt kan worden in gevolgde jaren onderwijs,
Zodat onderlinge verschillen kardinaal van aard zijn. De bij de respondenten beschikbare
Onderwijsniveaus werden bij het NPAO-onderzoek gekodeerd volgens de zogenaamde Stan-
daard Onderwijs Indeling (SOI, zie CBS, 1978). Deze indeling kodeert alle in Nederiand
gegeven opleidingen in vijf cijfers. Het eerste cijfer heeft betrekking op het niveau van de
Opleiding. Dit niveau is door het CBS direkt afgeleid van de opleidingsduur, op basis van
Volledig dagonderwijs. De indeling naar niveau is als volgt:

Eerste niveau, hieronder valt het lager onderwijs, duur zes jaar;
~ Tweede niveau, eerste trap; hieronder valt het middelbaar onderwijs tot eindexamen
MAVO,
duur negen jaar;

" Tweede niveau, tweede trap; hieronder vallen de bovenbouwen van HAVO en VWO, duur
twaalf jaar;

Derde niveau, eerste trap; hieronder vallen de HBO's, duur vijfden jaar;
~ Derde niveau, tweede trap; hieronder valt het universitair onderwijs, duur achttien jaar.
Daarnaast wordt een groep 'niet in te delen niveau' onderscheiden, welke hier wordt opgevat als
een groep ontbrekende waarnemingen. Zoals uit deze indeling blijkt verspringt het niveau
steeds met drie jaar. Bij het NPAO-onderzoek werd zowel naar gevolgd dagonderwijs als
Part-time onderwijs gevraagd. De door de respondent gevolgde opleiding met het hoogste
l'veau wordt hier aangemerkt als het beschikbare onderwijsniveau.

Vereist onderwijsniveau

•^et voor een bepaald beroep vereiste onderwijsniveau kan in beginsel op twee manieren worden
Vastgesteld. Hartog (1985) spreekt in dit verband over de objektieve- en subjektieve methode.

-ocr page 148-

144 Overscholing cn inkomen

Bij de bepaling van het vereiste onderwijsniveau volgens de objektieve methode stellen
arbeidskundigen vast welk onderwijsniveau voor een bepaald beroep is vereist. Vaak gebeurt
dit niet expliciet maar laten arbeidskundigen het bij de bepaling van het funktieniveau. Het is in
dat geval aan de onderzoeker om de vertaling naar onderwijsniveau te maken. De objektieve
methode kenmerkt zich erdoor dat steeds gebruik wordt gemaakt van uniforme schalen en
meetprocedures. Verschillende beoordelingen tussen arbeidskundigen zijn echter niet uitgeslo-
ten, evenals een zekere mate van willekeur bij de door de onderzoeker te maken koppeling
tussen funktieniveau en vereist opleidingsniveau.

De subjektieve methode baseert zich daarentegen op de evaluatie van de bezetter van de
betreffende baan. Als voordeel van deze methode noemt Hartog dat de informatie nu afkomstig
is van degene die het dichtst bij de funktie staat, en daarmee is rekening gehouden met specifieke
omstandigheden. Nadelen van deze methode zijn dat men zich in het antwoord wellicht laat
leiden door de feitelijke situatie en dat statusoverwegingen van de respondent een rol spelen.
Eén van de konklusies die Hartog trekt na vergelijking van verschillende studies op basis van de
objektieve- en subjektieve methode is dat beide lijken te leiden tot overeenkomstige resultaten.

Op basis van de gegevens van het NPAO-onderzoek kan het vereiste onderwijsniveau niet
volgens de objektieve methode worden vastgesteld. Weliswaar worden de beroepen van de
respondenten gekodeerd volgens de Beroepenclassificatie van het CBS, maar deze indeling
bevat geen niveau-aanduiding, waardoor een eenvoudige vertaling van beroep naar
vereist
onderwijsniveau niet is te maken. Afzonderlijk zal aan alle 914 in de Beroepenclassificatie
voorkomende beroepen een niveau moeten worden toegekend. Een dergelijke vertaling valt
buiten het bestek van dit artikel.

In het NPAO-onderzoek wordt echter wel volgens de subjektieve methode het vereiste
onderwijsniveau vastgesteld. Aan de respondenten wordt de vraag gesteld welke school- of
vooropleiding volgens hen de beste voorbereiding is voor het werk dat ze doen. Het antwoord
op deze vraag is gekodeerd met het eerste cijfer van de SOI, hetgeen voldoende is voor de
niveau-typering. Vergelijking tussen beschikbare en vereiste opleiding op basis van een onder-
scheid tussen algemeen-vormende en specifieke beroepsopleidingen is hiermee echter uitgeslo-
ten.

Overscholing en onderscholing

Overscholing en onderscholing zijn eenvoudig af te leiden als het verschil tussen vereist en
beschikbaar onderwijsniveau. Tabel 1 geeft voor elke groep personen met eenzelfde beschik-
baar onderwijsniveau aan welke percentages juist geallokeerd, overschoold en
onderschoold
zijn.

Tabel 1. Verhouding tussen vereist en beschikbaar aantal onderwijsjaren naar beschikbaar aantal onderwijs-
jaren (procentuele verdeling)

verhouding v<s v=s v>s n

V en s overschoold juist geallokeerd onderschoold aantal personen

-ocr page 149-

Hessel Oosterbeek 145

personen met achttien onderwijsjaren beschikbaar niet onderschoold kunnen zijn komt door-
dat een hoger opleidingsniveau niet mogelijk is. Opmerkelijke resultaten in deze tabel zijn:

- Het geringe aantal mensen met zes onderwijsjaren beschikbaar die van mening zijn dat dit
aantal vereist is voor het werk dat zij uitvoeren. Waarschijnlijk vindt dit voor een groot deel
haar verklaring in het feit dat het in het verleden gewoonte was om direkt na de lagere school
een 'vak te leren'. Later werden aan nieuwelingen hogere opleidingseisen gesteld zonder dat
het beschikbare onderwijsniveau van de reeds tewerkgestelden steeg;

- De overheersing op alle andere onderwijsniveaus van een goede aansluiting (v=s);

- De stijging van een goede aansluiting met het beschikbare onderwijsniveau.
Vergelijking van de bovenstaande tabel met een ook via subjektieve evaluatie tot stand

gekomen meting op basis van het in 1974 gehouden onderzoek Kwaliteit van Arbeid (zie
hiervoor Hartog, 1985) leert dat de totale mate van overscholing vrijwel gelijk is gebleven (van
17.2% naar 16.0%). Gespecificeerd naar de verschillende opleidingsniveaus blijkt dat lager
opgeleiden minder overschoold zijn geworden. De veranderingen in de beide andere kolommen
bevestigen dit beeld niet. Voor de lagere opleidingsniveaus is het aandeel van onderscholing
toegenomen en van juiste allokatie afgenomen, terwijl voor de hogere opleidingsniveaus het
tegengestelde geldt. De kolomtotalen wijzen erop dat de totale mate van onderscholing is
afgenomen (van 29.8% naar 21.8%).

Overige opmerkingen

Naast de genoemde variabelen is bij de schattingen ook rekening gehouden met werkervaring en
geslacht. In de praktijk blijkt er een sterke negatieve korrelatie te bestaan tussen scholing en
ervaring als gevolg van de stijging van het gemiddeld opleidingsniveau in de loop van de tijd.
Het niet opnemen van de variabele werkervaring leidt tot onderschatting van de betekenis van
onderwijs voor de beloningen. Naast werkervaring is ook het kwadraat daarvan in de schat-
tingen opgenomen. Een reden hiervoor is dat na een bepaalde leeftijd het positieve effekt van
ervaring afneemt. Men verwacht dan een negatief teken voor de koëfficiënt van de kwadratische
term (zie Mineer, 1974).

WEERGAVE EN BESPREKING VAN DE SCHATTINGSRESULTATEN

In tabel 2 zijn de schattingsresultaten van de drie verschillende specifikaties van de belonings-
vergelijking, zoals hiervoor besproken, samengevat. De schattingen zijn zowel voor mannen en
vrouwen afzonderlijk als voor de totale populatie uitgevoerd.

Zoals reeds eerder werd vermeld kunnen onder bepaalde veronderstellingen de in tabel 2
Weergegeven koëfficiënten worden opgevat als het private rendement op investeringen in
Onderwijs. Uit de resultaten van de derde vergelijking kunnen dan de volgende konklusies
Worden getrokken:

- Het rendement op beschikbare scholing is voor de totale populatie gelijk aan 7.1% als het
beschikbare en vereiste onderwijsniveau aan elkaar gelijk zijn. Voor vrouwen ligt dit rende-
ment 30% lager dan voor mannen (7.6% versus 5.2%);

- Bij plaatsing onder het beschikbare niveau (er is sprake van overscholing) wordt op ieder jaar
dat men te laag wordt geplaatst gemiddeld een rendementsverlies geleden van 20% (van 7.1%
naar 5.7%). Voor vrouwen is dit verlies aanzienlijk groter dan voor mannen;

- Bij plaatsing boven het beschikbare niveau (er is sprake van onderscholing) wordt op ieder
vereist jaar dat boven het beschikbare niveau ligt nog maar een rendement behaald van 4.6%
(=7.1- 2.5). Wederom is de situatie hierbij voor mannen gunstiger dan voor vrouwen.
Een belangwekkend gegeven bij deze resultaten is dat zowel voor de totale populatie als voor

de sub-populatie mannen de invloed van overscholing en onderscholing op het loon asymme-
trisch is. Uit de daartoe uitgevoerde t-toets (zie Johnston, 1963, blz. 132) blijkt dat de absolute
Waarden van de betreffende köefficiënten signifikant van elkaar verschillen. Overscholing

-ocr page 150-

146 Overscholing cn inkomen

Tabel 2. Dc Invloed van onderwijsniveau op In netto uurloon (t-waardcn tussen haakjes)

totaal

mannen

vrouwen

vergelijking (1)

Beschikbare scholing

.061»»»

.065»»»

.047»»»

(13.94)

(12.31)

(5.79)

R'

.385

.327

.322

vergelijking (2)

Vereiste scholing

.043»»»

.046»»»

.030»*»

R2

(12.10)

(11.02)

(4.38)

.342

.287

.260

vergelijking (3)

Vereiste scholing

.071»»»

.076»»»

.052»»»

(15.40)

(13.93)

(5.86)

Overscholing

.057»»»

.065»»»

.037»»*

(8.13)

(7.43)

(3.15)

Onderscholing

-.025»»»

-.019»

-.040»»

(-2.98)

(-1.90)

(-2.48)

.424

.381

.331

aantal waarnemingen

540'

394

140

♦ = signifikant op 10%
** = signifikant op 5%
♦*♦ = signifikant op 1%

Opmerking: In de regressies voor de totale populatie werd een dummy voor geslacht opgenomen. In alle
regressies werden aantal jaren werkervaring en het kwadraat daarvan opgenomen.

wordt hoger beloond dan onderscholing wordt 'bestraft'. Voor de sub-populatie vrouwen geldt
dit resultaat niet.

Daarnaast blijkt dat de invloed van overscholing en onderscholing op de logaritme van de
beloningen lineair van aard is. Deze konklusie kan althans worden getrokken op basis van de
uitkomsten van een schatting van de beloningsvergelijking waarin overscholing en
onderscho-
ling in het kwadraat waren opgenomen. De koëfficiënten van deze termen verschillen niet
signifikant van nul.

De resultaten uit tabel 2 bieden voorts de mogelijkheid om de in het voorgaande besproken
theorieën te vergelijken. Geven we de drie vergelijkingen nogmaals weer:

(1)
(2)
(3)

InY =a + bs
InY =a + bv
InY =a + bv + cs'' + ds"

dan blijkt dat zowel de human capital-vergelijking Q) als de job competition-vergelijking (2)
gerestrikteerde vormen zijn van de vraag en aanbod-vergelijking. Vergelijking (3) gaat over in
vergelijking (2) indien voor de koëfficiënten geldt: c = d = 0. Vergelijking (3) gaat over in
vergelijking (1) indien geldt: b = c = -d.

Beide hypothesen kunnen worden getoetst met behulp van een F-toets, waarbij wordt
nagegaan of de residuele kwadratensommen van de gerestrikteerde vormen signifikant groter
zijn dan die van de niet-gerestrikteerde vorm (zie Maddala, 1977, blz. 197). Onderstaande tabel
vat de resultaten van deze toetsen samen:

-ocr page 151-

Hessel Oosterbeek 147

Tabel 3. F-waarden voor een tweetal hypothesen

populatie totaal mannen vrouwen

-ocr page 152-

148 Overscholing cn inkomen

5. Van de resterende 850 waarnemingen vallen er 97 af wegens het ontbreken van gegevens omtrent
werkervaring en 223 door onvolledige loon- en/of arbeidstijdgegevens.

LITERATUUR

Centraal Bureau voor de Statistiek (1978). Standaard Onderwijs Indeling. SOI-1978, deel 1, methodologi-
sche inleiding. Voorburg.

Duncan, G.J., & Hoffman, S.D. (1981). The incidence and wage effects of overeducation. Economics of
Education Review.
1 (1), 75-86.

Hartog, J. (1978). On the multicapability theory of income distribution. European Economic Review, 10 (2).
157-171.

Hartog, J. (1985). Ov^vschoXiagl Economisch Statistische Berichten, 70(3493), 152-156.

Heinen, A., & Maas, A. (1984). Het npao-arbeidsmarktonderzoek, resultaten van de eerste analyses:
mobiliteitsgeneigdheid en segmentering van de arbeidsmarkt. Tilburg: IVA.

Johnston, J. (1963). Econometric Methods. New-York: McGraw-Hill.

Maddala, G.S. (1977). Econometrics. New-York: McGraw-Hill.

Mincer, J. (1974). Schooling, experience, and earnings. New-York: NBER.

Thurow, L.C. (1975). Generating inequality. New-York: Basic Books.

Tinbergen, J. (1956). On the theory of income distribution. Weltwirtschaftliches Archiv, LXXVII, 157-175-

Tsang, M.C. (1984). The impact of overeducation on productivity: a case study of skill underutilization of the
U.S. Bell Companies. Program Report no. 84-BlO, School of Education, Stanford University.

Manuscript ontvangen 16-10-1985

Definitieve versie ontvangen 13-2-1986

-ocr page 153-

Tijdschrift voor Onderwijsresearch, 11 (1986), pp. 149-163.

Reproductie van Cultureel en Economisch Kapitaal op
een Traditioneel en een Montessori-Lyceum*

M. Kalmijn en R. Batenburg**

abstract

In this article we report an analysis of data on pupils at two different grammar schools: a Montessori-
school and a traditional school. The Montessori-school has a freer teaching style and pays more
attention to extra-curricular activities than the traditional school. The central problem is to what
extent the two schools have a different social recruitment of pupils and to what extent the schools
reproduce the lifestyles of the parents. The concepts of economical and cultural capital in Bourdieu's
theory on social stratification are used to formulate four specific hypotheses. The data provide two
main results. First, the Montessori-school recruits its pupils from a cultural elite (a group which
distinguishes itself from lower status groups by a high cultural lifestyle), and the traditional school
recruits its pupils from an economical elite (a group which distinguishes itself by a high material
lifestyle). Secondly, the Montessori-school plays only a minor part in the reproduction of the
cultural lifestyle into a new generation, but the traditional school plays an important role in the
reproduction of the material lifestyle into a new generation.

1. INLEIDING

Dit artikel is een verslag van een onderzoek naar verschillen tussen twee in onderwijsstijl van
elkaar verschillende scholen: een Montessori-lyceum en een traditioneel lyceum. De onder-
zoeksvraag is in welke mate deze scholen een verschillende sociale rekrutering van leerlingen
hebben en in welke mate zij de specifieke kenmerken van de herkomstmilieus bij de leerlingen
bevestigen en aldus reproduceren.

Hypothesen omtrent verschillen tussen scholen in sociale rekrutering en de daarop aanslui-
tende reproductie van sociale kenmerken ontlenen we aan het werk van Bourdieu. Deze heeft
Voor het Franse onderwijs laten zien dat er grote verschillen zijn tussen universitaire studie-
richtingen wat betreft de leefstijl en sociale herkomst van de studenten (Bourdieu, 1973). Deze
Verschillen voert Bourdieu terug op de begrippen "cultureel" en "economisch kapitaal".
Bourdieu is van oordeel dat bepaalde studierichtingen hun studenten rekruteren uit een groep
iiensen met veel "cultureel kapitaal", en andere studierichtingen hun studenten rekruteren uit
een groep mensen met veel "economisch kapitaal".

De twee soorten "kapitaal" staan centraal in de stratificatietheorie van Bourdieu. Onder
cultureel kapitaal verstaat hij de symbolische hulpbronnen waarmee mensen hun levenskansen
Verbeteren. Het gaat daarbij voornamelijk om de kennis en vaardigheden die men bezit.
Cultureel kapitaal indiceert Bourdieu onder meer met de deelname aan formele culturele

(*) Dit onderzoek is uitgevoerd in het kader van het leeronderzoek tijdens onze studie sociologie aan de
Rijksuniversiteit te (jtrecht. Speciale dank gaat uit naar Harry Ganzeboom, onze begeleider. We
willen daarnaast Paul de Graaf bedanken voor zijn hulp en adviezen. Ook willen we de rectoren en
docenten van de twee scholen bedanken voor hun medewerking, en de leerlingen voor de bereidheid de
enquêtes in te vullen.

(**) De auteurs zijn doctoraalstudenten aan de Rijksuniversiteit te Utrecht bij de vakgroep Theoretische
Sociologie en Methodenleer

Adres: Postbus 80.140,3508 TC Utrecht.

-ocr page 154-

150 Reproductie van cultureel en economisch kapitaal

activiteiten zoals theater- en museumbezoek. Onder economisch kapitaal verstaat Bourdieu dc
materiële hulpbronnen waarmee mensen hun levenskansen verbeteren. Het gaat hier voor-
namelijk om het bezit van een hoog inkomen en het bezit van luxe-goederen. Een derde kapitaal-
soort die Bourdieu hanteert is sociaal kapitaal (Bourdieu, 1983)'.

Het belang van cultureel en economisch kapitaal voor de stratificatie is tweeledig. Enerzijds
fungeren ze als hulpbronnen waarmee mensen hun levenskansen verbeteren en hun positie in de
statushiërarchie versterken, anderzijds definiëren ze een bepaalde leefstijl waarmee mensen zich
van lagere groepen kunnen onderscheiden.

Over de wijze waarop cultureel en economisch kapitaal in de samenleving zijn verdeeld heeft
Bourdieu de veronderstelling dat er een tweedimensionele statushiërarchie bestaat. Eén dimen-
sie is gebaseerd op culturele status en één dimensie is gebaseerd op economische status. Op beide
dimensies zijn elites te onderkennen. Deze vallen niet noodzakelijk samen. De culturele elite
onderscheidt zich van lagere groepen en van de economische elite door een culturele leefstijl, die
bestaat uit de deelname aan formele culturele activiteiten en het zich bezighouden met intellec-
tuele en wetenschappelijke zaken. De economische elite onderscheidt zich van lagere groepen en
van de culturele elite door een materiële leefstijl, die onder andere bestaat uit een sterk
consumptieve vrijetijdsbesteding (Bourdieu, 1982). Een voorbeeld van een groep met veel
cultureel kapitaal en weinig economisch kapitaal is die van leraren. Veel economisch en weinig
cultureel kapitaal kenmerken daarentegen groepen als directeuren en managers. Een groep die
beide kapitaalsoorten in ruime mate bezit bestaat uit vrije beroepsbeoefenaren.

Cultureel en economisch kapitaal fungeren niet alleen als hulpbronnen waarmee mensen hun
eigen positie handhaven, maar tevens als middel om de eigen positie in een nieuwe generatie te
reproduceren. Het onderwijs speelt hierbij volgens Bourdieu een centrale rol (Bourdieu, 1977).
Via selectie en training gedurende de opleiding enerzijds en zelfselectie door leerlingen en
ouders anderzijds bevestigt het onderwijs de bestaande maatschappelijke verdeling en
de
daarmee gepaard gaande sociale ongelijkheid. Bourdieus opvattingen over de reproducerende
functie van het onderwijs sluiten nauw aan bij de conflicttheorie van Collins (1971). Deze
theorie gaat uit van drie centrale stellingen. De eerste luidt dat ouders uit hogere statusgroepen
dat onderwijs voor hun kind kiezen waarvan ze denken dat het hun kind opleidt voor een
statuspositie die overeenkomt met hun eigen statuspositie. De tweede stelling luidt dat scholen
selecteren op culturele en economische kenmerken. De derde stelling luidt dat scholen hun
leerlingen tevens in de leefstijl van de hoge statusgroepen onderwijzen.

Onze probleemstelling is of Bourdieus idee dat er bepaalde onderwijsinstellingen zijn die hun
studenten rekruteren uit de culturele elite en andere die hun studenten rekruteren uit de
economische elite, opgaat voor de Nederlandse situatie. Een onderzoeksbevinding voor de
Nederlandse situatie wordt geleverd door Beekenkamp & Dronkers (1984). Zij hebben, geïnspi-
reerd door Bourdieu, onderzoek gedaan naar de directeuren van de 200 grootste industriële en
50 grootste financiële ondernemingen in Nederland. Zij vonden in de onderwijsloopbanen van
deze economische elite twee universitaire studierichtingen die oververtegenwoordigd waren, te
weten rechten en economie. In mindere mate was er, sprake van een oververtegenwoordiging
van universiteiten."

In dit onderzoek richten wij ons op het voortgezet onderwijs. We hebben een vergelijking
gemaakt tussen leerlingen van een gewoon lyceum en leerlingen van een Montessori-lyceum-
Het gewone lyceum behoort tot het traditionele onderwijs, dat op een klassikale manier
lesgeeft
en voornamelijk gericht is op cognitieve vaardigheden en voorbereiding op verdere studie en
beroep. Het Montessori-lyceum vertegenwoordigt het vernieuwingsgerichte onderwijs. Hier-
onder vallen ook de Dalton-scholen, de Jenaplan-scholen en de Vrije Scholen. Deze scholen
geven meestal niet op een klassikale manier les, maar richten zich op de individuele leerling
waarbij deze ruimte krijgt zich in zijn eigen tempo te ontwikkelen. De gezagsverhouding tussen
leraar en leerling is minder streng en men tracht de leerling op een alternatieve wijze voor het
leren te motiveren. Het vergaren van kennis heet niet het enige doel te zijn. Men legt nadruk op
sociale vaardigheden (samenwerken e.d.), persoonlijke vaardigheden (zelfontplooiing e.d.) en
creatieve vaardigheden. Meer dan op andere scholen wordt tijdens en buiten de les
aandacht

-ocr page 155-

M. Kalmijn en R. Batenburg 151

besteed aan culturele activiteiten, zoals muziekavonden, toneelvoorstellingen, kunstexposities
en het lezen van literatuur. Kenmerken van de onderwijsstijl hebben onlangs de aandacht van
Nederlandse onderzoekers getrokken (zie o.a. Meijnen, 1980, 1984). In het buitenland heeft
men al eerder dit soort kenmerken onderzocht (zie o.a. Bennett, 1976).

Onze veronderstelling is nu dat de Montessori-school relatief veel leerlingen rekruteert uit de
culturele elite en dat de traditionele school relatief veel leerlingen rekruteert uit de economische
elite. De Montessori-leerlingen worden vervolgens in relatief sterke mate in een culturele
leefstijl getraind, en de traditionele leerlingen in relatief sterke mate in een materiële leefstijl. Op
deze manier versterken de scholen de kenmerken uit de twee onderscheiden herkomstmilieus en
dragen ze aldus bij tot de reproductie van cultureel en economisch kapitaal. Deze veronderstel-
lingen zullen in de volgende paragraaf in vier hypothesen worden vertaald: een rekruteringshy-
pothese, een leerlingverschil-hypothese, een reproductiehypothese en een versterkingshypo-
these.

De opbouw van dit artikel is als volgt. Nadat de hypothesen zijn geformuleerd bespreken we
de wijze waarop de data verzameld zijn en de inleidende resultaten daarvan. Hierin komen de
Verschillen tussen de scholen wat betreft onderwijsstijl aan de orde. Vervolgens bespreken we de
Variabelen die we uit de data hebben geconstrueerd. De rest van het artikel is gewijd aan de
analyse van de data waarmee de hypothesen worden getoetst. Afgesloten wordt met conclusies.

2. HYPOTHESEN

De eerste hypothese is de rekruteringshypothese en gaat over de verschillen in sociale rekrutering
tussen de scholen. De veronderstelhng is dat de Montessori-school haar leerlingen rekruteert uit
de culturele elite en de tradidonele school haar leerhngen rekruteert uit de economische ehte. De
hypothese luidt dat ouders van kinderen op de Montessori-school meer cultureel kapitaal
hebben dan ouders van kinderen op de traditionele school en dat ouders van kinderen op de
traditionele school meer economisch kapitaal hebben dan ouders van kinderen op de
Montessori-school. Deze hypothese komt voort uit de eerste steUing van Collins die luidt dat
ouders uit hoge (culturele of economische) statusgroepen dat onderwijs voor hun kind kiezen
Waarvan ze denken dat het hun kind opleidt voor een (cuhurele of economische) statuspositie
die overeenkomt met hun eigen positie.

Tevens kunnen we de vraag stellen in hoeverre de ouders tot verschillende elites behoren.
Daarom zullen we op een aantal punten de ouders vergelijken met de gemiddelde Nederlander.
Hierbij gaan we niet uit van vastomlijnde criteria voor elites, maar zullen we nagaan hoeveel
meer cultureel en economisch kapitaal de ouders hebben in vergelijking tot de gemiddelde
Nederiander.

De tweede hypothese gaat over de leerlingen, dit is de leerlingverschil-hypothese. We ver-
onderstellen dat de Montessori-leerlingen meer culturele ambities hebben en meer culturele
activitehen ontplooien dan traditionele leerlingen en dat de traditionele leerlingen meer
economische ambities hebben dan de Montessori-leerlingen. Onder culturele ambities verstaan
We de wensen met betrekking tot het uitoefenen van een beroep met een hoge cuhurele status en
onder economische ambities verstaan we de wensen met betrekking tot het uitoefenen van een
beroep met een hoge economische status.

De derde hypothese is de reproductiehypothese. Volgens Bourdieus theorie onderwijst de
school haar leerlingen in de leefstijl van de statusgroep waaruit ze afkomstig zijn. We veronder-
stellen daarom dat de verschillen tussen de leerlingen voor een deel voortkomen uit verschillen
'n dezelfde richting tussen de ouders en dat de school deze verschillen vergroot. De school
reproduceert de kenmerken van de herkomstmilieus van haar leerlingen. De vraag is in welke
mate de gevonden verschillen tussen de leerlingen op de twee scholen zijn terug te voeren op de
ouders, en in welke mate op de scholen.

De vorige hypothese stelde dat de scholen zouden bijdragen aan de leefstijl van hun leer-
hngen. De
versterkingshypothese gaat over de mate waarin de scholen dat doen. Volgens

-ocr page 156-

152 Reproductie van cultureel en economisch kapitaal

Bourdieu zijn het vooral de van huis uit cultureel rijke kinderen aan wie de "training" in de
culturele leefstijl is besteed.
We kunnen daarom veronderstellen dat naarmate de ouders van de
Montessori-leerlingen meer cultureel kapitaal bezitten, hun kinderen op de
Montessori-school
meer "getraind" worden in een culturele leefstijl. Analoog voor de materiële leefstijl veronder-
stellen we dat naarmate de ouders van de traditionele leerhngen meer economisch kapitaal
hebben, hun kinderen op de traditionele school meer "getraind" worden in een materiële
leefstijl. De mate waarin de scholen bijdragen aan de leefstijl van hun leerhngen hangt af van de
ouders.

3. DATAVERZAMELING

We hebben een Montessori-lyceum en een traditoneel lyceum onderzocht, beide scholen voor
het bijzonder neutraal onderwijs. De scholen zijn gehuisvest in een soortgelijk
geografisch
rekruteringsgebied. Ons onderzoeksobject betrof zowel ouders als kinderen. Het ondervragen
van beide groepen was om praktische redenen geen bereikbaar doel. We kozen daarom voor het
schriftelijk enquêteren van leerhngen, waarbij deze ook vragen over hun ouders moesten
beantwoorden.

Op de traditionele school hebben we twee vierde en twee vijfde VWO-klassen ondervraagd.
Op de Montessori-school hebben we drie vierde en één vijfde klas ondervraagd. Zo kwamen we
op een totaal van 83 respondenten op de traditionele school en 81 op de Montessori-school,
tezamen 164 respondenten.

Onze veronderstelling was dat de Montessori-school tot het vernieuwingsgerichte onderwijs
behoort en het gewone lyceum tot het traditionele onderwijs. Deze soorten onderwijs ver-
schillen in onderwijsstijl. We hebben onderzocht in hoeverre onze scholen hierin verschillen.
Daarom hebben we de leerhngen een aantal vragen gesteld over school teneinde te kunnen
bepalen in hoeverre het zo is dat de Montessori-school meer aan buitenschoolse activiteiten
doet en een vrijere onderwijsstijl heeft dan de traditionele school. Ten eerste hebben wp hun
gevraagd welke buitenschoolse activiteiten er op school plaatsvinden en of ze hier zelf aan
deelnemen. Ten tweede hebben we hun gevraagd in hoeverre er op hun school aandacht
wordt
besteed aan punten die differentiëren naar onderwijsstijl.

Uit tabel 1 blijkt dat op het Montessori-lyceum meer leerhngen de optredens van popgroepen,
toneelavonden en muziekuitvoeringen van klassieke muziek bezoeken dan op het traditionele
lyceum. Met betrekking tot het houden van schoolfeesten is het verschil in dezelfde richting,
maar kleiner. Op het traditionele lyceum nemen meer leerhngen deel aan excursies en sport-
evenementen dan op het Montessori-lyceum. Ook met betrekking tot aandachtspunten op
school zijn er grote verschillen. De meeste leerhngen op het Montessori-lyceum vinden dat hun
school veel aandacht besteedt aan discussies over de samenleving, het leren samenwerken, het
leren zelfstandig dingen te ondernemen en het leren een eigen verantwoordelijkheid te hebben.
Op de traditionele school vinden erg weinig leerlingen dat hun school veel aandacht aan deze
zaken besteedt. Dit verschil in beoordehng bestaat ook, maar in mindere mate, voor de aan-
dacht voor kunst en creativiteit, de voorbereiding op beroep en het leren kritisch over zaken na
te denken. Met betrekking tot het goed leren presteren zijn er op de traditionele school meer
leerlingen die vinden dat hun school hier veel aandacht aan besteedt. Kleinere verschillen in
dezelfde richting zijn er voor het leren van vakken en aandacht voor de wetenschap.

De conclusies luiden dat de Montessori-leerlingen meer deelnemen aan buitenschoolse
activheiten en dat het verschil in onderwijsstijl, zoals gemeten door de aandachtspunten,
duidehjk aanwezig is. Hiermee is aangetoond dat onze scholen de twee verschillende soorten
onderwijs representeren.^

-ocr page 157-

M. Kalmijn en R. Batenburg 153

Tabel 1. Frequentietabellen van buitenschoolse activiteiten en aandachtspunten op de scholen
zoals beoordeeld door de leerlingen (N = 164)

Buitenschoolse activiteiten: Traditionele school Montessori-school
percentage "actier'_(N = 83)_(N = 81)

Toneelavonden 31% 50%

Muziekuitvoeringen klassiek 10% 19%

Optredens popgroepen 5% 60%

Schoolfeesten 61% 73%

Excursies 96% 80%

Sportevenementen 74% 62%

Schoolbibliotheek 69% 75%

Schoolkrant 12% 11%

Aandachtspunten:

percentage van mening "veel aandacht"

Vakken leren 80% 74%

Discussie samenleving 5% 79%

Beleefdheid 6% 4%

Kunst 5% 13%

Voorbereiding beroep 17% 36%

Voorbereiding studie 40% 43%

Creativiteit 11% 30%

Samenwerken 6% 79%

Leren te presteren 48% 28%

Zelfstandig initiatief 31% 90%

Kritisch nadenken 50% 80%

Eigen verantwoordelijkheid 37% 88%

Belangstelling voor wetenschap _31%_25%_

4. VARIABELEN

We vatten cultureel en economisch kapitaal op als het deelnemen aan activiteiten waarmee men
zich van andere groepen kan onderscheiden. We spreken in het vervolg over een culturele en een
materiële leefstijl. Volgens de theorie wordt een culturele leefstijl gehanteerd door mensen met
een hoge culturele status (culturele elite) en een materiële leefstijl door mensen met een hoge
economische status (economische elite). We hebben de verschillende statusdimensies geopera-
tionaliseerd door een culturele en economische beroepsstatus. In tegenstelling tot de ouders
hebben de kinderen nog geen zelfstandige status. Ze hebben hiervoor wel ambities. Deze
geambieerde status hebben we gemeten met de culturele en economische status van de door hen
geambieerde beroepen.

De variabelen zijn als volgt geconstrueerd. De gegevens verdeelden we in groepjes. Alle
onderdelen van een groepje werden verondersteld parallelinstrumenten te zijn voor de meting
van één variabele. Als centrale maat voor interne consistentie van de variabelen werd Cron-
bachs alpha (CA) berekend.

We beschikken over 4 achtergrondvariabelen met betrekking tot de ouders:

* OPLEIDING MOEDER: hoogst afgemaakte opleiding moeder in zeven niveaus.

* OPLEIDING VADER: hoogst afgemaakte opleiding vader in zeven niveaus.

* ECONOMISCHE STATUS VADER en CULTURELE STATUS VADER. We maken een
onderscheid in culturele en economische status op basis van het beroep van de vader. Hiertoe

-ocr page 158-

154 Reproductie van cultureel en economisch kapitaal

Tandarts
Arts

Accountant

Functie bedrijfsleven

Architect

Bedrijfseconoom

Reclameontwerper

Journalist

Eigenaar winkelbedrijf

Wetenschappelijk medewerker

Onderwijzer

Vakbondsbestuurder

Welzijnswerker

Toneelspeler

Schrijver

Kunstenaar

Tabel 2. Gemiddelde scores voor de culturele en economische beroepsstatus zoals toegekend
door zeven beoordelaars aan zestien beroepstitels

Beroep

Cultureel prestige

Economisch prestige

M

S.D.

pos.

M

S.D.

pos.

2.6

1.1

11/12

5.0

0

1

2.7

1.1

10

4.7

.6

2

2.0

.6

15

4.1

.8

3

2.6

.8

11/12

3.6

1.0

4

4.4

1.0

2/3

3.5

.8

5

2.1

.9

14

, 3.3

.4

6

4.0

.6

5

3.0

.4

7

3.9

.7

6

2.7

.4

8

1.9

.7

16

2.7

.8

9

3.6

.5

7/8

2.7

.2

10

3.6

.5

7/8

2.6

.5

11

2.4

.5

13

2.6

.3

12

3.4

I.O

9

2.5

.4

13

4.3

.8

4

2.3

.4

14/15

4.9

.4

1

2.3

.4

14/15

4.4

1.0

2/3

2.2

.4

16


-ocr page 159-

M. Kalmijn en R. Batenburg 155

boot, vaatwasmachine en antiek, het soort huis (flat... vrijstaand huis), grootte van het huis,
grootte van de tuin en financiële steun aan kind bij het kopen van dure consumptiegoederen.
CA = .73.

* VAKANTIE OUDERS: aantal keren vakantie per jaar, al of niet vakantie in het buitenland

en het al of niet gaan op wintersportvakantie. CA = .55.
We veronderstellen dat er in de leefstijlvariabelen twee verschillende dimensies aanwezig zijn,
een culturele en een economische dimensie. Om deze veronderstelling te toetsen hebben we
een factoranalyse uitgevoerd met twee factoren (Tabel 3).

De variabelen CULTUURDEELNAME, MUZIEKDEELNAME, LEZEN, KUNSTBEZIT,
BEHEERSING VREEMDE TALEN blijken hoog te laden op de eerste factor; de variabelen
bezit LUXE-GOEDEREN en VAKANTIE blijken hoog te laden op de tweede factor. De
twee economische variabelen hebben we opgeteld tot de variablele MATERIELE LEEFSTIJL
OUDERS', de vijf culturele variabelen hebben we opgeteld tot de variabele CULTURELE
LEEFSTIJL OUDERS.

Tabel 3. Factor-analyse1 culturele en materiële leefstijl ouders

I

II

Muziekdeelname

.76

.02

Lezen

.70

-.03

Kunstbezit

.52

.22

Beheersing vreemde talen

.44

.29

Cultuurdeelname

.63

.11

Bezit luxe-goederen

.08

.99

Vakantie

.07

.44

1 * orthogonale factoroplossing

De variabelen met gegevens over de kinderen zijn verdeeld in leefstijl variabelen en variabelen
met betrekking tot de ambities. De leefstijlvariabelen zijn:

* CULTUURDEELNAME KIND: toneel-, cabaret-, concert-, ballet- en museumbezoek van
het kind in het afgelopen jaar. CA = .64.

* MUZIEKDEELNAME KIND: interesse van kind in muziek, bespelen muziekinstrument.
De correlatie tussen deze twee variabelen is . 16.

-ocr page 160-

156 Reproductie van cultureel en economisch kapitaal

economische status bepaald door voor alle beroepen die de leerling "graag" of "heel graag"
zou willen uitoefenen de culturele en economische scores te middelen.
Tot slot bespreken we de samenhangen en causale relaties tussen de achtergrondvariabelen en
de leefstijlvariabelen. Hiervoor presenteren we een padmodel met gestandaardiseerde regressie-
coëfficienten (Figuur 1) en een correlatiematrix (Tabel 4). (In het padmodel zijn alleen varia-
belen met een significant effect, een p-waarde van .10 of lager, opgenomen.)

We veronderstellen bij de ouders samenhangen tussen de culturele beroepsstatus en de
culturele leefstijl en tussen de economische beroepsstatus en de materiële leefstijl. Deze samen-
hangen zijn inderdaad aanwezig. De culturele beroepsstatus correleert positief met de culturele
leefstijl (.31) en negatief met de materiële leefstijl (-. 14); de economische beroepsstatus corre-
leert positief met de materiële leefstijl (.36) en nauwelijks met de culturele leefstijl (.07). Als
constant gehouden wordt op de invloed van het opleidingsniveau van de ouders, blijkt het idee
dat de beroepsstatus bepaalt wat voor leefstijl men heeft, niet geheel bevestigd te kunnen
worden. De economische beroepsstatus heeft wel een effect op de materiële leefstijl, maar er is
geen direct effect van de culturele beroepsstatus op de culturele leefstijl. De samenhang van de
opleiding van de vader met de culturele leefstijl is sterker dan die met de materiële leefstijl (.48
tegen .24; voor de moeder: .55 respecdevelijk .26). Deze samenhang verloopt deels via de status-
variabelen. Het feit dat de opleiding sterker correleert met de culturele leefstijl dan met de
materiële leefstijl komt overeen met eerder gevonden resultaten waaruit blijkt dat de opleiding
de belangrijkste determinant is van het deelnemen aan culturele activiteiten (Ganzeboom,
1984). Het inkomen is de belangrijkste determinant van een materiële leefstijl. Dat de materiële
leefstijl (zwak) gecorreleerd is met de opleiding kan worden verklaard uit het feit dat het
inkomen de belangrijkste determinant van deze leefstijl is en de opleiding correleert met het
inkomen.

Figuur 1: Regressiemodel van de leefstijlvariabelen en achtergrondvariabelen van de ouders
(gestandaardiseerde regressiecoefficienten) (N == 163)*.

alleen significante effecten (p <. 10)

-ocr page 161-

M. Kalmijn en R. Batenburg 157

Tabel 4. Correlatiematrix, gemiddelden en standaardafwijkingen van de geconstrueerde va-
riabelen

S.D.
N

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(1)

( 2)

.612

( 3)

.270

.296

( 4)

.316

.292

-.223

( 5)

.550

.482

.073

.311

( 6)

.262

.235

.360

-.142

.168

( 7)

.251

.230

-.007

.040

.444

.063

( 8)

-.174

-.101

.034

-.175

-.188

.104

-.337

( 9)

.221

.149

-.047

.196

.287

-.152

.348

-.625

(10)

.230

.228

-.143

.158

.336

-.122

.295

-.301

.255

delde

4.99

5.89

3.22

2.95

0

0

0

3.07

3.38

1.7

1.5

.7

.7

1

1

1

.4

.6

155

158

152

152

164

164

164

159

159

Opleiding moeder

Opleiding vader
Economische status vader
Culturele status vader
Culturele leefstijl ouders
Materiële leefstijl ouders
Culturele leefstijl kind
Economische ambhies kind
Culturele ambhies kind
School (O = tradhioneel; 1 = Montessori)

5. ANALYSE VAN DE RESULTATEN

De toetsing van de rekruteringshypothese is gedaan met logit-analyse omdat de afhankelijke
variabele, de schoolkeuze, een dichotome variabele is. De traditionele school heeft code O en de
Montessori-school heeft code 1. De voorspelling is dat ouders van kinderen op de Montessori-
school meer een culturele leefstijl hebben dan ouders van kinderen op de tradhionele school.
Vooi de materiële leefstijl is de voorspelling dat ouders van kinderen op de traditionele school
meer een materiële leefstijl hebben dan ouders van kinderen op de Montessori-school. We
Veronderstellen bovendien dat de eventuele samenhang van de schoolsoort met de achtergrond-
variabelen verdwijnt als we constant houden op de invloed van de leefstijlvariabelen. De theorie
Veronderstelt immers dat het de leefstijl is waarvan de ouders verwachten dat deze op een
bepaald type school versterkt zal worden. De vergelijkingen staan in Tabel 5. De onafhankelijke
Variabelen zijn hier omgerekend in standaardscores.

De eerste vergelijking met alle variabelen geeft een log-likelihood van 193.9 (bij 157 vrij-
heidsgraden). Er zijn significante effecten van economische status vader en van materiële en
culturele leefstijl ouders (grootte van de effecten is minstens twee keer hun standaarddeviatie).
Als we alleen de leefstijlvariabelen in de analyse houden, zoals bij de tweede vergelijking, is de
log-likelihood 201.6. Het verschil hiertussen is klein en niet significant bij 4 vrijheidsgraden. We
kunnen daarom volstaan met de tweede vergelijking. De effecten van de culturele en materiële
leefstijl zijn in de voorspelde richting. De rekruteringshypothese wordt hiermee bevestigd.

( 1)
( 2)
( 3)
(4)
( 5)
( 6)
( 7)
( 8)
( 9)
(10)

-ocr page 162-

158 Reproductie van cultureel en economisch kapitaal

Tabel 5. Logit-analyse van de schoolkeuze. Afhankelijke variabele: kans op keuze voor
Montessori-school (N = 164)1

Ö) (2) '

Beta

S.E.

Beta

S.E.

OPLEIDING VADER

.382

.234 n.s.

OPLEIDING MOEDER

.219

.160 n.s.

ECONOMISCHE STATUS VADER

-.428

.201

CULTURELE STATUS VADER

-.158

.197 n.s.

MATERIËLE LEEFSTIJL

-.461

.203

-.443

.182

CULTURELE LEEFSTIJL

.677

.243

.853

.207

Log-Likelihood

193.9

201.6

Vrijheidsgraden

157

161

1  de onafhankelijke variabelen zijn omgezet in Z-scores

We concluderen dat Montessori-ouders, overeenkomstig de rekruteringshypothese, cultureel
"rijker" en economisch "armer" zijn dan de ouders van de leerlingen op het traditionele
lyceum. Voorts willen we nagaan in hoeverre de ouders ook cultureel respectievelijk econo-
misch "rijker" zijn dan de gemiddelde Nederlander, en dus tot een culturele of economische
elite behoren. Daarvoor vergelijken we een aantal culturele en economische kenmerken van de
ouders met gegevens uit steekproeven uit de Nederlandse bevolking.

Uit Tabel 6 blijkt dat de ouders van beide scholen op bijna alle culturele en economische
kenmerken hoger scoren dan de Nederlandse bevolking. Voorts scoren de Montessori-ouders
op de meeste culturele kenmerken hoger dan de ouders van de leerlingen op de tradidonele
school.

Zo heeft 46% van de ouders van de Montessori-leerlingen wetenschappelijk onderwijs
gevolgd tegen 23% van de ouders van de leerlingen op de traditionele school. Voor de
Nederlandse bevolking is dit percentage 2.5.

De verschillen in de beroepssfeer zijn erg groot. 10% van de Montessori-vaders heeft een
beroep in de wetenschap tegen 5% van de traditionele vaders en 1.2% van de mannelijke
Nederlandse bevolking tussen de 18 en 65 jaar. Daarnaast is 19% van de traditionele vaders en
5% van de Montessori-vaders directeur terwijl slechts 1.7% van de Nederlandse bevolking dat
is. Bovendien is op beide scholen het percentage vrije beroepsbeoefenaren (vaders) hoger dan in
de Nederlandse bevolking.

Met betrekking tot verschillen in leefstijl merken we op dat van de Montessori-ouders 86%
het afgelopen jaar naar het theater is geweest. Dit percentage is voor de traditionele ouders 78%
en voor de Nederlandse bevolking 33%. Op een aantal materiële leefstijlkenmerken scoren de
traditionele ouders het hoogst. Zo woont 46% van de traditionele ouders in een vrijstaand huis,
tegen 25% van de Montessori-ouders en 18% van de Nederlandse bevolking. 89% van de
traditionele ouders gaat in het buitenland op vakantie tegen 85% van de Montessori-ouders en
28% van de Nederlandse bevolking. 59% van de traditionele ouders bezit een vaatwasmachine
tegen 44% van de Montessori-ouders en 11% van de Nederlandse bevolking. Een uitzondering
is het bezit van een tweede huis: 11% van de traditionele ouders tegen 15% van de Montessori-
ouders. Wel is dat in beide gevallen hoger dan de Nederlandse bevolking (3%).

De conclusie is dat de ouders op beide lycea zowel cultureel als economisch rijker zijn dan de
gemiddelde Nederlander. De Montessori-ouders zijn cultureel rijker dan de tradidonele ouders
en de traditionele ouders scoren hoger op kenmerken van de materiële leefstijl dan de
Montessori-ouders. Vooral met betrekking tot onderwijs (wetenschappelijke opleiding) en
beroep (directeuren) zijn de verschillen erg groot. Dit kan gelden als een argument voor het idee

-ocr page 163-

M. Kalmijn en R. Batenburg 159

Tabel 6. Vergelijking culturele en economische kenmerken van de ouders met landelijke steek-
proefcijfers*

Wetenschappelijke
opleiding gevolgd
Vader directeur

Vader wetenschappelijk beroep
Vader vrij beroep

Bezoek theater
Bezoek museum
Lezen

Klassieke muziek luisteren
(>lxp.mnd.)

Type woning
flat

vrijstaand huis
Gemiddeld aantal kamers in huis
Vakantie buitenland
Bezit tweede huis
Bezit vaatwasmachine
Bezit boot

Nederland Scholen

(1)

(2)

(3)

(4)

Traditioneel

Montessori

(N = 83)

(N = 81)

2.5%

23%

46%

1.7%

19%

5%

1.2%

5%

10%

1.9%

15%

10%

33%

78%

86%

42%

83%

77%

29%**

49%»*»

62%»»»

40%

58%

64%

21%

1%

9%

18%

46%

25%

4.5

5.0

6.4

6.7

28%

89%

85%

5%

3%

11%

15%

11%

59%

44%

5%

25%

23%


Bronnen:

(1) Sociaal en Cultureel Rapport 1984. SCP. 's-Gravenhage: Staatsuitgeverij.

(2) Statistisch Zakboek 1982. CBS. 's-Gravenhage: Staatsuitgeverij.

(3) Knuist, W. & Schoonderwoerd, L. (1983). Waar blijft de tijd? SCP. 's-Gravenhage:
Staatsuitgeverij.

(4) UMS-file (Samenstelling van drie nationale steekproeven gedaan in de periode
1977-1982 gemaakt door het Utrechts Mobiliteits Seminar.)

afgelopen maand 3 of meer boeken gelezen (incl. studieboeken)
veel/erg veel lezen (excl. studieboeken)

dat er twee verschillende elites bestaan, één op basis van een culturele dimensie en één op basis
Van een economische dimensie.

In de leerlingverschil-hypothese gaat het om de verschillen in economische en culturele
kenmerken tussen de leerlingen van de twee scholen. We beschikken over drie variabelen: de
huidige culturele activiteiten (leefstijl), de gewenste culturele beroepsstatus (culturele ambities)
en de gewenste economische beroepsstatus (economische ambities). 30 procent van de leer-
lingen geeft in antwoord op een open vraag in de enquête te kennen nog niet precies te weten
Welk beroep zij later willen uitoefenen. Dit betekent niet dat ze geen ambities hebben om een
bepaalde culturele of economische status te verwerven. We hebben de leerlingen voor de 16
beroepen uit de beroepsprestigeschalen laten aangeven hoe graag ze deze zouden willen uitoe-
fenen.

Om de leerlingen op de twee scholen te vergelijken kijken we naar de correlaties van de drie
leerlingvariabelen met de schoolvariabele (zie Tabel 4). De correlaties bevestigen voor alle drie
de variabelen de leerlingverschil-hypothese. Montessori-leerlingen hebben meer een culturele
'eefstijl dan traditionele leeriingen en hebben meer culturele ambities. Traditionele leeriingen
hebben meer economische ambities dan de Montessori-leerlingen.

»*
***

-ocr page 164-

160 Reproductie van cultureel en economisch kapitaal

Uit het voorafgaande bhjkt op zichzelf niet dat de school bijdraagt aan de ontwikkeling van
de leefstijl en ambities. De verschillen kunnen alleen te danken zijn aan de verschillen tussen de
Montessori-ouders en de traditionele ouders. Het kan zo zijn dat de Montessori-leerlingen meer
culturele ambities hebben omdat ze deze van hun cultureel rijkere ouders hebben meegekregen.
Hetzelfde kan gelden voor de hogere economische ambities van traditionele leerhngen. Kort-
om, hgt het aan de ouders of ligt het aan de school? Hierover gaat de
reproductiehypothese. De
veronderstelling is dat de Montessori-school niet alleen haar leerhngen rekruteert uit een
culturele elite, maar hen tevens in een culturele leefstijl instrueert, en dat de traditionele school
niet alleen haar leerhngen rekruteert uit een economische elite, maar hen tevens in een materiële
leefstijl instrueert.

Voor alle drie de afhankelijke variabelen zijn regressieanalyses uitgevoerd waarbij de achter-
grondvariabelen en de leefstijlvariabelen van de ouders en de schoolvariabele de predictoren
zijn. Alleen variabelen met een significant effect (p < .10) zijn in de regressievergelijkingen
opgenomen. We beginnen met de eerste afhankehjke variabele:

ECONOMISCHE AMBITIE KIND = —.30 (SCHOOL)

De school heeft een direct effect en de overige effecten vallen weg. Dit betekent dat de
traditionele school meer bijdraagt aan de economische ambities van haar leerhngen dan de
Montessori-school dat doet bij haar leerhngen. De variabelen met betrekking tot de ouders
hebben geen direct effect op de economische ambities van de kinderen. Ze hebben wel een
indirect effect op ambities. Dit effect loopt van de materiele leefstijl van de ouders naar de
school (gezien het resultaat bij de toetsing van de rekruteringshypothese), en van de school naar
de economische ambities van de kinderen (direct effect —.30). We kunnen concluderen dat de
materiële leefstijl van de ouders via de school wordt overgedragen op de kinderen, kortom, de
school reproduceert dit kenmerk van het herkomstmilieu van haar leerhngen.

De tweede afhankehjke variabele is de culturele ambitie:

CULTURELE AMBITIE KIND = —.180 (MATERIELE LEEFSTIJL OUDERS)

+.270 (CULTURELE LEEFSTIJL OUDERS)
+.142 (SCHOOL)

De verschillen tussen de kinderen zijn hier grotendeels terug te voeren op verschillen tussen de
ouders, en in mindere mate op de school. Hoe meer de ouders een culturele leefstijl hebben des te
meer culturele ambities hun kinderen hebben. Hoe meer de ouders een materiële leefstijl
hebben, dés te minder culturele ambities hebben de kinderen. Daarnaast is er tussen de scholen
een significant verschil. De Montessori-school draagt iets meer bij aan de culturele ambities van
haar leerlingen dan de traditionele school dat doet bij haar leerhngen. Aangezien de culturele
leefstijl van de ouders in belangrijke mate de schoolkeuze bepaalt (zie rekruteringshypothese)
en de school een direct effect heeft op de culturele ambities van haar leerhngen, kunnen we
stellen dat de overdracht van de culturele leefstijl voor een klein deel verloopt via de school. De
school reproduceert in geringe mate dit kenmerk van het herkomstmilieu.

De derde afhankehjke variabele is de culturele leefstijl van het kind, dat we als voorloper op
de toekomstige culturele status en leefstijl opvatten.

CULTURELE LEEFSTIJL KIND = .389 (CULTURELE LEEFSTIJL OUDERS)

+.164 (SCHOOL)

«

Ook hier bhjken de ouders het grootste effect te hebben en de school een klein, maar significant
effect. Dit betekent dat de kinderen voor een belangrijk deel de culturele leefstijl van hun ouders
meekrijgen, maar dat de Montessori-school haar leerhngen hierin versterkt.

De conclusie is dat de reproductie van culturele kenmerken op twee manieren verloopt.
Enerzijds worden de culturele kenmerken direct overgedragen van de ouders op de kinderen.

-ocr page 165-

M. Kalmijn en R. Batenburg 161

Anderzijds worden de culturele kenmerken, in geringe mate, via de school gereproduceerd.

We kunnen voorts nagaan of het zo is dat de bijdragen die de scholen leveren aan hun
leerlingen afhankelijk zijn van de mate waarin de ouders een culturele of materiële leefstijl
hebben. Dit betreft de toetsing van de
versterkingshypothese. De hypothese leidt tot twee
voorspellingen. Ten eerste: het Montessori-lyceum geeft elke leerling wat extra, maar geeft
kinderen van cultureel rijke ouders meer extra dan kinderen van cultureel minder rijke ouders.
Ten tweede: de traditionele school geeft elke leerling wat extra, maar geeft kinderen van
economische rijke ouders meer extra dan kinderen van economisch minder rijke ouders.
Om de eerste voorspelling te toetsen hebben we een interactievariabele geconstrueerd:

INTERACTIE = SCHOOL * CULTURELE LEEFSTIJL OUDERS

De regressievergelijkingen zijn:

CULTURELE LEEFSTIJL KIND = . 163 (SCHOOL)

+.374 (CULTURELE LEEFSTIJL OUDERS)
+.023 (INTERACTIE) n.s.

CULTURELE AMBITIE KIND = .138 (SCHOOL)

—.185 (MATERIELE LEEFSTIJL OUDERS)
+.211 (CULTURELE LEEFSTIJL OUDERS)
+.089 (INTERACTIE) n.s.

De interactie-effecten zijn in de verwachte richting, maar niet significant. Dat wijst erop dat
kinderen van cultureel rijke ouders op de Montessorischool niet meer versterkt worden in hun
culturele ambities dan kinderen van cultureel minder rijke ouders op die school.

Om de tweede voorspelling te toetsen hebben we de schoolvariabele omgecodeerd: O =
Montessori; 1 = traditioneel. We hebben een interactievariabele gemaakt:

INTERACTIE = SCHOOL * MATERIELE LEEFSTIJL OUDERS

De regressievergelijking is:

ECONOMISCHE AMBITIE KIND = .292 (SCHOOL)

+.121 (MATERIELE LEEFSTIJL OUDERS) n.s.
—.074 (INTERACTIE) n.s.

Het effect van de materiële leefstijl is de verwachte kant uit maar niet significant. De richting van
het interactie-effect is tegengesteld aan wat we verwacht hadden. Het effect is overigens niet
significant. Dit betekent dat de bijdrage van de traditionele school aan haar leerlingen niet
sterker is voor leerlingen wiens ouders al veel economisch kapitaal hebben. Dat het effect
negatief is zou er op kunnen wijzen dat de traditionele school compenseert in plaats van
Versterkt. Leerlingen die van huis uit weinig economisch kapitaal hebben krijgen meer dan
leerlingen die van huis uit veel economisch kapitaal hebben.

De conclusie is dat er noch op het Montessori-lyceum noch op het traditionele lyceum sprake
is van een versterking die afhankelijk is van kenmerken van de ouders. De versterkingshypo-
these moet worden verworpen.

-ocr page 166-

162 Reproductie van cultureel en economisch kapitaal

6. CONCLUSIES

In dit onderzoek hebben we de verschillen in sociale rekrutering en reproductie van leefstijlken-
merken tussen een Montessori-lyceum en een traditioneel lyceum onderzocht aan de hand van
de stratificatietheorie van Bourdieu. Zijn idee over een tweedimensionele statusstructuur met
daarbij behorende leefstijlen is in ons onderzoek vruchtbaar gebleken om de verschillen tussen
de scholen te karakteriseren. Ons onderzoek levert een aantal conclusies op:

a. Het bleek goed mogelijk operationalisaties te maken voor cultureel en economisch kapitaal.

b. De verschillen in sociale rekrutering tussen de twee scholen bleken in belangrijke mate
bepaald te worden door twee leefstijlkenmerken, het bezit van economisch respectievelijk
cultureel kapitaal.

c. De reproductie van cultureel kapitaal van de ouders in een nieuwe generatie bleek voor-
namelijk direct te verlopen. De reproductie via de school is gering. Voor zover er sprake was
van reproductie van economisch kapitaal, bleek deze voornamelijk indirect te verlopen, via
de school.

In hoeverre de aangetroffen verschillen tussen de scholen generaliseerbaar zijn naar andere
vernieuwingsgerichte en traditionele scholen, kan slechts op basis van een onderzoek met een
groter aantal scholen in de steekproef worden gezegd.

NOTEN

Sociaal kapitaal heeft betrekking op relaties die mensen met elkaar onderhouden. In deze relaties kan
zowel economisch als cultureel kapitaal in verschillende mate worden uitgewisseld en als zodanig
bijdragen tot betere levenskansen, ©hdanks het feit dat sommige mensen meer invloedrijke betrekkin-
gen onderhouden dan andere, spreekt Bourdieu niet over een sociale elite. ,,
Niet is aangetoond dat de door ons onderzochte scholen met de gemiddelde Montessori respectievelijk
traditionele school overeenkomen. Hiervoor is een onderzoek naar een groter aantal representanten
van de twee onderwijssoorten nodig.

Een omissie in de meting van de materiële leefstijl is dat we niet over de gegevens met betrekking tot het
inkomen en vermogen beschikken. Dit is in de enquete niet gevraagd omdat het niet aannemelijk is dat
kinderen tussen de 15 en 17 jaar het inkomen van hun ouders weten. Minstens zo belangrijk voor de
meting zijn de consumptiegoederen waarover men beschikt, omdat deze niet alleen aangeven dat men
een hoog inkomen heeft, maar tevens laten zien wat men met het hoge inkomen doet (directere meting
voor leefstijl). Het aantal door ons gebruikte directe metingen voor de materiële leefstijl is echter niet
groot (er is alleen gevraagd naar vakantie). De gekozen luxegoederen hangen samen met het inkomen
(correlatie van een soortgelijke variabele met het netto huishoudinkomen in een landelijke steekproef is
.43 (Tijdbestedingsonderzoek van het SCP uit 1980)).

LITERATUUR

Beekenkamp, G. G., & Dronkers, J. (1984). Rotterdam, Delft, Leiden. De plaats van het onderwijs in de
rekrutering van president-directeuren. In J. Dronkers & F. N. Stokman (red.).
Nederlandse elites
in beeld (p.
85-101). Mens en Maatschappij Boekaflevering. Deventer: Van Loghum Slaterus.

Bennett, N. (1977). Onderwijsstijl en schoolprestaties [oorspr. Teaching styles and pupil progress, 1976].
Utrecht: Het Spectrum.

Bourdieu, P. (1973). Cultural reproduction and social reproduction. In R. Brown (ed.). Knowledge, educa-
tion and cultural change
(p. 71-112). London: Tavistock Publications.

Bourdieu, P., & Passeron, J. (1977). Reproduction in education, society and culture [oorspr. La reproduction,
1970], London: Sage Publications.

Bourdieu, P. (1982). Die feinen Unterschiede [oorspr. La distinction, 1979]. Frankfurt am Main: Suhrkamp
Verlag.

Bourdieu, P. (1983). Ökonomisches Kapital, kulturelles Kapital, soziales Kapital. Soziale Welt, 34, 183-198.

Collins, R. (1971). Functional and conflict theories of educational stratification. American Sociological
Review, 36.
1002-1019.

-ocr page 167-

M. Kalmijn en R. Batenburg 163

Ganzeboom, H. (1984). Cultuur en informatieverwerking. Dissertatie, Utrecht.

Meijnen, W. (1980). Schooltypen in het lager onderwijs en milieuspecifieke leerprestaties. Mens en Maat-
schappij. 55. iiSAW.

Meijnen, W. (1984). Van zes tol twaalf. 's-Gravenhage: Stichting voor Onderzoek van het Onderwijs.

Manuscript ontvangen 9-4-1985.
Definitieve versie ontvangen 6-3-1986.

-ocr page 168-

Tijdschrift voor Onderwijsresearch, 11 (1986), pp. 164-167.

Notities en commentaren

ACTIE-ONDERZOEK EN EMANCIPATIE

H. Flierman

Stichting Centrum voor Onderwijsonderzoek

Het navolgende is mede gebaseerd op Karsten (1979), Van Calcar en Koppen (1980) en Van Calcar en
Flierman (1979), en is bedoeld als poging om door axiomatiseren tot meer helderheid te komen.

I. Inleiding

Actie-onderzoek wordt hier gedefinieerd als emancipatorische sociale wetenschap. De beroeps-
praktijk van de sociale wetenschapper houdt ten minste in, dat hij uitspraken doet die betrek-
king hebben op meerdere personen tegelijk. Voor zulke uitspraken doen overeenkomsten en
verschillen tussen personen ter zake. Met het vaststellen daarvan maakt de wetenschapper de
onderzochte personen noodzakelijkerwijs tot object. En daarmee maakt hij zichzelf noodzake-
lijkerwijs tot subject: hij beslist welke overeenkomsten en verschillen ter zake doen.
Tussfn
onderzoeker en onderzochten bestaat dus noodzakelijkerwijs een subject-object relatie. Sociale'
wetenschap wordt emancipatorisch, als deze subject-object relatie in wisselwerking komt te
staan met een subject-subject relatie.

De emancipatorische gerichtheid van de onderzoeker heeft dus gevolgen voor zijn beroeps-
praktijk: voor zijn werkwijze bij de ontwikkeling, beproeving en vervanging van uitspraken.
Maar als zijn uitspraken betrekking hebben op de beroepspraktijk van een andere beroeps-
groep, zoals die der onderwijzers, dan heeft deze gerichtheid ook gevolgen voor de inhoud van
zijn uitspraken.

De beroepspraktijk van de onderwijzer houdt immers in, dat hij te maken heeft met meerdere
kinderen tegelijk, en dat voor hem overeenkomsten en verschillen tussen die kinderen ter zake
doen. Tussen onderwijzer en kinderen bestaat dus ook noodzakelijkerwijs een
subject-object
relatie. En ook zijn beroepspraktijk wordt emancipatorisch als die relatie in wisselwerking komt
te staan met een subject-subject relatie. Naar hun inhoud zullen de uitspraken van de onder-
zoeker dus erop gericht zijn om dat, indien aanwezig, zichtbaar te maken.

t

2. Arbeiderskinderen en de school

Tussen onderwijzer en arbeiderskinderen bestaat niet alleen formeel, maar ook inhoudelijk een
subject-object relatie. Want arbeiderskinderen groeien buiten de school niet op als dragers van
de cultuur die de school hen wil bijbrengen. Dat is een middenklasse-cultuur, dus als subjecten
dragen zij die niet. En bij de schoolse verwerving van die cultuur presteren zij minder dan andere
kinderen, ondanks een gelijke start, gemeten naar intellectuele mogelijkheden.

Voor de emancipatorisch gerichte onderzoeker ligt het dus voor d&hand, de verklaring van
deze ongelijkheid te zoeken in de inrichting van het traditionele onderwijs, met zijn alomtegen-
woordigheid van de subject-object relatie tussen onderwijzer en arbeiderskinderen.
Evenzeer
ligt het voor hem voor de hand, de opheffing van deze ongelijkheid hierin te zoeken dat die
subject-object relatie in wisselwerking komt te staan met een subject-subject relatie
tussen

Adres: Grote Bickersstraat 72,1013 KS Amsterdam.

-ocr page 169-

Notities en commcntaren 165

onderwijzer en arbeiderskinderen. Dat houdt ten minste in dat zij als subjecten hun cultuur, dus
hun ervaringen, hun verhalen inbrengen in het onderwijs, en dat de onderwijzer vervolgens die
ervaringen, die verhalen objectiveert tot leerstof.

Kort gezegd: voor de emancipatorisch gerichte onderzoeker ligt het voor de hand, te streven
naar een onderwijs aan arbeiderskinderen dat aansluit bij hun ervaringen. Hij zal om te
beginnen de uitspraak willen doen, dat zulk onderwijs de genoemde ongelijkheid opheft. Maar
hoe gaat hij dan te werk bij het ontwikkelen, beproeven en vervangen van een dergelijke
uitspraak? Hoe richt hij dus ten aanzien daarvan zijn beroepspraktijk in, gegeven de beroeps-
praktijk van onderwijzers?

3. Vrijwillige actie en gevestigde instellingen

De onderzoeker kan niets beginnen als hij als enige ervan overtuigd is, dat het goed is te
proberen de genoemde ongelijkheid op te heffen, en dat het de moeite waard is dat op de
genoemde manier te proberen. Hij kan pas iets beginnen als hij andere betrokkenen bij het
onderwijs ontmoet, zoals ouders, onderwijzers en schoolbegeleiders, die ook die overtuiging
zijn toegedaan.

Dan kan hij in een subject-subject relatie met hen treden: in een relatie waarin wederzijdse
overtuigingen ter zake doen. Vervolgens is het zaak, deze overtuigingen om te zetten in
beleidspunten van gevestigde instellingen, zoals een schoolbestuur, schoolbegeleidingsdienst en
onderwijsonderzoeksinstituut. Tegelijk is het dan zaak, deze contacten om te zetten in reguliere
verbindingen tussen deze instellingen.

Want pas dan ervaart men elkaar ook in de dagelijkse beroepspraktijk binnen de eigen
instelling niet als buitenstaander, als indringer. En emancipatie duurt gewoonlijk langer dan
Vrijwillige actie.

4. Ontwikkeling en beschrijving

In dat kader kunnen onderwijzer, begeleider en onderzoeker (van wie de laatste twee kunnen
samenvallen), als beroepsbeoefenaren samenwerken in de door hen, of ten minste door hun
instellingen, gedeelde overtuiging: 'We moeten het onderwijs aan arbeiderskinderen laten
aansluiten bij hun ervaringen, want dan heffen we hun prestatie-achterstand op.' Die overtui-
ging laat de vraag open hoe men dat dan doet: 'het onderwijs laten aansluiten bij hun
ervaringen', en ter beantwoording van die vraag werken zij samen, als beroepsbeoefenaren. Dat
laatste is nu de belangrijkste inhoud van hun subject-subject relatie. Die relatie houdt nu met
name in, dat zij eikaars beroepsmatige gerichtheden en kundigheden erkennen als ter zake.

Zo is het in de Amsterdamse geschiedenis bijvoorbeeld voorgekomen, dat onderwijzers de
Verhalen van de kinderen gingen objectiveren tot taaloefeningen. Maar daarmee raakten ze de
opbouw naar moeihjkheidsgraad, en het evenwicht van soorten oefeningen kwijt, die in het
traditionele onderwijs waren gegeven met de methodeboekjes. Onderzoekers en begeleiders
ontwikkelden daarom een vervangend ambachtelijk hulpmiddel: een overzicht van taalstofge-
bieden en een systeem van verwijzingen, per taalstofgebied en naar moeilijkheidsgraad, naar
oefeningen in methodeboekjes. Daarmee konden onderwijzers naar analogie van die oefe-
ningen, de verhalen van de kinderen tot oefeningen maken (Van Calcar, 1976: 275-298). Zo
erkent de onderzoeker de beroepsmatige gerichtheid van de onderwijzer op evenwicht en
opbouw van de leerstof, als ter zake.

En zijnerzijds erkent de onderwijzer in deze samenwerking, de aanhoudende nieuwsgie-
righeid van de onderzoeker naar wat er in de klas gebeurt en zou kunnen gebeuren, als diens ter
zake dienende beroepsmatige gerichtheid.

5. Explicatie

In deze samenwerking wordt dus onderwijs ontwikkeld, en daarmee ook een onderwijstheorie:
die beweert dat door het ontwikkelde onderwijs, de prestatie-achterstand van arbeiderskinde-
ren wordt opgeheven. Deze ontwikkehng wordt op velerlei manieren vastgelegd: door observa-
tieverslagen, weergaven van gesprekken tussen onderwijzers, films, producten van kinderen.

-ocr page 170-

166 H. Flierman

reacties van ouders, en al wat bijdraagt aan een inzichtelijk beeld van de ontwikkeling die
gaande is. Tenslotte voegt de onderzoeker dit alles samen tot een verhalend betoog, waarmee de
onderwijstheorie in kwestie in essayvorm beschikbaar is.

In de beroepspraktijk van de onderzoeker is na deze ontwikkeling van een onderwijstheorie,
de beproeving daarvan aan de orde. Maar daartoe moet het verhalend betoog in kwestie, eerst
worden omgevormd tot een stelsel van uitspraken. En daaraan stelt hij als wetenschapper de eis
van een zo hoog mogelijk informatiegehalte, zodat de theorie als stelsel van uitspraken zo
veel
mogelijk beweert, en een beproeving daarvan zo veel mogelijk informatie oplevert. Eerst is dus
explicatie aan de orde (Opp, 1970: h. 5-6; Popper, 1959: h. 6).

En hiermee heeft de onderzoeker zijn subject-subject relatie met de onderwijzer, verwisseld
voor een subject-object relatie. Want hiermee is om te beginnen het gedachtengoed van de
onderwijzer, overigens met dat van de onderzoeker zelf, voor de onderzoeker tot object
geworden.

6. Beproeving

Vervolgens is een beproeving van de theorie aan de orde, in de beroepspraktijk van de
onderzoeker. Daarbij wordt het handelen van de onderwijzer, met dat van zijn kinderen, voor
de onderzoeker tot object. Zo is in de Amsterdamse geschiedenis bijvoorbeeld deze stelling
ontwikkeld, als deel van een meer omvattende onderwijstheorie: 'Als een onderwijzer bij het
behandelen van rekenstof gebruik maakt van de inbreng van de kinderen, dan boeken ze meer
rekenwinst'. Om deze stelling te kunnen beproeven, moet de onderzoeker om te beginnen de
rekenwinst van de kinderen van een aantal klassen kunnen bepalen: moet hij dus de mate waarin
zij zich in de loop van een periode rekenstof hebben eigen gemaakt, in een getal
kunnen
uitdrukken. Dat kan hij doen door toetsgegevens van die kinderen van voor en na die periode,
op elkaar te betrekken. Daarbij wordt het handelen van die kinderen bij het maken van die
toetsen, voor hem tot object.

Ook moet de onderzoeker kunnen bepalen, of de onderwijzers van ieder van die klassen, in
die periode al dan niet bij het behandelen van rekenstof gebruik maakten van de inbreng van de
kinderen. Dat kan hij doen door het hen te vragen, in een gesloten vragenlijst. Daardoor
wordt
het handelen van die onderwijzers, voor de onderzoeker tot object.

Vervolgens kan hij de gemiddelde rekenwinst in de klassen waarvan de onderwijzers op de
genoemde manier te werk gingen, vergelijken met die in de klassen waarvan de onderwijzers dat
niet deden. En die vergelijking kan hij laten gelden als beproeving van de stelling. In het
genoemde geval werd de stelling in kwestie aldus weerlegd. Maar als de onderzoeker zijn
subject-object relatie met de onderwijzer weer wil kunnen verwisselen voor een
subject-subject
relatie, dan moet hij de stelling ook per klas beproeven. Dat kan hij doen door voor ieder van de
klassen waarvan de onderwijzer zo te werk ging, de rekenwinst te vergelijken met de gemiddelde
rekenwinst in de klassen waarvan de onderwijzers dat niet deden. In het genoemde geval werd
de stelling aldus in één klas bevestigd (Flierman, in dfUk: 132).

7. Bespreking

De beroepspraktijk van de onderzoeker behelst de ontwikkeling, beproeving en vervanging van
uitspraken. Als een stelling in één klas is bevestigd, en in de andere klassen weerlegd, dan dient
hij in die beroepspraktijk te worden vervangen, door een uitspraak die beschrijft waarin die ene
klas verschilde van de andere. Dat laatste kan de onderzoeker nu te weten komen door de
onderwijzers in kwestie te vragen hoe zij de werkwijze in kwestie volgden, dus hoe zij bij het
behandelen van rekenstof gebruik maakten van de inbreng van de kinderen. Maar dit vragen
door de onderzoeker is niet stuurloos. Want daarbij is hij erop gericht, te weten te komen hoe dit
objectiveren door de onderwijzer van ervaringen van de kinderen, viel binnen een wisselwerking
van subject-object en subject-subject relades tussen onderwijzer en arbeiderskinderen. En deze
emancipatorische gerichtheid deelt de onderzoeker met de onderwijzer - of ten minste delen
beider instellingen deze gerichtheid, in hun beleid. Zo treden beiden weer in een
subject-subject
relatie.

-ocr page 171-

Notities en commcntaren 167

Daarbinnen vertelde de onderwijzeres van de ene klas in kwestie bijvoorbeeld: 'Je had het
bijvoorbeeld over wonen; dat is een onderwerp dat de kinderen altijd vreselijk boeit. Dan kun je
op rekenen overschakelen door te gaan praten: 'Met hoeveel mensen woon je in een huis?', en
daar kun je een grafiek van maken; je kunt er ook sommen aan ontlenen: 'Hoeveel slaapkamers
heb je? en hoeveel kinderen slapen er op een kamer?' 'Nou, we zijn met z'n vijven thuis en we
hebben twee slaapkamers, dus het is verdeeld over twee slaapkamers, dus twee en drie', bij wijze
van spreken. Of in het boekenuurtje zijn de kinderen aan het lezen; dan kun je die boeken
onmiddellijk aangrijpen: 'Hoe wonen die kinderen?', en daar kunnen we dan ook wel grafieken
Van maken, en ook sommetjes mee gaan doen en zo' (a.w.: 133).

Maar dan heeft die objectivering tot een sommetje, ook voor de kinderen als subjecten weer
betekenis: als beschrijving van een feitelijke en een mogelijke toestand met betrekking tot de
kwaliteit van de woning. En iets dergelijks was in de andere klassen niet aan de orde. Aldus kan
de onderzoeker de beproefde stelling, en de onderwijstheorie waarvan hij deel uitmaakt, nu
vervangen door een nieuwe. Maar daarmee is het onderwijs dat door de nieuwe theorie wordt
beschreven, nog geen gemeengoed geworden. Daartoe zijn in de beroepspraktijk van de
onderwijzer, wellicht andere ambachtelijke hulpmiddelen vereist. En daartoe moeten onderwij-
zer, begeleider en onderzoeker dan weer gaan samenwerken.

LITERATUUR

Calcar, C. van (1976). Innovatieproject Amsterdam. Deel II: Tussenstand. Amsterdam: Van Gennep.
Calcar, C. van & H. Flierman (1979). Actie-onderzoek en evaluatietheorie. Paper bestemd voor Onderwijs

Research Dagen 1979. Amsterdam: R.I.T.P.
Calcar, C. van & J.K. Koppen (19%0). Actie-onderzoek opnieuw in het geding? Paper bestemd voor Onderwijs

Research Dagen 1980. Amsterdam: R.I.T.P.
Flierman, H.; Verhalen over eerlijk. Onderwijskundige theorievorming. Amsterdam: S.C.O., in druk.
Karsten, S. (1979). Aktieonderzoek. Een literatuuroverzicht. K.I.-Geschrift nr. 51. Amsterdam: Kohn-
stamm Instituut.

Methodologie der Sozialwissenschaften. Einführung in Probleme ihrer Theorienbildung.
Reinbek bei Hamburg: Rowohlt.
Popper, K.R. (1959).
The logic of scientific discovery. London: Hutchinson.

Ontvangen 17-9-1985

Adres: Grote Bickersstraat 72,1013 KS Amsterdam.

-ocr page 172-

'rijilsclirifl voor Oncicrwijsrcscarcli, 11 (1986), p. I6K.

Ontvangen publikaties

Tomig, W. Doccntiicdrag cn Iccncsiillalcn. Unschccic: Fcbodruk, 1985, disscrtnlic.

Glopper, K. dc. Schrijfprcstalicx in hel voorlgczcl onderwijs. Een onderzoek naar de stelvaardig-
heid van leerlingen in hel derde leerjaar LTO, LHNO, MAVO, HAVO cn VWO.
Den Haag: SVO, 1985 (Selecta Reeks).

Graauw, C. dc & Hutjes, .1. Gebruik van de microcomputer in de sociale wetenschappen.
Nijmegen: ITS, 1985 (MlSO-recks, moduul I).

Blom, S., Kerk, J. van der & Goor, M. van. Ervaringen met interne differentiatie in het buitenland.
Een literatuurstudie naar ervaringen met interne differentiatie in de eerste fase van
gemtegreerd voortgezet onderwijs in vier Europese landen.
Utrecht: VOU, 1984 (herdruk)-

Du Bois-Reymond, M. & Coonen, H. De binnenkant: Schoolkriiiek en dialoog in de Pabo.
Amsterdam: Boom Meppel (Educatieve reeks), 1986.

Decoo, W. (ed.). Proficiency Training in Language Education. Liège: Association Beige de
Linguistique Appliquée, 1985 (ABLA papers), no. 9.

Jager, A. & Klooster, Ria van 't. Buitenlandse onderzoeksliteratuur over etnische groepen in het
onderwijs.
Een geannoteerde bibliografie van literatuur uit Engeland, de Bonds-
republiek Duitsland, Zweden, Australië, Canada en de VS. Utrecht: VOU, 1985.

Brink, W. P. van den & Koele, P. Statistiek, deel 2, Theorie. Meppel: Boom, 1986.

Slavenburg, J. H. Onderwijsstimulering en gezinsactivering: effecten van programma's van het
project Onderwijs en Sociaal Milieu op de schoolprestaties van eersteklassers lager
onderwijs.
Dissertatie. Den Haag: SVO, 1986.

Jong, T. de. Kennis en het oplossen van vakinhoudelijke problemen. Dissertatie. Helmond:
Wibro, 1986. Het proefschrift is te bestellen door overmaking van f 24,25 (inclusief
f4,25 verzendkosten) op postgiro 4922740 ten name van A. J. M. de Jong te Lelystad.

Boorsma, P. B. & Koelman, J. B. J. (Red.). Doelmatigheid in het hoger onderwijs: rede-
voeringen gehouden op het congres van 18 december 1985 in de RAI te Amsterdam,
georganiseerd door het Centrum voor Studies van het Hoger Onderwijsbeleid. Den
Haag: VUGA Uitgeverij b.v., 1986.

-ocr page 173-

Tijdschrift voor Onderwijsrescarch, 11 (1986), nr. 4, pp. 169-176

Essay Rating by the Comparison Method

Henk Blok
ABSTRACT

Reliable scoring of essays is hampered by, among other things, the habitual use of a discrete rating
scale with limited categories and practical problems in obtaining direct multiple but equivalent
ratings. The comparison method, originating in psychophysical research, is proposed as a way of
overcoming these problems. Raters are instructed to compare the set of essays with a standard essay
of mediocre quality. They may express their ratings in different response modalities, e.g., line
lengths (by line production), numbers (by magnitude estimation), duration (by varying the duration
of a light or sound signal). This study compared the use of a traditional categorical scale with line
production and magnitude estimation. It was found that the use of the last two methods made it
possible to obtain from a single rater in one session psychometrically equivalent ratings. This result
enables researchers to study between rater relationships corrected for within rater variation.
Contrary to expectations the comparison ratings did not exhibit superior reliability. The last finding
may be attributed to the fact that the raters tended to extend the categorical scale to ten or more
categories, thus approximating a continuous scale.

Over the years the measurement of educational achievement has been much improved. Not only
have the test format and scoring procedure become more efficient, measurement models too
have been refined with the introduction of item response models. These improvements have not
been uniformly applied in the various cognitive domains. Writing ability is one domain which
has not taken full advantage of developments in measurement theory and practice. One of the
reasons may be that efforts have been concentrated on the objective or choice-type test format.
The measurement of writing ability, according to a widely held opinion, requires a free-response
type of test, as it is a productive ability, not a receptive one. Diederich (1974) formulated this
argument as follows:

As a test of writing ability, no test is as convincing to teachers of English, to teachers in other
departments, to prospective employers, and to the public as actual samples of each student's
writing, especially if the writing is done under test conditions in which one can be sure that
each sample is the student's own unaided work. People who uphold the view that essays are
the only valid test of writing ability are fond of using the analogy that, whenever we want to
find out'whether young people can swim, we have them jump into a pool and swim. (p. 1)
Rightly or wrongly, the writing and evaluation of essays remain common practice in research
and in schools as well. To prevent the essay-writing method from falling behind current
measurement standards, ongoing attention is needed. In this paper the apphcation of an
alternative scoring procedure is reported. The comparison method was used in an attempt to
improve the measurement of writing ability by essay writing.

The standard design for essay evaluation calls for at least two independent ratings. Ratings
are mostly given on a k-point rating scale on one or more essay characteristics (e.g. global
impression, style, content, writing mechanics). The number of categories, k, is usually small, say
three to six. There are several inherent problems to this kind of design, two of which are relevant
for the present study. First, the rating scale is very coarse. Second, there are practical problems
in obtaining muhiple but psychometrically equivalent ratings. Both problems wiU be elabo-
rated.

Adres: Gebouw De Narwal, Grote Bickersstraat 72,1013 KS Amsterdam

-ocr page 174-

170 Comparison Method

A major problem is the lack of rating reliability. This may be partly due to the categorical
character of the rating scale. The ordinal level and the available number of categories restrict the
rater in making fine differentiations. It may be suspected that most raters are able to convey
more precise information than categorical scales permit. In a recent review Breland (1983)
concludes that 'higher scoring ranges, up to about 15 judgmental points, seem to generate
slightly higher reliabilities'. Using a continuous scale with interval measurement properties may
be even more appropriate. But, even if it were possible to provide the raters with a continuous
scale, this would not necessarily result in superior reliabilities.

The lack of rating reliability results also from the difficulty of defining the rating task. It is
arduous to provide raters with clear statements about good and bad essay quahties. The usual
approach to enhance reliability of ratings is to collect muhiple ratings, either by the multiple
rater design, the rate-rerate design or a combinadon of the two. The basic assumption under-
lying this approach is that the different ratings represent true scores that are perfectly linearly
related. This means that the true scores that underlie a rater's rating will correlate perfectly with
the true scores for the same essays if rated a second time. Only in that case the different ratings
are defined to be psychometrically equivalent. But if the true scores underlying the different
ratings differ by more than a linear factor, the ratings are psychometrically non-equivalent.

The practical difficulties in obtaining equivalent ratings are the second major problem to be
mentioned here. If different raters rate the essays only once, it is impossible to test the
assumption of rating equivalence, for the between rater variation is confounded with the within
rater variation. In order to test the assumption that different raters are psychometrically
equivalent, one needs to repeat the rating procedure using the same raters. But in the rate-rerate
design other problems may arise. With immediate rerating memory effects may cause reliability
estimates to be spuriously high. With delayed rerating changes in true scores over time may
cause reliability estimates to be spuriously low. Such changes in true scores may occur when
raters change the criteria they apply when judging essays.

In the present study it has been asked whether the comparison method may be used to obtain
multiple and equivalent ratings from a single rater on a continuous scale. The focus of the study
therefore is on the within rater variation.

The comparison method

The comparison method is a procedure which stems from psychophysical research. Originally
developed to measure the human perception of physical stimuli, the method has been success-
fully used with such social stimuli as opinions and attitudes (Hamblin, 1973; Lodge, 1981; Saris,
Bruinsma, Schoots & Vermeulen, 1977; Saris, Neijens & Van Doom, 1980; Wegener, 1982).

The procedure is as follows. Raters are presented with a series of essays and asked to indicate
their evaluation of each essay in relation to a standard. The standard is an arbitrarily selected
essay. The raters give their ratings in a variety of response modalities, for example numbers, line
lengths, durations, acoustic volume, light intensity. It is known from research with physical
stimuli that the relation between stimulus and response can be described with a power function.
This function has also been found in research with social stimuli (Stevens, 1975). When the
stimuli have no numerical value, as is the case with essays, the relation between stimuh and
responses cannot be analyzed. On the other hand it is possible to use the function already found
to compare measurements obtained in various response modalities.

Van Doom, Saris and Lodge (1983) refer to, among others, the following advantages of the
comparison method:

a. As regards measurement level, the scales obtained comply with the features of a log interval
scale (Marks, 1974; Saris et al, 1980; Wegener, 1982). This mean? that after logarithmic
transformation the use of interval statistics is justified. This results in simpler and more
sensitive analyses.

b. Much is already known about the effects of variations in the procedure. This knowledge is
based on psychophysical research covering a long period of time (Marks, 1974).

-ocr page 175-

Henk Blok 171

c. By using a variety of response modalities it is possible to obtain repeated measurements
without the necessity of waiting for longer periods to avoid memory effects. This makes it
possible to construct individual scales whhout loss of time. In addition, it is possible to
obtain direct estimates of the reliability of the judgments made by one rater.

d. The reliability of the ratings is highly statisfactory. Most coefficients, even with social
stimuli exceed .90.

As far as is known the comparison method has never before been used with essay scoring.
Therefore, the first research question was: Is the comparison method feasible? More spe-
cifically, are teachers able to apply the comparison method without a disturbing effect on their
ratings? The second question was: Is the comparison method useful? More specifically, are the
ratings obtained by the comparison method more reliable than the ratings obtained by using a
categorical rating scale?

DATA

There were 21 essays available for the rating experiment. They were written by sixth graders
who completed a story of which only the beginning was given. One essay of clearly mediocre
qualities was selected to be the standard essay, that is, the essay with which all other essays had
to be compared. The six raters, five of which were elementary school teachers without any
special rating experience, were asked for a quickly produced holistic score. The raters judged
each essay six times in two different rating sessions. Procedures were such that the scores were
experimentally independent from each other: raters used clean copies in various random orders,
they worked independently and were not allowed to work backwards. On the first session essays
Were first rated with the comparison method by line production (LP), then with the same
method by magnitude estimation (ME) and thirdly with the traditional method, the categorical
rating scale (CA). Five days later at the second session the essays were rated with the same
instructions in the same order of rating tasks. In between the essays were also rated on several
analytic criteria, but these data will not be presented here.

When interviewed afterwards the raters indicated that the instructions were easy to follow
and that the two comparison tasks, line production and magnitude estimation, did not present
any special difficulty. Moreover, instructions were short and simple. No special training was
required. Nor did the repeated character of the rating procedure, with each rater rating each
essay six times for a holistic judgment and another six times for analytic judgments, present a
problem. None of the raters could remember specific ratings given to specific essays, although
the essays themselves became much more familiar. Thus there is no positive indication of a
memory bias. This point will be returned to when the data are treated statistically.

The data consist of six variables for each of the six raters. The scores from the line production
tasks - that is, the measured line lengths - and from the magnitude estimation tasks - that is, the
numbers given - were transformed by taking the natural logarithm. To decide whether the
Univariate distributions could be treated as normal distributions, coefficients of skewness and
kurtosis were examined. From the 36 coefficients of skewness 3 were statistically different from
zero at the .05 significance level, as were 5 of the 36 kurtosis coefficients. The linearity of
relations was investigated at the bivariate level by comparing the correlation and the correlation
ratio (Kendall & Stuart, 1973). Of the 90 tests performed, 15 for each rater, only 7 were
statistically significant (a = .05). It was therefore decided to study the data with linear models.
Table I presents some distributional statistics for the variables of two raters.

-ocr page 176-

172

Comparison Method

Table 1. Intercorrelations, Means, Standard Deviations, Kurtosis and Skewness for 6 Ratings
of Rater 1 (under diagonal) and of Rater 2 (above diagonal); n = 21

LP,

ME,

CA,

LP2

ME2

CA2

mean

s.d.

skew-
ness

kurtosis

LP,

_

.328

.786

.644

.517

.600

2.64

.697

-.862

-.108

ME,

.739

_

.676

.336

.477

.326

5.31

.621

-.905

.728

CA,

.768

.825

_

.512

.567

.552

7.11

.625

.517

-.563

LPj

.491

.638

.706

_

.613

.668

2.57

.487

-.567

.363

ME2

.525

.661

.706

.926

-

.639

5.02

.541

-.453

.171

CA2

.610

.716

.689

.815

.893

-

6.74

.700

.476

-1.115

mean

1.54

4.20

5.64

1.88

4.49

6.31

-

-

-

-

s.d.

.672

.392

1.198

.719

.516

1.018

-

-

-

-

skewness

.375

.887

.275

.507

.735

.104

-

-

-

-

kurtosis

.930

1.339

.303

-.196

-.426

.691

-

-

-

-

MODEL SPECIFICATION

Let Yijiti be the score for the /th essay (1=1.....21) by the

A:th rater(k= 1, ...,6)onthe
yth occasion (j = 1,2) with the
/th task (i = 1,2,3 for LP, ME, CA)

Thus the design of the study allows the distinction of four facets. The fourth facet, facet /, may
be called the subject facet for it is across essays that variation will be studied. With the remaining
three facets there are still 36 possible variables, which leads to identification problems when
analyzed in one model. As a further simplification only the variation within raters will be
studied, that is, the variation between the six variables per rater. In what follows the essay and
rater subscripts will be omitted.

After standardization of the variables for any rater the observed ratings can be decomposed
following classical test theory

(!)

yij — ^ij Tlij + «ij

where the Xy are regression weights, the Tjy are the true scores and the e^ are the error scores,
independent of the true scores. It is assumed further that the error scores are independent of
each other. This excludes bias by memory effects from the model, but this assumption may be
changed if the model appears not to fit the data.

Several hypotheses can be tested by evaluating the effects of certain restrictions or constraints
on the model fit. It is useful to distinguish hypotheses concerning the relationships between the
true scores from hypotheses on the regression weights.

As regards the relations between the true scores three competing hypotheses can be formu-
lated.

A. All true scores are identical, that is: rj,^ = 77 for all i, j. The implication of this hypothesis is
that all ratings are congeneric measures, which is the weakest type of psychometrical equi-
valence.

B. The true scores are identical only within the occasion facet, that is: rjij = rij for all i, j. In this
case the ratings at the different rating occasions differ by a systematic factor, while the
ratings at the same occasion may be considered congeneric.

C. The true scores are identical only within the task facet, that is: tjij = rjj for all i, j. This means
that ratings are congeneric only within the same task. In this case the ratings in one or two of
the tasks are biased.

-ocr page 177-

Henk Blok 173

Because there is no a priori reason for choosing one of the models over the others, the three
models were tested against the data. Tests were performed for each rater separately with the
LISREL IV program (Jöreskog & Sörbom, 1978). As an indicator of model fit the goodness-of-
fit statistic provided by the program has been used. To prevent overfitting by capitalization on
samphng fluctuations and to obtain a parsimonious theory a model was to be preferred that
fitted the data of all raters.

After choosing the model that fitted the criteria best, the next step was to estimate the
reliabilities of the ratings. Specifically, the question was whether the reliabilities of ratings with
identical true scores can be considered to be equal - in which case the ratings are parallel
measures - or not - in which case the ratings are congeneric measures. These two types of rating
equivalence can be formulated by imposing constraints on the \|j coefficients, the regression
weights. Four models were considered.

0. If no constraints on the regression weights are allowed by the data, the ratings with identical
true scores are to be considered congeneric measures only. This means that the reliabilities
are dependent on rating task or rating occasion.

1. \jj = Xj for all i, j. This means that the ratings within the task facet exhibit equal reliabilities
over the two rating occasions, while the reliabilities of different rating tasks need not
necessarily be equal.

2. \|j = \j for all i, j. In this case the reliabilities are constrained to be equal within rating
occasions but not necessarily within rating tasks.

3. = \ for all i j. In this case all ratings represent the true scores equally well, which means
that the ratings can be considered to exhibit equal reliabilities.

Again, the choice between the different rating equivalence models was made with LISREL.
Models 1 to 3 are hierarchically related to Model 0, as they can be obtained from Model 0 by
alternate or combined restrictions. If one model is a restricted case of another model, the more
restricted model can be tested against the less restricted one, since the difference between the
two goodness-of-fit statistics is also chi-square distributed with the number of degrees of
freedom equal to the difference in numbers of restrictions in the two models. However, this test
holds only when the less restricted model is statistically acceptable (Satorra & Saris, 1985).

ANALYSIS

First of all analyses were carried out to decide between Models A, B and C. The results are
presented in Table 2.

It can be seen that Model A does not fit the data in the case of five out of six raters. Only for
rater 3 can Model A, which states that all ratings have the same true scores, be accepted. Model
C, which states that the ratings differ by a task-specific factor, also has to be rejected for five out
of six raters. Only Model B, stating a rating-occasion-specific factor, fits the data of all raters. It
was therefore decided to continue the analysis on the basis of Model B.

We now come to the results of the second step in the analysis to decide between Models 0 to 3.
Knowing that the set of ratings exhibits occasion-specific variation, models were tested which
combined the restrictions of Model B and models 0 to 3, that is Models B.O to B.3. It should be
noted that model B.O is exactly the same model as Model B, since the last model does not contain
constraints on the regression coefficients.

The results of the model tests are presented in Table 3. In comparison with Model B.O Model
B. 1 fits the data significantly worse for two raters, while the deterioration of the fit in the case of
Model B.2 is not significant for any of the raters. In the case of Model B.3, in which the
constraints of B. 1 and B.2 are combined, the deterioration is significant for rater 4. Because the
model which fits the data of all raters is preferred, Model B.2 has been accepted as the final
model.

-ocr page 178-

174 Comparison Method

Table 2. Goodness-of-fit statistics of the models with different true-score relationships
Model A Model B Model C

rater

xMdf=9)

Prob, level

xMdf=8)

Prob, level

xMdf=6)

Prob, level

1

28.20

<05

6.62

.58

19.64

<.05

2

19.81

<.05

11.46

.18

14.09

<.05

3

14.36

.11

1.27

.99

12.16

.06

4

32.48

<.05

11.35

.18

30.22

<.05

5

23.48

<.05

8.64

.37

13.45

<.05

6

15.42

<.05

9.92

.27

13.29

<.05

Table 3. Goodness-of-fit statistics of the model comparisons concerning different rating equi-
valences

rater xMdf=6) Prob, level x'(df=8) Prob, level x^(df=10) Prob, level

I

8.35

n.s.

7.39

n.s.

11.03

n.s.

2

3.92

n.s.

8.76

n.s.

8.90

n.s.

3

9.87

n.s.

6.46

n.s.

12.59

n.s.

4

17.05

<.05

11.62

n.s.

19.98

<.05

5

7.98

n.s.

1.27

n.s.

8.07

n.s.

6

13.77

<.05

4.50

n.s.

17.15

n.s.

In summary, Model B.2 implies that:

a. The set of ratings exhibits an occasion-specific variation as a result of which the ratings of
different rating occasions do not fit the weakest form of test equivalence, that is, the
congeneric test model.

b. Within rating occasions ratings can be considered parallel measures, which means that the
ratings of different tasks possess equal reliabilities.

As a further result it may be noted that correlated errors were not necessary to obtain fitting
models.

Derived coefllcients

Several interesting coefficients can be computed using the parameters of the final model. Table
4 presents the correlations (and standard errors) between the true scores on the first and the
second occasion. Also the reliabilities on the two occasions are reported. The reliabilities were
obtained by taking the square of the regression coefficients.

It can be seen that the estimated correlations between the true scores range from .733 to .934,
clearly different from 1. They may also be interpreted as attenuated stability coefficients as they
are corrected for measurement errors. This result implies a warning against interpreting
observed rate-rerate correlations as reliability estimates. It may be wondered what is the cause
of the change in true scores, which is exhibited by all raters. Some may hold the analytic rating
tasks which were given between the global ratings responsible for this change in true scores.
Others will point to the repeated character of the rating tasks which niay prevent raters from
giving global impression ratings. Be that as it may, this result illustrates that observed rate-
rerate correlations, even over a period of a week or less, may severely underestimate the
reliability of raters on a single occasion.
In this study, rating reliability appears to be reasonably high on the first occasion, ranging

Model B.O vs. Model B.l Model B.O vs. Model B.2 Model B.O vs. Model B.3

-ocr page 179-

Henk Blok 175

Table 4. Estimated correlations between the true scores on occasion 1 (tj,) and occasion 2 (rjj),
the standard errors of estimation and the estimated reliabilities on occasion 1 (\f) and
occasion 2 (X2)

rater

PiViVi)

s.e. of p

I

.778

.103

.778

.878

2

.733

.139

.596

.640

3

.909

.050

.815

.920

4

.828

.065

.814

.925

5

.785

.103

.748

.891

6

.934

.043

.771

.927

from .596 to .815. On the second occasion most raters have increased their reliability by at least
ten points, resulting in coefficients ranging from .640 to .927. Only rater 2 exhibits continuing
low reliability. Although he apparently keeps having difficulty with reliable judgment, his data
fit the same model as the data of the other raters. This may enhance our belief in the robustness
of the measurement model. In his review of the literature on the measurement of writing skill
by essay writing, Breland (1983) reports a median reliability of .64 for a single rater who judges
essays on a single occasion. Our reliabilities exceed his estimate by a wide margin, which we
should expect to occur because most researchers correct for errors only between raters, not
within raters.

CONCLUSION AND DISCUSSION

This study presents the next answers to the questions asked at the outset: is the comparison
method feasible with essay judgment tasks and is it useful?

The answer with regard to feasibility is simply yes. It was noted that the instructions for the
raters were easy to explain, and also easy to apply as the raters reported. From the analysis of
their ratings it was found for all raters that their ratings were not disturbed by a method-specific
factor.

As regards usefulness the answer is less simple. It is true that the comparison method
appeared to make it possible to repeat the rating task within the same session without
disturbances by memory effects, even with as few as 21 essays. But contrary to expectations the
comparison method did not result in raised reliabilities. As an additional result it was found that
raters may change the criteria they apply when judging essays, even within a period of a week.
This result could only be found thanks to the comparison method which made immediate
rerating possible.

It is unknown why the reliability of the comparison method tasks did not appear to be
superior to the reliability of the traditional task. It may be that in most of the studies in which
the comparison method has proved to be superior to categorical rating tasks the categorical
scales possess only a limited number of categories, say, 3 to 7. In this study, however the raters
chose their own number of categories by segmenting a scale from 1 to 10 in as many categories as
they judged necessary. In the Netherlands this is common educational practice. In fact the raters
Used 6 to 14 categories on the first rating occasion, and 5 to 11 on the second rating occasion.
This may be an indication that our categorical scale did not limit the raters in making the
differentiations they wanted.

As an alternative explanation for not finding the expected superiority we may point to the
small number of cases used; only 21 essays were judged. Consequently the power of the model
test will be low. Recently Satorra and Saris (1985) have developed a procedure to calculate the
power of the LISREL model test. Assuming a correlation between the true scores on the two

-ocr page 180-

176

Comparison Method

rating occasions of .80 (the median value found in this study), a rehabihty of .82 for the two
comparison tasks and a divergent rehabihty of .72 for the categorical scale has a chance of .08 of
being discriminated from a model with equal reliabilities of .82 for the three rating tasks. About
350 essays are required to detect such a difference, if it exists, with a probabihty of .80.

In this study questions were only answered for relationships within the same rater. The data,
however, permit an analysis
of interrater relationships. Corrected for measurement errors the
interrater correlations ranged from a negative —. 16 to .90 (with a median value of .51). These
low values are partly due to a deviating opinion of one of the raters. But the missing of explicit
instructions on which essay qualities to favor and which not also exerts an influence. The raters
were instructed 'to determine themselves which essay characteristics contribute to the global
impression'. In further research more attention should be given to the problem of weak
interrater relationships. The comparison method enables the researcher to correct for measure-
ment errors at the individual level by immediate rerating. This correction is a necessary
condition for studying interrater relationships (Blok, 1985). The shorter the period between the
two ratings, the better will be the estimate of the reliability of a single rater.

REFERENCES

Blok, H. (1985). Estimating the rehabihty, validhy and invalidity of essay ratings. Journal of
Educational Measurement, 22,
41-52.

Breland, H.M. (1983). The direct assessment of writing skill: a measurement review. New York:
College Entrance Examination Board.

Diederich, P.B. (1974). Measuring growth in English. Urbana, IL: National Council of Teachers
of Enghsh.

Doorn, L. van. Saris, W.E. & Lodge, M. (1983). Discrete or continuous measurement: what
difference does it mzkcl Kwantitatieve Methoden, 10, 104-120.

Hamblin, R.L. (1973). Social attitudes: magnitude measurement and theory. In H.M. Blalock
Jr. (Ed.),
Measurement in the social sciences (pp. 61-121). London: McMillan Press.

Jöreskog, K.G., & Sörbom, D. (1978). LISREL IV: A general computer program for estimation
of linear structural equation systems by maximum likelihood methods.
Chicago: Inter-
national Education Services.

Kendall, M.G., & Stuart, A. (1973). The advanced theory of statistics: Volume II. Inference and
relationships
(3rd ed.). London: Griffin.

Lodge, M.'(1981). Magnitude scaling: quantitative measurement of opinions. London: Sage
Publications.

Marks, L.E. (1974). Sensory Processess; the newpsychophysics. New York: Academic Press.

Saris, W.E., Bruinsma, C., Schools W., & Vermeulen C. (1977). The use of magnitude estima-
tion in large scale survey research.
Mens en Maatschappij, 52, 369-395.

Saris, W.E., Neijens, P., & Doorn, L. van (1980). Scalitrg social science variables by multimoda-
lity matching.
Methoden & Data Nieuwsbrief, 5, 3-21.

Satorra, A., & Saris, W.E. (1985). Power of the likehhood ratio test in covariance structure
analysis.
Psychometrika, 50, 83-90.

Stevens, S.S. (1975). Psychophysics: Introduction to its perceptual neural and social prospects.
New York: Wiley.

Wegener, B. (1982). Fitting category to magnitude scales for a dozen survey-assessed attitudes.
In B. Wegener (Ed.),
Social attitudes and Psychophysical measurement (pp. 379-400).
Hillsdale, NJ: Eribaum.

Manuscript ontvangen 18-9-1985.

Deflnitieve versie ontvangen 25-2-1986.

-ocr page 181-

Tijdschrift voor Onderwijsresearch, 11 (1986), nr. 4, pp. 177-186

De dagindeling van studenten: een praktijkvoorbeeld

K.D.J.M.van der Drift

Rijksuniversiteit Leiden

Bureau Onderzoek van Onderwijs

ABSTRACT

Student Time Utilization: A Case Study

As part of a larger study on the working behaviour of university students, a sample of 52 out of a
total of 86 biology freshmen kept 24 hour diaries on their activities during a period of two weeks.
One of these weeks was part of a normal class period, the other of a classfree period preceding an
examination. The students recorded their activities by assigning them to one of four broad
catagories: (1) work, i.e. class attendance or independent study; (2) attending to personal needs such
as sleeping, eating or housekeeping; (3) travel and/or moving about town; and (4) leisure, such as
sports and socializing with fellow students. The students were asked to record one activity at least
once every 30 minutes. Figures 1 and 3 through 6 show how activity patterns vary in function of
curricular organization. Moreover, the activity pattern of students is compared to that of workers in
industry and government, revealing a striking resemblance between the two.

1. INLEIDING

Onderzoek naar de tijdbesteding van studenten is meestal gericht op het beantwoorden van
vragen als:

- Welke studielast vloeit uit een studieprogramma voort?

- Welke invloed heeft het onderwijsprogramma op de studie-inspanning?

- Welk verband bestaat er tussen de studie-inspanning en het studiesucces?

Bij dergelijk onderzoek staat de tijd die aan de studie wordt besteed centraal. De tijd die
studenten aan andere activiteiten besteden wordt niet onderzocht.' Vanuit het standpunt van
een onderwijsonderzoeker is de beperkte gezichtshoek begrijpelijk, maar voor de student niet.
Een student staat voortdurend voor de vraag hoe hij zijn tijdbudget zal verdelen over onder-
wijsdeelname, zelfstudie, sport, bezoek aan de studentenvereniging, huishoudelijke taken en
dergelijke. Regelmatig concurreren alternatieve mogelijkheden van tijdbesteding om de aan-
dacht van de student: uitslapen of naar het vroegste college gaan; een weinig interessant college
volgen of in plaats daarvan studeren; vlak voor een tentamen 's nachts doorwerken of liever
bijtijds gaan slapen en de volgende ochtend vroeg de aantekeningen nog eens doornemen.

Inzicht in de uitkomsten van deze concurrentiestrijd om het tijdbudget van studenten kan
ook voor curriculumplanners van belang zijn. De planning van het onderwijsprogramma en de
daarbij behorende zelfstudietaken zal moeten geschieden binnen randvoorwaarden van onver-
mijdelijke activiteiten als slapen, eten en persoonlijke verzorging; ook is het van belang om
rekening te houden met eventuele 'ijzeren' patronen in het tijdbestedingsgedrag van studenten.
Tenslotte is het nuttig om eens na te gaan of het tijdbestedingspatroon van studenten zo sterk
afwijkt van dat van andere werkende Nederlanders als de media vaak willen doen geloven.

Adres: Boerhaavelaan 2
2334 EN Leiden

-ocr page 182-

J g5 Dagindeling van studenten

2. METHODE VAN ONDERZOEK
Onderzoek naar de integrale tijdbesteding van studenten is gedaan in het kader van een
tijdschrijfonderzoek dat gedurende het studiejaar 1983/84 onder ongeveer 90% van de eerste-
jaarsstudenten in de studierichting Biologie van de Rijksuniversiteit Leiden is uitgevoerd (Van
der Drift, 1984c). Van de 86 tijdschrijvende studenten hebben 52 gedurende een onderwijsweek
en gedurende een week in de tentamenperiode de gehele tijdbesteding geregistreerd. Voor elk
half uur van een etmaal gaven zij aan, welke tijdbestedingscategorie'én (of combinatie van
categorieën) van toepassing was:

a. onderwijsdeelname

b. zelfstudie,

c. overige activiteiten in verband met de studie,

d. algemene ontwikkeling,

e. persoonlijke verzorging en huishouding,

f. slapen,

g. ontspanning

h. contacten met studenten buiten de studie,

i. familiebezoek (voorzover niet een andere categorie van toepassing was),
j. reizen/zich verplaatsen,

k. diversen (zelf in te vullen).

In dit artikel worden enkele resultaten van dit 24-uurs-tijdbestedingsonderzoek gerapporteerd.
Daarbij zijn uit de voornoemde activiteiten, terwille van de duidelijkheid bij de bespreking van
de resultaten, vier hoofdcategorieën van tijdbesteding samengesteld:

1. studie (a, b, c),

2. primaire behoeften (e, f),

3. reizen/zich verplaatsen (j),

4. vrijetijdsbezigheden (d, g, h, i).

De als 'diversen' vermelde activiteiten zijn, waar mogelijk, ondergebracht in deze vier hoofdca-
tegorieën. Het restant beslaat minder dan 2% van de tijd.

De gegevens zijn verzameld met behulp van formulieren waarop voor één dag de voorgeco-
deerde activiteiten in een tijdbalk konden worden ingevuld. Wekelijks werd een envelop met
zeven formulieren en zeven retourenveloppen aan de student gestuurd. De ingevulde formulie-
ren konden worden gedeponeerd in een bus die geplaatst was in een praktikumzaal die de
studenten vrijwel dagelijks bezochten. Ook konden de retourenveloppen worden gebruikt om
formulieren per post portvrij terug te sturen. Met een streng rappelsysteem werd bereikt dat alle
formulieren ingevuld zijn geretourneerd, ondanks het feit dat voor deelname aan dit deel van
het onderzoek geen financiële vergoeding werd gegeven. Voor een uitvoerige bespreking van de
wijze van verzameling en verwerking van de gegevens zij men verwezen naar Van der Drift (1984
aenb).

3. RESULTATEN

Naar propedeuseresultaat (slagen/zakken) verschillen de deelnemers aan het 24-uurs-
onderzoek niet significant van de totale populatie eerstejaarsstudenten Biologie (x^=l,43;
df=l; p>.20). Men mag derhalve aannemen dat de resultaten van dit onderzoek representatief
zijn voor de gehele populatie eerstejaars Biologiestudenten 1983/84 aän de R.U. Leiden. De
patronen die in de tijdbesteding gesignaleerd worden, mogen echter niet gegeneraliseerd
worden naar de gemiddelde Nederlandse eerstejaarsstudent. Het gaat in dit geval onder meer
om een blokcurriculum, waarbij het studiejaar is opgedeeld in vijf blokken van elk vier ä vijf
vakken. Na een onderwijsperiode van vier tot zes weken worden in de drie daaropvolgende
weken één, soms twee tentamens per week afgenomen. De dagelijkse tijdbesteding in de

-ocr page 183-

K.D.J.M.van der Drift 179

onderwijsperioden zal in paragraaf 3.1 en die in de tentamenvoorbereidingsperioden in para-
graaf 3.2 van dit artikel worden gepresenteerd. In paragraaf 4 zullen enkele conclusies worden
getrokken.

3.1. Tijdbesteding in onderwijsweken

Op een gewone onderwijsdag in het onderzochte curriculum voorziet het onderwijsrooster 's
ochtends in vier hoorcolleges en 's middags in een praktikum van Vji è 3 uur. Figuur 1 geeft een
beeld van de wijze waarop studenten een dergelijke onderwijsdag indelen. De manier waarop
deze indeling in beeld is gebracht, is ontleend aan Knuist & Schoonderwoerd (1983). Op de
horizontale as zijn de uren van de dag aangegeven. Verticaal kan men het percentage studenten
aflezen dat op een bepaald moment van de dag met een bepaalde activiteit bezig is.

Figuur 1: Dagindeling in geval van een volledig onderwijsrooster.

Figuur 1 Iaat zien, dat een onderwijsdag in feite uit vier gedeelten bestaat:

a. van 0.00 uur tot 9.00 uur besteedt men de tijd aan primaire behoeften: slaper, persoonhjke
verzorging, eten en huishouding.

b. Van 9.00 uur tot 13.00 uur wordt de tijd vooral besteed aan het volgen van colleges. Deze
periode is van de eerste periode gescheiden door een piek in het reizen, die begint om 7.00 uur
uur en eindigt om 9.00 uur.

c. Van 14.00 uur tot 17.00 uur besteedt men in het algemeen de tijd aan praktika. Deze periode
wordt van de tweede gescheiden door de middagpauze, die voor de helft aan primaire
behoeften als eten en huishoudelijke activiteiten wordt besteed en voor het overige aan
vrijetijdsbesteding.

d. De vierde periode loopt van ±18.00 uur tot middernacht. Deze avondperiode wordt
achtereenvolgens besteed aan: primaire behoeften en vrije tijd; zelfstudie en vrije tijd;
zelfstudie, slapen en vrije tijd. Van de derde periode wordt deze gescheiden door een
reispiek, die begint om 17.00 uur en eindigt om 18.30 uur.

-ocr page 184-

180

Dagindeling van studenten

De overige volledige onderwijsdagen van het 24-uursonderzoek laten, met geringe afwijkingen,
hetzelfde beeld zien. Vergelijkt men dit patroon met de tijd die werkende Nederlanders met een
volledige dagtaak besteden aan beroepsarbeid (weergegeven in figuur 2, die ontleend is aan
Knuist & Schoonderwoerd, 1983, p. 136), dan blijkt dat het tijdbestedingspatroon van studen-
ten in essentie slechts op één punt verschilt van dat van andere werkenden^: studenten beschou-
wen de avond als een dagdeel waarin enig werk verzet dient te worden. Tussen 20.00 en 21.00
uur is éénderde deel van de studenten aan het studeren, gemiddeld studeert men op een avond
van een 'normale'onderwijsdag '/z tot 1 uur.

100%

80%

60%

40%

20%

f

. ®

/

r-

\

®

\

\\

/ 1

\

/

12

13

18

21

24 uur

t " bcrocpMCI>cid

2 > luchtrutt, maaltijden cn pcnoonlijke verzorgini

3 = overige verplichiin|en

4 = vrije tijd

Fi(uur 2: Dafindelins van werkenden met ccn vollcdi|e dagtaak.

Een inicrctunie vraag it nu. hoe itudcntcn ccn dag indelen waarop zij geen volledig
ondcrwijtrootlcr hebben. Zullen /ij bijvoorbeeld dc rclfsludic van de avonduren vcrplaatKO
naar roottervrijc uren overdag? Figuur 3 geeft hel lijdbcilcdinppatroon van ccn dag ronder
oodcrwij» in «Je ochtcndurcn.

7jo'n dag bcgmt mcl utlilapcn: om 9.00 uur »laapi 709( cn om 10.00 uur nog dc hclfl van dc
»tudcnicn. Naarmate öc ochlcnd vordcn bcttcdcn meer tiudcnicn hun lijd aan onltfunning.
prrMonlijkcvcr/orgtngcn huishoudingen ook cnigctiudK.Rood II OOuurttcrtprakcvanrcn
kirinc ptck in dc /clftludic: 40^ »ludccn Daarna loopt hel aantal »ludcrcndcn tncl Icrug.
waarru pat om 14 00 uur *i middag« hel »iaf>daard(>airoofl uil figuur I icrvgkrcn men rtceml
dcclaandcpraklika.

tv C(>n»ial(nng.iial urrn »aarnf yreti o«Mkrwi;t »otiil gfgrvmof »aarop men het onder-
wnt* vrrniiml Ic vt>lten. nau»rlijki go-utd «twilea mei rrlfMuJie. kan ik indruk wrUm dal

-ocr page 185-

K.D.J.M.van der Drift 181

Figuur 3: Indeling gedeeltelijk onderwijsvrije dag

zelfstudie een sluitpost is. Daarmee in strijd is echter dc constatering dat men consequent 1 è 2
uur (netto) per dag aan zelfstudie l>estccdt, ook op zware onderwijsdagen met ccn netto
onderwijslast van vijf è zes uur. Het lijkt cr meer op dat studenten wennen aan een vast ritme:
colleges in dc ochtend, praktikum in dc middag, zelfstudie in dc avond. Dit ritme is zo diep
geworteld in het tijdbestedingsgedrag, dat men op een onderwijsvrije dag de zelfstudie in de
avond handhaaft in plaats van 's avonds vrij te nemen en de zelfstudie naar dc dag te
Verplaatsen.

Ook de weekenden laten een patroon zien dat stabiel blijft over lichte en zware onderwijs-
weken. Een weekend - en dat is ook uit tijdbestedingsonderzoek bij andere studierichtingen
gebleken (onder andere Crombag et al., 1983; Langerak, 1984; Vos, 1984) - begint in feite op
vrijdag. Op die dag vinden de meeste studenten het volgen van onderwijs allién wel voldoende:
de gemiddelde hoeveelheid zelfstudie gaat het niveau van ccn half uur niet of nauwelijks te
boven.

Op zaterdag en zondag moet er wit gedaan worden: 's zaterdags gemiddeld een half tot tin
uur en 's zondags één lot twee uur, óók wanneer de maandag cropvolgcnd geheel onderwijsvrij
Figuur 4 laat zien op welke uren van een zondag de studie-inspanning van studenten
teconcentrecrd is. In het algemeen wordt tussen 12.00 cn 23.00 uur gestudeerd, met ecn piek
tussen 13.00 en 16.00 uur inde middag. Dc rest van dc dag wordi besteed aan uitslapenen vooral
vrijetijdsbezigheden; merk in dii verbar>d ook dc uitloop in dc nacht van zaterdag op zondag op.

Dc zaterdag laat ccn vergelijkbaar beeld zien, zij het dat het gehele zclfstudicnivcau lager ligt.
Dc onispannncndc bezigheden van dc vrijdagavond zciten zich tot ver m dc nacht voon,
^rvolgcni slaapt men uit cn ts dc rest van dc dag vooral met vTi;cti)dsacii%iiciicn hczig

3-2. 1« I—>anwy«riodc»

Hft tamelijk UMstantc ti;dtx%trdin(tpaltoon dat dc nod(r»iji»rkcn tc z>cn yocn. zei ZKh
»•«ht» tct» dek voort in dc »rken »aann tentamen* »otdcn \oottKic>d cn afgenomen In dczr
Ptt*odc plegen ttudcntm ptcktgcikijrc te ttudcrrn naarmate dc trntamrndatum natkd. ttu-

-ocr page 186-

J g5 Dagindeling van studenten

Figuur 4: Dagindeling zondag

deert men harder totdat op de dag vóór het tentamen een piek (van soms 6 a 8 uur netto) wordt
bereikt.

Figuur 5 laat de tijdbesteding zien op een dag aan het einde van zo'n 'tentamentraject'. In
sector 1 is gearceerd het studeerpatroon aangegeven van de dag aan het begin van ditzelfde
tentamentraject, ongeveer een week eerder. Beide dagen laten drie zelfstudie-'bulten' per dag
zien, die van elkaar gescheiden zijn door maaltijden. Opmerkehjk is, dat de bulten van de laatste

perc.

Figuur 5: Indeling van dagen voorafgaand aan een tentamen

-ocr page 187-

K.D.J.M.van der Drift 183

dag niet alleen hoger, maar ook breder zijn dan die van de eerste dag. Men is eerder aan het
studeren en gaat daarmee langer door, niet zozeer door minder te slapen als wel door minder tijd
aan vrijetijdsactiviteiten te besteden. Ook de toenemende hoogte van de zelfstudiebuiten in het
verloop van het tentamentraject gaat geheel ten laste van vrije tijd; aan eten, slapen en
persoonlijke verzorging besteedt men nauwelijks minder tijd.

Het hiervoor geschetste beeld gaat op voor alle onderwijsvrije door-de-weekse dagen in het
onderzoek behalve de vrijdag. Dan wordt het tentamengebonden zelfstudiepatroon overheerst
door het weekgebonden studieritme dat ook in de onderwijsperioden optreedt. Op vrijdaga-
vond doet men weinig aan de studie en besteedt men zijn tijd vooral aan vrijetijdsbezigheden.
Dit patroon zet zich aanvankelijk voort op de zaterdag. Maar op zaterdagavond wordt al meer
gestudeerd dan op vrijdagavond, waarna men op zondag weer geheel op gang is. Velen studeren
nu ook op zondagochtend, terwijl 's avonds lang wordt doorgewerkt.

De dag van het tentamen zelf, tenslotte, wordt gekenmerkt door weinig zelfstudie. Figuur 6
brengt dit in beeld. Vlak vóör het tentamen besteedt men gemiddeld een half uur aan, waar-
schijnlijk, het doornemen van aantekeningen. In figuur 6 is zelfs sprake van een piek tussen 6.00
en 8.00 uur 's morgens; het gaat in deze figuur om een tentamen - het enige in het onderzochte
studieprogramma - waarbij een groot deel van de studenten vlak voor een tentamen in een lichte
paniekstemming lijkt te raken. (Niet helemaal ten onrechte, omdat dit tentamen resulteerde in
het hoogste percentage onvoldoendes in het desbetreffende curriculum, namelijk 55%). Na
afloop van het tentamen besteedt men de rest van de dag aan contacten met andere studenten
('nakaarten'?), ontspanning, persoonlijke verzorging en huishouding. De volgende dag begint
de voorbereiding voor het volgende tentamen.

4. CONCLUSIES

Het patroon van tijdbesteding in de onderwijsweken verschilt sterk van dat in weken waarin
geen onderwijs wordt gegeven maar tentamens moeten worden voorbereid. In de onderwijspe-

60

Perc.
100

V'

80

©

©

<»0

20

\

1 V.

1 2 3 4 5 6 7 fl <) 10 11 12 1.1 U 15 16 17 18 19 20 21 22 23

1 = Studie

2 = primaire behoeften

3 = reizen

4 = vrije tijd

Figuur 6: Indeling tentamendag

-ocr page 188-

J g5 Dagindeling van studenten

riode is de dagindeling vrij strak. Alles heeft zijn vaste plaats in het patroon van tijdbesteding:
opstaan, eten, reizen, onderwijsdeelname en 's avonds zelfstudie. Er is betrekkelijk weinig
flexibiliteit in de dagindeling: wanneer er 's morgens geen onderwijs wordt gegeven valt er een
gat dat vooral wordt gevuld met uitslapen, ontspanning, persoonlijke verzorging en huishoude-
lijke activiteiten. De dagelijkse portie zelfstudie blijft in de avond gelokaliseerd.

Op dagen in de tentamenperioden (waarin het leeuwedeel van de zelfstudie geconcentreerd
is), alsmede op weekenddagen in de onderwijsperiode, verdringen de eigen voorkeuren van
studenten ten aanzien van de dagindeling de dwangmatigheid die van het curriculum uitgaat.
Bij vergelijking van een 'zware' onderwijsdag (figuur 1) en een 'zware' dag van tentamenvoorbe-
reiding (figuur 5) bhjken de individuele verschillen in het patroon van opstaan, eten, studeren en
ontspanning te leiden tot een profiel dat in figuur 5 sterk uitgevlakt is. In de onderwijsperioden
daarentegen reguleert het curriculum de dagindeling, getuige de scherpe en diepe insnijdingen in
figuur 1. Bovendien werkt men in de tentamenperiode pas voluit (±7 uur netto per dag) wanneer
het tentamen vlakbij is.

Vergehjkt men een rustige dag in de tentamenperiode met de dag voorafgaand aan het
tentamen, dan bhjkt de toename van de hoeveelheid zelfstudie ten laste van de vrije tijd te gaan.
Aan slapen en overige persoonhjke verzorging bhjft men evenveel tijd besteden, waarbij het
ritme van de maaltijden maatgevend is voor de tijdindeling. Vergehjkt men vervolgens een
drukke onderwijsdag met een dag voorafgaand aan het tentamen, dan blijkt de vrije tijd
verplaatsbaar in de tijd te zijn. In het eerste geval vinden de vrijetijdsbezigheden vooral 's
avonds plaats, terwijl deze in het tweede geval geleidelijk toenemen vanaf twaalf uur 's middags.
Persoonhjke verzorging is blijkbaar niet verplaatsbaar, vrije tijd wel.

Daar ook op dagen waarop men een topprestatie van zeven uur netto levert het aantal uren
vrije tijd aanzienhjk is, kan worden geconcludeerd dat werkgedrag een functie van het curricu-
lum is, maar dan wel binnen twee randvoorwaarden: de 'harde' behoefte aan vrije tijd en het
ritme van de persoonhjke verzorging.

De hoeveelheid tijd die men aan primaire behoeften als slapen, eten en huishouding besteedt,
heeft uiteraard eveneens een bodem. De tijd die men er gemiddeld aan besteedt is, blijkens de
middelste kolom van tabel 1, liefst tweemaal zo hoog als de hoeveelheid studietijd. Studenten
hebben blijkbaar twee dagtaken, een grote (leven) en een kleinere (werken).

Toch blijkt uit de in tabel 1 gepresenteerde gegevens, dat dit leefpatroon tot een netto
arbeidsprestatie leidt die nauwelijks afwijkt van het maatschappelijk aanvaarde niveau. In deze
tabel is de tijdbesteding van werkenden, zoals gerapporteerd door Knuist & Schoonderwoerd,
vergeleketi met die van de eerstejaarsstudenten in de Biologie. Niet alleen de netto arbeidspres-
tatie verschilt nauwelijks, ook de tijd die aan primaire behoeften en aan vrijetijdsbezigheden
wordt besteed, vertoont weinig verschillen. De rust- en ontspanningsuren die studenten zichzelf
toemeten op tijdstippen waarop de meeste mensen werken, worden gecompenseerd door de
studieprestatie die zij op andere momenten van de week leveren'.

Gegeven het feit, dat de gegevens over de werkenden in tabel 1 gebaseerd zijn op een dinsdag
in de maand oktober (een dag waarop men mag aannemen dat weinigen die vrij namen), kan
geconcludeerd worden dat de arbeidsprestatie van de onderzochte groep studenten vanuit
maatschappelijk oogpunt bezien redehjk te noemen is. Deze conclusie is des te opmerkelijker
wanneer men zich realiseert dat vele van deze studenten een eigen huishouding voeren en pas
een half jaar tevoren het ouderhjk gezin hebben verlaten. Sinds kort op eigen benen staand,
leveren zij een arbeidsprestatie die vrijwel overeenkomt met de maatschappehjke norm. Een
arbeidsprestatie die bij de studenten bovendien voor bijna de helft bestaat uit zelfstudie-uren,
dat wil zeggen uren die op eigen kracht gereahseerd moeten worden. De netto studielast die deze
groep studenten opjaarbasis boekte, namelijk 1247 uren, mag dan lager liggen dan de norm van
1700 uren die aan de twee-fasenstructuur ten grondslag hgt, zij vormt in elk geval een getrouwe
afspiegehng van de werknorm die elders in de samenleving geldt en die studenten dan ook
voortdurend met eigen ogen kunnen registreren.

-ocr page 189-

K.D.J.M.van der Drift 185

Tabel 1: Vergelijking van de tijdbesteding van werkenden en studenten

Werkende mannen
met 20 of

meer uren beroeps-
arbeid per week*

Arbeid, incl.

Netto studielast

28,66

Netto studielast

30,0

woon-werkvervoer

Tarra componenten

en wachttijden

excl. wachttijden

0,76

0,8

Wachttijden

2,47

2.5

Reizen

8,26

7,8

42,0

40,15

41,1

Huish. en gezins-

7,7

Primaire behoeften

80,31

Primaire behoeften

79,2

taken

1/3 wachttijden****

-0,82

1/3 wachttijden

-0,8

Slapen, eten.

persoonlijke

verzorging

72,4

80,1

79,49

78,4

Onderwijs en

1,8

Vrijetijdsbezig-

Vrijetijdsbezig-

vrijetijdsbezig-

heden

46,78

heden

46,4

heden

41,7

2/3 wachttijden****

-1,64

2/3 wachttijden

-1,6

43,5

45,14

44,8

Overige activi-

Overige activi-

Overige activi-

teiten

2,4

teiten

3,23

teiten

3,7

Bron: Knuist & Schoonderwoerd, 1983, p. 16
Van der Drift, 1984b, pp. 21-22.
Van der Drift, 1984c, bijlagen 5 en 6.

De aftrek voor wachttijden (die terwille van de vergelijkbaarheid in de bruto studietijd zijn
opgenomen) is arbitrair voor éénderde ten laste gebracht van de tijd, besteed aan primaire behoef-
ten, en voor tweederde ten laste van de vrijetijdsbezigheden.

NOTEN

' Met uitzondering van het onderzoek dat Muggen in 1977 uitvoerde onder eerstejaarsstudenten aan de
Landbouwhogeschool te Wageningen.

^ Bij vergelijking van de figuren 1 en 2 kan men de meer gespreide en lagere beroepsarbeid-curven niet als
een essentiëel verschil aanmerken. Deze afwijkingen (ten opzichte van de onderwijscurven tussen 9.00 en
17.00 uur bij studenten) zijn een gevolg van het feit, dat de werkenden verschillende werkroosters hebben,
terwijl de onderzochte studenten allen volgens één zelfde rooster werken.

' De gemiddelde dagelijkse tijdbesteding van degenen die aan het einde van het studiejaar geslaagd zijn,
verschilt nauwelijks van die van de gezakten. De enige significante verschillen tussen beide groepen treden
op in de onderwijsweken. Geslaagden nemen wat vaker aan onderwijs deel (t=2,42; df=47; p=.019) en
slapen iets minder (t=2,92; df=47; p=.006).

REFERENTIES

Crombag, H.F.M., Gruijter, D.N.M. de. Bakker, E. & Brown, D.R. (1983). De studielast in de juridische
propedeuse: een andere analyse.
Leiden: Bureau Onderzoek van Onderwijs, rapport nr. 25.

Drift, K.D.J.M. van der (1984a). Een 24-uurs tijdbestedingsonderzoek in de propedeuse Biologie. Leiden:
Bureau Onderzoek van Onderwijs, memorandum nr. 772-84.

Eerstejaars Biologie*

Geslaagde eerstejaars
Biologie***

-ocr page 190-

J g5 Dagindeling van studenten

Drift, K.D.J.M. van der (1984b). De propedeuse Biologie: studielast in hel derde blok. Leiden: Bureau
Onderzoek van Onderwijs, memorandum nr. 799-84.

Drift, K.D.J.M. van der (1984c). De propedeuse Biologie: Tijdbesteding en studiesucces in een geblokt
curriculum.
Leiden: Bureau Onderzoek van Onderwijs, rapport nr 31.

Knuist, W. & Schoonderwoerd, L. (1983). Waar blijft de tijd: onderzoek naar de tijdbesteding van Nederlan-
ders.
's Gravenhage: Staatsuitgeverij.

Langerak, W.F. {\9M).Studielast propedeuse Duits 1982/1983. Leiden: Bureau Onderzoek van Onderwijs,
rapport nr. 30.

Muggen, G. (1977). Tijdbestedingspatroon Wageningse eerstejaarsstudenten. Wageningen: Bureau Onder-
zoek van Onderwijs.

Vos, P. (1984). De propedeuse Scheikunde 1982/1983: studiebelasting en studiesucces. Leiden: Bureau
Onderzoek van Onderwijs, rapport nr. 29.

Manuscript ontvangen 25-3-1985

Definitieve versie ontvangen 15-5-1986

-ocr page 191-

Tijdschrift voor Onderwijsresearch, 11 (1986), nr. 4, pp. 187-202

Hardop-denken als onderzoeksmethode naar
regulatieprocessen bij tekstbestudering

J.D.H.M. Vermunt, J.G.L.C. Lodewijks' en P.R.J. Simons

Vakgroep Funktieleer, Onderwijspsychologie en Ergonomie, Katholieke Hogeschool Tilburg

ABSTRACT

Thinking-aloudas method of research on regulation processes in learning from text.

This study investigated: (1) the value of the method of thinking-aloud in research on executive
control processes of relatively young students, (2) the kind and amount of executive control
processes these students use when studying a text, and (3) differences in executive control between
successful and less successful students. Subjects were 16 students from a secondary school (second
class). They studied two texts with different purposes: to answer questions about it and to solve a
problem. During learning they thought and read aloud. All their utterances were tape-recorded and
later transcribed in full. Via an iterative process an analysing scheme was developed for the
protocols with the following main categories: transforming, monitoring, planning, on-line regulat-
ing, orienting, testing, diagnosing and evaluating. The great majority of executive control processes
occurred during learning instead of before and after learning. Good performance appeared above
all to depend on the use and quality of self-testing processes. Thinking-aloud turned out to be a
powerful diagnostic method to investigate regulation processes.

INLEIDING

Het bestuderen van een tekst is een taak waarbij leerlingen grotendeels zelfstandig controle uit
moeten oefenen over het verloop van hun leerproces. In het onderwijs zien leerlingen zich
geconfronteerd met verschillende soorten teksten, die ieder hun eigen kenmerken en moeilijk-
heden hebben en die onder wisselende omstandigheden en met verschillende doelstellingen
dienen te worden bestudeerd. Een effectieve wijze van bestudering vereist dat leerlingen hun
leeraktiviteiten afstemmen op deze variaties in omstandigheden, taakvereisten en leerdoelen,
daarbij rekening houdend met eigen kenmerken als voorkennis en beschikbare leerstrategieën.
Tijdens de bestudering is het noodzakelijk dat een leerling niet alleen aandacht geeft aan de
inhoud van de tekst, maar ook aan de leerresultaten die worden bereikt, zódat correctieve aktie
ondernomen kan worden wanneer de gehanteerde leeraktiviteiten niet leiden tot het gewenste
begrips- of kennisniveau. Tekstbestudering is dus een leertaak waarbij een groot beroep wordt
gedaan op zelf-regulerende vaardigheden bij de leerling, vaardigheden die betrekking hebben
op het bewaken en sturen van het verloop en de resultaten van het leerproces. Deze worden door
Flavell (1976) omschreven als een aspekt van metacognitie: 'Metacognition refers, among other
things, to the active monitoring and consequent regulation and orchestration of these (cogni-
tive) processes in relation to cognitive objects or data on which they bear, usually in the service
of some concrete goal or objective' (p. 232). Tot deze regulatieprocessen worden onder meer
gerekend: het voorspellen van het resultaat van een leerstrategie, het plannen van leeraktivitei-
ten, het bewaken van het verloop van het leerproces, het toetsen van de leerresultaten, het

Adres: Postbus 90153,5000 LE Tilburg.

-ocr page 192-

188 Hardop denken bij tekstbestudering

corrigeren van negatieve leerresultaten door herstelaktiviteiten, het evalueren van het leerpro-
ces e.d. (Brown, 1980,1984). Kenmerkend voor deze processen is dat ze trans-situationeel zijn,
toepasbaar bij een brede variëteit aan leertaken. Naast dit dynamische aspekt van metacognitie,
de regulatie van het leerproces tijdens de bestudering, is aan het begrip metacognitie ook een
meer statische component te onderscheiden: de kennis en opvattingen die iemand heeft over
leerprocessen en de variabelen die erop van invloed zijn. Deze metacognitieve kennis zou een
belangrijke factor zijn in verband met de mate waarin leerlingen uit eigen beweging gebruik
maken van bovengenoemde vaardigheden wanneer ze zelfstandig leren (Brown, Campione en
Day, 1981).

Zowel ten aanzien van metacognitieve kennis als vaardigheden zijn in vele onderzoeken
individuele verschillen vastgesteld (zie voor een overzicht: Fischer en Mandl, 1983). Zo blijken
oudere leerlingen in vergelijking met jongere een nauwkeuriger en realistischer beeld te hebben
van hun geheugencapaciteit, meer kennis te hebben van de invloed van allerlei omgevings- en
taakkenmerken op het gemak waarmee informatie onthouden en weer opgeroepen kan
worden, en meer te weten over mogehjke leeraktiviteiten en wanneer ze toepasbaar zijn. Wat
betreft de metacognitieve vaardigheden zijn onder meer verschillen vastgesteld tussen 'experts'
en 'novices' met betrekking tot de verdeling van de aandacht over hoofd- en bijzaken, het
gebruik van begripstoetsende aktiviteiten als parafraseren en zichzelf vragen stellen over de
tekst, het inschatten of men de studiestof voldoende beheerst om een leertoets te ondergaan, en
de gerichtheid van de zelfreflektie tijdens het leren (Simons & Vermunt, in druk).

Het hier gerapporteerde onderzoek was gericht op de vraag in hoeverre de verschillende
onderscheiden reguladeprocessen een rol spelen wanneer leerlingen uit de onderbouw van het
voortgezet onderwijs zelfstandig teksten bestuderen en in hoeverre leerhngen hierin onderlinge
overeenkomsten en verschillen vertonen. Daarnaast was het vooral ook de bedoehng om na te
gaan of de methode van hardop-leren bruikbaar zou zijn voor het in kaart brengen van
regulatieprocessen bij tekstbestudering door relatief jonge proefpersonen.

Als werkmodel van de te verwachten regulatieprocessen werd een combinatie van de door
Brown e.a. gehanteerde indeling (1980, 1984) en de adaptatietheorie van Hettema (1979)
aangehouden. Dit werkmodel is weergegeven in figuur 1.

proces-
bewaking

uitvc

sering

redirectie
persistentie

oriëntatie —^ planning

controle

exploratie
reflectie

ontkoppeling
substitutie

Figuur 1: Een werkmodel van regulatieprocessen.

herstel

mechanismen

-ocr page 193-

J. Vermunt et al. 189

ZELF-RAPPORTAGE ALS ONDERZOEKSMETHODE NAAR REGULATIEPROCES-
SEN

Processen die tijdens het bestuderen van een tekst zijn betrokken bij de regulatie van het
leerproces zijn hogere orde cognitieve processen en daarom over het algemeen niet direkt
toegankehjk voor een onderzoeker. Soms kunnen uit overte aktiviteiten cognitieve processen
worden afgeleid: oogbewegingsregistraties, leestijdmetingen en observaties geven bijvoorbeeld
indikaties over de verdeling van de aandacht over verschillende tekstonderdelen. Omdat vele
cognitieve processen echter geen uiterlijk waarneembare component hebben, wordt in onder-
zoek naar leerprocessen vaak gebruik gemaakt van zelf-rapportage door de lerende. Door
Nisbett en Wilson (1977) is de validiteit van aldus verkregen gegevens met betrekking tot de
werkelijke cognitieve processen ter diskussie gesteld. Ericsson en Simon (1980,1984) hebben als
reactie hierop aangegeven onder welke condities proefpersonen valide over hun cognitieve
processen kunnen rapporteren. Zij onderscheiden daarbij de beschikbaarheid van informatie en
de rapporteerbaarheid ervan (zie ook Breuker, 1982). Beschikbaar voor verbalisatie is die
informatie die zich in het werkgeheugen bevindt, waaraan op een bepaald moment aandacht
wordt besteed. Processen die automatisch verlopen, zoals herinnerings- en herkenningsproces-
sen en processen die oorspronkelijk wel onder bewuste controle werden uitgevoerd maar door
veelviiWige oefening geautomatiseerd zijn, maken geen gebruik van het werkgeheugen en zijn
dus niet beschikbaar voor rapportage. Wanneer informatie over cognitieve processen uit het
lange-termijn geheugen opgediept moet worden zijn intermediërende processen noodzakelijk
om rapportage mogehjk te maken. Deze kunnen een vervormde weergave veroorzaken van de
cognitieve processen zoals ze zich tijdens de taakuitvoering hebben voltrokken. Onmiddellijk
rapporteerbaar is die informatie die in verbale vorm in het werkgeheugen is gecodeerd. Is dit
niet het geval dan moeten de betreffende gedachten eerst in woorden worden vertaald voordat
rapportage mogehjk is. Een belangrijke oorzaak voor invalide rapportage is volgens Ericsson
en Simon (1980,1984) dat door de onderzoeker om informatie wordt gevraagd waaraan door de
proefpersoon geen aandacht is of anders zou zijn besteed.

De mate waarin een lerende in staat is accuraat te rapporteren over de cognitieve processen
die zich tijdens het bestuderen van een tekst hebben voltrokken hangt in belangrijke mate af van
het tijdsinterval tussen het optreden van het proces en het rapporteren ervan. Op basis van dit
criterium kunnen drie vormen van zelf-rapportage worden onderscheiden (zie ook: Vermunt,
Lodewijks en Simons, 1984): (a) de leerhng wordt gevraagd tijdens de tekstbestudering gedach-
ten direkt te verwoorden (hardop leren), (b) direkt na het bestuderen yan een tekst wordt de
lerende gevraagd te rapporteren over de cognitieve processen die zich tijdens het leren hebben
voorgedaan (retrospektie), (c) de lerende wordt gevraagd te rapporteren over zijn of haar
gebruikelijke leerprocessen bij tekstbestudering. Op de eerstgenoemde zal hier wat dieper
worden ingegaan.

Hardop leren

Met de hardop-Ieermethode wordt een zeer gedetailleerd verslag verkregen van het verloop van
de cognitieve processen tijdens een tekstbestudering. In tegenstelling tot bijvoorbeeld intro-
spektie is het daarbij niet de bedoeling dat de lerende gaat theoretiseren over zijn of haar
leerprocessen. Integendeel, om een zo accuraat mogehjke weergave van de cognitieve processen
te verkrijgen zoals ze zich hebben voltrokken dient dit theoretiseren zoveel mogehjk tegenge-
gaan te worden. Het interpreteren van de gegevens gebeurt daarbij achteraf door de onder-
zoeker, waarbij diens interpretatie alsnog met die van de lerende zelf vergeleken kan worden
(communicatieve validering, zie Lechler, 1982). Wanneer de sturing van het leerproces relatief
automatisch en dus onbewust verloopt, zullen in de hardop-denk protocollen van de lerende
weinig regulatiebeslissingen gevonden worden (vgl. Ericsson en Simoii, 1980). Dat wil niet
zeggen dat in dat geval geen metacognitieve processen tot uiting komen in de protocollen. Het
toetsen van de leerresultaten bijvoorbeeld door middel van aktiviteken als parafraseren en
reproduceren kan in een geautomatiseerd handelingsplan zijn opgenomen, en wanneer de

-ocr page 194-

190 Hardop denken bij tekstbestudering

lerende deze aktiviteiten hardop verricht worden deze verbalisaties vastgelegd. Een belangrijke
vraag is of door de hardop-denk instruktie de taakuitvoering niet wordt beïnvloed. Allereerst
kan hierover opgemerkt worden dat voor sommige leerlingen hardop leren hun normale manier
van leren is (Blaakman en Vermunt, 1983). Daarnaast heeft direkte verbalisatie het voordeel dat
een lerende niets hoeft te onthouden van wat hij of zij denkt, een probleem dat bij retrospektie
een rol kan spelen wanneer leerlingen weten dat ze achteraf hun gedachten en aktiviteiten
moeten rapporteren. Op basis van een uitgebreid literatuuronderzoek concluderen Ericsson en
Simon dat hardop-denken het verloop en de struktuur van de cognitieve processen niet
verandert, mits aan een aantal voorwaarden is voldaan. De belangrijkste daarvan zijn de
volgende:

a) Om een sturende invloed van de hardop-denk instruktie op het leerproces te voorkomen
dient niet om specifieke informatie gevraagd te worden waaraan door de lerende anders
geen aandacht zou zijn besteed.

b) Tijdens de tekstbestudering zou de proefleider zich moeten beperken tot het stimuleren
van het hardop-denken door middel van non-direktieve opmerkingen als 'Wat denk je nu?'
en het tegengaan van het theoretiseren over cognitieve processen. Vragen naar bijvoor-
beeld de redenen van leeraktiviteiten zouden dan ook achterwege gelaten moeten worden,
aangezien niet altijd bewust gekozen wordt voor bepaalde leeraktiviteiten.

c) Vanwege de rapporteerbaarheid van de cognitieve processen verdient het de voorkeur
taken te gebruiken die zoveel mogelijk denkprocessen in verbale vorm uitlokken (handelen
aan taalsymbolen), zodat gedachten direkt kunnen worden verwoord.

Voor het analyseren van hardop-denk protocollen heeft Breuker (1982) een methode voorge-
steld die hij 'analysis-by-synthesis' noemt. Deze bestaat uit het voortdurend repareren en
specificeren van een theorie. Net als andere gegevens dienen protocollen (verbale uitingen
aangevuld met observaties, aantekeningen e.d.) geïnterpreteerd te worden. Een eerste stap in
Breuker's methode is dan ook het ontwerpen van een interpretatie-theorie: een beschrijving van
hoe mededelingen in een protocol kunnen worden geïnterpreteerd. Hierbij kan onder meer
gebruik gemaakt worden van een taakanalyse en een steekproef uit de protocollenverzameling.
Een eerste belangrijke beslissing die moet worden genomen betreft de keuze van de categorieën
die men wil onderscheiden. Indien mogelijk moeten ook de relaties tussen de categorieën
expliciet worden aangegeven. Vervolgens wordt de theorie gespecificeerd in een coderingssys-
teem voor de protocoluitspraken. De codes vormen de operationalisaties van de meer abstracte
categorieën. Het zijn abstracties waarbij verschillende concrete uitspraken onder dezelfde
noemer worden gebracht. In de beginfase van de analyse worden dan de codes uitgeprobeerd op
een selektie uit de protocollen. Dit kan leiden tot wijzigingen in het coderingssysteem en/of de
categorieën. Zo kunnen vele cycli worden doorlopen voordat het analysesysteem 'past' op de
protocollen, waarna wordt overgegaan tot de definitieve codering van alle protocollen. Deze
vormt de basis voor toetsing van de theorie, ten aanzien van bijvoorbeeld individuele verschillen
tussen proefpersonen en de generaliseerbaarheid naar nieuwe protocollen. Ericsson en Simon
(1984) bevelen aan om bij de analyse de protocollen te splitsen in eenheden en die afzonderlijk te
coderen. Dit om een invloed van de context, de voorafgaande en volgende processen, op de
benoemingen te voorkomen. Maar het kan betwijfeld worden of deze werkwijze de begrijpelijk-
heid van de protocollen ten goede komt, die door De Groot (1982) gezien wordt als belangrijk-
ste prioriteit bij protocolanalyse.

In tegenstelling tot hardop-denk onderzoek bij probleem-oplossen woydt in dergelijk onder-
zoek naar tekstbestudering bij de interpretatie van de gegevens vrijwel niet uitgegaan van
'optimale' procedures voor de taakuitvoering. De nadruk ligt hierbij veel meer op de beschrij-
ving van de aard van de processen die in de protocollen voorkomen (bijv. Wouters en De Jong,
1982), de frekwentie ervan (bijv. Olshavsky, 1976/77; Büchel, 1982) en de condities waaronder
ze zich voordoen (bijv. Waern, 1980).

-ocr page 195-

J. Vermunt et al. 191

METHODE

Leerlingen

Omdat er sprake is van zeer arbeidsintensief onderzoek konden slechts 16 leerhngen m het
onderzoek worden betrokken. Gekozen werd voor leerlingen uit de tweede klas van het
voortgezet onderwijs, omdat uit eerder onderzoek was gebleken dat leerhngen uit de eerste klas
vaak wel erg onervaren zijn met zelfstandige tekstbestudering. Om een redehjke spreiding te
krijgen werden leerlingen uit de MAVO- (8), HAVO- (2) en VWO- (6) afdelingen van een
scholengemeenschap als proefpersonen geworven.

Teksten

Gekozen werd voor een tekst van ± 900 woorden, waarin een aantal basisprincipes uit de
kansberekening werden uiteengezet. Naast concrete, eenvoudige voorbeelden bevatte deze ook
fragmenten waarvan aangenomen kon worden dat ze voor deze leerhngen meer moeihjkheden
op zouden leveren. Van deze variaties in moeilijkheidsgraad werd verwacht dat ze een meer
bewuste procesregulatie uit zouden lokken. Ook werd de uitleg bij een opgave, een eenvoudig
probleem uit de kansberekening, die bestond uit een algoritme waarin aan de hand van een
soortgelijk probleem een oplossingsmethode werd beschreven, hardop-denkend gelezen^). Om
het hardop-denken te stimuleren werden in navolging van Olshavsky 0976/1977), aan de tekst
en de uitleg bij de opgave na elke paragraaf rode stippen toegevoegd, als signaal om te
Verbaliseren wat werd gedacht. Over de tekst werd een meerkeuze begripstoets afgenomen om
het leerresultaat vast te stellen. De kwahteit van de oplossingen van de opgave werd gebruikt als
een indicatie voor het leerresultaat bij het bestuderen van de uitleg bij deze opdracht.

Procedure

E>e leerhngen kwamen één voor één, gedurende ongeveer één uur, na afloop van de schooldag,
bij de proefleider. Hen werd verteld dat wij geïnteresseerd waren in alles wat ze deden en
dachten wanneer ze hun huiswerk leerden en dat ze zich voor moesten proberen te stellen dat er
Voor een bepaalde middag het volgende in hun agenda stond als huiswerk: leren les kansen,
leren franse woordjes en maken opgave kansen. Gevraagd werd te werk te gaan zoals ze
normaal ook hun huiswerk aanpakten, 'Daarbij moetje proberen om alles watje denkt terwijl je
bezig bent hardop te zeggen. Dat kun je altijd en overal doen. Soms staan er echter rode stippen.
Dat betekent datje op dat moment in ieder geval even moet stoppen en moet vertellen watje op
dat moment denkt of waar je net aan dacht toen je nog bezig was. Als je iets aan het leren bent
kun je er aUerlei dingen bij denken. Zo kun je denken aan watje net gelezen hebt. Maar je kunt
ook denken hoe je iets nou het beste aan kunt pakken, of je het al goed genoeg kent, of je iets wel
of niet nog een keer zult leren enzovoorts. Maar misschien denk jij wel aan heel andere dingen. Is
alles duidehjk? Als iets nog niet duidelijk is, kun je het nu nog vragen. Probeer zoveel mogelijk te
verteUen watje allemaal denkt. En als je iets leest, doe dat dan ook maar hardop'. Wanneer de
leerling zelf niet om informatie over de natoets vroeg, werd hem of haar na het lezen van de
eerste alinea verteld dat de vragen bij de tekst er vooral over gingen of ze de tekst begrépen
hadden. De proefleider beperkte zich tijdens de bestudering zoveel mogelijk tot het stimuleren
van het hardop denken door middel van opmerkingen als 'Wat denk je nu?' wanneer een leerling
®ven stil was. Alle verbale ukingen werden op de band opgenomen en later letterlijk uitgeschre-
ven. Observaties werden door de proefleider gemaakt van relevant waarneembaar gedrag met
hehulp van een door Blaakman en Vermunt (1983) ontwikkeld observatiesysteem. Na afloop
Van de leertijd werd de toets afgenomen.

Analyse van de protocollen

[Je door de proefleider gemaakte observaties en eventueel door de leerhngen gemaakte aante-
keningen werden gekoppeld aan de betreffende uitspraken van de uitgeschreven band. De zo
ontstane protocollen vormden het basismateriaal voor de verdere verwerking van de gegevens.

-ocr page 196-

192 Hardop denken bij tekstbestudering

Bij de ontwikkeling van het analyseschema is in grote lijnen de 'analysis-by-synthesis' methode
van Breuker (1982) gevolgd. Aangezien de vraagstelling van het onderzoek de regulatie van het
leerproces betrof, werd in eerste instantie de helft van de protocollen doorgelezen met speciale
aandacht voor de regulatieve aspekten van het bestuderingsgedrag. Op basis van het eerder
beschreven werkmodel werd een voorlopige lijst van processen opgesteld waarmee werd ge-
tracht enkele protocollen te interpreteren. Het algemene karakter van deze processen maakt dat
ze toepasbaar zijn op een brede reeks leertaken; echter, de concrete inhoud van deze processen
bij bepaalde leertaken kan afhankelijk zijn van de aard van de taak. Dit geldt voor bepaalde
processen meer dan voor andere. Het toetsen van de leerresultaten bijvoorbeeld vindt plaats
door middel van concrete aktiviteiten en het is mede afhankelijk van de aard van het leerdoel
welke aktiviteiten daarvoor worden aangewend. Daarom werd tevens geprobeerd via het
meermalen aandachtig doorlezen van de steekproef uit de protocollen-verzameling overeen-
komsten in de uitspraken en aktiviteiten onder één noemer te brengen, waarbij de beschrij-
vingen van het proces zo nauw mogelijk aansloten bij de protocollen zelf. Hierbij werd ook
gebruik gemaakt van andere analyseschema's voor hardop-denk protocollen bij tekstbestude-
ring, zoals die van Wouters en De Jong (1982), Büchel (1982), Waern (1980) en Olshavsky
(1976/1977). Op deze wijze ontstonden twee qua niveau verschillende categorieën van proces-
sen: in termen van meer theoretische constructen (bijvoorbeeld oriënteren, proces bewaken,
e.d.) en in termen van meer concrete leerlingaktiviteiten (zoals inprenten, parafraseren, e.d.).
Via een iteratieve procedure zijn vervolgens deze twee sets met categorieën van processen op
elkaar afgestemd door middel van samenvoegen, splitsen, toevoegen en wegstrepen van zowel
de meer theoretische constructen als de meer concrete codes voor de protocoluitspraken.
Sommige theoretisch gepostuleerde processen bleken niet in de protocollen voor te komen,
zoals het checken van de toepassingsvoorwaarden van een strategie en het reguleren van het
tempo van de tekstverwerking en werden daarom vooralsnog niet in het analyseschema opge-
nomen. De controlecategorie uit het oorspronkelijke werkmodel bleek te veelomvattend en is
daarom opgesplitst in toetsende, diagnostische, on-line regulerende en evaluatieve processen.
De herstelmechanismen die in het werkmodel worden onderscheiden zijn in het analyseschema
verspreid over verschillende categorieën. Zo zijn exploratie en reflectie bestanddelen van de
oriëntering, komt substitutie tot uiting in de on-line regulering en ontkoppeling in plannende
aktiviteiten en is herlezen bijvoorbeeld een vorm van persistentie. Redirectie is een herstelme-
chanisme dat in dit onderzoek niet werd aangetroffen en dat daarom niet als coderingscategorie
in het analyseschema is opgenomen. De oorspronkelijke categorie uitvoeren uit het werkmodel
komt in het analyseschema terug als transformeren, aangezien ook regulatie-aktiviteiten
worden uitgevoerd. Sommige categorieën uit andere analyseschema's werden samengevoegd,
zoals het proces inprenten, dat bij Wouters en De Jong (1982) drie deelcategorieën bevat.

Wat betreft de segmentering van de protocollen is gekozen voor de methode van zinvolle
eenheden (zie ook Wouters en De Jong, 1982). Binnen één zinvolle eenheid vindt één proces
plaats. De omschrijving van de processen bepaalt hierbij de lengte van de eenheden. De
tijdsduur van de processen werd buiten beschouwing gelaten. Verder werden nog de volgende
coderingsregels gehanteerd. Wanneer hetzelfde proces een aantal malen achtereenvolgens
wordt herhaald op dezelfde eenheid informatie, wordt dit proces evenzo vele malen gecodeerd.
Wanneer een leerling bijvoorbeeld twee keer achter elkaar hetzelfde tekstfragment herleest,
wordt dit gecodeerd als 2 keer herlezen. Een uitzondering geldt hierbij voor inprenten, omdat
dit proces door zijn aard een herhaling van informatie veronderstelt. Wanneer een proces wordt
onderbroken door een conversatie tussen proefleider en leerling, wordt'dit proces slechts 1 keer
gecodeerd. Niet gecodeerd worden antwoorden van de leerling op incidentele vragen naar
specifieke informatie van de proefleider en opmerkingen van de leerlingen die betrekking
hebben op de onderzoekssituatie.

Het analyseschema voor de protocollen

In het hieronder beschreven analyseschema voor de protocollen bij tekstbestudering wordt een
onderscheid gemaakt tussen enerzijds leeraktiviteiten die voortgang bewerkstelligen in de

-ocr page 197-

J. Vermunt et al. 193

richting van het gewenste leerresultaat (transformatieprocessen) en anderzijds processen die het
verloop en de resultaten van deze leeraktiviteiten registreren en reguleren (controle- of regula-
tieprocessen). Aangezien dit onderzoek gericht was op de tweede categorie, is de categorie
transformeren minder gedifferentieerd dan de andere. Verder wordt in het analyseschema een
onderscheid gemaakt tussen de meer abstracte, theoretische procescategorieën (de hoofdcate-
gorieën) en de meer concrete deelprocessen die daar een operationalisade van vormen. Of,
anders gezegd, de concreet aangetroffen processen in de protocollen zijn gegroepeerd onder de
noemer van de meer omvattende, theoretische constructen. Aangezien het oorspronkelijk
ontwikkelde analyseschema ook betrekking had op de andere taken die de leerlingen kregen
(vocabulaire leren en probleem oplossen), zijn in het hier weergegeven schema enkele deelpro-
cessen weggelaten die bij de tekstbestudering niet of vrijwel niet voorkwamen. In tabel 1 is dit
schema voor de tekstbestudering weergegeven. Zie voor een meer uitgebreide beschrijving van
het analyseschema en voor voorbeelden van benoemingen de Appendix en Vermunt (1984).

Tabel 1. Het analyseschema voor de protocollen bij tekstbestudering_

1- transformeren

l-l- Lezen

1-2. Herlezen
'•3. Inprenten

'•4. Informatie aanvullen
'•5. Commentaar geven
' -ö- Inhoudelijke uitleg vragen aan de

proefleider

2- PROCES BEWAKEN

2-1 • Constateren positieve tussenresulta-

ten

2-2. Constateren negatieve tussenresulta-
ten

2'3. Constateren taakkenmerken

2-4. Constateren eigen handelingen

STUREN VAN HET LEERPROCES
Plannen
^•2. On-Iine reguleren
^•2.1. Kiezen van een volgende aktiviteit
^•2.2. Selecteren van informatie als object
voor (extra) aandacht

3-2.3. Een combinatie van 1 en 2.

ANALYSEREN

ORIËNTEREN
' • Exploreren van de tekst
•2- Informatie vragen aan de proefleider
over de bedoeling
Reflekteren op eigen kenmerken als
lerende

Aktualiseren van kennis over moge-
lijke handelingen.

j- toetsen

j' j • Toetsen begrip

•J-i- Parafraseren

• 1.2. Vergelijken tekstpassages op consis-
tentie

-ocr page 198-

194 Hardop denken bij tekstbestudering

5.1.3. Vergelijken eigen conclusies met tekst

5.1.4. Zelf oplossen voorbeeldopgaven

5.2. Toetsen kennisstand

5.2.1. Reproduceren

5.2.2. Vergelijken van gereproduceerde
kennis met de tekst

5.3. Controleren oplossing probleem

5.4. Hypothesen of vragen genereren

6. DIAGNOSTISEREN

6.1. Relateren leerresultaat aan taakken-
merken

6.2. Relateren leerresultaat aan vooraf-
gaande handeling

6.3. Relateren leerresultaat aan eigen
kenmerken

6.4. Specificeren van het leerresultaat

7. EVALUEREN

Betrouwbaarheid van het schema

Om de mate van betrouwbaarheid vast te stellen van het benoemen van processen met behulp
van dit schema heeft een nieuwe beoordelaar zich ingewerkt in het hanteren van het analyse-
schema. Vervolgens werd een willekeurig protocol van een tekstbestudering, dat door de
hoofdcodeur in eenheden was verdeeld, door beiden gecodeerd. Van de 116 eenheden werden er
103 hetzelfde benoemd (88%). Wanneer het proces lezen (1.1.), waarbij 100% overeenstemming
was, niet wordt meegeteld, werden van de 91 overgebleven eenheden 78 hetzelfde benoemd
(85%). Van de 13 verschillen in benoeming kwamen er 7 tot stand doordat de ene beoordelaar
een eenheid als transformeren codeerde terwijl de andere die eenheid anders interpreteerde.
Verder bleken er verschillen in benoeming bij 2 categorieën die zeer weinig voorkwamen:
oriënteren (beoordelaar A: 3x; B: lx) en evalueren (A: Ox; B: lx). Bij de overige procescatego-
rieën werd hoge overeenstemming bereikt.

RESULTATEN

Na het ontwikkelen van het analyseschema op de steekproef uit de protocollen werd de gehele
verzameling protocollen gecodeerd in termen van de bovenvermelde procescategorieën^). Per
leerling werden vervolgens de frekwenties van alle processen bepaald, die werden omgezet in
percentages van het totale aantal geïdentificeerde processen in een protocol bij een taak. Twee
protocollen bleken onbruikbaar voor de analyse en een leerling had de opdracht niet gemaakt,
zodat de gegevens over de tekstbestudering zijn gebaseerd op 14 leerlingen en die over het
bestuderen van de uitleg bij de opdracht op 13.

Om na te gaan in hoeverre het hanteren van verschillende regulatieprocessen samengaat met
het behaalde leerresultaat is de groep leerlingen opgesplitst op basis van de score op de
meerkeuze begripstoets bij de tekst. De kwaliteit van de oplossing bij de opdracht werd
gebruikt
als indicatie voor het leerresultaat bij het bestuderen van de uitleg erbij. Bij deze laatste taak
bleek dat 3 groepen onderscheiden moesten worden: zij met een goede en zij met een foute
oplossing en een middengroep die wel de goede procedure volgde maar ook de getallen van de
uitleg overnam ('blindelings volgen van regels'). In eerste-instantie werden de gemiddelde
percentages van de groepen berekend, maar dit gaf problemen bij het interpreteren van de

-ocr page 199-

J. Vermunt et al. 195

gegevens bij het bestuderen van de uitleg. Daarom werd in een tweede analyse uitgegaan van de
originele frekwenties. Ter illustratie van deze interpretatieproblemen zijn enkele voorbeelden
opgenomen in tabel 2.

Tabel 2. Gemiddelde percentages en frekwenties van processen tijdens het bestuderen van de uitleg bij de

goede

'blindelings

foute

oplossing

volgen regels'

oplossing

Transformeren

39,0(20,4)

51,8 (8,0)

62,1 (10,5)

Proces bewaken

25,8(13,2)

4,1 (0,8)

20,4 ( 3,0)

Toetsen

23,2(11,8)

35,0(5,5)

9,0( 1,5)

Gem. aantal processen

51,4

15,8

16,5

per protocol

Door het grote verschil in gemiddeld aantal processen tussen de groep die later goede oplos-
singen bereikte en de beide andere groepen geven percentages een wat vertekend beeld van de
Verschillen. De middelste groep bijvoorbeeld toetst
relatief yaktx dan de andere groepen, maar
doordat ze in het algemeen weinig aktiviteit vertonen (gemiddeld aantal processen per proto-
col), hanteren ze
absoluut gezien minder toetsende processen dan de eerste groep. Bij de
tekstbestudering waren de gemiddelde aantallen processen voor de beide contrastgroepen
ongeveer gelijk, en daar maakte het dan ook weinig uit of van frekwenties of percentages werd
uitgegaan. Bij de uiteindelijke verwerking van de gegevens is daarom bij de contrastanalyses
tussen groepen leeriingen uitgegaan van frekwenties van processen (zie tabel 3).

Leeriingen die tot goede oplossingen kwamen bij de opdracht blijken op de eerste plaats de
uitleg veel aktiever te hebben bestudeerd: het totale aantal processen in hun protocollen is veel
groter dan bij de andere groepen. De leeriingen uit de eerste groep vertonen meer transforme-
rende akdviteit, wat vooral komt doordat ze vaker stukjes tekst opnieuw lezen. Ze houden hun
'eervordering scherp in de gaten, doordat ze veel aandacht hebben voor tussenresultaten die ze
bereiken in hun leerproces. Verder besluiten ze vaker tot bijsturing van hun aktiviteit tijdens het
leren. Wat de gehanteerde toetsingsprocessen betreft, blijken deze leeriingen op de eerste plaats
vaker hun leervordering te toetsen, en dan vooral de mate waarin ze de uitleg begrijpen. Zij
stemmen de aard van hun handelingen ook af op het te bereiken resultaat bij deze taak; het zelf
proberen op te lossen van voorbeeldopgaven voor men verder leest, is nu bij deze groep de meest
toegepaste aktiviteit om vast te stellen of men problemen van dit type al goed kan oplossen.
Daarnaast vergelijken ze vaker tekstfragmenten op consistentie, en stellen ze zichzelf meer
vragen tijdens de bestudering waar ze dan het antwoord op proberen te vinden. Diagnostische
processen komen hier ook als kenmerkend verschil tussen de eerste en de beide andere groepen
naar voren. Leeriingen die tot goede oplossingen kwamen bij de opdracht analyseren bij het
bestuderen van de uitleg vaker de relatie tussen een bepaald tussenresultaat in het leerproces en
aktiviteiten die ze tevoren hebben verricht. Verder specificeren ze vaker wat precies niet ofwel
begrepen wordt.

Bij de tekstbestudering bleek dat de significante verschillen zich concentreerden m de
toetsingscategorie (zie tabel 4). Vrijwel geen verschil is er in de mate waarin de bereikte
leerresultaten worden getoetst, wel in de manier waarop dat gebeurt. Leeriingen die een hoge
score op de natoets haalden bleken hun toetsingsprocessen af te stemmen op de aard van het
gewenste resultaat, het begrijpen van de tekst. Ze maken meer gebruik van aktiviteiten als
Parafraseren en het vergelijken van tekstfragmenten op consistentie dan de andere groep, terwijl
Ze vrijwel niet tekstpassages letteriijk reproduceren.

-ocr page 200-

196 Hardop denken bij tekstbestudering

Tabel 3. Gemiddelde frekwentie van processen in de protocollen van de leerlingen tijdens het lezen van de
uitleg bij de opdracht, een uitgewerkte voorbeeldopgave, opgesplitst naar de kwaliteit van de oplossing bij
de opdracht.

PROCESSEN

groep 1:

groep 2:

groep 3:

(vrijwel)

blindelings

(vrijwel)

volledig

volgen

volledig

goede

regels

foute

oplossing

(n=4)

oplossing

(n=5)

(n=4)

1.

TRANSFORMEREN

20,40

8,00

10,50

Lezen

9,40

6,75

6,75

Herlezen

8,20

0

1,50

Informatie aanvullen

1,60

0,75

2,00

Deelprocessen 5 en 6

1,20

0,50

0,25

2.

PROCES BEWAKEN

13,20

0,75

3,00

Constateren positieve tussenresultaten

7,00

0,25

1,75

Constateren negatieve tussenresultaten

4,60

0

0,75

Constateren taakkenmerken

1,20

0,50

0,50

Constateren eigen handelingen

0,40

0

0

3.

STUREN VAN HET LEERPROCES

PLANNEN

0

0

0

ON-LINE REGULEREN

1,80

0,25

0

ANALYSEREN

4.

ORIËNTEREN

0,80

1,25

1,00

5.

TOETSEN

11,80

5,50

1,50

Toetsen begrip

10,20

3,50

1,50

Parafraseren

2,60

2,00

0,75

Vergelijken tekstfragmenten op onderlinge con-

sistentie

2,60

0,25

0,25

Vergelijken eigen oplossingen/conclusies met de

tekst

0,80

0,25

0,25

Zelf oplossen van voorbeeldopga ven

4,20

1,00

0,25

Toetsen kennisstand

Reproduceren en controleren aan de hand van de

tekst

0

1,25

0

Controleren oplossing (deelprobleem

Uitvoeren controle-berekening

0,20 ^

0,75

0

Vragen/hypothesen genereren

en beantwoorden

1,40

0

0

6.

DIAGNOSTISEREN

2,80

0

0,25

Relateren leerresultaat aan voorgaande hande-

ling

1,40

0

0,25

Specificeren bereikte leerresultaat

1,40

0

0

7.

EVALUEREN

0,60

0

0,25

TOTALE AANTAL PROCESSEN

51,4

15,8

16,5

-ocr page 201-

J. Vermunt et al. 197

Tabel 4. Gemiddelde frekwenties van toetsingsprocessen tijdens de tekstbestudering, opgesplitst naar het
behaalde resultaat op de natoets. __

PROCESSEN Toetsscores leeriingen p-waarde

hoogste laagste eenzijdige

(n =7) (n = 7) toetsing via
t-toetsen

TOETSEN ^ 2^57 24^00

51. Toetsen begrip 19,00 8,43

Parafraseren 11,86 5,57 »
Vergelijken tekstfragmenten op onderlinge

consistentie 4,28 1,86 *

Vergelijken eigen conclusies - tekst 1.86 1,00

Zelf oplossen voorbeeldopgaven 1.00 O

5.2. Toetsen kennisstand

Reproduceren en controleren aan de hand van de

tekst 1.28 11,14

5.3. Controleren oplossing probleem

Uitvoeren controle berekening O 0,28

5.4. Vragen/hypothesen genereren

1,28 4,14

P<.05

DISKUSSIE

Het bleek mogelijk om interpreteerbare verschillen tussen goed en minder goed presterende
leeriingen in regulatieprocessen vast te stellen, met behulp van de ontwikkelde methode. Deze
hingen overigens gedeeltehjk samen met het schooltype. De beter presterende leeriingen
kwamen in meerderheid van het VWO en de minder goed presterende van MAVO en HAVO-
klassen. Belangrijke uitkomsten van het onderzoek achten wij verder de konstatering dat a) de
meerderheid van de regulatieprocessen zich afspeelt tijdens het leren zelf en slechts in beperkte
mate voorafgaande aan en na afloop van het leren; b) de individuele verschillen niet alleen
bestonden uit kwantitatieve, maar vooral ook uit kwalitatieve verschillen: het hjkt met name te
gaan om de aard van de handehngsregulatie; c) vooral de afstemming van de aard van de
■"egulatie op de aard van de taak en het doel waarmee deze wordt gelezen van belang is.

De hardop denk methode is in dit onderzoek een geschikte methode gebleken om ook bij
relatief jonge proefpersonen de regulatieve aspekten van het bestuderingsgedrag te registreren.
Vooral de processen die tijdens de tekstbestudering voorkomen blijken met deze methode
nauwkeuriger te kunnen worden gemeten dan via retrospektie (vergelijk Blaakman en Ver-
munt, 1983). Met het hier ontwikkelde analyseschema bleek het goed mogelijk de protocollen te
coderen. De interbeoordelaar betrouwbaarheid bij het benoemen van de processen is redehjk, al
is natuuriijk nog meer onderzoek naar de betrouwbaarheid van het schema noodzakehjk.
Verder is het nodig dat het schema wordt beproefd op een nieuwe, grotere steekproef, waarbij
ook nagegaan moet worden of de theoretisch veronderstelde, maar nu niet of nauwelijks
Voorkomende processen, niet alsnog moeten worden opgenomen. De uit dit beperkte onder-
zoek getrokken conclusies dienen met voorzichtigheid te worden geïnterpreteerd, omdat a) het
aantal proefpersonen gering was en b) de helft van de protocollen eerst werd gebruikt voor de
ontwikkeling van het analyseschema en vervolgens voor de samenstelhng van de tabellen met
•■esultaten (zie noot 2). De gevonden verschillen en conclusies vormen dan ook de hypothesen
Voor een meer toetsend vervolgonderzoek waarmee inmiddels een begin is gemaakt.

-ocr page 202-

198 Hardop denken bij tekstbestudering

NOTEN

1) Momenteel werkzaam bij de Stichting voor Onderzoek van het Onderwijs (S.V.O.).

2) Naast deze teksten werden nog twee andere taken verricht, die hier echter buiten beschouwing blijven.

3) Men dient zich hierbij te realiseren dat de scoring van de reeds voor de ontwikkeling van het analyse-
instrument gebruikte protocollen mogelijk bevooroordeeld is gebeurd. Overigens waren er geen ver-
schillen tussen de resultaten van de oude en de nieuywe protocollen.

LITERATUUR

Blaakman, P., & Vermunt, J. (1983). Huiswerkplanning in de kinderschoenen: Handelingsbegeleidende
processen bij het maken van huiswerk.
Onderzoeksverslag, vakgroep onderwijspsychologie. Katho-
lieke Hogeschool Tilburg.

Breuker, J.A. (1982). Hardop-denken: Methodologie voor het analyseren van hardop denk protocollen. In
L. van der Kamp & M. van der Kamp (red.).
Methodologie van Onderwijsresearch. Lisse: Swets &
Zeitlinger.

Brown, A.L. (1980). Metacognitive Development and Reading. In R. J. Spiro, B.C. Bruce & W.F. Brewer
(eds.).
Theoretical issues in reading comprehension. Hillsdale, N.J.: Erlbaum.

Brown, A. L. (1984). Learner Characteristics and scientific Texts. Paper presented at the AER A-conference,
New Orleans, april 1984.

Brown, A.L., Campione, J.C., & Day, J.D. (1981). Learning to learn: On training students to learn from
ItyAs. Educational Researcher, 10(2), 14-21.

Büchel, F.P. (1982). Metacognitive Variables in the learning of written Text. In A. Flammer & W. Kintsch
(eds.).
Discourse processing. Amsterdam: North Holland.

Ericsson, K.A., & Simon, H.A. (1980). Verbal Reports as Data. Psychological Review, 87.

Erisson, K.A., & Simon, H.A. (1984). Protocol Analysis. Massachusetts: The Massachusetts Institute of
Technology.

Fischer, P.M., & Mandl, H. (1983). Förderung von Lernkompetenz und Lernregulation. Zentrale Kompo-
nenten der Steuerung und Regulation von Lernprozessen. In L. Kotter & H. Mandl (Hrsg.),
Kognitive Prozesse und Unterricht. Düsseldorf: ScWann.

Flavell, J.H. (1976). Metacognitive Aspects of Problem Solving. In L.B. Resnick (ed.), The nature of
intelligence.
Hillsdale, N.J.: Erlbaum.

Groot, A.D. de (1982). Commentaar. In: L. van der Kamp & M. van der Kamp (red.), Methodologie van
Onderwijsresearch.
Lisse: Swets & Zeitlinger.

Hettema, P.>. (1979). Psychology and adaptation. Amsterdam: North Holland.

Lechler, P. (1982). Kommunikative Validierung. In G.L. Huber & H. Mandl (Hrsg), Verbale Daten.
Weinheim: Beltz Verlag.

Nisbett, R.E., & Wilson, T.D. (1977). TellingMore than we can know: Verbal Reports on Mental processes.
Psychological Review, 84 (3), 231 - 259.

Olshavsky, J.E. (1976/77). Reading as Problem Solving: an Investigation of Strategies. Reading Research
Quarterly ,12,654-614.

Simons, P.R.J., & Vermunt J.D.H.M. (in druk). Self-regulation in knowledge acquisition: a selection of
Dutch research. In P.R.J. Simons & G. Beukhof (eds.).
Research on learning and instruction in the
Federal Republic of Germany and in The Netherlands.
Den Haag: SVO, Selecta Reeks.

Vermunt, J.D.H.M. (1984). Handelingsbegeleidende processen bij het zelfstandig leren: een analyse met
behulp van hardop-denk
Protokollen. Onderzoeksverslag, vakgroep onderwijspsychologie, Katho-
lieke Hoge school Tilburg.

Vermunt, J.D.H.M., Lodewijks, J.G.L.C. & Simons, P.R.J. (1984). Het diagnojtiseren van de aarden de
hoeveelheid handelingsregulerende processen bij het leren.
Paper gepresenteerd tijdens het Congres
van het NIP, Ede, 6 en 7 december 1984.

Waern, Y. (1980). Thinking aloud during Reading. Scandinavian Journal of Psychology, 27,123 -132.

Wouters, L., & Jong, T. de (1982). Hardop Denken tijdens Tekstbestudering. Tijdschrift voor Onderwijsre-
search, 7,
60 - 75.

Manuscript ontvangen 12-4-1985.

Definitieve versie ontvangen 12-5-1986.

-ocr page 203-

J. Vermunt et al. 199

appendix : Analyseschema voor de protokollen bij tekstbestudering

I- TRANSFORMEREN: alle cognitieve en/of overte aktiviteiten die op het uitvoeringsniveau (leersituatie -
leeraktiviteiten - leerresultaten) verandering bewerkstelligen in tussentoestanden in het leerproces, waar-
door voortgang plaatsvindt in de richting van het gewenste leerresultaat. Hieronder vallen dus alle
processen die een primair kennis- of
hegnpsbevorderend karakter hebben. Als transformeren worden
beschouwd:

l-l- Lezen: De leerling leest iets voor de eerste keer.
1 -2. Herlezen: De leerling leest een tekstfragment voor de etc. keer.

'•3. Inprenten: De leerling herhaalt (vrijwel) letterlijk uit het hoofd een juist tevoren gelezen zin of
tekstfragment.

' -4. Informatie aanvullen. De leerling voegt inhoudelijke informatie toe aan de tekst die niet als zodanig
is gegeven. Dit kan zijn in de vorm van het afleiden van conclusies, het aanvullen van voorkennis, het
geven van voorbeelden of verklaringen die niet in de tekst staan e.d.
Voorbeeld*:

ppL : Als je een munt--uitkomsten mogelijk 1.2

ppD : O ja natuurlijk, ik snap het al, 2.1

het is een bepaalde tabel! 1.4: info aanvullen

1-5. Commentaar geven: De leerling geeft een oordeel over de inhoud van de informatie in de tekst of over
de vorm waarin die is gepresenteerd. Hij/zij geeft aan het ergens niet mee eens te zijn of er aan te
twijfelen.

Voorbeeld:

ppL: Als je een gulden--kansexperiment. 1.1.

ppD : ......Ik vind dat geen experiment, als je gewoon een munt

opgooit, welke kant boven komt. 1.5: commentaar geven

1 -6. Inhoudelijke uitleg vragen aan de proefleider: De leerling vraagt wat een bepaald woord of symbool
betekent.

II. PROCES BEWAKEN: het waarnemen, interpreteren, constateren van kenmerken van het uitvoerings-
niveau, die als basis voor de verdere sturing van het leerproces kunnen dienen. Deze waarneming kan zich
f'chten op verschillende aspekten van dit uitvoeringsniveau.

2-1 • Constateren positieve tussenresultaten. De leerling geeft aan dat hij/zij een tekstfragment begrijpt of

kent, een oplossingsprocedure beheerst e.d.

Voorbeeld:

ppL: (leest stukje)

ppD : Ja, dat snap ik wel. 2.1 : const. pos. res.

2'2. Constateren negatieve tussenresultaten. De leerling geeft aan dat hij/zij iets niet of onvoldoende
begrijpt, kent of kan.

2-3. Constateren taakkenmerken. De leerling geeft aan iets moeilijk of gemakkelijk te vinden, belangrijk
of onbelangrijk e.d.
Voorbeeld:

ppL: De kans op--is '/j. 1.1.

PpD : Ja, ik vind het wel heel moeilijk. 2.3.: const. taakkenm.

Constateren eigen handelingen. De leerling beschrijft wat hij doet of gedaan heeft.

'II- STUREN VAN HET LEERPROCES: Sturen kan betrekking hebben op de keuze van de leeraktivitei-
ten en op de keuze van het object van die aktiviteiten (waaraan wordt aandacht besteed?). In de literatuur
Wordt ook wel het resuleren van de snelheid van het bestuderingsproces genoemd, maar opmerkingen van
die aard kwamen in de protokollen niet voor. Twee soorten sturingsprocessen worden hierbij onder-
scheiden:

Plannen. Dit betreft het sturen van her leerproces op macro-niveau. De leerling geeft aan wat hij
gaat doen om het gewenste eindresultaat te bereiken, zegt hoe hij de aandacht gaat verdelen over
tekstonderdelen, geeft de inhoud en de volgorde aan van minstens twee successieve leeraktiviteiten
e.d. Aangezien plannende opmerkingen zeer weinig voorkwamen, zijn in deze categorie geen
verdere onderscheidingen aangebracht.
Voorbeeld:

PpL: Anders gezegd--in ons voorbeeld 6. 1.1.

PpD : Ja, ja, ik vind het wel moeilijk, 2.3.

maar ik denk dat als ik het goed lees, 3.1. Plannen

-ocr page 204-

200 Hardop denken bij tekstbestudering

en goed tot me laat doordringen wat er staat, datje het dan
wel goed zal begrijpen.

3.2. On-line reguleren. Dit betreft het (bij) sturen van aktiviteiten tijdens het bestuderingsproces, het
nemen van beslissingen over enkelvoudige aktiviteiten of het object daarvan onder het leren, vaak op
basis van gegevens die de procesbewaking oplevert. Alleen wanneer die beslissingen expliciet in het
protokol tot uiting komen worden ze gecodeerd. Wanneer de regulatie van het leerproces automa-
tisch verloopt is hierover weinig informatie in de hardop-denk Protokollen te verwachten. Uit-
spraken in deze categorie betreffen dus de
bewuste sturing van het leerproces. De on-line regulatie
kan bestaan uit:

3.2.1. Het kiezen van de volgende aktiviteit. De leerling geeft aan wat hij op dit moment gaat doen.
Voorbeeld:

ppL: Je kunt dit kansexperiment--af te lezen. 1.1.

ppD: Ik snap het niet, 2.2.

even doorlezen, kijken of ik er achter kan komen. 3.2.1. Kiezen aktiv.

3.2.2. Het selecteren van informatie als object voor (extra) aandacht. Ook dit proces wordt alleen geco-
deerd als het expliciet gebeurt, d.w.z. als opmerking in het protokol (de leerling zegt dat hij ergens
extra aandacht aan gaat besteden), of als overte handeling (de leerling markeert bepaalde stukken
tekst, schrijft moeilijke woorden apart op, schrijft kernwoorden of-zinnen op e.d.

3.2.3. Een combinatie van 1 en 2.
Voorbeeld:

ppL: Bij het gooien--tussen O en 1. 1.1.

ppD: Ja, ik snap het niet helemaal, 2.2.

daarom lees ik dit stukje nog maar een keer. 3.2.3. Combinatie 1 & 2.

ANALYSEREN. Wanneer de procesbewaking, het slechts 'in het oog houden' van het uitvoeringsniveau
niet voldoende informatie oplevert die als basis voor de verdere sturing van het leerproces kan dienen, kan
de leerling overgaan tot het nader analyseren van verschillende aspekten van het uitvoeringsniveau.
Analyseprocessen hebben tot doel meer informatie op te leveren over de aard en de kwaliteit van dit niveau
op een bepaald moment in het leerproces, zodat meer gefundeerde beslissingen genomen kunnen worden
ten aanzien van de verdere procesregulatie. Drie analyseprocessen worden hierbij onderscheiden, die ieder
een ander soort informatie opleveren : oriënteren, toetsen en diagnostiseren.

IV. ORIËNTEREN. Dit proces betreft het voorbereiden van aktiviteiten door middel van het inspekteren
van de gegeven leersituatie, het gewenste resultaat, mogelijke handelingen om het verschil tussen deze twee
te overbruggen, en meer algemene kenmerken van de eigen persoon als lerende die in verband met de taak
van belang zijn. De volgende aktiviteiten vallen binnen deze categorie:

4.1. Het exploreren van de tekst. De leerling bladert de tekst globaal door.

4.2. Informatie vragen aan de proefleider over de bedoeling. De leerling vraagt wat de bedoeling is,
bijvoorbeeld of ook definities geleerd moeten worden.

4.3. Reflekteren op eigen kenmerken als lerende, zoals voorkennis, sterke en zwakke kanten e.d. aan het
begin van het bestuderingsproces. Dit is bijvoorbeeld het geval wanneer een leerling meer beschou-
wend praat over wat hij al van het onderwerp weet. ■•

Voorbeeld:

ppD : Komt hier ook een proefwerkje van? 4.2.: vragen naar bedoeling

pl : Ja, daar krijgt je multiple choice vragen over.
ppD : Ha, daar ben ik wel goed in, in multiple choice, da's gemak-
kelijk. 4.3.: reflekteren op eigen

kenmerken

4.4. Aktualiscren van kennis over mogelijke handelingen om het gewensteJeerresultaat te bereiken. De
leerling zegt bijvoorbeeld hoe hij of zij normaal te werk gaat bij dit soort teksten e.d.
Voorbeeld:

ppD : het leerwerk doe ik altijd het laatste, 4.4 aktualiscren kennis

dat doe ik meestal wel overlezen, en dan over handelingen

leg ik het weg tot op het laatst. En dan
laat ik het overhoren.

-ocr page 205-

J. Vermunt et al. 201

V. TOETSEN. Dit betreft alle aktiviteiten die informatie opleveren over de aard en het niveau van de
(tussen)resultaten die in het bestuderingsproces worden bereikt.

5.1. Toetsen begrip. Als aktiviteiten die informatie opleveren over de mate waarin men een stuk tekst
heeft begrepen worden beschouwd :

5-1.1. Parafraseren. De lerende herformuleert een zin, zinsdeel of passage uit de tekst, vertelt deze in eigen
woorden na.
Voorbeeld:

ppL: Om de uitkomst te berekenen--dus 1.2.

kans (MM)is'/2x'/2is'/4-
ppD : Dus in totaal is de kans op munt munt 5.1.1. parafraseren

Vi- Het totaal van alle worpen.

5.1.2. Vergelijken van tekstpassages op interne consistentie. De lerende geeft aan dat er overeenkomsten of
verschillen zijn tussen verschillende tekstonderdelen.

Voorbeeld:

ppL: De uitkomstenverzameling--kans 2 keer 1.1.

munt is '/<.

ppD: Ja, dat lijkt me vrij logisch uit de tabel. 5.1.2. vergelijken op consis-

tentie

5.1.3. Vergelijken van eigen conclusies met de tekst.
Voorbeeld:

ppL; Om de uitkomst-kans munt munt. 1.1.

ppD: .... Ja, ik begrijp het dus niet helemaal, 2.2.

want hier... staan dus 2 kansen afgebeeld 5.1.1.

... Dan heb je dus bij allebei de worpen
heb je dus de helft van die totale worp...
Maar als je die halve worp plus nog die halve 1.4.

worp, dan zou ik dus zeggen datje dan 1 worp

hebt, 5.1.4. verg. concl. - tekst

maar hier staat '/j maal is '/,.
5-1.4. Zelf oplossen van voorbeeldopgaven. De leerling probeert een opgave waarvan de oplossing is
gegeven eerst zelf op te lossen voordat hij of zijn verder leest.

5-2. Toetsen kennisstand. Als aktiviteiten die informatie opleveren over de mate waarin men de inhoud
van de tekst heeft onthouden worden beschouwd:

5-2.1. Reproduceren. De lerende probeert uit zijn hoofd tekstpassages weer te geven, (vrijwel) letterlijk
zoals die in de tekst werden aangeboden.
Voorbeeld:

ppL: Ook na een serie van 5 zessen is bij een 1.1.

volgende worp de kans op 6 weer '/j.
ppD : Ook na een serie van 5 zessen is de kans 5.2.1. reproduceren

op een 6 weer 1/6.
5-2.2. Vergelijken van gereproduceerde kennis met de tekst.

5-3. Controleren van de oplossing van een (deelprobleem. De leerling voert een her- of andere bereke-
ning uit op een opgave in de tekst om de juistheid van de gegeven oplossing na te gaan.

5-4. Hypothesen of vragen genereren en deze proberen te beantwoorden. De lerende stelt zich vragen over
de inhoud van de tekst, vraagt zich iets af e.d.
Voorbeeld:

pl: Wat denk je nou, als je dat (een diagram) zo aan het bekijken
bent?

ppD : Of 't voor kop en munt bij de eerste en 5.4. vragen genereren

tweede worp hetzelfde geldt?

-ocr page 206-

202 Hardop denken bij tekstbestudering

VI. DIAGNOSTISEREN. Dit betreft het analyseren van, het terugkijken op het voorafgaande leerproces.
De relaties tussen componenten van het uitvoeringsniveau staan hierbij centraal. De leerling gaat na hoe een
bepaald leerresultaat tot stand is gekomen of welke deelcomponenten aan een feitelijk bereikt (tussen)resul-
taat zijn te onderscheiden. De volgende uitspraken worden als diagnostiseren gecodeerd.

6.1. Relateren leerresultaat aan taakkenmerken. De lerende legt een verband tussen een feitelijk (tussen)-
resultaat en taakkenmerken.

Voorbeeld:

ppL: Voorbeeld I. Op een dobbelsteen----1.1.

'/6Plus'/.is%.

ppD: (....) En ja, ik snap het nou wel ongeveer, ' •

omdat ze allemaal van die voorbeelden geven. 1. relat. result.-

taakkenm.

6.2. Relateren leerresultaat aan voorafgaande handeling. De lerende legt een verband tussen een feitelijk
(tussen)resultaat en de voorafgaande handeling die hij of zij heeft verricht.

Voorbeeld:

ppL: Er is maar 1 manier--'/j. 1.1.

ppD: Ja, ik snap het al (...). 2.1.

Ik moet altijd een stukje teruglezen, 6.2. relateren resultaat

dan begrijp ik het ongeveer wel. - handeling.

6.3. Relateren leerresultaat aan eigen kenmerken. De lerende legt een verband tussen een feitelijk
resultaat en eigen, meer tijdstabiele kenmerken.

Voorbeeld:

ppD: Nee, sommige dingen zijn nog niet helemaal 7.

duidelijk nee,

maar dat komt bij mij wel eens meer voor 6.3. relateren resultaat

met wiskunde of zo, zoiets. - eigen kenmerken

6.4. Specificeren van het leerresultaat. De lerende ontleedt het bereikte (tussen) resultaat in enkele
elementen. Hij geeft bijvoorbeeld aan wèt hij niet of juist wel begrijpt in een bepaalde tekstpassage.
Voorbeeld:

(de leerling kijkt naar een kansendiagram)
ppD: Ik snap niet waarom die bogen daar zo bij zijn. 6.4. specificeren resultaat

De rest van dat gedeelte wel, alleen die boog niet.

VII. EVALUEREN. De lerende geeft een oordeel over het totale verloop of resultaat van het leerproces
tot dan toe tegen criteria van het gewenste eindresultaat, met betrekking tot de bestudering van de
gehele tekst. De leerling geeft bijvoorbeeld aan dat hij bepaalde onderdelen van de tekst beter
beheerst dan andere, dat hij opgaven van dit type nu goed kan oplossen e.d.

♦: ppL = proefpersoon leest stukje letterlijk

ppD = proefpersoon denkt = alles wat niet letterlijk gelezen wordt
pl = Proefleider
— = proefpersoon leest stuk tekst
( ) = observaties van de proefleider.

-ocr page 207-

Tijdschrift voor Onderwijsresearch, 11 (1986), nr. 4, pp. 203-215

De validiteit van een Systematische Probleem-Aanpak
voor het ontwerpen van beleid

C. Terlouw en C.T.C.W. Mettes
Onderwijskundig Centrum,

Afdeling Toegepaste Onderwijskunde/Centrum voor Studie van het Hoger
Onderwijsbeleid, T.H. Twente

abstract

Learning to tackle a problem in the area of public policy-design, a model was designed from which
guidelines for students in Public Administration were derived. Such a model is usable and effective
when it is connected as much as possible to the level of the student as well as to the level of the expert.
This relationship, operationalized in a measure of prediction and explained variance, is evident in
our research results. Large differences are found between reported behaviours of experts and
students which are in accordance with other research concerning experts and novices. In general,
experts and students appreciate the guidelines for public policy-design.

1. INLEIDING

In het eerste deel van dit artikel wordt besproken waarom en hoe een dergelijk model van een
probleemaanpak is ontworpen, hoe deze probleemaanpak er uitziet en in het onderwijs gebruikt
Wordt. Het tweede deel beschrijft een gedeelte van het nog lopende onderzoek naar de relatie
'ussen deze Systematische ProbleemAanpak en enerzijds het gedrag van experts en anderzijds
dat van studenten.

2- EEN SYSTEMATISCHE PROBLEEMAANPAK VOOR HET ONTWERPEN VAN

BELEID

Dp grond van een aantal argumenten dat wij elders (Terlouw & Mettes, 1984) uiteenzetten, is
net systematisch aanpakken van (beleidsontwerp)problemen te prefereren boven het groten-
deels impliciet, impulsief, willekeurig of onvolledig te werk gaan. Vandaar dat studenten van de
afdeling Bestuurskunde aan de T.H. Twente herhaaldelijk in hun studie geconfronteerd wor-
den met het Systematisch Aanpakken van Beleidsontwerp-Problemen. Dit gebeurt o.a. in
'Wee cursussen waarin de studenten leren gebruik te maken van een Systematische Probleem-
Aanpak (SPA). Eén en ander speelt zich af in een simulatiespel, dat handelt over een maat-
schappelijk probleem. In de ene cursus gaat het over ontwerpen van een Stadsvernieuwingsbe-
eid voor een wijk in het fictieve stadje Dingeskerke; in de andere cursus over het ontwerpen van
fh ' ^^^''^ndbouwbeleid in het jaar 1982/'83. De studenten kiezen in het spel een bepaalde rol
^nijv. bij Stadsvernieuwing: ambtenaar ruimtelijke ordening, lid van de wijkraad, bestuurslid
^an het Algemeen Pensioen Fonds) en krijgen de opdracht tot het leveren van een bijdrage aan
et ontwerpen van een gezamenlijke beleidsnota. Deze nota moet op het eind van het spel ter
So^keuring worden voorgelegd aan de bevoegde beslisser.

Doelstelling van dit soort onderwijs is: 'het zo systematisch mogelijk, interdisciplinair

Adres: Postbus 217,7500 AE Enschede

-ocr page 208-

204 Systematische Probleemaanpak

aanpakken van problemen die voortkomen uit het uitvoeren van een opdracht tot ontwikkeling
van beleid in het openbaar bestuur'. De disciplines betreffen economie, politicologie, recht en
sociologie.

De Systematische ProbleemAanpak (SPA) die de studenten gebruiken bestaat uit een check-
list (met een toelichting en voorbeelden), die een samenvatting is van een veel uitgebreider
systeem van heuristieken voor het ontwerpen van een beleidsnota. Dit systeem noemen wij
Gewenst Handelingsverloop (GHV), (zie Terlouw & Mettes, 1984; Terlouw et al., 1981). Dit
Gewenst Handelingsverloop (GHv) bevat de kern van de denkvaardigheden die men aan kan
treffen in de hteratuur over probleemoplossen in het algemeen (o.a. Duncker, 1945; De Groot,
1965,1971; Newell en Simon, 1972), over Technisch Ontwerpen (van den Kroonenberg, 1974)
en over sociaal-wetenschappelijk en bestuurskundig ontwerpen (Hoogerwerf, 1978, 1984;
Kuypers, 1980a en b en Simon, 1976a). Figuur 1 laat de checklist van de Systematische
ProbleemAanpak zien, zonder de begeleidende toelichting voor het gebruik ervan (zie daarvoor
Terlouw, 1983 a en b).

3. ONDERZOEK NAAR FEITELIJK EN GEWENST ONTWERPGEDRAG VAN
EXPERTS EN STUDENTEN - EEN TUSSENSTAND

3.1. Doelstelling en vraagstellingen van het onderzoek

De centrale doelstelling van het onderzoek is na te gaan in hoeverre de onderwijsdoelstelhngen,
uitgewerkt in een Systematische ProbleemAanpak (SPA), aansluiten bij enerzijds de eerste
pogingen van (beginnende) studenten en anderzijds bij ontwerphandelingen van experts. De
onderzoeksvragen die hier aan de orde komen zijn onderdeel van een grotere verzameling
vraagstellingen (zie Terlouw & Mettes, 1984) binnen nog lopend onderzoek. Ze zijn als volgt
geformuleerd:

1. In hoeverre zijn er overeenkomsten tussen de categorieën van gedrag van de Systematische
ProbleemAanpak (SPA) en het feitelijk ontwerpgedrag van experts?

2. Zijn experts van oordeel dat de ontwerphandelingen van de Systematische ProbleemAan-
pak (SPA) in de praktijk gebruikt worden en dat het wensehjk is deze te gebruiken?

3. In hoeverre zijn er overeenkomsten tussen ontwerphandelingen van de Systematische
ProbleemAanpak (SPA) en het feitelijk ontwerpgedrag van studenten tijdens de bovenge-
noemde cursus?

4. Zijn studenten van mening dat de te gebruiken ontwerphandelingen van de checklist
bruikbaar en wensehjk zijn?

5. Welke verschillen zijn er te onderkennen in de categorieën van ontwerpgedrag tussen experts
en studenten?

3.2. Experts en studenten

In de voorgaande paragraaf wordt gesproken over 'experts' en 'studenten'. Wat verstaan wij
precies in deze context onder deze begrippen? Er is in de ontwikkeling van ongeïnstrueerde
student naar expert een aantal competentie-niveaus te onderscheiden: (a) de ongeïnstrueerde
student vlak voor het onderwijs; (b) de student tijdens het onderwijs; (c) de student direkt na het
onderwijs; en (d) de expert. Uiteraard zijn er ten aanzien van de laatste wellicht ook nog
verschillende niveaus te onderscheiden, bijvoorbeeld naar het aantal jaren dat men in de
praktijk werkzaam is of het aantal domeinen waarin men praktijkervaring heeft opgedaan. In
dit kader laten wij dat echter buiten beschouwing. Een onderscheid in verschillende competen-
tieniveaus is van belang omdat er tussen deze niveaus kwalitatieve verschillen zijn (Champagne
etal., 1981).

Deze kwalitatieve verschillen betreffen zowel de gebruikte oplossingsstrategieën als de aard
van de gebruikte feitelijke vakinhoud. Ook andere onderzoeken over experts en studenten
rapporteren kwalitatieve verschillen, zij het, dat deze onderzoeken zich veelal beperken tot een
vergelijking tussen experts en geïnstrueerde studenten, 'novices' (De Groot, 1965; Simon en

-ocr page 209-

C. Terlouw en C.T.C.W. Mettes 205

Checklist Systematische Probleem Aanpak (SPA)

1. Aanwijzingen in de ontwerpopdracht

- probleem, doeleinden, middelen, randvoorwaarden?

- algemeen/rolrelevant?

- contact met opdrachtgever?

2. Globaal overzicht van ontwerpprobleem (a)/situatie (b)

(a) - deelproblemen?

- bestaande situatie? welke kenmerken wel/niet veranderen?

- maatstaven?

- discrepanties?

(b) - beleidsvrijheid?/eisen beleidsnota?

- machtsverdeling?

- belangen?

- stabiliteit?

3. Hypothetische causale model

- welke relevante verschijnselen?

- welke mogelijke relaties?

- welke verschijnselen/relaties centraal?

4. Beschrijving einddoelen

- actoren?

- maatstaven?

- causale model?

- randvoorwaarden?

5. Planning van de Communicatie

- Wie, Wat, Waar, Waarom?

- coördinatie/terugkoppeling?

- vaste structuren?

- eisen beleidsnota?

6. Evaluatie

- ontwerpproces?

- (tussen) producten?

- criteria?

Bestaande beleidsmiddelen gebruiken

-pldigheid? ) model van beleidseffecten?

- kosten/baten? )

8- Nieuwe beleidsmiddelen m.b.v. beleidsfuncties

- brainstormen/literatuur? j

-beleidsfuncties? ( model van beleidseffecten?

-geldigheid? I

- kosten/baten? '

9. Uitvoering en integreren
-eisen beleidsnota?
-verandering probleemsituatie?

'O- Controle en leerervaringen

- laatste controle?

- foutenanalyse?

P'guurl: De Systematische ProbleemAanpak (SPA): Het Gewenst Handelings-Verloop
(GHV) in de vorm van een checklist van belangrijkste aandachtspunten.

-ocr page 210-

206 Systematische Probleemaanpak

Simon, 1978; Larkin, 1980; Larkin et al., 1980; Chi et al., 1981, Been en Brokken, 1984).

We willen nagaan of dergelijke kwalitatieve verschillen ook in het onderhavige vakgebied
aanwezig zijn. In het kader van dit artikel gaat het ons om de competentieniveaus van experts en
studenten-tijdens-het-onderwijs (zie verder Terlouw en Mettes, 1982).

3.3. Methode van onderzoek

Wij zullen vier onderdelen uiteenzetten: de deelnemers aan het onderzoek; de procedure; de
codering; en de gebruikte analyse-technieken.

3.3.1. De deelnemers aan het onderzoek

Er zijn twee groepen van deelnemers: experts en studenten.

(a) De experts.

Hier werden twee onderzoeken uitgevoerd: een diepte-onderzoek (betreffende onderzoeks-
vraag 1) en een breedte-onderzoek (betreffende onderzoeksvraag 2). In het diepte-onderzoek
participeerden 10 mannelijke personen die werkzaam zijn in het openbaar bestuur. Vier zijn
werkzaam bij een gemeente, drie op provinciaal niveau en drie bij het Rijk. Allen hadden
minimaal 5 jaar ervaring en zijn concreet betrokken bij het ontwerpen van beleid, resulterend in
een beleidsnota. *

Behalve dat bij de keuze van experts gelet is op de overheidslagen, is ook rekening gehouden met
de reputatie en de positie. Als experts werden die personen gekozen die op basis van het oordeel
van een sleutelpersoon over relevante informatie beschikken (= reputatie). Voorts werd er ook
op gelet of de personen bepaalde posities bekleden en daardoor met de door ons bedoelde
ontwerpvaardigheden te maken hebben; {— positie) (zie Brosi e.a., 1981).

In het breedte-onderzoek werden als relevante populatie de stagementoren van de afdeling
Bestuurskunde gezien. Stagementoren zijn functionarissen uit de stagebiedende organisatie zelf
die een stageair op de werkplek begeleiden.

Uit de populatie stagementoren (N=325) is een aselecte gestratificeerde steekproef ge-
trokken. Als strata werden de eerder genoemde overheidslagen (-1- een categorie 'overige')
gekruist met een aantal beleidsvelden (financiën/economie; welzijn; ruimtelijke ordening;
organisatie/planning/onderzoek; algemene bestuurlijke aangelegenheden; en overige). De fre-
quenties van de strata werden naar hun proportie van voorkomen in de populatie verdeeld over
decellen(n=117).

(b) De studenten.

De studenten betroffen de reguliere deelnemers aan de cursussen Bestuurskundig probleem-
oplossen in de studiejaren 1979/80 t/m 1981/82 (veelal groepen van 60 studenten). Het zijn
derdejaars studenten Bestuurskunde die juist hun stage achter de rug hebben. In alle driejaren
betrof de cursus het onderwerp 'Stadsvernieuwing'; voor 1981/82 ook het onderwerp 'EG-
landbouwbeleid'.

In deze cursussen werd in die jaren geen instructie gegeven in een Systematische Probleem-
Aanpak (SPA) voor bestuurskundige ontwerpproblemen. Wij waren nog met de ontwikkeling
daarvan bezig.

Tijdens het onderwijs moesten de studenten logboeken bijhouden. Hierin werden de ont-
werphandelingen genoteerd en achteraf besproken.

De studenten leverden de logboeken in. Ook hieruit is een aselecte gestratificeerde steekproef
getrokken. De strata waren hier de groepen waarin de studenten tijdens het onderwijs gepartici-
peerd hadden. De volgende aantallen zijn gebruikt: 1979/80: 9 logboeken; 10 logboeken uit
zowel 1980/81 als uit 1981/82 'Stadsvernieuwing'; en 16 logboeken uit 1981/82 'EG-
landbouwbeleid'.

De verschillen tussen studenten qua voorkennis, studieprestatie, motivatie, e.d. waren niet
zodanig dat deze factoren een rol zouden moeten spelen bij de selectie van studenten en de
interpretatie van de uitkomsten.

-ocr page 211-

C. Terlouw en C.T.C.W. Mettes 207

3.3.2. Deprocedure

(a) De experts.

Na een zorgvuldige procedure van contactopname met de deelnemers aan het diepte-onderzoek
(zie Terlouw en Mettes, 1984) werd hun een casus toegezonden waarin een ontwerpprobleem
verwoord stond.

Een deelnemer kreeg een probleem waarmee hij vakinhoudelijk niet op de hoogte was. Het
moest een echt probleem zijn voor de expert. Daarbij waren wij ook vooral geïnteresseerd in zijn
algemene probleemaanpak (zie verder Terlouw en Mettes, 1982). De casus bestond uit 25 blz. en
betrof een ontwerpprobleem aangaande de stadsvernieuwing of het EG-landbouwbeleid. Aan
de deelnemer werd gevraagd het probleem, op zijn eigen wijze te bestuderen, echter wel vanuit
de in de casus aangegeven rol. Tevens vroegen we de deelnemers de studietijd bij te houden, aan
te geven wat wel en wat niet werd gelezen en alle aantekeningen te bewaren.

De bijeenkomst met de gesprekspartner wordt onderzoekmethodisch gekarakteriseerd als
een combinatie van een hardopdenk-methode, die afgewisseld werd met de 'stimulated recall'
methode.

Met deze werkwijze is het protocol niet meer een direct verslag van tijdens de ontwerpaanpak
opgekomen gedachten, maar bevat het ook hypothesen, rechtvaardigingen, reconstructies,
als-dan-redeneringen, e.d. Op deze manier kunnen we er ons van verzekeren dat beleidsontwer-
pers zoveel mogelijk en zo specifiek mogelijk aangeven wat zij aan overwegingen betrekken bij
het ontwerpen van beleid (zie voor de onderzoekmethode: Wahl, 1981 en Tillema, 1983).

De gehele bijeenkomst werd geregistreerd met behulp van een cassetterecorder en ten
behoeve van de analyse uitgetypt. De totale afnametijd werd minstens op een uur gesteld.
Tenslotte zij vermeld dat de procedure tevoren met andere personen is beproefd.
In het breedte-onderzoek werd wederom eerst zorgvuldig contact opgenomen met de geselec-
teerde alvorens de vragenlijst toe te zenden.

(b) De studenten.

De procedure lag zoals gezegd ingebed in de onderwijsorganisatie. Tijdens het onderwijs,
voorafgaand aan het invullen van het logboek, werd instructie gegeven over het doel van het
invullen en de wijze van invullen. Overigens stond dit ook nog afgedrukt in het logboek zelf.
Nogmaals zij erop gewezen dat studenten geen expliciete instructie kregen over een ontwer-
paanpak. In het onderwijs werden slechts situaties gecreëerd waarbij beleid ontworpen moest
Worden.

De inbedding gold ook voor de vragenlijst. Het is in de afdeling Bestuurskunde de gewoonte,
na afloop van de cursus te evalueren. Ook in dit geval is dit dus gebeurd. De vragenlijsten met
overwegend gesloten vragen werden op de laatste zitting uitgereikt en ter plaatse individueel
ingevuld. Daarna werden ze de onderzoeker ter hand gesteld.

3.3.3. De codering van de uitspraken

Het gaat hier om de codering van de uitspraken van de experts in de gespreksprotocollen en van
uitspraken in de logboeken van de studenten. De eerste fase bestaat uit het vaststellen van
categorieën die door de proefpersonen zeifin hun uitspraken naar voren worden gebracht. Dit
js onafhankelijk voor studenten en experts gedaan. Er wordt voorkomen dat een a priori-
indeling van de onderzoeker de overhand krijgt omdat wordt aangesloten bij de gehanteerde
categorieën en terminologie van experts resp. studenten.

Voor experts kwamen wij tot 47 categorieën; voor studenten tot 69 categorieën. Wij noemen
dit de basiscategorieën.

In de tweede fase van de codering worden deze basiscategorieën, gelet op de aard van de
categorieën, samengevoegd tot hoofdcategorieën. Voor experts waren dat er 16; voor studenten
19. Steeds blijven wij hier uitgaan van de eigen terminologie van de proefpersonen.

In de derde fase wordt uit de hoofdcategorieën een empirische selectie gemaakt. Als criterium
's hier genomen dat een hoofdcategorie groter dan of gelijk moet zijn aan 5% van het totale
aantal uitspraken van het betreffende protocol. In deze fase bleven veelaf 6-8 categorieën over.

-ocr page 212-

208 Systematische Probleemaanpak

In de vierde fase tenslotte werd een tweede, door de onderzoekers ontworpen categoriserings-
systeem op de basiscategorieën uit de eerste fase toegepast. Dit werd op eenduidige wijze gedaan
met behulp van een categorieën-systeem gebaseerd op de eerder genoemde Systematische
ProbleemAanpak (SPA).

Op deze wijze ontstonden voor de data twee resultaten van systemen van categorisering: één
volgens de proefpersonen zelf en één op basis van de onderzoekers. De relatie hiertussen moet
immers onderzocht worden. Uiteraard is in dit kader de betrouwbaarheid van de categorisering
van belang. Steeksproefgewijs zijn de 10 protocollen opnieuw door een onafhankehjke beoorde-
laar voor de hoofdcategorieën gecategoriseerd. De resultaten hiervan zijn bevredigend.
(Gemiddelde overeenstemming: K=.83; sd=.08. Zie Bischop et al., 1975, 396.)

3.3.4. De te gebruiken analyse

De gestelde onderzoeksvragen 1 en 3 betreffen de overeenkomsten tussen resp. de gebruikte
categorieën van experts en studenten en de categorieën ontleend aan de Systematische Pro-
bleemAanpak (SPA).

Hoe kunnen we nu getalsmatig laten zien wat de mate is waarin deze categoriseringen overeen
komen?

Wij gebruiken hiervoor maten van associatie zoals voorgesteld door Goodman en Kruskal
(1954; 1959): Lambda (r/c) en Tau (r/c). Lambda (r/c) geeft in ons geval aan wat de relatieve
reductie is in foute voorspehingen wanneer we de categorieën van de experts of de studenten (r:
deze staan in de tabel in de rijen) voorspellen vanuit de categorieën van de Systematische Pro-
bleemAanpak (c: deze staan in de kolommen van de tabel). Ook geven we het omgekeerde aan:
Lambda (c/r). Tau (r/c) geeft het percentage (nominale) variantie aan dat verklaard wordt in de
categorieën van de experts of de studenten (r: deze staan in de rijen van de tabel) door de cate-
gorieën uit de Systematische ProbleemAanpak (c: deze staan in de kolommen van de tabel).
Deze coëfficiënt Tau (r/c) is een analogon voor nominale gegevens van het begrip 'proportie
verklaarde variantie' (zie Bishop et al., 1975; Been en Brokken, 1984).

Beide maten worden gebruikt om een goede indruk te krijgen van de aard van de associatie in
de zin van predictie en verklaarde variantie.

3.4. De resultaten en conclusies

Wij zullen de resultaten per onderzoeksaanvraag weergeven:
3.4.1. Overeenkomst tussen SPA-categorieën en expert-categorieën

De basiscategorieën van de handehngen van de 10 experts in het diepteonderzoek konden in de
volgende hoofdcategorieën eenduidig samengevat worden:

1. Informatieverwerking: opzoeken van informatie in de casus, informatie missen, informatie
willen verzamelen;

2. Kosten (en baten): in financiële zin en in ruimere zin;

3. Randvoorwaarden: in allerlei vormen;

4. De factor tijd: planning in de tijd, gebeurtenissen in verleden, heden en toekomst;

5. Mondelinge interactie tussen groepen en personen: verschillende interactietypen als lobby,
onderhandelen, overleggen;

6. Organisatie van het beleidsontwikkelingsproces: werkverdeling, coördinatie, met medewer-
kers omgaan;

7. Evaluatie: terugkoppelen, controleren, beleidsevaluatie; .

8. Doelstellingenbepaling: van groepen/personen, prioriteiten stellen, analyse van doelstel-
lingen;

9. Analyse van het krachtenveld: perceptie van mensen, belangen, haalbaarheid, relevante
invloeden, kwaliteiten/eigenschappen van mensen/groepen, rol en positie van personen/-
groepen;

10. Probleemaanpak: volgorde van de aanpak, aanpak in algemene zin;

-ocr page 213-

C. Terlouw en C.T.C.W. Mettes 209

11. Probleemstelling formuleren: als zodanig formuleren, deelaspecten onderscheiden, visie
ontwikkelen, probleemsoorten onderscheiden, huidige toekomstige situatie nagaan, pro-
bleemanalyse;

12. Beleidsmiddelen: allerlei concrete middelen, beleidsuitvoering regelen, beleidsinhouden,
keuzemomenten;

13. Planning schriftelijk werk: verslagen, notulen, notities, opzet, inhoud, enz. van de
beleidsnota;

14. Vergelijking met de eigen situatie: vergelijken met het dagelijks werk, de eigen sector;

15. Besluitvorming; bestuurlijke activiteiten;

16. Oorzaken van problemen: deze nagaan, benoemen, bepalen, e.d.
Tot zover een overzicht van de gevonden categorieën.

Onze analyses en derhalve ook onze conclusies moeten hier globaal zijn. Nadere analyse is
nodig vanuit variabelen als soort probleem, duur van de bijeenkomst, voorbereidingstijd en
beleidslaag.
Onze conclusies:

a. Er zijn verschillen tussen het aantal handelingen per expert.

b. Bepaalde hoofdcategorieën springen naar voren vanwege hun hoge frequentie. Dit geldt
vooral voor de categorie nr. 9: analyse van het krachtenveld. Een globale inspectie van de
gegevens leert dat dit voor elke expert het geval is. In tweede positie - zij het duidelijk onder
nr. 9 - liggen de categorieën 5 en 6, resp. mondelinge interactie en de organisatie van het
beleidsontwikkelingsproces.

c. Er wordt (relatief) nauwelijks aandacht besteed aan de kosten (en baten) van het een en
ander (nr. 2), de evaluatie (nr. 7), de planning van het schriftelijk werk (nr. 13) en de
vergelijking met de eigen situatie (nr. 14).

Het zoeken naar oorzaken van het probleem (nr. 16) komt bijna niet aan de orde.
Tot zover een eerste globale analyse van de resultaten. Wat zijn nu de resultaten als we de
expert-categorisering in de hoofdcategorieën gelijk en of groter dan 5% van het totaal uit-
spraken, vergelijken met de categorisering vanuit de Systematische ProbleemAanpak (SPA)?
Een overzicht van de berekende maten staat in tabel 1.

Onze conclusies zijn als volgt:

a. Er zijn verschillen tussen experts als de categorisering van de Systematische ProbleemAan-
pak (SPA) vanuit de expertcategorisering wordt voorspeld (in de tabel Lambda
(SPA/EXP)). Omgekeerd is dat veel minder het geval (Lambda EXP/SPA)). Dit betekent
dat de eigen interpretatie van de experts van hun gedrag in meer verschillen resulteert dan
een interpretatie vanuit de SPA.

b. Er zijn verschillen tussen experts voor wat betreft de proportie verklaarde variantie. (Tau
(EXP/SPA)).

c. De gemidddelde reductie in foute voorspellingen van expertcategorieën vanuit SPA-
categorieën is .95 (sd=.02). Omgekeerd is het .77 (sd=.14). De toegepaste t-toets was zeer
significant (t=4, df=18; p <.001): de gemiddelde reducties verschillen.

d. De variantie in de expertcategorisering wordt gemiddeld voor 73% verklaard door de
SPA-categorisering (sd=16).

Samenvattend is onze conclusie in antwoord op de geformuleerde onderzoeksvraag, dat er
overeenkomsten zijn tussen de SPA-ontwerphandelingen en expert-onderhandelingen, opgevat
als categorieën van gedrag. Deze overeenkomsten zijn er in de zin van predictie en verklaarde
Variantie.

-ocr page 214-

210 Systematische Probleemaanpak

Tabel 1. Predicties (X) van categorieën van de Systematische ProbleemAanpak (SPA) gege-
ven experts (exp.) en omgekeerd; verklaarde varianties (r) in categorieën van
_
experts (exp.) door categorieën van de Systematische ProbleemAanpak (SPA).

Expert

nr.

X SPA/exp

X exp./SPA

f exp./SPA

1

.52

.91

49

2

.80

.95

78

3

.77

.93

73

4

.74

.92

69

5

.60

.96

52

6

.71

.97

61

7

.99

.99

99

8

.73

.95

68

9

.98

.98

98

10

.86

.96

84

gem.

.77

.95

23.

s.d.

.14

.02

16

3.4.2. Het gebruik en de wenselijkheid van SPA-ontwerphandelingen volgens experts.

Zoals gezegd, stuurden wij 117 personen die in de praktijk van het openbaar bestuur werken een
vragenformulier. Er zijn 112 formulieren (96%) geretourneerd.

Voor wat betreft de aanwezigheid van de ontwerphandelingen uit de Systematische Pro-
bleemAanpak (SPA) werd zowel gevraagd naar het zelf uitvoeren van de activiteit als het laten
uitvoeren van de activiteit. Er werd gewerkt met een 5-puntsschaal waarvan elke punt benoemd
was. Elke ontwerphandeling werd eerst met een voorbeeld toegelicht.

Samenvattend is onze conclusie dat over het algemeen de SPA-handelingen (zie figuur 1) soms
tot regelmatig gebruikt worden. De SPA-handelingen worden over het algemeen gewenst tot
zeer gewenst geacht voor het ontwerpen van beleid. Een uitzonderingspositie nemen het gebruik
van beleidsfuncties, de formulering van een causaal model en de opdrachtenanalyse in. Deze
worden minder frequent gebruikt en niet per se wenselijk geacht (voor een uitgebreidere
bespreking van deze resultaten zie Terlouw en Mettes, 1984).

3.4.3. Overeenkomsten tussen SPA-categorieën en studenten-categorieën

De basiscategorieën van de uitspraken in de logboeken van de studenten konden zoals gezegd,
in 19 hoofdcategorieën eenduidig samengevat worden (voor uitgebreidere informatie Terlouw
en Mettes, 1984).

Van de geanalyseerde logboeken beperkten die in de Stadsvernieuwingscursussen (SVN) zich
tot de gerealiseerde handelingen. Die van de EG-beleid-cursus (EG) betrok ook expliciet
planningshandelingen in de aandacht.
Onze conclusies:

a. Bij de cursus EG-landbouwbeleid is het gemiddelde aantal gerapporteerde planningshande-

-ocr page 215-

C. Terlouw en C.T.C.W. Mettes 211

lingen veel kleiner dan het gemiddeld aantal gerapporteerde handelingen die in feite gerea-
liseerd zijn.

b. De meest frequente categorieën over alle cursussen heen zijn: informatie verzamelen/ver-
werken; het concreet schrijven van een beleidsnota; het voorbereiden van de mondelinge
communicatie; en het evalueren.

c. Nauwelijks gerapporteerd worden handelingen als: een eerste zicht op het probleem krijgen;
de omringende situatie beoordelen; een planning maken; een doelbeschrijving uitvoeren;
reageren op gebeurtenissen; en een plan uitvoeren.

Tot zover de eerste globale conclusies.

Zoals gezegd werd op deze data een empirische selectie uitgevoerd: alleen categorieën gelijk aan
of groter dan 5% van het kolomtotaal werden in de verdere analyse meegenomen. Deze
geselecteerde categorieën werden afgezet tegen de resultaten van de SPA-categorisering en
associatiematen werden berekend. Een overzicht van de uitkomsten van deze bewerkingen staat
in tabel 2.

Tabel 2. Predicties (X) van categorieën van de Systematische ProbleemAanpak (SPA) gege-
ven studenten (stud.) en omgekeerd; verklaarde varianties (f) in categorieën van
studenten (stud.) door categ
orieën van de Systematische ProbleemAanpak (SPA).

Cursusjaar XSPA/stud. Xstud./SPA f stud./SPA (in %)

SVN 1979/80 (realis.) .38 .91 33

S VN 1980/81 (realis.) .41 .87 37

SVN 1981/82 (realis.) .62 .91 56
EG 1981/82:

(a) Ie ontwerpplan (.55) (.58) (54)

(b) realisaties (.37) (.92) (34)

(c) tussentijdse ontwerpplannen (.51) (.92) (55)

(d) Eindontwerpplan (.48) (.70) (37)
EG totaal .49 .90 46

gemiddelde .47 .90 43

Si_^09_£_9_

Onze conclusies zijn als volgt:

De proportionele foutenreductie in de voorspelling van de studentencategorisering van
categorisering vanuit de Systematische ProbleemAanpak (Lambda)STUD/SPA) is gemid-
deld groter dan omgekeerd (Lambda SPA/STUD).

Toepassing van een t-toets levert een t-waarde op van 7.3 (df=6) welke zeer significant is (p
<.001).

Gemiddeld wordt 43% van de variantie in de studenten-categorieën verklaard door de
SP A-categorieën.

c- Globale inspectie van de tabel leert dat waarschijnlijk (gemiddeld) de SPA-categorieën meer
variantie verklaren in plannings-handelingen dan in gerealiseerde handelingen. (Vergelijk
bijvoorbeeld de verklaarde variantie-pcrcentages bij EG-beleid).
Samenvattend is onze conclusie dat er een overeenkomst bestaat tussen de ontwerphandelingen

-ocr page 216-

212 Systematische Probleemaanpak

van studenten en ontwerphandelingen ontleend aan de SPA. Dit geldt in de zin van predictie en
verklaarde variantie.

3.4.4De bruikbaarheid en de wenselijkheid van Systematische ProbleemAanpakhandelingen (SPA)
volgens studenten

Vanaf het cursusjaar 1982/83 werd een systeem van Systematische ProbleemAanpak-
handelingen (SPA) in de cursussen Bestuurskundig Probleemoplossen 'Stadsvernieuwing'
en 'EG-landbouwbeleid' ingevoerd. Wij hebben de indruk in het cursusjaar 1983/84 de
meeste geschikte vorm gevonden te hebben. Derhalve werden de resultaten uit de vragen-
lijst van dit cursusjaar van de cursus 'EG-landbouwbeleid' bekeken op de mate van
bruikbaarheid en wenselijkheid.

Het percentage studenten dat de SPA-aanwijzingen in het algemeen weinig tot niet
bruikbaar achtten is 26; eveneens 26% vond ze soms bruikbaar; 44% vond ze bruikbaar tot
zeer bruikbaar (4% gaf geen antwoord). De wenselijkheid van de SPA-aanwijzingen is op
drie aspecten beoordeeld: (a) tevredenheid over het bevorderen van systematisch werken;
(b) kunnen gebruiken ervan in kleine groepen; en (c) zien van toepassingsmogelijkheden in
beleidsontwerpen. De percentages studenten die (zeer) ontevreden waren, de aanwijzingen
nauwelijks konden gebruiken in kleine groepen en de toepassingsmogelijkheden nauwe-
lijks zagen, zijn respectievelijk 14%, 4% en 12%.

Als we de norm van acceptatie bij 75% van de studenten leggen, kunnen we concluderen
dat de meeste studenten die met de SPA-handelingen tijdens het onderwijs gewerkt
hebben, deze als min of meer redehjk bruikbaar en gewenst ervaren hebben.

3.4.5. Een vergelijking tussen experts en studenten

Twee aspecten worden nagegaan: de verschillen in het gebruik van bepaalde categorieën (= de
werkwijze) en de verschillen aangaande de predictie en de verklaarde variantie.

a. De werkwijze: het verschil in gebruik van categorieën.

Wij beperken ons ten aanzien van de vergehjking voor de studenten tot de data van EG-beleid
1981/82 en daarvan alleen de planningshandelingen. Immers, de data van de experts bestaat
ook alleen uit planningshandelingen. Het gemeenschappelijk referentiekader is de scoring in de
SPA-categorieën.
Een overiicht is te zien in tabel 3.

Berekening van de chi-kwadraat geeft een waarde van 1144.3 (df=7), hetgeen zeer significant is.

Conclusie: Er zijn grote verschiUen tussen experts en studenten in hun ontwerphandelingen.
Inspectie van de tabel leert dat de verschillen te zoeken zijn in bijna alle categorieën. Experts
besteden meer dan de helft van de aandacht aan de oriënterende categorieën 1 en 2; de studenten
nog geen 5% van hun tijd. De meeste aandacht vande experts zit in categorie 2: een overzicht
zien te krijgen van het ontwerpprobleem en de ontwerpsituatie.

Categorie 8 (reflectie) komt bij de studenten niet voor; bij experts in geringe mate. Vanuit de
door ons gehanteerde handelingstheorie is het zinvol een aantal SPA-categorieën te combine-
ren. Dat geeft ook mogelijkheden om de aard van de verschillen vanuit onze theoretische
invalshoek te interpreteren. We combineren daartoe de SPA-categorieën 1 en 2 tot de 'oriënte-
rende handelingen'; de SPA-categorieën 3,4 en 5 tot 'tussenhandelingen'; de SPA-categorieën 6
en 7 tot 'uitvoeringshandelingen'; en SPA-categorie 8 tot de 'meta-oriënterende handehngen'.

De chi-kwadraat is 299.7 (df=3) en is, zoals valt te verwachten, nu wederom zeer significant.

Inspectie van de gegevens brengt naar voren dat experts vooral veel aandacht besteden aan de
oriënterende handelingen; de studenten vooral aan de tussenhandelingen. Tussen de andere
meer algemene handelingscategorieën hjken er geen verschillen te zijn.

Samenvattend is het algemene beeld dat studenten meteen aan het werk gaan: vooral plannen
(cat. 4) en uitvoeren (cat. 7). Experts oriënteren zich veel grondiger en proberen een goed
overzicht te krijgen. Hierna volstaan ze met een korte planning, wellicht op grond van ervaring,
en gaan uitgebreid beleidsmiddelen zoeken. Heel af en toe reflecteren ze. Kortom: experts

-ocr page 217-

C. Terlouw en C.T.C.W. Mettes 213

Tabel3. Overzicht van frequenties en percentages van gebruik van SPA-categorieën in de
planningshandelingen van het beleidsontwerpen van experts en studenten (cursus
EG-Landbouwbeleid 1981/92).

competentie-niveau's

SPA-categorieën

experts
(n=10)

studenten
(n=16)

freq.

%

freq.

%

Oriëntatie op de opdracht

167

7

9

3

2. Overzicht van ontwerpprobleem/situatie

999

45

3

1

3. Einddoelen aangeven

103

5

10

4

4. Planning maken (mond. en schr.)

304

14

130

47

5. Evalueren

48

2

25

9

6. Beleidsmiddelen zoeken

510

23

2

1

1- Uitvoeren

3

0

97

35

Reflecteren

98

4

0

0

hebben meer een 'look before you leap'-benadering; studenten daarentegen lijken meer een 'bit
and run'-benadering te vertonen.

In deze opzet willen wij geen conclusies verbinden aan de grote verschillen in het aantal
planningshandelingen (in absolute zin) tussen experts en studenten. Er is in het onderhavige
geval immers sprake van twee verschillende bronnen - logboeken van studenten en gesprek-
sprotocollen en experts - waaraan dit wellicht toe te schrijven is. Wij vermoeden echter wel dat
het aantal planningshandelingen bij experts groter is.

b. Verschillen in predictie en verklaarde variantie.

Het gaat hier om de verschillen tussen de gevonden gemiddelden in tabellen 1 en 2. Een
overzicht van de toetsingen staat in tabel 4. Onze conclusie is dat experts en studenten sterk
Verschillen. Zowel ten aanzien van de predictie als ten aanzien van de verklaarde variantie. Er is
in predictie en verklaarde variantie-termen een sterkere relatie tussen de SPA-categorieën en de
expertcategorieën dan tussen de SPA-categorieën en de studenten-categorieën.

Tabel 4. Overzicht van toetsingen van predicties (X) en verklaarde varianties (f) voor ver-
schillen tussen studenten en experts.

Toetsing experts

t-waarde

P

Vs studenten

^SPA)....

4.48

<.001

^••••ISPA

6.25

<.001

^•...|SPA

4.43

<.001

-ocr page 218-

214 Systematische Probleemaanpak

3.5. Discussie

De gevonden resultaten ten aanzien van de verschillen tussen experts en beginners (in dit geval
studenten tijdens het onderwijs) zijn in overeenstemming met de resultaten van andere onder-
zoeken naar deze verschillen.

Geconfronteerd met een probleem blijken experts veel grondiger te werk te gaan bij het
analyseren ervan. Na bestudering van het probleem wordt veelal eerst een soort van kwalita-
tieve representatie van het probleem gemaakt, waarin de belangrijkste relaties en variabelen zijn
opgenomen. (Zie Larkin, 1980a; Larkin, et al. 1980b; Elshout, 1982; zie voor een overzicht
Mettes, 1984). Het opmerkelijke is dat deze verschillen bij uiteenlopende problemen zijn
gevonden: natuurwetenschappelijke problemen (zie bijv. de eerder genoemde Larkin), maar
ook bij het opstellen van medische diagnoses (Dijkstra et al., 1983). Uit ons onderzoek blijkt nu
ook dat de bestuurskundige problemen, althans wat betreft het ontwerpen van beleid, zich in die
rijen voegt.

Ook het feit dat een a priori-categoriseringssysteem bij experts meer verklaart dan bij beginners,
is door anderen eerder vastgesteld (bijv. Been en Brokken, 1984). Toch doet het wellicht iets
tekort aan de omstandigheid dat niet alle experts en beginners hetzelfde zijn. Gerritsma en Smal
(1982) laten bijv. verschillen zien in het genereren van hypothesen tussen verschillende experts
in de medische sector (huisartsen en internisten). Het feit dat wij onze data van beleidsambte-
naren uit verschillende overheidslagen hebben, rechtvaardigt de conclusie dat ook hier naar
kenmerkende verschillen tussen experts gezocht moet worden en niet alleen naar de overeen-
komsten, zoals tot nu toe is gedaan.

Bij de opstelling van het Gewenst Handelingsverloop (GHV) en de daaruit afgeleide Systemati-
sche ProbleemAanpak (SPA) voor het sociaalwetenschappelijke bestuurskundig ontwerpen,
werd gebruik gemaakt van literatuur en ervaringen uit de technische wetenschappen aangaande
het probleemoplossen. Meer in het algemeen ligt er de onderzoeksvraag wat de overeenkomsten
en verschillen zijn tussen probleemaanpakken in verschillende ontwerpdomeinen: technisch
ontwerpen (Van den Kroonenberg, 1974), bestuurskundig ontwerpen, het ontwerpen van
onderwijs, het ontwerpen in de informatica, architectuur, enz. Is er op voor het onderwijs
relevante abstractie-niveau sprake van een algemene structuur? Er zijn reeds verschillende
aanzetten m deze richting geformuleerd (Simon, 1976b; Terlouw et al., 1985; Schön, 1983).

Een aantal (ten dele noodgedwongen) tekortkomingen in onze opzet laat vragen open. In de
opzet was sprake van twee verschillende bronnen (logboek en gespreksprotocol). Nagegaan
moet worden of de getrokken conclusies gehandhaafd blijven als de bronnen dezelfde zijn.
Voorts werd nog gewerkt met een onderwijs-prototype waarin de SPA werd aangeleerd. Het is
niet uit te sluiten dat het onderwijs nog verbeterd kan.worden. De waardering voor de SPA kan
dan ook stijgen.

Tenslotte is het mogelijk - hoewel wij zeer zorgvuldig te werk zijn gegaan - dat er toch iets van
onderzoekersbias is geslopen in de proefpersonen-categorisering. Het was wellicht beter
geweest als een onafhankelijke onderzoeker deze categorisering volledig had uitgevoerd. Nu is
er alleen sprake geweest van controle van de vastgestelde basiscategorieën.

Voor het bestuurskundig deel van de discussie verwijzen wij verder naar Terlouw en Mettes
(1984).

LITERATUUR

Been, P.H., en F.B. Brokken (1984). Kategorisering van statistiekproblemen door beginners en experts.

COWOG/IDOK RU Groningen.
Bishop, Y.M.M., S.E. Fienberg, en P.W. Holland (1975). Discrete multivariate analysis: Theory and
practice. Cambridge, Mass.: The MIT Press.

t

-ocr page 219-

C. Terlouw en C.T.C.W. Mettes 215

Brosi, W.H., K. Hembach, en G. Peters (1981). Experimentengespräche - Vorgehensweise und Fallstricke.
SRP Universität Trier.

Champagne, A.B., L.E. Klopper, en R.F. Gunstone (1981). A model of adolescents' understanding of
physical phenomena and its application to instruction. Los Angeles: AERA-paper.

Chi, M.T.H., P.J. Feltovich, en R. Glaser (1981). Categorization and representation of physics problems by
experts and novices.
Cognitive Science, 5, 121-152.

Dijkstra, S., P. F. van der Stelt, en P.C. van der Seijde (1983). Het effect van verschillende expertniveaus op
de interpretatie van tandheelkundige röntgenfoto's. In: J.J. Beishuizen et al. (red.). Onderwijs-
processen. Lisse: Swets en Zeitlinger.

Duncker, K. (1945). On Problem solving. Psychological Monographs nr. 58, Washington D.C. The
American Psychological Association.

Elshout, J.J. (1982). Een beginner is méér dan iemand die het nog niet kan. Voordracht Psychologencongres
oktober 1982., Amsterdam. ICO-Rapport 304 J.E. december 1982. Universiteit van Amsterdam.

Gerritsma, J.C.M., en J.A. Smal (1982). De werkwijze van huisarts en internist. Proefschrift RU Utrecht.
Utrecht: Wet. Uitg. Bunge.

Goodman, L.A., en W.H. Kruskal(1954). Measures of associations for crossclassifications.7o«rna/o/y4/w.
Stat. Ass., 49, Til-IM.

Goodman, L.A., en W.H. Kruskal (1959). Measures ofassociation and references. Stat. Ass.,

54„ 123-163.

Groot, A.D. de (1965). Thought and choice in chess. Den Haag: Mouton.

Hoogerwerf, A. (red.) (1978). Overheidsbeleid. Serie maatschappijbeelden. Alphen a/d Riin: Samsom.

Hoogerwerf, A. 0984). Het ontwerpen van overheidsbeleid: een handleiding met toelichting. In: Bestuurs-
wetenschappen jan./kbi.
1984, nr. 1,4-24.

Kroonenberg, H.H. van den (1974). Methodisch ontwerpen. De Ingenieur, 47.

Kuypers, G. (1978). De ontwikkeling van het overheidsbeleid. In: A. Hoogerwerf (red.) 108-122.

Kuypers, G. (1980a en b). Beginselen van beleidsontwikkeling; Deel A, Basistheorie, Muiderberg: Coutinho
1980a. Beginselen van beleidsontwikkeling; Deel B, Practische methoden, Muiderberg: Coutinho
1980b.

Larkin, J.H. (1980). Teaching problemsolving in physics: issues in teaching and research. In D.T. Tuma &
F.R. Reif (Eds.), Problem solving and education. Hillsdale N.J.: Lawrence Erlbaum Ass.

Larkin, J.H., J. Mc. Dermot, D.P. Simon, en H.A. Simon (1980). Experts and novice performance in
solving physics problems. Ä/'ence,
2, 1335-1343.

Mettes, C.T.C.W. (1984). Probleemoplossen en onderwijs: onderzoek naar het leren oplossen van pro-
blemen. Stand-van-zaken paper 'Probleemoplossen' t.b.v. ORD '84 (bijgestelde versie) THT/OC,
Doc 84-4, Enschede.

Newell, A., en H.A. Simons (1972). Human problem solving. Englewood Cliffs N.J.: Prentice Hall.

Schön, D.A. (1983). The reflective practioner. How professionals think in action. New York: Basic Book
Inc.

Simon, H.A. (1976a). Administrative behavior; a study of decision making processes in administrative
organisation. London: The Free Press.

Simon, H.A. (1976b). Psychologieen systeemtheorie, Aula nr. 569, Utrecht: Het Spectrum.

Simon, D.P., en H.A. Simon (1978). Individual differences in solving physic problems. In R. Siegler (Ed.),
Children's thinking: What develops? Hillsdale N.J.: Lawrence Erlbaum Ass.

Terlouw, C. (1983a en b). Aanpakken van problemen bij het ontwerpen van overheidsbeleid, (a) EEG-
Landbouwbeleid, (b) Stadsvernieuwing, syllabus Afdeling Bestuurskunde T.H. Twente, 1983.

Terlouw, C., en C.T.C. W. Mettes (1982). Het ontwerpen van overheidsbeleid: van novice naar expert. In: C.
van Dorp & A. Pilot (red.). Aspecten van onderwijsresearch, 1982. Lisse: Swets en Zeitlinger.

Terlouw, C. en C.T.C.W. Mettes (1984). Een Systematische ProbleemAanpak voor het ontwerpen van
beleid: validering bij experts en studenten. Doe 84-12, Onderwijskundig Centrum, Enschede, TH
Twente.

Terlouw, C., C.T.C.W. Mettes, en A. Pilot (1985). De Fundes-procedure: reflecties op ervaringen en een
mogelijke toepassing in de opleiding van onderwijsontwerpers. In: E. Warries (red.). Ontwerp-
methodologie voor onderwijsproblemen (eerste versie). Enschede: THT/afd. TO.

Terlouw, C., C.T.C.W. Mettes, en F. Roemers (1981). Het leren ontwerpen van overheidsbeleid; Een
Gewenst Handelingsverloop, BSK/OC Rapport 47, T.H. Twente, 1981.

Tillema, H.H. (1983). Leerkrachten als ontwerpers. Proefschrift RU Utrecht.

"ahl, D. (1981). Methoden zur Erfassung handlungsteuernder Kognitionen von Lehrern. In: M. Hofer.
Informationsverarbeitung und Entscheidungsverhalten von Lehrern. München.

'^anuscript ontvangen 25-11-1985

"eßnitieve versie ontvangen 26-5-1986

-ocr page 220-

Tijdschrift voor Onderwijsresearch, 11 (1986), nr. 4, pp. 216-220

Notities en Commentaren

SVO-BEOORDELING* VAN HET RAPPORT 'MET HET MAVO-PROJECT
ONDERWEG, DEEL 5'

Het rapport bevat het verslag van het externe evaluatie-onderzoek van het MAVO-project
(SVO-project 0437), uitgevoerd door het Instituut voor Toegepaste Sociologie, projectleider
drs. D.J. van Vierssen, tussen 1981 en 1984.

Aanvrager voor het onderzoek was de Minister van Onderwijs en Wetenschappen. De kosten
bedroegen f 250.000.- op jaarbasis.

ProbleemstelHng en opzet van het onderzoek tussen 1981 en 1984.

Volgens de opdracht zou de nadruk in het onderzoek moeten hggen op de summatieve evaluatie
van het MAVO-project. Het docentenonderzoek zou beperkt moeten blijven; de vraag ging uit
naar leerlingeffecten. In ieder geval zou moeten worden nagegaan wat de effecten van het
MAVO-project waren op zitten-blijven en schooluitval.

In het projectvoorstel hebben de onderzoekers gesteld dat het onderzoek, gezien de opdracht-
situatie, de omvang van de financiële middelen en het onderscheid tussen interne evaluatie door
de LPC en externe evaluatie door het ITS, slechts een deel van de informatie zou kunnen
opleveren, die nodig is om een eindoordeel over het MAVO-project te vormen. Het onderzoek
zou zich richten op aspecten van de implementatie en de effecten van het programma.
Het onderzoek zou bestaan uit:

1. een docentenonderzoek met als doel beoogde en niet-beoogde veranderingen op te sporen in
het docentengedrag. Met behulp van schriftelijke vragenhjsten zou bij een steekproef van
2500 docenten verdeeld over zes groepen scholen (variërend naar al of niet deelname aan het
MAVO-project en duur van de deelname) gevraagd worden op welke activiteiten zij hun
aandacht richten en wat hun houding is tegenover bepaalde thema's. Afname van het
instrument zou op drie momenten plaatsvinden, namelijk in augustus 1981, augustus 1982
en augustus 1983.

2. een onderzoek naar de effecten van het MAVO-project voor de leerlingen. Omdat voor het
MAVO-project geen expliciete leerlingdoelstellingen zijn geformuleerd hebben de onder-
zoekers uitgaande van de vernieuwing interne differentiatie, die met het MAVO-project
wordt'beoogd de volgende onderzoeksvragen geformuleerd:

1. Slaagt het MAVO-project erin het verschijnsel zitten blijven terug te dringen?

2. Verhoogt het MAVO-project de retentiviteit van het onderwijs?

3. Waar gaan de leerhngen met een diploma nieuwe stijl naar toe?

4. Welke effecten heeft de in het MAVO-project ontwikkelde werkwijze op de manier
waarop leerhngen het onderwijs beleven?

Om een antwoord te krijgen op de eerste drie vragen zouden gegevens bij schooladministraties
worden verzameld. Een antwoord op de vierde vraag zou verkregen worden door afname van
een vragenhjst bij een steekproef van 150 klassen verdeeld over zes groepen scholen. De
vragenhjst zou worden afgenomen: najaar 1981, voorjaar 1982 en voorjaar 1983.

Samenvatting van de onderzoeksresultaten tussen 1981 en 1984

»

In het eindrapport beginnen de onderzoekers met een beschrijving van het MAVO-project.

♦ Samenvattingen van de beoordeling van door de SVO gesubsidieerd afgesloten onderzoek worden
ingediend onder verantwoordelijkheid van het SVO-bestuur, onder redactie van de coördinator onder-
zoeksbeoordehng van het SVO-bureau, dr. J. Scheerens.
doe. nr. 0046B.

-ocr page 221-

Notities en commcntaren 217

- afsluiting met een examen in zes vakken op twee niveau's.

De werkgroep van de L.P.C. die de opdracht kreeg deze voorstellen uit te werken miste een
voldoende wetenschappelijk onderbouwde situatie-analyse van het MAVO. Bij de uitwerking
van de voorstellen kwam de nadruk te liggen op: het ontwikkelen van hulpmiddelen voor
docenten om hen in staat te stellen door middel van differentiatie in de leerstof en didactiek hun
leerlingen in vier jaar voor te bereiden op een eindexamen op twee niveau's per vak.

Aan het MAVO-project hebben sinds 1975 steeds nieuwe groepen scholen deelgenomen.
Achtereenvolgens waren dit:

experimenteerscholen (1975), volgscholen (1977), 030 scholen (1978), 040 scholen (1979) en 050
scholen (1980). De scholen startten met een voorbereidend jaar, waarin de begeleiding gericht
was op directie en project-coördinator. Na het eerste jaar lag de nadruk op professionalisering
van de docent en leerplanontwikkeling. De scholen werden gedurende vijfjaar begeleid.

De kosten voor het project bedroegen tussen 1974 en 1985 75 millioen gulden (taakeenheden,
verlofeenheden, beheers- en bureaukosten L.P.C. en activiteitskosten).

In het rapport wordt vervolgens verslag uitgebracht over het docentenonderzoek.

Het onderzoeksinstrument diende activiteiten op te sporen die docenten als gevolg van het
MAVO-project gingen ondernemen. Er werd een activiteiten-catalogus ontworpen, waarin een
driedeling naar onderwerp was aangebracht. De activiteiten betroffen onderwijs in de klas, de
school als organisatie en de school en het MAVO-project.

Om na te gaan in hoeverre docenten zich met de verschillende activiteiten bezighielden is
gebruik gemaakt van de omschrijving uit het Concerns Based Adoption Model (Hall, Loucks,
enz.). Om houdingen van docenten te meten werden nog 21 items aan de lijst toegevoegd.

In het onderzoek is geen steekproef getrokken. Aan alle scholen die in 1981 aan het
MAVO-project deelnamen (270) en aan 10 niet-project-scholen is tevoren een folder gestuurd
met een antwoordkaart waarop het aantal docenten en leeriingen per klas kon worden ingevuld.
Vervolgens is aan alle scholen die reageerden het vereiste aantal vragenlijsten toegestuurd. Om
overbelasting van docenten te voorkomen is de lijst van 65 items op toevalsbasis per kleinste
groepsindeling van items in drieën gedeeld en aangevuld met de houdingvragen toegestuurd.
Aan docenten werd op de drie meet-momenten telkens een andere lijst toegestuurd. De respons
uit de niet-projectscholen was verhoudingsgewijs laag. De onderzoekers menen dat op basis van
die respons nauwelijks uitspraken over deze scholen mogelijk zijn. Door de longitudinale opzet
en door het verschil in duur van deelname aan het project door scholen waren echter twee
soorten vergelijking mogelijk.

Aan alle drie de metingen hebben uiteindelijk 492 docenten deelgenomen. Aan de hand van
een vergelijking van deze groep met docenten die slechts aan één of twee metingen meededen
constateren de onderzoekers dat geen sprake is van selectieve uitval. In een 'discussie' over de
uitkomsten wordt vastgesteld dat de detaillering van de activiteitencatalogus niet nodig is
geweest, volstaan had kunnen worden met een indeling van activiteiten in twee groepen:
lesspecifieke activiteiten en randvoorwaardelijke activiteiten. Voor de meeste activiteiten geldt
dat van een hoger gebruiksniveau sprake is bij docenten die langer in het project deelnemen. Dit
is het geval bij tweederde van de activiteiten, die vooral betrekking hebben op concrete zaken
die direct van invloed zijn op lesgeven in de klas. Er is geen sprake van specifieke effecten op
bepaalde activiteiten. Variabelen als geslacht, leeftijd en bevoegdheid hadden geen invloed op
het gebruiksniveau.

Wat de houdingen betreft kon wel vastgesteld worden dat leeftijd invloed heeft op projec-
twaardering. Maar dit geldt voor onderwijsvernieuwingen in het algemeen en niet alleen voor
het MAVO-project. In het algemeen had deelname aan het MAVO-project geen invloed op de
houding van docenten tegenover het onderwijs.

Voor het leerlingenonderzoek is de vraagstelling enigszins gewijzigd ten opzichte van de
oorspronkelijke: de vragen naar zittenblijven en schooluitval zijn gehandhaafd. De vraag waar
leerlingen met het diploma nieuwe stijl naar toe gaan is vervangen door een vraag naar het effect
van het MAVO-project op de aard van de diplomering.

-ocr page 222-

218 SVO-beoordeling

De vraag naar de effecten op de beleving van het onderwijs door leerlingen is vervangen door
twee vragen:

1. beïnvloedt deelname van de school aan het MA VO-project de betrokkenheid van leerlingen
bij het onderwijs;

2. welk effect heeft deelname op kennis en waardering van bepaalde aspecten van interne
differentiatie.

De onderzoekers hebben het begrip betrokkenheid bij de school geoperationaliseerd via de
begrippen 'Alienation' (Seecnan, 1969) en "Locus of Control" (Ratter, 1966). Het begrip
vervreemding is in het onderzoek gebruikt omdat een relatie werd verondersteld tussen
schoolprestaties en vervreemding. Naarmate de leerlingen minder vervreemd /meer betrokken
zijn bij de school, verbeteren hun prestaties.

Uit eerder onderzoek naar het MA VO-project was gebleken dat vervreemding op de experi-
menteerscholen meer voorkwam dan op niet-experimenteerscholen. Dit werd toegeschreven
aan de experimentele, turbulente situatie. Verwacht werd dat dit na enige tijd zou veranderen en
dat het MA VO-project op den duur zou leiden tot reductie van vervreemding.

Het leerlingonderzoek is op dezelfde wijze opgezet als het docentenonderzoek met één
uitzondering. Aan de leerlingen is in drie achtereenvolgende schooljaren steeds dezelfde lijst
toegestuurd, zodat hier naast vergelijkingen tussen experimenteerscholen (E-scholen), volg-
scholen en niet MAVO-projectscholen, ook vergelijkingen op individueel niveau over drie
momenten mogelijk zijn.

Uit de analyses blijkt dat van ongeveer de helft van de leerlingen die aan de eerste meting
deelnamen, gegevens over uitstroom en doorstroming ontbreken. Waarschijnlijk zijn leerlingen
die bleven zitten na de eerste meting uit het bestand gebleven. Het percentage zittenblijvers in de
uiteindelijk onderzochte groep (waarvan dus drie maal gegevens zijn verzameld) is daardoor
relatief laag, nl. 5%, zodat sprake is van een selectieve uitval op de variabele zittenblijven. Dit
geldt voor zowel projectscholen als niet-projectscholen. Uiteindelijk zijn van 50% van de
oorspronkelijk benaderde groep volledige schoolloopbaangegevens verzameld. Voor het ove-
rige bleek er geen sprake te zijn van selectieve uitval.

Uit de beschikbare gegevens blijkt dat geen verschillen bestaan in het aantal malen dat
leerlingen blijven zitten op experimenteerscholen, volgscholen en niet project-scholen. De
veronderstelling, dat, bij langere deelname aan het project, de betrokkenheid van leerlingen bij
het onderwijs zou toenemen, werd niet bevestigd: leerlingen op de verschillende groepen
scholen tonen geen enkel verschil op de onderdelen 'vervreemding' en 'locus of control'.

Wel werden verschillen waargenomen ten aanzien van aspecten van interne differentiatie.
Leerlingen uit projectscholen werken vaker in groepen en zijn meer bekend met diagnostische
toetsen. De waardering voor aspecten van interne differentiatie is echter op alle scholen gelijk.
Tenslotte werden ten aanzien van zittenblijven, voortijdig schoolverlaten en zakken voor het
eindexamen geen verschillen tussen project- en niet-projectscholen gevonden.

Samenvattend wordt opgemerkt dat het MA VO-project niet ongemerkt aan de leerlingen
voorbij gaat, maar dat onduidelijk is wat ze er met het oog op het doel van hun verblijf op school
aan hebben. De verandering die is opgetreden is het effect van de beleidsmaatregel van de
overheid om het MAVO vierjarig te maken met de mogelijkheid om per vak eindexamen te doen
op twee niveaus.

Beoordeling

De beoordeling is gebaseerd op adviezen van prof. dr. W.K.B. Hofsteé en dr. J.H. Slavenburg.
Algemeen ^

Opgemerkt moet worden dat de onderzoekers erin geslaagd zijn een helder en overzichtelijk
rapport samen te stellen en dat gewerkt is volgens de voorgestelde opzet.

In het rapport wordt uitvoerig ingegaan op de vraag wat, waarom en hoe geëvalueerd moet
worden. De afwezigheid van duidelijk omschreven beleidsdoelstellingen voor het MA VO-
project, heeft de onderzoekers genoodzaakt zelf inhoudelijke doelstellingen op te sporen.

-ocr page 223-

Notities en commcntaren 219

Daarbij wordt als één van de doelstellingen van de overheid genoemd: verbetering van
doorstroommogelijkheden met een MAVO-diploma en verhoging van het rendement van het
MAVO-onderwijs. In de onderzoeksopzet is deze belangrijke doelstelling terug te vinden: drie
van de onderzoeksvragen betreffen effecten van deze doelstelling. Daarnaast is echter veel
aandacht besteed aan het nagaan van meer perifere effecten op docent- en leerlingniveau.
Daarover kan worden opgemerkt dat het anno 1986 meer voor de hand zou liggen om centrale
effecten als onderwijsleerprestaties na te gaan, bijvoorbeeld door vergelijking van centraal
schriftelijke eindexamens.

Voor het overige doet de onderzoeker met zijn opmerking, dat het slechts gaat om een
Waardebepaling en niet om dè waardebepaling onnodig afbreuk aan evaluatie-onderzoek. Een
onderzoeker is in beginsel gehouden zo goed mogehjk na te gaan in hoeverre de doelstellingen
zijn gerealiseerd. Daarbij dient hij er geen eigen optiek op na te houden, al kan hij zich in een
doelstellingsanalyse vergissen.

Het docentenonderzoek

Het in dit onderdeel gehanteerde instrumentarium is ontoereikend en niet valide met betrekking
tot de gestelde onderzoeksvraag. Onduidelijk is de relatie tussen de in het instrument opge-
nomen activiteiten en de doel-stelhngen van het MAVO-project. Een inventarisatie van uit-
gangspunten voor het project bij docenten en vervolgens een toetsing aan de uitgangspunten
voor het MAVO-project had meer voor de hand gelegen. Ook zijn bezwaren aan te voeren tegen
het gebruik van het 'Concerns Based Adoption Model', dat eerder bedoeld is voor het vast-
stellen van gebruiksniveaus van concrete innovaties, dan voor een implementatie-onderzoek als
dit. Te betreuren valt dat door het in drieën splitsen van de vragenhjst afbreuk is gedaan aan de
op zich goedgekozen longitudinale onderzoeksopzet.

Het attitude-onderzoek is adequaat uitgevoerd.

Helaas moet worden geconstateerd dat de conclusie dat deelname aan het MAVO-project
weinig of geen invloed heeft op docentengedrag, vanwege de methodische tekortkomingen in
het activiteitenonderzoek, niet voldoende is onderbouwd.

Het leerlingenonderzoek

Wat het leerlingenonderzoek betreft kan verwezen worden naar de eerste passage uit deze
beoordeling: het nagaan van de betrokkenheid van de leerling bij het onderwijs is uit evaluatie-
oogpunt van tamehjk gering belang. Hierin is veel tijd gaan zitten.

Daarnaast is de conclusie dat het onduidelijk is wat de leerhngen aan het MAVO-project
hebben gehad, gezien de gegevens over doubleren, afstroom en doorstroom gerechtvaardigd en
voldoende onderbouwd.

Een tekortkoming in methodisch opzicht in dit onderzoeksdeel is dat gegevens op leerling- in
plaats van op geaggregeerd niveau zijn verwerkt. Het is de bedoeling dat de onderzoeker in een
beperkt vervolgonderzoek, waarvoor reeds in 1984 subsidie werd toegekend, aan dit bezwaar
tegemoet zal komen. Het verdient daarbij aanbeveling, voorzover dat op basis van de beschik-
bare gegevens mogehjk is, na te gaan of op klasse- dan wel schoolniveau activiteiten en attituden
correleren met effectmaten.

Conclusie

Op het toegepaste evaluatie-onderzoek zijn twee hoofdpunten van kritiek te geven: het feit dat
er niet gekozen is voor meer centrale effectmaten op leerlingniveau en het gebrek aan informatie
over de daadwerkelijke implementatie van het MAVO-project, en de koppeling daaraan van de
effectmetingen. Daarbij moet worden aangetekend dat deze kritiek primair de destijds gekozen
en door de SVO geaccepteerde opzet geldt. Een sterk punt van het design is het werken met
herhaalde metingen in opeenvolgende jaren.

Aan de operationalisaties is veel aandacht besteed, al moet opgemerkt worden dat de
gemaakte keuzen anno 1985 niet meer voor de hand liggen. Wéinig bevredigend was het gebruik
Van de niveaus van betrokkenheid bij activiteiten van docenten.

-ocr page 224-

220 SVO-beoordeling

In voldoende mate is beargumenteerd dat de overigens aanzienlijke uitval tijdens het onder-
zoek geen bias teweeg brengt. Niet adequaat is de behandeling van de betrokkenheidsniveaus en
van de multi-level-problematiek. De beleidsconclusie uit dit onderzoek moet zijn dat de
activiteiten in dit grootschalige project niet of tenminste niet zichtbaar ten goede zijn gekomen
aan de leerlingen. Bij de verdere discussie over de vormgeving van de eerste fase secundair
onderwijs zou aan problemen in het MAVO-onderwijs, zoals in het leerlingenonderzoek naar
voren komen, aandacht besteed moeten worden. Ten aanzien van de theorievorming over
evaluatie-onderzoek moet opgemerkt worden dat hier eerder sprake is van een leerervaring dan
van een bijdrage aan de theorie op dit moment. In dit verband is een zeer belangrijke leererva-
ring dat het bijzonder moeilijk is onderwijsinnovaties te evalueren, wanneer er grote onduide-
lijkheid bestaat over de vraag waar die innovaties daadwerkelijk op neerkomen, met andere
woorden wanneer de veronderstelde causale structuur van het te evalueren programma geheel
in het vage blijft.

Ontvangen 21-2-1986.

-ocr page 225-

Tijdschrift voor Onderwijsresearch, 11 (1986), nr. 4, pp. 221-222

Notities en Commentaren

COMMENTAAR OP HET ARTIKEL 'DE INVLOED VAN SAMENWERKING EN
GEZAMENLIJKE BEOORDELING OP SPELLINGPRESTATIES'

(Tijdschrift voor Onderwijsresearch 10,1985, pp. 274-284)

E. Bol (RUU)

Deze publikatie heeft bij mij zoveel vragen opgeroepen dat ik het niet kan nalaten te reageren.
Het onderzoek start op basis van uiterst simplistische theoredsche assumpties (p. 275,276). De
gesuggereerde relatie tussen uitwisseling van informade tussen leerlingen en de ontwikkeling
van denkstrategieën wordt op geen enkele manier onderbouwd. De auteurs die in dit verband
worden genoemd stammen uit zeer verschillende stromingen. Ook de motivationele verklaring
(p. 276) is gebrekkig. Indien meer inzet met name van zwakke leerlingen vanzelf zou leiden tot
betere prestaties, dan is de volgende opmerking van de auteurs al helemaal niet te begrijpen:
'...krijgen de zwakke leerlingen veelal een onvoldoende, ook al spannen zij zich in.' Overigens
ondernemen de auteurs in hun eigen onderzoek geen enkele poging een causaal verband aan te
tonen tussen inzet en prestatie. Kortom, het onderzoek mist vrijwel elke theoretische basis. Het
is wellicht een idee voor de auteurs eens te rade te gaan bij de leerpsychologie.

Methodologisch doen zich ook de nodige problemen voor. De inzet van leerhngen wordt
gemeten door de betrokken leerkrachten aan de hand van een schaal een beoordehng te laten
geven. Dit is een riskante onderneming. Wat hebben de onderzoekers gezegd tegen de leer-
krachten om ze bereid te vinden deel te nemen aan het onderzoek? En hoe gemakkehjk worden
dan verwachUngen gewekt die het oordeel van leerkrachten beïnvloeden? Hierover wordt ons
niets medegedeeld. Eventueel gemeten effecten op inzet van leerlingen kunnen derhalve gemak-
kelijk anders verklaard worden dan op de wijze die de onderzoekers welgevallig is. De gevonden
betrouwbaarheid van de meting (p. 277) houdt in dat leerkrachten de inzet van leerlingen op z'n
minst relatief gezien vrij constant beoordelen. Welnu, als deze betrouwbaarheid is gevonden in
het kader van het onderhavige onderzoek, dan wordt hierdoor de heilzame werking van
coöperatief leren op de motivatie van zwakke leerlingen al op losse schroeven gezet. Verderop
(p. 279) blijkt ook dat de inzetshypothese (H3) in dit opzicht niet wordt bevestigd.

Een volgende kwestie heeft betrekking op de tijd besteed aan het spellingonderwijs in de drie
condities. Er wordt slechts vermeld dat de leerkrachten werd verzocht anderhalfuur per week
aan spelling te besteden (p. 277). Hoeveel tijd er in werkelijkheid aan spelling is besteed is
evenwel niet nagegaan. Nu ligt het voor de hand dat overleg tussen leeriingen extra tijd kost (zie
P. 278). Het is dus beslist niet ondenkbaar dat in de samcnwerkingscondities meer tijd is
geïnvesteerd dan in de individuele conditie. Eventuele effecten moeten met de nodige reserve
worden bekeken.

Dan zijn er nog andere vaagheden. Ik noem er twee. De leeriingen moesten eikaars werk
nakijken (p. 278). Hoe dit precies in z'n werk gaat wordt niet besproken. Opgemerkt wordt:"...
dat het met elkaar praten over de fouten meestal erg moeizaam verliep.' (p. 278). Hoe hebben de
onderzoekers dit vastgesteld? Dat staat nergens. Maar als dit waar is ondergraaft dit elk redelijk
uitgangspunt van het onderzoek, aangaande de positieve werking van coöperatie bij het leren.

Als we het theoredsch en methodologisch dilettantisme van het onderzoek bezien, dan zijn de
•"esultaten eigenlijk van geen enkel belang meer. Het resultaat dat de samenwerkingsgroepen
meer inzet vertonen dan de individuele groep (zie ook fig. 1) hoeft niets te zeggen over de
motivatie van leerlingen (zie mijn eerdere opmerkingen). Maar zelfs als de leeriingen in de
samenwerkingscondities werkelijk meer inzet vertonen kan dit nog worden toegeschreven aan

-ocr page 226-

222 E. Bol

een soort placebo effect. Dit probleem wordt door de onderzoekers niet aan de orde gesteld.
Dan het effect op de prestaties (zie ook fig. 2). Het blijkt dat het gevonden effect van
samenwerking uitsluitend moet worden toegeschreven aan de laatste meting. Maar de voor de
onderzoekers gunstige uitkomst wordt niet zozeer veroorzaakt door het betere presteren van de
samenwerkingscondities als door het slechtere presteren van de individuele conditie. Deze doet
het op de laatste meting slechter dan op de voorlaatste. Maar hieromtrent hadden de onderzoe-
kers geen voorspellingen gedaan. Het argument dat de laatste toets misschien moeilijker was
gaat niet op, omdat de auteurs eerder hebben vermeld dat de vier toetsen parallel zijn (p. 277).

Het sterke uitgangspunt van de onderzoekers dat vooral zwakke leerlingen profiteren van
samenwerking wordt niet bevestigd. Wat er overblijft voor het zwakke uitgangspunt, nl. dat
leerlingen profiteren van samenwerking, laat voorlopig geen enkele conclusie toe ten gunste van
dit uitgangspunt. Waarom wordt zo'n onderzoek dan toch gepubliceerd? Ik denk omdat het een
nieuwe ster is aan het firmament van de onderwijskundige wondermiddelen, waarvan de oudste
wordt gevormd door het leerboek onder het hoofdkussen. Wat is er immers aangenamer dan het
onderwijs te kunnen mededelen dat zonder speciaal vakmanschap en zonder extra inzet van de
leerkracht leerlingen wel degelijk tot betere prestaties kunnen worden gebracht? Het kan zijn
dat ik het allemaal verkeerd heb begrepen. De onderzoekers zullen mij dan wel uit mijn droom
helpen.

Ontvangen 14-1-1986

-ocr page 227-

Tijdschrift voor Onderwijsresearch, 11 (1986), nr. 4, pp. 223-224

Notities en Commentaren

SAMENWERKING EN SPELLINGPRESTATIES. ANTWOORD AAN E. BOL,
J.P.
van Oudenhoven
Rijksuniversiteit Groningen

Met grote belangstelling heb ik de reactie van Bol op ons onderzoek naar de invloed van
samenwerking en gezamenlijke beoordehng op spellingprestaties gelezen. Het onderzoek heeft
bij hem veel vragen opgeroepen. Hieronder zal ik op zijn punten van kritiek ingaan, daarbij zijn
volgorde aanhoudend.

- Ons onderzoek zou onvoldoende theoretische basis hebben. Er is de laatste tien jaar
weliswaar veel onderzoek naar samenwerkend leren verricht, maar dat onderzoek was
grotendeels gericht op de beantwoording van praktische vragen. Er is theoretisch nog zo
weinig bekend over coöperatief leren (Kagan, 1985), dat het ons verkieslijker leek enkele
eenvoudige maar theoretische verdedigbare principes te onderzoeken dan van een uitge-
werkte theorie uit te gaan die zich moeihjk in de onderwijspraktijk laat toetsen. Er bestaat
wel een goed ontwikkelde (Neo-)Piagetiaanse theorie. Het meeste onderzoek uit die stro-
ming heeft echter betrekking op een bepaald soort taken, vooral conservatieproblemen,
waardoor de relevantie voor de onderwijspraktijk erg beperkt is. Bol doet de suggestie eens
te rade te gaan bij de leerpsychologie. Of dat zo'n goede suggestie is, betwijfel ik. Op de eerste
plaats heeft de leerpsychologie nog niet zo veel te bieden. Volgens De Klerk (1983, p. 88) is de
relatie tussen de onderzoeksresultaten van leerpsychologisch onderzoek en de onderwijs-
praktijk zelfs volstrekt onduidelijk. Op de tweede plaats is samenwerking een complex
fenomeen dat veel meer omvat dan leergedrag. Dat betekent dat niet alleen de leerpsycholo-
gie ons inzicht kan verschaffen, maar ook andere takken van de psychologie (de groepsdy-
namica bijvoorbeeld) belangrijk of zelfs belangrijker kunnen zijn.

- Bol vindt het al helemaal niet te begrijpen hoe de uitspraak dat 'zwakke leerhngen veelal een
onvoldoende krijgen, ook al spannen zij zich in' te rijmen valt met de bewering dat meer
inzet van met name zwakke leerlingen tot betere prestaties zou leiden. Is dat zo moeihjk te
begrijpen? Laten we als voorbeeld een leerling nemen die gewoonlijk ongeveer 16 fouten in
zijn dictee maakt, maar dankzij een grote inzet de volgende keer het aantal fouten tot 10 weet
te beperken. Bij het gebruikelijke klassikale beoordehngssysteem ontvangt hij dan weer een
onvoldoende. Dit ondanks het feit dat hij een betere prestatie levert.

~ Volgens Bol is het een riskante onderneming de inzet van leerlingen te meten door de
leerkracht aan de hand van een schaal een beoordeling te laten geven. Ik moet toegeven dat
zo'n meting gevoelig is voor subjecüeve indrukken (om die reden hebben we bij het
vervolgonderzoek ook observaties ingelast). Toch geloof ik niet dat wij de leerkrachten uit
de samenwerkingscondities er toe aangezet zouden hebben een gunstiger beeld van hun
leerlingen te geven dan hun collega's uit de controlegroep. Bij de introductie van ons
onderzoek hebben we ons neutraal opgesteld en slechts gezegd dat we twee verschillende
onderwijsmethoden met elkaar wilden vergelijken. Beide groepen hebben verder gelijke
aandacht ontvangen wat controlebezoeken en metingen betreft. Bols niet al te heldere
opmerkingen over de betrouwbaarheid van de inzetmeting doen niet terzake, omdat wij de
betrouwbaarheid uiteraard niet bepaald hebben op de bij het experiment betrokken scholen.

- Eventuele effecten zouden met de nodige reserve moeten worden bekeken omdat volgens
Bol niet nagegaan is hoeveel tijd er aan spelling besteed is. Enerzijds is dit wel gedaan zoals

-ocr page 228-

224 J.P. van Oudenhoven

op de checklist ter controle van de experimentele manipulaties (p. 279) te zien valt; anaer-
zijds zijn leerkrachten zo gebonden aan hun rooster dat de marges om aan een vak extra tijd
te besteden uiterst klein zijn.

- 'Dan zijn er nog andere vaagheden'. Als voorbeeld noemt Bol dat niet precies besproken
wordt hoe het in z'n werk gaat als leerlingen eikaars werk nakijken. Is dat nou zo vaag? Ieder
kind en iedere leerkracht weet dat nakijken het aanstrepen van fouten is. Verder vertelt Bol
dat nergens staat hoe de onderzoekers hebben vastgesteld dat het met elkaar praten over de
fouten meestal erg moeizaam verliep. Dat is onjuist. Op pag. 278 staat aangegeven dat een
onafhankelijke leerkracht de scholen bezocht en een spellingles bijwoonde, waarbij een van
de punten waar zij op moest letten was of de kinderen met elkaar over de fouten praatten (p.
279). Het spreekt voor zich en staat bovendien aangegeven (p. 277) dat we zelf ook
spellinglessen bijwoonden. Bol heeft geen gelijk als hij beweert dat de gebrekkige uitleg het
theoretisch uitgangspunt van ons onderzoek ondergraaft. Juister was geweest als hij gezegd
had dat daardoor de kans om de hypothese aangaande de denkstrategieën bevestigd te zien
wel erg klein werd.

- Nadat Bol ons van vaagheden beticht, speculeert hij dat de verhoogde inzet in de samenwer-
kingscondities nog kan worden toegeschreven aan een 'soort placebo effect'. Wat hij daar in
dit verband precies onder verstaat is onduidelijk, maar ik neem aan dat hij naar een soort
'Hawthorne-effect' verwijst, opgeroepen door de aanwezigheid van de onderzoekers. Ik
denk dat Bol vergeten is dat de onderzoekers even frequent de controlescholen als de
samenwerkingsscholen bezochten om daar precies hetzelfde te doen, namelijk toetsen
afnemen en van tijd tot tijd een spellingles bijwonen om na te gaan of de manipulaties correct
uitgevoerd werden. Van een grotere aandacht voor de samen werkingscondities, waaraan de
grotere inzet toe te schrijven zou zijn, was derhalve geen sprake.

- Volgens Bol zou het effect van samenwerking op prestaties moeten worden toegeschreven
aan de laatste meting, waarbij hij opmerkt dat het resultaat niet zozeer veroorzaakt wordt
door het betere presteren van de samenwerkingscondities als door het slechtere presteren
van de controleconditie. Dat vind ik een merkwaardige redenering. Uitspraken over een
effect doe je niet op grond van één conditie, maar op grond van een contrast tussen een
controle- en een experimentele conditie, waarbij de controleconditie als baseline dient.
Kennelijk zou de experimentele conditie zonder 'treatment' ook achteruit gegaan zijn. Wat
wij getoetst hebben is het verschil in lineaire trend gebaseerd op
vier meetpunten, waarbij de
voorspelling was dat de afname van het aantal fouten in de samenwerkingscondities groter
zou zijn dan in de controleconditie. Maar laten we ook eens naar de gemiddelden in figuur 2
(p. 283) kijken. Van het eerste naar het vierde tijdstip maken de kinderen die samenwerken
gemiddeld 3.9 fouten minder op de spellingtoets tegen 2.2 fouten voor de kinderen die alleen
werken.

Afsluitend constateer ik dat enkele punten van Bols kritiek zijn terug te voeren op onnauwkeu-
rig lezen. Een ander deel van zijn bezwaren komt voort uit zijn fixatie op theorieën, terwijl wij er
de voorkeur aan geven een compromis te sluiten tussen wat theoretisch en praktisch haalbaar
was. Ik gun Bol zijn voorkeur, maar het zou mooi zijn als hij de legitimiteit en de waarde van
andere benaderingen inzag. Sommige van zijn opmerkingen - vooral over het gebrek aan
ondersteuning voor ons theoretisch uitgangspunt - zijn serieus te nemen. Maar daar waren we
in de discussie al expliciet op ingegaan.

LITERATUUR

Kagan, S. {l9S5).Coöperative learning. Resources for teachers. Riverside: School of Education, University of
California.

Klerk, L.F.W. de (1983). Onderwijspsychologie. Deventer: Van Loghum Slatems.
Ontvangen 24-2-1986.

-ocr page 229-

Tijdschrift voor Onderwijsresearch, 11 (1986), Nr. 5, pp. 225-240

Verhogen van studieprestaties bij eerstejaars door
attributie retraining.

Frank Van Overwalle

Dienst Educo, Vrije Universiteit Brussel

abstract

An experimental training program was conducted in order to alleviate the negative effects of failure
at examinations on students' motivation. The principles of this program are based on Weiner's
attributional theory of motivation. 80 Students taking an introductory physics course who had
failed a mid-term physics test and had reported problems with their methods for studying the course
were selected for this experiment. Half of them were assigned to a study method retraining group,
the rest was assigned to a no-treatment control group. The purpose of the study method retraining
program was (a) to try to convince the subjects that their study methods have a large influence on
their academic performance, (b) to make their own (in)appropriate strategies more salient by means
of discussing and reviewing their own and others' working methods, and (c) to provide an
opportunity to try and test out new and more efficient study methods. Discussions about study
methods (aim a and b) were conducted in small groups during a first training session. After a
two-week interval, in which the subjects had the opportunity to try out other study approaches (aim
c), a second session was scheduled for an informal test on their improvements. Results show that, on
the whole, the experimental subjects achieved similar performances to those of the control subjects
on physics tests held both a few days and three months after the experiment. However, subjects who
had followed all the assignments for the experiment, and who had received feedback about their
strategy improvements (28% of the participants) did improve their performance on the test imme-
diately after the training. This gain was lost three months later. The analysis furthermore suggests
that the improved performance of this small group is, in part, due to higher attributions of study
methods (as aimed at by the training) and help from others (e.g. the training itself)-

Hoe komt het dat studenten die eenzelfde slecht studieresultaat behalen, toch zo verschillend
reageren? Sommige studenten verhogen hun inspanningen en pogingen om de volgende keer te
slagen, terwijl anderen alle hoop opgeven en al hun inspanningen staken. Zulke uiteenlopende
reakties vinden we overal, van de lagere school tot de universiteit. Dit wijst erop dat niet alleen
onderwijsresultaten of vakgebonden factoren een rol spelen in het studiegedrag van studenten.
Ook niet-cognitieve elementen zoals studiemotivatie en -attitude zijn van belang.

Dit verslag gaat over een experiment waarin we geprobeerd hebben om studenten in hun
éérste jaar aan de universiteit, die niet geslaagd waren op een tussentijdse toets, opnieuw te
motiveren voor hun studie. Dit experiment steunt op recente theoretische inzichten met
betrekking tot'processen die een invloed uitoefenen op studiemotivatie. Centraal daarin staan
causale attributies, d.w.z. oorzaken die leerlingen en studenten zelf toeschrijven aan hun
studieresultaat. Motivatie-interventie-programma's die op dit principe steunen noemt men
daarom attributie retrainingen. (Voor een overzicht zie Heckhausen & Krug, 1982 en Förster-
ling, in druk).

In het verleden werden al verschillende theoretische modellen voorgesteld om het verband

Adres voor correspondentie is: Frank Van Overwalle, Vrije Universiteit Brussel, Dienst EDUCO, Plein-
laan 2, B-1050 Brussel. Dit onderzoek was mogelijk door de ondersteuning van Prof. dr. H. Eisendrath en
^ijn medewerkers Dr. I. Paiva en Dr. P. Peeters. Ook ben ik dank verschuldigd aan L. Van Wahzeele voor
Z'jn hulp bij de voorbereiding van dit experiment. Ik dank eveneens twee anonieme recensenten voor hun
Waardevolle suggesties bij de voorbereiding van dit manuscript.

-ocr page 230-

226 Attributie retraining

tussen attributies en motivatie te verklaren (bv. Weiner, 1979; Abramson et al., 1978; Heckhau-
sen, 1975). Deze modellen benadrukken ook verschillende causale attributies die een gunstige
invloed zouden uitoefenen op motivatie en prestaties. Daardoor wijken motivatie interventie
programma's geïnspireerd vanuit een attributioneel perspectief nogal van elkaar af. In dit
onderzoek gaan we voornamelijk uit van een theoretisch model dat de jongste vijftien jaar door
Bernard Weiner en zijn medewerkers werd uitgewerkt (cf. Weiner, 1979, 1984). De principes
daarvan worden in de volgende paragraaf kort uiteengezet.

Attributies van studieresultaten

Weiner gaat in zijn motivatie-theorie uit van de vaststelling dat mensen spontaan naar verkla-
ringen zoeken voor onverwachte of negatieve gebeurtenissen (Weiner, 1985). Bijvoorbeeld, een
student met slechte examenresultaten wil vooral weten 'waarom dat gebeurd is' en eventueel
ook 'wat eraan gedaan kan worden' (Wong & Weiner, 1981). De factoren die mensen aangeven
als oorzaken van een gebeurtenis noemt men
causale attributies. Causale attributies zijn het
resultaat van subjectieve percepties, overtuigingen en beslissingen.

Uit onderzoek van Weiner (1979) blijkt dat oorzakelijke interpretaties van slagen of falen
systematische gevolgen hebben op succesverwachtingen over volgende, gelijkaardige taken.
Deze toekomstverwachtingen hebben op hun beurt een invloed op motivatie en prestaties. Een
verandering in oorzakelijke toeschrijvingen kan een positieve of negatieve weerslag hebben op
studieverwachtingen, en dus ook op studiemotivatie en -resultaten. Attributie retrainingen zijn
erop gericht oorzakelijke toeschrijvingen zodanig te beïnvloeden dat verwachtingen, motivatie
en prestades in gunstige zin worden omgebogen.

Als oorzaak van slagen of falen vermelden studenten vaak intelligentie, inspanning, interesse,
studiemethode, moeilijkheidsgraad, hulp en uitleg van anderen, de manier van lesgeven,
voorkennis, toeval, en dergelijke. Het is niet zozeer de toegeschreven oorzaak op zich, dan wel
de onderliggende kenmerken van die oorzaak die bepalend zijn voor verschillen in verwach-
tingen en motivatie. Weiner maakt onderscheid tussen drie basisfactoren of causale dimensies.

Een eerste causale dimensie heeft te maken met de locus van attributies: ligt de oorzaak bij de
persoon zelf (intern; bv. inspanning) of bij andere personen of omstandigheden (extern; bv.
manier van lesgeven, ziekte)? Een tweede dimensie deelt de oorzaken in volgens hun stabiliteit:
zijn het onveranderlijke, structurele elementen (bv. intelligentie) of zijn het factoren die van het
ene op het andere examen wisselen (bv. inspanning)? Een derde dimensie verwijst naar de
beheersbaarheid (controllability): kunnen studenten/anderen iets aan de causale factor ver-
helpen (bv. studiemethode) of niet (bv. toeval)? Het is de subjectieve interpretatie van de
oorzaak volgens deze drie dimensies die een invloed heeft op verwachtingen en motivatie.
Samengevat komt het hierop neer: studieverwachtingen en studiemotivatie worden beïnvloed
door, ten eerste, de oorzaak die de student toeschrijft aan zijn slagen of mislukken en, ten
tweede, door de onderliggende aard van deze oorzaak zoals die door de student zelf onderkend
wordt.

Onderzoek over psychologische gevolgen van attributies toont aan dat niet alle oorzakelijke
toeschrijvingen een even gunstige invloed hebben op studiemotivatie. Enkel indien de student
zijn of haar falen toeschrijft aan factoren die hij of zij kan beïnvloeden op korte termijn
(persoonlijk beheersbare en onstabiele attributies) verlaagt dat de studiemotivatie in mindere
mate (Weiner, 1979; Abramson, Seligman & Teasdale, 1978)'. Dus, een student die een slecht
resultaat toeschrijft aan zijn of haar inspanning, studiemethode of andere persoonlijk beheers-
bare factoren blijft relatief hoge verwachtingen koesteren en behoudteen hoog prestatieniveau.
Omgekeerd zal een student die mislukking toeschrijft aan intelligentie, toeval, de professor of
aan andere factoren waar hij of zij niets aan kan veranderen, minder hoge verwachtingen
koesteren vóór zijn of haar volgende examens, en zal hij of zij sneller geneigd zijn om op te
geven.

-ocr page 231-

Frank van Overwalle 227

Attributie retrainingen

Steunend op deze principes heeft men in het recent verleden geprobeerd om lage verwachtingen
en geringe motivatie van niet-geslaagde leerlingen en studenten positief om te buigen. Centraal
uitgangspunt van deze attributie programma's is dat persoonlijk beheersbare en onstabiele
oorzaken een gunstige invloed hebben op studiemotivatie. Daarom zal men leerhngen en
studenten proberen te overtuigen om de oorzaak van hun studiefalen te zoeken in zulke causale
factoren.

In het lager en secundair onderwijs heeft deze begeleidingsstrategie haar doeltreffendheid al
voldoende bewezen. Een typisch re-attributie experiment verloopt als volgt. Kinderen die slecht
presteren op school (bv. lees- of rekenproblemen) en hun falen niet of weinig toeschrijven aan
oorzaken zoals onvoldoende inspanning, worden voor een begeleidingsprogramma uitgekozen.
Verondersteld wordt immers dat zulke kinderen het meest baat hebben bij gunstigere causale
opvattingen. De behandeling duurt meestal niet langer dan 1 uur per dag, en wordt gedurende
enkele dagen herhaald.

Tijdens de begeleiding krijgt de leerling een opdracht die bestaat uit afwisselend moeilijke en
gemakkelijke zinnen of rekenopgaven. Wanneer de leerhng de zin niet correct leest of de
rekenopgave fout oplost, zegt de trainer ongeveer dit : 'Je bent fout, je hebt niet genoeg
geprobeercT. Wanneer de leerling correct is, zegt de trainer bijvoorbeeld: 'Dat is juist. Dat komt
omdat je hard
geprobeerd hebt'. Controlegroepen krijgen gelijkaardige reken- of leespro-
blemen, maar de trainer zegt enkel of de oplossing juist of fout is. In negen onderzoeken blijkt
dat kinderen van een attributie programma nadien aanzienhjk beter presteren op een natest dan
kinderen uit controlegroepen. (Dweck, 1975; Medway & Venino, 1982; Chapin & Dyck, 1976;
Fowler & Peterson, 1981; Andrews & Debus, 1978; Schunk, 1982, 1983; Miller, Brickman &
Bolen, 1975; Gerling, Petry-Scheldrich & Wender, 1981). Deze verbetering wordt verklaard
doordat participanten van deze training hun slagen of falen meer frekwent aan inspanning
toeschrijven en zich dus sterker inzetten voor schooltaken waar ze aanvankelijk problemen
ervaren. In twee onderzoeken (Gatting-Stiller et al., 1979; Schunk, 1981) werd deze toename
van prestaties niet vastgesteld.

Op het niveau van het hoger onderwijs bestaat er veel minder onderzoek over de eventuele
gunstige invloed van attributie retrainingen. In twee onderzoeken werd de effectiviteit van
attributie programma's op een studentenpopulatie uitgetest.

Wilson en Linville (1982, 1985) gaven aan eerstejaarsstudenten informatie over ervaringen
van andere studenten in hun eerste jaar, door middel van statistische gegevens en interviews op
video-band. Zo vermeldden hogerejaars bijvoorbeeld in deze interviews dat hun slechte resulta-
ten in het begin van het eerste jaar geleidelijk aan beter werden. Met deze informatie poogden
Wilson en Linville eerstejaars ertoe te brengen hun studiemoeilijkheden toe te schrijven aan
alleriei tijdelijke aanpassingsproblemen die verdwijnen tegen het einde van het jaar. De effecten
van dit interventie programma waren zwak, maar significant positief. Experimentele subjecten
behaalden betere examenresultaten een semester na de interventie dan controle subjecten.

In twee experimenten van Anderson en Jennings (1980) en Anderson (1983) kregen studenten
de opdracht om via de telefoon medestudenten te overtuigen om bloed te geven aan het Rode
l^ruis. In het meest recente experiment van Anderson (1983) begint de trainer met een uiteenzet-
tmg over de bedoeling en het belang van de bloedinzamelingscampagne. Dan geeft hij uitleg
over de opdracht zelf. Op datzelfde moment wordt de nieuwe attributie geïnduceerd. In één
experimentele conditie wordt aan de studenten uitgelegd dat het overtuigen van anderen een
kwestie is van fundamentele
'bekwaamheden en persoonlijke stijl', terwijl in een andere conditie
aan de studenten verteld wordt dat overtuigingskracht te maken heeft met 'de specifieke
^""ategieën of taktieken die gebruikt worden'. Na een proeftelefoontje tesamen met de trainer en
nadat de studenten een lijst met praktische informatie hadden gekregen, konden ze zelf aan de
opdracht beginnen. De resultaten van beide experimenten van Anderson (1983; Anderson &
Jennings, 1980) tonen aan dat studenten uit de strategieconditie significant hogere resultaten
Verwachtten voor de telefooncampagne, meer pogingen deden om mensen te overtuigen en daar
Ook beter in slaagden dan studenten uit de bekwaamheidsconditie. De training had het meest

-ocr page 232-

228 Attributie retraining

uitgesproken effect bij studenten die vóór de interventie mislukkingen doorgaans toeschreven
aan bekwaamheid en karakter.

Principes voor attributie retrainingen

Uit de voorgaande experimenten kunnen we een aantal voorwaarden afleiden waaraan attribu-
tie retrainingen moeten voldoen.

Een eerste voorwaarde slaat op de inhoud van de opvatringen die men wil veranderen. Daarin
staan twee verschillende, maar sterk verbonden cognities centraal. Ten eerste moet de nieuw
geïnduceerde verklaring van die aard zijn dat de leerling of student aan deze factor zelf iets kan
veranderen op korte termijn. Dat betekent: persoonlijk beheersbare en niet al te stabiele
factoren, zoals inspanning en strategie
(cognitie 1). Daarmee neemt bij de leerlingen of studen-
ten het gevoel van beheersing toe en verminderen gevoelens van hulpeloosheid.

Ten tweede moeten leerlingen of studenten ervan overtuigd worden dat de nieuw geïndu-
ceerde verklaring inderdaad een belangrijke invloed heeft op hun studieprestaties. Van Over-
walle (1985) wijst op het feit dat de effecten van attributies, zoals verhoogde verwachtingen en
prestaties, zwakker worden naarmate studenten aan deze factoren minder belang hechten. Dit
geldt ook voor inspanning en strategie. Indien, bijvoorbeeld, een student niet gelooft dat
studiemethode een belangrijke oorzaak was van slagen of falen, dan zal hij of zij met deze factor
geen rekening houden in zijn of haar verdere studiegedrag
(cognitie 2). Samengevat: factoren die
beheersbaar zijn op korte termijn en onderkend worden als belangrijke oorzaken van slagen of
mislukken hebben een gunstige invloed op motivatie en prestaties.

De wijze waarop de trainer leerlingen of studenten overtuigt van het belang van bepaalde
causale factoren, omvat de tweede voorwaarde. In alle vermelde onderzoeken wordt aan de
leerlingen en studenten informatie doorgegeven over de attributie die veranderd moet worden;
de manier waarop dit precies gebeurt verschilt echter aanzienlijk. Volgens Bandura (1977) is het
geven van informatie over eigen
prestaties de meest effectieve techniek om verwachtingen en
prestaties blijvend te veranderen. Deze techniek werd toegepast bij de meeste attributie pro-
gramma's met kinderen, en ook in het onderzoek van Anderson (1983; Anderson & Jennings,
1980). Iets minder effectief is het doorgeven van informatie via prestaties van
anderen, het zgn.
modelleren (Bandura, 1977). Het principe van 'coping modeling', waarbij het model na aan-
vankelijke moeilijkheden toch slaagt, werd toegepast in het onderzoek van Gatting-Stiller et al.
(1979), Gerling et al. (1981)en Schunk (1981) bij kinderen, en in de experimenten van Wilson en
Linville (1982, 1985) bij studenten. Louter
verbaal trachten te overtuigen is volgens Bandura
(1977) een weinig effectieve techniek. Louter verbale interventies worden dan ook niet toegepast
in re-attributie programma's. Dus vooral informatie over eigen gedragingen, en (in iets mindere
mate) over gedragingen van anderen, zijn effectieve hulpmiddelen voor het veranderen van
causale overtuigingen bij leerlingen en studenten.

Overzicht van het huidige experiment

De concrete uitwerking van ons experiment is in sterke mate geïnspireerd door het werk van
Anderson (1983). We proberen namelijk eerstejaars aan de universiteit ervan te overtuigen dat
inefficiënte studiestrategieën oorzaak zijn van studiefalen. We veronderstellen dat deze leef-
tijdsgroep sterker wordt aangesproken door studiestrategieën als oorzaak van studiefalen dan
door studie-inspanning. Verschillende bedenkingen hebben tot deze keuze geleid. Vooreerst
blijkt uit pilootinterviews met andere niet-geslaagde studenten dat eerstejaars de oorzaken van
studiemislukking dikwijls spontaan aan fouten in hun leermethode toeschrijven. Ten tweede is
studiemethode een tamelijk algemeen begrip dat gemakkelijk toegepast kan worden op allerlei
problemen waar studenten moeite mee hebben tijdens hun studies. Tenslotte veronderstellen we
dat studiemethoden aan belang winnen bij eerstejaars door de grotere hoeveelheid stof in
vergelijking met het secundair onderwijs. Het is wellicht gemakkelijker studenten te overtuigen
van het belang en beheersbaarheid van nieuwe oorzaken zoals studiemethoden, waarover ze
zich nog geen vaste mening hebben gevormd.

-ocr page 233-

Frank van Overwalle 229

Het experiment verloopt in grote lijnen als volgt. Studenten fysica die slechte resultaten
behalen op een tussentijdse toets en rapporteren dat hun studiemethoden matig tot weinig
efficiënt waren, worden geselecteerd voor een studiemethode retrainingsprogramma. In een
eerste fase van dit programma probeert de trainer de studenten ervan te overtuigen dat de
gevolgde studiemethode een belangrijke oorzaak kan zijn van hun falen op de toets (cognitie 2).
Vervolgens wordt samen met de studenten onderzocht wat aan hun persoonlijke studiemethode
kan verbeteren (cognitie 1). Daarbij wordt gebruik gemaakt van een overzicht van studiestrate-
gieën en van een lijst met praktische studietips. Tijdens een proefperiode van ongeveer twee
Weken kunnen de studenten thuis een betere studiemethode uitproberen. Nadien krijgen zij
terugkoppeling over hun vorderingen door een informele en individuele toets.

Er zijn een aantal parallellen tussen dit begeleidingsprogramma en de strategie-conditie in het
experiment van Anderson (1983). Ten eerste is er de inductie van een onstabiele en beheersbare
attributie: de gevolgde strategie. Ten tweede is er in beide experimenten een periode waarin de
studenten met behulp van een aantal praktische tips hun werkmethode kunnen verbeteren. Ten
derde krijgen de studenten terugkoppeling over hun prestaties.

Toch zijn er ook enkele verschillen. Een belangrijk verschilpunt is dat de taak in het
experiment van Anderson (1983) voor de meeste participanten tamelijk nieuw is. De opdracht
in het huidige experiment verloopt daarentegen volledig binnen het normale onderwijs, en het
behandelde onderwerp is zeker niet nieuw. Studenten hebben wellicht veel meer uitgesproken
causale opvattingen over hun studie dan over het overtuigen van mensen. We verwachten
daarom dat het veel moeilijker is om studenten in dit experiment ertoe te brengen hun oude en
ongunstige attributies voor hun studiefalen te vervangen door de nieuwe studiemethode verkla-
ring. Een tweede verschil is dat bij Anderson succes of mislukking onmiddellijk volgt na of zelfs
tijdens ieder telefoongesprek. De studenten in dit experiment krijgen beduidend minder (slechts
eenmaal) gelegenheid om nieuwe strategieën op hun doeltreffendheid te toetsen.

Tenslotte wijzen we op een zekere tweeslachtigheid in dit experiment. Het bevorderen van
attributies wordt gekombineerd niet alleen met voorlichting over mogelijke strategieën, maar
ook met daadwerkelijke oefening thuis. Daardoor kan een strikt onderscheid tussen motivatie-
effect (door re-attributie) en leereffect (door informatie over mogelijke strategieën) niet aange-
houden worden. Dit heeft als gevolg dat de afzonderlijke invloed van de attributie manipulatie
op prestaties moeilijk te achterhalen is. Nochtans hebben we in dit experiment geprobeerd om
de rechtstreekse invloed van leereffecten af te zwakken door enkel informatie over strategieën
aan te bieden, en niet in te grijpen in de gevolgde studiemethoden die mogelijk inefficiënt zijn.
De trainer wijst de studenten erop dat 'een geschikte studiemethode van de ene tot de andere
student verschilt', en laat de studenten volledig vrij in hun keuze van werkmethoden.

METHODE

l^etingen vóór de training

Prestaties. Na het eerste semester (februari), werd een tussentijdse toets afgenomen over de stof
die tot dan gedoceerd was. Deze toets fungeert als voortoets in dit experiment.

Cognities. Enkele dagen nadat de toetsresultaten bekend waren gemaakt, werd een korte
Vragenlijst over de toets rondgedeeld tijdens een normaal hoorcollege. Daarin waren vragen
opgenomen over tien oorzakelijke factoren en 19 studiestrategieën.

. Betreffende de oorzakelijke factoren moesten de studenten op een 5-puntenschaal aanduiden
jn Welke mate deze aan- of afwezig waren. Zo dienden de studenten bijvoorbeeld aan te geven of
nun studiemethode bij het voorbereiden van de tussentijdse toets
niet (=1), weinig (=2), matig
tamelijk
(=4) of zeer (=5) efficiënt was. Aanvullende oorzaken waren: moeilijkheidsgraad
wer gemakkelijk - zeer moeilijk), algemene intelligentie (laag - hoog), geluk op de toets (geen -
Zeer veel), interesse voor het vak (zeer laag - zeer hoog), inspanning (zeer laag - zeer hoog).

-ocr page 234-

230 Attributie retraining

verlangen om de toets goed te doen (zeer zwak - zeer sterk), hulp van anderen zoals assistenten,
professor of studenten (geen - zeer veel), manier van lesgeven door professor of assistenten (zeer
slecht - zeer goed), en voorkennis (zeer klein - zeer groot).

Aangaande studiestrategieën werden de studenten gevraagd aan te geven in welke mate ze
daarvan gebruik hadden gemaakt bij de voorbereiding van de toets door middel van een
5-punten schaal:
zeer weinig of nooit (= 1), weinig(=2), soms (=3), veel (=4) en zeer veel of altijd
(=5). De lijst van mogelijke studiestrategieën was opgesteld op basis van een lijst van Weinstein
(1978). De vragenlijst bevatte de volgende studiestrategieën: de stof verschillende keren overle-
zen; sleutelbegrippen, formules of definities onderlijnen; aantekeningen maken; de cursus
samenvatten; de belangrijkste begrippen, formules of definities op een lijst schrijven; de stof in
je eigen woorden opschrijven*; herhalen om te zien of je het begrepen hebt; jezelf vragen
stellen*; een inhoudsschema maken; je zo concreet mogelijk voorstellen hoe dingen of proces-
sen eruit zien of gebeuren*; van buiten leren*; de bladzijden uitje kursus visueel onthouden*; de
stof vergelijken met wat je al weet*; in je hoofd allerlei gedachten en overwegingen over de stof
laten opkomen*; denken over de praktische gevolgen van het onderwerp*; zoeken naar de
logische struktuur in het onderwerp*; sleutelbegrippen, formules of definities met elkaar
vergelijken*; met anderen over de stof discussiëren*. (De met een sterretje gemerkte strateg-
ieëen komen niet meer voor in de vragenlijst na de training).

Subjecten

De subjecten waren 318 studenten uit de eerste kandidatuur geneeskundige en wetenschappe-
lijke richtingen van de Vrije Universiteit Brussel, die een inleidende cursus fysica volgden.

Deelnemers voor het experiment werden geselekteerd op basis van twee criteria. Ten eerste
behaalden zij minder dan 10 op 20 op de voortoets. Ten tweede rapporteerden zij dat hun
Studiemethode matig (=3) tot niet (=1) efficiënt was. 80 Studenten voldeden aan deze twee
criteria. Ze werden at random over twee groepen verdeeld: een experimentele studiemethodc
rctrainingsgrocp cn een controlegroep, die geen enkele behandeling kreeg.

De experimentele subjecten werden uitgenodigd voor een 'begeleidingsprogramma voor
studieproblemen'. Een lijst met de namen van deze studenten werd ad valvas uitgehangen. Deze
subjecten werkten op vrijwillige basis mcc, maar werden door dc docent aangemoedigd om deel
tc nemen in hun eigen belang. Acht van de 40 studenten maakten geen afspraak voor het
'begeleidingsprogramma', wat het totaal aantal experimentele subjecten op 32 brengt.

Dc conrro/f subjecten werden niet uitgenodigd voor het 'begeleidingsprogramma'. Zij namen
cchtcr wel deel aan dc cursus fysica, legden dezelfde toetsen af cn vulden ook dezelfde
vragenlijsten voor cn na dc training in.

Tralning\proccdurc

Dc training bestond uit twee sessies. Tijdens dc eerste sessie werden studiemethode attributies
gcmduceerd voor dc slechte resultaten op dc fysica toets, cn werden verschillende studicslratc-
gictn besproken. In dc tweede sessie, meestal twee weken later, kregen de subjecten dc gelegen-
heid om terugkoppeling tc krijgen over hun vorderingen. I>e hele training duurde een maand.
De eerste sessie werd gedurende de eerste weken georganiseerd, dc tweede sessie gedurende de
laatste iwcc weken.

l.rrur trttir Kleme groepjes van iin loi drie (gewoonlijk Iwee) subjecten namen deel aan de
rente sessie Naargelang hel aantal deelnemers nam de/c sessie ongeseer 2) lol minuten in
beslag I>e liamingsprcKcdure vi>or de eerste sessie bestond uit vijf fasen

Ciedufcndc dc rrnir fair kregen de subjcctrn ten blad papier mei een histogram uil vorig
ondcr/iick aan dc Vrijc IJniscriitcil Hrussel Dil histogram Irninde aan dal een l«rKmendc
proporiir san geslaagde sludrntrn m dr ecrsir kandidatuur mrer rffidCnlr sludirmrihixlen
hadiirn griappoitcrid bij lussentijdse rtamcnt Mrcf m brt bt|/ondcr scimriddr
7'; san de
goUigdr sludcnlrn rtn »nnig fllmfnir. . ren m4li|r tlluifnlf. rn : ren limcliil

-ocr page 235-

Frank van Overwalle 231

efficiënte studiemethode na het afleggen van hun tussentijdse examens. (Deze gegevens zijn
authentiek). Nadat de betekenis van dit histogram aan de subjecten was uitgelegd, besloot de
trainer dat '..studiemethode een belangrijke oorzaak kan zijn van slagen of mislukken in de
eerste kandidatuur'.
Tijdens de
tweede fase, ging de trainer als volgt verder:

'..Daarom gaan we nu over studiemethoden praten. We zullen het echter niet hebben over één
goede studiestrategie, omdat een geschikte studiemethode van de ene tot de andere student
Verschilt. Wat goed is voor de ene student, kan slecht zijn voor de andere. Daarom moet iedere
student een eigen studiemethode zoeken en kiezen, die het best past voor hem- of haarzelf.
Aan de subjecten werd dan gevraagd uit te leggen hoe zij hadden gestudeerd voor de vorige toets
fysica of hoe zij zouden studeren voor de volgende toets:

'Stel je voor datje voor je bureau zit, en datje besloten hebt fysica te studeren. Je nota's liggen
op je bureau. Hoe zou je beginnen studeren? Of tracht je te herinneren hoe je gestudeerd hebt
voor de vorige toets. Hoe heb je dan gestudeerd? Zijn er verschillen met de manier waarop je nu
fysica studeert?'

Bij het beantwoorden van deze vragen, vermeldden vele subjecten spontaan dat zij problemen
hadden ondervonden met de manier van werken voor de vorige toets. Ongeveer de helft onder
hen had al enig inzicht in de redenen van deze problemen en hoe die de volgende keer vermeden
konden worden. De andere helft had evenwel geen idee van de mogelijke tekorten in hun
Studiemethode. In zulke gevallen overliep de trainer samen met het subject een aantal mogelijke
oorzaken ('Is het mogehjk dat het iets te maken heeft met...') of werden de andere subjecten in
de groep (indien er waren) aangemoedigd om hun opinie te geven over de studiemethode van
hun medestudent en enkele oplossingen voor te stellen.

In de derde fase werd dit gesprek verder gezet en aangevuld met informatie die de trainer
aanbood. De subjecten kregen twee bladzijden die ze zorgvuldig moesten lezen. Op deze
bladzijden werd een schematisch overzicht gegeven over 5 essentiële stappen tijdens het stude-
ren cn werden enkele meer specifieke studietips vermeld. De trainer vroeg aan de subjecten om
tijdens het lezen hun opinie over de inhoud te geven:

'Zoals je kan zien wordt het studeren van een cursus in vijf algemene stappen ingedeeld:
bepalen van het studiedoel, oriënterend studeren, grondig studeren, memoriseren cn herhalen.
Bij elke stap is aangegeven wanneer en onder welke omstandigheden je die moet gebruiken.
Verder staan enkele studie-'recepten' of studiestrategieën vermeld. Hoewel deze 5 algemene
stappen in meerdere of mindere mate terugkomen als je ccn cursus studeert, kan het zijn dat de
meer specifieke studiestrategieën van minder nut voor je zijn. Daarom moet je dit zorgvuldig
doorlezen en vertellen welke strategieën je gewoonlijk wel en welke je nict gebruikt, cn welke
strategieën geschikt lijken voor jou cn welke niet'.

Het eerste blad was een heel schematische samenvatting van ccn studentengids over studie-
methoden (Van Wan/eele, 1982), uitgegeven door de universiteit cn beschikbaar voor alle
''udenten. Het tweede blad was een aanpassing van ccn lijst van studiestrategieën die studenten
Scrapportccrd hadden in dc studie van Weinstein (1978). Dc/e informatie werd rondgedeeld om
het gesprek rond studiemethodcn tc stimuleren cn de studenten enkele aanduidingen over
*hcrnaticve strategieën aan te reiken. Gedurende de/c en de vonge discussie in fase twee werd
''op ttelet geen enkel rechtstreeks advies, specifieke straicgtc-ophmmg of uitleg over dc »tof tc
VffKhaffcn. De sludenten werden mtcgendecl aangcmocdijid om ccn eiftcn iludicmcthodc le
die het meest geschikt leek voor hcn/clf en het best aingrpjil \»a» aan dc huidige
Problemen Indien lubjcctcn andere oor/akcn van hun falen vermeldden, /oaU mocilijk-
|*eidntr»adof »cinip ttudif.dan ging de trainer daar nicl opmen bracht hij het «mdcrwcrpvan
"et gc\prck icfug op tiudiciirairgiren

'ndc wrri/c^dif ticldcdc trainer ajmlf Muilcnicn Mxir i<m ccn tiul \andf f>Mca Iftriiofdic
"P d*! fnomcnl gcdiKCcrd uctd. Ir bc\ludcrcn mcl het ipctiliclic doel alternatieve Hudiebena-
p'mgcn \ix>r hun (wuaiunu» le en uit Ie pioNeren I>e »uhjeiten Vorvlrn ;el( hel ileel

"■'en (lal /c »iKlen tluJeren. en i«.^ reilde lenjrie hepalen I en nieuoe afiprajk »etil gemaakt

-ocr page 236-

232 Attributie retraining

voor ongeveer twee weken later. Op deze tweede sessie zouden de subjecten dan de gelegenheid
krijgen enkele examenvragen van vorige jaren op te lossen en zo hun vorderingen gedurende de
laatste weken te testen.

In de eindfase kregen de studenten een laatste tekst die de hoofdpunten van de training in het
kort samenvatte.

Tweede sessie. Tijdens deze sessie werden aan de subjecten enkele voorbeelden van examen-
vragen van vorige jaren gegeven. Ze konden ze ofwel gewoon doorkijken, ofwel enkele vragen
proberen op te lossen (het juiste antwoord werd nadien gegeven). Hun resultaten werden niet
bijgehouden omdat deze test voor hun eigen belang was. Hoewel deze mogelijkheid om eigen
vorderingen te evalueren aan alle experimentele subjecten werd geboden, hebben slechts 17 van
de 32 aan de tweede sessie deelgenomen, en hebben slechts 9 onder hen effectief enkele
oefeningen proberen op te lossen (wat eveneens betekent dat slechts 9 studenten de huistaak uit
fase 4 werkelijk hadden uitgevoerd).

Metingen na de training

Prestaties. Enkele dagen nadat alle trainingssessies waren beëindigd, werd een volgende tussen-
tijdse toets over de nieuwe fysica leerstof, nl. Elektriciteit, afgenomen (maart). Deze tussentijds
toets fungeert als natoets in dit experiment. De periode tussen de laatste sessie en de natoets
varieerde van twee weken tot enkele dagen.

Tijdens de eerste examenzittijd (juni) werd het eindexamen fysica afgenomen. Dit examen
omvatte de volledige stof over het deel Elektriciteit, en was, zoals alle andere fysica toetsen, in
een meerkeuze vorm opgesteld.

Cognities. Enkele dagen nadat de resultaten van de toets na de training bekend waren gemaakt,
werd een nieuwe vragenlijst rondgedeeld gedurende een gewoon hoorcollege. Door enkele
praktische redenen was het op dat ogenblik niet meer mogelijk alle experimentele en controle
subjecten te contacteren. (De aantallen zijn vermeld in Tabel 3). Deze vragenlijst handelde over
attributies van toetsresultaten, en over het gebruik van studiestrategieën.

De studenten kregen een lijst met 10 mogelijke oorzaken van hun resultaat: moeilijk-
heidsgraad, algemene intelligentie, geluk, interesse, inspanning, verlangen om de toets goed te
doen, hulp van anderen (professoren, assistenten, studenten, studie-advies,...), manier van
lesgeven door de professor, studiemethode, voorkennis. De studenten moesten aangeven in
welke mate elke factor een
zeer sterk negatieve (=1) tot zeer sterk positieve (=9) invloed had
gehad op hun resultaat van de toets
{geen invloed =5).

Vervolgens werd aan de studenten gevraagd aan te geven hoe vaak zij enkele specifieke
studiestrategieën hadden gebruikt, gaande van
zeer weinig of nooit (=1) tot zeer veel of altijd
(=5). Deze lijst van 16 studiestrategieën wijkt af van de vorige lijst aangeboden vóór het
experiment. Met name werden enkele algemene studiemethoden weggelaten en vervangen door
specifieke strategieën die aan bod waren gekomen tijdens de trainingsgesprekken.

De lijst omvat dezelfde strategieën als vóór de training die niet met een sterretje zijn gemerkt,
en is aangevuld met de volgende studiemethoden: formules helemaal zelf proberen afleiden;
vraagstukken herhalen die je in de les of oefeningen gezien hebt; de formules van buiten leren;
vraagstukken oplossen waarvan je de oplossingsmethode vooraf niet kent; de stof grondig
proberen begrijpen; verbanden leggen tussen de verschillende formules; vraagstukken berede-
neerd oplossen (bv. je afvragen waarom je die oplossingsmethode moet gebruiken).

Tenslotte werd aan de studenten gevraagd om een schatting te geven over hun resultaat op het
eindexamen fysica (juni zittijd). De antwoordscore van deze schatting varieerde van
O -19%
(=1) tot 90-700% (=9).

-ocr page 237-

Frank van Overwalle 233

RESULTATEN

Hoewel de studenten vrij waren al dan niet mee te werken aan het aangekondigde 'studiebege-
leidingsprogramma' bleek de belangstelling in het begin tamelijk groot. Slechts 8 van de
uitgenodigde studenten namen niet deel aan het trainingsprogramma, wat de experimentele
groep reduceert tot 32 of 80% van het oorspronkelijke aantal. Helaas vielen nog eens vijftien
studenten af na een eerste sessie, en hebben van de overblijvende zeventien studenten die beide
sessies hebben bijgewoond, slechts negen volledig meegewerkt (huistaak vervuld). Het was
opvallend dat de afspraken voor de tweede sessie zeer weinig werden nagekomen tijdens de
week die voorafging aan de fysica natoets.

Vóór de training

Gelijkwaardigheid van de onderzoeksgroepen. Om de gelijkwaardigheid van controle- en expe-
rimentele groepen na te gaan, worden mogelijke verschillen in de appreciatie van oorzakelijke
factoren en in het gebruik van studiestrategieën vóór de training getoetst met de Student-/ test.
In de eerste en laatste kolom van Tabel 1 zijn de gemiddelden weergegeven van de controle- en
volledige experimentele groep. Enkel één item, over het gebruik van inhoudsschema's, blijkt
significant te verschillen. De experimentele groep blijkt vóór de training al aanmerkelijk meer
gebruik te maken van deze studiestrategie dan de controlegroep
(p < .05). We mogen dus
besluiten dat de controle- en de gehele experimentele groep bijna volledig gelijkwaardig zijn.

Deelname aan de training. Kan de geringe deelname aan de training, of aan de opgelegde
huistaak, verklaard worden vanuit verschillen bij de studenten die reeds bestonden vóór de
training? Om dit na te gaan wordt in Tabel 1 de experimentele groep verder opgesplitst in
subjecten die 1 sessie (n=15), 2 sessies zonder huistaak (n=8) of 2 sessies met huistaak (n=9)

Tabel 1. Gemiddelde gerapporteerde oorzaken en strategieën vóór de attributie training.

Controle Experimentele groep

Eén sessie

Twee sessies

Twee sessies

Totaal

zonder huistaak

met huistaak

(n = 40)

(n=15)

(n = 8)

(n = 9)

(n = 32)

Oorzaken

Moeilijkheidsgraad

1.60

1.60

2.13

1.44

1.69

Intelligentie

3.08

3.07

3.00

2.78

2.97

Toeval

1.78

1.60

1.50

2.38

1.79

Interesse

3.10

3.40

3.25

3.22

3.31

Inspanning

■ 2.68

2.80

2.13

2.78

2.63

Verlangen naar goed resultaat

3.45

3.71

3.63

4.00

3.77

Hulp van anderen

2.27

1.87

2.71

2.00

2.10

Manier van lesgeven

3.90

3.93

3.63

4.44*

4.00

Studiemethode

2.13

2.00

2.13

2.44

2.16

Voorkennis

2.58

2.87

2.75

2.44

2.72

Strategieën®

^houdsschema

2.28

2.33

3.17

3.89**

2.97*

Van buiten leren

2.70

2.33

2.57

1.56**

2.16

Zoeken naar structuur

2.08

3.00

3.14

4.00*

3.32

Herhalen

3.03

2.93

2.43*

3.00

2.84

toepassingen nagaan

2.41

2.27

1.29***

2.67

2.16

'^oot. Dc antwoordscore gaat

van 1 t.e.m. 5. Het aantal deelnemers in elke groep staat tussen haakjes

a vermeld.

^ Enkel strategieën waar significantie-verschillen optreden zijn vermeld.
Significant verschil met controle conditie: *p < .05. ««p < .01. »»*p < .001.

-ocr page 238-

234 Attributie retraining

hebben bijgewoond. Deze verschihende uitgesphtste experimentele groepen worden vergeleken
met de controlegroep door middel van de Student-/ test.

Tabel 1 laat zien dat naarmate de participatiegraad toeneemt, een aantal verschillen duide-
lijker naar voren komen. De experimentele subjecten die na 1 sessie afhaken, tonen geen
verschillen met de controlegroep. De studenten die beide sessies hebben bijgewoond verschillen
met de controlegroep wat het gebruik van studiestrategieën betreft. Zij die thuis geen oefe-
ningen hebben gemaakt blijken met name minder gebruik te maken van een aantal gunstige
studiestrategieën (herhalen, toepassingen nagaan), terwijl studenten die wel de huistaak hebben
uitgevoerd meer gebruik maken van gunstige studiemethoden (inhoudsschema's maken,
zoeken naar logische struktuur, minder van buiten leren). Deze laatste groep is ook meer dan
controle subjecten van mening dat de professor of assistenten goed les geven.

Uit de voorgaande resultaten leiden we af dat mogelijke oorzaken van mislukking of
gebruikte strategieën geen rol hebben gespeeld in het vroegtijdig verlaten van de training. Deze
factoren hebben blijkbaar wel een invloed gehad op het al dan niet vervullen van de huistaak.
Studenten die thuis nieuwe methoden hebben ingeoefend staan (1) meer positief tegenover de
professor die het experiment had aangekondigd en als belangrijk had omschreven, en (2) maken
meer gebruik van een aantal studiestrategieën die op een diepgaande verwerking van de stof
wijzen. Wat de algemene effectiviteit van hun studiemethode betreft, verschillen ze nochthans
niet van de controlegroep. Blijkbaar is het gebruik van een grondige studiemethode een goede
stimulans voor medewerking aan een training waarin onder andere deze studiestrategie (cf. fase
3) behandeld wordt. Daaruit kunnen we afleiden dat deze studenten zich misschien meer
hebben ingezet voor onze training omdat ze daarin een aantal bekommernissen terugvonden
waar ze, meer dan de anderen, zelf al mee bezig waren.

Na de training

Examenprestaties. In Tabel 2 zijn de resultaten op de natoets en de eindtoets opgenomen. De
experimentele subjecten scoren op de natoets iets hoger dan de controlegroep. De gemiddelde
stijging op de natoets is -t-0.85 in de controle conditie, en +0.97 in de experimentele conditie.
Een covariantie analyse op de resultaten van de natoets (met de voortoets als covariaat) toont
aan dat dit verschil verwaarloosbaar is, F(l,69) =.285,
ns.

In Tabel 2 is de experimentele groep verder opgesplitst naargelang ze 1 of 2 sessies hebben
bijgewoond en de huistaak al dan niet hebben uitgevoerd. Uit deze opsplitsing komt naar voren
dat studenten, die de opdracht hebben uitgevoerd, betere resultaten behalen op de natoets. Hun
toetsscores stijgen gemiddeld met +3.00. De experimentele subjecten die hun huistaak niet
hebben vervuld bereiken lagere veranderingsscores, -0.06 en +0.62. Een covariantie analyse
toont aan dat de experimentele groep die de huistaak heeft vervuld significant beter presteert
dan de controlegroep, ^1(1,46) = 4.476,/) < .05.

Samengevat laten de resultaten zien dat het algemeen effect van de training nihil is. Uit het
experiment blijkt dat enkel studenten die thuis geprobeerd hebben om een of meerdere studie-
tips toe te passen, en daarover terugkoppeling hebben gekregen - door het oplossen van

Tabel 2. Examenprestaties per onderzoeksgroep vóór en na de attributie training

Controle groep

Experimentele groep

Eén sessie

Twee sessies

Twee sessies

Totaal

zonder huistaak

' met huistaak

(n = 40)

(n=15)

(n = 8)

(n = 9)

(n = 32)

Voortoets ♦

5.85

5.93

6.63

6.78

6.34

Natoets

6.70

5.87

7.25

9.78

7.31

Verschil (na-voor)

+0.85

—0.06

+0.62

+3.00

+0.97

Eindtoets

5.63

6.33

5.37

6.66

6.19

Verschil (eind-voor)

-0.22

+0.40

—1.25

—0.12

—0.15

Noot. Maximumscore = 20.

-ocr page 239-

Frank van Overwalle 235

vroegere examenvragen - betere resultaten behalen op de natoets dan de controle subjecten.

Tabel 2 vermeldt verder nog de resultaten van de eindtoets in juli. De kleine voorsprong van
de groep studenten die zijn huisopdracht vervuld had, valt volledig weg. Covariantie analyses
op de eindresultaten (met de voortoets als covariaat) geven aan dat er geen verschillen zijn
tussen de controle conditie en de volledige experimentele conditie, F (1,69) = .313,
ns of de
hogervermelde beperkte experimentele groep, /'(1,46) = .402,
ns. We kunnen besluiten dat de
training drie maanden later geen enkel effect ineer heeft.

Veranderingen in attributies. Is de training erin geslaagd nieuwe attributies te induceren bij de
experimentele subjecten? Om dit na te gaan werd een nieuwe vragenlijst afgenomen na de
natoets. De resultaten zijn vermeld in Tabel 3. De verschillen tussen controle conditie enerzijds,
en de experimentele groepen anderzijds, werden onderzocht met een Student-t test.

Wat de attributies betreft, laat Tabel 3 duidelijk zien dat de groep deelnemers die hogere
prestaties behaalt, ervaart dat inspanning
(p<.05), verlangen (p <.05), en vooral studiemethode
(P <.001) en hulp van anderen
{p <.001) een gunstige invloed hebben gehad op hun resultaten.
Verder laat de tabel een toename zien van intelligentie attributies (/»<.05) bij deelnemers die 1
sessie hebben gevolgd. Dit onverwachte resultaat is moeilijk te verklaren, tenzij dat het toevallig
is vermits slechts 9 van de 15 oorspronkelijke subjecten hierover een uitspraak hebben gedaan.
In tegenstelling tot attributies, vermeldt Tabel 3 geen significante veranderingen in studiever-
Wachtingen.

Tenslotte toont Tabel 3 bij de experimentele groepen verscheidene verschillen aangaande de
gevolgde strategieën. Daarvan springt het gebruik van inhoudsschema's bij de deelnemers die
thuis oefeningen hebben gemaakt, het meest in het oog (p<.001). Ook het samenvatten van de
stof komt bij deze groep meer voor (p<.05).

Samengevat wijzen deze resultaten erop dat we er met het attributie retrainingsprogramma in
geslaagd zijn nieuwe, beheersbare en onstabiele attributies van studieresultaten te induceren bij

Tabel 3. Gemiddelde gerapporteerde attributies en strategieën na de attributie training

Controle groep Experimentele groep

Eén sessie Twee sessies Twee sessies
zonder huistaak met huistaak
____
(n = 26/40)" (n = 9/15) (n = 5/8)_(n = 7/9)

Attributies"

Moeilijkheidsgraad 2.69 2.44 3.00 2.71

Intelligentie 5.08 6.11* 5.80 4.71

Toeval 4.27 3.22 5.40 4.63

nteresse 6.04 5.89 6.00 6.13

Inspanning 5.04 5.44 5.60 6.75*

Verlangen naar goed resultaat 5.72 6.00 6.40 7.25*

Hulp van anderen 4.58 488 5.60 6.75***

Manier van lesgeven 6.19 6.75 6.60 6.63

Studiemethode 4.73 478 5.60 6.63***

iSS^ennis_454_5TJ1_100_163_

_ Verwachtingen''

Ig;;^htingen over eindexamens 479_433_«O_IH_

, Strategieën'

'nhoudsschema maken 2.12 3.00 2.80 3.88***

^antekeningen maken 3.50 4.22* 3.00 3.63

belangrijkste begrippen noteren 3.72 3.78 4.80** 4.13

^^l^amenvatten_112_122_Z40_3.75*

a Aantal respondenten op het totaal van de onderzoeksgroep.'' Score varieert van 1 t.e.m. 9.' Enkel
, strategieën waar significantie verschillen optreden zijn vermeld. De score varieert van 1 t.e.m. 5.
^»'gnificant verschil met controle conditie: * p < .05. ** p <.01. *** p <.001.

-ocr page 240-

236 Attributie retraining

subjecten die aan alle trainingssessies en -opdrachten hebben deelgenomen. Dat hun resultaten
in gunstige zin beïnvloed worden door studiestrategieën lag in de direkte bedoehng van dit
experiment. De positieve invloed van hulp verwijst waarschijnhjk naar de extra steun die de
begeleiding aan deze subjecten bood. Bij de andere experimentele subjecten is de inductie van
causale toeschrijvingen aan studiemethode of andere oorzaken niet gereahseerd.

Verband tussen attributies en prestaties. Kan een verbetering van resultaten op de natoets
verklaard worden door veranderingen in het attributiepatroon? Correlaties tussen attributies en
scores op de natoets kunnen daarover enige aanduidingen geven.

Bij de groep deelnemers wiens resultaten verbeteringen laten zien veronderstelt een attribu-
tionale benadering een positieve correlatie tussen toeschrijvingen en prestaties. Over de andere
deelnemers bestaan geen specifieke veronderstellingen. De relatie tussen toeschrijvingen en
prestaties kan zowel poshief als zeer laag zijn. In het geval van een positieve correlatie evolueren
attributies en prestaties in dezelfde richting: geen toename in de waargenomen oorzaak heeft
geen toename in prestaties tot gevolg. In het geval van een nul-verband is er geen effect van
attributies op resultaten: de oorzaak wordt kennelijk zo weinig belangrijk geacht dat ze totaal
geen impact heeft op studiehandelen (zie ook Van Overwalle, 1985).

Zowel in de controlegroep als in de drie experimentele groepen correleren attributies van
studiemethode positief met het resultaat op de natoets, en de verschillen tussen deze correlaties
zijn onbeduidend. De correlaties met de natoets zijn
.49,p<.05, .62, ns, .38, ns en .54, ns, voor
controle- en experimentele groepen. Met uitzondering van de conrolegroep bereiken deze
correlaties geen significantie door het gering aantal respondenten op de tweede vragenhjst
(n==9,5 en 7).

Een minder homogeen patroon treedt op bij correlaties met attributies aan hulp van anderen.
Bij de controlegroep en bij beide experimentele groepen die 2 sessies hebben bijgewoond
correleren attributies van hulp positief met het resultaat op de natest: .43,/)<.05,.53,
ns en .54,
ns. Bij de experimentele groep die 1 sessie heeft gevolgd is de correlatie laag, -.27, ns. De
correlaties in de experimentele groepen bereiken opnieuw geen significantie door het gering
aantal respondenten.

Betreffende inspanning en verlangen treden analoge verbanden op. Bij deelnemers die thuis
oefenen zijn de correlaties .45,
ns en .34, ns respectievehjk. Correlaties bij de andere onder-
zoeksgroepen zijn zeer laag of positief, gaande van .11 tot .65 (alle
ns).

Door het kleine aantal respondenten en insignificante correlaties blijven de bovenvermelde
gegevens over mogelijke verbanden tussen attributies en prestaties tamehjk speculatief. Bij
aggregatie van meerdere experimentele groepen worden de meeste correlaties evenwel
significant. Voorzichtige conclusies over de al of niet toename van prestaties in functie van
wijzigingen in de toegeschreven oorzaken zijn dus mogelijk.

De gegevens suggereren dat een groep deelnemers studiemislukkingen meer gaat toeschrijven
aan de gevolgde methode en daardoor nieuwe stfategieën in de persoonhjke werkmethode
integreert en beter presteert; en omgekeerd, dat de andere subjecten lage studiecijfers in mindere
mate toeschrijven aan de gevolgde studiemethode en daarom naderhand geen vooruitgang laten
zien op de natoets.

Verder blijkt dat de deelnemers die nieuwe methoden toepassen, ook beter presteren doordat
zij het trainingsprogramma als een positieve steun ervaren, zich beter inzetten en sterker
vedangen naar goede resultaten; en omgekeerd, dat de andere subjecten niet vooruit gaan
omdat ze van opvatting zijn dat hulp, inspanning of goed resuhaat te onbelangrijk ofte weinig
aanwezig zijn.

*

Verband tussen strategieën en prestaties. Hoewel we bij dit experiment niet zijn uitgegaan van
enige veronderstellingen aangaande een mogelijk verband tussen specifieke studiestrategieën en
behaalde studieresultaten, lijkt het aannemelijk dat de toepassing van sommige methoden een
gunstige weerslag heeft op studiecijfers. Gezien de groep deelnemers die beter presteert ook

-ocr page 241-

Frank van Overwalle 237

rapporteert dat zij significant meer gebruik maakt van inhoudsschema's en samenvattingen,
gaan we de correlaties na tussen deze strategie-variabelen en resultaten op de natoets.

Wat het aanwenden van inhoudsschema's betreft, is de correlatie van de deelnemers die thuis
geoefend hebben positief, .57,
ns\ de correlaties bij de andere studenten zijn zeer laag: -.05,. 19 en
-•12 (alle
ns). Uit het experiment bhjkt dus dat het gebruiken van inhoudsschema's enkel een
positieve weerslag heeft op resultaten van deelnemers die studiemethoden belangrijk vinden en
daar thuis ook daadwerkelijk op oefenen; en omgekeerd, dat deze studiestrategie minder
gebruikt wordt door de andere deelnemers en ook geen effect heeft op hun prestaties.

Geen verband werd vastgesteld tussen het gebruik van samenvattingen en studieresultaten,
'■=.05,
ns, bij deelnemers die thuis oefeningen hebben gemaakt. Bij de anderen variëren de
correlaties tussen -.73 en .33,
ns. Dit duidt erop dat deze strategie niet systematisch bijdraagt tot
hogere prestaties.

DISCUSSIE

De bedoehng van dit experiment is de studieresultaten van slecht presterende studenten te
Verbeteren door mislukkingen toe te schrijven aan weinig efficiënte studiemethoden. Uit de
resultaten op de natest bhjkt dat slechts een beperkt gedeehe van de experimentele groep
vooruit gaat. Enkel die studenten die de training en de opdracht tot het einde toe uitvoeren en
daarover terugkoppeling krijgen (28% van de participanten), behalen op de natoets hogere
resultaten dan de controlegroep. Deze kleine winst gaat helemaal verloren bij de eindtoets, drie
maanden na de training.

Uit het experiment bhjkt dat de vooruitgang in prestaties van deze groep vooral gestimuleerd
Wordt door meer efficiënte studiemethoden en extra begeleiding. In mindere mate worden
hogere inspanning en verlangen naar goede resultaten volgens deze studenten verantwoordehjk
geacht voor hun resultaten. Dit bevestigt gedeeltelijk het theoretische principe dat het uitgangs-
punt vormde van dit programma, namelijk dat een toename van beheersbare en onstabiele
toeschrijvingen een verhoging teweeg brengt in studieprestaties.

Geen bevestiging werd gevonden voor de veronderstelling dat gunstigere attributiepatronen
en prestaties gepaard gaan met hogere succesverwachtingen. Een verklaring van de betere
prestaties op basis van een toegenomen motivatie lijkt dan ook in dit experiment minder
aannemelijk. De vooruitgang zou wel eens het direct gevolg kunnen zijn van het thuis oefenen
met bepaalde, nieuwe studiemethoden zoals het gebruiken van inhoudsschema's. Voor de
eindtoets zijn niet opnieuw begeleiding en oefeningen voorzien, en de aangekweekte studieme-
thode attributies zijn kennelijk op zichzelf niet bij machte om studiemethoden en -inzet blijvend
te beïnvloeden.

Hoewel een deel van de deelnemers vooruitgaat op de natoets, ligt het algemene resuhaat van
de training onder de verwachtingen. De bedoeling van attributie retrainingen is immers alle
studenten met leerproblemen en geringe motivatie aan te zetten om betere prestaties te leveren.
Blijkbaar kan het trainingsprogramma op vele punten verbeterd en aangevuld worden. Vooral
op het vlak van de deelname zijn bijkomende maatregelen gewenst.

Hoe kan de geringe participatie verklaard worden? Verschillende oorzaken lijken hierin een
rol te spelen. Sommige ervan situeren zich in de organisatie van de training, anderen hebben te
maken met achtergrondkenmerken van de studenten, en nog andere met de training zelf. De
meeste van deze oorzaken werden hier en daar in de tekst al aangehaald; hieronder sommen we
^e in een kort overzicht op.

Organisatie van de training

l^en eerste oorzaak van geringe deelname kan omschreven worden als de organisatie van de
'raining, zoals bijvoorbeeld de ongunstige timing van de training. De laatste afspraken voor de
'weede sessie vielen enkele dagen vóór de natoets. Vooral deze afspraken werden niet nage-

-ocr page 242-

238 Attributie retraining

Icomen: deze studenten verkozen klaarblijkelijk hun tijd aan de toets i.p.v. aan de training te
besteden. Met organisatie bedoelen we ook andere externe factoren zoals aantrekkelijkheid of
integratie binnen het onderwijs, die de participatie van leerlingen of studenten kunnen bevorde-
ren. Alschuler (1973, hoofdstuk 3 t.e.m. 5) beschrijft in meer detail een aantal participatiepro-
blemen en maatregelen bij de organisatie van motivatie interventie programma's (die evenwel
gebaseerd zijn op de theorie van Mc Clelland, 1965).

Studentenkenmerken

Ook studentenkenmerken spelen een rol in de mate van deelname aan training. De resultaten
suggereren dat studenten met een positievere houding tegenover de professor die het pro-
gramma had aangekondigd en gesteund, beter meedoen aan de training. Ook studenten die
rapporteren dat zij grondiger studeren met aandacht voor logische struktuur en opbouw van de
inhoud, vinden in de training blijkbaar een aantal gelijkwaardige onderwerpen terug die hen
aanzetten om de training tot het einde toe te volgen. (Toch vermelden deze studenten in het
algemeen niet dat zij meer efficiënt studeren; de onderzoeksgroepen werden immers geselec-
teerd op deze variabele).

Trainingstechnieken

De hoger vermelde problemen kunnen niet volledig verklaren waarom onze attributie manipu-
latie voor een aantal studenten niet heeft gewerkt. Een vergelijking met andere trainingen kan
bijkomende informatie geven over de context waarin, en de hulpmiddelen waarmee een attribu-
tie training tot een succesvol resultaat leidt.

Onze gegevens tonen aan dat het attributie retrainingsprogramma niet effectief is indien de
studenten enkel te horen krijgen dat studiemethoden belangrijk zijn of enkel over studiepro-
blemen kunnen praten. Het trainingsprogramma wordt pas effectief wanneer de studenten
daarbij ook een verbeterde studieaanpak hebben uitgeprobeerd en daarover terugkoppeling
hebben gekregen. Dit bevestigt het standpunt van Bandura (1977) over efficiënte veranderings-
technieken. Bandura stelt immers dat louter verbale technieken weinig efficiënt zijn, en dat
eigen gedragservaringen veel efficiëntere leermiddelen zijn om verandering te brengen in
cognitieve processen en prestaties. Daaruit volgt dat taken voor leerlingen of studenten in elk
geval uitgevoerd moeten worden, hetzij door ze in de training zeifin te lassen (zoals bij de meeste
attributie retrainingen met kinderen), hetzij door de aantrekking en het nut ervan te versterken,
hetzij door de controle op de uitvoering te verscherpen.

Een succesvol voorbeeld van strategiemanipulatie is het experiment van Anderson (1983). Uit
het feit dat de taak in dit onderzoek (overtuigen van medestudenten om bloed te geven) nieuw
was, leiden we af dat de inductie van de experimentele attributies wellicht relatief eenvoudig
was. Schoolse taken zijn voor 18-jarigen echter niet zo nieuw meer, zodat verandering brengen
in hun causale toeschrijvingen wellicht betekent dat bepaalde vast gevormde opvattingen over
slagen en mislukken moeten gewijzigd worden. Het is mogelijk dat die opvattingen dermate
stevig waren dat studenten niet overtuigd konden worden van het belang van studiemethoden
als verklaring voor hun studiefalen (cf. cognitie 1). In het onderwijs op universitair niveau moet
misschien meer werk gemaakt worden van dit onderdeel in de training.

Daarenboven kregen studenten in het experiment van Anderson (1983) herhaaldelijk de
gelegenheid om hun strategieën te toetsen (de gecontacteerde persoon kon weigeren of accepte-
ren) en eventueel aan te passen. In dit experiment kregen studenten slechts eenmaal die
gelegenheid. Om de beheersbaarheid en de veranderbaarheid (cf. cognitie 2) van studiestrate-
gieën voor sommige studenten aannemelijker te maken, is het misschien aangewezen een
vaardigheidstraining in studiemethoden toe te voegen of studenten meer terugkoppeling te
geven over hun vorderingen.

De vergelijking met het experiment van Anderson (1983) suggereert dus een uitbreiding van
de huidige middelen om motivatie bij eerstejaars te versterken. Nochtans toont het onderzoek
van Wilson en Linville (1982,1985) aan dat met tamelijk eenvoudige ingrepen een positieve
ombuiging van motivatie en prestaties in het univershair onderwijs bereikt kan worden. Welke

-ocr page 243-

Frank van Overwalle 239

aspecten uit hun experimenteel opzet hebben dit mogelijk gemaakt? Een eerste punt is dat
Wilson en Linville de prestaties van anderen niet alleen door statistieken, maar ook middels
interviews op videoband hebben getoond. Ook Nisbett et al.(1976) heeft benadrukt dat leven-
dige en concrete informatie onontbeerlijk is om toehoorders te kunnen beïnvloeden. Dit was
niet het geval in onze training, waar het statistisch materiaal op een droge manier werd
gepresenteerd.

Een tweede punt is dat Wilson en Linville (1982,1985) geen expliciete oorzaak aangeven, en
enkel aan de subjecten suggereren dat slechte resultaten naderhand kunnen verbeteren (d.w.z.
onstabiel zijn). Indien we aannemen dat 18-jarigen tamelijk vaste opvattingen hebben over
oorzaken van slagen en mislukken aan de universiteit, dan is het aanbieden van slechts één
alternatieve verklaring, met name studiemethode, misschien niet altijd even relevant voor
jongeren van die leeftijd.

NOOT

' Om de uiteenzeUing kort te houden verwaarlozen we hier het feit dat Abramson et al. (1978) uitgaan van
objectieve 'controllability' of beheersbaarheid. Wortman & Dintzer (1978)en Anderson en Arnoult (1985)
hebben erop gewezen dat niet zozeer de objectieve, maar wel de toegeschreven beheersbaarheid van belang
is.

REFERENTIES

Abramson, L.V., Seligman, M.E.P. &Teasdale, J.D. (1978). Learned helplessness in humans: Critique and

Tt{omu\&X\on. Journal of Abnormal Psychology. 87, 49-74.
Alschuler, A.S. (1973).
Developing achievement motivation in adolescents. Englewood Cliffs, N.J.: Educa-
tional Technology Inc.

Anderson C.A., & Jennings, D.L. (1980). When experiences of failure promote expectations of success: The

impact of attributing failure to ineffective strategies. Journal of Personality, 48, 393-407.
Anderson C.A. (1983). Motivational and performance deficits in interpersonal settings: The effect of

attributional style. Journal of Personality and Social Psychology. 45,1136-1147.
Anderson C.A., & Arnoult, L.H. (1985). Attributional models of depression, loneliness, and shyness. In J.

Harvey & G. Weary {Eds.) Attribution: Basic issues and applications. New York: Academic Press.
Andrews, G.R., & Debus, R.L. (1978). Persistence and causal perceptions of failure: Modifying cognitive

altTihulions. Journal of Educational Psychology, 70, 154-166.
Bandura, A. (1977). Self-efficacy: Toward a unifying theory of behavioral change. Psychological review, 84,
191-215.

Chapin, M. & Dijck, D.G. (1976). Persistence in children's reading behavior as a function of N lenght and

attribution retraining. Journal of Abnormal Psychology. 85, 511-515.
Dweck, C.S. (1975). The role of expectations and attributions in the alleviation of learned helplessness.

Journal of Personality and Social Psychology, 31, 674-685.
Fowler, J.W., & Peterson, P.L. (1981). Increasing reading persistence and altering attributional style of

\tamtdht\^\ts% chWdrtn. Journal of Educational Psychology, 73, 251-260.
Forsterling, F. (in druk). Attributional retraining: A review.
Psychological Bulletin.
Gatting-Stiller, I., Gerling, M., Stiller, K., Voss, B., & Wender, I. (1979). Aenderungen der Kausalattribu-
ierung und des Ausdauerverhaltens bei misserfolgsmotivierten Kindern durch Modellernen.
Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 11, 300-312.
*Jerling, M., Petry-Scheldrick, A., & Wender, I. (1981). Zur Modellierung von Attributionen: Effecte
zusätzlicher Erfolgserwartungen und affectiver Anreize.
Zeitschrift für Entwicklungspsychologie. 4
312-321.

Meckhausen, H. (1975). Fear of failure as a self-reinforcing motive system. In I.G. Sarason & C.D.

Spielberger (Eds.) Stress and anxiety, vol. 2. Washington D.C.: Hemisphere.
Meckhausen, H., & Krug, S. (1982). Motive modification. In A.J. Stewart (Ed.).
Motivation and society, pp

274-318. San Francisco: Jossey-Bass.
Medway, F.J., & Venino, G.R. (1982). The effects of effort feedback and performance patterns on

children's attributions and task persistence. Contemporary Educational Psychology, 7, 26-34.
Miller, R.L., Brickman, P., & Bolen, D. (1975). Attribution versus persuasion as a means for modifying
behavior.
Journal of Personality and Social Psychology, 31, 430-441.

-ocr page 244-

240 Attributie retraining

Nisbett, R.E., Borgida, E., Crandall, R., & Reed, H. (1976). Popular induction: Information is not
necessarily informative. In J.S. Caroll & J.W. Payne (Eds.).
Cognition and social behavior.
Hillsdale, N.J.: Laurence Erlbaum.

Schunk, D.H. (1981). Modeling and attributional effects on children's achievement: A self-efficacy analysis.
Journal of Educational Psychology. 73, 93-105.

Schunk, D.H. (1982). Effects of effort attributional feedback on children's perceived self-efficacy and
achievement.
Journal of Educational Psychology, 74, 548-556.

Schunk, D.H. (1983). Ability versus effort attributional feedback: Differential effects on self-efficacy and
achxtytratnt. Journal of Educational Psychology, 75, 848-856.

Van Overwalle, F. (1985). When are attributions causal and when not: Causal vi. descriptive attributions.
Educo rapport nr. 79, Vrije Universiteit Brussel, Brussel.

Van Wanzeele, L. (1982). Gids studiemethode. Brussel: Free University Brussels, Internal publication.

Weiner, B. (1979). A theory of motivation for some classroom experiences. Journal of Educational Psycho-
logy, 71,
3-25.

Weiner, B. (1984). Principles for a theory of student motivation and their application within an attributio-
nal framework. In Ames, R. & Ames, C. (Eds.)
Student motivation. Vol. 1, New York: Academic
Press.

Weiner, B. (1985). 'Spontaneous' causal thinking. Psychological Bulletin, 97, 74-84.

Weiner, B., Nierenberg, R., & Goldstein, M. (1976). Social learning (locus of control) versus attributional
(causal stability) interpretations of expectancy of success.
Journal of Personality, 44, 52-68.

Weinstein, C.E. (1978). Elaboration skills as a learning strategy. In O'Neil, H. Jr. (Ed.). Learning strategies.
New York: Academic Press.

Wilson, T.D., & Linville, P.W. (1982). Improving the academic performance of college freshmen: Attribu-
tion therapy revisited.
Journal of Personality and Social Psychology, 42, 367-376.

Wilson, T.D., & Linville, P.W. (1985). Improving the performance of college freshmen with attributional
techniques.
Journal of Personality and Social Psychology, 49, 287-293.

Wong, P.T.P.,& Weiner, B. (1981). When people ask 'why' questions, and the heuristics of attributional
search. Journal ofPersonality and Social Psychology, 40, 650-663.

Wortman, C.B., & Dintzer, L. (1978). Is an attributional analysis of the learned helplessness phenomenon
viable?: A critique of the Abramson - Seligman - Teasdale reformulation.
Journal of Abnormal
Psychology, 87,
75-90.

Manuscript ontvangen 23-10-1985

Definitieve versie ontvangen 3-2-1986

-ocr page 245-

Tijdschrift voor Onderwijsresearch, 11 (1986), Nr. 5, pp. 241-254.

Hardopdenken en Protokolanalyse

J.A. Breuker», J.J. Elshout**, M.W. van Someren* en B.J. Wielinga**
Universiteit van Amsterdam

abstract

This article presents a review of thinking aloud and protocol analysis as a research method. After a
comparison with other methods, a psychological model of the think aloud process is presented and
used to justify the use of this method. A number of practical suggestions on how to conduct an
experiment with thinking aloud and protocol analysis are given. This article is an extension of the
work by De Groot (1965; epilogue) and Ericsson and Simon (1984), who present comprehensive
review of research that is relevant to the think aloud method.

1. INLEIDING

Men spreekt van hardopdenken wanneer iemand nadenkt over een bepaald probleem en daarbij
voortdurend onder woorden brengt wat hij denkt, dwz. wat er door hem heengaat. Van zijn
uitingen wordt een protokol gemaakt en dat levert de ruwe data voor de protokolanalyse.
Hardopdenken wordt meestal gebruikt in onderzoek naar probleemoplossen. De proefpersoon
krijgt opdracht een bepaald probleem op te lossen (de hoofdtaak) en daarbij hardop te denken,
dat wil zeggen 'voortdurend te vertellen wat hij denkt'. De proefleider grijpt slechts in als de
proefpersoon een van beide taken niet naar behoren uitvoert (hij valt stil of dwaalt heel ver af
van de hoofdtaak).

Hardopdenken is een relatief jonge onderzoeksmethode. Hoewel de psychologie altijd
gebruik heeft gemaakt van verbale verslagen als gegevens, ging het daarbij niet om onderzoek
met behulp van hardopdenken, maar om introspektie en retrospektie (zie par. 4). Het eerste
gedokumenteerde gebruik van de eigenlijke hardopdenkmethode komt op naam van Watson
(in 1916). Verder is er sporadisch gebruik van gemaakt in de 20'er en 30'er jaren (door onder
meer Claparède en Duncker) en in de 40'er jaren door De Groot (1946, 1965). Pas de laatste
jaren verheugt de methode zich in grote populariteit, mede als gevolg van de bloei van de
cognitieve psychologie.

Hardopdenken en protokolanalyse maken deel uit van een uitgebreid repertoire aan meet-
methoden waarover een onderzoeker van denkprocessen beschikt. Al deze methoden hebben
een indirekt karakter, want denkprocessen zijn helaas niet rechtstreeks observeerbaar. Als we
Willen weten hoe bijvoorbeeld een architekt een bouwwerk ontwerpt, hoe een leeriing een
natuurkundeopgave oplost, hoe een leraar de moeihjkheden van zijn leerhng analyseert en een
passende ingreep bedenkt, hoe een bacterioloog een infektieziekte diagnosticeert of hoe een
schaakmeester zijn volgende zet bedenkt, dan vragen we naar een beschrijving van een proces
dat zich in het hoofd van de denker afspeelt. We kunnen de methoden om iets over denkproces-
sen te weten te komen als volgt classificeren:

Vakgroep Sociaal-Wetenschappelijke Informatica
* Vakgroep Psychonomie, Subfaculteit Psychologie

l^e auteurs danken Ronald Hamel, Martin Brand en de redaktie van TOR voor hun opmerkingen op een

^erdere versie van dit artikel.

Adres: Herengracht 196,1016 BS, Amsterdam.

-ocr page 246-

242 Hardop denken en protokolanalyse

Analyse van het produkt

Het produkt van het denkproces kan geanalyseerd worden. Uit het uiteindelijke ontwerp
dat een architekt gemaakt heeft, is soms af te leiden dat hij bv. associaties met bepaalde
beelden of standaard oplossingen heeft gebruikt.

Gedragsobservatie

Sommige denkprocessen gaan gepaard met niet-verbaal gedrag dat zich direkt laat
observeren, zoals manipulaties van allerlei
Objekten, en soms is het mogelijk technische
middelen te gebruiken om bv. oogbewegingen te registreren of zelfs fysiologische varia-
belen zoals de verbrandingssnelheid, en daarmee de aktiviteit, van hersencellen op
verschillende plaatsen.

Verbale verslagen van de proefpersoon zelf

De onderzoeker kan de proefpersoon vragen hoe diens denkproces vedoopt en de
antwoorden als gegevens gebruiken. Binnen deze kategorie zijn vooral drie
dimensies
van belang, waarlangs deze methoden verschillen: de tijd tussen het denkproces en het
verslag, de mate waarin het uitbrengen van verslag de hoofdtaak stoort en de mate
waarin de proefpersoon zijn denkproces moet interpreteren ten behoeve van de verslag-
geving.

Vergelijk bijvoorbeeld het stellen van algemene vragen ('hoe gaat U te werk bij het
ontwerpen van een gebouw?') met het refereren aan een bepaald denkproces ('hoe kwam
U op de gedachte hier de Wet van Boyle te gebruiken?'). De eerste vraag vergt veel meer
organiserende, interpreterende en herinnerende aktiviteit van de proefpersoon dan de
tweede en de antwoorden zullen dan ook meer bepaald zijn door verwachtingen,
rationalisaties, weglatingen en 'indringers' dan bij de tweede vraag.

U kunt dh verschijnsel wellicht bij uzelf konstateren als U zich afvraagt hoe U tijdens
het schrijven op de spelling van een woord komt. Wellicht bent U geneigd te denken dat
U de spellingsregels van de lagere school heeft toegepast. Is dat echt zo? Er zijn
sterke
aanwijzingen, dat dat slechts in een klein deel van de gevallen inderdaad zo is. Over
retrospektieve verslagen van denkprocessen die pas lang na afloop
gerapporteerd
worden, bestaat veel onderzoek dat een ontmoedigend beeld geeft van de
betrouwbaarheid van dergelijke data.
De vertekeningen zijn nog groter als het gaat om
zaken waarover de rapporteur sterke preconcepties heeft. Nisbett en Wilson (1979)
geven
een bloemlezing van onderzoek waarin de onbetrouwbaarheid van dergelijke gegevens
wordt aangetoond (zie ook Ericsson en Simon, 1980).

Prompting

In kombinatie met bovenstaande methoden van dataverzamelen beschikt de
onderzoeker bovendien over de mogelijkheid om tijdens het denkproces in te grijpen. HU
kan het proces onderbreken met een gerichte vraag of een plotselinge extra taak. Het gaat
hierbij niet om maatregelen die de proefpersoon bij de taak moeten houden, maar om
ingelaste onderbrekingen die tot doel hebben de kennis van de proefpersoon op een
bepaald moment nader te exploreren (bv. 'Deed dit probleem je denken aan een
eerder
probleem?').

Welke plaats neemt hardopdenken in in deze klassifikatie? Een onderzoek met deze methode
levert behalve een produkt van het denken ook een spoor van observaties op, in de vorm van het
protokol. Er is een duidelijk verschil met andere methoden waarbij verbale verslagen
worden
verzameld, doordat hardopdenken vrijwel synchroon met het denkproces zelf verloopt en
doordat de proefleider niet ingrijpt in het denkproces of de verwoording daarvan.

-ocr page 247-

J.A. Breuker et al. 243

2. THEORIE, METHODE EN MEETTHEORIE

In onderzoek bestaat er altijd een zekere afstand tussen de theorie en de data. In de praktijk van
het onderzoek wordt deze afstand van twee kanten af overbrugd: uit de theorie worden
implikaties afgeleid voor de onderzoekssituatie en het overblijvende gat wordt gevuld door
gebruik tc maken van standaardassumpties, waarop de methode berust. We noemen deze
assumpties de meettheorie. Neem als voorbeeld het begrip 'angst', dat voor een bepaalde
onderzoekssituatie wordt geoperationaliseerd als 'huidweerstand', gemeten met elektroden en
een spanningsmeter. De
theorie impliceert dat angst de huidweerstand vermindert en het meten
van de huidweerstand met elektroden en een spanningsmeter is gebaseerd op een
meettheorie, in
dit geval afkomstig uit de natuurkunde (de wet van Ohm). De meettheorie rechtvaardigt de
methode en de interpretatie van de resultaten. In een psychologisch onderzoek naar bijvoor-
beeld oorzaken en gevolgen van angst, staat primair de relatie tussen angst en andere verschijn-
selen ter diskussie, maar natuurlijk moet de onderzoeker bedacht zijn op de mogelijkheid dat
zijn methode berust op een onjuiste aanname. Andere voorbeelden van het gebruik van
meettheorieën zijn statistische methoden (die berusten op wiskundige theorie), allerlei psycho-
logische tests (die berusten op psychologische theorie), interpretatie van vragenlijsten (die
berusten op statistische theorie en psychologische kennis van 'antwoordgedrag'), etc..

De mate waarin men bij het onderzoek naar een theorie een beroep doet op een meettheorie,
hangt af van het bereik van de theorie. Als men beschikt over een theorie die het cognitief
apparaat, de daarin aanwezige kennis en ervaring, de interaktie van dit geheel met de omgeving
en de manier waarop die in taaluitingen wordt omgezet, volledig voorspelt, dan is een extra
meettheorie overbodig geworden. Het wordt uh de uitingen van de proefpersoon direkt
duidelijk of de theorie klopt. Over het algemeen bevindt een psychologische onderzoeker zich
echter niet in een dergelijke komfortabele positie. Kognitief psychologische theorieën hebben
meestal betrekking op globale verbanden tussen bv. oplosmethoden, onderwijsmethoden,
cognitieve vaardigheden en prestaties. Bij het onderzoek naar dergelijke theorieën doet men een
beroep op een methode.

Naast het bereite van de theorie (gaat de theorie over probleemoplossen, de inhoud van een
bepaald vak, de produktie van taal) zijn nog twee kenmerken van de theorie van belang: de mate
Van detail en de voorspelde variatie bij de proefpersonen. Een theorie kan zo gedetailleerd zijn
dat men voorspellingen kan afleiden op het niveau van frases in het protokol, maar in andere
gevallen gaat het om globalere kenmerken van het proces. In dat laatste geval moeten grotere
Protokolfragmenten als geheel gekodeerd worden. Een theorie die variaties tussen proefper-
sonen voorspelt (bv. in de vorm van alternatieve oplosmethoden), moet op grond van de theorie
duidelijk blijken welke denkprocessen wel en welke niet in de theorie passen.

Vergelijk bv. het onderzoek van van Dalen-Kapteijns en Elshout-Mohr (1981) naar het leren
Van woordbetekenissen uit zinnen met dat van Jansweijer, Elshout en Wielinga (1985) naar het
oplossen van natuurkundesommen. In het eerste onderzoek ging het om de vraag of proefper-
sonen die verschillen in een cognitieve vaardigheid (CMU uit het model van Guilford) er
Verschillende oplosmethoden op na houden bij het leren van de betekenis van nieuwe woorden
uit een aantal voorbeeldzinnen. (Bijvoorbeeld: 'In een hete zomer is het prettig als je kamer een
kolper heeft'.) Op grond van een theorie over leerprocessen was het mogelijk een model op te
stellen over het leren van woordbetekenissen uit dergelijke zinnen, maar het was niet duidelijk
Wat nu de verschillen tussen hoog-CMU'ers en laag CMU'ers zijn. In een eerste experiment
bleek dat degenen met een hoge CMU score een analytische inperkingsstrategie volgden. Ze
probeerden uit de voorbeeldzinnen kenmerken af te leiden die de betekenis van het te leren
Woord afgrenzen. De laag-CMU'ers daarentegen, volgden een 'holistische' strategie. Ze
bedachten op grond van een voorbeeldzin een mogelijke betekenis en als die niet in overeen-
stemming was met een nieuwe zin, bedachten ze iets nieuws. Bij de laatste strategie is het
•"oeilijker om mogelijke interpretaties van zinnen die langer geleden gepresenteerd zijn te
Verdisconteren en deze groep was dan ook minder succesvol. Een tweede verschil was dat

-ocr page 248-

244 Hardop denken en protokolanalyse

degenen met een hoge CMU score op grond van een voorbeeldzin verschillende mogelijke
kenmerken bedachten. In dit geval gaat het onderzoek over globale kenmerken van het
denkproces. De klassificatie 'analytisch inperken' vs. 'holistisch' is vrij globaal en vergt daar-
door nogal veel interpretatie. Op grond van het eerste experiment kon tevens een codeerschema
opgesteld worden, waarmee protokolfragmenten gekodeerd kunnen worden in termen van deze
twee strategieën. In een tweede experiment werd de hypothese vervolgens duidelijk bevestigd.
De onderzoeksters rapporteren betrouwbaarheden van boven de .80 voor de scores 'analytisch/-
holistisch' en 'uitwerken van alternatieven'.

In het onderzoek van Jansweijer cs. ging het om een zeer gedetailleerd model van het
denkproces van studenten die natuurkundesommen oplossen. Het model voorspelt niet alleen
het globale karakter van het oplosproces, maar impliceert stap voor stap wat een student met
een bepaalde opgave zal doen. De interpretatie heeft hier vooral betrekking op wat de proefper-
soon met een bepaalde uitdrukking bedoelt. Als de proefpersoon bv zegt 'de zuiger wordt snel
uitgetrokken, oh, dat betekent dat er geen warmte wordt uitgewisseld', kan men zich afvragen
of hij nu ook weet dat het proces 'adiabatisch' is, zoals het model voorspelt.

Ook het gebruik van hardopdenken en protokolanalyse berust op aannamen over het
hardopdenkproces en om de methode te verantwoorden moeten we deze aannamen expliciet
maken en beargumenteren.

3. HARDOPDENKEN: METHODE EN MEETTHEORIE

Hier geven we een theorie van het hardopdenkproces zelf, die ons kan helpen bij de interpretatie
van de gegevens die met hardopdenken worden verkregen. Uit dit model volgt welke verteke-
ningen en hiaten het protokol kan bevatten en welke faktoren deze vertekeningen veroorzaken.
Het model is ontwikkeld door Elshout (1976) en komt overeen met het onafhankelijk ontwik-
kelde model van Ericsson en Simon (1980). Het is gebaseerd op een model van het kognitief
funktioneren waarin het geheugen wordt gezien als opgebouwd uit perceptuele buffers, een
Korte Duur Geheugen, een Werkgeheugen (informatie die 'in focus' is) en een Lange Duur
Geheugen. Denken is in dit model het aktiveren en konstrueren van nieuwe Werkgeheugen
inhouden. Deze kunnen afkomstig zijn uit een perceptuele buffer of uit het LDG. Er worden in
het denken cycli onderscheiden, waarbinnen nieuwe informatie wordt geaktiveerd of
wordt
gekonstrueerd (bv. als het werkgeheugen de elementen 'tel op', '2' en '3' bevat, wordt vervolgens
'resultaat 5' gekonstrueerd). Aangezien de capaciteit van het werkgeheugen beperkt is, zal het
aktiveren en konstrueren van nieuwe elementen ertoe leiden dat oudere elementen gedeakti-
veerd worden. (Naast aktivatie en konstruktie zijn er speciale operaties voor het geaktiveerd
houden van werkgeheugeninhouden.) Operaties (ie. namen van operaties) zelf kunnen ook
inhouden van het werkgeheugen zijn, bv. in de vorm van doelen. (Als een proefpersoon zegt 'Nu
ga ik proberen om Y uit te rekenen' verbaliseert hij het opstellen van een nieuw doel en de
operatie die hij gaat toepassen.) Aktiviteiten kunnen zodanig geautomatiseerd zijn, dat ze niet
tot verbalisaties leiden en die denkstappen vallen dan ook buiten het bereik van de hardop-
denkmethode.

Hardopdenken is nu een proces waarin elementen van het werkgeheugen worden vertaald
naar natuurlijke taal en vervolgens worden uitgesproken. Een proefpersoon is doorgaans niet in
staat om telkens
alle werkgeheugeninhouden te verbaliseren en een protokol bevat derhalve
slechts een deel van de elementen. Proefpersonen rapporteren soms dat ze meer gedacht hebben
dan ze verteld hebben en verder blijkt bij de analyse van de protokollen dat ze soms
konklusies
trekken die vrijwel onverklaarbaar zijn als ze niet eerder een andere konklusie getrokken
hebben.

Uit het feit dat informatie in het algemeen slechts een keer geverbaliseerd wordt blijkt, dat
eigen verbalisaties doorgaans niet via auditieve waarneming opnieuw het
werkgeheugen
bereiken.

-ocr page 249-

J.A. Breuker et al. 245

Uit dit model van het hardopdenkproces kunnen we afleiden welke faktoren het hardop-
denken zullen beïnvloeden (vgl. Elshout, 1976 en Ericsson en Simon, 1980):

(a) de verwoordbaarheid van de werkgeheugen elementen: bij sommige taken is de informatie in
bv. figurale, auditieve of olfaktorische vorm (denk aan het ontdekken van verborgen figuren,
melodieën of de kruiden die gebruikt zijn bij de bereiding van een gerecht), waardoor het
verbaliseren moeilijker is en meer capaciteit van het werkgeheugen in beslag neemt.
(NB.
Sommige proefpersonen, zoals koks of musici, beschikken over een gedifferentieerde termino-
logie voor het verwoorden van dergehjke informatie en dan is dit probleem min of meer
opgelost.)

(b) de aard van de hoofdtaak: sommige denktaken doen een zodanig groot beroep op het
werkgeheugen (hetzij door de snelheid waarmee gewerkt moet worden, hetzij door het aantal
elementen dat tegelijk 'in focus' moet zijn), dat het verbaliseren niet meer lukt, zonder dat de
normale taakuitvoering verstoord wordt. Bij de meeste oplosprocessen waarbij tijdsdruk geen
rol speelt, vertraagt verbaliseren de uitvoering van de hoofdtaak enigszins, zonder dat er
aanwijzingen zijn, dat het proces
anders verloopt (zie Ericsson en Simon, 1980). Taken waarbij
snelheid van belang is of het werkgeheugen zwaar belast wordt, zijn dan ook minder geschikt
voor onderzoek met hardopdenken.

(c) de verbale capaciteiten van de proefpersoon. Er zijn grote verschillen tussen proefpersonen in
het vermogen tot verbaliseren. Elshout (1976) heeft laten zien, dat deze verschillen samen-
hangen met verbale intelligentie. Onze ervaring met de methode duidt er echter tevens op, dat
enige oefening bij een aantal proefpersonen helpt. Het effekt van oefening is vermoedelijk, dat
het
verbaliseren meer geautomatiseerd wordt. Dit vermoeden wordt gesteund door een grote
hoeveelheid evidentie, aangedragen door Ericsson en Simon en verder door een fraai onderzoek
van Spelke, Hirst en Neisser (in Neisser, 1979) waaruit bhjkt dat mensen kunnen leren om
tegelijk een diktee te maken en een boek te lezen. Dit suggereert dat ook hardopdenken na
oefening nauwelijks enige kapaciteit in beslag neemt.

(d) de capaciteUen van de proefpersoon op de hoofdtaak. Als een proefpersoon heel goed is op de
hoofdtaak, gaat het redeneren zeer snel en verblijven tussenresultaten zeer kort in het werkge-
heugen, waardoor er weinig gelegenheid is om ze te verbaliseren. Andere denkstappen zijn zelfs
helemaal geautomatiseerd. Een echte expert 'ziet' de oplossing vaak direkt (vgl. bv. Jongman,
1967). Proefpersonen met een zeer
laag niveau op de hoofdtaak hebben vaak al hun werkgeheu-
gencapaciteit nodig voor de hoofdtaak, waardoor het verbaliseren hen moeilijk valt. Verder
missen ze soms het vokabulair waarover een expert beschikt (zie (a)). Onze ervaring is dat
gematigd gevorderden de mooiste (ie. volledigste) protokollen produceren. Dit effekt is verder
onafhankelijk van het vaardigheidsniveau op hoofdtaak.

Dit imphceert dat het moeilijkheidsniveau van de taak voor de proefpersoon de mogelijk-
heden voor protokolanalyse bepaalt! Een taak die voor een proefpersoon erg gemakkehjk is, zal
een protokol met een zeer grove korrel opleveren, vergeleken met wat een beginner op zo'n taak
produceert.

4. INTROSPEKTIE: THEORIE EN MEETTHEORIE

Om duidehjk te maken dat de gevaren die aan het klassieke gebruik van introspektie kleven,
bezworen zijn, vergelijken we in kort bestek de meettheorie (en de methode) van introspektie
met die van hardopdenken. In onderzoek met introspektie, zoals dat werd gedaan door bv. de
Wiirzburg school, geeft de proefpersoon geen synchroon verslag, maar brengt hij na afloop van
een taak verslag uit over het verloop van de gebeurtenissen die zich in zijn bewustzijn hebben
afgespeld. In de toen gangbare opvatting is voor een goed verslag enig begrip nodig van
bewustzijnsprocessen. (1) Men gaf dan ook de voorkeur aan deskundigen op het gebied van het

(') We willen ons niet mengen in de diskussie over de preciese relatie tussen bewustzijn, werkgeheugen en
aandacht, maar beperken ons tot de opmerking dat werkgeheugen een beperkter begrip is, dat vooral in de
kontekst van cognitie gebruikt wordt (en niet bij bv. in de kontekst van 'bewustzijnstoestanden').

-ocr page 250-

246 Hardop denken en protokolanalyse

bewustzijn als proefpersonen: psychologen. Op grond van de meettheorie over hardopdenken
kunnen we voorspellen, dat de protokollen van introspektie meer vertekend zullen zijn dan die
van hardopdenken. De proefpersonen hebben immers de opdracht om hun bewustzijnsin-
houden te bestuderen en te interpreteren en verder zullen ze als gevolg van hun training en
achtergrond sterke verwachtingen hebben over de resultaten hiervan.

Behalve de werkwijze is ook de interpretatie van de gegevens in het kader van moderne
cognitieve theorieën anders dan de interpretatie in het kader van de bewustzijnspsychologie. In
de 20'er jaren werd introspektie gezien als 'kijken' naar je eigen bewustzijn. Aangezien dit
introspektieve 'kijken' analoog met het gewone waarnemen werd gezien, en waarnemen zelf
weer een bewustzijn veronderstelt, leidt dit tot een circulaire defmitie (zie bv. Ryle, 1949). In het
kader van het momenteel gangbare model treedt deze moeilijkheid niet op, omdat men het
proces ziet als
verbaliseren. Verbaliseren is een proces, dat niet meer om het lijf heeft dan
'omzetten in woorden'. Het veel rijkere aspekt van 'waarnemen' is hierdoor uit de definitie
verdwenen, waardoor de circulariteit zich niet meer voordoet. Overigens komen bij sommige
taken werkgeheugeninhouden voor die sterk op scenes in de echte wereld lijken (bv. bij de
mentale rotatie van ruimtelijke voorwerpen). In dat geval is verbaliseren relatief moeilijk, maar
toch vindt er daarbij slechts een minimum aan interpretatie en transformatie plaats.

Volgens de meettheorie van introspektie zijn de gegevens van hardopdenken duidelijk
inferieur aan die van introspektie. Hardopdenken laat de proefpersoon immers onvoldoende
gelegenheid om zijn introspektieve waarnemingen rustig te analyseren, en tevens stelde het hoge
eisen aan de proefleider, in een tijd waar geen apparatuur voor geluidsopname beschikbaar was.

5. EMPIRISCHE EVIDENTIE VOOR STORENDE EFFEKTEN VAN HARDOP-
DENKEN

De meettheorie voor hardopdenken is zelf een theorie met toetsbare implikaties. Twee implika-
ties zijn dat naarmate een proefpersoon zijn werkgeheugeninhouden meer moet interpreteren,
de resulterende protokollen meer bepaald zullen zijn door zijn verwachtingen en verder dat dit
het uitvoeren van de hoofdtaak meer zal beïnvloeden dan wanneer er alleen hardop
gedacht
wordt. Ericsson en Simon (1980, 1984) geven een nagenoeg volledig literatuuroverzicht van
empirische gegevens hieromtrent. Dergelijke gegevens zijn afkomstig uit onderzoek, waarin
resultaten en gegevens over het proces zijn vergeleken van proefpersonen die wel of niet eeri
verbaal verslag van het denken uitbrachten. Dit onderzoek is alleen mogelijk bij taken waarbij
de (oplos)tijd geen cruciale faktor is en waarbij uit andere bron (dan hardopdenken) gegevens
over het denkproces beschikbaar zijn. Voorbeelden zijn korrelaties tussen prestaties op tests,
vragen achteraf en handelingsprotokollen. De empirische gegevens bevestigen vrijwel zonder
uitzondering de juistheid van de meettheorie. Vertekeningen als gevolg van het geven van een
verbaal verslag treden
alleen op als de verbalisatietaak betekent dat de proefpersoon extra werk
moet doen, in de vorm van onthouden, interpreteren of verbaliseren van niet-verbale gegevens
en
niet als hij alleen hardop denkt.

Een voorbeeld van het effekt van het geven van een uitgebreider verbaal verslagen werd
gedemonstreerd in een experiment van van Someren en Elshout (1984), waarin proefpersonen
een schaakpartij moesten uitspelen en na elke zet moesten vertellen hoe ze bij hun zet gekomen
waren, een lichte vorm van zelfreflektie. Op de taak zelfwas geen effekt zichtbaar, maar bij een
tweede, verwante taak bleek dat de 'refiekterende' groep van het eerste probleem meer
geleerd
had dan een niet-refiekterende controlegroep. De opdracht tot reflektie leidt ertoe, dat de
proefpersonen hier meer doen (samenvatten, formuleren en overzien van hun denkproces) dan
bij hardopdenken." Dit leidt ertoe, dat men meer leert, hetgeen zijn vruchten afwerpt bij het
oplossen van nieuwe problemen.

Overigens moet men hierbij wel bedenken, dat het in dergelijk onderzoek steeds ging om
vergelijkingen binnen een laboratoriumsituatie.
De vraag of de denkprocessen die hier optreden
representatief zijn voor het 'denken' in het dagelijks leven of dat hier sprake is van 'laborato-

-ocr page 251-

J.A. Breuker et al. 247

riumdenken' dat bepaald wordt door 'demand characteristics' van de situatie, staat los van de
vraag naar de validiteit van hardopdenkprotokollen.

6. HARDOPDENKEN IN DE ONDERZOEKSPRAKTIJK

Wanneer men hardopdenken als methode gebruikt, moet een theorie over het denkproces
worden geoperationaliseerd in termen van het protokol. Dat betekent dat men een coderings-
schema moet maken dat aangeeft welke verbale uitingen als indikatie voor een veronderstelde
denkstap gezien worden. Als hardopdenken in een theorievormende fase van het onderzoek
gebruikt wordt, en er dus nog geen operationaliseerbare theorie voorhanden is, worden het
coderingsschema en de theorie in een cyclisch proces gekonstrueerd. Vervolgens moeten de
Protokollen met dit coderingsschema geanalyseerd worden, waarna de konsekwenties voor de
theorie beschouwd en gerapporteerd moeten worden. Bij het operationaliseren, het verwerven
en het analyseren van de data doen zich een aantal moeilijkheden voor, die deels van praktische
en deels van theoretische aard zijn. Hieronder bespreken we deze moeilijkheden en de oplos-
singen, voorzover ons bekend.

6.1. Het afnemen van Protokollen

Onze ervaring met het afnemen van hardopdenkprotokollen leert dat een aantal zaken van
belang zijn. Hieronder noemen we enkele punten waarop men dient te letten.

Het moet de proefpersoon duidelijk zijn dat het gaat om hardopdenken, dat wil zeggen om
een zo precies mogelijk verslag van het denkproces. Interpretaties, generalisaties en analyses
zijn de taak van de onderzoeker en de proefpersoon verschaft slechts de gegevens en dient zich
dus te beperken tot het uitvoeren van zijn taak (vgl. par. 7.2.1). Een goede formulering is 'voer
de volgende taak uit en vertel daarbij hardop wat er door je heengaat'.

Bij het eigenlijke hardopdenken is het van belang, dat het denkproces zo min mogelijk wordt
verstoord. Dat bereikt men door de proefleider zo min mogelijk en zo neutraal mogelijk te laten
ingrijpen. Hij dient zich te beperken tot een kleine aanmoediging ('blijf praten') als de proefper-
soon stilvalt. Het is beter om aanmoedigingen als 'wat denk je nu?' te vermijden, omdat die
aanleiding kunnen geven tot ongewenste reflektie op het eigenlijke denken ('er gaat van alles
door me heen'). De proefleider dient zich verder zo neutraal mogelijk te gedragen. Zoals altijd in
situaties waarin een proefleider lijfelijk aanwezig is, bestaat hier de mogelijkheid dat hij het
proces bëinvloedt. Als dit gevaar groot lijkt, kunnen hiertegen de gebruikelijke kontrole
maatregelen genomen worden ('blinde' proefleider, verschillende proefleiders vergelijken, etc.).
Verder dient de proefleider de proefpersoon erop te wijzen dat deze geen moeite hoeft te doen
om een mooi, voor de onderzoeker begrijpelijk protokol te produceren. Direktheid staat
Voorop.

6.2. Proefpersonen

Zoals gezegd zijn sommige proefpersonen nauwelijks in staat tot hardopdenken. Dit geldt voor
Volwassenen met lage verbale intelligentie en personen voor wie de hoofdtaak zo gemakkelijk is,
dat ze hem automatisch uitvoeren. In het algemeen is het zinvol een oefenfase van 5 tot 10
minuten in te lassen, waarin proefpersonen kunnen wennen aan de taak. Ook bij het oefenen
moet men niet proberen de proefpersoon ertoe te brengen om meer te doen dan alleen
hardopdenken. De instruktie en aanmoedigingen in de oefenfase moeten gelijk zijn aan die van
de normale hardopdenksituatie.

6.3. Review

Zoals De Groot (1965) als schreef, is het vooral bij exploratief onderzoek zinvol om na afloop
Van het hardopdenken de proefpersoon opheldering te vragen over eventuele cryptische passa-
ges in het protokol. Een mogelijkheid is om de band van het protokol nog eens voor de
proefpersoon af te spelen en vragen te stellen over onduidelijkheden, maar nog effektiever is het

-ocr page 252-

248 Hardop denken en protokolanalyse

om uitgetypte protokollen met de proefpersoon door te nemen. Uiteraard dient men deze data
voorzichtiger te interpreteren, omdat voor deze gegevens de bezwaren gelden die we eerder
noemden.

6.4. Aanvullend handelingsprotokol

Voor sommige taken is een hardopdenkprotokol alleen onvoldoende, omdat de proefpersoon
gebaren maakt (bv. dingen aanwijst) of aantekeningen maakt, die onmisbaar zijn bij de
interpretatie. De onderzoeker kan hier gebruik maken van allerlei hulpmiddelen, zoals aante-
keningen maken over het gedrag van de proefpersoon of de proefpersoon laten schrijven op
transparanten en daar regelmatig nieuwe overheen leggen waardoor de volgorde van de
aantekeningen behouden blijft.

De uitvoering van de hardopdenktaak en de registratie van het protokol beperken natuurlijk
de toepassing van de methode. Naast taken waar snelheid van belang is, zijn bv. ook taken
waarbij meerdere deelnemers betrokken zijn minder geschikt. Met enige praktische inventiviteit
zijn echter allerlei situaties geschikt te maken voor hardopdenken. Bierman (1985) gebruikte in
een onderzoek naar onderwijsmethoden een opzet waarin een leerling en een leraar, gezeten in
verschillende ruimtes, met elkaar communiceerden door elkaar via computerterminals bood-
schappen toe te sturen. Leraar en leerling dachten beiden hardop en zowel de protokollen als de
verbale interaktie werden geregistreerd. Het gebruik van een computerterminal als 'kladblok',
waarop de proefpersoon aantekeningen kan maken, geeft tevens de mogelijkheid om een
volledig protokol van de aantekeningen te maken.

7. Analyse van de protokollen

Net als bij andere verbale data (zoals vragenlijsten en interviews) hangt de manier waarop de
data geanalyseerd worden af van de vraagstelling van het onderzoek. Belangrijk zijn de
volgende aspekten:

(a) is het onderzoek exploratief (theorievormend) of toetsend', dwz. is er een uitgewerkt model
van het denkproces voorhanden of niet. Veelal worden hardopdenken en protokolanalyse voor
exploratief onderzoek gebruikt, maar dit is niet noodzakelijk. Het onderzoek van Elshout
(1976) is een voorbeeld van toetsend gebruik in het kader van de theorie van Guilford. Op grond
van het resultaat van correlationeel onderzoek kon Elshout voorspellen wat de karakteristieke
moeilijkheid van de taak zou zijn en uit onderzoek op andere taken kon voorspeld worden hoe
proefpersonen daarmee om zouden gaan. Deze voorspellingen werden bevestigd door de
protokolanqlyses.

In de praktijk is het doorgaans niet mogelijk om op grond van de theorie een kompleet model
met codeerschema (zie par. 7.1.3) op te stellen en vindt er een cyclus plaats waarin modelbouw
en scoring elkaar afwisselen. In het algemeen begint deze cyclus met het opstellen van een eerste
model op grond van de onderzoeksvraagstelling of -hypothese en het resultaat van
rationele
taakanalyse
(zie onder).

(b) de korrel van de analyse: wordt het protokol per frase geanalyseerd, of worden slechts
globale kenmerken vastgesteld. Zoals we eerder opgemerkt hebben, zullen alleen gedachten die
enige tijd in het werkgeheugen blijven geverbaliseerd worden. Sommige denkprocessen ver-
lopen zeer snel of zijn zo geautomatiseerd, dat ze niet 'in focus' komen. Het heeft weinig zin deze
processen in het model uitgebreid te specificeren. Het beste is ze als elementaire bouwsteen te
zien.

7.1. Modelbouw

Hoewel modelbouw strikt genomen los staat van het gebruik van hardopdenken en protoko-
lanalyse, besteden we hier toch enige aandacht aan, omdat deze methode dikwijls in theorie-
vormend onderzoek gebruikt wordt. Aan een dergelijk model zijn verschillende aspekten te
onderscheiden, die de onderzoeker in staat stellen de constructie van het model stapsgewijs uit
te voeren.

-ocr page 253-

J.A. Breuker et al. 249

7.1.1. Rationele taakanalyse

Taakanalyse is een beschrijving van theoretisch verantwoorde methoden om een taak uit te
voeren. Een dergehjke analyse zal vaak putten uit andere bronnen dan hardopdenkprotokollen.
Voor veel taken is immers een theorie beschikbaar, of er bestaan voorschriften of bekende
oplosmethoden voor, die te vinden zijn in de hteratuur of bij deskundigen. Ook als proefper-
sonen niet de ideale methode volgen, kan zo'n taakanalyse een zinvol uitgangspunt voor de
analyse vormen. Vaak blijkt uit een taakanalyse waar precies de moeihjkheden zitten van een
taak en verder is een ideale oplosmethode geformuleerd in begrippen die een goed uitgangspunt
vormen voor de konstruktie van een psychologisch model. (2)

7.1.2. Psychologisch model

Sommige rationele taakanalyses veronderstellen processen waarvan we op psychologische
gronden mogen verwachten, dat mensen die niet zonder meer kunnen uitvoeren (denk bv. aan
komplexe berekeningen die vergen dat veel getallen tegelijk 'in focus' zijn). Om tot een plausibel
eerste model te komen wordt de 'ideale' methode hiertoe aangepast. Aan de andere kant volgen
mensen vaak grillige, theoretisch onverantwoorde redeneringen, die op psychologische
gronden voorspeld kunnen worden ('dit probleem hjkt nogal op het vorige, dus ik doe het op
dezelfde manier'). Ook dit wordt in het model verwerkt.

7.1.3. Codeerschema

In het algemeen is een psychologische theorie niet zo gedetailleerd dat de verbale data letterlijk
voorspeld kunnen worden. Zoals we in par. 2 bespraken, vult de onderzoeker zijn theorie aan
met operationalisaties voor de onderzoekssituatie. Bij hardopdenken en andere methoden die
gebruik maken van ongestruktureerde data nemen operationalisaties de vorm aan van een
codeerschema, waarin staat hoe de door de theorie voorspelde gebeurtenissen zich in het
protokol zullen manifesteren. Eventueel kan men het codeerschema 'achterwaarts' toepassen
en zo uit het model 'synthetische' protokollen afleiden, dat wil zeggen, protokollen die volgens
het model en het codeerschema voor kunnen komen.

Als het codeerschema wordt opgesteld aan de hand van protokollen, bestaat het gevaar dat de
onderzoeker onwillekeurig de codeerregels zo kiest dat ze zijn hypothese ondersteunen. Een
methode om dit effekt tegen te gaan is het materiaal te splitsen. Men gebruikt het ene deel om de
codeerregels te construeren en het andere om het model te toetsen (Vgl. De Groot, 1961).

In de meeste gevallen voorspelt een theorie individuele verschillen. Een goede mogelijkheid is
om het codeerschema zodanig op te stellen, dat alleen voorspeld gedrag gecodeerd kan worden.
Variaties in oplosgedrag die in overeenstemming zijn met de theorie, resulteren dan in verschil-
lende coderingen en de afwijkingen van de theorie verschijnen als ongecodeerde protokolfrag-
menten. Dit heeft het voordeel dat deze twee soorten gedragsvariatie duidehjk onderscheiden
Worden.

1-2. Scoring

7.2.1. Prepareren van protokollen

Bij het prepareren van de protokollen zijn er verscheidene opties:

- men kan de protokollen uittypen of direkt van de geluidsband analyseren.

- men kan de protokollen schonen van taalfouten en irrelevante elementen zoals onderbre-
kingen van de uitvoering van de hoofdtaak, kuchjes, zuchten, uitroepen, etc.. De reden om
een protokol te schonen is, dat de leesbaarheid vergroot wordt, maar hierbij gaat altijd
informatie verloren: zuchten en pauzes kunnen bv. wijzen op grote belasting van het werkge-
heugen en wat er bij een onderbreking gebeurt kan soms latere passages in het protokol
begrijpelijk maken. Onze ervaring is, dat schonen in het algemeen geen voordeel oplevert.

(2) Rationele taakanalyse is analoog aan die van Marr (1982) voor het onderzoek naar waarnemingspro-
•^«ssen en van Chomsky (bv. 1980) voor onderzoek naar taalgedrag. Rationele taakanalyse beschrijft de
'^ompetence en het psychologisch model de performance.

-ocr page 254-

250 Hardop denken en protokolanalyse

Protokollen worden er niet veel leesbaarder van en het risiko dat informatie verloren gaat is
groot. Wel kan het zinvol zijn om passages die niet bij het eigenlijke protokol horen apart te
houden van de rest van de analyse. In veel protokollen komen bijvoorbeeld introspektieve en
retrospektieve passages voor, waarin de proefpersoon praat
over zijn gedrag op de taak, in
plaats van de taak zelf uit te voeren. Hoewel deze passages informatief kunnen zijn, behoren
ze
niet tot het eigenlijke protokol. Men kan deze passages voor de eigenlijke analyse
afscheiden van de rest van het protokol.

- Men kan de protokollen segmenteren, dat wil zeggen verdelen in frases die elk een mededeling
bevatten. In de meeste gevallen zijn protokollen in gesproken vorm gemakkelijk en betrouw-
baar te segmenteren op grond van korte pauzes in de spraak.

- een problematische vorm van prepareren is het aanvullen van het protokol met 'voor de hand
liggende' interpretaties. Vaak kunnen heel aannemelijke aanvullingen gegeven worden, bv.
tussenstappen die de proefpersoon gemaakt
moet hebben, wil de rest verklaarbaar zijn of
vertalingen van individueel woordgebuik, dat begrijpelijk is in de context van de rest van het
protokol (bv. een proefpersoon die konsekwent het woord 'parameters' gebruikt voor
'variabelen'). Men moet hier telkens een grens trekken tussen interpretaties die in het
codeerschema verantwoord moeten worden en interpretaties waarvoor dat niet nodig is.

- Als een coderingsschema grof van korrel is, en betrekking heeft op bv. episodes in plaats van
enkele frases, is een eerste stap het verdelen van het protokol in
episodes waarop de code-
ringen toegepast kunnen worden.

7.2.2. Het ijken van een codeerschema

Een interessante mogelijkheid, aangegeven door Ericsson en Simon, is om een codeerschema te
ijken voor idiosynkratisch taalgebruik. Sommige proefpersonen hebben een eigen idioom, wat
de codering van losse uitspraken bemoeilijkt. Het is mogelijk om het codeerschema aan een
proefpersoon aan te passen op grond van een stuk protokol.

7.2.3. A utomatische protokolanalyse

Als men beschikt over een voldoende gedetailleerd model van het denkproces in kwestie kan op
basis hiervan een computerprogramma geschreven worden, dat assisteert bij het coderen. Het
programma presenteert telkens de mogelijke koderingen van een stap aan een menselijke
codeur en deze kiest daaruit op grond van het protokol. Wegens de problemen van het begrijpen
van natuurlijke taal is een menselijke codeur een onmisbare schakel.

Enkele voorbeelden van dergelijke systemen zijn beschreven door onder meer Bhaskar en
Simon (1979), Jansweijer, Wielinga en Elshout (1983), beide sterke modellen voor het oplossen
van natuurkunde opgaven, en door Langley en Ohlsson (1984), een zwak, maar algemeen model
onder meer voor elementair rekenen (aftrekken). Dit systeem is tevens in staat om uit een groot
aantal gekodeerde protokollen zelf een
sterk model te induceren van het oplosproces.

Een dergelijk systeem kan een handig hulpmiddel zijn, omdat de preciese implikaties van een
theorie niet altijd te overzien zijn. De computer neemt nü de taak van het bepalen hiervan over.

7.3. Deskripdeve statistiek

De in de psychologie gangbare statistische en psychometrische middelen voor het beschrijven
van data zijn minder geschikt voor protokolanalyse, omdat in kognitieve modellen dikwijls
volgorde en hiërarchie van metingen een grote rol spelen. Neem het volgende voorbeeld uit ons
eigen onderzoek naar het oplossen van natuurkundeproblemen (Jansweijer et.al., 1985). Het
model voorspelt, dat een proefpersoon eerst zal
oriënteren, dan zal oplossen en tenslotte zal
evalueren. Oriënteren bestaat uit (weer achtereenvolgens!) doorlezen van de opgave, herkennen
van belangrijke kenmerken van de opgave, maken van een schets van de situatie(s) waar de
opgave over gaat en invullen van de gegevens in de schets. Voor sommige van deze stappen
worden vervolgens weer specifieke voorspellingen gedaan over de uitvoering en het
resultaat-
Ook de oplosstap en de evaluatiestap zijn weer uitgewerkt naar specifiekere stappen.

-ocr page 255-

J.A. Breuker et al. 251

Hoe evalueert men nu dit model tegen een verzameling protokollen? Een methode is om uit
het model aparte hypotheses te halen en die afzonderlijk te toetsen. Men kan bv. een hypothese
opstellen over de volgorde waarin oriëntatie, oplossen en evalueren voorkomen en die apart
toetsen. Hiervoor zijn gebruikelijke statistische en psychometrische technieken beschikbaar.

Andere hypotheses hebben betrekking op het gedrag in bepaalde situaties die zich bij het
denken voordoen (bv. het overwinnen van
impasses). In dat geval zijn alleen bepaalde fragmen-
ten interessant en daarop kunnen weer de gebruikelijke methodologische middelen toegepast
worden.

Op deze manier kan men een aantal hypothesen uit de theorie toetsen. De meeste modellen
zijn onvoldoende gespecificeerd om zich integraal te laten toetsen. Hiervoor zou het immers
nodig zijn volledig te specificeren wat voor elke situatie die zich bij het denken voor kan doen,
voorspeld wordt.

7.4. Rapportage van onderzoek met de hardopdenkmethode

Bij publikaties over hardopdenken doet zich het probleem voor, dat men in kort bestek een
verifieerbaar overzicht van de resultaten moet geven. Naar onze mening zijn de belangrijkste
middelen hiervoor statistische maten voor de 'fit' van protokollen en het codeerschema en bij
voorkeur een volledig gecodeerd protocol en eventueel de (interbeoordelaars)betrouwbaarheid.

8. BEPERKINGEN EN PROBLEMEN

Wat zijn de voornaamste problemen bij het gebruik van hardopdenken en protokolanalyse? In
onze opvatting, en dit wordt gesteund door ervaring, is het voornaamste probleem met
hardopdenken en protokolanalyse de hoge eisen die het stelt aan de theorie. In een (bestaande of
te ontwikkelen) theorie die een protokol gedetailleerd kan verklaren, moeten zowel de kennis
als de psychologische mechanismen die te pas komen bij het uitvoeren tot in detail uitgewerkt
zijn. Verder moet de variatie tussen proefpersonen gekarakteriseerd worden, waarbij we
rekening moeten houden met het feit dat kleine variaties tot heel verschillende protokollen
kunnen leiden.

9. UITBREIDINGEN EN NIEUWE TOEPASSINGEN

9.1. Niet-verbale protokollen

Bij sommige taken maken proefpersonen gebruik van diagrammen en andere notities of ze
Voeren handelingen uit (apparaten bedienen, informatie vragen). Protokollen die hierdoor
ontstaan kunnen op dezelfde manier behandeld worden als verbale protokollen.

9.2. Diagnostiek in het onderwijs

Hardopdenken heeft al een natuurlijke plaats in het dagelijks onderwijs, tussen andere met-
hoden die berusten op verbale verslagen. Het is immers, zij het in minder formele vorm, een
Veelgebruikte diagnostische techniek ('Vertel eens hoe je bij dit antwoord gekomen bent', 'Doe
nu deze som eens en vertel me watje doet'). In dergelijke gevallen is de docent in staat om zeer
nauwkeurige diagnostiek te verrichten, mits hij een goed idee heeft van wat voor misverstanden
en fouten er zoal voorkomen (dat wil zeggen, dat hij over een goede theorie beschikt).

9.3. 'Kenniselicitatie'

Als men uit is op een Gewenst Handelings Verloop (cf. Mettes en Pilot, 1980) voor een bepaalde
'aak (of op inzicht in de kennis van experts ten behoeve van de konstruktie van een zgn. expert
systeem) is hardopdenken een van de middelen die men kan gebruiken om kennis aan de expert
te ontlokken. Het eerdergenoemde model van hardopdenken impliceert immers dat men met

-ocr page 256-

252 Hardop denken en protokolanalyse

hardopdenken kennis kan achterhalen, die in interviews en de analyse van produkten onbe-
sproken blijft, bijvoorbeeld omdat de expert het vanzelfsprekend vindt en de GHV-bouwer de
ontbrekende schakels niet opmerkt. Een ander verschijnsel is, dat een expert zelf niet meer weet
hoe hij iets doet en, als hem hierover iets gevraagd wordt, antwoordt op grond van preconcep-
ties en verwachtingen ('folklore', vgl. Nisbett en Wilson, 1979). Voor een overzicht van deze
toepassing van hardopdenken, zie Breuker en Wielinga (1984).

10. CONCLUSIES

Aan de hand van een psychologisch model van het hardopdenkproces hebben we laten zien, dat
de moeilijkheden die kleven aan onderzoek met verbale verslagen zich het minst voordoen bij
hardopdenken. We hebben uit dit model een aantal praktische aanwijzingen voor het gebruik
van deze methode afgeleid. De voornaamste moeilijkheden zijn:

* de kosten (tijd voor afnemen, bewerken en analyseren);

* de hoge eisen die de methode stelt aan de te onderzoeken theorie. Dikwijls wordt protoko-
lanalyse gebruikt bij onderzoek waarin nog geen uitgewerkte theorie voorhanden is, terwijl
bij probleemoplossen een veelheid aan raadselachtige processen optreedt. In dat geval moet
men ervan uitgaan, dat een groot deel van het werk zal bestaan uit theorievorming, dat wil
zeggen rationele taakanalyse en konstruktie van een psychologisch model.

De voornaamste voordelen zijn:

* vergeleken met andere methoden die gebruik maken van verbale verslagen: dat de data het
minst vertekend zijn door interpretaties, verwachtingen en geheugenfouten;

* vergeleken met andere meetmethoden: dat ze de rijkste en meest direkte gegevens opleveren
over denkprocessen.

Verder hebben we, veelal in de vorm van referenties, een aantal voorbeelden gegeven van
succesvolle toepassingen van de methode, aangevuld met toepassingen die nog in ontwikkeling
zijn.

LITERATUUR

Bhaskar, R., & Simon, H. A. (1979). Problem solving in semantically rich domains: an example from
engineering thermodynamics.
Cognitive Science, 7, p. 193-215.

Bierman, D.J. (1985). Intelligent simulation environments in education. Memo 59, Psychologisch Laborato-
rium, Universiteit van Amsterdam.

Breuker, J.A., & Wielinga, B.J. (1984). Techniques for knowledge elicitation and analysis, Memo 28 -
Project 'The acquisition of expertise'. Dept. of Psychology and Dept. of Social Science Informa-
tics, University of Amsterdam.

Chomsky, N. (1980), Rules and representations, Columbia University Press.

Dalen, M.M. van, & Elshout-Mohr, M. (1981). The acquisition of word meanings as a cognitive learning
process,
Journal of Verbal Learning and Verbal Behavior, 20,386-399.

Duncker, K. (1945). On problem solving, Psychological Monographs, 58, Washington: The American
Psychological Association (oorspr. 1935)

Elshout, J.J. (1976). Karakteristiek moeilijkheden bij het denken. Proefschrift Universiteit van Amsterdam.

Elshout, J.J. & Wielinga, B.J. Simulatie van leren en probleemoplossen, Nederlands Tijdschrift voor de
Psychologie,
36, p. 371-383.

Ericsson K.A. & Simon, H.A. (1980). Verbal reports as data, Psychological Review, 87, p. 215-251.

Ericsson, K.A. & Simon, H.A. (1984). Protocol analysis: verbal reports as data, Cambridge: MIT Press.

Groot, A.D. de (1946). Het denken van den schaker. Proefschrift Universiteit van Amsterdam; zie ook De
Groot (1965).

Groot, A.D. de (196l). Methodologie, Den Haag: Mouton.

Groot, A.D. de (1965). Thought and choice in chess, The Hague: Mouton.

Jansweijer, W.H.N., Elshout, J.J., & Wielinga, B.J. (1985). Het leren van de beginnende probleemoplosser,
ln J.G.L.C. Lodewijks & P.R.J. Simons {rtd) Zelfstandig leren, Lisse: Swets en Zeitlinger.

-ocr page 257-

J.A. Breuker et al. 253

Jongman, K. (1967). Het oog van de meester. Proefschrift, Universiteit van Amsterdam.

Langley, P., & Ohlsson, S. (1984). Automated Cognitive Modelling, Proceedings AAAI-84.

Marr, D. (1982). Vision, San Francisco: Freeman.

Neisser, U. (1979). Cognition and reality. Freeman.

Newell, A. & Simon, H.A. (1972). Human problem solving, Prentice-Hall.

Nisbett, R.E. & Wilson, T.D. (1979). Telling more than we can know: verbal reports on mental processes.

Psychological Review, 1977, p. 231-259.
Ryle, G. (1949).
The concept of mind, Hutchinson.

Someren, M.W. van, & Elshout, J.J. (1984). Het effekt van zelfreflektie op leren probleemoplossen. In

J.G.L.C. Lodewijks (ed) Zelfstandig leren, Lisse: Swets & Zeitlinger.
Neisser, U. (1979).
Cognition and reality, San Francisco: Freeman

Manuscript ontvangen 8-5-1984
Definitieve versie ontvangen 29-4-1986

APPENDIX: Voorbeeld van een hardopdenkprotokol met analyse

We geven hieronder een voorbeeld van een hardopdenkprotokol met bijbehorende analyse. De taak is het
optellen van een rij getallen van elk één of twee cijfers. We gaan uit van een exploratief onderzoek dat beoogt
om methodes te identificeren, die bijvoorbeeld in een later stadium gerelateerd kunnen worden aan de
prestatie. De getallen worden aangeboden in een kolom.

Taakanalyse

Een aantal methoden kunnen we al op voorhand bedenken, omdat die algemeen bekend zijn uit het
onderwijs. Bij elke stap uit de methode geven we de code die bij de analyse van het protokol gebruikt wordt.
Om deze bijlage niet te uitgebreid te maken, formuleren we de modellen niet in formele termen en beperken
We ons tot een enkel kort protokol.

Methode A

(Al) Begin bovenaan de rechter kolom en

(A2) tel van boven naar onder alle getallen in die kolom bij elkaar op.
(A3) Schrijf het laatste cijfer van het resuhaat onder die kolom en
(A4) zet de rest bovenaan de tweede kolom.

(A5 t/m A8) Doe vervolgens hetzelfde als Al t/m A4 met deze kolom, waarbij rijen zonder cijfer worden
overgeslagen.

(A9 t/m A12) Ga hiermee door tot er geen kolommen meer zijn. Dan staat het antwoord onderaan.
Methode B

Het is natuurlijk ook mogelijk om de getallen niet per kolom te behandelen, maar als geheel:

(B1) Begin bovenaan de kolom

(B2) Tel twee hele getallen bij elkaar op

(B3) Als je onderaan bent gekomen, heb je het antwoord

Omdat '(X + Y) -I- Z = X + (Y + Z)' en 'X + Y = Y + X' kunnen we de getallen ook in andere volgordes
optellen en omdat 'X(l) + X(2) -I- X(3) + ... X(n) = n * X' kunnen we sommige optel-operaties vervangen
door vermenigvuldigen. Hierop berust de volgende methode:

Methode C

(Cl) Ga na of een bepaald getal meer dan vijf keer voorkomt in de rij.
(C2) Als dat zo is, verwijder die getallen dan,
{C3) vermenigvuldig ze met het aantal en onthoud het produkt.
(Cal t/m CA 12) Pas nu methode A toe op de rest.

Het getal vijf is natuurlijk arbitrair. Op psychologische gronden kunnen we echter verwachten dat het in
deze buurt zal liggen.

Codeerschema

We gaan ervan uit dat de stappen van de methodes zich vooral zullen manifesteren door hun resultaten. Het
'verwijderen' van getallen (C2) kan in gedachten gaan, maar ook door wegstrepen.

-ocr page 258-

254 Hardop denken en protokolanalyse

Het protokol

Beschouw nu het volgende protokol. De opgave is om de som te berekenen van de getallen 2,4,12,3,18,5,
17,3,3,10,3,3. Het protokol luidt als volgt:

Regelnummer Regel Code

1

6, nee

A2 + A3/B1 + B2

2

dat is niet slim

?

3

ik begin soms te snel

commentaar

4

Even zien, plus 18, dat wordt 30

?

5

plus 20, nee

10

6

laat ik maar. 5 keer is 15

C3

7

35

B2/C4

8

plus 10 wordt 45

CA2

9

en dan nog die 17

CA2

10

dat wordt 62

A11/B3

11

62 dus

All

3. Protocolanalyse

Naast het protokol staan de categorieën. Hieruit blijkt dat deze proefpersoon niet zomaar methode A of B
volgt. Regel 3 is een voorbeeld van een introspektieve generalisatie, die geen onderdeel uitmaakt van het
eigenlijke hardopdenken. We laten hem buiten beschouwing bij de scoring, maar gebruiken hem wel als
extra aanwijzing dat de proefpersoon hierna (regel 4) opnieuw begint. Regel 4 en 6 kunnen met geen van
beide methoden verklaard worden. De rest van het protokol lijkt een kombinatie van A en B te zijn. Tot slot
merken we op, dat ettelijke stappen ontbreken.

Het woord is nu weer aan de modelbouwer om het herziene model te produceren. Het protokol biedt een
aantal aanknopingspunten die bij de taakanalyse ontbraken:

- De proefpersoon blijkt een voorkeur te hebben voor het construeren van tientallen.

- Er blijkt een evaluatieproces te zijn (regel 2 en 5).

- Aangezien deze proefpersoon niet puur een methode volgt die we bij de taakanalyse bedacht hadden,
moet er een model gebouwd worden dat de verschillende methoden omvat en integreert, dat wil zeggen,
beschrijft hoe proefpersonen kiezen tussen methoden als 'tientallen maken', 'vermenigvuldigen' en
'kolomgewijs optellen'.

Verdere interpretatie laten we aan de lezer over. Merk op dat ons model niets zegt over het verloop van
elementaire optellingen. Daarom maakt het ook geen onderscheid tussen goede en foute optellingen, zoals
bovenstaande.

Dit voorbeeld dient om te illustreren, dat (I) eenvoudige taken soms tot moeilijk te interpreteren
protokollen kunnen leiden en (2) dat in de meeste gevallen de constructie van het model meer problemen
oplevert dan de analyse van het protokol.

-ocr page 259-

Tijdschrift voor Onderwijsresearch, 11 (1986), Nr. 5, pp. 255-264

Substitutiefouten bij open en gesloten klinkerklanken
in eenlettergrepige woorden

Margo G.H. Jansen & J. Kruidenier'
Vakgroep IDOK, R.U. Groningen

abstract

According to several authors on the subject of spelling, children at the early stages of learning to
spell adopt a phonological strategy. Later on, 'visual' strategies are to take over from sound-to-
letter decoding strategies. In this study we tried to fmd empirical support for the supposition that a
visual orthographic orientation influences spelling performance (much) earlier than is usually
assumed. To accomplish this we studied two types of spelling errors, which cannot be distinguished
within a pure phonics spelling strategy, in detail. The data, consisting of a two-dimensional cross
table of error counts with subjects as rows and error categories as columns, were analysed using a
sequence of log-linear models. None of these, except for the saturated model, showed an acceptable
fit. A large difference was found in the relative frequency of both types of errors. The interaction of
error type and subject ability was tentatively interpreted as evidence for the existence of separate
subskills in spelling ability.

1. INLEIDING

In de recente literatuur over spelling is er een toenemende aandacht te constateren voor spel-
processen en met name de ontwikkelingsaspecten daarvan (Frith, 1980; Henderson & Beers,
1980; Verhoeven, 1985).

Voor speldiagnostiek, bedoeld ter ondersteuning en eventueel ter bijsturing van het onder-
wijsleerproces, is kennis over de ontwikkeling van de spelvaardigheid van groot belang. Het
toepassen van de huidige onvolledige kennis over de spelvaardigheidsontwikkeling echter, kan
gemakkelijk leiden tot onjuiste interpretaties van bepaalde spelfouten, met als mogelijk gevolg
inadequate didactische ingrepen.

Over de aard van de spelvaardigheid en de daarin optredende veranderingen bestaat in de
literatuur globaal gezien overeenstemming. Men neemt aan dat de ontwikkeling van de spel-
vaardigheid verloopt van een op het individuele foneem gerichte regelstrategie bij de begin-
nende speller tot een meer visueel-orthografische strategie bij de oudere en volwassen speller
(Marsh e.a., 1980; Frith, 1980; Verhoeven, 1983; Verhoeven, 1985). Sommige auteurs veronder-
stellen dat alle spellers zich geleidelijk ontwikkelen in de richting van een visueel-motorische
strategie. Anderen nemen aan dat er ook sprake is van individuele verschillen. Ervaring,
geschooldheid en spelvaardigheid van de speller zouden hierbij een rol kunnen spelen (Assink,
1983; Verhoeven, 1985). Hoe en wanneer de veronderstelde verschuiving van de ene naar de
andere strategie plaats vindt is echter niet duidelijk. Er zijn echter aanwijzingen, dat al
betrekkelijk vroeg in de ontwikkeling van de spelvaardigheid van een visuele oriëntatie op het
Woordbeeld sprake is (Kruidenier, 1985). Deze opvatting is in conflict met de meer gangbare

' De auteurs zijn dank verschuldigd aan Marieke Tieleman wegens de data-verzameling en de voorbc-
teidende -bewerking.

Adres: Westerhaven 16,9718 AW Groningen.

-ocr page 260-

256 Substitutiefouten bij klinkerklanken

éénzijdige fonologische interpretatie van de spelstrategie van de beginnende speller zoals b.v.
degene die door Verhoeven (1983) wordt gegeven in zijn artikel betreffende spelfouten in
klankzuivere woorden bij eerste klassers.

Spelfouten in klankzuivere woorden kunnen vanuit een eenzijdige fonologische opvatting
over het spelproces uitsluitend worden geïnterpreteerd als een dysfunctioneren van één of meer
voorwaardelijke subvaardigheden binnen de fonologische strategie, t.w. de vaardigheden met
betrekking tot de auditieve discriminatie en foneem- grafeemkoppeling. Kruidenier betoogt dat
de foutenclassificatie van Verhoeven (1983) blijk geeft van deze te eenzijdige opvatting over het
spelproces, en daardoor aanleiding kan zijn tot onjuiste interpretaties van bepaalde typen
spelfouten (Kruidenier, 1985). Kruidenier licht dit toe aan de hand van een tweetal typen
vocaalsubstitutiefouten. Het gaat hier om de substitutie van een enkel klinkerteken voor een
dubbel klinkerteken (A-fout) b.v. wanneer 'straat' wordt geschreven als 'straf en het omge-
keerde, nl. de substitutie van het dubbele klinkerteken voor een enkel (AA-fout), wanneer we
'stroop' schrijven voor 'strop'. Beide fouten vallen binnen het classificatiesysteem van Verhoe-
ven in dezelfde categorie. Kruidenier geeft argumenten voor de noodzaak om deze twee fouten
van elkaar te onderscheiden gebaseerd op de veronderstelling dat de oorzaken van deze fouten
gedeeltelijk van elkaar verschillen.

2. PROBLEEMSTELLING

Dat er sprake is van twee verschillende soorten vocaalsubstitutiefouten leiden we af uit het feit
dat er in de beginperiode van de spelvaardigheidsontwikkeling sprake is van een relatieve
toename van het aantal A-fouten ten op zichte van het aantal AA-fouten en ten dele zelfs van
een absolute toename van het aantal A-fouten (Kruidenier, 1985; Koster & Kruidenier, 1986).
Deze toename in A-fouten laat zich niet verklaren door de eerder geschetste fonologische
strategie. Voor een nadere typering van met name de A-fout gaan we eerst wat dieper in op de
mogelijke strategieën voor het spelproces van het Nederlands. We zullen daarbij o.a. gebruik
maken van het overzicht van Verhoeven (1985). Dit overzicht is gebaseerd op spellingstudies in
de context van de Engelse zowel als de Nederlandse orthografie. Het gaat om de volgende
strategieën:

1. Het toepassen van regels:

a. sequentiële (of contextvrije) regels;

b. conditionele (of context gevoelige) regels;

c. paradigmatisch bepaalde regels;

d. syntagmatisch bepaalde regels;

2. Het gebruiken van analogieën;

3. Het letter-voor-letter (leren) opsommen (van spelwoorden);

4. Gebruiken van het woordbeeld.

5. Het hanteren van geïntegreerde schrijfbewegingssequentie's;

•*

Strategie 1, 2, 3 en 5 zijn ontleend aan Smith, waarbij de hier gegeven opsplitsing in vier
substrategieën van de eerst genoemde strategie afkomstig is van Verhoeven (1985). De in het
bovenstaande gegeven volgorde impliceert geen vaste ontwikkelingsvolgorde. Wel geldt dat
met name Angelsaksisch onderzoek heeft aangetoond, dat het spellen aanvankelijk een sterk
regelachtig karakter heeft. De toepassing van de sequentiële of contextvrije regels beschouwen
we als een beginstrategie.

Voor de verduidelijking van onze probleemstelling is de eerst genoemde regelstrategie van
belang en daarbinnen met name de twee eerste vormen van regeltoepassing: de sequentiële
regeltoepassing en de conditionele, context gevoelige, regeltoepassing.

Bij de sequentiële regeltoepassing gaat het om de toepassing van éénduidige foneem-grafeem
correspondenties, die ongeacht de context gelden (Marsh, et al.). Voor het Nederlands betreft

-ocr page 261-

Margo G.H. Jansen en J. Kruidenier 257

dit de regels die de ongeveer 40 fonemen die we onderscheiden koppelen aan resp. grafemen,
grafeemcombinaties, 'sets' van grafemen en 'sets' van grafeemcombinaties. Bij conditionele
regels gaat het eveneens om de toepassing van foneem-grafeem correspondenties, maar nu is de
toepassing afhankelijk van contextuele kenmerken. Zo is het schrijven van een open klinker-
klank met een enkel klinkerteken, bijvoorbeeld, afhankelijk van de fonologisch-orthografische
context: Aan het eind van een lettergreep en gevolgd door een medeklinker en (meestal stomme)
klinker (b.v. 'dragen').

Verhoeven (1985, p. 64) wijst erop dat het correct hanteren van beide strategieën niet zonder
problemen is. Immers bij het schrijven van de open /ooAklank in b.v. 'oot' moet toch in zekere
zin rekening worden gehouden met de context: Volgt er na de /t/ klank niet een vocaal?
Niettemin wordt de /oo/ — 'oo' correspondentie in het onderwijs beschouwd als éénduidig.
Verhoeven tracht dit probleem op te lossen door onderscheid te maken tussen normale,
ongemarkeerde gevallen (de 'aa' in 'straat') en gemarkeerde gevallen (de 'a' in 'straten').
Dit onderscheid maakt echter toch nog onvoldoende duidelijk waarop het verschil nu eigen-
lijk berust. Het contextvrije karakter dat bij een bepaalde groep van fbneem-grafeemcorres-
pondenties wordt aangeleerd is tot op zekere hoogte kunstmatig. Bij de /r/ bijvoorbeeld is
het contextvrije karakter reëel, maar bij de /p/, /t/, of /aa/ klank is dit niet het geval.
De sequentiële regels kunnen worden gezien als de consequentie van een didactisch uitgangs-
punt: Een verzamehng duidelijke regels, die in de aanvangsfase wordt aangeleerd en slechts
een beperkte geldigheid heeft. Deze geldigheid beperkt zich tot de zogenaamde klank-
zuivere woorden. In het spelonderwijs is dus voor de beginfase een verzamling van vereenvou-
digde regels in gebruik. Dit didactisch principe is vergelijkbaar met het I.T.A. in het Ameri-
kaanse onderwijs (Block, 1972). De vraag is hoe de overgang van het toepassen van sequentiële
regels naar conditionele regels in zijn werk gaat. Wij veronderstellen dat deze conditionele
regels al een rol gaan spelen, voordat het onderwijs ze exphciet aan de orde stelt. We zullen ons
in het volgende beperken tot hetzelfde spelprobleem dat Kruidenier al eerder aan de orde heeft
gesteld, nl. het schrijven van de open klinkerklanken zoals b.v. /aa/, /oo/en /ee/. Aanvanke-
lijk bestaan er volgens onze aanname bij de speller slechts de sequentiële regels /aa/— > 'aa',
/oo/-- > 'oo' en /ee/~ > 'ee'. Pas in de loop van het tweede leerjaar wordt het enkele
klinkerteken in een open lettergreep (halen, lenen, boten) als spelprobleem aan de orde gesteld.
Tevoren is de leerling echter tijdens het lezen bijvoorbeeld echter wel met deze orthografische
patronen geconfronteerd. Op een gegeven moment zal de speller als schrijfwijze voor de open
klinkerklank naast het dubbelteken ook het enkele teken als acceptabel alternatief gaan
ervaren. Dat wil uiteraard nict zeggen dat zij dan ook direct een duidelijk beeld heeft van de
condities waaronder het enkele dan wel het dubbele teken geldig is. Dit kan gemakkelijk leiden
tot een overgeneralisering van het 'nieuwe' alternatief. Anders gezegd, wij veronderstellen dat
visuele ervaringen van invloed zijn op het spelgedrag, waarbij het niet noodzakelijk zo is dat de
leerlingen ook bewust regels ontdekken. Dit in tegenstelling tot Assink en Verhoeven (1984) die
uit hun onderzoek naar orthografische kennis concludeeerden dat leerlingen niet of nauwelijks
vormen en/of regels leren op grond van leeservaring.

In het hierna te presenteren onderzoek hebben we getracht ondersteuning te vinden voor de
veronderstelling, dat wc bij vocaalsubstitutiefouten te maken hebben met twee te onderscheiden
dysfunctionerende vaardigheden, enerzijds een auditieve (foneem-grafeemkoppehngs)vaar-
digheid en anderzijds een (beginnende) visueel-orthografische vaardigheid.

3. OPZET

Samenstelling van de dictee's

In het onderzoek werd gebruik gemaakt van z.g. kerndictee's van elk dertig woorden. De
woorden werden gekozen uit de woordfrequentielijst van Van der Geest en Swüste (1978). Deze
lijst wordt in het Nederlandse onderwijs op veel scholen gehanteerd als leidraad voor te kiezen
minimum leerstof. De lijst bestaat uit circa 4000 hoogfrequente woorden. Hieruit werden

-ocr page 262-

258 Substitutiefouten bij klinkerklanken

woorden geselecteerd behorende bij het eerste, tweede en derde leerjaar, die voldeden aan de
volgende eisen: monosyllabisch en klankzuiver. Uit woorden die aan deze eisen voldeden
werden woordparen gevormd, waarbij in eerste instantie werd gezocht naar woorden die slechts
in het kenmerk 'lange'/'korte' klinkerklank (b.v. 'maan'-'man') van elkaar verschilden. Daar-
voor echter bleken er niet voldoende woorden beschikbaar te zijn. Naast dit eerste matchings-
criterium werden er nog twee andere gebruikt. Bij het tweede matchingsprocedure werden
paren geselecteerd, waarbij eind- of beginmedeklinkers hetzelfde waren ('maan'-'mat', 'staan'-
'stap' enz.). Bij de derde matchingsmethode komen nog slechts de klinkers overeen ('kaas'-
'man'). Het merendeel van de woordparen viel in de tweede matchingscategorie. De 60 aldus
gekozen woorden werden aselect verdeeld in twee groepen van elk 30. Vervolgens werden er
korte zinnetjes geformuleerd, waar de woorden deel van uitmaakten. De aldus ontstane dictee's
werden op de band ingesproken, om uitspraak, verstaanbaarheid en dergelijke voor alle
leerlingen zo constant mogelijk te houden.

Afname en scoring van de dictee's

Aan het onderzoek werd deelgenomen door ongeveer 150 leerlingen uit de tweede klas van het
gewoon lager onderwijs, afkomstig van zes verschillende scholen. De afname van de dictee's
vond plaats in het begin van het schooljaar. Naast de genoemde dictee's werd ook een z.g.
niveau-dictee afgenomen.

Bij de scoring werden de woorden waarop A-fouten konden worden gemaakt samengevoegd
tot één test. Hetzelfde gebeurde met de woorden waarop AA-fouten gemaakt konden worden.
Bij de woorden waarop A-fouten gemaakt konden worden (aa- > a) werden de A-fouten geteld
en bij de andere woorden de AA-fouten. Eventuele overige fouten werden genegeerd. Bij het
niveau-dictee werd per leerling het totaal aantal fouten bepaald.

4. RESULTATEN

De vraag naar de equivalentie van twee vocaalsubstitutiefouten zoals beschreven door Kruide-
nier (1985a) kan men van verschillende kanten benaderen. Kruidenier heeft met name naar de
relatieve frequentie van beide foutensoorten gekeken, met als argument dat, als beide fouten-
soorten voortkwamen uit hetzelfde probleem vocaalsubstitutiefouten van het type aa— >
ongeveer even vaak zouden moeten voorkomen als vocaalsubstitutiefouten a— > aa. Ook in dit

Tabel 1. Frequentieverdelingen van A- en A A-vocaalsubstitutiefouten

score

freq AA->A

freq A->AA

freq som

0

60

124

56

1

31

8

29

2

16

6 -

16

3

8

1

10

4

10

1

11

5

3

-

2

6

3

1

5

7

2

-

3

8

2

_

2

9

1

-

' 1

10

5

-

6

mean

1.84

0.23

2.10

St. dev.

2.794

0.780

2.94

correlatie met niveau-dictee

0.50

-ocr page 263-

Margo G.H. Jansen en J. Kruidenier 259

onderzoek vinden we, dat A-fouten veel vaker voorkomen, n.1. ongeveer 8x zo vaak, als
AA-fouten. Tabel 1 bevat de frequentieverdeling van de beide soorten fouten, naast enige
beschrijvende gegevens. Tevens is de correlatie tussen de som van de A- en AA-fouten met het
niveau-dictee vermeld. Deze bedraagt 0.50. Dat is niet bijzonder hoog, maar dat is gezien de
scheve verdeling van de somscore niet verwonderlijk.

Uit de geconstateerde discrepantie tussen de relatieve frequenties van de beide soorten fouten
kunnen we echter niet concluderen dat er sprake is van verschillende onderliggende vaar-
digheden. Willen we hierover nadere uitspraken kunnen doen, dan bieden de item-
analysemethoden gebaseerd op de z.g. klassieke testtheorie hier verder weinig perspectief. Als
alternatief kunnen we een geschikt latente-trek model kiezen. Een voor de hand liggende keuze
lijkt dan het logistische Rasch-model.

Door middel van statistische toetsing kan worden nagegaan of de responses op een bepaalde
verzameling opgaven al dan niet bij het Rasch-model passen, waarbij met name de dimensiona-
liteitsassumptie voor ons van het grootste belang is. Zowel met Andersen's 'likelihood-ratio'-
toets als de toets van Martin-Löf voor itemgroepen kan heterogeniteit van de items worden
gedetecteerd. Mocht bij toetsing blijken dat de gegevens bij het Rasch-model passen, dan kan
daaruit worden afgeleid dat de veronderstelling dat de verzameling items één onderliggende
vaardigheid meten ondersteund wordt.

Een eerste inspectie van de gegevens leert echter al snel dat een analyse gebaseerd op het
Rasch-model niet in aanmerking komt, gezien het feit dat het merendeel van de items door
minder dan 5% van de leerlingen wordt fout gemaakt. Een relatief groot aantal subjecten, zowel
als items zou al bij voorbaat buiten de analyses vallen, waardoor de zinvolheid en nauwkeu-
righeid van de resultaten in hoge mate wordt beperkt.

In plaats daarvan zullen we gebruik maken van een ander, minder bekend Rasch-model, n.1.
het multiplicatieve Poisson-model. Anders dan het logistische model is dit een model voor tests
in plaats van items, ook al begint Rasch zijn afleiding op item-niveau. De testitems worden
geacht te kunnen worden opgevat als een serie onderling onafhankelijke Bernoulli 'trials', met
een bepaalde foutenkans. De volgende belangrijke aanname is, dat de foutenkans een product is
van twee factoren. Eén daarvan betreft de vaardigheid van het subject en de andere de
moeilijkheidsgraad van het item. Indien de foutenkans per item klein is en het aantal items
relatief groot, kan de verdeling van het totaal aantal fouten per test worden benaderd met een
Poissonverdeling met een intensiteitsparameter, die de som is van de individuele Bernoulli
parameters en die dezelfde multiplicatieve structuur heeft als de afzonderlijke itemparameters.

Rasch nam bij zijn afleiding aan dat de foutenkansen constant waren over de items. Gezien
het soort gegevens, waarvoor we het model willen gebruiken is het echter zinvol om de afleiding
van het Poisson-model te baseren op het meer algemene maar eveneens standaard geval,
waarbij de foutenkansen per item variabel zijn (Lord & Novick, 1968). De Poissonbenadering
gaat ook nog op indien een aantal van de itemfoutenkansen tamelijk groot is, mits hun bijdrage
aan de som maar klein is (Meredith, 1971).

Het model wordt gecompleteerd met de veronderstelling dat we meer dan één test hebben en
dat de gebruikelijke aannamen betreffende locale stochastische onafhankelijkheid en onafhan-
kelijkheid over de subjecten geldig zijn.

Voor een steekproef van N subjecten, die deelnemen aan k tests kunnen we de kans dat
subject i yij fouten maakt op test j als volgt schrijven:

P(Yij=yij |/iij) = exp(-/tij)M/ii/(yij! ) (1)

waarbij

Het verwachte aantal fouten neemt dus toe, als de moeilijkheidsgraad van de test, dan wel de
(on)vaardigheid van het subject toeneemt.

-ocr page 264-

260 Substitutiefouten bij klinkerklanken

Voor het toetsen van de passing van het model bij een gegeven dataset heeft Rasch (1960) een
exacte parametervrije toets gegeven. Deze is slechts van theoretisch belang, gezien de reken-
kundige inspanning die de toets vereist. Gelukkig zijn er benaderingsmethoden voorhanden.
Deze zijn gebaseerd op de formele gelijkenis tussen Rasch's multiplicatieve Poisson-model en
het additieve log-lineaire model voor twee-weg kruistabellen. Op deze gelijkenis is o.a. door
Haberman (1978) gewezen. Methoden voor het verkrijgen van meest aannemelijke schatters
voor de modelparameters, Pearson chikwadraat- en 'likelihood-ratio' toetsingsgrootheden en
residuen, ontwikkeld binnen de context van de kruistabellenanalyse, zijn dientengevolge
onmiddellijk toepasbaar. Voor het berekenen van schattingen voor de parameters en de
gewenste toetsingsgrootheden kan daardoor gebruik gemaakt worden van reeds bestaande
computerprogrammatuur. In het volgende zullen we gebruik maken van het programma GLIM
(Baker & Nelder, 1978).

Als uitgangspunt nemen we dus de twee-dimensionale kruistabel, waarbij de rijen worden
gevormd door de proefpersonen en de kolommen door de tests die we kregen door resp. de A- en
de A A-woorden samen te nemen. De cellen van deze tabellen bevatten dus het aantal fouten dat
een subject heeft gemaakt op een test. Subjecten die op beide tests nul fouten hadden gemaakt
bleven verder buiten beschouwing. Hierdoor bleven er 85 van de oorspronkelijke 141 proefper-
sonen over. Achtereenvolgens werden een aantal log-lineaire modellen op passing onderzocht.
Wij gebruikten daarbij de benadering van McCullagh en Nelder (1983), waardoor ook speciale
gevallen en complexere modellen konden worden bekeken. Zij schrijven hun model als volgt:

\nfiii = <l>i + x\ß,

waarbij ^de vector is met subjectparameters, ^de vector met overige parameters en xij

een design-vector. De volgende modellen werden op passing onderzocht:

i 1 n /lij = a

ii 1 n/lij = a-F

üi 1 n /lij = a -f- Oj

iv 1 n /lij = a </)i + CTj.

Tabel 2. Resultaten van de log-lineaire analyse

model G^ df

a 522.0 169

i a -t- aj 323.0 ' 168

ii a 4- (^i 329.0 85
V a-l-0i + aj 130.7 84
j a-I--f Oj 4-Tjk 103.5 79

Uit de gegevens in tabel 2 blijkt, dat model iv, dat equivalent is met het multiplicatieve
Poisson-model (1), weliswaar vergeleken met model i, ii en iii relatief een goede passing te zien
geeft, maar de geobserveerde G^ is bij df =84 echter nog steeds significant. Dus, het additieve
log-lineaire model waarbij we veronderstellen dat het aantal fouten kan worden verklaard op
grond van één test- en één subjectparameter, past slecht bij de data. Een nadere inspectie van de

-ocr page 265-

Margo G.H. Jansen en J. Kruidenier 261

residuen, kan aanwijzingen geven waar deze slechte passing door wordt veroorzaakt. Opvallend
is dat er slechts een relatief klein aantal subjecten is met grote residuen. Het meest opvallend
daarbij is één leerhng die in totaal 11 fouten heeft gemaakt, waarvan 6 z.g. AA-fouten.
Figuur la en Ib bevatten plots, waarbij voor elke test afzonderhjk de gestandaardiseerde
residuen zijn afgezet tegen het totaal aantal fouten gesommeerd over beide tests. In de figuren
valt af te lezen dat bij subjecten met een relatief goede score, dwz. een gering aantal fouten, het
additieve model het aantal AA-fouten overschat, terwijl het omgekeerde het geval is voor
A-fouten. Deze tendentie is echter niet zeer duidehjk.

0.5

i.5i

1.0

2 / f .

5 ?

-nr-T

10

12

l"» 16
TOT SCORE

-0.5-•

-1.0 ■

-1.5

Figuur la. Residuen op de eerste test (AA - A) afgezet tegen het totaal aantal fouten over beide tests (N =
85)

Een tweede mogelijkheid is de door Rasch voorgestelde grafische modeltoets, waarbij we het
aantal fouten op één test afzetten tegen het totaal fouten over beide tests. Als het addhieve
model van toepassing is, dan moeten de punten ongeveer op een rechte lijn hggen met helling öj /
ö.. Waarbij öj de moeilijkheidsgraadsparameter is van test j en ö. = S öj (Rasch, 1960/1980, p.
2i ff.). Zie hiervoor figuur 2. Anders dan Rasch geven we niet de 95% betrouwbaarheidsinter-
vallen gebaseerd op een normale benadering van de binomiaalverdeling, maar het volgende
exacte interval. De absolute bovengrens voor fouten op de ene test gegeven het totaal aantal
fouten, wordt gevormd door een rechte door de oorsprong met helling 1. Onder de gebroken hjn
vinden we het gebied waarvoor geldt, dat de cumulatieve kans op een bepaald aantal of minder
fouten op de ene test, gegeven het totaal aantal, kleiner of gelijk is aan 5%. Ook uit deze figuur
kunnen we opmaken, dat subjecten met hoge totaalscores relatief wat meer AA-fouten maken.

-ocr page 266-

262 Substitutiefouten bij klinkerklanken

2.5 •

i 9 10 11 12 13 1"» 15 16

TOT SCORE

2 2 « .3

5 7 7

1 z ■} k
5-

-2.5

Figuur Ib. Residuen op de tweede tests (A — AA) afgezet tegen het totale aantal fouten over beide tests (N =
85)

dan op grond van het model wordt verwacht. Overigens mogen we niet uit het oog verliezen, dat
een AA-fout ook bij deze leerlingen nog steeds een zeldzame gebeurtenis vormt.

Aangezien ook bekend was van welke scholen de leerlingen afkomstig waren was het
mogelijk om na te gaan of de relatieve frequentie van de twee soorten fouten per school
verschilde. We onderzochten daarvoor nog een vijfde model op passing:

V = a + + +

De toevoeging van de schoolXtest interactieparameters geeft een significante verbetering te zien
van de G^ (G^ = 103.5 bij df = 79). Bij model v veronderstellen we in feite dat het multiplicatieve
Poisson-model opgaat per school. Ook dit model past echter niet zeer goed bij de data.

4. CONCLUSIES EN DISCUSSIE

Aanvankelijk veronderstelden we dat er achter de twee soorten vocaalsubstitutiefouten die we
onderscheidden twee verschillende vaardigheden schuilgingen. De niet één-duidige uitkomsten
van de statistische analyses noodzaakt ons tot een nadere reflectie op de aard van de betrokken
vaardigheden. We namen aan dat in de aanvangsfase van de spelvaardigheidsontwikkeling

-ocr page 267-

Margo G.H. Jansen en J. Kruidenier 263

sprake is van een eenzijdige oriëntatie op de klank van de te spellen woorden. De leerling
vertaalt op basis van eenduidige foneem-grafeemcorrespondenties foneem voor foneem in
grafemen. Maakt de leerling fouten dan zou dit kunnen worden verklaard op grond van
onvoldoende beheersing van de auditieve deelvaardigheden. De discrepantie tussen de beide
soorten fouten, in het bijzonder de toename daarvan, brachten we in verband met de eenzijdig
op de lange klinker inwerkende interfererende invloed van een kenmerk van de Nederlandse
orthografie, n.1. het kenmerk dat een lange klinker in patronen zoals 'ate' en 'oke' geschreven
worden met een enkel klinkerteken. In feite hebben we daar te maken met z.g. conditionele
regels, waarop in het spelonderwijs pas in een latere fase wordt ingegaan. Het ligt voorde hand
dat de leerlingen eerder met dit verschijnsel kennis maken aangezien hun ervaring met het
geschreven Nederlands natuurlijk niet beperkt is tot die welke bij het expliciete taalonderwijs
wordt opgedaan. Het geconstateerde surplus aan A-fouten zou kunnen worden verklaard als
gevolg van een beginnende visueel-orthografische oriëntatie die leidt tot het ontdekken en nog
relatief vaak fout toepassen van spelregels die nog niet zijn onderwezen. Het lijkt dan ook niet
zo'n onredelijke veronderstelling dat het met name goede spellers zullen zijn die het eerste met
deze nieuwe regels geconfronteerd worden. Zij zouden dan een relatief groot aandeel moeten
leveren aan A-fouten vergeleken met de slechte presteerders.

Uit de resultaten van ons onderzoek kunnen we afleiden dat de veronderstelling dat de beide
soorten fouten n/e/ zijn terug te voeren op een één-dimensionele vaardigheid wordt onder-
steund. De door ons gegeven inhoudelijke interpretatie is echter voor discussie vatbaar en vloeit

if

-ocr page 268-

264 Substitutiefouten bij klinkerklanken

hier niet rechtstreeks uit voort. Tevens zijn er aanwijzingen, dat het met name de relatief goede
spellers zijn die de interferentiefouten maken. Vergaande conclusies zijn echter niet aan te
bevelen, gezien het kleine aantal subjecten en de beperkte set van spelwoorden waarvan gebruik
is gemaakt. Ook de rol van het onderwijs, i.h.b. de gebruikte spelmethode dient nader te worden
onderzocht. De noodzaak hiervan blijkt ook uit het moeilijk te interpreteren schoolXtest
interactieeffect. Een gerelateerd probleem daarbij is dat het vrijwel ondoenlijk is om de storende
factor woordvertrouwdheid van de gebruikte spelwoorden volledig te beheersen. Het gebruik
van de momenteel beschikbare frequentielijsten, biedt voor dit probleem vermoedelijk geen
voldoende oplossing.

LITERATUUR

Assink, E.M.H., (1983). Leerprocessen bij het spellen, (dissertatie) Utrecht, RUU.

Assink, E.H.M., & Verhoeven, G., (1984). Waarom kunnen sommige kinderen woorden spellen waarvoor
ze de regels nog niet geleerd hebben?
Spektator, 13, 334-345.

Baker, R.J., & Nelder, J.A. (1978). The GLIM system, release 3 Oxford: The Numerical Algorithms Group.

Block, J.R., (1972). But will they ever lern to spel korectly? Educational Research, 3, 171-176.

McCullagh, P., & Nelder, J.A., (1983). Generalised linear models. London: Chapman & Hall.

Frith, U. (1980). Unexpected spelling problems. In: Frith, U., (Ed.) Cognitive processes in spelling. London:
Academic Press.

Geest, A. van der, & Swüste, W., (1978). Spellingwijzer Den Bosch: Malmberg.

Haberman, S.J. (1978). Analysis of qualitative data. New York: Academic Press.

Henderson, E.H., & Beers, J.W. (Eds.) (1980). Developmental and cognitive aspects of learning to spell
Newark: International Reading Association.

Jansen, G.G.H. (1986). A Bayesian version of Rasch's multiplicative Poisson model for the number of
errors on an achievement test.
Journal of Educational Statistics (in press).

Kruidenier, J. (1985). Classificatie van spelfouten nader geanalyseerd. Tijdschrift voor Taalbeheersing, 7,
56-64.

Koster, K.B., & Kruidenier, J. (1986). Cognitieve conflicten bij het leren spellen door eerste klassers (in
voorbereiding). .

Marsh, G.M., Friedman, V., Welch, V., & Desberg, P. (1980). The development of strategies in spelling. In:
Frith, U. (Ed.),
Cognitive processes in spelling. London: Academic Press.

Meredith, W. (1971). Poisson distributions of error in test theory. British Journal of Mathematical and
Statistical Psychology, 24,
44-82.

Rasch, G. (1980). Probabilistic models for some intelligence and attainment tests. Chicago: University of
Chicago Press. (Eerste publicatie in 1960).

Rolf, P.C., & Rijnsoever, R.J. van, (1984). Positionele letterfrequenties van het Nederlands. Lisse: Swets &
Zeitlinger.

Verhoeven, G. (1985). De strategieën van de speller. Groningen: Wolters-Noordhoff.

Verhoeven, L.Th. (1982). Verantwoording toetsen: aanvankelijk lezen en spellen. (Bulletin reeks nr 13).
Arnhem: Cito. ,

Verhoeven, L.Th. (1983). Foutenclassificatie bij beginnende spellers. Tijdschrift voor Taalbeheersing, 5,
131-138.

Manuscript ontvangen 12-12-1985

Definitieve versie ontvangen 4-7-1986

-ocr page 269-

Tijdschrift voor Onderwijsresearch, 11 (1986), Nr. 5, p.p. 265-270

Notities en Commentaren

COMMENTAAR OP HET WRR-RAPPORT 'BASISVORMING IN HET ONDERWIJS'i)
W.K.B. Hofstee

Vakgroep persoonlijkheids- en onderwijspsychologie, RU Groningen.

Het rapport 'Basisvorming in het onderwijs' (WRR, 1986) is grotendeels terecht in brede kring
geprezen. Het rapport slaagt erin het complexe onderwijssysteem in de lurven te pakken, nl. aan
te grijpen bij die variabelen waarmee op de meest efficiënte en effectieve manier veranderingen
kunnen worden bewerkstelligd: de eindtermen. De impliciete gedachte achter deze vorm van
sturing via outputcontróle (in tegenstelling tot input- of procescontrole) is als volgt: in een
ingewikkeld stelsel met veel vrijheidsgraden is aangrijpen bij input- en procesvariabelen onvol-
doende garantie dat het gewenste effect ook inderdaad tot stand komt, ook al is de samenhang
in het geïsoleerde geval duidelijk, aangezien allerlei adaptatiemechanismen klaarstaan om het
effect teniet te doen; omgekeerd, en juist vanwege de enorme speling die er in het systeem zit,
biedt het simpelweg verordineren wat de output moet zijn, binnen ruime grenzen voldoende
voorwaarde voor het inderdaad bereiken van dat doel. Behalve efficiënt en effectief is output-
sturing nog buitengewoon bevrijdend, in vergelijking met de verstikkende betutteling van de
procescontrole. In verband hiermee: lezers van het WRR-rapport zullen met aangename
verbazing hebben opgemerkt dat het niet leidt tot meer ambtenaren en onderwijsverzorgers: de
enige instantie die in het vooruitzicht wordt gesteld is een centrale examencommissie.

Natuuriijk vallen hierbij kanttekeningen te maken. De eerste is dat de WRR tevens met een
urentabel komt, dus met een vorm van processturing. Theoretisch bestaat de mogelijkheid dat
dit curriculum wringt met de eindtermen: de kans is zelfs nihil dat deze twee variabelen bij
voorbaat optimaal op elkaar afgesteld zouden zijn. Maar men kan daar tegenoverstellen dat die
discrepantie vanzelf zal verdwijnen als gevolg van de eerder gereleveerde adaptiemogelijkheden
binnen het systeem. De urentabel vervult dan voornamelijk een paar handige symbolische
functies: hij trekt de discussie naar zich toe zodat datgene waar het eigenlijk om gaat, nl. de
opstelling van eindtermen en examens, zich in de luwte kan afspelen; cn hij onderstreept in
abstracto de gedachte dat scholen er ook inderdaad iets aan moeten doen om hun leeriingen het
examen te laten halen.

Een tweede en wezenlijker kanttekening betreft de doelstellingen die men in dc WRR-
voorstellen belichaamd vindt. Die zijn als volgt geoperationaliseerd: alle leeriingen binnen het
gewoon voortgezet onderwijs halen in driejaar, of zonodig met één jaar verlenging, minimale
eindtermen in 14 vakken. Weliswaar dient iedere school de leeriingen gelegenheid te bieden per
vak het examen ook op een hoger niveau af te leggen, maar de WRR noemt geen streefpercenta-
ges van leeriingen die dat moeten halen, hetgeen betekent dat hier geen sprake is van een
expliciete doelstelling aan de hand waarvan bijvoorbeeld het welslagen van de operatie t.z.t.
mede zou kunnen worden geëvalueerd. De nu volgende kritiek op dit centrale onderdeel van de
voorstellen wordt - dat kan niet nadrukkelijk genoeg worden gezegd - mogelijk gemaakt door
de helderheid en door de doelrationele aanpak van het rapport. Dat mag echter geen reden zijn
om die kritiek niet te leveren.

1) Tekst van een referaat voor de Sociaal Wetenschappelijke Raad der K.N.A.W., mei 1986
Adres: Grote Markt 31/32,9712 HV Groningen

-ocr page 270-

266 Notities en commentaren

DE SCHOOL ALS GELIJKRICHTER

Voor de duidelijkheid beginnen we met te constateren dat de door de WRR voorgestelde
maatregelen, na invoering, aan hun eigen doelstelling zouden voldoen wanneer iedere leerling
op ieder vak (afgezien van compensatorische elementen zoals die in examenregels gebruikelijk
zijn) een zes zou halen, op het laagste van de twee examenniveau's. De rest is immers in alle
opzichten 'optioneel'. Het is niet mijn bedoehng hier geringschattend over te doen; integendeel
is sprake van een doelstelling die inspanning op grote schaal zal vergen, en die zelfs bij voorbaat
onrealistisch is wanneer men in dit verband blijft vasthouden aan MAVO-C-niveau. Alleen:
volgens redelijke maatstaven is dit niet genoeg. De preciese argumentatie voor deze laatste
stelhng verloopt als volgt.

(1) Onderwijs heeft een maatschappelijk en een individueel doel (de volgorde zal blijken niet
van belang te zijn). De samenleving streeft, o.a. via het onderwijs, naar maximalisatie van
welvaart. Uit dat streven volgt dat het onderwijs tot taak heeft het leerlingpotentieel maximaal
tot ontwikkeling te helpen brengen. Ten overvloede: dat geldt voor zwakke leerlingen, maar het
geldt evenzeer voor goede leerlingen. Vanuit de doelstelling geldt het waarschijnhjk zelfs in
sterkere mate voor goede leerhngen omdat de mate waarin die zich ontplooien een relatief
grotere portie van de variantie in nationaal inkomen voor zijn rekening zal nemen.

Overstappend naar het individueel doel beoogt onderwijs maximale zelfontplooiing van de
leerling, waarbij die term natuurlijk niet in één of andere mystieke betekenis figureert maar
inhoudt: het naar vermogen zich eigen maken van kennis en vaardigheden. De individuele
doelstelling (waarmee niet bedoeld is de doelstelling van deze of gene concrete leerling in zijn of
haar luie ogenblikken, maar de doelstelling gezien vanuit het radoneel individu) strookt
nauwkeurig met de maatschappeliike.

(2) Gezien deze uiteindelijke doelstelling zou een beleid dat volstaat met het stellen van een
minimale grens alleen rationeel onder de assumptie dat er geen relevante verschillen zijn in het
potentieel van leerlingen (De WRR vermijdt angstvallig termen als aanleg of begaafdheid). Die
assumptie is in. strijd met de feiten, en wordt door de WRR dan ook niet gehanteerd. De
voorlopige conclusie luidt dan echter dat het voorgestelde systeem niet rationeel is.

(3) Tegen de tot hiertoe gevolgde argumentatie kan worden ingebracht dat verschillen in
bereikt niveau, zoals die ongetwijfeld zullen resulteren als iedere leerling wordt gestimuleerd
zich maximaal te ontplooien, zeifin collectief opzicht een negatieve waarde hebben. De stelhng
zou luiden: hoe kleiner de variantie in bereikt resultaat, hoe beter. Op zichzelf genomen leidt de
stelling waarschijnhjk al snel tot absurde consequenties. Als het betreffend gelijkheidsideaal
echter wordt geconjbineerd met het streven naar maximalisatie van de gemiddelde output, dan
zal een trade-off moeten worden gemaakt ('een zo hoog mogelijk onderwijspeil met zo weinig
mogelijk variatie daarbinnen'). Men zou de voorstellen van de WRR, die uitvoerig aandacht
besteedt aan het gelijkheidsideaal, heel wel kunnen zien als de uitkomst van zo'n trade-off.
Wanneer het gelijkheidsideaal zoals hier geoperationaliseerd inderdaad een democratisch
ideaal zou zijn in de zin dat het door grote groepen in de samenleving wordt onderschreven, dan
zou de conclusie dat de voorstellen van de WRR niet rationeel zijn, moeten worden terugge-
nomen: immers, ze zouden dan berusten op een afweging van geldende waarden.

Naar mijn mening kan dit ideaal in geen van de drie politieke hoofdstromen in Nederland
worden teruggevonden. Sociaal-democraten zullen weliswaar inkomensverschillen slechts in
beperkte mate willen laten afhangen van verschillen in productiviteit; christendemocraten en
special calvinisten zullen er bezwaar tegen hebben als mensen zich laten voorstaan op hun
bereikt niveau; maar geen van deze twee hoofdstromen verzet zich tegen het uitbuiten van eigen
begaafdheid door individuen, of tegen het stimuleren daarvan door het onderwijs; en dat geldt a
fortiori voor liberaal-democraten. De herkomst van het hier geschetste gelijkheidsideaal lijkt te
moeten worden gezocht in het anarchisme. Historisch onderzoek zou wellicht uitwijzen dat de
rhetorische populariteit van de gelijkrichtingsgedachte stoelt op de invloed die het anarchisme
in de jaren '60 en '70 had op de sociaal-democratische voorhoede, en vervolgens stoelt op de
afhankelijkheid van de christendemocratie ten opzichte van de sociaal-democraten bij het

-ocr page 271-

W.K.B. Hofstede 267

handhaven van verworven machtsposities in het onderwijs. Hoe dan ook is gelijkrichting
evenmin een democratisch ideaal als eigenrichting.

Rest de vraag of de voorsteUen van de WRR uit andere premissen kunnen worden gerecon-
strueerd. Logisch gesproken kan die mogelijkheid niet worden afgesloten. Ik meen echter dat
niet alleen in het bovenstaande de belangrijkste pretendent ten tonele is gevoerd, maar ook dat
andere pogingen tot fundering bij nauwkeurige analyse op hetzelfde zullen bhjken neer te
komen. De conclusie dat de eenzijdige nadruk van de WRR op het behalen van het minimumni-
veau niet rationeel te verantwoorden valt, bhjft dan ook gehandhaafd.

Het bovenstaande is geen pleidooi voor handhaving van het categoriaal onderwijsstelsel.
Weliswaar is een stelsel waarin op vier niveau's (LBO, MAVO, HAVO en VWO) onderwijs
wordt gegeven in dat opzicht superieur aan het voorgestelde twee-niveau-stelsel, maar die
superioriteit wordt minstens gedeeltehjk teniet gedaan door het aspect van premature selectie
waardoor leerhngen voor lange tijd beneden hun niveau of boven hun krachten moeten werken.
Er bestaat naar ik meen een zekere consensus dat de voorspellende waarde van onderwijsleer-
prestaties en psychologische tests onvoldoende is om dit nadeel op te heffen. De doelstelling van
uitbuiten van het individueel leerlingpotentieel, c.q. de doelsteUing van maximale inteUectuele
zelfontplooiing vraagt om een fijnmazig stelsel van differentiatie qua niveau, met een minimum
aan min of meer arbitraire beperkingen. In hoeverre zoiets te realiseren valt, komt verderop in
het kort aan de orde. Eerst zal aandacht worden geschonken aan het feit dat de selectietaak van
het onderwijs tot dezelfde conclusie leidt.

DE SELECTIEFUNCTIE

De WRR (op. cit., p. 54/5) besteedt een korte paragraaf aan de selectiefunctie van het
onderwijs. Ze verwijst naar de 'screening' of'credentials' theorie die stelt dat'... onderwijs niet
zozeer de individuele bekwaamheid vergroot, maar dat het onthult welke individuen van
zichzelf het meest bekwaam zijn'. De WRR stelt deze opvatting tegenover de 'human capital'
theorie waarin leerhngen a.h.w. met staatssubsidie in zichzelf investeren. Hieronder volgt eerst
enige detailkritiek op deze passage, en vervolgens een wat fundamentelere beschouwing over
het selectiebeginsel.

De human capital theorie gaat uit van een homo economicus die een onderwijsniveau kiest
met een maximale subjectief verwachte utiliteit. De bevinding echter, aldus de WRR, dat het
gevolgde onderwijs nauw samenhangt met het sociale milieu waaruit men afkomstig is, valt
moeihjk te verenigen met de gedachte van een autonoom handelend en rationeel kiezend
individu. De WRR verwijst hier impliciet naar onderwijssociologische bevindingen die zij
verderop (op. cit., p. 171/2) bespreekt, namelijk dat bij gelijke prestaties op objectieve toetsen
leerlingen uit lagere milieus naar minder hoge onderwijsvormen worden doorverwezen en daar
ook terechtkomen, dan leerhngen uit hogere milieus.

Uit deze passage blijkt dat de WRR onvoldoende psychometrisch-statistische expertise in
huis heeft gehaald. Krachtens het regressie-effect heeft, onder plausibele assumpties, een
leerhng uit lager sociaal-economisch milieu een lagere slaagkans dan een leerhng uit hoger
milieu met dezelfde toets- en testscores. Dat is vervelend, temeer omdat voor het regressie-effect
geen inhoudelijke verklaringen zoals discriminatie kunnen worden aangeroepen, en het
regressie-effect wordt dan ook systematisch doodgezwegen ondanks het feit dat bijvoorbeeld
De Groot & Van Peet (1975) er exphciet de aandacht op hebben gevestigd in reactie op het wel
door de WRR geciteerde proefschrift van Peschar. Echter: het houdt in dat de keuze van een
lagere opleiding door een arbeiderskind wel degelijk rationeel kan zijn, in tegenstelling tot wat
de WRR beweert. Het houdt zelfs in dat het, vanuit het individu gezien,
niet rationeel verklaar-
baar zou zijn als arbeiderskinderen bij gelijke toetsscore hetzelfde vervolgniveau zouden
nastreven.

Ondanks haar verkeerd begrepen bezwaar, dat de WRR vervolgens verzuimt precies zo van
toepassing te brengen op de screeningstheorie, hjkt zij aan het slot van de besproken passage

-ocr page 272-

268 Notities en commentaren

over te hellen naar de human capital theorie. Ze doet dat onder verwijzing naar het rapport
Wagner waarin staat dat aankomend vakmanschap belangrijk is. Erg overtuigend is dit alles
niet. Van zo'n commissie kan moeilijk worden verwacht dat ze de alom constateerbare verdrin-
gingseffecten omzet in aanbevelingen tot betere selectie in het onderwijs.

Zoals zal blijken, hoeft er helemaal niet gekozen te worden tussen onderwijsconcepties die het
accent op scholing dan wel op selectie leggen, aangezien ze beide in dezelfde richting wijzen. Op
voorhand echter moet worden gesteld dat een conceptie die de selectiefunctie zou ontkennen
even onrealistisch is als één die de scholingsfunctie zou negeren. Voorts zullen we hier de
parallel verder doortrekken en argumenteren dat behalve in descriptief opzicht, ook normatief
gesproken de selectiefunctie aandacht verdient: op de maniet waarop scholing goed is voor het
individu en voor de samenleving, is selectie dat evenzeer.

Vanuit maatschappelijk oogpunt is de verdeling van individuen over arbeidsplaatsen en
vervolgopleidingen een zgn. plaatsingsprobleem, wat neerkomt op een zodanige distributie dat
maximalisatie van de gezamenlijke materiële en immateriële productiviteit wordt nagestreefd.
Onder de assumptie dat plaatsen en individuen slechts op één relevante dimensie verschillen (nl.
moeilijkheid resp. capaciteit) komt de oplossing van dat probleem neer op afroming: plaats de
meest capabele individuen op de moeilijkste plaatsen, enzovoorts. Onderzoek over validiteits-
generalisatie van cognitieve prestatietests (Schmidt & Hunter, 1981) wijst uit dat de één-
dimensionaliteitsassumptie een veel grotere plausibiliteit heeft dan we in onze allerindividueel-
ste momenten geneigd zijn te denken. Hoe dan ook, op grond van haar plaatsingsopdracht heeft
de samenleving er behoefte aan dat aan sollicitanten duidelijke labels hangen waarop met name
hun intellectueel niveau nauwkeurig staat aangegeven; voorts is het voor de samenleving van
belang dat die labels niet misplaatst zijn, dus dat mensen niet ten onrechte een diploma is
verleend of geweigerd. Kortom, het onderwijs dient op zorgvuldige wijze haar selectiefunctie te
vervullen.

Minder voor de hand liggend is de argumentatie vanuit individueel gezichtspunt. Heeft het
individu er belang bij, te worden geconfronteerd met eigen mogelijkheden èn grenzen? Ik ga
voorbij aan het antwoord van de gelijkrichtings-ideologie, aangezien daaraan m.i. in de
democratische discussie een laag gewicht moet worden toegekend. Het beste aanknopingspunt
voor een antwoord wordt geleverd door de taxonomie van onderwijsdoelstellingen van De
Groot (1980). De Groot constateert dat onderwijsdoelstellingen doorgaans worden geschreven
in termen van het geleerd hebben van regels omtrent de 'wereld', en brengt op die tendens een
tweevoudige correcrie aan: het gaat bij onderwijs niet alleen om leren van regels, maar evenzeer
om uitzonderingen; en het gaat niet alleen om leren over de wereld, maar evenzeer om leren over
zichzelf. In dit verband is die tweede correctie van belang: doel van onderwijs behoort ook te
zijn dat men met zichzelf wordt geconfronteerd, dus onder andere met eigen intellectuele
mogelijkheden en beperkingen.

De zin van metacognities op het eigen intellectuele vlak ligt vooral in de sfeer van de
geestelijke hygiëne. Het accent ligt hier niet op de stelling dat, geredeneerd vanuit het maat-
schappelijk belang, mensen hun intellectuele plaats moeten weten - ook al zou daar van alles
voor te zeggen zijn. Vanuit het individueel gezichtspunt geredeneerd, heeft de persoon de
vrijheid om zich slimmer of dommer voor te doen dan hij of zij is, als dat zo te pas komt. De
stelling luidt daarentegen dat het niet gezond is voor het individu zelf om niet althans van eigen
intellectuele mogelijkheden en beperkingen op de hoogte te zijn. Die stelling is zo oud als de
inscriptie op de tempel van Delphi en behoeft naar ik meen geen nadere adstructie. Onderwijs
dat leerlingen niet uitdaagt tot de grenzen van hun intellectuele mogelijkheden te gaan is
deficiënt onderwijs uit oogpunt van geestelijke volksgezondheid.

Zelfkennis op het punt van intellectuele status heeft ook een meer pragmatische functie. In
het dagelijks leven in een arbeidsdelige maatschappij worden we vrijwel van uur tot uur
geconfronteerd met oordelen van deskundigen, of dat nu de nucleair physicus of de loodgieter,
de huisarts of de melkboer betreft. Steeds weer stelt zich daarbij de vraag of we die oordelen op
gezag moeten aanvaarden of eerst ook zelf moeten gaan nadenken. Er is geen sprake van dat we
straffeloos van dat zelf nadenken een gewoonte zouden kunnen maken, evenmin als van

-ocr page 273-

W.K.B. Hofstede 269

klakkeloos accepteren. Er moet dus een toetssteen zijn. Een belangrijk element daarin is een
sociaal vergelijkingsproces op intellectueel gebied. Is de deskundige aanzienlijk dommer dan
wijzelf, dan is er meer reden tot achterdocht en kan het profijtelijk zijn het denkwerk zelf over te
doen. Is de deskundige naar zich laat aanzien aanzienlijk slimmer, dan moeten we van onze
eigen inspanning niet al teveel rendement verwachten.

Tegen de argumentatie voor selectief onderwijs vanuit het individueel gezichtspunt kan men
aanvoeren dat die argumentatie slechts lijkt te pleiten voor feedback aan het adres van het
individu, en niet noodzakelijk voor gedifferentieerde examens inclusief de civiele effecten die
daaraan verbonden zullen worden. Psychologisch is de waarde van die tegenwerping echter zeer
betrekkelijk. Als zelfkennis niet wordt ingewreven, en als de feedback vrijblijvend wordt
gepresenteerd, zullen de voorwaarden voor leren omtrent zichzelf voor een belangrijk deel
onvervuld blijken.

CONCLUSIES

Alle tot dusver gereleveerde argumenten wijzen in de richting van een qua niveau gedifferen-
tieerd onderwijs- en vooral examenaanbod. Een stelsel zoals voorgesteld door de WRR waarin
het volle accent ligt op één minimaal niveau, met als vrijblijvende toegift één hoger niveau voor
wie het nu eenmaal niet laten kan, is insufficiënt zowel gezien vanuit de samenleving als vanuit
het individu, en zowel gezien vanuit de scholings- als vanuit de selectiefunctie van het onder-
wijsbestel.

De vraag die resteert is of een gedifferentieerd stelsel practisch uit te werken valt, en met name
of dat uitgangspunt zich laat verenigen met onderwijs in groepen, zonder dat de nadelen van een
categoriaal stelsel op de koop toe worden genomen. De hier bepleite individualisering zou
immers al snel tot een onhanteerbare veelheid van leerwegen kunnen voeren.

Het kan niet de bedoeling zijn, in dit bestek een uitgewerkt alternatief te presenteren. Wat wel
kan worden gevergd is dat een principe wordt gepresenteerd op grond waarvan de organisato-
risch/logistische problemen van een meer gedifferentieerd stelsel binnen hanteerbare propor-
ties zouden kunnen worden gebracht.

Dat principe is 'streaming', dat wil zeggen dat leerlingen niet de gelegenheid krijgen om per
vaak verschillende streefniveau's aan te leggen, maar dat die niveau's in koppelverkoop worden
aangeboden. Zulks in tegenstelling tot 'setting' waarbij de organisatorische capaciteit van de
school primair wordt gebruikt voor intra-individuele niveaudifferentiatie. In het nu volgende
zal worden geargumenteerd dat de gebruikelijke bezwaren tegen streaming aanzienlijk moeten
worden gerelativeerd op grond van voornamelijk psychometrische overwegingen. Die
bezwaren plegen tc liggen in het vlak van intra-individuele verschillen in aanleg en affiniteit
voor verschillende vakken.

In de eerste plaats zijn de correlaties tussen prestaties op verschillende vakken van aanzien-
lijke orde (.55 is wellicht een redelijke schatting). In de tweede plaats worden die correlaties
geobserveerd binnen een categoriaal onderwijsbestel, waarin derhalve een behoorlijke
restriction of range optreedt: zou men alle leerlingen binnen het gewoon voortgezet onderwijs
met dezelfde toetsen examineren, dan zouden de correlaties tussen vakken nog veel hoger zijn.

In de derde plaats zou het voorbarig zijn de dan nog resterende vakspecifieke variantie
(voorzover betrouwbaar) geheel te willen verklaren uit individuele aanlegprofielen. Voor een
alternatieve verklaring is het volgende gedachtenexperiment relevant: neem een verzameling
leerlingen van hetzelfde niveau, die allen hun aandacht moeten verdelen over twee qua cogni-
tieve structuur identieke vakken, waaraan ze in totaal een bepaalde tijd kunnen besteden zodat
extra tijd voor het een ten koste gaat van het ander. In dat geval zal de correlatie tussen die twee
vakken perfect negatief zijn. Meer in het algemeen kan vakspecifieke variantie voor een deel
worden verklaard door het feit dat de inspanning van de leerling aan zekere behoudswctten
onderhevig is.

In de vierde plaats dienen we ons te realiseren dat het A-B- of alpha-bêta-onderscheid in het

-ocr page 274-

270 Notities en commentaren

voortgezet onderwijs voornamelijk de functie vervult van een extra niveaudifferentiatie; de
nadruk die soms door de schoolleiding wordt gelegd op het eigen karakter van de A-variant
dient voornamelijk om die pil te verzoeten. Affiniteiten, tot slot, zijn bepaald niet irreversibel;
hoogstens zijn ze onderhevig aan het mechanisme van self-fulfilling prophecy dat relatief
gemakkelijk te doorbreken valt. Affiniteiten vervullen een aantal rhetorische funcdes in de
context van een personalistisch georiënteerde welvaartsmaatschappij, functies die minder
serieus hoeven te worden genomen wanneer het gaat om een collectieve voorziening zoals
onderwijs.

Met dit alles wil niet zijn beweerd dat er geen intra-individuele verschillen in aanleg zouden
bestaan; dat existentiebewijs mag door de persoonlijkheidspsychologie geacht te zijn geleverd.
Wel, dat die verschillen van secundaire tot zelfs marginale betekenis zijn in verhouding tot
algemene intellectuele niveauverschillen, en dat derhalve streaming in plaats van setting als
primair organisatorisch principe zou dienen te fungeren.

Het huidig Nederlands voortgezet onderwijs kent bij afsluiting welbeschouwd zo'n 7
niveau's, met differentiaties daarbinnen via de zwaarte van het gekozen pakket. Zonder afbreuk
te doen aan het streven van de WRR naar minimale eindtermen voor iedereen, en zeker zonder
afbreuk aan het streven naar verhoging van het onderwijspeil, moet het mogehjk zijn een
realistischer en rationeler oplossing te vinden met behulp van fijnmaziger niveaudifferentiatie,
in het belang van individu en samenleving.

LITERATUUR

De Groot, A.D., & Van Peet, A.A.J. (1975). Enkele kanttekeningen bij het proefschrift van J.L. Peschar:

Milieu, school en beroep. Tijdschrift voor Onderwijsresearch. 1,
Schmidt, F.L., & Hunter, J.E. (1981). Employment tesdng: Old theories and new findings. American

Psychologist. 36. 1128-1137.
W.R.R. (1986).
Basisvorming in het onderwijs. Den Haag: Staatsuitgeverij.

Groot, A.D. de (1980). Over leerervaringen en leerdoelen. In: Handboek voor de Onderwijspraktijk.
Deventer: Van Loghum.

Ontvangen 12-6-1986.

-ocr page 275-

Tijdschrift voor Onderwijsresearch, 11 (1986), Nr. 5, pp. 271-277

Notities en Commentaren

HET EMPIRISCH GEHALTE VAN EEN POLITIEK COMPROMIS

Commentaar op het WRR-rapport 'Basisvorming in het Onderwijs'

Bert P.M. Creemers en Wijnand Th.J.G. Hoeben*

RION, Instituut voor Onderwijsonderzoek, Rijksuniversiteit Groningen

1. INLEIDING

Het rapport over basisvorming is over het algemeen met grote instemming ontvangen. Binnen
de onderwijspolitiek kan men spreken van een euforie. Diverse partijen vonden er klaarblijke-
lijk iets van hun gading in: de VVD dat het om kwahteit en normen gaat; de PvdA dat het een
basisvorming voor iedereen betreft; het CDA was waarschijnlijk positief, omdat niet gekozen
hoefde te worden tussen bezorgdheid voor de kwaliteit van het onderwijs enerzijds en een
promotion de tous aan de andere kant, zodat zowel het onderwijsbeleid in een christelijk-
socialistische samenwerking als in een christelijk-liberale samenwerking overeind kon worden
gehouden. Kortom, het rapport kan een verzoening op het terrein van het onderwijs betekenen
tussen diverse politieke stromingen. Daarmee is het een uitkomst in een bijna uitzichtloze
situatie van gehakketak op onderwijspolitiek terrein met betrekking tot de toekomst van het
secundair onderwijs. Want welke coalitie er in de toekomst ook gevormd zou worden, het zal
mogelijk zijn om, gebaseerd op dit rapport, over een aantal aspecten van het secundair
onderwijs tot een oplossing te komen. Dat daarbij de meestertruc werd uitgehaald datgene te
ecarteren, waar de discussie in het verleden telkenmale op vastliep, namelijk de structuur van
het secundair onderwijs, werd daarbij in veel reacties voor het gemak even vergeten. Uit reacties
van bijvoorbeeld het NGL is inmiddels naar voren gekomen, dat er op het moment dat over de
structuur beshssingen moeten worden genomen, en dat zal nodig zijn gezien de inhoud van het
rapport, de discussie weer even hard zal oplaaien.

Het rapport alleen een onderwijspolitiek document noemen, zou echter zijn waarde te zeer
inperken. Ook in de onderwijspraktijk is het rapport, met een aantal uitzonderingen, met
instemming ontvangen. (Een duidelijke uitzondering bestaat vooral uit representanten van
bepaalde vormingsgebieden, die soms om duidelijke, soms om wat minder duidelijke redenen
uit de lessentabellen zijn gevallen, daarnaast zijn er critici die het onverstandig vinden om de
structuurdiscussie te ontlopen). Voorde instemmende reacties zijn verschillende redenen aan te
wijzen, zoals de nadruk in het rapport op de kwaliteit van het onderwijs, op de inhoud van het
onderwijs en op eindtermen. Ongetwijfeld speelde ook een rol dat vrijheid aan het onderwijs
werd geboden om zelf vorm te geven aan het onderwijs, en dat de verantwoordelijkheid voor
vormgeving op het niveau van de scholen werd gelegd, die op uiteenlopende wijzen de doelen
zouden kunnen bereiken. Tenslotte, gezien de uitputtingsslag die rondom de structuur van het

* Met dank aan Jaap Schaveling die een eerste tekst van kritisch commentaar voorzag en aanvullingen
suggereerde.

Adres: Postbus 1286,9701 BG Groningen.

-ocr page 276-

272 Notities en commentaren

onderwijs is geleverd en de voorlopige wapenstilstand op dit terrein, zou het rapport eraan
kunnen bijdragen dat rust zou weerkeren in het onderwijs.

Misschien was het zelfs voor de onderwijswetenscbappen een leuk rapport omdat - zonder
overigens te vervallen in jargon, want het rapport blinkt uit in helderheid en leesbaarheid - de
indruk werd gewekt dat het advies logisch en vanuit de wetenschappen beargumenteerd kan
worden. Empirische argumenten zouden zodoende kunnen doorspelen in de vormgeving van
onderwijsbeleid. Onderwijswetenscbappen kregen daarmee een soort van koninklijke goedkeu-
ring of maatschappelijke erkenning. De suggestie, die in het rapport wordt gewekt, is namelijk
dat door de logische en empirische argumentatie een garantie op succes is ingebouwd.

Naar onze mening is dit een onjuiste indruk. In de eerste plaats wordt op diverse plaatsen in
het rapport vergeten de vraag te stellen, wat de empirische basis voor de argumentatie is.
Integendeel, men kan op grond van een aantal op empirische gegevens gebaseerde inzichten zich
zelfs afvragen of de vooronderstellingen van de voorstellen die gedaan worden, wel juist zijn.
Dit beeft zowel betrekking op de verwachtingen ten aanzien van het presteren van leerlingen
(welke verwachtingen voor de laagste groep zeker te hoog zijn), als - en dat is belangrijker - op
de indruk die het rapport wekt, dat een groot aantal vrijheidsgraden met betrekking tot
structuur en de vormgeving van het onderwijs te geef is, zonder dat dit het bereiken van doelen,
c.q. van het eindniveau in de weg komt te staan. Wat dat laatste betreft zou onderwijskunde en
ook het rapport nog wel iets van de politiek kunnen leren, waar bij een discussie over
doelstelhngen meteen de vraag naar middelen (vooral financiële) naar boven komt. Immers,
zonder dat middelen bepaald en vastgelegd zijn, kan over het bereiken van doelen en eindter-
men nauwelijks worden gesproken. Juist op het terrein van de middelen zou de onderwijskunde
kunnen bijdragen aan de toekomstige vormgeving van het onderwijs en het bereiken van
eindtermen van basisvorming. Juist op het terrein van de middelen zijn de afgelopen jaren
vorderingen gemaakt, die allerminst suggereren dat er in dezen een grote vrijheid aan scholen
kan worden gegeven om op uiteenlopende wijzen naar verwerkelijking van onderwijsdoelstel-
lingen te streven. Integendeel, in en door het rapport ontstaat een grote mate van onduidelijk-
heid op welke wijze scholen zouden moeten worden ingericht en op welke wijze het vernieu-
wingsproces gestalte moet worden gegeven teneinde de doelstelhngen te realiseren. Het rapport
en met name toelichtingen erop wekken de indruk beslissingen over de middelen tot de vrijheid
van onderwijs en tot de autonome verantwoordelijkheid van scholen te rekenen. Daarbij kan
overigens een structuurvraag zeker niet ondopen worden, zoals dat - voorlopig althans -
gebeurt. We zijn dan ook niet alleen kritisch ten aanzien van de empirische basis van het
rapport, maar ook scepdsch over de realisering van het in het rapport beoogde. Wanneer iets
verdergaande beslissingen over de structuur van het onderwijs, over de inrichting van het
onderwijs en over de innovatiestrategie genomen worden, zal het rapport dan ook vooral een
kalmerende invloed op de onderwijspolitieke discussie hebben gehad.

2. DE EMPIRISCHE BASIS VAN DE VOORSTELLEN

In het rapport wordt wehswaar kennis uit de onderwijswetenschappen aangehaald, maar dat is
niet gelijkelijk verdeeld over alle onderwerpen die in het rapport worden aangesneden. Som-
mige onderwerpen worden met argumenten vanuit empirisch onderzoek voorzien, andere
vooral met argumenten uit onderwijskundige beschouwingen. De suggestie wordt gewekt, dat
op die terreinen ook geen empirische gegevens beschikbaar zijn. Integendeel, empirische
gegevens zouden vooral te maken hebben met demografische onderwerpen, voor de rest is het
een kwestie van beschouwing, logisch argumenteren en keuzes maken. Deze suggestie doet niet
helemaal recht aan datgene wat er aan empirisch materiaal voorhanden is.

Over uitval in het basisonderwijs en uitstoot naar diverse vormen van buitengewoon onder-
wijs, is een grote hoeveelheid gegevens beschikbaar (zie bijv. ARBO, 1984; Boef-Van der
Meulen, 1986; Pijl, 1986). Verder is bekend hoe de stromen lopen in het secundair onderwijs,
van het LBO tot en met het VWO, hoe het staat met de diverse pakketkeuzes daarbinnen, en hoe

-ocr page 277-

Bert P.M. Creemers en Wijnand Th.J.G. Hoeben 273

het is gesteld met de uitval in het secundair onderwijs (zie bijv. Tesser, 1986; Bosker e.a., 1985;
Van Egten en De Canne, 1986). Tegen die achtergrond doet het vreemd aan dat het niveau voor
basisvorming gesteld wordt op het C-niveau van het huidige LBO/MAVO-onderwijs. Hoewel
het geciteerde en ander onderzoek uitgaat van verschillend gedefinieerde criteria en soms vooral
let op specifieke vormen van uitval, levert het over het algemeen slechts empirische argumenten
voor twijfel over de mogelijkheid dat alle leerlingen tenminste het C-niveau van het huidige
LBO/MA VO-onderwijs halen. Een eenduidige schatting van het percentage dat een dergelijk
niveau niet binnen vier jaar zal halen kan niet worden gegeven. Schattingen van onderzoekers
op dit terrein variëren tussen plm. 15% en plm. 35% van het totaal aantal leerlingen. Buiten kijf
staat in ieder geval dat de uitstroom naar het (voortgezet) speciaal onderwijs in het verleden
explosief is toegenomen en nog steeds toeneemt, zodat het aantal falers in het reguliere
onderwijs blijft stijgen.

Het advies bevat uiteraard een ontsnappingsmogelijkheid. Het minimum eindniveau is een
streefniveau, geldt voor zoveel mogelijk leerlingen en slechts in principe voor iedereen; dus dat
geeft de mogelijkheid om met uitval rekening te houden. Verder is er de mogelijkheid om de
leertijd te verlengen; dat zal een gedeelte van de leerlingen over de streep kunnen halen. Daar
staat echter tegenover dat het stellen van niet helemaal reële eindniveaus, zonder tegelijkertijd
aan te geven op welke wijze deze bereikt kunnen worden, of welke ontsnappingsmogelijkheden
er zijn, tot problemen zal leiden zowel met betrekking tot de motivatie van leerlingen en
leerkrachten, met betrekking tot toenemende uitstroom, als ook in de structuur van scholen die
met deze eisen geconfronteerd worden. Doordat in principe de structuur van het onderwijs nog
een aantal jaren dezelfde blijft, betekenen deze problemen een extra verzwaring van sommige
schooltypen. Gerelateerd aan de structuur is er het probleem van de inhoud van het vakken-
pakket en van de afzonderlijke vakken. Er kan eindeloos worden geredekaveld over welke
vakken met welke zwaarte in het pakket moeten worden opgenomen. Naast argumenten die de
WRR ontleent aan de ontwikkeling van leervermogen, behoort in dat verband naar onze
mening een belangrijk argument te zijn hoeveel binnen een bepaalde tijd van een bepaald vak
geleerd kan worden door alle leerlingen, c.q. door bepaalde groepen van leerlingen. Ook
hierover is informatie beschikbaar. Dit betreft zowel informatie over het leren in diverse
vakgebieden, over niveauproblemen die leerlingen daarbij ervaren, als ook over de combinatie
van vakken, bijvoorbeeld meerdere moderne vreemde talen. Het beeld dat bijvoorbeeld uit het
laatste naar voren komt, is dat voor een grote groep van leerlingen een tweede moderne vreemde
taal weliswaar van belang is, maar dat er zeker een bepaalde groep zal zijn waarbij de invoering
van een dergelijke verplichting tot onoverkomelijke problemen of de facto tot een heel laag
eindniveau zal leiden, waarmee men dan toch genoegen moet nemen.

Het ware te overwegen om voor bepaalde groepen leerlingen, bijvoorbeeld groepen bij wie
ook beroepsorièntatie van belang is (in de vorm van algemene technieken of iets anders), niet
alleen de 20% vrije ruimte maar ook een gedeelte van het kerncurriculum te gebruiken voor deze
bijkomende doeleinden. De afkeer van de WRR van oriëntatie van het individu op zichzelf (wat
heb ik geleerd omtrent mezelf) en op de maatschappij komt wellicht voort uit aversie tegen de
ontwikkelingen in het zelfontplooiingsideaal in de jaren zeventig. Deze afkeer doet geen recht
aan de maatschappelijke voorbereiding, inclusief de plaats van het individu in de samenleving
die bij deze voorbereiding hoort. Deze maatschappelijke voorbereiding moet ook tot de taken
van het onderwijs gerekend worden. Gezien de resultaten van empirisch onderzoek op dit
terrein, zal deze maatschappelijke voorbereiding vooral kennis en vaardigheden en het cogni-
tieve substraat voor houdingen en attitudes betreffen.

De WRR heeft de discussie over de structuur van het onderwijs, voorlopig althans, willen
vermijden. Er zijn aanwijzingen uit empirisch onderzoek, dat dat onmogelijk is. Er bestaat een
duidelijke relatie tussen de structuur van het onderwijs en het behalen van de vooraf geformu-
leerde eindtermen, al is het maar omdat een bepaalde interpretatie van die eindtermen en van de
inhouden plaatsvindt op basis van achtergrondgegevens van de school en op basis van de
instroom van leerlingen. Zo blijkt bijvoorbeeld uit vrijwel alle onderzoek waarin de invloed van

-ocr page 278-

274 Notities en commentaren

deze variabelen wordt nagegaan, dat aanlegvariabelen, omgevingsvariabelen en geslacht van de
leerlingen van doorslaggevende invloed zijn vergeleken met kenmerken van het onderwijs.
Uiteraard anticiperen scholen daarop bij een bepaalde leerlingeninstroom en uiteraard zullen
scholen daarom de leerlingeninstroom zo gunstig mogelijk willen beïnvloeden. Sommige
scholen zullen daarin succesvol zijn of blijven; andere scholen zullen daarin minder succesvol
zijn. De kansen op succes zullen sterk afhankelijk zijn van de traditionele instroomprofielen van
scholen in combinatie met het actuele leerlingaanbod. Wanneer er geen structuurdoorbrekende
maatregelen worden genomen, dan zullen, zoals elders is gebleken, in feite verschillende vormen
van basisvorming blijven bestaan in verschillende scholen. Bij het experiment op de midden-
school is bijvoorbeeld gebleken dat scholen lange tijd zo niet altijd hun oorspronkelijke
categorale karakter blijven behouden, hetgeen zowel de leerlingeninstroom, het vormingsaan-
bod als de uiteindelijke resultaten kleurt. Fend (1982) toont eveneens de doorslaggevende
invloed aan van de variabelen van aanleg, omgeving en geslacht (pag. 288); op basis van zijn
onderzoek mag echter ook worden geconcludeerd dat ongedeelde niet-categorale systemen het
begaafdheidspotentieel van leerlingen beter benutten (pag. 491 w); tenslotte toont hij aan dat
prestatieverschillen tussen afzonderlijke scholen beduidend groter zijn dan die tussen school-
systemen (pag. 288). Uit schooleffectiviteitsonderzoek blijken eveneens grote verschillen tussen
afzonderlijke scholen; daaruit volgen tevens conclusies en indicaties over de oorzaken van deze
prestatieverschillen. Daarmee komen we op het grootste probleem in de voorstellen van de
WRR en tevens op de duidelijkste discrepantie met beschikbare empirische argumenten.

De WRR meent dat het voldoende is om basisvorming te realiseren als doelstellingen en een
lessentabel wordt vastgesteld. Enerzijds erkent de WRR op deze wijze dat hoge eisen aan het
onderwijs behoren te worden gesteld, anderzijds wordt de suggestie gewekt dat er zoveel
uiteenlopende wijzen zijn waarop deze eisen bereikt kunnen worden, dat eenduidige adviezen
onmogelijk zijn en dat scholen daarin dus vrijgelaten moeten worden. De strekking van het tot
nu toe opgemerkte is, dat de eisen voor de totale groep van leerlingen waarschijnlijk te hoog
zullen zijn, en dat scholen blijvend een verschillend niveau van leerresultaten zullen laten zien;
zij zullen zich eerder verder differentiëren dan ten gevolge van de WRR-voorstellen meer
onderlinge overeenkomst gaan vertonen. Hieruit blijkt dat er naar onze mening niet zo'n losse
relatie ligt tussen doelen en middelen in het onderwijs. Integendeel, het zal van het grootste
belang zijn dat de meest effectieve en efficiënte middelen worden ingezet om een minimum
eindniveau voor een zo groot mogelijke groep van leerlingen te kunnen bereiken. De suggestie
dat, wanneer de doelen maar zijn vastgesteld, de middelen vrijgelaten kunnen worden, is irreëel
en in strijd met empirisch onderzoek. Invoering leidt tot teleurstellende ervaringen in het
onderwijs die opnieuw tot apathie zullen voeren.

Het opmerkelijke is, dat het empirisch onderzoek op het terrein van het onderwijs zich juist de
laatste jaren heeft toegespitst op onderzoek van variabelen in het onderwijs die er iets toe doen,
naast variabelen van aanleg en omgeving van leerlingen. Het blijken gestructureerde onderwijs-
leerpakketten te zijn, die er toe doen, evenals een verhoging van de tijd voor leren, ecn
zorgvuldige evaluatie van de voortgang van het leerproces, een regelmatige bijstelling van
onderwijsstrategieën aan de hand van deze ervaringen, een organisatie van de school die rust,
orde, doelgericht werken bevordert, gerichtheid van leerkrachten op een minimum niveau voor
alle leerlingen en een schoolleider die de kwaliteit van de instructie op school bewaakt. Er
blijken grote verschillen tussen scholen te bestaan; zowel in effectiviteitsonderzoek als in
schoolverbeteringsprojecten komt een aantal van deze belangrijke variabelen naar voren.
Verder is schoolproduktiviteitsonderzoek van belang (zie o.a. het overzicht van Creemers en
Schaveling, 1985, gebaseerd op een review van onderzoeksliteratuur op deze terreinen).

Geconfronteerd met zulke onderzoeksresultaten is het onjuist de indruk te wekken dat de
vormgeving op allerlei manieren kan plaatsvinden zonder duidelijke sturing. Bij een onge-
stuurde vormgeving zullen doelen in veel mindere mate en weinig efficiënt worden bereikt. Ook
ai worden de scholen in principe vrijgelaten om onderwijs naar eigen inzicht vorm te geven, de
verplichting naar scholen toe om bepaalde doelen te bereiken vereist ook het verschaffen van dc
middelen waarmee zij dit kunnen. In het verleden werd hierbij vaak gedacht in termen van

-ocr page 279-

Bert P.M. Creemers en Wijnand Th.J.G. Hoeben 275

facihteiten in de vorm van tijd en geld. Een andere wijze is heel duidelijk aangeven wat er toe
doet in het onderwijs, via welke vormgeving, maatregelen en organisatie eindtermen effectief
bereikt kunnen worden. Dit brengt overigens opnieuw de door de WRR omzeilde discussie over
de structuur van het onderwijs naar voren.

Er is dus een relatie tussen het op effectieve en efficiënte wijze bereiken van de eindtermen en
de middelen. Deze middelen liggen op de terreinen die hierboven zijn aangegeven. De vraag is,
of van afzonderlijke scholen verwacht kan worden dat ze de aangeduide kenmerken (organisa-
tie van de school, het gestructureerde leerplan, evaluatie, etc.) voor zichzelf willen ontwikkelen.
Zelfs als ze daartoe bereid zijn, bhjft het de vraag of ze het kunnen en of het efficiënt is om het op
deze wijze te doen. Het aangehaalde onderzoek levert voldoende empirische argumenten voor
een diepgaande twijfel aan de capaciteit van afzonderlijke scholen in dezen en derhalve aan de
effectiviteit en de efficiency van de WRR-adviezen.

Om de doelstellingen van goed onderwijs met een minimum eindniveau voor iedereen,
althans voor een groter gedeelte van de leerhngen dan door het huidige onderwijs wordt
gerealiseerd, dichterbij te brengen, mag en moet naar onze mening naast de inzet van afzonder-
lijke scholen gerekend worden op een effectieve inzet van onderwijsbegeleiding, onderwijsont-
wikkeling (vooral de SLO), toetsontwikkeling (CITO) en onderzoek. Zij moeten scholen
helpen effectiever te worden; zij moeten effectieve en efficiënte middelen ontwikkelen en
aanreiken, zodat deugdelijk onderwijs voor deze doelstellingen mogehjk wordt. Onderwijsbe-
leid dient niet al te vrijblijvend om te gaan met kenmerken van deugdelijkheid die aan (de
evaluatie van) beschikbare middelen kunnen worden ontleend.

De ervaringen met onderwijsvernieuwing zijn in de achter ons liggende jaren teleurstellend
geweest. De teleurstellende ervaringen zijn niet beperkt tot de vernieuwing van de eerste fase
van het secundair onderwijs, die is blijven steken op de verlammende structuurdiscussie. Deze
en andere vernieuwingen hebben sterk geleund op ontwikkelingen in afzonderhjke scholen met
een betrekkehjk afstandelijke, weinig sturende en niet op effectieve middelen inspelende profes-
sionele hulp van onderwijsverzorgingsinstellingen. De ontwikkelingen op scholen waren dien-
tengevolge van zeer uiteenlopende aard en doelmatigheid; zij waren bovendien nauwelijks
overdraagbaar naar andere scholen (zie bijv. Harskamp en Hofman, 1982; Van Eek en Lington,
1982; Inspectie werkgroep Middenschool, 1982; Creemers, 1983). Deze ervaringen zijn niet
uniek voor Nederland (zie bijv. Berman en McLaughlin, 1977; Fullan, 1982). Deze zelfde
ervaringen wijzen er ook op dat scholen over het algemeen bereid zijn effectieve middelen in
gebruik te nemen, als de professionele instellingen ze daadwerkelijk en overeenkomstig hun
taakstelling ontwikkelen. Hoewel, zelfs hieraan mag worden getwijfeld op grond van een
recente studie van Janssens (1986) naar het evalueren en het gebruik van beschikbare evalua-
tiemiddelen bij het rekenonderwijs. Of de bereidheid van scholen en leerkrachten leidt tot
daadwerkelijk en effectief gebruik, lijkt sterk afhankelijk van de professionele bekwaamheden
van leerkrachten; deskundigen en leerkrachten zelf signaleren in dit verband een aanzienlijke
nascholingsbehoefte (Hoeben en Wolfgram, 1984; De Jong, Tillema en Wolfgram, 1985).

Terwijl de WRR-nota zich op een aantal terreinen afzet tegen ontwikkelingen in het verleden,
wordt met een beroep op deregulering juist op dit cruciale punt een niet adequaat gebleken lijn
uit het verleden doorgetrokken en de suggestie gewekt dat in elke school voldoende tijd en
professionele deskundigheid aanwezig is om in vrijheid haar eigen middelen te ontwerpen. Had
de WRR door verwaarlozing van beschikbare empirische argumenten reeds de indruk gewekt
effectiviteit van de in te zetten middelen niet erg belangrijk te vinden voor de realisering van
door haar geadviseerde doeleinden, de veronderstelling dat scholen over voldoende tijd en
professionele deskundigheden kunnen beschikken om niet alleen onderwijs te geven, maar ook
effectieve middelen daarvoor te ontwerpen, is duidelijk in strijd met de feiten. Het goed geven
van onderwijs alleen al zal een beroep doen op extra tijd en vraagt deskundigheden die op dit
moment vaak niet voldoende op scholen aanwezig zijn. We hoeven hierbij maar te denken aan
interne differentiatie, heterogeen groeperen en zorgverbreding in het onderwijs, die prominent
figureren in de gesignaleerde nascholingsbehoeften. Daarnaast de scholen en de leerkrachten
ook nog opzadelen met verantwoordelijkheden voor de ontwikkeling en de effectiviteit van in te

-ocr page 280-

276 Notities en commentaren

zetten middelen roept dezelfde contra-produktieve verschijnselen en processen op, die ook bij
de onderwijsvernieuwingen in het recente verleden zijn opgetreden.

3. HAALBAARHEID VAN DE WRR-VOORSTELLEN

Gezien het boven beschreven empirische gehalte is optimisme over de haalbaarheid van de

WRR-voorstellen niet gerechtvaardigd.

- Er zullen extra maatregelen nodig zijn om het bereiken van de eindtermen door in principe
iedereen te bevorderen. Realisme over met name de benedengroep (15% - 35% van de
leerhngen) is vereist en zal tot extra inspanningen in de middelenontwikkeling moeten leiden,
c.q. tot bijstellingen in het vakkenpakket en van de tijdstoebedeling in het kerncurriculum.

- Het vakkenpakket en de urentabel moeten daarom aan een nadere beschouwing worden
onderworpen en worden gewijzigd.

- Omtrent de middelen is veel meer informatie beschikbaar dan de WRR gebruikt. Het
onthouden van deze informatie aan het onderwijs, en het opgetrokken rookgordijn van de
vrijheid tot inrichting van scholen vormen naar onze mening een slechte zaak, die het
bereiken van eindtermen ondanks duidelijke examenregehngen in de weg zal staan. Deze
voorspelbare teleurstellende ervaringen zullen opnieuw tot desillusies leiden met betrekking
tot onderwijsvernieuwing (wat basisvorming toch geacht mag worden te zijn). De huidige
desillusie heeft al een ongunstige invloed op het Nederlandse onderwijs en op de bereidheid
van scholen en leerkrachten om er iets van te maken. Nieuwe desillusies kunnen rampzalige
gevolgen hebben.

- In het kader van de vraag naar effectieve middelen zal de vraag omtrent de structuur van het
onderwijs op korte termijn onontkoombaar zijn. Dit kan terecht worden gezien als een
middel om eindtermen realiseerbaar te maken. Deze vraag desondanks verwaarlozen zal de
haalbaarheid van andere voorstellen ongunstig beïnvloeden.

- Mochten de voorstellen van de WRR ondanks gerechtvaardigde scepsis toch doorgang
vinden (hetgeen gezien het regeerakkoord waarschijnlijk lijkt) dan zal het van groot belang
zijn om evaluatieonderzoek te verrichten naar de kritische onderdelen. Nagegaan zal moeten
worden de instroom en uitstroom van leerlingen in diverse scholen, de feitelijke tijdstoebede-
ling in uren en vakken, verschillen tussen scholen in middeleninzet en in effecdviteit en
efficiency van middelen. Kortom, evaluatieonderzoek zal nodig zijn voor de beantwoording
van een reeks vragen waarbij voorkomen moet worden dat het zich uitsluitend richt op de
periodieke peiling van het niveau: juist in dit geval gaat het niet om niveauhandhaving op
zich, maar om de effectieve middelen en om de constructie van de middelen waarmee een
minimum niveau voor allen te bereiken is.

LITERATUUR

ARBO (Advies Raad voor het Basisonderwijs) (1984). Het moet ons een zorg zijn. Advies over zorgverbre-
ding in het basisonderwijs. Zeist.

Berman, P. & M.W. McLaughlin (1977). Federal programs supporting educational change. Santa Monica,
Rand Corporation.

Boef-van der Meulen, S. (1986) Samenhang tussen basis- en voortgezet onderwijs. Rijswijk: SCP.

Bosker, R., R. van der Velden & A. Hofman (1985) Generatie geselecteerd deel 1: de /oopianen. Groningen:
RION.

CPS-publikaties: Onderwijsmatrices.

Creemers, B.P.M. (1983) Het schoolwerkplan van het voortgezet onderwijs. Pedagogische Studiën, 60,
96-106. ♦

Creemers, B.P.M. & J. Schaveling (1985) Verhoging van onderwijseffectiviteit. Den Haag: Staatsuitgeverij.

Eek, E. van, & H. Lington, (1982) Middenschool in de maak; onderzoek naar vormgevingen van Midden-
schoolonderwijs in relatie tot de vier uitgangspunten.
Amsterdam: SCO.

-ocr page 281-

Bert P.M. Creemers en Wijnand Th.J.G. Hoeben 277

Egten, I.M. van, & H.J. de Canne. (1986) Samenwerkingsprojecten VO/VSO; interimrapport I: de beginsi-
tuatie in de projecten met betrekking tot zorgverbreding, samenwerking en plaatsing van leerlingen
(SVO 54702). Groningen: RION.

Eend, H. (1982) Gesamtschule im Vergleich. Weinheim: Beltz.

Fullan, M. (1982) The meanings of educational change. New York and London: Teachers College Press.

Harskamp, E. & R. Hofman (1982). Overdraagbaarheid van curriculumprodukten in het basisonderwijs.
In: Halkes, R. & W.J. Nijhof.
Planning van Onderwijs. Bijdragen tot de ORD 1982. Lisse: Swets &
Zeitlinger.

Hoeben, W.Th.J.G. & P. Wolfgram (1984) Nascholing van onderwijsgevenden; verslag van een behoeftenpei-
ling.
Haren: RION.

Inspectiewerkgroep Middenschool. (1984) Inspectieadvies met betrekking tot de voortgang van de experimen-
ten Middenschool.
Den Bosch.

Janssens, F.J.G. (1986) De evaluatiepraktijken van leerkrachten: een beschrijvend onderzoek naar het
evalueren tijdens het rekenen in het primair onderwijs.
Proefschrift, Rijksuniversiteit Groningen.

Jong, R. de, H.H. Tillema, & H.P. Wolfgram, (1985) Professionele bekwaamheden en nascholingsbehoeften
van leerkrachten basisonderwijs.
Groningen: RION.

Pijl, S.J. (1986) Beslissen over de overgang van regulier naar speciaal onderwijs. In: Meijer, C.J.W., S.J. Pijl
& J. Rispens (red.).
Beslissen over verwijzen en toelaten. Lisse: Swets & Zeitlinger. p. 11-22.

Tesser, P. (1985) Sociale herkomst en schoolloopbanen in het voortgezet onderwijs. Nijmegen: ITS.

Ontvangen 18-7-1986.

-ocr page 282-

Tijdschrift voor Onderwijsresearch, 11 (1986), Nr. 5, p. 278

Ontvangen publikaties

Kemenade, J.A. van, N.A.J. Lagerweij, J.M.G. Leune & J.M.M. Ritzen. Onderwijs: Bestel en beleid I.
Onderwijs in hoofdlijnen.
Groningen: Wolters-Noordhoff, 1986.

Ippel, M.J. Component-testing. A theory of cognitive aptitude measurement. Dissertatie. Amsterdam: Free
University Press, 1986.

Griffioen, J., H. Damsma, A.J. Evenboer & B. Prins. ORDE. Een leidraad voor leraren. Muiderberg:
Coutinho, 1986.

Brutsaert, H. Gelijke kansen en leerlinggerichtheid in het secundair onderwijs. Leuven: ACCO, 1986.

Devens, T. & N. Van Loo. Hoe maak Je een projekt. Praktische handleiding. Leuven: Helicon, 1985.

Boland, Th. & M.J.C. Mommers. Lezen in de basisschool: een longitudinaal onderzoek. Deelrapport 3 van
het SVO-project 1126. Nijmegen: Katholieke Universiteit, 1986.

Kremers, E.J.J. Kwaliteitstoetsen voor het voortgezet onderwijs. Een voorstel voor uitwerking in het kader van
de Ontwerp-Ontwikkelingswet Voortgezet Onderwijs. Arnhem: CITO, 1986.

Vries, B. de & J. van Wel-Berretty. Tien Jaar buitenschools leren. Nijmegen: ITS, 1986.

Graauw, C. de, P. op de Weegh & J. Hutjes. dBase III in onderzoek. Gebruiksmogelijkheden voor de sociale
wetenschappen.
Nijmegen: ITS, 1986 (MISO-reeks, moduul 2).

Flierman, H. Verhalen over eerlijk. Onderwijskundige theorievorming. Amsterdam: SCO, 1986 (SCO-
rapport nr. 82).

Wolf, T. & H. Blok. Tienertoer en uitzendwerk. Twee toetsprogramma's voor functionele taalvaardigheid in
LBO en MA VO.
Amsterdam: SCO, 1985 (SCO-cahier nr. 31).

Bergh, H. van den & J. Hoeks. Oral reading error analysis: A comparison ofreading strategies used by second
grade and sixth grade children.
Amsterdam: SCO, 1985 (SCO-cahier nr. 33).

Peetsma, T. Toekomstperspectief Literatuurstudie. Amsterdam: SCO. 1985 (SCO-cahier nr. 34).

Gelderen, A. van. De validatie van analytische beoordelingen van spreekprestaties. Amsterdam: SCO, 1986
(SCO-cahier nr. 35).

Oostdam, R. J. & K. de Glopper. Leerstof voor tekstopbouw in methoden Nederlands voor het MA VO, HA VO
en VWO.
Amsterdam: SCO, 1986 (SCO-cahier nr. 36).

-ocr page 283-

Tijdschrift voor Onderwijsresearch, 11 (1986), Nr. 5, p. 279

Mededelingen

CALL FOR PAPERS

The "Zeitschrift für Pädagogische Psychologie" ("Journal of Educational Psychology") which will be
published by Verlag Hans Huber (Bern/Stuttgart/Toronto) beginning in March 1987, invites the submis-
sion of manuscripts. The journal seeks to merge theory, research, and practice of educational psychology. It
will publish reports of experimental research and empirical investigations, theoretical and methodological
studies, review articles, evaluative book reviews, reports about the situation of educational and school
psychology in different countries, and critical responses to articles previously published in this journal.

Manuscripts may be submitted for review in German and English. Accepted English manuscripts, however,
have to be translated into German by the author. Four copies of each manuscript should be sent to Prof. Dr.
Detlef H. Rost, Fachbereich Psychologie, Philipps-Universität, Gutenbergstraße 18, D-3550 Marburg,
W.-Germany.

-ocr page 284-

AJ.W.M. Thomassen, G.P. van Galen en
L.F.W. de Klerk (red.)

STUDIES OVER DE SCHRIJFMOTORIEK:
THEORIE EN TOEPASSING
IN HET ONDERWIJS

Een veelzijdige reeks van 21 originele bijdragen aan onze kennis van
de motoriek van het schrijven, zowel in theoretisch als in praktisch
opzicht. Er is met name veel plaats ingeruimd om, op het gebied van
de didactiek in het basisonderwijs, van de diagnostiek en de
behandeling van schrijfproblemen en van diverse andere toepas-
singen een brug te slaan tussen theorie en praktijk. Over bijna alle
motorische aspecten van het schrijven komen belangrijke kwesties
aan de orde. Het boek heeft tal van raakpunten met de praktijk van
het (leren) schrijven, met inbegrip van de diagnostiek en de
behandeling van bijzondere problemen die zich daarbij kunnen
voordoen. Het boek is daardoor niet alleen geschikt voor onder-
zoekers en experts, maar zeker ook voor studenten en docenten van
de PABO.

1985. 352 pagina's f. 52,50 ISBN 90 265 0662 7

Te bestellen bij de boekhandel of bij

SWETS PUBLISHING SERVICE

Heereweg 347-b, 2161 CA Lisse
Telefoon 02521 - 1 91 13
Telex 41325

/ PUBLISHING SERVICE ƒ Postbus 820, 2160 SZ Lisse

-ocr page 285-

Tijdschrift voor Onderwijsresearch, 11 (1986), Nr. 6, pp. 281-292.

Weder-Keren-de Kansen?

Een log-lineaire analyse van het effect van aanvullende kwalificaties voor onderwijsmobiliteit
1925-1955.

Roel Popping & Jules Peschar

Vakgroep Methoden & Technieken, Sociologisch Instituut, Rijks Universiteit Groningen
en

Instituut voor Onderwijsonderzoek (RION), Groningen

ABSTRACT

Changing educational chances?

A log-linear analysis of the effect of extra qualifications for educational mobility 1925-1955.

In this research note the often repeated assumption is tested whether additional qualifications
attained in addition to day-time schooling (evening classes, part-time schooling, business courses,
etc.) increase educational inquality. On the basis of an analysis of four age cohorts of a Dutch
representative sample of 1982 (N = 2677), mobility patterns between fathers and sons/daughters are
compared on two criteria: day-time schooling versus day-time schooling with extra qualifications.
On the basis of log-linear analysis it is concluded that the overal educational level increases - more
for men than for women - after extra qualification. The anticipated effect of an increase in
educational inequality (lower educational mobility) after extra qualification could not be demon-
strated. It is suggested that this neutrality could be explained by assuming that contradicting
mechanisms (differences between sectors or types of education) may balance each other out.

1. INLEIDING

In het recente advies van de Wetenschappehjke Raad voor het Regeringsbeleid wordt geconsta-
teerd: 'De ongehjke deelname aan de diverse vormen van onderwijs door verschillende lagen
van de bevolking kan beschouwd worden als een van de best gedocumenteerde feiten die de
onderwijssociologie de afgelopen twee decennia heeft opgeleverd' (WRR, 1986, 168). We
zouden er aan toe kunnen voegen, dat in dezelfde twee decennia deze feiten een prominente
plaats hebben gekregen in het onderwijsbeleid, en tot op zekere hoogte een toetssteen voor het
beleid zijn gaan worden. Dit geldt niet alleen voor de (vele) voorstellen voor een herstructure-
ring van het dagonderwijs (middenschool, lyceum, lts, basisvorming), maar ook voor de
vormgeving van allerlei vormen van
aanvullend onderwijs.

Het zijn met name deze activiteiten, die beogen de in het dagonderwijs ontstane sociale
verschillen in onderwijskwalificaties te doorbreken en te corrigeren. Houtkoop (1985, 377)
spreekt in dit verband van de correctiefunctie, een term die ontleend is aan Dahrendorf.
Hiermee zouden in het dagonderwijs ontstane onrechtvaardige sociale verschillen in het latere
onderwijsproces kunnen worden tegengegaan. Op grond van de resultaten van empirisch
onderzoek moet men echter concluderen dat van een correctie nauwelijks sprake is (voor een

Adres: Oude Boteringestraat 23,9712 GC Groningen

-ocr page 286-

282 Weder-Keren-de kansen?

uitvoeriger bespreking zie Houtkoop, 1985,375-379). Integendeel lijkt bet erop dat aanvullende
onderwijsvoorzieningen voornamelijk worden gevolgd door diegenen die reeds een hoger
kwalificatieniveau bezitten, waarmee de onderwijsongelijkheid slechts wordt versterkt. Men
moet hierbij echter bedenken dat de meeste gegevens betrekking hebben op specifieke vormen
van gesubsidieerd of schriftelijk onderwijs: allerlei andere vormen van latere kwalificatiever-
werving zijn niet meegenomen, zodat eigenlijk een onvolledig beeld ontstaat. Het is immers
denkbaar dat met gebruik van een breder criterium een ander beeld ontstaat. Hiermee is
tegelijkertijd het uitgangspunt van dit artikel geschetst.

We sluiten daartoe aan bij de recente aandacht voor de analyse van onderwijsmobiliteit.
Hierbij wordt onderzocht in hoeverre het opleidingsniveau van kinderen gestegen of gedaald is
ten opzichte van hun ouders. Het herformuleren van het probleem van onderwijskansen tot een
probleem van mobiliteit heeft daarbij een tweetal voordelen. In de eerste plaats kan er gebruik
worden gemaakt van het analyUsche begrippenkader, dat in vragen naar sociale mobiliteh is
ontwikkeld. Van belang is vooral dat er twee verschillende mechanismen van mobiliteit kunnen
worden onderscheiden. Mobiliteit als gevolg van een
algehele opwaardering of stijging van het
opleidingsniveau
geldt daarbij voor iedereen en wordt wel structurele mobiliteit genoemd: de
relatieve posities worden echter niet veranderd. Een verandering in die relatieve posities echter
geeft aan in hoeverre de
kansenstructuur zeifis veranderd; deze vorm wordt wel aangeduid als
circulatie mobiliteit. De analyseprocedures die ontwikkeld zijn voor het mobiliteitsonderzoek,
een voordeel in de tweede plaats, laten toe deze twee componenten van mobiliteit zeer precies te
onderscheiden. Hiermee is dus
vast te stellen welk deel van de mobiliteit van kinderen ten
opzichte van hun ouders het gevolg is van een algehele ophoging van het onderwijspeil, en welk
deel het gevolg is van een verandering in onderwijskansen.
Hierna zullen de volgende vragen aan de orde komen:

- welke mobiliteitspatronen komen voor wanneer het bereikte opleidingsniveau van het
dagonderwijs als criterium wordt gekozen;

- in hoeverre verandert dit beeld wanneer alle aanvullende kwalificaties worden opgenomen in
het criterium;

- is er sprake van een zekere ontwikkehng in de tijd, wanneer verschillende leeftijdscohorten
worden onderscheiden;

- verschillen deze resultaten systemadsch voor jongens en meisjes.

In de volgende paragraaf (2) worden de opzet van de analyse, de gebruikte data en variabelen
kort besproken. Daarna laten we zien hoe groot de verschuivingen zijn wanneer aanvullende
kwalificaties in het criterium worden opgenomen. Dit gebeurt met behulp van log-lineaire
technieken. Dan ■volgen conclusies en discussie.

2. OPZET EN VERSCHUIVINGEN

In een vergelijkend onderzoek naar onderwijsmobiliteit (Peschar, Ten Vergert & Popping,
1985) is onderzocht in hoeverre kinderen gestegen of gedaald zijn ten opzichte van het niveau
van hun vader. Dit is gebeurd met behulp van het structurele analyse model dat ontwikkeld is
door Hope (1981, 1982). Opleiding werd daar gedefinieerd aan de hand van de voltooide
schoolopleiding (volledig dagonderwijs)'. De op deze manier gedefinieerde opleiding noemen
we hierna OPLBEG. Het Nederlandse materiaal (verzameld in het kader van het Nationaal
Programma Arbeidsmarkt-Onderzoek (Heinen & Maas, 1984)) bevat echter ook gegevens over
allerlei verschillende vormen van aanvullend onderwijs. Opleiding waarin al deze gegevens ook
zijn opgenomen zullen we OPLEND noemen^. Het is nu mogelijk de twee vormen van
opleiding, zoals nu gedefinieerd, tegen elkaar af te zetten.

We zullen allereerst ingaan op de verschuivingen welke zich voordoen wanneer niet
'opleiding gebaseerd op dagonderwijs' wordt gebruikt, maar 'opleiding inclusief aanvullend
onderwijs'. Hierbij maken we gebruik van een viertal leeftijdscohorten. Het cohort 25 omvat de
respondenten die geboren zijn in de jaren 1925 tot en met 1934, het cohort 35 de respondenten

-ocr page 287-

Roel Popping en Jules Peschar 283

geboren in de jaren 1935 tot en met 1944, enz. Alleen die respondenten zijn in de vergelijkingen
opgenomen die geen ontbrekende scores hebben op de variabelen OPLBEG, OPLEND en
opleiding van de vader (zie verder). De respondenten zijn ingedeeld in vier categorieën. Daartoe
zijn de oorspronkelijke coderingen als volgt gehercodeerd:

1. geen officiële opleiding (1); lagere school (2);

2. lager voortgezet onderwijs (3);

3. voortgezet hoger en middelbaar beroeps onderwijs (4);

4. hoger beroeps onderwijs (5); universiteit (6).

Deze vierdeling biedt verder de mogelijkheid een vergelijking te maken met eerdere publicaties
die betrekking hebben op een vergelijking met Hongarije en Polen. De data zijn opgenomen in
de Bijlage.

De verschuivingen die nu optreden zijn weergegeven in Tabel 1, waarin de rijpercentages zijn
vermeld. Het eerste getal in een rij geeft het percentage respondenten aan dat in dezelfde
categorie is gebleven, het tweede het percentage respondenten dat een categorie is opgeschoven

mannen

Tabel 1. Percentages verschuivingen per sexe en per cohort. In de kolom zijn steeds de gegevens
voor OPLBEG vermeld, in de rij die voor OPLEND. In de cellen zijn de rijpercentages
vermeld. De laatste kolom bevat het aantal respondenten in de corresponderende
categorie van OPLBEG. Met % gest wordt het totale percentage respondenten bedoeld
dat gestegen is als gevolg van aanvullende opleidingen.

vrouwen

cohort 25

1 44.7

2

3

4

% gest.

49.0
31.6
10.3
9.0

13.2
24.5

38.2

65.3
68.8

3.9
10.2
31.3
100

54

1 79.8

2

3

4

% gest.

11.1
55.4

9.1
37.5
61.5

O

7.1
38.5
100

55.9
31.6
7.3
5.1

28


cohort 35

1 48.8

2

3

4

% gest.

39.8

37.5
11.1

11.6

20.9
25.9

30.2
58.0

83.3

O
16.0
16.7
100

50

1 75.3

2

3

4

% gest.

11.7
68.7

13.0
28.3
72.0

O

3.0
28.0
100

35.5

45.6
11.5
7.4

26


cohort 45

1 542

2

3

4

% gest.

25.8
40.4
14.6
19.3

1.2
8.5
31.9
100

18.1
31.5

26.5
60.0
68.1

44

1 78.4

2

3

4

% gest.

4.5
56.4

13.6
42.3
67.9

3.4
1.2
32.1
100

26.7
49.4
16.1
7.9

32


cohort 55

1 56.5

2

3

4

% gest.

15.6
35.4
33.3
15.6

43
7.7
46.9
100

26.1
48.1
53.1

13.0
44.2

42

1 85.3

2

3

4

% gest.

2.9
64.1

11.8
34.6
68.2

15.3
35.1
38.3
11.3

O

1.3
31.8
100

27


-ocr page 288-

284 Weder-Keren-de kansen?

naar boven, enz. De laatste kolom geeft het percentage respondenten per rij; verder is het
percentage gestegen respondenten per cohorttabel aangegeven.

Uit de gegevens in de tabel valt op dat met name de mannen kennelijk behoorlijk aanvullende
kwalificaties verwerven. Cohort 55 bevat zeker mensen die hun opleiding (in termen van
OPLEND) nog niet voltooid hebben, met betrekking tot cohort 45 lijkt dit ook waarschijnlijk.
Hier rekening mee houdend, geldt dat globaal de helft van de mannen één of meer categorieën
stijgt. Voor de
vrouwen uit de laatste twee cohorten betreft het zeker een derde deel. De grootste
verschuivingen vinden over het algemeen plaats van zowel categorie 1 als 2 naar 3, en van
categorie 3 naar 4. Dit laatste geldt bij de mannen niet voor cohort 35. Bij de vrouwen blijft het
opschuiven van categorie 1 naar 3 achter in de eerste twee cohorten. Men bedenke echter dat uit
Tabel 1 nog niets blijkt over de kansen om te stijgen ofte dalen, dus over de circulatie mobiliteit.

Onze bevindingen komen hier niet overeen met die van Houtkoop (1985). Deze heeft het
echter specifiek over kansen om hogerop te komen. In ons onderzoek zal ook voor degenen die
al een betrekkelijk hoog niveau hebben bereikt bij het volledige dagonderwijs gelden dat zij
aanvullend onderwijs hebben gevolgd om nog hoger op te kunnen komen. Voor hen die bij het
dagonderwijs geen hoog opleidingsniveau hebben bereikt vermoeden we dat het gaat om
aanvullende cursussen die heel specifiek zijn voor de beroepspraktijk'.

Belangrijkste conclusie is, dat er nogal wat mensen in een hogere categorie komen wanneer
het aanvullend gevolgd onderwijs ook in de variabele opleiding wordt opgenomen. Dit betekent
dat het in de analyses nogal wat uit kan maken voor de resultaten of gebruik wordt gemaakt van
opleiding zonder of met aanvullend onderwijs.

3. VERGELIJKING MET VADER: ONDERWIJSMOBILITEIT

Hierna zal de mobiliteit van de kinderen ten opzichte van hun vader onderzocht worden. Dit
gebeurt eerst voor opleiding zonder aanvullend onderwijs (OPLBEG) en daarna voor opleiding
inclusief aanvullend onderwijs (OPLEND). De opleiding van de vader is gemeten via de vraag
naar de vaders opleiding toen de respondent 12 jaar werd. Dit is de enige vraag hierover die ons
ter beschikking staat. We maken wederom gebruik van de cohorten 25,35,45 en 55.

Het model waarvan we gebruik maken bij de analyses wordt in de eerste paragraaf
besproken. De verschillen die - naar we verwachten - ontstaan worden in de dan volgende
paragrafen onderzocht.

3.1 Vergelijking door middel van mobiliteitsmodellen

We maken bij deze vergelijking gebruik van een onderzoeksmethode die de laatste jaren steeds
meer aandacht krijgt, namelijk log-lineaire modellenbouw op basis van mobiliteitsmatrices. We
baseren ons hierbij vooral op de gestructureerde analyse volgens Hope (1981). Dit model zullen
we in het kort beschrijven.

Bij deze structurele analyse is het mogelijk om door middél van een stapsgewijze procedure
zowel de structurele als de circulatie mobiliteit in het model te specificeren. Tevens kunnen
conditionele toetsen worden uitgevoerd bij vergelijkend onderzoek, zodat de verschillen tussen
subgroepen kunnen worden onderzocht. De verschillen tussen de aldus verkregen modellen en
de 'werkelijke' data worden uitgedrukt in de G^-maatstaf, de log-likelihood-ratio. Hoe lager
deze is, gegeven het aantal vrijheidsgraden, des te beter representeert het model de werkelijk-
heid.

Hope definieert als nul-model het zogenaamde 'halfway-model' (H). Bij 'dit model wordt
uitgegaan van homogene randverdelingen in de tabel en worden de cellen gevuld volgens het
principe van 'statistische onafhankelijkheid'. Aan de afwijking van deze fictieve structuur van
de werkelijke wordt een modelstructuur gegeven. De structurele mobiliteit wordt zodoende
uitgeschakeld: er is sprake van perfecte mobiliteit binnen de tabel.

-ocr page 289-

Roel Popping en Jules Peschar 285

De volgende stap bij Hope is het uitbreiden van het model met een component waardoor de
structurele mobiliteit tot uitdrukking komt. Hiertoe is het zogenaamde verschilmodel (D)
ontwikkeld. Aan dit model worden twee componenten onderscheiden. De eerste component is
een lineaire term (L), die structurele mobiliteit weergeeft als een gevolg van een uniforme
opwaartse verschuiving van de randtotalen, hier wordt dus gebruik gemaakt van het ordinale
karakter van de categorieën. Invoering van de L-component verbetert het model en vermindert
de residuele G^-waarden. De verbetering ten opzichte van het halfway-model wordt uitgedrukt
in termen van verklaarde variatie van het model. Vervolgens wordt de tweede component van
het verschilmodel (D-L) toegevoegd, die structurele mobiliteit weergeeft als gevolg van niet-
uniforme structurele veranderingen. Het model voor de totale structurele mobiliteit is H + D.

Nadat de structurele mobiliteit aldus in het model is opgenomen, wordt in de volgende stap de
verticale component van de circulatiemobiliteit toegevoegd, met andere woorden of men nog
'gestegen' of 'gedaald' is, nadat de relatieve algemene verhoging van het onderwijsniveau is
verrekend. Deze component bestaat uit een kwadratische term (Q) en wordt gemodelleerd als (i
- j)^ waarbij i en j de nummers van de corresponderende categorieën voorstellen^ In het model
geldt dat de kans om mobiel te zijn kwadratisch afneemt met het aantal niveaus dat men
gestegen of gedaald is ten opzichte van de hoofddiagonaal, gegeven de andere componenten die
al in het model zijn opgenomen. Voor een uitgebreidere beschrijving van dit model verwijzen we
naar Hope (1981).

De relatieve verbetering van een model ten opzichte van de startsituatie, het halfway-model,
wordt berekend aan de hand van de verklaarde variatie van dat model. Deze wordt bepaald via
de zogenaamde 'coefficient of partial determination':

G'2 = [(G^(0) — G2(l))/G2(0)] * 100%,

waar G^(0) verwijst naar de fit in de startsituatie en G^( 1) naar de fit in het model dat onderzoc*"'
wordt (Goodman, 1972, 1057). Voor Hope is deze maat voor relatieve verbetering van h
model belangrijker dan het toetsen van de significantie van de verkregen G^-waarden (Hop.,
1981,50; 1982,111). Wij volgen Hope hier grotendeels in'.

Voor een aantal componenten in een model zijn parameterwaarden te berekenen. Deze zijn te
beschouwen als een soort betagewichten zoals gebruikt bij regressie analyse. Met behulp van
deze parameters is het mogehjk vergelijkingen te maken tussen uitkomsten van modellen
toegepast op verschillende variabelen.

3.2. Analyse van dag-onderwijs

In deze paragraaf onderzoeken we de verbetering in modellen voor de mobiliteit van de zonen
en dochters ten opzichte van de vader, waarbij de opleiding van de kinderen is gemeten als
opleiding zonder aanvullend onderwijs (OPLBEG). De resultaten van de analyse worden
vermeld in Tabel 2.

Uit de tabel bhjkt dat de uiteindelijk verklaarde variatie in deze modellen ten opzichte van het
nul-model (uitgezonderd cohort 45) bij de dochters steeds iets groter is dan bij de zonen. De
relatief lage hoeveelheid verklaarde variatie van 77% bij de zonen in cohort 55 wijten we aan het
feit dat een groot deel van deze zonen zijn opleiding nog niet voltooid heeft op het moment van
data-verzameling in 1982. Verder valt op dat de lineaire mobiliteit (L) bij de zonen groter is dan
bij de dochters. Als het residu verschilmodel (D-L) ook is opgenomen, wordt deze achterstand
echter weer te niet gedaan.

Met betrekking tot de modellen waarin de lineaire en de verschil component zijn opgenomen,
geldt dat geen significante verschillen worden gevonden voortkomend uit de sexe (uitgezonderd
in het H+D-model de cohorten 25 en 45). Voor de modellen met de kwadratische afstand bhjkt
dat invoering van sexe als interactieterm evenmin tot significante verschillen leidt'.

-ocr page 290-

286 Weder-Keren-de kansen?

Tabel 2. Log-lineaire analyse vader/zoon en vader/dochter (OPLBEG)

Residuele G^-waarden voor de cohorten:

vader/zoon

vader / dochter

model

df

25

35

45

55

25

35

45

55

H

12

52.2

92.8

126.7

65.1

70.7

84.0

125.7

123.1

+ L

11

33.4

74.2

87.3

48.2

67.1

72.2

105.5

78.8

+ D-L

9

31.3

44.0

56.1

37.8

42.5

33.0

46.5

57.0

+ Q

8

9.8

12.0

8.5

14.9

10.6

7.0

8.3

14.4

Percentage variade ten opzichte van halfway-model:

H

12

0%

0%

0%

0%

0%

0%

0%

0%

-f-L

1

36%

20%

31%

26%

5%

14%

16%

36%

+ D-L

3

40%

53%

56%

42%

40%

61%

63%

54%

+ Q

4

81%

87%

93%

77%

85%

92%

93%

88%

3.3. Analyse inclusief aanvullend onderwijs

In deze paragraaf repliceren we de analyse voor het andere criterium: opleiding inclusief
aanvullend onderwijs. De resultaten van deze analyse staan vermeld in Tabel 3.

Tabel 3. Log-lineaire analyse vader/zoon en vader/dochter (OPLEND)

Residuele G^-waarden voor de cohorten:

vader/zoon

vader / dochter

model

df

25

35

45

55

25

35

45

55

H

12

164.9

148.9

213.7

107.4

74.4

102.9

155.4

157.8

+ L

11

51.6

37.2

55.7

44.2

48.3

59.5

75.4

74.7

+ D-L

9

39.4

27.5

54.7

42.8

39.1

38.6

56.2

68.4

+ Q

8

• 7.3

8.2

5.4

6.3

3.7

5.5

4.6

18.1

Percentage variatie ten opzichte van

halfway-model:

H

12

0%

0%

0%

0%

0%

0%

0%

0%

+ L

1

69%

75%

74%

59%

35%

42%

51%

53%

-i-D-L

3

76%

82%

74%

60%

47%

62%

64%

57%

+ Q

4

96%

95%

97%

94%

95%

94%

97%

89%

Ook hier geldt dat de modellen die de kwadratische afstand (Q) omvatten goed passen, zelfs nog
beter dan uit Tabel 2 bleek (uitgezonderd de vergelijking vader/dochter in cohort 55). Nu wordt
echter wel gevonden dat de verklaarde variatie ten opzichte van het nul-model bij de zonen
steeds een fractie hoger is dan bij de dochters. De verklaarde variatie in het model met alleen
lineaire mobiliteit is bij de zonen groter dan bij de dochters. Als het residu verschilmodel wordt
toegevoegd halen de dochters de zonen niet in.

In de modellen waarin de kwadradsche afstand is opgenomen, wordt gevonden dat er geen
significante verschillen worden veroorzaakt door de sexe. Bij de modellen die de lineaire en de

-ocr page 291-

Roel Popping en Jules Peschar 287

structurele component bevatten, worden hier wel steeds significante verschillen gevonden
(uitgezonderd cohort 55).

3.4. Vergelijking van de twee criteria

De verschillen die ontstaan door het aanvullend onderwijs al dan niet op te nemen in de
variabele onderwijs komen meteen naar voren wanneer gelet wordt op verschillen in verklaarde
variatie in de modellen. Met betrekking tot de best passende modellen (dit zijn die die de
kwadratische afstand ook omvatten) geldt dat in de vergelijking vader/zoon de verklaarde
variatie daar waar het aanvullend onderwijs ook in de variabele is opgenomen gemiddeld 11%
hoger is dan daar waar dit niet is gebeurd. In de vergelijking vader/dochter is deze variatie
gemiddeld ruim 4% hoger, met andere woorden er is meer verklaard ten opzichte van het
nul-model.

In de modellen waarin de lineaire en de structurele component zijn opgenomen, zijn deze
gemiddelden voor de vergelijkingen vader/zoon resp. 43% en 24%; voor de vergelijkingen
vader/dochter 28% en 3%.

We kunnen nu toetsen wat de verschillen tussen de modellen zijn indien aanvullend onderwijs
al dan niet in de opleiding wordt meegeteld. Hier wijken we wel van Hope af, voor wie toetsing
niet belangrijk is. We zijn immers geïnteresseerd in de rol van de interactie en willen daarom
weten of deze al dan niet voor significante verschillen zorg draagt. De resultaten van de analyse
zijn vermeld in Tabel 4.

Tabel 4. Verschillen veroorzaakt door het al dan niet opnemen van het aanvullend onderwijs in
de opleiding (opleiding = O)

Residuele G^-waarden voor de cohorten:

vader/zoon

vader / dochter

model

df

25

35

45

55

25

35

45

55

H

28

263.8

288.3

388.7

186.3

156.5

198.3

312.7

290.8

H»0

24

217.0

241.7

340.5

172.5

145.1

187.0

281.2

280.8

+ L

23

97.6

126.6

160.8

98.7

119.2

135.5

188.4

155.4

22

84.9

111.3

143.0

92.3

115.4

131.7

181.0

153.5

versch.

1

12.7

15.3

17.8

6.4

3.8

3.8

7.4

1.9

-t-D-L

21

85.8

101.4

149.3

89.2

90.4

80.4

122.3

131.6

4- (D-L)*0

18

70.7

71.5

110.7

80.6

81.7

71.7

102.7

125.4

versch.

3

15.1

29.9

38.6

8.6

8.7

8.7

19.6

6.2

+ Q

17

19.9

20.4

14.6

22.6

14.3

12.6

13.2

32.6

+ Q*0

16

17.1

20.2

13.9

21.2

14.2

12.5

12.9

32.5

versch.

1

2.8

.2

.7

1.4

.1

.1

.3

.1

Ten aanzien van de vergelijkingen vader/zoon zijn er bij zowel het lineaire mobiliteitsmodel als
bij het model waar de residu verschillen (D-L) zijn toegevoegd in alle vier de cohorten wel
significante verschillen, die veroorzaakt worden door deze verschillen in criterium (zie de
betreffende
verschilregels in de tabel, waarmee het effect van verschillende criteria is getoetst).
Bij de
vader/dochter zijn deze verschillen alleen heel duidelijk voor het cohort 45. Met betrek-
king tot de modellen waarin ook de kwadratische afstand is opgenomen vinden we nergens dat
er significante verschillen zijn die veroorzaakt worden door de verschillen in definitie van
opleiding.

-ocr page 292-

288 Weder-Keren-de kansen?

3.5. Parameters

De percentages verklaarde variatie zeggen iets over hoe goed de modellen passen in vergehjking
met het halfway-model. Op grond hiervan moet de keus voor een bepaald model gerechtvaar-
digd worden. De percentages zijn niet te gebruiken voor het doen van vergehjkende uitspraken
over toe- of afname van mobiliteit. Hiervoor dienen de parameterwaarden van het model te
worden gebruikt'. (Zie ook Ganzeboom en De Graaf (1983,37)). Wij menen dat de modellen nu
goed genoeg passen om op grond van de er bij behorende parameter-waarden vergelijkende
uitspraken te doen. Gelet op de uitkomsten gevonden in de vorige subparagrafen moeten de
uitkomsten van de L-parameters wel met de nodige voorzichtigheid worden geïnterpreteerd. In
Figuur 1 zijn de L- en Q-parameterwaarden voor alle combinaties over alle cohorten gegeven.

- ovnOEB-ZOCIN (OPLBEGI

---O vnOEfi-ZOON (OPLENDI

- + VBDER-OOCHTEFI lOFLeEGI

---X VRDER-DCICHTER lOPLENDl

'•O.........&.....

Figuur 1. L en Q parameters

Vrijwel steeds bhjkt dat de lineaire (structurele) mobiliteit is toegenomen; voor zonen sterker
dan voor dochters. De Q-parameters (voor circulatie mobiliteit) blijken een relatief constant
patroon te vertonen, maar laten tegehjkertijd een licht dalende tendens zien (uitgezonderd
zowel vader/zoon als vader/dochter in cohort 25). Een uitgebreidere interpretatie wordt in de
volgende paragraaf gegeven.

4. CONCLUSIE EN DISCUSSIE

Na de resultaten van onze analyse kunnen we nu terug komen bij de eerder gestelde vragen in dit
paper.

De mobiliteitspatronen waarbij het criterium 'niveau dagonderwijs' (OPLBEG) was gebruikt
heten zien dat de
structurele mobiliteit (gemeten via de L-para'meter) van de zoon ten opzichte
van de vader eerst daalt en daarna weer licht stijgt. Voor de mobiliteit van dochter ten opzichte
van vader is deze vorm van mobiliteit steeds hcht stijgend. Met betrekking tot de
circulatie
mobiliteit is het patroon bij de mobiliteit van de zoon ongeveer omgekeerd aan dat bij de
structurele mobiliteit. Het patroon bij de mobiliteit van de dochter komt sterk overeen met dat
van de zoon.

Wanneer we het andere criterium toepassen, waarbij alle later verworven kwalificaties zijn
opgenomen (OPLEND), dan bhjkt dat de structurele mobiliteit van de zoon ten opzichte van de
vader in het jongste cohort relatief sterker daalt dan eerst het geval was. De gevonden waarden
zijn wel steeds hoger dan bij het eerste criterium. Ten aanzien van de
circulatie mobiliteit blijkt
het patroon voor de vader/zoon vergelijking extremer te zijn geworden. Voor cohort 35 is de
mobiliteit nu iets hoger, voor het overige is hij geringer geworden. Dit geldt ook in de
vader/dochter vergehjking.

De derde onderzoeksvraag betrof de stabiliteit van de bevindingen in de tijd. Hetgeen we

-ocr page 293-

Roel Popping en Jules Peschar 289

hierover kunnen concluderen is hiervoor eigenhjk al aangegeven. Momenteel hjkt er een
stijgende lijn in de structurele mobiliteit en een licht dalende lijn in de circulatie mobiliteit te
bespeuren te zijn.

De bovenvermelde resultaten - de vierde vraag - blijken voor de sexen op de volgende punten
te kunnen worden gespecificeerd. De structurele mobiliteit is bij de vader/zoon vergehjking
systematisch relatief meer gestegen dan bij de vader/dochter vergelijking als het aanvullend
onderwijs ook wordt opgenomen. Bij de circulatie mobiliteit zijn er geen significante ver-
schillen, afgezien van het eerste cohort.

Het bhjkt dus dat het opnemen yan aanvullende cursussen als operationahsering van de
variabele opleiding voor de mobiliteitsvergelij kingen tot gevolg heeft dat de structurele mobili-
teit toeneemt, en dat deze stijging voor zonen relatief sterker is dan voor dochters. Voor de
circulatie mobiliteit geldt dat deze iets geringer wordt en dat zich in het jongste cohort een iets
sterkere afname heeft voorgedaan bij de zonen dan bij de dochters. In het cohort 35 is de
circulatie mobiliteit bij de zonen naar verhouding gestegen. Dit zou veroorzaakt kunnen zijn
door het feit dat betrokkenen hun voortgezette opleiding in de eerste jaren na de oorlog hebben
gevolgd.

We hebben onze resultaten tot nu toe voornamelijk behandeld in termen van patronen van
onderwijsmobiliteit. Wat betekenen de bevindingen echter voor de concrete vraag naar veran-
deringen van onderwijskansen door het verwerven van aanvullende kwalificaties? In dit opzicht
moet een tweetal verschillende conclusies worden getrokken. In de eerste plaats is duidehjk dat
in alle gevallen sprake is van een verhoging van de kwalificatie: concreet betekent dit dat men
over de gehele linie een beetje 'opschuift'; de een iets meer, de ander iets minder. Overigens moet
worden gezegd, dat deze kwalificatieverhoging meer voorkomt bij mannen dan bij vrouwen.

In de tweede plaats bhjkt duidelijk dat er bij dit opschuiven géén sprake is van extra inhaal- of
achterblijf-bewegingen. Enerzijds blijken deze patronen van circulatie mobiliteit in de loop der
tijd relatief constant te zijn, met een hcht dalende tendens: geleidelijk aan wordt het onderwijs-
systeem iets geslotener. Aan de andere kant bhjkt bij toetsing geen verschil tussen de twee
criteria, met andere woorden de onderwijsongelijkheid (= geslotenheid) is niet groter wanneer
men aanvullende kwalificaties toevoegt aan het bereikte niveau van dagonderwijs.

Vooral dit laatste gegeven - geen verschil in de parameters voor circulatie - heeft belangrijke
consequenties. Dit houdt immers in dat het eenmaal geconstateerde beeld van ongelijke
verdeling van onderwijsniveaus niet zou veranderen door aanvullende kwalificaties.

Met een tweetal opmerkingen willen we afsluiten:

- Voor de verwachting dat extra scholingsmogelijkheden voor volwassenen, in bedrijf of in de
vrije tijd, de onderwijsongelijkheid slechts vergroten, konden we in dit onderzoek geen steun
vinden. In het beste geval kunnen we zeggen dat de eenmaal bereikte status quo niet verandert.
Deze toestand bhjft echter alleen gelden als iedereen hetzelfde gedrag blijft vertonen: wanneer
op grond van onze resultaten groepen personen zouden besluiten om geen aanvullende
opleidingen meer te volgen, omdat het niets uitmaakt, dan invalideren onze bevindingen zich
zelf.

- Het uit ander onderzoek ontstane beeld van de-emanciperende effecten van aanvullende
kwalificaties konden we niet zichtbaar maken. Betekent dit dat het 'neutrale' beeld dat we
schetsen wellicht een soort uitmiddeling is van twee tegengestelde tendensen? Bestaan er
behalve de genoemde de-emanciperende effecten ook extra-emanciperende effecten? Onze
resultaten spreken een dergelijke veronderstelling niet tegen, zonder dat daarbij meteen duide-
lijk wordt welke specifieke activiteiten een zodanige rol vervullen. Maar het is duidehjk dat een
antwoord op deze vragen voor onderzoek en beleid op het gebied van allerlei vormen van
beroepsgerichte en volwassenen educatie een buitengewoon belangrijk gezichtspunt is.

-ocr page 294-

290 Weder-Keren-de kansen?

BIJLAGE

Tabellen zoals gebruikt in de diverse cohorten. In de kolom staan steeds de gegevens voor de
vader, in de rij voor de kinderen

OPLBEG

vader / zoon

vader / dochter

65

35

10

4

1 114

cohort 25

87

38

6

2

1 133

10

9

3

7

1 29

7

5

4

1

1 17

1

4

2

0

1 7

5

9

3

2

1 19

0

1

1

3

1 5

0

4

0

4

1 8

76

49

16

14

155

99

56

13

9

177

68

58

13

10

1 149

cohort 35

62

64

10

4

1 140

10

13

4

1

1 28

8

16

6

5

1 35

8

9

5

5

1 27

7

13

5

4

1 29

0

1

2

9

1 12

0

6

4

3

1 13

86

81

24

25

216

77

99

25

16

217

63

74

18

15

1 170

cohort 45

67

94

20

8

1 189

11

30

16

18

1 75

11

41

11

4

1 67

7

24

9

18

1 58

6

22

15

6

1 49

2

2

4

11

1 19

4

6

7

8

1 25

83

130

47

62

322

88

163

53

26

330

18

27

14

3

1 62

cohort 55

31

43

30

6

1 110

3

13

8

9

1 33

1

24

23

8

1 56

1

10

19

10

1 40

2

10

20

5

1 37

1

2

8

1

1 12

0

1

12

6

1 19

23

52

49

23

147

34

78

85

25

222

-ocr page 295-

Roel Popping en Jules Peschar 291

OPLEND

vader / zoon vader / dochter

31

21

53

9

1 114

cohort 25

73

30

24

6

1 133

3

1

13

12

1 29

4

5

5

3

1 17

0

0

5

2

1 7

2

6

6

5

1 19

0

0

1

4

1 5

0

1

3

4

1 8

34

22

72

27

155

79

42

38

18

177

36

30

62

21

1 149

cohort 35

46

57

31

6

1 140

3

4

15

6

1 28

7

12

9

7

1 35

3

4

14

6

1 27

5

6

10

8

1 29

0

1

2

9

1 12

0

2

6

5

1 13

42

39

93

42

216

58

77

56

26

217

39

35

71

25

1 170

cohort 45

55

63

56

15

1 189

5

12

30

28

1 75

9

21

28

9

1 67

1

8

24

25

1 58

4

10

25

10

1 49

0

1

7

11

1 19

1

2

8

14

1 25

45

56

132

89

322

69

96

117

48

330

12

14

28

8

1 62

cohort 55

27

30

41

12

1 110

1

7

12

13

1 33

0

18

22

16

1 56

0

5

14

21

1 40

2

3

19

13

1 37

0

0

3

9

1 12

0

0

7

12

1 19

13

26

57

51

147

29

51

89

53

222

-ocr page 296-

292 Weder-Keren-de kansen?

NOTEN

* Deze analyse is ontstaan als uitvloeisel van SVO-project 1056 (internationale vergelijking van cohort-
en beroepsloopbanen).

1. Dit was noodzakelijk omdat een vergelijking is gemaakt met dezelfde situatie in Hongarije. In de
Hongaarse data waren alleen gegevens opgenomen met betrekking tot de op deze manier gedefinieerde
variabele opleiding.

2. De score op de variabele OPLEND is om precies te zijn het hoogste kwalificatieniveau van volledig,
gedeeltelijk dagonderwijs en (bedrijfs-) cursussen, geclassificeerd volgens de Standaard Onderwijs
Indeling van het CBS.

3. Dit kunnen we aan de hand van ons datamateriaal evenwel niet onderzoeken. In verband met plafond
effecten
kan de stijging voor hen met een lagere opleiding ook groter zijn dan voor hen met een hoge
opleiding.

4. In plaats van de kwadratische term Q hadden ook andere termen gekozen kunnen worden, b.v. de
verticale term V, gemodelleerd door | i - j | , of een gemixte term M waarin de bovendriehoek het
V-gedeelte en de onderdriehoek het Q gedeelte bevat. Hiermee wordt dan uitgedrukt dat het eenvou-
diger is te stijgen dan te dalen.

5. De berekeningen worden uitgevoerd met behulp van het GLIM-programma (Baker & Nelder, 1978).

6. De bijbehorende G^-waarden worden hier niet gepresenteerd. Zie daarvoor Peschar, Ten Vergert en
Popping (1985). De uitkomsten voor de analyses gebaseerd op modellen die V en M be vatten (zie noot 4)
worden ook niet gepresenteerd. Deze modellen passen vrijwel steeds slechter dan die waarin Q
opgenomen is. In de vergelijkingen vader/dochter is het model met V twee keer beter en dat met M een
keer, de verschillen zijn overigens marginaal.

7. Hoge parameterwaarden hoeven niet samen te gaan met een hoog percentage verklaarde variatie. De
mogelijke verschillen worden duidelijk geïllustreerd aan de uitkomsten voor circulatie mobiliteit bij de
vader/zoon-vergelijking bij OPLEND.

LITERATUUR

Baker, R.J., & J.A. Nelder (1978). GLIM-Manual, Release 3. Oxford: Royal Statistics Society.

Ganzeboom, H., & P. de Graaf(I983). 'Beroepsmobiliteit tussen generaties in Nederiand in 1954 en 1977.'
Mens en Maatschappij. 58, 28-52.

Goodman, L.A. (1972). 'A General Model for the Analysis of Surveys.' American Journal of Sociology, 77,
1035-1086.

Heinen, A., & A. Maas (1984). Het NPAO-arbeidsmarkt onderzoek. Tilburg: Instituut voor sociaal weten-
schappelijk onderzoek I.V.A.

Hope, K. (1981). 'Vertical Mobility in Britain: A Structured Analysis.' Sociology, 15, 19-55.

Hope, K. 0982). 'Vertical and Non-Vertical Class Mobility.' American Sociological Review, 47, lOO-113.

Houtkoop, W.A. (1985). 'Volwasseneneducatie en de ongelijke verdeling van educatieve kansen'. In:
Peschar, J.L. & A.A. Wesselingh (red.),
Onderwijssociologie, een inleiding. Groningen: Wolters-
Noordhoff, 373-390.

Peschar, J.L., E. ten Vergert, & R. Popping (1985). 'Onderwijsmobiliteit in Hongarije en Nederland voor de
geboortecohorten van 1925 tot 1955'
Tijdschrift voor Onderwijswetenschappen INFO, 16. 5,
205-227.

WRR (1986) Wetenschappelijke Raad voor het Regeringsbeleid: Basisvorming in het onderwijs,
's-Gravenhage, Staatsuitgeverij.

Manuscript ontvangen 30-9-1985

Deflntieve versie ontvangen 8-7-1986.

-ocr page 297-

Tijdschrift voor Onderwijsresearch, 11 (1986), Nr. 6, pp. 293-300.

Voorspellingen van uitgeverijen over de effecten van
onderwijspakketten economie voor Mavo

FredJ.M. Wolters 1)
Groningen

ABSTRACT

Two publishers, Versluys and Malmberg, predicted the learning effects on pupils who were instruct-
ed with the aid of their instruction packet-Economics, designed for MAVO level pupils. The
differences in learning effects which emerged were significant, though the maximum differences in
percentage of pupils who successfully completed the course were 2%. Both publishers predicted the
learning effects reasonably well, though Versluys tended to underestimate the 'own' learning
effects, while Malmberg tended to overestimate them. On the whole, Malmberg predicted slightly
better than Versluys.

Scholen voor het basis- en voortgezet onderwijs worden regelmatig door uitgeverijen benaderd
met als doel om tot aanschaf van hun onderwijspakketten over te gaan. Zo proberen ook de
uitgeverijen Versluys en Malmberg hun onderwijspakketten economie voor Mavo op de markt
te brengen. De impliciete boodschap van de reclamecampagne is dat beide uitgeverijen hun
eigen pakket beter vinden dan dat van de andere. Verschillende kenmerken van hun pakket
worden door deze uitgeverijen aangeprezen, terwijl het voor scholen vaak niet duidelijk is op
welke kenmerken men curricula zou moeten beoordelen. Voor de scholen leidt dit tot onover-
zichtelijke situaties. Daarbij komt dat tijd, geld en kennis vaak niet voorhanden is om uit te
maken welk pakket het beste is. Derhalve blijven (impliciete) meningsverschillen tussen de
uitgeverijen bestaan, terwijl men kan verwachten, dat scholen er zeer geïnteresseerd in zouden
zijn wie er nou eigenlijk gelijk heeft.

Analoge meningsverschillen doen zich voor in de sociale wetenschappen. Als voorbeeld kan
worden gedacht aan de verschillende theorieën over psychotherapie (zie bijvoorbeeld Shapiro
en Shapiro, 1982). Elk van deze theorieën pretendeert het bij het juiste eind te hebben, maar wie
er gelijk heeft, is voor de buitenstaander en ook voor de deskundige niet altijd even duidelijk.
Om dit soort meningsverschillen te beslechten wordt in de regel een klassiek evaluatie-
onderzoek uitgevoerd. Daarnaast lijkt toepassing van het weddenschapsmodel van Hofstee
(1977,1980) een zeer adequate methode te zijn. Zo hebben Wolters en Van der Molen (1985),
geïnspireerd door het weddenschapsmodel, twee op verschillende theorieën gebaseerde cursus-
sen voor verlegen mensen met elkaar vergeleken. Hierbij werd aan aanhangers van beide
theorieën gevraagd voorspellingen te doen over de effecten van de 'eigen' cursus en over de
effecten van de 'andere' cursus. Deze methode bleek zeer bruikbaar te zijn bij de vergelijking
van de effecten van twee verschillende cursussen. Hoewel het weddenschapsmodel in eerste
instantie is bedoeld voor het vergelijken van sociaal-wetenschappelijke theorieën, lijkt het
vergelijken van de doelmatigheid van verschillende onderwijspakketten met behulp van het
weddenschapsmodel ook hier veelbelovend.

De gang van zaken bij het weddenschapsmodel is in het kort als volgt. De partijen, die over
een of ander onderwerp met elkaar van mening verschillen en dit meningsverschil empirisch
willen opheffen, zullen allereerst tot een operationalisatie moeten komen van de begrippen die
centraal in de discussie staan. Deze operationalisatie moet voor elk der partijen acceptabel zijn.

1  Met dank aan Prof. Dr. W.K.B. Hofstee (R.U.G.), Drs. E.P.G. Harskamp (R.I.O.N.) en aan de beoorde-
laars van dit tijdschrift voor hun kritische opmerkingen.
Adres: Lijsterstraat 4,9331 KH Norg

-ocr page 298-

294 Uitgeverijen voorspellen

Vervolgens wordt van de partijen gevraagd hun verwachtingen met betrekking tot de onder-
zoeksresultaten te expliciteren. In het algemeen zullen de partijen dit moeten doen door het
formuleren van een persoonhjke predictieve kansverdeling met betrekking tot een variabele of
toetsingsgrootheid. Daarna zal met behulp van een scoringsregel (zie bv. Hofstee, 1980, p.
107-111) worden berekend hoeveel 'eenheden Gehjk' ieder der partijen heeft gekregen. Opge-
merkt dient hier te worden, dat de verliezer (degene die het minste Gelijk heeft gekregen) voor
wat betreft het uitgevoerde onderzoek ongelijk moet bekennen, zonder gezeur. Verhezen wil
echter nog niet zeggen, dat men voor altijd ongelijk heeft. Is de verliezer nog steeds overtuigd
van zijn gehjk, dan staat het hem vrij het experiment te herhalen en de winnaar van de vorige
weddenschap uit te dagen tot een nieuwe weddenschap.

Aangezien het weddenschapsmodel in de context van de evaluatie van onderwijspakketten
nog niet eerder is toegepast, worden hieronder een aantal algemene voordelen besproken, die
eraan verbonden zijn.

Het eerste voordeel is dat de partijen (uitgeverijen) van tevoren sterk bij het onderzoek
worden betrokken, nl. bij de keuze en constructie van de meetinstrumenten. Door deze
betrokkenheid wordt het de uitgeverijen moeilijker gemaakt om achteraf aan de onderzoeksre-
sultaten te tornen. Bij 'klassiek' evaluatie-onderzoek is dit veel meer het geval. Daar kunnen na
bekendmaking van de onderzoeksresultaten over de doelmatigheid van pakketten de uitgeve-
rijen eerder hun toevlucht nemen tot alternatieve verklaringen. Het weddenschapsmodel staat
dit soort 'immuniserings-strategieën' minder toe.

Een tweede voordeel is, dat het weddenschapsmodel de uitgeverijen dwingt tot duidelijkheid
over de effectiviteit van een onderwijsmethode. Hiermee wordt bedoeld dat de discussie met de
uitgevers zich richt op het enige wat van belang is, nl. leerlingeffecten in plaats van middelen
zoals bv. kleur van de boeken, layout en dergehjke. Niet alleen de discussie met de uitgeverijen
wint aan duidelijkheid, maar ook de pretenties van de uitgeverijen ten aanzien van de leereffec-
ten komen duidehjk boven tafel. Door uitgeverijen voorspellingen te laten doen over de
leereffecten bhjkt namelijk wat zij van hun leermethoden verwachten.

Een derde voordeel is dat in het design niet meer voor een aantal zaken behoeft te worden
gecontroleerd door middel van een controlegroep. Zijn de uitgevers van mening dat de leereffec-
ten uitsluitend toegeschreven kunnen worden aan het gebruikte onderwijspakket dan hoeft nl.
niet met controlegroepen te worden onderzocht of ook andere zaken tot de gevonden effecten
bijdroegen. Dit voordeel lijkt vooral van belang in een onderwijssetting, waar het gebruik van
controle-groepen veelal practisch niet uitvoerbaar is.

In het onderhavige onderzoek is aan bovengenoemde twee uitgeverijen gevraagd voorspel-
lingen te doen over de leereffecten van hun economie-pakketten voor het Mavo-onderwijs.
Vanzelfsprekend zijn leereffecten niet het enige of zelfs doorslaggevende criterium voor aan-
schaf van een onderwijspakket. Bij de keuze van een pakket zullen veelal ook andere zaken een
rol spelen, zoals bijvoorbeeld de arbeidsintensiteit, arbeidsvreugde (voor leerkrachten en
leerhngen), werkvormen en dergehjke. Op deze zaken richt dit onderzoek zich niet, maar
beperkt zich tot de verwachtingen van de uitgeverijen over leereffecten.

Doel van dit onderzoek is het evalueren van de gehele weddenschapsprocedure: vanaf het
benaderen van de uitgeverijen tot en met het analyseren van de gegevens.

Benadrukt dient hier te worden, dat de weddenschapsprocedure een methode is om menings-
verschillen te beslechten, oftewel een methode waarmee uitgemaakt kan worden wie er nou
eigenhjk Gehjk heeft (dus goed heeft voorspeld). Het is daarentegen geen methode, waarmee
post hoe verklaringen voor eventuele verschillen in leereffecten aan het hcht gebracht kunnen
worden, zoals bij 'klassiek' evaluatie-onderzoek.

Om te kunnen inzien wat het (impliciete) meningsverschil tussen de uitgeverijen inhoudt,
wordt hieronder een vergelijking van beide pakketten gegeven.

De twee pakketten, die beide uitgeverijen op de markt brengen, verschillen vooral van elkaar
op het punt van de instructie-methode. Het pakket van Versluys is meer gericht op kennisover-
dracht via de docent en op het reproduceren en memoriseren van kennis, terwijl het pakket van
Malmberg meer gericht is op het klassegesprek en het groepsgewijs verwerken van zowel

-ocr page 299-

Fred. J.M. Wolters 295

reproduceervragen als productieve aanwendingsvragen. Bovendien verschillen beide pakketten
van elkaar op het punt van de opgaven voor leerlingen. De variatie in opdrachten is bij het
pakket van Malmberg groter; er wordt meer gevraagd om toepassing van (gedeeltelijk bekende)
begrippen en om het analyseren van economische argumenten (bijvoorbeeld voor deeltijdar-
beid) uit leesstukjes (krantenknipsels bv.) Daarnaast maakt het pakket van Malmberg opval-
lend veel gebruik van aanschouwelijke schema's om de relaties tussen begrippen duidelijk te
maken.

METHODE

Onderzoekers van het Research Instituut voor het Onderwijs in het Noorden (R.I.O.N.) hadden
allereerst schriftelijk contact gezocht met de betrokken uitgeverijen met het verzoek om
deelname. Dit verzoek werd doorgespeeld naar de auteurs, die het pakket hadden samengesteld.
Vanaf dat moment vond het overleg met de uitgeverijen hoofdzakelijk plaats met deze auteurs-
groepen.

Het belangrijkste doel van het overleg was dat beide uitgeverijen achter de onderzoeksopzet
zouden staan. Dit hield in, dat alle partijen (zowel de onderzoekers als de uitgeverijen) tot
overeenstemming moesten komen over de opzet van het onderzoek, waaronder de operationa-
lisering van de onafhankelijke en afhankelijke variabelen (onafhankelijke variabele: type
onderwijspakket; afhankelijke variabelen: leereffecten in de klassen twee, drie en vier). Ook
moest worden overeengekomen hoe zou worden vastgesteld welke uitgeverij er Gelijk zou
krijgen.

De onderzoekers overlegden steeds afzonderlijk met één der beide uitgeverijen. Tijdens het
overleg werd er uitvoerig gesproken over de samenstelling van de toetsen, die de leereffecten
zouden moeten meten. Dit resulteerde in vier toetsen: één voor klas twee, één voor klas drie en
twee voor klas vier (één voor het Mavo c-niveau en één voor het Mavo d-niveau).

Na de toetsconstructie werden toetsen en voorspelformulieren naar de auteursgroepen
gestuurd. De auteurs moesten dan in naam van de uitgeverijen op de voorspelformulieren per
toetsitem aangeven hoeveel procent van de leerlingen, die hun methode volgden, dit item goed
zou beantwoorden. De auteursgroep van uitgeverij Vcrsluys (uitgeverij A) bestond uit drie
personen en die van uitgeverij Malmberg (uitgeverij B) uit vier personen. Deze laatste uitgeverij
brengt het economiepakket van de Stichting Leerplan Ontwikkeling (SLO) uit. Drie van de
auteurs zijn dan ook van de SLO afkomstig.

De steekproef. Uit het scholenbestand van het Centraal Instituut voor Toetsontwikkeling
(CITO) is een steekproef getrokken van 414 scholen. Deze 414 scholen zijn telefonisch benaderd
met de vraag om deel te nemen aan het effectonderzoek. Daarbij bleek dat 44 scholen om
verschillende redenen uit de steekproef moesten worden verwijderd: ziekte van de docent (14
scholen), niet bereikbaar zijn van de school (10 scholen), geen economie in het onderwijspakket
of onvoldoende leerlingen die economie in hun onderwijspakket hebben (11 scholen), of
opheffing van de school (9 scholen).

De effectieve steekproef bedroeg 370 scholen, waarvan ongeveer 50% pakket B gebruikte,
ongeveer 40% pakket A en ongeveer 10% een ander pakket. Uit de effectieve steekproef van 370
scholen weigerden 45 scholen om mee te doen aan het effectonderzoek. Belangrijkste reden was
het ontbreken van tijd. Van selectieve uitval was geen sprake.

Beide uitgeverijen konden met deze steekproef instemmen, dat wil zeggen dat zij hun
methode in voldoende mate geïmplementeerd vonden om Gelijk te kunnen krijgen. Verder
bleek, dat de scholen die de ene methode gebruikten op een aantal relevante variabelen
vergelijkbaar waren met de scholen die de andere methode gebruikten (Van den Berg en
Harskamp, 1985, p. 28-30).

-ocr page 300-

296 Uitgeverijen voorspellen

De leerlingtoetsen. Voor klas 2 en klas 3 zijn toetsen samengesteld in en na overleg met de beide
auteursgroepen. Hierbij is gebruik gemaakt van een itempool 'economie' die door het CITO is
samengesteld. Beide uitgeverijen kregen uit deze pool toetsitems voorgelegd met het verzoek
aan te geven welk item geschikt was voor het meten van de door hun methode nagestreefde
doelen. Uit de verzameling toetsitems, die door beide uitgeverijen geschikt waren bevonden,
werd door de onderzoekers van het R.I.O.N. een keuze gemaakt van zo'n 40 items per klas. Het
afnemen van een toets van 40 items zou naar verwachting meer dan een lesuur vergen, wat voor
de scholen een te grote belasting zou zijn. Een toets met de helft van dit aantal items zou echter
wel binnen een lesuur af te nemen zijn. Derhalve werd besloten om twee niet-overlappende
parallelversies met elk circa 20 polytoon te scoren toetsitems voor de klassen 2 en 3 samen te
stellen, waardoor toch alle toetsitems in het onderzoek betrokken konden worden. Enkele items
moesten vanwege een niet eenduidige formulering uit de toetsen worden verwijderd. Voor het
meten van de resultaten in klas 4 zijn uitsluitend de multiple choice vragen van het CITO voor
het examen economie gebruikt. Deze items zijn door het CITO beschikbaar gesteld ten behoeve
van het effectonderzoek. Het aantal items en coëfficiënt alpha (als maat voor de interne
consistentie) staan hieronder voor elk der gebruikte toetsen weergegeven.
Toets 2A bestond uit 14 items (alpha = 0.47).
Toets 2B bestond uit 15 items (alpha = 0.61).
Toets 3A bestond uit 14 items (alpha = 0.48).
Toets 3B bestond uit 14 items (alpha = 0.44).
Toets 4C bestond uit 30 items (alpha = 0.46).
Toets 4D bestond uit 30 items (alpha = 0.63).

Gezien de lage gevonden homogeniteiten der toetsen dient hier opgemerkt te worden, dat bij het
samenstellen van de toetsen de klemtoon is gelegd op het verkrijgen van overeenstemming
tussen de uitgeverijen en de onderzoekers. Het streven naar interne consistentie kwam daarbij
op het tweede plan. Voor het weddenschapsonderzoek maakt het echter weinig uit dat de
toetsen een lage interne consistentie bezitten. Alle partijen waren immers vooraf overeenge-
komen om met deze toetsen het meningsverschil tussen de uitgeverijen te beslechten.

De voorspellingen. De uitgeverijen deden voorspellingen over de afzondelijke items van de
toetsen. Ze moesten daarbij aangeven hoeveel procent van de leerlingen, die hun methode
volgden, het desbetreffende item naar hun verwachting goed zou beantwoorden. De uitgeve-
rijen hebben daarbij geen kennis kunnen nemen van de moeilijkheidsgraad van de toetsitems
bijvoorbeeld uit eerder CITO-onderzoek.

Kwantitatief hébben de uitgeverijen geen voorspellingen gedaan over de resultaten van de
andere methode, zodat er geen sprake is van een strikte weddenschap tussen beide partijen.
(Onder een strikte weddenschap wordt hier verstaan een weddenschap, waarbij de partijen
beweren, dat ze beter zijn dan de andere partij(en)). Wel kunnen er twee minder strikte
weddenschappen worden onderscheiden, namelijk de voorspellingen over de eigen methode,
afgezet tegen de gevonden evaluatie-resultaten. Daarbij is. het zinvol om, in plaats van de
voorspellingen op item-niveau te analyseren, de som-score van de meetschaal te beschouwen.
Deze som-score speelt nl. een belangrijke rol bij het nemen van de beslissing of een toets
voldoende dan wel onvoldoende gemaakt is. Derhalve dient uit de voorspellingen op item-
niveau een predictieve verdeling van de som-scores to worden geformuleerd. Dit kan als volgt.

Stel, dat een toets N items heeft en dat Pj de voorspelde proportie successen (voldoendes)
op het
/-de item voorstelt. Dan geldt, dat Var(item /) = pi(\ — />,) en Cov(item /, item j) =
Rjj-k sjpiil —pi)'kpj{l —pj), waarbij Ry de product-moment-correlatie tussen de scores op
item / en itemy voorstelt.

De variantie van de som-scores wordt dan gegeven door:

N N N

Var(som) = 1 Var(item /) -i- 2 S S cov(item /, item j) =

-ocr page 301-

Fred. J.M. Wolters 297

De gemiddelde som-score wordt gegeven door:

N

Ave(som) = 2 pj

Volgens de centrale limietstelling geldt dan:

Voor de inter-item-correlaties kunnen de volgende twee benaderingswijzen worden gehan-
teerd.

1. De inter-item-correlaties uit een vooronderzoek zullen weinig verschillen van de gevonden
inter-item-correlaties. Anders gezegd: Ry ^ Ry (vooronderzoek). Dit is een zeer realistische
aanname. Het doen van een vooronderzoek ten behoeve van schaalconstructie komt in deze
context echter zelden voor; de toetsen moeten immers geheim blijven tot aan de dag van afname.
Vandaar dat deze benadering op practische bezwaren stuit.

2. De gemiddelde intercorrelatie tussen toetsitems blijkt empirisch 0.12 te zijn (cf. Lord, 1959).
Als de inter-item-correlaties uit een vooronderzoek niet bekend zijn, dan krijgen we de meest
realistische schatting voor var(som) door Ry op 0.12 te stellen.

De uitwerking van de weddenschap verioopt als volgt:

Bereken , waarbij 3c(voorsp.) = Ave(som), = Jv^^ ^^

•fj N

*(gev.) = gevonden gemiddelde som-score, D = het aantal standaarddeviaties ij, dat de voor-
spelde gemiddelde som-score van de gevonden gemiddelde som-score af hgt
(D is een soort
standaardscore, maar mag hier niet mee verward worden).
De berekende Z)-waarden worden dan als volgt geïnterpreteerd:

1. Als Z) > 2, dan is sprake van overschatting

2. Als —2 < Z) ^ 2, dan is sprake van een juiste schatting.

3. Als D < —2, dan is sprake van een onderschatting.

Om te kijken hoeveel 'Gelijk' een voorspeller heeft gekregen met zijn voorspelling kan ook de
kwadratische scoringsregel (De Finetti, 1965; Hofstee, 1980, p. 93) in de verdere beschouwingen
worden meegenomen. Als predictieve verdeling nemen we daarvoor
N{fi, a), waarbij

100

/i = Ave(behcersingspercentage) =-* Ave(som).

N

cn

100 ^ ^Var(som)

a = \/Var(bcheersingspercentagc) = * v ^

(+0.5

Dc kans op een beheersingspercentage / wordt gegeven doorp{i) = ƒ v>(x)</x, waarbij (p{x) de

/-0.5

dichtheidsfunctie voor een normaalverdeling is (x is dan het beheersingspercentage, oftewel het
percentage voldoendes).

Door toepassing van de trapeziumregel kan deze integraal worden benaderd door:

(v</ + 0.5) + <^i —0.5)/2

Met behulp van deze berekende kansen en het gevonden beheersingspercentage kan door
middel van de kwadratische scoringsregel het toegekende 'Gelijk' dan worden berekend.

-ocr page 302-

298 Uitgeverijen voorspellen

RESULTATEN

In tabel 1 zijn per uitgeverij en per klas de gemiddelde gevonden beheersingspereentages
weergegeven. Daaruit valt af te lezen, dat de beheersingspereentages tussen de methoden
maximaal
2% van elkaar verschilden. Gezien het relatief grote aantal leerhngen, dat aan het
onderzoek meedeed, was het niet verrassend, dat deze verschillen alle significant bleken te zijn
(p<0.01).

Tabel 1. Gemiddelde gevonden beheersingspereentages per uitgeverij en per klas.

Uitgeverij A

Uitgeverij B

x(gev.)

s.d.

N

x(gev.)

s.d.

N

Klas

2

63

4.5

1000

65

4.7

1200

3

63

4.4

900

61

4.3

1300

4-c

51

4.5

90

53

4.3

2000

4-d

58

4.5

500

58

4.5

8000

x(gev.) = gevonden gemiddelde beheersings percentage
s.d. = standaarddeviatie
N = aantal leerhngen
Uitgeverij A: Versluys
Uitgeverij B: Malmberg

In tabel 2 zijn per uitgeverij en per klas het voorspelde gemiddelde beheersingspercentage, de
voorspelde standaarddeviatie hiervan en de D-waarde gegeven. Daaruit bhjkt, dat uitgeverij
Versluys tendeert naar onderschatting van de eigen methode (alle D-waarden negatief) en
uitgeverij Malmberg naar overschatting van de eigen methode (alle D-waarden positief). Alle
schattingen waren juiste schattingen (—2 < D <
+2), behalve de voorspelhng van uitgeverij
Versluys over Klas 2 (onderschatting van de eigen methode) en de voorspelling van uitgeverij
Malmberg over Klas 4-c (overschatting van de eigen methode).

Tabel 2. Voorspelde gemiddelde beheersingspereentages, de voorspelde standaarddeviaties
hiervan en D-waarden.

Uigeverij A

Uitgeverij B

x(voorsp.)

s.d.

D

x(voorsp.)

s.d.

D

Klas

2

54

3.1

—2.90

65

2.9

+0.14

3

58

3.2

—1.56

65

3.0

+ 1.33

4-c

49

3.5

—0.57

60

3.4

+2.06

4-d

53

3.5

—1.43

61

3.4

+0.88

Uitgeverij A: Versluys
Uitgeverij B: Malmberg

De met de kwadratische scoringsregel toegekende hoeveelheid 'Gehjk' is weergegeven in tabel
3. Daaruit bhjkt, dat over alle klassen genomen, uitgeverij Malmberg beter heeft voorspeld dan
uitgeverij Versluys. Kijkt men alleen naar de examen-klassen 4-c en 4-d tezamen dan heeft
uitgeverij Versluys beter voorspeld dan uitgeverij Malmberg.

-ocr page 303-

Fred. J.M. Wolters 299

Tabel 3. Hoeveelheden toegekend 'Gelijk' per uitgeverij en per klas

Klas_Uitgeverij A Uitgeverij B

"2 -0.10 016

3 —0.04 0.02

4-c 0.12 —0.07

4-d —0.01 0.05

+ +

Totaal_—0.03 0.16

Uitgeverij A: Versluys
Uitgeverij B: Malmberg

DISCUSSIE

Het vergelijken van twee concurrerende onderwijspakketten met behulp van het weddenschaps-
model van Hofstee bleek in deze studie goed uitvoerbaar. Hiermee wordt bedoeld, dat er geen
noemenswaardige hindernissen bestonden om volgens de weddenschapsprocedure te werk te
gaan. Zo bleek bijvoorbeeld de hindernis om de uitgeverijen tot deelname aan het onderzoek te
bewegen, nauwelijks te bestaan. Nadat de uitgeverijen deelname aan het onderzoek hadden
toegezegd, moest de weddenschapsprocedure echter wel verder worden afgehandeld met de
auteursgroepen. Men kan hier tegen inbrengen, dat uhgeverijen en auteursgroepen over het
algemeen niet dezelfde belangen hebben en daarom verschillend zouden voorspellen. In deze
studie is aan dit bezwaar tegemoet gekomen door vooraf met de uitgeverijen af te spreken, dat
zij zich aan de (weddenschaps)-uitspraken van de auteurs zouden conformeren.

Wat de gevolgde procedure betreft, kan het volgende worden opgemerkt."

Allereerst bleek, dat het overleg met de uitgeverijen relatief veel tijd in beslag nam. Vooral de
uitleg over het nut van het doen van voorspellingen en het samenstellen van de toetsen was erg
arbeidsintensief. Maar deze tijdsinvestering is zeer de moeite waard, want juist in de overleg-
fase komen de verwachtingen en pretenties zeer duidelijk aan het licht. Ook wordt tijdens deze
fase bewerkstelligd, dat de uitgeverijen zich zullen neerleggen bij de onderzoeksresultaten. Dit
nu is een van de grote verdiensten van weddenschapsonderzoek: de duidelijkheid van de
onderzoeksresultaten kan minder worden vertroebeld doordat de uitgeverijen zich moeilijker
achteraf onder de conclusies uit kunnen wurmen. Bovendien is deze weddenschaps-methode
ook zinvol om de verwachtingen van de leerpakket-ontwikkelaars te evalueren.

Ten tweede bleek de methode waarop werd voorspeld - namelijk op item-niveau - de volgende
bezwaren te hebben.

Bij voorspellingen op item-niveau is de predictieve som-score-verdeling niet direct voor-
handen. Onder bepaalde assumpties kan echter wel een dergelijke verdeling geconstrueerd
worden, zoals in deze studie is gedaan. Onbevredigend daarbij is, dat men afhankelijk is geraakt
van assumpties. Een tweede bezwaar is het volgende. Wil men een uitgeverij voorspellingen
laten doen over het 'eigen' pakket in verhouding tot het pakket van de concurrerende uitgever,
dan zijn voorspellingen op item-niveau zeer tijdrovend. Dit is zeker een bezwaar als er meerdere
concurrenten zijn en als het total aantal items groot is. Zijn er bijvoorbeeld 3 concurrenten en
moet er voorspeld worden over 60 items, dan dienen immers 60 * 3 = 180 voorspellingen te
worden gedaan, naast de 60 voorspellingen over het 'eigen' pakket.

Derhalve is een betere en efficiëntere methode van voorspellen over de leereffecten van het
'eigen' pakket en over het verschil in leereffecten tussen het eigen pakket cn dat van anderen
zeer gewenst.

Over de gevonden onderzoeksresultaten kunnen we het volgende zeggen.

Allereerst bleek dat bij vrij geringe prestatieverschillen tussen beide onderwijspakketten al

-ocr page 304-

300 Uitgeverijen voorspellen

statistisch significante resultaten werden gevonden. Een belangrijke vraag daarbij is of de
significante verschillen ook relevant zijn. Kijkt men op landelijk niveau tegen de resultaten aan,
dan kan deze vraag bevestigend worden beantwoord. Een percentage van ongeveer 2 betekent
dan al gauw dat we te maken hebben met een paar duizend leerlingen. Uit dit onderzoek is
echter gebleken, dat de ene methode niet stelselmatig ca. 2% beter was dan de andere methode
over de vier onderzochte klassen. Derhalve kan op grond van deze resultaten niet worden
geconcludeerd, dat een van beide pakketten de beste is.

Het lijkt interessant en zinvol om bij een volgende studie te onderzoeken in hoeverre de
(weliswaar) kleine verschillen al dan niet substantieel worden bevonden door leerkrachten, die
uiteindelijk de pakketkeuzes moeten doen. Daarnaast zal dan gekeken kunnen worden in
hoeverre leerkrachten hun voorkeur voor een bepaald pakket zouden uitspreken als dergelijke
informatie over verschillen in leereffect bij hen bekend zou zijn. Verwacht wordt namelijk, dat
indien leerkrachten over deze informatie zouden beschikken, zij hun keuzes voor een pakket
veel minder laten leiden door zaken als: de vormgeving, uit traditie bij een bepaalde uitgeverij
kopen enzovoort.

Wat de voorspellingen over het 'eigen' pakket betreft, kan worden gezegd, dat beide
uitgeverijen hun "eigen" leereffecten redelijk goed hebben ingeschat, waarbij uitgeverij Ver-
sluys tendeerde naar onderschatting en uitgeverij Malmberg naar overschatting. Dit is een
opmerkelijk resultaat, temeer omdat docenten slechte schatters blijken te zijn van prestaties op
toetsitems (Van Berkel, 1984). (Ook de auteurs bezaten elk een ruime onderwijservaring.)

Tot slot kunnen we ons de vraag stellen of bij elk vergelijkend onderzoek het weddénsch'aps-
model er bij gehaald moet worden. Deze vraag kan ontkennend worden beantwoord. Het is
zinvol om alleen dan het weddenschapsmodel in deze context te gebruiken als uit een kosten-
baten-analyse van de onderzoeker blijkt, dat de verwachte 'winst' positief is; oftewel als de
voordelen duidelijk opwegen tegen de nadelen. Als de belangrijkste voordelen kunnen worden
genoemd: 1. Het duidelijk voor ogen krijgen wat de pretenties van de uitgeverijen zijn en 2. de
kleinere kans, dat de uitgeverijen zich achteraf onder de onderzoeksresultaten gaan uitwurmen.
Als belangrijkste nadeel kan worden genoemd de erg arbeidsintensieve (en dus dure) overleg-
fase met de uitgeverijen.

LITERATUUR

Berg, G. van den', & Harskamp, E.P.G. (1985). Twee onderwijsleerpakketten economie voor
mavo vergeleken.
Onderzoeksverslag SVO-project 1151, RION, Groningen.

Berkel, H. Van (1984). Diagnose van toetsvragen. Dissertatie Amsterdam.

De Finetti, B. (1965). Methods for discriminating levels of partial knowledge concerning a test
item.
British Journal of Mathematical and Statistical Psychology, 18, 87-123.

Hofstee, W.K.B. (1977). De weddenschap als methodologisch model. Nederlands Tijdschrift
voor de Psychologie. 32,
203-217.

Hofstee, W. K. B. (1980). De Empirische Discussie. Theorie van het sociaal - wetenschappelijk
onderzoek.
Meppel: Boom.

Lord, P.M. (1959). Tests of the same length do have the same standard error of measurement.
Educational and Psychological Measurement. 19, 233-239.

Shapiro, D.A., & Shapiro, D. (1982). Meta-analysis of Comparitive Therapy Outcome Studies:
A Replication and Refinement.
Psychological Bulletin. 92. 581-604. •

Wolters, F.J.M., & Van der Molen, H.T. (1985). Wie niet waagt, die niet wint. Voorspellingen
van deskundigen over de effecten van twee verschillende cursussen voor verlegen
mensen.
Tijdschrift voor Psychotherapie. II. 196-208.

Manuscript ontvangen 3-9-1985.

Definitieve versie ontvangen 1-8-1986.

-ocr page 305-

Tijdschrift voor Onderwijsresearch, 11 (1986), nr. 6, pp. 301-311.
BEKROOND ORD PAPER 1986

Dit artikel is een bewerking van het door de VOR bekroonde ORD-paper

Ontwikkeling en validering van een computer-
attitudeschaal

Marjo J. Crombach
Cito Arnhem
Marinus J.M. Voeten

Interdisciplinaire Studierichting Onderwijskunde K. U. Nijmegen
Hans J.M. Feenstra
Cito Arhem

ABSTRACT

This paper describes an empirical survey on the reliability and validity of a computer attitude scale.
This scale has been developed at the National Institute for Educational Measurement and is meant
for pupils of the first grades of secondary education. These pupils largely may be considered as
computer-illiterates. About 900 pupils completed the computer attitude scale.

The scale is one of a Likert-type. Based on the results of a homogeneity analysis, with the aid of
HOMALS, the response categories have been scored. By means of LISREL the prior classification
of the items into subscales could be confirmed. Hypotheses about the relationship between subscale
scores and some other variables (e.g., sex) were tested, using MANOVA.

The results indicate that the computer attitude scale is sufficiently reliable. Boys seem to have a
more positive attitude towards computers than girls. But girls are more inclined to reject societal
stereotypes about computers and the genders.

INLEIDING

De computer-attitudeschaal is een bij het Cito ontwikkeld instrument om de attitude met
betrekking tot computers te meten van leerlingen uit de beginfase van het voortgezet onderwijs.
Deze schaal vormt één van de drie onderdelen van een toets ter bepaling van de beginsituatie,
zowel opcognitief als affectief gebied, van leeriingen die onderwijs in informatiekunde (voor-
heen burgerinformatica) gaan volgen. Naast de computer-attitudeschaal bestaat deze toets uit
een meerkeuze gedeelte, dat de basiskennis met betrekking tot computers onderzoekt en een
enquête, waarin naar de ervaringen van de leeriingen met computers wordt gevraagd.1

Informatiekunde, voortgekomen uit initiatieven vanuit het Informatica-stimuleringsplan,
heeft als algemene doelstelling: 'De ontwikkeling van kennis en vaardigheden die leerlingen in
staat stellen met inzicht te reageren op situaties waarin het gebruik van gegevensverwerkende
systemen mogelijk of noodzakelijk is en die hen in staat stellen om de maatschappelijke
betekenis van het gebruik van zulke systemen kritisch te beoordelen' (Stichting voor de
Leerplanontwikkeling, 1983, p. 17). Naast het verwerven van kennis cn inzichten, staat zeker
ook de houding van de leerlingen tegenover de nieuwe informatietechnologie centraal.

1  Deze toetst wordt verantwoord in de doctoraalscriptie van de eerste auteur, vervaardigd in het
kader van de studie onderwijskunde aan de Katholieke Universiteit Nijmegen.

Adres: Postbus 1034,6801 MG Arnhem

-ocr page 306-

302 Ontwikkeling en validering van een computer-attitudeschaal

THEORETISCH KADER

Krathwohl, Bloom, en Masia (1964) onderscheiden drie domeinen van doelstellingen in het
onderwijs, namelijk het cognhieve, het affectieve en het psychomotorische domein. Vergeleken
met het affectieve domein is veel meer onderzoek verricht in het cognitieve domein. Dit ondanks
de overeenstemming over het belang van het nastreven van affectieve doelstellingen in het
onderwijs (Gagné, 1977).

In de hteratuur worden een groot aantal conceptualiseringen en operationaliseringen van het
begrip attitude gevonden. Een defmitie van het begrip attitude die volgens verschillende auteurs
(onder andere Triandis, 1971 en Gagné, 1977) de toets van de tijd heeft doorstaan, is die van
Allport (1935, p. 810): 'An attitude is a mental and neural state of readiness, organized through
experience, excerting a directive or dynamic influence upon the individual's response to all
objects and situations with which it is related'. Attitudes zijn dus bepaalde neigingen of
disposities om op objecten of situaties positief of negatief te reageren (Summers, 1970). Ze zijn
aangeleerd, en ontstaan en ontwikkelen zich vanuit de ervaring die een persoon opdoet met een
object (Gagné, 1977). Ze kunnen worden beïnvloed en hebben een richtinggevende invloed op
het gedrag van personen. Green (1977) wijst er op dat attitudes niet direct te observeren zijn,
maar theoretische constructen zijn. Volgens hem is het in het algemeen nuttig om attitudes uit
gedrag af te leiden, want ze helpen bij het begrijpen van consistenties en inconsistenties in
gedrag van mensen. In het onderwijs bieden ze met name op het gebied van de motivatie hulp,
omdat ze verklaringen geven voor het feit dat sommige leerlingen bepaalde taken vermijden en
andere leerlingen tot dezelfde taken toenadering zoeken.

McMillan (1980) concludeert dat attitudes multidimensionele constructen zijn. Triandis
(1971), Gagné (1977), Green (1977), McMiUan (1980) en Kremers (1981) ondersteunen de
opvatting dat attitudes het best gedefinieerd kunnen worden als bestaande uit drie onderling
samenhangende componenten, te weten een cognitieve, een affectieve en een conatieve of
gedragscomponent. Wat iemand weet of vindt met betrekking tot het object van de attitude
wordt de cognitieve component van een attitude genoemd. De mate van positieve of negatieve
emotie die verbonden is met het object van de attitude is de affectieve component. Tenslotte
wordt met de conatieve component de gedragsintentie ten opzichte van het object van de
attitude bedoeld.

Onderzoek naar de existentie van de drie componenten levert volgens Triandis (1971) geen
overtuigende resultaten op. Sommige onderzoekers rapporteren dat de componenten inder-
daad aparte en onafhankehjke componenten zijn. Andere onderzoekers rapporteren dat de drie
componenten zo hoog gecorreleerd zijn dat een aparte meting niet nodig is. Triandis (1971) pleit
voor het afzonderlijk meten van de drie componenten met behulp van aparte schalen.

DE COMPUTER-ATTITUDESCHAAL
Ontwikkeling van het instrument

Kremers (1981) resumeert dat vragenlijsten (attitudeschalen, semantische differentialen), inter-
views, projectieve technieken en observaties gebruikelijke instrumenten zijn voor het meten
van attitudes. Over het algemeen worden vragenlijsten als dc meest betrouwbare en valide
instrumenten gezien om attitudes te meten. Verder lijkt de toepassing van andere technieken
(met name interview- cn observatietechnieken) in onderwijssituaties ook iheer praktische
problemen met zich
mee tc brengen. Daar staat tegenover dat deze technieken soms meer uit-
gebreide
cn diepgaande informatie kunnen opleveren dan vragenlijsten.

Om de houding van leerlingen uit de beginfase van het voortgezet onderwijs ten opzichte van
computers te meten, is gekozen voor een attitudeschaal, en wel een van het Likert-type.
Likert-schalen dienen eendimensioneel te zijn. Attitudes worden echter opgevat als meerdimen-
sionele constructen. Een attitudeschaal die in staat is te differentiëren tussen verschillende, aan
een attitude te onderscheiden dimensies, hjkt bruikbaarder dan een schaal die dat niet kan

-ocr page 307-

Marjo J. Crombach et al. 303

(Kremers, 1981). Verder dienen de uitspraken van een Likert-schaal ongeveer even extreem
(hetzij positief, hetzij negatieQ te zijn. De antwoordeategorieën van een Likert-schaal worden
verondersteld vaste punten op het continuüm gunstig-ongunstig te indiceren. Een viertal
voorbeelden van Likert-schalen voor het onderwerp in deze bijdrage zijn: de Wiskunde attitu-
deschaal (Kremers, 1978), het attitude-gedeelte van de Minnesota computer literacy and
awareness assessment (Anderson, Hansen, Johnson, & Klassen, 1979), de Computers and
robots attitude questionnaire (Moore, 1984) en de Attitudelijst voor techniek (Raat & de Vries,
1985). Bij deze schalen wordt de houding ten opzichte van wiskunde, computers en technologie
niet als eendimensioneel beschouwd. Het streven naar meerdimensionele attitudeschalen is in
bovengenoemde instrumenten geoperationaliseerd door verscheidene eendimensionele Likert-
schalen (oftewel subschalen) te construeren. Besloten is voor de computer-attitudeschaal
dezelfde opzet te kiezen.

Beschrijving van het instrument

De computer-attitudeschaal bestaat in zijn definitieve vorm uit 38 uitspraken, verdeeld over vijf
a priori subschalen. Deze subschalen dragen de volgende namen: Plezier, Angst, Zelfinschat-
ting. Relevantie en Rolpatroon. De subschaal Plezier gaat na in hoeverre de leerlingen plezier
hebben in het gebruiken van computers. De subschaal Angst gaat na in hoeverre de leerlingen
bang zijn voor computers. De inhoud van deze subschalen heeft vooral betrekking op de
affectieve component van de attitude ten opzichte van computers. Subschalen met een verge-
lijkbare inhoud komen ook bij andere instrumenten voor. De subschaal Zelfinschatting gaat na
in hoeverre leerlingen vertrouwen hebben in hun capaciteiten met betrekking tot het gebruiken
van computers. De subschaal Relevantie gaat na hoe relevant leerlingen computers achten voor
zichzelf en voor de samenleving. De inhoud van deze twee subscbalen verwijst vooral naar de
cognitieve component van de attitude ten opzichte van computers. Ook voor deze subschalen
geldt dat vergelijkbare subschalen bij andere instrumenten voorkomen. De subschaal Rolpat-
roon ten slotte is van een iets ander karakter. Deze gaat na in hoeverre de leerlingen aan mannen
en vrouwen dezelfde kwaliteiten toeschrijven op het gebied van dc informatietechnologie. Deze
subschaal is opgenomen omdat onder meer het Ministerie van Onderwijs en Wetenschappen
speciale aandacht vraagt voor vrouwen en meisjes op het gebied van informatica. Vermeden
moet worden dat, net als bij andere exacte vakken, de deelname van het vrouwelijk geslacht
achterblijft bij het mannelijk geslacht. In dit verband is het nuttig om na te gaan hoe leedingen
zelfdenken over eventuele verschillen tussen mannen en vrouwen met betrekking tot informa-
tietechnologie. De inhoud van deze subschaal is niet goed te relateren aan een van de compo-
nenten van de attitude ten opzichte van computers. In de computer-attitudeschaal wordt de
conatieve component dus niet door een subschaal vertegenwoordigd. Voor alle subschalen
geldt dat ze interessante, beschrijvende informatie opleveren voor een leerkracht die les in
informatiekunde geeft.

Tenslotte is bij de computer-attitudeschaal gekozen voor dc antwoordeategorieën: mee eens,
niet mee eens en geen mening. In de bijlage worden de uitspraken van de computer-
attitudeschaal weergegeven.

Afname van het instrument

De computer-attitudeschaal is tegen het einde van het schooljaar 1984/1985 door Cito-
medewerkers afgenomen bij brugklas-leerlingen van een random getrokken steekproef van
scholen uit de oostelijke regio van Nededand. De schaal is ingevuld door 883 leedingen die
(nog) geen onderwijs in informatiekunde hebben gevolgd. Deze groep telt 422 LBO- en 461
AVO-leerlingen.

-ocr page 308-

304 Ontwikkeling en validering van een computer-attitudeschaal

KWANTIFICERING VAN DE ANTWOORDCATEGORIEËN

De neutrale antwoordcategorie (geen mening) is bewust als derde antwoordmogelijkheid
geplaatst achter de positieve (mee eens) en negatieve antwoordcategorie (niet mee eens).
Gewoonlijk worden aan de negatieve, neutrale en positieve antwoordcategorie onmiddellijk
waarden toegekend, bijvoorbeeld 1, 2, 3. Men kan zich echter afvragen of de waarde voor de
neutrale antwoordcategorie inderdaad midden tussen de waarden voor de positieve en nega-
tieve antwoordcategorie geplaatst moet worden. De neutrale antwoordcategorie heeft waar-
schijnlijk, gezien het 'entreekarakter' van het instrument, niet alleen de betekenis van een
'middencategorie', maar ook van een 'weet-niet-categorie'. Bovendien kan men zich afvragen of
het eens zijn met een bepaalde uitspraak niet meer waardering verdient, dan het eens zijn met
een andere uitspraak. Bij een Likert-schaal dienen weliswaar alle uitspraken even extreem te
zijn, maar is dat in de praktijk wel zo? Dergelijke vragen kunnen worden onderzocht met behulp
van het programma HOMALS (Gifi, 1981).

HOMALS is een computerprogramma voor de meerdimensionele analyse van nominale
variabelen. Het betekent een uitbreiding van principale componenten analyse voor nominale
variabelen. HOMALS bepaalt zowel 'objectscores' als 'categoriekwantificeringen'. Met
objectscores worden de scores voor de individuen bedoeld. Met de categoriekwantificeringen
worden de scores, of waarden, voor de antwoordcategorieën van de nominale variabelen
bedoeld. Beide scores zijn van interval niveau. Het aantal dimensies van de HOMALS-
oplossing bepaalt de gebruiker zelf. De HOMALS-oplossing wordt inzichtelijk gemaakt door
een ruimtelijke afbeelding van de individuen of de antwoordcategorieën. Zowel de individuen
als de antwoordcategorieën worden afgebeeld als punten in dezelfde ruimte. Elke categorie-
kwantificering is het gemiddelde van de objectscores van die individuen die in deze antwoordca-
tegorie scoren. De objectscores worden zodanig bepaald, dat naarmate de antwoordpatronen
van individuen meer op elkaar lijken, de objectscores dichter bij elkaar liggen. De oplossing die
HOMALS geeft, moet beschouwd worden als een compromis waarbij getracht wordt een
maximale homogeniteit voor alle variabelen op hetzelfde moment te bereiken (Giffi, 1981).

Voor elke (verondersteld eendimensionele) subschaal van de computer-attitudeschaal is een
tweedimensionele HOMALS-oplossing bepaald. Het is gebruikelijk om eerst een tweedimen-
sionele HOMALS-oplossing te bekijken omdat de grafische weergave van deze oplossing goed
kan worden geïnterpreteerd. De tweedimensionele oplossing geeft een redelijke verklaring van
de, in dit onderzoek verzamelde, data. De coëfficiënten voor de 'total fit' variëren voor de vijf
subschalen tussen 0.51 en 0.68. Vervolgens is nog naar de driedimensionele HOMALS-
oplossing gekeken. Deze geeft weliswaar een redelijke verbetering van de 'total fit' te zien, maar
is moeilijk te interpreteren en wordt daarom buiten beschouwing gelaten.

Als bij een tweedimensionele oplossing de afbeelding van de objectscores de vorm van een
hoefijzer vertoont, betekent dit dat de gegevens bij benadering eendimensioneel zijn (Gifi,
1981). In het hier beschreven onderzoek wordt deze hoefijzervorm niet gevonden. De gegevens
zijn dus niet eendimensioneel. Bestudering van de categoriekwantificeringen voor de twee
dimensies van de vijf subschalen levert het volgende op. Wat de eerste dimensie betreft liggen de
categoriekwantificeringen voorde positieve en de negatieve antwoordcategorie ver uiteen. De
neutrale antwoordcategorie ligt bij de meeste uitspraken tussen de andere twee antwoordcate-
gorieën in, maar de ligging varieert van voornamelijk vlak bij de negatieve antwoordcategorie
tot in de buurt van de positieve antwoordcategorie. Met andere woorden, de eerste dimensie
maakt onderscheid tussen de positieve en negatieve antwoordcategorie. De negtrale antwoord-
categorie spreidt langs de eerste dimensie. De tweede dimensie maakt onderscheid tussen aan de
ene kant de neutrale antwoordcategorie en aan de andere kant de positieve en negatieve
antwoordcategorie. Bij de subschalen Angst en Rolpatroon is de situatie iets anders. Hier ligt de
neutrale antwoordcategorie langs de eerste dimensie bij de ene antwoordcategorie en langs de
tweede dimensie bij de andere antwoordcategorie.

Samenvattend kan worden gesteld dat de data een positie van de neutrale antwoordcategorie
midden tussen de andere twee antwoordcategorieën niet ondersteunen. De positie van de

-ocr page 309-

Marjo J. Crombach et al. 305

neutrale antwoordcategorie wordt door een aparte dimensie beschreven.

De tweedimensionaliteit van de HOMALS-opIossing betekent dat voor elke leerling per
subschaal zowel de objectscore voor de eerste als de objectscore voor de tweede dimensie
moeten worden gehanteerd. Aan het hanteren van deze scores kleven een tweetal problemen. In
de eerste plaats is de interpretatie van deze scores moeilijk en niet voor elke subschaal hetzelfde.
In de tweede plaats levert het hanteren van twee scores per leerling problemen op bij verdere
analyses. Daarom is besloten de objectscores niet te gebruiken, maar op basis van de categorie-
kwantificeringen van de eerste dimensie de variabelen (de uitspraken) te dichotomiseren. De
positieve antwoordcategorie krijgt de waarde 1 en de negatieve antwoordcategorie de waarde 0.
De neutrale antwoordcategorie, die langs de eerste dimensie heel vaak een positie vlak bij de
negatieve antwoordcategorie inneemt, wordt aan die antwoordcategorie toegevoegd waar ze
het dichtst bij in de buurt ligt. Slechts bij vier uitspraken wordt de neutrale antwoordcategorie
aan de positieve antwoordcategorie toegevoegd en krijgt deze dus de waarde 1. Bij de overige
uitspraken krijgt de neutrale antwoordcategorie de waarde 0.

Om per subschaal een score te bepalen zijn de toegekende waarden opgeteld. Deze somscores
kunnen worden geïnterpreteerd als het aantal uitspraken per subschaal waarop positief is
gereageerd. De subschaal Angst is zodanig geconstrueerd dat een hoge score weinig angst
betekent. Bij Rolpatroon betekent een hoge score dat aan mannen en vrouwen gelijke kwalitei-
ten op computergebied worden toegeschreven. De somscores correleren zeer hoog met de
objectscores van de eerste dimensie. De informatie uit de tweede dimensie van de HOMALS-
oplossing wordt buiten beschouwing gelaten. De tweede dimensie kan immers niet worden
opgevat als een attitude-dimensie, aangezien deze géén representatie is van de neiging om
positief of negatief te reageren.

TOETSING VAN DE INTERNE STRUCTUUR VAN DE
COMPUTER-ATTITUDESCHAAL

Hoewel bij de ontwikkeling van de computer-attitudeschaal het voorbeeld van reeds bestaande
attitudeschalen is gevolgd, geldt dit niet voor het uitvoeren van exploratieve factoranalyses. De
interpretatie van exploratieve factoranalyses is vaak moeilijk omdat meestal veel factoren
worden gevonden met een eigenwaarde groter dan 1 en de eerste factor meestal veel meer
variantie verklaart dan de overige factoren. Met behulp van het door Jöreskog en Sörbom
(1981) ontwikkelde computerprogramma LISREL is een toetsende factoranalyse uitgevoerd.
Het LISREL-programma berekent schattingen voor de parameters van een set lineaire structu-
rele vergelijkingen. De variabelen in deze vergelijkingen kunnen zowel geobserveerde varia-
belen zijn, als latente variabelen, gerelateerd aan geobserveerde variabelen. In het geval van
toetsende factoranalyse hoeft slechts één soort geobserveerde variabelen, één soort latente
variabelen, dc relatie tussen deze geobserveerde en latente variabelen en de relatie tussen de
latente variabelen te worden gespecificeerd. Dc geobserveerde variabelen zijn de uitspraken. De
latente variabelen zijn de vijf subschalen, c.q. factoren. Elke uitspraak wordt slechts door één
subschaal verklaard. De subschalen mogen met elkaar correleren.

Op basis van lage item-subschaal correlaties zijn twee van de 40 uitspraken uit de schaal
verwijderd. Van de resterende 38 items is de correlatiematrix van de gedichotomiseerde items
gebruikt als invoer voor de toetsende factoranalyse. Dc chi-kwadraat bedraagt 1859 (bij 665
vrijheidsgraden: p<0.01). De goodness of fit is 0.89. De determinatiecoëfficiënt bedraagt 0.96.
Dit betekent dat het model op adequate wijze past bij de data. Aangezien in dit geval echter niet
aan de normaliteitseis is voldaan, is het moeilijk de LISREL-oplossing op zijn juiste waarde te
schatten. De gestandaardiseerde oplossing volgens de Maximum Likelihood methode geeft een
matrix van factorladingen met ladingen die op één na alle groter zijn dan 0.30 en die alle
significant van nul afwijken. In tabel 1 wordt de correlatiematrix van de vijf factoren vermeld
(gestandaardiseerde oplossing). De subschalen Plezier, Angst, Zelfinschatting en Relevantie
vertonen hoge onderlinge correlaties. De correlaties van deze subschalen met de subschaal
Rolpatroon zijn beduidend lager.

-ocr page 310-

306 Ontwikkeling en validering van een computer-attitudeschaal

Tabel 1. Correlatiematrix van factoren

Plezier

Angst

Zelfmschatting

Relevantie

Rolpatroon

Plezier

1.00

Angst

0.52

1.00

Zelfmschatting

0.65

0.73

1.00

Relevantie

0.67

0.51

0.52

I.OO

Rolpatroon

0.21

0.21

0.18

0.31

1.00

Deze LISREL-analyse biedt ondersteuning voor de veronderstelde interne structuur met vijf
subschalen van de computer-attitudeschaal. Deze uitkomst levert een bijdrage aan de interpre-
teerbaarheid van de schalen en daarmee aan de begripsvaliditeit. Dh betekent verder dat bij de
navolgende analyses, per leerhng de scores voor de vijf subschalen worden gehanteerd. In tabel
2 wordt de interne consistentie van de subschalen gerapporteerd. Hieruit bhjkt dat de sub-
schalen over een redehjke betrouwbaarheid beschikken.

Tabel 2. Interne consistentie van de subschalen (N=8S3)

subschaal

k

M

s

KR-20

Plezier

8

6.2

1.9

0.73

Angst

8

4.9

1.9

0.64

Zelfmschatting

7

3.6

2.1

0.76

Relevantie

8

6.1

1.8

0.64

Rolpatroon

7

5.4

1.7

0.69

k = aantal uitspraken
M = gemiddelde score
s = standaarddeviatie

RELATIES MET ANDERE VARIABELEN

Hier worden een aantal variantie-analyses beschreven, uitgevoerd ten behoeve van een nader
onderzoek van de begripsvaliditeit van de computer-attitudeschaal. Met behulp van de, in de
inleiding genoemde, enquête konden de volgende twee variabelen worden geconstrueerd:
'bekendheid met computers' en 'computerklimaat thuis'. De eerstgenoemde variabele is een
maat voor de kwaliteit en kwantiteit van de ervaringen met computers die leerlingen hebben
opgedaan. De steekproef is met betrekking tot deze variabele ifi drie groepen verdeeld: een lage,
een middelmatige en een hoge bekendheidsgroep. De variabele computerklimaat thuis geeft aan
in welke mate bij leerhngen thuis positief over computers wordt gedacht en eventueel in
overeenstemming hiermee wordt gehandeld. Met betrekking tot deze variabele is de steekproef
in twee groepen verdeeld: een groep leerlingen met een neutraal computerklimaat thuis en een
groep met een positief computerklimaat thuis. Behalve het effect van deze twee variabelen op de
attitude ten opzichte van computers, wordt ook het effect van de variabele geslacht onderzocht.

Bekendheid met computers

Moore (1984) resumeert dat kennis en ervaringen opgedaan buiten school meer effect hebben
op attitudes dan onderwijs. Bij kennis opgedaan in de vrije tijd spelen factoren als 'use of
discovery methods, individual work, allowing pupils to follow up their own ideas and the
absence of rigid timetabling' (Moore, 1984, p. 370) een rol. De volgende hypothese wordt
getoetst: Leerlingen die over meer bekendheid met computers beschikken scoren hoger op de
subschalen Plezier, Angst, Zelfmschatting en Relevantie, dan leerhngen met minder bekend-

-ocr page 311-

Marjo J. Crombach et al. 307

heid. Ten aanzien van de subschaal Rolpatroon is vooraf geen hypothese geformuleerd.

Omdat de LBO- en de A VO-groep niet even veel leeriingen tellen en omdat de verdeling van
de leerlingen over de drie bekendheidsgroepen verhoudingsgewijs verschilt voor het LBO en
AVO, is bij de uitgevoerde variantie-analyse gecorrigeerd voor de variabele schooltype. Dit is
gebeurd door een sequentiële opsplitsing van de kwadratensom met schooltype als eerst
ingevoerde factor en bekendheid met computers als tweede factor. In tabel 3 worden de
gemiddelde score en het aantal leeriingen vermeld van de bij deze analyse betrokken groepen.
Daarnaast worden de F-waarden van het hoofdeffect 'bekendheid met computers' gerappor-
teerd. Deze en de andere, soortgelijke, variantie-analyses zijn uitgevoerd met behulp van het
programma MANOVA uit het pakket SPSS. Bij deze variantie-analyses zijn de homogeniteits-
en normaliteitsassumptie getoetst. Niet alle subschalen voldoen aan de homogeniteitsassump-
tie. Aan de normaliteitsassumptie voldoet geen enkele subschaal.

Tabel 3. Effect van de variabele bekendheid met computers (gemiddelden)

LBO

AVO

laag

midden

hoog

laag

midden

hoog

subschaal

(247)

(119)

(55)

(197)

(115)

(108)

F

Plezier

5.6

6.7

6.7

5.7

6.4

7.2

37.01

Angst

4.1

5.0

5.7

4.3

5.6

6.4

92.02

Zelfinschatting

3.0

4.4

5.0

2.6

3.9

5.2

104.13

Relevantie

5.9

6.2

6.7

5.8

6.2

6.7

17.12

Rolpatroon

5.3

5.4

5.7

5.5

5.5

5.4

0.38°

' betekent niet significant, de overige F-waarden zijn significant op 1% niveau

Het interactie-effect van schooltype met bekendheid met computers is multivariaat
significant op 5% niveau (Wilks lambda bedraagt 0.98). Dit interactie-effect is univariaat echter
voor geen enkele subschaal significant. Omdat het interactie-effect multivariaat slechts margi-
naal significant en univariaat niet significant is, wordt dit effect genegeerd. Het hoofdeffect van
bekendheid met computers is multivariaat significant op 1% niveau (Wilks lambda bedraagt
0.75). Univariaat is dit effect significant voor de subschalen Plezier, Angst, Zelfinschatting en
Relevantie en niet significant voor de subschaal Rolpatroon.

Dit betekent dat leerlingen naarmate ze meer van computers afweten, meer plezier hebben in
het gebruiken van computers, minder bang zijn voor computers, meer vertrouwen hebben in
hun capaciteiten om computers te gebruiken en computers relevanter achten voor zichzelf en de
samenleving. De mate van bekendheid met computers heeft geen effect op het toeschrijven van
gelijke kwaliteiten aan mannen en vrouwen met betrekking tot informatietechnologie.

Computcrklimaat thuis

Anderson, Klassen, Krohn, en Smith-Cunien (1982) concluderen dat belangstelling voor com-
puters binnen het gezin en aanmoediging door de ouders statistisch significante voorspellers
zijn van het plezier van kinderen in het gebruiken van computers. De door Anderson et al.
genoemde voorspellers zijn nauw verwant aan de variabele computcrklimaat thuis. Verwacht
wordt dat de positieve invloed van thuis niet alleen voor de subschaal Plezier geldt, maar ook
voor de subschalen Angst, Zelfinschatting en Relevantie. De volgende hypothese wordt
getoetst: Leerlingen bij wie het computerklimaat thuis positiefis, scoren hoger op de subschalen
Plezier, Angst, Zelfinschatting en Relevantie dan leeriingen bij wie het computerklimaat thuis
neutraal is. Met betrekking tot de subschaal Rolpatroon is vooraf geen hypothese geformu-
leerd.

In tabel 4 zijn de gemiddelden, aantallen leeriingen en F-waarden opgenomen.
Het interactie-effect van schooltype met computerklimaat thuis is multivariaat niet significant.
Het hoofdeffect van de variabele computerklimaat thuis is multivariaat significant op 1%
niveau (Wilks lambda is 0.89). Univariaat is het hoofdeffect eveneens significant met
uitzondering van de subschaal Rolpatroon.

-ocr page 312-

308 Ontwikkeling en validering van een computer-attitudeschaal

Tabel 4. Effect van de variabele computerklimaat thuis (gemiddelden)

LBO

AVO

neutraal

positief

neutraal

positief

subschaal

(243)

(178)

(244)

(216)

F

Plezier

5.7

6.5

5.9

6.7

41.47

Angst

4.3

4.9

4.6

5.8

59.14

Zelfinschatting

3.2

4.3

3.0

4.4

82.78

Relevantie

5.8

6.4

5.9

6.6

32.60

Rolpatroon

5.3

5.5

5.4

5.6

2.61°

" betekent niet significant, de overige F-waarden zijn significant op 1% niveau

Leerlingen met een positief computerklimaat thuis geven dus inderdaad aan meer plezier te
hebben in het gebruiken van computers, minder bang te zijn voor computers, meer vertrouwen
te hebben in hun capaciteiten om computers te gebruiken en computers relevanter te vinden,
dan leerlingen met een neutraal computerklimaat. Het computerklimaat thuis is niet van
invloed op het toeschrijven van gelijke kwaliteiten aan mannen en vrouwen met betrekking tot
computers.

Geslacht

Volgens Harvey en Wilson (1985) is bewezen dat de beide sexen verschillen in capaciteiten en
houding met betrekking tot de exacte vakken, waarbij de meisjes in het nadeel zijn. Het gevaar
dat het met informatiekunde dezelfde richting uitgaat als met de exacte vakken, is niet denk-
beeldig. Moore (1984) en Gardner, McEwen, en Curry (1986) rapporteren over verschillen
tussen jongens en meisjes in de attitude ten opzichte van 'computer studies'. De volgende
hypothese wordt getoetst: Jongens scoren hoger op de subschalen Plezier, Angst, Zelfinschat-
ting en Relevantie dan meisjes. Er zijn geen redenen om te verwachten dat de scores voor de
subschaal Rolpatroon verschillen tussen jongens en meisjes.

De gemiddelden en resultaten van de variantie-analyse zijn vermeld in tabel 5.
Het interactie-effect van schooltype met geslacht is multivariaat significant op 1% niveau
(Wilks lambda bedraagt 0.97). Univariaat is dit interactie-effect alleen significant voor de
subschalen Plezier en Zelfinschatting (F= 10.79 respectievelijk 16.56 bij 1 en 879 vrij-
heidsgraden, p<0.01). Deze variantie-analyse wordt voor de twee schooltypen apart uitge-
voerd. Voor het LBO is het effect van geslacht multivariaat significant op 1% niveau (Wilks
lambda is gelijk aan 0.87). Univariaat is het effect van geslacht significant voor de subschalen
Angst, Zelfinschatting, Relevantie en Rolpatroon. Voor de subschaal Plezier is dit effect net niet
significant. Bij het AVO is het effect van geslacht multivariaat significant op 1% niveau (Wilks
lambda bedraag 0,76). Univariaat is dit effect eveneens significant voor alle subschalen.

Tabel 5. Effect van de variabele geslacht (gemiddelden)

LBO

AVO

jongens

meisjes

jongens

meisj'es

subschaal

(209)

(213)

F

(205)

(256)

F

Plezier

'6.2

5.9

3.60°

6.9

5.8

44.42

Angst

5.0

4.1

22.54

5.8

4.6

50.94

Zelfinschatting

3.8

3.4

4.64'

4.5

3.0

67.60

Relevantie

6.3

5.8

9.61

6.6

5.8

25.26

Rolpatroon

5.1

5.7

12.95

5.0

5.8

23.94

° betekent niet significant, * betekent significant op 5% niveau, de overige F-waarden zijn significant op
1% niveau

-ocr page 313-

Marjo J. Crombach et al. 309

Zowel bij het LBO als het AVO hebben jongens dus minder angst voor en zien ze meer het
belang in van computers dan meisjes. Bij het LBO verschillen jongens en meisjes niet met
betrekking tot het plezier hebben in het gebruiken van computers. Bij het AVO hebben jongens
meer plezier in het gebruiken van computers dan meisjes. Jongens van het LBO hebben meer
vertrouwen in hun capaciteiten met betrekking tot computers dan meisjes. Bij het AVO is dit
verschil veel groter. Bij beide schooltypen verschillen jongens en meisjes eveneens in het
toeschrijven van gelijke kwaliteiten aan mannen en vrouwen ten aanzien van computers.
Meisjes zijn er meer van overtuigd dat mannen en vrouwen gelijke kwaliteiten bezitten, dan
jongens.

CONCLUSIES

De meeste hypothesen zijn met goed resultaat getoetst. Dit betekent dat de resultaten in
belangrijke mate consistent zijn met die uit ander onderzoek. Bovendien wordt de a priori
indeling in subschalen door de data ondersteund. Dit draagt bij tot het vertrouwen in de
begripsvaliditeit van de computer-attitudeschaal. Tussen de subschalen onderling is geen
'discriminant validity' aangetoond. Met uitzondering van de subschaal Rolpatroon meten de
subschalen dus niet zulke specifieke aspecten van de attitude ten opzichte van computers.
Geconcludeerd wordt dat de computer-attitudeschaal een betrouwbaar en valide instrument is
om de attitude ten opzichte van computers te meten van leerlingen uit de beginfase van het
voortgezet onderwijs die (nog) geen onderwijs in informatiekunde volgen. Verwacht wordt dat
deze schaal ook betrouwbaar en valide is voor leerlingen uit de beginfase van het voortgezet
onderwijs die wel onderwijs in informatiekunde volgen.

De computer-attitudeschaal levert interessante, beschrijvende informatie op voor docenten
informatiekunde, die met een nieuwe groep leerlingen van start gaan. De schaal kan ook
worden gebruikt bij het evalueren van gegeven onderwijs.

De attitude van jongens ten opzichte van computers blijkt positiever te zijn dan die van
meisjes. Maar meisjes verwerpen vaker dan jongens, uitspraken waarin verschillen worden
aangeduid tussen mannen en vrouwen op computergebied. Kwan, Trauth, & Driehaus (1985)
vonden een soortgelijk resultaat. Deze auteurs concluderen dat met name meisjes het traditio-
nele rolpatroon met betrekking tot computers verwerpen.

Bijlage: De uiteindelijke lijst met uitspraken van de computer-attitudeschaal per subschaal
gerangschikt

Plezier

4. Voor een winkel met computers blijf ik altijd even staan.
8. Ik wil geen les over computers op school.

10. In mijn vrije tijd wil ik graag een computercursus volgen.

12. Ik heb een hekel aan computers.

19. Ik wil heel graag zelf een computer hebben.

25. Ik lees graag over computers.

26. Ik vind het vervelend om computerspelletjes te spelen.
31. Het lijkt mij saai om een computer in de les te gebruiken.

Angst

3. Van alle snoeren en kabels die aan een computer vastzitten, raak ik in de war.

5. De vreemde woorden en tekens die bij computers gebruikt worden, schrikken me af.

13. Bij het gebruiken van computers voel ik me op mijn gemak.

16. Als ik achter een computer zit, voel ik me een beetje zenuwachtig.

17. Computers blijven voor mij geheimzinnige apparaten.

-ocr page 314-

310 Ontwikkeling en validering van een computer-attitudeschaal

24. Ik ben bang om een verkeerde toets in te drukken bij een computer.

32. Computers maken me bang.

37. Ik word zenuwachtig als ik een computer zie.

Zeinnschatting

1. Ik denk dat ik snel een computer leer bedienen.

2. Van computers snap ik niks.

9. Ik ben niet geschikt om met computers te werken.

11. Ik zal gemakkehjk leren hoe ik computers moet gebruiken.

21. Ik denk dat ik goede cijfers haal bij computerlessen.

36. Ik voel me best in staat om computers te gebruiken.

40. Computers zijn niet te moeilijk voor mij.

Relevantie

15. Ik denk dat computers weinig nut hebben.

23. Computers spelen een belangrijke rol in ons dagelijks leven.

28. Computers kun je bij veel schoolvakken gebruiken.

29. Ik denk dat het voor iedereen belangrijk is om wat van computers te weten.

30. In fabrieken en op kantoren heb je weinig aan computers.

34. Alle leerlingen moeten weten welke rol computers in onze wereld spelen.

38. Om een baan te krijgen heb je niets aan kennis van computers.

39. Computers hebben meer nadelen dan voordelen.

Rolpatroon

6. Mannen kunnen beter programmeren dan vrouwen.

7. Vrouwen en mannen kunnen het even ver brengen in een computerberoep.
14. Vrouwen hebben meer aanleg om computerspecialist te worden.

20. Leren over computers is even belangrijk voor meisjes als voor jongens.

27. Meisjes zitten liever achter het toetsenbord van een computer dan jongens.

33. Het gebruiken van computers is meer iets voor mannen dan voor vrouwen.

35. Mannen zijn beter in wetenschap en techniek dan vrouwen.

LITERATUUR

Allport, G.W., (1935). Attitudes. In: C.A. Murchison, (Ed). A handbook of social psychology. Worcester
(Mass.): Clark University Press, 798-844.

Anderson, R.E., Hansen, T.P., Johnson, D.C., & Klassen, D.L., (1979). Minnesota Computer Literacy and
Awareness Assessment. St. Paul (Minn.), The Minnesota Educational Computing Consortium.

Anderson, R.E., Klassen, D.L., Krohn, K.R., & Smith-Cunnicn, P., (1982). Assessing computerliteracy.
Final report. St. Paul (Minn.), The Minnesota Educational Computing Consortium.

Gagné, R.M., (1977). The conditions of learning. New York: Holt, Rinehart and Winston.

Gardner, J.R., McEwen, A., & Curry, C.A., (1986). A sample survey of attitudes to computer studies.
Computers & Education. Vol. 10, Nr 2,293-298.

Gifi, A., (1981). Homais user's guide. Leiden: University of Leiden.

Green, D. H., (1977). Attitudes. In: S. Ball, (Ed.). Motivation in education. New York, Academic Press.

Harvey, T.J., & Wilson, B., (1985). Gender differences in attitudes towards microcomputers shown by
primary and secundary school pupils.
British Journal of Educational Technology, no. 3 vol. 16
october. 183-187.

Jöreskog, K.G., & Sörbom, D;, (1981). LISREL User's Guide Version V, Chicago, National Educational
Resources.

Krathwohl, E.R., Bloom, B.S., & Masia, B.B., (1964). Taxonomy of educational objectives. Handbook 2: The
affective domain.
New York: McKay.

Kremers, E.J.J., (1978). Affectieve doelstellingen in het onderwijs en een toepassing voor het vak wiskunde.
Arnhem: Cito.

-ocr page 315-

Marjo J. Crombach et al. 311

Kremers, E.J.J. (1981). De wiskunde-attitudeschaal: een voorbeeld van een instrument voor het evalueren
van affectieve doelstellingen. In P.
'^^etda. Aspecten van leerplanevaluatie. Den Bosch: Malmberg.

Kwan, S.K., Trauth, E.M., & Driehaus, K.C., 0985). Gender differences and computing: students'
assessment of societal influences.
Education & Computing, vol. 1, 187-194.

McMillan, J.H., (1980). Attitude development and measurement. In: J.H. McMillan, (Ed.). The social
psychology of school learning.
New York, Academic Press.

Moore, J.L., (1984). The development and use of a questionnaire measuring secundary school pupils'
attitudes to computers and robots. Nottingham: University of Nottingham, (Dissertation).

Raat, J.H., & Vries, M.J. de, (1985). Wat vind je van techniek?, Eindhoven, Technische Hogeschool
Eindhoven.

Stichting voor de Leerplanontwikkeling, (1983). Raamwerk burgerinformatica. Enschede: SLO.

Summers, G.F., (Ed.), (1970). Attitude measurement. Chicago: Rand McNally.

Triandis, H.C., (1971). Attitude and attitude change. New York: Wiley.

Manuscript ontvangen 13-5-1986

Definitieve versie ontvangen 24-10-1986

-ocr page 316-

T^dschrift voor Onderwijsresearch, 11 (1986), Nr. 6, pp. 312-317.

Notities en Commentaren

WOLTERS' ONGERECHTVAARDIGDE CONCLUSIES

Een kritisch commentaar op 'De functie van deel-geheel-schema's in het rekenonderwijs: een
terugblik' (Wolters, 1984).

L.W.C. Tavecchio*, M. Beishuizen**, J.N. van den Berge*** en M.W. Bleek****

♦ Vakgroep Wijsgerige en Empirische Pedagogiek, R. U.L.
*♦ Vakgroep Onderwijskunde, R. U.L.
*** Werkzaam in het basisonderwijs te Leiden
**** Werkzaam in het vormingswerk te Den Haag.

Door Wolters (1984) werden drie onderzoekingen naar redactieopgaven naast elkaar gezet en
aan een heranalyse onderworpen. Deze onderzoekingen werden verricht tussen 1976 en 1979 en
waren qua opzet en probleemstelling vergelijkbaar. Zij richtten zich op het leren oplossen van
redactie-opgaven op een nieuwe, 'wiskundige' wijze, waarbij leertheoretische denkbeelden uit
de Sovjet Unie een belangrijke rol spelen, met name de opvattingen van Davydov. Laatstge-
noemde stelt dat leerlingen al in een veel vroeger stadium dan gebruikelijk in staat moeten
worden geacht te kunnen abstraheren en opereren bij een 'gealgebraïseerde' instructie in het
reken/wiskunde-programma. Het zogenaamde 'deel-geheel-schema' als oplossingsmodel
speelde in elk van de drie onderzochte programma's een belangrijke rol.

Wolters' heranalyse gaat uit van nieuwere inzichten in de literatuur, die stellen dat naast
mathematische structuur óók verschillen in
semantische structuur van invloed zijn op het
oplossen van redactie-opgaven. Door toepassing van deze semantische typologie op de toetsi-
tems (hierover later meer) voerde Wolters haar heranalyse op de onderzoeksdata uit. Niet de
totaalscores per toets werden nu als basis voor de effectmeting genomen, maar subscores voor
afzonderlijke typen redactie-opgaven. Wolters' nieuwe conclusie luidt dat gesproken moet
worden van een differentieel effect: alléén opgaven van het type 'deel-geheel' en 'puntsom'
zouden verbetering te zien geven ten gevolge van de training met het 'deel-geheel-schema', en
andere redactie-opgaven niet (o.e., p. 81,82). Ook zou één van de drie onderzoekingen namelijk
dat van Van den Ber^e en Bleek (1982) in het licht van deze heranalyse (achteraf) als irrelevant
ter zijde geschoven moeten worden, omdat de toetsen te weinig 'gevoelige' opgaven van het
bovengenoemde type zouden hebben bevat (o.e., p. 81).

Met Wolters zijn wij van mening dat dit meer recente theoretische interpretatiekader interes-
sante verklaringsmogelijkheden biedt. Maar de wijze waarop Wolters haar heranalyse uit-
voerde achten wij methodologisch zeer aanvechtbaar. Haar artikel bevat nogal wat voor-
beelden van onzorgvuldig redeneren, inadequate analyses ,en, wat het belangrijkste is,
ongerechtvaardigde conclusies. Onze indruk is dat Wolters te snel naar nieuwe verklaringen toe
redeneert zonder voldoende onderbouwing. Daarop heeft onze reactie betrekking, die we
kortheidshalve beperken tot drie illustraties.

1. Het eerste onderzoek (Assink & Verloop, 1977) had als uitgangspunt de probleemstelling: 'Is
het mogelijk het oplossen van redactie-opgaven te verbeteren door de leerlingen een algemeen
rekenprogramma aan te bieden, waarin geprobeerd wordt inzicht te verschaffen in de mathema-
tische structuur van de opgaven?'. Gemiddelden op voor- en natoets van twee experimentele
groepen (beide kregen een zgn. 'Davydov-training', de een met lettersymbolen, de ander met
cijfersymbolen) en van de controlegroep (die het standaard rekenprogramma volgde) werden
eerst per groep vergeleken en daarna werden de verschilscores tussen voor- en natoets tussen de

Adres: Postbus 9507,2300 RA Leiden.

-ocr page 317-

L. W.C. Tavecchio et al. 313

drie groepen vergeleken. De naar de mening van de auteurs meest 'kritische' toets, de toets op de
verschilscores, leverde in geen van de gevallen significante resultaten op (Assink & Verloop,
1977, p. 139/140 en 141). Voor de groepen afzonderlijk kon ook geen effect worden aange-
toond, zij het dat het voortoets-natoets verschil in de letterconditie de significantiedrempel
dicht benaderde: de gevonden t-waarde had een overschrijdingskans van .054 (de auteurs, o.c.,
p. 139, spreken over 'praktisch op 5%-nivo significant'). Wolters, destijds coördinator van het
project redactiesommen, was aanmerkelijk enthousiaster zoals blijkt uit haar proefschrift
(1978a, p. 86), waarin zij stelde dat 'Assink en Verloop hebben aangetoond dat een dergelijke
werkwijze in het Nederlands onderwijs succesvol is', terwijl zij elders (1978b, p. 233) zelfs sprak
van 'opzienbarende resultaten'.

Van den Berge & Bleek rapporteerden in 1982 echter over een door hen in 1979 uitgevoerde
replicade van het onderzoek van Assink & Verloop, waaruit bleek dat het experimentele
rekenprogramma (wederom) geen positief resultaat opleverde: ook in dit onderzoek kon de
hypothese dat leerlingen na het volgen van Davydov-training redactie-opgaven beter zouden
oplossen
niet worden bevestigd. Wat ons thans dan ook uitermate verbaast is de strekking van
Wolters' terugblik. Wat een 'terugblik' heet te zijn, is in feite een doorgaan op de verkeerde weg
van niet gerechtvaardigde conclusies.

In haar heranalyse van de onderzoeksresultaten van Assink & Verloop vervangt Wolters de
(oorspronkelijke) t-toets procedure door een (ongetoetste) vergelijking tussen het 'percentage
goede oplossingen' op de voor- en natoets. Bovendien wordt deze vergelijking nu uitgevoerd
voor de diverse semantische structuurtypen afzonderlijk. Aldus tracht zij alsnog bewijsmate-
riaal aan te dragen dat tot de conclusie zou leiden dat het trainingsprogramma van Assink &
Verloop wél succesvol is geweest. Wij gaan nu eerst nader in op de door Wolters gehanteerde
maat, het verschil tussen het percentage goede oplossingen op voor- en natoets. Wolters komt in
haar terugblik (1984, p. 80) tot de conclusie dat het door Assink & Verloop gebruikte trainings-
programma een gunstig effect heeft op het oplossen van 'deel-geheel opgaven' en geen effect op
het oplossen van 'vergelijkingsopgaven'. Zij komt tot deze conclusie door voor de experimen-
tele groep en de controle groep het
percentage goede antwoorden op de deel-geheel opgaven op
respectievelijk voor- en natoets te vergelijken met het percentage goede antwoorden op respec-
tievelijk voor- en natoets op de vergelijkingsopgaven. In Tabel 6 (p. 80) staan deze percentages
vermeld. Laten we ons beperken tot de resultaten van de experimentele groep, d.w.z. de
linkerhelft van de tabel:

exp. groep (n = 8)
voortoets natoets
deel-geheel opgaven 40% 63%
vergelijkingsopgaven 81% 88%

Volgens Wolters '... zien we in tabel 6 dat het trainingsprogramma ook hier weer een gunstig
effect heeft op het oplossen van deel-geheel opgaven en geen effect op het oplossen van
vergelijkingsopgaven' (o.c., p. 80-81). De vooruitgang op de deel-geheel opgaven (van 40% naar
63%) wordt vergeleken met de vooruitgang op de vergelijkingsopgaven (van 81% naar 88%).
Wolters deelde ons mee' dat haar in Tabel 6 gepresenteerde resultaten betrekking hebben op
vier deel-geheel opgaven en twee vergelijkingsopgaven. Dit betekent dat er in de betreffende
groep van acht leerlingen een maximum aantal van 32 goede oplossingen op de vier deel-geheel
opgaven en een maximum aantal van 16 goede oplossingen op de twee vergelijkingsopgaven
kon worden behaald. In absolute aantallen ziet Tabel 6 (linkerhelft) er dan ook als volgt uit:
voortoets natoets
deel-geheel opgaven 13 20

vergelijkingsopgaven 13 14

Dus: 13 goede oplossingen op de voortoets en 20 op de natoets voor de deel-geheel opgaven en
respectievelijk 13 en 14 goede oplossingen voor de vergelijkingsopgaven. Hieronder laten wij
aan de hand van een drietal voorbeelden zien hoe deze resultaten tot stand hadden kunnen

-ocr page 318-

314 Notities en commentaren

Icomen. De voorbeelden kunnen met vele andere worden aangevuld. Wij kozen voor drie
'sprekende' en beperkten ons tot de vier deel-geheel opgaven:

Voorbeeld 1 Voorbeeld 2 Voorbeeld 3

Leerling

Voortoets

Natoets

Voortoets

Natoets

Voortoets

Natoets

1

0

0

3

0

0

0

2

0

4

1

3

0

0

3

0

4

2

1

0

0

4

1

1

0

4

2

4

5

2

2

1

3

3

4

6

3

3

3

3

3

4

7

3

2

1

4

2

4

8

4

4

2

2

3

4

Totaal:

13

20

13

20

13

20

Drie zeer uiteenlopende situaties die gemeen hebben dat het percentage goede oplossingen op de
voortoets 40% bedraagt (13 van de 32) en op de natoets 63% (20 van de 32). In
voorbeeld 1 gaan
alleen de zeer slechten op de voortoets (met score 0) er op vooruit, vier leerlingen blijven gelijk
en één gaat er achteruit. In
voorbeeld 2 gaat de helft van de leerlingen vooruit, van de andere
helft blijven er twee gelijk en twee gaan achteruit. Tot slot laat
voorbeeld3 vooruitgang zien voor
degenen die toch al goed waren: deze vijf leerlingen gaan vooruit, de drie met score O blijven ook
op de natoets in gebreke. Uit deze beknopte illustratie moge blijken dat 'percentage goede
oplossingen' een veel te onnauwkeurige maat is voor het aantonen van verschillen of het trekken
van verantwoorde conclusies. De percentages in Tabel 6 van Wolters' heranalyse zeggen niets
en zeggen alles: ze laten alle conclusies toe en sluiten er geen uit. Wat Wolters had moeten
analyseren is het
aantal goede antwoorden per kind per opgave en daarbij een adequate toets
toepassen (bijvoorbeeld een t-toets voor verschillen tussen gecorreleerde steekproeven of een
toets voor verschillen tussen afhankelijke proporties). De conclusie die zij op grond van de
percentages uit Tabel 6 trekt berust op een volstrekt onjuiste analyse van de gegevens: slechts bij
toeval zou ze het bij het rechte eind kunnen hebben en dat is precies het omgekeerde van hetgeen
het geval had moeten zijn! Afgezien van de inadequaatheid van de door Wolters gehanteerde
analysemethode kan men zich afvragen of 'oplossers' (d.w.z. de kinderen zelQ niet beter als
analyse-eenheid gekozen hadden kunnen worden in plaats van 'oplossingen'. Immers, de
effectiviteit van een methode behoort toch te worden bepaald aan de prestatieverbetering van
meerdere 'typen' leerlingen, bijvoorbeeld goeden én slechten. Zoals uit het hierboven vermelde
'voorbeeld 3' blijkt versluiert een maat als 'percentage goede oplossingen' mogelijk het feit dat
er slechts door goede leerlingen vooruitgang wordt geboekt, terwijl de 'slechten' er niets aan
hebben. Wat is in zo'n geval de effectiviteit van een methode? Precies hetzelfde betoog als
hiervoor met betrekking tot Wolters' heranalyse van de gegevens van Assink & Verloop werd
gehouden kan worden opgebouwd met betrekking tot de heranalyse van haar eigen onder-
zoeksgegevens (1984, p. 79-80, zie vooral Tabel 5). Ook in dit geval onderwerpt Wolters
gedeelten van de gegevens uit haar dissertatie aan een 'heranalyse' op basis van semantische
structuurtypen met behulp van percentage-gewijze vergelijkingen. Wij kozen het materiaal van
Assink & Verloop in Tabel 6 ter illustratie, omdat het daarbij ging om 8 personen en 4 opgaven,
zodat de (fictieve) voorbeelden zowel getalsmatig als Inhoudelijk op overzichtelijke wijze
konden worden uitgewerkt. Wolters' conclusie op basis van de percentages in Tabel 5 over'...
een verband tussen type (semantische structuur) opgave en trainingsprogramma-effect' (o.e., p.
80) blijft op grond van het naar aanleiding van Tabel 6 gehouden betoog evenzeer in het
luchtledige hangen. Vergelijk ook de typologische analyse van de toetsen hierna. Kortom: door
de volstrekt ongerechtvaardigde conclusies met betrekking tot de percentages uit de tabellen 5
en 6 valt in feite iedere grond onder het betoog op p. 81 weg, waardoor de conclusie van Wolters
'Het lijkt aannemelijk op grond van het voorgaande te veronderstellen dat het trainingspro-

-ocr page 319-

L. W.C. Tavecchio et al. 315

gramma een positief effect heeft op het oplossen van deel-geheel opgaven' dus niet getrokken
kan worden.

2. Overigens roept ook het onderwijsprogramma als zodanig twijfels op ten aanzien van de
vergelijkbaarheid van de drie door Wolters in haar heranalyse betrokken onderzoekingen. Het
Davydovprogramma werd door Assink & Verloop omgezet in een Nederlands programma
bestemd voor
tweede klassers. In het replicatie-onderzoek van Van den Berge & Bleek werd dit
programma verbeterd en ook aan tweede klassers voorgelegd. Wolters (1978; 1984) gaf in haar
onderzoek hetzelfde programma aan
derde en vierde klassers. Bovendien werd het programma
door haar verlengd met een deel c. Men kan zich echter afvragen of eenzelfde programma voor
zo'n grote (en gedifferentieerde) groep leerhngen, afkomstig uk verschiUende klassen, geschikt
kan zijn. Bovendien rijst ook onmiddelhjk de vraag of überhaupt onderzoeksresultaten van
tweede klassers mogen worden vergeleken met die van derde en vierde klassers. Speelt de factor
'leeftijd' daar niet een grote rol in evenals verschil in rekenkennis? Zeker wanneer we de
oorspronkelijke probleemstelling er op na slaan.

3. Tot slot willen we nader ingaan op de kwestie van de typologie van redactiesommen. Deze
typologie speelde in Wolters' artikel een belangrijke rol als uitgangspunt voor haar differentiële
heranalyse. Zoals aan het begin opgemerkt concludeert zij nu dat het zogenaamde deel-geheel
schema niet geschikt zou zijn voor alle typen redactie-opgaven. Het onderzoek van Van Berge &
Bleek zou in dit licht niet langer relevant zijn, want in de natoetsen zouden 'geen deel-geheel
opgaven opgenomen
zijn' (o.e. p. 81). In deze onderzoekingen (ook Assink & Verloop) zou 'niet
gevarieerd (zijn) volgens semantische structuurtypen', omdat dergelijke typologieën toen nog
niet in de hteratuur bekend waren (o.e. p. 79).

Ook hier blijkt Wolters onzorgvuldig in haar analyse en redenering. In de voortoetsen van
Van den Berge & Bleek vond Wolters wél een deel-geheel-opgave
(som 2). maar in de natoets
zou deze verdwenen zijn (o.e. p. 79). Een nogal haastige conclusie, want de vergelijkbare
deel-geheel-opgave stond in de natoets gewoon wat verderop als
jowj 10! Het argument dat
oudere onderzoekingen - zonder gebruik van semantische typologie - geen variatie van redac-
tiesommen in dit opzicht zouden bevatten, is naar onze mening aanvechtbaar. Immers wanneer
dergelijke toetsen representatief zijn samengesteld - hetgeen onderzoekers meestal nastreven -
mag men (impliciet) een soortgelijke variatie verwachten als deze typologieën nu (expliciet) in
kaart brengen.

Een typologische heranalyse van de besproken toetsen kon hier meer duidelijkheid ver-
schaffen, die in het artikel van Wolters ontbreekt. Zij verwijst slechts fragmentarisch naar de
aanwezigheid van de verschiUende typen redactie-opgaven in de toetsen (vgl. hierboven), maar
zij geeft geen volledig overzicht. Dit achten wij een ernstige omissie, want de feitelijke basis voor
haar nieuwe conclusie blijft daardoor oncontroleerbaar. Daarom heten we
twee onaßtankelijke
beoordelaars buiten deze discussie^ alle items classificeren in de volgende categorieën (vgl. Riley,
Greeno & Heller, 1983; Wolters, 1984): l. 'Change' (erbij-eraf), 2. Idem maar 'change' of'start'
onbekend (puntsom), 3. 'Combine' en 'Part-part-whole' (deel-geheel), 4. 'Compare' (vergelij-
king). Conform Wolters' analyse (o.e., p. 80) werd bovendien onderscheid gemaakt tussen
opgaven met méér of één rekenkundige bewerking(en). Kortheidshalve volstaan we met de
gemiddelde weergave over voor- cn natoetsen, aangezien deze als parallelversies vrijwel identiek
waren samengesteld (zie Tabel 1).

Twee conclusies kunnen uit deze tabel getrokken worden: (1) In de toetsen van Assink &
Verloop en Van den Berge & Bleek was het aandeel 'gevoelige' items voor het deel-geheel-
schema, namelijk de typen 2 en 3,
minstens even groot als in Wolters' eigen toetsen; (2) Wolters'
beperking tot alleen de opgaven met één rekenkundige bewerking gaf een nog smallere basis aan
haar heranalyse, namelijk slechts
één, twee of drie items per subscore, zoals in het rechterdeel
van nevenstaande tabel kan wórden nagegaan. Laatstgenoemde conclusie onderstreept de
bezwaren die hiervoor reeds tegen Wolters' statistische heranalyse werden gemaakt. De eerste
conclusie betekent dat de onderzoeksresultaten van Van den Berge & Bleek, die wel enige maar

-ocr page 320-

316 Notities en commentaren

w->

oo
Ö

Ov

00
00

il

ii

ii'

—,

JS O

ea

a-S

j. S

n "O 00

c

s, c ë

?? . 3 O

g-CM O. °

• •S i2

— OW

I 00

H

I

i

O
O

c

5

c
>

a j. SJ

g- . 8-S

« f^ -O 00

rs li

• •e 2

W O

■a
.c

i
I

I

2 8-S.^

5;

I
i

a

Q.
n

"c

U

O

U

c
O

£

«m

Ë
f2

è

O.

W)

S ö

c

1 8

ft>
O

u c U

•D O 00

<>

-ocr page 321-

L. W.C. Tavecchio et al. 317

geen significante vooruitgang vonden na training met het deel-geheel-schema, wel degelijk
relevant genoemd moeten worden.

Wat betreft de evenmin significante 'opzienbarende resultaten' van Assink & Verloop (vgl.
Wolters, hiervoor) verschaft de tabel ook andere informatie dan Wohers' suggestieve taalge-
bruik doet vermoeden. In tegenstelling tot de bevindingen van Van den Berge & Bleek betrok
Wolters deze onderzoeksresultaten wél in haar heranalyse, waarin zij het eerder besproken
differentiële effect constateerde. Want zo schrijft Wolters in haar artikel (o.e., p. 81): 'In het
onderzoek van Assink & Verloop bestond de helft van de opgaven in de natoets uit deel-geheel-
opgaven en het effect van het trainingsprogramma was dan ook waarneembaar'. Volgens
Wolters' latere mededeling' betrof haar heranalyse echter
vier 'deel-geheel-opgaven' (met één
rekenkundige bewerking, waartoe zij haar analyse beperkte). Zoals in de tabel kan worden
nagegaan kwamen onze beoordelaars echter niet verder dan
drie van de tien opgaven d.w.z. één
'deel-geheel-opgave en twéé 'puntsommen'. Daarnaast classificeerden zij drie items als 'verge-
lijkingsopgaven', terwijl Wolters twee items van dit type onderscheidde bij Assink & Verloop
(vgl. hiervoor). De waarheid zal wel ergens in het midden liggen, rekening houdend met
beoordelings-variantie. Belangrijker is dat deze classificatie-details opnieuw de kernvraag
oproepen of de heraiialyse van Wolters statistisch wel toelaatbaar was? In dit geval met het
argument dat de (sub) aantallen items per itemtype wel
erg gering waren om daarop subscores
(en effectverschillen) te baseren.

Samenvattend bestrijden wij niet de wenselijkheid van nieuwe en meer genuanceerde benade-
ringen in het onderzoek van redactie-opgaven, zoals Wolters in navolging van meer recente
hteratuur bedoelt. Maar daarbij is dan meer zorgvuldigheid gewenst, bijvoorbeeld ten aanzien
van de classificatie van redactie-opgaven volgens semantische structuur (waaraan nog wel enige
haken en ogen zitten waarop wij nu niet ingaan). Het is te hopen dat toekomstige pogingen
minder slordig en onzorgvuldig zijn dan Wolters naar onze mening in haar 'heranalyse' etaleert.
En wat betreft het inhoudelijke discussiepunt van de 'nuttige functie' van het deel-geheel-
schema in het rekenonderwijs, moeten de eerste
relevante empirische bouwstenen naar onze
mening nog steeds worden aangedragen.

NOTEN

' Persoonlijke communicatie met Wolters, 1985. Overigens kwamen onze beoordelaars tot een iets
andere classificatie, vgl. Tabel 1 met typen redactie-opgaven. Overigens doet het exacte aantal opgaven
van beide typen voor de illustratie van de inadequaatheid van de door Wolters verrichte heranalyses niet

ter zake.

Het betrof hier de studenten Daudt-De Jong cn Gulden, die een doctoraalscriptie over (andere
aspecten van) redactiesommen maakten, en die bereid waren hun medewerking aan de beoordelingen te
verlenen

LITERATUUR

Assink, E.M.H., & Verioop, N. (1977). Het aanleren van deel-geheel relaties in het aanvankelijk rekenon-
derwijs.
Pedagogische Studiën, 54. 130-142.
Berge. J.N. van den & Bleek, M.W. (1982). Het oplossen van redactie-opgaven.
Pedagogische Studiën, 59.
71-80.

Riley, M.S., Greeno, J.G., & Heller, J.I. (1983). Development of children's problem-solving ability in
arithmetic. In H.P. Ginsburg (ed.).
The development of mathematical thinking, (p. 153-200). New
York: Academic Press.

Wolters, M. A.D. (1978a). Van rekenen naar algebra. Een ontwikkelingspsychologische analyse. Rijksuniver-

' siteit Utrecht (dissertatie).
Wolters, M.A.D. (1978b). Algebra op de basisschool - ja of nee.
Pedagogisch Tijdschrift/Forum voor

' Opvoedkunde, 3. 227-235.
Wolters, M.A.D. (1984). De functie van deel-geheel schema's in het rekenonderwijs: een terugblik.
Tijd-
' schrift voor Onderwijsresearch.
9, 71-83.

Ontvangen 30-10-1985.

-ocr page 322-

Tijdschrift voor Onderwijsresearch, 11 (1986), Nr. 6, pp. 318-324.

Notities en Commentaren

DE INVLOED VAN SEMANTISCHE STRUCTUURKENMERKEN OP HET OPLOSSEN
VAN REDACTIEOPGAVEN

Een reactie op Wolters' ongerechtvaardigde conclusies

Miriam A.D. Wolters
Faculteit Sociale Wetenschappen

Vakgroep Ontwikkeling en Socialisatie, Sectie Ontwikkelingspsychologie, Utrecht

INLEIDING

Het doet me deugd, dat wetenschappers als Tavecchio e.a. (1986) zich verdiepen in een
onderwerp als functies van deel-geheel schema's in het rekenonderwijs en dit onderwerp
vervolgens kritisch becommentariëren. Het geeft me de gelegenheid de recente ontwikkelingen
op dit gebied nader te belichten. Dat het een belangrijk onderzoeksthema binnen de onderwijs-
en ontwikkelingspsychologie is blijkt uit het commentaar van Tavecchio e.a. en uit recente
pubhcaties op dit gebied van o.a. Verschaffel (1984a, 1984b, 1985), Carpenter & Moser (1982)
en Riley e.a. (1983).

In mijn reactie op het kritisch commentaar van Tavecchio e.a. volg ik enerzijds de betooglijn
van dit commentaar kritisch en anderzijds geef ik een verdieping in het thema aan de hand van
nieuwe informatie uit de eerder genoemde recente publicaties.

De reactie van Tavecchio e.a. dat een heranalyse van de gegevens had moeten geschieden met
een daarvoor geschikte statistische toets is natuurlijk volkomen terecht. Daarvoor heb je nodig
zoals Tavecchio e.a. opmerken het aantal goede antwoorden per kind per opgave. Helaas
konden we daarover niet meer beschikken. (1)

Behalve statistische zijn er echter ook andere middelen van bewijsvoering. Deze middelen van
bewijsvoering, die meer kwalitatief van aard zijn en die door mij in het artikel van 1984 gebruikt
zijn, worden in dit artikel verder uitgewerkt.

Semantische structuurkenmerken

Iedere keer wordt aangetoond of bevestigd dat semantische structuurkenmerken van redac-
tieopgaven een cruciale invloed uitoefenen op de moeilijkheidsgraad ervan alsook op de aard
van de strategieën waarmee ze door basisschoolleeriingen worden opgelost (Carpenter & Moser
1982, Riley e.a. 1983 en Verschaffel e.a. 1984b). Wat de moeihjkheidsgraad betreft, werd
vastgesteld dat erbij-eraf opgaven vaker juist beantwoord werden dan deel-geheel opgaven en
deze op hun beurt weer makkelijker werden gevonden dan vergelijkingsopgaven. Binnen elk
van de drie genoemde typen opgaven zijn echter weer belangrijke verschillen in moeilijk-
heidsgraad te onderscheiden daar waar het gaat om een indirecte dan wel directe vorm (zie ook
Wolters 1978). Bijvoorbeeld een erbij-eraf opgave waarvan de startset onbekend is (indirecte
vorm) bhjkt moeilijker te zijn dan een erbij-eraf opgave waarvan de eindset onbekend is (directe
vorm). Maar een indirecte vorm van een erbij-eraf opgave (startset onbekend) wordt weer
moeilijker gevonden dan een directe vorm van een deel-geheel opgave. (2) In-totaal zijn er op
deze manier 16 categorieën van redactie opgaven te onderscheiden met een optel- of aftrekope-
ratie: drie binnen erbij, opgaven (1 direct, 2 indirect), drie binnen eraf opgaven (1 direct, 2

Adres: Heidelberglaan 2,3584 CS Utrecht

-ocr page 323-

Miriam A.D. Wolters 319

Richting Onbekende

Naam Voorbeeld

Schema

OV-I Joe had 3 marbles. He found 5 more
marbles. How many marbles did Joe
have then?

OV-II Joe had 8 marbles. He lost 5 mar-
bles. How many marbles did Joe
have then?

OV-III Joe had 3 marbles. He found some
more marbles. Then he had 8 mar-
bles. Hoe many marbles did Joe fmd?

OV-IV Joe had 8 marbles. He lost some
marbles. Then he had 3 marbles.
How many marbles did Joe lose?

OV-V Joe had some marbles. He found 5
marbles. Then he had 8 marbles.
How many marbles did Joe have to
begin with?

OV-VI Joe had some marbles. He lost 5
marbles. Then he had 3 marbles.
How many marbles did Joe have to
begin with?

C-I Joe has 3 marbles. Tom has 5 marbles
How many marbles do they have
altogether?

C-I I Joe and Tom have 8 marbles altoge-
ther. Tom has 5 marbles. How many
marbles does Joe have?

VG-I Joe has 3 marbles. Tom has 8 marbles
How many more marbles does
Tom have than Joe?

VG-II Joe has 8 marbles. Tom has 3 marbles
How many fewer marbles does
Tom have than Joe?

VG-III Joe has 3 marbles. Tom has 5 more

marbles than Joe. How many marbles
does Tom have?

VG-IV Joe has 8 marbles. Tom has 5 less

marbles than Joe. How many marbles
does Tom have?

VG-V Tom has 8 marbles. He has 5 more

marbles than Joe. How many marbles
does Joe have?

VG-VI Tom has 3 marbles. He has 5 less

marbles than Joe. How many marbles
does Joe have?

Combinatie

Combinatie

Vergelijking meer

Vergelijking minder

Vergelijking meer

Vergelijking minder

Vergelijking meer

Vergelijking minder

Oorzaak-verande- vermeerdering eindset

Oorzaak-verande- vermindering eindset

Oorzaak-verande- vermeerdering veranderingsset

Oorzaak-verande- vermindering veranderingsset

Oorzaak-verande- vermeerdering startset

Oorzaak-verande- vermindering startset
ring

superset
subset
verschilset
verschilset
vergeleken set
vergeleken set
rcferentiesct
referentieset


Figuur 1 Voorbeelden van en toelichting bij de veertien categorieën redactie opgaven. OV = erbij-eraf,
C = deel-geheel en V = vergelijking. Uit: Verschaffel 1985.

-ocr page 324-

320 Notities en commentaren

indirect); twee binnen deel-geheel opgaven (1 direct, 1 indirect); zes binnen vergelijkingsopga-
ven (2 direct, 4 indirect). In fig. 1 zijn de categorieën gegeven met een voorbeeldopgave.
Uit empirisch onderzoek blijkt tot nu toe nog geen vaste ordening naar moeilijkheidsgraad in
deze 16 categorieën. Dit wordt ook bemoeilijkt door nog twee kenmerken die invloed hebben op
het oplossingsproces namelijk: (a) de volgorde waarin de gegevens van de opgave in de tekst
staan, en (b) de mate waarin de semantische relaties tussen gegevens en gevraagde in de tekst
expliciet gegeven zijn (Verschaffel e.a. 1984b). Een voorbeeld van dit laatst genoemde kenmerk
is:

(impliciet erbij-eraf indirect) Jan heeft 3 knikkers gewonnen. Nu heeft hij er 5. Hoeveel knikkers
had Jan eerst?

(expliciet erbij-eraf indirect) Jan had wat knikkers. Hij wint nog 3 knikkers bij. Nu heeft Jan 5
knikkers. Hoeveel knikkers had Jan eerst?

Wenden we ons op dit moment tot het commentaar van Tavecchio e.a. dan lezen we: 'Het
argument dat oudere onderzoekingen - zonder gebruik van semantische typologie - geen
variatie van redactiesommen in dit opzicht zou bevatten, is naar onze mening aanvechtbaar.
Immers wanneer dergelijke toetsen representatief zijn samengesteld - hetgeen onderzoekers
meestal nastreven - mag men (impliciet) een soortgelijke variatie verwachten als deze typolo-
gieën nu (expliciet) in kaart brengen.'

Het type opgaven waar het in de drie oudere onderzoekingen (in Wolters 1984) om draait, is
het deel-geheel type. De hypothese in dat artikel luidde: training in een deel-geheel schema leidt
tot succesvol oplossen van deel-geheel opgaven en interfereert bij het oplossen van erbij-eraf- en
vergelijkingsopgaven. Als we nu kijken naar de verdeling over de drie typologieën in fig. 1 dan is
de kans dat deel-geheel opgaven in een evenredig aantal in een toets opgenomen zullen zijn, heel
klein.

Er is in de drie gerefereerde onderzoekingen geput uit redactiesommen in de vigerende
rekenmethodes en men is niet bewust gaan selecteren op de drie types, omdat het onderscheid in
de drie semantische types nog niet bekend was. (3) Als we vervolgens kijken naar de verdeling
over de drie semantische types (erbij-eraf, deel-geheel en vergelijkingsopgaven) in rekenmetho-
des, krijgen we nog een ander beeld. In 1984 heeft een groep studenten in het kader van het blok
'Wiskunde in het funderend onderwijs' de verdeling over type redactieopgaven in moderne
rekenmethodes als Taltaai, Getal in beeld. De wereld in getallen en Pluspunt, bekeken. Het
resultaat was: erbij-eraf opgaven 68%, deel-geheel opgaven 14% en vergelijkingsopgaven 18%.
Ook uit dit gegeven blijkt dat de kans dat deel-geheel opgaven in gelijke mate vertegenwoordigd
zullen zijn in een toets heel klein is.

Het feit dat we bijvoorbeeld in de heranalyse van het onderzoek van Van den Berge en Bleek
slechts een deel-geheel opgave in de toets aantroffen is geenszins vreemd te noemen. Het
onderzoek is dan ook niet als irrelevant terzijde geschoven, maar juist als een belangrijk
argument gehanteerd ter ondersteuning van de hypothese dat het trainingsprogramma een
positieve invloed heeft op slechts een type opgaven, te weten de deel-geheel opgaven. Als er door
omstandigheden maar een som van dit type in de natoets voorkomt, is het voor de hand liggend
dat effecten van het trainingsprogramma niet of nauwelijks aantoonbaar zijn.

Diagrammen en semantische schemata

Wanneer een leerling een redactie-opgave gaat oplossen vormt hij een representatie van het
probleem. Deze representatie is het resultaat van een combinatie van twee soorten analyses. Een
analyse vanuit de verbale invoer van de tekst en een analyse vanuit de semantische schemata
waarover de oplosser kan beschikken. Volgens Verschaffel e.a. (1984b) is echter het bijzondere
dat de opbouw van de probleemrepresentatie niet louter en zelfs niet primair vanuit de tekst
geschiedt, maar vanuit de semantische schemata. In ons geval zijn dat de erbij-eraf, deel-geheel
en vergelijkingsschemata. Met andere woorden, er wordt een representatie geconstrueerd van
gegevens, gevraagde en de relatie(s) daartussen in termen van een erbij-eraf, deel-geheel of
vergelijkingsschemata. Morales e.a. (in Verschaffel 1985) concluderen op basis van hun onder-

-ocr page 325-

Miriam A.D. Wolters 321

zoek naar het oplossen van redactieopgaven het volgende: 'Conceptual knowledge and sche-
mata must be available for individuals to represent specific problemtypes and then select
appropriate mathematical procedures for problem solution'.

Schemata zoals ze in het voorgaande gebruikt zijn, zijn mentale producten van een persoon
waar hij al of niet over wil beschikken. Ze moeten dus niet verward worden met schema's als een
concreet aanschouwelijk of visueel product, zoals deze term tot nu toe in de nederiandstalige
hteratuur veel gebruikt werd. Om begripsverwarring te voorkomen gebruik ik in dh artikel de
term diagram in plaats van schema.

Het idee achter het trainingsprogramma destijds was: de leerlingen te stimuleren een seman-
tisch schemata te ontwikkelen door middel van een onderwijsprogramma waarin een aan-
schouwelijk model van dit schemata, het deel-geheel diagram, samen met de leerlingen opge-
bouwd werd. Een voorbeeld van een deel-geheel diagram is gegeven in fig. 2.

Figuur 2 Deel-geheel diagram

Er zijn ook diagrammen denkbaar voor een erbij-eraf schemata. Het pijlenmodel dat ontwik-
keld is door Van den Brink (in Wolters 1984/1985) zou een dergelijk diagram kunnen zijn. Voor
een voorbeeld zie fig. 3. Bij een diagram horend bij een vergelijkingsschema zou men kunnen
denken aan een diagram bestaande uit twee hjnstukken onder elkaar. Voor een voorbeeld zie
fig. 4.

- 2

Figuur 3 Pijlendiagram

Figuur 4 Vergelijkingsdiagram

-ocr page 326-

322 Notities en commentaren

In dit verband is het onderzoek van De Corte en Verschaffel (1985) vermeldenswaard. In het
onderzoek is nagegaan wat de invloed van instructie in de drie voornoemde diagrammen op het
oplossen van redactiesommen is. Het resultaat was dat de groep met instructie in de dia-
grammen twee keer zoveel vooruitgang van voor- naar natoets vertoonde als de controle groep.
Gezien het exploratieve en methodologisch onvolmaakte karakter van het onderzoek, zoals de
auteurs zelf te kennen geven, is het voorbarig hier enige definitieve conclusies aan te verbinden.

Instructie, diagrammen en semantische schemata

In de Mathematics Work Group van het Wisconsin center for Education Research wordt
onderzoek gedaan naar instructievariabelen op de oplossing van redactieopgaven. De eerste
resultaten wijzen op het feit dat leerhngen uit deze studie opmerkelijk goed presteerden op de
vergelijkingsopgaven vergeleken met leerlingen uit andere studies. Dit gegeven kan, volgens
Romberg (in Verschaffel 1985), verklaard worden uit het feit dat de leerlingen uit de eerste
studie relatief veel vergelijkingsopgaven maakten. Leerlingen worden dus blijkbaar goed in het
type opgaven dat ze veel aangeboden krijgen.

In het nederiandse rekenonderwijs zijn het in het algemeen de erbij-eraf opgaven die het meest
aan bod komen, zoals we al eerder gezien hebben. Bovendien wordt de optel- en aftrekoperatie
meestal geïntroduceerd aan de hand van situaties die tot het erbij-eraf type horen. Denk aan het
werken met blokjes of andere voorwerpen: we hebben er een aantal liggen, we schuiven er een
paar bij of nemen er een paar weg, hoeveel hebben we er nu. Kortom, de leerlingen krijgen
uitgebreid de gelegenheid het semantisch schemata te ontwikkelen dat hoort bij het erbij-eraf
type. Dit kan een reden zijn dat erbij-eraf opgaven vaak juist beantwoord worden. Een andere
reden zou kunnen zijn dat situaties die horen bij het erbij-eraf type dynamisch zijn in tegenstel-
ling tot de beide andere types. Dynamisch wil in dit geval zeggen, dat er wat gebeurt in een
wei-bepaalde volgorde waaraan niet getornd kan worden. Een voorbeeld is het knikkerspel.
Een uitgangssituatie verandert doordat er een handeling plaatsvindt. Een kind heeft bijvoor-
beeld een aantal knikkers, gaat spelen, wint of verliest een aantal knikkers en heeft tenslotte een
aantal knikkers dat verschillend is van het oorspronkelijke aantal. In deze situatie kunnen we de
aantallen (de termen) niet zomaar verwisselen. Het spel gaat in die volgorde en niet anders. Dit
is een typisch voorbeeld van een erbij-eraf situatie. Een voorbeeld van een deel-geheel situatie
bij het knikkeren is de volgende. Voordat twee kinderen tegen anderen gaan spelen besluiten ze
de knikkers bij elkaar te doen. Nu zijn de aantallen (de termen) wel verwisselbaar. Of kind A of
kind B het eerst genoemd wordt doet er immers in deze situatie niet toe. De volgorde ligt niet
vast. Stel nu dat we beide situaties in de oorspronkelijke toestand moeten herstellen. Ook dan
liggen de zaken verschillend. In de erbij-eraf situatie zijn er bijvoorbeeld 3 knikkers gewonnen.
Om deze toestand te herstellen moeten er 3 verloren worden. Het herstel van het bij elkaar doen
van de knikkers is Het geheel weer opsplitsen in de oorspronkelijke delen.

Dit is wat we bedoelen met semantische schemata. Aan erbij-eraf opgaven ligt een ander
semantisch schema ten grondslag dan aan deel-geheel opgaven, zoals we in de vorige alinea
uiteengezet hebben. Wanneer we nu via een trainingsprogramma een, maar dan ook slechts een
semantisch schemata ontwikkelen dan moeten er brokken vallen. In ons geval was het het
deel-geheel schemata waar in de onderzoekingen uitsluitend aandacht aan besteed werd, met
alle gevolgen van dien (Wolters 1984).

In een nog lopend onderzoek van Carpenter & Bebout (in Verschaffel 1985) wordt de
leerlingen gevraagd bij redactieopgaven met een indirecte vorm niet de 'canonische' (bijv. 10-3
=) maar de 'niet-canonische' (3+ . = 10 puntsom) formule te noteren. De argumentatie
hiervoor is dat de puntsom beter aansluit bij de semantische representatie die leerlingen
opbouwen bij dat type redactieopgaven. Een van de voordelen van het deel-geheel diagram
destijds vonden we het feit dat bij een indirecte vorm de leerling niet genoodzaakt was de
puntsom op te lossen (onze ervaring was dat leerlingen daar een hekel aan hadden) maar de
oplossing van het diagram kon aflezen. In fig. 2 bijvoorbeeld was het niet noodzakelijk na
invulling in het diagram de som te lezen als
2+. = 9 maar direct de uitkomst te noteren als 9—2
= 7.

-ocr page 327-

Miriam A.D. Wolters 323

Tenslotte zal ik de conclusie geformuleerd in mijn proefschrift op basis van statistische
analyses met de data weergeven: Het deel-geheel diagram, zoals dat in het experimentele
programma onderwezen is, draagt bij tot een goede oplossing van deel-geheel opgaven. Dit
geldt zowel voor derde- als vierdeklassers. Het diagram draagt niet bij tot een goede oplossing
van de vergelijkings- en erbij-eraf opgaven. In de vierde klas leidt dit zelfs tot een achterstand
ten opzichte van de contrqlegroep op beide typen opgaven (Wolters 1978, p. 111). De vraag die
opkomt bij Tavecchio e.a. in dit verband is, of resultaten die behaald zijn door derde- en
vierdeklassers wel vergeleken mogen worden met resultaten van tweedeklassers. Uit een onder-
zoek van Morales e.a. (in Verschaffel 1985) is onontkoombaar komen vast te staan dat bij
basisschoolleerlingen van alle leeftijden de semantische structuurkenmerken een beslissende
invloed uitoefenen op het oplossen van redactieopgaven. In de analyse van de derde en
vierdeklassers zijn ook opgaven met twee of meer rekenoperaties opgenomen, bij de analyse van
de tweede klassers zijn alleen de opgaven met een rekenoperatie bekeken.

Het blijft moeilijk om bestaande redactieopgaven te classificeren onder de drie genoemde
types, zoals ook Tevecchio e.a. aan de lijve ervaren hebben. Het is vrij eenvoudig om redac-
tieopgaven volgens de drie types te construeren. Eigenlijk zou daarom een replicatieonderzoek
moeten geschieden met een voor- en natoets bestaande uit de drie type redactieopgaven die
onbetwistbaar zijn. Een dergelijk onderzoek zou echter met de kennis van nu, ethisch onaan-
vaardbaar zijn. We zouden de leerlingen immers opzettelijk confronteren met maar een seman-
tisch schema, terwijl we nu weten dat voor het oplossen van redactieopgaven er tenminste drie
semantische schemata's nodig zijn.

NOTEN

1. Dit geldt voor het onderzoelc van Assink & Verloop en voor het onderzoek van Van den Berge & Bleek.
De statistische analyses met de data uit het onderzoek van Wolters staan gerapporteerd in Wolters
(1978).

2. Tavecchio e.a. onderscheiden ook een categorie genaamd puntsom. Een puntsom is echter geen
redactiesom maar een cijfersom.

3. Theoretisch gesproken zou het onderscheid in de drie semantische typen aan Van den Berge & Bleek
bekend moeten zijn. Hun scriptie kwam uit in 1979 en het proefschrift van Wolters waar voor het eerst
gesproken wordt over de drie semantische structuurtypen kwam uit in 1978.

literatuur

Carpenter T.P. & Moser J.M. (1982). The development of addition and subtraction problem solving skills.
In: T.P. Carpenter, J.M. Moser & T. Romberg (eds.). Addition and subtraction: A cognitive
perspective. Hillsdale, N.J.: Erlbaum.
De Corte E., Verschaffel L.. & De Win L. (1984b). De invloed van tekstkenmerken op dc representatie- en
oplossingsprocessen van jonge kinderen bij eenvoudige optel- en aftrekvraagstukjes.
Ped.
Tijdschr. 9.
527-538.

De Corte E., & Verschaffel L. (1985). Working with simple word problems in early mathematics instruc-
tion. In: L. Streefland (ed.) Proceedings of the ninth international conference for the psychology
of mathematics education. Noordwijkerhout 22-29 july The Netherlands.
Morales E.V., Shute V.J., & Pellegrino J.W. (in press). Developmental differences in understanding and

solving simple word problems. Cognition and Instruction.
Riley M.S., Greeno J.G., & Heller J.I. (1983). Development of children's problem-solving ability in
arithmetic. In H.P. Ginsburg (ed.). The development of mathematical thinking. N.Y.: Academic
Press.

Verschaffel L. (1984). Representatie en oplossingsprocessen van eersteklassers bij aanvankelijke redac-
tieopgaven over optellen en aftrekken. Een theoretische en methodologische bijdrage op basis van
een longitudinale, kwalitatief-psychologische studie. Niet-gepubliceerd doctoraatsproefschrift.
Leuven, België.

Verschaffel L. (1985). Recente ontwikkelingen in het amerikaans onderzoek over het (leren) oplossen van

-ocr page 328-

324 Notities en commentaren

aanvankelijke redactieopgaven. Verslag van een studiereis naar de Verenigde Staten. Rapport nr.
31 van de afdeling Didactiek en Psychopedagogiek. K.U. Leuven, België.
Wolters M. (1978). Van rekenen naar algebra. Een ontwikkelingspsychologische analyse. Proefschrift R.U.
Utrecht.

Wolters M. (1984). De functie van deel-geheel schema's in het rekenonderwijs. Een terugblik. Tijdschr. voor

Onderwijsresearch 9, 71-83.
Wolters M. (1984/1985). Die twee streepjes boven elkaar is dat een 'is'?
Willem Bartjens 4, 216-221.

Ontvangen 9-4-1986.

-ocr page 329-

Tijdschrift voor Onderwijsresearch, 11 (1986), Nr. 6, pp. 325-330.

Notities en commentaren

SCHOLEN VERSCHILLEN: BESPREKING VAN EEN INTRIGEREND
PROEFSCHRIFT OVER DE ORGANISATIE EN EFFECTIVITEIT VAN
SCHOLEN

F. van der Krogt en C. van Vilsteren

Groep Onderwijsorganisatie, Toegepaste Onderwijskunde, T.H. Twente*

2.

3.

1. Het onderzoek in vogelvlucht

Sinds de invoering van de mammoetwet gingen veel scholen voor voortgezet onderwijs samen in
scholengemeenschappen. Deze kregen tot de 80-er jaren een grootte van gemiddeld 1100-1200
leeriingen. In diezelfde periode namen ook de klachen toe over de inzet, de betrokkenheid en de
prestaties van de leerlingen. Deze werden vaak toegeschreven aan de toegenomen grootte. Om
na te gaan of deze schoolfactor naast vele andere schoolkenmerken van betekenis is voor de
effectiviteit van het onderwijs is een onderzoek gedaan (Van Marwijk Kooy, 1984) naar de
organisatiestructuur en -beleid, de leiderschapsstijl van de rector, het schoolklimaat, de school-
context (incl. grootte) cn de dagelijkse gang van zaken in 25 scholen voor mavo-havo-vwo. Het
onderzoek beoogde een antwoord te vinden op de volgende cumulatief geordende vragen:
1. Waarom slagen sommige scholen er beter in dan andere om hun leerlingen tot goede
schoolprestaties te brengen?

Zijn er scholen met goede schoolprestaties van de leerlingen die bovendien hun sociale
vorming dienen, en waarom lukt dat de ene school beter dan de andere?
Kunnen scholen leerlingen tot goede schoolprestaties brengen en hun sociale vorming
dienen en bovendien leraren en leeriingen plezier en zin laten beleven aan de school en hun
werk op school, zonder hen zwaar te belasten?
Met deze vraagstellingen is dit onderzoek te plaatsen binnen de korte traditie van het effectieve-
scholen-onderzoek. Aan het onderzoek ligt het volgende variabelen-model ten grondslag,
afgaande op passages in
het bock die daarover handelen (Isijy. p. 13/14, p. 167/168). (Het door
Van Marwijk Kooy zelf gegeven variabelen-model (p. 14) is niet in overeenstemming met wat in
de tekst is beschreven.)

onafhankelijke var.

^ (
—)

Dag. gang
van zaken

Coniext
V

j Org. + Bel.
Leidersch.

afhankelijke var.
---

examen-
resultaten

+

sociale

vorming
+

school-
beleving


Klimaat

' Adres: Postbus 217,7500 AE Enschede.

-ocr page 330-

326 Notities en commentaren

De pijlen geven de verwachte causaliteits-richting aan van de relaties tussen de variabelen.

De 25 scholen en de 18 docenten (incl. conrectoren) en 30 leerlingen per school zijn welover-
wogen en op grond van expliciete criteria en stratificaties geselecteerd.

De dataverzameling heeft voor de variabelen 'organisatie' en 'dagelijkse gang van zaken'
plaats gevonden door middel van open interviews met alle docenten en leerlingen (N = 455 c.q.
699). Bovendien is daarvoor gebruik gemaakt van andere informanten, archiefstukken en
informele observaties door de onderzoekers. Voor de variabelen 'schoolklimaat', 'leiderschap'
en 'schoolbeleving' beantwoordden de respondenten schriftelijk 5 punts-schaalvragen. Voor
het bepalen van de leereffectiviteit van een school werd gebruik gemaakt van percentage
geslaagden, gemiddeld schoolcijfer voor Engels en Wiskunde I en de gemiddelde leeftijd van de
geslaagde leerlingen. De individuele leerling- en leraargegevens zijn, alvorens de analyse uit te
kunnen voeren, per school geaggregeerd.

De hoofdvariabelen zijn gespecificeerd in ruim 150 te meten variabelen. De operationalisatie
van deze variabelen is in het boek uitgebreid weergegeven. De keuzes die eraan ten grondslag
hebben gelegen zijn echter onvoldoende verantwoord. Sommige operationaliseringen lijken
daardoor erg beperkt, eenzijdig, tweeslachtig of complex, zonder dat onderzoekster een discus-
sie met haar argumentatie mogelijk maakt. Een controle op de kwaliteit van de operationalise-
ring heeft nauwelijks plaatsgevonden (en was, gezien de veelheid, een kolossaal karwei
geworden).

Het is niet eenvoudig greep te krijgen op de resultaten van deze studie. Om de lezer toch een
indruk te geven, presenteren we hier enige bevindingen zoals door Van Marwijk Kooy zeifin een
samenvatting zijn weergegeven.

De wijze waarop organisatorische processen de effecten beïnvloeden houdt verband met de
contextfactoren grootte van een school, denominatie en achtergrond van de leerlingenbevol-
king (vgl. p. 154). Gedifferentieerd naar de drie effectiviteitssoorten (leerresultaten, sociale
vorming en schoolbeleving van leerlingen en leraren) springen de volgende deelbevindingen
eruit.

Zo bhjkt dat een actieve sectieleidersvergadering en een actief begeleidings- en bijscholings-
beleid (organisatie) samenhangt met verbetering van de examenresultaten in grote-stadscholen
met relatief veel handarbeiderskinderen (context). Scholen zonder die organisatie gingen er
eerder op achteruit.

De verantwoordelijkheid van leerlingen voor niet strikt schoolse zaken (sociale vorming)
hangt veel meer samen met de schoolgrootte (context) dan met gerichte pogingen leerlingen
meer verantwoordelijkheid te geven (beleid). Op de zeer grote scholen (1350 lln.) (context)
hebben de leraren en leerlingen ongeacht organisatie en beleid de minste dienstverlenende tijd
voor elkaar en deze scholen worden door de leerlingen het minst gewaardeerd. In de andere
(lagere) grootte-categorieën worden horizontaal gestructureerde scholen meer gewaardeerd
door de leerlingen.

Dezelfde gedifferentieerde organisatie-context-contingentie geldt ook voor de schoolbele-
ving van de docenten.

Openbare scholen hebben de laagste waarderingsscore van leraren, ongeacht stad of platte-
land.

2. Onderzoeksvraagstellingen - Onderzoeksresultaten

In het boek van Van Marwijk Kooy is de relatie tussen de onderzoeksvraagstellingen en de
onderzoeksresultaten niet helder. In de weergave van de onderzoeksresultaten maakt zij een
onderscheid in (a) de beantwoording van de onderzoeksvragen (p. 141 -144) en (b) dc exploratie
van de veronderstelde verbanden in het onderzoek-variabelen-model (p. 144-159). Daarbij
wordt gebruik gemaakt van twee (niet als zodanig door V.M.K.) onderscheiden-analysewijzen;
resp. een soort typologie-analyse in de vorm van een vergelijkende analyse tussen scholen en een
variabelen-analyse met behulp van enkelvoudige correlaties en van kruistabellen. Een groot

-ocr page 331-

F. van der Krogt en C. van Vilsteren 327

deel van het boek behandelt de variabelen-analyse, door V.M.K. zelf verwarrend gepresenteerd
als 'het vergelijkende onderzoek' (p. 11).

Omdat de onderzoekster zelf geen geëxpliciteerde relatie legt tussen de onderzoeksvragen en
het (causale) variabelen-model is het relatieve belang van de uitkomsten van beide analyse-
wegen niet duidelijk. De schrijfster versterkt deze onduidelijkheid door de vergelijkende analyse
af te sluiten met een samenvattende formulering, die in hoge mate gebaseerd moet zijn op
correlationele analyse-gegevens (p. 144 bovenaan).

Dit laat overigens onverlet dat de twee analyse-wijzen elk voor zich betekenisvolle resultaten
zouden kunnen opleveren. Bovendien maakt V.M.K. een interessant uitstapje naar de modellen
van E. Marx.

2.1. De correlationele analyse.

Aan de correlationele analyse besteedt V.M.K. overzichtelijk geordend en uitgebreid aandacht.
De studie exploreert een veelheid van relaties tussen schoolvariabelen en - daar ging het om -
tussen schoolvariabelen en effecten in de vorm van leerresultaten, sociale vorming en schoolbe-
leving. Een ernstige moeilijkheid is echter dat deze correlaties vaak lastig te interpreteren zijn.
We noemen hier drie verschillend geaarde oorzaken voor dit interpretatieprobleem.

a. De variabelen worden gecorreleerd vanuit té eenvoudige modellen, waardoor bepaalde
conclusies een pertinenter karakter krijgen dan - na intensievere analyse - gewettigd is. Een
voorbeeld; niet willekeurig maar een dat in de analyses, conclusies en aanbevelingen
regelmatig terugkeert. De correlatie tussen de examenresultaten en de activiteit van de
sectieleidersvergadering is laag, nl. 0.05. De verbetering van de examenresultaten in de loop
van de jaren correleert echter wel betrekkelijk hoog met de activiteit van de sectieleidersver-
gadering nl. .62 (blz. 217). Van Marwijk Kooy verklaart deze verschillende correlaties door
er op te wijzen dat scholen die eerst slechte examenresultaten behaalden een actief beleid
hebben gevoerd (hoe deze uiterst interessante gegevens verzameld zijn blijft duister) ten
aanzien van leerlingbegeleiding en bijscholing (zie blz. 145, 155 en blz. 164) waardoor de
prestaties zouden zijn verbeterd. Het merkwaardige is evenwel dat de feitelijke deskun-
digheidsontwikkeling (BIJSCHOL) geen noemenswaardige correlatie vertoont met de
schoolresultaten (resp.. 12 en -0.05, blz. 217) en dat de correlatie tiissen de activiteit van de
sectieleidersvergadering en de feitelijke deskundigheidsontwikkeling evenmin hoog is, nl.
.21 (blz. 215).

b. Dc in bovenstaand voorbeeld opgenomen variabele BIJSCHOL maakt deel uit van het
variabelencluster 'Dagelijkse Gang van Zaken'. Deze hoofdvariabele correleert zeer mager-
tjes met de effectvariabelen. Men zou anders verwachten; immers, deze betrekkelijk unieke
en interessante variabele is, in tegenstelling tot de andere hoofdvariabelen, weloverwogen en
onder referentie naar relevante onderzoeken gespecificeerd (vgl. p. 20 t/m 25). Dc gebruikte
referenties betreffen in hoofdzaak onderzoeken die schoolkenmerken exploreerden t.a.v.
hun invloed op leerlingeffecten (leerresultaten). De onderzoekster doet zelf weinig met deze
discrepantie, ondanks het feit dat ze dc 'Dagelijkse Gang van Zaken' als onafhankelijke
variabele zeer belangwekkend vindt.

c. De interpretatie van gevonden verbanden wordt onzeker, omdat men de grip op het feitelijk
gehanteerde referentiekader van het onderzoek kwijt raakt. Dat wordt er niet beter op, als in
de samenvatting van de (correlationele analyse-)uitkomsten (p. 154 e.v.) de relaties tussen de
modelvariabelen onverwacht worden teruggebracht tot context en organisatie voorzover
deze in onderlinge relatie bijdragen aan verschillen in effecten bij leerlingen en docenten.
(Overigens verdwijnt ook het klimaat uit het blikveld, hoewel nogal wat klimaatvariabelen
relatief behoorlijk correleren meteffectvariabelen, zie tabel p. 125.) Een expliciete argumen-
tatie voor deze reductie ontbreekt in het boek. Overigens zijn binnen deze reductie de
belangrijke bevindingen, zoals weergegeven in de eerste paragraaf, op zich informatief. Mis-
schien was het zinvoller geweest op voorhand een dergelijke beperking aan te brengen.

-ocr page 332-

328 Notities en commentaren

2.2. De vergelijkende analyse

In liet zevende lioofdstuk worden de drie centrale onderzoeksvragen beantwoord. Hier wordt
verrassenderwijs een nieuw soort analyse gebruikt: een vergelijking van de kenmerken van
goede en slechte scholen, terwijl in de voorafgaande hoofdstukken allerlei correlaties tussen
prestaties en schoolkenmerken gepresenteerd zijn.

Het antwoord op de eerste vraag is ronduit teleurstellend: er worden geen kenmerken ge-
noemd die discrimineren tussen succesvolle en minder succesvolle scholen. Ze doet wel ver-
woede pogingen om de betekenis van de actieve sectieleidersvergadering aan te tonen, maar als
we zien dat van de 13 effectieve scholen er 7 een actieve sectieleidersvergadering hebben en de 12
minder effectieve scholen er 6 ook zo'n actieve sectieleidersvergadering bezitten, dan kunnen we
niet anders concluderen dan dat er in deze analyse geen schoolkenmerken gevonden zijn die de
verschillen tussen effectieve en minder effectieve scholen kunnen verklaren.

Voor de beantwoording van de tweede vraag vindt ze drie scholen die succesvol zijn en tevens
leerlingen veel verantwoordelijkheid laten dragen. Een systematische vergelijking met de
andere scholen wordt niet gepresenteerd, maar de drie scholen blijken alle te klein te zijn.

Dan resteert de derde vraag. Strikt genomen wordt deze bevestigend beantwoord: er blijkt
één school die én succesvol is, én zich met sociale vorming bezighoudt én door leerlingen en
leraren hoog gewaardeerd wordt. Boeiender dan de constatering dat er een school is die tot dit
alles tegelijkertijd in staat blijkt, is de beschrijving van een aantal kenmerken van de school.

2.3. In hoeverre toetst dit onderzoek de Marxse modellen?

Bij de interpretatie van de talloze correlaties spelen de modellen van Ernst Marx een belangrijke
rol (bijvoorbeeld p. 54, 66, 120). Op verschillende plaatsen worden ook conclusies getrokken
over de waarde van de modellen en de daaraan ten grondslag liggende redeneringen (zie
bijvoorbeeld p. 155, 144 e.v., 122, 66). We hebben de indruk dat dc gepresenteerde analyses
onvoldoende grond bieden voor de geformuleerde conclusies. We zullen dit illustreren aan de
hand van twee voorbeelden.

'... zijn (Marx') centrale hypothese dat de relatie tussen onderwijsbeleid en schoolorganisatie
geen willekeurige is, wordt hier duidelijk ondersteund' (p. 66). Waarop steunt deze bewering?

In de tekst op blz. 55 en 58 worden enige redeneringen herhaald die Marx in zijn modellen
gebruikt en laat V.M.K. zien dat ook variabelen uit haar onderzoek daarnaar refereren. Het
blijft echter onduicjelijk hoe de hoogte van de correlaties een bevestiging van de modellenreeks
oplevert.

Het schema 3.4c bevat een groot aantal correlaties tussen organisatiestructuur variabelen
enerzijds en het 'beleid' van een school anderzijds, waarop Van Marwijk Kooy zich baseert voor
de onderbouwing van de samenhang tussen organisatiestructuur en beleid. Een nadere
beschouwing van de beleidsonderwerpen leert dat slechts twee onderwerpen betrekking hebben
op het onderwijs, nl. GEMBRUG en BEGBEL; de overige hebben weinig met onderwijsbeleid
te maken. Ook bij GEMBRUG en BEGBEL is dat maar zeer ten dele het geval. De operationa-
lisering van deze begrippen (p. 197 en 198) laat nl. zien dat het hier zeer overwegend over
organisatorische onderwerpen gaat. Een smalle basis om een verband tussen schoolorganisatie
en onderwijsbeleid uit af te leiden.

Het tweede voorbeeld betreft de conclusie 'De collegiale structuur gaat inderdaad gepaard met
meer vernieuwing en een stimulerende sfeer; de meer gereglementeerde staf-lijn-structuur leent
zich beter tot de puntjes op de i (en de t's achter de d's)' (p. 120). Deze conclusie wordt gebaseerd
op een aantal correlatief tussen variabelen, die als indicatie worden gebruikt voor een collegiale
structuur resp. lijn-staf structuur. Welke variabelen dat precies zijn wordt echter niet duidelijk.

In hoeverre kan deze studie een bevestiging voor de theorie van Ernst Marx opleveren, zoals
Van Marwijk Kooy ons wil doen geloven. Biedt de gehanteerde onderzoeksopzet en de analyse
daartoe wel de mogelijkheden?

-ocr page 333-

F. van der Krogt en C. van Vilsteren 329

De analyses zijn vrijwel uitsluitend gebaseerd op enkelvoudige correlaties tussen variabelen.
In zoverre kan dit materiaal een empirische onderbouwing van de modellen bieden. De door
Marx veronderstelde samenhangen tussen organisatiestructuurkenmerken van scholen (bij-
voorbeeld de structuur van de schoolleiding en de structuur van de vaksecties) kunnen (beperkt)
empirisch geverifieerd worden. Eveneens kan dat gebeuren voor samenhangen tussen organisa-
tiestructuur en onderwijskundige opbouw van scholen.

Er worden echter ook verdergaande uitspraken gedaan. Dat gebeurt met name op basis van
verbanden met de activiteiten van de sectieleidersvergadering. Dit orgaan beschouwt zij als een
indicatie voor het collegiale model. Een minstens zo belangrijk structuurkenmerk voor dit
model vormt bijvoorbeeld de aanwezigheid van actieve vaksecties. De correlatie tussen beide
structuurkenmerken is .58 (p. 215). Ook de correlatie met een ander belangrijk kenmerk van een
collegiale oranisatie - de gezamenlijke activiteiten van de schoolleiding - is betrekkehjk laag, nl.
32 (p. 212). Het is dus discutabel om op basis van het ene structuurkenmerk te besluiten tot het
aanwezig zijn van een model en daarop de interpretatie van de gegevens te baseren.

2.4. Bron voor meerdere analyses en hypotheses

Een neveneffect van een onderzoek met zoveel variabelen is, dat opvallende relaties tussen
variabelen kunnen oplichten, los van de onderzoeksvragen. Een opvallende uitkomst van het
onderzoek is de relatief hoge
negatieve correlatie tussen 'frequentie van de sectieleidersvergade-
ring' en 'activiteit van de lerarenraad'. Bovendien bhjkt dat deze beide organisatievariabelen
tegengesteld correleren met diverse andere variabelen. Dat houdt in dat 'secticleidcrsvergade-
ring' en 'lerarenraad' op enigerlei wijze tenderen tot wederzijdse uitsluiting van activiteit om tot
tegengestelde verbanden met diverse andere context-, beleids-, klimaat-, functionerings- en
effectvariabelen. Zijn hier theoretisch te onderbouwen verklaringen voor? Bijvoorbeeld vanuit
de professioneel-bureaucratische dubbelheid van schoolorganisaties? Of vanuit de spanning
professionaliteit vs. democratisering?

Van dergelijke opvallende nevenbevindingen zijn er zeker meer te exploreren in dit rijke
data-materiaal.

3. Schoolorganisatie-onderzoek: hoe verder?

Deze studie levert heel wat aanknopingspunten voor een discussie over de wegen die ingeslagen
kunnen worden bij schoolorganisatie-onderzoek. Vragen als het theoretisch funderen van de
probleemstelling, de noodzaak tot het beperken van de onderzoeksvragen laten we hier rusten.
Drie thema's stellen we aan de orde: het werken aan duidelijke concepten en operationalise-
ringen van schoolorganisatievariabelen, behalve aan de organisatie van de beleidsvorming ook
de organisatie van uitvoeringsprocessen in de vraagstelling betrekken en als derde de onder-
zoeksstrategie.

3.1. Concepten en operationaliseringen

Deze studie heeft erg duidelijk gemaakt dat scholen in vele opzichten uiteenlopende kenmerken
te zien geven. Dat er verschillen in leerlingenpopulaties, in omvang, denominatie en in resulta-
ten bestaan wisten we al langer. Nieuw is echter dat nu ook op grotere schaal empirisch is
vastgesteld dat er belangwekkende verschillen tussen scholen bestaan in organisatiestructuur en
-cultuur en dat een aantal van deze kenmerken correleren met de resultaten.

Er blijkt ook dat de concepten die voor organisatiestructuur, cultuur, leiderschap, beleid,
dagelijkse gang van zaken e.d. worden gehanteerd, allerminst duidelijk zijn. Waarom wordt,
bijvoorbeeld, de frequentie van dc sectieleidersvergaderingen tot de 'organisatie' gerekend en
die van de volledige secties tot de 'dagelijkse gang van zaken'? Wat is het verschil tussen
'schoolklimaat' en 'oordelen over de organisatie'? Door aansluiting te zoeken bij meer organi-
satorisch theoretisch verankerde begrippen is hier zeker vooruitgang te boeken. Gelukkig
blijken bijvoorbeeld de denkbeelden van Mintzberg ook bij onderwijskundigen weerklank te
vinden. Dit zal de communicatie tussen onderzoekers bevorderen.

-ocr page 334-

330 Notities en commentaren

Een nog grotere behoefte wordt manifest bij het bekijken van de operationaHseringen van de
variabelen. In dit onderzoek, gestart in 1977, is vooral gezocht naar concrete verschijnselen die
in scholen zijn waar te nemen, die soms betrekkelijk willekeurig zijn gecombineerd en van ruim
bemeten labels voorzien. Binnen het organisatie-onderzoek ontbreken goede, valide en be-
trouwbare, instrumenten.

3.2. Organisatie rondom klassen en leerlingen

Het is een goede gedachte geweest om variabelen over de dagelijkse gang van zaken op te
nemen. Wil men nl. inzicht hebben in de manier waarop organisatiestructuren leiden tot
bepaalde soorten resultaten, dan dient de 'black box' opengebroken te worden. 'De term
'dagelijkse gang van zaken' is gekozen om aan te geven dat het gaat niet om beleid en
organisadestructuur, maar om de dingen die leraren en leerlingen in de praktijk doen, en wat er
op het uitvoerende vlak gebeurt' (p. 22).

Ook vanuit organisatietheoretische optiek is er veel voor te zeggen om aandacht te schenken
aan de organisatie van de uitvoerende werkzaamheden in een school. Het zwaartepunt van de
professionele bureaucratie ligt immers in de uitvoering; merkwaardigerwijs is er over de
opbouw van en de gang van zaken in de zgn. 'operating core' weinig nagedacht. Er liggen vragen
genoeg: hoe vindt de informatie-uitwisseling over de leedingen plaats, wie geeft er leiding aan de
uitvoering, hoe vindt de besluitvorming over de bevordering van leerlingen plaats, hoe verloopt
de begeleiding van de leerlingen enz. Algemener: hoe ziet de organisatie rondom leedingen en
klassen eruit.

In het onderzoek zijn hierover enkele vragen meegenomen; die met betrekking tot de
organisatie van de leerlingbegeleiding correleren het hoogste met de schoolprestaties. Een
hoopvol begin van onderzoek naar de organisatie van het primaire proces in scholen.

3.3. De onderzoeksstrategie

De discussies over de onderzoeksstrategie bij organisatie-onderzoek concentreren zich momen-
teel vooral rond vragen over het aantal onderzoekseenheden (casestudies of grote aantallen
onderzoekseenheden) en de aard van de gegevens: kwalitatief of kwantitatief onderzoek. Dc
trend is naar combinaties van kwalitatieve casestudies in combinatie met grootschaliger kwanti-
tadef onderzoek.

Uit dit onderzoek doemen twee andere keuze-momenten op, nl. correlationeel onderzoek of
typologisch onderzoek en als tweede het onderzoek van processen versus het vergelijken van
momentane situaties.

Zoals gezegd wordt er in de analyse op twee gedachten gehinkt: een correlationele analyse,
waarin de talrijke variabelen via enkelvoudige correlaties met elkaar in verband worden
gebracht, en een vergelijkende analyse tussen scholen (m.n. in hoofdstuk 7). De vraagstellingen
en de overweldigende hoeveelheid variabelen nodigen meer uit tot het ontwikkelen van typolo-
gieën van scholen. In het recent schooleffectiviteitsonderzoek van Meynen blijkt de laatste
strategie vruchtbaarder dan de correlationele.

Een zeer belangijke bevinding gaat over de veranderingen van examenresultaten in de loop
van de tijd. De resultaten in 1975 vertonen voor diverse scholen opmerkelijke verschillen met
die in 1979. De interpretatie hiervan wordt gezocht in de reactie van scholen op slechte
examenresultaten; het beleid ten aanzien van leerlingbegeleiding en bijscholing van leraren
verandert. Met name in scholen met een actieve sectieleidersvergadering zou dat het geval zijn.
Een interessante gedachte, die echter niet zo eenvoudig met correlationele verbanden te staven
is. Dit roept de vraag op in hoeverre longitudinaal onderzoek vruchtbaar zou kunnen zijn voor
het inzicht in de betekenis van schoolkenmerken voor schoolprestaties.

Ontvangen 15-11-1985

-ocr page 335-

Tijdschrift voor Onderwijsresearch, 11 (1986), Nr. 6, p. 331-332.
Mededelingen

BEROEPSBEKWAAMHEIDS-REGISTRATIE VOOR PEDAGOGEN,
ONDERWIJSKUNDIGEN EN ANDRAGOLOGEN
OPENING REGISTER : 1 SEPTEMBER 1986

De NVO, de Nederlandse beroepsvereniging van pedagogen, onderwijskundigen en andrago-
logen, is per 1 september jl. overgegaan tot het instellen van een Beroepsbekwaamheids-
registratie (BBR).

Deze registratie, gericht op de kwaliteitsbewaking van de beroepsuitoefening binnen de
verschillende differentiaties in de NVO (Klinische Pedagogiek, Orthopedagogiek, Onderwijs-
kunde, Andragologie), is van belang enerzijds als waarborg voor cliënten, anderzijds voor de
identiteit van de beroepsgroep.

De BBR vindt plaats per differentiatie. In aanmerking komen diegenen, die gewoon lid zijn
van de NVO.

Universitair afgestudeerden volgens de nieuwe le fase dienen, alvorens opgenomen te kunnen
worden in het register, enige tijd onder supervisie werkzaam te zijn. Ten behoeve van degenen,
die een universitaire opleiding vóór de invoering van de 2-fasen structuur gevolgd hebben, is een
tijdelijke overgangsregeling voor opname in het register vastgesteld.

Voor nadere informatie omtrent de BBR kunt u schriftelijk contact opnemen met het Bureau
van de NVO, Korte Elisabethstraat 11,3511 JG Utrecht.

-ocr page 336-

332 Mededelingen

DE LA COURT PRIJZEN VOOR ONBEZOLDIGD ONDERZOEK

De Minister van Onderwijs en Wetenschappen heeft besloten jaarlijks een aantal kwaliteitsprij-
zen te doen toekomen voor onbezoldigd onderzoek. De prijzen zijn bedoeld ter stimulering en
ter waardering van het onbezoldigd onderzoek op het terrein van de alfa- en gammaweten-
schappen. De jurering is opgedragen aan de Koninklijke Nederlandse Akademie van Weten-
schappen.

Er zijn twee prijzen van elk ƒ 25.000,- en vier aanmoedigingsprijzen voor een bedrag van elk
ƒ 10.000,-. De prijzen zullen gelijkelijk worden verdeeld over de alfawetenschappen en gammawe-
tenschappen. Aan de twee grote prijzen van ƒ 25.000,- zijn de namen verbonden van de
gebroeders de la Court: de Johan de la Court prijs voor de alfawetenschappen en de Pieter de la
Court prijs voor de gammawetenschappen. Behalve het aan de prijs verbonden geldbedrag
ontvangt de laureaat bij de grote prijs een zilveren penning en bij de aanmoedigingsprijs een
bronzen penning.

Voor de prijzen komen in aanmerking onderzoekers die voor het door hem verrichte
onderzoek geen bezoldiging hebben ontvangen. Niet in aanmerking komen de onderzoekpres-
taties op hun eigen gebied van hoogleraren en andere beroepsonderzoekers die met pensioen of
met VUT zijn gegaan.

De twee grote prijzen zullen worden toegekend voor een groot oeuvre, een levenswerk of een
uitzonderiijke wetenschappelijke prestatie. Voor de aanmoedigingsprijzen komen in aanmer-
king onderzoekprestaties die zijn neergelegd in een wetenschappelijk boek, artikel of daarmee
gelijk te stellen verslag van onderzoek, dat niet langer dan vijfjaar vóór het sluiten van de
inzendingstermijn is verschenen. Een dergelijke tijdslimiet is vanzelfsprekend op de grote
prijzen niet van toepassing.

De ingezonden geschriften zullen worden beoordeeld door een commissie bestaande uit
leden van de Afdeling Letterkunde van de Koninklijke Nederlandse Akademie van Weten-
schappen.

Degenen die menen voor een van bovengenoemde prijzen in aanmerking te kunnen komen
worden verzocht hun bijdrage vóór 1 september 1987 te zenden naar de Koninklijke Neder-
landse Akademie van Wetenschappen, Postbus I9I21,1000 GC, Amsterdam.